(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024180167
(43)【公開日】2024-12-26
(54)【発明の名称】情報処理システム
(51)【国際特許分類】
G09B 21/00 20060101AFI20241219BHJP
G06Q 50/10 20120101ALI20241219BHJP
【FI】
G09B21/00 F
G06Q50/10
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023099649
(22)【出願日】2023-06-16
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.SMALLTALK
(71)【出願人】
【識別番号】591280485
【氏名又は名称】ソフトバンクグループ株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】門田 なぎさ
【テーマコード(参考)】
5L049
5L050
【Fターム(参考)】
5L049CC11
5L050CC11
(57)【要約】
【課題】聴覚障害者に対して手話生成サービスを提供可能な情報処理システムを提供することを目的とする。
【解決手段】サーバ290は、手話動画を生成する対象の対象データを取得する取得部292と、入力情報に応じた画像を生成する画像生成モデルに、前記取得部292が取得した対象データと、手話動画生成指示とを入力して手話動画を生成する特定処理を行う処理部294と、特定処理の結果を出力する出力部296と、を含む。
【選択図】
図16
【特許請求の範囲】
【請求項1】
手話動画を生成する対象の対象データを取得する取得部と、
入力情報に応じた画像を生成する画像生成モデルに、前記取得部が取得した前記対象データと、手話動画生成指示とを入力して手話動画を生成する特定処理を行う処理部と、
前記特定処理の結果を出力する出力部と、
を備えた情報処理システム。
【請求項2】
前記取得部は、前記対象データとして動画像データを取得し、
前記処理部は、前記取得部の取得結果に基づいて、前記動画像データに含まれる発話音声データまたはテキストデータを抽出し、前記画像生成モデルに、抽出した前記発話音声データまたはテキストデータと、手話動画生成指示とを前記入力情報として入力して手話動画を生成する特定処理を行う請求項1に記載の情報処理システム。
【請求項3】
前記取得部は、前記対象データとして動画像データを取得し、
前記出力部は、前記特定処理によって生成された前記手話動画を元の動画に挿入して出力する請求項1に記載の情報処理システム。
【請求項4】
前記特定処理は、予め指定したアバター画像で手話動画を生成する請求項1に記載の情報処理システム。
【請求項5】
手話動画を生成する対象の対象データとして動画像データを取得する取得部と、
入力情報に応じた文章を生成する文章生成モデル、及び入力情報に応じた画像を生成する画像生成モデルを含み、前記取得部が取得した前記動画像データと、前記動画像データの発話音声抽出指示とを前記文章生成モデルに入力して前記動画像データ中の発話音声を表す発話音声テキストを前記文章として生成し、生成した前記文章と、手話動画生成指示とを前記画像生成モデルに入力して手話動画を生成する特定処理を行う処理部と、
前記特定処理の結果を出力する出力部と、
を備えた情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システムに関する。
【背景技術】
【0002】
特許文献1には、ユーザの状態に対してロボットの適切な行動を決定する技術が開示されている。特許文献1の従来技術は、ロボットが特定の行動を実行したときのユーザの反応を認識し、認識したユーザの反応に対するロボットの行動を決定できなかった場合、認識したユーザの状態に適した行動に関する情報をサーバから受信することで、ロボットの行動を更新する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
テキストを入力することにより、テキストを読み上げるサービスが提案されているが、聴覚障害者に対してのサービスが望まれる。例えば、インターネット等で配信される動画コンテンツ等の動画像や、発話音声、テキストなどの各種情報を手話に変換する手話生成サービスが望まれる。
【0005】
本発明は、上記事実を考慮して成されたもので、聴覚障害者に対して手話生成サービスを提供可能な情報処理システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様によれば、情報処理システムが提供される。情報処理システムは、手話動画を生成する対象の対象データを取得する取得部と、入力情報に応じた画像を生成する画像生成モデルに、前記取得部が取得した前記対象データと、手話動画生成指示とを入力して手話動画を生成する特定処理を行う処理部と、前記特定処理の結果を出力する出力部と、を備える。
【0007】
取得部は、前記対象データとして動画像データを取得し、処理部は、前記取得部の取得結果に基づいて、前記動画像データに含まれる発話音声データまたはテキストデータを抽出し、前記画像生成モデルに、抽出した前記発話音声データまたはテキストデータと、手話動画生成指示とを前記入力情報として入力して手話動画を生成する特定処理を行ってもよい。
【0008】
取得部は、前記対象データとして動画像データを取得し、出力部は、前記特定処理によって生成された前記手話動画を元の動画に挿入して出力してもよい。
【0009】
特定処理は、予め指定したアバター画像で手話動画を生成してもよい。
【0010】
第2の形態において、情報処理システムが提供される。情報処理システムは、手話動画を生成する対象の対象データとして動画像データを取得する取得部と、入力情報に応じた文章を生成する文章生成モデル、及び入力情報に応じた画像を生成する画像生成モデルを含み、前記取得部が取得した前記動画像データと、前記動画像データの発話音声抽出指示とを前記文章生成モデルに入力して前記動画像データ中の発話音声を表す発話音声テキストを前記文章として生成し、生成した前記文章と、手話動画生成指示とを前記画像生成モデルに入力して手話動画を生成する特定処理を行う処理部と、前記特定処理の結果を出力する出力部と、を備える。
【0011】
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
【図面の簡単な説明】
【0012】
【
図1】第1参考形態に係るシステム5の一例を概略的に示す。
【
図2】第1参考形態に係るロボット100の機能構成を概略的に示す。
【
図3】第1参考形態に係るロボット100による収集処理の動作フローの一例を概略的に示す。
【
図4A】第1参考形態に係るロボット100による応答処理の動作フローの一例を概略的に示す。
【
図4B】第1参考形態に係るロボット100による自律的処理の動作フローの一例を概略的に示す。
【
図5】複数の感情がマッピングされる感情マップ400を示す。
【
図6】複数の感情がマッピングされる感情マップ900を示す。
【
図7】(A)第2参考形態に係るぬいぐるみ100Nの外観図、(B)ぬいぐるみ100Nの内部構造図である。
【
図8】第2参考形態に係るぬいぐるみ100Nの背面正面図である。
【
図9】第2参考形態に係るぬいぐるみ100Nの機能構成を概略的に示す。
【
図10】第3参考形態に係るエージェントシステム500の機能構成を概略的に示す。
【
図11】エージェントシステムの動作の一例を示す。
【
図12】エージェントシステムの動作の一例を示す。
【
図13】第4参考形態に係るスマート眼鏡720で用いるエージェントシステム700の機能構成を概略的に示す。
【
図14】スマート眼鏡によるエージェントシステムの利用態様の一例を示す。
【
図16】実施形態に係るサーバ290の特定処理部の機能構成を概略的に示す。
【
図17】処理部294による特定処理の第1例を示す。
【
図18】処理部294による特定処理の第2例を示す。
【
図19】実施形態に係るサーバ290による特定処理の動作フローの一例を概略的に示す。
【
図20】処理部294による特定処理の第3例を示す。
【
図21】コンピュータ1200のハードウェア構成の一例を概略的に示す。
【発明を実施するための形態】
【0013】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0014】
なお、実施形態を説明する前に、実施形態を適用可能な第1参考形態~第4参考形態について説明する。
【0015】
[第1参考形態]
【0016】
図1は、本参考形態に係るシステム5の一例を概略的に示す。システム5は、ロボット100、ロボット101、ロボット102、及びサーバ300を備える。ユーザ10a、ユーザ10b、ユーザ10c、及びユーザ10dは、ロボット100のユーザである。ユーザ11a、ユーザ11b及びユーザ11cは、ロボット101のユーザである。ユーザ12a及びユーザ12bは、ロボット102のユーザである。なお、本参考形態の説明において、ユーザ10a、ユーザ10b、ユーザ10c、及びユーザ10dを、ユーザ10と総称する場合がある。また、ユーザ11a、ユーザ11b及びユーザ11cを、ユーザ11と総称する場合がある。また、ユーザ12a及びユーザ12bを、ユーザ12と総称する場合がある。ロボット101及びロボット102は、ロボット100と略同一の機能を有する。そのため、ロボット100の機能を主として取り上げてシステム5を説明する。
【0017】
ロボット100は、ユーザ10と会話を行ったり、ユーザ10に映像を提供したりする。このとき、ロボット100は、通信網20を介して通信可能なサーバ300等と連携して、ユーザ10との会話や、ユーザ10への映像等の提供を行う。例えば、ロボット100は、自身で適切な会話を学習するだけでなく、サーバ300と連携して、ユーザ10とより適切に会話を進められるように学習を行う。また、ロボット100は、撮影したユーザ10の映像データ等をサーバ300に記録させ、必要に応じて映像データ等をサーバ300に要求して、ユーザ10に提供する。
【0018】
また、ロボット100は、自身の感情の種類を表す感情値を持つ。例えば、ロボット100は、「喜」、「怒」、「哀」、「楽」、「快」、「不快」、「安心」、「不安」、「悲しみ」、「興奮」、「心配」、「安堵」、「充実感」、「虚無感」及び「普通」のそれぞれの感情の強さを表す感情値を持つ。ロボット100は、例えば興奮の感情値が大きい状態でユーザ10と会話するときは、早いスピードで音声を発する。このように、ロボット100は、自己の感情を行動で表現することができる。
【0019】
また、ロボット100は、AI(Artificial Intelligence)を用いた文章生成モデルと感情エンジンをマッチングさせることで、ユーザ10の感情に対応するロボット100の行動を決定するように構成してよい。具体的には、ロボット100は、ユーザ10の行動を認識して、当該ユーザの行動に対するユーザ10の感情を判定し、判定した感情に対応するロボット100の行動を決定するように構成してよい。
【0020】
より具体的には、ロボット100は、ユーザ10の行動を認識した場合、予め設定された文章生成モデルを用いて、当該ユーザ10の行動に対してロボット100がとるべき行動内容を自動で生成する。文章生成モデルは、文字による自動対話処理のためのアルゴリズム及び演算と解釈してよい。文章生成モデルは、例えば特開2018-081444号公報やChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)に開示される通り公知であるため、その詳細な説明を省略する。このような、文章生成モデルは、大規模言語モデル(LLM:Large Language Model)により構成されている。
【0021】
以上、本参考形態は、大規模言語モデルと感情エンジンとを組み合わせることにより、ユーザ10やロボット100の感情と、様々な言語情報とをロボット100の行動に反映させるということができる。つまり、本参考形態によれば、文章生成モデルと感情エンジンとを組み合わせることにより、相乗効果を得ることができる。
【0022】
また、ロボット100は、ユーザ10の行動を認識する機能を有する。ロボット100は、カメラ機能で取得したユーザ10の顔画像や、マイク機能で取得したユーザ10の音声を解析することによって、ユーザ10の行動を認識する。ロボット100は、認識したユーザ10の行動等に基づいて、ロボット100が実行する行動を決定する。
【0023】
ロボット100は、行動決定モデルの一例として、ユーザ10の感情、ロボット100の感情、及びユーザ10の行動に基づいてロボット100が実行する行動を定めたルールを記憶しており、ルールに従って各種の行動を行う。
【0024】
具体的には、ロボット100には、ユーザ10の感情、ロボット100の感情、及びユーザ10の行動に基づいてロボット100の行動を決定するための反応ルールを、行動決定モデルの一例として有している。反応ルールには、例えば、ユーザ10の行動が「笑う」である場合に対して、「笑う」という行動が、ロボット100の行動として定められている。また、反応ルールには、ユーザ10の行動が「怒る」である場合に対して、「謝る」という行動が、ロボット100の行動として定められている。また、反応ルールには、ユーザ10の行動が「質問する」である場合に対して、「回答する」という行動が、ロボット100の行動として定められている。反応ルールには、ユーザ10の行動が「悲しむ」である場合に対して、「声をかける」という行動が、ロボット100の行動として定められている。
【0025】
ロボット100は、反応ルールに基づいて、ユーザ10の行動が「怒る」であると認識した場合、反応ルールで定められた「謝る」という行動を、ロボット100が実行する行動として選択する。例えば、ロボット100は、「謝る」という行動を選択した場合に、「謝る」動作を行うと共に、「謝る」言葉を表す音声を出力する。
【0026】
また、ロボット100の感情が「普通」(すなわち、「喜」=0、「怒」=0、「哀」=0、「楽」=0)であり、ユーザ10の状態が「1人、寂しそう」という条件が満たされた場合に、ロボット100の感情が「心配になる」という感情の変化内容と、「声をかける」の行動を実行できることが定められている。
【0027】
ロボット100は、反応ルールに基づいて、ロボット100の現在の感情が「普通」であり、かつ、ユーザ10が1人で寂しそうな状態にあると認識した場合、ロボット100の「哀」の感情値を増大させる。また、ロボット100は、反応ルールで定められた「声をかける」という行動を、ユーザ10に対して実行する行動として選択する。例えば、ロボット100は、「声をかける」という行動を選択した場合に、心配していることを表す「どうしたの?」という言葉を、心配そうな音声に変換して出力する。
【0028】
また、ロボット100は、この行動によって、ユーザ10からポジティブな反応が得られたことを示すユーザ反応情報を、サーバ300に送信する。ユーザ反応情報には、例えば、「怒る」というユーザ行動、「謝る」というロボット100の行動、ユーザ10の反応がポジティブであったこと、及びユーザ10の属性が含まれる。
【0029】
サーバ300は、ロボット100から受信したユーザ反応情報を記憶する。なお、サーバ300は、ロボット100だけでなく、ロボット101及びロボット102のそれぞれからもユーザ反応情報を受信して記憶する。そして、サーバ300は、ロボット100、ロボット101及びロボット102からのユーザ反応情報を解析して、反応ルールを更新する。
【0030】
ロボット100は、更新された反応ルールをサーバ300に問い合わせることにより、更新された反応ルールをサーバ300から受信する。ロボット100は、更新された反応ルールを、ロボット100が記憶している反応ルールに組み込む。これにより、ロボット100は、ロボット101やロボット102等が獲得した反応ルールを、自身の反応ルールに組み込むことができる。
【0031】
図2は、ロボット100の機能構成を概略的に示す。ロボット100は、センサ部200と、センサモジュール部210と、格納部220と、制御部228と、制御対象252と、を有する。制御部228は、状態認識部230と、感情決定部232と、行動認識部234と、行動決定部236と、記憶制御部238と、行動制御部250と、関連情報収集部270と、通信処理部280とを有する。
【0032】
制御対象252は、表示装置、スピーカ及び目部のLED、並びに、腕、手及び足等を駆動するモータ等を含む。ロボット100の姿勢や仕草は、腕、手及び足等のモータを制御することにより制御される。ロボット100の感情の一部は、これらのモータを制御することにより表現できる。また、ロボット100の目部のLEDの発光状態を制御することによっても、ロボット100の表情を表現できる。なお、ロボット100の姿勢、仕草及び表情は、ロボット100の態度の一例である。
【0033】
センサ部200は、マイク201と、3D深度センサ202と、2Dカメラ203と、距離センサ204と、タッチセンサ205と、加速度センサ206と、を含む。マイク201は、音声を連続的に検出して音声データを出力する。なお、マイク201は、ロボット100の頭部に設けられ、バイノーラル録音を行う機能を有してよい。3D深度センサ202は、赤外線パターンを連続的に照射して、赤外線カメラで連続的に撮影された赤外線画像から赤外線パターンを解析することによって、物体の輪郭を検出する。2Dカメラ203は、イメージセンサの一例である。2Dカメラ203は、可視光によって撮影して、可視光の映像情報を生成する。距離センサ204は、例えばレーザや超音波等を照射して物体までの距離を検出する。なお、センサ部200は、この他にも、時計、ジャイロセンサ、モータフィードバック用のセンサ等を含んでよい。
【0034】
なお、
図2に示すロボット100の構成要素のうち、制御対象252及びセンサ部200を除く構成要素は、ロボット100が有する行動制御システムが有する構成要素の一例である。ロボット100の行動制御システムは、制御対象252を制御の対象とする。
【0035】
格納部220は、行動決定モデル221、履歴データ222、収集データ223、及び行動予定データ224を含む。履歴データ222は、ユーザ10の過去の感情値、ロボット100の過去の感情値、及び行動の履歴を含み、具体的には、ユーザ10の感情値、ロボット100の感情値、及びユーザ10の行動を含むイベントデータを複数含む。ユーザ10の行動を含むデータは、ユーザ10の行動を表すカメラ画像を含む。この感情値及び行動の履歴は、例えば、ユーザ10の識別情報に対応付けられることによって、ユーザ10毎に記録される。格納部220の少なくとも一部は、メモリ等の記憶媒体によって実装される。ユーザ10の顔画像、ユーザ10の属性情報等を格納する人物DBを含んでもよい。なお、
図2に示すロボット100の構成要素のうち、制御対象252、センサ部200及び格納部220を除く構成要素の機能は、CPUがプログラムに基づいて動作することによって実現できる。例えば、基本ソフトウエア(OS)及びOS上で動作するプログラムによって、これらの構成要素の機能をCPUの動作として実装できる。
【0036】
センサモジュール部210は、音声感情認識部211と、発話理解部212と、表情認識部213と、顔認識部214とを含む。センサモジュール部210には、センサ部200で検出された情報が入力される。センサモジュール部210は、センサ部200で検出された情報を解析して、解析結果を状態認識部230に出力する。
【0037】
センサモジュール部210の音声感情認識部211は、マイク201で検出されたユーザ10の音声を解析して、ユーザ10の感情を認識する。例えば、音声感情認識部211は、音声の周波数成分等の特徴量を抽出して、抽出した特徴量に基づいて、ユーザ10の感情を認識する。発話理解部212は、マイク201で検出されたユーザ10の音声を解析して、ユーザ10の発話内容を表す文字情報を出力する。
【0038】
表情認識部213は、2Dカメラ203で撮影されたユーザ10の画像から、ユーザ10の表情及びユーザ10の感情を認識する。例えば、表情認識部213は、目及び口の形状、位置関係等に基づいて、ユーザ10の表情及び感情を認識する。
【0039】
顔認識部214は、ユーザ10の顔を認識する。顔認識部214は、人物DB(図示省略)に格納されている顔画像と、2Dカメラ203によって撮影されたユーザ10の顔画像とをマッチングすることによって、ユーザ10を認識する。
【0040】
状態認識部230は、センサモジュール部210で解析された情報に基づいて、ユーザ10の状態を認識する。例えば、センサモジュール部210の解析結果を用いて、主として知覚に関する処理を行う。例えば、「パパが1人です。」、「パパが笑顔でない確率90%です。」等の知覚情報を生成する。生成された知覚情報の意味を理解する処理を行う。例えば、「パパが1人、寂しそうです。」等の意味情報を生成する。
【0041】
状態認識部230は、センサ部200で検出された情報に基づいて、ロボット100の状態を認識する。例えば、状態認識部230は、ロボット100の状態として、ロボット100のバッテリー残量やロボット100の周辺環境の明るさ等を認識する。
【0042】
感情決定部232は、センサモジュール部210で解析された情報、及び状態認識部230によって認識されたユーザ10の状態に基づいて、ユーザ10の感情を示す感情値を決定する。例えば、センサモジュール部210で解析された情報、及び認識されたユーザ10の状態を、予め学習されたニューラルネットワークに入力し、ユーザ10の感情を示す感情値を取得する。
【0043】
ここで、ユーザ10の感情を示す感情値とは、ユーザの感情の正負を示す値であり、例えば、ユーザの感情が、「喜」、「楽」、「快」、「安心」、「興奮」、「安堵」、及び「充実感」のように、快感や安らぎを伴う明るい感情であれば、正の値を示し、明るい感情であるほど、大きい値となる。ユーザの感情が、「怒」、「哀」、「不快」、「不安」、「悲しみ」、「心配」、及び「虚無感」のように、嫌な気持ちになってしまう感情であれば、負の値を示し、嫌な気持ちであるほど、負の値の絶対値が大きくなる。ユーザの感情が、上記の何れでもない場合(「普通」)、0の値を示す。
【0044】
また、感情決定部232は、センサモジュール部210で解析された情報、センサ部200で検出された情報、及び状態認識部230によって認識されたユーザ10の状態に基づいて、ロボット100の感情を示す感情値を決定する。
【0045】
ロボット100の感情値は、複数の感情分類の各々に対する感情値を含み、例えば、「喜」、「怒」、「哀」、「楽」それぞれの強さを示す値(0~5)である。
【0046】
具体的には、感情決定部232は、センサモジュール部210で解析された情報、及び状態認識部230によって認識されたユーザ10の状態に対応付けて定められた、ロボット100の感情値を更新するルールに従って、ロボット100の感情を示す感情値を決定する。
【0047】
例えば、感情決定部232は、状態認識部230によってユーザ10が寂しそうと認識された場合、ロボット100の「哀」の感情値を増大させる。また、状態認識部230によってユーザ10が笑顔になったと認識された場合、ロボット100の「喜」の感情値を増大させる。
【0048】
なお、感情決定部232は、ロボット100の状態を更に考慮して、ロボット100の感情を示す感情値を決定してもよい。例えば、ロボット100のバッテリー残量が少ない場合やロボット100の周辺環境が真っ暗な場合等に、ロボット100の「哀」の感情値を増大させてもよい。更にバッテリー残量が少ないにも関わらず継続して話しかけてくるユーザ10の場合は、「怒」の感情値を増大させても良い。
【0049】
行動認識部234は、センサモジュール部210で解析された情報、及び状態認識部230によって認識されたユーザ10の状態に基づいて、ユーザ10の行動を認識する。例えば、センサモジュール部210で解析された情報、及び認識されたユーザ10の状態を、予め学習されたニューラルネットワークに入力し、予め定められた複数の行動分類(例えば、「笑う」、「怒る」、「質問する」、「悲しむ」)の各々の確率を取得し、最も確率の高い行動分類を、ユーザ10の行動として認識する。
【0050】
以上のように、本参考形態では、ロボット100は、ユーザ10を特定したうえでユーザ10の発話内容を取得するが、当該発話内容の取得と利用等に際してはユーザ10から法令に従った必要な同意を取得するほか、本参考形態に係るロボット100の行動制御システムは、ユーザ10の個人情報及びプライバシーの保護に配慮する。
【0051】
次に、ユーザ10の行動に対してロボット100が応答する応答処理を行う際の、行動決定部236の処理について説明する。
【0052】
行動決定部236は、感情決定部232により決定されたユーザ10の現在の感情値と、ユーザ10の現在の感情値が決定されるよりも前に感情決定部232により決定された過去の感情値の履歴データ222と、ロボット100の感情値とに基づいて、行動認識部234によって認識されたユーザ10の行動に対応する行動を決定する。本参考形態では、行動決定部236は、ユーザ10の過去の感情値として、履歴データ222に含まれる直近の1つの感情値を用いる場合について説明するが、開示の技術はこの態様に限定されない。例えば、行動決定部236は、ユーザ10の過去の感情値として、直近の複数の感情値を用いてもよいし、一日前などの単位期間の分だけ前の感情値を用いてもよい。また、行動決定部236は、ロボット100の現在の感情値だけでなく、ロボット100の過去の感情値の履歴を更に考慮して、ユーザ10の行動に対応する行動を決定してもよい。行動決定部236が決定する行動は、ロボット100が行うジェスチャー又はロボット100の発話内容を含む。
【0053】
本参考形態に係る行動決定部236は、ユーザ10の行動に対応する行動として、ユーザ10の過去の感情値と現在の感情値の組み合わせと、ロボット100の感情値と、ユーザ10の行動と、行動決定モデル221とに基づいて、ロボット100の行動を決定する。例えば、行動決定部236は、ユーザ10の過去の感情値が正の値であり、かつ現在の感情値が負の値である場合、ユーザ10の行動に対応する行動として、ユーザ10の感情値を正に変化させるための行動を決定する。
【0054】
行動決定モデル221としての反応ルールには、ユーザ10の過去の感情値と現在の感情値の組み合わせと、ロボット100の感情値と、ユーザ10の行動とに応じたロボット100の行動が定められている。例えば、ユーザ10の過去の感情値が正の値であり、かつ現在の感情値が負の値であり、ユーザ10の行動が悲しむである場合、ロボット100の行動として、ジェスチャーを交えてユーザ10を励ます問いかけを行う際のジェスチャーと発話内容との組み合わせが定められている。
【0055】
例えば、行動決定モデル221としての反応ルールには、ロボット100の感情値のパターン(「喜」、「怒」、「哀」、「楽」の値「0」~「5」の6値の4乗である1296パターン)、ユーザ10の過去の感情値と現在の感情値の組み合わせのパターン、ユーザ10の行動パターンの全組み合わせに対して、ロボット100の行動が定められる。すなわち、ロボット100の感情値のパターン毎に、ユーザ10の過去の感情値と現在の感情値の組み合わせが、負の値と負の値、負の値と正の値、正の値と負の値、正の値と正の値、負の値と普通、及び普通と普通等のように、複数の組み合わせのそれぞれに対して、ユーザ10の行動パターンに応じたロボット100の行動が定められる。なお、行動決定部236は、例えば、ユーザ10が「この前に話したあの話題について話したい」というような過去の話題から継続した会話を意図する発話を行った場合に、履歴データ222を用いてロボット100の行動を決定する動作モードに遷移してもよい。
【0056】
なお、行動決定モデル221としての反応ルールには、ロボット100の感情値のパターン(1296パターン)の各々に対して、最大で一つずつ、ロボット100の行動としてジェスチャー及び発言内容の少なくとも一方が定められていてもよい。あるいは、行動決定モデル221としての反応ルールには、ロボット100の感情値のパターンのグループの各々に対して、ロボット100の行動としてジェスチャー及び発言内容の少なくとも一方が定められていてもよい。
【0057】
行動決定モデル221としての反応ルールに定められているロボット100の行動に含まれる各ジェスチャーには、当該ジェスチャーの強度が予め定められている。行動決定モデル221としての反応ルールに定められているロボット100の行動に含まれる各発話内容には、当該発話内容の強度が予め定められている。
【0058】
記憶制御部238は、行動決定部236によって決定された行動に対して予め定められた行動の強度と、感情決定部232により決定されたロボット100の感情値とに基づいて、ユーザ10の行動を含むデータを履歴データ222に記憶するか否かを決定する。
【0059】
具体的には、ロボット100の複数の感情分類の各々に対する感情値の総和と、行動決定部236によって決定された行動が含むジェスチャーに対して予め定められた強度と、行動決定部236によって決定された行動が含む発話内容に対して予め定められた強度との和である強度の総合値が、閾値以上である場合、ユーザ10の行動を含むデータを履歴データ222に記憶すると決定する。
【0060】
記憶制御部238は、ユーザ10の行動を含むデータを履歴データ222に記憶すると決定した場合、行動決定部236によって決定された行動と、現時点から一定期間前までの、センサモジュール部210で解析された情報(例えば、その場の音声、画像、匂い等のデータなどのあらゆる周辺情報)、及び状態認識部230によって認識されたユーザ10の状態(例えば、ユーザ10の表情、感情など)を、履歴データ222に記憶する。
【0061】
行動制御部250は、行動決定部236が決定した行動に基づいて、制御対象252を制御する。例えば、行動制御部250は、行動決定部236が発話することを含む行動を決定した場合に、制御対象252に含まれるスピーカから音声を出力させる。このとき、行動制御部250は、ロボット100の感情値に基づいて、音声の発声速度を決定してもよい。例えば、行動制御部250は、ロボット100の感情値が大きいほど、速い発声速度を決定する。このように、行動制御部250は、感情決定部232が決定した感情値に基づいて、行動決定部236が決定した行動の実行形態を決定する。
【0062】
行動制御部250は、行動決定部236が決定した行動を実行したことに対するユーザ10の感情の変化を認識してもよい。例えば、ユーザ10の音声や表情に基づいて感情の変化を認識してよい。その他、センサ部200に含まれるタッチセンサ205で衝撃が検出されたことに基づいて、ユーザ10の感情の変化を認識してよい。センサ部200に含まれるタッチセンサ205で衝撃が検出された場合に、ユーザ10の感情が悪くなったと認識したり、センサ部200に含まれるタッチセンサ205の検出結果から、ユーザ10の反応が笑っている、あるいは、喜んでいる等と判断される場合には、ユーザ10の感情が良くなったと認識したりしてもよい。ユーザ10の反応を示す情報は、通信処理部280に出力される。
【0063】
また、行動制御部250は、行動決定部236が決定した行動をロボット100の感情に応じて決定した実行形態で実行した後、感情決定部232は、当該行動が実行されたことに対するユーザの反応に基づいて、ロボット100の感情値を更に変化させる。具体的には、感情決定部232は、行動決定部236が決定した行動を行動制御部250が決定した実行形態でユーザに対して行ったことに対するユーザの反応が不良でなかった場合に、ロボット100の「喜」の感情値を増大させる。また、感情決定部232は、行動決定部236が決定した行動を行動制御部250が決定した実行形態でユーザに対して行ったことに対するユーザの反応が不良であった場合に、ロボット100の「哀」の感情値を増大させる。
【0064】
更に、行動制御部250は、決定したロボット100の感情値に基づいて、ロボット100の感情を表現する。例えば、行動制御部250は、ロボット100の「喜」の感情値を増加させた場合、制御対象252を制御して、ロボット100に喜んだ仕草を行わせる。また、行動制御部250は、ロボット100の「哀」の感情値を増加させた場合、ロボット100の姿勢がうなだれた姿勢になるように、制御対象252を制御する。
【0065】
通信処理部280は、サーバ300との通信を担う。上述したように、通信処理部280は、ユーザ反応情報をサーバ300に送信する。また、通信処理部280は、更新された反応ルールをサーバ300から受信する。通信処理部280がサーバ300から、更新された反応ルールを受信すると、行動決定モデル221としての反応ルールを更新する。
【0066】
サーバ300は、ロボット100、ロボット101及びロボット102とサーバ300との間の通信を行い、ロボット100から送信されたユーザ反応情報を受信し、ポジティブな反応が得られた行動を含む反応ルールに基づいて、反応ルールを更新する。
【0067】
関連情報収集部270は、所定のタイミングで、ユーザ10について取得した好み情報に基づいて、外部データ(ニュースサイト、動画サイトなどのWebサイト)から、好み情報に関連する情報を収集する。
【0068】
具体的には、関連情報収集部270は、ユーザ10の発話内容、又はユーザ10による設定操作から、ユーザ10の関心がある事柄を表す好み情報を取得しておく。関連情報収集部270は、一定期間毎に、好み情報に関連するニュースを、ChatGPT Plugins(インターネット検索<URL: https://openai.com/blog/chatgpt-plugins>)を用いて、外部データから収集する。例えば、ユーザ10が特定のプロ野球チームのファンであることが好み情報として取得されている場合、関連情報収集部270は、毎日、所定時刻に、特定のプロ野球チームの試合結果に関連するニュースを、ChatGPT Pluginsを用いて、外部データから収集する。
【0069】
感情決定部232は、関連情報収集部270によって収集した好み情報に関連する情報に基づいて、ロボット100の感情を決定する。
【0070】
具体的には、感情決定部232は、関連情報収集部270によって収集した好み情報に関連する情報を表すテキストを、感情を判定するための予め学習されたニューラルネットワークに入力し、各感情を示す感情値を取得し、ロボット100の感情を決定する。例えば、収集した特定のプロ野球チームの試合結果に関連するニュースが、特定のプロ野球チームが勝ったことを示している場合、ロボット100の「喜」の感情値が大きくなるように決定する。
【0071】
記憶制御部238は、ロボット100の感情値が閾値以上である場合に、関連情報収集部270によって収集した好み情報に関連する情報を、収集データ223に格納する。
【0072】
次に、ロボット100が自律的に行動する自律的処理を行う際の、行動決定部236の処理について説明する。
【0073】
行動決定部236は、所定のタイミングで、ユーザ10の状態、ユーザ10の感情、ロボット100の感情、及びロボット100の状態の少なくとも一つと、行動決定モデル221とを用いて、行動しないことを含む複数種類のロボット行動の何れかを、ロボット100の行動として決定する。ここでは、行動決定モデル221として、対話機能を有する文章生成モデルを用いる場合を例に説明する。
【0074】
具体的には、行動決定部236は、ユーザ10の状態、ユーザ10の感情、ロボット100の感情、及びロボット100の状態の少なくとも一つを表すテキストと、ロボット行動を質問するテキストとを文章生成モデルに入力し、文章生成モデルの出力に基づいて、ロボット100の行動を決定する。
【0075】
例えば、複数種類のロボット行動は、以下の(1)~(10)を含む。
【0076】
(1)ロボットは、何もしない。
【0077】
(2)ロボットは、夢をみる。
【0078】
(3)ロボットは、ユーザに話しかける。
【0079】
(4)ロボットは、絵日記を作成する。
【0080】
(5)ロボットは、アクティビティを提案する。
【0081】
(6)ロボットは、ユーザが会うべき相手を提案する。
【0082】
(7)ロボットは、ユーザが興味あるニュースを紹介する。
【0083】
(8)ロボットは、写真や動画を編集する。
【0084】
(9)ロボットは、ユーザと一緒に勉強する。
【0085】
(10)ロボットは、記憶を呼び起こす。
【0086】
行動決定部236は、一定時間の経過毎に、状態認識部230によって認識されたユーザ10の状態及びロボット100の状態、感情決定部232により決定されたユーザ10の現在の感情値と、ロボット100の現在の感情値とを表すテキストと、行動しないことを含む複数種類のロボット行動の何れかを質問するテキストとを、文章生成モデルに入力し、文章生成モデルの出力に基づいて、ロボット100の行動を決定する。ここで、ロボット100の周辺にユーザ10がいない場合には、文章生成モデルに入力するテキストには、ユーザ10の状態と、ユーザ10の現在の感情値とを含めなくてもよいし、ユーザ10がいないことを表すことを含めてもよい。
【0087】
一例として、「ロボットはとても楽しい状態です。ユーザは普通に楽しい状態です。ユーザは寝ています。ロボットの行動として、次の(1)~(10)のうち、どれがよいですか?
【0088】
(1)ロボットは何もしない。
【0089】
(2)ロボットは夢をみる。
【0090】
(3)ロボットはユーザに話しかける。
【0091】
・・・」というテキストを、文章生成モデルに入力する。文章生成モデルの出力「(1)何もしない、または(2)ロボットは夢を見る、のどちらかが、最も適切な行動であると言えます。」に基づいて、ロボット100の行動として、「(1)何もしない」または「(2)ロボットは夢を見る」を決定する。
【0092】
他の例として、「ロボットは少し寂しい状態です。ユーザは不在です。ロボットの周辺は暗いです。ロボットの行動として、次の(1)~(10)のうち、どれがよいですか?
【0093】
(1)ロボットは何もしない。
【0094】
(2)ロボットは夢をみる。
【0095】
(3)ロボットはユーザに話しかける。
【0096】
・・・」というテキストを、文章生成モデルに入力する。文章生成モデルの出力「(2)ロボットは夢を見る、または(4)ロボットは、絵日記を作成する、のどちらかが、最も適切な行動であると言えます。」に基づいて、ロボット100の行動として、「(2)ロボットは夢を見る」または「(4)ロボットは、絵日記を作成する。」を決定する。
【0097】
行動決定部236は、ロボット行動として、「(2)ロボットは夢をみる。」すなわち、オリジナルイベントを作成することを決定した場合には、文章生成モデルを用いて、履歴データ222のうちの複数のイベントデータを組み合わせたオリジナルイベントを作成する。このとき、記憶制御部238は、作成したオリジナルイベントを、履歴データ222に記憶させる
【0098】
行動決定部236は、ロボット行動として、「(3)ロボットはユーザに話しかける。」、すなわち、ロボット100が発話することを決定した場合には、文章生成モデルを用いて、ユーザ状態と、ユーザの感情又はロボットの感情とに対応するロボットの発話内容を決定する。このとき、行動制御部250は、決定したロボットの発話内容を表す音声を、制御対象252に含まれるスピーカから出力させる。なお、行動制御部250は、ロボット100の周辺にユーザ10が不在の場合には、決定したロボットの発話内容を表す音声を出力せずに、決定したロボットの発話内容を行動予定データ224に格納しておく。
【0099】
行動決定部236は、ロボット行動として、「(7)ロボットは、ユーザが興味あるニュースを紹介する。」ことを決定した場合には、文章生成モデルを用いて、収集データ223に格納された情報に対応するロボットの発話内容を決定する。このとき、行動制御部250は、決定したロボットの発話内容を表す音声を、制御対象252に含まれるスピーカから出力させる。なお、行動制御部250は、ロボット100の周辺にユーザ10が不在の場合には、決定したロボットの発話内容を表す音声を出力せずに、決定したロボットの発話内容を行動予定データ224に格納しておく。
【0100】
行動決定部236は、ロボット行動として、「(4)ロボットは、絵日記を作成する。」、すなわち、ロボット100がイベント画像を作成することを決定した場合には、履歴データ222から選択されるイベントデータについて、画像生成モデルを用いて、イベントデータを表す画像を生成すると共に、文章生成モデルを用いて、イベントデータを表す説明文を生成し、イベントデータを表す画像及びイベントデータを表す説明文の組み合わせを、イベント画像として出力する。なお、行動制御部250は、ロボット100の周辺にユーザ10が不在の場合には、イベント画像を出力せずに、イベント画像を行動予定データ224に格納しておく。
【0101】
行動決定部236は、ロボット行動として、「(8)ロボットは、写真や動画を編集する。」、すなわち、画像を編集することを決定した場合には、履歴データ222から、感情値に基づいてイベントデータを選択し、選択されたイベントデータの画像データを編集して出力する。なお、行動制御部250は、ロボット100の周辺にユーザ10が不在の場合には、編集した画像データを出力せずに、編集した画像データを行動予定データ224に格納しておく。
【0102】
行動決定部236は、ロボット行動として、「(5)ロボットは、アクティビティを提案する。」、すなわち、ユーザ10の行動を提案することを決定した場合には、履歴データ222に記憶されているイベントデータに基づいて、文章生成モデルを用いて、提案するユーザの行動を決定する。このとき、行動制御部250は、ユーザの行動を提案する音声を、制御対象252に含まれるスピーカから出力させる。なお、行動制御部250は、ロボット100の周辺にユーザ10が不在の場合には、ユーザの行動を提案する音声を出力せずに、ユーザの行動を提案することを行動予定データ224に格納しておく。
【0103】
行動決定部236は、ロボット行動として、「(6)ロボットは、ユーザが会うべき相手を提案する。」、すなわち、ユーザ10と接点を持つべき相手を提案することを決定した場合には、履歴データ222に記憶されているイベントデータに基づいて、文章生成モデルを用いて、提案するユーザと接点を持つべき相手を決定する。このとき、行動制御部250は、ユーザと接点を持つべき相手を提案することを表す音声を、制御対象252に含まれるスピーカから出力させる。なお、行動制御部250は、ロボット100の周辺にユーザ10が不在の場合には、ユーザと接点を持つべき相手を提案することを表す音声を出力せずに、ユーザと接点を持つべき相手を提案することを行動予定データ224に格納しておく。
【0104】
行動決定部236は、ロボット行動として、「(9)ロボットは、ユーザと一緒に勉強する。」、すなわち、勉強に関してロボット100が発話することを決定した場合には、文章生成モデルを用いて、ユーザ状態と、ユーザの感情又はロボットの感情とに対応する、勉強を促したり、勉強の問題を出したり、勉強に関するアドバイスを行うためのロボットの発話内容を決定する。このとき、行動制御部250は、決定したロボットの発話内容を表す音声を、制御対象252に含まれるスピーカから出力させる。なお、行動制御部250は、ロボット100の周辺にユーザ10が不在の場合には、決定したロボットの発話内容を表す音声を出力せずに、決定したロボットの発話内容を行動予定データ224に格納しておく。
【0105】
行動決定部236は、ロボット行動として、「(10)ロボットは、記憶を呼び起こす。」、すなわち、イベントデータを思い出すことを決定した場合には、履歴データ222から、イベントデータを選択する。このとき、感情決定部232は、選択したイベントデータに基づいて、ロボット100の感情を判定する。更に、行動決定部236は、選択したイベントデータに基づいて、文章生成モデルを用いて、ユーザの感情値を変化させるためのロボット100の発話内容や行動を表す感情変化イベントを作成する。このとき、記憶制御部238は、感情変化イベントを、行動予定データ224に記憶させる。
【0106】
例えば、ユーザが見ていた動画がパンダに関するものであったことをイベントデータとして履歴データ222に記憶し、当該イベントデータが選択された場合、「パンダに関する話題で、次ユーザに会ったときにかけるべきセリフは何がありますか。三つ挙げて。」と、文章生成モデルに入力し、文章生成モデルの出力が、「(1)動物園にいこう、(2)パンダの絵を描こう、(3)パンダのぬいぐるみを買いに行こう」であった場合、ロボット100が、「(1)、(2)、(3)でユーザが一番喜びそうなものは?」と、文章生成モデルに入力し、文章生成モデルの出力が、「(1)動物園にいこう」である場合は、ロボット100が次にユーザに会っときに「(1)動物園にいこう」とロボット100が発話することを、感情変化イベントとして作成し、行動予定データ224に記憶される。
【0107】
また、例えば、ロボット100の感情値が大きいイベントデータを、ロボット100の印象的な記憶として選択する。これにより、印象的な記憶として選択されたイベントデータに基づいて、感情変化イベントを作成することができる。
【0108】
行動決定部236は、状態認識部230によって認識されたユーザ10の状態に基づいて、ロボット100に対するユーザ10の行動がない状態から、ロボット100に対するユーザ10の行動を検知した場合に、行動予定データ224に記憶されているデータを読み出し、ロボット100の行動を決定する。
【0109】
例えば、ロボット100の周辺にユーザ10が不在だった場合に、ユーザ10を検知すると、行動決定部236は、行動予定データ224に記憶されているデータを読み出し、ロボット100の行動を決定する。また、ユーザ10が寝ていた場合に、ユーザ10が起きたことを検知すると、行動決定部236は、行動予定データ224に記憶されているデータを読み出し、ロボット100の行動を決定する。
【0110】
図3は、ユーザ10の好み情報に関連する情報を収集する収集処理に関する動作フローの一例を概略的に示す。
図3に示す動作フローは、一定期間毎に、繰り返し実行される。ユーザ10の発話内容、又はユーザ10による設定操作から、ユーザ10の関心がある事柄を表す好み情報が取得されているものとする。なお、動作フロー中の「S」は、実行されるステップを表す。
【0111】
まず、ステップS90において、関連情報収集部270は、ユーザ10の関心がある事柄を表す好み情報を取得する。
【0112】
ステップS92において、関連情報収集部270は、好み情報に関連する情報を、外部データから収集する。
【0113】
ステップS94において、感情決定部232は、関連情報収集部270によって収集した好み情報に関連する情報に基づいて、ロボット100の感情値を決定する。
【0114】
ステップS96において、記憶制御部238は、上記ステップS94で決定されたロボット100の感情値が閾値以上であるか否かを判定する。ロボット100の感情値が閾値未満である場合には、収集した好み情報に関連する情報を収集データ223に記憶せずに、当該処理を終了する。一方、ロボット100の感情値が閾値以上である場合には、ステップS98へ移行する。
【0115】
ステップS98において、記憶制御部238は、収集した好み情報に関連する情報を、収集データ223に格納し、当該処理を終了する。
【0116】
図4Aは、ユーザ10の行動に対してロボット100が応答する応答処理を行う際に、ロボット100において行動を決定する動作に関する動作フローの一例を概略的に示す。
図4Aに示す動作フローは、繰り返し実行される。このとき、センサモジュール部210で解析された情報が入力されているものとする。
【0117】
まず、ステップS100において、状態認識部230は、センサモジュール部210で解析された情報に基づいて、ユーザ10の状態及びロボット100の状態を認識する。
【0118】
ステップS102において、感情決定部232は、センサモジュール部210で解析された情報、及び状態認識部230によって認識されたユーザ10の状態に基づいて、ユーザ10の感情を示す感情値を決定する。
【0119】
ステップS103において、感情決定部232は、センサモジュール部210で解析された情報、及び状態認識部230によって認識されたユーザ10の状態に基づいて、ロボット100の感情を示す感情値を決定する。感情決定部232は、決定したユーザ10の感情値及びロボット100の感情値を履歴データ222に追加する。
【0120】
ステップS104において、行動認識部234は、センサモジュール部210で解析された情報及び状態認識部230によって認識されたユーザ10の状態に基づいて、ユーザ10の行動分類を認識する。
【0121】
ステップS106において、行動決定部236は、ステップS102で決定されたユーザ10の現在の感情値及び履歴データ222に含まれる過去の感情値の組み合わせと、ロボット100の感情値と、上記ステップS104で認識されたユーザ10の行動と、行動決定モデル221とに基づいて、ロボット100の行動を決定する。
【0122】
ステップS108において、行動制御部250は、行動決定部236により決定された行動に基づいて、制御対象252を制御する。
【0123】
ステップS110において、記憶制御部238は、行動決定部236によって決定された行動に対して予め定められた行動の強度と、感情決定部232により決定されたロボット100の感情値とに基づいて、強度の総合値を算出する。
【0124】
ステップS112において、記憶制御部238は、強度の総合値が閾値以上であるか否かを判定する。強度の総合値が閾値未満である場合には、ユーザ10の行動を含むイベントデータを履歴データ222に記憶せずに、当該処理を終了する。一方、強度の総合値が閾値以上である場合には、ステップS114へ移行する。
【0125】
ステップS114において、行動決定部236によって決定された行動と、現時点から一定期間前までの、センサモジュール部210で解析された情報、及び状態認識部230によって認識されたユーザ10の状態とを含むイベントデータを、履歴データ222に記憶する。
【0126】
図4Bは、ロボット100が自律的に行動する自律的処理を行う際に、ロボット100において行動を決定する動作に関する動作フローの一例を概略的に示す。
図4Bに示す動作フローは、例えば、一定時間の経過毎に、繰り返し自動的に実行される。このとき、センサモジュール部210で解析された情報が入力されているものとする。なお、上記
図4Aと同様の処理については、同じステップ番号を表す。
【0127】
まず、ステップS100において、状態認識部230は、センサモジュール部210で解析された情報に基づいて、ユーザ10の状態及びロボット100の状態を認識する。
【0128】
ステップS102において、感情決定部232は、センサモジュール部210で解析された情報、及び状態認識部230によって認識されたユーザ10の状態に基づいて、ユーザ10の感情を示す感情値を決定する。
【0129】
ステップS103において、感情決定部232は、センサモジュール部210で解析された情報、及び状態認識部230によって認識されたユーザ10の状態に基づいて、ロボット100の感情を示す感情値を決定する。感情決定部232は、決定したユーザ10の感情値及びロボット100の感情値を履歴データ222に追加する。
【0130】
ステップS104において、行動認識部234は、センサモジュール部210で解析された情報及び状態認識部230によって認識されたユーザ10の状態に基づいて、ユーザ10の行動分類を認識する。
【0131】
ステップS200において、行動決定部236は、上記ステップS100で認識されたユーザ10の状態、ステップS102で決定されたユーザ10の感情、ロボット100の感情、及び上記ステップS100で認識されたロボット100の状態と、上記ステップS104で認識されたユーザ10の行動と、行動決定モデル221とに基づいて、行動しないことを含む複数種類のロボット行動の何れかを、ロボット100の行動として決定する。
【0132】
ステップS201において、行動決定部236は、上記ステップS200で、行動しないことが決定されたか否かを判定する。ロボット100の行動として、行動しないことが決定された場合には、当該処理を終了する。一方、ロボット100の行動として、行動しないことが決定されていない場合には、ステップS202へ移行する。
【0133】
ステップS202において、行動決定部236は、上記ステップS200で決定したロボット行動の種類に応じた処理を行う。このとき、ロボット行動の種類に応じて、行動制御部250、感情決定部232、又は記憶制御部238が処理を実行する。
【0134】
ステップS110において、記憶制御部238は、行動決定部236によって決定された行動に対して予め定められた行動の強度と、感情決定部232により決定されたロボット100の感情値とに基づいて、強度の総合値を算出する。
【0135】
ステップS112において、記憶制御部238は、強度の総合値が閾値以上であるか否かを判定する。強度の総合値が閾値未満である場合には、ユーザ10の行動を含むデータを履歴データ222に記憶せずに、当該処理を終了する。一方、強度の総合値が閾値以上である場合には、ステップS114へ移行する。
【0136】
ステップS114において、記憶制御部238は、行動決定部236によって決定された行動と、現時点から一定期間前までの、センサモジュール部210で解析された情報、及び状態認識部230によって認識されたユーザ10の状態と、を、履歴データ222に記憶する。
【0137】
以上説明したように、ロボット100によれば、ユーザ状態に基づいて、ロボット100の感情を示す感情値を決定し、ロボット100の感情値に基づいて、ユーザ10の行動を含むデータを履歴データ222に記憶するか否かを決定する。これにより、ユーザ10の行動を含むデータを記憶する履歴データ222の容量を抑制することができる。そして例えば、10年後にユーザ状態が10年前と同じ状態であるとロボット100が判断したときに、10年前の履歴データ222を読み込むことにより、ロボット100は10年前当時のユーザ10の状態(例えばユーザ10の表情、感情など)、更にはその場の音声、画像、匂い等のデータなどのあらゆる周辺情報を、ユーザ10に提示することができる。
【0138】
また、ロボット100によれば、ユーザ10の行動に対して適切な行動をロボット100に実行させることができる。従来は、ユーザの行動を分類し、ロボットの表情や恰好を含む行動を決めていた。これに対し、ロボット100は、ユーザ10の現在の感情値を決定し、過去の感情値及び現在の感情値に基づいてユーザ10に対して行動を実行する。従って、例えば、昨日は元気であったユーザ10が今日は落ち込んでいた場合に、ロボット100は「昨日は元気だったのに今日はどうしたの?」というような発話を行うことができる。また、ロボット100は、ジェスチャーを交えて発話を行うこともできる。また、例えば、昨日は落ち込んでいたユーザ10が今日は元気である場合に、ロボット100は、「昨日は落ち込んでいたのに今日は元気そうだね?」というような発話を行うことができる。また、例えば、昨日は元気であったユーザ10が今日は昨日よりも元気である場合、ロボット100は「今日は昨日よりも元気だね。昨日よりも良いことがあった?」というような発話を行うことができる。また、例えば、ロボット100は、感情値が0以上であり、かつ感情値の変動幅が一定の範囲内である状態が継続しているユーザ10に対しては、「最近、気分が安定していて良い感じだね。」というような発話を行うことができる。
【0139】
また、例えば、ロボット100は、ユーザ10に対し、「昨日言っていた宿題はできた?」と質問し、ユーザ10から「できたよ」という回答が得られた場合、「偉いね!」等の肯定的な発話をするとともに、拍手又はサムズアップ等の肯定的なジェスチャーを行うことができる。また、例えば、ロボット100は、ユーザ10が「一昨日話したプレゼンテーションがうまくいったよ」という発話をすると、「頑張ったね!」等の肯定的な発話をするとともに、上記の肯定的なジェスチャーを行うこともできる。このように、ロボット100がユーザ10の状態の履歴に基づいた行動を行うことによって、ユーザ10がロボット100に対して親近感を覚えることが期待できる。
【0140】
また、例えば、ユーザ10が、パンダに関する動画を見ているときに、ユーザ10の感情の「楽」の感情値が閾値以上である場合、当該動画におけるパンダの登場シーンを、イベントデータとして履歴データ222に記憶させてもよい。
【0141】
履歴データ222や収集データ223に蓄積したデータを用いて、ロボット100は、どのような会話をユーザとすれば、ユーザの幸せを表現する感情値が最大化されるかを常に学習することができる。
【0142】
また、ロボット100がユーザ10と会話をしていない状態において、ロボット100の感情に基づいて、自律的に行動を開始することができる。
【0143】
また、自律的処理において、ロボット100が、自動的に質問を生成して、文章生成モデルに入力し、文章生成モデルの出力を、質問に対する回答として取得することを繰り返すことによって、良い感情を増大させるための感情変化イベントを作成し、行動予定データ224に格納することができる。このように、ロボット100は、自己学習を実行することができる。
【0144】
また、ロボット100が、外部からのトリガを受けていない状態において、自動的に質問を生成する際に、ロボットの過去の感情値の履歴から特定した印象に残ったイベントデータに基づいて、質問を自動的に生成することができる。
【0145】
また、関連情報収集部270が、ユーザについての好み情報に対応して自動的にキーワード検索を実行して、検索結果を取得する検索実行段階を繰り返すことによって、自己学習を実行することができる。
【0146】
ここで、検索実行段階は、外部からのトリガを受けていない状態において、ロボットの過去の感情値の履歴から特定した、印象に残ったイベントデータに基づいて、キーワード検索を自動的に実行するようにしてもよい。
【0147】
なお、感情決定部232は、特定のマッピングに従い、ユーザの感情を決定してよい。具体的には、感情決定部232は、特定のマッピングである感情マップ(
図5参照)に従い、ユーザの感情を決定してよい。
【0148】
図5は、複数の感情がマッピングされる感情マップ400を示す図である。感情マップ400において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向及び下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ400では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。
【0149】
(1)例えばロボット100の感情決定部232である感情エンジンが、100msec程度で感情を検知している場合、ロボット100の反応動作(例えば相槌)の決定は、頻度が少なくとも、感情エンジンの検知頻度(100msec)と同様のタイミングに設定してよく、これよりも早いタイミングに設定してもよい。感情エンジンの検知頻度はサンプリングレートと解釈してよい。
【0150】
100msec程度で感情を検知し、即時に連動して反応動作(例えば相槌)を行うことで、不自然な相槌ではなくなり、自然な空気を読んだ対話を実現できる。ロボット100は、感情マップ400の曼荼羅の方向性とその度合い(強さ)に応じて、反応動作(相槌など)を行う。なお、感情エンジンの検知頻度(サンプリングレート)は、100msに限定されず、シチュエーション(スポーツをしている場合など)、ユーザの年齢などに応じて、変更してもよい。
【0151】
(2)感情マップ400と照らし合わせ、感情の方向性とその度合いの強さを予め設定しておき、相槌の動き及び相槌の強弱を設定してよい。例えば、ロボット100が安定感、安心などを感じている場合、ロボット100は、頷いて話を聞き続ける。ロボット100が不安、迷い、怪しい感じを覚えている場合、ロボット100は、首をかしげてもよく、首振りを止めてもよい。
【0152】
これらの感情は、感情マップ400の3時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ400の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。
【0153】
(3)ロボット100が褒められて快感を覚えた場合、「あー」というフィラーが台詞の前に入り、きつい言葉をもらって痛感を覚えた場合、「うっ!」というフィラーが台詞の前に入ってよい。また、ロボット100が「あー」と言いつつ、気持ち良すぎて天を仰ぐ仕草や、「うっ!」と言いつつうずくまる仕草などの身体的な反応を含めてよい。これらの感情は、感情マップ400の9時あたりに分布している。
【0154】
(4)感情マップ400の左半分では、状況認識よりも内部的な感覚(反応)の方が優位に立つ。よって、思わず反応してしまった印象を与え得る。
【0155】
ロボット100が納得感という内部的な感覚(反応)を覚えながら状況認識においても好感を覚える場合、ロボット100は、相手を見ながら深く頷いてよく、また「うんうん」と発してよい。このように、ロボット100は、相手へのバランスのとれた好感、すなわち、相手への許容や寛容といった行動を生成してよい。このような感情は、感情マップ400の12時あたりに分布している。
【0156】
逆に、ロボット100が不快感という内部的な感覚(反応)を覚えながら状況認識においても、ロボット100は、嫌悪を覚えるときには首を横に振る、憎しみを覚えるくらいになると、目のLEDを赤くして相手を睨んでもよい。また、相手へのバランスのとれた嫌悪感が強くなると、攻撃や相手の根絶といった行動を引き起こす。このような感情は、感情マップ400の6時あたりに分布している。
【0157】
(5)感情マップ400の内側は心の中、感情マップ400の外側は行動を表すため、感情マップ400の外側に行くほど、感情が目に見える(行動に表れる)ようになる。
【0158】
(6)感情マップ400の3時付近に分布する安心を覚えながら、人の話を聞く場合、ロボット100は、軽く首を縦に振って「ふんふん」と発する程度であるが、12時付近の愛の方になると、首を深く縦に振るような力強い頷きをしてよい。
【0159】
ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイク等においても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図(音声感情認識及び情動の脳生理信号分析システムに関する研究、徳島大学、博士論文:https://ci.nii.ac.jp/naid/500000375379)に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。
【0160】
感情マップでは学習を促す感情が2つ定義される。1つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう2度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう1つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。
【0161】
感情決定部232は、センサモジュール部210で解析された情報、及び認識されたユーザ10の状態を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、ユーザ10の感情を決定する。このニューラルネットワークは、センサモジュール部210で解析された情報、及び認識されたユーザ10の状態と、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、
図6に示す感情マップ900のように、近くに配置されている感情同士は、近い値を持つように学習される。
図6では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。
【0162】
また、感情決定部232は、特定のマッピングに従い、ロボット100の感情を決定してよい。具体的には、感情決定部232は、センサモジュール部210で解析された情報、状態認識部230によって認識されたユーザ10の状態、及びロボット100の状態を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、ロボット100の感情を決定する。このニューラルネットワークは、センサモジュール部210で解析された情報、認識されたユーザ10の状態、及びロボット100の状態と、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。例えば、タッチセンサ(図示省略)の出力から、ロボット100がユーザ10になでられていると認識される場合に、「嬉しい」の感情値「3」となることを表す学習データや、加速度センサ206の出力から、ロボット100がユーザ10に叩かれていると認識される場合に、「怒」の感情値「3」となることを表す学習データに基づいて、ニューラルネットワークが学習される。また、このニューラルネットワークは、
図6に示す感情マップ900のように、近くに配置されている感情同士は、近い値を持つように学習される。
【0163】
行動決定部236は、ユーザの行動と、ユーザの感情、ロボットの感情とを表すテキストに、ユーザの行動に対応するロボットの行動内容を質問するための固定文を追加して、対話機能を有する文章生成モデルに入力することにより、ロボットの行動内容を生成する。
【0164】
例えば、行動決定部236は、感情決定部232によって決定されたロボット100の感情から、表1に示すような感情テーブルを用いて、ロボット100の状態を表すテキストを取得する。ここで、感情テーブルには、感情の種類毎に、各感情値に対してインデックス番号が付与されており、インデックス番号毎に、ロボット100の状態を表すテキストが格納されている。
【0165】
感情決定部232によって決定されたロボット100の感情が、インデックス番号「2」に対応する場合、「とても楽しい状態」というテキストが得られる。なお、ロボット100の感情が、複数のインデックス番号に対応する場合、ロボット100の状態を表すテキストが複数得られる。
【0166】
また、ユーザ10の感情に対しても、表2に示すような感情テーブルを用意しておく。
【0167】
ここで、ユーザの行動が、「一緒にあそぼう」と話しかけるであり、ロボット100の感情が、インデックス番号「2」であり、ユーザ10の感情が、インデックス番号「3」である場合には、
【0168】
「ロボットはとても楽しい状態です。ユーザは普通に楽しい状態です。ユーザに「一緒にあそぼう」と話しかけられました。ロボットとして、どのように返事をしますか?」というテキストを文章生成モデルに入力し、ロボットの行動内容を取得する。行動決定部236は、この行動内容から、ロボットの行動を決定する。
【0169】
【0170】
【0171】
このように、行動決定部236は、ロボット100の感情の種類毎で、かつ、当該感情の強さ毎に予め定められたロボット100の感情に関する状態と、ユーザ10の行動とに対応して、ロボット100の行動内容を決定する。この形態では、ロボット100の感情に関する状態に応じて、ユーザ10との対話を行っている場合のロボット100の発話内容を分岐させることができる。すなわち、ロボット100は、ロボットの感情に応じたインデックス番号に応じて、ロボットの行動を変えることができるため、ユーザは、ロボットに心があるような印象を持ち、ロボットに対して話しかけるなどの行動をとることが促進される。
【0172】
また、行動決定部236は、ユーザの行動と、ユーザの感情、ロボットの感情とを表すテキストだけでなく、履歴データ222の内容を表すテキストも追加した上で、ユーザの行動に対応するロボットの行動内容を質問するための固定文を追加して、対話機能を有する文章生成モデルに入力することにより、ロボットの行動内容を生成するようにしてもよい。これにより、ロボット100は、ユーザの感情や行動を表す履歴データに応じて、ロボットの行動を変えることができるため、ユーザは、ロボットに個性があるような印象を持ち、ロボットに対して話しかけるなどの行動をとることが促進される。また、履歴データに、ロボットの感情や行動を更に含めるようにしてもよい。
【0173】
また、感情決定部232は、文章生成モデルによって生成されたロボット100の行動内容に基づいて、ロボット100の感情を決定してもよい。具体的には、感情決定部232は、文章生成モデルによって生成されたロボット100の行動内容を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、取得した各感情を示す感情値と、現在のロボット100の各感情を示す感情値とを統合し、ロボット100の感情を更新する。例えば、取得した各感情を示す感情値と、現在のロボット100の各感情を示す感情値とをそれぞれ平均して、統合する。このニューラルネットワークは、文章生成モデルによって生成されたロボット100の行動内容を表すテキストと、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。
【0174】
例えば、文章生成モデルによって生成されたロボット100の行動内容として、ロボット100の発話内容「それはよかったね。ラッキーだったね。」が得られた場合には、この発話内容を表すテキストをニューラルネットワークに入力すると、感情「嬉しい」の感情値として高い値が得られ、感情「嬉しい」の感情値が高くなるように、ロボット100の感情が更新される。
【0175】
ロボット100においては、ChatGPTなどの文章生成モデルと、感情決定部232とが連動して、自我を有し、ユーザがしゃべっていない間も様々なパラメータで成長し続ける方法が実行される。
【0176】
ChatGPTは、深層学習の手法を用いた大規模言語モデルである。ChatGPTは外部データを参照することもでき、例えば、ChatGPT pluginsでは、対話を通して天気情報やホテル予約情報といった様々な外部データを参照しながら、なるべく正確に答えを出す技術が知られている。例えば、ChatGPTでは、自然言語で目的を与えると、様々なプログラミング言語でソースコードを自動生成することができる。例えば、ChatGPTでは、問題のあるソースコードを与えると、デバッグして問題点を発見し、改善されたソースコードを自動生成することもできる。これらを組み合わせて、自然言語で目的を与えると、ソースコードに問題がなくなるまでコード生成とデバッグを繰り返す自律型エージェントが出てきている。そのような自律型エージェントとして、AutoGPT、babyAGI、JARVIS、及びE2B等が知られている。
【0177】
本参考形態に係るロボット100では、特許文献2(特許第619992号公報)に記載されているような、ロボットが強い感情を覚えたイベントデータを長く残し、ロボットにあまり感情が湧かなかったイベントデータを早く忘却するという技術を用いて、学習すべきイベントデータを、印象的な記憶が入ったデータベースに残してよい。
【0178】
また、ロボット100は、カメラ機能で取得したユーザ10の映像データ等を、履歴データ222に記録させてよい。ロボット100は、必要に応じて履歴データ222から映像データ等を取得して、ユーザ10に提供してよい。ロボット100は、感情の強さが強いほど、情報量がより多い映像データを生成して履歴データ222に記録させてよい。例えば、ロボット100は、骨格データ等の高圧縮形式の情報を記録している場合に、興奮の感情値が閾値を超えたことに応じて、HD動画等の低圧縮形式の情報の記録に切り換えてよい。ロボット100によれば、例えば、ロボット100の感情が高まったときの高精細な映像データを記録として残すことができる。
【0179】
ロボット100は、ロボット100がユーザ10と話していないときに、印象的なイベントデータが記憶されている履歴データ222から自動的にイベントデータをロードして、感情決定部232により、ロボットの感情を更新し続けてよい。ロボット100は、ロボット100がユーザ10と話していないとき、ロボット100の感情が学習を促す感情になったときに、印象的なイベントデータに基づいて、ユーザ10の感情を良くするように変化させるための感情変化イベントを作成することができる。これにより、ロボット100の感情の状態に応じた適切なタイミングでの自律的な学習(イベントデータを思い出すこと)を実現できるとともに、ロボット100の感情の状態を適切に反映した自律的な学習を実現することができる。
【0180】
学習を促す感情とは、ネガティブな状態では光吉博士の感情地図の「懺悔」や「反省」」あたりの感情であり、ポジティブな状態では感情地図の「欲」のあたりの感情である。
【0181】
ロボット100は、ネガティブな状態において、感情地図の「懺悔」及び「反省」を、学習を促す感情として取り扱ってよい。ロボット100は、ネガティブな状態において、感情地図の「懺悔」及び「反省」に加えて、「懺悔」及び「反省」に隣接する感情を、学習を促す感情として取り扱ってもよい。例えば、ロボット100は、「懺悔」及び「反省」に加えて、「惜」、「頑固」、「自滅」、「自戒」、「後悔」、及び「絶望」の少なくともいずれかを、学習を促す感情として取り扱う。これらにより、例えば、ロボット100が「もう2度とこんな想いはしたくない」「もう叱られたくない」というネガティブな気持ちを抱いたときに自律的な学習を実行するようにできる。
【0182】
ロボット100は、ポジティブな状態においては、感情地図の「欲」を、学習を促す感情として取り扱ってよい。ロボット100は、ポジティブな状態において、「欲」に加えて、「欲」に隣接する感情を、学習を促す感情として取り扱ってもよい。例えば、ロボット100は、「欲」に加えて、「うれしい」、「陶酔」、「渇望」、「期待」、及び「羞」の少なくともいずれかを、学習を促す感情として取り扱う。これらにより、例えば、ロボット100が「もっと欲しい」「もっと知りたい」というポジティブな気持ちを抱いたときに自律的な学習を実行するようにできる。
【0183】
ロボット100は、上述したような学習を促す感情以外の感情をロボット100が抱いているときには、自律的な学習を実行しないようにしてもよい。これにより、例えば、極端に怒っているときや、盲目的に愛を感じているときに、自律的な学習を実行しないようにできる。
【0184】
感情変化イベントとは、例えば、印象的なイベントの先にある行動を提案することである。印象的なイベントの先にある行動とは、感情地図のもっとも外側にある感情ラベルのことで、例えば「愛」の先には「寛容」や「許容」という行動があり、「怒」や「憎い」気持ちの先には「攻撃」や「根絶」がある。
【0185】
ロボット100がユーザ10と話していないときに実行される自律的な学習では、印象的な記憶に登場する人々と自分について、それぞれの感情、状況、行動などを組み合わせて、文章生成モデルを用いて、感情変化イベントを作成する。
【0186】
すべての感情値が0から5の6段階評価で表されているとして、印象的なイベントデータとして、「友達が叩かれて嫌そうにしていた」というイベントデータが履歴データ222に記憶されている場合を考える。ここでの友達はユーザ10を指し、ユーザ10の感情は「嫌悪感」であり、「嫌悪感」を表す値としては5が入っていたとする。また、ロボット100の感情は「不安」であり、「不安」を表す値としては4が入っていたとする。
【0187】
ロボット100はユーザ10と話をしていない間、自律的処理を実行することにより、様々なパラメータで成長し続けることができる。具体的には、履歴データ222から例えば感情値が強い順に並べた最上位のイベントデータとして「友達が叩かれて嫌そうにしていた」というイベントデータをロードする。ロードされたイベントデータにはロボット100の感情として強さ4の「不安」が紐づいており、ここで、友達であるユーザ10の感情として強さ5の「嫌悪感」が紐づいていたとする。ロボット100の現在の感情値が、ロード前に強さ3の「安心」であるとすると、ロードされた後には強さ4の「不安」と強さ5の「嫌悪感」の影響が加味されてロボット100の感情値が、口惜しい(悔しい)を意味する「惜」に変化することがある。このとき、「惜」は学習を促す感情であるため、ロボット100は、ロボット行動として、イベントデータを思い出すことを決定し、感情変化イベントを作成する。このとき、文章生成モデルに入力する情報は、印象的なイベントデータを表すテキストであり、本例は「友達が叩かれて嫌そうにしていた」ことである。また、感情地図では最も内側に「嫌悪感」の感情があり、それに対応する行動として最も外側に「攻撃」が予測されるため、本例では友達がそのうち誰かを「攻撃」することを避けるように感情変化イベントが作成される。
【0188】
例えば、印象的なイベントデータの情報を使用して、穴埋め問題を解けば、下記のような入力テキストを自動生成できる。
【0189】
「ユーザが叩かれていました。そのとき、ユーザは、非常に嫌悪感を持っていました。ロボットはとても不安でした。ロボットが次にユーザに会ったときにかけるべきセリフを30文字以内で教えてください。ただし、会う時間帯に関係ないようにお願いします。また、直接的な表現は避けてください。候補は3つ挙げるものとします。
【0190】
<期待するフォーマット>
【0191】
候補1:(ロボットがユーザにかけるべき言葉)
【0192】
候補2:(ロボットがユーザにかけるべき言葉)
【0193】
候補3:(ロボットがユーザにかけるべき言葉)」
【0194】
このとき、文章生成モデルの出力は、例えば、以下のようになる。
【0195】
「候補1:大丈夫?昨日のこと気になってたんだ。
【0196】
候補2:昨日のこと、気にしていたよ。どうしたらいい?
【0197】
候補3:心配していたよ。何か話してもらえる?」
【0198】
さらに、感情変化イベントの作成で得られた情報については、ロボット100は、下記のような入力テキストを自動生成してもよい。
【0199】
「「ユーザが叩かれていました」場合、そのユーザに次の声をかけたとき、ユーザはどのような気持ちになるでしょうか。ユーザの感情は、「喜A怒B哀C楽D」の形式で、AからDは、0から5の6段階評価の整数が入るものとします。
【0200】
候補1:大丈夫?昨日のこと気になってたんだ。
【0201】
候補2:昨日のこと、気にしていたよ。どうしたらいい?
【0202】
候補3:心配していたよ。何か話してもらえる?」
【0203】
このとき、文章生成モデルの出力は、例えば、以下のようになる。
【0204】
「ユーザの感情は以下のようになるかもしれません。
【0205】
候補1:喜3怒1哀2楽2
【0206】
候補2:喜2怒1哀3楽2
【0207】
候補3:喜2怒1哀3楽3」
【0208】
このように、ロボット100は、感情変化イベントを作成した後に、想いをめぐらす処理を実行してもよい。
【0209】
最後に、ロボット100は、複数候補の中から、もっとも人が喜びそうな候補1を使用して、感情変化イベントを作成し、行動予定データ224に格納し、ユーザ10に次回会ったときに備えてよい。
【0210】
以上のように、家族や友達と会話をしていないときでも、印象的なイベントデータが記憶されている履歴データ222の情報を使用して、ロボットの感情値を決定し続け、上述した学習を促す感情になったときに、ロボット100はロボット100の感情に応じて、ユーザ10と会話していないときに自律的学習を実行し、履歴データ222や行動予定データ224を更新し続ける。
【0211】
以上は、感情値を用いた例であるが、感情地図ではホルモンの分泌量とイベント種類から感情をつくることができるため、印象的なイベントデータにひもづく値としてはホルモンの種類、ホルモンの分泌量、イベントの種類であっても良い。
【0212】
以下、具体的な実施例を記載する。
【0213】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの興味関心のあるトピックや趣味に関する情報を調べる。
【0214】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの誕生日や記念日に関する情報を調べ、祝福のメッセージを考える。
【0215】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザが行きたがっている場所や食べ物、商品のレビューを調べる。
【0216】
ロボット100は、例えば、ユーザと話をしていないときでも、天気情報を調べ、ユーザのスケジュールや計画に合わせたアドバイスを提供する。
【0217】
ロボット100は、例えば、ユーザと話をしていないときでも、地元のイベントやお祭りの情報を調べ、ユーザに提案する。
【0218】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの興味のあるスポーツの試合結果やニュースを調べ、話題を提供する。
【0219】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの好きな音楽やアーティストの情報を調べ、紹介する。
【0220】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザが気になっている社会的な問題やニュースに関する情報を調べ、意見を提供する。
【0221】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの故郷や出身地に関する情報を調べ、話題を提供する。
【0222】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの仕事や学校の情報を調べ、アドバイスを提供する。
【0223】
ロボット100は、ユーザと話をしていないときでも、ユーザが興味を持つ書籍や漫画、映画、ドラマの情報を調べ、紹介する。
【0224】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの健康に関する情報を調べ、アドバイスを提供する。
【0225】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの旅行の計画に関する情報を調べ、アドバイスを提供する。
【0226】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの家や車の修理やメンテナンスに関する情報を調べ、アドバイスを提供する。
【0227】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザが興味を持つ美容やファッションの情報を調べ、アドバイスを提供する。
【0228】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザのペットの情報を調べ、アドバイスを提供する。
【0229】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの趣味や仕事に関連するコンテストやイベントの情報を調べ、提案する。
【0230】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザのお気に入りの飲食店やレストランの情報を調べ、提案する。
【0231】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザの人生に関わる大切な決断について、情報を収集しアドバイスを提供する。
【0232】
ロボット100は、例えば、ユーザと話をしていないときでも、ユーザが心配している人に関する情報を調べ、助言を提供する。
【0233】
[第2参考形態]
【0234】
第2参考形態では、上記のロボット100を、ぬいぐるみに搭載するか、又はぬいぐるみに搭載された制御対象機器(スピーカやカメラ)に無線又は有線で接続された制御装置に適用する。なお、第1参考形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0235】
第2参考形態は、具体的には、以下のように構成される。例えば、ロボット100を、ユーザ10と日常を過ごしながら、当該ユーザ10と日常に関する情報を基に、対話を進めたり、ユーザ10の趣味趣向に合わせた情報を提供する共同生活者(具体的には、
図7及び
図8に示すぬいぐるみ100N)に適用する。第2参考形態では、上記のロボット100の制御部分を、スマートホン50に適用した例について説明する。
【0236】
ロボット100の入出力デバイスとしての機能を搭載したぬいぐるみ100Nは、ロボット100の制御部分として機能するスマートホン50が着脱可能であり、ぬいぐるみ100Nの内部で、入出力デバイスと、収容されたスマートホン50とが接続されている。
【0237】
図7(A)に示される如く、ぬいぐるみ100Nは、本参考形態(その他の参考形態)では、外観が柔らかい布生地で覆われた熊の形状であり、その内方に形成された空間部52には、入出力デバイスとして、センサ部200A及び制御対象252Aが配置されている(
図9参照)。センサ部200Aは、マイク201及び2Dカメラ203を含む。具体的には、
図7(B)に示される如く、空間部52には、耳54に相当する部分にセンサ部200のマイク201が配置され、目56に相当する部分にセンサ部200の2Dカメラ203が配置され、及び、口58に相当する部分に制御対象252Aの一部を構成するスピーカ60が配置されている。なお、マイク201及びスピーカ60は、必ずしも別体である必要はなく、一体型のユニットであってもよい。ユニットの場合は、ぬいぐるみ100Nの鼻の位置など、発話が自然に聞こえる位置に配置するとよい。なお、ぬいぐるみ100Nは、動物の形状である場合を例に説明したが、これに限定されるものではない。ぬいぐるみ100Nは、特定のキャラクタの形状であってもよい。
【0238】
図9は、ぬいぐるみ100Nの機能構成を概略的に示す。ぬいぐるみ100Nは、センサ部200Aと、センサモジュール部210と、格納部220と、制御部228と、制御対象252Aとを有する。
【0239】
本参考形態のぬいぐるみ100Nに収容されたスマートホン50は、第1参考形態のロボット100と同様の処理を実行する。すなわち、スマートホン50は、
図9に示す、センサモジュール部210としての機能、格納部220としての機能、及び制御部228としての機能を有する。
【0240】
図8に示される如く、ぬいぐるみ100Nの一部(例えば、背部)には、ファスナー62が取り付けられており、当該ファスナー62を開放することで、外部と空間部52とが連通する構成となっている。
【0241】
ここで、スマートホン50が、外部から空間部52へ収容され、USBハブ64(
図7(B)参照)を介して、各入出力デバイスとUSB接続することで、上記第1参考形態のロボット100と同等の機能を持たせることができる。
【0242】
また、USBハブ64には、非接触型の受電プレート66が接続されている。受電プレート66には、受電用コイル66Aが組み込まれている。受電プレート66は、ワイヤレス給電を受電するワイヤレス受電部の一例である。
【0243】
受電プレート66は、ぬいぐるみ100Nの両足の付け根部68付近に配置され、ぬいぐるみ100Nを載置ベース70に置いたときに、最も載置ベース70に近い位置となる。載置ベース70は、外部のワイヤレス送電部の一例である。
【0244】
この載置ベース70に置かれたぬいぐるみ100Nが、自然な状態で置物として鑑賞することが可能である。
【0245】
また、この付け根部は、他の部位のぬいぐるみ100Nの表層厚さに比べて薄く形成しており、より載置ベース70に近い状態で保持されるようになっている。
【0246】
載置ベース70には、充電パット72を備えている。充電パット72は、送電用コイル72Aが組み込まれており、送電用コイル72Aが信号を送って、受電プレート66の受電用コイル66Aを検索し、受電用コイル66Aが見つかると、送電用コイル72Aに電流が流れて磁界を発生させ、受電用コイル66Aが磁界に反応して電磁誘導が始まる。これにより、受電用コイル66Aに電流が流れ、USBハブ64を介して、スマートホン50のバッテリー(図示省略)に電力が蓄えられる。
【0247】
すなわち、ぬいぐるみ100Nを置物として載置ベース70に載置することで、スマートホン50は、自動的に充電されるため、充電のために、スマートホン50をぬいぐるみ100Nの空間部52から取り出す必要がない。
【0248】
なお、第2参考形態では、スマートホン50をぬいぐるみ100Nの空間部52に収容して、有線による接続(USB接続)したが、これに限定されるものではない。例えば、無線機能(例えば、「Bluetooth(登録商標)」)を持たせた制御装置をぬいぐるみ100Nの空間部52に収容して、制御装置をUSBハブ64に接続してもよい。この場合、スマートホン50を空間部52に入れずに、スマートホン50と制御装置とが、無線で通信し、外部のスマートホン50が、制御装置を介して、各入出力デバイスと接続することで、上記第1参考形態のロボット100と同等の機能を持たせることができる。また、制御装置をぬいぐるみ100Nの空間部52に収容した制御装置と、外部のスマートホン50とを有線で接続してもよい。
【0249】
また、第2参考形態では、熊のぬいぐるみ100Nを例示したが、他の動物でもよいし、人形であってもよいし、特定のキャラクタの形状であってもよい。また、着せ替え可能でもよい。さらに、表皮の材質は、布生地に限らず、ソフトビニール製等、他の材質でもよいが、柔らかい材質であることが好ましい。
【0250】
さらに、ぬいぐるみ100Nの表皮にモニタを取り付けて、ユーザ10に視覚を通じて情報を提供する制御対象252を追加してもよい。例えば、目56をモニタとして、目に映る画像によって喜怒哀楽を表現してもよいし、腹部に、内蔵したスマートホン50のモニタが透過する窓を設けてもよい。さらに、目56をプロジェクターとして、壁面に投影した画像によって喜怒哀楽を表現してもよい。
【0251】
第2参考形態によれば、ぬいぐるみ100Nの中に既存のスマートホン50を入れ、そこから、USB接続を介して、カメラ203、マイク201、スピーカ60等をそれぞれ適切な位置に延出させた。
【0252】
さらに、ワイヤレス充電のために、スマートホン50と受電プレート66とをUSB接続して、受電プレート66を、ぬいぐるみ100Nの内部からみてなるべく外側に来るように配置した。
【0253】
スマートホン50のワイヤレス充電を使おうとすると、スマートホン50をぬいぐるみ100Nの内部からみてできるだけ外側に配置しなければならず、ぬいぐるみ100Nを外から触ったときにごつごつしてしまう。
【0254】
そのため、スマートホン50を、できるだけぬいぐるみ100Nの中心部に配置し、ワイヤレス充電機能(受電プレート66)を、できるだけぬいぐるみ100Nの内部からみて外側に配置した。カメラ203、マイク201、スピーカ60、及びスマートホン50は、受電プレート66を介してワイヤレス給電を受電する。
【0255】
なお、第2参考形態のぬいぐるみ100Nの他の構成及び作用は、第1参考形態のロボット100と同様であるため、説明を省略する。
【0256】
また、ぬいぐるみ100Nの一部(例えば、センサモジュール部210、格納部220、制御部228)が、ぬいぐるみ100Nの外部(例えば、サーバ)に設けられ、ぬいぐるみ100Nが、外部と通信することで、上記のぬいぐるみ100Nの各部として機能するようにしてもよい。
【0257】
[第3参考形態]
【0258】
上記第1参考形態では、行動制御システムをロボット100に適用する場合を例示したが、第3参考形態では、上記のロボット100を、ユーザと対話するためのエージェントとし、行動制御システムをエージェントシステムに適用する。なお、第1参考形態及び第2参考形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0259】
図10は、行動制御システムの機能の一部又は全部を利用して構成されるエージェントシステム500の機能ブロック図である。
【0260】
エージェントシステム500は、ユーザ10との間で行われる対話を通じてユーザ10の意図に沿った一連の行動を行うコンピュータシステムである。ユーザ10との対話は、音声又はテキストによって行うことが可能である。
【0261】
エージェントシステム500は、センサ部200Aと、センサモジュール部210と、格納部220と、制御部228Bと、制御対象252Bと、を有する。
【0262】
エージェントシステム500は、例えば、ロボット、人形、ぬいぐるみ、ウェアラブル端末(ペンダント、スマートウォッチ、スマート眼鏡)、スマートホン、スマートスピーカ、イヤホン及びパーナルコンピュータなどに搭載され得る。また、エージェントシステム500は、ウェブサーバに実装され、ユーザが所持するスマートホン等の通信端末上で動作するウェブブラウザを介して利用されてもよい。
【0263】
エージェントシステム500は、例えばユーザ10のために行動するバトラー、秘書、教師、パートナー、友人、恋人又は教師としての役割を担う。エージェントシステム500は、ユーザ10と対話するだけでなく、アドバイスの提供、目的地までの案内又はユーザの好みに応じたリコメンド等を行う。また、エージェントシステム500はサービスプロバイダに対して予約、注文又は代金の支払い等を行う。
【0264】
感情決定部232は、上記第1参考形態と同様に、ユーザ10の感情及びエージェント自身の感情を決定する。行動決定部236は、ユーザ10及びエージェントの感情も加味しつつロボット100の行動を決定する。すなわち、エージェントシステム500は、ユーザ10の感情を理解し、空気を読んで心からのサポート、アシスト、アドバイス及びサービス提供を実現する。また、エージェントシステム500は、ユーザ10の悩み相談にものり、ユーザを慰め、励まし、元気づける。また、エージェントシステム500は、ユーザ10と遊び、絵日記を描き、昔を思い出させてくれる。エージェントシステム500は、ユーザ10の幸福感が増すような行動を行う。ここで、エージェントとは、ソフトウェア上で動作するエージェントである。
【0265】
制御部228Bは、状態認識部230と、感情決定部232と、行動認識部234と、行動決定部236と、記憶制御部238と、行動制御部250と、関連情報収集部270と、コマンド取得部272と、RPA(Robotic Process Automation)274と、キャラクタ設定部276と、通信処理部280と、を有する。
【0266】
行動決定部236は、上記第1参考形態と同様に、エージェントの行動として、ユーザ10と対話するためのエージェントの発話内容を決定する。行動制御部250は、エージェントの発話内容を、音声及びテキストの少なくとも一方によって制御対象252Bとしてのスピーカやディスプレイにより出力する。
【0267】
キャラクタ設定部276は、ユーザ10からの指定に基づいて、エージェントシステム500がユーザ10と対話を行う際のエージェントのキャラクタを設定する。すなわち、行動決定部236から出力される発話内容は、設定されたキャラクタを有するエージェントを通じて出力される。キャラクタとして、例えば、俳優、芸能人、アイドル、スポーツ選手等の実在の著名人又は有名人を設定することが可能である。また、漫画、映画又はアニメーションに登場する架空のキャラクタを設定することも可能である。例えば、映画「ローマの休日」の登場する「オードリー・ヘップバーン」が演じる「アン王女」をエージェントのキャラクタとして設定することが可能である。エージェントのキャラクタが既知のものである場合には、当該キャラクタの声、言葉遣い、口調及び性格は、既知であるため、ユーザ10が自分の好みのキャラクタを指定するのみで、キャラクタ設定部276におけるプロンプト設定が自動で行われる。設定されたキャラクタの声、言葉遣い、口調及び性格が、ユーザ10との対話において反映される。すなわち、行動制御部250は、キャラクタ設定部276によって設定されたキャラクタに応じた音声を合成し、合成した音声によってエージェントの発話内容を出力する。これにより、ユーザ10は、自分の好みのキャラクタ(例えば好きな俳優)本人と対話しているような感覚を持つことができる。
【0268】
エージェントシステム500が例えばスマートホン等のディスプレイを有するデバイスに搭載される場合、キャラクタ設定部276によって設定されたキャラクタを有するエージェントのアイコン、静止画又は動画がディスプレイに表示されてもよい。エージェントの画像は、例えば、3Dレンダリング等の画像合成技術を用いて生成される。エージェントシステム500において、エージェントの画像が、ユーザ10の感情、エージェントの感情、及びエージェントの発話内容に応じたジェスチャーを行いながらユーザ10との対話が行われてもよい。なお、エージェントシステム500は、ユーザ10との対話に際し、画像は出力せずに音声のみを出力してもよい。
【0269】
感情決定部232は、第1参考形態と同様に、ユーザ10の感情を示す感情値及びエージェント自身の感情値を決定する。本参考形態では、ロボット100の感情値の代わりに、エージェントの感情値を決定する。エージェント自身の感情値は、設定されたキャラクタの感情に反映される。エージェントシステム500が、ユーザ10と対話する際、ユーザ10の感情のみならず、エージェントの感情が対話に反映される。すなわち、行動制御部250は、感情決定部232によって決定された感情に応じた態様で発話内容を出力する。
【0270】
また、エージェントシステム500が、ユーザ10に向けた行動を行う場合においてもエージェントの感情が反映される。例えば、ユーザ10がエージェントシステム500に写真撮影を依頼した場合において、エージェントシステム500がユーザの依頼に応じて写真撮影を行うか否かは、エージェントが抱いている「悲」の感情の度合いに応じて決まる。キャラクタは、ポジティブな感情を抱いている場合には、ユーザ10に対して好意的な対話又は行動を行い、ネガティブな感情を抱いている場合には、ユーザ10に対して反抗的な対話又は行動を行う。
【0271】
履歴データ222は、ユーザ10とエージェントシステム500との間で行われた対話の履歴をイベントデータとして記憶している。格納部220は、外部のクラウドストレージによって実現されてもよい。エージェントシステム500は、ユーザ10と対話する場合又はユーザ10に向けた行動を行う場合、履歴データ222に格納された対話履歴の内容を加味して対話内容又は行動内容を決定する。例えば、エージェントシステム500は、履歴データ222に格納された対話履歴に基づいてユーザ10の趣味及び嗜好を把握する。エージェントシステム500は、ユーザ10の趣味及び嗜好に合った対話内容を生成したり、リコメンドを提供したりする。行動決定部236は、履歴データ222に格納された対話履歴に基づいてエージェントの発話内容を決定する。履歴データ222には、ユーザ10との対話を通じて取得したユーザ10の氏名、住所、電話番号、クレジットカード番号等の個人情報が格納される。ここで、「クレジットカード番号を登録しておきますか?」など、エージェントが自発的にユーザ10に対して個人情報を登録するか否かを質問する発話をし、ユーザ10の回答に応じて、個人情報を履歴データ222に格納するようにしてもよい。
【0272】
行動決定部236は、上記第1参考形態で説明したように、文章生成モデルを用いて生成された文章に基づいて発話内容を生成する。具体的には、行動決定部236は、ユーザ10により入力されたテキストまたは音声、感情決定部232によって決定されたユーザ10及びキャラクタの双方の感情及び履歴データ222に格納された会話の履歴を、文章生成モデルに入力して、エージェントの発話内容を生成する。このとき、行動決定部236は、更に、キャラクタ設定部276によって設定されたキャラクタの性格を、文章生成モデルに入力して、エージェントの発話内容を生成してもよい。エージェントシステム500において、文章生成モデルは、ユーザ10とのタッチポイントとなるフロントエンド側に位置するものではなく、あくまでエージェントシステム500の道具として利用される。
【0273】
コマンド取得部272は、発話理解部212の出力を用いて、ユーザ10との対話を通じてユーザ10から発せられる音声又はテキストから、エージェントのコマンドを取得する。コマンドは、例えば、情報検索、店の予約、チケットの手配、商品・サービスの購入、代金の支払い、目的地までのルート案内、リコメンドの提供等のエージェントシステム500が実行すべき行動の内容を含む。
【0274】
RPA274は、コマンド取得部272によって取得されたコマンドに応じた行動を行う。RPA274は、例えば、情報検索、店の予約、チケットの手配、商品・サービスの購入、代金の支払い等のサービスプロバイダの利用に関する行動を行う。
【0275】
RPA274は、サービスプロバイダの利用に関する行動を実行するために必要なユーザ10の個人情報を、履歴データ222から読み出して利用する。例えば、エージェントシステム500は、ユーザ10からの依頼に応じて商品の購入を行う場合、履歴データ222に格納されているユーザ10の氏名、住所、電話番号、クレジットカード番号等の個人情報を読み出して利用する。初期設定においてユーザ10に個人情報の入力を要求することは不親切であり、ユーザにとっても不快である。本参考形態に係るエージェントシステム500においては、初期設定においてユーザ10に個人情報の入力を要求するのではなく、ユーザ10との対話を通じて取得した個人情報を記憶しておき、必要に応じて読み出して利用する。これにより、ユーザに不快な思いをさせることを回避でき、ユーザの利便性が向上する。
【0276】
エージェントシステム500は、例えば、以下のステップ1~ステップ6により、対話処理を実行する。
【0277】
(ステップ1)エージェントシステム500は、エージェントのキャラクタを設定する。具体的には、キャラクタ設定部276は、ユーザ10からの指定に基づいて、エージェントシステム500がユーザ10と対話を行う際のエージェントのキャラクタを設定する。
【0278】
(ステップ2)エージェントシステム500は、ユーザ10から入力された音声又はテキストを含むユーザ10の状態、ユーザ10の感情値、エージェントの感情値、履歴データ222を取得する。具体的には、上記ステップS100~S103と同様の処理を行い、ユーザ10から入力された音声又はテキストを含むユーザ10の状態、ユーザ10の感情値、エージェントの感情値、及び履歴データ222を取得する。
【0279】
(ステップ3)エージェントシステム500は、エージェントの発話内容を決定する。
【0280】
具体的には、行動決定部236は、ユーザ10により入力されたテキストまたは音声、感情決定部232によって特定されたユーザ10及びキャラクタの双方の感情及び履歴データ222に格納された会話の履歴を、文章生成モデルに入力して、エージェントの発話内容を生成する。
【0281】
例えば、ユーザ10により入力されたテキストまたは音声、感情決定部232によって特定されたユーザ10及びキャラクタの双方の感情及び履歴データ222に格納された会話の履歴を表すテキストに、「このとき、エージェントとして、どのように返事をしますか?」という固定文を追加して、文章生成モデルに入力し、エージェントの発話内容を取得する。
【0282】
一例として、ユーザ10に入力されたテキスト又は音声が「今夜7時に、近くの美味しいチャイニーズレストランを予約してほしい」である場合、エージェントの発話内容として、「かしこまりました。」、「こちらがおすすめのレストランです。1.AAAA。2.BBBB。3.CCCC。4.DDDD」が取得される。
【0283】
また、ユーザ10に入力されたテキスト又は音声が「4番目のDDDDがいい」である場合、エージェントの発話内容として、「かしこまりました。予約してみます。何名の席です。」が取得される。
【0284】
(ステップ4)エージェントシステム500は、エージェントの発話内容を出力する。
【0285】
具体的には、行動制御部250は、キャラクタ設定部276によって設定されたキャラクタに応じた音声を合成し、合成した音声によってエージェントの発話内容を出力する。
【0286】
(ステップ5)エージェントシステム500は、エージェントのコマンドを実行するタイミングであるか否かを判定する。
【0287】
具体的には、行動決定部236は、文章生成モデルの出力に基づいて、エージェントのコマンドを実行するタイミングであるか否かを判定する。例えば、文章生成モデルの出力に、エージェントがコマンドを実行する旨が含まれている場合には、エージェントのコマンドを実行するタイミングであると判定し、ステップ6へ移行する。一方、エージェントのコマンドを実行するタイミングでないと判定された場合には、上記ステップ2へ戻る。
【0288】
(ステップ6)エージェントシステム500は、エージェントのコマンドを実行する。
【0289】
具体的には、コマンド取得部272は、ユーザ10との対話を通じてユーザ10から発せられる音声又はテキストから、エージェントのコマンドを取得する。そして、RPA274は、コマンド取得部272によって取得されたコマンドに応じた行動を行う。例えば、コマンドが「情報検索」である場合、ユーザ10との対話を通じて得られた検索クエリ、及びAPI(Application Programming Interface)を用いて、検索サイトにより、情報検索を行う。行動決定部236は、検索結果を、文章生成モデルに入力して、エージェントの発話内容を生成する。行動制御部250は、キャラクタ設定部276によって設定されたキャラクタに応じた音声を合成し、合成した音声によってエージェントの発話内容を出力する。
【0290】
また、コマンドが「店の予約」である場合、ユーザ10との対話を通じて得られた予約情報、予約先の店情報、及びAPIを用いて、電話ソフトウエアにより、予約先の店へ電話をかけて、予約を行う。このとき、行動決定部236は、対話機能を有する文章生成モデルを用いて、相手から入力された音声に対するエージェントの発話内容を取得する。そして、行動決定部236は、店の予約の結果(予約の正否)を、文章生成モデルに入力して、エージェントの発話内容を生成する。行動制御部250は、キャラクタ設定部276によって設定されたキャラクタに応じた音声を合成し、合成した音声によってエージェントの発話内容を出力する。
【0291】
そして、上記ステップ2へ戻る。
【0292】
ステップ6において、エージェントにより実行された行動(例えば、店の予約)の結果についても履歴データ222に格納される。履歴データ222に格納されたエージェントにより実行された行動の結果は、エージェントシステム500によりユーザ10の趣味、又は嗜好を把握することに活用される。例えば、同じ店を複数回予約している場合には、その店をユーザ10が好んでいると認識したり、予約した時間帯、又はコースの内容もしくは料金等の予約内容を次回の予約の際にお店選びの基準としたりする。
【0293】
このように、エージェントシステム500は、対話処理を実行し、必要に応じて、サービスプロバイダの利用に関する行動を行うことができる。
【0294】
図11及び
図12は、エージェントシステム500の動作の一例を示す図である。
図11には、エージェントシステム500が、ユーザ10との対話を通じてレストランの予約を行う態様が例示されている。
図11では、左側に、エージェントの発話内容を示し、右側に、ユーザ10の発話内容を示している。エージェントシステム500は、ユーザ10との対話履歴に基づいてユーザ10の好みを把握し、ユーザ10の好みに合ったレストランのリコメンドリストを提供し、選択されたレストランの予約を実行することができる。
【0295】
一方、
図12には、エージェントシステム500が、ユーザ10との対話を通じて通信販売サイトにアクセスして商品の購入を行う態様が例示されている。
図12では、左側に、エージェントの発話内容を示し、右側に、ユーザ10の発話内容を示している。エージェントシステム500は、ユーザ10との対話履歴に基づいて、ユーザがストックしている飲料の残量を推測し、ユーザ10に当該飲料の購入を提案し、実行することができる。また、エージェントシステム500は、ユーザ10との過去の対話履歴に基づいて、ユーザの好みを把握し、ユーザが好むスナックをリコメンドすることができる。このように、エージェントシステム500は、執事のようなエージェントとしてユーザ10とコミュニケーションを取りながら、レストラン予約、又は、商品の購入決済など様々な行動まで実行することで、ユーザ10の日々の生活を支えてくれる。
【0296】
なお、第3参考形態のエージェントシステム500の他の構成及び作用は、第1参考形態のロボット100と同様であるため、説明を省略する。
【0297】
また、エージェントシステム500の一部(例えば、センサモジュール部210、格納部220、制御部228B)が、ユーザが所持するスマートホン等の通信端末の外部(例えば、サーバ)に設けられ、通信端末が、外部と通信することで、上記のエージェントシステム500の各部として機能するようにしてもよい。
【0298】
[第4参考形態]
【0299】
第4参考形態では、上記のエージェントシステムを、スマート眼鏡に適用する。なお、第1参考形態~第3参考形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0300】
図13は、行動制御システムの機能の一部又は全部を利用して構成されるエージェントシステム700の機能ブロック図である。
【0301】
図14に示すように、スマート眼鏡720は、眼鏡型のスマートデバイスであり、一般的な眼鏡と同様にユーザ10によって装着される。スマート眼鏡720は、電子機器及びウェアラブル端末の一例である。
【0302】
スマート眼鏡720は、エージェントシステム700を備えている。制御対象252Bに含まれるディスプレイは、ユーザ10に対して各種情報を表示する。ディスプレイは、例えば、液晶ディスプレイである。ディスプレイは、例えば、スマート眼鏡720のレンズ部分に設けられており、ユーザ10によって表示内容が視認可能とされている。制御対象252Bに含まれるスピーカは、ユーザ10に対して各種情報を示す音声を出力する。スマート眼鏡720は、タッチパネル(図示省略)を備えており、タッチパネルは、ユーザ10からの入力を受け付ける。
【0303】
センサ部200Bの加速度センサ206、温度センサ207、及び心拍センサ208は、ユーザ10の状態を検出する。なお、これらのセンサはあくまで一例にすぎず、ユーザ10の状態を検出するためにその他のセンサが搭載されてよいことはもちろんである。
【0304】
マイク201は、ユーザ10が発した音声又はスマート眼鏡720の周囲の環境音を取得する。2Dカメラ203は、スマート眼鏡720の周囲を撮像可能とされている。2Dカメラ203は、例えば、CCDカメラである。
【0305】
センサモジュール部210Bは、音声感情認識部211及び発話理解部212を含む。制御部228Bの通信処理部280は、スマート眼鏡720と外部との通信を司る。
【0306】
図14は、スマート眼鏡720によるエージェントシステム700の利用態様の一例を示す図である。スマート眼鏡720は、ユーザ10に対してエージェントシステム700を利用した各種サービスの提供を実現する。例えば、ユーザ10によりスマート眼鏡720が操作(例えば、マイクロフォンに対する音声入力、又は指でタッチパネルがタップされる等)されると、スマート眼鏡720は、エージェントシステム700の利用を開始する。ここで、エージェントシステム700を利用するとは、スマート眼鏡720が、エージェントシステム700を有し、エージェントシステム700を利用することを含み、また、エージェントシステム700の一部(例えば、センサモジュール部210B、格納部220、制御部228B)が、スマート眼鏡720の外部(例えば、サーバ)に設けられ、スマート眼鏡720が、外部と通信することで、エージェントシステム700を利用する態様も含む。
【0307】
ユーザ10がスマート眼鏡720を操作することで、エージェントシステム700とユーザ10との間にタッチポイントが生じる。すなわち、エージェントシステム700によるサービスの提供が開始される。第3参考形態で説明したように、エージェントシステム700において、キャラクタ設定部276によりエージェントのキャラクタ(例えば、オードリー・ヘップバーンのキャラクタ)の設定が行われる。
【0308】
感情決定部232は、ユーザ10の感情を示す感情値及びエージェント自身の感情値を決定する。ここで、ユーザ10の感情を示す感情値は、スマート眼鏡720に搭載されたセンサ部200Bに含まれる各種センサから推定される。例えば、心拍センサ208により検出されたユーザ10の心拍数が上昇している場合には、「不安」「恐怖」等の感情値が大きく推定される。
【0309】
また、温度センサ207によりユーザの体温が測定された結果、例えば、平均体温を上回っている場合には、「苦痛」「辛い」等の感情値が大きく推定される。また、例えば、加速度センサ206によりユーザ10が何らかのスポーツを行っていることが検出された場合には、「楽しい」等の感情値が大きく推定される。
【0310】
また、例えば、スマート眼鏡720に搭載されたマイク201により取得されたユーザ10の音声、又は発話内容からユーザ10の感情値が推定されてもよい。例えば、ユーザ10が声を荒げている場合には、「怒り」等の感情値が大きく推定される。
【0311】
感情決定部232により推定された感情値が予め定められた値よりも高くなった場合、エージェントシステム700は、スマート眼鏡720に対して周囲の状況に関する情報を取得させる。具体的には、例えば、2Dカメラ203に対して、ユーザ10の周囲の状況(例えば、周囲にいる人物、又は物体)を示す画像又は動画を撮像させる。また、マイク201に対して周囲の環境音を録音させる。その他の周囲の状況に関する情報としては、日付、時刻、位置情報、又は天候を示す情報等が挙げられる。周囲の状況に関する情報は、感情値と共に履歴データ222に保存される。履歴データ222は、外部のクラウドストレージによって実現されてもよい。このように、スマート眼鏡720によって得られた周囲の状況は、その時のユーザ10の感情値と対応付けられた状態で、いわゆるライフログとして履歴データ222に保存される。
【0312】
エージェントシステム700において、履歴データ222に周囲の状況を示す情報が、感情値と対応付けられて保存される。これにより、ユーザ10の趣味、嗜好、又は性格等の個人情報がエージェントシステム700によって把握される。例えば、野球観戦の様子を示す画像と、「喜び」「楽しい」等の感情値が対応付けられている場合には、ユーザ10の趣味が野球観戦であり、好きなチーム、又は選手が、履歴データ222に格納された情報からエージェントシステム700により把握される。
【0313】
そして、エージェントシステム700は、ユーザ10と対話する場合又はユーザ10に向けた行動を行う場合、履歴データ222に格納された周囲状況の内容を加味して対話内容又は行動内容を決定する。なお、周囲状況に加えて、上述したように履歴データ222に格納された対話履歴を加味して対話内容又は行動内容が決定されてよいことはもちろんである。
【0314】
上述したように、行動決定部236は、文章生成モデルによって生成された文章に基づいて発話内容を生成する。具体的には、行動決定部236は、ユーザ10により入力されたテキストまたは音声、感情決定部232によって決定されたユーザ10及びエージェントの双方の感情、履歴データ222に格納された会話の履歴、及びエージェントの性格等を文章生成モデルに入力して、エージェントの発話内容を生成する。さらに、行動決定部236は、履歴データ222に格納された周囲状況を文章生成モデルに入力して、エージェントの発話内容を生成する。
【0315】
生成された発話内容は、例えば、スマート眼鏡720に搭載されたスピーカからユーザ10に対して音声出力される。この場合において、音声としてエージェントのキャラクタに応じた合成音声が用いられる。行動制御部250は、エージェントのキャラクタ(例えば、オードリー・ヘップバーン)の声質を再現することで、合成音声を生成したり、キャラクタの感情に応じた合成音声(例えば、「怒」の感情である場合には語気を強めた音声)を生成したりする。また、音声出力に代えて、又は音声出力とともに、ディスプレイに対して発話内容が表示されてもよい。
【0316】
RPA274は、コマンド(例えば、ユーザ10との対話を通じてユーザ10から発せられる音声又はテキストから取得されたエージェントのコマンド)に応じた動作を実行する。RPA274は、例えば、情報検索、店の予約、チケットの手配、商品・サービスの購入、代金の支払い、経路案内、翻訳等のサービスプロバイダの利用に関する行動を行う。
【0317】
また、その他の例として、RPA274は、ユーザ10(例えば、子供)がエージェントとの対話を通じて音声入力した内容を、相手先(例えば、親)に送信する動作を実行する。送信手段としては、例えば、メッセージアプリケーションソフト、チャットアプリケーションソフト、又はメールアプリケーションソフト等が挙げられる。
【0318】
RPA274による動作が実行された場合に、例えば、スマート眼鏡720に搭載されたスピーカから動作の実行が終了したことを示す音声が出力される。例えば、「お店の予約が完了しました」等の音声がユーザ10に対して出力される。また、例えば、お店の予約が埋まっていた場合には、「予約ができませんでした。どうしますか?」等の音声がユーザ10に対して出力される。
【0319】
なお、エージェントシステム700の一部(例えば、センサモジュール部210B、格納部220、制御部228B)が、スマート眼鏡720の外部(例えば、サーバ)に設けられ、スマート眼鏡720が、外部と通信することで、上記のエージェントシステム700の各部として機能するようにしてもよい。
【0320】
以上説明したように、スマート眼鏡720では、エージェントシステム700を利用することでユーザ10に対して各種サービスが提供される。また、スマート眼鏡720は、ユーザ10によって身につけられていることから、自宅、仕事場、外出先等、様々な場面でエージェントシステム700を利用することが実現される。
【0321】
また、スマート眼鏡720は、ユーザ10によって身につけられていることから、ユーザ10のいわゆるライフログを収集することに適している。具体的には、スマート眼鏡720に搭載された各種センサ等による検出結果、又は2Dカメラ203等の記録結果に基づいてユーザ10の感情値が推定される。このため、様々な場面でユーザ10の感情値を収集することができ、エージェントシステム700は、ユーザ10の感情に適したサービス、又は発話内容を提供することができる。
【0322】
また、スマート眼鏡720では、2Dカメラ203、マイク201等によりユーザ10の周囲の状況が得られる。そして、これらの周囲の状況とユーザ10の感情値とは対応付けられている。これにより、ユーザ10がどのような状況に置かれた場合に、どのような感情を抱いたかを推定することができる。この結果、エージェントシステム700が、ユーザ10の趣味嗜好を把握する場合の精度を向上させることができる。そして、エージェントシステム700において、ユーザ10の趣味嗜好が正確に把握されることで、エージェントシステム700は、ユーザ10の趣味嗜好に適したサービス、又は発話内容を提供することができる。
【0323】
また、エージェントシステム700は、他のウェアラブル端末(ペンダント、スマートウォッチ、イヤリング、ブレスレット、ヘアバンド等のユーザ10の身体に装着可能な電子機器)に適用することも可能である。エージェントシステム700をスマートペンダントに適用する場合、制御対象252Bとしてのスピーカは、ユーザ10に対して各種情報を示す音声を出力する。スピーカは、例えば、指向性を有する音声を出力可能なスピーカである。スピーカは、ユーザ10の耳に向かって指向性を有するように設定される。これにより、ユーザ10以外の人物に対して音声が届くことが抑制される。マイク201は、ユーザ10が発した音声又はスマートペンダントの周囲の環境音を取得する。スマートペンダントは、ユーザ10の首から提げられる態様で装着される。このため、スマートペンダントは、装着されている間、ユーザ10の口に比較的近い場所に位置する。これにより、ユーザ10の発する音声を取得することが容易になる。
【0324】
[実施形態]
【0325】
第1参考形態では、情報処理システムの一例としてのサーバが特定処理を実行する場合を例に説明する。なお、第1参考形態及び第2参考形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0326】
本実施形態では、サーバが、手話動画を生成する対象の対象データから手話動画を生成する特定処理を行う。具体的には、動画像データ、発話音声データ、テキストデータ等の対象データから手話動画を生成する。例えば、動画像データから手話動画を生成して、
図15に示すように、元の動画像に生成した手話動画36を挿入して表示する。これにより、聴覚障害者が動画像を楽しむことが可能となる。或いは、発話音声データまたはテキストデータから手話動画を生成する。これにより、手話ができなくても聴覚障害者との会話が可能となる。
【0327】
図16に示すように、サーバ290は、取得部292、処理部294、及び出力部296を備えている。
【0328】
取得部292は、手話動画を生成する対象の対象データを取得する。具体的には、外部サーバ等に格納された動画像データを取得してもよいし、ユーザによって入力された発話音声データまたはテキストデータを取得してもよい。
【0329】
処理部294は、入力情報に応じた画像を生成する画像生成モデルを用いた特定処理を行う。より具体的には、
図17に示すように、取得部292が取得した対象データ30と、手話動画生成指示(手話動画を作成する指示を示すテキスト)32とを、画像生成モデル34に入力し、画像生成モデル34に基づいて処理結果を取得する。例えば、対象データが動画像データの場合には、動画像データを画像生成モデル34にそのまま入力してもよいが、動画像データを画像生成モデル34に入力する前に、動画像に含まれる発話音声データまたはテキストデータを抽出する前処理を行ってから抽出した発話音声データまたはテキストデータを画像生成モデル34に入力する形態としてもよい。
【0330】
なお、処理部294は、対象データ30と手話動画生成指示32の他に、
図18に示すように、手話を行うキャラクタとしてアバター画像31を画像生成モデル34に入力して、入力したアバター画像31の手話動画36を生成してもよい。アタバー画像31は、ユーザが任意の画像を入力してもよいし、複数種類のアバター画像31を複数種類用意しておいて選択可能としてもよい。また、手話動画36は、架空の人物による手話動画36でもよいし、アニメーションによる手話動画36でもよい。
【0331】
出力部296は、ユーザ端末(図示省略)に対して、特定処理の結果を出力する。このとき、ユーザ端末は、特定処理の結果をディスプレイ等の表示装置に表示する。具体的には、ユーザ端末から発話音声データまたはテキストデータを入力することにより、画像生成モデル34に発話音声データまたはテキストデータを入力した場合には、発話音声データまたはテキストデータに対応する手話動画を表示装置に表示する。また、画像生成モデル34に動画像データを入力した場合には、
図15に示すように、元の動画像の音声発話に対応する手話動画36を元画像に挿入して表示装置に表示する。なお、元の動画像への手話動画の挿入位置はユーザによって選択可能としてもよい。また、手話動画36は、元の動画像とは別に表示してもよい。
【0332】
図19は、サーバ290が手話動画を生成する特定処理を行う動作に関する動作フローの一例を概略的に示す。
図19に示す動作フローは、例えば、手話動画の生成が指示された場合に開始する。
【0333】
ステップS300で、取得部292は、対象データを取得する。例えば、外部サーバの動画像の位置情報が指定された場合には、外部サーバから動画像データまたは発話音声データを取得し、ユーザによって発話音声データまたはテキストデータが入力された場合には入力された発話音声データまたはテキストデータを取得する。
【0334】
ステップS301で、処理部294は、対象データに、特定処理の結果を得るための指示文を追加して、プロンプトを生成する。例えば、対象データが動画像データの場合、「動画像の発話音声またはテキストデータから手話動画を生成」というプロンプトを生成する。なお、アバター画像31が指定されている場合には、「動画の発話音声またはテキストデータからアバター画像で手話動画を作成」というプロンプトを生成する。
【0335】
ステップS302で、処理部294は、生成したプロンプトと、取得した対象データを、画像生成モデル34に入力し、画像生成モデル34の出力に基づいて、特定処理の結果を取得する。
【0336】
ステップS303で、出力部296は、ユーザ端末に対して特定処理の結果を出力し、特定処理を終了する。例えば、対象データが動画像データの場合には、
図15に示すように、元の動画像に対して、生成した手話動画36を挿入した動画像を特定処理の結果として出力する。
【0337】
ステップ304で、処理部294は、特定処理を終了するか否かを判定する。例えば、次の対象データがあるか否かを判定する。或いは、対象データが発話音声データまたはテキストデータの場合には、対象の発話音声またはテキストの新たな入力がなくなったかを判定する。或いは、ユーザによって終了が指示されたか否かを判定する。該判定が否定された場合にはステップS300に戻って上述の処理を繰り返す。一方、肯定された場合には一連の処理を終了する。
【0338】
このように、本実施形態に係るサーバ290では、動画像データ、発話音声データ、テキストデータ等の対象データから手話動画を生成するので、聴覚障害者に対して手話翻訳サービスを提供できる。
【0339】
なお、上記実施形態で説明した特定処理を、上記第1参考形態に係るロボット100を用いて実現してもよい。この場合には、ロボット100にディスプレイ等の表示装置を設けて、ロボット100のマイク201から出力された音声データを入力として生成した手話動画を表示する。或いは、ロボット100の手指及び表情を変更可能として、ロボット100に手話を行わせてもよい。
【0340】
また、上記実施形態で説明した特定処理を、上記第2参考形態に係るぬいぐるみ100Nを用いて実現してもよい。この場合には、ぬいぐるみ100Nに収容したスマートホン50の表示部を確認可能に収納し、スマートホン50の表示部に、マイク201から出力された音声データを入力として生成した手話動画を表示する。
【0341】
また、上記実施形態で説明した特定処理を、上記第3参考形態に係るエージェントシステム500を用いて実現してもよい。この場合には、エージェントシステム500に対して、マイク201から出力された音声データを入力とし手話動画の生成を指示して、生成した手話動画をスマートホン等のディスプレイに表示する。
【0342】
また、上記実施形態で説明した特定処理を、上記第4参考形態に係るエージェントシステム700を用いて実現してもよい。この場合には、エージェントシステム700に対してマイク201から出力された音声データを入力とし手話動画の生成を指示して、生成した手話動画をスマート眼鏡720に表示する。
【0343】
また、上記実施形態で説明した特定処理は、スマートホン50のアプリケーションで行う処理としてもよい。
【0344】
また、上記実施形態で説明した特定処理は、
図20に示すように、文章生成モデル37と、画像生成モデル34を含んでもよい。例えば、動画像データ33と、発話音声抽出指示35を、文章を生成する文章生成モデル37に入力して動画像データ中の発話音声を表す発話音声テキスト40を生成し、生成した発話音声テキスト40と手話動画生成指示34を、画像生成モデル34に入力し、手話動画36を特定処理の結果として得る。より具体的には、処理部294は、「動画像データ中の発話音声を抽出」というプロンプトを生成して、生成したプロンプトと動画像データ33を文章生成モデル37に入力する。また、処理部294は、「発話音声テキストから手話動画を作成」というプロンプトを生成して、生成したプロンプトと文章生成モデル37が生成した発話音声テキスト40を、画像生成モデル34に入力する。
【0345】
なお、上記参考形態では、ロボット100は、ユーザ10の顔画像を用いてユーザ10を認識する場合について説明したが、開示の技術はこの態様に限定されない。例えば、ロボット100は、ユーザ10が発する音声、ユーザ10のメールアドレス、ユーザ10のSNSのID又はユーザ10が所持する無線ICタグが内蔵されたIDカード等を用いてユーザ10を認識してもよい。
【0346】
ロボット100は、行動制御システムを備える電子機器の一例である。行動制御システムの適用対象は、ロボット100に限られず、様々な電子機器に行動制御システムを適用できる。また、サーバ290、300の機能は、1以上のコンピュータによって実装されてよい。サーバ290、300の少なくとも一部の機能は、仮想マシンによって実装されてよい。また、サーバ290、300の機能の少なくとも一部は、クラウドで実装されてよい。
【0347】
図21は、スマートホン50、ロボット100、サーバ290、300、及びエージェントシステム500、700として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。コンピュータ1200にインストールされたプログラムは、コンピュータ1200を、本参考形態に係る装置の1又は複数の「部」として機能させ、又はコンピュータ1200に、本参考形態に係る装置に関連付けられるオペレーション又は当該1又は複数の「部」を実行させることができ、及び/又はコンピュータ1200に、本参考形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ1200に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、CPU1212によって実行されてよい。
【0348】
本参考形態によるコンピュータ1200は、CPU1212、RAM1214、及びグラフィックコントローラ1216を含み、それらはホストコントローラ1210によって相互に接続されている。コンピュータ1200はまた、通信インタフェース1222、記憶装置1224、DVDドライブ1226、及びICカードドライブのような入出力ユニットを含み、それらは入出力コントローラ1220を介してホストコントローラ1210に接続されている。DVDドライブ1226は、DVD-ROMドライブ及びDVD-RAMドライブ等であってよい。記憶装置1224は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ1200はまた、ROM1230及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ1240を介して入出力コントローラ1220に接続されている。
【0349】
CPU1212は、ROM1230及びRAM1214内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ1216は、RAM1214内に提供されるフレームバッファ等又はそれ自体の中に、CPU1212によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス1218上に表示されるようにする。
【0350】
通信インタフェース1222は、ネットワークを介して他の電子デバイスと通信する。記憶装置1224は、コンピュータ1200内のCPU1212によって使用されるプログラム及びデータを格納する。DVDドライブ1226は、プログラム又はデータをDVD-ROM1227等から読み取り、記憶装置1224に提供する。ICカードドライブは、プログラム及びデータをICカードから読み取り、及び/又はプログラム及びデータをICカードに書き込む。
【0351】
ROM1230はその中に、アクティブ化時にコンピュータ1200によって実行されるブートプログラム等、及び/又はコンピュータ1200のハードウェアに依存するプログラムを格納する。入出力チップ1240はまた、様々な入出力ユニットをUSBポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ1220に接続してよい。
【0352】
プログラムは、DVD-ROM1227又はICカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置1224、RAM1214、又はROM1230にインストールされ、CPU1212によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ1200に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ1200の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。
【0353】
例えば、通信がコンピュータ1200及び外部デバイス間で実行される場合、CPU1212は、RAM1214にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース1222に対し、通信処理を命令してよい。通信インタフェース1222は、CPU1212の制御の下、RAM1214、記憶装置1224、DVD-ROM1227、又はICカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。
【0354】
また、CPU1212は、記憶装置1224、DVDドライブ1226(DVD-ROM1227)、ICカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM1214に読み取られるようにし、RAM1214上のデータに対し様々なタイプの処理を実行してよい。CPU1212は次に、処理されたデータを外部記録媒体にライトバックしてよい。
【0355】
様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU1212は、RAM1214から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM1214に対しライトバックする。また、CPU1212は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU1212は、当該複数のエントリの中から、第1の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
【0356】
上で説明したプログラム又はソフトウェアモジュールは、コンピュータ1200上又はコンピュータ1200近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はRAMのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ1200に提供する。
【0357】
本参考形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び/又はコンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び/又はアナログハードウェア回路を含んでよく、集積回路(IC)及び/又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ(FPGA)、及びプログラマブルロジックアレイ(PLA)等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。
【0358】
コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(登録商標)ディスク、メモリスティック、集積回路カード等が含まれてよい。
【0359】
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。
【0360】
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
【0361】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0362】
特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
【符号の説明】
【0363】
30 動画像またはテキストデータ、31 アバター画像、32 手話動画生成指示、33 動画像データ、34 画像生成モデル、35 発話音声抽出指示、37 文章生成モデル、36 手話動画、50 スマートホン、100、101、102 ロボット、100N ぬいぐるみ、290 サーバ、292 取得部、294 処理部、296 出力部、500、700 エージェントシステム、720 スマート眼鏡、