特開2024-99902 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社国際電気通信基礎技術研究所の特許一覧

特開2024-99902情報処理装置、情報処理プログラムおよび情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024099902

(43)【公開日】2024-07-26

(54)【発明の名称】情報処理装置、情報処理プログラムおよび情報処理方法

(51)【国際特許分類】

G10L 25/51 20130101AFI20240719BHJP

G10L 15/22 20060101ALI20240719BHJP

G10L 17/00 20130101ALI20240719BHJP

G10L 15/10 20060101ALI20240719BHJP

G10L 25/63 20130101ALI20240719BHJP

【ＦＩ】

G10L25/51

G10L15/22 300U

G10L17/00 200C

G10L15/10 200W

G10L25/63

G10L15/10 500N

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023003512

(22)【出願日】2023-01-13

【国等の委託研究の成果に係る記載事項】（出願人による申告）令和２年度、国立研究開発法人科学技術振興機構、ムーンショット型研究開発事業「ＣＡ基盤構築及び階層的ＣＡ連携と操作者割り当ての研究開発」委託研究、産業技術力強化法第１７条の適用を受ける特許出願。／令和２年度、国立研究開発法人科学技術振興機構、ムーンショット型研究開発事業「利用者モニタリングと経験管理の研究開発」委託研究、産業技術力強化法第１７条の適用を受ける特許出願。

(71)【出願人】

【識別番号】393031586

【氏名又は名称】株式会社国際電気通信基礎技術研究所

(74)【代理人】

【識別番号】100090181

【弁理士】

【氏名又は名称】山田義人

(72)【発明者】

【氏名】太田陽

(72)【発明者】

【氏名】宮下敬宏

(72)【発明者】

【氏名】内海章

(72)【発明者】

【氏名】西村祥吾

(57)【要約】（修正有）

【課題】アバターを用いた対話サービスにおける対話のトラブルの原因を容易に究明する方法を提供する。
【解決手段】ネットワーク１４によって、サーバ１２、操作者端末１６及びロボット１８が連係する情報処理システム１０において、ロボットは、表示装置３０に操作者のアバター２８を表示し、操作者であるサービスユーザに所定のサービスを提供する。このとき、操作者は、ロボット１８を通して対話エージェントと対話する。操作者及び対話エージェントの音声は、サーバを介してロボット又は操作者端末から出力されるとともに、サーバのメインメモリに一時記憶され、トラブルが発生している場合に、一時記憶された所定時間分の操作者及び対話エージェントの音声が履歴ＤＢ１２ａに記憶される。また、履歴ＤＢに記憶される音声については、操作者又は対話エージェントが特定されるとともに、トラブルについての加害者又は被害者が分類される。
【選択図】図１

【特許請求の範囲】

【請求項1】

操作者端末およびロボットがネットワークを介して連係して、前記操作者端末の操作者が、前記ロボットを通して対話エージェントと対話する遠隔対話システムにおける情報処理装置であって、
前記情報処理装置のプロセッサは、
前記操作者の音声を受信してメインメモリに一時記憶するとともに前記ロボットに送信し、
前記対話エージェントの音声を受信して前記メインメモリに一時記憶するとともに前記操作者端末に送信し、
前記メインメモリに一時記憶された所定時間分の前記操作者の音声または前記対話エージェントの音声に基づいてトラブルが発生していることを検出し、
トラブルが発生している場合に、前記メインメモリに一時記憶された所定時間分の前記操作者の音声または／および前記対話エージェントの音声の履歴をデータベースに記憶し、
予め登録してある声紋データを用いて、前記データベースに記憶した音声について前記操作者または／および前記対話エージェントを特定し、
前記データベースに記憶した音声に前記トラブルの発生の原因となる言葉が含まれる場合に、当該音声の話者を加害者に分類し、および
前記データベースに記憶した音声に基づいて悲しみまたは恐れの感情が推定される場合に、当該音声の話者を被害者に分類する、情報処理装置。

【請求項2】

前記プロセッサは、さらに、
前記操作者の画像を受信してメインメモリに一時記憶するとともに前記ロボットに送信し、
前記対話エージェントの画像を受信して前記メインメモリに一時記憶するとともに前記操作者端末に送信し、
前記メインメモリに一時記憶された所定時間分の前記操作者の画像または前記対話エージェントの画像に基づいて前記トラブルが発生しているかどうかを検出する、請求項１記載の情報処理装置。

【請求項3】

前記プロセッサは、前記メインメモリに一時記憶された所定時間分の前記操作者の音声または前記対話エージェントの音声にトラブルの発生の原因となる言葉が含まれている場合に当該トラブルが発生していることを検出する、請求項１記載の情報処理装置。

【請求項4】

前記プロセッサは、前記メインメモリに一時記憶された所定時間分の前記操作者の画像または前記対話エージェントの画像から推定した感情がネガティブな感情である場合に前記トラブルが発生していることを判断する、請求項２記載の情報処理装置。

【請求項5】

操作者端末およびロボットがネットワークを介して連係して、前記操作者端末の操作者が、前記ロボットを通して対話エージェントと対話する遠隔対話システムにおける情報処理装置で実行される情報処理プログラムであって、
前記情報処理装置のプロセッサに、
前記操作者の音声を受信してメインメモリに一時記憶するとともに前記ロボットに送信させ、
前記対話エージェントの音声を受信して前記メインメモリに一時記憶するとともに前記操作者端末に送信させ、
前記メインメモリに一時記憶された所定時間分の前記操作者の音声または前記対話エージェントの音声に基づいてトラブルが発生しているかどうかを判断させ、
トラブルが発生している場合に、前記メインメモリに一時記憶された所定時間分の前記操作者の音声または／および前記対話エージェントの音声の履歴をデータベースに記憶させ、
予め登録してある声紋データを用いて、前記データベースに記憶した音声について前記操作者または／および前記対話エージェントを特定させ、
前記データベースに記憶した音声に前記トラブルの発生の原因となる言葉が含まれる場合に、当該音声の話者を加害者に分類させ、そして
前記データベースに記憶した音声に基づいて悲しみまたは恐れの感情が推定される場合に、当該音声の話者を被害者に分類させる、情報処理プログラム。

【請求項6】

操作者端末およびロボットがネットワークを介して連係して、前記操作者端末の操作者が、前記ロボットを通して対話エージェントと対話する遠隔対話システムにおける情報処理装置の情報処理方法であって、
前記操作者の音声を受信してメインメモリに一時記憶するとともに前記ロボットに送信し、
前記対話エージェントの音声を受信して前記メインメモリに一時記憶するとともに前記操作者端末に送信し、
前記メインメモリに一時記憶された所定時間分の前記操作者の音声または前記対話エージェントの音声に基づいてトラブルが発生しているかどうかを判断し、
トラブルが発生している場合に、前記メインメモリに一時記憶された所定時間分の前記操作者の音声または／および前記対話エージェントの音声の履歴をデータベースに記憶し、
予め登録してある声紋データを用いて、前記データベースに記憶した音声について前記操作者または／および前記対話エージェントを特定し、
前記データベースに記憶した音声に前記トラブルの発生の原因となる言葉が含まれる場合に、当該音声の話者を加害者に分類し、
前記データベースに記憶した音声に基づいて悲しみまたは恐れの感情が推定される場合に、当該音声の話者を被害者に分類する、情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、情報処理装置、制御プログラムおよび制御方法に関し、特にたとえば、操作者のアバターとして機能するロボットを用いた所定のサービスを提供する、情報処理装置、情報処理プログラムおよび情報処理方法に関する。

【背景技術】

【0002】

この種の従来の情報処理装置の一例が特許文献１に開示されている。この特許文献１には、事故発生時における事故原因の究明に有効な情報を記録するロボット用ドライブレコーダ装置が開示される。このロボット用ドライブレコーダ装置は、自ロボットの稼動時の周辺環境を撮像するカメラ、マイクロフォン、ロボットセンサ、各データを記録する記録装置と、自ロボットに接近或いは接触する物体を検出しその検出結果から異常状態にあるか否かを判断するＣＰＵと、ネットワークを介して外部データベースに通信可能な通信部とを備え、ＣＰＵが異常状態であると判断したときは、記録装置に記録された各種データを通信部によって外部データベースに送信するものである。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１１－６９９号

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記の特許文献１では、事故原因の究明に有効な情報を記録するだけである。操作者が操作者のアバターとして機能するロボットを制御し、ロボットを介して操作者と対話エージェントが対話する場合には、事故のみならず、ヘイトスピーチなどによる対話におけるトラブルが発生することもある。引用文献１では、ロボットの周辺環境の映像および音声を記録するだけであり、対話のトラブルの原因を究明するためには改善の余地がある。

【0005】

それゆえに、この発明の主たる目的は、新規な、情報処理装置、情報処理プログラムおよび情報処理方法を提供することである。

【0006】

また、この発明の他の目的は、アバターを用いた対話におけるトラブルの原因を容易に究明することができる、情報処理装置、情報処理プログラムおよび情報処理方法を提供することである。

【課題を解決するための手段】

【0007】

第１の発明は、操作者端末およびロボットがネットワークを介して連係して、操作者端末の操作者が、ロボットを通して対話エージェントと対話する遠隔対話システムにおける情報処理装置であって、情報処理装置のプロセッサは、操作者の音声を受信してメインメモリに一時記憶するとともにロボットに送信し、対話エージェントの音声を受信してメインメモリに一時記憶するとともに操作者端末に送信し、メインメモリに一時記憶された所定時間分の操作者の音声または対話エージェントの音声に基づいてトラブルが発生していることを検出し、トラブルが発生している場合に、メインメモリに一時記憶された所定時間分の操作者の音声または／および対話エージェントの音声の履歴をデータベースに記憶し、予め登録してある声紋データを用いて、データベースに記憶した音声について操作者または／および対話エージェントを特定し、データベースに記憶した音声にトラブルの発生の原因となる言葉が含まれる場合に、当該音声の話者を加害者に分類し、およびデータベースに記憶した音声に基づいて悲しみまたは恐れの感情が推定される場合に、当該音声の話者を被害者に分類する、情報処理装置である。

【0008】

第２の発明は、第１の発明に従属し、プロセッサは、さらに、操作者の画像を受信してメインメモリに一時記憶するとともにロボットに送信し、対話エージェントの画像を受信してメインメモリに一時記憶するとともに操作者端末に送信し、メインメモリに一時記憶された所定時間分の操作者の画像または対話エージェントの画像に基づいてトラブルが発生しているかどうかを検出する。

【0009】

第３の発明は、第１の発明に従属し、プロセッサは、メインメモリに一時記憶された所定時間分の操作者の音声または対話エージェントの音声にトラブルの発生の原因となる言葉が含まれている場合に当該トラブルが発生していることを検出する。

【0010】

第４の発明は、第２の発明に従属し、プロセッサは、メインメモリに一時記憶された所定時間分の操作者の画像または対話エージェントの画像から推定した感情がネガティブな感情である場合にトラブルが発生していることを判断する。

【0011】

第５の発明は、操作者端末およびロボットがネットワークを介して連係して、操作者端末の操作者が、ロボットを通して対話エージェントと対話する遠隔対話システムにおける情報処理装置で実行される情報処理プログラムであって、情報処理装置のプロセッサに、操作者の音声を受信してメインメモリに一時記憶するとともにロボットに送信させ、対話エージェントの音声を受信してメインメモリに一時記憶するとともに操作者端末に送信させ、メインメモリに一時記憶された所定時間分の操作者の音声または対話エージェントの音声に基づいてトラブルが発生しているかどうかを判断させ、トラブルが発生している場合に、メインメモリに一時記憶された所定時間分の操作者の音声または／および対話エージェントの音声の履歴をデータベースに記憶させ、予め登録してある声紋データを用いて、データベースに記憶した音声について操作者または／および対話エージェントを特定させ、データベースに記憶した音声にトラブルの発生の原因となる言葉が含まれる場合に、当該音声の話者を加害者に分類させ、そしてデータベースに記憶した音声に基づいて悲しみまたは恐れの感情が推定される場合に、当該音声の話者を被害者に分類させる、情報処理プログラムである。

【0012】

第６の発明は、操作者端末およびロボットがネットワークを介して連係して、操作者端末の操作者が、ロボットを通して対話エージェントと対話する遠隔対話システムにおける情報処理装置の情報処理方法であって、操作者の音声を受信してメインメモリに一時記憶するとともにロボットに送信し、対話エージェントの音声を受信してメインメモリに一時記憶するとともに操作者端末に送信し、メインメモリに一時記憶された所定時間分の操作者の音声または対話エージェントの音声に基づいてトラブルが発生しているかどうかを判断し、トラブルが発生している場合に、メインメモリに一時記憶された所定時間分の操作者の音声または／および対話エージェントの音声の履歴をデータベースに記憶し、予め登録してある声紋データを用いて、データベースに記憶した音声について操作者または／および対話エージェントを特定し、データベースに記憶した音声にトラブルの発生の原因となる言葉が含まれる場合に、当該音声の話者を加害者に分類し、データベースに記憶した音声に基づいて悲しみまたは恐れの感情が推定される場合に、当該音声の話者を被害者に分類する、情報処理方法である。

【発明の効果】

【0013】

この発明によれば、アバターを用いた対話におけるトラブルの原因を容易に究明することができる。

【0014】

この発明の上述の目的、その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

【図面の簡単な説明】

【0015】

【図1】図１はこの発明の一実施例の情報処理システムを示す図である。

【図2】図２は図１に示すサーバの電気的な構成の一例を示すブロック図である。

【図3】図３は図１に示す操作者端末の電気的な構成の一例を示すブロック図である。

【図4】図４は図１に示すロボットの電気的な構成の一例を示すブロック図である。

【図5】図５は操作者端末に表示されるＵＩ画面の一例を示す図である。

【図6】図６は関係者テーブルの一例を示す図である。

【図7】図７は図２に示すサーバのＲＡＭのメモリマップの一例を示す図である。

【図8】図８は図３に示す操作者端末のＲＡＭのメモリマップの一例を示す図である。

【図9】図９は図４に示すロボットのＲＡＭのメモリマップの一例を示す図である。

【図10】図１０は図２に示すサーバのＣＰＵの所定のサービスの実行中における送受信処理の一例の一部を示すフロー図である。

【図11】図１１は図２に示すサーバのＣＰＵの所定のサービスの実行中における送受信処理の一例の他の一部であって、図１０に後続するフロー図である。

【図12】図１２は図２に示すサーバのＣＰＵの履歴記憶および関係者情報作成処理の一例の一部を示すフロー図である。

【図13】図１３は図２に示すサーバのＣＰＵの履歴記憶および関係者情報作成処理の一例の他の一部であって、図１２に後続するフロー図である。

【図14】図１４は図３に示した操作者端末のＣＰＵの情報処理の一例の一部を示すフロー図である。

【図15】図１５は図３に示した操作者端末のＣＰＵの情報処理の一例の他の一部であって、図１４に後続するフロー図である。

【図16】図１６は図４に示したロボットのＣＰＵの制御処理の一例の一部を示すフロー図である。

【図17】図１７は図４に示したロボットのＣＰＵの制御処理の一例の他の一部であって、図１６に後続するフロー図である。

【発明を実施するための形態】

【0016】

図１を参照して、この実施例の情報処理システム１０はサーバ１２を含み、サーバ１２は、ネットワーク１４を介して、操作者端末１６およびロボット１８に通信可能に接続される。

【0017】

操作者端末１６は、操作者によって操作され、主として、ロボット１８を制御するために使用される。この実施例では、操作者は、サーバ１２によって提供されるアバターを用いた所定のサービスを利用する者（サービスユーザ）である。ロボット１８は、操作者のアバターとして機能する。この実施例の情報処理システム１０では、操作者端末１６およびロボット１８がネットワーク１４を介して連係して、操作者端末１６の操作者が、ロボット１８を通して、後述する対話エージェントと対話する。

【0018】

所定のサービスは、所定の環境（たとえば、企業のオフィス、店舗、博物館、美術館、水族館または科学館など）に配置されるロボット１８を、遠隔に存在する操作者のアバターとして機能させ、アバターすなわちロボット１８が所定の環境内を自由に動き回って利用されるサービスである。

【0019】

この場合、操作者は、ロボット１８を通して、オフィス内に存在する人間と対話する。また、操作者は、ロボット１８を通して、店舗、博物館、美術館、水族館または科学館などに存在する案内人である人間の説明を聞いたり、案内人である人間と対話したりする。つまり、操作者と対話する人間は、操作者の対話相手（すなわち、対話エージェント）である。

【0020】

なお、図１では、１台の操作者端末１６および１台のロボット１８を示してあるが、実際には、複数の操作者端末１６および複数のロボット１８が設けられる、操作者が所定のサービスを利用する場合に、サーバ１２によって、当該操作者（操作者端末１６）に対して１台のロボット１８が割り当てられる。以下、１台の操作者端末１６および１台のロボット１８を用いて説明するが、同じ内容が他の操作者端末１６および他のロボット１８にも当てはまる。

【0021】

サーバ１２は、情報処理装置の一例であり、汎用のサーバを用いることができる。この実施例では、サーバ１２は、アバターを用いた所定のサービスを提供するウェブサイトを運営する。履歴データベース（以下、「履歴ＤＢ」という）１２ａおよび辞書データベース（以下「辞書ＤＢ」という）１２ｂがサーバ１２に接続されている。

【0022】

履歴ＤＢ１２ａは、操作者端末１６とロボット１８の間で、サーバ１２を介して送受信される、対話エージェントおよび操作者の画像データおよび音声データの履歴と、当該履歴に関する情報（後述する、「関係者テーブル」である）を記憶する。

【0023】

関係者テーブル（図６を参照）は、履歴として記憶される音声データに対応する音声の発話者を特定するとともに、その発話者を加害者または被害者として分類した情報である。関係者テーブルについては後で詳細に説明する。

【0024】

辞書ＤＢ１２ｂは、音声認識用の辞書データ、トラブルが発生しているかどうかを判断するための特定のワードのデータおよび特定の表情のデータと、対話エージェントの音声データに基づいて対話エージェントを特定するための情報を記憶する。この実施例では、個人の識別情報（個人ＩＤ）に対応して声紋データが記憶されている。

【0025】

なお、履歴ＤＢ１２ａおよび辞書ＤＢ１２ｂは、サーバ１２に内蔵されるＨＤＤに設けてもよいし、ネットワーク１４を介して通信可能に設けてもよい。

【0026】

ネットワーク１４は、インターネットを含むＩＰ網（または、ＩＰネットワーク）と、このＩＰ網にアクセスするためのアクセス網（または、アクセスネットワーク）とから構成される。アクセス網としては、公衆電話網、携帯電話網、有線ＬＡＮ、無線ＬＡＮ、ＣＡＴＶ（Cable Television）等を用いることができる。

【0027】

操作者端末１６は、サーバ１２とは異なる他の情報処理装置であり、一例として、デスクトップ型ＰＣである。他の例では、操作者端末１６として、スマートフォン、タブレットＰＣまたはノート型ＰＣなどの汎用の端末を用いることもできる。

【0028】

ロボット１８は、自律行動可能な、いわゆるテレプレゼンス（または、テレイグジステンス）ロボットであり、市販の移動型のロボットを用いることができる。一例として、ロボット１８としては、出願人が開発等したロボビー(登録商標)またはDouble Robotics, Incが販売するロボットDouble 3を使用することができる。ただし、ロボット１８は、このような特定のロボットに限られることなく、特開２０２０－００４１８２号に開示されるようなロボットも利用可能である。

【0029】

なお、一例として、ロボット１８を自律行動させる方法としては、特開２００９－１３１９１４号に開示された方法を採用することができる。

【0030】

また、ロボット１８は、操作者によって遠隔操作することもできる。この実施例では、基本的には、ロボット１８は自律行動し、操作者からの遠隔操作が有る場合に、遠隔操作に従って行動する。ただし、ロボット１８は自律行動しないで、操作者の遠隔操作に従ってのみ行動するようにすることもできる。

【0031】

実施例においては、操作者は、操作者端末１６を操作して、ロボット１８にタスク（動作）を実行させるためのコマンド（以下、「動作コマンド」という）を、サーバ１２を介してロボット１８に送信する。また、操作者端末１６は、操作者の音声をマイク８２で検出し、検出した音声を、サーバ１２を介してロボット１８に送信する。したがって、ロボット１８のスピーカ１１２から操作者の音声が出力される。ただし、操作者の音声は、他のキャラクタの音声に変換されて出力されてもよい。さらに、操作者端末１６は、操作者の画像（以下、「操作者画像」という）をカメラ８８で撮影し、撮影した操作者画像を、サーバ１２を介してロボット１８に送信する。この実施例では、操作者画像は、操作者の顔を含む動画像（静止画像でもよい）である。したがって、通常、ロボット１８の表示装置３０には、操作者の顔画像が表示される。

【0032】

一方、ロボット１８は、対話エージェントを含む画像をカメラ１２２で撮影し、撮影した画像（以下、「ロボット画像」という）を、サーバ１２を介して操作者端末１６に送信する。したがって、操作者端末１６では、ロボット１８から見た画像すなわち対話エージェントの画像が表示装置８０に表示される。また、ロボット１８は、対話エージェントの音声を含む周囲の音をマイク１１０で検出し、検出した音声を、サーバ１２を介して操作者端末１６に送信する。したがって、操作者端末１６のスピーカ１１２から対話エージェントの音声を含む音が出力される。

【0033】

したがって、操作者は、対話エージェントの顔を見ながら対話したり、環境を見ながらロボット１８を操作したりすることができる。

【0034】

また、ロボット１８は、ベース２０を含み、このベース２０の正面には移動用センサの１つである超音波センサ２２が設けられる。このベース２０の両端には車輪（左車輪）２４Ｌおよび車輪（右車輪）２４Ｒが回転自在に設けられる。

【0035】

ベース２０の上面には、上方に延びるポール２６が設けられ、そのポール２６の上端には、操作者の画像（たとえば、顔画像）２８を表示することができる、表示装置３０が設けられる。

【0036】

なお、この表示装置３０には、タッチパネル、カメラ、マイクおよびスピーカ等が設けられるが、詳細は図４に示すブロック図を参照して説明する。また、このロボット１８は、バッテリ駆動型のロボットであり、バッテリはたとえばポール２６の中に収容されている。

【0037】

図２は図１に示したサーバ１２の電気的な構成を示すブロック図である。図２に示すように、サーバ１２はＣＰＵ５０を含み、ＣＰＵ５０は、内部バスを介して、ＲＡＭ５２、通信部５４および入出力インタフェース（以下、「入出力Ｉ／Ｆ」という）５６に接続される。

【0038】

ＣＰＵ５０は、サーバ１２の全体的な制御を司る。ただし、ＣＰＵ５０に代えて、ＣＰＵ機能、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）機能等の複数の機能を含むＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ）を設けてもよい。ＲＡＭ５２は、サーバ１２の主記憶装置（メインメモリ）であり、ＣＰＵ５０のワーク領域およびバッファ領域として用いられる。

【0039】

図示は省略するが、サーバ１２は、ＨＤＤおよびＲＯＭのような補助記憶装置も備える。ただし、ＨＤＤおよびＲＯＭに代えて、または、ＨＤＤおよびＲＯＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

【0040】

通信部５４は、ＣＰＵ５０の制御の下、ネットワーク１４を介して、操作者端末１６およびロボット１８などの外部のコンピュータとの間で、制御信号（動作コマンドを含む）およびデータの送受信を行う。ただし、通信部５４としては、有線ＬＡＮのみならず、無線ＬＡＮまたはBluetooth（登録商標）等を使用することもできる。

【0041】

入出力Ｉ／Ｆ５６には、入力装置５８および表示装置６０が接続されている。入力装置５８として、キーボードおよびコンピュータマウスが用いられる。表示装置６０は、ＬＣＤまたは有機ＥＬディスプレイである。

【0042】

入出力Ｉ／Ｆ５６は、入力装置５８から入力された操作データ（または、操作情報）をＣＰＵ５０に出力するとともに、ＣＰＵ５０によって生成された画像データを表示装置６０に出力して、画像データに対応する画面を表示装置６０に表示させる。

【0043】

なお、図２に示すサーバ１２の電気的な構成は一例であり、限定される必要はない。

【0044】

図３は図１に示した操作者端末１６の電気的な構成を示すブロック図である。図３に示すように、操作者端末１６はＣＰＵ７０を含み、ＣＰＵ７０は、内部バスを介して、ＲＡＭ７２、通信部７４および入出力Ｉ／Ｆ７６に接続される。

【0045】

ＣＰＵ７０は、操作者端末１６の全体的な制御を司る。ただし、ＣＰＵ７０に代えて、ＣＰＵ機能、ＧＰＵ機能等の複数の機能を含むＳｏＣを設けてもよい。ＲＡＭ７２は、操作者端末１６の主記憶装置であり、ＣＰＵ７０のワーク領域およびバッファ領域として用いられる。

【0046】

図示は省略するが、操作者端末１６は、ＨＤＤおよびＲＯＭのような補助記憶装置も備える。ただし、ＨＤＤおよびＲＯＭに代えて、または、ＨＤＤおよびＲＯＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

【0047】

通信部７４は、ＣＰＵ７０の制御の下、ネットワーク１４を介して、サーバ１２およびロボット１８などの外部のコンピュータとの間で、制御信号（動作コマンドを含む）およびデータの送受信を行う。ただし、通信部７４としては、有線ＬＡＮのみならず、無線ＬＡＮまたはBluetooth（登録商標）等を使用することもできる。

【0048】

入出力Ｉ／Ｆ７６には、入力装置７８および表示装置８０、マイク８２およびスピーカ８４が接続されている。入力装置７８として、キーボードおよびコンピュータマウスが用いられる。さらに、タッチパネルが設けられる場合もある。表示装置８０は、ＬＣＤまたは有機ＥＬディスプレイである。

【0049】

ただし、操作者端末１６として、スマートフォンが用いられる場合には、入力装置７８は、タッチパネルおよびハードウェアのボタンである。タッチパネルは、汎用のタッチパネルであり、静電容量方式、電磁誘導方式、抵抗膜方式、赤外線方式など、任意の方式のものを用いることができる。

【0050】

入出力Ｉ／Ｆ７６は、マイク８２で検出された操作者の音声をデジタルの音声データ（以下、「操作者音声データ」という）に変換してＣＰＵ７０に出力するとともに、ＣＰＵ７０によって出力される音声データをアナログの音声信号に変換してスピーカ８４から出力させる。ただし、実施例では、ＣＰＵ５０から出力される音声データは、サーバ１２を介してロボット１８から受信した音声データ（以下、「ロボット音声データ」という）である。また、入出力Ｉ／Ｆ７６は、入力装置７８から入力された操作データ（または、操作情報）をＣＰＵ７０に出力するとともに、ＣＰＵ７０によって生成された画像データを表示装置８０に出力して、画像データに対応する画面または画像を表示装置８０に表示させる。ただし、この実施例では、表示装置８０に表示されるＵＩ画面２００（図５参照）には、サーバ１２を介してロボット１８から受信したロボット画像データも出力される。ただし、ロボット画像データは、ロボット１８のカメラ１２２で撮影された画像（動画像または静止画像）の画像データである。

【0051】

また、操作者端末１６は、センサＩ／Ｆ８６およびカメラ８８を備えている。ＣＰＵ７０は、バスおよびセンサＩ／Ｆ８６を介してカメラ８８に接続される。カメラ８８は、ＣＣＤまたはＣＭＯＳのような撮像素子を用いたカメラである。図示は省略するが、カメラ８８は、表示装置８０の近傍に設けられ、表示装置８０の前方の所定範囲（画角で決まる範囲）を撮影する。したがって、カメラ８８は、表示装置８０に対面する操作者を撮影する。

【0052】

なお、図３に示す操作者端末１６の電気的な構成は一例であり、限定される必要はない。

【0053】

また、操作者端末１６がスマートフォンである場合には、携帯電話通信網、または、携帯電話網および公衆電話網を介して、通話するための通話回路を備えるが、この実施例では、そのような通話は行わないため、図示は省略してある。

【0054】

図４は図１に示したロボット１８の電気的な構成を示すブロック図である。図４に示すように、ロボット１８はＣＰＵ１００を含み、ＣＰＵ１００は、内部バスを介して、ＲＡＭ１０２、通信部１０４および入出力Ｉ／Ｆ１０６に接続される。

【0055】

ＣＰＵ１００は、ロボット１８の全体的な制御を司る。ただし、ＣＰＵ１００に代えて、ＣＰＵ機能、ＧＰＵ機能等の複数の機能を含むＳｏＣを設けてもよい。ＲＡＭ５２は、操作者端末１６の主記憶装置であり、ＣＰＵ１００のワーク領域およびバッファ領域として用いられる。

【0056】

図示は省略するが、ロボット１８は、ＨＤＤおよびＲＯＭのような補助記憶装置も備える。ただし、ＨＤＤおよびＲＯＭに代えて、または、ＨＤＤおよびＲＯＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

【0057】

通信部１０４は、ＣＰＵ１００の制御の下、ネットワーク１４を介して、サーバ１２および操作者端末１６などの外部のコンピュータとの間で、制御信号（動作コマンドを含む）およびデータの送受信を行う。ただし、通信部１０４としては、無線ＬＡＮまたはBluetooth（登録商標）等を使用することができる。

【0058】

入出力Ｉ／Ｆ１０６には、入力装置１０８および表示装置３０、マイク１１０およびスピーカ１１２が接続されている。入力装置１０８として、緊急停止用のハードウェアのボタンなどが設けられる。さらに、入力装置１０８として、表示装置３０の表示面に重ねてタッチパネルが設けられる。表示装置３０は、ＬＣＤまたは有機ＥＬディスプレイである。一例として、タッチパネルは、汎用のタッチパネルであり、静電容量方式、電磁誘導方式、抵抗膜方式、赤外線方式など、任意の方式のものを用いることができる。

【0059】

入出力Ｉ／Ｆ１０６は、マイク１１０で検出された対話エージェントの音声をデジタルの音声データに変換してＣＰＵ１００に出力するとともに、ＣＰＵ１００によって出力される音声データをアナログの音声信号に変換してスピーカ１１２から出力させる。ただし、実施例では、ＣＰＵ１００から出力される音声データは、サーバ１２を介して操作者端末１６から受信した操作者音声データである。また、入出力Ｉ／Ｆ１０６は、入力装置１０８から入力された操作データ（または、操作情報）をＣＰＵ１００に出力するとともに、ＣＰＵ１００によって生成（または、出力）された画像データを表示装置３０に出力して、画像データに対応する画面または画像を表示装置３０に表示させる。ただし、この実施例では、表示装置３０には、サーバ１２を介して操作者端末１６から受信した操作者画像データが出力される。つまり、操作者の顔画像が表示装置３０に表示される。ただし、操作者の顔画像に代えて、操作者に対応するキャラクタの顔画像が表示装置３０に表示されてもよい。

【0060】

また、ロボット１８は、モータドライバ１１４を備え、モータドライバ１１４はバスを介してＣＰＵ１００に接続される。モータドライバ１１４は、ＣＰＵ１００の命令に従って、ロボット１８の右車輪２４Ｒを回転させる右車輪モータ１１６の駆動を制御するとともに、ロボット１８の左車輪２４Ｌを回転させる左車輪モータ１１８の駆動を制御する。

【0061】

また、ロボット１８は、センサＩ／Ｆ１２０、カメラ１２２、レーザ距離計（ＬＲＦ）１２４、ＬＲＦ１２６、超音波センサ２２および慣性計測ユニット１２８を備えている。

【0062】

ＣＰＵ１００は、バスおよびセンサＩ／Ｆ１２０を介して、カメラ１２２、ＬＲＦ１２４、ＬＲＦ１２６、超音波センサ２２および慣性計測ユニット１２８にそれぞれ接続される。

【0063】

カメラ１２２は、ＣＣＤまたはＣＭＯＳのような撮像素子を用いたカメラである。図１では省略したが、カメラ１２２は、表示装置３０の上端部または下端部に設けられ、ロボット１８の前方の所定範囲（画角で決まる範囲）を撮影する。したがって、カメラ１２２は、ロボット１８に対面し、ロボット１８を通して操作者と対話する対話エージェントまたは／およびロボット１８が配置されたり移動したりする環境を撮影する。

【0064】

ＬＲＦ１２４は、一般に、レーザ光を照射し、それが対象（物体や人体など）で反射して戻ってくるまでの時間から距離を計測する。この実施例のＬＲＦ１２４（後述する、ＬＲＦ１２６も同じ）は、軸の周りをたとえば±４５度の範囲で回転するミラー（図示せず）を含み、レーザ光の進路をこの回転ミラーでたとえば０．６度ずつ変化させながら計測を行う（レーザ光でスキャンする）ことができる。以下では、ＬＲＦ１２４によってレーザ光でスキャン（走査）される平面をスキャン面と呼ぶ。また、ＬＲＦ１２４で計測可能な距離は、レーザ光が人間の目に影響を与えないよう、所定距離Ｒ（たとえば１５ｍ）以下に制限されている。このため、ＬＲＦ１２４の計測領域（すなわち、スキャン面）は、たとえば扇形、つまり所定距離Ｒの半径で中心角９０度の扇形となる。なお、スキャン面（扇形）の中心角は９０度とは限らず、たとえば１８０度や３６０度などでもよい。

【0065】

この実施例では、ＬＲＦ１２４は、特定の人間を追跡するためなどの目的で設けられるものである。ＬＲＦ１２６は、このロボット１８の自律移動のためのものである。ＬＲＦ１２４は、ＬＲＦ１２６と兼用されてもよい。つまり、ロボット１８の移動中と、ロボット１８の移動を停止してアバター２８による対話中とで、１つのＬＲＦを使い分けるようにしてもよい。

【0066】

ロボット１８は、ＬＲＦ１２４の出力に基づいて、ロボット１８またはＬＲＦ１２４に対する対象物までの距離および向きを検出することができる。したがって、ロボット１８は、検出した自身の現在位置と、ＬＲＦ１２４を用いて検出される対象物までの距離および向きに基づいて、対象物の現在位置を検出（算出）することができる。

【0067】

また、ロボット１８は、ＬＲＦ１２６の出力に基づいて、ＳＬＡＭ（Simultaneous Localization and Mapping）により、ロボット１８が移動する環境の地図を作成するとともに、作成する環境の地図内における現在位置を推定し、それらに基づいて自身のナビゲーションを行う。この実施例では、ＬＲＦ１２６は水平方向における障害物との距離を計測するため、ロボット１８の周辺の障害物についての２次元の地図が作成される。したがって、ロボット１８が作成する環境の地図は、ロボット１８（ＬＲＦ１２６）を真上方向から見た２次元の地図である。以下、ロボット１８が作成する環境の地図を「作成地図」と呼ぶことにする。また、ロボット１８は、自身が配置される環境について予め作成された環境の地図（この実施例では、「設定地図」）を記憶している。作成地図における原点と設定地図における原点を合わせるとともに、作成地図における方位と設定地図における方位を合わせておくことにより、設定地図（または、作成地図）におけるロボット１８の現在位置が推定される。

【0068】

超音波センサ２２は、超音波を用いた汎用の距離センサである。超音波センサ２２は、ロボット１８の前方に存在する対象物（人間または物）までの距離を計測する。一例として、超音波センサ２２の水平方向における検知範囲は１０度－４５度であり、計測可能な距離は５ｍ－１５ｍである。上記のとおり、ＬＲＦ１２８が設けられるため、超音波センサ２２は設けなくてもよい。

【0069】

慣性計測ユニット１２８は３次元の慣性運動（直交３軸方向の並進運動および回転運動）を検出する装置であって、加速度センサによって並進運動を検出し、角速度(ジャイロ)センサによって回転運動を検出する。

【0070】

なお、図４に示すロボット１８の電気的な構成は一例であり、限定される必要はない。

【0071】

上述したように、ロボット１８は、自律行動可能であり、配置された環境において予め決定されたスタート地点（移動開始地点）からゴール地点（目標地点）まで経路探索を行いながら移動することができる。ただし、スタート地点とゴール地点の間に、１または複数の経由地点が設定されてもよい。また、経路探索の方法としては、標準的な方法、すなわち、ウォーシャルフロイド法、ダイクストラ法、Ａ＊アルゴリズム、ポテンシャル法、RRT (Rapidly exploring Random Tree)などを用いることができる。スタート地点、ゴール地点および１または複数の経由地点は、サーバ１２の管理者または操作者によって予め指定されている。

【0072】

また、ロボット１８は、操作者の遠隔操作に従って、配置された環境において自由に移動することも可能である。操作者端末１６でロボット１８の移動等を操作することは既に周知であり、ここではその遠隔操作についての詳細な説明は省略する。

【0073】

図５に示すＵＩ画面２００は、ロボット１８を遠隔操作するための画面である。ＵＩ画面２００には、表示領域２０２、２０４および２０６が設けられる。表示領域２０２は、ロボット１８に設けられたカメラ１２４で撮影された映像（動画像または静止画像）を表示するための領域である。

【0074】

表示領域２０４は、ロボット１８の移動を制御するコマンド(すなわち、「動作コマンド」という)を入力するための複数のボタンを表示する。この実施例では、表示領域２０４には、ボタン２１０、２１２、２１４、２１６および２１８が表示される。ボタン２１０は、ロボット１８を前進させるためのボタンである。ボタン２１２は、ロボット１８を左折または左旋回させるためのボタンである。ボタン２１４は、ロボット１８を右折または右旋回させるためのボタンである。ボタン２１６は、ロボット１８を停止させるためのボタンである。ボタン２１８は、ロボット１８を後進させるためのボタンである。

【0075】

詳細な説明は省略するが、ボタン２１０またはボタン２１８がオンされている状態で、ボタン２１２がオンされと、ロボット１８は前進または後進しながら左に曲がる。また、ボタン２１０またはボタン２１８がオンされている状態で、ボタン２１４がオンされると、ロボット１８は前進または後進しながら右に曲がる。ロボット１８が停止している状態で、ボタン２１２がオンされると、ロボット１８は反時計回りに進行方向を変える。また、ロボット１８が停止している状態で、ボタン２１４がオンされると、ロボット１８は時計回りに進行方向を変える。

【0076】

表示領域２０６は、ロボット１８の行動を制御する動作コマンドを入力するための複数のボタンを表示する。この実施例では、表示領域２０６には、ボタン２２０、２２２および２２４が表示される。ボタン２２０は、ロボット１８を頷かせるためのボタンである。ボタン２２２は、ロボット１８に首を振らせるためのボタンである。ボタン２２４は、ロボット１８にお辞儀させるためのボタンである。

【0077】

なお、詳細な説明は省略するが、ロボット１８は、表示装置３０を前方に傾けた後に元の位置に戻すことで、頷く。また、ロボット１８は、表示装置３０を左および右に１０度から１５度ずつ回動させ、これを２回繰り返すことで、首を振る。さらに、ロボット１８は、右車輪２４Ｒおよび左車輪２４Ｌを前方に１０度から２０度回動した後に元の位置に戻すことにより、ポール２６および表示装置３０を前に１０度から２０度傾けた後に直立した状態に戻すことで、お辞儀する。

【0078】

図１および図４では省略するが、ロボット１８は、少なくとも、表示装置３０の表示面を前後および左右に回転させる機構を備えている。さらに、ロボット１８は、表示装置３０の表示面を左右に傾ける機構を備えていてもよい。

【0079】

また、図５に示したロボット１８を制御する動作コマンドは一例であり、使用するロボット１８が備える機能に応じて適宜変更および設定可能である。この実施例では、動作コマンドもまた、操作者端末１６からサーバ１２を介してロボット１８に送信される。

【0080】

ロボット１８が自律行動する場合および遠隔操作で移動等する場合のいずれの場合にも、上述したように、ロボット１８から送信されるロボット画像データおよびロボット音声データがサーバ１２を介して操作者端末１６で受信され、操作者端末１６でロボット画像データおよびロボット音声データが出力されることにより、操作者は、ロボット１８の周囲を見たり、ロボット１８の周囲の状況を把握したり、ロボット１８の表示装置３０に対面している対話エージェントと対話したりすることができる。

【0081】

ただし、ロボット画像データおよびロボット音声データには、ロボット１８の識別情報（ロボットＩＤ）が付加されている。したがって、サーバ１２は、ロボット画像データおよびロボット音声データに付加されたロボットＩＤから当該ロボットＩＤを付与されたロボット１８を特定するとともに、当該ロボット１８を操作する操作者を特定する。

【0082】

同様に、操作者画像データおよび操作者音声データには、操作者の識別情報（操作者ＩＤ）が付加されている。したがって、サーバ１２は、操作者画像データおよび操作者音声データに付加された操作者ＩＤから操作者を特定する。

【0083】

サーバ１２では、ロボット１８と操作者を特定することで、画像データおよび音声データをＲＡＭ５２に記憶する場合に、対話中の対話エージェントおよび操作者についての画像データを１の領域に記憶するとともに、対話中の対話エージェントおよび操作者についての音声データを他の１の領域に記憶し、それらの画像データおよび音声データをまとめた履歴として履歴ＤＢ１２ａに記録することができる。ただし、対話中の対話エージェントの画像データおよび音声データは、特定されたロボット１８から送信されるロボット画像データおよびロボット音声データである。

【0084】

この実施例では、上述したように、サーバ１２は、操作者すなわちサービスユーザが所定のサービスを利用する場合に、対話エージェントと操作者は対話する。つまり、所定のサービスは、対話エージェントと操作者がロボット１８を介して対話するサービス（対話サービス）を含む。また、サーバ１２は、対話エージェントと操作者の対話の履歴を履歴ＤＢ１２ａに記憶する。

【0085】

一例として、対話の履歴は対話エージェントと操作者の間でトラブルが発生した場合に、トラブルの原因となる者つまり加害者とその被害者を特定するために記録される。

【0086】

ただし、すべての対話の履歴を記憶した場合には、データ量が膨大になってしまう。また、トラブルが発生している場合の対話をすべての対話の履歴から探し出すのは困難である。

【0087】

したがって、この実施例では、第１所定時間分の画像データおよび音声データに基づいてトラブルが発生していることが判断された場合に、この第１所定時間分の画像データおよび音声データすなわち対話の履歴を記憶し、トラブルが発生していることが判断されない場合には、この第１所定時間分の画像データおよび音声データすなわち対話の履歴を記憶しない。

【0088】

したがって、この実施例では、サーバ１２のＲＡＭ５２には、第１所定時間（たとえば、５分）分の音声データおよび画像データを記憶する領域が設けられており、トラブルが発生していることが判断されると、第１所定時間分の音声データと画像データが履歴として履歴ＤＢ１２ａに記憶される。このとき、履歴として記憶される音声データと画像データに対応する話者すなわち対話の関係者が特定され、特定された関係者について加害者または被害者が判断される。

【0089】

ただし、第１所定時間分の音声データおよび画像データをＲＡＭ５２に記憶するため、対話エージェントのみまたは操作者のみの音声データが履歴として記憶される場合もある。

【0090】

関係者は、この実施例では、対話エージェントおよび操作者であり、操作者は操作者画像データおよび操作者音声データに付加された操作者ＩＤによって特定される。対話エージェントは、操作者が操作するロボット１８から受信したロボット音声データの声紋を予め登録されている対話エージェントの声紋と照合することで特定される。

【0091】

なお、ロボット１８に対応して対話エージェントが予め設定されている場合には、操作者が操作するロボット１８を特定することで対話エージェントを特定することもできる。

【0092】

この実施例では、トラブルが発生しているかどうかは、対話の中に特定のワードが含まれているかどうか、または／および、話者の感情が特定の感情であるかどうかで判断される。特定のワードおよび特定の感情は予め情報処理システム１０またはサーバ１２の管理者等によって決定され、そのデータが辞書ＤＢ１２ｂに登録されている。特定のワードは、人を馬鹿にしたり、卑下したりする言葉である。特定の感情は、ネガティブな感情であり、この実施例では、怒り、嫌悪、恐怖および悲しみである。

【0093】

対話中に特定のワードが含まれている、または／および、話者の感情が特定の感情であることが判断されると、トラブルが発生していることが判断される。

【0094】

特定のワードが含まれるかどうかは次のように判断される。検出した音声データが音声認識され、音声認識された音声が辞書ＤＢ１２ｂに記憶された特定のワードを含むかどうかで判断される。音声認識については周知であるため、詳細な説明は省略する。

【0095】

特定の感情であるかどうかは次のように判断される。検出した画像データに含まれる顔画像から感情が推定され、推定された感情が辞書ＤＢ１２ｂに記憶された特定の感情であるかどうかで判断される。

【0096】

顔画像から人間の感情を推定する手法としては、公知の技術を用いることができる。たとえば、「小林宏、原文雄：ニューラルネットワークによる人の基本表情認識、計測自動制御学会論文集 Vol.29, No.1, 112/118(1993)」、「小谷中陽介、本間経康、酒井正夫、阿部健一：ニューラルネットワークを用いた顔表情認識、東北大医保健学科紀要 13(1):23～32, 2004」および「西銘大喜、遠藤聡志、當間愛晃、山田孝治、赤嶺有平：畳み込みニューラルネットワークを用いた表情表現の獲得と顔特徴量の分析、人工知能学会論文誌３２巻５号ＦＺ（２０１７年）」などに開示された技術を用いることができる。

【0097】

また、他の公知の技術では、顔画像から抽出した特徴点に基づいて人間の感情を推定する手法としては、特開２０２０－１６３６６０号公報に開示された技術を用いることもできる。

【0098】

また、音声から人間の感情を推定することもできる。音声から人間の感情を推定する手法としては、公知の技術を用いることができる。たとえば、特開２０２１－１２２８５号および「森大毅：音声から感情・態度の理解、電子情報通信学会誌 Vol. 101, No. 9, 2018」などに開示された技術を用いることができる。

【0099】

ただし、顔画像または音声に基づいて感情を推定する手法として公知の技術を用いる場合には、そのために必要な回路コンポーネントおよびデータが適宜サーバ１２に設けられる。ただし、顔画像または音声に基づいて感情を推定する装置（以下、「推定装置」という）をクラウド上に設けて、推定装置に顔画像または音声を送信し、感情の推定結果を推定装置から受け取るようにしてもよい。

【0100】

図６は関係者テーブルの一例を示す図である。トラブルが発生していることが判断された場合に、関係者テーブルが作成される。関係者テーブルは、当該トラブルの関係者すなわち加害者または被害者を特定および分類した情報である。具体的には、関係者テーブルは、トラブルＩＤに対応して、発話開始時刻、発話終了時刻、発話者ＩＤおよび分類が記載される。トラブルＩＤは、トラブルが発生していることが判断された第１所定時間分の音声データおよび画像データ毎にサーバ１２によって割り当てられる識別情報であり、一例として、８桁の数字で表される。発話開始時刻は、話者が発話を開始した時刻であり、西暦、年月日および時分秒の情報である。図６に示す例では、西暦および年月日を示す数字がアンダーバーの左側に記載され、時分秒を示す数字がアンダーバーの右側に記載される。このことは、発話終了時刻も同じである。発話終了時刻は、話者が発話を終了した時刻であり、西暦、年月日および時分秒の情報である。発話者ＩＤは、話者の識別情報であり、複数のアルファベットの文字列で表される。発話者ＩＤは、各対話エージェントおよび各操作者に個別に予め割り当てられているＩＤである。一例として、対話エージェントには、「ＤＡ」で始まるＩＤが割り当てられており、操作者には、「ＯＰ」で始まるＩＤが割り当てられている。分類は、トラブルの関係者が加害者または被害者であるかの別を示す。

【0101】

発話開始時刻および発話終了時刻は、音声を検出した装置、この実施例では、操作者端末１６およびロボット１８において付加される。したがって、図示は省略したが、操作者端末１６およびロボット１８には、ＲＴＣのような時計回路が設けられている。

【0102】

上述したように、対話エージェントのＩＤは予め割り当てられており、対話エージェントのＩＤに対応して、対話エージェントの名称および声紋データがそれぞれ辞書ＤＢ１２ｂに記憶されている。

【0103】

なお、操作者も声紋データを用いて特定する場合には、操作者のＩＤに対応して、操作者の名称および声紋データがそれぞれ辞書ＤＢ１２ｂに記憶される。

【0104】

発話に、上述したようなトラブルの発生の原因となる特定のワードが含まれている場合には、当該発話の話者は加害者として分類される。一方、発話した話者の感情が特定の感情のうちの悲しみまたは恐れの感情である場合には、当該話者は被害者として分類される。

【0105】

図７はサーバ１２に内蔵されるＲＡＭ５２のメモリマップ４００の一例を示す。図７に示すように、ＲＡＭ５２は、プログラム記憶領域４０２およびデータ記憶領域４０４を含む。プログラム記憶領域４０２には、この実施例のサーバ１２で実行される情報処理プログラムが記憶されている。

【0106】

情報処理プログラムは、通信プログラム４０２ａ、トラブル検出プログラム４０２ｂ、履歴記憶プログラム４０２ｃおよび関係者情報作成プログラム４０２ｄなどを含む。

【0107】

通信プログラム４０２ａは、外部の機器、この実施例では、操作者端末１６およびロボット１８とネットワーク１４を介して通信（データの送信および受信）するためのプログラムである。

【0108】

トラブル検出プログラム４０２ｂは、対話エージェントと操作者の対話においてトラブルが発生しているかどうかを検出するためのプログラムである。この実施例では、対話に特定のワードが含まれていることが判断されるとともに、話者が特定の感情であることが判断され、これらの判断結果で、トラブルが発生しているかどうかが検出される。

【0109】

履歴記憶プログラム４０２ｃは、トラブル検出プログラム４０２ｂに従ってトラブルが発生していることが検出された場合に、そのトラブルが発生している期間における履歴を記憶するためのプログラムである。

【0110】

関係者情報作成プログラム４０２ｄは、トラブル検出プログラム４０２ｂに従ってトラブルが発生していることが検出された場合に、そのトラブルの関係者を特定および分類して、図６に示したような関係者テーブル（後述する、関係者データ４０４ｆ）を作成するためのプログラムである。

【0111】

図示は省略するが、プログラム記憶領域４０２には、サーバ１２のオペレーティングシステムおよびミドルウェアとは別に所定のサービスを提供するために必要な他のプログラムも記憶される。

【0112】

また、データ記憶領域４０４には、ロボット画像データ４０４ａ、ロボット音声データ４０４ｂ、操作者画像データ４０４ｃ、操作者音声データ４０４ｄ、動作コマンドデータ４０４ｅおよび関係者データ４０４ｆなどが記憶される。

【0113】

ロボット画像データ４０４ａは、ロボット１８に設けられたカメラ１２４で撮影され、ロボット１８から受信したカメラ画像のデータである。

【0114】

ロボット音声データ４０４ｂは、ロボット１８に設けられたマイク１１０で検出され、ロボット１８から受信した音声のデータである。この音声には、対話エージェントの音声が含まれる。

【0115】

操作者画像データ４０４ｃは、操作者端末１６に設けられたカメラ８８で撮影され、操作者端末１６から受信した操作者の画像のデータである。

【0116】

操作者音声データ４０４ｄは、操作者端末１６に設けられたマイク８２で検出され、操作者端末１６から受信した音声のデータである。この音声は、基本的には、操作者の音声である。

【0117】

ロボット画像データ４０４ａ、ロボット音声データ４０４ｂ、操作者画像データ４０４ｃおよび操作者音声データ４０４ｄは、それぞれ、第１所定時間（この実施例では、５分）分をＲＡＭ５２のデータ記憶領域４０４に記憶可能であり、第１所定時間毎に、対話エージェントと操作者との間にトラブルが発生しているかどうかが検出される。

【0118】

トラブルが発生していることが検出された場合には、第１所定時間分のロボット画像データ４０４ａ、ロボット音声データ４０４ｂ、操作者画像データ４０４ｃおよび操作者音声データ４０４ｄが履歴ＤＢ１２ａに記憶され、ＲＡＭ５２から消去される。

【0119】

トラブルが発生していることが検出されない場合には、第１所定時間分のロボット画像データ４０４ａ、ロボット音声データ４０４ｂ、操作者画像データ４０４ｃおよび操作者音声データ４０４ｄがＲＡＭ５２から消去される。

【0120】

動作コマンドデータ４０４ｅは、サーバ１２から受信した、操作者の操作による動作コマンドのデータである。動作コマンドデータ４０４ｅは、ロボット１８に送信された後にＲＡＭ５２から消去される。

【0121】

関係者データ４０４ｆは、トラブルの関係者を特定するとともに、各関係者について加害者または被害者を分類したデータであって、この実施例では、図６に示した関係者テーブルについてのデータである。関係者データ４０４ｆは、履歴ＤＢ１２ａに記憶された後にＲＡＭ５２から消去される。

【0122】

図示は省略するが、データ記憶領域４０４には、情報処理を実行するために必要な他のデータが記憶されたり、情報処理を実行するために必要なタイマ（カウンタ）およびフラグが設けられたりする。

【0123】

図８は操作者端末１６に内蔵されるＲＡＭ７２のメモリマップ５００の一例を示す。図８に示すように、ＲＡＭ７２は、プログラム記憶領域５０２およびデータ記憶領域５０４を含む。プログラム記憶領域５０２には、この実施例の操作者端末１６で実行される情報処理プログラムが記憶されている。

【0124】

情報処理プログラムは、通信プログラム５０２ａ、操作検出プログラム５０２ｂ、撮影画像取得プログラム５０２ｃ、画像表示プログラム５０２ｄ、音検出プログラム５０２ｅおよび音出力プログラム５０２ｆなどを含む。

【0125】

通信プログラム５０２ａは、外部の機器、この実施例では、サーバ１２およびロボット１８と有線または無線で通信（データの送信および受信）するためのプログラムである。

【0126】

操作検出プログラム５０２ｂは、操作者の操作に従って入力装置７８から入力される操作データを検出し、データ記憶領域５０４に記憶するためのプログラムである。ただし、ＵＩ画面２００に設けられたボタン２１０－２２４が操作された場合には、操作されたボタン２１０－２２４に割り当てられた操作情報（動作コマンドを含む）のデータが操作データとして検出される。

【0127】

撮影画像取得プログラム５０２ｃは、カメラ８８で撮影された操作者画像データ５０４ｅを取得し、取得した操作者画像データ５０４ｅをデータ記憶領域５０４に記憶するためのプログラムである。

【0128】

画像表示プログラム５０２ｄは、ＵＩ画面２００の表示画像データを生成し、生成した表示画像データを表示装置８０に出力するためのプログラムである。ＵＩ画面２００の表示画像データには、サーバ１２から受信したロボット画像データ５０４ｃも含まれる。

【0129】

音検出プログラム５０２ｅは、マイク８２から入力される操作者の音声を検出し、検出した音声に対応する操作者音声データ５０４ｆをデータ記憶領域５０４に記憶するためのプログラムである。

【0130】

音出力プログラム５０２ｆは、サーバ１２から受信したロボット音声データ５０４ｄをスピーカ８４に出力するためのプログラムである。また、音出力プログラム５０２ｆは、音検出プログラム５０２ｅで検出した操作者音声データ５０４ｆをサーバ１２に送信（または、出力）するためのプログラムでもある。このとき、通信プログラム５０２ａも実行される。

【0131】

図示は省略するが、プログラム記憶領域５０２には、操作者端末１６のオペレーティングシステム、任意のミドルウェアおよび任意のアプリケーションを実行するためのプログラムも記憶される。

【0132】

また、データ記憶領域５０４には、操作データ５０４ａ、ＵＩ画面データ５０４ｂ、ロボット画像データ５０４ｃ、ロボット音声データ５０４ｄ、操作者画像データ５０４ｅおよび操作者音声データ５０４ｆなどが記憶される。

【0133】

操作データ５０４ａは、操作検出プログラム５０２ｂに従って検出された操作データである。操作データ５０４ａは、サーバ１２に送信されたり、操作者端末１６の処理に利用されたりした後に消去される。

【0134】

ＵＩ画面データ５０４ｂは、図５に示したＵＩ画面２００を表示するための画像データである。

【0135】

ロボット画像データ５０４ｃは、サーバ１２から受信したロボット画像データである。ロボット画像データ５０４ｃは、ＣＰＵ７０の処理に使用された後に消去される。

【0136】

ロボット音声データ５０４ｄは、サーバ１２から受信したロボット音声データである。ロボット音声データ５０４ｄは、ＣＰＵ７０の処理に使用された後に消去される。

【0137】

操作者画像データ５０４ｅは、カメラ８８から取得した撮影画像データであり、サーバ１２に送信された後に消去される。

【0138】

操作者音声データ５０４ｆは、マイク８２で検出された音声データであり、サーバ１２に送信された後に消去される。

【0139】

図示は省略するが、データ記憶領域５０４には、情報処理を実行するために必要な他のデータが記憶されたり、情報処理を実行するために必要なタイマ（カウンタ）およびフラグが設けられたりする。

【0140】

図９はロボット１８に内蔵されるＲＡＭ１０２のメモリマップ６００の一例を示す。図９に示すように、ＲＡＭ１０２は、プログラム記憶領域６０２およびデータ記憶領域６０４を含む。プログラム記憶領域６０２には、この実施例のロボット１８で実行される制御プログラムが記憶されている。

【0141】

制御プログラムは、通信プログラム６０２ａ、動作実行プログラム６０２ｂ、撮影画像取得プログラム６０２ｃ、画像表示プログラム６０２ｄ、音検出プログラム６０２ｅおよび音出力プログラム６０２ｆなどを含む。

【0142】

通信プログラム６０２ａは、外部の機器、この実施例では、サーバ１２およびロボット１８と有線または無線で通信（データの送信および受信）するためのプログラムである。

【0143】

動作実行プログラム６０２ｂは、自律行動またはサーバ１２から受信した操作者の操作データ（動作コマンド）に従う動作を実行するためのプログラムである。

【0144】

撮影画像取得プログラム６０２ｃは、カメラ１２２で撮影された撮影画像データを取得するためのプログラムである。

【0145】

画像表示プログラム６０２ｄは、サーバ１２から受信した操作者画像データ６０４ｃを表示装置３０に出力するためのプログラムである。

【0146】

音検出プログラム６０２ｅは、マイク１１０から入力される操作者の音声等を検出し、検出した音声に対応するロボット音声データ６０４ｂをデータ記憶領域６０４に記憶するためのプログラムである。

【0147】

音出力プログラム６０２ｆは、サーバ１２から受信した操作者音声データ６０４ｄをスピーカ１１２に出力するためのプログラムである。また、音出力プログラム６０２ｆは、音検出プログラム６０２ｅで検出したロボット音声データ６０４ｂをサーバ１２に送信（または、出力）するためのプログラムでもある。このとき、通信プログラム６０２ａも実行される。

【0148】

図示は省略するが、プログラム記憶領域６０２には、ロボット１８のオペレーティングシステムおよび任意のミドルウェアに加えて、距離を検出するプログラムおよび慣性情報を検出するプログラムも記憶される。

【0149】

また、データ記憶領域６０４には、ロボット画像データ６０４ａ、ロボット音声データ６０４ｂ、操作者画像データ６０４ｃ、操作者音声データ６０４ｄおよび動作コマンドデータ６０４ｅなどが記憶される。

【0150】

ロボット画像データ６０４ａは、ロボット１８が備えるカメラ１２２で撮影されたカメラ画像のデータである。ロボット画像データ６０４ａは、サーバ１２に送信された後に消去される。

【0151】

ロボット音声データ６０４ｂは、ロボット１８が備えるマイク１１０で検出された操作者等の音声のデータである。ロボット音声データ６０４ｂは、サーバ１２に送信された後に消去される。

【0152】

操作者画像データ６０４ｃは、サーバ１２から受信した操作者画像データである。操作者画像データ６０４ｃは、ＣＰＵ１００の処理に使用された後に消去される。

【0153】

操作者音声データ６０４ｄは、サーバ１２から受信した操作者音声データである。操作者音声データ６０４ｄは、ＣＰＵ１００の処理に使用された後に消去される。

【0154】

動作コマンドデータ６０４ｅは、サーバ１２から受信した、操作者の操作による動作コマンドのデータである。動作コマンドデータ６０４ｇは、ＣＰＵ１００の処理に使用された後に消去される。

【0155】

図示は省略するが、データ記憶領域６０４には、制御処理を実行するために必要な他のデータが記憶されたり、制御処理を実行するために必要なタイマ（カウンタ）およびフラグが設けられたりする。

【0156】

図１０および図１１は図２に示したサーバ１２のＣＰＵ５０の所定のサービス実行時における送受信処理の一例を示すフロー図である。また、図１２および図１３は図２に示したサーバ１２のＣＰＵ５０の履歴記憶および関係者情報作成処理の一例を示すフロー図である。

【0157】

図１０に示すように、ＣＰＵ５０は、送受信処理を開始すると、ステップＳ１で、操作者端末１６から操作者画像データを受信したかどうかを判断する。ステップＳ１で“ＮＯ”であれば、つまり、操作者画像データを受信していなければ、ステップＳ７に進む。

【0158】

一方、ステップＳ１で“ＹＥＳ”であれば、つまり、操作者画像データを受信すれば、ステップＳ３で、操作者画像データ４０４ｃをＲＡＭ５２のデータ記憶領域４０４に記憶し、ステップＳ５で、操作者画像データ４０４ｃをロボット１８に送信して、ステップＳ７に進む。

【0159】

ステップＳ７では、操作者端末１６から操作者音声データを受信したかどうかを判断する。ステップＳ７で“ＮＯ”であれば、つまり、操作者音声データを受信していなければ、ステップＳ１３に進む。一方、ステップＳ７で“ＹＥＳ”であれば、つまり、操作者音声データを受信すれば、ステップＳ９で、操作者音声データ４０４ｄをＲＡＭ５２のデータ記憶領域４０４に記憶し、ステップＳ１１で、操作者音声データ４０４ｄをロボット１８に送信して、ステップＳ１３に進む。

【0160】

ステップＳ１３では、操作者端末１６から動作コマンドデータを受信したかどうかを判断する。ステップＳ１３で“ＮＯ”であれば、つまり、動作コマンドデータを受信していなければ、図１１に示すステップＳ１９に進む。一方、ステップＳ１３で“ＹＥＳ”であれば、つまり、動作コマンドデータを受信すれば、ステップＳ１５で、動作コマンドデータ４０４ｅをＲＡＭ５２のデータ記憶領域４０４に記憶し、ステップＳ１７で、動作コマンドデータ４０４ｅをロボット１８に送信して、ステップＳ１９に進む。

【0161】

図１１に示すように、ステップＳ１９で、ロボット１８からロボット画像データを受信したかどうかを判断する。ステップＳ１９“ＮＯ”であれば、つまり、ロボット画像データを受信していなければ、ステップＳ２５に進む。一方、ステップＳ１９で“ＹＥＳ”であれば、つまり、ロボット画像データを受信すれば、ステップＳ２１で、ロボット画像データ４０４ａをＲＡＭ５２のデータ記憶領域４０４に記憶し、ステップＳ２３で、ロボット画像データ４０４ａを操作者端末１６に送信して、ステップＳ２５に進む。

【0162】

ステップＳ２５では、ロボット１８からロボット音声データを受信したかどうかを判断する。ステップＳ２５で“ＮＯ”であれば、つまり、ロボット音声データを受信していなければ、ステップＳ３１に進む。一方、ステップＳ２５で“ＹＥＳ”であれば、つまり、ロボット音声データを受信すれば、ステップＳ２７で、ロボット音声データ４０４ｂをデータ記憶領域４０４に記憶し、ステップＳ２９で、ロボット音声データ４０４ｂを操作者端末１６に送信して、ステップＳ３１に進む。

【0163】

ステップＳ３１では、サービスの終了かどうかを判断する。ここでは、ＣＰＵ５０は、操作者端末１６からサービスの終了通知を受信したかどうかを判断する。ステップＳ３１で“ＮＯ”であれば、つまり、サービスの終了でなければ、ステップＳ１に戻る。一方、ステップＳ３１で“ＹＥＳ”であれば、つまり、サービスの終了であれば、ステップＳ３３で、サービスの終了通知をロボット１８に送信して、送受信処理を終了する。

【0164】

また、図１２に示すように、サーバ１２のＣＰＵ５０は履歴記憶および関係者情報作成処理を開始すると、ステップＳ７１で、第１所定時間分の操作者および対話エージェントの画像データおよび音声データを取得する。ここでは、ＣＰＵ５０は、第１所定時間分のロボット画像データ４０４ａ、ロボット音声データ４０４ｂ、操作者画像データ４０４ｃおよび操作者音声データ４０４ｄを読み出す。

【0165】

次のステップＳ７３では、トラブルの発生の原因となる発話の有無を検出し、ステップＳ７５で、顔画像に基づいて話者の感情を検出（推定）する。

【0166】

続いて、ステップＳ７７では、トラブルが発生しているかどうかを判断する。ここでは、ＣＰＵ５０は、発話に特定のワードが含まれるかどうか、または／および、話者の感情が特定の感情（怒りや嫌悪）であるかどうかを判断する。ＣＰＵ５０は、発話に特定のワードが含まれている場合または／および話者の感情が特定の感情である場合に、トラブルが発生していることを判断（検出）する。

【0167】

ステップＳ７７で“ＮＯ”であれば、つまり、トラブルが発生していなければ、図１３に示すステップＳ８９に進む。一方、ステップＳ７７で“ＹＥＳ”であれば、つまり、トラブルが発生していれば、図１３に示すステップＳ７９で、第１所定時間分の操作者および対話エージェントの画像データおよび音声データを履歴ＤＢ１２ａに記憶する。つまり、ＣＰＵ５０は、第１所定時間分のロボット画像データ４０４ａ、ロボット音声データ４０４ｂ、操作者画像データ４０４ｃおよび操作者音声データ４０４ｄを履歴として履歴ＤＢ１２ａに記憶する。

【0168】

次のステップＳ８１では、話者を特定する。ここでは、ＣＰＵ５０は、履歴として記憶した操作者音声データ４０４ｄに付加された操作者のＩＤを取得するとともに、履歴として記憶したロボット音声データ４０４ｂに含まれる声紋データと一致する声紋データを辞書ＤＢ１２ｂから検出し、検出した声紋データに対応する対話エージェントのＩＤを取得する。

【0169】

次のステップＳ８３では、今回記憶した履歴についての話者をラベリングする。つまり、ＣＰＵ５０は、図６に示したような関係者テーブルに、今回の記憶した履歴に含まれる発話について、トラブルＩＤを付加するとともに、当該トラブルＩＤに対応して発話開始時刻および発話終了時刻を記載し、ステップＳ８１で取得した対話エージェントのＩＤまたは操作者のＩＤを発話者ＩＤとして記憶する。

【0170】

なお、トラブルＩＤは、同じロボット１８を用いたサービスにおいては、第２所定時間（たとえば、５分）を超えて音声を検出しない状態が継続しない場合には、最初にトラブルの発生を検出したときに付したトラブルＩＤと同じトラブルＩＤが付される。

【0171】

また、発話開始時刻および発話終了時刻は、ロボット音声データ４０４ｂおよび操作者音声データ４０４ｄに付加されている。

【0172】

続いて、ステップＳ８５で、トラブルの発生の原因となる発話の話者を加害者に分類し、ステップＳ８７で、悲しみまたは恐れの感情の話者を被害者に分類する。つまり、ＣＰＵ５０は、図６に示したような関係者テーブルにおいて、各話者を加害者または被害者に分類する。

【0173】

さらに、ステップＳ８９では、話者を分類したかどうかを判断する。ステップＳ８９で“ＹＥＳ”であれば、つまり、話者を分類していれば、ステップＳ９３に進む。一方、ステップＳ８９で“ＮＯ”であれば、つまり、話者を分類していなければ、ステップＳ９１で、話者を分類不能に決定し、ステップＳ９３に進む。

【0174】

なお、話者を分類できない場合は、対話に特定のワードが含まれていない場合、または、話者の感情が悲しみおよび恐れの感情のいずれでもない場合である。たとえば、話者を分類できない場合であっても、管理者等が履歴の音声および画像を確認することによって事後的に分類することができる。履歴は対話にトラブルが発生していることが判断された場合の画像データおよび音声データのみであるため、事後的に分類する場合であっても比較的容易である。

【0175】

そして、ステップＳ９３で、サービスの終了かどうかを判断する。ステップＳ９３で“ＮＯ”であれば、つまり、サービスの終了でなければ、ステップＳ７３に戻る。一方、ステップＳ９３で“ＹＥＳ”であれば、つまり、サービスの終了であれば、履歴記憶および関係者情報作成処理を終了する。図示は省略するが、サービスを終了するのに先立って、関係者データ４０４ｆが履歴ＤＢ１２ａに記憶され、関係者データ４０４ｆがＲＡＭ５２から消去される。

【0176】

図１４および図１５は図３に示した操作者端末１６のＣＰＵ７０の情報処理の一例を示すフロー図である。なお、図示は省略するが、操作者端末１６のＣＰＵ７０は、操作データ５０４ａを検出したり、操作者画像データ５０４ｅを検出したり、操作者音声データ５０４ｆを取得したりして、各データをサーバ１２に送信する処理（すなわち、送信処理）を実行したり、サーバ１２から送信されたロボット画像データ４０４ａおよびロボット音声データ４０４ｂを受信する処理（すなわち、受信処理）を実行したりする。

【0177】

図１４に示すように、ＣＰＵ７０は、情報処理を開始すると、ステップＳ２０１で、サーバ１２と接続状態を確立する。次のステップＳ２０３で、図５に示したようなＵＩ画面２００を表示装置８０に表示する。ただし、情報処理を開始した当初では、ロボット画像データを受信していないため、表示領域２０２には何も画像が表示されない。

【0178】

次のステップＳ２０５では、動作コマンドの入力が有るかどうかを判断する。ここでは、ＣＰＵ７０は、ボタン２１０－２２４が操作されたかどうかを判断する。

【0179】

ステップＳ２０５で“ＮＯ”であれば、つまり、動作コマンドの入力が無ければ、ステップＳ２０９に進む。一方、ステップＳ２０５で“ＹＥＳ”であれば、つまり、動画コマンドの入力が有れば、ステップＳ２０７で、動作コマンドデータをサーバ１２に送信して、ステップＳ２０９に進む。

【0180】

ステップＳ２０９では、音声の入力が有るかどうかを判断する。ステップＳ２０９で“ＹＥＳ”であれば、つまり、音声の入力が有れば、ステップＳ２１１で、操作者画像データおよび操作者音声データをサーバ１２に送信して、図１５に示すステップＳ２１５に進む。

【0181】

一方、ステップＳ２０９で“ＮＯ”であれば、つまり、音声の入力が無ければ、ステップＳ２１３で、操作者画像データをサーバ１２に送信して、ステップＳ２１５に進む。

【0182】

図１５に示すように、ステップ２１５では、サーバ１２からデータを受信したかどうかを判断する。ステップＳ２１５で“ＹＥＳ”であれば、つまり、サーバ１２からデータを受信すれば、ステップＳ２１７で、ロボット音声データが有るかどうかを判断する。

【0183】

ステップＳ２１７で“ＹＥＳ”であれば、つまり、ロボット音声データ５０４ｄが有れば、ステップＳ２１９で、ロボット音声データ５０４ｄを出力し、ステップＳ２２１で、ロボット画像データ５０４ｃを出力して、ステップＳ２２５に進む。したがって、ロボット１８を通して操作者と対話する対話エージェントの音声が操作者端末１６のスピーカ８４から出力され、ロボット１８を通して操作者と対話する対話エージェント等を含むカメラ画像がＵＩ画面２００の表示領域２０２に表示される。

【0184】

一方、ステップＳ２１７で“ＮＯ”であれば、つまり、ロボット音声データ５０４ｄが無ければ、ステップＳ２２３で、ロボット画像データ５０４ｃを出力して、ステップＳ２２５に進む。

【0185】

ステップＳ２２５では、サービスの終了かどうかを判断する。ここでは、ＣＰＵ７０は、操作者によってサービスを終了することが指示されたかどうかを判断する。ステップＳ２２５で“ＮＯ”であれば、つまり、サービス終了でなければ、ステップＳ２０３に戻る。一方、ステップＳ２２２５で“ＹＥＳ”であれば、つまり、サービス終了であれば、ステップＳ２２７で、サービスの終了通知をサーバ１２に送信して、情報処理を終了する。

【0186】

図１６および図１７は図４に示したロボット１８のＣＰＵ１００の制御処理の一例を示すフロー図である。なお、図示は省略するが、ロボット１８のＣＰＵ１００は、ロボット画像データ６０４ａを検出したり、ロボット音声データ６０４ｂを検出したり、各データをサーバ１２に送信する送信処理を実行したり、サーバ１２から送信された操作者画像データ６０４ｃ、操作者音声データ６０４ｄおよび動作コマンドデータ６０４ｅを受信する受信処理を実行したりする。

【0187】

図１６に示すように、ＣＰＵ１００は、制御処理を開始すると、ステップＳ３０１で、サーバ１２と接続状態を確立する。次のステップＳ３０３では、操作者画像を表示装置３０に表示する。ただし、制御処理を開始した当初では、操作者画像データ６０４ｃを受信していないため、操作者画像は表示されない。

【0188】

続いて、ステップＳ３０５では、サービス終了であるかどうかを判断する。ここでは、ＣＰＵ１００は、サーバ１２からサービスの終了通知を受信したかどうかを判断する。テップＳ３０５で“ＹＥＳ”であれば、つまり、サービス終了であれば、制御処理を終了する。一方、ステップＳ３０５で“ＮＯ”であれば、つまり、サービス終了でなければ、ステップＳ３０７で、サーバ１２から画像データまたは／および音声データを受信したかどうかを判断する。

【0189】

ステップＳ３０７で“ＮＯ”であれば、つまり、サーバ１２から画像データおよび音声データのいずれも受信していなければ、ステップＳ３１７に進む。一方、ステップＳ３０７で“ＹＥＳ”であれば、つまり、サーバ１２から画像データまたは／および音声データを受信すれば、ステップＳ３０９で、操作者音声データ６０４ｄが有るかどうかを判断する。

【0190】

ステップＳ３０９で“ＹＥＳ”であれば、つまり、操作者音声データ６０４ｄが有れば、ステップＳ３１１で、操作者音声データ６０４ｄをスピーカ１１２に出力し、ステップＳ３１３で、操作者画像データ６０４ｃを表示装置３０に出力して、ステップＳ３１７に進む。

【0191】

一方、ステップＳ３０９で“ＮＯ”であれば、つまり、操作者音声データ６０４ｄが無ければ、ステップＳ３１５で、操作者画像データ６０４ｃを表示装置３０に出力し、ステップＳ３１７に進む。

【0192】

ステップＳ３１７では、サーバ１２から動作コマンドデータ６０４ｅを受信したかどうかを判断する。ステップＳ３１７で“ＮＯ”であれば、つまり、動作コマンドデータ６０４ｅを受信していなければ、図１７に示すステップＳ３２１に進む。一方、ステップＳ３１７で“ＹＥＳ”であれば、つまり、動作コマンドデータ６０４ｅを受信していれば、ステップＳ３１９で、動作コマンドデータ６０４ｅに従う動作を実行して、ステップＳ３２１に進む。

【0193】

図１７に示すように、ステップＳ３２１では、音声の入力が有るかどうかを判断する。ステップＳ３２１で“ＹＥＳ”であれば、つまり、音声の入力が有れば、ステップＳ３２３で、ロボット画像データ６０４ａとロボット音声データ６０４ｂをサーバ１２に送信して、ステップＳ３０５に戻る。一方、ステップＳ３２１で“ＮＯ”であれば、つまり、音声の入力が無ければ、ステップＳ３２５で、ロボット画像データ６０４ａをサーバ１２に送信して、ステップＳ３０５に戻る。

【0194】

この実施例によれば、トラブルが発生していることが検出された場合の対話の音声データと画像データの履歴をデータベースに保存するので、すべての対話の音声データと画像データの履歴を保存した場合と比べて、トラブルが発生している場合の履歴を見つけ出すなどの手間が無いため、対話のトラブルの原因を容易に究明することができる。

【0195】

また、この実施例によれば、トラブルが発生していることが検出された場合の対話の関係者を特定するとともに、各関係者を加害者または被害者に分類するので、アバターを用いた対話サービスにおける対話のトラブルの原因をさらに容易に究明することができる。

【0196】

なお、この実施例では、対話の履歴として、画像データと音声データを記憶するようにしたが、音声データのみを記憶するようにしてもよい。かかる場合には、音声データに特定のワードが含まれるかどうか、または／および、音声データに基づいて推定される話者の感情が特定の感情であるかどうかが判断され、トラブルの発生が検出されるとともに、加害者および被害者が分類される。

【0197】

また、この実施例では、操作者端末は、操作者画像データ、操作者音声データおよび動作コマンドデータを、サーバを介してロボットに送信するようにしたが、これらのデータは、サーバを介さずにロボットに直接送信されてもよい。ただし、サーバが履歴の記憶等を行うため、操作者画像データおよび操作者音声データは、サーバにも送信される。同様に、ロボット画像データおよびロボット音声データは、サーバと操作者端末の両方に送信されてもよい。

【0198】

また、この実施例では、ロボットのアバターを用いた対話サービスについて説明したが、ＣＧ(Computer Graphics)のアバターを用いた対話サービスにも適用可能である。かかる場合には、ロボットに代えて、ＣＧのアバターを表示する表示装置を備えるとともに、カメラ、マイクおよびスピーカをさらに備えるコンピュータが設けられる。一例として、コンピュータとしては、汎用のＰＣ、スマートフォン、タブレットＰＣなどを用いることができる。この場合、ＣＧのアバターは、操作者によって動作および発話を制御される。

【0199】

また、上述の実施例で示したフロー図の各ステップは同じ結果が得られる場合には、処理する順番を変更することが可能である。

【0200】

さらに、上述の実施例で挙げた各種の画面、具体的数値はいずれも単なる例示であり、必要に応じて適宜変更可能である。

【符号の説明】

【0201】

１０ …情報処理システム
１２ …サーバ
１４ …ネットワーク
１６ …操作者端末
１８ …ロボット
５０、７０、１００ …ＣＰＵ
５２、７２、１０２ …ＲＡＭ
５４、７４、１０４ …通信Ｉ／Ｆ
５６、７６、１０６ …入出力Ｉ／Ｆ
５８、７８、１０８ …入力装置
３０、６０、８０ …表示装置
８２、１１０ …マイク
８４、１１２ …スピーカ
８６、１２０ …センサＩ／Ｆ
８８、１２２ …カメラ
１２４、１２６ …ＬＲＦ
１２８ …慣性計測ユニット

【図1】