2023-147481 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-147481情報処理装置、情報処理システム、制御プログラムおよび制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023147481

(43)【公開日】2023-10-13

(54)【発明の名称】情報処理装置、情報処理システム、制御プログラムおよび制御方法

(51)【国際特許分類】

G06F 21/32 20130101AFI20231005BHJP

G10L 17/00 20130101ALI20231005BHJP

G06F 3/16 20060101ALI20231005BHJP

G06F 3/048 20130101ALI20231005BHJP

【ＦＩ】

G06F21/32

G10L17/00 200C

G10L17/00 200D

G06F3/16 650

G06F3/16 690

G06F3/048

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022054992

(22)【出願日】2022-03-30

【国等の委託研究の成果に係る記載事項】（出願人による申告）令和２年度、国立研究開発法人科学技術振興機構、ムーンショット型研究開発事業「ＣＡ基盤構築及び階層的ＣＡ連携と操作者割り当ての研究開発」委託研究、産業技術力強化法第１７条の適用を受ける特許出願。／令和２年度、国立研究開発法人科学技術振興機構、ムーンショット型研究開発事業「利用者モニタリングと経験管理の研究開発」委託研究、産業技術力強化法第１７条の適用を受ける特許出願。

(71)【出願人】

【識別番号】393031586

【氏名又は名称】株式会社国際電気通信基礎技術研究所

(74)【代理人】

【識別番号】100090181

【弁理士】

【氏名又は名称】山田義人

(72)【発明者】

【氏名】太田陽

(72)【発明者】

【氏名】宮下敬宏

(72)【発明者】

【氏名】内海章

(72)【発明者】

【氏名】西村祥吾

【テーマコード（参考）】

5E555

【Ｆターム（参考）】

5E555AA46

5E555AA48

5E555AA51

5E555BA01

5E555BB02

5E555BB04

5E555BC16

5E555CA12

5E555CA42

5E555CA47

5E555CB33

5E555CB64

5E555CB67

5E555DA23

5E555DB20

5E555DB32

5E555DB41

5E555DC11

5E555EA23

5E555FA00

(57)【要約】（修正有）

【課題】認証方法を複雑化することなく、セキュリティを高くする情報処理装置、情報処理システム、制御プログラム及び制御方法を提供する。
【解決手段】情報処理装置は、操作者端末の操作者が所定のサービスの提供を受ける場合、操作者によって入力された操作者ＩＤ及びパスワードを用いて１つ目の認証処理を実行し、１つ目の認証に成功すると、パターン認証画面に含まれる対話エージェントの画像３０２を用いて、操作者または操作者のアバターの画像３０４に対して、複数の発言または問いかけを行う。これに対して、操作者は発話したり、アバターの画像の動作を制御したりする。情報処理装置はさらに、これらの操作パターンと、操作者が発話した音声から生成した韻律情報及び発話したときの操作者の感情を含む反応パターンを用いて２つ目の認証処理を実行する。
【選択図】図８

【特許請求の範囲】

【請求項1】

ウェブサイトで所定のサービスを提供する情報処理装置であって、
前記所定のサービスを利用する操作者の操作者端末で入力されたＩＤおよびパスワードを認証する第１認証手段、
前記第１認証手段による認証に成功した場合に、対話エージェントに対する前記操作者の応答パターンを認証する第２認証手段、および
前記第２認証手段による認証に成功した場合に、前記所定のサービスの提供の開始を前記操作者端末に許可する許可手段を備え、
前記第２認証手段は、前記対話エージェントから前記操作者に複数の発話内容を発話した場合に、当該操作者が前記複数の発話内容の各々に対して音声で応答したときの当該操作者の音声の韻律情報を含む応答パターンの一致度に応じて認証する、情報処理装置。

【請求項2】

前記操作者端末からの撮影画像を受信する受信手段をさらに備え、
前記応答パターンは、前記操作者の顔画像から推定した当該操作者の感情を含む、請求項１記載の情報処理装置。

【請求項3】

前記応答パターンは、前記操作者の音声から認識した当該操作者の発話内容を含む、請求項１または２記載の情報処理装置。

【請求項4】

前記所定のサービスは、前記操作者のアバターとしてロボットを使用するサービスであり、
前記ロボットを動作させるＵＩ画面を前記操作者端末に表示するＵＩ表示手段、および
前記第２認証手段による認証処理を実行する場合に、前記対話エージェントおよび前記アバターを仮想空間にコンピュータグラフィックスで描画された画像を含む認証画面を前記操作者端末に表示する認証画面表示手段をさらに備え、
前記操作者は、前記複数の発話内容の各々に対応して音声で応答する場合に、前記ＵＩ画面と同じ画面を用いて前記コンピュータグラフィックスで描画された前記アバターの画像を動作させ、
前記応答パターンは、前記アバターの画像を動作させる前記操作者の操作内容を含む、請求項１から３までのいずれかに記載の情報処理装置。

【請求項5】

ウェブサイトで所定のサービスを提供する情報処理装置と、前記所定のサービスを利用する操作者の操作者端末を備える、情報処理システムであって、
前記情報処理装置は、
前記操作者端末で入力されたＩＤおよびパスワードを認証する第１認証手段、
前記第１認証手段による認証に成功した場合に、対話エージェントに対する前記操作者の応答パターンを認証する第２認証手段、および
前記第２認証手段による認証に成功した場合に、前記所定のサービスの提供の開始を前記操作者端末に許可する許可手段を備え、
前記第２認証手段は、前記対話エージェントから前記操作者に複数の発話内容を発話した場合に、当該操作者が前記複数の発話内容の各々に対して音声で応答したときの当該操作者の音声の韻律情報を含む応答パターンの一致度に応じて認証する、情報処理システム。

【請求項6】

ウェブサイトで所定のサービスを提供する情報処理装置の情報処理プログラムであって、
前記情報処理装置のプロセッサに、
前記所定のサービスを利用する操作者の操作者端末で入力されたＩＤおよびパスワードを認証する第１認証ステップ、
前記第１認証ステップにおいて認証に成功した場合に、対話エージェントに対する前記操作者の応答パターンを認証する第２認証ステップ、および
前記第２認証ステップにおいて認証に成功した場合に、前記所定のサービスの提供の開始を前記操作者端末に許可する許可ステップを実行させ、
前記第２認証ステップは、前記対話エージェントから前記操作者に複数の発話内容を発話した場合に、当該操作者が前記複数の発話内容の各々に対して音声で応答したときの当該操作者の音声の韻律情報を含む応答パターンの一致度に応じて認証する、情報処理プログラム。

【請求項7】

ウェブサイトで所定のサービスを提供する情報処理装置の情報処理方法であって、
（ａ）前記所定のサービスを利用する操作者の操作者端末で入力されたＩＤおよびパスワードを認証するステップ、
（ｂ）前記ステップ（ａ）において認証に成功した場合に、対話エージェントに対する前記操作者の応答パターンを認証するステップ、および
（ｃ）前記ステップ（ｂ）において認証に成功した場合に、前記所定のサービスの提供の開始を前記操作者端末に許可するステップを含み、
前記ステップ（ｃ）は、前記対話エージェントから前記操作者に複数の発話内容を発話した場合に、当該操作者が前記複数の発話内容の各々に対して音声で応答したときの当該操作者の音声の韻律情報を含む応答パターンの一致度に応じて認証する、情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、情報処理装置、情報処理システム、制御プログラムおよび制御方法に関し、特にたとえば、２段階でユーザを認証する、情報処理装置、情報処理システム、制御プログラムおよび制御方法に関する。

【背景技術】

【0002】

この種の従来の情報処理装置の一例が特許文献１に開示されている。特許文献１に開示されるログイン認証システムでは、サーバは、ユーザ端末において入力されたユーザＩＤおよびログインパスワードが登録されたものか否かを判定する。また、サーバは、ユーザ端末のカメラを用いて撮影した画像データと事前に登録された顔写真データとを比較して同一人物の可能性を数値で得て、同一人物の可能性の数値が所定値以上か否かを判定する。サーバは、両方の所定要件を満たす場合に、ログインを許可する。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－２０１５９５

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記の特許文献１では、顔写真データを用いた認証も行うことで、ＩＤ・パスワード入力のみの構成と比べてセキュリティレベルを高めているが、たとえば、事前に入手したユーザの顔写真をカメラで撮影させることで、他人が顔写真データを用いた認証に成功する虞がある。また、ＩＤ・パスワード入力に加えて、秘密の質問に対する答えを入力する方法もあるが、第三者に推測される可能性がある。このため、秘密の質問に対する答えの入力に代えて、無意味な文字列を用いたパスコードを入力することも考えらえるが、ユーザがパスコードを記憶するのは困難であり、使い勝手が悪い。したがって、認証方法には改善の余地がある。

【0005】

それゆえに、この発明の主たる目的は、新規な、情報処理装置、情報処理システム、制御プログラムおよび制御方法を提供することである。

【0006】

また、この発明の他の目的は、認証方法を複雑化することなく、セキュリティを高くすることができる、情報処理装置、情報処理システム、制御プログラムおよび制御方法を提供することである。

【課題を解決するための手段】

【0007】

第１の発明は、ウェブサイトで所定のサービスを提供する情報処理装置であって、所定のサービスを利用する操作者の操作者端末で入力されたＩＤおよびパスワードを認証する第１認証手段、第１認証手段による認証に成功した場合に、対話エージェントに対する操作者の応答パターンを認証する第２認証手段、および第２認証手段による認証に成功した場合に、所定のサービスの提供の開始を操作者端末に許可する許可手段を備え、第２認証手段は、対話エージェントから操作者に複数の発話内容を発話した場合に、当該操作者が複数の発話内容の各々に対して音声で応答したときの当該操作者の音声の韻律情報を含む応答パターンの一致度に応じて認証する、情報処理装置である。

【0008】

第２の発明は、第１の発明に従属し、操作者端末からの撮影画像を受信する受信手段をさらに備え、応答パターンは、撮影画像に含まれる操作者の顔画像から推定した当該操作者の感情を含む。

【0009】

第３の発明は、第１または第２の発明に従属し、応答パターンは、操作者の音声から認識した当該操作者の発話内容を含む。

【0010】

第４の発明は、第１から第３の発明までのいずれかに従属し、所定のサービスは、操作者のアバターとしてロボットを使用するサービスであり、ロボットを動作させるＵＩ画面を操作者端末に表示するＵＩ表示手段、および第２認証手段による認証処理を実行する場合に、対話エージェントおよびアバターを仮想空間にコンピュータグラフィックスで描画された画像を含む認証画面を操作者端末に表示する認証画面表示手段をさらに備え、操作者は、複数の発話内容の各々に対応して音声で応答する場合に、ＵＩ画面と同じ画面を用いてコンピュータグラフィックスで描画されたアバターの画像を動作させ、応答パターンは、アバターの画像を動作させる操作者の操作内容を含む。

【0011】

第５の発明は、ウェブサイトで所定のサービスを提供する情報処理装置と、所定のサービスを利用する操作者の操作者端末を備える、情報処理システムであって、情報処理装置は、操作者端末で入力されたＩＤおよびパスワードを認証する第１認証手段、第１認証手段による認証に成功した場合に、対話エージェントに対する操作者の応答パターンを認証する第２認証手段、および第２認証手段による認証に成功した場合に、所定のサービスの提供の開始を操作者端末に許可する許可手段を備え、第２認証手段は、対話エージェントから操作者に複数の発話内容を発話した場合に、当該操作者が複数の発話内容の各々に対して音声で応答したときの当該操作者の音声の韻律情報を含む応答パターンの一致度に応じて認証する、情報処理システムである。

【0012】

第６の発明は、ウェブサイトで所定のサービスを提供する情報処理装置の情報処理プログラムであって、情報処理装置のプロセッサに、所定のサービスを利用する操作者の操作者端末で入力されたＩＤおよびパスワードを認証する第１認証ステップ、第１認証ステップにおいて認証に成功した場合に、対話エージェントに対する操作者の応答パターンを認証する第２認証ステップ、および第２認証ステップにおいて認証に成功した場合に、所定のサービスの提供の開始を操作者端末に許可する許可ステップを実行させ、第２認証ステップは、対話エージェントから操作者に複数の発話内容を発話した場合に、当該操作者が複数の発話内容の各々に対して音声で応答したときの当該操作者の音声の韻律情報を含む応答パターンの一致度に応じて認証する、情報処理プログラムである。

【0013】

第７の発明は、ウェブサイトで所定のサービスを提供する情報処理装置の情報処理方法であって、（ａ）所定のサービスを利用する操作者の操作者端末で入力されたＩＤおよびパスワードを認証するステップ、（ｂ）ステップ（ａ）において認証に成功した場合に、対話エージェントに対する操作者の応答パターンを認証するステップ、および（ｃ）ステップ（ｂ）において認証に成功した場合に、所定のサービスの提供の開始を操作者端末に許可するステップを含み、ステップ（ｃ）は、対話エージェントから操作者に複数の発話内容を発話した場合に、当該操作者が複数の発話内容の各々に対して音声で応答したときの当該操作者の音声の韻律情報を含む応答パターンの一致度に応じて認証する、情報処理方法である。

【発明の効果】

【0014】

この発明によれば、認証操作を複雑化させること無く、セキュリティを高くすることができる。

【0015】

この発明の上述の目的、その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

【図面の簡単な説明】

【0016】

【図1】図１はこの発明の一実施例の情報処理システムを示す図である。

【図2】図２は図１に示すサーバの電気的な構成を示すブロック図である。

【図3】図３は図１に示す操作者端末の電気的な構成を示すブロック図である。

【図4】図４は操作者端末に表示されるＩＤ・パスワード登録画面の一例を示す図である。

【図5】図５は操作者端末に表示されるパターン登録画面の一例を示す図である。

【図6】図６は操作者端末に表示されるＵＩ画面の一例を示す図である。

【図7】図７は操作者端末に表示されるＩＤ・パスワード認証画面の一例を示す図である。

【図8】図８は操作者端末に表示されるパターン認証画面の一例を示す図である。

【図9】図９は図２に示すサーバのＲＡＭのメモリマップの一例を示す図である。

【図10】図１０は図３に示す操作者端末のＲＡＭのメモリマップの一例を示す図である。

【図11】図１１は図２に示すサーバのＣＰＵの登録処理の一例の一部を示すフロー図である。

【図12】図１２は図２に示すサーバのＣＰＵの登録処理の一例の他の一部であって、図１１に後続するフロー図である。

【図13】図１３は図２に示すサーバのＣＰＵの認証処理の一例の一部を示すフロー図である。

【図14】図１４は図２に示すサーバのＣＰＵの認証処理の一例の他の一部であって、図１３に後続するフロー図である。

【発明を実施するための形態】

【0017】

図１を参照して、この第１実施例の情報処理システム１０はサーバ１２を含み、サーバ１２は、ネットワーク１４を介して、操作者端末１６およびロボット１８に通信可能に接続される。

【0018】

操作者端末１６は、操作者によって操作され、主として、ロボット１８を制御するために使用される。この実施例では、操作者は、サーバ１２によって提供されるアバターを用いた所定のサービスを利用する者（サービスユーザ）である。ロボット１８は、操作者のアバターとして機能する。

【0019】

なお、ロボット１８が表示装置を備える場合には、当該表示装置に、操作者の顔画像（または、上半身の画像あるいは全身の画像）を表示したり、操作者に対応するキャラクタの画像を表示したりしてもよい。

【0020】

所定のサービスは、一例として、博物館、美術館、水族館、科学館または動物園などに配置されるロボット１８を遠隔に存在する操作者のアバターとして機能させ、遠隔に存在する操作者は、ロボット１８を通して、博物館、美術館、水族館、科学館または動物園などを見学する。この場合、博物館、美術館、水族館、科学館または動物園などに存在する案内人がロボット１８とともに館内または園内を移動する。また、操作者は、ロボット１８を通して案内人の説明を聞いたり、案内人と対話したりする。つまり、案内人は、操作者の対話相手である。

【0021】

また、所定のサービスの他の例は、映画館、コンサート会場または劇場に配置されるロボット１８を遠隔に存在する操作者のアバターとして機能させ、遠隔に存在する操作者は、ロボット１８を通して、映画館、コンサート会場または劇場などで映画、コンサート、ライブまたは演劇などを鑑賞する。この場合、ロボット１８は座席等に固定的に配置される。また、対話相手は居ない。ただし、対話相手として案内人がロボット１８に付いていてもよい。

【0022】

なお、図１では、１台の操作者端末１６および１台のロボット１８を示してあるが、実際には、複数の操作者端末１６および複数のロボット１８が設けられる。以下、１台の操作者端末１６および１台のロボット１８を用いて説明するが、同じ内容が他の操作者端末１６および他のロボット１８にも当てはまる。

【0023】

サーバ１２は、情報処理装置の一例であり、汎用のサーバを用いることができる。この実施例では、サーバ１２は、アバターを用いた所定のサービスを提供するウェブサイトを運営する。サーバ１２は、操作者データベース（以下、「操作者ＤＢ」という）１２ａに接続される。操作者ＤＢ１２ａは、サーバ１２が提供するアバターを用いた所定のサービスを利用する操作者（または、サービスユーザ）を認証するための情報（以下、「認証情報」ということがある）を記憶する。

【0024】

なお、操作者ＤＢ１２ａは、サーバ１２に内蔵されるＨＤＤに設けてもよいし、ネットワーク１４を介して通信可能に設けてもよい。

【0025】

ネットワーク１４は、インターネットを含むＩＰ網（または、ＩＰネットワーク）と、このＩＰ網にアクセスするためのアクセス網（または、アクセスネットワーク）とから構成される。アクセス網としては、公衆電話網、携帯電話網、有線ＬＡＮ、無線ＬＡＮ、ＣＡＴＶ（Cable Television）等を用いることができる。

【0026】

操作者端末１６は、サーバ１２とは異なる他の情報処理装置であり、一例として、デスクトップ型ＰＣであり、ブラウザ機能を備えている。他の実施例では、操作者端末１６として、スマートフォン、タブレットＰＣまたはノート型ＰＣなどの汎用の端末を用いることもできる。

【0027】

ロボット１８は、自立行動可能なロボットであり、市販の据置型または移動型のロボットを用いることができる。一例として、据置型のロボットとしては、ヴイストン株式会社が製造販売するＳｏｔａ（ＴＭ）を使用することができる。また、移動型のロボットとしては、出願人が開発等したロボビー(登録商標)またはDouble Robotics, Incが販売するロボットDouble 3を使用することができる。

【0028】

図２は図１に示したサーバ１２の電気的な構成を示すブロック図である。図２に示すように、サーバ１２はＣＰＵ２０を含み、ＣＰＵ２０は、内部バスを介して、ＲＡＭ２２、通信インタフェース（以下、「通信Ｉ／Ｆ」という）２４および入出力インタフェース（以下、「入出力Ｉ／Ｆ」という）２６に接続される。

【0029】

ＣＰＵ２０は、サーバ１２の全体的な制御を司る。ただし、ＣＰＵ２０に代えて、ＣＰＵ機能、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）機能等の複数の機能を含むＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ）を設けてもよい。ＲＡＭ２２は、サーバ１２の主記憶装置であり、ＣＰＵ２０のワーク領域およびバッファ領域として用いられる。

【0030】

図示は省略するが、サーバ１２は、ＨＤＤおよびＲＯＭのような補助記憶装置も備える。ただし、ＨＤＤおよびＲＯＭに代えて、または、ＨＤＤおよびＲＯＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

【0031】

通信Ｉ／Ｆ２４は、ＣＰＵ２０の制御の下、ネットワーク１４を介して、操作者端末１６およびロボット１８などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。ただし、通信Ｉ／Ｆ２４としては、無線ＬＡＮまたはBluetooth（登録商標）等の無線インタフェースを使用することもできる。

【0032】

入出力Ｉ／Ｆ２６には、入力装置２８および表示装置３０が接続されている。入力装置２８として、キーボードおよびコンピュータマウスが用いられる。表示装置３０は、ＬＣＤまたは有機ＥＬディスプレイである。

【0033】

入出力Ｉ／Ｆ２６は、入力装置２８から入力された操作データ（または、操作情報）をＣＰＵ２０に出力するとともに、ＣＰＵ２０によって生成された画像データを表示装置３０に出力して、画像データに対応する画面を表示装置３０に表示させる。

【0034】

なお、図２に示すサーバ１２の電気的な構成は一例であり、限定される必要はない。

【0035】

図３は図１に示した操作者端末１６の電気的な構成を示すブロック図である。図３に示すように、操作者端末１６はＣＰＵ５０を含み、ＣＰＵ５０は、内部バスを介して、ＲＡＭ５２、通信Ｉ／Ｆ５４および入出力Ｉ／Ｆ５６に接続される。

【0036】

ＣＰＵ５０は、操作者端末１６の全体的な制御を司る。ただし、ＣＰＵ５０に代えて、ＣＰＵ機能、ＧＰＵ機能等の複数の機能を含むＳｏＣを設けてもよい。ＲＡＭ５２は、操作者端末１６の主記憶装置であり、ＣＰＵ５０のワーク領域およびバッファ領域として用いられる。

【0037】

図示は省略するが、操作者端末１６は、ＨＤＤおよびＲＯＭのような補助記憶装置も備える。ただし、ＨＤＤおよびＲＯＭに代えて、または、ＨＤＤおよびＲＯＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

【0038】

通信Ｉ／Ｆ５４は、ＣＰＵ５０の制御の下、ネットワーク１４を介して、サーバ１２およびロボット１８などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。ただし、通信Ｉ／Ｆ５４としては、無線ＬＡＮまたはBluetooth（登録商標）等の無線インタフェースを使用することもできる。

【0039】

入出力Ｉ／Ｆ５６には、入力装置５８および表示装置６０、マイク６２およびスピーカ６４が接続されている。入力装置５８として、キーボードおよびコンピュータマウスが用いられる。さらに、タッチパネルが設けられる場合もある。表示装置６０は、ＬＣＤまたは有機ＥＬディスプレイである。

【0040】

ただし、操作者端末１６として、スマートフォンが用いられる場合には、入力装置５８は、タッチパネルおよびハードウェアのボタンである。タッチパネルは、汎用のタッチパネルであり、静電容量方式、電磁誘導方式、抵抗膜方式、赤外線方式など、任意の方式のものを用いることができる。

【0041】

入出力Ｉ／Ｆ５６は、マイク６２で検出された操作者の音声をデジタルの音声データに変換してＣＰＵ５０に出力するとともに、ＣＰＵ５０によって出力される音声データをアナログの音声信号に変換してスピーカ６４から出力させる。ただし、実施例では、ＣＰＵ５０から出力される音声データは、サーバ１２またはロボット１８から受信した音声データである。また、入出力Ｉ／Ｆ５６は、入力装置５８から入力された操作データ（または、操作情報）をＣＰＵ５０に出力するとともに、ＣＰＵ５０によって生成された画像データを表示装置６０に出力して、画像データに対応する画面または画像を表示装置６０に表示させる。ただし、外部のコンピュータ（たとえば、サーバ１２またはロボット１８）から受信した画像データがＣＰＵ５０によって出力される場合もある。

【0042】

また、操作者端末１６は、センサＩ／Ｆ６６およびカメラ６８を備えている。ＣＰＵ５０は、バスおよびセンサＩ／Ｆ６６を介してカメラ６８に接続される。カメラ６８は、ＣＣＤまたはＣＭＯＳのような撮像素子を用いたカメラである。

【0043】

なお、図３に示す操作者端末１６の電気的な構成は一例であり、限定される必要はない。

【0044】

また、操作者端末１６がスマートフォンである場合には、携帯電話通信網、または、携帯電話網および公衆電話網を介して、通話するための通話回路を備えるが、この実施例では、そのような通話は行わないため、図示は省略してある。

【0045】

このような情報処理システム１０では、操作者すなわちサービスユーザは、操作者端末１６を用いて、ブラウザを起動し、サーバ１２が運営する所定のサービスのウェブサイトにアクセスし、トップ画面のメニューを選択して、操作者ＩＤおよびパスワードを登録する。図４は操作者端末１６の表示装置６０に表示されるＩＤ・パスワード登録画面１００の一例を示す図である。

【0046】

図４に示すように、ＩＤ・パスワード登録画面１００には、表示領域１０２および１０４が縦に並んで設けられ、表示領域１０４の下方に、ボタン１１０および１１２が横に並んで設けられる。

【0047】

表示領域１０２は、入力された操作者ＩＤを表示するための領域である。表示領域１０４は、入力されたパスワードを表示するための領域である。ただし、他人に見られるのを防止するために、パスワードは、米印のような記号に置き換えて表示される場合もある。

【0048】

一例として、操作者ＩＤおよびパスワードは、使用可能な文字、数字および記号を用いて、操作者が任意に決定する。

【0049】

ボタン１１０は、操作者ＩＤおよびパスワードを所定のサービスに登録するためのボタンである。ボタン１１０がオンされると、操作者ＩＤおよびパスワードが１つ目の認証情報として、サーバ１２に接続された操作者ＤＢ１２ａに記憶（登録）される。

【0050】

ボタン１１２は、操作者ＩＤおよびパスワードを所定のサービスに登録するのをキャンセルするためのボタンである。ボタン１１２がオンされると、操作者ＩＤおよびパスワードを所定のサービスに登録することがキャンセルされ、ＩＤ・パスワード登録画面１００が非表示され、トップ画面に戻る。

【0051】

上述したように、１つ目の認証情報として、操作者ＩＤおよびパスワードが所定のサービスに登録されると、２つ目の認証情報として、応答パターンが登録される。応答パターンを登録する場合、操作者端末１６の表示装置６０に、図５に示すパターン登録画面１５０が表示されるとともに、図６に示すＵＩ画面２００が表示される。操作者は、音声入力およびＵＩ画面２００の操作によって、ロボット１８に対峙する人間または第１ロボット画像１５２（３０２）と対話する。

【0052】

図５に示すパターン登録画面１５０には、第１ロボット画像１５２および第２ロボット画像１５４が表示される。第１ロボット画像１５２は、仮想の対話エージェントである。第２ロボット画像１５４は、図１に示したロボット１８に対応する仮想のアバターである。第２ロボット画像１５４は、ロボット１８と同じ外観を有する必要はないが、ロボット１８と同じ動作を実行可能な外観を有する。

【0053】

第１ロボット画像１５２の動作および発話は、サーバ１２のＣＰＵ２０によって自動的に制御され、第２ロボット画像１５４の動作および発話は、操作者の操作に従って制御される。

【0054】

図６に示すＵＩ画面２００は、ロボット１８を操作するための画面であり、応答パターンの登録時には、第２ロボット画像１５４すなわち仮想のアバターを操作するための画面である。ただし、ＵＩ画面２００は、後述するように、応答パターンの認証時に、第２ロボット画像３０４すなわち仮想のアバターを操作するための画面でもある。

【0055】

ＵＩ画面２００には、表示領域２０２、２０４および２０６が設けられる。表示領域２０２は、ロボット１８に設けられたカメラで撮影された画像（カメラ映像）を表示するための領域である。したがって、登録時および認証時には、何も表示されない。

【0056】

表示領域２０４は、ロボット１８の移動を制御するコマンド(以下、「動作コマンド」という)を入力するための複数のボタンを表示する。この実施例では、表示領域２０４には、ボタン２１０、２１２、２１４、２１６および２１８が表示される。ボタン２１０は、ロボット１８を前進させるためのボタンである。ボタン２１２は、ロボット１８を左折または左旋回させるためのボタンである。ボタン２１４は、ロボット１８を右折または右旋回させるためのボタンである。ボタン２１６は、ロボット１８を停止させるためのボタンである。ボタン２１８は、ロボット１８を後進させるためのボタンである。

【0057】

詳細な説明は省略するが、ボタン２１０またはボタン２１８がオンされている状態で、ボタン２１２がオンされと、ロボット１８は前進または後進しながら左に曲がる。また、ボタン２１０またはボタン２１８がオンされている状態で、ボタン２１４がオンされると、ロボット１８は前進または後進しながら右に曲がる。ロボット１８が停止している状態で、ボタン２１２がオンされると、ロボット１８は反時計回りに進行方向を変える。また、ロボット１８が停止している状態で、ボタン２１４がオンされると、ロボット１８は時計回りに進行方向を変える。

【0058】

ただし、この実施例では、登録時（認証時）では、第２ロボット画像１５４の移動を制御することは無いため、ボタン２１０－２１８がオンされることはない。他の例では、登録時において、第２ロボット画像１５４の移動を制御するようにしてもよい。この場合、第２ロボット画像１５４は、現実世界においてロボット１８が移動される場合と同様に、仮想空間において移動される。これらのことは、認証時においても同じである。

【0059】

応答パターンを登録する場合（認証する場合も同じ）には、コンピュータグラフィックス（ＣＧ）で描画された対話エージェントの画像すなわち第１ロボット画像１５２から、予め決定された、いくつかの発言または問いかけを行い、操作者は、発話したり、ＵＩ画面２００を操作したりすることで、アバターすなわち第２ロボット画像１５４を通して応答し、インタラクションを行う。つまり、応答パターンを登録する場合（認証する場合も同じ）には、ＣＧで描画されたアバターの画像がパターン登録画面１５０に表示される。このとき、サーバ１２は、各発言または問いかけに対する操作者の操作パターンおよび反応パターンを２つ目の認証情報として、操作者ＤＢ１２ａに記憶（登録）する。

【0060】

この実施例では、対話エージェントは、合成音声を出力することで、いくつかの発言または問いかけを行うが、発言または問いかけの内容は、字幕または吹き出しを用いてテキストで表示してもよい。また、合成音声の出力およびテキストの表示の両方を行うようにしてもよい。後述するように、反応パターンの生成には、操作者の音声が用いられるため、対話エージェントの発言または問いかけをテキストで表示するだけの場合には、パターン登録画面１５０（後述する、パターン認証画面３００も同じ）において、操作者に発話させるように誘導する必要がある。

【0061】

ただし、操作者の操作パターンは、第１ロボット画像１５２からの発言または問いかけに対する、操作者の発話内容および操作者の操作内容（第２ロボット画像１５４の動作）を意味する。ただし、操作者が第２ロボット画像１５４を動作させない場合もあるため、操作者の操作内容（第２ロボット画像１５４の動作）は操作パターンに含まれない場合もある。または、操作が無いことを操作パターンに含めるようにしてもよい。

【0062】

また、操作者の反応パターンは、操作者が発話する場合の操作者の不随意的な反応である。具体的には、不随意的な反応は、操作者の音声の韻律情報および操作者の感情である。

【0063】

操作者の音声の韻律情報を生成する手法は、深層学習を用いた方法または特開２００８－１５３６１号公報に開示された技術を用いることができる。この特開２００８－１５３６１号公報では、韻律情報は、時間長、ピッチ、エネルギー（パワー)情報などを含むことが開示されているが、さらに、抑揚、音調、リズムの情報を含む。ただし、これらの情報は時系列に従うデータである。また、韻律情報としては、これらすべての情報を認証に用いる必要はなく、いずれか１つまたは２つ以上が認証に用いられればよい。

【0064】

ただし、韻律情報は、サーバ１２に通信可能に接続された他のコンピュータが生成するようにしてもよい。この場合には、サーバ１２は、音声データを受信すると、受信した音声データを他のコンピュータに送信し、当該他のコンピュータから韻律情報を受信する。または、操作者端末１６で操作者の音声データから韻律情報を生成し、韻律情報をサーバ１２に送信するようにしてもよい。

【0065】

操作者の感情は、操作者端末１６から送信される撮影画像すなわち撮影した操作者の顔画像から推定される。一例として、感情は、喜び、恐れ、悲しみ、嫌悪および怒りの５つに分類される。顔画像から人間の感情を推定する手法としては、公知の技術を用いることができる。たとえば、「小林宏、原文雄：ニューラルネットワークによる人の基本表情認識、計測自動制御学会論文集 Vol.29, No.1, 112/118(1993)」、「小谷中陽介、本間経康、酒井正夫、阿部健一：ニューラルネットワークを用いた顔表情認識、東北大医保健学科紀要 13(1):23～32, 2004」および「西銘大喜、遠藤聡志、當間愛晃、山田孝治、赤嶺有平：畳み込みニューラルネットワークを用いた表情表現の獲得と顔特徴量の分析、人工知能学会論文誌３２巻５号ＦＺ（２０１７年）」などに開示された技術を用いることができる。

【0066】

また、他の公知の技術では、顔画像から抽出した特徴点に基づいて人間の感情を推定する手法としては、特開２０２０－１６３６６０号公報に開示された技術を用いることもできる。

【0067】

なお、他の例では、音声から人間の感情を推定することもできる。音声から人間の感情を推定する手法としては、公知の技術を用いることができる。たとえば、特開２０２１－１２２８５号および「森大毅：音声から感情・態度の理解、電子情報通信学会誌 Vol. 101, No. 9, 2018」などに開示された技術を用いることができる。

【0068】

ただし、顔画像また音声に基づいて感情を推定する手法として公知の技術を用いる場合には、そのために必要な回路コンポーネントおよびデータがサーバ１２に設けられる。また、顔画像また音声に基づいて感情を推定する装置（以下、「推定装置」という）をクラウド上に設けて、サーバ１２は、推定装置に顔画像または音声を送信し、感情の推定結果を推定装置から受け取るようにしてもよい。または、操作者の感情は、操作者端末１６で推定し、推定結果をサーバ１２に送信するようにしてもよい。

【0069】

また、操作者の発話内容は、サーバ１２によって、操作者端末１６から送信される音声データを音声認識することで検出される。ただし、音声認識機能は、サーバ１２に通信可能に接続された他のコンピュータが実行するようにしてもよい。この場合には、サーバ１２は、音声データを受信すると、受信した音声データを他のコンピュータに送信し、当該他のコンピュータから音声認識の処理結果（テキスト文）を受信する。または、操作者端末１６で操作者の音声データを音声認識し、音声認識の処理結果をサーバ１２に送信するようにしてもよい。

【0070】

操作者の操作内容は、操作者端末１６から送信される動作コマンドまたはボタン（ここでは、図６に示したボタン２２０、２２２または２２４）の種類である。

【0071】

たとえば、対話エージェントが「こんにちは」と発話する。つまり、対話エージェントの「こんにちは」の音声データがサーバ１２から操作者端末１６に送信され、スピーカ６４から出力される。以下、対話エージェントが発話する場合について同様である。このとき、操作者の感情は、喜びと推定される。

【0072】

これに対して、操作者は「こんばんは」と発話する。さらに、操作者の操作に応じて操作者のアバターは右手を挙げる。つまり、操作者はＵＩ画面２００のボタン２２４をオンし、「右手を挙げる」動作コマンドをサーバ１２に送信する。したがって、サーバ１２では、パターン登録画面１５０の第２ロボット画像１５４に右手を挙げさせる。

【0073】

次に、対話エージェントが「朝ごはんは何を食べましたか？」と発話する。これに対して、操作者の操作に応じて操作者のアバターは頷く。さらに、操作者は「納豆です」と発話する。このとき、操作者の感情は、喜びと推定される。

【0074】

続いて、対話エージェントが「はあ？もう一度言ってください」と発話する。これに対して、操作者は再度「納豆です」と発話する。このとき、操作者の感情は、嫌悪と推定される。

【0075】

上述したように、対話エージェントからのいくつかの発言または問い合わせは予め決定されており、対話エージェントの各発言または問い合わせに対する操作者の操作パターンおよび反応パターンが応答パターンとして操作者ＤＢ１２ａに記憶される。ただし、応答パターンは、操作者の操作者ＩＤに紐づけて記憶される。この操作者ＤＢ１２ａに記憶された応答パターン（以下、「登録応答パターン」という）が、２つ目の認証情報として、アバターすなわちロボット１８を使用する所定のサービスの提供を受ける場合に、認証処理に用いられる。

【0076】

また、操作者すなわちサービスユーザは、操作者端末１６を用いて、ブラウザを起動し、サーバ１２が運営する所定のサービスのウェブサイトにアクセスし、トップ画面のメニューを選択して、アバター（ロボット１８）の使用を選択すると、アバターの使用に先立って、操作者の認証処理が実行される。認証処理は、１つ目の認証情報を用いて行わる１つ目の認証処理と２つ目の認証情報を用いて行われる２つ目の認証処理を含む。

【0077】

サーバ１２は、認証処理を開始すると、まず、操作者ＩＤおよびパスワードを認証する。つまり、１つ目の認証処理が実行される。図７は操作者端末１６の表示装置６０に表示されるＩＤ・パスワード認証画面２５０の一例を示す図である。以下、ＩＤ・パスワード認証画面２５０および１つ目の認証処理について説明するが、上記の登録処理で説明した内容と同じ内容については簡単に説明する。

【0078】

図７に示すように、ＩＤ・パスワード認証画面２５０には、表示領域２５２および２５４が縦に並んで設けられ、表示領域２５４の下方に、ボタン２６０および２６２が横に並んで設けられる。

【0079】

表示領域２５２は、入力された操作者ＩＤを表示するための領域である。表示領域２５４は、入力されたパスワードを表示するための領域である。ただし、他人に見られるのを防止するために、パスワードは、米印のような記号に置き換えて表示される場合もある。

【0080】

ボタン２６０は、操作者ＩＤおよびパスワードを認証するためのボタンである。ボタン２６０がオンされると、サーバ１２は、操作者ＤＢ１２ａに記憶された１つ目の認証情報を参照し、操作者ＩＤおよびパスワードが正しいかどうかを判断する。操作者ＩＤおよびパスワードが正しい場合には、１つ目の認証に成功する。一方、操作者ＩＤまたは／およびパスワードが正しくない場合には、１つ目の認証に失敗する。認証に失敗した場合には、ＩＤ・パスワード認証画面２５０において、再度、操作者ＩＤおよびパスワードが入力される。

【0081】

ボタン２６２は、操作者ＩＤおよびパスワードの認証をキャンセルするためのボタンである。ボタン２６２がオンされると、操作者ＩＤおよびパスワードの認証処理がキャンセルされ、ＩＤ・パスワード認証画面２５０が非表示され、トップ画面に戻る。

【0082】

上述したように、１つ目の認証処理に成功すると、サーバ１２は、２つ目の認証処理を実行する。２つ目の認証処理を実行する場合、操作者端末１６の表示装置６０に、図８に示すパターン認証画面３００が表示されるとともに、図６に示したＵＩ画面２００が表示される。以下、パターン認証画面３００および２つ目の認証処理について説明するが、上記の登録処理で説明した内容と同じ内容については簡単に説明する。

【0083】

なお、２つ目の認証処理においても、操作者は、音声入力およびＵＩ画面２００の操作によって、対話エージェント（ここでは、第１ロボット画像３０２）と対話する。この点は、２つ目の登録処理を実行する場合と同じであるため、重複した説明は省略する。

【0084】

図８に示すパターン認証画面３００には、第１ロボット画像３０２および第２ロボット画像３０４が表示される。第１ロボット画像３０２は、パターン登録画面１５０に表示される第１ロボット画像１５２と同じであり、第２ロボット画像３０４は、パターン登録画面１５０に表示される第２ロボット画像１５４と同じである。

【0085】

第１ロボット画像３０２の動作および発話は、サーバ１２のＣＰＵ２０によって自動的に制御され、第２ロボット画像１５４の動作および発話は、操作者の操作に従って制御される。

【0086】

対話パターンを認証する場合には、第１ロボット画像３０２から、予め決定された、いくつかの発言または問いかけを行い、操作者は、発話したり、ＵＩ画面２００を操作したりすることで、第２ロボット画像３０４を通して応答し、インタラクションを行う。ただし、いくつかの発言または問いかけは、２つ目の登録処理のときの内容と同じである。

【0087】

２つ目の認証処理おいては、いくつかの発言または問いかけに対する操作者の応答パターン（以下、「認証応答パターン」という）が、２つの登録処理のときと同様の方法で取得される。そして、認証応答パターンと、操作者ＤＢ１２ａに記憶された登録応答パターンの一致度が高いと判断される場合に、２つ目の認証に成功する。一方、認証応答パターンと登録応答パターンの一致度が低いまたは一致しないと判断される場合に、２つ目の認証に失敗する。ただし、操作者の認証応答パターンと一致度が判断されるのは、当該操作者の操作者ＩＤに紐づけられた登録応答パターンである。

【0088】

ただし、認証応答パターンと登録応答パターンに含まれる対話パターンが一致しない場合には、認証応答パターンと登録応答パターンの一致度が低いまたは一致しないと判断される。

【0089】

また、認証応答パターンと登録応答パターンに含まれる反応パターンのうち、操作者の感情が一致しない場合には、認証応答パターンと登録応答パターンは一致しないと判断される。

【0090】

さらに、認証応答パターンと登録応答パターンに含まれる反応パターンのうち、韻律情報の一致度は、たとえば、深層学習、ＤＰマッチング法または隠れマルコフ法（Hidden Markov Model：ＨＭＭ）により、検出する。複数の発言または問いかけに対して、操作者が発話したときの音声から生成された各韻律情報のうち、いずれか１つでも、一致度が所定の割合（たとえば、８割）未満である場合に、認証応答パターンと登録応答パターンは一致しないと判断される。

【0091】

つまり、認証応答パターンと登録応答パターンに含まれる、複数の発言または問いかけに対する、発話内容がすべて一致し、操作者の感情がすべて一致し、さらに、すべての韻律情報の一致度が所定の割合以上である場合に、認証応答パターンと登録応答パターンの一致度が高いと判断される。

【0092】

ただし、この実施例では、操作者が発話したときの音声から生成された各韻律情報のうち、いずれか１つでも、一致度が所定の割合（たとえば、８割）未満である場合に、認証応答パターンと登録応答パターンは一致しないと判断するが、これに限定される必要はない。他の例では、操作者が発話したときの音声から生成された各韻律情報のうち、いずれか２つ以上の一致度が所定の割合（たとえば、８割）以上である場合には、認証応答パターンと登録応答パターンの一致度が高いと判断されてもよい。また、操作者が発話したときの音声から生成された各韻律情報のうち、いずれか１つでも、一致度の割合が非常に高い場合（たとえば、９割を超える場合）には、認証応答パターンと登録応答パターンの一致度が高いと判断されてもよい。

【0093】

２つ目の認証にも成功すると、サーバ１２は、操作者端末１６とロボット１８のセッションの開始を許可する。したがって、操作者端末１６とロボット１８は接続状態を確立し、ロボット１８は操作者端末１６の操作者のアバターとして機能する。このとき、操作者の音声はロボット１８に送信され、ロボット１８のスピーカから出力される。また、操作者は、操作者端末１６の表示装置６０に表示されたＵＩ画面２００を操作し、操作に応じた動作コマンドがロボット１８に送信され、ロボット１８は動作コマンドに従って移動したり、移動以外の動作を行なったりする。

【0094】

一方、１つ目の認証に成功しない場合または２つ目の認証に成功しない場合には、サーバ１２は、操作者端末１６とロボット１８のセッションの開始を拒否する。

【0095】

図９はサーバ１２に内蔵されるＲＡＭ２２のメモリマップ４００の一例を示す。図９に示すように、ＲＡＭ２２は、プログラム記憶領域４０２およびデータ記憶領域４０４を含む。プログラム記憶領域４０２には、この実施例の情報処理プログラムが記憶されている。

【0096】

情報処理プログラムは、通信プログラム４０２ａ、登録プログラム４０２ｂ、認証プログラム４０２ｃ、音声認識プログラム４０２ｄ、韻律情報生成プログラム４０２ｅおよび感情推定プログラム４０２ｆなどを含む。

【0097】

通信プログラム４０２ａは、外部の機器、この実施例では、操作者端末１６と有線または無線で通信（データの送信および受信）するためのプログラムである。

【0098】

登録プログラム４０２ｂは、操作者端末１６の操作者の操作に従って、操作者ＩＤおよびパスワードを登録する１つ目の登録処理および応答パターンを登録する２つ目の登録処理を実行するためのプログラムである。

【0099】

認証プログラム４０２ｃは、操作者端末１６の操作者の操作に従って、操作者ＩＤおよびパスワードを認証する１つ目の認証処理および応答パターンを認証する２つ目の認証処理を実行するためのプログラムである。

【0100】

音声認識プログラム４０２ｄは、操作者の音声（音声データ）を音声認識するためのプログラムである。

【0101】

韻律情報生成プログラム４０２ｅは、操作者の音声（音声データ）の韻律情報を生成するためのプログラムである。

【0102】

感情推定プログラム４０２ｆは、操作者の顔画像に基づいて当該操作者の感情を推定するためのプログラムである。

【0103】

図示は省略するが、プログラム記憶領域４０２には、サーバ１２のオペレーティングシステムなどのミドルウェア、所定のサービスを提供するためのプログラムおよび表示画像データ４０４ａなどの画像データを生成するためのプログラムも記憶される。

【0104】

また、データ記憶領域４０４には、表示画像データ４０４ａ、対話エージェント音声データ４０４ｂ、操作者音声データ４０４ｃ、操作者画像データ４０４ｄ、動作コマンドデータ４０４ｅ、登録ＩＤ・パスワードデータ４０４ｆ、登録応答パターンデータ４０４ｇ、認証ＩＤ・パスワードデータ４０４ｈおよび認証応答パターンデータ４０４ｉなどが記憶される。

【0105】

表示画像データ４０４ａは、各種の画面（１００、１５０、２００、２５０、３００など）を表示するための画像データであり、対話エージェントをＣＧで描画した画像である第１ロボット画像１５２、３０２および操作者のアバターをＣＧで描画した画像である第２ロボット画像１５４、３０４の画像データを含む。

【0106】

対話エージェント音声データ４０４ｂは、対話パターンの登録時および認証時に、予め用意された複数の発言および問い合わせについての合成音声のデータである。

【0107】

操作者音声データ４０４ｃは、操作者端末１６から受信した操作者の音声データである。

【0108】

操作者画像データ４０４ｄは、操作者端末１６から受信した撮影画像データである。

【0109】

動作コマンドデータ４０４ｅは、操作者端末１６から受信した操作データ５０４ａに含まれる動作コマンドデータである。

【0110】

登録ＩＤ・パスワードデータ４０４ｆは、第１の登録処理時に、操作者端末１６から受信した操作データで決定（または、入力）される操作者ＩＤおよびパスワードのデータである。

【0111】

登録応答パターンデータ４０４ｇは、第２の登録処理時に、操作者端末１６から受信した操作パターンおよび反応パターンを時系列に従って記載した応答パターンについてのデータである。

【0112】

認証ＩＤ・パスワードデータ４０４ｈは、第１の認証処理時に、操作者端末１６から受信した操作データで決定（または、入力）される操作者ＩＤおよびパスワードのデータである。

【0113】

認証応答パターンデータ４０４ｉは、第２の認証処理時に、操作者端末１６から受信した操作パターンおよび反応パターンを時系列に従って記載した応答パターンについてのデータである。

【0114】

図示は省略するが、データ記憶領域４０４には、情報処理を実行するために必要な他のデータが記憶されたり、情報処理を実行するために必要なタイマ（カウンタ）およびフラグが設けられたりする。

【0115】

図１０は操作者端末１６に内蔵されるＲＡＭ５２のメモリマップ５００の一例を示す。図１０に示すように、ＲＡＭ５２は、プログラム記憶領域５０２およびデータ記憶領域５０４を含む。プログラム記憶領域５０２には、この実施例の制御プログラムが記憶されている。

【0116】

制御プログラムは、通信プログラム５０２ａ、操作検出プログラム５０２ｂ、撮影画像取得プログラム５０２ｃ、画像表示プログラム５０２ｄ、音検出プログラム５０２ｅおよび音出力プログラム５０２ｆなどを含む。

【0117】

通信プログラム５０２ａは、外部の機器、この実施例では、サーバ１２およびロボット１８と有線または無線で通信（データの送信および受信）するためのプログラムである。

【0118】

操作検出プログラム５０２ｂは、操作者の操作に従って入力装置５８から入力される操作データを検出し、データ記憶領域５０４に記憶するためのプログラムである。ただし、各画面（１００、１５０、２００、２５０、３００）に設けられたボタンが操作された場合には、操作されたボタンに割り当てられた操作情報（動作コマンドを含む）のデータが操作データとして検出される。

【0119】

撮影画像取得プログラム５０２ｃは、カメラ６８で撮影された撮影画像データを取得するためのプログラムである。

【0120】

画像表示プログラム５０２ｄは、サーバ１２から受信した表示画像データ５０４ｂまたは／および操作者端末１６で生成した表示画像データを表示装置６０に出力するためのプログラムである。

【0121】

音検出プログラム５０２ｅは、マイク６２から入力される操作者の音声を検出し、検出した音声に対応する操作者音声データ５０４ｄをデータ記憶領域５０４に一時的に記憶するためのプログラムである。

【0122】

音出力プログラム５０２ｆは、サーバ１２から受信した対話エージェント音声データ５０４ｃを出力するためのプログラムである。ただし、ロボット１８の操作中では、音出力プログラム５０２ｆは、ロボット１８から受信した対話相手の音声データを出力するためのプログラムでもある。

【0123】

図示は省略するが、プログラム記憶領域５０２には、操作者端末１６のオペレーティングシステムなどのミドルウェア、ブラウザ機能を実行するためのプログラムも記憶される。

【0124】

また、データ記憶領域５０４には、操作データ５０４ａ、表示画像データ５０４ｂ、対話エージェント音声データ５０４ｃ、操作者音声データ５０４ｄおよび操作者画像データ５０４ｅなどが記憶される。

【0125】

操作データ５０４ａは、操作検出プログラム５０２ｂに従って検出された操作データである。操作データ５０４ａは、サーバ１２に送信されたり、操作者端末１６の処理に利用されたりした後に消去される。

【0126】

表示画像データ５０４ｂは、サーバ１２から受信した各種の画面（１００、１５０、２００、２５０、３００など）を表示するための画像データであり、対話エージェントをＣＧで描画した画像である第１ロボット画像１５２、３０２および操作者のアバターをＣＧで描画した画像である第２ロボット画像１５４、３０４の画像データを含む。

【0127】

対話エージェント音声データ５０４ｃは、サーバ１２から受信した対話パターンの登録時および認証時に、予め用意された複数の発言および問い合わせについての合成音声のデータである。対話エージェント音声データ５０４ｃは、スピーカ６４から出力した後に消去される。

【0128】

操作者音声データ５０４ｄは、マイク６２で検出された音声データであり、サーバ１２に送信された後に消去される。

【0129】

操作者画像データ５０４ｅは、カメラ６８から取得した撮影画像データであり、サーバ１２に送信された後に消去される。

【0130】

図示は省略するが、データ記憶領域５０４には、制御処理を実行するために必要な他のデータが記憶されたり、制御処理を実行するために必要なタイマ（カウンタ）およびフラグが設けられたりする。

【0131】

図１１および図１２は、サーバ１２のＣＰＵ２０の登録処理を示すフロー図である。図示は省略するが、ＣＰＵ２０は、登録処理と並行して、操作者端末１６から送信される操作データ５０４ａ、操作者音声データ５０４ｄおよび操作者画像データ５０４ｅを受信する処理を実行する。

【0132】

また、図示は省略するが、操作者端末１６のＣＰＵ５０は、操作データ５０４ａを検出したり、操作者音声データ５０４ｄを検出したり、操作者画像データ５０４ｅを取得したりして、各データをサーバ１２に送信する処理を実行したり、サーバ１２から送信された表示画像データ４０４ａまたは／および対話エージェント音声データ４０４ｂを受信する処理を実行したりする。

【0133】

なお、サーバ１２のＣＰＵ２０は、サーバ１２が運営するウェブサイトにアクセスしている操作者端末１６毎に、登録処理を実行する。

【0134】

これらのことは、後述する認証処理（図１３および図１４参照）についても同じである。

【0135】

図１１に示すように、サーバ１２のＣＰＵ２０は登録処理を開始すると、ステップＳ１で、図４に示したようなＩＤ・パスワード登録画面１００の表示画像データを操作者端末１６に送信する。したがって、操作者端末１６の表示装置６０にＩＤ・パスワード登録画面１００が表示される。

【0136】

次のステップＳ３では、操作者ＩＤとパスワードの登録指示があるかどうかを判断する。ステップＳ３で“ＮＯ”であれば、つまり、操作者ＩＤとパスワードの登録指示が無ければ、ステップＳ３に戻る。図示は省略するが、操作者の操作に応じて、操作者ＩＤまたはパスワードの文字等が入力された場合には、文字等を記憶するとともに、文字等をＩＤ・パスワード登録画面１００の表示領域１０２または表示領域１０４に表示する。

【0137】

一方、ステップＳ３で“ＹＥＳ”であれば、つまり、操作者ＩＤとパスワードの登録指示が有れば、ステップＳ５で、操作者ＩＤとパスワードすなわち登録ＩＤ・パスワードデータ４０４ｆを操作者ＤＢ１２ａに登録する。

【0138】

続いて、ステップＳ７で、図５に示したようなパターン登録画面１５０の表示画像データを操作者端末１６に送信する。次のステップＳ９では、変数ｎに初期値を設定する（ｎ＝１）。ただし、ｎは、応答パターンの登録処理において、対話エージェントが発話するべき発言または問いかけを識別するための変数である。

【0139】

図１２に示すように、続くステップＳ１１では、対話エージェントにｎ個目の発言または問いかけを発話させる。ここでは、ＣＰＵ２０は、ｎ個目の発言または問いかけについての対話エージェント音声データ４０４ｂを操作者端末１６に送信する。したがって、操作者端末１６のスピーカ６４から、ｎ個目の発言または問いかけの音声すなわち第１ロボット画像１５２の音声が出力される。

【0140】

次のステップＳ１３では、応答が有るかどうかを判断する。ここでは、操作者端末１６から受信したデータに操作者音声データ５０４ｄすなわち操作者音声データ４０４ｃまたは操作データ５０４ａすなわち動作コマンドデータ４０４ｅが含まれるかどうかを判断する。

【0141】

ステップＳ１３で“ＮＯ”であれば、つまり、応答が無ければ、ステップＳ１３に戻る。一方、ステップＳ１３で“ＹＥＳ”であれば、つまり、応答が有れば、ステップＳ１５で、操作者音声データ４０４ｃに従ってアバターの画像すなわち第２ロボット画像１５４を発話させ、ステップＳ１７で、動作コマンドに従ってアバターの画像すなわち第２ロボット画像１５４を動作させる。

【0142】

ただし、操作者音声データ５０４ｄを受信していない場合には、ステップＳ１５はスキップされ、操作データ５０４ａを受信していない場合には、ステップＳ１７はスキップされる。

【0143】

次のステップＳ１９では、登録応答パターンデータ４０４ｇを生成（更新）する。ここでは、ＣＰＵ２０は、対話エージェントの発言または問いかけに対する、操作者の応答内容を、発話または問いかけの順に、操作パターンおよび反応パターンを記載したデータを生成(更新)する。上述したように、操作パターンは、操作者の発話内容および操作者の操作内容である。また、反応パターンは、操作者の音声から生成された韻律情報および操作者の顔画像から推定された感情である。

【0144】

上述したように、ＣＰＵ２０は、ステップＳ１９において、受信した操作者音声データ５０４ｄすなわち操作者音声データ４０４ｃを音声認識し、操作者の発話内容をテキストに変換する。また、ＣＰＵ２０は、受信した操作者音声データ５０４ｄすなわち操作者音声データ４０４ｃの韻律情報を生成する。さらに、ＣＰＵ２０は、操作者音声データ５０４ｄとともに受信した操作者画像データ５０４ｅすなわち操作者画像データ４０４ｄに基づいて操作者の感情を推定する。

【0145】

そして、ステップＳ２１で、変数ｎは最大値かどうかを判断する。つまり、ＣＰＵ２０は、対話エージェントが複数の発言または問いかけをすべて発話したかどうかを判断する。

【0146】

ステップＳ２１で“ＮＯ”であれば、つまり、変数ｎが最大値でなければ、ステップＳ２３で、変数ｎを１加算して、ステップＳ１１に戻る。したがって、対話エージェントは、次の発言または問いかけを発話する。

【0147】

一方、ステップＳ２１で“ＹＥＳ”であれば、つまり、変数ｎが最大値であれば、ステップＳ２５で、ステップＳ５で登録した操作者ＩＤに紐づけて、登録応答パターンデータ４０４ｇを操作者ＤＢ１２ａに登録して、登録処理を終了する。

【0148】

なお、図１１に示したステップＳ１－Ｓ５が１つ目の登録処理であり、図１１および図１２に示したステップＳ７－Ｓ２５が２つ目の登録処理である。

【0149】

図１３および図１４は、サーバ１２のＣＰＵ２０の認証処理を示すフロー図である。以下、認証処理について説明するが、上述した登録処理と同じ内容については簡単に説明することにする。

【0150】

図１３に示すように、サーバ１２のＣＰＵ２０は認証処理を開始すると、ステップＳ５１で、図７に示したようなＩＤ・パスワード認証画面２５０の表示画像データを操作者端末１６に送信する。したがって、操作者端末１６の表示装置６０にＩＤ・パスワード認証画面２５０が表示される。

【0151】

次のステップＳ５３では、操作者ＩＤとパスワードの認証指示があるかどうかを判断する。ステップＳ５３で“ＮＯ”であれば、つまり、操作者ＩＤとパスワードの認証指示が無ければ、ステップＳ５３に戻る。図示は省略するが、操作者の操作に応じて、操作者ＩＤまたはパスワードの文字等が入力された場合には、文字等を記憶するとともに、文字等をＩＤ・パスワード認証画面２５０の表示領域２５２または表示領域２５４に表示する。

【0152】

一方、ステップＳ５３で“ＹＥＳ”であれば、つまり、操作者ＩＤとパスワードの認証指示が有れば、ステップＳ５５で、操作者ＩＤとパスワードすなわち認証ＩＤ・パスワードデータ４０４ｈを認証する。ここでは、ＣＰＵ２０は、認証ＩＤ・パスワードデータ４０４ｈが操作者ＤＢ１２ａに登録された登録ＩＤ・パスワードデータ４０４ｆと一致するかどうかを判断する。

【0153】

そして、ステップＳ５７で、認証成功かどうかを判断する。ステップＳ５７で“ＮＯ”であれば、つまり、認証失敗であれば、ステップＳ５１に戻る。つまり、操作者ＩＤおよびパスワードの入力をやり直させる。ただし、所定回数（たとえば、３回）認証に失敗した場合には、ＣＰＵ２０は、ロボット１８とのセッションの開始を拒否するようにしてよい。

【0154】

一方、ステップＳ５７で“ＹＥＳ”であれば、つまり、認証成功であれば、ステップＳ５９で、図８に示したようなパターン認証画面３００の表示画像データを操作者端末１６に送信する。次のステップＳ６１では、変数ｎに初期値を設定する（ｎ＝１）。

【0155】

図１４に示すように、続くステップＳ６３では、対話エージェントにｎ個目の発言または問いかけを発話させる。つまり、操作者端末１６のスピーカ６４から、ｎ個目の発言または問いかけの音声すなわち第１ロボット画像３０２の音声が出力される。

【0156】

次のステップＳ６５では、応答が有るかどうかを判断する。ステップＳ６５で“ＮＯ”であれば、ステップＳ６５に戻る。一方、ステップＳ６５で“ＹＥＳ”であれば、ステップＳ６７で、操作者音声データ４０４ｃに従ってアバターの画像すなわち第２ロボット画像３０４を発話させ、ステップＳ６９で、動作コマンドに従ってアバターの画像すなわち第２ロボット画像３０４を動作させる。

【0157】

ただし、操作者音声データ５０４ｄを受信していない場合には、ステップＳ６７はスキップされ、操作データ５０４ａを受信していない場合には、ステップＳ６９はスキップされる。

【0158】

次のステップＳ７１では、認証応答パターンデータ４０４ｉを生成（更新）する。ここでは、ＣＰＵ２０は、対話エージェントの発言または問いかけに対する、操作者の応答内容を、発話または問いかけの順に、操作パターンおよび反応パターンを記載したデータを生成(更新)する。

【0159】

そして、ステップＳ７３で、変数ｎは最大値かどうかを判断する。ステップＳ７３で“ＮＯ”であれば、ステップＳ７５で、変数ｎを１加算して、ステップＳ６３に戻る。

【0160】

一方、ステップＳ７３で“ＹＥＳ”であれば、ステップＳ７７で、応答パターンを認証する。ここでは、ＣＰＵ２０は、認証応答パターンデータ４０４ｉと、ステップＳ５７で認証成功したことを判断した操作者ＩＤに紐づけて操作者ＤＢ１２ａに登録（記憶）されている登録応答パターンデータ４０４ｇの一致度が高いかどうかを判断する。この判断の方法は上述したとおりである。

【0161】

そして、ステップＳ７９で、認証成功かどうかを判断する。ステップＳ７９で“ＮＯ”であれば、つまり、認証失敗であれば、ステップＳ８１で、操作者端末１６にセッションの開始を拒否して、認証処理を終了する。一方、ステップＳ７９で“ＹＥＳ”であれば、つまり、認証成功であれば、ステップＳ８３で、操作者端末１６にセッションの開始を許可して、認証処理を終了する。

【0162】

なお、図１３に示したステップＳ５１－Ｓ５７が１つ目の認証処理であり、図１３および図１４に示したステップＳ５９－Ｓ７９が２つ目の認証処理である。

【0163】

また、操作者端末１６は、セッションの開始を許可されると、パターン認証画面３００を閉じて、ロボット１８との接続状態を確立し、操作者の操作に従って、ロボット１８を制御する。ただし、操作者は、ＵＩ画面２００を操作して、ロボット１８を動作（移動を含む）させる。また、操作者が発話すると、操作者の音声はロボット１８を通して出力され、ロボット１８は発話する。ただし、操作者の音声を別の音声に変換して、ロボット１８から出力することもできる。

【0164】

この実施例によれば、２段階認証を行う場合に、操作者ＩＤおよびパスワードの認証に成功すると、アバターの画像を操作して対話エージェントの画像と対話することにより、操作者の操作パターンのみならず、操作時における操作者の反応パターンを認証するので、操作を複雑にする必要はない。また、反応パターンのような盗用し難い情報を認証に用いるので、セキュリティを高めることができる。

【0165】

また、この実施例では、操作者のアバターとして機能するロボットを使用する所定のサービスの提供を受けるための認証画面に表示されたアバターの画像を、当該ロボットを操作するＵＩ画面を用いて操作することで、認証に成功した後は、同じＵＩ画面を用いてロボットを操作することができる。したがって、操作者の操作を簡素化することができ、所定のサービスを利用し易い。

【0166】

なお、この実施例では、反応パターンのうち、操作者の感情は、操作者が発話しているときの操作者の顔画像に基づいて推定するようにしたが、対話エージェントが操作者に対して発言または問いかけを行ったときの操作者の顔画像に基づいて推定するようにしてもよい。

【0167】

また、この実施例では、応答パターンを認証する２つ目の認証処理では、操作者の発話内容、操作者の操作内容、操作者の音声の韻律情報および操作者の感情のすべての情報を認証するようにしたが、限定される必要はない。これらの情報のうちの一部すなわちいずれか１つ、２つまたは３つの情報を認証するようにしてもよい。この場合、２つ目の認証処理を実行する度に、認証する対象となる情報を変えてもよい。

【0168】

また、この実施例では、ロボットを使用する所定のサービスの提供を受けるための操作者すなわちサービスユーザの認証を行うため、操作パターンとして、アバターの画像を動作させる操作者の操作内容を含むようにしたが、ロボットを使用しない他の所定のサービスの提供を受けるためのサービスユーザの認証では、操作者の操作内容は含めなくてもよい。たとえば、他の所定のサービスは、ウェブ上の銀行またはクレジットカードのサービスなどである。この場合、対話パターンの認証処理においてパターン認証画面を表示する必要はなく、また、対話エージェントは人間であってもよい。

【0169】

また、上述の実施例で示したフロー図の各ステップは同じ結果が得られる場合には、処理する順番を変更することが可能である。

【0170】

さらに、上述の実施例で挙げた各種の画面、具体的数値はいずれも単なる例示であり、必要に応じて適宜変更可能である。

【符号の説明】

【0171】

１０ …情報処理システム
１２ …サーバ
１４ …ネットワーク
１６ …操作者端末
１８ …ロボット
２０、５０ …ＣＰＵ
２２、５２ …ＲＡＭ
２４、５４ …通信Ｉ／Ｆ
２６、５６ …入出力Ｉ／Ｆ
２８、５８ …入力装置
３０、６０ …表示装置
６２ …マイク
６４ …スピーカ
６６ …センサＩ／Ｆ
６８ …カメラ

【図1】