(58)【調査した分野】(Int.Cl.,DB名)
前記AI連携部は、前記状態認識部が認識した前記利用者の状態に基づいて前記利用者が取引とは異なる行動を行っていると推定した場合、前記利用者が取引遂行不能であると判定する、
請求項1または2に記載の音声取引システム。
【発明を実施するための形態】
【0014】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0015】
<1.第1の実施形態>
<<1.1.第1の実施形態の概要>>
まず、本発明の第1の実施形態の概要について説明する。上述したように、近年では、AI技術を用いて利用者に対する自動対応を行う装置が開発されている。上記のような装置には、例えば、金融機関の店舗などに設置されるVTM(Video Teller Machine)が挙げられる。
【0016】
ここで、VTMとは、金融機関の店舗などにおいて、利用者が操作する端末であり、利用者は、VTMを用いてAIと対話を行うことで、種々の金融取引を行うことが可能である。
【0017】
しかし、例えば、AIとの対話が開始されたのち、利用者がなんらかの理由により入力を行えない状態となった場合、AIに設定されるタイムアウトを超過してしまう状況も想定される。この場合、AIが利用者の状態を考慮せずに勝手に説明を進めてしまう、など利用者とAIとの対話がスムーズに成立しないことも懸念される。
【0018】
本実施形態に係る音声取引システムおよび連携制御装置は、上記の点に着目して発想されたものであり、利用者の状態に応じてAIを制御することで、利用者とAIとの対話をより円滑に成立させることを可能とする。このために、本実施形態に係る音声取引システムおよび連携制御装置は、利用者が取引遂行不能であると判定した場合には、利用者に代わってAIとの擬似応答を行うことを特徴の一つとする。
【0019】
図1は、本実施形態の概要について説明するための図である。
図1には、利用者U1、利用者U1が操作するVTM10、連携制御装置30、およびAIシステム40が示されている。また、
図1には、利用者U1がVTMの操作開始後に、携帯電話などを用いて通話を始めた場合の例が示されている。
【0020】
この場合、本実施形態に係る連携制御装置30は、利用者U1が通話を行っている状態であると認識されたことに基づいて、利用者U1が取引遂行不能であると判定してよい。また、この際、本実施形態に係る連携制御装置30は、利用者U1に代わってAIシステム40との擬似応答を行うことで、AIシステムのタイムアウトを超過せずに対話を継続させることができる。
【0021】
さらには、本実施形態に係る連携制御装置30は、上記の擬似応答中には、AIシステムから送信される回答を出力しないことで、利用者U1が取引遂行可能な状態に復帰するまでVTM10を待機させることができる。
【0022】
このように、本実施形態に係る音声取引装置および連携制御装置によれば、利用者が取引遂行不能な状態である場合であっても、AIシステムがタイムアウトすることを防ぐことができ、利用者とAIシステムとのより円滑な会話を成立させることが可能となる。
【0023】
<<1.2.システム構成例>>
次に、本実施形態に係る音声取引システム1のシステム構成例について説明する。
図2は、本実施形態に係る音声取引システム1のシステム構成例を示す図である。
図2を参照すると、本実施形態に係る音声取引システム1は、VTM10、状態認識装置20、および連携制御装置30を備える。また、本実施形態に係る音声取引システム1は、ネットワーク50を介して、AIシステム40と接続される。
【0024】
(VTM10)
本実施形態に係るVTM10は、上述したとおり、金融機関の店舗などにおいて、利用者が操作する端末である。本実施形態に係るVTM10は、音声取引システム1において、利用者に対して操作案内を行い、音声によって取引を行う取引部として機能する。このため、本実施形態に係るVTM10は、取得した利用者の音声情報を連携制御装置30に送信し、また連携制御装置30により合成された合成音声を出力してよい。また、VTM10は、利用者の画像を撮影する撮影部としての機能を有してよい。VTM10は、撮影した利用者の画像を状態認識装置20に送信する。
【0025】
(状態認識装置20)
本実施形態に係る状態認識装置20は、音声取引システム1において、VTM10が撮影した画像を解析し、利用者の状態を認識する状態認識部として機能する。本実施形態に係る状態認識装置20は、例えば、利用者が通話を行っている状態や、利用者が鞄の中から書類などを探している状態、利用者が第三者との対話を行っている状態、などを認識することができる。また、本実施形態に係る状態認識装置20は、上記の認識結果を連携制御装置30に送信する。
【0026】
(連携制御装置30)
本実施形態に係る連携制御装置30は、VTM10とAIシステム40との対話を仲介するAI連携部として機能する。具体的には、本実施形態に係る連携制御装置30は、VTM10が取得した利用者の音声に基づく音声認識を行い、生成した認識テキストをAIシステム40に送信する。また、連携制御装置30は、上記の認識テキストに基づいてAIシステム40が生成した回答テキストを受信し、当該回答テキストに基づいて合成した合成音声をVTM10に出力させる。
【0027】
また、本実施形態に係る連携制御装置30は、状態認識装置20が認識した利用者の状態に基づいて利用者の取引遂行可否を判定する機能を有してよい。この際、本実施形態に係る連携制御装置30は、利用者が取引遂行不能であると判定した場合に、予め記憶された擬似応答テキストをAIシステム40に継続して送信することができる。また、連携制御装置30は、利用者が取引遂行可能に復帰したと判定した場合に、前記擬似応答テキストの送信を終了してよい。本実施形態に係る連携制御装置30が有する上記の機能によれば、利用者が取引遂行不能な状態である場合に、当該利用者に代わってAIシステム40と擬似応答を行い、タイムアウトを防ぐことが可能となる。
【0028】
(AIシステム40)
本実施形態に係るAIシステム40は、入力されるテキストに対応する回答テキストを生成し、当該回答テキストを連携制御装置30に出力する情報処理装置である。AIシステム40は、例えば、ニューラルネットワーク、回帰モデルなどの機械学習手法、または統計的手法に基づいて上記の回答テキストを生成してもよい。
【0029】
(ネットワーク50)
ネットワーク50は、本実施形態に係る自動応答システムの各構成を接続する機能を有する。ネットワーク50は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク50は、IP−VPN(Internt Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
【0030】
以上、本実施形態に係る音声取引システム1のシステム構成例について説明した。なお、
図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る音声取引システム1の構成は係る例に限定されない。例えば、状態認識装置20と連携制御装置30が有する機能は、同一の装置により実現されてもよい。一方で、連携制御装置30が有する各機能は、複数の装置に分散して実現されてもよい。本実施形態に係る音声取引システム1の構成は、仕様や運用に応じて柔軟に変形され得る。
【0031】
<<1.3.VTM10の機能構成例>>
次に、本実施形態に係るVTM10の機能構成例について詳細に説明する。
図3は、本実施形態に係るVTM10の機能ブロック図の一例である。
図3を参照すると、本実施形態に係るVTM10は、入力部110、出力部120、撮影部130、カード挿入部140、端末制御部150、および通信部160を備える。
【0032】
(入力部110)
入力部110は、利用者による入力操作および利用者の発話音声を受け付ける機能を有する。このために、本実施形態に係る入力部110は、ユーザによる入力操作を検出するための各種の装置やセンサを含んでよい。入力部110は、例えば、タッチパネル、ボタン、キーボード、スイッチなどを含んで構成され得る。また、入力部110は、利用者の発話音声を収集するマイクロフォンを含んで構成される。
【0033】
(出力部120)
出力部120は、利用者に対し視覚情報および音声情報を提示する機能を有する。このために、本実施形態に係る出力部120は、例えば、タッチパネル、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置などを含んで構成される。また、本実施形態に係る出力部120は、連携制御装置30により合成される合成音声を出力するスピーカーを含んで構成される。
【0034】
(撮影部130)
撮影部130は、利用者や周囲の画像を撮影する機能を有する。このために、本実施形態に係る撮影部130は、静止画像または動画像を撮像する撮像センサを含んで構成される。また、本実施形態に係る撮影部130が有する機能は、VTM10とは独立した装置として実現されてもよい。
【0035】
(カード挿入部140)
カード挿入部140は、利用者がキャッシュカードなどを挿入するための構成である。本実施形態に係るカード挿入部140は、挿入されたキャッシュカードを読み取ることで、利用者IDや口座番号などの情報を取得する機能を有してよい。
【0036】
(端末制御部150)
端末制御部150は、VTM10が備える各構成の動作を制御する機能を有する。本実施形態に係る端末制御部150は、例えば、入力部110が検出した利用者の入力操作に基づく処理や、出力部120の出力制御などを行ってよい。
【0037】
(通信部160)
通信部160は、ネットワーク50を介して、状態認識装置20および連携制御装置30との情報通信を行う機能を有する。具体的には、通信部160は、撮影部130が撮影した利用者の画像や、入力部110が取得した音響情報を状態認識装置20に送信する。また、通信部160は、入力部110が取得した利用者の音声を連携制御装置30に送信し、連携制御装置30から合成音声を受信する。
【0038】
以上、本実施形態に係るVTM10の機能構成について説明した。なお、
図3を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係るVTM10の機能構成は係る例に限定されない。例えば、上述したように、撮影部130が有する機能は、VTM10とは別途の装置により実現されてもよい。本実施形態に係るVTM10の機能構成は、仕様や運用に応じて柔軟に変形され得る。
【0039】
<<1.4.状態認識装置20の機能構成例>>
次に、本実施形態に係る状態認識装置20の機能構成例について詳細に説明する。
図4は、本実施形態に係る状態認識装置20の機能ブロック図の一例である。
図4を参照すると、本実施形態に係る状態認識装置20は、画像解析部210、音響解析部220、および通信部230を備える。
【0040】
(画像解析部210)
画像解析部210は、撮影部130が撮影した利用者の画像を解析し、利用者の状態を認識する機能を有する。この際、画像解析部210は、画像解析分野において広く用いられる手法を用いて、上記の認識を行ってよい。本実施形態に係る画像解析部210は、例えば、利用者が携帯電話などを用いて通話を行っている状態や、利用者が鞄の中から書類を探している状態、または、利用者が第三者との対話を行っている状態、などを認識してもよい。
【0041】
(音響解析部220)
音響解析部220は、VTM10が取得した音響情報に基づいて利用者の状態を認識する機能を有する。ここで、上記の音響情報には、利用者の音声のほか、周囲の雑音などが含まれてよい。この際、音響解析部220は、音響解析分野において広く用いられる手法を用いて、上記の認識を行ってよい。本実施形態に係る音響解析部220は、例えば、音響情報から、利用者が鞄の中から書類を探している状態、などを判別し得る。
【0042】
(通信部230)
通信部230は、ネットワーク50を介して、VTM10および連携制御装置30との情報通信を行う機能を有する。具体的には、通信部230は、VTM10から利用者の画像や音響情報を受信する。また、通信部230は、画像解析部210および音響解析部220による認識結果を連携制御装置30に送信する。
【0043】
以上、本実施形態に係る状態認識装置20の機能構成例について説明した。なお、
図4を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る状態認識装置20の機能構成は、係る例に限定されない。本実施形態に係る状態認識装置20の機能構成は、仕様や運用に応じて柔軟に変形され得る。
【0044】
<<1.5.連携制御装置30の機能構成例>>
次に、本実施形態に係る連携制御装置30の機能構成例について詳細に説明する。
図5は、本実施形態に係る連携制御装置30の機能ブロック図の一例である。
図5を参照すると、本実施形態に係る連携制御装置30は、音声認識部310、連携制御部320、音声合成部330、対話状況記録部340、および通信部350を備える。
【0045】
(音声認識部310)
音声認識部310は、利用者の発話音声に基づいて音声認識を行う機能を有する。具体的には、本実施形態に係る音声認識部310は、VTM10により取得された利用者の音声を文字列に変換することができる。なお、本実施形態においては、音声認識により変換された文字列を認識テキストと称する。音声認識部310による音声認識については種々の手法が用いられてよいため、詳細な説明は省略する。
【0046】
(連携制御部320)
連携制御部320は、VTM10とAIシステム40との対話を仲介する機能を有する。具体的には、連携制御部320は、通信部350に、音声認識部310により生成された認識テキストをAIシステム40に送信させ、また、通信部350に、AIシステム40から受信した回答テキストに基づいて合成された合成音声を、VTM10に送信させる。
【0047】
また、本実施形態に係る連携制御部320は、状態認識装置20により認識された利用者の状態に基づいて、当該利用者の取引遂行可否を判定する機能を有する。本実施形態に係る連携制御部320は、前記利用者が取引遂行不能であると判定した場合には、通信部350に、予め記憶された擬似応答テキストをAIシステムに継続して送信させてよい。
【0048】
この際、連携制御部320は、状態認識装置20が認識した利用者の状態に基づいて当該利用者が取引とは異なる行動を行っていると推定した場合、当該利用者が取引遂行不能であると判定してよい。上記の取引とは異なる行動には、例えば、通話を行っている状態、鞄の中から書類などを探している状態、第三者と対話を行っている状態、などが含まれる。連携制御部320は、例えば、状態認識装置20が認識した利用者の状態が、通話を行っている状態を示すことに基づいて、当該利用者が取引とは行動を行っていることを推定してよい。
【0049】
また、上記の擬似応答テキストには、意味を成さないテキストや、AIシステム40が時間を要する対応を指示するテキストなどが用いられてよい。上記の意味を成さない文字列には、例えば、「あああああ」などの文字列が含まれる。この際、連携制御部320は、AIシステム40から受信した、例えば、「もう一度言ってください」などの回答テキストに対して、再度上記の文字列を通信部350に送信させることで、AIシステム40との擬似応答を継続することができる。
【0050】
また、上記のAIシステム40が時間を要する対応を指示するテキストには、例えば、「10秒カウントしなさい」などのテキストが用いられてよい。連携制御部320は、利用者が取引遂行可能な状態に復帰するまで、上記のようなテキストを通信部350に繰り返し送信させることで、擬似応答を継続してよい。
【0051】
また、本実施形態に係る擬似応答テキストには、上記の例に限らず、AIシステム40の仕様に応じた種々のテキストが用いられてよい。連携制御部320は、例えば、「東京の明日の天気を教えて」などのテキストを通信部350に繰り返し送信させることで、AIシステム40との擬似応答を継続することもできる。
【0052】
また、本実施形態に係る連携制御部320は、利用者が取引遂行不能であると判定した場合、判定時における利用者とAIシステム40との対話の状況を対話状況記録部340に記録させる。この際、連携制御部320は、例えば、最後に利用者が入力した音声に基づく認識テキストや、最後にAIシステムから受信した回答テキストの内容などを対話状況記録部340に記録させてよい。
【0053】
また、本実施形態に係る連携制御部320は、利用者が取引遂行可能に状態に復帰したと判定した場合には、通信部350に擬似応答テキストの送信を終了させる。また、連携制御部320は、対話状況記録部340に記録される擬似応答開始前の対話状況を取得し、当該対話状況に基づく処理を行う。連携制御部320は、例えば、通信部350に、最後に利用者が入力した音声に基づく認識テキストをAIシステム40に送信させてもよい。また、連携制御部320は、通信部350に、最後にAIシステムから受信した回答テキストをVTM10に送信させてもよい。本実施形態に係る連携制御部320が有する上記の機能によれば、擬似応答の終了後、擬似応答開始前の対話状況にスムーズに復帰することが可能となり、利用者にとって違和感のない対話を実現することが可能となる。
【0054】
(音声合成部330)
音声合成部330は、AIシステムから送信される回答テキストに基づく音声合成を行う機能を有する。上述したように、音声合成部330により合成される合成音声は、連携制御部320による制御に基づいて、VTM10に送信される。
【0055】
(対話状況記録部340)
対話状況記録部340は、連携制御部320による制御に基づいて、利用者とAIシステム40との対話の状況を記録する機能を有する。上述したように、対話状況記録部340は、例えば、最後に利用者が入力した音声に基づく認識テキストや、最後にAIシステムから受信した回答テキストの内容などを記録してよい。
【0056】
(通信部350)
通信部350は、ネットワーク50を介して、VTM10、状態認識装置20、およびAIシステムとの情報通信を行う機能を有する。具体的には、通信部350は、VTM10から利用者の音声情報を受信し、連携制御部320による制御に基づいて音声合成部330が合成した合成音声をVTM10に送信する。また、通信部350は、状態認識装置20から利用者の状態に係る認識結果を受信する。また、通信部350は、連携制御部320による制御に基づいて音声認識部310が生成した認識テキストをAIシステム40に送信し、当該認識テキストに基づいて生成された回答テキストをAIシステム40から受信する。
【0057】
以上、本実施形態に係る連携制御装置30の機能構成例について説明した。なお、
図5を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る連携制御装置30の機能構成は係る例に限定されない。例えば、本実施形態に係る連携制御装置30が有する各機能は、複数の装置により分散されて実現されてもよい。本実施形態に係る連携制御装置30の機能構成は、仕様や運用に応じて柔軟に変形され得る。
【0058】
<<1.6.AIシステム40の機能構成>>
次に、本実施形態に係るAIシステム40の機能構成について詳細に説明する。
図6は、本実施形態に係るAIシステム40の機能ブロック図の一例である。
図6を参照すると、本実施形態に係るAIシステム40は、応答制御部410、意図解釈部420、回答生成部430、および通信部440を備える。
【0059】
(応答制御部410)
応答制御部410は、AIシステム40による応答機能を全体に制御する機能を有する。応答制御部410は、例えば、AIシステム40のタイムアウトに係る制御を行ってよい。また、応答制御部410は、後述する意図解釈部420、回答生成部430、および通信部440の動作をそれぞれ制御する。
【0060】
(意図解釈部420)
意図解釈部420は、連携制御装置30から受信した認識テキストに基づいて、利用者の発話意図を抽出する機能を有する。意図解釈部420は、抽出した発話意図を回答生成部430に引き渡す。
【0061】
(回答生成部430)
回答生成部430は、意図解釈部420が抽出した利用者の発話意図に基づいて、当該発話意図に対応する回答テキストを生成する機能を有する。なお、回答生成部430は、意図解釈部420が利用者の発話意図が抽出できない場合には、「もう一度言ってください」などの回答テキストを生成してもよい。
【0062】
(通信部440)
通信部440は、ネットワーク50を介して、連携制御装置30との情報通信を行う機能を有する。具体的には、通信部440は、連携制御装置30から認識テキストを受信し、回答生成部430が生成した回答テキストを連携制御装置30に送信する。
【0063】
以上、本実施形態に係るAIシステム40の機能構成について説明した。なお、
図6を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係るAIシステム40の機能構成は係る例に限定されない。上述したように、本実施形態に係るAIシステム40が有する各機能は、ニューラルネットワーク、回帰モデルなどの機械学習手法、または統計的手法に基づいて設計され得る。このため、上記に挙げた各構成は、明確に分離して構成される必要はなく、選択するアルゴリズムや装置の性能などに応じて柔軟に設計され得る。
【0064】
<<1.7.音声取引システム1の動作の流れ>>
次に、本実施形態に係る音声取引システム1の動作の流れについて詳細に説明する。まず、利用者の状態が取引遂行可能である場合における音声取引システム1の動作の流れについて述べる。
図7は、利用者の状態が取引遂行可能である場合における音声取引システム1の動作の流れを示すシーケンス図である。
【0065】
図7を参照すると、まず、VTM10は、取得した利用者の画像情報および音響情報を状態認識装置20に送信する(S1101)。また、VTM10は、取得した利用者の音声情報を連携制御装置30に送信する(S1102)。
【0066】
次に、状態認識装置20は、ステップS1101において受信した画像情報や音響情報に基づいて利用者の状態を認識する(S1103)。
図7の一例の場合では、状態認識装置20は、利用者が通常行動、すなわちVTM10に対する発話や入力操作を行っている状態である、と認識してよい。
【0067】
続いて、状態認識装置20は、ステップS1103において認識した利用者の状態に係る認識結果を連携制御装置30に送信する(S1104)。
【0068】
次に、連携制御装置30は、ステップS1102において受信した利用者の音声情報に基づく音声認識を行い、認識テキストを生成する(S1105)。
【0069】
また、連携制御装置30は、ステップS1104において受信した状態認識結果が通常行動を示すことから、利用者が取引遂行可能であると判定し、ステップS1105で生成した認識テキストをAIシステム40に送信する(S1106)。
【0070】
次に、AIシステム40は、ステップS1106において受信した認識テキストに基づく意図解釈および回答テキストの生成を行う(S1107)。
【0071】
続いて、AIシステム40は、ステップS1107において生成した回答テキストを連携制御装置30に送信する(S1108)。
【0072】
次に、連携制御装置30は、ステップS1108において受信した回答テキストに基づく音声合成を行う(S1109)。
【0073】
続いて、連携制御装置30は、ステップS1109において合成した合成音声をVTM10に送信し、待機状態に遷移する。
【0074】
以上、利用者の状態が取引遂行可能である場合における音声取引システム1の動作の流れについて説明した。続いて、利用者の状態が取引遂行不能である場合における音声取引システム1の動作の流れについて述べる。
図8は、利用者の状態が取引遂行不能である場合における音声取引システム1の動作の流れを示すシーケンス図である。なお、
図7におけるVTM10による情報送信(ステップS1101およびS1102)、状態認識装置20による状態認識(S1103)、および連携制御装置30による音声認識(S1105)は、利用者の状態が取引遂行可能である場合においても共通に行われてよいため、
図8における記載、および説明は省略する。
【0075】
図8を参照すると、まず、状態認識装置20は、認識した利用者の状態に係る認識結果を連携制御装置30に送信する(S1201)。
図8の一例の場合、状態認識装置20は、例えば、利用者が通話を行っている状態であることを示す認識結果を連携制御装置30に送信してもよい。
【0076】
次に、連携制御装置30は、ステップS1201において受信した状態認識結果に基づいて利用者が取引とは異なる行動を行っていると推定し、利用者が取引遂行不能であると判定し、対話状況の記録を行う(S1202)。
【0077】
続いて、連携制御装置30は、予め記憶された擬似応答テキストをAIシステムに送信する(S1203)
【0078】
次に、AIシステム40は、ステップS1203において受信した認識テキストに基づく意図解釈および回答テキストの生成を行う(S1204)。この際、AIシステム40は、上記の認識テキストから発話意図が抽出できない場合には、「もう一度言ってください」などの回答テキストを生成してもよい。
【0079】
続いて、AIシステム40は、ステップS1204において生成した回答テキストを連携制御装置30に送信する(S1205)。
【0080】
この際、連携制御装置30は、利用者の状態が取引遂行可能に復帰するまで、繰り返し擬似応答テキストの送信を行ってよい。すなわち、利用者の状態が取引遂行不能である間は、
図8に示すステップS1203〜S1205が繰り返し実行されることとなる。
【0081】
以上、利用者の状態が取引遂行不能である場合における音声取引システム1の動作の流れについて説明した。続いて、利用者の状態が取引遂行可能に復帰した場合における音声取引システム1の動作の流れについて述べる。
図9は、利用者の状態が取引遂行可能に復帰した場合における音声取引システム1の動作の流れを示すシーケンス図である。
【0082】
なお、
図8の場合と同様、
図7におけるVTM10による情報送信(ステップS1101およびS1102)、状態認識装置20による状態認識(S1103)、および連携制御装置30による音声認識(S1105)は、共通に行われてよいため、
図9における記載、および説明は省略する。
【0083】
図9を参照すると、まず、状態認識装置20は、利用者が通常行動を行っている状態であることを示す認識結果を連携制御装置30に送信する(S1301)。
【0084】
次に、連携制御装置30は、
図8におけるステップS1202において記録した対話状況を取得する(S1302)。
【0085】
続いて、連携制御装置30は、ステップS1302で取得した対話状況に基づいて、対話状況の復帰に係る処理を実行する。具体的には、連携制御装置30は、最後に利用者が入力した音声に基づく認識テキストをAIシステム40に送信してもよい(S1303−1)。また、連携制御装置30は、最後にAIシステムから受信した回答テキストをVTM10に送信してもよい(S1303−2)。
【0086】
連携制御装置30によるステップS1303−1や1303−2における処理により、利用者とAIシステム40との対話が、擬似応答の開始前の状況に復帰する。
【0087】
以降、音声取引システム1は、取引が終了するまで、
図7〜
図9に示した処理繰り返し実行する。以上説明したように、本実施形態に係る音声取引システム1によれば、利用者の状態に応じてAIシステム40と擬似応答を行うことができ、AIシステム40の改修が困難である場合であっても、効果的にタイムアウトを防ぐことが可能となる。また、本実施形態に係る音声取引システム1によれば、同一の構成を以って複数種類のAIシステム40に対応することができ、汎用的に利用できると共に、システムの構築コストを低減することが可能となる。
【0088】
<2.第2の実施形態>
<<2.1.第2の実施形態の概要>>
次に、本発明の第2の実施形態について説明する。上記の第1の実施形態では、連携制御装置30が、利用者の状態に応じて、AIシステム40との擬似応答を行う場合について述べた。一方、本発明の第2の実施形態に係る連携制御装置30は、状態認識装置20が認識した利用者属性に基づいて、AIシステムの制御を行うことを特徴とする。
【0089】
より具体的には、第2の実施形態に係る状態認識装置20は、利用者の画像に基づいて、利用者に係る利用者属性をさらに認識してよい。また、第2の実施形態に係る連携制御装置30は、状態認識装置20が認識した利用者属性が対象属性に該当する場合、タイムアウトの延長指示をAIシステム40に送信することができる。
【0090】
図10は、本発明の第2の実施形態の概要について説明するための図である。
図10には、利用者U2、VTM10、連携制御装置30、およびAIシステム40が示されている。また、
図10には、利用者U2が高齢者である場合の例が示されている。このように、利用者U2が高齢者である場合、AIシステム40との対話に慣れていない、などの理由から対応が遅れ、AIシステム40に設定されるタイムアウトを超過してしまうことも想定される。
【0091】
このため、本実施形態に係る音声取引システム1は、利用者属性が対象属性に該当する場合には、AIシステム40にタイムアウトの延長指示を送信することで、利用者U2が対応に時間を要しても、タイムアウトが生じないよう制御することができる。なお、ここで、上記の対象属性には、高齢者や外国人など、機械操作または対話に不慣れな属性が想定される。このため、本実施形態に係る連携制御装置30は、例えば、状態認識装置20が、利用者が高齢者や外国人であると認識したことに基づいて、タイムアウトの延長指示をAIシステム40に送信してもよい。
【0092】
以上、本発明の第2の実施形態の概要について説明した。なお、以下の説明においては、第1の実施形態との差異について中心に述べる。また、音声取引システム1、VTM10、状態認識装置20、連携制御装置30、およびAIシステム40の機能構成については、第1の実施形態と共通するため、詳細な説明は省略する。
【0093】
<<2.2.音声取引システム1の動作の流れ>>
続いて、本実施形態に係る音声取引システム1の動作の流れについて説明する。
図11は、利用者が対象属性に該当する場合における音声取引システム1の動作の流れを示すシーケンス図である。
【0094】
図11を参照すると、まず、VTM10は、利用者の画像情報を状態認識装置20に送信する(S2101)。
【0095】
次に、状態認識装置20は、ステップS2101で受信した画像情報に基づいて、利用者属性の認識を行う(S2102)。
【0096】
続いて、状態認識装置20は、ステップS2102において認識した利用者属性の結果を連携制御装置30に送信する(S2103)。
【0097】
次に、連携制御装置30の連携制御部320は、ステップS2103において受信した利用者属性が対象属性に該当することに基づいて、AIシステム40にタイムアウトの延長指示を送信するよう通信部350を制御する(S2104)。
【0098】
次に、AIシステム40の応答制御部410は、ステップS2104において受信したタイムアウトの延長指示に基づいて、タイムアウトを延長する(S2105)。
【0099】
ここで、本実施形態に係る連携制御装置30は、VTM10から音声情報を受信するまで、タイムアウトの延長指示を繰り返し送信してよい。すなわち、本実施形態に係る連携制御装置30は、利用者が発話を行うまで、タイムアウトを延長させることができる。このため、
図11に示すステップS2104およびS2105の処理は、VTM10から音声情報が送信されるまで繰り返し実行されてよい。
【0100】
一方、VTM10から音声情報を受信すると(S2106)、連携制御装置30は当該音声情報に基づく音声認識を行い、認識テキストを生成する(S2107)。
【0101】
続いて、連携制御装置30は、ステップS2107において生成された認識テキストをAIシステムに送信する(S2108)。
【0102】
なお、以降におけるAIシステム40および音声取引システム1の動作については、第1の実施形態と共通してよい。
【0103】
以上、本発明の第2の実施形態に係る音声取引システム1の動作の流れについて詳細に説明した。本実施形態に係る音声取引システム1によれば、利用者が機械操作や対話に不慣れな場合であってもタイムアウトの超過を防止し、利用者とAIシステム40との円滑な対話を実現することが可能となる。
【0104】
なお、上記の説明では、利用者属性が利用者の画像に基づいて認識される場合を例に述べたが、本実施形態に係る利用者属性は、例えば、VTM10が読み取ったキャッシュカードなどの情報に基づいて認識されてもよい。
【0105】
また、第1および第2の実施形態が有する特徴は、それぞれ組み合わせて実現されてもよい。例えば、音声取引システム1は、利用者が取引遂行不能であると判定した場合に、タイムアウトの延長指示をAIシステム40に送信することもできる。
【0106】
<3.ハードウェア構成例>
次に、本発明の一実施形態に係るVTM10、状態認識装置20、および連携制御装置30に共通するハードウェア構成例について説明する。
図12は、本発明の一実施形態に係る各構成のハードウェア構成例を示すブロック図である。
図12を参照すると、VTM10、状態認識装置20、および連携制御装置30は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力部878と、出力部879と、記憶部880と、ドライブ881と、接続ポート882と、通信部883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
【0107】
(CPU871)
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、記憶部880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
【0108】
(ROM872、RAM873)
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
【0109】
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
【0110】
(入力部878)
入力部878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、マイク、及びレバー等が用いられる。さらに、入力部878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
【0111】
(出力部879)
出力部879には、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置(表示装置)、スピーカー、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。
【0112】
(記憶部880)
記憶部880は、各種のデータを格納するための装置である。記憶部880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
【0113】
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
【0114】
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
【0115】
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
【0116】
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
【0117】
(通信部883)
通信部883は、ネットワーク903に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。また、内線電話網や携帯電話事業者網等の電話網に接続してもよい。
【0118】
<4.まとめ>
以上説明したように、本発明の一実施形態に係る音声取引システム1は、撮影した画像に基づいて利用者の状態を認識することができる。また、本発明の一実施形態に係る音声取引システム1は、認識した利用者の状態に基づいて当該利用者が取引遂行不能であると判定した場合には、AIシステム40との擬似応答を行うことができる。係る構成によれば、利用者とAIとの対話をより円滑に成立させることが可能となる。
【0119】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。