IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ビルシステムの特許一覧

<>
  • 特許-案内ロボットシステム及び案内方法 図1
  • 特許-案内ロボットシステム及び案内方法 図2
  • 特許-案内ロボットシステム及び案内方法 図3
  • 特許-案内ロボットシステム及び案内方法 図4
  • 特許-案内ロボットシステム及び案内方法 図5
  • 特許-案内ロボットシステム及び案内方法 図6
  • 特許-案内ロボットシステム及び案内方法 図7
  • 特許-案内ロボットシステム及び案内方法 図8
  • 特許-案内ロボットシステム及び案内方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-04
(45)【発行日】2022-08-15
(54)【発明の名称】案内ロボットシステム及び案内方法
(51)【国際特許分類】
   G10L 15/22 20060101AFI20220805BHJP
   G10L 13/00 20060101ALI20220805BHJP
   G10L 15/32 20130101ALI20220805BHJP
   G10L 15/10 20060101ALI20220805BHJP
【FI】
G10L15/22 300U
G10L13/00 100M
G10L15/32 200Z
G10L15/10 200W
G10L15/10 500Z
【請求項の数】 4
(21)【出願番号】P 2018195515
(22)【出願日】2018-10-17
(65)【公開番号】P2020064168
(43)【公開日】2020-04-23
【審査請求日】2021-01-20
(73)【特許権者】
【識別番号】000232955
【氏名又は名称】株式会社日立ビルシステム
(74)【代理人】
【識別番号】110000925
【氏名又は名称】特許業務法人信友国際特許事務所
(72)【発明者】
【氏名】大竹 晋資
(72)【発明者】
【氏名】本橋 弘光
(72)【発明者】
【氏名】高野 安司
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2004-272363(JP,A)
【文献】実開平06-073800(JP,U)
【文献】特開2006-039120(JP,A)
【文献】特開2006-030282(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G10L 13/00-13/10
(57)【特許請求の範囲】
【請求項1】
複数言語の会話を用いて案内サービスを行う案内ロボットシステムであって、
音声を取得する音声取得部と、
前記音声取得部で取得した音声に対して複数言語の音声認識を行う音声認識部と、
記音声認識部で得た前記複数言語の音声認識結果を事前に登録したキーワードに照合して一致する言語を得るキーワード照合部と、
前記音声取得部で取得した音声に対する複数言語の信頼度を算出する信頼度算出部と、
前記キーワード照合部による照合で一致した言語があるときには、前記一致した言語を選択し前記キーワード照合部で登録したキーワードに一致する言語がなかったときには、前記信頼度算出部で算出した信頼度の最も高い言語を選択する言語選択部と、
前記信頼度算出部で得た信頼度の内、最も信頼度が高い言語の信頼度が閾値よりも小さい場合にクローズドクエスチョン形式の会話とし、最も信頼度が高い言語の信頼度が前記閾値よりも大きい場合にオープンクエスチョン形式の会話とするように切り替える会話処理部と、を備える
案内ロボットシステム。
【請求項2】
複数言語の会話を用いて案内サービスを行う案内ロボットシステムであって、
音声を取得する音声取得部と、
前記音声取得部で取得した音声に対して複数言語の音声認識を行う音声認識部と、
記音声認識部で得た前記複数言語の音声認識結果を事前に登録したキーワードに照合して一致する言語を得るキーワード照合部と、
前記音声取得部で取得した音声に対する複数言語の信頼度を算出する信頼度算出部と、
前記キーワード照合部による照合で一致した言語があるときには、前記一致した言語を選択し前記キーワード照合部で登録したキーワードに一致する言語がなかったときには、前記信頼度算出部で算出した信頼度の最も高い言語を選択する言語選択部と、
前記信頼度算出部で得た信頼度に対して、最も信頼度が高い言語の信頼度とその他の言語の信頼度との差が閾値よりも小さい場合にクローズドクエスチョン形式の会話とし、最も信頼度が高い言語の信頼度とその他の言語の信頼度との差が前記閾値よりも大きい場合にオープンクエスチョン形式の会話とするように切り替える会話処理部と、を備える
案内ロボットシステム。
【請求項3】
複数言語の会話を用いて案内ロボットが案内サービスを行う案内方法であって、
案内ロボットの音声取得部で音声を取得するステップと、
前記音声取得部で取得した音声に対して音声認識部で複数言語の音声認識を行うステップと、
記音声認識部で得た複数言語の音声認識結果を、キーワード照合部で事前に登録したキーワードに照合して一致する言語を得るステップと、
前記音声取得部で取得した音声に対する複数言語の信頼度を信頼度算出部により算出するステップと、
前記キーワード照合部による照合で一致した言語があるときには、前記音声取得部で取得した前記一致した言語を、言語選択部で選択し、前記キーワード照合部で登録したキーワードに一致する言語がなかったときには、前記信頼度算出部で算出した信頼度の最も高い言語を、前記言語選択部により選択するステップと、
前記信頼度算出部で得た信頼度の内、最も信頼度が高い言語の信頼度が閾値よりも小さい場合にクローズドクエスチョン形式の会話とし、最も信頼度が高い言語の信頼度が前記閾値よりも大きい場合にオープンクエスチョン形式の会話とするように会話処理部により切り替えるステップと、を含む、
案内方法。
【請求項4】
複数言語の会話を用いて案内ロボットが案内サービスを行う案内方法であって、
案内ロボットの音声取得部で音声を取得するステップと、
前記音声取得部で取得した音声に対して音声認識部で複数言語の音声認識を行うステップと、
記音声認識部で得た複数言語の音声認識結果を、キーワード照合部で事前に登録したキーワードに照合して一致する言語を得るステップと、
前記音声取得部で取得した音声に対する複数言語の信頼度を信頼度算出部により算出するステップと、
前記キーワード照合部による照合で一致した言語があるときには、前記音声取得部で取得した前記一致した言語を、言語選択部で選択し、前記キーワード照合部で登録したキーワードに一致する言語がなかったときには、前記信頼度算出部で算出した信頼度の最も高い言語を前記言語選択部により選択するステップと、
前記信頼度算出部で得た信頼度に対して、最も信頼度が高い言語の信頼度とその他の言語の信頼度との差が閾値よりも小さい場合にクローズドクエスチョン形式の会話とし、最も信頼度が高い言語の信頼度とその他の言語の信頼度との差が前記閾値よりも大きい場合にオープンクエスチョン形式の会話とするように会話処理部により切り替えるステップと、を含む、
案内方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、案内ロボットシステム及び案内方法に関する。
【背景技術】
【0002】
従来、ロボットが案内サービスを行う場合、案内ロボットが発話・認識する言語は、案内ロボットに設定されている言語を用いることになるが、この設定されている言語と異なる言語で会話する利用者は、ロボットによる案内サービスを利用することが困難であった。
【0003】
一般的な言語の切替方法については、電子辞書のような装置で音声入力を受取り、入力された音声を音声識別してテキスト化し、その結果を予め言語毎に登録しておいたテキストと照合し、一致した言語へ切り替える技術が提案されている(例えば、特許文献1参照)。
また、ロボットにおける言語の切替方法に関しては、複数言語に対応する音声認識部で音声を認識し、その認識結果に対する信頼度を算出して、最も高い信頼度の言語へ切り替える技術が提案されている(例えば、特許文献2参照)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2001-282788号公報
【文献】特開2018-087945号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載される技術では、ロボットは予め登録されたデータでしか言語の切り替えを行うことができない。このため、登録されていない内容を利用者が発話した場合には、言語を切り替えることができず、異なる言語で会話する利用者は、ロボットによる案内サービスを利用することが困難であった。
【0006】
また、特許文献2に記載される技術では、複数言語の音声認識の信頼度がいずれも低かった場合に、言語の特定を誤る可能性が高くなるという問題があった。すなわち、周囲の雑音が多い場合や、発話音量が小さい場合、あるいは発話がはっきりとしない場合などに音声認識の信頼度が低くなるという問題である。
【0007】
本発明は、周囲の雑音等が多い場合であっても、利用者の発話内容と予め登録されたデータとを照合して、案内サービスに使用する言語を、利用者の使用する言語に切り替えることができる案内ロボットシステム及び案内方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、本発明の案内ロボットシステムは、複数言語の会話を用いて案内サービスを行う案内ロボットシステムであって、音声を取得する音声取得部と、音声取得部で取得した音声に対して複数言語の音声認識を行う音声認識部と、音声認識部で得た複数言語の音声認識結果を事前に登録したキーワードに照合して一致する言語を得るキーワード照合部と、音声取得部で取得した音声に対する複数言語の信頼度を算出する信頼度算出部と、キーワード照合部による照合で一致した言語があるときには、その一致した言語を選択しキーワード照合部で登録したキーワードに一致する言語がなかったときには、信頼度算出部で算出した信頼度の最も高い言語を選択する言語選択部と、信頼度算出部で得た信頼度の内、最も信頼度が高い言語の信頼度が閾値よりも小さい場合にクローズドクエスチョン形式の会話とし、最も信頼度が高い言語の信頼度が閾値よりも大きい場合にオープンクエスチョン形式の会話とするように切り替える会話処理部と、を備える。
【発明の効果】
【0009】
本発明によれば、予め登録されたデータとの一致による言語の切り替えを円滑に実現することが可能になる。
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0010】
図1】本発明の第1の実施の形態例における案内ロボットシステム全体の構成図である。
図2】本発明の第1の実施の形態例に用いられるロボットの構成例を示す図である。
図3】本発明の第1の実施の形態例に用いられるロボット管理サーバの構成例を示す図である。
図4】本発明の第1の実施の形態例に用いられるロボット制御装置の構成例を示す図である。
図5】本発明の第1の実施の形態例における言語選択を含む会話機能の一例を示す図である。
図6】本発明の第1の実施の形態例において、言語切替を行って会話を実行する処理を説明するフローチャートの例である。
図7】本発明の第1の実施の形態例に用いられるキーワードテーブルの例を示す図である。
図8】本発明の第1の実施の形態例に用いられるクローズドクエスチョン会話テーブルの例を示す図である。
図9】本発明の第1の実施の形態例に用いられるオープンクエスチョン会話テーブルの例を示す図である。
【発明を実施するための形態】
【0011】
<案内ロボットシステムの全体構成>
以下、図面を参照して、本発明の実施の形態例(以下、「本例」と称する)である案内ロボットシステムと、その言語選択方法について説明する。
図1は、案内ロボットシステム全体の構成例を示した図である。案内ロボットシステム1は、ロボット100と、ロボット制御装置200と、ネットワークを介してロボット制御装置200に接続されるロボット管理サーバ300から構成される。
【0012】
本例の案内ロボットシステム1は、ロボット100が複数の言語を用いて案内サービスを行うシステムである。ロボット100とロボット制御装置200は無線通信で接続されており、案内サービスが実施される建物2の敷地内に配置されている。ロボット100は、ロボット制御装置200から制御命令を受取り、利用者に建物2内の設備やテナントの場所、テナントの提供する商品、サービス、建物2の周辺の施設等を紹介する案内サービスを実施する。
【0013】
図1では、建物2に対して、1台のロボット制御装置200が1台のロボット100を制御する例が示されているが、1台のロボット制御装置200により、複数台のロボット100を制御するようにしてもよく、また、建物2の内部に複数台のロボット制御装置200を設置してもよい。
また、建物2内に複数のロボット100が配置される場合、それぞれのロボット100が異なる案内サービスを行うようにしてもよい。
【0014】
ロボット制御装置200は、ネットワーク3を介してロボット管理サーバ300に接続される。図1では、一つの建物2のロボット制御装置200だけがロボット管理サーバ300と接続されているが、複数の建物2内に配置されるロボット制御装置200がロボット管理サーバ300と接続されるようにしてもよい。
【0015】
ロボット管理サーバ300は、どの建物2にどのロボット100が配置されているかを管理するとともに、各ロボット100が正常に動作しているか、メンテナンスが必要かどうかなどの状態を管理する。このように、ロボット管理サーバ300がロボット100を管理することで、管理者は、ロボット100のメンテナンスが必要になった場合等に早急に対応することができる。
【0016】
<ロボットの構成例>
図2は、ロボット100の構成例を示す図である。ロボット100は、CPU(Central Processing Unit)110、記憶装置120,入出力装置130及び通信インターフェース140を備える。
CPU110は、ロボット100の各部の処理の制御を行う。記憶装置120には、様々なソフトウェアモジュールやデータが記憶されている。
【0017】
記憶装置120は、駆動機構を制御する駆動制御部121と、会話を制御する会話制御部122と、入出力装置130とのデータの入出力を行う入出力部123を備える。
入出力装置130は、周囲の映像や画像を撮影するカメラ131と、周囲の音を収音するマイク132を備える。また、入出力装置130は、ロボット100の傾きや回転などの姿勢を検出するジャイロセンサ133と、周囲の物体との距離を測定する測域センサ134と、音声を発するスピーカー135と、ロボット100の移動を行ったり、関節を可動させたりする駆動機構136を備える。
【0018】
通信インターフェース140は、入出力装置130のカメラ131からの映像やマイク132からの音声を取得して、ロボット制御装置200に送信する。また、通信インターフェース140は、ロボット制御装置200からの制御命令を受信する。
ロボット100は、通信インターフェース140で受信したロボット制御装置200からの制御指令に基づいて、駆動制御部121、会話制御部122、及び入出力部123を制御し、案内サービスを実施する。
【0019】
また、ロボット100は、ロボット制御装置200から移動の指示を受けると、駆動機構136により建物2内を移動する。そして、ロボット100は、移動中に測域センサ134からの信号に基づいて障害物を検知し、駆動制御部121により自律的に移動を停止したり、障害物を回避したりする。
【0020】
<管理サーバの構成例>
図3は、ロボット管理サーバ300の構成例を示す図である。ロボット管理サーバ300は、CPU310と、ロボット配置管理部321を含む記憶装置320と、通信インターフェース330を備える。
ロボット管理サーバ300は、通信インターフェース330を介して、ロボット制御装置200と接続され、ロボット制御装置200を介してロボット配置管理部321により各ロボットの状態を管理する。
【0021】
<ロボット制御装置の構成例>
図4は、ロボット制御装置200の構成例を示す図である。ロボット制御装置200は、各部の処理を制御するCPU210と、各ソフトウェアモジュール、テーブル等のデータを記憶する記憶装置220と、ロボット100及びロボット管理サーバ300と相互通信を行う通信インターフェース211を備える。
【0022】
CPU210は、記憶装置220に記憶されたプログラムを読みだすことで、各種の制御機能を実行する。すなわち、CPU210は、記憶装置220に記憶されているプログラムを読み出すことにより、入出力データ処理部230、サービスフロー処理部240、対面検知部250、音声処理部260、言語選択部270、会話処理部280、移動指示部290として示される各機能を実現する。
【0023】
入出力データ処理部230は、音声取得部231、音声出力部232、画像取得部233、動作出力部234、測域データ取得部235、エラー入出力部236を含む。
この入出力データ処理部230は、ロボット100から受信したデータの処理及びロボット100並びにロボット管理サーバ300へ送信するデータの処理を行う部分である。
【0024】
音声取得部231は、ロボット100から受信した音声データを処理し、音声出力部232は、ロボット100に発話させるために送信する音声データを処理する。
画像取得部233は、ロボット100から受信した画像データを処理し、動作出力部234は、ロボット100を稼働させるためのデータを出力する処理を行う。
また、測域データ取得部235は、ロボット100から受信した測域センサの出力を処理し、エラー出力部は、ロボット管理サーバ300へ送信するエラーログに関するデータの処理を行う。
【0025】
サービスフロー処理部240は、図6で後述するサービスフローに基づいた案内サービスを実行する。
対面検知部250は、ロボット100の前に対面している人がいることを検知する。すなわち、対面検知部250は、ロボット100のカメラ131及び測域センサ134から得られる画像情報及び障害物情報を取得し、これらの情報に基づいて、ロボット100が利用者と対面状態になっているか否かを検知する。
【0026】
本例の案内ロボットシステムでは、ロボット100が利用者と対面状態である間に案内サービスが行われ、利用者がロボット100から離れて対面状態でなくなれば案内サービスが中止される。なお、ロボット100が誤った言語で案内サービスを開始した場合には、利用者はロボット100の前から離れて対面状態ではなくなるので、ロボット100による案内サービスを中止させる。
【0027】
<音声選択を含む会話機能の例>
図5は、本例の案内ロボットシステムにおける、言語選択を含む会話機能の一例を表した図であり、音声処理部260、言語選択部270及び会話処理部280の機能を示している。
音声処理部260は、第一言語音声処理部261、第二言語音声処理部262、及び第三言語音声処理部263を備える。
【0028】
第一言語音声処理部261は、例えば日本語を処理する処理部であり、第一言語音声認識部2611及び第一言語信頼度算出部2612を含む。
第二言語音声処理部262は、例えば英語を処理する処理部であり、第二言語音声認識部2621及び第二言語信頼度算出部2622を含む。
第三言語音声処理部263は、例えば中国語を処理する処理部であり、第三言語音声認識部2631及び第三言語信頼度算出部2632を含む。
【0029】
ロボット制御装置200(図4)の音声取得部231でロボット100から取得した音声データは、第一言語音声処理部261、第二言語音声処理部262及び第三言語音声処理部263に供給され、三つの言語の並列処理が行われる。
【0030】
第一言語音声処理部261は、第一言語音声認識部2611で音声データを音声認識して第一言語である日本語でテキスト化し、第一言語信頼度算出部2612でその信頼度を算出する。
第二言語音声処理部262は、第二言語音声認識部2621で音声データを音声認識して第二言語である英語でテキスト化し、第二言語信頼度算出部2622でその信頼度を算出する。
第三言語音声処理部263は、第三言語音声認識部2631で音声データを音声認識して第三言語である中国語でテキスト化し、第三言語信頼度算出部2632でその信頼度を算出する。
【0031】
信頼度は、0~1の間の数値で決定されるものであり、「0」は一致度が最も低い値であり、「1」は一致度が最も高い値である。例えば、利用者が話す言語が日本語であれば、第一言語信頼度算出部2612で算出した信頼度は、「1」に近い値になり、英語を処理する第二言語信頼度算出部2622及び中国語を処理する第三言語信頼度算出部2632で算出した信頼度は、「0」に近い値になる。しかし、実際には、利用者の話す言語が日本語、英語、または中国語といった特定の言語に認識されない場合も多く、信頼度は0~1の間の数値として算出されることが多くなる。
【0032】
この音声認識結果に対する信頼度の研究は、音声認識の後処理として、認識結果を受け入れるか、あるいは棄却するかの発話検証問題として研究されている。この研究では、入力された音声に対して、もっとも尤度の高い単語列を出力するという処理が必要であるため、正しい認識結果と認識誤りとを判定するための尺度となる閾値が必要になる。例えば、信頼度を0~1の範囲で表現する場合、閾値を0と1の中間の値である、例えば0.5のような値に設定することも考えられる。
この信頼度の算出方法には、いくつかの方法が考えられるが、例えば、駒谷、河原著「音声認識結果の信頼度を用いた効率的な確認・誘導を行う対話処理」(情報処理学会論文誌、Vol.43、No.10、pp3078-3086)が知られている。
【0033】
言語選択部270は、キーワード照合部271と、信頼度比較部272と、選択言語格納部273と、キーワードテーブル274を含む。
キーワード照合部271は、各言語の音声認識結果のテキストとキーワードテーブル274に登録された各言語のキーワードとを照合し、一致するキーワードとその言語を求める。信頼度比較部272は、各言語の信頼度を比較し、信頼度が最も高い言語を求める。選択言語格納部273には、キーワード照合部271における照合の結果、キーワードが一致した言語が格納されるとともに、信頼度比較部272で求められた信頼度の最も高い言語が格納される。
【0034】
会話処理部280は、第一言語会話作成部281と、第二言語会話作成部282と、第三言語会話作成部283と、クローズドクエスチョン会話テーブル284と、オープンクエスチョン会話テーブル285を含む。
ここで、クローズドクエスチョン形式の会話とは、回答範囲を限定した質問を行う会話形式を意味し、オープンクエスチョン形式の会話とは、回答に制約を設けずに相手に自由に答えさせる質問を行う会話形式を意味する。クローズドクエスチョン形式の会話を行うことで、利用者が言語選択部270の選択言語格納部273に格納された言語で発話することが期待される。
【0035】
第一言語会話作成部281は、入力されたテキストに対してクローズドクエスチョン会話テーブル284もしくはオープンクエスチョン会話テーブル285に基づいて第一言語(例えば、日本語)のシステム発話を作成する。システム発話とは、ロボットが発生する音声(発話)のことである。
【0036】
第二言語会話作成部282は、入力されたテキストに対してクローズドクエスチョン会話テーブル284もしくはオープンクエスチョン会話テーブル285に基づいて第二言語(例えば、英語)のシステム発話を作成する。
第三言語会話作成部283は、入力されたテキストに対してクローズドクエスチョン会話テーブル284もしくはオープンクエスチョン会話テーブル285に基づいて第三言語(例えば、中国語)のシステム発話を作成する。
【0037】
クローズドクエスチョン会話テーブル284には、図8で後述するように、選択言語に対するシステム発話が登録されている。つまり、クローズドクエスチョン会話テーブル284には、利用者の応答発話が限定されるような質問(クローズドクエスチョン)がシステム発話として登録されている。
【0038】
オープンクエスチョン会話テーブル285には、図9で後述するように、選択言語及び利用者の発話に対するシステム発話と会話終了フラグが登録されている。つまり、オープンクエスチョン会話テーブル285には、利用者の発話応答が限定されない質問(オープンクエスチョン)がシステム発話として登録される。会話終了フラグは、会話を継続して行うか、終了するかを示すフラグであり、FALSEの場合は会話を継続し、TRUEの場合は会話を終了する。オープンクエスチョンの最初の質問に対する会話終了フラグは、会話を継続する必要があるので、すべてFALSEになっている。
【0039】
なお、本例の案内ロボットシステムでは、日本語、英語、中国語といった3言語への対応例を示しているが、2言語もしくは4言語以上に対応するように構成することも可能である。
音声出力部232は、会話処理部280で作成されたシステム発話をロボット100に送信し、ロボット100に第一言語、第二言語または第三言語のいずれかの言語で発話させる。
【0040】
<言語選択を含む会話のフローチャート>
図6は、本例の案内ロボットシステム1の処理のうち、国際空港利用者に対する言語選択を含む会話処理の一例を示すフローチャートである。なお、会話処理は、利用者がロボット100に対面し、ロボット制御装置200が対面検知することにより開始される。
【0041】
まず、ロボット制御装置200は、音声取得部231でロボット100からの音声取得を待つ(S1)。ステップS1で音声が取得される(S1のYES)と、第一言語音声処理部261の第一言語音声認識部2611では、第一言語(例えば、日本語)で音声認識され(S2)、第一言語信頼度算出部2612により第一言語の信頼度が計算される(S3)。ここで、利用者が第一言語(日本語)を話していることがロボット制御装置200によって認識された場合には、第一言語信頼度算出部2612で算出された信頼度が「1」に近い高い値になる。
【0042】
また、同時に、第二言語音声処理部262の第二言語音声認識部2621では、第二言語(例えば、英語)で音声認識され(S4)、第二言語信頼度算出部2622により第二言語の信頼度が計算される(S5)。同様に、第三言語音声処理部263の第三言語音声認識部2631では、第三言語(例えば、中国語)で音声認識され(S6)、第三言語信頼度算出部2632により第三言語の信頼度が計算される(S7)。
【0043】
なお、利用者が第一言語(日本語)を話していることがロボット制御装置200によって認識された場合には、第二言語信頼度算出部2622と第三言語信頼度算出部2632で算出する信頼度は「0」に近い低い値となる。
なお、ステップS1で音声取得がなされない場合(S1のNO)には、ロボット100に対して音声入力がなされるまで待機する。
【0044】
ステップS2~ステップS7で、第一言語から第三言語での音声認識および信頼度算出が行われると、キーワード照合部271は、各言語の音声認識結果がキーワードテーブル274に登録されているキーワードと一致するかどうかを照合する(S8)。
ステップS8のキーワード照合部271の処理で、第一から第三のどの言語のキーワードにも一致しない場合(S8のNO)には、第一言語から第三言語に対して信頼度比較部272にて信頼度が閾値以上の言語があるか否かが判定される(S9)。
【0045】
ステップS9で信頼度が所定の閾値以上の言語がないと判定された場合(S9のNO)には、信頼度比較部272にて各言語の信頼度を比較し、信頼度が最も高い言語が選択言語格納部273に格納される(S10)。
なお、閾値は、0~1の間の任意の値に設定することができるものであるが、例えば閾値を「0.5」に設定した場合には、第一言語から第三言語のすべての信頼度が「0.5」以下であれば、その中の最も高い信頼度(例えば、0.45)を持つ言語が選択言語格納部273に格納されることになる。
【0046】
続いて、会話処理部280において、第一言語会話作成部281、第二言語会話作成部282及び第三言語会話作成部283のうちの選択された言語の会話作成部は、クローズドクエスチョン会話テーブル284に基づいてシステム発話を作成する(S11)。
ステップS11で、クローズドクエスチョンのシステム発話が作成されると、ロボット制御装置200の音声出力部232がロボット100へ音声データを送信し、ロボット100はスピーカー135でその音声データを再生して発話する(S12)。
【0047】
そして、ロボット100は、クローズドクエスチョンに対する利用者の応答による音声が取得されるまで待機する(S13)。ステップS13で音声取得がなされなかった場合には(S13のNO)、ステップS1に戻って、次の音声取得を待つ。
ステップS13で音声が取得された場合(S13のYES)には、ロボット制御装置200は、ロボット100と利用者との会話成立をリトライし、リトライ回数が所定の回数を超えたか否かを判定する(S14)。
【0048】
ステップS14で、リトライ回数が予め回数を超えていないと判定された場合(S14のNO)、ロボット制御装置200は、選択された言語の会話作成部で別のクローズドクエスチョンのシステム発話を作成し、リトライ回数をインクリメントする(S15)。そして、再度、ロボット制御装置200の音声出力部232は、ロボット100にシステム発話を再生させる(S12)。ステップS14でリトライ回数が予め設定した回数をオーバーしたと判定された場合(S14のYES)には、ロボット制御装置200は、利用者に対するロボット100の発話を断念し、ステップS1に戻って、他の利用者からの音声取得を待つ。
【0049】
ここで、リトライ回数が所定回数をオーバーしたか否かの判断であるが、ここでは例えば、対話を継続するリトライ回数を予め決めておき(例えば、3回など)、3回のリトライをしても、ロボット100と利用者との会話が成立しないときは、ロボット制御装置200は、ロボット100に当該利用者との対話を中止させるように制御する。
【0050】
ステップS8のキーワード照合部271の処理で、キーワードテーブル274に登録されているキーワードとロボット100による音声認識結果を照合した結果、音声認識結果の中にキーワード一致する言語がある場合(S8のYES)には、キーワードに一致した言語を選択言語格納部273に格納する(S16)。
【0051】
また、ステップS9における信頼度比較部272における、第一言語から第三言語の各言語の信頼度比較で、信頼度が予め設定した閾値以上の言語があると判定された場合(S9のYES)にも、同様に、信頼度が閾値以上の言語を選択言語格納部273に格納する(S16)。
【0052】
続いて、選択された言語の会話作成部において、オープンクエスチョン会話テーブル285に基づいてシステム発話を作成する(S17)。
ステップS17で、オープンクエスチョン形式のシステム発話が作成されると、音声出力部232は、ロボット100へ音声データを送信し、ロボット100はスピーカー135でその音声データを再生して発話する(S18)。
【0053】
そして、オープンクエスチョン形式のシステム発話が出力されると、会話処理部280の中の選択された言語の会話作成部は、会話終了フラグが「TRUE」であるか「FALSE」であるかを確認する(S19)。なお、図9で後述するように、オープンクエスチョン形式の発話では、応答を継続させる必要があることから、会話終了フラグは「FALSE」になっている。
【0054】
ステップS19で会話終了フラグが「FALSE」であった場合(S19のNO)には、新たな音声取得を待つ(S20)。そして、ステップS20で、新たな音声が取得されれば(S20のYES)、第一から第三の言語のうち選択された言語の音声認識部で音声認識を行い(S21)、ステップS17で再度選択された言語の会話作成部でオープンクエスチョン形式のシステム発話を作成して、ステップS18でロボット100に発話させる。ステップS20で、新たな音声が取得されなければ(S20のNO)、新たな音声が取得されるまで待機する。
ステップS19で、ロボット100と利用者との会話が成立し、会話終了フラグが「TRUE」であると判定された場合(S19のYES)には、会話処理を終了し、ステップS1に戻る。
【0055】
なお、図6のフローチャートではステップS9の条件を「信頼度が閾値以上の言語があるか否か」としたが、これを「最も高い言語の信頼度と他の言語の信頼度の差が閾値以上であるか否か」としてもよい。そして、最も高い言語の信頼度と他の言語の信頼度の差が僅差である場合には、ステップS17でクローズドクエスチョンを行うようにする。
【0056】
例えば、利用者の話す言語が、第一言語なのか、あるいは第二言語なのか、あるいはその他の言語なのか判別しにくいような場合には、第一言語信頼度算出部2612で算出した信頼度が最も高い信頼度であっても、第一言語信頼度算出部2612で算出した信頼度と第二言語信頼度算出部2622で算出した信頼度とが近い値となることが想定される。
つまり、最も高い第一言語(日本語)の信頼度が「0.8」で、第二言語(英語)の信頼度が「0.7」であるような場合には、差が「0.1」になって微差になる。この場合には、利用者の話す言語が第一言語(日本語)なのか第二言語(英語)なのかを判定しにくい。
一方、最も高い第一言語(日本語)の信頼度が「0.5」で、第二言語(英語)の信頼度が「0.1」であれば、その差は「0.4」になって微差ではなくなってくる。このような場合には、利用者の話す言語は第一言語(日本語)であると判定することができる。
【0057】
このように、信頼度が最も高い言語の信頼度と他の言語の信頼度の差が閾値以上の場合には、オープンクエスチョン形式の会話内容を作成し、信頼度が最も高い言語の信頼度と他の言語の信頼度の差が閾値以下の場合には、クローズドクエスチョン形式の会話内容を作成する。
すなわち、複数言語の音声認識の信頼度がいずれも閾値より低い場合には、システムが利用者に対してクローズドクエスチョン形式の問いかけを行い、利用者の発話内容を限定するようにしている。
【0058】
<各種テーブルの説明>
図7は、第一言語を日本語、第二言語を英語、第三言語を中国語とした国際空港での利用における言語選択部270のキーワードテーブル274の一例を示している。キーワードテーブル274には、第一言語(日本語)として、「はい」、「よろしいです」が格納されており、またこれらの日本語に対応する第二言語(英語)、及び第三言語(中国語)の言葉も格納されている。
【0059】
図8は、第一言語を日本語、第二言語を英語、第三言語を中国語とした国際空港での利用における会話処理部280のクローズドクエスチョン会話テーブル284の一例を示している。
すなわち、クローズドクエスチョン会話テーブル284のシステム発話には、利用者がキーワードテーブル274に登録されているキーワードを発話するように誘導するシステム発話が登録される。例えば、第一言語(日本語)としては、キーワードテーブルに登録されている「はい」を発話することを期待して、「日本語でよかったでしょうか?」や、「使用したい言語を教えてください」などの、定型の質問文が登録される。同様に、第二言語(英語)と第三言語(中国語)に関しても同じ意味の定型の質問文が登録される。
【0060】
図9は、第一言語を日本語、第二言語を英語、第三言語を中国語とした国際空港での利用におけるオープンクエスチョン会話テーブル285の一例を示す。オープンクエスチョン会話テーブル285には、第一言語(日本語)、第二言語(英語)及び第三言語(中国語)のそれぞれの言語に対して、ユーザー発話の欄、システム発話の欄及び会話終了フラグの欄が設けられている。
【0061】
ロボット100に発話させるシステム発話が「何がしたいですか?」、あるいは「何が食べたいですか?」などの問いかけ形式の質問に対しては、会話終了フラグを「FALSE」として会話を継続する。そして、ロボット100の発話が「トイレはここから左に行くとあります。」のように案内を行う時の発話では、会話終了フラグを「TRUE」として会話を終了する。これにより、複数回の会話から利用者の求める案内内容を絞り込んで最終的な案内を行うことができる。
【0062】
なお、本発明は上記した実施の形態例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施の形態例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
【0063】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0064】
1…案内ロボットシステム、2…建物、
100…(案内)ロボット、
110…CPU、120…記憶装置、121…駆動制御部、122…会話制御部、123…入出力部、130…入出力装置、131…カメラ、132…マイク、133…ジャイロセンサ、134…測域センサ、135…スピーカー、136…駆動機構、140…通信インターフェース、
200…ロボット制御装置、
210CPU、211…通信インターフェース、220…記憶装置、230…入出力データ処理部、231…音声取得部、232…音声出力部、233…画像取得部、234…動作出力部、235…測域データ取得部、236…エラー出力部、240…サービスフロー処理部、250…対面検知部、260…音声処理部、261…第一言語音声処理部、2611…第一言語音声認識部、2612…第一言語信頼度算出部、262…第二言語音声処理部、2621…第二言語音声認識部、2622…第二言語信頼度算出部、263…第三言語音声処理部、2631…第三言語音声認識部、2632…第三言語信頼度算出部、270…言語選択部、271…キーワード照合部、272…信頼度比較部、273…選択言語格納部、274…キーワードテーブル、280…会話処理部、281…第一言語会話作成部、282…第二言語会話作成部、283…第三言語会話作成部、284…クローズドクエスチョン会話テーブル、285…オープンクエスチョン会話テーブル
300…ロボット管理サーバ
310…CPU、320…記憶装置、321…ロボット配置管理部、330…通信インターフェース
図1
図2
図3
図4
図5
図6
図7
図8
図9