特許7465075 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ビルシステムの特許一覧

特許7465075演算装置、記録媒体、音声入力装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-02

(45)【発行日】2024-04-10

(54)【発明の名称】演算装置、記録媒体、音声入力装置

(51)【国際特許分類】

G10L 15/28 20130101AFI20240403BHJP

G10L 15/22 20060101ALI20240403BHJP

【ＦＩ】

G10L15/28 230K

G10L15/22 300Z

【請求項の数】 10

(21)【出願番号】P 2019206587

(22)【出願日】2019-11-14

(65)【公開番号】P2021081482

(43)【公開日】2021-05-27

【審査請求日】2022-07-07

(73)【特許権者】

【識別番号】000232955

【氏名又は名称】株式会社日立ビルシステム

(74)【代理人】

【識別番号】110002365

【氏名又は名称】弁理士法人サンネクスト国際特許事務所

(72)【発明者】

【氏名】藤田悠

(72)【発明者】

【氏名】受田賢知

(72)【発明者】

【氏名】田澤功

(72)【発明者】

【氏名】山崎謙太

【審査官】中村天真

(56)【参考文献】

【文献】特開２０１４－２０２８００（ＪＰ，Ａ）

【文献】特開平０２－０４２４９３（ＪＰ，Ａ）

【文献】特開２０１８－０１３５４５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

(57)【特許請求の範囲】

【請求項1】

ユーザとの音声対話が発生する可能性を示すリソース制御情報、および音声情報を送信する複数のロボットと通信するサーバ通信部と、
前記ロボットから受信する前記音声情報を文字情報に変換する認識プロセスを複数実行可能な音声認識部と、
前記ロボットから受信する前記リソース制御情報を用いて前記認識プロセスの起動数を管理し、前記認識プロセスの起動および停止を行うプロセス制御部とを備える演算装置。

【請求項2】

請求項１に記載の演算装置において、
前記リソース制御情報には、前記ロボットがユーザとの距離に基づき出力する前記認識プロセスの起動要求が含まれ、
前記プロセス制御部は、前記ロボットが送信する前記起動要求に基づき前記認識プロセスを起動し、起動した前記認識プロセスを前記ロボットに割当てることで前記ロボットが送信する音声情報を文字情報に変換する演算装置。

【請求項3】

請求項２に記載の演算装置において、
前記プロセス制御部は、前記ロボットから前記認識プロセスの割当要求を受信した場合、および前記認識プロセスが割り当てられていない前記ロボットから音声情報を受信した場合の少なくとも一方の場合に前記ロボットに前記認識プロセスを割り当てる演算装置。

【請求項4】

請求項３に記載の演算装置において、
前記プロセス制御部は、前記ロボットから前記認識プロセスの割当解除要求を受信した場合、および前記認識プロセスが割り当てられた前記ロボットから所定時間より長く音声情報を受信しない場合の少なくとも一方の場合に前記ロボットに対する前記認識プロセスの割当を解除する演算装置。

【請求項5】

請求項１に記載の演算装置において、
前記リソース制御情報には、前記ロボットに搭載されるセンサの出力であるセンサ情報が含まれ、
前記プロセス制御部は、前記センサ情報を用いて前記ロボットから所定の監視距離以内に音声を発話するユーザが存在すると判断する場合に前記認識プロセスを起動する演算装置。

【請求項6】

請求項１に記載の演算装置において、
前記プロセス制御部は、前記ロボットから前記認識プロセスを停止する要求を受信した場合に前記認識プロセスを停止する演算装置。

【請求項7】

請求項１に記載の演算装置において、
前記リソース制御情報には、前記ロボットに搭載されるセンサの出力であるセンサ情報が含まれ、
前記プロセス制御部は、前記ロボットから所定の監視距離以内に存在していたユーザが、前記監視距離よりも遠くに移動したことを前記センサ情報を用いて判断する場合に前記認識プロセスを停止する演算装置。

【請求項8】

ユーザとの音声対話が発生する可能性を示すリソース制御情報、および音声情報を送信する複数のロボットと通信するサーバ通信部を備えるコンピュータに、
前記ロボットから受信する前記音声情報を文字情報に変換する認識プロセスを複数実行可能な音声認識処理と、
前記ロボットから受信する前記リソース制御情報を用いて前記認識プロセスの起動数を
管理し、前記認識プロセスの起動および停止を行うプロセス制御処理とを実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。

【請求項9】

受信した音声情報を文字情報に変換する認識プロセスを複数実行可能な音声認識部を備える演算装置と通信可能なロボット通信部と、
ユーザとの距離に基づき前記演算装置に前記認識プロセスの起動を要求する起動要求を送信する起動要求部と、
前記ユーザの発話を録音し前記音声情報として前記演算装置に送信する送信部と、を備える音声入力装置であって、
前記認識プロセスの起動時間、および前記ユーザと当該音声入力装置との相対速度の積を監視距離として算出する距離決定部をさらに備え、
前記起動要求部は、前記ユーザと当該音声入力装置との距離が前記監視距離以下の場合に前記起動要求を送信する音声入力装置。

【請求項10】

請求項９に記載の音声入力装置において、
前記起動要求部は、前記ユーザと当該音声入力装置との距離が前記監視距離よりも遠くなると前記認識プロセスを停止させる停止要求を送信する音声入力装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演算装置、記録媒体、および音声入力装置に関する。

【背景技術】

【0002】

少子高齢化や働き方改革により、人と対話可能な大量のロボットを安価に提供することが求められている。ロボットが人へ満足度の高い音声対話を提供するには、迅速な応答速度と高精度の認識率が必要となる。この実現のために、ロボットに対してユーザが話しかけた際に音声認識プロセスを起動する方式が考えられる。しかし、音声認識プロセスは、発話による音声を高精度に文字に変換するための容量の大きい言語モデルを有しており、起動に数秒の時間を要してしまう。そのため、ユーザの発話を契機に音声認識プロセスを起動するとユーザの音声認識開始までに待ち時間が発生し、結果的にユーザへの応答が遅延するため、ユーザの満足度が低下する問題を有する。
特許文献１には、音声出力部を備えたコミュニケーションロボットであって、被写体を撮影して撮影画像を生成する撮影部と、前記撮影部によって得られた撮影画像に基づいて、発話対象者を特定する対象者特定手段と、前記コミュニケーションロボットの配置位置周辺の混雑度を判定する混雑度判定手段と、前記混雑度判定手段による判定結果に応じて所定の処理を行うとともに、前記対象者特定手段により特定した前記発話対象者に対する発話データを、前記音声出力部から出力する発話手段と、を備えるコミュニケーションロボットが開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１８－１４９６２５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１に記載されている発明では、音声認識プロセスを起動するタイミングに改善の余地がある。

【課題を解決するための手段】

【0005】

本発明の第１の態様による演算装置は、ユーザとの音声対話が発生する可能性を示すリソース制御情報、および音声情報を送信する複数のロボットと通信するサーバ通信部と、前記ロボットから受信する前記音声情報を文字情報に変換する認識プロセスを複数実行可能な音声認識部と、前記ロボットから受信する前記リソース制御情報を用いて前記認識プロセスの起動数を管理し、前記認識プロセスの起動および停止を行うプロセス制御部とを備える。
本発明の第２の態様による記録媒体は、以下のプログラムを記録したコンピュータ読み取り可能な記録媒体であり、プログラムは、ユーザとの音声対話が発生する可能性を示すリソース制御情報、および音声情報を送信する複数のロボットと通信するサーバ通信部を備えるコンピュータに、前記ロボットから受信する前記音声情報を文字情報に変換する認識プロセスを複数実行可能な音声認識処理と、前記ロボットから受信する前記リソース制御情報を用いて前記認識プロセスの起動数を管理し、前記認識プロセスの起動および停止を行うプロセス制御処理と、を実行させる。
本発明の第３の態様による音声入力装置は、受信した音声情報を文字情報に変換する認識プロセスを複数実行可能な音声認識部を備える演算装置と通信可能なロボット通信部と、ユーザとの距離に基づき前記演算装置に前記認識プロセスの起動を要求する起動要求を送信する起動要求部と、前記ユーザの発話を録音し前記音声情報として前記演算装置に送信する送信部と、を備える音声入力装置であって、前記認識プロセスの起動時間、および前記ユーザと当該音声入力装置との相対速度の積を監視距離として算出する距離決定部をさらに備え、前記起動要求部は、前記ユーザと当該音声入力装置との距離が前記監視距離以下の場合に前記起動要求を送信する。

【発明の効果】

【0006】

本発明によれば、ユーザがロボットに近づくと音声認識プロセスが起動されるので、ユーザが発話してから音声認識が開始されるまでの時間を短縮できる。

【図面の簡単な説明】

【0007】

【図1】音声認識システムの全体を示す概要図

【図2】ロボットの構成図

【図3】演算装置と入出力装置の関係を示す図

【図4】演算装置の構成を示す図

【図5】演算装置を実現するコンピュータのハードウエア構成を示す図

【図6】音声認識部の構成の一例を示す図

【図7】待機管理テーブルの一例を示す図

【図8】数管理テーブルの一例を示す図

【図9】割当管理テーブルの一例を示す図

【図10】起動要求部の処理を示すフローチャート

【図11】図１０のユーザ検出処理の詳細を示すフローチャート

【図12】割当要求部の処理を示すフローチャート

【図13】プロセス制御部の処理を示すフローチャート

【図14】図１３のステップＳ１３０１において肯定判断される場合に実行される処理を示すフローチャート

【図15】プロセス停止部の処理を示すフローチャート

【図16】第２の実施の形態におけるロボットの構成図

【図17】第２の実施の形態における演算装置の構成図

【図18】第３の実施の形態における距離決定部の処理を示すフローチャート

【発明を実施するための形態】

【0008】

―第１の実施の形態―
以下、図１～図１５を参照して、音声認識システムの第１の実施の形態を説明する。

【0009】

図１は第１の実施の形態における音声認識システムの全体を示す概要図である。音声認識システムＳは、複数のロボット２００と、後に詳述する音声認識部６００を備える演算装置４００とを含んで構成される。なお以下では、複数のロボット２００のそれぞれを区別するために、枝番を付してロボット２００－１、ロボット２００－２、などと呼ぶ。ロボット２００の数は複数であればよいため、図１では「ｎ」個から構成されるとしてロボット２００－ｎまでを記載している。

【0010】

複数のロボット２００のそれぞれは、演算装置４００と通信を行う。この通信はたとえば、通信の効率化のためにルータ１２０により集約されて行われる。ルータ１２０と演算装置４００は、ネットワーク１１０を介して接続される。ただしルータ１２０と演算装置４００はネットワーク１１０を介さずに通信を行ってもよい。

【0011】

ロボット２００およびルータ１２０は、テナント１００に設置される。テナント１００とは、ビルや商業施設などである。演算装置４００は、ネットワーク上のクラウド３００に設置される。クラウド３００とは、ネットワークで接続された１または複数の地点を指す抽象的な概念である。本実施の形態では図１に示す構成を前提として説明するが、ロボット２００および演算装置４００が同一のロケーション、たとえば同一の建物内や同一の室内に存在してもよい。また、テナント１００やクラウド３００は単なる例示である。

【0012】

本実施の形態では、ロボット２００の周囲に存在する人間を「ユーザ」と呼ぶ。ユーザはロボット２００に近づいて発話を行い、ロボット２００はユーザの発話に対応する行動を行う。詳述すると、ロボット２００はユーザの発話を音声データとして記録し、演算装置４００を用いて音声データをテキストデータに変換し、そのテキストデータを解釈することでユーザの発話に対応する行動を行う。

【0013】

図２はロボット２００－１の構成図である。ロボット２００－１～２００－ｎは同じ構成を有するので、ここでは代表してロボット２００－１の構成を説明する。ただし図２では、ハードウエア構成、機能構成、および情報が混在して記載されている。ロボット２００－１は、ハードウエア構成として、通信インタフェース部２０１、距離センサ２０２、マイク２０３、およびスピーカー２０４を備える。ロボット２００－１は、機能構成として動作指示解析部２０５、ロボット動作制御部２０６、データ送受信部２０７、距離決定部２０８、起動要求部２０９、および割当要求部２１０を備える。ロボット２００－１は、センサ情報２１１、音声情報２１２、人歩行速度情報２１３、およびテナント地図情報２１４の情報を有する。

【0014】

ロボット２００－１のハードウエア構成を説明する。通信インタフェース部２０１は、演算装置４００との通信を行う通信モジュールである。ロボット２００－１は距離センサ２０２を用いて周囲のユーザとの距離情報を取得し、センサ情報２１１として保存する。距離センサ２０２はたとえば、奥行き（Ｄｅｐｔｈ）情報が付加されたカラー、すなわちＲＧＢの情報である三次元点群を取得するＲＧＢ－Ｄセンサである。ただし距離センサ２０２はこれに限定されない。また、ロボット内部に含まれるセンサのみに限定されず、例えば外部に設置された監視カメラをセンサとして情報を取得してもよい。

【0015】

マイク２０３は、ユーザがロボット２００－１に対して発話した音声を録音し、音声情報２１２として保存する。ロボット２００－１はデータ送受信部２０７を介して演算装置４００と通信を行い、取得したデータを送信、または演算装置４００から送られたデータを受信する。スピーカー２０４は演算装置４００から送られてきた発話音声情報を再生する。以上がロボット２００－１のハードウエア構成の説明である。

【0016】

ロボット２００－１の機能構成を説明する。ロボット２００－１が有する機能である動作指示解析部２０５、ロボット動作制御部２０６、データ送受信部２０７、距離決定部２０８、起動要求部２０９、および割当要求部２１０は、たとえば不図示のＲＯＭに格納されるプログラムをＲＡＭに展開して実行することにより実現される。ただしプログラムは、不図示の不揮発性の記憶装置に格納されていてもよい。また、ロボット２００－１が不図示の入出力インタフェースを備え、必要なときに入出力インタフェースとロボット２００－１が利用可能な媒体を介して、他の装置からプログラムが読み込まれてもよい。ここで媒体とは、たとえば入出力インタフェースに着脱可能な記憶媒体２９１、または通信媒体２９２、すなわち有線、無線、光などのネットワーク、または当該ネットワークを伝搬する搬送波やディジタル信号、を指す。

【0017】

動作指示解析部２０５は、演算装置４００から送られてきた動作指示を解析してロボット２００が解釈できる形式に変換し、ロボット動作制御部２０６に出力する。ロボット動作制御部２０６は、受信した動作指示に従った動作、たとえば表情の変更や移動を行う。データ送受信部２０７は、通信インタフェース部２０１を利用して演算装置４００とのデータの送受信を実現する。距離決定部２０８は、後述する処理で閾値として用いられる距離である監視距離を決定する。この監視距離は次のように利用される。すなわちユーザがロボット２００に対して監視距離よりも近づいた場合に認識プロセス６０１の起動を開始することで、ユーザが発話を開始した際には即座に音声認識を開始することができる。

【0018】

距離決定部２０８は、演算装置４００から受信する認識プロセス６０１の起動に必要な時間であるプロセス起動時間と、ユーザとロボット２００との相対速度とを用いて、監視距離を算出する。ただし本実施の形態ではロボット２００は移動しないので、相対速度の代わりに、予めロボット２００に保存される人歩行速度情報２１３を用いる。たとえば認識プロセス６０１のプロセス起動時間が５秒、ユーザの歩行速度が１秒あたり１ｍの場合に、距離決定部２０８は監視距離を５ｍと決定する。なお、認識プロセス６０１の起動必要時間は予めロボットに保存してあったデータを利用してもよい。

【0019】

起動要求部２０９は、距離決定部２０８から得られた監視距離と、距離センサ２０２で取得したロボット２００－１から周囲のユーザまでの距離情報とを比較する。起動要求部２０９は、ロボット２００－１から監視距離以内にユーザが侵入したと判断する場合に認識プロセス６０１の起動要求を演算装置４００に送信する。なお起動要求は、ユーザとの音声対話が発生する可能性を示す情報とも呼べる。また、起動要求を受信した演算装置４００は認識プロセス６０１の起動のためにリソースの確保を行うので、起動要求はリソース制御情報とも呼べる。

【0020】

また起動要求部２０９は、監視距離以内に存在していたユーザがロボット２００－１から監視距離よりも遠くに移動したと判断する場合に認識プロセス６０１の停止要求を演算装置４００に送信する。割当要求部２１０は、ユーザが発話を開始すると認識プロセス６０１の割当要求を演算装置４００に送信し、ユーザの発話が終了すると認識プロセス６０１の割当解除要求を演算装置４００に送信する。以上がロボット２００－１の機能構成の説明である。

【0021】

ロボット２００－１に格納される情報を説明する。センサ情報２１１は、距離センサ２０２を用いて取得された、周囲のユーザとの距離情報である。音声情報２１２は、マイク２０３を用いて取得された、ユーザがロボット２００－１に対して発話した音声を録音したものである。

【0022】

人歩行速度情報２１３は、ユーザが歩行する速度の情報であり、予め保存される。人歩行速度情報２１３は、予め保存してあるデータだけではなく、距離センサ２０２の出力を解析した結果など、新しく取得した値を利用してもよい。テナント地図情報２１４は、テナント１００における壁、柱、および棚などの固定物の三次元点群の情報である。テナント地図情報２１４は、起動要求部２０９がユーザとロボット２００との距離を判別する際に利用される。以上がロボット２００－１に格納される情報の説明である。

【0023】

図３は演算装置４００と入出力装置の関係を示す図である。クラウド３００にはネットワーク１１０に接続される通信インタフェース部３０１が備えられる。ネットワーク１１０には入力装置３０２および出力装置３０３が接続される。入力装置３０２はたとえば、キーボード、マウス、タッチパネルなどである。出力装置３０３はたとえば、液晶ディスプレイである。オペレータは、入力装置３０２を用いて演算装置４００に動作指令を行い、演算装置４００による演算の結果を出力装置３０３を用いて確認できる。

【0024】

図４は演算装置４００の構成を示す図である。ただし図４には、演算装置４００の機能構成と演算装置４００に格納される情報とが示されている。演算装置４００はその機能として、サーバ通信部４０１、音声認識部６００、対話処理部４０３、音声合成部４０４、指示部４０５、時間測定部４０６、プロセス制御部４０７、プロセス停止部４０８、タスク受付部４０９、およびタスク制御部４１０を備える。演算装置４００には、対話定義情報４１２、動作シナリオ情報４１３、音声認識処理情報４１４、および寿命情報４１５が格納される。

【0025】

演算装置４００が有する機能を説明する。サーバ通信部４０１は通信インタフェース部３０１及びネットワーク１１０を介してロボット２００と相互に通信を行い、音声データ等をやり取りする。音声認識部６００はロボット２００から受信したデータを処理し、音声データをテキストデータへ変換する。音声認識部６００の詳細な構成については後述する。

【0026】

対話処理部４０３は対話定義情報４１２を用いて、音声認識部４０２によって得られたテキストデータに応答するテキストを出力する。音声合成部４０４は、対話処理部４０３によって出力された応答テキストを音声データに変換する。指示部４０５は、音声合成部４０４によって生成されたデータ、および動作シナリオ情報４１３に従ってロボットに発話や動作を実行させる指示を生成する。さらに指示部４０５は、サーバ通信部４０１を介してロボット２００に対して生成した指示を送信する。

【0027】

時間測定部４０６は、認識プロセス６０１に対する起動指示から、認識プロセス６０１による音声認識処理が処理開始できるまでの時間を測定する。この時間については後に具体例を用いて改めて説明する。時間測定部４０６はたとえば、何度か測定を行い最長の時間をプロセス起動時間としてロボット２００に送信する。なおプロセス起動時間は、時間測定部４０６が測定する代わりに、演算装置４００のオペレータが予め測定した値を入力装置３０２から入力して用いてもよい。

【0028】

プロセス制御部４０７はロボット２００から受信した認識プロセス６０１の起動要求、停止要求、割当要求、および割当解除要求にしたがって認識プロセス６０１を制御する。プロセス制御部４０７の動作の詳細は後述する。プロセス停止部４０８は、所定の時間以上停止している認識プロセス６０１を停止させる。タスク受付部４０９は、入力装置３０２を介してロボット２００へユーザからの指示を受け付け、タスク制御部４１０は受け付けた処理を実行する。以上が、演算装置４００が有する機能の説明である。

【0029】

演算装置４００に格納される情報を説明する。対話定義情報４１２は、ユーザとロボット２００との対話を成立させるための複数組の文章である。対話定義情報４１２はたとえば質問と回答の組合せであり、演算装置４００はユーザの発話する質問に対する回答を出力する。動作シナリオ情報４１３には、状況ごとにロボット２００が行うべき動作が記載されている。動作シナリオ情報４１３にはたとえば、ユーザが特定の一連の発話を行った場合に、ロボット２００が特定の動作、たとえば移動およびあらかじめ定められたポーズをとることが記載される。

【0030】

音声認識処理情報４１４には待機管理テーブル７００、数管理テーブル８００、および割当管理テーブル９００が格納される。これらのテーブルについては後述する。寿命情報４１５は、プロセス停止部４０８が認識プロセス６０１を停止する際に参照する起動時間のしきい値である。寿命情報４１５は、管理者により予め登録される。

【0031】

図５は演算装置４００を実現するコンピュータ５００のハードウエア構成を示す図である。演算装置４００は、１または複数のコンピュータ５００により構成される。コンピュータ５００は、ＣＰＵ（Central Processing Unit）に代表される演算装置５０１、ＲＡＭ（Random Access Memory）等のメモリ５０２、入力装置５０３、出力装置５０４、メモリコントローラ５０５、およびＩ／Ｏ（Input／Output）コントローラ５０６を備える。演算装置５０１、メモリ５０２、入力装置５０３、出力装置５０４、およびＩ／Ｏコントローラ５０６は、メモリコントローラ５０５を介して相互に接続される。入力装置５０３はたとえば、キーボード、マウス、タッチパネルなどである。出力装置５０４はたとえば、外部ディスプレイモニタに接続されたビデオグラフィックカードなどである。

【0032】

コンピュータ５００は、演算装置４００の各プログラムがＩ／Ｏコントローラ５０６を介してＳＳＤやＨＤＤ等の外部記憶装置５０８から読み出す。そしてこれらのプログラムを演算装置５０１およびメモリ５０２が協働して実行することにより、演算装置４００の機能が実現される。また、コンピュータ５００が不図示の入出力インタフェースを備え、必要なときに入出力インタフェースとコンピュータ５００が利用可能な媒体を介して、他の装置からプログラムが読み込まれてもよい。ここで媒体とは、たとえば入出力インタフェースに着脱可能な記憶媒体５９１、または通信媒体５９２、すなわち有線、無線、光などのネットワーク、または当該ネットワークを伝搬する搬送波やディジタル信号、を指す。

【0033】

図６は音声認識部６００の構成の一例を示す図である。音声認識部６００は、任意の数の認識プロセス６０１と、言語モデル６０２と、ロードバランサ６０３と、コントローラ６０４とを備える。コントローラ６０４は、プロセス制御部４０７およびプロセス停止部４０８の動作指示に従って認識プロセス６０１の起動および停止を実行する。認識プロセス６０１は、それぞれのロボット２００から受信した音声データをテキストデータに変換する処理を行うプロセスの総称である。本実施の形態では個々の認識プロセス６０１には枝番を付して、認識プロセス６０１－１、認識プロセス６０１－２、・・などと呼ぶ。

【0034】

言語モデル６０２は、音声データをテキストデータに変換するための辞書の役割を有する。ロードバランサ６０３は、ロボット２００から送られてきた音声データを、後述する割当管理テーブル９００を参照していずれかの認識プロセス６０１に送信する。

【0035】

認識プロセス６０１－１の起動を例に、認識プロセス６０１を詳しく説明する。コントローラ６０４は、演算プロセスの起動を指示されると、音声認識処理のプログラムをＲＯＭなどから読みこみ、メモリ５０２に領域を確保して展開し、言語モデル６０２のマウントや各種の初期化処理を実行して認識プロセス６０１－１として動作させる。データの読み込みや各種の初期化処理が完了すると、認識プロセス６０１－１は起動完了となり、任意のロボット２００に対して割り当てが可能となる。

【0036】

認識プロセス６０１－１は、いずれかのロボット２００に対して割り当てられるとそのロボット２００から出力された音声を受け取り、音声認識処理を実行する。コントローラ６０４は、後述する処理により認識プロセス６０１－１を停止させることを決定すると、メモリ５０２に確保した認識プロセス６０１－１の領域を解放する。

【0037】

コントローラ６０４が認識プロセス６０１の起動指示を受けてから、新たな認識プロセス６０１の起動が完了するまでの時間が、時間測定部４０６が計測する時間である。コントローラ６０４は、再び演算プロセスの起動を指示されると、先ほどと同一の音声認識処理のプログラムを読みこみ、メモリ５０２の先ほどとは異なる領域に展開し、認識プロセス６０１－２として動作させる。

【0038】

すなわち認識プロセス６０１－１、認識プロセス６０１－２、・・などのそれぞれは、同一のプログラムコードを用いて生成された、音声認識プログラムの異なる実体である。本実施の形態では、それぞれの認識プロセス６０１には異なるロボット２００からの音声データが入力されるので、音声データが入力された後では、それぞれの認識プロセス６０１のメモリ内の情報は一致しない。

【0039】

認識プロセス６０１－１は、１台のロボット２００から送信された音声データを処理する。認識プロセス６０１－１は、ある１台のロボット２００から送信された音声データの処理が完了すれば、別な１台のロボット２００から送信された音声データの処理は可能である。しかし認識プロセス６０１－１は、同時に２台のロボット２００から送信された音声データは処理できない。

【0040】

コントローラ６０４によるそれぞれの認識プロセス６０１の起動は、それぞれの認識プロセス６０１の「生成」とも呼べる。また、コントローラ６０４によるそれぞれの認識プロセス６０１の停止は、それぞれの認識プロセス６０１の「削除」とも呼べる。それぞれの認識プロセス６０１は、デプロイされたプログラム、インスタンス、プロセス、コンテナ、などとも呼ばれる。認識プロセス６０１は、Ｌｉｎｕｘ（登録商標）のコンテナ技術を用いて実現することもできるし、仮想マシンを用いて実現してもよい。また図６に示す構成は概念的な構成にすぎず、パブリッククラウドのSoftware-as-a-Service（以下、「ＳａａＳ」と記載する）を利用して、それぞれの認識プロセス６０１を個別のインスタンスとして起動してもよい。

【0041】

（データ）
図７は起動中のそれぞれの認識プロセス６０１を管理する待機管理テーブル７００の一例を示す図である。待機管理テーブル７００は複数のレコードから構成され、各レコードは処理ＩＤ７０１、ステータス７０２、および待機時間７０３のフィールドを有する。処理ＩＤ７０１には、それぞれの認識プロセス６０１に割り当てられるユニークなＩＤが格納される。処理ＩＤ７０１に格納する値は、たとえば認識プロセス６０１がプログラムの実行により実現される場合にそのプロセスのプロセスＩＤ番号を用いてもよい。ステータス７０２には、それぞれの認識プロセス６０１の割当状況、つまり現時点で音声認識処理に実際に利用されているか否かを示す情報が格納される。

【0042】

プロセス制御部４０７は、利用可能ないずれかの認識プロセス６０１を、あるロボット２００に占有させるために割当状態に遷移させ、あるロボット２００による音声認識処理が不要になると解除状態に遷移させる。待機時間７０３のフィールドには、それぞれの認識プロセス６０１において、ステータス７０２が待機状態に移行してからの経過時間を示す情報が格納される。図７に示す例では、経過時間そのものを待機時間７０３のフィールドに格納しているが、待機状態に遷移した時刻を格納し、必要な場合に現在時刻と待機時間７０３のフィールドの値とを比較させてもよい。

【0043】

図８はプロセス制御部４０７が使用する数管理テーブル８００の一例を示す図である。数管理テーブル８００は、起動数８０１、割当数８０２、および予約数８０３のフィールドを有するレコードを１つのみ有する。起動数８０１のフィールドには、現在起動しているそれぞれの認識プロセス６０１の数が格納される。割当数８０２のフィールドには、ロボット２００から発行された割当要求に従い割り当てられている認識プロセス６０１の数が格納される。予約数８０３のフィールドには、まだ認識プロセス６０１が割り当てられておらず、短時間のうちに音声認識処理が必要になることが想定されるロボット２００の数が格納される。

【0044】

なお以下では、”起動数８０１のフィールドに格納される値”のことを起動数８０１と呼ぶこともあり、”割当数８０２のフィールドに格納される値”のことを割当数８０２と呼ぶこともあり、”予約数８０３のフィールドに格納される値”のことを予約数８０３と呼ぶこともある。

【0045】

図９はロボットに対する認識プロセス６０１の割当情報を管理する割当管理テーブル９００の一例を示す図である。割当管理テーブル９００は複数のレコードから構成され、各レコードは、割当要求ＩＤ９０１、ロボットＩＤ９０２、および処理ＩＤ７０１のフィールドを有する。処理ＩＤ７０１のフィールドには、図７に例示した待機管理テーブル７００の処理ＩＤ７０１と同様の情報が格納されるのでここでは説明を省略する。

【0046】

割当要求ＩＤ９０１には、それぞれのロボット２００に対して発話を開始した際に発行される割当要求それぞれに設定されるユニークなＩＤが格納される。ロボットＩＤ９０２には、ロボット２００にそれぞれ設定されるユニークなＩＤが格納される。プロセス制御部４０７が割当要求を受信すると、要求元のロボット２００と割り当てる認識プロセス６０１を紐付けて割当要求ＩＤを付与し、割当管理テーブル９００に登録する。

【0047】

（ロボットの処理を示すフローチャート）
図１０～図１２を参照してロボット２００に共通して備えられる各機能の処理を詳しく説明する。ただし図１０～図１２の説明では、特定のロボット２００であるロボット２００－１が各フローチャートを実行するとして説明を行う。

【0048】

図１０は、ロボット２００に備えられる起動要求部２０９の処理を示すフローチャートである。起動要求部２０９は、ロボット２００－１の起動が完了すると処理を開始する。起動要求部２０９は、まずステップＳ１００１において、距離決定部２０８から監視距離の情報、たとえば「５ｍ」を取得する。次にステップＳ１００２では起動要求部２０９は、距離センサ２０２により取得された距離情報を取得する。続くステップＳ１０９１では、後述するユーザ検出処理により、ステップＳ１００１で取得した監視範囲に存在するユーザを検出する。

【0049】

続くステップＳ１００３では起動要求部２０９は、ロボット２００－１から監視距離の範囲にユーザが存在すると判断する場合にはステップＳ１００４へ進む。起動要求部２０９は、ロボット２００－１から監視距離の範囲にユーザがいないと判断する場合にはステップＳ１００２へ戻る。ステップＳ１００４では起動要求部２０９は、演算装置４００に向けて認識プロセス６０１の起動要求を送信する。続くステップＳ１００５では起動要求部２０９は、ステップＳ１００２と同様に距離センサ２０２により取得された距離情報を取得する。続くステップＳ１０９２では起動要求部２０９は、ステップＳ１０９１と同様のユーザ検出処理を行いステップＳ１００６に進む。

【0050】

ステップＳ１００６では起動要求部２０９は、ロボット２００－１から監視距離の範囲にユーザが存在するか否か、換言するとステップＳ１００３において監視範囲内に存在すると判断したユーザが、まだ監視範囲内にとどまっているか否かを判断する。起動要求部２０９は、ユーザが監視範囲内に存在すると判断する場合はステップＳ１００５に戻り、ユーザが監視範囲内に存在しないと判断する場合はステップＳ１００７に進む。ステップＳ１００７では起動要求部２０９は、認識プロセス６０１の停止要求を演算装置４００へ送信する。続くステップＳ１００８では起動要求部２０９は、ロボット２００－１が停止処理中であるか否かを判断し、停止処理中であると判断する場合には図１０に示す処理を終了し、停止処理中ではないと判断する場合にはステップＳ１００２に戻る。

【0051】

図１１は、図１０のステップＳ１０９１やステップＳ１０９２に示したユーザ検出処理の詳細を示すフローチャートである。ステップＳ１１０１では起動要求部２０９は、テナント地図情報２１４の点群情報を取得する。ステップＳ１１０２では起動要求部２０９は、テナント地図情報２１４を基に現在のロボット２００－１の位置を特定する。なおロボット２００－１が移動しない場合は、固定の位置座標を用いてもよい。次にステップＳ１１０３では起動要求部２０９は、距離センサ２０２で取得した三次元点群情報から監視距離の外側に位置する点群を削除する。

【0052】

続くステップＳ１１０４では起動要求部２０９は、テナント地図情報２１４と三次元点群情報とを照らし合わせ、壁や柱などの固定物に相当する点群を削除する。ステップＳ１１０３およびステップＳ１１０４の処理により、ロボット２００－１が取得した点群内に含まれる固定物の情報が削除されるため、監視範囲内にユーザが存在する場合にはその点群のみが残る。ステップＳ１１０５では起動要求部２０９は、ステップＳ１１０４の処理後に点群が残っていると判断する場合にはステップＳ１１０６へ進み、点群が残っていないと判断する場合はステップＳ１１０７に進む。

【0053】

ステップＳ１１０６では起動要求部２０９は、監視範囲内にユーザを検出した旨の検出結果を出力して図１１に示す処理を終了する。ステップＳ１１０７では起動要求部２０９は、監視範囲内にユーザを検出しなかった旨の検出結果を出力して図１１に示す処理を終了する。

【0054】

図１２は割当要求部２１０の処理を示すフローチャートである。割当要求部２１０は、ユーザの発話開始を検出すると図１２に示す処理を実行する。発話の開始はたとえば、マイク２０３に入力される音の大きさがあらかじめ定めた閾値よりも大きくなったことで検出できる。ステップＳ１２０２では起動要求部２０９は、演算装置４００に対して認識プロセス６０１の割当要求を送る。ステップＳ１２０３起動要求部２０９は、ユーザの対話終了を検知したか否かを判断する。

【0055】

対話終了の検知はたとえば、センサを用いてロボット２００－１の正面にいたユーザの移動を検知することや、ユーザの発話終了後に一定時間が経過してもユーザから次の発話がないことの検知で実現できる。起動要求部２０９はユーザの対話終了を検知したと判断する場合にはステップＳ１２０４に進み、ユーザの対話終了を検知していないと判断する場合にはステップＳ１２０３に留まる。ステップＳ１２０４では起動要求部２０９は、演算装置４００に対して認識プロセス６０１の割当解除要求を送信する。

【0056】

なおステップＳ１２０２およびＳ１２０４では、起動要求部２０９が演算装置４００に対して送信する情報には送信元であるロボット２００－１を特定可能な情報が含まれている。たとえば通信プロトコルにＴＣＰ／ＩＰを用いる場合には、ＩＰパケットのヘッダに含まれる送信元のＩＰアドレスがロボット２００－１を示すものであることにより演算装置４００は送信元のロボット２００を特定できる。また通信プロトコルに送信者を特定する情報が含まれないＣＡＮ（登録商標）などの場合には、ロボット２００－１はペイロードにロボット２００－１を示す識別子を追加する。

【0057】

（演算装置の処理を示すフローチャート）
図１３～図１５を参照して演算装置４００が備える機能の処理を詳しく説明する。ただし図１３～図１５の説明では、割当要求、解除要求、起動要求、および停止要求を送信したロボット２００がロボット２００－１であるとして説明する。

【0058】

図１３および図１４は、演算装置４００に含まれるプロセス制御部４０７の処理を示すフローチャートである。演算装置４００は、ロボット２００－１から何らかの要求、具体的には割当要求、解除要求、起動要求、および停止要求のいずれかを受信すると図１３に示す処理を開始する。

【0059】

ステップＳ１３０１では演算装置４００は、受信した要求が割当要求および解除要求のいずれかであると判断すると、「Ａ」に進み図１４に示す処理を実行する。演算装置４００は、受信した要求が割当要求および解除要求のいずれでもないと判断する場合はステップＳ１３０２に進む。ステップＳ１３０２ではプロセス制御部４０７は、受信した要求が起動要求であるか否かを判断し、起動要求であると判断する場合にはステップＳ１３０３に進み、起動要求ではない、すなわち停止要求であると判断する場合はステップＳ１３０８に進む。

【0060】

ステップＳ１３０３ではプロセス制御部４０７は、数管理テーブル８００を読み込み、次に説明する空処理数を算出する。空処理数とは、起動数８０１から割当数８０２および予約数８０３を引いた値である。図８に示す数管理テーブル８００の例では、起動数８０１が「３」、割当数８０２が「１」、予約数８０３が「１」なので、空処理数は、「３」から「２」を引いて「１」となる。続くステップＳ１３０４ではプロセス制御部４０７は、空処理数が１以上であると判断する場合はステップＳ１３０５に進み、空処理数がゼロであると判断する場合はステップＳ１３０６に進む。ステップＳ１３０５ではプロセス制御部４０７は、数管理テーブル８００の予約数８０３を「１」だけ増やして図１３に示す処理を終了する。

【0061】

ステップＳ１３０６ではプロセス制御部４０７は、認識プロセス６０１を起動し、起動した認識プロセス６０１の情報を待機管理テーブル７００に登録する。続くステップＳ１３０７ではプロセス制御部４０７は、数管理テーブル８００の起動数８０１および予約数８０３をそれぞれ「１」だけ増やして図１３に示す処理を終了する。ステップＳ１３０８ではプロセス制御部４０７は、数管理テーブル８００の予約数８０３を「１」だけ減らして図１３に示す処理を終了する。

【0062】

図１４は、図１３においてステップＳ１３０１において肯定判断される場合に実行される「Ａ」の処理を示すフローチャートである。まずステップＳ１４０２ではプロセス制御部４０７は、受信した要求が割当要求であるか否かを判断し、割当要求であると判断する場合にはステップＳ１４０３に進み、割当要求ではない、すなわち割当解除要求であると判断する場合はステップＳ１４０８に進む。ステップＳ１４０３ではプロセス制御部４０７は、待機管理テーブル７００を参照してデータを取得する。

【0063】

続くステップＳ１４０４ではプロセス制御部４０７は、待機管理テーブル７００の中から、ステータス７０２のフィールドの値が「待機」であり、かつ待機時間７０３のフィールドの値が最も小さい、換言すると待機している時間が最も短いレコードを選択する。そしてプロセス制御部４０７は、そのレコードのステータス７０２のフィールドの値を「割当」に変更する。続くステップＳ１４０５ではプロセス制御部４０７は、ステップＳ１４０４で選択したレコードの処理ＩＤ７０１の値で特定される認識プロセス６０１に対して、ロボット２００－１から送信された音声情報を送るようにロードバランサ６０３に指示をする。

【0064】

続くステップＳ１４０６ではプロセス制御部４０７は、割当要求を送信したロボット２００－１のロボットＩＤと、選択した認識プロセス６０１のＩＤとを割当管理テーブル９００の新たなレコードを追加して記録する。最後にステップＳ１４０７においてプロセス制御部４０７は、数管理テーブル８００の割当数８０２の値を「１」増やし、予約数８０３を「１」減らして、図１４に示す処理を終了する。

【0065】

ステップＳ１４０２において否定判断されると実行されるステップＳ１４０８ではプロセス制御部４０７は、割当管理テーブル９００において、割当解除要求を送信したロボット２００－１のロボットＩＤが含まれるレコードを特定する。続くステップＳ１４０９ではプロセス制御部４０７は、ステップＳ１４０８において特定したレコードにおけるステータス７０２のフィールドの値を「待機」に変更し、待機時間７０３のフィールドの値を「０」に変更する。続くステップＳ１４１０ではプロセス制御部４０７は、割当管理テーブル９００から該当の登録を削除する。最後にプロセス制御部４０７は、ステップＳ１４１１にて数管理テーブル８００の割当数８０２を「１」減らし、予約数８０３を「１」増して図１４に示す処理を終了する。

【0066】

図１５はプロセス停止部４０８の処理を示すフローチャートである。プロセス停止部４０８はたとえば、１０秒、１分、１０分などの所定の時間ごとに、図１５に示す処理を実行する。まずステップＳ１５０１ではプロセス停止部４０８は、待機管理テーブル７００の全レコードの待機時間７０３のフィールドの値を読み込む。続くステップＳ１５０２ではプロセス停止部４０８は、ステップＳ１５０１で読み込んだレコードのうち、待機時間７０３のフィールドの値が予め設定された閾値以上の値を有するレコードを特定する。さらにプロセス停止部４０８は、その特定したレコードに記載された処理ＩＤ７０１で特定される認識プロセス６０１を停止させる。

【0067】

続くステップＳ１５０３ではプロセス停止部４０８は、ステップＳ１５０２において停止させた認識プロセス６０１の数だけ、数管理テーブル８００における起動数８０１の値を減らす。最後にステップＳ１５０４においてプロセス停止部４０８は、待機管理テーブル７００からステップＳ１５０２において停止した認識プロセス６０１が記載されているレコードを削除して図１５に示す処理を終了する。

【0068】

上述した第１の実施の形態によれば、次の作用効果が得られる。
（１）演算装置４００は、ユーザとの音声対話が発生する可能性を示すリソース制御情報、および音声情報を送信する複数のロボット２００と通信するサーバ通信部４０１と、ロボット２００から受信する音声情報を文字情報に変換する認識プロセス６０１を複数実行可能な音声認識部６００と、ロボット２００から受信するリソース制御情報を用いて認識プロセス６０１の起動数を管理し、認識プロセス６０１の起動および停止を行うプロセス制御部４０７およびプロセス停止部４０８とを備える。そのため演算装置４００は、ユーザがロボット２００に近づくと認識プロセス６０１が起動されるので、ユーザが発話してから認識プロセス６０１による音声認識が開始されるまでの時間を短縮できる。

【0069】

本実施の形態で説明したように、監視距離は人間の歩行速度を用いて決定しているので、ほとんどのケースでユーザがロボット２００の近くに到着した際には認識プロセス６０１の起動は完了している。しかし途中からユーザがロボット２００に走って近づいた場合や、ユーザが遠くからロボット２００に対して発話を行った場合には、発話が行われるタイミングでは認識プロセス６０１が起動中である可能性もある。しかしそのような場合であっても、すでに認識プロセス６０１の起動は開始されているので、ユーザが発話してから認識プロセス６０１による音声認識が開始されるまでの時間を短縮できる効果を有する。

【0070】

なお、ユーザの存在有無にかかわらず認識プロセス６０１を予め起動しておき、音声情報を受信すると即座に音声認識処理を開始しつつ新たな認識プロセス６０１をさらに起動する手法も考えられる。しかしこの場合は、少なくとも１つの認識プロセス６０１を常にアイドル状態で起動するのでリソースの浪費となる。認識プロセス６０１を実行するコンピュータ５００が、認識プロセス６０１以外のアプリケーションにも利用している場合にはそのアプリケーションが利用可能なリソースを減少させるデメリットがある。また認識プロセス６０１がＳａａＳを利用している場合には、アイドル状態で待機させる認識プロセス６０１の利用料金が余計な支出となるデメリットがある。そのため、このようなデメリットが生じない本実施の形態の手法に優位性がある。

【0071】

（２）リソース制御情報には、ロボット２００がユーザとの距離に基づき出力する認識プロセスの起動要求が含まれる。プロセス制御部４０７は、ロボットが送信する起動要求に基づき認識プロセス６０１を起動し、起動した認識プロセス６０１をロボット２００に割当てることでロボットが送信する音声情報を文字情報に変換する。そのため、すでに起動している認識プロセス６０１をロボット２００－１に割り当てることができるので、ユーザが監視距離のそばなどロボット２００－１から離れた位置から発話した場合にも、即座に音声認識処理を開始することができる。

【0072】

（３）プロセス制御部４０７は、ロボット２００－１から認識プロセス６０１の割当要求を受信した場合に（図１４のＳ１４０２：ＹＥＳ）、ステップＳ１４０３～Ｓ１４０７の処理によりロボット２００－１に認識プロセス６０１を割り当てる。これは割当管理テーブル９００を用いて管理される。

【0073】

（４）プロセス停止部４０８は、ロボット２００－１から認識プロセス６０１の割当解除要求を受信した場合に（図１４のＳ１４０２：ＮＯ）、ステップＳ１４０８～Ｓ１４１１の処理によりロボット２００－１に対する認識プロセス６０１の割当を解除する。

【0074】

（５）音声入力装置でもあるそれぞれのロボット２００は、受信した音声情報を文字情報に変換する認識プロセス６０１を複数実行可能な音声認識部６００を備える演算装置４００と通信可能なデータ送受信部２０７と、ユーザとの距離に基づき演算装置４００に認識プロセス６０１の起動を要求する起動要求を送信する起動要求部２０９と、ユーザの発話を録音し音声情報として演算装置４００に送信するデータ送受信部２０７と、を備える。

【0075】

（６）ロボット２００－１は、認識プロセス６０１の起動時間、およびユーザとロボット２００－１との相対速度の積を監視距離として算出する距離決定部２０８を備える。ただし本実施の形態ではロボット２００は移動しないので、相対速度の代わりに、予めロボット２００に保存される人歩行速度情報２１３を用いる。起動要求部２０９は、図１０のステップＳ１０９１、Ｓ１００３、Ｓ１００４に示すように、ユーザとロボット２００－１との距離が監視距離以下の場合に起動要求を送信する。そのため、ユーザがロボット２００－１に到達するときには認識プロセス６０１の起動が完了しており、即座に音声認識が開始できる。

【0076】

（７）ロボット２００－１の起動要求部２０９は、ステップＳ１０９２、Ｓ１００６、Ｓ１００７に示すように、ユーザとロボット２００－１との距離が監視距離よりも遠くなると認識プロセス６０１を停止させる停止要求を送信する。そのため演算装置４００において認識プロセス６０１のために用いるリソースを適切に節約できる。

【0077】

（変形例１）
上述した第１の実施の形態では、それぞれのロボット２００が演算装置４００に対して割当要求および割当解除要求を送信した。しかしそれぞれのロボット２００は、割当要求および割当解除要求の少なくとも一方を送信しなくてもよい。ロボット２００が割当要求を送信しない場合には、演算装置４００はロボット２００から音声情報を送信するたびに割当管理テーブル９００を参照し、音声情報を送信したロボット２００への認識プロセスの割当の有無を判断する。そして演算装置４００は、音声情報を送信したロボット２００に認識プロセスが割り当てられていないと判断する場合には、割当要求を受信した場合と同様の処理を行う。

【0078】

ロボット２００が割当解除要求を送信しない場合には、演算装置４００は次の処理を行う。すなわち演算装置４００は割当管理テーブル９００を参照し、認識プロセス６０１が割り当てられており、かつ所定時間より長く音声情報を送信していないロボット２００を特定して、そのロボット２００に対する認識プロセス６０１の割り当てを解除する。

【0079】

この変形例１によれば、次の作用効果が得られる。
（８）プロセス制御部４０７は、認識プロセス６０１が割り当てられていないロボット２００から音声情報を受信した場合にロボットに認識プロセスを割り当てる。そのため演算装置４００は自発的に認識プロセス６０１の割り当てを実行することで、ロボット２００の処理負荷を下げることができる。

【0080】

（９）プロセス制御部４０７は、認識プロセス６０１が割り当てられたロボット２００から所定時間より長く音声情報を受信しない場合にロボットに対する認識プロセスの割当を解除する。そのため演算装置４００は自発的に認識プロセス６０１の割り当てを解除することで、ロボット２００の処理負荷を下げることができる。

【0081】

（変形例２）
上述した第１の実施の形態では、演算装置４００はそれぞれのロボット２００に対して１つの認識プロセスのみを割当てた。しかし演算装置４００は、それぞれのロボット２００に対して複数の認識プロセスを割当てもよい。この場合にはそれぞれのロボット２００は、そのロボット２００から監視距離以内に存在するユーザの数に応じて起動要求を送信する。ロボット２００は、音声が発せられる方向ごとに一意な識別子を付して音声情報を演算装置４００に出力してもよい。

【0082】

たとえばロボット２００－１は、左方向と右方向からそれぞれ音声が発せられると、左方向からの音声の音声情報には識別子として「２００－１Ｌ」を付し、右方向からの音声の音声情報には識別子として「２００－１Ｒ」を付して送信する。演算装置４００は、「２００－１Ｌ」と「２００－１Ｒ」の識別子が付された音声情報を、それぞれ異なる認識プロセス６０１に割り振られるようにロードバランサ６０３に設定する。この変形例２によれば、それぞれのロボット２００が複数のユーザから同時に話しかけられた場合にも即座に対応できる利点を有する。

【0083】

（変形例３）
上述した第１の実施の形態では、演算装置４００はロボット２００から認識プロセス６０１の停止要求を受けた場合に、図１３のステップＳ１３０８に示すように予約数８０３を減少させるのみで認識プロセス６０１の停止は行わなかった。しかし演算装置４００のプロセス停止部４０８は、ロボット２００から認識プロセス６０１の停止要求を受けた場合に認識プロセス６０１を停止させてもよい。この場合にプロセス停止部４０８は、待機管理テーブル７００を参照して待機時間７０３が最も長い認識プロセス６０１を停止させることが望ましい。

【0084】

この変形例３によれば、次の作用効果が得られる。
（１０）プロセス停止部４０８は、ロボット２００から認識プロセス６０１を停止する要求を受信した場合に認識プロセス６０１を停止する。そのため、不要な認識プロセス６０１を早期に停止させてリソースをさらに節約できる。

【0085】

―第２の実施の形態―
図１６～図１７を参照して、認識システムの第２の実施の形態を説明する。以下の説明では、第１の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第１の実施の形態と同じである。本実施の形態では、主に、ロボットがセンサ情報をそのまま演算装置に送信する点で、第１の実施の形態と異なる。第２の実施の形態における音声認識システムのハードウエア構成は第１の実施の形態と同様なので説明を省略する。

【0086】

図１６は第２の実施の形態におけるロボット２００－１の構成図であり、第１の実施の形態における図２に対応する。図１６に示す構成は、第１の実施の形態に比べて距離決定部２０８、起動要求部２０９、および割当要求部２１０が含まれない点が異なる。

【0087】

図１７は第２の実施の形態における演算装置４００の構成図であり、第１の実施の形態における図４に対応する。図１７に示す構成は、第１の実施の形態に比べて、距離決定部２０８、起動要求部２０９、割当要求部２１０、およびテナント地図情報２１４をさらに含む点が異なる。

【0088】

本実施の形態ではロボット２００のそれぞれは、センサ情報をそのまま演算装置４００に送信する。センサ情報を受信した演算装置４００は、第１の実施の形態と同様に距離決定部２０８、起動要求部２０９、および割当要求部２１０を動作させることで、認識プロセス６０１の管理を行う。すなわち第２の実施の形態では、演算装置４００は受信するセンサ情報を用いて認識プロセス６０１を制御するので、センサ情報を「リソース制御情報」と呼ぶことができる。

【0089】

上述した第２の実施の形態によれば、次の作用効果が得られる。
（１１）リソース制御情報には、ロボットに搭載されるセンサの出力であるセンサ情報が含まれる。プロセス制御部４０７は、センサ情報を用いてロボット２００から所定の監視距離以内に音声を発話するユーザが存在すると判断する場合に認識プロセス６０１を起動する。そのため、第１の実施の形態に比べてロボット２００の処理負荷を軽減でき、リソースが少なく演算能力が低いハードウエアでも認識システムに用いることができる。

【0090】

（１２）リソース制御情報には、ロボット２００に搭載されるセンサの出力であるセンサ情報が含まれる。プロセス制御部４０７は、ロボット２００から所定の監視距離以内に存在していたユーザが、監視距離よりも遠くに移動したことをセンサ情報を用いて判断する場合に認識プロセスを停止する。そのため、第１の実施の形態に比べてロボット２００の処理負荷を軽減でき、リソースが少なく演算能力が低いハードウエアでも認識システムに用いることができる。

【0091】

（第２の実施の形態の変形例）
ロボット２００－１のプロセス停止部４０８は、センサ情報を用いてユーザとロボット２００－１との距離が、監視距離よりも遠い停止距離よりも遠いと判断する場合に認識プロセス６０１を停止してもよい。たとえば監視距離が１０ｍ、停止距離が１５ｍの場合に、ユーザが遠方からロボット２００－１に近づき、１０ｍ以内になると１つの認識プロセス６０１が新たに起動され、そのユーザが１５ｍよりも遠くに移動すると１つの認識プロセス６０１が停止される。このとき停止される認識プロセス６０１は、待機時間が最も長い認識プロセス６０１である。

【0092】

―第３の実施の形態―
図１８を参照して、認識システムの第３の実施の形態を説明する。以下の説明では、第１の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第１の実施の形態と同じである。本実施の形態では、主に、ロボットが移動する点で、第１の実施の形態と異なる。

【0093】

音声認識システムＳのハードウエア構成および機能構成は、距離決定部２０８を除いて第１の実施の形態と同様である。そのため距離決定部２０８の動作のみを説明する。

【0094】

図１８は、第３の実施の形態における距離決定部２０８の処理を示すフローチャートである。以下では、ロボット２００－１が実行する距離決定部２０８の処理を説明する。ステップＳ１８０１では距離決定部２０８は、予め保存されている情報である人歩行速度情報２１３を読み込む。続くステップＳ１８０２では距離決定部２０８は、演算装置４００からプロセス起動時間の情報を取得する。続くステップＳ１８０３では距離決定部２０８は、監視距離算出要求が発生した時点でのロボット２００－１の移動速度を算出する。ロボット２００－１の移動速度の算出は様々な手段を利用できるが、一例を挙げるとロボット２００－１に付随する車輪の回転速度から算出することができる。

【0095】

ステップＳ１８０４では距離決定部２０８は、プロセス起動時間、人歩行速度、およびロボット移動速度を用いて監視距離を算出する。プロセス起動時間が５秒、人歩行速度が毎秒１ｍ、ロボット移動速度が毎秒０．５ｍだった場合は、（１ｍ毎秒＋０．５ｍ毎秒）×５秒となり、監視距離は７．５ｍとなる。ただしこの場合に、ユーザおよびロボット２００－１の進行方向を考慮して両者のベクトル和を相対速度としてもよいし、計算を簡略化し、かつ認識プロセス６０１の起動遅れを防止するために、両者の進行方向を考慮せずに両者の速度の和を相対速度としてもよい。

【0096】

上述した第３の実施の形態によれば、次の作用効果が得られる。
（１３）ロボット２００－１は、認識プロセス６０１の起動時間、およびユーザとロボット２００－１との相対速度の積を監視距離として算出する距離決定部２０８を備える。そのため、それぞれのロボット２００の移動速度を考慮することにより、それぞれのロボット２００が移動している場合でもユーザが発話する時点で音声認識処理を起動完了状態にすることができる。

【0097】

上述した各実施の形態および変形例において、機能ブロックの構成は一例に過ぎない。別々の機能ブロックとして示したいくつかの機能構成を一体に構成してもよいし、１つの機能ブロック図で表した構成を２以上の機能に分割してもよい。また各機能ブロックが有する機能の一部を他の機能ブロックが備える構成としてもよい。特にプロセス制御部４０７およびプロセス停止部４０８は、両者の機能を併せ持つ１つの機能ブロックに統合してもよい。

【0098】

上述した各実施の形態および変形例において、ロボットおよび演算装置が実行するプログラムは不図示のＲＯＭに格納されるとしたが、プログラムは不揮発性の記憶領域に格納されていてもよい。また、ロボットおよび演算装置が不図示の入出力インタフェースを備え、必要なときに入出力インタフェースとロボットおよび演算装置が利用可能な媒体を介して、他の装置からプログラムが読み込まれてもよい。ここで媒体とは、例えば入出力インタフェースに着脱可能な記憶媒体、または通信媒体、すなわち有線、無線、光などのネットワーク、または当該ネットワークを伝搬する搬送波やディジタル信号、を指す。また、プログラムにより実現される機能の一部または全部がハードウエア回路やＦＰＧＡにより実現されてもよい。

【0099】

上述した各実施の形態および変形例は、それぞれ組み合わせてもよい。上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。

【符号の説明】

【0100】

２００…ロボット
２０８…距離決定部
２０９…起動要求部
２１０…割当要求部
２１３…人歩行速度情報
４００…演算装置
４０１…サーバ通信部
４０２…音声認識部
４０７…プロセス制御部
４０８…プロセス停止部
６０１…認識プロセス
７００…待機管理テーブル
８００…数管理テーブル
９００…割当管理テーブル

【図1】