(58)【調査した分野】(Int.Cl.,DB名)
判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替手段を備え、
上記回答方針切替手段は、
上記音データの音量が、第1の所定の音量範囲よりも音量が低い第2の所定の音量範囲に含まれる場合、上記ユーザへの回答方針として、返答しないか、又はユーザへ会話を促す回答を行うかを所定の確率で決定する、
ことを特徴とするサーバ。
上記回答方針切替手段は、上記認識確度が第1の所定の認識確度範囲内であって、当該第1の所定の認識確度範囲において相対的に認識確度が高い範囲を示す第2の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、
上記認識できた場合の処理として、上記回答方針切替手段は、
上記認識内容に対する回答内容が1対1または1対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、
を参照する、ことを特徴とする請求項3に記載のサーバ。
上記回答方針切替手段は、参照するデータベースから上記ユーザに対する回答を示す回答データをランダムに選択する、ことを特徴とする請求項2から5の何れか1項に記載のサーバ。
判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替工程を含み、
上記回答方針切替工程では、
上記音データの音量が、第1の所定の音量範囲よりも音量が低い第2の所定の音量範囲に含まれる場合、上記ユーザへの回答方針として、返答しないか、又はユーザへ会話を促す回答を行うかを所定の確率で決定する、
ことを特徴とする発話制御方法。
【発明を実施するための形態】
【0014】
<実施形態1>
本実施形態に係る発話システム1について、
図1から
図7を参照して以下に説明する。但し、この実施形態に記載されている構成は、特に特定的な記載がない限り、この発明の範囲をそれのみに限定する趣旨ではなく、単なる説明例に過ぎない。
【0015】
〔発話システムの概要〕
まず、本実施形態に発話システム1の概要について、
図2を参照して説明する。
図2は、本実施形態に係る発話システム1の概要を示す外観図である。
【0016】
図2に示すように、本実施形態に係る発話システム1は、掃除ロボット(発話装置)10、及び、サーバ20により構成されている。
【0017】
発話システム1は、掃除ロボット10に人間(ユーザ)が発した音声が入力されると、サーバ20において決定される、入力された音声に対する返答内容を表す音声(以降では、「返答音声」とも記載)を、掃除ロボット10から出力する。これによって、本実施形態に係る発話システム1は、ユーザと、掃除ロボット10との疑似的な会話を実現する。
【0018】
なお、本実施形態では、ユーザに対して返答音声を出力する音声出力装置として掃除ロボット10を例に挙げて説明するが、本発明はこれに限定されるものではない。例えば、音声出力機能を有する人形や、掃除ロボット10以外の家電(例えば、テレビ、電子レンジなど)などを、音声出力装置として採用することもできる。
【0019】
また、本実施形態では、サーバ20が1つのサーバによって実現される構成を例に挙げて説明するが、本発明はこれに限定されるものではなく、サーバ20の備える各部(各機能)の少なくとも一部を、他のサーバにより実現する構成を採用してもよい。
【0020】
次に、本実施形態に係る発話システム1の要部構成について、
図1を参照して説明する。
図1は、本実施形態に係る発話システム1の要部構成を示すブロック図である。
【0021】
〔掃除ロボット〕
本実施形態に係る掃除ロボット10の構成について、
図1を参照して説明する。
図1に示すように、本実施形態に係る掃除ロボット10は、通信部(音声データ送信部、回答データ受信部)101、制御部102、マイク103、スピーカ(回答出力部)104、掃除部105、及び、駆動部106を備えている。
【0022】
(通信部)
通信部101は、外部との通信を行う手段である。具体的には、通信部101は、サーバ20と、例えばインターネットなどのネットワークを介して無線通信を行う。
【0023】
(マイク)
マイク103は、外部から音の入力を受け付ける。なお、本実施形態では、マイク103が入力を受け付ける音を示す「音データ」には、主に人間の発する音声の周波数帯域に含まれる音のデータ(以降では、「音声データ」とも記載する)、及び、音声データの周波数帯域以外の周波数帯域を含む音のデータ(以降では、「その他の音データ」とも記載する)とが含まれる。
【0024】
マイク103は、入力された音を示す音データを、制御部102に逐次供給する。
【0025】
(スピーカ)
スピーカ104は、制御部102から供給される返答内容データの示す返答内容を表す返答音声を出力する。以降では、掃除ロボット10がスピーカ104を介して行う返答音声の出力を、「発話」とも記載する。なお、返答内容の詳細については、後述する。
【0026】
(掃除部、駆動部)
掃除部105は、制御部102からの指示に基づいて、掃除機としての機能を実現する。また、駆動部106は、制御部102からの指示に基づいて、掃除ロボット10を移動させる。
【0027】
掃除部105および駆動部106が共同して動作することによって、掃除ロボット10は、自動的に部屋の掃除を行うことができる。
【0028】
(制御部)
制御部102は、掃除ロボット10の各部を統括的に制御する。具体的には、制御部102は、掃除部105及び駆動部106を制御することにより、掃除ロボット10の掃除動作を制御する。また、制御部102は、マイク103によって外部から取得された音を示す音データを、通信部101を介してサーバ20に逐次送信する。
【0029】
制御部102の機能は、例えば、RAM(Random Access Memory)及びフラッシュメモリなどの記憶装置に記憶されたプログラムを、CPU(Central Processing Unit)が実行することによって実現される(何れも不図示)。
【0030】
また、制御部102は、サーバ20から通信部101を介して返答内容データを取得する。そして、制御部102は、取得した返答内容データの示す返答内容を表す音声が出力されるよう、スピーカ104を制御(駆動)する。
【0031】
〔サーバ〕
次に、本実施形態に係るサーバ20の構成について、
図1を参照して説明する。
図1に示すように、本実施形態に係るサーバ20は、通信部(音声データ受信部)201、制御部202、及び、記憶部203を備えている。
【0032】
(通信部)
通信部201は、外部との通信を行う手段である。具体的には、通信部201は、掃除ロボット10と、例えばインターネットなどのネットワークを介して無線通信を行う。
【0033】
(制御部)
制御部202は、サーバ20の各部を統括的に制御する。制御部202の機能は、例えば、RAM(Random Access Memory)及びフラッシュメモリなどの記憶装置に記憶されたプログラムを、CPU(Central Processing Unit)が実行することによって実現される(何れも不図示)。
【0034】
なお、制御部202の構成の詳細については、後述する。
【0035】
(記憶部)
記憶部203は、後述する制御部202において参照される各種のデータが格納されている。各種のデータとしては、例えば、確度判定部224によって参照される、所定の言葉を示す音声波形モデル(不図示)、並びに、返答制御部225によって参照される、返答方針テーブル(不図示)、通常返答データベース231、曖昧返答データベース232及び促し返答データベース233などが格納されている。
【0036】
なお、返答方針テーブル、及び、各データベース231〜233の詳細については、図面を変えて後述する。
【0037】
〔制御部の構成〕
次に、サーバ20の備える制御部202の構成について、
図1を参照して説明する。制御部202は、
図1に示すように、音声検出部221(抽出部)、音量判定部(音量判定手段)222、音声認識部(認識確度判定手段)223、確度判定部(認識確度判定手段)224、及び、返答制御部(回答送信手段、回答方針切替手段)225を備えている。
【0038】
(音声検出部)
音声検出部221は、掃除ロボット10から送信される音データから、音声データを検出(抽出)する。換言すれば、音声検出部221は、外部から受信した音データから、人間の発する音声の周波数帯域を抽出することによって、後述する音量判定部222において判定対象となる音データ(音声データ)を生成する抽出手段として機能する。
【0039】
音声検出部221における、音データから音声データを検出する方法としては、例えば、音データから人間の発する音声の周波数帯域(例えば、100Hz以上かつ1kHz以下の周波数帯域)を抽出することによって音声データを検出する方法を挙げることができる。この場合には、音声検出部221は、音データから人間の発する音声の周波数帯域を抽出するために、例えば、バンドパスフィルタ、又は、ハイパスフィルタ及びローパスフィルタを組み合わせたフィルタなどを備えていればよい。
【0040】
音声検出部221は、音データから検出した音声データを、音量判定部222、及び、音声認識部223に供給する。
【0041】
(音量判定部)
音量判定部222は、音声検出部221によって検出された音声データ(判断対象となる音データ)の示す音声の音量を判定する。具体的には、音量判定部222は、まず、音声の音量を示す値と、2つの閾値(閾値a(第2の音量閾値)及び閾値b(第1の音量閾値)、閾値a>閾値b)とを比較する。そして、音量判定部222は、音声の音量が(1)音量>閾値a、(2)閾値a≧音量≧閾値b、又は(3)閾値b>音量の、何れの範囲に属しているかを判定する。なお、(2)の範囲は、第1の音量閾値(閾値b)以上、第2の音量閾値(閾値a)以下である音量範囲に相当する。換言すると、音量判定部222は、音声データの示す音声の音量が、第1の所定の音量範囲内(閾値a≧音量≧閾値b)に含まれるか否か、および、第1の所定の音量範囲よりも音量が低い第2の所定の音量範囲内(閾値b>音量)に含まれるか否かを判定する。
【0042】
なお、閾値aの値は「−20dB」であり、閾値bの値は「−39dB」であることが好ましいが、本発明はこれらの値に限定されるものではない。閾値aとしては、人間が通常発する音声の音量の最大値を設定し、閾値bとしては、人間が通常発する音声の音量の最小値を設定すればよい。これにより、例えば、人間の発する音声の周波数帯域と近い周波数帯域を含む音(例えば、犬が吠えたときの音(一般的に、450Hz〜1.1kHz)が掃除ロボット10から供給され、音声検出部221によって人間の発する音声として検出された場合であっても、より正確に人間の発する音声であるか否かを判定することができる。
【0043】
また、本実施形態では、判断対象となる音データが音声データである場合を例に挙げて説明しているが、本発明はこれに限定されるものではない。例えば、音量判定部222は、掃除ロボット10から取得した音データを、そのまま判断対象となる音データとして用いることもできる。
【0044】
音量判定部222は、音声の音量の判定結果を、返答制御部225に供給する。
【0045】
(音声認識部)
音声認識部223は、音声検出部221によって検出された音声データの示す音声の内容(音声内容)を認識内容として認識する。そして、音声認識部223は、音声データから認識した音声内容の認識結果を、確度判定部224に供給する。
【0046】
(確度判定部)
確度判定部224は、音声認識部223から供給された音声内容の認識結果の確からしさ(換言すれば、音声内容を認識する認識処理の確からしさ)を示す認識確度を判定する。つまり、確度判定部224は、音声認識部223と共に、認識確度判定手段として機能する。
【0047】
具体的には、確度判定部224は、音声内容の認識結果の確度と、2つの閾値(閾値c(第1の確度閾値)及び閾値d(第2の確度閾値)、閾値c>閾値d)とを比較する。そして、確度判定部224は、認識結果の確度が、(A)閾値c≦認識確度、(B)閾値d≦認識確度<閾値c、又は(C)認識確度<閾値dの何れの範囲に属しているかを判定する。なお、(B)の範囲は、第1の確度閾値(閾値c)より小さく、第2の確度閾値(閾値d)以上である確度範囲に相当する。
【0048】
なお、認識確度の最小値を「0」とし、最大値を「1」とした場合、閾値cの値は「0.6」であり、閾値dの値は「0.43」であることが好ましいが、本発明はこれらの値に限定されるものではない。
【0049】
ここで、確度判定部224における認識結果の認識確度の判定方法としては、例えば、予め複数用意されている、所定の言葉(フレーズ)を示す音声波形モデル(音響モデル)と音声データの示す波形との一致度を判定し、最も高い一致度を認識確度とする判定方法などを用いることができる。なお、本発明はこれに限定されるものではなく、例えば、パターンマッチングなどを用いることもできる。
【0050】
確度判定部224は、認識確度の判定結果を、音声認識部223から供給された音声内容の認識結果と共に、返答制御部225に供給する。
【0051】
(返答制御部)
返答制御部225は、音量判定部222から供給される音声の音量の判定結果と、確度判定部224から供給される認識確度の判定結果とに基づいて、返答内容を決定する。換言すると、返答制御部225は、音声認識部223から供給された音声内容を認識できた場合と、当該音声内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える。
【0052】
具体的には、返答制御部225は、後述する返答方針テーブルを参照し、音量の判定結果が上記(1)〜(3)の何れの範囲に属するか、及び、認識確度の判定結果が上記(A)〜(C)の何れの範囲に属するかに基づいて音声データの示す音声内容に対する返答の方針(返答方針)を決定する。そして、返答制御部225は、記憶部203に格納されている各データベース231〜233を参照し、決定した返答方針に沿った返答内容を決定する。なお、返答方針テーブルを参照して行われる返答制御部225における返答方針の決定、及び、記憶部203に格納されているデータベースの詳細については、図面を変えて後述する。
【0053】
なお、詳細については後述するが、本実施形態では、返答制御部225において決定される返答方針には、認識内容に対して正常に返答する「通常返答」、認識内容に対して曖昧に返答する「曖昧返答」、ユーザに会話(発言)を促す「会話促し」、及び、返答をしない「返答なし」がある。
【0054】
返答制御部225は、返答内容を決定すると、決定した返答内容を示す返答内容データを、通信部201を介して掃除ロボット10に送信する。
【0055】
なお、本実施形態では、返答制御部225が、音声の音量の判定結果と認識確度の判定結果とに基づいて返答内容を決定する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、返答制御部225は、音声認識部223から供給された音声内容の認識結果に基づいて返答内容を決定してもよい。また、返答制御部225は、音量の判定結果及び音声内容の認識結果に基づいて返答内容を決定してもよいし、認識確度の判定結果及び音声内容の認識結果に基づいて返答内容を決定してもよい。
【0056】
〔返答音声出力処理〕
次に、本実施形態に係る発話システム1における返答音声出力処理(発話制御方法)について、
図3を参照して説明する。
図3は、本実施形態に係る発話システム1における返答音声出力処理の流れを示すシーケンス図である。
【0057】
ステップS101:
図3に示すように、まず、発話システム1の掃除ロボット10の備えるマイク103は、外部からの音の入力を受け付ける。
【0058】
ステップS102:マイク103において音の入力を受け付けると、制御部102は、入力された音声を示す音データを、通信部101を介してサーバ20に送信する。
【0059】
ステップS103:掃除ロボット10から通信部201を介して音データを取得すると、サーバ20の制御部202の備える音声検出部221は、取得した音データから、音声データを検出する。音声データを検出すると、音声検出部221は、検出した音声データを音量判定部222及び音声認識部223に供給する。
【0060】
ステップS104:音量判定部222は、音声データを取得すると、取得した音声データの示す音声の音量を判定する。具体的には、音量判定部222は、音声データの示す音声の音量と、閾値a及び閾値bとを比較し、音声の音量が上述した(1)〜(3)の何れの範囲に属しているかを判定し、判定結果を返答制御部225に供給する。
【0061】
ステップS105:音声認識部223は、音声データを取得すると、取得した音声データの示す音声の内容を認識する。音声認識部223は、音声内容の認識結果を確度判定部224に供給する。
【0062】
ステップS106:音声内容の認識結果を取得すると、確度判定部224は、取得した音声内容の認識結果の確度を判定する。具体的には、確度判定部224は、音声内容の認識結果の確度が、上述した(A)〜(C)の何れの範囲に属しているかを判定し、判定結果を返答制御部225に供給する。
【0063】
ステップS107(回答方針切替工程):返答制御部225は、音量判定部222から取得した音声の音量の判定結果、及び、確度判定部224から取得した確度の判定結果に基づき、返答方針及び返答内容を決定する。
【0064】
ステップS108(回答送信工程):返答制御部225において返答内容が決定されると、制御部202は、決定された返答内容を示す返答内容データを、通信部201を介して掃除ロボット10に送信する。
【0065】
ステップS109:掃除ロボット10の制御部102は、通信部101を介して返答内容データを受信すると、受信した返答内容データの示す返答音声を、スピーカ104を介して出力する。
【0066】
上述のように、発話システム1において返答音声出力処理が実行されることによって、掃除ロボット10は、人間の発した音声に対して返答するように発話する。
【0067】
〔返答方針テーブル〕
ここで、返答方針テーブルを参照して行われる返答制御部225における返答方針の決定について、
図4から
図7を参照して説明する。
図4は、本実施形態に係るサーバ20の記憶部203に格納されている返答方針テーブルの一例を示す。
【0068】
図5は、本実施形態に係るサーバ20の記憶部203に格納されている通常返答データベース231の一例を示す図である。
図6は、本実施形態に係るサーバ20の記憶部203に格納されている曖昧返答データベース232の一例を示す図である。また、
図7は、本実施形態に係るサーバ20の記憶部203に格納されている促し返答データベース233の一例を示す図である。
【0069】
図4に示すように、返答制御部225は、音声の音量の判定結果が、音量>閾値aである場合(すなわち、上述の(1)の場合)、認識確度の判定結果に関わらず、応答方針を「返答なし」に決定する。
【0070】
また、返答制御部225は、音声の音量の判定結果が、閾値b>音量である場合(すなわち、上述の(3)の場合、第2の所定の音量範囲内に含まれる場合)、認識確度の判定結果に関わらず、応答方針を「返答なし」又は「会話促し」に決定する。
【0071】
そして、返答制御部225は、音声の音量の判定結果が(3)の場合、所定の確率で応答方針を「会話促し」に決定する。換言すれば、音量判定部222によって判定された音声の音量が閾値bより小さい場合、返答制御部225は、会話を促すフレーズ(会話を促す内容を示す回答データ)(詳細については後述する)を、所定の確率で送信する。なお、本実施形態では、所定の確率は、1/10であることが好ましいが、例えば、1/100であってもよく、本発明においては特に限定されるものではない。
【0072】
また、返答制御部225は、音声の音量の判定結果が、閾値a≧音量≧閾値bである場合(すなわち、上述の(2)の場合、第1の所定の音量範囲内に含まれる場合)には、認識確度の判定結果に応じて応答方針を決定する。換言すると、返答制御部225は、音声が示す内容を認識できた場合と、認識できなかった場合とで、応答方針(回答方針)を切り替える。
【0073】
より具体的には、認識確度の判定結果が閾値d≦認識確度の場合(認識確度が第1の所定の認識確度範囲内に含まれる場合)、音声が示す内容を認識できた場合として、応答方針を「通常返答」または「曖昧返答」に決定する。より詳細には、認識確度の判定結果が、閾値c≦認識確度(すなわち、上記(A))の場合(認識確度が第1の所定の認識確度範囲内であって、当該第1の所定の認識確度範囲において相対的に認識確度が高い範囲を示す第2の所定の認識確度範囲内に含まれる場合)、応答方針を「通常返答」に決定し、閾値d≦認識確度<閾値c(すなわち、上記(B))の場合、応答方針を「曖昧返答」に決定し、認識確度<閾値dすなわち、上記(C))の場合、応答方針を「返答なし」に決定する。このように、返答制御部225は、音声が示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更する。
【0074】
また、閾値d≦認識確度<閾値c(すなわち、上記(B))の場合、返答制御部225は、応答方針を「曖昧返答」に決定するため、「音声が示す内容を認識できなかった場合」と表現することもできる。換言すると、返答制御部225は、音声が示す内容を認識できなかった場合、当該音声が示す内容に対する回答内容が1対1または1対多に定まらないフレーズを含むデータベース(曖昧返答データベース)を参照する構成であってもよい。
【0075】
ここで、「通常返答」とは、認識内容に対して正常に返答する返答方針である。より具体的には、「通常返答」とは、認識内容に対して返答内容が1対1(又は、1対多)に定まるフレーズであって認識内容に対応した(換言すれば、認識内容に関連した)フレーズ(通常返答フレーズ)を返答内容として返答する応答方針である。
【0076】
返答制御部225は、返答方針を通常返答に決定した場合には、例えば、
図5に示すように、認識内容(
図5における「認識フレーズ」)が「今日は怒られたよ」であるとき、「大変だったねぇ」、「忘れちゃおう」、「怒られちゃったの?元気出して?」、及び、「そうなんだぁ」のうち、何れか1つ又は複数のフレーズ(
図5における「回答フレーズ」)を返答内容として決定すればよい。
【0077】
なお、
図5に、本実施形態に係るサーバ20の備える記憶部203に格納されている通常返答データベース231の一例を示している。
図5に示すように、通常返答データベース231には、認識内容(認識フレーズ)と返答内容(回答フレーズ)とが関連付けられて格納されている。
【0078】
「曖昧返答」とは、認識内容に対して曖昧に返答する返答方針である。より具体的には、「曖昧返答」とは、いわゆる相槌などの、認識内容に対して返答内容が1対1(又は、1対多)に定まらないフレーズ(換言すれば、認識内容との関連性の低いフレーズ)(曖昧フレーズ)を応答内容として返答する返答方針である。また、曖昧フレーズは、換言すれば、認識確度が閾値c以上である場合に参照する通常返答データベース231とは異なるカテゴリーの回答データ(返答内容)を含む曖昧返答データベース232から決定(選択)されるフレーズ(返答内容)であるとも表現できる。さらに、曖昧フレーズとは、音声データの内容が認識できない、または認識できたが対応する回答データがないということを暗示するフレーズであると表現することもできる。
【0079】
返答制御部225は、返答方針を曖昧返答に決定した場合には、例えば、
図6に示すように、認識内容に関わらず、「ほんとー」、「ほうほう」及び「へぇー」などのうち、何れかのフレーズを返答内容として決定すればよい。つまり、返答制御部225は、返答方針を曖昧返答に決定した場合には、曖昧返答データベース232から返答内容をランダムに選択してもよい。
【0080】
なお、
図6に、本実施形態に係るサーバ20の備える記憶部203に格納されている曖昧返答データベース232の一例を示している。
図6に示すように、返答内容のみが格納されている。
【0081】
また、「会話促し」とは、ユーザ(掃除ロボット10の近傍に存在する人間)に会話(発言)を促すフレーズを返答する返答方針である。会話を促すフレーズとしては、例えば、
図7に示すように、「ねえねえ、今日はどうだった?」及び「雑学聞きたくない?」などを挙げることができ、これらの会話を促すフレーズは、サーバ20の備える記憶部203に促し返答データベース233として格納されている。
【0082】
なお、本実施形態では、サーバ20から掃除ロボット10に対して返答内容を示す返答内容データを送信する(換言すれば、掃除ロボット10が発話する返答内容を示す返答内容データをサーバ20が供給する)構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボット10が記憶部(不図示)に上述した各データベースを格納しており、サーバ20から掃除ロボット10に対して、何れのデータベースの何れのフレーズを返答内容とするかを指定するためのデータを送信する構成を採用してもよい。
【0083】
上述の構成により、サーバ20は、掃除ロボット10に入力された音に対する返答内容データを、不適切なタイミングで掃除ロボット10に送信することを防止することができる。
【0084】
<実施形態2>
実施形態1では、サーバ20において、掃除ロボット10から受信した音データから音声データを検出する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボットにおいて音声データを検出した後、検出した音声データをサーバに送信する構成を採用することもできる。
【0085】
本発明の他の実施形態について、
図8及び
図9を参照して説明する。なお、説明の便宜上、実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
【0086】
〔発話システムの構成〕
図8は、本実施形態に係る発話システム2の要部構成を示すブロック図である。
図8に示すように、本実施形態に係る発話システム2は、掃除ロボット11、及び、サーバ21を備えている。
【0087】
図8に示すように、本実施形態に係る掃除ロボット11及びサーバ21は、サーバ21の制御部202aの代わりに、掃除ロボット11の制御部102aが音声検出部(音声データ抽出手段)121を備えていること以外は、実施形態1に係る掃除ロボット10及びサーバ20と同様の構成である。
【0088】
(掃除ロボット、及び、サーバの構成)
掃除ロボット11の制御部102aの備える音声検出部121は、マイク103を介して取得した音を示す音データから音声データを検出する。換言すれば、音声検出部121は、人間の発する音声の周波数帯域のみを含む音データ(音声データ)を受信する受信手段として機能する。制御部102aは、音声検出部121によって検出された音声データを、通信部101を介してサーバ21に逐次送信する。
【0089】
サーバ21の備える制御部202aは、通信部201を介して掃除ロボット11から音声データを取得すると、音量判定部222〜返答制御部225において音声データから返答内容を決定する。制御部202aは、決定した返答内容を示す返答内容データを、通信部201を介して掃除ロボット11に送信する。
【0090】
そして、掃除ロボット11は、サーバ21から受信した返答内容データに従って発話する。
【0091】
〔返答音声出力処理〕
次に、本実施形態に係る発話システム2における返答音声出力処理について、
図9を参照して説明する。
図9は、本実施形態に係る発話システム2における返答音声出力処理の流れを示すシーケンス図である。
【0092】
ステップS201:
図9に示すように、まず、発話システム2の掃除ロボット11の備えるマイク103は、外部からの音の入力を受け付ける。
【0093】
ステップS202:マイク103において音の入力を受け付けると、制御部102aの備える音声検出部121は、入力された音を示す音データから、音声データを検出(抽出)する。
【0094】
ステップS203:音声検出部121によって音声データが検出されると、制御部102aは、検出され音声データを、通信部101を介してサーバ21に送信する。音声データを受信すると、サーバ21の備える制御部202aは、受信した音声データを音量判定部222及び音声認識部223に供給する。
【0095】
なお、
図9に示すステップS204〜S209の処理は、
図3に示すステップS104〜S109と同様であるため、ここではその説明は省略する。
【0096】
上述のように発話システム2において返答音声出力処理が実行されることによって、掃除ロボット11は、人間の発した音声に対して返答するように発話することができる。
【0097】
<実施形態3>
実施形態1では、サーバ20において、音声データの示す音声の音量を判定する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボットにおいて音声の音量を判定した後、音声の音量の判定結果を音声データと共にサーバに送信する構成を採用することもできる。
【0098】
本発明の他の実施形態について、
図10及び
図11を参照して説明する。なお、説明の便宜上、実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
【0099】
〔発話システムの構成〕
図10は、本実施形態に係る発話システム3の要部構成を示すブロック図である。
図10に示すように、本実施形態に係る発話システム3は、掃除ロボット12、及び、サーバ22を備えている。
【0100】
図10に示すように、本実施形態に係る掃除ロボット12及びサーバ22は、サーバ22の制御部202bの代わりに、掃除ロボット12の制御部102bが音声検出部121及び音量判定部122を備えていること以外は、実施形態1に係る掃除ロボット10及びサーバ20と同様の構成である。
【0101】
(掃除ロボット、及び、サーバの構成)
掃除ロボット12の制御部102bの備える音声検出部121は、マイク103を介して取得した音を示す音データから音声データを検出する。換言すれば、音声検出部121は、人間の発する音声の周波数帯域のみを含む音データ(音声データ)を受信する受信手段として機能する。音声検出部121は、検出した音声データを、音量判定部122に供給する。
【0102】
音量判定部122は、音声検出部121によって検出された音声データの示す音声の音量を判定する。なお、音量判定部122における音量の判定方法は、実施形態1に係るサーバ20の備える音量判定部222と同様であるため、ここではその詳細な説明は省略する。音量判定部122は、音声の音量の判定結果を、音声検出部121によって検出された音声データと共に、通信部101を介してサーバ22に逐次送信する。
【0103】
サーバ22の備える制御部202bは、通信部201を介して掃除ロボット12から音声データ及び音声の音量の判定結果を取得すると、音声認識部223〜返答制御部225において音声データから返答内容を決定する。制御部202bは、決定した返答内容を示す返答内容データを、通信部201を介して掃除ロボット12に送信する。
【0104】
そして、掃除ロボット12は、サーバ22から受信した返答内容データに従って発話する。
【0105】
〔返答音声出力処理〕
次に、本実施形態に係る発話システム3における返答音声出力処理について、
図11を参照して説明する。
図11は、本実施形態に係る発話システム3における返答音声出力処理の流れを示すシーケンス図である。
【0106】
ステップS301:
図11に示すように、まず、発話システム3の掃除ロボット12の備えるマイク103は、外部からの音の入力を受け付ける。
【0107】
ステップS302:マイク103において音の入力を受け付けると、制御部102bの備える音声検出部121は、入力された音を示す音データから、音声データを検出(抽出)する。音声データを検出すると、音声検出部121は、検出した音声データを、音量判定部122に供給する。
【0108】
ステップS303:音声検出部121から音声データを取得すると、音量判定部122は、音声データの示す音声の音量を判定する。
【0109】
ステップS304:制御部102bは、音声の音量の判定結果を、音声データと共に、通信部101を介してサーバ21に送信する。音声の音量の判定結果及び音声データを受信すると、サーバ21の備える制御部202aは、受信した音声データを音声認識部223に供給すると共に、音声の音量の判定結果を、返答制御部225に供給する。
【0110】
なお、
図11に示すステップS305〜S309の処理は、
図3に示すステップS105〜S109の処理と同様であるため、ここではその説明は省略する。
【0111】
上述のように発話システム3において返答音声出力処理が実行されることによって、掃除ロボット12は、人間の発した音声に対して返答するように発話することができる。
【0112】
<実施形態4>
実施形態1では、サーバ20において、音声データから認識した音声内容の認識確度を判定する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボットにおいて音声の音量を判定した後、音声内容の認識確度の判定結果を音声データと共にサーバに送信する構成を採用することもできる。
【0113】
本発明の他の実施形態について、
図12及び
図13を参照して説明する。なお、説明の便宜上、実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
【0114】
〔発話システムの構成〕
図12は、本実施形態に係る発話システム4の要部構成を示すブロック図である。
図12に示すように、本実施形態に係る発話システム4は、掃除ロボット13、及び、サーバ23を備えている。
【0115】
図12に示すように、本実施形態に係る掃除ロボット13及びサーバ23は、サーバ23の制御部202cの代わりに、掃除ロボット13の制御部102cが音声検出部121、音量判定部122、音声認識部(音声認識手段)123、及び、確度判定部124を備えていること以外は、実施形態1に係る掃除ロボット10及びサーバ20と同様の構成である。
【0116】
(掃除ロボット、及び、サーバの構成)
掃除ロボット13の制御部102cの備える音声検出部121は、マイク103を介して取得した音を示す音データから音声データを検出する。換言すれば、音声検出部121は、人間の発する音声の周波数帯域のみを含む音データ(音声データ)を受信する受信手段として機能する。音声検出部121は、検出した音声データを、音量判定部122及び音声認識部123に供給する。
【0117】
音量判定部122は、音声検出部121によって検出された音声データの示す音声の音量を判定する。なお、音量判定部122における音量の判定方法は、実施形態1に係るサーバ20の備える音量判定部222と同様であるため、ここではその詳細な説明は省略する。
【0118】
音声認識部123は、音声検出部121によって検出された音声データの示す音声の内容(音声内容)を認識内容として認識する。そして、音声認識部123は、音声データから認識した音声内容の認識結果を、確度判定部124に供給する。
【0119】
(確度判定部)
確度判定部124は、音声認識部123から供給された音声内容の認識結果の確からしさ(換言すれば、音声内容を認識する認識処理の確からしさ)を示す認識確度を判定する。つまり、確度判定部124は、音声認識部123と共に、認識確度判定手段として機能する。なお、確度判定部124における認識確度の判定方法は、実施形態1に係るサーバ20の備える確度判定部224と同様であるため、ここではその詳細な説明は省略する。
【0120】
制御部102cは、音声の音量の判定結果、音声内容の認識結果、及び、認識確度の判定結果を、音声データと共に、通信部101を介してサーバ23に逐次送信する。
【0121】
サーバ23の備える制御部202cは、通信部201を介して掃除ロボット13から音声データ、音声の音量の判定結果、音声内容の認識結果、及び、認識確度の判定結果を取得すると、返答制御部225において返答内容を決定する。制御部202cは、決定した返答内容を示す返答内容データを、通信部201を介して掃除ロボット13に送信する。
【0122】
そして、掃除ロボット13は、サーバ23から受信した返答内容データに従って発話する。
【0123】
〔返答音声出力処理〕
次に、本実施形態に係る発話システム4における返答音声出力処理について、
図13を参照して説明する。
図13は、本実施形態に係る発話システム4における返答音声出力処理の流れを示すシーケンス図である。
【0124】
ステップS401:
図13に示すように、まず、発話システム4の掃除ロボット13の備えるマイク103は、外部からの音の入力を受け付ける。
【0125】
ステップS402:マイク103において音の入力を受け付けると、制御部102cの備える音声検出部121は、入力された音を示す音データから、音声データを検出(抽出)する。音声データを検出すると、音声検出部121は、検出した音声データを音量判定部122及び音声認識部123に供給する。
【0126】
ステップS403:音声データを取得すると、音量判定部122は、音声データの示す音声の音量を判定する。
【0127】
ステップS404:音声データを取得すると、音声認識部123は、取得した音声データの示す音声内容を認識する。音声認識部123は、音声内容の認識結果を確度判定部124に供給する。
【0128】
ステップS405:音声内容の認識結果を取得すると、確度判定部124は、取得した音声内容の認識結果の確度を判定する。
【0129】
ステップS406:制御部102cは、音声の音量の判定結果、音声内容の認識結果、及び、認識確度の判定結果を、音声データと共に、通信部101を介してサーバ23に逐次送信する。
【0130】
なお、
図13に示すステップS407〜S409の処理は、
図3に示すステップS107〜S109の処理と同様であるため、ここではその説明は省略する。
【0131】
上述のように発話システム4において返答音声出力処理が実行されることによって、掃除ロボット13は、人間の発した音声に対して返答するように発話することができる。
【0132】
<実施形態5>
上述した実施形態では、掃除ロボットとサーバとを備える発話システムについて説明したが、本発明はこれに限定されるものではない。例えば、本発明は、サーバを含まない発話システムを採用することもできる。
【0133】
〔発話システムの構成〕
図14は、本実施形態に係る発話システム5の要部構成を示すブロック図である。
図14に示すように、本実施形態に係る発話システム5は、掃除ロボット14を備えている。
【0134】
図14に示すように、本実施形態に係る掃除ロボット14は、上述した掃除ロボット13の構成に加えて、上述した実施形態においてサーバが備えていた記憶部203を、記憶部107として備えている。また、掃除ロボット14は、上述の掃除ロボット13の制御部102cに含まれる部材に加えて、返答制御部125も備える。
【0135】
(返答制御部)
返答制御部125は、音量判定部122から供給される音声の音量の判定結果と、確度判定部124から供給される認識確度の判定結果とに基づいて、返答内容を決定する。なお、返答制御部125における返答内容を決定する方法は、実施形態1に係るサーバ20の備える返答制御部225と同様であるため、ここではその詳細な説明は省略する。
【0136】
〔返答音声出力処理〕
次に、本実施形態に係る発話システム5における返答音声出力処理について、説明する。なお、ステップS401〜S405の処理については、
図13を用いて説明した処理と同じ処理であるため、詳細な説明は省略する。
【0137】
ステップS405の処理の後、返答制御部125は、音量判定部122から取得した音声の音量の判定結果、及び、確度判定部124から取得した確度の判定結果に基づき、返答方針及び返答内容を決定する。返答制御部125は、決定した返答内容を示す返答音声を、スピーカ104を介して出力する。
【0138】
上述のように発話システム5では、サーバを備えない構成であっても、掃除ロボット14が人間の発した音声に対して返答するように発話することができる。
【0139】
<実施形態6>
掃除ロボット10〜14及びサーバ20〜23の制御ブロック(特に制御部102、102a〜d及び制御部202、202a〜c)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
【0140】
後者の場合、掃除ロボット10〜14及びサーバ20〜23は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0141】
〔まとめ〕
本発明の態様1に係るサーバ(サーバ20〜23)は、判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替手段(返答制御部225)を備える。
【0142】
上記の構成によれば、判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、認識できなかった場合とで、ユーザに対する回答方針を切り替える。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、音データが示す内容を認識できたか否かを、ユーザに対して認識させることができる。
【0143】
本発明の態様2に係るサーバは、上記態様1において、上記音データが示す内容を認識できなかった場合、上記回答方針切替手段は、上記音データが示す内容に対する回答内容が1対1または1対多に定まらないフレーズを含むデータベースを参照してもよい。
【0144】
上記の構成によれば、上記サーバは、音データが示す内容を認識できなかった場合、上記音データが示す内容に対する回答内容が1対1または1対多に定まらないフレーズ、換言すると、曖昧に返答する曖昧なフレーズを含むデータベースを参照する。したがって、上記サーバは、音データが示す内容を認識できなかった場合、認識できなかったことをユーザに対して認識させることができる。
【0145】
本発明の態様3に係るサーバは、上記態様1または2において、上記回答方針切替手段は、上記音データが示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更してもよい。
【0146】
上記の構成によれば、上記サーバは、音データが示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更する。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、音データが示す内容を認識できたか否かを、ユーザに対して認識させることができる。
【0147】
本発明の態様4に係るサーバは、上記態様3において、上記回答方針切替手段は、上記認識確度が第1の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、上記認識できた場合の処理として、上記回答方針切替手段は、上記認識内容に対する回答内容が1対1または1対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、または、上記認識内容に対する回答内容が1対1または1対多に定まらないフレーズを含むデータベース、の何れかを参照してもよい。
【0148】
上記の構成によれば、上記サーバは、音データが示す内容を認識できた場合、通常フレーズを含むデータベースまたは曖昧フレーズを含むデータベースを参照する。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、音データが示す内容を認識できたことを、ユーザに対して認識させることができる。
【0149】
本発明の態様5に係るサーバは、上記態様3において、上記回答方針切替手段は、上記認識確度が第1の所定の認識確度範囲内であって、当該第1の所定の認識確度範囲において相対的に認識確度が高い範囲を示す第2の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、上記認識できた場合の処理として、上記回答方針切替手段は、上記認識内容に対する回答内容が1対1または1対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、を参照してもよい。
【0150】
上記の構成によれば、上記サーバは、音データが示す内容を認識できた場合、通常フレーズを含むデータベースを参照する。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、ユーザとより適切な会話コミュニケーションをすることができる。
【0151】
本発明の態様6に係るサーバは、上記態様2から5の何れかにおいて、上記回答方針切替手段は、参照するデータベースから上記ユーザに対する回答を示す回答データをランダムに選択してもよい。
【0152】
上記の構成によれば、上記サーバは、各データベースからランダムに回答データを選択するので、ユーザとより適切な会話コミュニケーションをすることができる。
【0153】
本発明の態様7に係るサーバは、上記態様1から6の何れかにおいて、上記回答方針切替手段は、上記音データの音量が、第1の所定の音量範囲よりも音量が低い第2の所定の音量範囲に含まれる場合、上記ユーザへの回答方針として、ユーザに回答しない、及び、ユーザへ会話を促す回答を行う、の何れを選択してもよい。
【0154】
上記の構成によれば、上記サーバは、音データの音量が低い場合、ユーザに回答しない、及び、ユーザへ会話を促す回答を行う、の何れを選択する。したがって、上記サーバは、ユーザとより適切な会話コミュニケーションをすることができる。
【0155】
本発明の態様8に係る発話制御方法は、判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替工程を含む。
【0156】
上記の構成によれば、上記発話制御方法は、上記態様1に係るサーバと同じ効果を奏する。
【0157】
本発明の態様9に係る発話装置(掃除ロボット14)は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段(音声検出部121)と、上記音声データ抽出手段が抽出した音声データの音量を判定する音量判定手段(音量判定部122)と、上記音量判定手段が判定した音量が所定の範囲内に含まれる場合、上記音声データ抽出手段が抽出した音声データの示す音声の内容を認識内容として認識する音声認識手段(音声認識部123)と、上記音声認識手段が上記音声データが示す内容を認識できた場合と、上記音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段(返答制御部125)と、上記回答方針切替手段が決定した回答内容の示す音声を出力する回答出力部(スピーカ104)と、を備える。
【0158】
上記の構成によれば、上記発話装置は、上記態様1に係るサーバと同じ効果を奏する。
【0159】
本発明の態様10に係る発話システム(2〜4)は、発話装置(掃除ロボット11〜13)と、サーバ(20〜40)とを備えている発話システムであって、上記発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段(音声検出部121)と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部(通信部101)と、上記音声データに対する回答データを受信する回答データ受信部(通信部101)と、上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部(スピーカ104)と、を備えており、上記サーバは、上記発話装置から、上記音声データを受信する音声データ受信部(通信部201)と、上記音声データ受信部が受信した音声データの音量を判定する音量判定手段(音量判定部222)と、上記音量判定手段によって判定された上記音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段(返答制御部225)と、上記回答方針切替手段が決定した回答内容を示す回答データを送信する回答送信手段(返答制御部225)と、を備える。
【0160】
上記の構成によれば、上記発話システムは、上記態様1に係るサーバと同じ効果を奏する。
【0161】
本発明の態様11に係る発話装置(2〜4)は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段(音声検出部121)と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部(通信部101)と、上記音声データに対する回答データを受信する回答データ受信部(通信部101)と、上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部(スピーカ104)と、を備えており、上記回答データは、上記音声データ送信部が送信した音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、決定された回答内容を示す回答データである。
【0162】
上記の構成によれば、上記態様10に係る発話システムが備える発話装置を実現することができる。
【0163】
本発明の態様12に係るサーバ(サーバ20〜23)は、判定対象の音データの音量が、第1の音量閾値(閾値b)以上、第2の音量閾値(閾値a)以下である音量範囲内に含まれる場合、上記音データの示す内容に対する回答データを送信する回答送信手段(返答制御部225)を備えている。
【0164】
上記の構成によれば、判定対象の音データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれている場合に、回答送信手段は、音データの示す内容に対する回答を送信する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも回答送信手段は回答データを送信しない。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。
【0165】
本発明の態様13に係るサーバ(サーバ21〜23)は、上記態様12において、上記判定対象の音データとして、人間の発する音声の周波数帯域のみを含む音データ(音声データ)を受信する受信手段(通信部201)を更に含んでもよい。
【0166】
本発明の態様14に係るサーバ(サーバ20)は、上記態様12において、外部から受信した音データから、人間の発する音声の周波数帯域を抽出することによって、上記判定対象の音データ(音声データ)を生成する抽出手段(音声検出部221)を更に備えていてもよい。
【0167】
本発明の態様15に係るサーバは、上記態様12から14において、上記判定対象の音データの音量を判定する音量判定手段をさらに備え、上記音量判定手段によって判定された上記音データの音量が、第1の音量閾値より小さい場合、上記回答送信手段は、会話を促す内容を示す回答データを、所定の確率で送信してもよい。
【0168】
本発明の態様16に係るサーバは、上記態様12から15において、上記判定対象の音データの音量を判定する音量判定手段と、上記判定対象の音データが示す内容を認識内容として認識し、当該認識処理の確からしさを示す認識確度を判定する認識確度判定手段(音声認識部223、確度判定部224)と、をさらに備え、上記音量判定手段によって判定された上記音データの音量が、上記音量範囲内に含まれており、かつ、上記認識確度が、第1の確度閾値(閾値c)以上である場合、上記回答送信手段は、上記認識内容に対応付けられている1または複数の回答データを送信してもよい。
【0169】
本発明の態様17に係るサーバは、上記態様16において、上記音量判定手段によって判定された上記音データの音量が、上記音量範囲内に含まれており、かつ、上記認識確度が、上記第1の確度閾値より小さく、第2の確度閾値(閾値d)以上である確度範囲内に含まれる場合、上記回答送信手段は、上記認識確度が、第1の確度閾値以上である場合に参照するデータベース(通常返答データベース231)とは異なるカテゴリーの回答データを含むデータベース(曖昧返答データベース232)から回答データを選択して送信してもよい。
【0170】
本発明の態様18に係るサーバの上記回答送信手段は、上記態様17において、上記異なるカテゴリーの回答データを含むデータベースから回答データをランダムに選択してもよい。
【0171】
本発明の態様19に係るサーバは、上記態様17から18において、上記音量判定手段によって判定された上記音データの音量が、上記音量範囲内に含まれており、かつ、上記認識確度が上記第2の確度閾値より小さい場合、上記回答送信手段は、上記音データの示す内容に対する回答データを送信しなくてもよい。
【0172】
本発明の態様20に係る発話制御方法は、サーバによる発話制御方法であって、判定対象の音データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれる場合、上記音データの示す内容に対する回答データを送信する回答送信工程を含んでいる。
【0173】
上記の構成によれば、判定対象の音データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれている場合に、回答送信工程において、音データの示す内容に対する回答を送信する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも、回答送信工程において回答データが送信されない。したがって、上記発話制御方法は、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。
【0174】
本発明の態様21に係る発話装置(掃除ロボット11〜13)は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段(音声検出部121)と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部(通信部101)と、上記音声データに対する回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部(スピーカ104)と、を備えており、上記回答データは、上記音声データの音量が、第1の音量閾値より大きく、当該第1の音量閾値より大きな第2の音量閾値より小さい場合に選択された回答データである。
【0175】
上記の構成によれば、判定対象の音データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれている場合に、回答出力部は、音データの示す内容に対する回答を出力する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも回答出力部は回答データの示す音声を出力しない。したがって、上記発話装置は、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。
【0176】
本発明の態様22に係る発話システム(2〜4)は、発話装置(掃除ロボット11〜13)と、サーバ(サーバ21〜23)とを備えている発話システムであって、上記発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段(音声検出部121)と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部(通信部101)と、上記音声データに対する回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部(スピーカ104)と、を備えており、上記サーバは、判定対象の音声データの音量を判定する音量判定手段(音量判定部222)と、上記音量判定手段によって判定された上記音声データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれる場合、上記音声データの示す内容に対する回答データを送信する回答送信手段(返答制御部225)と、を備えている。
【0177】
上記の構成によれば、判定対象の音データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれている場合に、回答送信手段は、音データの示す内容に対する回答を送信する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも回答送信手段は回答データを送信しない。したがって、上記発話システムは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。
【0178】
本発明の各態様に係るサーバ(20〜23)および発話装置(掃除ロボット10〜14)は、コンピュータによって実現してもよく、この場合には、コンピュータを上記サーバが備える各手段として動作させることにより上記サーバをコンピュータにて実現させるサーバのプログラムも、本発明の範疇に入る。
【0179】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。