(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-01
(45)【発行日】2024-02-09
(54)【発明の名称】発話制御装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20240202BHJP
G06F 3/16 20060101ALI20240202BHJP
G06F 3/01 20060101ALI20240202BHJP
【FI】
G06T7/00 660B
G06F3/16 690
G06F3/01 510
(21)【出願番号】P 2020052773
(22)【出願日】2020-03-24
【審査請求日】2023-01-16
(73)【特許権者】
【識別番号】302060926
【氏名又は名称】株式会社フジタ
(74)【代理人】
【識別番号】100120592
【氏名又は名称】山崎 崇裕
(74)【代理人】
【識別番号】100184712
【氏名又は名称】扇原 梢伸
(74)【代理人】
【識別番号】100192223
【氏名又は名称】加久田 典子
(72)【発明者】
【氏名】山口 瞳
(72)【発明者】
【氏名】權 純洙
【審査官】新井 則和
(56)【参考文献】
【文献】特開2007-160442(JP,A)
【文献】特開2013-210705(JP,A)
【文献】特開2010-166263(JP,A)
【文献】車両周辺環境に応じたカメラとLiDARによる歩行者検出の統合に関する初期検討,電子情報通信学会技術研究報告 Vol.119 No.64,2019年05月23日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06F 3/16
G06F 3/01
(57)【特許請求の範囲】
【請求項1】
人物が存在する撮像エリアを連続的に撮像して得られた画像から人物の判定を連続的に実行したとき、一連の判定結果には人物の判定が成功の場合と不成功の場合が不規則に含まれる判定能力を有した人物判定部と、
前記人物判定部により得られた一連の判定結果
に含まれる成功の場合と不成功の場合との比率から人物の検出状態又は未検出状態の連続性を擬制的に判断し、当該判断に基づく人物の検出状態又は未検出状態を擬制的な人物の検出結果
として生成するフィルタリング部と、
前記撮像エリア内に所定の検出エリアを規定し、前記フィルタリング部による擬制的な検出結果で示される人物が前記検出エリア内に進入したか否かを判定する検出エリア判定部と、
前記検出エリア判定部により人物が前記検出エリア内に進入したと判定されたタイミングで発話音声を出力させる音声出力部と
を備えた発話制御装置。
【請求項2】
人物が存在する撮像エリアを連続的に撮像して得られた画像から人物の判定を連続的に実行したとき、一連の判定結果には人物の判定が成功の場合と不成功の場合が不規則に含まれる判定能力を有した人物判定部と、
前記人物判定部により
所定回数連続して成功の判定結果が得られた場合、判定結果の連続性から擬制的に人物の検出状態とする検出結果を生成し、この後に所定回数連続して成功の判定結果が得られなかった場合、判定結果が得られなかったことの連続性から擬制的に人物の未検出状態とする検出結果を生成するフィルタリング部と、
前記撮像エリア内に所定の検出エリアを規定し、前記フィルタリング部による擬制的な検出結果で示される人物が前記検出エリア内に進入したか否かを判定する検出エリア判定部と、
前記検出エリア判定部により人物が前記検出エリア内に進入したと判定されたタイミングで発話音声を出力させる音声出力部と
を備えた発話制御装置。
【請求項3】
請求項
1又は
2に記載の発話制御装置において、
前記フィルタリング部は、
前記人物判定部により成功の判定結果が得られた後に不成功の判定結果が得られた場合、最後に得られた成功の判定結果に基づいて、
連続して検出状態とする擬制的な人物の検出結果を生成することを特徴とする発話制御装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば発話機能を有する対人ロボット等への適用が可能な発話制御装置に関する。
【背景技術】
【0002】
従来、人物を検出してロボット等から発話させる先行技術が知られている(例えば、特許文献1参照。)。この先行技術の例では、複数人が行き交う環境下で対話型のロボットが利用される際、人物が対話意思や関心を持っているかについて、ロボットが人物の関心度を判定し、事前に対話対象となる人物を絞り込むこととしている。このため先行技術は、ロボットに内蔵した撮像装置からの画像情報から人物を検出し、検出された人物を撮像装置の複数の画像で追跡し、追跡された人物の関心度を、複数の画像における人物の顔の向きと胴体の向きの変化に基づいて算出し、算出された関心度に基づいて対話候補とするといった処理を行っている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した先行技術は、画像情報から人物が存在する矩形領域を抽出した後、領域内での頭部の領域を検出したり、顔を検出したり、頭部の領域内の情報を用いて頭部の方向を推定したり、さらには、人物の胴体の方向を推定したりする複雑な処理を行っている。このような処理は、畳み込みフィルタを用いたニューラルネットワークを有する人工知能モデルによって好適に実行可能である。
【0005】
しかしながら、人物の領域に加えて頭部の領域や顔の位置、頭部の方向、さらには人物の胴体の方向までも正確に推定した上で、最終的な声掛けの判定を行おうとすると、適用する人工知能には高精度かつ高機能なモデルを採用しなければならないため、それだけ処理時間が長く、画像情報の入力から判定結果が出力されるまでに遅延が生じるという問題がある。そうかといって、高精度モデルに比較して処理が高速なタイプの人工知能モデルを単に適用しただけでは、判定の精度が犠牲になるため要求レベルを満たせないという不具合を生じる。
【0006】
そこで本発明は、人物の判定を高速化しつつ、適切に発話を制御できる技術を提供するものである。
【課題を解決するための手段】
【0007】
本発明は、発話制御装置を提供する。この発話制御装置は、画像内の人物の判定(検出)を高速処理が可能な判定能力を有した人工知能モデルにより実行する。このような高速型の人工知能モデルを用いた発話制御は、人物の判定から発話音声の出力までの応答時間に遅延が少ないことから、特に、ランダムに移動している人物への発話(声掛け)のタイミングに目立った遅延がなく、発話内容を確実に人物に気付かせることができるという大きな利点がある。ただし、判定能力を高速化したこととのトレードオフで精度が犠牲になるため、その分を補償する手法を考える必要がある。
【0008】
すなわち、現実に人物が存在する撮像エリアを撮像しても、その画像から人物を判定した結果には一定の割合で成功(人物判定あり)と不成功(人物判定なし)とが含まれることとなり、かつ、それらの発生回数や発生順は不規則である。この場合、判定結果を全て正しいものとして発話音声の出力を制御すると、同じ人物に対して同じ内容の発話を繰り返したり(連呼したり)、人物がいるのに発話しなかったりすることがある。
【0009】
そこで本発明の発話制御装置は、人物の判定結果にフィルタリングの手法を採用する。すなわち、一連の判定結果をそのまま発話音声の出力に対する入力とするのではなく、得られた判定結果から擬制的な人物の検出結果を二次生成する。擬制的に生成された人物の検出結果は、一連の判定結果が成功と不成功との間でセンシティブに振れる(両極端に変化する)のに対し、ある程度の確からしさで「検出結果あり」と擬制されるか、「検出結果なし(未検出)」と擬制されるかのいずれかに平滑化される。
【0010】
そして、このような擬制的に生成された検出結果で示される人物について、所定の検出エリア内に進入したと判定したタイミングで発話音声を出力させる。このとき、発話音声の出力に用いる検出結果がフィルタリング(平滑化)されているため、同じ人物に対して同じ内容の発話が繰り返されたり、判定不成功で発話されなかったりといった不具合を確実に防止することができる。
【0011】
また、検出エリアは、例えば発話元と人物との位置関係において、発話内容が人物に届きやすく、また、聞き取りやすいと考えられる距離に基づいて規定することができる。これにより、例えば不特定の人物が任意の場所をランダムな方向に移動するような環境(例えば建設現場)においても、高速モデルを用いて人物を判定した場合の即応性を活かして、その人物との位置関係が最適な距離となるタイミングで発話音声を出力させることにより、発話されたことを人物に気付かせやすくし、また、発話内容を人物に聞き取りやすくすることができる。
【0012】
発話制御装置によるフィルタリングの手法には、以下の好ましい態様が含まれる。
(1)高速モデルの一連の判定結果に含まれる成功(人物判定あり)の場合と不成功(人物判定なし)の場合との比率から、擬制的に人物を検出又は未検出とする検出結果を生成する。例えば、ある回数の連続する判定結果の群に着目したとき、その中で成功(人物判定あり)が所定割合以上あれば、「人物検出あり」と擬制する検出結果を生成する。逆に、ある回数の連続する判定結果の群の中で、成功(人物判定あり)が所定割合に達していなければ、「人物検出なし(未検出)」と擬制する検出結果を生成する。したがって、高速モデルによる判定結果が一時的(瞬間的)に振れたとしても、生成される検出結果は大きく振れることがなく、平滑化されることになる。
【0013】
(2)高速モデルから所定回数連続して成功(人物判定あり)の判定結果が得られた場合、擬制的に人物の検出状態とする検出結果を生成し、この後に所定回数連続して成功(人物判定あり)の判定結果が得られなかった場合、擬制的に人物の未検出状態とする検出結果を生成する。この場合、高速モデルによる人物の判定が所定回数連続して成功したことを条件に、以後は「人物検出あり」の状態となる。この状態で、途中に不成功(人物判定なし)の判定結果が得られても、フィルタリング後の検出結果は「人物検出あり」の状態が維持される。したがって、所定回数より少ない回数の不成功によって検出結果が振れることなく、平滑化される。
【0014】
いずれにしても、上記(1)及び(2)のフィルタリングの態様では、「人物検出あり」と擬制した検出結果を生成した後も、高速モデルによる少数の判定結果が不成功(人物判定なし)となる場合がある。この場合、そのままでは、高速モデルの判定結果に基づく人物の検出結果を一時的(瞬間的)に生成することができないことになる。そこで発話制御装置は、成功の判定結果が得られた後に不成功の判定結果が得られた場合、最後(直前)に得られた成功の判定結果に基づいて、擬制的な人物の検出結果を生成する。これにより、「人物検出あり」と擬制した検出結果を生成した後の抜け(欠け)を防止し、安定して発話音声の出力制御を実行することができる。
【発明の効果】
【0015】
本発明によれば、適切に発話を制御することができる。
【図面の簡単な説明】
【0016】
【
図1】発話制御装置の適用場面を一例として示す図である。
【
図2】建設現場CS内で移動ロボットRBが発話音声を出力する場面を例示した図である。
【
図3】一実施形態の発話制御装置100の構成例を示すブロック図である。
【
図4】声掛けシステム110による処理の概要を示す図である。
【
図5】フィルタリング部142による処理(1)の概要を示す図である。
【
図6】フィルタリング部142による処理(2)の概要を示す図である。
【
図7】検出エリア判定部140による処理の概要を示す図である。
【
図8】フィルタリング処理(1)の手順例を示すフローチャートである。
【
図9】フィルタリング処理(2)の手順例を示すフローチャートである。
【
図10】声掛け音声出力処理の手順例を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について図面を参照しながら説明する。以下の実施形態では、発話制御装置を移動ロボット(自走式ロボット)による音声出力に適用した例を挙げているが、本発明はこの例に限られるものではない。
【0018】
図1は、発話制御装置の適用場面を一例として示す図である。本実施形態では、例えば、大型ビルやマンション、医療施設、福祉施設といった建物の建設現場CSでの使用を想定することができる。この建設現場CSは、建物の構造体(コンクリートの梁BM、壁WL、床FL、柱CL等)がある程度出来上がった状態にあり、内部を人(作業員等)が歩くことができる状態にある。また、
図1には示されていないが、建設現場CSには開けた空間の他に、通路や部屋、エレベータシャフト、階段室等も存在する。
【0019】
この建設現場CSには、例えば自走式の移動ロボットRBが配置されている。移動ロボットRBは、例えば4つの車輪WHで建設現場CS内を移動することができる。また、移動ロボットRBは、内蔵のIPカメラ112を用いて周囲を撮像したり、マイク・スピーカ128を用いて集音及び発音(発話音声出力)したりすることができる。
【0020】
移動ロボットRBが建設現場CS内を移動して得た情報は、無線通信を介して例えばクラウドコンピュータ上にアップロードされる。また、移動ロボットRBは、クラウドコンピュータから更新情報を適時ダウンロードしてシステムをアップデートすることができる。このような移動ロボットRBは、既に多く提供されている公知の自律移動制御システムや環境検知システムを備えるものであり、その詳細についての説明は省略する。なお、移動ロボットRBは歩脚式のものでもよい。
【0021】
本実施形態の発話制御装置は、この適用例に挙げた移動ロボットRBによる発話音声出力の制御を好適に実現する。以下、移動ロボットRBによる発話音声出力を「声掛け」としても呼称する。
【0022】
図2は、建設現場CS内で移動ロボットRBが発話音声を出力する場面を例示した図である。移動ロボットRBは、日時、周囲の環境、人物の認識を各種センサとAI(人工知能)を用いて行い、各人の状況や建設作業中に関係のある周囲の気候条件や環境に合わせた声掛けを行う。
【0023】
図2中(A):移動ロボットRBは、例えば建設現場CS内で作業員を人物認識し、日時や環境、声掛けの対象となる人物の状況に合わせた発話内容を選択する。この例では、人物が立ち止まった姿勢であること、現在が日中の時間帯であること、周囲気温が何らかの閾値を超過すること等の状況から総合判断して、「こんにちは 暑いので水分を取って下さい。」といった内容の声掛けを実行している。また、顔認識により人物個人を特定し、「○○さん」のように個人名を付した声掛けも実行することができる。
【0024】
図2中(B):また、移動ロボットRBは、例えば建設現場CS内で作業員を人物認識するとともに、建設関連情報を認識する。この例では、建設関連情報として人物が足場SCに登った高所作業中であることを状況判断し、「危ないですよ!注意して作業して下さい」といった内容の声掛けを実行している。
【0025】
このような声掛けの仕組みは、移動ロボットRBが決まった音声で声掛けする場合と比較して、安全性の向上に利する点が大きい。すなわち、移動ロボットRBが建設現場CS内を移動して回り、「人物認識したら機械的に定型の発話内容で声掛けする」というパターンでは、作業中の人物には発話内容があまり届かず、注意喚起にはつながらない。これに対し、作業員に対してその場の状況に合わせた具体的な健康情報や危険情報、建築関連情報を音声で案内する声掛けのパターンであれば、対象人物の注意喚起につながり、安全性向上に利する点が大きくなる。
【0026】
〔処理速度と正確性のバランス〕
ここで、本実施形態の発話制御装置が取り扱う主題は、移動ロボットRBで人物の検出に要する処理速度と正確性とのバランスである。すなわち、移動ロボットRBが建設現場CS内を自律的に移動しつつ、様々な場所で人物(作業関係者)を認識した場合、その都度、適切なタイミングで発話音声を出力させる必要がある。このとき、どのようなタイミングで発話音声を出力させるかは、移動ロボットRBを発話元としたときの人物との位置関係にあり、具体的には人物までの距離に依存する。ただし、人物は常に一箇所に留まっているわけではなく、必要な作業をするために移動しているし、移動ロボットRBの方も自律移動している。このため、移動ロボットRBの方で人物を判定(検出)し、位置関係に基づいて声掛けさせる際、人物の認識にあまり長い処理時間を要していると、その間に人物が先に移動してしまい、声掛けのタイミングが遅れることになる。
【0027】
そこで、人物の検出処理を高速化することが考えられる。移動ロボットRBによる人物の認識には、IPカメラ112で撮像した画像から人物を判定する人工知能モデルが用いられる。このとき、処理速度がより高速な人工知能モデルを適用することで、画像内に写っている人物を瞬時に判定(検出)することが可能であるが、処理が高速化されたモデルほど、判定の精度が低いことも確かである。このため、高速処理に特化した人工知能モデルを用いると、人物の判定に不確実性(感覚的に言うと「チラツキ」、「振れ」)が生じ、それによって声掛けを連呼してしまったり、逆に声掛けしなかったりすることがある。一方、高速モデルによる人物判定では、検出率が低い分、遅延は少なく、かつ、単位時間あたりの人物の判定回数は高精度モデルより数倍多いという特性がある。
【0028】
そこで本実施形態では、上記の特性に鑑みて、高速処理に特化した人工知能モデルにより生じる不正確性を補償し、移動ロボットRBから最適に声掛けさせることができる仕組みを構築している。以下、本実施形態で用いる声掛けの仕組みについて説明する。
【0029】
〔発話制御装置の構成〕
図3は、一実施形態の発話制御装置100の構成例を示すブロック図である。なお、
図3では一部に移動ロボットRBの構成要素も合わせて示されている。
【0030】
発話制御装置100は、声掛けシステム110を中心として構成されている。声掛けシステム110は、IPカメラ112やマイク・スピーカ128からの信号を入力とし、内部でAI(高速モデル)による処理や各種の演算を行った上で、マイク・スピーカ128から発話音声を出力させる制御を実現する。
【0031】
マイク・スピーカ128は、例えば周囲の騒音レベルを計測したり、移動ロボットRBから発話音声を出力したりするために用いられる。なお、マイク・スピーカ128は別体式(マイクとスピーカが別)の構成であってもよい。
【0032】
IPカメラ112は、人物を含む周囲環境を撮像するために用いられる。IPカメラ112には、例えば公知の市販製品を適用することができる。IPカメラ112は、いわゆるパン、チルト、ズーム(PTZ)機能を備えたネットワークカメラであるが、本実施形態では特にPTZ機能を用いていない(ただし、用いてもよい。)。IPカメラ112は、移動ロボットRBの本体(例えば頭部)に内蔵されている(
図1参照)。ここでは、移動ロボットRBの進行方向正面にIPカメラ112の向きを設定している。
【0033】
また、声掛けシステム110には、AI処理高速化装置114が付加されている。AI処理高速化装置114には、例えば公知の市販製品を用いることができ、AI処理高速化装置114は、声掛けシステム110の内部で実行されるAI処理の高速化に寄与する。
【0034】
声掛けシステム110は、移動ロボットRBの制御部130と協働する。制御部130は、声掛けシステム110と協働して移動ロボットRBの移動装置132を制御する。例えば、声掛けシステム110が声掛けを実行する場合、制御部130は移動ロボットRBの移動を停止させたり、対象の人物との位置関係を調整したりする。あるいは、制御部130が移動ロボットRBを移動させつつ、声掛けシステム110が声掛けを実行することもある。
【0035】
声掛けシステム110は、例えば図示しないCPU(中央処理装置)及びその周辺機器を含むコンピュータ機器を用いて実現することができる。声掛けシステム110は、移動ロボットRBのシステムに追加して搭載される別のハードウエアでもよいし、移動ロボットRBが既に有するハードウエアにインストールされるソフトウエアでもよい。
【0036】
声掛けシステム110には、例えば人物判定部136や検出エリア判定部140、フィルタリング部142、そして演算部122といった各種の機能ブロックが含まれている。これらの機能ブロックは、例えばコンピュータプログラムを用いて行うAI処理やソフトウエア処理によって実現することができる。本実施形態では、人物判定部136の処理に高速AIモデルを採用している。各機能ブロックは、声掛けシステム110の内部バス(仮想バス)を通じて相互に連係しながら処理を実行する。
【0037】
また、声掛けシステム110には記憶部124や出力装置126が含まれる。記憶部124は、例えば半導体メモリや磁気記録装置である。記憶部124には、例えば声掛けシステム110が移動ロボットRBに出力させる発話内容の音声データが格納されている。出力装置126は、マイク・スピーカ128を駆動するドライバアンプ等である。なお、音声データは適宜アップデートすることが可能である。
【0038】
図4は、声掛けシステム110による処理の概要を示す図である。なお、具体的な処理の詳細については、さらに別途フローチャートを用いて後述する。
【0039】
例えば、
図4中(A)~(H)に示すように、声掛けシステム110には、移動ロボットRBに内蔵のIPカメラ112(
図4では省略)からの撮像信号が入力される。IPカメラ112による撮像は連続的に(例えば30~60フレーム毎秒(fps)で)行われ、それらのフレーム画像が連続的に声掛けシステム110に入力されている。なお、ここでは簡略化のため、フレーム数は適宜間引いて示している(これ以降も同様。)。
【0040】
〔撮像エリア〕
図4中の中央領域に示すように、撮像エリアはIPカメラ112の画角(例えば水平方向で左右64°程度、垂直方向で上方28°程度、下方10°程度)により規定される。フレーム画像は、この画角(視野)内に入る周囲環境を撮像したものとなる。なお、撮像エリアの範囲(角度)はこの例に限定されない。
【0041】
〔検出エリア〕
声掛けシステム110は、撮像エリア内に検出エリアDA(
図4にグレーで示す範囲)を予め規定している。検出エリアDAは、例えば移動ロボットRBの中心(IPカメラ112による撮像地点)を基準点とした一定の範囲であり、ここでは半径R1~R3(例えば2m~5m)で示す扇状に近い帯状の範囲である。検出エリアDAには、移動ロボットRBからの声掛けに最適距離(例えば4m)と考えられる発話地点が含まれる。なお、発話地点までの距離や検出エリアDAの範囲はこの例に限定されない。
【0042】
〔人物判定部〕
人物判定部136は、連続するフレーム画像から高速AIモデルを用いた人物の判定処理を実行する。人物の判定は、例えば畳み込みニューラルネットワークを用いた画像認識処理で行われる。ここでは、AI処理高速化装置114のサポートを用いて、例えば1秒間に数回(3~4回)以上の頻度で人物を高速に判定することができる。
【0043】
〔判定精度〕
ただし、上記のように高速AIモデルによる人物の判定結果には、ある程度の成功サンプルと不成功サンプルとが混在して得られる。例えば、
図4中(A)及び(B)のフレーム画像では、人物を判定した画像領域が一点鎖線の矩形枠(バウンディングボックス)で示されており、これらは人物判定部136で人物の判定に成功(検出)していることを意味している。しかし、次の
図4中(C)のフレーム画像では、バウンディングボックスが消失しており、これは人物判定部136で人物の判定が不成功(未検出)となっていることを意味している。
【0044】
以下同様に、
図4中(D)のフレーム画像では人物の判定に成功(検出)しているが、次の(E)及び(F)のフレーム画像では、いずれも不成功(未検出)となっている。そして、また(G)及び(H)のフレーム画像では、人物の判定に成功(検出)しているが、その前の(D)からの間に2回、人物の判定が不成功(未検出)となっていることが分かる。
【0045】
このような場合、人物判定部136で得られた一連の判定結果をそのまま声掛けの制御に用いようとすると、移動ロボットRBでは、
図4中の中央領域に「検出」を付した各位置の実線で示される人物については認識(検出)できているが、「未検出」を付した各位置の二点鎖線で示される人物については認識(検出)できていないことになる。すなわち、移動ロボットRBからは、(A)のフレーム画像の位置で認識(検出)していた人物が(B)のフレーム画像の位置に移動した後、途中が抜けて(D)のフレーム画像の位置に大きく移動し、次の瞬間(G)のフレーム画像の位置に大きく移動したように認識されることになる。
【0046】
このような人物の判定(検出)結果からダイレクトに移動ロボットRBから声掛けさせると、例えば(D)のフレーム画像の位置で声掛けした後で、(G)のフレーム画像の位置でも同じ内容を声掛けするといった連呼の問題が発生する。これでは、せっかくの声掛けが人物に対する煩わしさや違和感となってしまう。
【0047】
あるいは、(E),(F)のフレーム画像の位置まで人物が接近しているにもかかわらず、移動ロボットRBからは人物が判定(検出)できていないため、何も声掛けしないという無反応の問題が発生する。これでは、せっかく(A)のフレーム画像のような遠方の位置から人物の存在を判定(検出)できていたにも関わらず、適切な位置関係となったときに声掛けする機会を逸したことになる。特に(F)のフレーム画像の位置は検出エリアDA内であるため、ここで声掛けしていないのは好ましくない。
【0048】
〔フィルタリング部〕
このため本実施形態では、フィルタリング部142による処理を用いる。
図5及び
図6は、フィルタリング部142による処理の概要を示す図である。本実施形態のフィルタリング部142は、例えば異なる2つの態様でフィルタリング処理を実行することができる。このため、フィルタリング処理(1)の概要を
図5に示し、フィルタリング処理(2)の概要を
図6にしめしている。以下、フィルタリング部142の処理について説明する。
【0049】
〔フィルタリング処理(1)〕
フィルタリング部142は、人物判定部136による人物の判定結果を連続的に観測する。この例では、
図5中の上部枠内に(検出データA)、(検出データB)、(検出データC)、(検出データD)、(検出データE)、(検出データF)、(検出データなし)、(検出データG)、(検出データH)、(検出データI)、(検出データJ)、(検出データなし)、(検出データK)、(検出データなし)、(検出データなし)、(検出データなし)で示される一連のフレーム画像毎に判定結果が得られている。
【0050】
ここで、(検出データA)、(検出データB)、・・・(検出データK)は、それぞれのフレーム画像内で人物が判定(検出)されていることを表している。また、A、B、・・・Kの符号は、フレーム画像別の判定結果を識別するものである。例えば、(検出データA)~(検出データF)と(検出データG)~(検出データK)とでは、人物を判定したバウンディングボックスの大きさが違っており、人物の位置が異なることを意味している。したがって、(検出データA)~(検出データF)と(検出データG)~(検出データK)とでは、移動ロボットRBから人物までの距離が異なっている。また、(検出データG)から(検出データK)に向かって人物との距離は小さくなっている。
【0051】
フィルタリング部142による処理は、
図5中の下部領域に示す処理テーブルを用いて説明することができる。この処理テーブルは、例えばメモリ空間に展開されたデータ配列を便宜的に視覚化したものである。このとき、処理テーブルには、縦方向に「検出結果」、「内部状態」及び「出力」のデータ領域が定義されており、横方向には各データ領域に対応するデータが時系列に配列されている。
【0052】
〔検出結果のデータ配列〕
処理テーブルの上段に示されているように、「検出結果」のデータ領域には、左(時系列の最古)から右(最新)に向かって人物判定部136による一連の判定結果(検出結果)が順次配列される。ここでは、左から3個目までのフレームが全てデータなしであり、4個目から9個目までのフレームには、「A」~「F」の検出データが順に配列されている。また、10個目のフレームがデータなしであり、11個目から14個目のフレームには「G」~「J」の検出データが順に配列されている。15個目のフレームが再度データなしであるが、16個目のフレームには「K」の検出データが配列されている。そして、17個目以降のフレームはデータなしが連続している。このようなデータ配列は、
図5中の上部枠内に示した一連のフレーム画像毎の判定結果に対応している。
【0053】
〔内部状態のデータ配列〕
処理テーブルの中段に示される「内部状態」のデータ配列は、上段の「検出結果」のデータ配列に基づいて決定される。具体的には、フィルタリング部142は、連続するn個(例えば3個)のデータ中に検出データが所定割合(例えば6割)以上含まれる場合、内部状態を「検出状態」とし、所定割合に満たない場合は内部状態を「未検出状態」とする。この例では、左から3個のフレームには検出データがないため、ここまでの内部状態は「未検出状態」となっている。2個目から4個目のフレームには検出データAが1つあるが、6割に満たないため内部状態は「未検出状態」のままである。3個目から5個目のフレームには検出データA及びBがあり、6割以上となることから、ここから内部状態は「検出状態」となる。以後も同様に、連続するn個のデータ中に6割以上の検出データがあれば、内部状態は「検出状態」となる。そして、15個目から17個目のフレームには検出データKが1つとなり、ここから内部状態は「未検出状態」となる。
【0054】
〔出力のデータ配列〕
処理テーブルの下段に示される「出力」のデータ配列は、フィルタリング部142が出力する検出データを示している。フィルタリング部142からの出力は、人物判定部136の判定結果に基づいて生成した擬制的な検出結果である。具体的には、「内部状態」が「検出状態」である場合、フィルタリング部142は、最後に得られた検出データをその時点での検出結果と擬制して(みなして)出力する。この例では、時系列で最初に内部状態が「検出状態」となった時点では、最後に得られた検出データBを出力している。以後は順次、検出データC、D、E、Fを出力するが、10個目のフレームで検出データなしとなった場合、この時点で最後に得られていた検出データFを出力している。次からは再び、検出データG、H、I、Jが出力されるが、15個目のフレームでは検出データなしとなっているため、この時点で最後に得られていた検出データJを出力している。そして、16個目では検出データKが最後となるため、この時点で検出データKを出力する。
【0055】
〔フィルタリング処理(2)〕
図6に示されるフィルタリング処理(2)は、上記のフィルタリング処理(1)と異なるロジックで「内部状態」及び「出力」を処理する。すなわち、
図6中の上部枠内に示される判定結果は同じであるが、下部領域に示される処理テーブル中段の「内部状態」及び下段の「出力」のデータ配列が
図5と異なっている。なお、処理テーブル上段の「検出結果」は
図5と同じである。
【0056】
〔内部状態のデータ配列〕
例えば、検出データが未だ得られていない初期の段階では、内部状態が「未検出状態」となっている。ここから、nフレーム(例えば3フレーム)連続で検出データが得られた場合、フィルタリング部142は内部状態を「検出状態」とする。この例では、太枠で示す4個目から6個目のフレームには検出データA、B及びCがあり、nフレーム連続していることから、ここから内部状態は「検出状態」となる。そして、これ以後は同じ内部状態を継続し、nフレーム連続して検出データが得られなかった場合は内部状態を「未検出状態」とする。この例では、太枠で示す17個目から19個目のフレームがデータなしとなっており、nフレーム連続していることから、ここから内部状態は「未検出状態」となる。
【0057】
〔出力のデータ配列〕
フィルタリング処理(2)でも同様に、「内部状態」が「検出状態」である場合、フィルタリング部142は、最後に得られた検出データをその時点での検出結果と擬制して(みなして)出力する。この例では、時系列で最初に内部状態が「検出状態」となった時点では、最後に得られた検出データCから出力する点がフィルタリング処理(1)と異なる。以後は順次、検出データD、E、Fを出力し、10個目のフレームで検出データなしとなった場合、この時点で最後に得られていた検出データFを出力する点は同じである。次からは、検出データG、H、I、Jが出力されるが、15個目のフレームでは検出データなしとなっているため、この時点で最後に得られていた検出データJを出力し、そして、17個目と18個目のフレームでは検出データKが最後となるため、それぞれ検出データKを出力する。
【0058】
〔発話タイミング〕
図7は、検出エリア判定部140による処理の概要を示す図である。検出エリア判定部140は、フィルタリング部142による検出結果(検出データB、C、・・・K)で示される人物Pに基づいて、人物Pが検出エリアDAに進入したか否かを判定する。このとき、人物Pがどの場所(距離)にいるかについては、各検出データに示されるバウンディングボックスの大きさから推定する。人物Pまでの距離とバウンディングボックスの大きさ(高さ)との関係を予め相関データとして記憶しておくことで、各検出データに示されるバウンディングボックスの大きさから人物Pまでの距離を推定する。
【0059】
検出エリア判定部140は、フィルタリング部142からの出力に基づいて検出エリアDA外の遠方から人物Pを追跡し、常時、その距離を推定している。その結果、人物Pが検出エリアDA(この例では5m以内)に進入したと判定すると、そのタイミングで検出エリア判定部140は演算部122に判定結果を出力する。これを受けて、演算部122が出力装置126を駆動し、マイク・スピーカ128から発話音声を出力させる。これにより、実際に人物Pが検出エリアDAに進入したタイミングで、直ちに(遅延することなく)移動ロボットRBから「こんにちは 熱中症に注意してください」といった声掛けが適切に実行されることになる。なお、声掛けの内容はこれに限定されない。
【0060】
〔処理プログラムの例〕
以上の説明で声掛けシステム110の各機能ブロックによる処理の概要は明らかとなっているが、以下では、フローチャートを用いて具体的な処理の手順を説明する。
【0061】
〔フィルタリング処理(1)〕
図8は、フィルタリング部142で実行されるプログラムの一部として、フィルタリング処理(1)の手順例を示すフローチャートである。この処理は、
図5に示す処理テーブルに対応する。以下、手順例に沿って説明する。
【0062】
ステップS100:フィルタリング部142は、nフレーム数を初回定義する。ここでは、例えばnフレーム数を「3個」と定義する。なお、定義は初回のフレームに対して処理を実行した場合のみ行い、以後のフレームで繰り返し処理を実行した場合には重ねて定義しない。また、ここで定義するnフレーム数の値は声掛けシステム110に対して任意に書き換え可能とする。
【0063】
ステップS102:フィルタリング部142は、毎フレームの人物判定部136の判定結果(検出データ)を入力する。ここで入力する判定結果は、各フレームの(検出データA)、(検出データB)、・・・(検出データK)、(検出データなし)等である。
【0064】
〔1フレーム目の処理〕
ステップS104:フィルタリング部142は、検出データがある場合(Yes)、ステップS106に進むが、
図5の処理テーブルの例では、1個目のフレームに検出データがないため(No)、ステップS118に進む。
【0065】
ステップS118:フィルタリング部142は、変数Nが0より大か確認する。ここで、変数Nは初期値0に設定されているため、ここでは変数Nは0より大とならず(No)、ステップS124に進む。
【0066】
ステップS124:フィルタリング部142は、変数Nを1インクリメントする。ここでは、初期値0であった変数Nに値「1」が代入される。
ステップS126:フィルタリング部142、内部状態を「未検出」に設定する。したがって、
図5の処理テーブルの例では、1個目のフレームで内部状態が「未検出」となる。
【0067】
ステップS128:フィルタリング部142は、検出データ「なし」を出力する。すなわち、
図5の処理テーブルの例では、1個目のフレームで出力なしとなる。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、2フレーム目について本処理を実行する。
【0068】
〔2フレーム目の処理〕
ステップS118:2フレーム目の処理では、検出データなし(ステップS104=No)の場合でも変数Nが0より大となっているため(Yes)、ステップS106に進む。
ステップS106:フィルタリング部142は、変数Nを1インクリメントする。2フレーム目では、変数Nに値「2」が代入されることになる。
【0069】
ステップS108:フィルタリング部142は、変数Nが定義したフレーム数nに等しければ(Yes)、ステップS110に進むが、ここではフレーム数n(3個)に満たないため(No)、ステップS126に進む。
【0070】
ステップS126:フィルタリング部142、内部状態を「未検出」に設定する。したがって、
図5の処理テーブルの例では、2個目のフレームで内部状態が「未検出」となる。
ステップS128:そして、フィルタリング部142は、検出データ「なし」を出力する。すなわち、
図5の処理テーブルの例では、2個目のフレームで出力なしとなる。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、3フレーム目について本処理を実行する。
【0071】
〔3フレーム目の処理〕
ステップS118:3フレーム目の処理では、検出データなし(ステップS104=No)の場合でも変数Nが0より大となっているため(Yes)、ステップS106に進む。
ステップS106:フィルタリング部142は、変数Nを1インクリメントする。3フレーム目では、変数Nに値「3」が代入されることになる。
【0072】
ステップS108:この場合、変数Nが定義したフレーム数nに等しいため(Yes)、ステップS110に進む。
ステップS110:フィルタリング部142は、nフレーム中の検出データ数と閾値x(例えばx=2)とを比較し、閾値x以上(Yes)の場合はステップS112に進む。ただし、
図5の処理テーブルの例では、3フレーム目で検出データ数は未だ0であるため(No)、ステップS120に進む。なお、閾値xの値は任意に書き換え可能である。
【0073】
ステップS120:フィルタリング部142は、内部状態を「未検出」に設定する。したがって、
図5の処理テーブルの例では、3個目のフレームで内部状態が「未検出」となる。
【0074】
ステップS122:そして、フィルタリング部142は、検出データ「なし」を出力する。すなわち、
図5の処理テーブルの例では、3個目のフレームで出力なしとなる。
ステップS116:ここで、フィルタリング部142は変数Nを1デクリメントする。これにより、変数Nに値「2=3-1」が代入されることになる。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、4フレーム目について本処理を実行する。
【0075】
〔4フレーム目の処理〕
ステップS104:
図5の処理テーブルの例では、4フレーム目で検出データAが入力されている。このため、検出データありとなり(Yes)、ステップS106に進む。
ステップS106:フィルタリング部142は、変数Nを1インクリメントする。4フレーム目では、再び変数Nに値「3=2+1」が代入されることになる。
【0076】
ステップS108:この場合、変数Nが定義したフレーム数nに等しいため(Yes)、ステップS110に進む。
ステップS110:
図5の処理テーブルの例では、4フレーム目で検出データ数は1であるため(No)、ステップS120に進む。
【0077】
ステップS120:フィルタリング部142は、内部状態を「未検出」に設定する。したがって、
図5の処理テーブルの例では、4個目のフレームで内部状態が「未検出」となる。
【0078】
ステップS122:そして、フィルタリング部142は、検出データ「なし」を出力する。すなわち、
図5の処理テーブルの例では、4個目のフレームで出力なしとなる。
ステップS116:また、フィルタリング部142は変数Nを1デクリメントする。これにより、再び変数Nに値「2=3-1」が代入されることになる。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、5フレーム目について本処理を実行する。
【0079】
〔5フレーム目の処理〕
ステップS104:
図5の処理テーブルの例では、5フレーム目で検出データBが入力されている。このため、検出データありとなり(Yes)、ステップS106に進む。
ステップS106:フィルタリング部142は、変数Nを1インクリメントする。5フレーム目では、再び変数Nに値「3=2+1」が代入される。
【0080】
ステップS108:この場合、変数Nが定義したフレーム数nに等しいため(Yes)、ステップS110に進む。
ステップS110:
図5の処理テーブルの例では、5フレーム目で検出データ数は2であるため(Yes)、ステップS112に進む。
【0081】
ステップS112:ここでフィルタリング部142は、内部状態を「検出」に設定する。したがって、
図5の処理テーブルの例では、5個目のフレームで内部状態が「検出」となる。
【0082】
ステップS114:そして、フィルタリング部142は、最新の検出データを出力する。すなわち、
図5の処理テーブルの例では、5個目のフレームで最新の検出データBが出力されることになる。
ステップS116:また、フィルタリング部142は変数Nを1デクリメントする。これにより、再び変数Nに値「2=3-1」が代入されることになる。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、6フレーム目以降についても順次、本処理を実行する。
【0083】
〔10フレーム目の処理〕
10フレーム目の処理は以下となる。
ステップS118:
図5の処理テーブルの例では、10フレーム目の処理で検出データなし(ステップS104=No)の場合でも、変数Nが0より大となっており(Yes)、ステップS106に進む。
ステップS106:フィルタリング部142は、変数Nを1インクリメントする。10フレーム目では、変数Nに値「3」が代入されることになる。
【0084】
ステップS108:この場合、変数Nが定義したフレーム数nに等しいため(Yes)、ステップS110に進む。
ステップS110:
図5の処理テーブルの例では、10フレーム目で検出データ数は2であるため(Yes)、ステップS112に進む。
【0085】
ステップS112:フィルタリング部142は、内部状態を「検出」に設定する。したがって、
図5の処理テーブルの例では、10個目のフレームで内部状態が「検出」となる。
【0086】
ステップS114:そして、フィルタリング部142は、最新の検出データを出力する。すなわち、
図5の処理テーブルの例では、10個目のフレームで最新の検出データFが出力されることになる。
ステップS116:また、フィルタリング部142は変数Nを1デクリメントする。これにより、再び変数Nに値「2=3-1」が代入されることになる。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、11フレーム目以降についても順次、本処理を実行する。
【0087】
〔17フレーム目の処理〕
17フレーム目の処理は以下となる。
ステップS118:
図5の処理テーブルの例では、17フレーム目の処理で検出データなし(ステップS104=No)の場合でも、変数Nが0より大となっており(Yes)、ステップS106に進む。
ステップS106:フィルタリング部142は、変数Nを1インクリメントする。10フレーム目では、変数Nに値「3」が代入されることになる。
【0088】
ステップS108:この場合、変数Nが定義したフレーム数nに等しいため(Yes)、ステップS110に進む。
ステップS110:
図5の処理テーブルの例では、17フレーム目で検出データ数は1であるため(No)、ステップS120に進む。
【0089】
ステップS120:フィルタリング部142は、ここで内部状態を「未検出」に設定する。したがって、
図5の処理テーブルの例では、17個目のフレームで内部状態が「未検出」となる。
【0090】
ステップS122:そして、フィルタリング部142は、検出データ「なし」を出力する。すなわち、
図5の処理テーブルの例では、17個目のフレームで出力なしとなる。
ステップS116:また、フィルタリング部142は変数Nを1デクリメントする。これにより、再び変数Nに値「2=3-1」が代入されることになる。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、18フレーム目以降についても順次、本処理を実行する。
【0091】
〔フィルタリング処理(2)〕
図9は、フィルタリング処理(2)の手順例を示すフローチャートである。この処理は、
図6に示す処理テーブルに対応する。以下、手順例に沿って説明する。
【0092】
ステップS200:フィルタリング部142は、nフレーム数を初回定義する。処理の内容はフィルタリング処理(1)のステップS100と同様である。
ステップS202:フィルタリング部142は、毎フレームの人物判定部136の判定結果(検出データ)を入力する。処理の内容はフィルタリング処理(1)のステップS102と同様である。
【0093】
〔1フレーム目の処理〕
ステップS204:フィルタリング部142は、検出データがある場合(Yes)、ステップS206に進むが、
図6の処理テーブルの例では、1個目のフレームに検出データがないため(No)、ステップS216に進む。
【0094】
ステップS216:フィルタリング部142は、変数N1を値「0」にリセットし、変数N2を1インクリメントする。変数N2は初期値0に設定されているため、ここでは変数N2に値「1」が代入される。なお、変数N1も初期値0である。
ステップS218:フィルタリング部142は、変数N2が定義したフレーム数nに等しければ(Yes)、ステップS224に進むが、ここではフレーム数n(3個)に満たないため(No)、ステップS220に進む。
【0095】
ステップS220:フィルタリング部142は、内部状態が「検出」である場合(Yes)、ステップS214に進む。ただし、
図6の処理テーブルの例では、1フレーム目の内部状態は「未検出」であるため(No)、ステップS222に進む。
【0096】
ステップS222:フィルタリング部142は、検出データ「なし」を出力する。すなわち、
図6の処理テーブルの例では、1個目のフレームで出力なしとなる。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、2フレーム目以降についても順次、上記と同様に本処理を実行する。
【0097】
〔4フレーム目の処理〕
4フレーム目の処理は以下となる。
ステップS204:
図6の処理テーブルの例では、4フレーム目に検出データAがあるため(Yes)、ステップS206に進む。
ステップS206:フィルタリング部142は、変数N
2を値「0」にリセットし、変数N
1を1インクリメントする。変数N
1は初期値0に設定されているため、ここでは変数N
1に値「1」が代入される。
【0098】
ステップS208:フィルタリング部142は、変数N1が定義したフレーム数nに等しければ(Yes)、ステップS210に進むが、ここではフレーム数n(3個)に満たないため(No)、ステップS220に進む。
【0099】
ステップS220:フィルタリング部142は、内部状態が「検出」である場合(Yes)、ステップS214に進む。ただし、
図6の処理テーブルの例では、4フレーム目の内部状態は「未検出」であるため(No)、ステップS222に進む。
【0100】
ステップS222:フィルタリング部142は、検出データ「なし」を出力する。すなわち、
図6の処理テーブルの例では、4個目のフレームで出力なしとなる。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、5フレーム目ついても順次、上記と同様に本処理を実行する。
【0101】
〔6フレーム目の処理〕
6フレーム目の処理は以下となる。
ステップS204:
図6の処理テーブルの例では、6フレーム目に検出データCがあるため(Yes)、ステップS206に進む。
ステップS206:フィルタリング部142は、変数N
2を値「0」にリセットし、変数N
1を1インクリメントする。前回の5フレーム目の処理で変数N
1に値「2=1+1」が代入されているため、ここで変数N
1に値「3=2+1」が代入される。
【0102】
ステップS208:フィルタリング部142は、変数N1が定義したフレーム数nに等しいため(Yes)、ステップS210に進む。
【0103】
ステップS210:フィルタリング部142は、内部状態を「検出」に設定する。これにより、
図6の処理テーブルの例では、6個目のフレームの内部状態が「検出」となる。
ステップS212:そして、変数N
1を値「0」にリセットする。
【0104】
ステップS214:フィルタリング部142は、最新の検出データを出力する。すなわち、
図6の処理テーブルの例では、6個目のフレームで最新の検出データCが出力される。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、7フレーム目ついても順次、上記と同様に本処理を実行する。7フレーム目から18フレーム目までは、変数N
2が定義したフレーム数nに満たないため、内部状態は「検出」となる。
【0105】
〔19フレーム目の処理〕
19フレーム目の処理は以下となる。前回18フレーム目の処理までで、変数N
2が値「2」となっている。
ステップS204:
図6の処理テーブルの例では、19フレーム目が検出データなしであるため(No)、ステップS216に進む。
【0106】
ステップS216:変数N1を値「0」にリセットし、変数N2を1インクリメントする。前回の18フレーム目の処理で変数N2に値「2=1+1」が代入されているため、ここで変数N2に値「3=2+1」が代入される。
【0107】
ステップS218:フィルタリング部142は、変数N2が定義したフレーム数nに等しいため(Yes)、ステップS224に進む。
【0108】
ステップS224:フィルタリング部142は、内部状態を「未検出」に設定する。これにより、
図6の処理テーブルの例では、19個目のフレームの内部状態が「未検出」となる。
ステップS226:そして、変数N
2を値「0」にリセットする。
【0109】
ステップS222:フィルタリング部142は、検出データ「なし」を出力する。すなわち、
図6の処理テーブルの例では、19個目のフレームで出力なしとなる。
フィルタリング部142は、ここで本処理を一旦離脱(リターン)する。そして、20フレーム目以降についても順次、上記と同様に本処理を実行する。
【0110】
〔声掛け音声出力処理〕
図10は、演算部122で実行されるプログラムの一部として声掛け音声出力処理の手順例を示すフローチャートである。以下、手順例に沿って説明する。
【0111】
ステップS300:演算部122は、フィルタリング部142から検出データを入力する。ここで入力する検出データは、
図5又は
図6の処理テーブルの例に示されるように、擬制的に生成されたものとなる。
ステップS302:検出データがある場合(Yes)、ステップS304に進む。検出データがない場合(No)、ここで本処理を一旦離脱(リターン)する。
【0112】
ステップS304:演算部122は、検出エリア判定部140の判定結果を取得し、人物が検出エリアDA内に進入したと判定された場合(Yes)、次にステップS306を実行する。それ以外では(No)、ここで本処理を一旦離脱(リターン)する。
【0113】
ステップS306:演算部122は、声掛け音声出力を出力装置126に対して指示する。これにより、人物が検出エリアDA内に進入した発話タイミングでマイク・スピーカ128から発話音声が出力される。
【0114】
以上の手順を実行すると、演算部122は本処理を離脱(リターン)する。そして、上記同様の手順を繰り返し実行する。
【0115】
このように、声掛けシステム110の各部が処理を連係又は協働して実行することにより、移動ロボットRBによる声掛けが適切に実行されることになる。
【0116】
なお、上記の処理では便宜上、未検出状態では「検出データなし」といったステータス情報を出力することとしているが、未検出状態では検出情報そのものを出力しないこととしてもよい。
【0117】
以上のような実施形態の発話制御装置100によれば、人物を高速に判定(検出)することで適切なタイミングを逸することなく、また、連呼することなく発話を制御することができる。これにより、例えば建設現場CSのように不特定の人物がランダムに移動している場合であっても、移動ロボットRBが日中、建設現場CS内を自律移動しながら作業者にタイミングよく声掛けし、その際に声掛けの内容を確実に人物に聞かせることができる。また、高速AIモデルを搭載することによる不確実性(低い検出率)が適切に補償され、実用的で違和感のない声掛けシステム110を実現することができる。
【0118】
また、建設現場CS等では、例えば周囲環境の明るさが充分でなく、IPカメラ112で人物を鮮明に撮像できないフレームがあったり、人物の動きが想定よりも速く、人物画像が不鮮明となるフレームがあったりする。これらの場合、nフレーム連続で検出データを得ることができないことが頻繁に生じるため、高速モデルではさらに検出率が低くなるが、フィルタリング処理(1)のロジックを用いれば、nフレーム中のデータありとデータなしの比率(検出データが所定割合以上)であれば検出データありと擬制することで、未検出フレームの絶対数を低く抑えることができる。
【0119】
本発明は上述した実施形態に制約されることなく、種々に変形して実施することが可能である。
既に述べたように、発話制御装置100を適用する対象は移動ロボットRBに限られず、固定式のロボットであってもよいし、ロボットの形態ではない車両その他のマシン、あるいは据え置き型の機器であってもよい。
【0120】
IPカメラ112やマイク・スピーカ128の設置個数や位置、形状、向き等は適宜に選択又は変更することができる。また、AI処理高速化装置114は必須ではなく、特にこれを用いなくてもよい。
【0121】
また、各種処理(
図8~
図10)で挙げた手順例は適宜に変更可能であるし、必ずしも手順例の通りに処理が行われなくてもよい。また、各種処理をどのような契機(割り込みイベント処理又はトリガイベント処理)で実行させるかは適宜に決定してもよい。
【0122】
その他、実施形態等において図示とともに挙げた構造はあくまで好ましい一例であり、基本的な構造に各種の要素を付加し、あるいは一部を置換しても本発明を好適に実施可能であることはいうまでもない。
【符号の説明】
【0123】
100 発話制御装置
110 声掛けシステム
112 IPカメラ
118 対人距離判定部
122 演算部(音声出力部)
126 出力装置(音声出力部)
128 マイク・スピーカ(音声出力部)
136 人物判定部
140 検出エリア判定部
142 フィルタリング部
DA 検出エリア