(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-01
(45)【発行日】2024-02-09
(54)【発明の名称】発話制御装置
(51)【国際特許分類】
G06T 7/70 20170101AFI20240202BHJP
B25J 13/08 20060101ALI20240202BHJP
【FI】
G06T7/70 Z
B25J13/08 A
(21)【出願番号】P 2020052771
(22)【出願日】2020-03-24
【審査請求日】2023-01-16
(73)【特許権者】
【識別番号】302060926
【氏名又は名称】株式会社フジタ
(74)【代理人】
【識別番号】100120592
【氏名又は名称】山崎 崇裕
(74)【代理人】
【識別番号】100184712
【氏名又は名称】扇原 梢伸
(74)【代理人】
【識別番号】100192223
【氏名又は名称】加久田 典子
(72)【発明者】
【氏名】山口 瞳
(72)【発明者】
【氏名】權 純洙
【審査官】新井 則和
(56)【参考文献】
【文献】特開2007-160442(JP,A)
【文献】特開2019-154575(JP,A)
【文献】デバイスセンサ情報を基にしたクラウド音声認識プロセス管理方法,電子情報通信学会技術研究報告 Vol.119 No.482,2020年03月09日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/70
B25J 13/08
(57)【特許請求の範囲】
【請求項1】
人物判定用の器具を所持しない不特定の人物が任意に移動する所定の撮像エリアを連続的に撮像して得られた画像から人物を連続的に判定可能な人物判定部と、
前記人物判定部の判定結果を用いて人物までの対人距離を連続的に判定する対人距離判定部と、
前記対人距離判定部の判定結果を用いて対人距離の変化量を連続的に判定する距離変位判定部と、
前記距離変位判定部の判定結果に基づ
き、
前記人物判定部が画像から人物を判定するまでの遅延の間の移動を加味して人物が所定間隔離れた発話地点に到達する
発話タイミングを推測し
、当該推測した発話タイミングで発話音声を出力させる音声出力部と
を備えた発話制御装置。
【請求項2】
請求項1に記載の発話制御装置において、
前記撮像エリア内に前記発話地点を含む所定の検出エリアを規定し、前記人物判定部及び前記対人距離判定部の判定結果に基づいて、前記検出エリアへの人物の進入経路を判定する検出エリア判定部をさらに備え、
前記音声出力部は、
前記検出エリア判定部により前記撮像エリア内で前記検出エリアよりも遠方からの進入経路であると判定されたか、もしくは、前記撮像エリアの両側方から前記検出エリアへの進入経路であると判定された場合に、前記発話タイミングで発話音声を出力させることを特徴とする発話制御装置。
【請求項3】
請求項2に記載の発話制御装置において、
前記音声出力部は、
前記検出エリア判定部により、人物の進入経路が前記検出エリアより近い前記撮像エリア外の方向からであると判定された場合、前記発話地点に到達すると推測することなく発話音声を出力させることを特徴とする発話制御装置。
【請求項4】
請求項2又は3に記載の発話制御装置において、
前記検出エリア判定部は、
前記人物判定部、前記対人距離判定部及び前記距離変位判定部の判定結果に基づいて、前記検出エリア内にいる人物が前記発話地点に到達することなく前記撮像エリアの両外側方向に移動したことをさらに判定可能であり、
前記音声出力部は、
前記検出エリア判定部により前記撮像エリアの両外側方向に人物が移動したことが判定された場合、前記発話地点に到達すると推測することなく発話音声を出力させることを特徴とする発話制御装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば発話機能を有する対人ロボット等への適用が可能な発話制御装置に関する。
【背景技術】
【0002】
従来、人物を検出してロボット等から発話させる先行技術が知られている(例えば、特許文献1参照。)。この先行技術の例では、建物内に検知領域を設定して人物の位置を特定し、カメラなどのセンサで人物とロボットとの位置を随時検出する。そして、ロボットと人物との位置関係に基づいて人物の移動距離を随時推定し、対話可能距離以下で人物の顔を認識することができた場合、ロボットに人物との対話を実行させることとしている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した先行技術は、対話を実行させる相手が予めICタグを所持した人物であるため、特段に複雑な判定処理を用いることなく、無線ICタグリーダ等による単純検知だけで容易に人物を検出可能である。また、対象とする人物は決まった建物(介護施設)内に収容されている監視対象者であり、検知領域に入った人物が建物から退出する移動経路についても予め限定(想定)されているため、対話可能距離以下に人物が移動したことについても容易に推定可能である。このため先行技術は、発話を実行させるための制御処理が至って簡素である。
【0005】
しかしながら、発話対象が不特定の人物であって、人物がどの場所を通るかについて未知であり、かつ、移動経路もランダムである不特定な条件下での発話の実行を前提とした場合、先行技術の手法では適切に制御することができない。
【0006】
そこで本発明は、不特定な条件下でも適切に発話を制御する技術を提供するものである。
【課題を解決するための手段】
【0007】
本発明は、発話制御装置を提供する。この発話制御装置は、所定の撮像エリアを連続的に撮像して得られた画像から人物(人物が存在すること)を連続的に判定可能である。このような判定は、例えば畳み込みニューラルネットワークを用いた画像認識モデル(いわゆる人工知能モデル)を用いて実現可能である。画像認識で用いて得られた人物の判定結果には、撮像領域に占める人物の画像領域(大きさ)が情報として含まれる。このため人物の判定結果は、ある基準点(例えばカメラ等の撮像地点)から人物までの距離の判定に用いることができる。
【0008】
人物までの距離が判定できれば、この対人距離が適切な値(例えば、発話されたことに人物が気付きやすく、また、発話音声が人物に聞き取りやすい距離)となった時に発話音声を出力させればよいと一見して考えられる。しかし、このような考え方は、人物の判定から対人距離の判定、そして発話音声の出力までの間に遅延を生じない限りにおいて有効であり、何らかの遅延を生じる前提では当てはまらない。というのも、連続画像から人物を連続的に判定可能とするには、画像認識モデルを精緻な構成(いわゆる高精度AIモデル)とする必要がある。そして、人物判定の精度と処理速度とはトレードオフの関係にあり、高精度な人物判定には時間的な遅延が伴うことから、人物の判定が即座に対人距離の判定とはならず、理想のタイミングで発話音声を出力させるためには、何らかの補償をする必要が生じてくる。
【0009】
そこで本発明の発話制御装置は、対人距離の変化量から人物の移動傾向を測り、そこから推測して最適なタイミングで発話音声を出力させることとしている。すなわち、人物の判定結果から対人距離を判定することで、対人距離の変化量(単位時間Δtあたりの距離変位ΔD)を判定することができる。この変化量の判定結果からは、さらに人物の移動傾向が得られることになる。したがって、人物の判定結果を得るまでの遅延時間を加味した上で、人物の移動傾向から最適な発話地点に人物が到達するタイミングを推測すれば、実際に人物が最適な場所に到達したタイミングで発話音声を出力させることができる。
【0010】
これにより、予めID情報等を所持しない不特定多数の人物が、任意の場所をランダムな方向に移動するような環境(例えば建設現場)においても、高精度モデルを用いて人物を判定した場合、その人物との位置関係が最適な距離となるタイミングで発話音声を出力させることにより、発話されたことを人物に気付かせやすくし、また、発話内容を人物に聞き取りやすくすることができる。
【0011】
上記の発話制御では、発話地点をピンポイント(基準点から等距離線上にある各地点)に設定しているため、人物が発話地点に到達するタイミングの推測をどの時点から開始すればよいかについての基準が必要となる。例えば、極端に遠方(対人距離が15m以上)の場所にいる人物を判定したとしても、その人物が発話地点に向かってくるとは限らず、場合によっては撮像エリアから居なくなってしまうこともあり得るため、あまり離れた地点から発話タイミングの推測を開始することは無意味である(無駄が多い)。逆に、いままで撮像エリア内に存在していなかった人物を突如として判定した場合、その人物が既に発話地点の近くに居るのであれば、直ぐにでも発話タイミングの推測を開始する必要がある。
【0012】
このような基準を設けるため、発話制御装置は予め「検出エリア」を規定することとしている。検出エリアは、撮像エリア内で発話地点を含む一定の範囲とすることができ、好ましくは発話地点の前後に幅(例えば前後にそれぞれ1~2m)を持たせるのがよい。その上で、人物が検出エリア内に進入してきた際に発話タイミングの推測を開始すれば、その人物は間もなく発話地点に到達する蓋然性が高いと言えるので、適切な時期から推測を開始して発話音声を出力させることが可能となる。
【0013】
また、一方で発話制御装置は、移動する人物を連続画像から連続的に判定可能な高精度モデルを用いていることから、撮像エリア内で判定した人物の移動を正確に追跡することができる。すなわち、人物までの対人距離及びその変化量を連続的に判定することは、同じ人物を追い続ける判定が可能であることを意味している。したがって、検出エリア以外の場所(例えば遠方)から既に人物を判定していた場合、同じ人物の移動を追跡することで、その人物が検出エリアに進入した際の経路を「遠方からの進入」と判定することができる。あるいは、それまで判定(追跡)していなかった人物を突如、ある時点に検出エリア内で判定した場合、その人物が検出エリアに進入した際の経路を「撮像エリア外(両側方)からの進入」と判定することができる。これらの進入経路を判定した場合、そこから発話タイミングの推測を開始することで、実際に人物が発話地点に到達するタイミングで適切に発話音声を出力させることができる。
【0014】
上記のような、人物の検出エリアへの進入経路に基づく発話タイミングの推測開始は、人物がある程度理想的なパターンで移動してきた場合には有効であるが、あくまで人物の移動はランダムであるから、常にいずれかの進入経路を判定できるとは限らない。そこで発話制御装置は、一定の例外を設けることとしている。すなわち、人物の進入経路が検出エリアよりも近い、撮像エリア外の方向(手前側)からであると判定した場合、発話タイミングを推測することなく、直ちに発話音声を出力させる。このような進入経路でやってきた人物は、発話元に対して遠方から近づいてきたり、両側方(左右)から来て前を通過したりするパターンと異なり、基本的に発話元に背を向けたまま離れていくパターンであると考えられる。したがって、このような人物の進入経路を判定した場合は即座に発話音声を出力させることで、適切なタイミングで発話内容を聞かせることができる。
【0015】
また、上記のように検出エリアは、その中に発話地点を含むものではあるが、検出エリア内の人物が必ず発話地点に到達するとも限らない。すなわち、ある人物が一度は検出エリアに進入したものの、発話地点に到達することなく検出エリアの外に出て行くことも充分にあり得る。この場合、「発話地点に到達すると推測されない」ことをもって、発話音声を出力させなかったとすると、ある程度発話地点の近くまで人物が来ていたのに、せっかくの発話機会を逸してしまうことになる。
【0016】
そこで発話制御装置は、検出エリア内にいる人物が発話地点に到達するタイミングを推測しつつ、その人物が撮像エリア外に出ようとしたと判定すると、直ちに発話音声を出力させることとしている。これにより、人物に対する発話の機会を逸することなく、適切に発話音声を出力させることができる。
【発明の効果】
【0017】
本発明によれば、適切に発話を制御することができる。
【図面の簡単な説明】
【0018】
【
図1】発話制御装置の適用場面を一例として示す図である。
【
図2】建設現場CS内で移動ロボットRBが発話音声を出力する場面を例示した図である。
【
図3】一実施形態の発話制御装置100の構成例を示すブロック図である。
【
図4】声掛けシステム110による処理の概要を示す図である。
【
図5】対人距離判定部118による処理の概要を示す図である。
【
図6】人物が遠方から検出エリアDAに進入した場合の声掛けパターンを示す図である。
【
図7】人物が左右から検出エリアDAに進入した場合の声掛けパターンを示す図である。
【
図8】人物が前方から検出エリアDAに進入した場合の声掛けパターンを示す図である。
【
図9】人物が検出エリアDAから左右に移動した場合の声掛けパターンを示す図である。
【
図10】声掛け音声出力処理の手順例を示すフローチャートである。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態について図面を参照しながら説明する。以下の実施形態では、発話制御装置を移動ロボット(自走式ロボット)による音声出力に適用した例を挙げているが、本発明はこの例に限られるものではない。
【0020】
図1は、発話制御装置の適用場面を一例として示す図である。本実施形態では、例えば、大型ビルやマンション、医療施設、福祉施設といった建物の建設現場CSでの使用を想定することができる。この建設現場CSは、建物の構造体(コンクリートの梁BM、壁WL、床FL、柱CL等)がある程度出来上がった状態にあり、内部を人(作業員等)が歩くことができる状態にある。また、
図1には示されていないが、建設現場CSには開けた空間の他に、通路や部屋、エレベータシャフト、階段室等も存在する。
【0021】
この建設現場CSには、例えば自走式の移動ロボットRBが配置されている。移動ロボットRBは、例えば4つの車輪WHで建設現場CS内を移動することができる。また、移動ロボットRBは、内蔵のIPカメラ112を用いて周囲を撮像したり、マイク・スピーカ128を用いて集音及び発音(発話音声出力)したりすることができる。
【0022】
移動ロボットRBが建設現場CS内を移動して得た情報は、無線通信を介して例えばクラウドコンピュータ上にアップロードされる。また、移動ロボットRBは、クラウドコンピュータから更新情報を適時ダウンロードしてシステムをアップデートすることができる。このような移動ロボットRBは、既に多く提供されている公知の自律移動制御システムや環境検知システムを備えるものであり、その詳細についての説明は省略する。なお、移動ロボットRBは歩脚式のものでもよい。
【0023】
本実施形態の発話制御装置は、この適用例に挙げた移動ロボットRBによる発話音声出力の制御を好適に実現する。以下、移動ロボットRBによる発話音声出力を「声掛け」としても呼称する。
【0024】
図2は、建設現場CS内で移動ロボットRBが発話音声を出力する場面を例示した図である。移動ロボットRBは、日時、周囲の環境、人物の認識を各種センサとAI(人工知能)を用いて行い、各人の状況や建設作業中に関係のある周囲の気候条件や環境に合わせた声掛けを行う。
【0025】
図2中(A):移動ロボットRBは、例えば建設現場CS内で作業員を人物認識し、日時や環境、声掛けの対象となる人物の状況に合わせた発話内容を選択する。この例では、人物が立ち止まった姿勢であること、現在が日中の時間帯であること、周囲気温が何らかの閾値を超過すること等の状況から総合判断して、「こんにちは 暑いので水分を取って下さい。」といった内容の声掛けを実行している。また、顔認識により人物個人を特定し、「○○さん」のように個人名を付した声掛けも実行することができる。
【0026】
図2中(B):また、移動ロボットRBは、例えば建設現場CS内で作業員を人物認識するとともに、建設関連情報を認識する。この例では、建設関連情報として人物が足場SCに登った高所作業中であることを状況判断し、「危ないですよ!注意して作業して下さい」といった内容の声掛けを実行している。
【0027】
このような声掛けの仕組みは、移動ロボットRBが決まった音声で声掛けする場合と比較して、安全性の向上に利する点が大きい。すなわち、移動ロボットRBが建設現場CS内を移動して回り、「人物認識したら機械的に定型の発話内容で声掛けする」というパターンでは、作業中の人物には発話内容があまり届かず、注意喚起にはつながらない。これに対し、作業員に対してその場の状況に合わせた具体的な健康情報や危険情報、建築関連情報を音声で案内する声掛けのパターンであれば、対象人物の注意喚起につながり、安全性向上に利する点が大きくなる。
【0028】
〔人物との位置関係〕
ここで、本実施形態の発話制御装置が取り扱う主題は、特に移動ロボットRBが声掛けを実行する際の人物との位置関係にある。すなわち、建設現場CS内には、多数の人物(作業関係者)が各所に存在し、各自がそれぞれに必要な行動をとっている。また、移動ロボットRBは移動ロボットRBで自律移動を行っているため、移動ロボットRBと人物との位置関係は一定していない。このような条件下では、発話対象となる人物(1~2人)との距離があまりに離れたところから移動ロボットRBが声掛けしても、その内容をはっきりと人物に届けることができない。そうかといって、あまりに近過ぎるところで声掛けすると、声掛けされた人物に煩わしさや唐突な印象を与えてしまう。
【0029】
上記の主題には、移動ロボットRBを発話元としたときの人物までの距離を適切に管理することで対応可能である。すなわち、移動ロボットRBからの声掛けが人物まで届きやすく、かつ、人物にとって聞き取りやすいと感じられる最適な距離があり、そのような最適距離をおいた場所に人物がいるタイミングで、移動ロボットRBから声掛けすればよい。
【0030】
〔遅延の問題〕
しかし、ここで新たに問題となるのは、人物の判定に要する時間である。すなわち、移動ロボットRBによる人物の判定(又は検知、検出)には、IPカメラ112で撮像した画像から人物を判定する人工知能モデルが用いられる。このとき、より高精度な人工知能モデルを適用することで、画像内に写っている人物をロストすることなく正確に判定(検出)することが可能であるが、高精度なモデルほど、処理に時間がかかることも確かである。このため、人物の判定で高精度な人工知能モデルを用いると、声掛けをするタイミングに遅延が生じることがある。これは、人物を正確に判定できても、その時点では既に人物が他所に移動してしまっていることを意味する。
【0031】
そこで本実施形態では、高精度人工知能モデルにより生じる処理の遅延を補償し、最適なタイミングで移動ロボットRBに声掛けさせる仕組みを構築する。以下、本実施形態で用いる声掛けの仕組みについて説明する。
【0032】
〔発話制御装置の構成〕
図3は、一実施形態の発話制御装置100の構成例を示すブロック図である。なお、
図3では一部に移動ロボットRBの構成要素も合わせて示されている。
【0033】
発話制御装置100は、声掛けシステム110を中心として構成されている。声掛けシステム110は、IPカメラ112やマイク・スピーカ128からの信号を入力とし、内部でAI(高精度モデル)による処理や各種の演算を行った上で、マイク・スピーカ128から発話音声を出力させる制御を実現する。
【0034】
マイク・スピーカ128は、例えば周囲の騒音レベルを計測したり、移動ロボットRBから発話音声を出力したりするために用いられる。なお、マイク・スピーカ128は別体式(マイクとスピーカが別)の構成であってもよい。
【0035】
IPカメラ112は、人物を含む周囲環境を撮像するために用いられる。IPカメラ112には、例えば公知の市販製品を適用することができる。IPカメラ112は、いわゆるパン、チルト、ズーム(PTZ)機能を備えたネットワークカメラであるが、本実施形態では特にPTZ機能を用いていない(ただし、用いてもよい。)。IPカメラ112は、移動ロボットRBの本体(例えば頭部)に内蔵されている(
図1参照)。ここでは、移動ロボットRBの進行方向正面にIPカメラ112の向きを設定している。
【0036】
また、声掛けシステム110には、AI処理高速化装置114が付加されている。AI処理高速化装置114には、例えば公知の市販製品を用いることができ、AI処理高速化装置114は、声掛けシステム110の内部で実行されるAI処理の高速化に寄与する。
【0037】
声掛けシステム110は、移動ロボットRBの制御部130と協働する。制御部130は、声掛けシステム110と協働して移動ロボットRBの移動装置132を制御する。例えば、声掛けシステム110が声掛けを実行する場合、制御部130は移動ロボットRBの移動を停止させたり、対象の人物との位置関係を調整したりする。あるいは、制御部130が移動ロボットRBを移動させつつ、声掛けシステム110が声掛けを実行することもある。
【0038】
声掛けシステム110は、例えば図示しないCPU(中央処理装置)及びその周辺機器を含むコンピュータ機器を用いて実現することができる。声掛けシステム110は、移動ロボットRBのシステムに追加して搭載される別のハードウエアでもよいし、移動ロボットRBが既に有するハードウエアにインストールされるソフトウエアでもよい。
【0039】
声掛けシステム110には、例えば人物判定部136や対人距離判定部118、距離変位判定部138、検出エリア判定部140、そして演算部122といった各種の機能ブロックが含まれている。これらの機能ブロックは、例えばコンピュータプログラムを用いて行うAI処理やソフトウエア処理によって実現することができる。本実施形態では、人物判定部136の処理に高精度AIモデルを採用している。各機能ブロックは、声掛けシステム110の内部バス(仮想バス)を通じて相互に連係しながら処理を実行する。
【0040】
また、声掛けシステム110には記憶部124や出力装置126が含まれる。記憶部124は、例えば半導体メモリや磁気記録装置である。記憶部124には、例えば声掛けシステム110が移動ロボットRBに出力させる発話内容の音声データが格納されている。出力装置126は、マイク・スピーカ128を駆動するドライバアンプ等である。なお、音声データは適宜アップデートすることが可能である。
【0041】
図4は、声掛けシステム110による処理の概要を示す図である。なお、具体的な処理の詳細については、さらに別途フローチャートを用いて後述する。
【0042】
例えば、
図4中の左側領域に示すように、声掛けシステム110には、移動ロボットRBに内蔵のIPカメラ112(
図4では省略)からの撮像信号が入力される。IPカメラ112による撮像は連続的に(例えば30~60フレーム毎秒(fps)で)行われ、それらのフレーム画像が連続的に声掛けシステム110に入力されている。
【0043】
〔撮像エリア〕
図4中の右側領域に示すように、撮像エリアはIPカメラ112の画角(例えば水平方向で左右64°程度、垂直方向で上方28°程度、下方10°程度)により規定される。フレーム画像は、この画角(視野)内に入る周囲環境を撮像したものとなる。なお、撮像エリアの範囲(角度)はこの例に限定されない。
【0044】
〔人物判定部〕
人物判定部136は、連続するフレーム画像から高精度AIモデルを用いた人物の判定(人物検知)処理を実行する。人物の判定は、例えば畳み込みニューラルネットワークを用いた画像認識処理で行われる。ここでは、AI処理高速化装置114のサポートを用いて、例えば1秒間に1回程度の頻度で人物を高精度に判定する。
【0045】
〔距離判定部〕
距離判定部118は、人物判定部136で判定した人物までの対人距離Dを判定する。ここでは、人物が一点鎖線の矩形枠(バウンディングボックス)で示されている(これ以降も同様。)。対人距離Dは、人物判定(検知又は検出)したときのバウンディングボックスより推論が可能である。
【0046】
〔検出エリア〕
声掛けシステム110は、撮像エリア内に検出エリアDA(
図4にグレーで示す範囲)を予め規定している。検出エリアDAは、例えば移動ロボットRBの中心(IPカメラ112による撮像地点)を基準点とした一定の範囲であり、ここでは半径R1~R3(例えば2m~5m)で示す扇状に近い帯状の範囲である。検出エリアDAには、移動ロボットRBからの声掛けに最適距離(例えば4m)と考えられる発話地点が含まれる。検出エリアDA内に太い実線で示した半径R2の円弧は、発話地点の集合を示している。なお、発話地点までの距離及び検出エリアDAの範囲はこの例に限定されない。
【0047】
〔発話地点〕
例えば、
図4中の〔15m〕の画像では、人物までの対人距離Dを「15m」と判定している。このような遠方にいる人物に対して声掛けすることはあまり効果的でない。
この後、同じ人物が遠方から検出エリアDA内に進入してくると、
図4中の〔4m〕の画像では、同じ人物について対人距離Dを「4m」と判定される。この場合、人物が発話地点にいると考えられるため、このタイミングで移動ロボットRBから「こんにちは 熱中症に気をつけましょう」等を声掛けさせれば、その内容を適切に人物に聞かせることができると考えられる。
これにより、
図4中〔1m〕の画像に示すように、この後に人物が対人距離D「1m」の場所に移動しても、人物に「そうか、よし気をつけよう」といった安全意識が向上する。
【0048】
〔発話タイミング〕
ただし、上記のように人物の判定には高精度AIモデルを用いたことによる遅延が生じるため、声掛けシステム110による発話タイミングの設定には、処理の遅延を加味した推測が用いられる。つまり、対人距離判定部118が対人距離Dを「4m」と判定したタイミングで声掛けするのではなく、人物が対人距離D「4m」の発話地点に到達すると内部で推測したタイミングで声掛けする。このため声掛けシステム110の距離変位判定部138は、対人距離Dの変化量(ΔD/Δt)を判定し、演算部122は、変化量の判定結果から得られる人物の移動傾向に基づいて、人物が発話地点に到達するタイミングを推測する。
【0049】
〔対人距離判定部〕
図5は、対人距離判定部118による処理の概要を示す図である。対人距離Dは、人物判定部136で人物を判定したときのバウンディングボックスにより判定することができる。
【0050】
具体的には、
図5中(A)に示すように、移動ロボットRBと人物が同じ水平面上にあって、移動ロボットRBの基準点(IPカメラ112)の高さをh、人物を判定したときのバウンディングボックスの高さをHとする。また、基準点とバウンディングボックスの上辺を結ぶ線と水平線との角度をθとする。人物の身長は平均値(例えば170cm)とする。
【0051】
この場合、対人距離Dとバウンディングボックスの高さHとの関係は、
図5中(B)に示す曲線で近似することができる。人物判定部136に高精度AIモデルを用いていることから、バウンディングボックスの高さH(大きさ)は高精度に得られる。したがって、対人距離判定部118は、バウンディングボックスの高さHから対人距離Dを正確に判定することができる。なお、
図5中(C)~(D)は、それぞれ画像フレーム内で人物を判定したときのバウンディングボックスの高さから、対人距離Dを15m、5m、4mと判定した場合の例を示している。
【0052】
以上のように、撮像エリア内(フレーム画像内)で人物を判定すると、バウンディングボックス高さHを用いて対人距離Dを判定する。このとき、対人距離Dが遠方(検出エリアDAの外)にある間は、人物判定部136が人物の判定を継続することで、同じ人物の移動を追跡することができる。また、対人距離判定部118が対人距離Dを判定し続けることで、検出エリアDAに人物が進入してきた際に、検出エリア判定部140はどのような進入経路であったかを判定することができる。以下、進入経路の判定とその時の声掛けパターンについて説明する。
【0053】
〔遠方から検出エリアに進入時〕
図6は、人物が遠方から検出エリアDAに進入した場合の声掛けパターンを示す図である。この声掛けパターンでは、人物判定部136が人物P1を検出エリアDA外の遠方で既に判定(検出)しており、その後も人物P1を追跡し続けている。また、対人距離判定部118が対人距離Dを判定し続けており、対人距離Dが5m以下になると、検出エリア判定部140が人物P1の進入経路を「遠方から進入」と判定する。
【0054】
この場合、距離変位判定部138が対人距離Dの変化量(単位時間あたりの変化ΔD/Δt)を連続的に判定し、この変化量に基づいて演算部122は、人物P1が発話地点(4mライン)に到達するタイミングを推測(又は推定)する。対人距離Dを正確に判定することが可能であるため、対人距離Dの変化量も正確に判定することができる。
【0055】
演算部122で推測するタイミングは、対人距離Dの変化量が大きければ早くなり、変化量が小さければ遅くなる。そして、推測したタイミングになると、演算部122が出力装置126に発話音声出力を指示する。これにより、移動ロボットRB(マイク・スピーカ128)から例えば「足下に注意して下さい」といった発話内容で声掛けが実行される。
【0056】
〔左右から検出エリアに進入時〕
図7は、人物が左右から検出エリアDAに進入した場合の声掛けパターンを示す図である。この声掛けパターンでは、各人物P2~P5が最初から検出エリアDA内で判定(検出)される。すなわち、人物P2,P4は検出エリアDAの右側方から進入し、人物P3,P5は検出エリアDAの左側方から進入している。そして、人物P2,P3は発話地点(4mライン)より遠い対人距離D(例えば4.5m)で判定され、人物P4,P5は発話地点より近い対人距離D(例えば3m)で判定されている。したがって、これらの人物P2~P5の進入経路については、検出エリア判定部140は「左右から進入」と判定する。
【0057】
この場合も同様に、距離変位判定部138が対人距離Dの変化量を連続的に判定し、この変化量に基づいて演算部122は、各人物P2~P5が発話地点に到達するタイミングを推測する。そして、推測したタイミングで演算部122が出力装置126に発話音声出力を指示する。これにより、人物P2~P5に対しても発話地点で声掛けが実行されることになる。
【0058】
〔前方から検出エリアに進入時〕
次に
図8は、人物が前方から検出エリアDAに進入した場合の声掛けパターンを示す図である。この声掛けパターンは、人物P6が唐突に判定され、かつ、判定された時点で対人距離Dが直近(例えば2m程度)であるような場合が該当する。すなわち、人物P6は移動ロボットRBの近傍から撮像エリア内に入ってきて、こちらに背を向けて検出エリアDA内に進入している。この場合、検出エリア判定部140は、人物P6の進入経路を「前方から進入」と判定する。
【0059】
そしてこの場合、演算部122は、直ちに出力装置126に発話音声出力を指示する。したがって、人物P6に対しては、例外的に発話地点に到達するタイミングを推測することなく、例えば「こんにちは」等の声掛けが実行されることになる。これにより、突然現れて移動ロボットRBから遠ざかろうとしている人物P6に対しても、機会を逸することなく声掛けを実行することができる。
【0060】
〔検出エリアから左右に移動時〕
図9は、人物が検出エリアDAから左右に移動した場合の声掛けパターンを示す図である。この声掛けパターンは、既に検出エリアDA内で判定(検出)されている人物P7,P8について、通常通りに発話地点に到達するタイミングを推測していたが、検出エリアDAから左右の両側方に出て行く動きをした場合に該当する。すなわち、人物P7,P8は検出エリアDA内で判定されているが、対人距離Dの変化量がほとんど判定されないまま(発話地点に向かうことなく)、判定された位置が左右方向へ移動している。この場合、検出エリア判定部140は、人物P7,P8が「(発話地点に到達することなく)検出エリアDAから左右に移動した」と判定する。
【0061】
そしてこの場合、演算部122は、直ちに出力装置126に発話音声出力を指示する。したがって、人物P7,P8に対しても、例外的に発話地点に到達するタイミングを推測することなく、例えば「お疲れさまです」等の声掛けが実行されることになる。これにより、一度は検出エリアDA内に進入したものの、発話地点に向かうことなく検出エリアDA外に出て行こうとする人物P7,P8に対しても、機会を逸することなく声掛けを実行することができる。
【0062】
〔処理プログラムの例〕
以上の説明で声掛けシステム110の各機能ブロックによる処理の概要は明らかとなっているが、以下では、フローチャートを用いて具体的な処理の手順を説明する。
【0063】
〔声掛け音声出力処理〕
図10は、声掛けシステム110で実行されるプログラムの一部として声掛け音声出力処理の手順例を示すフローチャートである。この処理は、声掛けシステム110内の各機能ブロック(人物判定部136、対人距離判定部118、距離変位判定部138、検出エリア判定部140、演算部122)が連係又は協働して実行される。以下、手順例に沿って説明する。
【0064】
ステップS100:演算部122は、人物判定部136から人物判定結果を入力する。
ステップS102:人物の判定がある場合(Yes)、ステップS104に進む。人物の判定がない場合(No)、ここで本処理を一旦離脱(リターン)する。
【0065】
ステップS104:演算部122は、距離変位判定部138から対人距離D変位量の判定結果を入力する。
ステップS106:演算部122は、人物判定部136、対人距離判定部118及び検出エリア判定部140と連係し、判定された人物が検出エリアDA内にいるかを確認する。人物が検出エリアDA内にいる場合(Yes)、次にステップS108を実行する。人物が検出エリアDA内にいない場合(No)、ここで本処理を一旦離脱(リターン)する。
【0066】
ステップS108:演算部122は、人物判定部136、対人距離判定部118及び検出エリア判定部140と連係して人物の進入経路を確認し、「遠方から進入」であれば(Yes)、ステップS112に進む。それ以外では(No)、ステップS120に進む。
【0067】
ステップS120:演算部122は、同じく人物判定部136、対人距離判定部118及び検出エリア判定部140と連係して人物の進入経路を確認し、「左右から進入」であれば(Yes)、ステップS112に進む。それ以外では(No)、ステップS122に進む。
【0068】
ステップS122:演算部122は、同じく人物判定部136、対人距離判定部118及び検出エリア判定部140と連係して人物の進入経路を確認し、「前方から進入」であれば(Yes)、ステップS118に進む。それ以外では(No)、ステップS124に進む。
【0069】
ステップS124:演算部122は、同じく人物判定部136、対人距離判定部118及び検出エリア判定部140と連係して人物の進入経路を確認し、「検出エリアDAから左右に移動した」場合であれば(Yes)、ステップS118に進む。それ以外では(No)、本処理を一旦離脱(リターン)する。
【0070】
〔通常時(遠方から進入時、左右から進入時)〕
人物の進入経路が「遠方から進入」又は「左右から進入」の場合は通常通りとして以下の手順となる。
ステップS112:演算部122は、人物判定部136、対人距離判定部118及び検出エリア判定部140と連係し、検出エリアDA内で人物が発話地点(4m)に到達すると推測するタイミングを確認する。発話地点に到達すると推測するタイミングであれば(Yes)、次にステップS118に進む。それ以外では(No)、ここで本処理を一旦離脱(リターン)する。
【0071】
〔推測による声掛け〕
ステップS118:演算部122は、声掛け音声出力を出力装置126に対して指示する。これにより、人物が発話地点に到達すると推測した発話タイミングでマイク・スピーカ128から発話音声が出力される。
【0072】
〔例外処理時〕
一方、人物の進入経路が「前方から進入」であるか、もしくは「検出エリアDAから左右に移動した」と判定した場合は例外処理として以下の手順となる。
ステップS118:この場合、演算部122は、ステップS112の判断を経ることなく、声掛け音声出力を出力装置126に対して指示する。これにより、直ちにマイク・スピーカ128から発話音声が出力される。
【0073】
以上の手順を実行すると、演算部122は本処理を離脱(リターン)する。そして、上記同様の手順を繰り返し実行する。
【0074】
このように、声掛けシステム110の各部が処理を連係又は協働して実行することにより、移動ロボットRBによる声掛けが適切に実行されることになる。
【0075】
以上のような実施形態の発話制御装置100によれば、人物を高精度に判定(検出)しつつ、不特定の条件下でも適切に発話を制御することができる。これにより、例えば建設現場CSのように不特定の人物がランダムに移動している場合であっても、移動ロボットRBが日中、建設現場CS内を自律移動しながら作業者にタイミングよく声掛けし、その際に声掛けの内容を確実に人物に聞かせることができる。また、高精度AIモデルを搭載することによる処理時間の遅延が適切に補償され、実用的で違和感のない声掛けシステム110を実現することができる。
【0076】
本発明は上述した実施形態に制約されることなく、種々に変形して実施することが可能である。
既に述べたように、発話制御装置100を適用する対象は移動ロボットRBに限られず、固定式のロボットであってもよいし、ロボットの形態ではない車両その他のマシン、あるいは据え置き型の機器であってもよい。
【0077】
IPカメラ112やマイク・スピーカ128の設置個数や位置、形状、向き等は適宜に選択又は変更することができる。また、AI処理高速化装置114は必須ではなく、特にこれを用いなくてもよい。
【0078】
また、処理(
図10)で挙げた手順例は適宜に変更可能であるし、必ずしも手順例の通りに処理が行われなくてもよい。また、各種処理をどのような契機(割り込みイベント処理又はトリガイベント処理)で実行させるかは適宜に決定してもよい。
【0079】
その他、実施形態等において図示とともに挙げた構造はあくまで好ましい一例であり、基本的な構造に各種の要素を付加し、あるいは一部を置換しても本発明を好適に実施可能であることはいうまでもない。
【符号の説明】
【0080】
100 発話制御装置
110 声掛けシステム
112 IPカメラ
118 対人距離判定部
122 演算部(音声出力部)
126 出力装置(音声出力部)
128 マイク・スピーカ(音声出力部)
136 人物判定部
138 距離変位判定部
140 検出エリア判定部
DA 検出エリア