特開2019-217558(P2019-217558A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧
特開2019-217558対話システム及び対話システムの制御方法
<>
  • 特開2019217558-対話システム及び対話システムの制御方法 図000003
  • 特開2019217558-対話システム及び対話システムの制御方法 図000004
  • 特開2019217558-対話システム及び対話システムの制御方法 図000005
  • 特開2019217558-対話システム及び対話システムの制御方法 図000006
  • 特開2019217558-対話システム及び対話システムの制御方法 図000007
  • 特開2019217558-対話システム及び対話システムの制御方法 図000008
  • 特開2019217558-対話システム及び対話システムの制御方法 図000009
  • 特開2019217558-対話システム及び対話システムの制御方法 図000010
  • 特開2019217558-対話システム及び対話システムの制御方法 図000011
  • 特開2019217558-対話システム及び対話システムの制御方法 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2019-217558(P2019-217558A)
(43)【公開日】2019年12月26日
(54)【発明の名称】対話システム及び対話システムの制御方法
(51)【国際特許分類】
   B25J 13/08 20060101AFI20191129BHJP
   G06F 3/01 20060101ALI20191129BHJP
【FI】
   B25J13/08 A
   G06F3/01 590
【審査請求】未請求
【請求項の数】14
【出願形態】OL
【全頁数】17
(21)【出願番号】特願2018-114261(P2018-114261)
(22)【出願日】2018年6月15日
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜特許業務法人
(72)【発明者】
【氏名】伊藤 光一郎
(72)【発明者】
【氏名】松原 孝志
(72)【発明者】
【氏名】永松 健司
【テーマコード(参考)】
3C707
5E555
【Fターム(参考)】
3C707AS34
3C707CS08
3C707JS03
3C707KS11
3C707KS36
3C707KS39
3C707KT01
3C707LV14
3C707WA03
3C707WA16
3C707WL05
3C707WM06
5E555AA62
5E555BA02
5E555BB02
5E555BC01
5E555CA42
5E555EA22
5E555FA00
(57)【要約】
【課題】
ロボットが、複数人が行き交う環境下で利用される際、人物が対話意思や関心を持っているかを、人物がロボットに接近前に判定し、事前に対話対象となる人物を絞り込む対話ロボットシステムおよび対話ロボットの制御方法を提供することを目的とする。
【解決手段】
周囲を撮像する撮像装置と、撮像装置からの画像情報から人物を検出し、検出された人物を前記撮像装置の複数の画像で追跡し、追跡された人物の関心度を、複数の画像における前記人物の顔の向きと胴体の向きの変化に基づいて算出し、算出された関心度に基づいて対話候補とする計算機とを有する。
【選択図】 図7
【特許請求の範囲】
【請求項1】
周囲を撮像する撮像装置と、
前記撮像装置からの画像情報から人物を検出し、前記検出された人物を前記撮像装置の複数の画像で追跡し、前記追跡された人物の関心度を、前記複数の画像における前記人物の顔の向きと胴体の向きの変化に基づいて算出し、前記算出された関心度に基づいて対話候補とする計算機とを有することを特徴とする対話システム。
【請求項2】
前記撮像装置と、スピーカとを有するロボットと、
前記ロボットは、表示装置及び駆動装置の何れか一つを有し、
前記計算機は、前記対話候補に対して前記スピーカ、前記表示装置、及び前記駆動装置の何れかによる働きかけを行う制御信号を送信し、所定時間内に前記対話候補から反応があったと判定された人物を対話対象とすることを特徴とする請求項1記載の対話システム。
【請求項3】
前記計算機は、前記撮像装置からの画像情報に複数の人物が撮像されている場合は、人物ごとに関心度を計算し、前記複数の人物の内から関心度が閾値より高い人物を前記対話候補とすることを特徴とする請求項2記載の対話システム。
【請求項4】
前記撮像装置と、表示装置とを有するロボットと、
前記計算機は、前記撮像装置からの画像情報に複数の人物が撮像されている場合は、人物ごとに関心度を計算し、前記複数の人物の内から関心度が閾値より高い人物が複数の場合、前記ロボットの前記表示装置の表示切替制御を行うことを特徴とする請求項1記載の対話システム。
【請求項5】
前記駆動装置は前記ロボットを旋回させ、
前記撮像装置は前記駆動装置による旋回により、前記対話対象となる人物を正面より撮像することを特徴とする請求項2記載の対話システム。
【請求項6】
前記計算機は、前記撮像装置による前記対話対象となる人物を正面より撮像された画像に基づいて、前記人物との対話を開始する前に前記人物の年齢性別を識別することを特徴とする請求項5記載の対話システム。
【請求項7】
ロボットと計算機とを有する対話システムの制御方法であって、
前記ロボットに搭載された撮像装置により周囲を撮像し、前記計算機が前記撮像された撮像装置によって撮像された画像情報から人物を検出し、前記検出された人物を追跡し、前記追跡された人物の関心度を、前記複数の画像における前記人物の顔の向きと胴体の向きの変化に基づいて算出し、前記算出された関心度に基づいて対話候補とすることを特徴とする対話システムの制御方法。
【請求項8】
前記ロボットに搭載されたスピーカ、表示装置、及び駆動装置を有し、前記対話候補に対して、働きかけを行う制御信号を前記計算機から送信し、前記計算機は、前記働きかけに対し所定時間内に前記対話候補から反応があったと判定された人物を対話対象とすることを特徴とする請求項7記載の対話システムの制御方法。
【請求項9】
前記計算機は、前記撮像装置からの画像情報に複数の人物が撮像されている場合は、人物ごとに関心度を計算し、前記複数の人物の内から関心度が閾値より高い人物を対話候補とすることを特徴とする請求項8記載の対話システムの制御方法。
【請求項10】
前記撮像装置からの画像情報に複数の人物が撮像されている場合は、前記計算機は、人物ごとに関心度を計算し、前記複数の人物の内から関心度が閾値より高い人物が複数の場合、前記表示装置の表示画像を切り替える制御を行うことを特徴とする請求項8記載の対話システムの制御方法。
【請求項11】
前記計算機は、前記ロボットを旋回させて、前記対話対象となる人物を正面より撮像する制御信号を送信することを特徴とする請求項8記載の対話システムの制御方法。
【請求項12】
前記計算機は、前記対話対象となる人物を正面より撮像された画像に基づいて、前記人物との対話を開始する前に人物の年齢性別を識別することを特徴とする請求項11記載の対話システムの制御方法。
【請求項13】
複数の人物が往来する環境下に設置されるロボットを用いた対話シスステムにおいて、
前記ロボットの周囲を撮像する撮像装置と、
前記撮像装置からの画像情報から人物を検出する人物検出部と、
前記撮像装置からの複数の画像から同一人物を追跡する人追跡部と、
前記人追跡部により追跡された人物の前記ロボットに対する関心度を、前記複数の画像における前記人物の顔の向きと胴体の向きの変化に基づいて算出する時系列特徴抽出部と、前記算出された関心度に基づいて対話候補とする関心行動識別部とを有することを特徴とする対話システム。
【請求項14】
前記ロボットは、出力デバイス或いは駆動装置の少なくとも一つを有し、
前記対話候補に対し、前記出力デバイス或いは駆動装置の何れかを制御することで、前記人物に対して働きかけ、前記人物が前記働きかけに対し反応の有無を確認する反応確認部とを有することを特徴とする請求項13記載の対話システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は対話システムに関し、特に、複数の人物が行き交う環境において利用され、対話対象となりうる人物を識別し、事前に対話の準備を行う対話ロボットシステム及び対話ロボットの制御方法に関するものである。
【背景技術】
【0002】
近年、小売店や公共施設において、来店客に対し、従業員に代わって対話サービスを提供するロボットの開発が盛んである。特に人通りの多い環境でロボットを利用するにあたっては、ロボットは、周囲を行き交う複数の人物の中から対話対象となる人物を選択して、対応しなければならない。
【0003】
ロボットが複数人の人物から対話対象を選択する技術が、特許文献1に記載されている。この特許文献1は、ロボット付近の領域内に存在する人物の関心度を定義し、関心度の高い人物を対話対象として選択している。ここでの関心度は、人物ごとの顔の向き、視線の向き、ジェスチャや発話の有無に応じてスコア付けがなされ、スコアに応じて対話対象の順位付けを行うものである。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−248193号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1における技術は、人物ごとの顔の向き、視線の向き、ジェスチャや発話の有無によりスコア付けを行っており、既にロボットの周囲に人物が集まっている状況において機能する。
【0006】
しかしながら、対話ロボットは、実際、人が行き交う環境下に設置されたり、それらの人物の中から対話対象となりうる人物を選択し、能動的に声掛けをしたり、実際に人物に声を掛けられる以前に体を向け、カメラで人物を撮像し認識するなど対話に備える必要がある。
【0007】
対話ロボットにとっては、あらかじめ指定された領域に人物が入り込む、ないしは実際に人物に声を掛けられるまでは、人物が対話対象になりえるかを判断することができない。また、ロボットは、指定された領域に入り込んだ人物が、そのまま素通りするのか、対話意思を持つのかは、実際に人物がロボットに話しかけられるまでに判定することに対応していない。
【0008】
そこで、本発明の課題は、ロボットが、複数人が行き交う環境下で利用される際、人物が対話意思や関心を持っているかを、ロボットが人物の関心度を判定し、事前に対話対象となる人物を絞り込む対話ロボットシステムおよび対話ロボットの制御方法を提供することである。
【課題を解決するための手段】
【0009】
上記課題を解決するための代表的な一側面は、周囲を撮像する撮像装置と、撮像装置からの画像情報から人物を検出し、検出された人物を前記撮像装置の複数の画像で追跡し、追跡された人物の関心度を、複数の画像における人物の顔の向きと胴体の向きの変化に基づいて算出し、算出された関心度に基づいて対話候補とする計算機とを有する。
【発明の効果】
【0010】
人物がロボットに接近する以前に、ロボットが自装置に対話意思ないしは関心を持つ人物を絞り込むことができる。
【図面の簡単な説明】
【0011】
図1】対話ロボットシステムの概略図である。
図2】対話ロボットシステムのハードウェア構成例を示す図である。
図3】対話ロボットシステムの機能的構成例を示すブロック図である。
図4】第1の推定処理01の具体的処理手順を示したフロー図である。
図5】関心度を持つと判断された対話候補に対してロボットが働きかけの方法を選択するためのフローチャートである。
図6】対話候補への働きかけを行った際の第2の推定処理02を示したフローチャートを示す図である。
図7】対話ロボットシステムが対話対象となる人物を識別するフローチャートを示す図である。
図8】ロボットと人物の位置関係の変化と関心度の関係を示す図である。
図9】ロボットに対する人物の3フレーム分の移動の様子を示した図である。
図10】ロボットに対する人物の3フレーム分の移動について、関心度の算出例を示した表である。
【発明を実施するための形態】
【0012】
以下、各実施例を、図面を用いて説明する。
【実施例1】
【0013】
図1は、対話ロボットシステムの概略図である。人物が往来する環境下における、対話ロボットシステム(以下、対話システム)100の使用状態例を示す。対話システム100は、人物と対話する対話ロボット110と(以下、単にロボットと称する)、ロボット110からの信号に基づき、ロボット110を制御する遠隔サーバー130から構成されている。
【0014】
ロボット110は、カメラ120、スピーカ121、マイクアレイ122、内部サーバー123、表示装置124、駆動装置125、第1通信インターフェイス(以下、IFと示す)126を備えて構成される。遠隔サーバー130は、ロボット110の動作を制御するための制御信号を送る計算機であり、第1通信IF126と通信を行う第2通信IF131を備える。尚、第1通信I/F126、第2通信IF131は、無線インターフェイスであり、無線通信を利用してデータの送受信を行うLANシステム、例えば、IEEE 802.11に規定されるものがあげられる。第1通信IFと第2通信IFの間は、インターネット等のネットワークを介することもある。
【0015】
カメラ120は画像を取り込む撮像装置であり、マイクアレイ122は環境音や人物の音声を取り込む。表示装置124は人物に情報を提示するもので、例えば、ディスプレイやプロジェクション映像である。また、ロボット110の顔や表情を表現してもよい。駆動手段125は、ロボット110の腕や足など関節に位置し、感情表現のための動作や、移動を実現する、例えばモーターや減速機である。
【0016】
内部サーバー123は計算機であり、第1通信IF126を介して、カメラ120やマイクアレイ122で得たデータを遠隔サーバー130に送信する。また、遠隔サーバー130は第2通信IF131を備え、第1通信IF126から画像、音声データ、信号を受信し、受信信号に応じてロボット110を制御する信号を第2通信IF131、第1通信IF126を介してロボット110へと送信する。
【0017】
尚、遠隔サーバー130のロボット110を制御する機能を内部サーバー123に処理させることもでき、その際は遠隔サーバー130、第1通信インターフェイス126は不要となり、ロボット110が独立して人物と対話する構成とすることができる。以上の構成の対話システムは、主として、ロボットの周囲の人物に対し、対話を働きかけたり、対話を行う対話ロボットとして利用される。
【0018】
<システム構成例>
図2は、対話システム100を構成するロボット110と、遠隔サーバー130のシステムのハードウェア構成例を示す図である。
【0019】
ロボット110はカメラ120と、マイクアレイ122と、第1出力デバイス140と搭載し、これらは内部サーバー123とバス129で接続されている。第1出力デバイス140は、スピーカ121と、表示装置124と、駆動装置125とを含む。内部サーバー123は第1プロセッサ127と、第1記憶デバイス128と、第1通信インターフェイス126と、それらを接続するバス129を有する。また、カメラ120は深度センサであってもよい。
【0020】
第1プロセッサ127は、ロボット110に備わる出力デバイス140を制御し、内部サーバー123の機能を実現する。第1記憶デバイス128は、第1プロセッサ127の作業エリアとなり、機能を実現する各種プログラムとデータを記憶する非一時的なまたは一時的な記憶媒体である。第1記憶デバイス128は、例えばROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、GPU(Graphics Processing Unit)、フラッシュメモリがある。第1出力デバイス140としては、例えば表示装置124、スピーカ121がある。第1通信IF126は、遠隔サーバー130と無線通信するか、ネットワーク(図示せず)を介して接続し、データを送受信する。
【0021】
カメラ120は、ロボット110の周囲を撮影する撮像デバイスであって、例えば、被写体までの距離を計測可能な3次元測量機能を備えていてもよい。駆動装置125は、たとえばモーターであってもよく、ロボット110を駆動させる機構である。例えば、ロボット110を歩行動作、ないしは車輪によって移動させてもよいし、ロボット110の腕や指を動かしロボット110の感情を表現してもよいし、首を振ることでカメラ120の向きを変える駆動装置である。
【0022】
遠隔サーバー130は、第2通信IF131と、第2プロセッサ132と、第2記憶デバイス133と、これらを接続するバス134を有する。第2記憶デバイス133は、第2プロセッサ132の作業エリアとなり、第2記憶デバイス133は、遠隔サーバの機能を実現する各種プログラムやデータを記憶する非一時的なまたは一時的な記憶媒体である。第2記憶デバイス133としては例えばROM、RAM、HDD、GPU、フラッシュメモリがある。第2通信IF131は、ロボット110と無線通信するか、ネットワーク(図示せず)を介して接続し、データを送受信する。
【0023】
<制御システムの機能的構成例>
図3は、対話システム100の機能的構成例を示すブロック図である。
【0024】
内部サーバー123はカメラ120からの画像データを受信する画像受信部120Aと、遠隔サーバー130とデータを送受するための第1通信IF126と、スピーカ121や表示装置124を制御する出力デバイス制御部303と、駆動装置125を制御する駆動制御部304と、を有する。出力デバイス制御部303と駆動制御部304とは、第1記憶デバイス128に記憶されたプログラムを第1プロセッサ127が実行することにより実現される。例えば、マイクアレイ122やスピーカ121を用いて、人物と会話をするよう出力デバイス制御部303による第1の出力デバイスの制御、駆動制御部304による駆動装置125の制御を実現する。また、ロボット110の感情表現のための動作や、ロボット110の移動を実現する。
【0025】
遠隔サーバー130は、第2通信IF131と、人検出部312と、人特徴抽出部313と、人追跡部314と、時系列特徴抽出部315と、関心行動識別部316と、反応確認部317と、を有する。人検出部312と、人特徴抽出部313と、人追跡部314と、時系列特徴抽出部315と、関心行動識別部316と、反応確認部317のそれぞれの機能は、第2記憶デバイス133に記憶されたプログラムを第2プロセッサ132が実行することにより実現される。人特徴抽出部313は、頭検出部321と、頭方定部322と、胴方定部323とを有する。
【0026】
カメラ120によって撮像されたロボット110の周囲の環境は、画像情報として画像受信部120A、第1通信IF126、第2通信IF131を介して遠隔サーバー130に送信される。
【0027】
人検出部312は、カメラ120からの画像情報から人物が存在する領域を推定する。人物が存在する領域とは、人物の領域を囲う矩形の位置であってもよい。人検出部312で推定された領域、または領域内の画像情報は、人特徴抽出部313と、人追跡部314と、へ送信される。人検出部312にて実行される人検出処理は、現在公知のものとなっており、具体的には、画素ごとに周囲の画素値との勾配から人物の輪郭を特徴にし、存在を推定するものや、畳み込みフィルタを利用したConvolutional Neural Network(以下CNN)を利用し、人物の存在を示す矩形で表すものでもよい。人検出部312では、上述した技術を利用することで、複数人が存在している場合でも、人ごとに領域情報を取得することができる。
【0028】
人特徴抽出部313では、例えば、人検出部312で得られた人ごとの領域に対し、人物の画像中における特徴を抽出する。人特徴抽出部313にて抽出される特徴は、画像情報一枚における人領域内の人ごとの特徴である。人特徴抽出部313では、具体的には、頭検出部321と、頭方定部322と、胴方定部323とを有する。人検出部312で得られた人物の特徴は、時系列特徴抽出部315にて、時間的に連続する人ごとの特徴を抽出する際に用いてもよい。
【0029】
頭検出部321は、人検出部312により抽出された領域内での頭部の領域を検出する。頭部の領域は、具体的には、頭部を囲う矩形の位置であってもよく、CNN(Conventional Neural Network)に基づく検出器を用いる。なお、人物が正面を向いている際には、顔を検出してもよい。顔の検出に関しては、Harr−Like特徴を用いる。顔検出についてもCNNを利用した検出器を用いてもよい。
【0030】
頭方定部322は、頭検出部321にて同定された頭部の領域内の情報を用いて頭部の方向を推定する。頭部の方向推定手法として、顔が利用可能な向きであれば、現在、画像処理において既知となっているような、顔の特徴点を抽出し、画像上の特徴点の配置から顔の方向を推定する手段を利用してもよい。また、上述の方向推定結果を基に得られた値に対し、閾値を定めることでカメラ120の方向を向いているか、向いていないかの2値の識別を行ってもよい。また、例えば、人の頭部画像CNNを入力とし、頭部の方向を出力する識別器を利用して学習したり、方向の値を直接出力してもよいし、もしくは、方向推定を行う識別器を事前に学習し、実行時には識別器の中間層の特徴量を利用してもよい。
【0031】
胴方定部323は、人検出部310から得られる領域内で人物の体の方向を推定する。体の方向を推定する手段として、カメラ120が深度センサであるならば、深度画像を入力とする機械学習の推定を基に人物の骨格を推定し、推定された骨格の位置を基に体の方向を決定する。もしくは、人物の画像と、それに対応する体の向きのラベル付与した多数の事例を用い、体の向きを推定する識別器を作成し、判定に用いてもよい。このとき、前述の識別器は、方向値を直接出力してもよいし、識別器の中間層出力を出力してもよい。
【0032】
人特徴抽出部313は、上述の説明では、一例として、頭方向、胴体方向と分けて出力したが、人が写る画像と、それに対応するラベルを基に識別器を作成することもできる。具体的には、人の画像と、その人物が実際に対話したか否かのラベルを事例として集めておき、事例を基準に判断してもよい。
【0033】
人追跡部314では、人検出部313にて推定された人領域に基づいて、連続する画像フレーム間で同一人物の対応を取る。連続するフレーム間での、人追跡技術は、人検出部313の出力の領域内での特徴量と、連続するフレームでの特徴量とを比較し、類似する特徴であるならば同一人物としてもよく、フレーム間の対応付けを行う。
【0034】
時系列特徴抽出部315では、人特徴抽出部313と人追跡部314とから人物ごとに、時系列的な行動特徴を抽出する。具体的には、胴方定部323の複数の時間フレームにわたる胴方向の推移から、人物の移動方向を抽出する。また、ロボット110に接近してくる、もしくは、素通りする人物の時系列特徴を抽出してもよい。この具体的処理については後述する。
【0035】
関心行動識別部316は、時系列特徴抽出部315において抽出した時系列特徴を基に、画像中の人物ごとにロボット110への関心度を持つかを識別し、人物が対話候補であるかを判定する。人物の関心度が高いと判定された場合、人物を対話候補であると判定し、第2通信IF131と、第1通信IF126を介して、出力デバイス制御部303と駆動制御部304に対して制御信号を送る。制御信号については、後述する。
【0036】
制御信号を受け取った出力デバイス制御部303は、第1出力デバイス140のスピーカ121と、表示装置124を制御し、駆動制御部304は、駆動装置125を制御する。出力デバイス制御部303は、人物に対して、たとえば、表示装置124の表示の変更や、スピーカ121からの声かけを行う。駆動制御部304は、駆動装置125を制御することで手招きなどの動作など、働きかけを行う。
【0037】
反応確認部317では、例えば、出力デバイス制御部303にて制御された第1出力デバイス140のスピーカ121と、表示装置124と、駆動制御部304にて制御された駆動装置125と、による働きかけを行われた人物の反応を確認する。出力デバイス制御部303と、駆動制御部304と、により、働きかけが行われた時刻に近い時刻で、働きかけに相関のある人物の反応に変化が得られるかを検出してもよい。
【0038】
<対話対象識別のための処理>
図7は、対話システム100が対話対象となる人物を識別するため実行されるフローチャートを示す。
【0039】
まず、ステップS701では、ロボット110のカメラ120は、周囲の画像を撮影し画像情報を遠隔サーバー130の人検出部311に送信する。人検出部311では送信された画像情報を取得する。
【0040】
次にステップS702では、人検出部312は、取得した画像情報を基に、人検出処理を実行する。この人検出処理において、人検出部312は、人物が存在するかを判定し、存在する場合は、人物の領域を例えば、矩形領域といった形で、人物ごとに個別に取得することになる。
【0041】
次いで、ステップS703では、人追跡部314は、人検出部312の出力を受け、現在の取得フレームに検出された人物が、直近の過去の取得フレームにて検出されたかを判定し、フレーム間の人物対応付けを行う。一方で直近の過去の取得フレームに該当する人物が存在しない場合は、人追跡部314は、新たな人物を検出したものとし、第2記憶デバイス133に新たな人物として登録する。新たな人物について特徴を記憶し、次回以降の取得フレームで、人追跡部314は対応付けを実行する。ここで用いられる人追跡技術は、例えば、人物の領域内の画像特徴量の類似度を測ることで実現される。人追跡技術では、遮蔽物などで画像から追跡対象を見失ったとしても、その後追跡対象が出現した場合に、追跡を続行できる場合があることが知られている。
【0042】
次に、ステップS704にて、時系列特徴抽出部315と関心行動識別部316は、人物がロボット110に対して対話の意思、ないしは、関心を持つかを判定し、人物を対話候補とする第一の推定処理01を行う。第一の推定処理01にて対話の意思、ないしは関心を持つと判断された人物は、対話候補となる(S705)。ステップS704の具体的処理については後述する。
【0043】
ステップS706では、第一の推定処理01によって、対話候補と判定された人物に対して、ロボット110は、働きかけを行う。働きかけの具体的な処理については後述する。
【0044】
ステップS707では、反応確認部317は、ステップS706にて働きかけたロボット110の行動に対する人物の反応を観測し、働きかけに対する反応を確認したならば対話対象であると判定する。
【0045】
ステップS708では、ステップS707において、対話対象と判定された人物と対話を行う準備を行う。具体的には、例えば、駆動装置125がロボット110の移動機能を有しているのであれば、対話を行う前に対話対象に歩み寄ってもよい。または、駆動装置125がロボット110の旋回機能を有しているのであれば、対話を行う前に事前にロボット110の体の向きを対話対象に向けてもよい。このとき、カメラ120を人物に向け、人物の画像を正面から撮像してもよい。撮像した人物の画像に対し、第1記憶デバイス128もしくは、第2記憶デバイス133が、人物の外見的特徴を推定する手段を備えているのであれば、対話を行う前に推定を行ってもよい。ここでの外見的特徴とは、例えば顔画像を基にした人物の年齢や性別である。
【0046】
ステップS709では、実際には対話意図を持つ人物を、誤って対話意図を持たないと判定した場合、ロボット110は、該当人物に接近され、話しかけられた場合に対応する例外処理を行う。
【0047】
ステップS710では、第二の推定処理02によって、対話対象であると判定された人物、ないしはステップS709にてロボット110に話しかけてきた人物に対して、例えば、スピーカ121によるロボット110の発話と、駆動装置125によるロボット110のジェスチャ、表示装置124による情報提示などにより、対話サービスを提供する。人物との対話において、ロボット110は、例えばステップS708にて撮像した人物の画像から判定された例えば年齢性別など外見的特徴を基に、例えば口調を変えてもよい。
【0048】
実施例1では、人物のロボット110に対する対話意思、ないしは関心を、ステップS704の第一の推定部と、ステップS707の第二の推定部と、を用いた2段階の判定を行うことで人物の対話意図、ないしは関心度を精度よく算出できる。
【0049】
<第一の推定処理01の具体的処理>
図4は、第1の推定処理01の具体的処理手順を示したフロー図である。第1の推定処理01は、人検出部312にて、人物を検出し、人追跡部314にて、フレーム間にて追跡が可能となった人物から、ロボット110への対話意思ないしは、関心度を推定し、対話候補を判定するためのものである。
【0050】
まず、ステップS404では、頭検出部321と頭方定部322により、人物の頭部の領域から、頭部の方向を推定して、こちらを向いているか識別する。こちらを向いているかの判定は、頭方定部322にて推定された人物の頭の向きと、こちらを向いているかを判定するための閾値を定め、その大小関係から、こちらを向いているかを判定する。また、こちらを向いている、顔もしくは頭の事例と、そうでいない顔もしくは頭の事例を集め、識別器を作成して判定に利用してもよい。
【0051】
ステップS405では、ステップS404にて第2プロセッサ132が、頭部がこちらを向いていると判定した時刻Tfを、第2記憶デバイス133に記録する。
【0052】
ステップS406では、胴方定部323と時系列特徴抽出部315とにより、人物がこちらに向かう動きか、離れる動きか、素通りか、人物の進行方向を判定する。判定には、人物の移動ベクトルを抽出して判断する。あるいは、人物の移動の事例を集め、識別器を作成したのち、判定に利用してもよい。
【0053】
ステップS407において、関心行動識別部316は、現在のフレームにおける、人物ごとのロボット110への関心度を計算する。例えば、頭がこちらを向いていること、人物の胴体が接近動作であることにより、スコアを加算してもよい。
【0054】
他のスコアの算出方法については、接近動作であるが、頭がこちらを向いていない場合、時刻Tfと現在時刻の差分に応じた減衰を考慮したスコアを加算することもできる。また、接近動作であると判断できない素通り動作ならば、スコアを加算しないようにすることもできる。他には、ステップS407にて算出されたスコアを、関心行動識別部316は、各人物に対し、複数にわたって算出されたスコアに時間平均し加算することで、対象となる人物の関心度としたり、人物が後頭部をみせ、遠ざかる動作を所定時間継続するならば、関心行動識別部316は、スコアをリセットないしは、減算してよい。
【0055】
図8は、ロボットと人物の位置関係の変化と関心度の関係を示す図である。ロボット110と、所定の時間内における人物の挙動の変化により、関心行動識別部316は人物の関心度を算出する。
【0056】
図8(a)は、所定時間内に、人物が位置810から、ロボットへ向かう経路812を経て、位置811へと移動した例である。このとき、人物の頭部の向きはロボット110の方向を向いている。この例では、関心行動識別部316は、対話意思があるとし関心度(対話意志スコア)を加算する。
【0057】
図8(b)は、所定時間内に、人物が位置820から、ロボットへ向かう経路822を経て、位置821へと移動した例である。このとき、位置820では、人物の頭部はロボット110を向いていたが、位置821において、ロボット110の方向を向いていない。関心行動識別部316は、関心度スコアを減衰したうえで加算する。
【0058】
図8(c)は、人物が位置830から経路832を経て、位置831へと移動し、ロボットへ頭部を向けていない例である。このとき、関心行動識別部316は、関心度のスコアを加算しない。
【0059】
図8(d)は、人物が位置840から、ロボットから遠ざかる経路842を経て、位置841へと至り、人物の頭部がロボットを向いていない場合である。このとき、関心行動識別部316は、人物の対話意思ないしは関心度のスコアをリセットする。あるいは、減算してよい。
【0060】
次いでステップS408にて、関心行動識別部316は、複数のフレームにわたって算出された(ステップS407にて算出される)スコアを用いて、人物のロボット110への対話意思ないしは、関心度とする。尚、算出された関心度は、第2記憶デバイス133に、図10に示すように格納される。
【0061】
図9は、ロボット110に対する人物の3フレーム分の移動の様子を示したものである。また、図10は、ロボット110に対する人物の3フレーム分の移動について、関心度の算出例を示した表である。それぞれのケースにおいて、図8でのスコア付けを基に、人物の接近行動、頭の向きを用いて、人物の挙動から、関心行動識別部316における、対話意思、ないしは関心度の算出手法の一例を示している。図10では、それぞれのフレームごとのスコア付けとして1フレーム目のスコアをC1、2フレーム目のスコアをC2、3フレーム目のスコアをC3、ないしは3フレーム分のスコア付けの一例として、時間平均したスコア付けを示している。図10の関心度は、第2の記憶デバイス133に記憶され、実際にロボット110が利用される場面でも、同様の関心度表として利用できる。即ち、複数人の人物が行き交う環境下で、カメラ120により撮像された複数の人物を識別するためのIDは(A)〜(D)で、各人物の時間平均の関心度を同様に求めてテーブルとして管理する。
【0062】
図9(a)は、人物がロボット110へ接近する、3フレーム分の様子を示している。経路901と、経路902と、経路903と、はそれぞれのフレームの人物の移動経路を示しており、それぞれのフレームにおいて、人物の頭はロボット110を向いており、人物は、ロボット110方向へと接近している。これは図8(a)の動きに対応し、関心行動識別部316は、この動きのスコアを「1」とする。それぞれのフレームにおけるスコアはC1=1、C2=1、C3=1となり、3フレーム分の人物の挙動から対話意図を、時間平均で評価すると「1」となる。
【0063】
図9(b)では、人物がロボット110を素通りする行動のうち3フレーム分の様子を示している。経路911と、経路912と、経路913と、はそれぞれのフレームの人物の移動経路を示しており、図8(c)の動きに対応し、関心行動識別部316はスコアを例えば0とする。このとき、関心行動識別部316は、それぞれのフレームにおけるスコアをC1=0、C2=0、C3=0となり、3フレーム分の挙動から対話意図を、時間平均で評価すると「0」となる。
【0064】
図9(c)では、人物がロボット110へ接近する行動のうち、3フレーム分の様子を示している。人物は当初、頭部をロボット110へ向けている。その後の移動経路921、経路922、経路923においてロボット110へ接近する行動であるが、頭部はロボット方向を向いておらず、図8(b)の動きに対応している。経路921では、頭部がロボット方向を向かなくなってから1フレーム経過した接近動作であるため、関心行動識別部316は、スコアをC1=1/1とする。経路922では、頭部がロボット110方向を向かなくなってから2フレーム経過した接近動作であるため、スコアをC2=1/2とする。経路923では、人物の頭部がロボット110方向を向かなくなってから3フレーム経過しているため、スコアをC3=1/3とする。図9(c)の3フレーム分の挙動から対話意図を評価すると、関心行動識別部316は、例えば時間平均で11/18とスコアをつけることになる。
【0065】
図9(d)では、人物のロボット110前での挙動のうち、3フレーム分の動作を示している。経路941でロボット110へと頭を向け接近する図8(a)の動作であり、経路942でロボット110に対して頭部を背け、経路943でロボット110から遠ざかる図8(d)の動作である。関心行動識別部316は、経路941のスコアC1=1である。経路942では、立ち止まり行動であるため、スコアC2=0とし、経路943では、頭を背け遠ざかる動作であるため、スコアをリセットする。そのため、図9(d)では、人物の対話意図は、図8(d)の動作によりリセットされ、関心行動識別部316は、時間平均で評価するなら関心度スコア「0」となる。
【0066】
関心行動識別部316は、時系列特徴抽出部315にて抽出した特徴を基に、人物がロボット110に対して対話意思ないしは関心を持つかを識別し、スコアを算出する。この際、算出されるスコアは、複数人の人物が行き交う環境下で、ロボット110が対話候補を選択するための順位付けに用いることができる。また、ここでは、閾値を設け、閾値を超えない人物を順位付けから除外することもできる。例えば、図9図10の例では、閾値を0.5とすることで、(a)と(c)を対話候補として識別でき、順位付けを行い、素通りする人物(b)や、遠ざかる人物(d)を対話候補から除外できる。また、閾値を上げて例えば、0.7とすることで、よそ見をしながら近づいてくる(C)を対話候補から除外することもできる。ロボット110の前を素通りする人物に対しては、ロボット110は対話候補とみなさないとすることができため、計算処理を単純化し、関心度スコアの処理速度を高速化させることができる。複数人が候補対象となる場合、計算した関心度の上位2名といった具合に、人物の関心度の相対評価により対話候補とすることもできる。
【0067】
なお、図4では、第1の推定処理01の一例を示したが、関心行動識別部316は、これに限らず深層学習を利用した関心度の尤度を推定してもよい。
【0068】
時系列特徴抽出部315では、具体的には、ロボット110の付近を行き交う人物の動作を動画像として入力する。動画像は連続する画像の集合であり、人特徴抽出部313が画像フレームごとに人物の特徴量を抽出する。ここで抽出される特徴量は、頭方定部321が出力する頭方定部特徴量、胴方定部323が出力する胴方定部特徴量、頭方定部特徴量と胴方定部特徴量とを一つにまとめた特徴量であってもよい。その後、関心行動識別部316は、各フレームの特徴量を動画像の全フレームから抽出し、関心度の尤度を出力してもよい。このとき、教師データとしては入力として、ロボットの前を行き交う人物の動画像とし、実際に来たかどうかの教師ラベルの事例を基に識別器を作成し、判定に用いてもよい。なお、上述した手法は接近してくる人物の対話意図を識別する手段の一例であり、これらに限らない。
【0069】
<働きかけの具体的処理>
図5は、関心度を持つと判断された対話候補に対してロボットが働きかけの方法を選択するためのフローチャートである。具体的には、対話候補が存在する際にロボット110に対して送信される制御信号によって、出力デバイス制御部303と、駆動制御部304ともより制御することになる。この処理は、第2のプロセッサ132が第2の記憶デバイス133に格納されたプログラムを実行することにより行われる。ここでは、制御信号による制御対象は関心を持つ人物の人数によって変更してもよい。
【0070】
まず、ステップS501では関心行動識別部316は、対話候補が存在するかを判定する。対話候補が存在しない場合、制御信号を送信することはない。
次に、ステップS502では、関心行動識別部316は、対話候補が複数存在するかを判定する。対話候補が複数か一人かに応じて、制御する出力デバイス104もしくは駆動装置125を選択するためである。
【0071】
次に、対話候補が複数存在しない場合にはステップS503に進み、人検出部313は、人物が複数存在するかを判定する。
【0072】
次に、人物が一人だけの場合ステップS504に進み、関心行動識別部316は出力デバイス制御部303に対してスピーカ121を制御するよう制御信号を送る。具体的には、あいさつなどの声掛けを行うよう制御する。
【0073】
ステップS503で人物が複数存在すると判断された場合、或いは、ステップS502で対話候補が複数存在すると判断された場合、ステップS505に進む。ステップS505では、関心行動識別部316は出力デバイス制御部303に対し、第1の出力デバイス140の内、表示装置124に対する制御信号を送る。これにより、表示装置124にロボットの顔を表示するなどの描画や、表情を変更するなどをして、関心度の高い対話候補に働きかけを行う。また、駆動制御部304は、駆動装置125を制御するのであれば、具体的には、関心度の高い人物に向かい、手を振る、会釈などしてロボット110の対話の意思を表現してもよい。
【0074】
ここで、制御対象を周囲の人数に応じて分けた理由は、声掛けは、関心度の低い人物の注意をひいてしまう恐れがあり、関心行動識別部316の判定結果への影響を避けるためである。なお、対話候補が一人のみ存在する場合には遠くから声を掛けてもよい。
【0075】
<第二の推定処理02の具体的処理>
反応確認部317は、出力デバイス制御部303、もしくは、駆動制御部304により働きかけた人物の反応を観測する。これにより、反応確認部317は、第2の推定処理02を実現し、対話候補の中から対話対象となりうる人物を抽出する。
【0076】
図6は、出力デバイス制御部303と駆動制御部304とによる、対話候補への働きかけを行った際の第2の推定処理02を示したフローチャートである。
【0077】
まずステップS601では、出力デバイス制御部303と駆動制御部304は、出力デバイス140を制御することで、対話候補となる人物に働きかけを行う。このステップでは、第1プロセッサ127は、第1記憶デバイス128にて、働きかけを行った時刻Taを記憶する。この時刻Taは、第2記憶デバイス133に記録してもよい。
【0078】
次に、ステップS602では、反応確認部317は、ステップS601にて制御されたロボット110の働きかけに対する対話候補の反応の変化を判定する。具体的には、反応確認部317は、頭方定部322にて時間ごとに検出される頭の向きが、時刻Taに対して、例えば1秒以内など、極めて近い時刻以内にロボット110方向に向くように変化した際には、ロボット110のアクションに対する対話候補の反応であるとし、対話候補を対話対象であると判定する。また、例えば、反応確認部317は、胴方定部323にて、時刻Taに対して、例えば5秒以内など、近い時刻で、対話候補の進行方向がロボット110方向へ変更されると判定される、ないしは、ロボット110方向に向かうまま変更しないと判定されるのであれば、対話対象と判定する。
【0079】
次に、ステップS603では、反応確認部317は、ステップS602にて対話対象と判定された人物に対して、ロボット110があらかじめ体を向けたり、或いは、人物に向かって移動するよう駆動制御部304に制御信号を送る。出力デバイス制御部303に対し、スピーカ121を用いて、対話対象に声を掛けるよう制御信号を送信してもよい。
【0080】
ステップS602にて、反応確認部317が、対話候補の反応を確認できず、対話対象として判定できなかった際に、時系列特徴抽出部315は、対話候補の人物がロボット110へと接近するか否かを判断する(ステップS604)。ここでの接近とするか否かの判断は、ロボット110の周囲の領域に対話候補人物が進入侵入したかにより判断する。この領域の広さは、対象となる人物のロボットへの接近速度に応じて変化するものであってさせることもできる。また、一定時間経ってもよい対象が接近しない場合や、対象人物がロボット110から一定の距離はなれば場合には、当該人物に対する処理は終了する。
【0081】
最後にステップS605では、ステップS603にて対話対象であると判定された人物に対して、対話を行う準備を行う。例えば、人物との対話の開始にあたって、駆動装置125は、ロボット110の旋回機能を有しているのであれば、対話対象に対して、ロボット110に正対姿勢を取らせる。また、駆動装置125が移動手段を含む場合には、駆動制御部304は、ロボット110を対話対象の近くまで接近させ、その後、出力デバイス制御部303は、たとえばスピーカ121を用いて、対話対象に声を掛けてもよい。
【0082】
領域は、具体的には、たとえば、ロボット110が正対姿勢を取るのであれば、その動作を完了するために必要な時間と、対話候補の接近速度を基に決定する可変の領域の範囲であるとしてよい。
【0083】
以上のように、本実施の形態に示す対話システム100によれば、遠方より接近してくる複数の人物の接近動作の特徴から対話候補とする第1の推定と、対話候補に働きかけを行うことで、これに対する対話候補の反応行動から対話対象とする第2の推定により、ロボットが、複数人が行き交う環境下で利用される際、人物が対話意思や関心を持っているかを、人物がロボットに接近前に判定し、事前に対話対象となる人物を絞り込む対話ロボットシステムおよび対話ロボットの制御方法を提供することができる。また、ロボットが能動的に人物を選択して話しかけることができるため、人物に効果的に対話対象とすることができる。さらに、接近される前にカメラを向けるなどし、人物の認識のための処理を実行することで、人物の外見的特徴を対話開始前に抽出可能となり、対話内容に反映させることができる。
【符号の説明】
【0084】
100:対話システム、110:ロボット、120:カメラ、121:スピーカ、122:マイクアレイ、123:内部サーバー、124:表示装置、125:駆動部、126:第1通信IF、127:第1プロセッサ、128:第1記憶デバイス、130:遠隔サーバー、131:第2通信IF、132:第2プロセッサ、133:第2記憶デバイス、140:第1出力デバイス、303:出力デバイス制御部、304:駆動制御部、312:人検出部、313:人特徴抽出部、314:人追跡部、315:時系列特徴抽出部、316:関心行動識別部、317:反応確認部、321:頭検出部、322:頭方定部、323:胴方定部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10