(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-30
(45)【発行日】2023-11-08
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
G06T 7/223 20170101AFI20231031BHJP
【FI】
G06T7/223
(21)【出願番号】P 2020518166
(86)(22)【出願日】2019-03-08
(86)【国際出願番号】 JP2019009537
(87)【国際公開番号】W WO2019216016
(87)【国際公開日】2019-11-14
【審査請求日】2022-01-25
(31)【優先権主張番号】P 2018090918
(32)【優先日】2018-05-09
(33)【優先権主張国・地域又は機関】JP
(31)【優先権主張番号】P 2018156149
(32)【優先日】2018-08-23
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】西尾 真人
(72)【発明者】
【氏名】矢部 雄平
(72)【発明者】
【氏名】水上 智雄
【審査官】新井 則和
(56)【参考文献】
【文献】特開2013-161391(JP,A)
【文献】米国特許出願公開第2014/0316636(US,A1)
【文献】特開2005-128959(JP,A)
【文献】米国特許出願公開第2013/0345870(US,A1)
【文献】米国特許出願公開第2018/0111274(US,A1)
【文献】米国特許出願公開第2009/0210090(US,A1)
【文献】米国特許出願公開第2017/0364239(US,A1)
【文献】特開2003-345438(JP,A)
【文献】特開2004-252111(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
を備え、
前記動作制御部は、ユーザにより実行される教示であって、パターン認識学習に係る前記教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象であって、前記ユーザの指が示す方向に存在する学習対象に係る情報取得を前記自律移動体に行わ
せ、
前記動作制御部は、
前記ユーザのジェスチャにより指示した物体を前記学習対象として特定した後に、前記ユーザが発した音声から前記ラベルを抽出する
情報処理装置。
【請求項2】
前記学習対象は、空間領域を含み、
前記動作制御部は、前記自律移動体が収集したセンサ情報に基づいて生成された環境地図において付与された前記ラベルに基づいて、前記空間領域に係る情報取得を前記自律移動体に行わせる、
請求項1に記載の情報処理装置。
【請求項3】
前記動作制御部は、前記環境地図において前記ラベルが付与された指定領域に対応する実空間上の前記空間領域に前記自律移動体を移動させる、
請求項2に記載の情報処理装置。
【請求項4】
前記動作制御部は、前記指定領域に対応する前記空間領域を前記自律移動体に撮影させる、
請求項3に記載の情報処理装置。
【請求項5】
前記環境地図は、SLAM技術を用いて生成または更新される、
請求項2に記載の情報処理装置。
【請求項6】
前記動作制御部は、前記学習対象が複数の角度から撮影されるよう前記自律移動体の位置または姿勢を制御する、
請求項1に記載の情報処理装置。
【請求項7】
前記動作制御部は、前記学習対象の全体が撮影されるよう前記自律移動体の位置または姿勢を制御する、
請求項1に記載の情報処理装置。
【請求項8】
前記動作制御部は、前記学習対象に係る境界認識の結果に基づいて、前記自律移動体の位置または姿勢を制御する、
請求項7に記載の情報処理装置。
【請求項9】
前記教示は、前記学習対象から取得される情報に基づいて行われる、
請求項1に記載の情報処理装置。
【請求項10】
前記教示は、前記学習対象に付与されるマーカの撮影により行われる、
請求項9に記載の情報処理装置。
【請求項11】
前記教示は、前記学習対象から無線通信により送信される情報に基づいて行われる、
請求項9に記載の情報処理装置。
【請求項12】
前記教示は、前記学習対象から発せられる非可聴音に基づいて行われる、
請求項9に記載の情報処理装置。
【請求項13】
前記ラベルは、前記ユーザの発話から抽出される、
請求項1に記載の情報処理装置。
【請求項14】
前記学習対象は、物体を含み、
前記動作制御部は、前記教示に基づいて特定された前記物体の撮影を前記自律移動体に行わせる、
請求項1に記載の情報処理装置。
【請求項15】
前記学習対象は、物体の動作を含み、
前記動作制御部は、前記教示に基づいて特定された前記物体の動作に係る情報取得を前記自律移動体に行わせる、
請求項1に記載の情報処理装置。
【請求項16】
前記学習対象は、空間領域を含み、
前記動作制御部は、前記教示に基づいて特定された前記空間領域に係る情報取得を前記自律移動体に行わせる、
請求項1に記載の情報処理装置。
【請求項17】
前記動作制御部は、前記パターン認識学習が開始または終了したことを示す動作を前記自律移動体に行わせる、
請求項1に記載の情報処理装置。
【請求項18】
前記動作制御部は、ユーザによる前記教示を誘導するための誘導動作を前記自律移動体に行わせる、
請求項1に記載の情報処理装置。
【請求項19】
前記パターン認識学習に係る前記ラベルと前記学習対象との対応付けを行うためのユーザインタフェースを制御するアプリケーション制御部、
をさらに備える、
請求項1に記載の情報処理装置。
【請求項20】
前記アプリケーション制御部は、前記ユーザインタフェースにおいて、ユーザが環境地図における任意の指定領域を指定し、前記指定領域に対し前記ラベルを付与するための手段を提供する、
請求項19に記載の情報処理装置。
【請求項21】
前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記指定領域に対しユーザが付与することが可能な前記ラベルの候補を提示する、
請求項20に記載の情報処理装置。
【請求項22】
前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記ラベルと前記学習対象との対応付けをユーザが修正するための手段を提供する、
請求項19に記載の情報処理装置。
【請求項23】
前記ラベルと前記学習対象の画像に基づいて前記パターン認識学習を行う学習部、
をさらに備える、
請求項1に記載の情報処理装置。
【請求項24】
プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、
を含み、
前記動作を制御することは、ユーザにより実行される教示であって、パターン認識学習に係る前記教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象であって、前記ユーザの指が示す方向に存在する学習対象に係る情報取得を前記自律移動体に行わ
せ、
前記ユーザのジェスチャにより指示した物体を前記学習対象として特定した後に、前記ユーザが発した音声から前記ラベルを抽出すること
をさらに含む、情報処理方法。
【請求項25】
コンピュータを、
認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
を備え、
前記動作制御部は、ユーザにより実行される教示であって、パターン認識学習に係る前記教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象であって、前記ユーザの指が示す方向に存在する学習対象に係る情報取得を前記自律移動体に行わ
せ、
前記動作制御部は、
前記ユーザのジェスチャにより指示した物体を前記学習対象として特定した後に、前記ユーザが発した音声から前記ラベルを抽出する
情報処理装置、として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
近年、学習機能を有する種々の装置が開発されている。上記の装置には、推定した状況に基づいて自律動作を行うロボットなどの自律移動体が含まれる。また、上記のような自律移動体の取り得る行動をより多様化させるための技術も多く提案されている。例えば、特許文献1には、他の情報家電機器の性質に合わせ、新しい行動パターンを創り出すことにより、自律移動体の性質に変化を持たせる技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、自律移動体の行動は、一般的に、自律移動体が認識できる対象が増加するほど、より多様化することが想定される。しかし、上記のような対象を大幅に増加させるためには、当該対象に係る大量の学習データを用意することが求められる。
【0005】
そこで、本開示では、パターン認識に係る学習をより効率的に実現することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
【課題を解決するための手段】
【0006】
本開示によれば、認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、を備え、前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、情報処理装置が提供される。
【0007】
また、本開示によれば、プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、を含み、前記動作を制御することは、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせること、をさらに含む、情報処理方法が提供される。
【0008】
また、本開示によれば、コンピュータを、認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、を備え、前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、情報処理装置、として機能させるためのプログラムが提供される。
【発明の効果】
【0009】
以上説明したように本開示によれば、パターン認識に係る学習をより効率的に実現することが可能となる。
【0010】
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
【図面の簡単な説明】
【0011】
【
図1】本開示の第1の実施形態に係る自律移動体のハードウェア構成例を示す図である。
【
図2】同実施形態に係る自律移動体が備えるアクチュエータの構成例である。
【
図3】同実施形態に係る自律移動体が備えるアクチュエータの動作について説明するための図である。
【
図4】同実施形態に係る自律移動体が備えるアクチュエータの動作について説明するための図である。
【
図5】同実施形態に係る自律移動体が備えるディスプレイの機能について説明するための図である。
【
図6】同実施形態に係る自律移動体の動作例を示す図である。
【
図7】同実施形態に係るシステム構成の一例を示す図である。
【
図8】同実施形態に係る自律移動体の機能構成例を示す図である。
【
図9】同実施形態に係る情報処理サーバの機能構成例を示す図である。
【
図10】同実施形態に係る教示に基づくパターン認識学習の概要を示す図である。
【
図11】同実施形態に係る教示に基づく動作認識学習の概要を示す図である。
【
図12】同実施形態に係る教示に基づく空間領域認識学習の概要を示す図である。
【
図13】同実施形態に係る学習対象の撮影制御について説明するための図である。
【
図14】同実施形態に係る学習対象の撮影制御について説明するための図である。
【
図15】同実施形態に係るマーカを利用した教示について説明するための図である。
【
図16】同実施形態に係る無線通信を利用した教示について説明するための図である。
【
図17】同実施形態に係る非可聴音を利用した教示について説明するための図である。
【
図18】同実施形態に係るユーザインタフェースの一例を示す図である。
【
図19】同実施形態に係るユーザインタフェースの一例を示す図である。
【
図20】同実施形態に係る誘導動作について説明するための図である。
【
図21】同実施形態に係る自律移動体10の動作の流れを示すフローチャートである。
【
図22】本開示の第2の実施形態に係る環境地図を用いた教示を行うためのユーザインタフェースの一例である。
【
図23】同実施形態に係る環境地図の生成過程の一例を示す図である。
【
図24】同実施形態に係る環境地図の生成過程の一例を示す図である。
【
図25】同実施形態に係る環境地図の生成過程の一例を示す図である。
【
図26】同実施形態に係る環境地図の生成過程の一例を示す図である。
【
図27】同実施形態に係る環境地図の生成過程の一例を示す図である。
【
図28】同実施形態に係る指定領域に対応する空間領域への移動制御と情報取得について説明するための図である。
【
図29】同実施形態に係る環境地図を用いた教示学習の流れを示すフローチャートである。
【
図30】本開示の一実施形態に係る情報処理サーバのハードウェア構成例を示すブロック図である。
【発明を実施するための形態】
【0012】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0013】
なお、説明は以下の順序で行うものとする。
1.第1の実施形態
1.1.自律移動体10の概要
1.2.自律移動体10のハードウェア構成例
1.3.システム構成例
1.4.自律移動体10の機能構成例
1.5.情報処理サーバ20の機能構成例
1.6.機能の詳細
1.7.動作の流れ
2.第1の実施形態
2.1.概要
2.2.環境地図を用いた教示の詳細
2.3.環境地
図EMを用いた教示学習の流れ
3ハードウェア構成例
4.まとめ
【0014】
<1.第1の実施形態>
<<1.1.自律移動体10の概要>>
まず、本開示の一実施形態に係る自律移動体10の概要について説明する。本開示の一実施形態に係る自律移動体10は、収集したセンサ情報に基づく状況推定を実行し、状況に応じた種々の動作を自律的に選択し実行する情報処理装置である。自律移動体10は、単にユーザの指示コマンドに従った動作を行うロボットとは異なり、状況ごとに最適であると推測した動作を自律的に実行することを特徴の一つとする。
【0015】
本開示の一実施形態に係る自律移動体10は、例えば、撮影した画像に基づくユーザ認識や、物体認識などを実行し、認識したユーザや物体などに応じた種々の自律行動を行うことが可能である。また、本実施形態に係る自律移動体10は、例えば、ユーザの発話に基づく音声認識を実行し、ユーザの指示などに基づく行動を行うこともできる。
【0016】
この際、上記のユーザ認識や物体認識を行うためには、予めユーザや物体の特徴をラベルと対応付けて学習することが求められる。自律移動体10は、例えば、与えられた正解ラベルに基づく教師学習を行うことで、画像から抽出した物体の特徴とラベルとを対応付け、当該物体の認識が行えるようになる。
【0017】
一方、上記のような教師学習を実現するためには、予め物体に係る正解ラベルと画像とを対応付けた学習データが必要となる。しかし、自律移動体10が日常において遭遇し得るすべての物体に係る学習データを予め開発者が用意し、また自律移動体10に学習させることは、現実的に困難である。また、例え、多くの物体に係るパターン認識学習を予め行った場合であっても、これまでには世にない物体や、既存のものとは意匠が異なる物体が普及した場合、事前の学習知識のみでは、上記のような物体に対応することが困難である。
【0018】
本開示に係る技術思想は、上記の点に着目して発想されたものであり、パターン認識に係る学習をより効率的に実現することを可能とする。このために、本開示の一実施形態に係る自律移動体10は、教示に基づいて動的に学習データを収集し、物体などに係るパターン認識学習を行うことで、予め学習データが用意されない場合であっても、種々の事象に対する認識能を獲得することを特徴の一つとする。
【0019】
本実施形態に係る自律移動体10は、例えば、ユーザによる教示に基づいて、学習データを自動で収集することが可能である。自律移動体10は、例えば、ユーザが指差しなどのジェスチャにより指示した物体を学習対象として特定し、また、その後にユーザが発した音声からラベルを抽出することができる。また、本実施形態に係る自律移動体10は、教示されたラベルと対応付けて学習する学習対象の撮影を自動的に行ってよい。
【0020】
本実施形態に係る自律移動体10が有する上記の機能によれば、教示に基づいて種々の事象のパターン認識学習に係る学習データを自動で生成することができ、日常において新たに観察し得る事象に対する認識能を効率的に獲得することが可能となる。
【0021】
以下、上記の特徴を実現する自律移動体10の構成について詳細に説明する。なお、本開示の一実施形態に係る自律移動体10は、空間内を自律的に移動し、種々の動作を実行する自律移動型ロボットであってよい。自律移動体10は、例えば、ヒトやイヌなどの動物を模した形状や、動作能力を有する自律移動型ロボットであってもよい。また、自律移動体10は、例えば、ユーザとのコミュニケーション能力を有する車両やその他の装置であってもよい。本開示の一実施形態に係る自律移動体10の形状、能力、また欲求などのレベルは、目的や役割に応じて適宜設計され得る。
【0022】
<<1.2.自律移動体10のハードウェア構成例>>
次に、本開示の一実施形態に係る自律移動体10のハードウェア構成例について説明する。なお、以下では、自律移動体10がイヌ型の四足歩行ロボットである場合を例に説明する。
【0023】
図1は、本開示の一実施形態に係る自律移動体10のハードウェア構成例を示す図である。
図1に示すように、自律移動体10は、頭部、胴部、4つの脚部、および尾部を有するイヌ型の四足歩行ロボットである。また、自律移動体10は、頭部に2つのディスプレイ510を備える。
【0024】
また、自律移動体10は、種々のセンサを備える。自律移動体10は、例えば、マイクロフォン515、カメラ520、ToF(Time of Flight)センサ525、人感センサ530、測距センサ535、タッチセンサ540、照度センサ545、足裏ボタン550、慣性センサ555を備える。
【0025】
(マイクロフォン515)
マイクロフォン515は、周囲の音を収集する機能を有する。上記の音には、例えば、ユーザの発話や、周囲の環境音が含まれる。自律移動体10は、例えば、頭部に4つのマイクロフォンを備えてもよい。複数のマイクロフォン515を備えることで、周囲で発生する音を感度高く収集すると共に、音源の定位を実現することが可能となる。
【0026】
(カメラ520)
カメラ520は、ユーザや周囲環境を撮影する機能を有する。自律移動体10は、例えば、鼻先と腰部に2つの広角カメラを備えてもよい。この場合、鼻先に配置される広角カメラは、自律移動体の前方視野(すなわち、イヌの視野)に対応した画像を撮影し、腰部の広角カメラは、上方を中心とする周囲領域の画像を撮影する。自律移動体10は、例えば、腰部に配置される広角カメラにより撮影された画像に基づいて、天井の特徴点などを抽出し、SLAM(Simultaneous Localization and Mapping)を実現することができる。
【0027】
(ToFセンサ525)
ToFセンサ525は、頭部前方に存在する物体との距離を検出する機能を有する。ToFセンサ525は、頭部の鼻先に備えられる。ToFセンサ525によれば、種々の物体との距離を精度高く検出することができ、ユーザを含む対象物や障害物などとの相対位置に応じた動作を実現することが可能となる。
【0028】
(人感センサ530)
人感センサ530は、ユーザやユーザが飼育するペットなどの所在を検知する機能を有する。人感センサ530は、例えば、胸部に配置される。人感センサ530によれば、前方に存在する動物体を検知することで、当該動物体に対する種々の動作、例えば、興味、恐怖、驚きなどの感情に応じた動作を実現することが可能となる。
【0029】
(測距センサ535)
測距センサ535は、自律移動体10の前方床面の状況を取得する機能を有する。測距センサ535は、例えば、胸部に配置される。測距センサ535によれば、自律移動体10の前方床面に存在する物体との距離を精度高く検出することができ、当該物体との相対位置に応じた動作を実現することができる。
【0030】
(タッチセンサ540)
タッチセンサ540は、ユーザによる接触を検知する機能を有する。タッチセンサ540は、例えば、頭頂、あご下、背中など、ユーザが自律移動体10に対し触れる可能性が高い部位に配置される。タッチセンサ540は、例えば、静電容量式や感圧式のタッチセンサであってよい。タッチセンサ540によれば、ユーザによる触れる、撫でる、叩く、押すなどの接触行為を検知することができ、当該接触行為に応じた動作を行うことが可能となる。
【0031】
(照度センサ545)
照度センサ545は、自律移動体10が位置する空間の照度を検出する。照度センサ545は、例えば、頭部背面において尾部の付け根などに配置されてもよい。照度センサ545によれば、周囲の明るさを検出し、当該明るさに応じた動作を実行することが可能となる。
【0032】
(足裏ボタン550)
足裏ボタン550は、自律移動体10の脚部底面が床と接触しているか否かを検知する機能を有する。このために、足裏ボタン550は、4つの脚部の肉球に該当する部位にそれぞれ配置される。足裏ボタン550によれば、自律移動体10と床面との接触または非接触を検知することができ、例えば、自律移動体10がユーザにより抱き上げられたことなどを把握することが可能となる。
【0033】
(慣性センサ555)
慣性センサ555は、頭部や胴部の速度や加速度、回転などの物理量を検出する6軸センサである。すなわち、慣性センサ555は、X軸、Y軸、Z軸の加速度および角速度を検出する。慣性センサ555は、頭部および胴部にそれぞれ配置される。慣性センサ555によれば、自律移動体10の頭部および胴部の運動を精度高く検出し、状況に応じた動作制御を実現することが可能となる。
【0034】
以上、本開示の一実施形態に係る自律移動体10が備えるセンサの一例について説明した。なお、
図1を用いて説明した上記の構成はあくまで一例であり、自律移動体10が備え得るセンサの構成は係る例に限定されない。自律移動体10は、上記の構成のほか、例えば、温度センサ、地磁気センサ、GNSS(Global Navigation Satellite System)信号受信機を含む各種の通信装置などをさらに備えてよい。自律移動体10が備えるセンサの構成は、仕様や運用に応じて柔軟に変形され得る。
【0035】
続いて、本開示の一実施形態に係る自律移動体10の関節部の構成例について説明する。
図2は、本開示の一実施形態に係る自律移動体10が備えるアクチュエータ570の構成例である。本開示の一実施形態に係る自律移動体10は、
図2に示す回転箇所に加え、耳部と尾部に2つずつ、口に1つの合計22の回転自由度を有する。
【0036】
例えば、自律移動体10は、頭部に3自由度を有することで、頷きや首を傾げる動作を両立することができる。また、自律移動体10は、腰部に備えるアクチュエータ570により、腰のスイング動作を再現することで、より現実のイヌに近い自然かつ柔軟な動作を実現することが可能である。
【0037】
なお、本開示の一実施形態に係る自律移動体10は、例えば、1軸アクチュエータと2軸アクチュエータを組み合わせることで、上記の22の回転自由度を実現してもよい。例えば、脚部における肘や膝部分においては1軸アクチュエータを、肩や大腿の付け根には2軸アクチュエータをそれぞれ採用してもよい。
【0038】
図3および
図4は、本開示の一実施形態に係る自律移動体10が備えるアクチュエータ570の動作について説明するための図である。
図3を参照すると、アクチュエータ570は、モータ575により出力ギアを回転させることで、可動アーム590を任意の回転位置および回転速度で駆動させることができる。
【0039】
図4を参照すると、本開示の一実施形態に係るアクチュエータ570は、リアカバー571、ギアBOXカバー572、制御基板573、ギアBOXベース574、モータ575、第1ギア576、第2ギア577、出力ギア578、検出用マグネット579、2個のベアリング580を備える。
【0040】
本開示の一実施形態に係るアクチュエータ570は、例えば、磁気式svGMR(spin-valve Giant Magnetoresistive)であってもよい。制御基板573が、メインプロセッサによる制御に基づいて、モータ575を回転させることで、第1ギア576および第2ギア577を介して出力ギア578に動力が伝達され、可動アーム590を駆動させることが可能である。
【0041】
また、制御基板573に備えられる位置センサが、出力ギア578に同期して回転する検出用マグネット579の回転角を検出することで、可動アーム590の回転角度、すなわち回転位置を精度高く検出することができる。
【0042】
なお、磁気式svGMRは、非接触方式であるため耐久性に優れるとともに、GMR飽和領域において使用することで、検出用マグネット579や位置センサの距離変動による信号変動の影響が少ないという利点を有する。
【0043】
以上、本開示の一実施形態に係る自律移動体10が備えるアクチュエータ570の構成例について説明した。上記の構成によれば、自律移動体10が備える関節部の屈伸動作を精度高く制御し、また関節部の回転位置を正確に検出することが可能となる。
【0044】
続いて、
図5を参照して、本開示の一実施形態に係る自律移動体10が備えるディスプレイ510の機能について説明する。
図5は、本開示の一実施形態に係る自律移動体10が備えるディスプレイ510の機能について説明するための図である。
【0045】
(ディスプレイ510)
ディスプレイ510は、自律移動体10の目の動きや感情を視覚的に表現する機能を有する。
図5に示すように、ディスプレイ510は、感情や動作に応じた眼球、瞳孔、瞼の動作を表現することができる。ディスプレイ510は、文字や記号、また眼球運動とは関連しない画像などを敢えて表示しないことで、実在するイヌなどの動物に近い自然な動作を演出する。
【0046】
また、
図5に示すように、自律移動体10は、右眼および左眼にそれぞれ相当する2つのディスプレイ510rおよび510lを備える。ディスプレイ510rおよび510lは、例えば、独立した2つのOLED(Organic Light Emitting Diode)により実現される。OLEDによれば、眼球の曲面を再現することが可能となり、1枚の平面ディスプレイにより一対の眼球を表現する場合や、2枚の独立した平面ディスプレイにより2つの眼球をそれぞれ表現する場合と比較して、より自然な外装を実現することができる。
【0047】
以上述べたように、ディスプレイ510rおよび510lによれば、
図5に示すような自律移動体10の視線や感情を高精度かつ柔軟に表現することが可能となる。また、ユーザはディスプレイ510に表示される眼球の動作から、自律移動体10の状態を直観的に把握することが可能となる。
【0048】
以上、本開示の一実施形態に係る自律移動体10のハードウェア構成例について説明した。上記の構成によれば、
図6に示すように、自律移動体10の関節部や眼球の動作を精度高くまた柔軟に制御することで、より実在の生物に近い動作および感情表現を実現することが可能となる。なお、
図6は、本開示の一実施形態に係る自律移動体10の動作例を示す図であるが、
図6では、自律移動体10の関節部および眼球の動作について着目して説明を行うため、自律移動体10の外部構造を簡略化して示している。同様に、以下の説明においては、自律移動体10の外部構造を簡略化して示す場合があるが、本開示の一実施形態に係る自律移動体10のハードウェア構成および外装は、図面により示される例に限定されず、適宜設計され得る。
【0049】
<<1.2.自律移動体10のハードウェア構成例>>
次に、本開示の一実施形態に係るシステム構成例について説明する。
図7は、本開示の一実施形態に係るシステム構成の一例を示す図である。
図7を参照すると、本開示の一実施形態に係る情報処理システムは、複数の自律移動体10および情報処理サーバ20を備える。なお、自律移動体10と情報処理サーバ20、また自律移動体10同士は、ネットワーク30を介して互いに通信が行えるように接続される。
【0050】
(自律移動体10)
本開示の一実施形態に係る自律移動体10は、収集したセンサ情報に基づく状況推定を実行し、状況に応じた種々の動作を自律的に選択し実行する情報処理装置である。上述したように、本開示の一実施形態に係る自律移動体10は、例えば、ヒトやイヌなどの動物を模した形状や、動作能力を有する自律移動型ロボットであってもよい。本開示の一実施形態に係る自律移動体10は、教示に基づき学習データを自動で収集し、当該学習データに基づくパターン認識学習を行ってよい。
【0051】
(情報処理サーバ20)
本開示の一実施形態に係る情報処理サーバ20は、複数の自律移動体10と接続され、自律移動体10から各種の情報を収集する機能を有する情報処理装置である。情報処理サーバ20は、例えば、複数の自律移動体10により収集された学習データを蓄積する。また、本開示の一実施形態に係る情報処理サーバ20は、自律移動体10の学習状況をユーザが確認するためのユーザインタフェースを制御する。
【0052】
(ネットワーク30)
ネットワーク30は、自律移動体10と情報処理サーバ20、自律移動体10同士を接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
【0053】
以上、本開示の一実施形態に係るシステム構成例について説明した。なお、
図7を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、自律移動体10は、情報処理サーバ20のほか、種々の外部装置とさらに情報通信を行ってもよい。上記の外部装置には、例えば、天気やニュース、その他のサービス情報を発信するサーバや、ユーザが所持する各種の情報処理端末、家電機器などが含まれ得る。本開示の一実施形態に係るシステム構成は、仕様や運用に応じて柔軟に変形され得る。
【0054】
<<1.4.自律移動体10の機能構成例>>
次に、本開示の一実施形態に係る自律移動体10の機能構成例について説明する。
図8は、本開示の一実施形態に係る自律移動体10の機能構成例を示す図である。
図8を参照すると、本開示の一実施形態に係る自律移動体10は、入力部110、認識部120、学習部130、行動計画部140、動作制御部150、駆動部160、出力部170、およびサーバ通信部180を備える。
【0055】
(入力部110)
入力部110は、ユーザや周囲環境に係る種々の情報を収集する機能を有する。入力部110は、例えば、ユーザの発話や周囲で発生する環境音、ユーザや周囲環境に係る画像情報、および種々のセンサ情報を収集する。このために、入力部110は、
図1に示す各種のセンサを備える。
【0056】
(認識部120)
認識部120は、入力部110が収集した種々の情報に基づいて、ユーザや周囲環境、また自律移動体10の状態に係る種々の認識を行う機能を有する。一例としては、認識部120は、人識別、表情や視線の認識、物体認識、動作認識、空間領域認識、色認識、形認識、マーカー認識、障害物認識、段差認識、明るさ認識などを行ってよい。
【0057】
本実施形態に係る認識部120は、例えば、ユーザが指差しなどのジェスチャにより示した学習対象を特定する機能を有してよい。また、本実施形態に係る認識部120は、例えば、上記のジェスチャなどの後にユーザが発した音声を形態素解析することにより名詞句を抽出する機能を有してよい。当該名詞句は、学習部130によるパターン認識学習におけるラベルとして用いられ得る。
【0058】
また、認識部120は、ユーザの声に係る感情認識、単語理解、音源定位などを行う。また、認識部120は、ユーザなどによる接触や、周囲の温度、動物体の存在、自律移動体10の姿勢などを認識することができる。
【0059】
さらには、認識部120は、認識した上記の情報に基づいて、自律移動体10が置かれた周囲環境や状況を推定し、理解する機能を有する。この際、認識部120は、事前に記憶される環境知識を用いて総合的に状況推定を行ってもよい。
【0060】
(学習部130)
学習部130は、環境(状況)と行動、また当該行動による環境への作用を学習する機能を有する。学習部130は、例えば、深層学習(Deep Learning)などの機械学習アルゴリズムを用いて、上記の学習を実現する。なお、学習部130が採用する学習アルゴリズムは、上記の例に限定されず、適宜設計可能である。
【0061】
本実施形態に係る学習部130は、認識部120が教示に基づいて収集したラベルと、入力部110が撮影した学習対象の画像とに基づいてパターン認識学習を行う。
【0062】
(行動計画部140)
行動計画部140は、認識部120が推定した状況と学習部130が学習した知識に基づいて、自律移動体10が行う行動を計画する機能を有する。
【0063】
(動作制御部150)
動作制御部150は、行動計画部140による行動計画に基づいて、駆動部160および出力部170の動作を制御する機能を有する。動作制御部150は、例えば、上記の行動計画に基づいて、アクチュエータ570の回転制御や、ディスプレイ510の表示制御、スピーカによる音声出力制御などを行う。
【0064】
本実施形態に係る動作制御部150は、例えば、認識部120がパターン認識学習に係る教示の開始を検出したことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を入力部110に行わせてよい。
【0065】
より具体的には、本実施形態に係る動作制御部150は、認識部120により特定された学習対象が撮影可能な位置および姿勢を取るために駆動部160を制御し、また入力部110に当該学習対象の撮影を行わせる。
【0066】
この際、本実施形態に係る動作制御部150は、駆動部160を制御することで、自律移動体10の位置や姿勢を変化させ、入力部110に、学習対象を複数の角度から撮影させてもよい。本実施形態に係る動作制御部150が有する上記の機能によれば、例えば、学習対象の複数の側面や上面の画像を収集し学習データとすることができ、より効率的なパターン認識学習を実現することが可能となる。本実施形態に係る動作制御部150が有する機能の詳細については別途後述する。
【0067】
(駆動部160)
駆動部160は、動作制御部150による制御に基づいて、自律移動体10が有する複数の関節部を屈伸させる機能を有する。より具体的には、駆動部160は、動作制御部150による制御に基づき、各関節部が備えるアクチュエータ570を駆動させる。
【0068】
(出力部170)
出力部170は、動作制御部150による制御に基づいて、視覚情報や音情報の出力を行う機能を有する。このために、出力部170は、ディスプレイ510やスピーカを備える。
【0069】
(サーバ通信部180)
サーバ通信部180は、情報処理サーバ20や他の自律移動体10との情報通信を行う機能を有する。例えば、サーバ通信部180は、収集された学習データなどを情報処理サーバ20に送信する。また、例えば、サーバ通信部180は、情報処理サーバ20が蓄積する学習データや、当該学習データに基づいて学習された学習知識に係る情報を受信する。
【0070】
以上、本開示の一実施形態に係る自律移動体10の機能構成例について説明した。なお、
図8を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る自律移動体10の機能構成は係る例に限定されない。本開示の一実施形態に係る自律移動体10の機能構成は、仕様や運用に応じて柔軟に変形され得る。
【0071】
<<1.5.情報処理サーバ20の機能構成例>>
次に、本開示の一実施形態に係る情報処理サーバ20の機能構成例について説明する。
図9は、本開示の一実施形態に係る情報処理サーバ20の機能構成例を示す図である。
図9を参照すると、本開示の一実施形態に係る情報処理サーバ20は、認識部210、学習部220、記憶部230、アプリケーション制御部240、および端末通信部250を備える。
【0072】
(認識部210)
本実施形態に係る認識部210は、自律移動体10が備える認識部210と同等の機能を有してよい。すなわち、本実施形態に係る認識部210は、教示に基づいて、学習対象の特定やラベルの抽出を行う機能を有する。なお、本実施形態に係る認識部210は、複数の自律移動体10が収集した情報に基づいて学習対象の特定やラベルの抽出を行ってよい。
【0073】
(学習部220)
本実施形態に係る学習部220は、自律移動体10が備える学習部130と同等の機能を有してよい。すなわち、本実施形態に係る学習部220は、認識部210が取得したラベルと学習対象に係る画像とに基づくパターン認識学習を行う。なお、本実施形態に係る学習部220は、複数の自律移動体10が収集した情報に基づいてパターン認識学習を行ってよい。すなわち、本実施形態に係る学習部220は、複数の自律移動体10に共通する集合知として機能する。
【0074】
(記憶部230)
本実施形態に係る記憶部230は、収集された学習データや、学習部220や自律移動体10が学習した学習知識、また当該学習知識に基づくパターン認識の結果などを記憶する。
【0075】
(アプリケーション制御部240)
本実施形態に係るアプリケーション制御部240は、自律移動体10の状態確認や機能制御に係るユーザインタフェースを制御する。アプリケーション制御部240は、上記のユーザインタフェースをユーザが所持する情報処理端末などに表示させてもよい。アプリケーション制御部240は、例えば、上記ユーザインタフェースにおいて、自律移動体10の学習状況を確認するための手段や、パターン認識学習に係るラベルと学習対象との対応付けを行うための手段を提供する。
【0076】
本実施形態に係るアプリケーション制御部240は、特に、自律移動体10が学習したラベルと学習対象との対応付けを、ユーザが修正するための手段を提供してもよい。本実施形態に係るアプリケーション制御部240が有する機能の詳細については別途後述する。なお、本実施形態に係るアプリケーション制御部240が有する機能は、自律移動体10の機能として実現することも可能である。すなわち、本実施形態に係る自律移動体10は、
図8に示した構成に加え、アプリケーション制御部を別途備えてもよい。
【0077】
(端末通信部250)
本実施形態に係る端末通信部250は、ネットワーク30を介して複数の自律移動体10との情報通信を行う。例えば、本実施形態に係る端末通信部250は、自律移動体10から、学習データやパターン認識結果などを受信する。また、端末通信部250は、複数の自律移動体10により収集された学習データや、当該学習データに基づいて学習された学習知識を自律移動体10に送信する。
【0078】
以上、本開示の一実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、
図9を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。例えば、上述したように、本実施形態に係る情報処理サーバ20は、自律移動体10の行動計画部140や動作制御部150と同等の機能を有してもよい。この場合、本実施形態に係る情報処理サーバ20は、自律移動体10の入力部110が収集したセンサ情報に基づいて状況推定を行い、駆動部160や出力部170を遠隔的に制御することが可能である。本開示の一実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形され得る。
【0079】
<<1.6.機能の詳細>>
次に、本開示の第1の実施形態に係る自律移動体10および情報処理サーバ20が有する機能について詳細に説明する。なお、以下においては、パターン認識学習が自律移動体10の学習部130により行われる場合を主な例として説明するが、上述したように、本実施形態に係るパターン認識学習は、情報処理サーバ20の学習部220により行われてもよいし、学習部130および学習部220の両者によりそれぞれ行われてもよい。
【0080】
まず、本実施形態に係る教示に基づくパターン認識学習の概要について説明する。
図10は、本実施形態に係る教示に基づくパターン認識学習の概要を示す図である。なお、
図10では、本実施形態に係る教示が、ユーザにより実行される場合の一例が示されている。
【0081】
本実施形態に係る教示は、例えば、
図10の左側に示すように、ユーザによる指差しなどのジェスチャや発話によって行われてもよい。
図10に示す一例の場合、ユーザは、指UHにより「そうじき」である物体O1を示すともに、発話UOにより、物体O1が「そうじき」であることを自律移動体10に教示している。
【0082】
この際、本実施形態に係る認識部120は、まず、「覚えてね」などのユーザの発話や、教示による学習の開始を指示するユーザのジェスチャ、また指を鳴らすなどの音に基づいて、教示の開始を検出する。また、この際、本実施形態に係る動作制御部150は、教示に基づく学習を開始することを示す動作を自律移動体10に行わせてもよい。動作制御部150は、例えば、吠える、耳や尻尾を立てる、ディスプレイ510により表現される虹彩の色を変化させてもよい。また、自律移動体10が言語を用いてユーザとのコミュニケーションを行う場合には、学習を開示する旨の音声を出力部170に出力させることも可能である。
【0083】
次に、動作制御部150は、駆動部160を制御することで、ユーザの指UFおよび指UFにより示される物体O1が視野FVに収まるように、自律移動体10の位置や姿勢を変化させる。
【0084】
続いて、認識部120は、ユーザの指UFが示す方向に基づいて物体O1を学習対象として特定する。また、本実施形態に係る動作制御部150は、認識部120が学習対象として特定した物体O1を入力部110に撮影させる。
【0085】
また、認識部120は、ユーザの発話UOを形態素解析することで、ラベルとして用いられる名詞句「そうじき」を抽出する。
【0086】
続いて、学習部130は、上記のように抽出されたラベルと、撮影された学習対象の画像とを対応付けて学習データとし、物体O1に係る物体認識学習を実行する。
【0087】
このように、本実施形態に係る自律移動体10によれば、予め学習データを用意しなくとも、日常において種々の物体に係る学習データを自動で収集し、当該学習データに基づく物体認識学習を行うことが可能である。
【0088】
また、本実施形態に係る自律移動体10が有する上記の機能によれば、教示に基づく学習を繰り返し実行し、また、情報処理サーバ20により学習された集合知を利用することで、図中右側に示すように、物体O1とは形状(特徴)が異なる物体O2を「そうじき」として認識することなどが可能となる。これによれば、例えば、ユーザが「そうじき」を新たに買い換えた場合などにおいても、一から学習をし直すことなく柔軟に対応することができる。
【0089】
なお、本実施形態に係る教示に基づくパターン認識学習の概要について説明した。なお、
図10では、本実施形態に係るパターン認識学習の一例として物体認識学習を挙げたが、本実施形態に係るパターン認識学習は、係る例に限定されない。本実施形態に係るパターン認識学習には、例えば、動作認識学習が含まれる。すなわち、本実施形態に係る学習対象は、物体の動作であってもよい。
【0090】
図11は、本実施形態に係る教示に基づく動作認識学習の概要を示す図である。
図11に示す一例では、ユーザが、人物が行う「ジャンプ」動作を自律移動体10に教示する場合が示されている。
【0091】
具体的には、ユーザは、図中左側に示すように、「ジャンプ」を行う人物P1を指UHにより示しながら、人物P1が行っている動作が「ジャンプ」であることを教示する発話UOを行っている。
【0092】
この際、本実施形態に係る認識部120は、発話UOに含まれる「動作」という語句を認識することで、ユーザが人物P1に係る物体認識(またはユーザ認識)ではなく、人物P1が行っている動作を教示していることを検出してもよい。また、認識部120は、ユーザが発した「動作を覚えてね」などの発話に基づいて、動作認識に係る教示を検出してもよい。
【0093】
続いて、認識部120は、ユーザの指UFが示す方向に基づいて人物P1が行う動作を学習対象として特定する。また、本実施形態に係る動作制御部150は、認識部120が学習対象として特定した人物P1の動作を入力部110に撮影させる。
【0094】
また、認識部120は、ユーザの発話UOを形態素解析することで、ラベルとして用いられる名詞句「ジャンプ」を抽出する。
【0095】
続いて、学習部130は、上記のように抽出されたラベルと、撮影された学習対象の画像とを対応づけて学習データとし、人物P1が行う動作に係る物体認識学習を実行する。
【0096】
このように、本実施形態に係る自律移動体10によれば、物体そのものに加え、物体が行う種々の動作に係る学習データを自動で収集し、当該学習データに基づく物体認識学習を行うことが可能である。
【0097】
なお、上記では、学習データとして、動作の画像を用いる場合を一例として述べたが、本実施形態に係る学習部130は、例えば、動作を行う人物が装着する情報処理端末が収集したモーションデータを学習データとして用いてもよい。
【0098】
本実施形態に係る自律移動体10が有する上記の機能によれば、教示に基づく学習を繰り返し実行し、また、情報処理サーバ20により学習された集合知を利用することで、図中右側に示すように、人物P1とは異なる人物P2が行う「ジャンプ」なども精度高く認識することが可能となる。
【0099】
また、本実施形態に係るパターン認識学習には、例えば、空間領域認識学習が含まれてよい。すなわち、本実施形態に係る学習対象は、任意の空間領域であってもよい。ここで、本実施形態に係る空間領域とは、空間における任意の所定領域(場所)であってよい。なお、本実施形態に係る空間領域は、必ずしも他の空間領域と物理的に区切られた閉空間でなくてよい。本実施形態に係る空間領域は、例えば、「家」であってもよいし、「家」の「1階」であってもよい。また、本実施形態に係る空間領域は、「1階」の「リビング」であってもよいし、「リビング」における「ソファ付近」であってもよい。
【0100】
図12は、本実施形態に係る教示に基づく空間領域認識学習の概要を示す図である。
図12に示す一例では、ユーザが、「げんかん」である空間領域D1を自律移動体10に教示する場合が示されている。
【0101】
具体的には、ユーザは、図中左側に示すように、自律移動体10が位置している空間領域D1が「げんかん」であることを教示する発話UOを行っている。
【0102】
この際、本実施形態に係る認識部120は、発話UOに含まれる「ここ」という語句を認識することで、空間領域D1に係る教示を行っていることを検出してもよい。また、認識部120は、ユーザが発した「場所を覚えてね」などの発話に基づいて、空間領域認識に係る教示を検出してもよい。
【0103】
続いて、認識部120は、ユーザの発話UOに基づいて自律移動体10が現在位置する空間領域D1を学習対象として特定する。また、本実施形態に係る動作制御部150は、認識部120が学習対象として特定した空間領域を入力部110に撮影させる。
【0104】
また、認識部120は、ユーザの発話UOを形態素解析することで、ラベルとして用いられる名詞句「げんかん」を抽出する。
【0105】
続いて、学習部130は、上記のように抽出されたラベルと、撮影された学習対象の画像とを対応付けて学習データとし、「げんかん」に係る空間領域認識学習を実行する。
【0106】
このように、本実施形態に係る自律移動体10によれば、物体や動作に加え、種々の空間領域に係る学習データを自動で収集し、当該学習データに基づく空間領域認識学習を行うことが可能である。
【0107】
なお、上記では、学習データとして、空間領域の画像を用いる場合を一例として述べたが、本実施形態に係る学習部130は、例えば、空間領域D1においてトラッキング中のユーザが消失する(すなわち外出する)ことが多いことや、空間領域D1において、「ただいま」や「いってきます」などの発話がよく検出されることなどを、学習すべき空間領域の特徴として用いてもよい。
【0108】
本実施形態に係る自律移動体10が有する上記の機能によれば、教示に基づく学習を繰り返し実行し、また、情報処理サーバ20により学習された集合知を利用することで、図中右側に示すように、空間領域D1とは趣が異なる空間領域D2を「げんかん」として認識することが可能となる。
【0109】
以上、本実施形態に係るパターン認識学習の一例について説明した。続いて、本実施形態に係る学習対象の撮影について詳細に説明する。上述したように、本実施形態に係る動作制御部150は、認識部120が特定した学習対象を、入力部110に撮影させる機能を有する。
【0110】
この際、本実施形態に係る動作制御部150は、パターン認識が高精度かつ効率的に行われるよう、入力部110や駆動部160を制御してよい。
【0111】
例えば、本実施形態に係る動作制御部150は、駆動部160を制御することで、特定された物体の全体が正しく撮影されるよう、自律移動体10の位置や姿勢を変化させることができる。
【0112】
図13は、本実施形態に係る学習対象の撮影制御について説明するための図である。
図13には、ユーザが発話UOにより「れいぞうこ」である物体O3を自律移動体10に教示する場合の一例が示されている。
【0113】
この際、
図13の上段に示すように、教示が開始された際の自律移動体10の位置および姿勢では、物体O3との距離が近すぎるため、視野FVに物体O3の全体が映らない場合がある。このような状況で撮影された画像I1を用いてパターン認識学習を行う場合、物体O3の特徴を正しく抽出できず誤った学習が行われてしまう可能性が高い。
【0114】
このため、本実施形態に係る動作制御部150は、
図13の下段に示すように、特定された物体O3の全体が撮影可能な位置および姿勢に自律移動体10を移動させた後、入力部110に物体O3を撮影させてよい。本実施形態に係る動作制御部150が有する上記の機能によれば、物体O3の全体を正しく写した画像I2に基づいて、精度の高いパターン認識学習を行うことが可能となる。
【0115】
なお、本実施形態に動作制御部150は、認識部120が物体の境界が認識できないと判定した場合に、上記のような制御を行ってよい。例えば、図中に示す画像I1では、画像上端において背景と物体O3との境界が認識できない箇所が存在する。このように、認識部120が背景と学習対象との境界を正しく認識できない場合、動作制御部150は、認識部120が上記の境界を正しく認識できるようになるまで、学習対象と自律移動体10との距離が遠くなるよう、駆動部160を制御してよい。
【0116】
一方、学習対象と自律移動体10との距離が遠すぎる場合には、動作制御部150は、自律移動体10を学習対象に近づける制御を行ってもよい。この際、動作制御部150は、認識部120が画像における背景の割合が所定より大きいと判定したことに基づいて、上記の制御を行うことが可能である。
【0117】
本実施形態に係る動作制御部150が有する上記の機能によれば、学習対象と適切な距離をおいて撮影した画像に基づいて、効率的なパターン認識学習を行うことが可能となる。
【0118】
また、本実施形態に係る動作制御部150は、認識部120が特定した学習対象が複数の角度から撮影されるよう、駆動部160および入力部110を制御してよい。
【0119】
例えば、
図14に示す一例の場合、動作制御部150は、認識部120が学習対象として特定した「ペットボトル」である物体O4が、上面および5方向の側面から撮影されるよう、駆動部160および入力部110を制御している。
【0120】
すなわち、本実施形態に係る動作制御部150は、様々な角度から学習対象の画像に基づいて、パターン認識学習が効率的に行われるよう、自律移動体10を移動させ、複数の画像を撮影させることができる。
【0121】
本実施形態に係る動作制御部150が有する上記の機能によれば、学習対象の一側面を撮影した画像に基づく学習を行う場合と比較して、学習対象の特徴を様々な角度から抽出することができ、汎化性の高い学習効果を得ることが可能となる。
【0122】
以上、本実施形態に係る撮影制御について詳細に説明した。なお、上記では、本実施形態に係る教示がユーザにより行われる場合を主な例として述べたが、本実施形態に係る教示は係る例に限定されない。本実施形態に係る教示は、例えば、学習対象から取得される情報に基づいて行われてもよい。
【0123】
本実施形態に係る教示は、例えば、学習対象に付与されたQRコード(登録商標)などのマーカにより実現されてもよい。
図15は、本実施形態に係るマーカを利用した教示について説明するための図である。
【0124】
例えば、
図15の上段には、「そうじき」である物体O1に付与されたマーカM1により物体認識学習に係る教示が実現される一例が示されている。この場合、認識部120は、入力部110が撮影したマーカM1の画像に基づいてラベル「そうじき」を取得することができる。
【0125】
また、
図15の下段には、「げんかん」である空間領域D1に設置されるドアに付与されたマーカM2により空間領域認識学習に係る教示が実現される一例が示されている。この場合も、認識部120は、入力部110が撮影したマーカM2の画像に基づいてラベル「げんかん」を取得することができる。
【0126】
このように、本実施形態に係るマーカによれば、ユーザによる明示的な教示に代えて、物体や空間領域などに係る教示を実現することができ、自律移動体10の認識能を自動的に高めることが可能となる。
【0127】
また、本実施形態に係る教示は、学習対象から無線通信により送信される情報に基づいて行われてもよい。
図16は、本実施形態に係る無線通信を利用した教示について説明するための図である。
【0128】
図16に示す一例の場合、「そうじき」である物体O1は、無線通信により自律移動体10にラベル「そうじき」や物体O1の画像I3aおよびI3bを送信している。この際、本実施形態に係る学習部130は、受信したラベル「そうじき」、画像I3aおよびI3bに基づいて、物体O1に係る物体認識学習を行うことができる。
【0129】
上記のような無線通信を用いた教示によれば、例えば、図示するように、学習対象である物体O3がクローゼットの中に収納されており、物体O3を撮影できない状況であっても、予め用意された画像をラベルとともに自律移動体10に送信することで、自律移動体10が物体O3に係る物体認識学習を行うことが可能となる。
【0130】
本実施形態に係る無線通信は、例えば、NFC(Near Field Communication)、Bluetooth(商標登録)、RFID(Radio Frequency IDentification)、ビーコンなどが用いられてもよい。
【0131】
また、本実施形態に係る教示は、例えば、学習対象が発する超音波などの非可聴音により実現されてもよい。
図17は、本実施形態に係る非可聴音を利用した教示について説明するための図である。
【0132】
図17に示す一例では、「せんたくき」である物体O5が、動作時に所定の非可聴音を発することで、教示を実現する一例が示されている。例えば、
図17の上段には、「脱水中」に物体O5が発する非可聴音NAS1に基づいて認識部120が、物体O5が「せんたくき」であり、物体O5が「脱水中」であることを検出する場合の一例が示されている。
【0133】
例えば、
図17の下段には、「乾燥中」に物体O5が発する非可聴音NAS2に基づいて認識部120が、物体O5が「せんたくき」であり、物体O5が「乾燥中」であることを検出する場合の一例が示されている。
【0134】
このように、本実施形態に係る非可聴音を利用した教示によれば、物体の名称だけではなく、動作状態なども併せて教示することが可能となる。また、本実施形態に係る非可聴音を利用した教示によれば、例えば、学習部130が、「脱水中」に物体O5が発する動作音である可聴音AS1や、「乾燥中」に物体O5が発する動作音である可聴音AS2を、物体O5の動作状態と併せて学習することも可能である。本実施形態に係る自律移動体10は、上記のような学習を繰り返し実行することで、非可聴音を発しない物体に対しても徐々に認識能を獲得することが可能である。
【0135】
以上、本実施形態に係る教示のバリエーションについて説明した。続いて、本実施形態に係るラベルと学習対象との対応付けの修正について説明する。上述したように、本実施形態に係る自律移動体10は、各種の教示に基づいて、パターン認識学習を行うことが可能である。
【0136】
しかし、例えば、ユーザによる教示に基づいて学習を行う際、学習対象やラベルが誤って取得されてしまう状況も想定される。このため、本実施形態に係る情報処理サーバ20のアプリケーション制御部240は、ラベルと学習対象との対応付けをユーザ(または、開発者やサービス提供者)が修正するためのユーザインタフェースを提供してよい。
【0137】
図18および
図19は、本実施形態に係るユーザインタフェースの一例を示す図である。例えば、
図18には、教示に基づくパターン認識学習が行われた後、アプリケーション制御部240が、ユーザが所持する情報処理端末40に表示させるユーザインタフェースの一例が示されている。
【0138】
なお、
図18に示す一例では、ユーザが「ペットボトル」を指差しにより指定し、発話により教示を行った場合において、図中左側に示すように、「ペットボトル」の近くにあった「グラス」が誤って学習対象として特定され、またラベルが誤って「ぺっとぼる」として抽出された場合の一例が示されている。
【0139】
この際、ユーザは、図中右側に示すように、ユーザインタフェースに表示される画像I4において、正しい学習対象である「ペットボトル」に係る境界認識結果を選択し、また、ラベルに対応するフィールドF1に、正しい綴り「ペットボトル」を入力することで、誤って対応付けられた学習対象とラベルとを容易に修正することが可能である。
【0140】
なお、ユーザは、教示による学習の直後のみではなく、自律移動体10によるパターン認識の履歴から対応付けの修正を行えてもよい。
【0141】
例えば、
図19には、自律移動体10が自律行動中に認識した物体の履歴を表示するユーザインタフェースの一例が示されている。ここで、図中左側の履歴に着目すると、「タンス」である物体が、誤って「れいぞうこ」として認識されていたことがわかる。
【0142】
この際、ユーザは、当該誤った認識の履歴を選択し、正しいラベルを入力することで、図中右側に示すように、対応付けを修正できてよい。このように、本実施形態に係るアプリケーション制御部240が制御するユーザインタフェースによれば、学習の直後や、その後の任意の時点で、誤った学習の内容を発見し、容易に修正することが可能となる。
【0143】
なお、本実施形態に係る学習結果の修正は、自律移動体10により自動的に行われてもよい。本実施形態に係る学習部130は、例えば、情報処理サーバ20に蓄積される学習結果と、自身の学習結果とを比較することで、集合知と自身の学習知識とのずれを検出し、ラベルや学習対象を自動で修正することも可能である。
【0144】
以上、本実施形態に係る教示に基づく学習、当該学習結果の修正について説明した。本実施形態に係る自律移動体10および情報処理サーバ20が有する上記の機能によれば、予め学習データを用意せずとも、日常において動的に学習データを収集し学習を行うことで、自律移動体10の認識能を低負担かつ効果的に向上させることが可能となる。
【0145】
なお、本実施形態に係る動作制御部150は、より効果的に学習データを収集するために、ユーザによる教示を誘導するための誘導動作を自律移動体10に行わせてもよい。
【0146】
図20は、本実施形態に係る誘導動作について説明するための図である。例えば、自律移動体10の自律行動中に、認識部120が認識できない未知の物体Oxを検出した場合、本実施形態に係る動作制御部150は、物体Oxに対するユーザの教示を誘導するための誘導動作を自律移動体10に行わせることができる。
【0147】
図20に示す一例の場合、動作制御部150は、認識部120が、認識できない物体Oxを検出したことに基づいて、物体Oxに対して吠える動作を誘導動作として自律移動体10に行わせている。
【0148】
このように、本実施形態に係る誘導動作によれば、自律移動体10の挙動に対してユーザが未知の物体Oxに対する教示を行う可能性を高めることができ、より効率的に学習データを収集できる効果が期待される。
【0149】
なお、本実施形態に係る誘導動作には、例えば、吠える、匂いを嗅ぐ、威嚇する、首を傾げる、ユーザと対象とを交互に見る、怯える、などの種々の動作が挙げられる。
【0150】
なお、本実施形態に係る動作制御部150は、上記のような誘導動作の他にも、学習した事象に対する種々の行動を自律移動体10に行わせることができる。
【0151】
例えば、動作制御部150は、新たに認識した家具などの物体に対するアクションを行うことで、ユーザに当該家具の使用を促すことも可能である。動作制御部150は、例えば、「そうじき」が所定時間以上可動していないことが検出されたことに基づいて、上記のような動作を自律移動体10に行わせてもよい。
【0152】
また、例えば、動作制御部150は、自律移動体10が学習した物体のうち、お気に入りとして定義された物体に対し、抱きつく、抱えるなどの愛情表現を取らせてもよい。上記のお気入りは、例えば、認識回数や、物体の特定(例えば、製造元など)に基づいて、定義されてもよい。
【0153】
また、例えば、動作制御部150は、新たに学習された動作を自律移動体10に模倣させてもよい。この際、動作制御部150は、撮影された動作の画像から生成されるシーケンスデータに基づいて、自律移動体10に学習した動作を実行させることが可能である。なお、上記のシーケンスデータとは、自律移動体10が有する関節部の回転位置の時系列変化や眼球表現、音出力に係る制御信号を含む情報であってよい。シーケンスデータは、例えば、動作を行う物体の関節位置推定、および屈伸運動の大きさの推定などに基づいて生成され得る。
【0154】
また、例えば、学習部130がユーザが行うエクササイズなどの動作を新たに学習した場合、動作制御部150は、情報処理サーバ20に集合知として蓄積されるエクササイズの学習データなどとの比較に基づいて、ユーザのエクササイズの評価に係る挙動を自律移動体10に行わせてもよい。この際、上記の評価は、例えば、集合知として蓄積される学習データの平均値との乖離などに基づいて行われてよい。
【0155】
また、例えば、動作制御部150は、学習部130が新たに「げんかん」を学習した場合、ユーザの帰宅時に、自律移動体10が「げんかん」でユーザを出迎えるよう駆動部160や出力部170を制御することも可能である。
【0156】
また、例えば、学習部130が、物体の動作状態などを併せて学習した場合において、動作音から異常が検出された際には、動作制御部150は、当該異常に係る通知を自律移動体10に行わせてもよい。また、例えば、動作制御部150は、認識した物体の動作状態に応じた行動を自律移動体10に行わせることも可能である。例えば、電子レンジが動作中であることが認識された場合、動作制御部150は、皿を準備するなどの行動を自律移動体10に行わせてもよい。
【0157】
<<1.7.動作の流れ>>
次に、本実施形態に係る自律移動体10の動作の流れについて詳細に説明する。
図21は、本実施形態に係る自律移動体10の動作の流れを示すフローチャートである。
【0158】
図21を参照すると、まず、認識部120が教示を検出する(S1101)。認識部120は、例えば、ユーザによる発話や、QRコードの検出、無線通信による情報の受信、非可聴音の検出などに基づいて、教示の開始を検出することができる。
【0159】
次に、動作制御部150が、ステップS1101において検出された教示の開始に基づいて、パターン認識学習を開始することを示す動作を自律移動体10に行わせる(S1102)。上記動作は、例えば、吠える、耳や尻尾を動かす、虹彩の色を変化させる動作などであってもよい。
【0160】
次に、認識部120が、学習対象を特定する(S1103)。認識部120は、例えば、ユーザの指差しなどのジェスチャに基づいて、学習対象を特定してもよいし、学習対象から取得される情報に基づいて、学習対象を特定してもよい。
【0161】
また、認識部120は、ラベルを取得する(S1104)。認識部120は、例えば、ユーザの発話からラベルを抽出してもよいし、学習対象から取得される情報からラベルを取得してもよい。
【0162】
次に、動作制御部150は、ステップS1103において特定された学習対象の全体が撮影可能な位置および姿勢となるように、駆動部160を制御する(S1105)。
【0163】
次に、動作制御部150は、複数の角度から学習対象が撮影されるよう駆動部160および入力部110を制御する(S1106)。
【0164】
次に、学習部130は、ステップS1104において取得されたラベルと、ステップS1106において撮影された画像に基づくパターン認識学習を実行する(S1107)。
【0165】
次に、動作制御部150が、パターン認識学習の終了を示す動作を自律移動体10に行わせる(S1102)。上記動作は、例えば、吠える、耳や尻尾を動かす、虹彩の色を変化させる動作などであってもよい。
【0166】
<2.第2の実施形態>
<<2.1.概要>>
以上、本開示の第1の実施形態について説明した。続いて、本開示の第2の実施形態について説明する。上記の第1の実施形態では、パターン認識学習に係る教示が、ユーザの発話やジェスチャ、または学習対象から取得される情報に基づいて行われる場合を述べた。一方、本開示の第2の実施形態では、主に環境地図を用いた教示について説明する。
【0167】
本実施形態に係る環境地図とは、自律移動体10が存在する実空間における物体の配置や建物の構造などの情報を含んだ地図である。本実施形態に係る環境地図は、例えば、SLAMにより取得された情報をユーザ向けに可視化した地図であってもよい(以下、当該ユーザ向けに可視化した地図を、単に、SLAM地図、と称する場合がある)。上述したように、本実施形態に係る自律移動体10は、腰部に配置される広角カメラ(カメラ520)により撮影した画像を用いてSLAMを実現することができる。
【0168】
本開示の第2の実施形態では、上記のように生成された環境地図がユーザに提示され、ユーザが、環境地図上における任意の指定領域に対しラベル付けを行うことで、空間領域のパターン認識学習に係る教示を実現する。
【0169】
このために、本実施形態に係る情報処理サーバ20のアプリケーション制御部240は、ユーザが環境地図を用いた教示を行うためのユーザインタフェースを制御すること、を特徴の一つとする。本実施形態に係るアプリケーション制御部240は、例えば、上記のユーザインタフェースをWebアプリケーションの一機能として提供し、ユーザが所持するスマートフォンやPC(Personal Computer)などの情報処理端末40などに表示させてもよい。なお、上記のユーザインタフェースの制御機能は、自律移動体10の機能として実現されてもよい。
【0170】
以下、本実施形態に係る環境地図を用いた教示について詳細に説明する。なお、以下においては、主に第1の実施形態との差異について中心に述べ、第1の実施形態と共通する機能や効果については、詳細な説明を省略する。
【0171】
<<2.2.環境地図を用いた教示の詳細>>
図22は、本実施形態に係る環境地図を用いた教示を行うためのユーザインタフェースUI2の一例である。
図22に示すように、本実施形態に係るユーザインタフェースUI2では、自律移動体10が収集したセンサ情報に基づいて生成された環境地
図EMがユーザに提示される。上述したように、本実施形態に係る環境地
図EMは、例えば、SLAM地図であり得る。アプリケーション制御部240は、自律移動体10から受信したSLAM地図をユーザインタフェースUI2に配置してもよい。一方、SLAM地図などの環境地
図EMは、自律移動体10が収集したセンサ情報(位置情報、画像などを含む)に基づいて情報処理サーバ20が生成してもよい。以下においては、本実施形態に係る環境地図がSLAM地図である場合を例として説明を行う。
【0172】
本実施形態に係る環境地
図EMでは、例えば、自律移動体10が認識した実空間の情報がブロック単位で示されてもよい。
図22に示す一例の場合、環境地
図EMには、実空間の水平面に対応する2次元の座標系において、所定の単位(距離)で定義された複数のブロックが配置されている。
【0173】
また、上記のブロックは、対応する実空間上の空間領域の属性を示している。例えば、ブロックB1は、自律移動体10が移動(進入)することができない空間領域(例えば、壁など)を示している。また、ブロックB2は、自律移動体10がこれまでに実際に移動した空間領域(すなわち移動可能な開空間領域)を示している。また、ブロックB3は、自律移動体10が未だ移動したことがない空間領域を示している。また、ブロックB4は、移動不可能、移動可能、未移動の判別が困難な領域を示している。
【0174】
ブロックB1~B4により示される上記のような空間領域の属性は、例えば、色やパターン、形状の違いなどにより表現されてもよい。
図22では、色の違いにより上記の属性が表現される場合の一例を示している。
【0175】
また、
図22に示すように、本実施形態に係る環境地
図EMには、自律移動体10の現在位置CPや自律移動体10に電力を供給するためのチャージステーションCSの位置が示されてもよい。
【0176】
ユーザは、ユーザインタフェースUI2に表示される上記のような環境地
図EMにおいて、任意の指定領域を指定しラベルを付与することで、当該指定領域に対応する実空間上の空間領域に係る教示を行うことができる。
【0177】
この際、ユーザは、まず、環境地
図EM上においてドラッグ操作などにより任意の指定領域を選択する。
図22に示す一例では、ユーザが選択指定した領域が点線により示されている。次に、ユーザは、選択した指定領域に対し、空間領域の名称を含むタグT、すなわちラベルを付与する。
図22では、ユーザが選択した指定領域に対し、名称「Kitchen」を含むタグTを付与した場合の一例が示されている。
【0178】
このように、本実施形態に係るアプリケーション制御部240は、ユーザインタフェースUI2において、ユーザが環境地
図EMにおける任意の指定領域を指定し、当該指定領域に対しラベルを付与するための手段を提供すること、を特徴の一つとする。本実施形態に係るアプリケーション制御部240が有する上記の特徴によれば、可視化された環境地
図EMを用いて、空間領域に係るパターン認識学習を高精度かつ容易に実現することが可能となる。
【0179】
また、本実施形態に係るアプリケーション制御部240は、ユーザインタフェースUI2において、指定領域に対しユーザ付与することが可能なラベル(タグ)の候補を提示する機能を有してもよい。
【0180】
図22に示す一例の場合、アプリケーション制御部240は、ユーザが付与することが可能なラベル(タグ)として、「Kitchen」、「Bed room」、「Living room」などの候補OPをユーザインタフェースUI2上に表示させている。
【0181】
この場合、ユーザは、提示される候補OPの中から目的のタグを環境地
図EM上にドラッグすることなどにより、容易に指定領域に対するラベルの付与を行うことが可能である。
【0182】
また、アプリケーション制御部240が上記のように、予め一般的なラベルの候補を複数提示することにより、ユーザごとによる表記の揺れなどを吸収し、ラベルの名称の種類を収束することが可能となる。これによれば、複数の自律移動体10で共有可能な汎用性の高い学習データを効率的に収集し、精度の高いパターン認識学習を実現することが可能となる。
【0183】
次に、
図23~
図27を用いて本実施形態に係る環境地
図EMの生成について詳細に説明する。
図23~
図27は、本実施形態に係る環境地
図EMの生成過程の一例を示す図である。上述したように、本実施形態に係る環境地
図EMは、自律移動体10が収集したセンサ情報に基づいて生成された、ユーザ向けのSLAM地図であってもよい。なお、
図23~
図27では、ブロックB1~B4、自律移動体10の現在位置CP、チャージステーションCSに係る符号を省略しているが、
図22~
図27に共通する各視覚表現は、
図22に付与した符号に準拠するものとする。
【0184】
図23は、生成の開始時点における環境地
図EMの一例を示している。この時点においては、まだ空間領域の属性を判定する十分なセンサ情報が蓄積されていないことから、環境地
図EMには、自律移動体10の現在位置CPのみが示されている。
【0185】
図24は、
図23に示す時点からある程度の時間が経過した時点の環境地
図EMの一例を示している。
図24を参照すると、自律移動体10の自律移動に伴い収集されたセンサ情報に基づいて空間領域の属性が判定され、ブロックB1~B4などの視覚情報が環境地
図EM上に付加されていることがわかる。また、
図24に示すように、本実施形態に係る環境地
図EMでは、自律移動体10の現在位置CPに加え、自律移動体10の移動の軌跡が、例えば、現在位置CPから延長する線などにより示されてもよい。
【0186】
また、
図25は、
図24に示す時点からさらに時間が経過した時点の環境地
図EMの一例を示している。
図24と
図25とを比較すると、時間経過に伴いセンサ情報が蓄積されたことにより、ブロックの密度が高くなっていることがわかる。このように、本実施形態に係る環境地
図EMは、自律移動体10が自律移動に伴い収集したセンサ情報に基づいて動的に更新され得る。
【0187】
また、
図26は、
図25に示す時点からさらに時間が経過した時点の環境地
図EMの一例を示している。
図26を参照すると、自律移動体10の移動範囲が拡大したことにより環境地
図EMの尺度が変更され、より広域の実空間に対応する地図として更新されていることがわかる。また、センサ情報の蓄積に伴い、ブロックの密度がさらに上昇している。
【0188】
また、
図27は、
図26に示す時点からさらに時間が経過した時点の環境地
図EMの一例を示している。
図26と
図27を比較すると、
図27に示す環境地
図EMは、
図26に示す環境地
図EMに比べてさらに尺度が変更され、より広域な空間領域に対応する地図となっている。また、自律移動体10の移動範囲が拡大したことにより、新たな領域にブロックが追加されていることがわかる。
【0189】
以上、本実施形態に係る環境地
図EMの生成過程について述べた。上述したように、本実施形態に係る自律移動体10は、自律移動に伴い収集したセンサ情報(位置情報、画像などを含む)に基づいて、SLAM地図などの環境地
図EMを生成し、また動的に更新することができる。また、本実施形態に係るアプリケーション制御部240が、ユーザインタフェースUI2上に環境地
図EMを表示させることで、ユーザが、自律移動体10が認識している実空間上の空間領域の範囲などを把握し、以降の学習に役立てることが可能となる。
【0190】
次に、本実施形態に係る指定領域に対応する空間領域への移動制御と情報取得について詳細に説明する。上述したように、ユーザは、ユーザインタフェースUI2上に表示される環境地
図EMを用いて指定領域に対するラベルの付与を行うことができる。この際、本実施形態に係る動作制御部150は、ラベルが付与された指定領域に対応する実空間上の空間領域に、自律移動体10を移動させ、当該空間領域に係る情報取得を自律移動体10に行わせることができる。
【0191】
図28は、本実施形態に係る指定領域に対応する空間領域への移動制御と情報取得について説明するための図である。
図28の左側には環境地
図EMが示されており、
図28の右側には、自律移動体10が鼻先に配置される広角カメラ(カメラ520)により撮影した画像の一例が示されている。
【0192】
本実施形態に係る動作制御部150は、例えば、環境地
図EM上においてラベル付与が行われたことや、ラベルの付与が行われた後にユーザが「この場所に行って」などと発話してことなどに基づいて、自律移動体10をラベルが付与された指定領域に対応する空間領域に移動させてもよい。また、本実施形態に係る動作制御部150は、上記の移動制御に加え、上記空間領域の画像を自律移動体10に撮影させる。
【0193】
このように、本実施形態に係る動作制御部150によれば、ユーザが環境地
図EM上でラベルを付与した指定領域に対応する実空間上の空間領域に係る情報収集を精度高く実現することができる。なお、画像の撮影は、必ずしもラベルの付与直後に行われなくてもよく、例えば、ラベルの付与後の自律移動において自律移動体10が該当する空間領域に差し掛かった際に行われてもよい。
【0194】
また、上記のように収集された各種の情報は、自律移動体10による空間領域のパターン認識学習に用いられる。例えば、自律移動体10の学習部130は、ユーザインタフェースUI2を介して付与されたラベルと、上記のように撮影された空間領域の画像とを対応付けてパターン認識学習を行うことができる。なお、学習部130は、空間領域への移動に伴い時系列に撮影された画像(動画像の各フレームであってもよい)を当該時系列情報と共に学習することで、当該空間領域に至るまでの特徴をより精度高く学習することも可能である。
【0195】
上述した一連の手法によれば、表記揺れのない収束された名称に、実際に自律移動体10の視点から見た空間領域の画像(すなわち鼻先に配置されるカメラ520により撮影した画像)を対応付けた、複数の自律移動体10で共有が可能なアノテーション付きの教師学習データを効率的に蓄積することができ、自律移動体10による環境認識の精度向上に役立てることが可能となる。なお、複数の自律移動体10の間における上記教師学習データの共有は、情報処理サーバ20による教師学習データの収集および配布により実現され得る。
【0196】
このような学習手法によれば、自律移動体10がラベルが付与されていない空間領域に移動した場合であっても、学習結果を基に当該空間領域の名称を推定することが可能となる。
【0197】
なお、上記では、動作制御部150が自律移動体10に空間領域の画像を撮影させる場合を主な例として述べたが、本実施形態に係る情報収集制御は係る例に限定されない。本実施形態に係る動作制御部150は、自律移動体10に空間領域に係る種々のセンサ情報を収集させることができる。
【0198】
例えば、本実施形態に係る動作制御部150は、自律移動体10に空間領域に係る音声データを収集させてもよい。この場合、学習部130は、当該音声データとラベルとを対応付けて学習を行うことができる。この結果、自律移動体10の認識部120は、例えば、水の流れる音が検出されたことに基づいて、現在位置する空間領域が川辺であること、などを推定することが可能となる。
【0199】
また、例えば、本実施形態に係る動作制御部150は、自律移動体10に空間領域に係る振動データを収集させてもよい。この場合、学習部130は、当該振動データとラベルとを対応付けて学習を行うことができる。この結果、自律移動体10の認識部120は、例えば、車両等による特徴的な振動が検出されたことに基づいて、現在位置する空間領域が高速道路であること、などを推定することが可能となる。
【0200】
また、例えば、本実施形態に係る動作制御部150は、自律移動体10に空間領域に係る臭気強度などの匂いに係るセンサ情報を収集させてもよい。この場合、学習部130は、当該匂いに係るセンサ情報とラベルとを対応付けて学習を行うことができる。この結果、自律移動体10の認識部120は、例えば、強い臭気が検出されたことに基づいて、現在位置するトイレであること、などを推定することが可能となる。
【0201】
また、上記では、環境地
図EMが2次元である場合を例示したが、本実施形態に係る環境地
図EMは多次元にも拡張可能である。例えば、自律移動体10が飛行が可能なドローンなどの無人航空機である場合、自律移動体10は高度情報を含むSLAM地図を生成してもよい。この場合、ユーザは、高度を指定した指定領域を選択しラベル付与を行うことも可能である。
【0202】
また、本実施形態に環境地
図EMは、時間情報を含んでもよい。この場合、ユーザは、時間および領域を指定してラベル付けを行うことが可能である(例えば、夕方の海、など)。さらには、本実施形態に係る環境地
図EMは、メタデータとともに定義されてもよい。本実施形態に係る環境地
図EMは、例えば、DビルのE階のF室の座標(x,y,z)などの6次元の情報を含むことも可能である。本実施形態に係る環境地
図EMは複数生成されてもよく、またこの場合、ユーザは環境地
図EM全体に対してラベル付けを行うことも可能である(例えば、環境地
図EM1に対しラベル「1階」を、環境地
図EM2に対しラベル「2階」を付与するなど)。
【0203】
また、
図28に示したような画像や、環境地
図EM上における自律移動体10の移動の軌跡は、ユーザインタフェースUI2上にリアルタイムに表示されてもよい。ユーザは、上記の情報を視認することで、指定領域が正しく認識されているか否か、指定領域に対応する空間領域に自律移動体10が正しく移動しているか否か、自律移動体10がどのように指定領域に対応する空間領域を「見て」いるか、などを把握することができる。また、上記のような画像および環境地
図EMのリアルタイム表示は、例えば、監視や見守りなどのシステムに応用可能である。
【0204】
<<2.3.環境地
図EMを用いた教示学習の流れ>>
次に、本実施形態に係る環境地図を用いた教示学習の流れについて詳細に説明する。
図29は、本実施形態に係る環境地
図EMを用いた教示学習の流れを示すフローチャートである。
【0205】
図29を参照すると、まず、自律移動体10の認識部120が収集したセンサ情報に基づいて、環境地
図EMを生成する(S2101)。なお、上述したように、本実施形態に係る環境地
図EMは、情報処理サーバ20により生成されてもよい。
【0206】
次に、情報処理サーバ20のアプリケーション制御部240は、ステップS2101において生成された環境地
図EMをユーザインタフェースUI2を介してユーザに提示する。ユーザは、環境地
図EMにおける任意の指定領域を選択し、当該指定領域に対するラベル付けを実行する(S2102)。
【0207】
次に、自律移動体10の動作制御部150は、ステップS2101において選択された指定領域に対応する実空間上の空間領域に自律移動体10を移動させ、空間領域に係るセンサ情報(画像など)を収集させる(S2103)。
【0208】
次に、自律移動体10の学習部130は、ステップS2102において付与されたラベルと、ステップS2103において収集されたセンサ情報とを対応づけて空間領域に係るパターン認識学習を実行する(S2104)。
【0209】
<3.ハードウェア構成例>
次に、本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例について説明する。
図30は、本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例を示すブロック図である。
図30を参照すると、情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
【0210】
(プロセッサ871)
プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
【0211】
(ROM872、RAM873)
ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
【0212】
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
【0213】
(入力装置878)
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
【0214】
(出力装置879)
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
【0215】
(ストレージ880)
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
【0216】
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
【0217】
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
【0218】
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
【0219】
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
【0220】
(通信装置883)
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
【0221】
<4.まとめ>
以上説明したように、本開示の一実施形態に係る自律移動体10は、自律移動体10の動作を制御する動作制御部150を備える。また、本開示の一実施形態に係る動作制御部150は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を自律移動体10に行わせる、ことを特徴の一つとする。係る構成によれば、パターン認識に係る学習をより効率的に実現することが可能となる。
【0222】
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0223】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【0224】
また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアに、自律移動体10または情報処理サーバ20が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
【0225】
また、本明細書の自律移動体10の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、自律移動体10の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
【0226】
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
を備え、
前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、
情報処理装置。
(2)
前記学習対象は、空間領域を含み、
前記動作制御部は、前記自律移動体が収集したセンサ情報に基づいて生成された環境地図において付与された前記ラベルに基づいて、前記空間領域に係る情報取得を前記自律移動体に行わせる、
前記(1)に記載の情報処理装置。
(3)
前記動作制御部は、前記環境地図において前記ラベルが付与された指定領域に対応する実空間上の前記空間領域に前記自律移動体を移動させる、
前記(2)に記載の情報処理装置。
(4)
前記動作制御部は、前記指定領域に対応する前記空間領域を前記自律移動体に撮影させる、
前記(3)に記載の情報処理装置。
(5)
前記環境地図は、SLAM技術を用いて生成または更新される、
前記(2)~(4)のいずれかに記載の情報処理装置。
(6)
前記動作制御部は、前記学習対象が複数の角度から撮影されるよう前記自律移動体の位置または姿勢を制御する、
前記(1)に記載の情報処理装置。
(7)
前記動作制御部は、前記学習対象の全体が撮影されるよう前記自律移動体の位置または姿勢を制御する、
前記(1)または(2)に記載の情報処理装置。
(8)
前記動作制御部は、前記学習対象に係る境界認識の結果に基づいて、前記自律移動体の位置または姿勢を制御する、
前記(7)に記載の情報処理装置。
(9)
前記教示は、ユーザにより実行され、
前記動作制御部は、前記ユーザの指示に基づいて特定された前記学習対象の撮影を前記自律移動体に行わせる、
前記(1)、6~(8)のいずれかに記載の情報処理装置。
(10)
前記ユーザの指示は、ジェスチャにより行われる、
前記(9)に記載の情報処理装置。
(11)
前記教示は、前記学習対象から取得される情報に基づいて行われる、
前記(1)、6~(10)のいずれかに記載の情報処理装置。
(12)
前記教示は、前記学習対象に付与されるマーカの撮影により行われる、
前記(11)に記載の情報処理装置。
(13)
前記教示は、前記学習対象から無線通信により送信される情報に基づいて行われる、
前記(11)または(12)に記載の情報処理装置。
(14)
前記教示は、前記学習対象から発せられる非可聴音に基づいて行われる、
前記(11)~(13)のいずれかに記載の情報処理装置。
(15)
前記ラベルは、前記ユーザの発話から抽出される、
前記(9)または(10)に記載の情報処理装置。
(16)
前記学習対象は、物体を含み、
前記動作制御部は、前記教示に基づいて特定された前記物体の撮影を前記自律移動体に行わせる、
前記(1)、6~(15)のいずれかに記載の情報処理装置。
(17)
前記学習対象は、物体の動作を含み、
前記動作制御部は、前記教示に基づいて特定された前記物体の動作に係る情報取得を前記自律移動体に行わせる、
前記(1)、6~(16)のいずれかに記載の情報処理装置。
(18)
前記学習対象は、空間領域を含み、
前記動作制御部は、前記教示に基づいて特定された前記空間領域に係る情報取得を前記自律移動体に行わせる、
前記(1)、6~(17)のいずれかに記載の情報処理装置。
(19)
前記動作制御部は、前記パターン認識学習が開始または終了したことを示す動作を前記自律移動体に行わせる、
前記(1)、6~(18)のいずれかに記載の情報処理装置。
(20)
前記動作制御部は、ユーザによる前記教示を誘導するための誘導動作を前記自律移動体に行わせる、
前記(1)、6~(19)のいずれかに記載の情報処理装置。
(21)
前記パターン認識学習に係る前記ラベルと前記学習対象との対応付けを行うためのユーザインタフェースを制御するアプリケーション制御部、
をさらに備える、
前記(1)~(20)のいずれかに記載の情報処理装置。
(22)
前記アプリケーション制御部は、前記ユーザインタフェースにおいて、ユーザが環境地図における任意の指定領域を指定し、前記指定領域に対し前記ラベルを付与するための手段を提供する、
前記(21)に記載の情報処理装置。
(23)
前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記指定領域に対しユーザが付与することが可能な前記ラベルの候補を提示する、
前記(22)に記載の情報処理装置。
(24)
前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記ラベルと前記学習対象との対応付けをユーザが修正するための手段を提供する、
前記(21)に記載の情報処理装置。
(25)
前記ラベルと前記学習対象の画像に基づいて前記パターン認識学習を行う学習部、
をさらに備える、
前記(1)~(24)のいずれかに記載の情報処理装置。
(26)
プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、
を含み、
前記動作を制御することは、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせること、
をさらに含む、
情報処理方法。
(27)
コンピュータを、
認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
を備え、
前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、
情報処理装置、
として機能させるためのプログラム。
【符号の説明】
【0227】
10
10 自律移動体
110 入力部
120 認識部
130 学習部
140 行動計画部
150 動作制御部
160 駆動部
170 出力部
510 ディスプレイ
570 アクチュエータ
20 情報処理サーバ
210 認識部
220 学習部
230 記憶部
240 アプリケーション制御部