IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2022-155106情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム
<>
  • 特開-情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム 図1
  • 特開-情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム 図2
  • 特開-情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム 図3
  • 特開-情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム 図4
  • 特開-情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム 図5A
  • 特開-情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム 図5B
  • 特開-情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム 図6
  • 特開-情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム 図7
  • 特開-情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム 図8
  • 特開-情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022155106
(43)【公開日】2022-10-13
(54)【発明の名称】情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラム
(51)【国際特許分類】
   G08G 1/123 20060101AFI20221005BHJP
   G08G 1/13 20060101ALI20221005BHJP
   G06T 7/00 20170101ALI20221005BHJP
【FI】
G08G1/123 A
G08G1/13
G06T7/00 650Z
G06T7/00 U
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2021058445
(22)【出願日】2021-03-30
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】特許業務法人大塚国際特許事務所
(72)【発明者】
【氏名】コンダパッレィアニルドレッディ
(72)【発明者】
【氏名】山田 健太郎
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181AA21
5H181BB04
5H181CC03
5H181CC04
5H181CC12
5H181CC14
5H181FF05
5H181FF07
5H181FF13
5H181FF21
5H181FF32
5H181MA13
5H181MA17
5H181MA44
5H181MA50
5L096BA04
5L096CA25
5L096FA02
5L096FA69
5L096GA30
5L096GA51
5L096HA11
5L096JA14
5L096KA04
(57)【要約】
【課題】移動体を使用するユーザの発話情報から、移動体に対する指示位置を推定することが可能な情報処理装置を提供する。
【解決手段】本開示に係る情報処理装置は、ユーザが使用する移動体に対する指示位置を推定する情報処理装置であって、ユーザの使用する通信装置から、視覚的な目印を含む、指示位置に関する発話情報を取得する発話取得手段と、移動体において撮影される撮影画像を取得する画像取得手段と、発話情報に含まれる視覚的な目印に対応する、撮影画像内の物体領域を決定する決定手段と、決定手段によって決定された物体領域に基づいて、指示位置を推定する推定手段と、を含む。
【選択図】図8
【特許請求の範囲】
【請求項1】
ユーザが使用する移動体に対する指示位置を推定する情報処理装置であって、
前記ユーザの使用する通信装置から、視覚的な目印を含む、指示位置に関する発話情報を取得する発話取得手段と、
前記移動体において撮影される撮影画像を取得する画像取得手段と、
前記発話情報に含まれる前記視覚的な目印に対応する、前記撮影画像内の物体領域を決定する決定手段と、
前記決定手段によって決定された前記物体領域に基づいて、前記指示位置を推定する推定手段と、を含むことを特徴とする情報処理装置。
【請求項2】
前記決定手段は、前記撮影画像において認識される1つ以上の物体領域に対して、前記視覚的な目印に対応する確率を示す確率分布を算出し、第1閾値以上の確率を有する物体領域を、前記視覚的な目印に対応する前記物体領域として決定する、ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記決定手段は、2つ以上の物体領域に対する、前記視覚的な目印に対応する確率が第2閾値以上であって且つ前記第1閾値より小さい場合、前記視覚的な目印を絞り込むための追加の発話情報を、前記ユーザの通信装置に送信する、ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記決定手段は、前記2つ以上の物体領域に対する、前記視覚的な目印に対応する確率を、前記2つ以上の物体領域の各物体と前記通信装置との間の距離に応じて算出する、ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記決定手段は、前記発話情報に異なる種別の前記視覚的な目印が含まれる場合に、前記確率分布を条件付き確率を用いて算出する、ことを特徴とする請求項3又は4に記載の情報処理装置。
【請求項6】
前記決定手段は、前記指示位置を含む発話情報に、前記視覚的な目印と他の物体との位置関係を示す発話が含まれる場合には、前記1つ以上の物体領域に対して、前記他の物体との位置関係に応じた前記確率分布を算出する、ことを特徴とする請求項2から5のいずれか1項に記載の情報処理装置。
【請求項7】
前記発話取得手段は、更に、前記視覚的な目印を含む前記指示位置に関する発話情報を取得する前に、前記通信装置から、前記視覚的な目印に関連する場所を含む発話情報を取得する、ことを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
【請求項8】
前記発話取得手段は、前記視覚的な目印に関連する場所の位置から所定の距離以内に前記移動体が近づいたことに応じて、前記視覚的な目印を含む前記指示位置に関する発話情報を取得する、ことを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記移動体は超小型モビリティである、ことを特徴とする請求項1から8のいずれか1項に記載の情報処理装置。
【請求項10】
ユーザが使用する移動体に対する指示位置を推定する情報処理装置の制御方法であって、
前記ユーザの使用する通信装置から、視覚的な目印を含む、指示位置に関する発話情報を取得する発話取得工程と、
前記移動体において撮影される撮影画像を取得する画像取得工程と、
前記発話情報に含まれる前記視覚的な目印に対応する、前記撮影画像内の物体領域を決定する決定工程と、
前記決定工程において決定された前記物体領域に基づいて、前記指示位置を推定する推定工程と、を含むことを特徴とする情報処理装置の制御方法。
【請求項11】
ユーザが使用する移動体に対する指示位置を推定する移動体の制御装置であって、
前記ユーザの使用する通信装置から、視覚的な目印を含む、指示位置に関する発話情報を取得する発話取得手段と、
前記移動体において撮影される撮影画像を取得する画像取得手段と、
前記発話情報に含まれる前記視覚的な目印に対応する、前記撮影画像内の物体領域を決定する決定手段と、
前記決定手段によって決定された前記物体領域に基づいて、前記指示位置を推定する推定手段と、を含むことを特徴とする制御装置。
【請求項12】
ユーザが使用する移動体に対する指示位置を推定する移動体の制御方法であって、
前記ユーザの使用する通信装置から、視覚的な目印を含む、指示位置に関する発話情報を取得する発話取得工程と、
前記移動体において撮影される撮影画像を取得する画像取得工程と、
前記発話情報に含まれる前記視覚的な目印に対応する、前記撮影画像内の物体領域を決定する決定工程と、
前記決定工程において決定された前記物体領域に基づいて、前記指示位置を推定する推定工程と、を含むことを特徴とする移動体の制御方法。
【請求項13】
コンピュータを、請求項1から9のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、移動体の制御装置、情報処理装置の制御方法、移動体の制御方法、及びプログラムに関する。
【背景技術】
【0002】
近年、超小型モビリティ(マイクロモビリティともいわれる)と呼ばれる、乗車定員が1~2名程度である電動の移動体が知られており、手軽な移動手段として普及することが期待されている。
【0003】
このような超小型モビリティをシェアリングに用いるカーシェアリングシステムが提案されている(特許文献1)。このカーシェアリングシステムでは、車両管理サーバが、カーシェアリングの対象となる車両の利用開始時刻や貸出場所を含む利用申込メッセージをユーザの通信装置から受信する。そして、利用申込メッセージの内容と運搬車両の現在位置とに基づいて、利用開始時刻までに貸出場所に到着可能な運搬車両を特定し、特定した運搬車両にシェアリングカーを貸出場所に運搬させる。ユーザは、指定した利用開始時間に貸出場所を訪れるとシェアリングカーを利用することができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020-77035号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、ユーザが超小型モビリティを利用する場合に、超小型モビリティが停車する貸出場所をユーザが訪れるのではなく、超小型モビリティとユーザとがそれぞれ移動しながら動的に合流位置を調整するようなユースケースが考えられる。このようなユースケースは、混雑などにより予め指定した位置での合流が困難となった場合や、ユーザが、最初に大まかな地域や建物等を指定し、互いが近くに到着した段階で具体的な合流位置を調整する場合などに有効である。或いは、既に超小型モビリティがユーザの周辺に存在する場合には、例えば、「そこのポストの横で待ってて」などの待機指示のように、超小型モビリティをユーザの意図に応じて移動させるユースケースも考えられる。これらのユースケースでは、ユーザの発した発話からユーザの意図する位置が推定され、当該位置に超小型モビリティが移動すれば、ユーザは超小型モビリティをより容易に扱うことができる。
【0006】
本発明は、上記課題に鑑みてなされ、その目的は、移動体を使用するユーザの発話情報から、移動体に対する指示位置を推定するすることが可能な技術を実現することである。
【課題を解決するための手段】
【0007】
本発明によれば、
ユーザが使用する移動体に対する指示位置を推定する情報処理装置であって、
前記ユーザの使用する通信装置から、視覚的な目印を含む、指示位置に関する発話情報を取得する発話取得手段と、
前記移動体において撮影される撮影画像を取得する画像取得手段と、
前記発話情報に含まれる前記視覚的な目印に対応する、前記撮影画像内の物体領域を決定する決定手段と、
前記決定手段によって決定された前記物体領域に基づいて、前記指示位置を推定する推定手段と、を含むことを特徴とする情報処理装置が提供される。
【発明の効果】
【0008】
本発明によれば、移動体を使用するユーザの発話情報から、移動体に対する指示位置を推定することが可能になる。
【図面の簡単な説明】
【0009】
図1】本発明の実施形態に係る情報処理システムの一例を示す図
図2】本実施形態に係る移動体の一例としての車両のハードウェアの構成例を示すブロック図
図3】本実施形態に係る車両の機能構成例を示すブロック図
図4】本実施形態に係る情報処理装置の一例としてのサーバの機能構成例を示すブロック図
図5A】本実施形態に係る、発話と画像を用いた合流位置の推定について説明するための図(1)
図5B】本実施形態に係る、発話と画像を用いた合流位置の推定について説明するための図(2)
図6】本実施形態に係る、合流位置の調整処理の一連の動作を示すフローチャート
図7】本実施形態に係る、発話を用いた合流位置の調整処理の一連の動作を示すフローチャート
図8】本実施形態に係る、発話と画像とを用いた合流位置の調整処理の一連の動作を示すフローチャート
図9】他の実施形態に係る情報処理システムの一例を示す図
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
【0011】
(情報処理システムの構成)
図1を参照して、本実施形態に係る情報処理システム1の構成について説明する。情報処理システム1は、車両100と、サーバ110と、通信装置120とを含む。
【0012】
車両100は、自律移動が可能な移動体の一例であり、例えば、バッテリーを搭載しており、主にモーターの動力で移動する超小型モビリティである。超小型モビリティとは、一般的な自動車よりもコンパクトであり、乗車定員が1又は2名程度の超小型車両である。本実施形態では、車両100は、例えば、四輪車である。なお、以下の実施形態では、移動体は、乗物に限らず、歩くユーザと並走して荷物を運んだり、人を先導したりするような小型モビリティを含んでよく、また、その他の自律移動が可能な移動体(例えば歩行型ロボットなど)を含んでもよい。
【0013】
車両100は、例えば、Wi‐Fiや第5世代移動体通信などの無線通信を介してネットワーク140に接続する。車両100は、様々なセンサによって(車両の位置、走行状態、周囲の物体の物標などの)車両内外の状態を計測し、計測したデータをサーバ110に送信可能である。このように収集されて送信されるデータは、一般にフローティングデータ、プローブデータ、交通情報などとも呼ばれる。車両に関する情報は、一定の間隔でまたは特定のイベントが発生したことに応じてサーバ110に送信される。車両100は、ユーザ130が乗車していない場合であっても自動運転により走行可能である。車両100は、サーバ110から提供される制御命令などの情報を受信して、或いは、自車で計測したデータを用いて車両の動作を制御する。
【0014】
サーバ110は、1つ以上のサーバ装置で構成され、車両100から送信される車両に関する情報や、通信装置120から送信される発話情報及び位置情報を、ネットワーク111を介して取得し、車両100の走行を制御可能である。車両100の走行制御は、後述するユーザ130と車両100との合流位置の調整処理を含む。
【0015】
通信装置120は、例えばスマートフォンであるが、これに限らず、イヤフォン型の通信端末であってもよいし、パーソナルコンピュータ、タブレット端末、ゲーム機などであってもよい。通信装置120は、例えば、Wi‐Fiや第5世代移動体通信などの無線通信を介してネットワーク140に接続する。
【0016】
ネットワーク111は、例えばインターネットや携帯電話網などの通信網を含み、サーバ110と、車両100や通信装置120と間の情報を伝送する。
【0017】
この情報処理システム1では、離れた場所にいたユーザ130と車両100が、(視覚的な目印となる)物標等を視覚で確認できる程度に近づいた場合に、発話情報と車両100で撮影された画像情報とを用いて合流位置を調整する。
【0018】
ユーザ130と車両100とが物標等を視覚で確認できる程度に近づく前には、まずサーバ110は、ユーザの現在位置或いはユーザの予測位置が含まれる大まかなエリアまで車両100を移動させる。そして、サーバ110は、車両100が大まかなエリアに到達すると、視覚的な目印に関連する場所を尋ねる発話情報(例えば「近くにお店ありますか?」)を通信装置120へ送信する。視覚的な目印に関連する場所は、例えば、地図情報に含まれる場所の名称を含む。サーバ110は、視覚的な目印に関連する場所を含む発話情報(例えば「xxコーヒーショップの建物があります」)を通信装置120から受け付ける。そして、サーバ110は、地図情報から該当する場所の位置を取得して車両100を当該場所の周辺まで移動させる(つまり、車両とユーザが物標等を視覚で確認できる程度に近づく)。
【0019】
(車両の構成)
次に、図2を参照して、本実施形態に係る車両の一例としての車両100の構成について説明する。
【0020】
図2(A)は本実施形態に係る車両100の側面を示し、図2(B)は車両100の内部構成を示している。図中矢印Xは車両100の前後方向を示しFが前をRが後を示す。矢印Y、Zは車両100の幅方向(左右方向)、上下方向を示す。
【0021】
車両100は、走行ユニット12を備え、バッテリ13を主電源とした電動自律式車両である。バッテリ13は例えばリチウムイオンバッテリ等の二次電池であり、バッテリ13から供給される電力により走行ユニット12によって車両100は自走する。走行ユニット12は、左右一対の前輪20と、左右一対の後輪21とを備えた四輪車である。走行ユニット12は三輪車の形態等、他の形態であってもよい。車両100は、一人用又は二人用の座席14を備える。
【0022】
走行ユニット12は操舵機構22を備える。操舵機構22はモータ22aを駆動源として一対の前輪20の舵角を変化させる機構である。一対の前輪20の舵角を変化させることで車両100の進行方向を変更することができる。走行ユニット12は、また、駆動機構23を備える。駆動機構23はモータ23aを駆動源として一対の後輪21を回転させる機構である。一対の後輪21を回転させることで車両100を前進又は後進させることができる。
【0023】
車両100は、車両100の周囲の物標を検知する検知ユニット15~17を備える。検知ユニット15~17は、車両100の周辺を監視する外界センサ群であり、本実施形態の場合、いずれも車両100の周囲の画像を撮像する撮像装置であり、例えば、レンズなどの光学系とイメージセンサとを備える。しかし、撮像装置に代えて或いは撮像装置に加えて、レーダやライダ(Light Detection and Ranging)を採用することも可能である。
【0024】
検知ユニット15は車両100の前部にY方向に離間して二つ配置されており、主に、車両100の前方の物標を検知する。検知ユニット16は車両100の左側部及び右側部にそれぞれ配置されており、主に、車両100の側方の物標を検知する。検知ユニット17は車両100の後部に配置されており、主に、車両100の後方の物標を検知する。
【0025】
図3は、車両100の制御系のブロック図である。車両100は、制御ユニット(ECU)30を備える。制御ユニット30は、CPUに代表されるプロセッサ、半導体メモリ等の記憶デバイス、外部デバイスとのインタフェース等を含む。記憶デバイスにはプロセッサが実行するプログラムやプロセッサが処理に使用するデータ等が格納される。プロセッサ、記憶デバイス、インタフェースは、車両100の機能別に複数組設けられて互いに通信可能に構成されてもよい。
【0026】
制御ユニット30は、検知ユニット15~17の検知結果、操作パネル31の入力情報、音声入力装置33から入力された音声情報、サーバ110からの制御命令(例えば、撮像画像や現在位置の送信等)などを取得して、対応する処理を実行する。制御ユニット30は、モータ22a、23aの制御(走行ユニット12の走行制御)、操作パネル31の表示制御、音声による車両100の乗員への報知、情報の出力を行う。
【0027】
音声入力装置33は、車両100の乗員の音声を収音する。制御ユニット30は、入力された音声を認識して、対応する処理を実行可能である。GNSS(Global Navigation Satellite system)センサ34は、GNSS信号を受信して車両100の現在位置を検知する。
【0028】
記憶装置35は、車両100が走行可能な走路、建造物などのランドマーク、店舗等の情報を含む地図データ等を記憶する大容量記憶デバイスである。記憶装置35にも、プロセッサが実行するプログラムやプロセッサが処理に使用するデータ等が格納されてよい。記憶装置35は、制御ユニット30によって実行される音声認識や画像認識用の機械学習モデルの各種パラメータ(例えばディープニューラルネットワークの学習済みパラメータやハイパーパラメータなど)を格納してもよい。
【0029】
通信装置36は、例えば、Wi‐Fiや第5世代移動体通信などの無線通信を介してネットワーク140に接続可能な通信装置である。
【0030】
(サーバの構成)
次に、図4を参照して、本実施形態に係る情報処理装置の一例としてのサーバ110の構成について説明する。
【0031】
制御ユニット404は、CPUに代表されるプロセッサ、半導体メモリ等の記憶デバイス、外部デバイスとのインタフェース等を含む。記憶デバイスにはプロセッサが実行するプログラムやプロセッサが処理に使用するデータ等が格納される。プロセッサ、記憶デバイス、インタフェースは、サーバ110の機能別に複数組設けられて互いに通信可能に構成されてもよい。制御ユニット404は、プログラムを実行することにより、サーバ110の各種動作や、後述する合流位置の調整処理などを実行する。制御ユニット404は、CPUのほか、GPU、或いは、ニューラルネットワーク等の機械学習モデルの処理の実行に適した専用のハードウェアを更に含んでよい。
【0032】
ユーザデータ取得部413は、車両100から送信される画像や位置の情報を取得する。また、ユーザデータ取得部413は、通信装置120から送信されるユーザ130の発話情報を取得する。ユーザデータ取得部413は、取得した画像や位置の情報を記憶部403に格納してもよい。ユーザデータ取得部413が取得した画像や発話の情報は、推論結果を得るために、推論段階の学習済みモデルに入力されるが、サーバ110で実行される機械学習モデルを学習させるための学習データとして用いられてもよい。
【0033】
音声情報処理部414は、音声情報を処理する機械学習モデルを含み、当該機械学習モデルの学習段階の処理や推論段階の処理を実行する。音声情報処理部414の機械学習モデルは、例えば、ディープニューラルネットワーク(DNN)を用いた深層学習アルゴリズムの演算を行って、発話情報に含まれる場所名、建造物などのランドマーク名、店舗名、物標の名称などを認識する。物標は、発話情報に含まれる通行人、看板、標識、自動販売機など野外に設置される設備、窓や入口などの建物の構成要素、道路、車両、二輪車、などを含んでよい。
【0034】
DNNは、学習段階の処理を行うことにより学習済みの状態となり、新たな発話情報を学習済みのDNNに入力することにより新たな発話情報に対する認識処理(推論段階の処理)を行うことができる。なお、本実施形態では、サーバ110が音声認識処理を実行する場合を例に説明するが、車両や通信装置において音声認識処理を実行し、認識結果をサーバ110に送信するようにしてもよい。
【0035】
画像情報処理部415は、画像情報を処理する機械学習モデルを含み、当該機械学習モデルの学習段階の処理や推論段階の処理を実行する。画像情報処理部415の機械学習モデルは、例えば、ディープニューラルネットワーク(DNN)を用いた深層学習アルゴリズムの演算を行って、画像情報に含まれる物標を認識する処理を行う。物標は、画像内に含まれる通行人、看板、標識、自動販売機など野外に設置される設備、窓や入口などの建物の構成要素、道路、車両、二輪車、などを含んでよい。
【0036】
合流位置推定部416は、後述する、合流位置の調整処理を実行する。合流位置の調整処理については後述する。
【0037】
なお、サーバ110は、一般に、車両100などと比べて豊富な計算資源を用いることができる。また、様々な車両で撮影された画像データを受信、蓄積することで、多種多用な状況における学習データを収集することができ、より多くの状況に対応した学習が可能になる。
【0038】
通信ユニット401は、例えば通信用回路等を含む通信装置であり、車両100や通信装置120などの外部装置と通信する。通信ユニット401は、車両100からの画像情報や位置情報、通信装置120からの発話情報を受信するほか、車両100への制御命令、通信装置120への発話情報を送信する。
【0039】
電源部402は、サーバ110内の各部に電力を供給する。記憶部403は、ハードディスクや半導体メモリなどの不揮発性メモリである。
【0040】
(発話と画像とを用いた合流位置推定の概要)
図5A及び図5Bを参照して、サーバ110において実行される、発話と画像とを用いた合流位置推定の概要について説明する。本処理は、上述のように、離れた場所にいたユーザ130と車両100が、(視覚的な目印となる)物標等を視覚で確認できる程度に近づいた後に実行される処理である。
【0041】
図5Aは、車両100で撮影された画像510に対して、サーバ110がユーザの意図する合流位置を推定した結果の例を模式的に示している。
【0042】
画像510は、車両100が前側の状況を撮影した画像である。画像510には、建物580の前に設置されている自動販売機520と自動販売機530とが撮影されている。例えば、自動販売機520は、赤色の自動販売機であり、自動販売機530は、青色の自動販売機である。
【0043】
例えば、ユーザ130が「青い自動販売機の前に止めて」と発話した場合を考える。サーバ110は、発話情報から視覚的な目印を抽出する。視覚的な目印は、例えば自動販売機である。サーバ110は、画像情報から自動販売機を認識し、認識した自動販売機の領域を識別する。図5Aに示す例では、赤い自動販売機520の領域が540として識別され、青い自動販売機530の領域が550として識別されていることを示す。
【0044】
サーバ110は、識別された領域に対して、視覚的な目印に対応する確率分布を算出する。この例では、視覚的な目印が自動販売機であるため、それぞれの「自動販売機」に対する確率を得られる確率分布が算出される。このとき、青い視覚的な目印は自動販売機530のみであるため、例えば、青い自動販売機530の確率が「0.90」となり、赤い自動販売機520の確率が「0.10」となる確率分布が付与されている。ここで説明する確率分布の設定は一例であり、他の確率分布が設定されてもよい。例えば、「青い自動販売機」を視覚的な目印として抽出し、青い自動販売機530の領域のみを識別して、この領域のみに最大限の確率を付与するようにしてもよい。
【0045】
図5Bは、車両100で撮影された画像510に対して、サーバ110がユーザの意図する合流位置を推定した結果の他の例を模式的に示している。図5Bに示す例では、ユーザ130が「自動販売機の前に止めて」と発話した場合を考える。サーバ110は、画像情報から自動販売機を認識し、認識した自動販売機の領域を識別する。赤い自動販売機520の領域が540として識別され、青い自動販売機530の領域が550として識別される。サーバ110は、例えば、赤い自動販売機520と青い自動販売機530の両方が同じ確率(例えば0.5)となる確率分布を算出することができる。このとき、サーバ110は、仮にユーザ130(通信装置120)の現在位置から赤い自動販売機520の方が近い場合には、確率分布を補正して、赤い自動販売機520の確率が「0.6」となり、青い自動販売機530の確率が「0.4」となるようにしてもよい。この場合、いずれの自動販売機も比較的高い確率(例えば、「0.3」以上)が付与されているものの、1つに特定可能な所定の閾値(例えば0.9)を超えていないため、サーバ110は、視覚的目印を絞り込むための追加的な発話情報(例えば「赤い自動販売機ですか?」)を、通信装置120へ送信する。サーバ110は、ユーザからの発話情報の受信と、追加的な発話情報の送信とを繰り返して、1つの視覚的な目印を特定する。サーバ110は、1つの視覚的な目印を特定すると、特定した目印の前が合流位置であると推定し、その場所に車両100を移動させてユーザと合流させる。
【0046】
(合流位置の調整処理の一連の動作)
次に、サーバ110における合流位置の調整処理の一連の動作について、図6を参照して説明する。なお、本処理は、制御ユニット404がプログラムを実行することにより実現される。なお、以下の説明では、説明の簡単のために制御ユニット404が各処理を実行するものとして説明するが、(図4にて上述した)制御ユニット404の各部により対応する処理が実行される。
【0047】
S601において、制御ユニット404は、車両100との合流を開始するためのリクエスト(合流リクエスト)を通信装置120から受信する。S602において、制御ユニット404は、ユーザの位置情報を通信装置120から取得する。なお、ユーザの位置情報は、通信装置120の位置情報である。S603において、制御ユニット404は、S602で取得したユーザの位置に基づき、合流する大まかなエリア(単に合流エリアともいう)を特定する。合流エリアは、例えば、ユーザ130(通信装置120)の現在位置を中心とした半径が所定距離(例えば、数百m)のエリアである。
【0048】
S604において、制御ユニット404は、例えば、車両100から定期的に送信される位置情報に基づいて、合流エリアへ向かう車両100の移動を追跡する。なお、制御ユニット404は、例えば、ユーザ130の現在位置(或いは所定の時間後の到達地点)に最も近い車両を、ユーザ130と合流する車両100として選択することができる。或いは、制御ユニット404は、特定の車両100を指定する情報が合流リクエストに含まれていた場合、当該車両100を、ユーザ130と合流する車両100として選択してもよい。
【0049】
S605において、制御ユニット404は、車両100が合流エリアに到達したかを判定する。制御ユニット404は、例えば、車両100と通信装置120との間の距離が合流エリアの半径以内である場合に、車両100が合流エリアに到達したと判定して、処理をS606に進める。そうでない場合、サーバは処理をS605に戻して、車両100が合流エリアに到達するのを待つ。
【0050】
S606において、制御ユニット404は、発話を用いた合流位置の推定処理を実行する。発話を用いた合流位置の推定処理の詳細については、後述する。
【0051】
S607において、制御ユニット404は、合流位置の位置情報を車両へ送信する。すなわち、制御ユニット404は、S606の処理において推定された合流位置を車両100へ送信することで、車両100を合流位置に移動させる。制御ユニット404は、合流位置を車両100へ送信すると、その後、一連の動作を終了する。
【0052】
(発話を用いた合流位置の推定処理の一連の動作)
更に、サーバ110における、発話を用いた合流位置の推定処理の一連の動作について、図7を参照して説明する。なお、本処理は、図6に示す処理と同様、制御ユニット404がプログラムを実行することにより実現される。
【0053】
S701において、制御ユニット404は、「視覚的な目印に関連する場所」について尋ねる発話情報を、通信装置120に送信する。視覚的な目印に関連する場所について尋ねる発話情報は、例えば「近くにお店ありますか?」のような発話を含む。この視覚的な目印に関連する場所について尋ねる発話情報は、予め定められ、記憶部403に記憶された情報であってよい。
【0054】
S702において、制御ユニット404は、ユーザの発話情報を通信装置120から受信して、発話内容を認識し、発話内容に含まれる場所の情報を抽出する。このとき、ユーザの発話情報は、「xxコーヒーショップの建物があります」のように、視覚的な目印に関連する場所の情報を含む。
【0055】
S703において、制御ユニット404は、S702で抽出した場所の位置を、地図情報から特定する。例えば、「xxコーヒーショップ」を、合流エリア内の地図情報から検索し、当該場所の位置を特定する。
【0056】
S704において、制御ユニット404は、地図情報から特定した(視覚的な目印に関連する)場所の位置を車両100に送信して、車両100を当該場所の位置へ移動させる。また、制御ユニット404は、当該場所の位置への車両の移動を追跡する。
【0057】
S705において、制御ユニット404は、車両100が、場所の位置に近接したかを判定する。例えば、制御ユニット404は、車両100が、視覚的な目印に関連する場所の位置から所定の距離以内に車両100が近づいたと判定した場合には、処理をS706に進め、そうでない場合はS705の処理を繰り返す。ここで、所定の距離は、視覚的な目印となる物標等を視覚で確認できる程度の距離である。
【0058】
S706において、制御ユニット404は、発話情報及び画像情報を用いて合流位置を推定する。この処理の詳細については、後述する。制御ユニット404は、本ステップの処理を終了すると、その後、一連の動作を終了して呼び出し元に戻る。
【0059】
(発話及び画像情報を用いた合流位置の推定処理の一連の動作)
更に、サーバ110における、発話及び画像情報を用いた合流位置の推定処理の一連の動作について、図8を参照して説明する。なお、本処理は、図6及び図7と同様、制御ユニット404がプログラムを実行することにより実現される。
【0060】
S801において、制御ユニット404は、視覚的な目印について尋ねる発話情報を送信する。例えば、「合流地点の目印は何ですか?」などの発話情報を通信装置120に送信する。
【0061】
S802において、制御ユニット404は、ユーザの発話情報を受信して、発話内容を認識し、認識した発話内容から視覚的な目印の情報を抽出する。視覚的な目印は、例えば、上述の「自動販売機」である。S803において、制御ユニット404は、車両100に対して、周囲(例えば前方)の画像情報を送信するように指示し、車両100の周囲を撮影した画像情報を取得する。制御ユニット404は、取得した画像に対する物体認識を実行して、(視覚的な目印に対応する)画像内の物体領域を識別する。
【0062】
S804において、制御ユニット404は、画像内の1つ以上の物体領域に対して、視覚的な目印に対応する確率を示す確率分布を算出する。例えば、発話情報に含まれる目印が「自動販売機」であって、画像内に「自動販売機」の領域が2つ以上存在する場合、制御ユニット404は、発話内容の限定的な言語要素(例えば「青い」)に基づいて、物体領域の確率分布を算出してよい。この場合、例えば、青い自動販売機530の確率が「0.90」、赤い自動販売機520の確率が「0.10」となる確率分布を算出してもよい。
【0063】
発話情報に含まれる目印が「自動販売機」であって、画像内に「自動販売機」の領域が2つ以上存在する場合、両方の物体領域に同じ確率を付与することができる。このとき、図5Bで例示したように、サーバ110は、視覚的な目印となる物標と、ユーザ130との相対的な位置関係に応じて、更に確率分布を変動させてよい。サーバ110は、仮にユーザ130(通信装置120)の現在位置から赤い自動販売機520の方が近い場合には、確率分布を補正して、赤い自動販売機520の確率が「0.6」となり、青い自動販売機530の確率が「0.4」となるようにしてもよい。ユーザが近づいてくる方向から見て候補になり得る順に確率が高くなる確率分布を付与することができる。
【0064】
発話情報が「建物の左側の自動販売機」のような物体との位置関係を含む場合、制御ユニット404は、車両100から見た相対的な位置関係を考慮した確率分布を算出するようにしてもよい。例えば、建物580に対して左側にある自動販売機520の領域の確率を「0.9」、右側になる自動販売機530の領域の確率を「0.1」として算出してもよい。
【0065】
或いは、発話情報が「建物の近くの自動販売機」である場合、すなわち、発話情報が複数の物体(物標)の種別を含んでおり、それぞれの種別を別個のモデルで認識する場合、各物体の確率分布を用いた条件付き確率を算出するようにしてもよい。条件付き確率を算出することで、物体の種別ごとに異なるモデルを用いる場合であっても、モデルごとの確率を容易に組み合わせることができる。
【0066】
ユーザ位置の確率分布を更に考慮する場合、「xxの近くに(自分が)いる」といった発話情報に対して、視覚的な目印に対応する確率分布を、ユーザ位置の確率分布と、画像内の領域に対する確率分布との条件付き確率として算出することができる。このように、ユーザ位置の確率分布と物体領域に対する確率分布のように、異なる性質のモデルから推定される対象についても、それぞれの確率分布を容易に組み合わせることができる。
【0067】
S805において、制御ユニット404は、S804で算出した物体領域の確率が、第1閾値以上であるかを判定する。第1閾値以上の確率を有する物体領域がある場合、処理をS808に進め、そうでない場合にはS806に処理を進める。
【0068】
S806において、制御ユニット404は、2つ以上の物体領域に対する、視覚的な目印に対応する確率が第2閾値以上であるかを判定する。ここで、判定がYESとなるのは、図5Bで示した、いずれの自動販売機も比較的高い確率(例えば、「0.3」以上)が付与されているものの、1つに特定可能な第1閾値(例えば0.9)を超えていない場合に対応する。第2閾値は、例えば、この例における0.3に対応する。制御ユニット404は、判定がYESである場合、処理をS807に進め、そうでない場合、より有効な視覚的目印を得るために、処理をS801に戻す。
【0069】
S807において、制御ユニット404は、例えば「赤い自動販売機ですか?」などの、視覚的な目印を絞り込むための追加的な発話情報を送信する。ユーザ130の発話情報と車両100の画像情報との関係において、視覚的な目印を1つに絞り込めない場合には、ユーザからの追加的な発話情報を得られるようにすることで、視覚的な目印の曖昧性を低減させることができる。
【0070】
S808において、制御ユニット404は、第1閾値以上の確率を有する物体領域を、視覚的な目印に対応する物体領域として特定し、特定した物体領域に基づき、合流位置を推定する。例えば、制御ユニット404は、車両100の自己位置を取得し、自己位置から画像内の特定した物体領域までの距離を推定する。このとき画像内の特定の物体までの車両からの距離計測は公知の技術を用いることができる。制御部404は、自己位置と物体までの距離とに基づいて物体領域に対応する物体の位置を算出し、当該物体の位置に基づいて合流位置を推定する。このとき、合流位置は、車両100からの相対的な位置関係を考慮して推定される。例えば、図5Aに示した画像510において、ユーザの発話情報が「青い自動販売機の前」であった例では、青い自動販売機の位置に対して車両100から見た手前側として推定される。制御ユニット404は、その後、一連の動作を終了して呼び出し元に戻る。
【0071】
なお、上述の実施形態は、ユーザと車両とが合流する場合に限らず、ユーザが車両に対して行う様々な移動指示に適用可能である。すなわち、上述の車両に対する合流位置の推定は、車両に対する指示位置を推定する処理の一例である。車両に対する指示位置の推定は、例えば、「ちょっとコーヒー買ってくるから、そこのポストの横で待ってて」のような待機指示や「あっちのカウンターで荷物を受け取ってきて」などのような移動先指示のような指示位置の指定にも適用することができる。すなわち、サーバは、視覚的な目印を含む指示位置に関する発話情報を受け付けて、指示位置を推定することができる。
【0072】
以上説明したように、本実施形態では、ユーザが使用する移動体(例えば車両)に対する指示位置を推定するサーバにおいて、通信装置120から、視覚的な目印を含む、合流位置に関する発話情報と、移動体において撮影される撮影画像とを取得するようにした。そして、上記発話情報に含まれる視覚的な目印に対応する、撮影画像内の物体領域を決定し、決定した物体領域に基づいて、指示位置を推定するようにした。このようにすることで、移動体(例えば車両)を使用するユーザの発話情報から、移動体に対する指示位置を推定するすることが可能になる。
【0073】
(変形例)
以下、本発明に係る変形例について説明する。上記実施形態では、合流位置の調整処理をサーバ110において実行する例について説明した。しかし、上述の合流位置の調整処理は、車両側で実行することもできる。この場合、情報処理システム900は、図9に示すように、移動体の一例である車両910と、通信装置120とで構成される。ユーザの発話情報は通信装置120から車両910へ送信される。車両910で撮影された画像情報は、ネットワークを介して送信されるかわりに、車両内の制御ユニットによって処理される。車両910の構成は、制御ユニット30が合流位置の調整処理を実行可能であることを除き、車両100と同一の構成であってよい。車両910の制御ユニット30は、車両910における制御装置として動作し、記憶されているプログラムを実行することにより、上述の合流位置の調整処理を実行する。図6図8に示した一連の動作における、サーバと車両の間のやり取りは、車両の内部(例えば制御ユニット30の内部、又は制御ユニット30と検知ユニット15の間)で行えばよい。その他の処理については、サーバと同様に実行することができる。
【0074】
このように、ユーザが使用する移動体(例えば車両)に対する指示位置を推定する移動体の制御装置において、通信装置から、視覚的な目印を含む、指示位置に関する発話情報を取得し、移動体において撮影される撮影画像を取得する。そして、上記発話情報に含まれる視覚的な目印に対応する、撮影画像内の物体領域を決定し、決定した物体領域に基づいて、指示位置を推定するようにした。このようにすることで、移動体を使用するユーザの発話情報から、移動体に対する指示位置を推定するすることが可能になる。
【0075】
<実施形態のまとめ>
1.上記実施形態の情報処理装置(例えば、110)は、
ユーザが使用する移動体に対する指示位置を推定する情報処理装置であって、
ユーザの使用する通信装置から、視覚的な目印を含む、指示位置に関する発話情報を取得する発話取得手段(例えば、413)と、
移動体において撮影される撮影画像を取得する画像取得手段(例えば、413)と、
発話情報に含まれる視覚的な目印に対応する、撮影画像内の物体領域を決定する決定手段(例えば、414、415、416)と、
決定手段によって決定された物体領域に基づいて、指示位置を推定する推定手段(例えば、416)と、を含む。
【0076】
この実施形態によれば、(例えば、ユーザと移動体(例えば超小型モビリティ)との間で指示位置を調整したり、待機指示をするような場合に)移動体を使用するユーザの発話情報から、移動体に対する指示位置を推定することが可能になる。
【0077】
2.上記実施形態の情報処理装置では、
決定手段は、撮影画像において認識される1つ以上の物体領域に対して、視覚的な目印に対応する確率を示す確率分布を算出し、第1閾値以上の確率を有する物体領域を、視覚的な目印に対応する物体領域として決定する。
【0078】
この実施形態によれば、発話情報に含まれる目印に対応する、最も可能性の高い物体領域を精度良く算出することが可能になる。
【0079】
3.上記実施形態の情報処理装置では、
決定手段は、2つ以上の物体領域に対する、視覚的な目印に対応する確率が第2閾値以上であって且つ第1閾値より小さい場合、視覚的な目印を絞り込むための追加の発話情報を、ユーザの通信装置に送信する。
【0080】
この実施形態によれば、視覚的な目印を1つに絞り込めない場合に、ユーザからの追加的な発話情報を得られるようにすることができる。また、追加的な発話情報を得るようにすることで、視覚的な目印の曖昧性を低減させることが可能になる。
【0081】
4.上記実施形態の情報処理装置では、
決定手段は、2つ以上の物体領域に対する、視覚的な目印に対応する確率を、2つ以上の物体領域の各物体と通信装置との間の距離に応じて算出する。
【0082】
この実施形態によれば、ユーザが近づいてくる方向から見て候補になり得る順に高い確率を付与することができる。
【0083】
5.上記実施形態の情報処理装置では、
決定手段は、発話情報に異なる種別の視覚的な目印が含まれる場合に、確率分布を条件付き確率を用いて算出する。
【0084】
この実施形態によれば、物体の種別ごとに異なるモデルを用いる場合であっても、モデルごとの確率を容易に組み合わせることが可能になる。また、異なる性質のモデルから推定される対象についても、それぞれの確率分布を容易に組み合わせることができる
6.上記実施形態の情報処理装置では、
決定手段は、指示位置を含む発話情報に、視覚的な目印と他の物体との位置関係を示す発話が含まれる場合には、1つ以上の物体領域に対して、他の物体との位置関係に応じた確率分布を算出する。
【0085】
この実施形態によれば、移動体からの相対的な位置関係を考慮することが可能になる。
【0086】
7.上記実施形態の情報処理装置では、
発話取得手段は、更に、視覚的な目印を含む指示位置に関する発話情報を取得する前に、通信装置から、視覚的な目印に関連する場所を含む発話情報を取得する。
【0087】
この実施形態によれば、まず地図情報に記載されるような場所の情報で目的とする地点に近づいた後で、視覚的な情報を用いた指示位置の調整が可能になる。
【0088】
8.上記実施形態の情報処理装置では、
発話取得手段は、視覚的な目印に関連する場所の位置から所定の距離以内に移動体が近づいたことに応じて、視覚的な目印を含む指示位置に関する発話情報を取得する。
【0089】
この実施形態によれば、視覚的な目印となる物標等を視覚で確認できるような、所定の距離まで近づいたことを契機として、視覚的な情報を用いた指示位置の推定を開始することが可能になる。
【0090】
9.上記実施形態の情報処理装置では、
移動体は超小型モビリティである。
【0091】
この実施形態によれば、一般的な乗用車よりも手軽に利用することができる超小型モビリティを用いた移動指示が可能になる。
【0092】
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。
【0093】
10.上記実施形態に係る移動体(例えば、910)の制御装置(例えば、30)は、
ユーザが使用する移動体に対する指示位置を推定する移動体の制御装置であって、
前記ユーザの使用する通信装置(例えば、120)から、視覚的な目印を含む、合流位置に関する発話情報を取得する発話取得手段(例えば、30)と、
前記移動体において撮影される撮影画像を取得する画像取得手段(例えば、30)と、
前記発話情報に含まれる前記視覚的な目印に対応する、前記撮影画像内の物体領域を決定する決定手段(例えば、30)と、
前記決定手段によって決定された前記物体領域に基づいて、前記合流位置を推定する推定手段(例えば、30)と、を含む。
【0094】
この実施形態によれば、(例えば、ユーザと移動体(例えば超小型モビリティ)との間で合流位置を調整したり、待機指示をするような場合に)移動体を使用するユーザの発話情報から、移動体に対する指示位置を推定することが可能になる。
【符号の説明】
【0095】
100…車両、110…サーバ、120…通信装置、404…制御ユニット、413…ユーザデータ取得部、414…音声情報処理部、415…画像情報処理部、416…合流位置推定部
図1
図2
図3
図4
図5A
図5B
図6
図7
図8
図9