IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ 学校法人慶應義塾の特許一覧

特開2024-31978移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム
<>
  • 特開-移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム 図1
  • 特開-移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム 図2
  • 特開-移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム 図3
  • 特開-移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム 図4
  • 特開-移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム 図5
  • 特開-移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム 図6
  • 特開-移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム 図7
  • 特開-移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム 図8
  • 特開-移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024031978
(43)【公開日】2024-03-07
(54)【発明の名称】移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラム
(51)【国際特許分類】
   G08G 1/16 20060101AFI20240229BHJP
   G06T 7/00 20170101ALI20240229BHJP
   G01C 21/30 20060101ALI20240229BHJP
【FI】
G08G1/16 C
G06T7/00 650A
G06T7/00 350B
G01C21/30
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023137591
(22)【出願日】2023-08-25
(31)【優先権主張番号】17/895,119
(32)【優先日】2022-08-25
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(71)【出願人】
【識別番号】598121341
【氏名又は名称】慶應義塾
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】細見 直希
(72)【発明者】
【氏名】翠 輝久
(72)【発明者】
【氏名】山田 健太郎
(72)【発明者】
【氏名】畑中 駿平
(72)【発明者】
【氏名】ヤン ウェイ
(72)【発明者】
【氏名】杉浦 孔明
【テーマコード(参考)】
2F129
5H181
5L096
【Fターム(参考)】
2F129AA03
2F129BB03
2F129BB11
2F129BB50
2F129HH18
2F129HH19
2F129HH20
2F129HH21
5H181AA01
5H181BB20
5H181CC03
5H181CC04
5H181CC12
5H181CC14
5H181CC27
5H181FF04
5H181LL01
5H181LL02
5H181LL04
5H181LL08
5H181LL09
5L096BA04
5L096CA02
5L096DA02
5L096FA69
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】言語と画像との対応関係を好適に学習した学習済みモデルを用いて移動体の停車位置を一意に特定すること。
【解決手段】コンピュータによって読み込み可能な命令を格納する記憶媒体と、前記記憶媒体に接続されたプロセッサと、を備え、前記プロセッサは、前記コンピュータによって読み込み可能な命令を実行することにより、移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体の利用者によって入力された入力指示文とを取得し、少なくとも前記撮像画像および前記入力指示文を、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する前記移動体の停車位置を出力するように学習された、事前学習済み視覚言語モデルを含む学習済みモデルに入力することで、前記撮像画像において前記入力指示文に対応する前記移動体の停車位置を検出し、前記停車位置まで前記移動体を走行させる、移動体制御装置。
【選択図】図1
【特許請求の範囲】
【請求項1】
コンピュータによって読み込み可能な命令を格納する記憶媒体と、
前記記憶媒体に接続されたプロセッサと、を備え、
前記プロセッサは、前記コンピュータによって読み込み可能な命令を実行することにより、
移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体の利用者によって入力された入力指示文とを取得し、
少なくとも前記撮像画像および前記入力指示文を、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する前記移動体の停車位置を出力するように学習された、事前学習済み視覚言語モデルを含む学習済みモデルに入力することで、前記撮像画像において前記入力指示文に対応する前記移動体の停車位置を検出し、
前記停車位置まで前記移動体を走行させる、
移動体制御装置。
【請求項2】
前記学習済みモデルは、前記撮像画像と、前記入力指示文と、前記入力指示文に対応するランドマークが入力されると、前記画像において前記指示文に対応する前記移動体の停車位置を出力するように学習されたものである、
請求項1に記載の移動体制御装置。
【請求項3】
前記学習済みモデルは、前記事前学習済み視覚言語モデルの出力層に、前記停車位置を座標情報として出力する全結合層が接続されたものである、
請求項1に記載の移動体制御装置。
【請求項4】
コンピュータが、
移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体の利用者によって入力された入力指示文とを取得し、
少なくとも前記撮像画像および前記入力指示文を、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する前記移動体の停車位置を出力するように学習された、事前学習済み視覚言語モデルを含む学習済みモデルに入力することで、前記撮像画像において前記入力指示文に対応する前記移動体の停車位置を検出し、
前記停車位置まで前記移動体を走行させる、
移動体制御方法。
【請求項5】
コンピュータに、
移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体の利用者によって入力された入力指示文とを取得させ、
少なくとも前記撮像画像および前記入力指示文を、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する前記移動体の停車位置を出力するように学習された、事前学習済み視覚言語モデルを含む学習済みモデルに入力することで、前記撮像画像において前記入力指示文に対応する前記移動体の停車位置を検出させ、
前記停車位置まで前記移動体を走行させる、
プログラム。
【請求項6】
コンピュータによって読み込み可能な命令を格納する記憶媒体と、
前記記憶媒体に接続されたプロセッサと、を備え、
前記プロセッサは、前記コンピュータによって読み込み可能な命令を実行することにより、
少なくとも画像および指示文に対して、前記画像において前記指示文に対応する移動体の停車位置を示すアノテーションを対応付けた教師データを取得し、
前記教師データと、事前学習済み視覚言語モデルとに基づいて、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する移動体の停車位置を出力するように学習する、
学習装置。
【請求項7】
前記プロセッサは、前記画像と、前記指示文と、前記指示文に対応するランドマークに対して、前記画像において前記指示文に対応する移動体の停車位置を示すアノテーションを対応付けた教師データに基づいて、前記画像と、前記指示文と、前記指示文に対応するランドマークが入力されると、前記画像において前記指示文に対応する移動体の停車位置を出力するように学習する、
請求項6に記載の学習装置。
【請求項8】
前記事前学習済み視覚言語モデルの出力層には、前記停車位置を座標情報として出力する全結合層が接続され、
前記プロセッサは、前記アノテーションと前記座標情報との間の距離を表す損失関数の値を減少させるように前記全結合層のパラメータを学習する、
請求項6に記載の学習装置。
【請求項9】
前記損失関数は、連続値を入力値として受け付ける、
請求項8に記載の学習装置。
【請求項10】
コンピュータが、
少なくとも画像および指示文に対して、前記画像において前記指示文に対応する移動体の停車位置を示すアノテーションを対応付けた教師データと、事前学習済み視覚言語モデルとに基づいて、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する移動体の停車位置を出力するように学習する、
学習方法。
【請求項11】
コンピュータに、
少なくとも画像および指示文に対して、前記画像において前記指示文に対応する移動体の停車位置を示すアノテーションを対応付けた教師データと、事前学習済み視覚言語モデルとに基づいて、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する移動体の停車位置を出力するように学習させる、
プログラム。
【請求項12】
少なくとも画像および指示文に対して、前記画像において前記指示文に対応する移動体の停車位置を示すアノテーションを対応付けた教師データと、事前学習済み視覚言語モデルとに基づいて、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する移動体の停車位置を出力するように学習された学習済みモデルを用いて、少なくとも画像および移動体の停車位置から、前記画像において前記停車位置に対応する指示文を生成する、
生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラムに関する。
【背景技術】
【0002】
従来、人間が与えた指示文と、入力画像とに基づいて、当該入力画像における物体を特定する技術が知られている。例えば、特許文献1には、特定の対象物に関する命令文を取得し、命令文に関連付けられた入力画像から、当該入力画像に含まれる個々の物体を示す部分画像を抽出する技術が開示されている。非特許文献1には、参照表現理解(REC)タスクとして、指示文に基づいて入力画像中のランドマークを検出する技術が開示されている。非特許文献2には、指示文に基づいて、目標位置の領域を予測する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-190930号公報
【非特許文献】
【0004】
【非特許文献1】T. Deruyttere, S. Vandenhende, D. Grujicic, et al., “Talk2car: Taking control of your self driving car,” EMNLP IJCNLP, pp.2088-2098, 2019.
【非特許文献2】N. Rufus, K. Jain, U.K.R. Nair, V. Gandhi, and K.M. Krishna, “Grounding linguistic commands to navigable regions,” IROS, pp.8593-8600, 2021.
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記に示した従来技術は、指示文の特徴量と、入力画像の特徴量とを異なるモデル(特徴空間)で処理した後に統合(late fusion)することによって、物体や位置を特定するものである。その場合、特に学習データが大量に存在しない際に言語と画像との多様な共同表現を学習できず、その対応関係を好適に学習できない場合があった。
【0006】
さらに、例えば、移動体の走行制御においては、乗員が与えた指示文と入力画像とに基づいて移動体の停車位置を特定することが求められる。しかしながら、非特許文献2に記載の技術のように、目標位置の分布や領域を予測する方法では、移動体の停車位置を一意に特定することができず、移動体の走行制御に活用できない場合があった。
【0007】
本発明は、このような事情を考慮してなされたものであり、言語と画像との対応関係を好適に学習した学習済みモデルを用いて移動体の停車位置を一意に特定することができる、移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0008】
この発明に係る移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラムは、以下の構成を採用した。
(1):この発明の一態様に係る移動体制御装置は、コンピュータによって読み込み可能な命令を格納する記憶媒体と、前記記憶媒体に接続されたプロセッサと、を備え、前記プロセッサは、前記コンピュータによって読み込み可能な命令を実行することにより、移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体の利用者によって入力された入力指示文とを取得し、少なくとも前記撮像画像および前記入力指示文を、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する前記移動体の停車位置を出力するように学習された、事前学習済み視覚言語モデルを含む学習済みモデルに入力することで、前記撮像画像において前記入力指示文に対応する前記移動体の停車位置を検出し、前記停車位置まで前記移動体を走行させるものである。
【0009】
(2):上記(1)の態様において、前記学習済みモデルは、前記撮像画像と、前記入力指示文と、前記入力指示文に対応するランドマークが入力されると、前記画像において前記指示文に対応する前記移動体の停車位置を出力するように学習されたものである。
【0010】
(3):上記(1)の態様において、前記学習済みモデルは、前記事前学習済み視覚言語モデルの出力層に、前記停車位置を座標情報として出力する全結合層が接続されたものである。
【0011】
(4):この発明の一態様に係る移動体制御方法は、コンピュータが、移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体の利用者によって入力された入力指示文とを取得し、少なくとも前記撮像画像および前記入力指示文を、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する前記移動体の停車位置を出力するように学習された、事前学習済み視覚言語モデルを含む学習済みモデルに入力することで、前記撮像画像において前記入力指示文に対応する前記移動体の停車位置を検出し、前記停車位置まで前記移動体を走行させるものである。
【0012】
(5):この発明の一態様に係るプログラムは、コンピュータに、移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体の利用者によって入力された入力指示文とを取得させ、少なくとも前記撮像画像および前記入力指示文を、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する前記移動体の停車位置を出力するように学習された、事前学習済み視覚言語モデルを含む学習済みモデルに入力することで、前記撮像画像において前記入力指示文に対応する前記移動体の停車位置を検出させ、前記停車位置まで前記移動体を走行させるものである。
【0013】
(6):この発明の一態様に係る学習装置は、コンピュータによって読み込み可能な命令を格納する記憶媒体と、前記記憶媒体に接続されたプロセッサと、を備え、前記プロセッサは、前記コンピュータによって読み込み可能な命令を実行することにより、少なくとも画像および指示文に対して、前記画像において前記指示文に対応する移動体の停車位置を示すアノテーションを対応付けた教師データを取得し、前記教師データと、事前学習済み視覚言語モデルとに基づいて、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する移動体の停車位置を出力するように学習するものである。
【0014】
(7):上記(6)の態様において、前記プロセッサは、前記画像と、前記指示文と、前記指示文に対応するランドマークに対して、前記画像において前記指示文に対応する移動体の停車位置を示すアノテーションを対応付けた教師データに基づいて、前記画像と、前記指示文と、前記指示文に対応するランドマークが入力されると、前記画像において前記指示文に対応する移動体の停車位置を出力するように学習するものである。
【0015】
(8):上記(6)の態様において、前記事前学習済み視覚言語モデルの出力層には、前記停車位置を座標情報として出力する全結合層が接続され、前記プロセッサは、前記アノテーションと前記座標情報との間の距離を表す損失関数の値を減少させるように前記全結合層のパラメータを学習するものである。
【0016】
(9):上記(8)の態様において、前記損失関数は、連続値を入力値として受け付けるものである。
【0017】
(10):この発明の一態様に係る学習方法は、コンピュータが、少なくとも画像および指示文に対して、前記画像において前記指示文に対応する移動体の停車位置を示すアノテーションを対応付けた教師データと、事前学習済み視覚言語モデルとに基づいて、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する移動体の停車位置を出力するように学習するものである。
【0018】
(11):この発明の一態様に係るプログラムは、コンピュータに、少なくとも画像および指示文に対して、前記画像において前記指示文に対応する移動体の停車位置を示すアノテーションを対応付けた教師データと、事前学習済み視覚言語モデルとに基づいて、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する移動体の停車位置を出力するように学習させるものである。
【0019】
(12):この発明の一態様に係る生成装置は、少なくとも画像および指示文に対して、前記画像において前記指示文に対応する移動体の停車位置を示すアノテーションを対応付けた教師データと、事前学習済み視覚言語モデルとに基づいて、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する移動体の停車位置を出力するように学習された学習済みモデルを用いて、少なくとも画像および移動体の停車位置から、前記画像において前記停車位置に対応する指示文を生成するものである。
【発明の効果】
【0020】
(1)~(5)の態様によれば、言語と画像との対応関係を好適に学習した学習済みモデルを用いて移動体の停車位置を一意に特定することができる。
【0021】
(6)~(11)の態様によれば、言語と画像との対応関係を好適に学習し、移動体の停車位置を一意に特定することができる学習済みモデルを生成することができる。
【0022】
(12)の態様によれば、視覚言語モデルを応用して、画像から目標位置表現を生成することができる。
【図面の簡単な説明】
【0023】
図1】実施形態に係る移動体および制御装置の構成の一例を示す図である。
図2】移動体1を上方から見た透視図である。
図3】学習済みモデルの概略構成を示す図である。
図4】学習済みモデルの詳細構成を示す図である。
図5】制御装置によって実行される処理の流れの一例を示すフローチャートである。
図6】学習装置の構成の一例を示す図である。
図7】教師データの構成の一例を示す図である。
図8】学習装置によって実行される機械学習を説明するための図である。
図9】画像から目標位置表現を生成する学習済みモデルの構成を示す図である。
【発明を実施するための形態】
【0024】
以下、図面を参照し、本発明の移動体制御装置、移動体制御方法、学習装置、学習方法、生成装置、およびプログラムの実施形態について説明する。移動体制御装置は、移動体に搭載される。移動体は、車道と、車道と異なる所定領域との双方を移動するものである。移動体は、マイクロモビリティと称される場合がある。電動キックボードはマイクロモビリティの一種である。所定領域とは、例えば歩道である。また、所定領域とは、路側帯や自転車レーン、公開空地などのうち一部または全部であってもよいし、歩道、路側帯、自転車レーン、公開空地などを全て含んでもよい。以下の説明では、所定領域は歩道であるものとする。以下の説明において「歩道」と記載されている部分は、適宜、「所定領域」と読み替えることができる。
【0025】
[全体構成]
図1は、実施形態に係る移動体1および制御装置100の構成の一例を示す図である。移動体1には、例えば、外界検知デバイス10と、移動体センサ12と、操作子14と、内部カメラ16と、測位装置18と、HMI20と、モード切替スイッチ22と、移動機構30と、駆動装置40と、外部報知装置50と、記憶装置70と、制御装置100とが搭載される。なお、これらの構成のうち本発明の機能を実現するのに必須でない一部の構成が省略されてもよい。移動体は、乗物に限らず、歩くユーザと並走して荷物を運んだり、人を先導したりするような小型モビリティを含んでよく、また、その他の自律移動が可能な移動体(例えば歩行型ロボットなど)を含んでもよい。
【0026】
外界検知デバイス10は、移動体1の進行方向を検知範囲とする各種デバイスである。外界検知デバイス10は、外部カメラ、レーダー装置、LIDAR(Light Detection and Ranging)、センサフュージョン装置などを含む。外界検知デバイス10は、検知結果を示す情報(画像、物体の位置等)を制御装置100に出力する。特に、本実施形態において、外界検知デバイス10は、外部カメラによって移動体1の周辺を撮像した撮像画像を制御装置100に出力するものとする。
【0027】
移動体センサ12は、例えば、速度センサ、加速度センサ、ヨーレート(角速度)センサ、方位センサ、並びに操作子14に取り付けられた操作量検出センサなどを含む。操作子14は、例えば、加減速を指示するための操作子(例えばアクセルペダルやブレーキペダル)と、操舵を指示するための操作子(例えばステアリングホイール)とを含む。この場合、移動体センサ12は、アクセル開度センサやブレーキ踏量センサ、ステアリングトルクセンサ等を含んでよい。移動体1は、操作子14として、上記以外の態様の操作子(例えば、円環状でない回転操作子、ジョイスティック、ボタン等)を備えてもよい。
【0028】
内部カメラ16は、移動体1の乗員の少なくとも頭部を正面から撮像する。内部カメラ16は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子を利用したデジタルカメラである。内部カメラ16は、撮像した画像を制御装置100に出力する。
【0029】
測位装置18は、移動体1の位置を測位する装置である。測位装置18は、例えば、GNSS(Global Navigation Satellite System)受信機であり、GNSS衛星から受信した信号に基づいて、移動体1の位置を特定し、位置情報として出力する。なお、移動体1の位置情報は、後述する通信装置が接続しているWi-Fi基地局の位置から推定されてもよい。
【0030】
HMI20は、表示装置、スピーカ、タッチパネル、キーなどを含む。移動体1の乗員は、例えば、HMI20を介して、移動体1の目的地を設定し、後述する制御部130は、設定された目的地まで移動体1を走行させる。特に、本実施形態において、HMI20は、マイクロフォンなどの音声入力機器を含み、移動体1の乗員は、移動体1の停車位置を指示する指示文を発声することにより音声入力機器に入力するものとする。HMI20は、入力された指示文の音声を解析してテキスト化し、制御装置100に出力する。代替的に、HMI20は、例えば、タッチパネルを介して、乗員がテキストとして入力した指示文を受け付け、受け付けた指示文を制御装置100に出力してもよい。
【0031】
モード切替スイッチ22は、乗員により操作されるスイッチである。モード切替スイッチ22は、機械式スイッチであってもよいし、HMI20のタッチパネル上に設定されるGUI(Graphical User Interface)スイッチであってもよい。モード切替スイッチ22は、例えば、モードA:乗員により操舵操作と加減速制御との一方が行われ、他方は自動的に行われるアシストモードであり、乗員により操舵操作が行われ加減速制御が自動的に行われるモードA-1と、乗員により加減速操作が行われ操舵制御が自動的に行われるモードA-2とがあってよい、モードB:乗員により操舵操作および加減速操作がなされる手動運転モード、モードC:操作制御および加減速制御が自動的に行われる自動運転モードのいずれかに運転モードを切り替える操作を受け付ける。
【0032】
移動機構30は、道路において移動体1を移動させるための機構である。移動機構30は、例えば、操舵輪と駆動輪とを含む車輪群である。また、移動機構30は、多足歩行するための脚部であってもよい。
【0033】
駆動装置40は、移動機構30に力を出力して移動体1を移動させる。例えば、駆動装置40は、駆動輪を駆動するモータ、モータに供給する電力を蓄えるバッテリ、操舵輪の操舵角を調整する操舵装置などを含む。駆動装置40は、駆動力出力手段、或いは発電手段として、内燃機関や燃料電池などを備えてもよい。また、駆動装置40は、摩擦力や空気抵抗によるブレーキ装置を更に備えてもよい。
【0034】
外部報知装置50は、例えば移動体1の外板部に設けられ、移動体1の外部に向けて情報を報知するためのランプ、ディスプレイ装置、スピーカなどである。外部報知装置50は、移動体1が歩道を移動している状態と、車道を移動している状態とで異なる動作を行う。例えば、外部報知装置50は、移動体1が歩道を移動している場合にランプを発光させ、移動体1が車道を移動している場合にランプを発光させないように制御される。このランプの発光色は、法規で定められた色であると好適である。外部報知装置50は、移動体1が歩道を移動している場合にランプを緑色で発光させ、移動体1が車道を移動している場合にランプを青色で発光させるというように制御されてもよい。外部報知装置50がディスプレイ装置である場合、外部報知装置50は、移動体1が歩道を走行している場合に「歩道走行中である」旨をテキストやグラフィックで表示する。
【0035】
図2は、移動体1を上方から見た透視図である。図中、FWは操舵輪、RWは駆動輪、SDは操舵装置、MTはモータ、BTはバッテリである。操舵装置SD、モータMT、バッテリBTは駆動装置40に含まれる。また、APはアクセルペダル、BPはブレーキペダル、WHはステアリングホイール、SPはスピーカ、MCはマイクである。図示する移動体1は一人乗りの移動体であり、乗員Pは運転席DSに着座してシートベルトSBを装着している。矢印D1は移動体1の進行方向(速度ベクトル)である。外界検知デバイス10は移動体1の前端部付近に、内部カメラ16は乗員Pの前方から乗員Pの頭部を撮像可能な位置に、モード切替スイッチ22はステアリングホイールWHのボス部にそれぞれ設けられている。また、移動体1の前端部付近に、ディスプレイ装置としての外部報知装置50が設けられている。
【0036】
図1に戻り、記憶装置70は、例えば、HDD(Hard Disk Drive)やフラッシュメモリ、RAM(Random Access Memory)などの非一時的の記憶装置である。記憶装置70には、ナビゲーション地図情報72、学習済みモデル73などが格納される。図では記憶装置70を制御装置100の枠外に記載しているが、記憶装置70は制御装置100に含まれるものであってよい。また、記憶装置70は不図示のサーバ上に設けられてもよい。
【0037】
ナビゲーション地図情報72は、事前に記憶装置70に記憶され、例えば、車道および歩道を含む道路の中央の情報あるいは道路の境界の情報等を含む地図情報である。ナビゲーション地図情報72は、さらに、道路の境界に接する施設や建物に関する情報(名称、住所、面積など)を含む。学習済みモデル73については後述する。
【0038】
[制御装置]
制御装置100は、例えば、取得部110と、検出部120と、制御部130とを備える。取得部110と、検出部120と、制御部130は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)74を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶装置70に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一時的の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで記憶装置70にインストールされてもよい。取得部110と、検出部120と、制御部130とを組み合わせたものは、「移動体制御装置」の一例である。
【0039】
取得部110は、外界検知デバイス10である外部カメラが移動体1の周辺を撮像して得られた撮像画像を取得する。さらに、取得部110は、移動体1の乗員がHMI20である音声入力機器を介して入力した、移動体1の停車位置を指示する指示文を取得する。取得部110は、撮像画像および指示文を取得すると、当該撮像画像において指示文に対応する物体(ランドマーク)を、既知の物体認識手法を用いて抽出する。例えば、指示文が"Stop in front of the vending machine"である場合、取得部110は、指示文に含まれる物体である"vending machine"を撮像画像において探索し、探索された"vending machine"をランドマークとして抽出する。
【0040】
検出部120は、撮像画像と、指示文と、ランドマークを学習済みモデル73に入力して、出力された座標情報を、撮像画像において指示文に対応する移動体1の停車位置として検出する。この場合、座標情報は、二次元座標であってもよいし、三次元座標であってもよく、学習済みモデル73を生成するために用いられる、後述する教師データ232を用意する段階で任意に設定されればよい。制御部130は、検出部120によって検出された停車位置まで移動体1を走行させる。
【0041】
図3は、学習済みモデル73の概略構成を示す図である。学習済みモデル73は、事前学習済み視覚言語モデル73Aと、全結合層(FC)73Bとを含む。図3に示す通り、学習済みモデル73は、事前学習済み視覚言語モデル73Aの出力層に、移動体1の停車位置を座標情報として出力するように学習されたFC73Bが接続されたものである。
【0042】
事前学習済み視覚言語モデル73Aは、例えば、UNITER(UNiversal Image-Text Representation Learning)などの、事前に(換言すると、学習済みモデル73の生成前に)大規模データによって学習済みの視覚言語モデルである。ここで、視覚言語モデルとは、視覚入力の特徴量と、言語入力の特徴量を単一の特徴空間にマッピングして学習を行った機械学習モデル(マルチモーダルモデル)を意味する。図3に示す通り、事前学習済み視覚言語モデル73Aは、Image Embedderモジュール(以下、「IEモジュール」と称する)と、Text Embedderモジュール(以下、「TEモジュール」と称する)と、Multi-Layer Transformerモジュール(以下、「MLTモジュール」と称する)と、を含む。IEモジュールによって抽出された視覚入力の特徴量と、TEモジュールによって抽出された言語入力の特徴量は、MLTモジュールにおいて単一の特徴空間にマッピングされ、学習されるものである。以下、IEモジュール、TEモジュール、およびMLTモジュールの詳細について説明する。
【0043】
図4は、学習済みモデル73の詳細構成を示す図である。図4の左部に示す通り、IEモジュールおよびTEモジュールに入力される撮像画像、ランドマーク、および指示文のパラメータを以下のように定義する。
【0044】
x={Xland,Ximg,Xinst} ・・・(1)
【0045】
land={xland,xlandloc} ・・・(2)
【0046】
img={ximg,ximgloc} ・・・(3)
【0047】
inst={xinst, xpos} ・・・(4)
【0048】
式(1)から式(4)において、xland、xlandloc、ximg、ximgloc、xinst、xposは、それぞれランドマークの領域、ランドマークの領域位置、撮像画像全体の領域、撮像画像全体の領域位置、指示文、指示文のトークン(指示文を構成する最小の構成要素)の位置を表す。xlandおよびximgは、撮像画像のRGB値を正規化した後、224×224サイズの大きさに変換されたものである。その後、xlandおよびximgは、非特許文献「K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” IEEE CVPR, pp.770-778, 2016.」に開示されたResNetに入力し、“conv4_x”層の出力を一次元に平坦化したものを特徴量として抽出する。xlandlocについては、入力画像の幅および高さをそれぞれW、H、矩形領域の左上および右下の頂点座標をそれぞれ(x,y)、(x,y)、矩形領域の幅および高さをそれぞれw、hとして7次元のベクトル[x/W,y/H,x/W,y/H,w/W,h/H,(w×h)/(W×H)]を得る。同様に、ximglocについても(x,y)=(0,0)、(x,y)=(W,H)として7次元のベクトル[0,0,1,1,1,1,1]を得る。xinstに関しては、非特許文献「Y. Wu, M. Schuster, Z. Chen, et al., “Google’s neural machine translation system: Bridging the gap between human and machine translation,”」に開示されたWordPiecesによるトークン化を行うことで指示文のトークン列xinstおよび指示文中の単語の位置xposを獲得する。各入力の次元数に関して、xlandおよびximgについて、例えば、1,024次元の特徴量が得られる。また、例えば、指示文中の各トークンについて768次元の特徴量が得られる。
【0049】
IEモジュールでは、ランドマークおよび撮像画像全体に対する埋め込み処理を行う。入力はxland、xlandloc、ximg、およびximglocから構成される。まず、xlandおよびxlandlocをそれぞれ全結合層に入力し、得られた出力を合算した後で正規化を行うことでhlandを得る。以上の処理を以下の式に示す。
【0050】
land=fLN(fFC(xland)+fFC(xlandloc)) ・・・(5)
【0051】
続いてximg、ximglocについても式(5)と同様の処理を行うことでhimgを得る。最後にhlandとhimgを連結することでIEモジュールの出力himgemb={hland,himg}を得る。
【0052】
TEモジュールでは、指示文に対する埋め込み処理を行う。入力はxinst、xposから構成される。xinst、xposに学習可能な重みであるWinst、Wposをそれぞれ掛け合わせ、合算した後に正規化を行うことで出力htxtembを得る。
【0053】
txtemb=fLN(Winstinst+Wpospos) ・・・(6)
【0054】
MLTモジュールおよびFC73Bでは、L層のTransfomerによりモデルの最終的な予測位置を得る。transformerにおいて、query、key、valueとしてのランドマーク、画像全体、指示文に関する特徴量を連結したものにすることで、各モダリティの間の関係性を獲得することができる.1層目の入力をh(1) in={himgemb,htxtemb}とする。次に、multi-head attentionの式に基づきattentionスコアSattnを算出する。ここで、headはAttentionのHead数、i=1,・・・、headはAttentionのHeadに関するインデックス、W(i) 、W(i) 、W(i) は学習可能な重みを示す。また、HはW(i) inの次元d=H/headを表す。
【0055】
【数1】
・・・(7)
【0056】
attnは全結合層、ドロップアウト層、正規化層を適用した後、全結合層と活性化関数による処理を行う。最後に、再び全結合層、ドロップアウト層、正規化層を適用する。この一連の処理を1つのtransformer層と定義し、L層目の出力をhoutとする。その後、FC73Bを適用し、モデル全体の最終的な出力y^=fFC(hout)∈Rを得る。y^は絶対座標となっている。損失関数LはSelf-Adjusting Smooth L1 Lossを用い、以下のように定義される。
【0057】
【数2】
・・・(8)
【0058】
損失関数Lは、L1 Lossに限定されず、少なくとも、連続値である絶対座標を受付可能な損失関数であればよい。後述する学習部220は、アノテーションyと絶対座標y^との間の距離を表す損失関数Lの値を減少させるようにFC73Bのパラメータを、例えば、誤差逆伝播法(backpropagation)を用いて学習する。
【0059】
次に、図5を参照して、制御装置100によって実行される処理の流れについて説明する。図5は、制御装置100によって実行される処理の流れの一例を示すフローチャートである。図5に示すフローチャートの処理は、例えば、移動体1の乗員が、HMI20である音声入力機器に、移動体1の停車位置を指示する指示文を発声したタイミングで実行されるものである。
【0060】
まず、取得部110は、外界検知デバイス10である外部カメラが移動体1の周辺を撮像して得られた撮像画像と、移動体1の乗員がHMI20である音声入力機器を介して入力した、移動体1の停車位置を指示する指示文を取得する(ステップS100)。次に、取得部110は、既知の物体認識手法を用いて、取得した撮像画像において指示文に対応するランドマークを抽出する(ステップS102)。
【0061】
次に、検出部120は、撮像画像と、指示文と、ランドマークを学習済みモデル73に入力して、出力された座標情報を、撮像画像において指示文に対応する移動体1の停車位置として検出する(ステップS104)。次に、制御部130は、検出部120によって検出された停車位置まで移動体1を走行させる(ステップS106)。これにより、本フローチャートの処理が終了する。
【0062】
[学習装置]
次に、図6を参照して、本実施形態の学習済みモデル73を生成する学習装置200について説明する。図6は、学習装置200の構成の一例を示す図である。図6に示す通り、学習装置200は、例えば、取得部210と、学習部220と、記憶部230と、を備える。記憶部230は、例えば、教師データ232を記憶する。取得部210と、学習部220は、例えば、CPUなどのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPUなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDDやフラッシュメモリなどの記憶装置(非一時的の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一時的の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。記憶部230は、例えば、ROM、フラッシュメモリ、SDカード、RAM、HDD、レジスタ等によって実現される。
【0063】
取得部210は、記憶部230から教師データ232を取得する。図7は、教師データ232の構成の一例を示す図である。図7に示す通り、教師データ232は、例えば、撮像画像と、ランドマークと、指示文の組み合わせに対して、撮像画像において指示文に対応する移動体1の停車位置を示すアノテーションAPが対応付けられたものである。
【0064】
アノテータは、例えば、パーソナルコンピュータなどの端末装置上で、撮像画像と、ランドマークと、指示文の組み合わせを参照して、移動体1の適切な停車位置にアノテーションAPを付与する。例えば、図7の場合、アノテータは、指示文に含まれる"vending machine"と、"vending machine"を表す物体であるランドマークの画像を参照して、移動体1が停車可能なランドマークの手前の位置にアノテーションAPを点情報として付与する。このように、本実施形態において、アノテータは、撮像画像上でアノテーションAPを二次元領域として付与する必要はなく、点情報として付与すればよい。そのため、本発明は、目標位置の分布や領域を予測する従来技術に比して、アノテータの作業負担を軽減することができる。
【0065】
学習部220は、取得部210が取得した教師データ232に基づいて、事前学習済み視覚言語モデル73Aの出力層に、停車位置を座標情報として出力するFC73Bが接続された機械学習モデルを学習することによって、学習済みモデル73を生成する。図8は、学習装置200によって実行される機械学習を説明するための図である。図8において、符号APは、アノテータが停車位置として付与したアノテーションを表し、符号y^は、図4を参照して説明したモデルの出力値を表す。図8に示す通り、学習装置200は、アノテーションAPとモデル予測値y^との間の距離を表す損失関数L(L1 Loss)の値を減少させるように、FC73Bのパラメータを、例えば、誤差逆伝播法を用いて学習する。これにより、学習済みモデル73が生成される。
【0066】
なお、上記の実施形態では、学習部220は、撮像画像と、ランドマークと、指示文の組み合わせに対して、撮像画像において指示文に対応する移動体1の停車位置を示すアノテーションAPが対応付けられた教師データ232に基づいて機械学習を行い、学習済みモデル73を生成している。しかし、本発明は、そのような構成に限定されず、学習部220は、撮像画像と指示文の組み合わせに対して、撮像画像において指示文に対応する移動体1の停車位置を示すアノテーションAPが対応付けられた教師データ232に基づいて機械学習を行い、学習済みモデル73を生成しても良い。すなわち、本実施形態では、指示文に基づいて、既知の物体認識手法を用いて指示文に対応するランドマークを抽出しているが、指示文に対応するランドマークを抽出する機能そのものを事前学習済み視覚言語モデル73Aに持たせてもよい。
【0067】
さらに、上記の実施形態では、学習済みモデル73は、撮像画像と、ランドマークと、指示文の組み合わせの入力に応じて、移動体1の停車位置を出力している。しかし、本発明は、そのような構成に限定されず、学習済みモデル73を応用して、画像から目標位置表現(指示文)を生成してもよい。
【0068】
さらに、上記の実施形態では、移動体1の利用者が、乗員として移動体1に乗車後に制御装置100(より詳細には、学習済みモデル73)を利用する例について説明している。しかし、本発明はそのような構成に限定されず、移動体1の利用者は、移動体1への乗車前に音声入力機器を介して指示文を入力し、制御装置100は、入力された指示文に基づいて動作してもよい。
【0069】
図9は、画像から目標位置表現を生成する学習済みモデル73’の構成を示す図である。図9に示す通り、学習済みモデル73を応用して、学習済みモデル73’は、撮像画像と、ランドマークと、停車位置の入力に応じて、指示文を出力するように構成されてもよいし、撮像画像と、停車位置の入力に応じて、指示文を出力するように構成されてもよい。より具体的には、まず、所定の参照表現生成モジュール(例えば、Object Relation Transformerなどの画像キャプション生成モデル)に、画像と仮停車位置(画像のみであってもよい)を入力し参照表現を生成する。その後、学習済みモデル73に、参照表現生成モジュールによって生成された参照表現と、上記画像を入力し、予測された停車位置を得る。仮停車位置と予測された停車位置との間の距離が一定の閾値内であれば、生成された参照表現を適切な停車位置表現として扱う。すなわち、仮停車位置と予測された停車位置とが一定の閾値内に収まった参照表現生成モジュールを学習済みモデル73’として得ることができる。
【0070】
以上の通り説明した本実施形態によれば、学習済みモデル73は、言語と画像との多様な共同表現を学習した事前学習済み視覚言語モデル73Aと、停車位置を座標情報として出力するFC73Bとを含み、制御装置100は、学習済みモデル73を用いて、移動体1の停車位置を検出する。これにより、言語と画像との対応関係を好適に学習した学習済みモデルを用いて移動体の停車位置を一意に特定することができる。
【0071】
上記説明した実施形態は、以下のように表現することができる。
コンピュータによって読み込み可能な命令(computer-readable instructions)を格納する記憶媒体(storage medium)と、
前記記憶媒体に接続されたプロセッサと、を備え、
前記プロセッサは、前記コンピュータによって読み込み可能な命令を実行することにより(the processor executing the computer-readable instructions to:)
移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体の利用者によって入力された入力指示文とを取得し、
少なくとも前記撮像画像および前記入力指示文を、少なくとも画像および指示文が入力されると、前記画像において前記指示文に対応する前記移動体の停車位置を出力するように学習された、事前学習済み視覚言語モデルを含む学習済みモデルに入力することで、前記撮像画像において前記入力指示文に対応する前記移動体の停車位置を検出し、
前記停車位置まで前記移動体を走行させる、
ように構成されている、移動体制御装置。
【0072】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0073】
10 外界検知デバイス
12 移動体センサ
14 操作子
16 内部カメラ
18 測位装置
20 HMI
22 モード切替スイッチ
30 移動機構
40 駆動装置
50 外部報知装置
70 記憶装置
100 制御装置
110 取得部
120 検出部
130 制御部
図1
図2
図3
図4
図5
図6
図7
図8
図9