IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オムロン株式会社の特許一覧

特開2024-93370予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル
<>
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図1
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図2
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図3
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図4
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図5
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図6
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図7
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図8
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図9
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図10
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図11
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図12
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図13
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図14
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図15
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図16
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図17
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図18
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図19
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図20
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図21
  • 特開-予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024093370
(43)【公開日】2024-07-09
(54)【発明の名称】予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル
(51)【国際特許分類】
   G06T 7/20 20170101AFI20240702BHJP
   G06T 7/00 20170101ALI20240702BHJP
   G05D 1/43 20240101ALI20240702BHJP
【FI】
G06T7/20
G06T7/00 350C
G05D1/02 H
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2022209700
(22)【出願日】2022-12-27
(71)【出願人】
【識別番号】000002945
【氏名又は名称】オムロン株式会社
(74)【代理人】
【識別番号】100145403
【弁理士】
【氏名又は名称】山尾 憲人
(74)【代理人】
【識別番号】100189555
【弁理士】
【氏名又は名称】徳山 英浩
(72)【発明者】
【氏名】佐々木 勇輝
(72)【発明者】
【氏名】籔内 智浩
(72)【発明者】
【氏名】岩本 直人
【テーマコード(参考)】
5H301
5L096
【Fターム(参考)】
5H301AA01
5H301BB14
5H301CC03
5H301CC06
5H301CC10
5H301GG09
5L096BA05
5L096DA01
5L096DA03
5L096FA16
5L096FA67
5L096FA69
5L096GA30
5L096HA05
5L096HA11
5L096KA04
(57)【要約】
【課題】被写体の行動の予測の精度をより向上させることができる予測方法を提供する。
【解決手段】学習済みモデルは、空間を表す入力情報から得られる空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、対象物の行動についての第1予測結果と、複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習される。予測方法は、対象空間を表す対象入力情報から対象物の複数の定量情報を検出する。予測方法は、対象入力情報から検出された対象物の複数の定量情報を学習済みモデルに入力することによって、対象入力情報から検出された対象物の行動についての第1予測結果と、対象入力情報から検出された対象物の複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力する。
【選択図】図2
【特許請求の範囲】
【請求項1】
学習済みモデルを記憶する記憶装置にアクセス可能な演算回路によって実行される予測方法であって、
前記学習済みモデルは、空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習され、
前記予測方法は、
対象空間を表す対象入力情報から前記対象物の前記複数の定量情報を検出し、
前記対象入力情報から検出された前記対象物の前記複数の定量情報を前記学習済みモデルに入力することによって、前記対象入力情報から検出された前記対象物の行動についての前記第1予測結果と、前記対象入力情報から検出された前記対象物の前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果と、を出力する、
予測方法。
【請求項2】
前記予測方法は、前記学習済みモデルから出力された前記第1予測結果と前記第2予測結果とを関連付けて記憶させる、請求項1に記載の予測方法。
【請求項3】
前記複数の定量情報は、前記対象物の位置又は移動に関する情報と、前記対象物の状態に関する情報とを含む、請求項1に記載の予測方法。
【請求項4】
前記複数の定量情報は、前記対象物の位置、前記対象物のバウンディングボックス、前記対象物の1又は複数の部位の位置、前記対象物の1又は複数の部位の向き、前記対象物の1又は複数の部位の画像、前記対象物の複数の部位の関連性に基づく情報、前記対象物の全体の画像、前記対象物の速度、及び前記対象物の軌跡のうちの少なくとも一つの情報を含む、請求項1に記載の予測方法。
【請求項5】
前記対象物の行動は、
前記対象物が前記対象空間を表す入力情報の中の他の物体を回避すること、
前記対象物が前記他の物体の通路を横断すること、
前記対象物が前記他の物体に接近すること、
前記対象物が前記他の物体に随行し、又は前記他の物体を追い抜くこと、
前記対象物が加速すること、
前記対象物が減速すること、
前記対象物が停止すること、又は停止中であること、
前記対象物が動き出すこと、及び
前記対象物が進行方向を変えること、
のうちの少なくとも一つを含む、
請求項1に記載の予測方法。
【請求項6】
前記第1予測結果は、前記対象物の行動が第1行動である確率と、前記対象物の行動が前記第1行動と異なる第2行動である確率とを含み、
前記第1行動及び第2行動は、それぞれ、
前記対象物が前記対象空間中の他の物体を回避すること、
前記対象物が前記他の物体の通路を横断すること、
前記対象物が前記他の物体に接近すること、
前記対象物が前記他の物体に随行し、又は前記他の物体を追い抜くこと、
前記対象物が加速すること、
前記対象物が減速すること、
前記対象物が停止すること、又は停止中であること、
前記対象物が動き出すこと、及び
前記対象物が進行方向を変えること、
のうちの少なくとも一つを含む、
請求項1に記載の予測方法。
【請求項7】
前記第1予測結果は、前記対象物の行動の危険の程度及び安全の程度のうちの少なくとも一方を示す指標を含む、請求項1に記載の予測方法。
【請求項8】
前記学習済みモデルは、
前記複数の定量情報から複数の特徴量を抽出する抽出処理と、
前記抽出処理で抽出された前記複数の特徴量から前記対象物の行動についての前記第1予測結果を決定する第1決定処理と、
前記抽出処理で抽出された前記複数の特徴量から前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果を決定する第2決定処理と、
を実行する、
請求項1に記載の予測方法。
【請求項9】
請求項1~8のいずれかに記載の予測方法を演算回路に実行させるためのプログラム。
【請求項10】
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習された学習済みモデルから前記第1予測結果と前記第2予測結果とを取得し、
前記第1予測結果を示す情報と、前記第2予測結果を可視化した情報とを表示装置に表示させる、
表示方法。
【請求項11】
前記第2予測結果を可視化した情報は、前記入力情報又は前記入力情報を加工して得られた情報に重畳して表示される、請求項10に記載の表示方法。
【請求項12】
請求項10又は11に記載の表示方法を演算回路に実行させるためのプログラム。
【請求項13】
学習済みモデルを記憶する記憶装置と、
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報を生成する生成装置と、
前記生成装置及び前記記憶装置にアクセス可能な演算回路と、
を備え、
前記学習済みモデルは、前記対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習され、
前記演算回路は、
対象空間を表す対象入力情報から前記対象物の前記複数の定量情報を検出し、
前記対象入力情報から検出された前記対象物の前記複数の定量情報を前記学習済みモデルに入力することによって、前記対象入力情報から検出された前記対象物の行動についての前記第1予測結果と、前記対象入力情報から検出された前記対象物の前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果と、を出力する、
予測システム。
【請求項14】
前記生成装置は、移動機構により前記対象空間の中で移動可能な移動体に搭載された、請求項13に記載の予測システム。
【請求項15】
報知装置を更に備え、
前記演算回路は、
前記第1予測結果に応じて前記移動体の動作予定を決定し、
前記動作予定を前記報知装置に報知させる、
請求項14に記載の予測システム。
【請求項16】
報知装置を更に備え、
前記演算回路は、前記第1予測結果に基づく情報を前記報知装置に報知させる、
請求項13~15のいずれかに記載の予測システム。
【請求項17】
前記移動体は、前記演算回路が前記移動機構を制御することによって移動可能であり、
前記演算回路は、前記第1予測結果に応じて、前記移動機構に、前記移動体の進行方向及び速度の少なくとも一方を変更させる、
請求項14又は15に記載の予測システム。
【請求項18】
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習された学習済みモデルから前記第1予測結果と前記第2予測結果とを取得し、前記第1予測結果を示す情報と、前記第2予測結果を可視化した情報とを表示装置に表示させる、表示システム。
【請求項19】
前記第1予測結果を示す情報に代えて、又は、前記第1予測結果を示す情報に加えて、前記空間で移動可能な移動体の動作予定を表示する、請求項18に記載の表示システム。
【請求項20】
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習され、
前記複数の定量情報から複数の特徴量を抽出する抽出処理と、
前記抽出処理で抽出された前記複数の特徴量から前記対象物の行動についての前記第1予測結果を決定する第1決定処理と、
前記抽出処理で抽出された前記複数の特徴量から前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果を決定する第2決定処理と、
を実行する、
学習済みモデル。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデルに関する。
【背景技術】
【0002】
非特許文献1は、ディープニューラルネットワークモデルを利用して歩行者の横断意図を予測するための技術を開示する。非特許文献1では、車両速度、歩行者のバウンディングボックス、及び、歩行者の姿勢のキーポイントから、非視覚ベースの特徴量を抽出し、画像の局所的なコンテキストと画像の全体的なコンテキストとから視覚ベースの特徴量を抽出し、非視覚ベースの特徴量と視覚ベースの特徴量を融合した特徴量により、歩行者の横断意図を予測する。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Dongfang Yang,他4名,”Predicting Pedestrian Crossing Intention with Feature Fusion and Spatio-Temporal Attention”,[online],2021年4月12日,[2022年11月21日検索],Cornell University,インターネット<URL:https://arxiv.org/abs/2104.05485>
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1に開示された技術は、車両速度、歩行者のバウンディングボックス、歩行者の姿勢のキーポイント、画像の局所的なコンテキスト、及び、画像の全体的なコンテキスト等の情報を用いることで、歩行者の横断意図を予測し得る。
【0005】
本開示は、被写体の行動についての予測の精度をより向上させることができる予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデルを提供する。
【課題を解決するための手段】
【0006】
本開示の一態様に係る予測方法は、学習済みモデルを記憶する記憶装置にアクセス可能な演算回路によって実行される予測方法であって、
前記学習済みモデルは、空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習され、
前記予測方法は、
対象空間を表す対象入力情報から前記対象物の前記複数の定量情報を検出し、
前記対象入力情報から検出された前記対象物の前記複数の定量情報を前記学習済みモデルに入力することによって、前記対象入力情報から検出された前記対象物の行動についての前記第1予測結果と、前記対象入力情報から検出された前記対象物の前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果と、を出力する。
【0007】
本開示の一態様に係るプログラムは、上記の予測方法を演算回路に実行させるためのプログラムである。
【0008】
本開示の一態様に係る表示方法は、
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習された学習済みモデルから前記第1予測結果と前記第2予測結果とを取得し、
前記第1予測結果を示す情報と、前記第2予測結果を可視化した情報とを表示装置に表示させる。
【0009】
本開示の一態様に係るプログラムは、上記の表示方法を演算回路に実行させるためのプログラムである。
【0010】
本開示の一態様に係る予測システムは、
学習済みモデルを記憶する記憶装置と、
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報を生成する生成装置と、
前記生成装置及び前記記憶装置にアクセス可能な演算回路と、
を備え、
前記学習済みモデルは、前記対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習され、
前記演算回路は、
対象空間を表す対象入力情報から前記対象物の前記複数の定量情報を検出し、
前記対象入力情報から検出された前記対象物の前記複数の定量情報を前記学習済みモデルに入力することによって、前記対象入力情報から検出された前記対象物の行動についての前記第1予測結果と、前記対象入力情報から検出された前記対象物の前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果と、を出力する。
【0011】
本開示の一態様に係る表示システムは、
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習された学習済みモデルから前記第1予測結果と前記第2予測結果とを取得し、前記第1予測結果を示す情報と、前記第2予測結果を可視化した情報とを表示装置に表示させる。
【0012】
本開示の一態様に係る学習済みモデルは、空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習され、
前記複数の定量情報から複数の特徴量を抽出する抽出処理と、
前記抽出処理で抽出された前記複数の特徴量から前記対象物の行動についての前記第1予測結果を決定する第1決定処理と、
前記抽出処理で抽出された前記複数の特徴量から前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果を決定する第2決定処理と、
を実行する。
【発明の効果】
【0013】
本開示の態様は、被写体の行動についての予測の精度をより向上させることができる。
【図面の簡単な説明】
【0014】
図1】本開示の一実施の形態に係る予測システムを備える移動装置の構成例を示すブロック図
図2図1の予測システムによって実行される処理の一例を示すフローチャート
図3】被写体が写る画像の第1例を示す概略図
図4】被写体が写る画像の第2例を示す概略図
図5】被写体が写る画像の第3例を示す概略図
図6】画像に写る被写体の部位の一例を示す概略図
図7図1の移動装置の動作の一例の説明図
図8図1の移動装置の動作の一例の説明図
図9図1の移動装置の動作の一例の説明図
図10図1に示されたモデルの構成例の概略説明図
図11図1に示されたモデルの構築手順の一例を説明するための模式図
図12】第1正解データを説明するための模式図
図13】第2正解データを説明するための模式図
図14】一実施の形態に係る表示システムの構成例を示すブロック図
図15図14の表示システムによって実行される処理の一例を示すフローチャート
図16】モデル出力結果の表示例を示す模式図
図17】モデル出力結果の表示例を示す模式図
図18】モデル出力結果の表示例を示す模式図
図19】モデル出力結果の表示例を示す模式図
図20】モデルの変形例の概略説明図
図21】モデルの変形例の概略説明図
図22】モデルの変形例の概略説明図
【発明を実施するための形態】
【0015】
1.実施の形態
1-1.移動装置
1-1-1.構成例
図1は、一実施の形態に係る移動装置1の構成例を示すブロック図である。移動装置1は、例えば、自律移動可能なロボットである。移動装置1は、予測システム20と、生成装置又は撮像装置の一例である撮像システム3と、制御システム4と、移動機構5と、報知装置6とを備える。
【0016】
予測システム20は、被写体10の行動の予測を行う。本実施の形態において、予測システム20は、被写体10の写る画像情報を撮像システム3から取得し、被写体10の行動についての予測の結果(第1予測結果)を制御システム4に提供し、制御システム4にて第1予測結果に応じた動作を実行させるために用いられる。
【0017】
さらに、予測システム20は、画像情報中の被写体10に基づく複数の被写体情報の入力に対して、複数の被写体情報のうちの少なくとも一つについて入力後の変化の予測結果(第2予測結果)を出力する。例えば、予測システム20は、画像情報中の被写体10の位置、速度等の被写体情報の将来の状態を予測し、予測した将来の状態を第2予測結果として出力する。第2予測結果は、複数の被写体情報のうちの少なくとも一つについて変化の有無の予測結果を含み、変化がある場合にはその変化の程度又は変化量の予測結果を含む。
【0018】
予測システム20によって出力された第2予測結果は、第1予測結果の根拠の分析又は説明に用いられてもよい。例えば、第1予測結果が正確でなかった場合、開発者等のユーザは、第2予測結果を用いて第1予測結果の根拠の分析をすることによって、予測システム20が正確でない第1予測結果を出力した原因を発見し得る。ユーザは、発見した原因を予測システム20による行動の予測にフィードバックすることにより、第1予測結果の精度を向上させるよう、予測システム20を改良することができる。
【0019】
被写体10は、予測システム20による行動の予測の対象となる物体である。被写体10の状態には、移動している状態と、停止している状態とが含まれ得る。被写体10は、他律的に、例えば人に操作されることにより移動可能であってもよいし、自律的に移動可能であってもよい。
【0020】
本実施の形態では、被写体10は、人(例えば、歩行者)である。以下では、「被写体」を「人」と表記する場合があるが、これは被写体を人に限定する趣旨ではなく、単に文章の煩雑さを避けて説明を分かりやすくするためである。したがって、被写体10は、人に限らず、人以外の動物等の生物であってもよい。被写体10は、生物に限らず、無生物であってもよい。無生物の例としては、二輪車、自動車、船舶、航空機等の乗り物やドローン等を含む移動物体が挙げられる。被写体10は、物体の全体に限らず、物体の一部であってもよい。
【0021】
撮像システム3は、対象画像情報9を生成するためのシステムである。対象画像情報9は、被写体10が写る1以上の画像のデータを含み得る。対象画像情報9は、被写体10が写る静止画像のデータであってもよいし、被写体10が写る動画像のデータであってもよい。本実施の形態では、「被写体10が写る」は、被写体10の全部が写ることに限定されず、被写体10の少なくとも一部が写ることを含む。例えば、被写体10が人である場合、人の顔が写る画像は、被写体10が写る画像であるといえる。撮像システム3は、予測システム20に通信可能に接続され、対象画像情報9を予測システム20に提供することができる。撮像システム3は、1以上のカメラを含む。
【0022】
制御システム4は、被写体10の行動についての第1予測結果に応じた動作を実行する。一例では、制御システム4は、移動機構5を制御して移動装置1の移動(行動)を制御する。制御システム4は、第1予測結果に応じて移動装置1の移動を決定することができる。制御システム4は、予測システム20に通信可能に接続され、第1予測結果を予測システム20から受け取ることができる。制御システム4は、1以上のメモリ及び1以上のプロセッサ等を含むコンピュータシステムを含む。
【0023】
移動機構5は、移動装置1を移動させるための機構である。移動機構5は、例えば、駆動機構(例えば、モータ等)、オムニホイール等のホイール又は車輪、ステアリング機構等を含む。
【0024】
報知装置6は、報知装置6の周囲に情報を報知する。例えば、報知装置6は、被写体10に情報を報知する。例えば、報知装置6は、制御システム4により制御され、予測システム20から出力された第1予測結果に基づく情報を被写体10に報知する。報知装置6は、LED等の光源、ディスプレイ、表示器等の視覚的な報知装置、又は、スピーカ、ブザー、クラクション等の音源(聴覚的な報知装置)を含み得る。被写体10が情報処理装置と通信を行うことができる装置である場合、報知装置6は、通信装置であってもよい。
【0025】
図1に示すように、予測システム20は、インターフェース21と、記憶装置22と、演算回路23と、を備える。
【0026】
インターフェース21は、予測システム20への情報の入力、及び、予測システム20からの情報の出力に利用される。インターフェース21は、入出力装置211と、通信装置212と、を含む。入出力装置211は、ユーザからの情報の入力のための入力装置、及び、ユーザへの情報の出力のための出力装置としての機能を有する。入出力装置211は、1以上のヒューマン・マシン・インターフェースを備える。ヒューマン・マシン・インターフェースの例としては、キーボード、ポインティングデバイス(マウス、トラックボール等)、タッチパッド等の入力装置、ディスプレイ、スピーカ等の出力装置、タッチパネル等の入出力装置が挙げられる。
【0027】
通信装置212は、外部装置又はシステムと通信可能に接続される。本実施の形態では、通信装置212は、通信ネットワークを通じた撮像システム3及び制御システム4との通信に用いられる。通信装置212は、1以上の通信インターフェースを備える。通信装置212は、通信ネットワークに接続可能であり、通信ネットワークを通じた通信を行う。通信装置212は、所定の通信プロトコルに準拠している。所定の通信プロトコルは、周知の様々な有線及び無線通信規格から選択され得る。
【0028】
記憶装置22は、演算回路23が利用する情報及び演算回路23で生成される情報を記憶する。記憶装置22は、1以上のストレージ(非一時的な記憶媒体)を含む。ストレージは、例えば、ハードディスクドライブ、光学ドライブ、及びソリッドステートドライブ(SSD)のいずれであってもよい。また、ストレージは、内蔵型、外付け型、及びNAS(network-attached storage)型のいずれであってもよい。
【0029】
記憶装置22は、モデル7と、モデル出力結果8と、対象画像情報9とを記憶する。モデル7と、モデル出力結果8と、対象画像情報9とは、常に記憶装置22に記憶されている必要はなく、演算回路23で必要とされるときに記憶装置22に記憶されていればよい。モデル7は、被写体10の行動についての第1予測結果と、被写体10の複数の被写体情報のうちの少なくとも一つについての第2予測結果と、を出力するために用いられる。モデル7の詳細については後述する。
【0030】
演算回路23は、予測システム20の動作を制御する回路である。演算回路23は、例えば、1以上のプロセッサと1以上のメモリとを含むコンピュータシステムにより実現され得る。1以上のプロセッサがプログラムを実行することで、演算回路23としての機能を実現する。このようなプログラムは、例えば記憶装置22に予め記憶されるが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記憶媒体に記憶されて提供されてもよい。
【0031】
演算回路23は、記憶装置22にアクセス可能である。演算回路23は、インターフェース21に接続され、インターフェース21を介して、撮像システム3及び制御システム4に情報を送信し、撮像システム3及び制御システム4から情報を受信することができる。演算回路23は、インターフェース21を介して、表示システム2に接続されてもよい。表示システム2の詳細は後述する。
【0032】
1-1-2.動作例
図2は、図1の予測システム20によって実行される処理の一例を示すフローチャートである。
【0033】
まず、演算回路23は、対象画像情報9を取得する(S11)。本実施の形態において、演算回路23は、インターフェース21を通じて撮像システム3から対象画像情報9を取得する。演算回路23は、対象画像情報9を記憶装置22に記憶させてもよい。
【0034】
図3は、対象画像情報9に含まれる、被写体10の写る画像の第1例を示す概略図である。図4は、対象画像情報9に含まれる、被写体10の写る画像の第2例を示す概略図である。図5は、対象画像情報9に含まれる、被写体10の写る画像の第3例を示す概略図である。図3~5において、被写体10は、手前に移動している。つまり、被写体10は移動装置1(撮像システム3のレンズ又は撮像面)に接近している。図3の画像では、被写体10は前を向いて歩いており、被写体10の視線は、被写体10から見て移動装置1よりやや右を向いている。図4の画像では、被写体10は前を向いて歩いており、被写体10の視線は、移動装置1の方を向いている。図5の画像では、被写体10は下を向いており、前を向いて歩いていない。
【0035】
演算回路23は、対象画像情報9に含まれる画像から被写体10を検出する処理を実行する(S12)。画像からの被写体10の検出は、従来周知の方法により実現されてよい。画像からの被写体10の検出は、例えば、エッジ検出等の画像処理技術により実現されてもよいし、学習済みモデルを利用して実現されてもよい。
【0036】
演算回路23は、対象画像情報9から被写体10の複数の情報(被写体情報)を検出する(S13)。演算回路23は、ステップS12で検出した被写体10に関して、対象画像情報9から複数の被写体情報を検出する。
【0037】
被写体情報は、被写体10に関する定量的な情報である。例えば、複数の被写体情報は、被写体10の位置、被写体10のバウンディングボックスB(図3参照)、被写体10の1又は複数の部位の位置、被写体10の1又は複数の部位の向き、被写体10の1又は複数の部位の画像、被写体10の複数の部位の関連性に基づく情報、被写体10の全体の画像、被写体10の速度、及び被写体10の軌跡のうちの少なくとも一つの情報を含む。被写体情報は、本明細書の定量情報の一例である。
【0038】
被写体10の位置は、例えば、実空間における被写体10の絶対的な位置、又は、実空間における移動装置1に対する被写体10の位置(相対位置)である。一例として、被写体10の位置は、対象画像情報9に含まれる画像上の被写体10の位置及び大きさ(バウンディングボックスBの大きさ)に基づいて決定され得る。画像からの被写体10の位置の検出は、従来周知の方法により実現されてよい。
【0039】
バウンディングボックスBは、図3~5に示したような被写体10を囲う矩形のボックス(矩形の境界線)である。より詳細には、バウンディングボックスBは、被写体10をちょうど囲う大きさの矩形のボックスである。そのため、バウンディングボックスBの幅W及び高さHは、画像上の被写体10の大きさに応じて変化する。
【0040】
バウンディングボックスBは、従来周知の技術により設定されてもよい。例えば、バウンディングボックスBは、画像における矩形の注目領域出に被写体10が含まれるか否かに基づいて設定されてもよいし(例えば、特許第4447245号公報参照)、人の骨格の検出技術(例えば、OpenPose等の姿勢推定モデル)を利用して検出された人の骨格を内包するように設定されてもよい。
【0041】
被写体10の速度は、例えば、被写体10の絶対的な速度、又は、移動装置1に対する被写体10の速度(相対速度)である。一例として、被写体10の速度は、対象画像情報9に含まれる画像間の被写体10の位置及び大きさの変化に基づいて決定され得る。画像からの被写体10の速度の検出は、従来周知の方法により実現されてよい。
【0042】
被写体10の部位の位置は、例えば、被写体10の顔の位置である。部位の向きは、例えば、被写体10の顔の向き又は視線である。部位の画像は、例えば、被写体10の顔の画像である。複数の部位の関連性に基づく情報は、例えば、被写体10の姿勢に関する情報である。被写体10の全体の画像は、例えば、被写体10に対応するバウンディングボックスBで囲まれた画像である。
【0043】
被写体10の部位は、例えば、顔、頭、腕、胴、脚である。被写体10の部位は、図6に四角形で示した骨格点Pであってもよい。また、被写体10の部位は、目、鼻、指、関節等であってもよい。
【0044】
図2に戻り、演算回路23は、モデル7で予測を行う(S14)。より詳細には、演算回路23は、対象画像情報9から検出された複数の被写体情報をモデル7に入力する。モデル7は、複数の被写体情報の入力に対して、対象画像情報9から検出された被写体10の行動についての第1予測結果と、被写体10の複数の被写体情報のうちの少なくとも一つについての第2予測結果と、を出力する。
【0045】
本実施の形態において、予測対象である被写体10の行動は、例えば、被写体10が他の物体を回避すること、被写体10が他の物体の通路を横断すること、被写体10が他の物体に接近すること、被写体10が他の物体に随行し、又は前記他の物体を追い抜くこと、被写体10が加速すること、及び被写体10が減速すること、のうちの少なくとも一つを含む。このように、モデル7から出力される被写体10の行動は、被写体10が加速すること、及び被写体10が減速することを含み得る。被写体10が加速すること、及び被写体10が減速することは、定性的な情報であるから、定量的な情報である被写体情報には該当しない。
【0046】
上記に加えて、又は上記に代えて、被写体10の行動は、被写体10が停止すること、又は停止中であること、被写体10が動き出すこと、及び被写体10が進行方向を変えること、のうちの少なくとも一つを含んでもよい。被写体10が停止中である状態は、例えば、被写体10が作業中であり、移動することなく定位置に立っている状態、椅子などに座っている状態等を含む。被写体10が動き出すことは、例えば、被写体10が停止中である状態から移動し始めること、椅子に座った状態から立ち上がること、可動式椅子に座ったまま移動すること等を含む。
【0047】
本実施の形態において、第1予測結果の一例は、被写体10の行動が第1行動である確率と、被写体10の行動が第2行動である確率とを含む。第2行動は、第1行動と異なっていてもよい。
【0048】
本実施の形態において、第1予測結果の他の例は、被写体10の移動方向についての予測結果である。被写体10の移動方向の予測結果は、被写体10の移動方向が第1移動方向である確率と被写体10の移動方向が第2移動方向である確率とを含む。第1移動方向は、被写体10が他の物体に向かう方向である。第2移動方向は、被写体10が他の物体を回避する方向である。本実施の形態において、他の物体は、例えば、移動装置1である。つまり、被写体10の移動方向についての予測結果は、被写体10が移動装置1を回避しようとするかどうかの確率を表しているといえる。この観点から、被写体10の移動方向についての予測結果は、被写体10が移動装置1を回避しよう確率を示す回避意図スコアであるといえる。よって、この例において、予測システム20は、モデル7を利用して、前方歩行者の回避意図予測を実行しているといえる。モデル7の詳細については後述する。
【0049】
被写体10の行動についての第1予測結果の一例である回避意図スコアの導出例について説明する。回避意図スコア(尤度)の導出は、被写体10の移動方向が第1移動方向である場合(非回避の場合)のスコアを0とし、被写体10の移動方向が第2移動方向である場合(回避の場合)のスコアを1とした2値分類問題とみなすことができる。スコアを0~1の範囲にするため、モデル7の出力(後述の第1出力部76からの出力)を式(1)で表されるシグモイド関数のxに代入し、得られた出力がスコアとなる。
【0050】
あるいは、スコアは、0~1の範囲の値ではなく、例えば、ReLu関数を用いて連続的な数値として導出されてもよい(回帰モデル)。
【0051】
第1予測結果の他の例は、被写体10の行動の危険の程度を示す指標(以下、「危険度」ともいう。)である。危険度は、例えば、被写体10の速度、視線を示す情報に基づいて決定される。例えば、被写体10の速度が大きく、視線が他の物体(移動装置1)の方向を向いていないとき、危険度は高くなる。これに代えて、又はこれに加えて、危険度は、行動の予測結果に基づいて決定されてもよい。例えば、被写体10が移動装置1を回避しよう確率が低い場合、又は被写体10が急加速すると予測される場合、危険度は高くなる。
【0052】
第1予測結果の更なる他の例は、被写体10の行動の安全の程度を示す指標(以下、「安全度」ともいう。)である。安全度は、例えば、被写体10の速度、視線を示す情報に基づいて決定される。例えば、被写体10の速度が小さく、視線が他の物体(移動装置1)の方向を向いているとき、安全度は高くなる。これに代えて、又はこれに加えて、安全度は、行動の予測結果に基づいて決定されてもよい。例えば、被写体10が移動装置1を回避しよう確率が高い場合、安全度は高くなる。
【0053】
図2において、演算回路23は、第1予測結果と第2予測結果とを関連付けて、モデル出力結果8として記憶装置22に記憶させる(S15)。演算回路23は、第1予測結果と第2予測結果とを、対象画像情報9に関連付けて記憶装置22に格納してもよい。記憶装置22が複数の記憶媒体で構成される場合、ステップS15で記憶される第1及び第2予測結果は、モデル7が記憶される記憶媒体とは異なる記憶媒体に記憶されてもよいし、同一の記憶媒体に記憶されてもよい。
【0054】
ステップS15で記憶された第1予測結果は、移動装置1の制御システム4において移動装置1の動作の決定に用いられ得る。
【0055】
図7図9は、移動装置1の動作の一例の説明図である。図7において、移動装置1の進行予定経路M1に、被写体10が存在する。被写体10は移動方向V0に移動中である。図7において、移動方向V0は、移動装置1に対する被写体10の相対速度ベクトルで表されている。
【0056】
移動装置1では、予測システム20が、被写体10の行動の予測、例えば移動方向の予測を実行する。被写体10の移動方向についての第1予測結果は、被写体10の移動方向が第1移動方向V1である確率と被写体10の移動方向が第2移動方向V2である確率とを含む。第1移動方向V1は、被写体10が他の物体(移動装置1)に向かう方向である。第2移動方向V2は、被写体10が他の物体(移動装置1)を回避する方向である。
【0057】
被写体10の移動方向が第1移動方向V1である確率が高い場合には、被写体10が移動装置1の近接エリア1aに到達し、移動装置1と衝突する可能性が高い。この場合、図8に示すように、制御システム4が移動装置1の進行予定経路M1を進行予定経路M2に変更し、移動装置1は、被写体10との衝突を回避する行動をとることができる。
【0058】
被写体10の移動方向が第2移動方向V2である確率が高い場合には、被写体10が移動装置1と衝突する可能性が低い。この場合、図9に示すように、移動装置1では、制御システム4が移動装置1の進行予定経路M1を維持する行動をとる。
【0059】
このように、制御システム4は、第1予測結果に基づいて、移動装置1の進行方向及び速度の少なくとも一方を制御することにより、移動装置1と被写体10とが衝突する可能性を低減することができる。特に、移動装置1は、被写体10の移動を優先して被写体10との衝突を徹底的に避けるような移動方針ではなく、被写体10が移動装置1との衝突を回避する行動をとるかどうかを判定した上で譲り合いを考慮するような移動方針により進行予定経路を設定することができる。これによって、移動装置1は、被写体10とのスムーズなすれ違いを実現することができ得る。
【0060】
移動装置1の動作の他の例として、制御システム4は、第1予測結果に応じて移動装置1の動作予定を決定し、動作予定を報知装置6に報知させてもよい。例えば、報知装置6は、第1予測結果に応じて移動方向又は移動速度を決定し、決定した情報を光源の点滅、表示器による表示、又は、音源による警告音の発生等の手段により報知する。これにより、被写体10は移動装置1の動作予定を知ることができ、移動装置1との衝突を回避する行動をとることができる。
【0061】
移動装置1の動作の他の例として、制御システム4は、第1予測結果に基づく情報を報知装置6に報知させてもよい。例えば、報知装置6は、被写体10が移動装置1と衝突する可能性が高い場合、光源の点滅、表示器による表示、又は、音源による警告音の発生のいずれかを実行する。これにより、被写体10は移動装置1と衝突する可能性が高いことを知ることができ、移動装置1との衝突を回避する行動をとることができる。
【0062】
ステップS15で記憶された第2予測結果は、第1予測結果の分析に用いられ得る。例えば、第2予測結果に基づいて、ユーザは、なぜそのような第1予測結果が出力されたかを説明又は分析することができる。例えば、第1予測結果が正確でなかった場合、ユーザは、モデル7によって出力された第2予測結果を用いて予測システム20による行動の予測の根拠の分析をすることによって、モデル7が正確でない第1予測結果を出力した原因を発見し得る。例えば、モデル7から出力された第1予測結果が誤っていた場合に、特定の被写体情報の変化についての第2予測結果も誤っていたときは、第1予測結果の誤りの原因は、特定の被写体情報に関する処理に関係している可能性が高いと考えられる。
【0063】
このように予測の誤りの原因が判明すれば、ユーザは、発見した原因を第1予測結果にフィードバックすることにより、モデル7による行動の予測の精度を向上させるよう、予測システム20を改良することができる。例えば、ユーザは、モデル7の一方の出力である第2予測結果が正しくなるようにモデル7(特に、後述する抽出部)を調整することにより、モデル7の他方の出力である第1予測結果の精度の向上が期待できる。したがって、予測システム20は、被写体10の行動の予測の精度を向上させることができる。
【0064】
1-1-3.モデル
1-1-3-1.モデルの構造例
モデル7は、画像情報中の被写体10に基づく複数の被写体情報の入力に対して、被写体10の行動についての第1予測結果と、複数の被写体情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習された学習済みモデルである。モデル7は、このように2つのタスクを解くように学習されたマルチタスクモデルであるともいえる。
【0065】
図10は、モデル7の構成例の概略説明図である。図10では、対象画像情報9は、時系列順の複数の画像を含む。図2のステップS12及びS13において、複数の画像から、複数の被写体情報I11,I12,I13,I14が得られる。図10において、被写体情報I11は被写体10のバウンディングボックスBを示す情報であり、被写体情報I12は被写体10の速度Vを示す情報であり、被写体情報I13は被写体10の骨格点Pを示す情報であり、被写体情報I14は被写体10の全体の画像10aを示す情報である。図10の複数の被写体情報はあくまでも例示であり、複数の被写体情報は、四つの被写体情報I11,I12,I13,I14に限定されない。
【0066】
図10のモデル7は、図2のステップS14において、四つの被写体情報I11,I12,I13,I14の入力に対して、被写体10の行動についての第1予測結果O1と、四つの被写体情報I11,I12,I13,I14のうちの少なくとも一つについての第2予測結果O2とを出力する。図10の例では、第2予測結果O2は、四つの被写体情報I11,I12,I13,I14のうちの三つについての第2予測結果O2-1,O2-2,O2-3を含む。例えば、第2予測結果O2-1は、被写体10のバウンディングボックスBの変化の予測結果であり、第2予測結果O2-2は、被写体10の速度Vの変化の予測結果であり、第2予測結果O2-3は、被写体10の骨格点Pの変化の予測結果である。第2予測結果O2は、複数の被写体情報の全ての変化の予測結果を含んでもよい。
【0067】
モデル7は、第1ネットワーク機構711と、第1アテンション機構712と、第2ネットワーク機構721と、第2アテンション機構722と、第3ネットワーク機構731と、第3アテンション機構732と、第4ネットワーク機構741と、第4アテンション機構742と、結合部75と、第1出力部76と、第2出力部77とを含む。
【0068】
第1ネットワーク機構711は、被写体情報I11から特徴量を抽出する。第1ネットワーク機構711は、例えば、長・短記憶(Long short-term memory;LSTM)又はゲート付き回帰型ユニット(Gated recurrent unit;GRU)等の回帰型ニューラルネットワーク(Recurrent neural network;RNN)のアーキテクチャを含む。第1アテンション機構712は、被写体情報I11のうちのどの部分に着目すべきかを決定するテンポラルアテンション機構を含む。これによって、被写体情報I11のうち重要と考えられる部分の特徴量が抽出され、結合部75に入力される。
【0069】
第2ネットワーク機構721は、被写体情報I12から特徴量を抽出する。第2ネットワーク機構721は、例えば、LSTM又はGRU等のRNNのアーキテクチャを含む。第2アテンション機構722は、被写体情報I12のうちのどの部分に着目すべきかを決定するテンポラルアテンション機構を含む。これによって、被写体情報I12のうち重要と考えられる部分の特徴量が抽出され、結合部75に入力される。
【0070】
第3ネットワーク機構731は、被写体情報I13から特徴量を抽出する。第3ネットワーク機構731は、例えば、3次元畳み込みニューラルネットワーク(3D-convolutional neural network;3DCNN)、畳み込みニューラルネットワーク(Convolutional neural network;CNN)とRNNとの組み合わせ、又はグラフ畳み込みニューラルネットワーク(Graph Convolutional neural network;GCNN)のアーキテクチャを含む。第3アテンション機構732は、被写体情報I13のうちのどの部分に着目すべきかを決定するテンポラルアテンション機構を含む。これによって、被写体情報I13のうち重要と考えられる部分の特徴量が抽出され、結合部75に入力される。
【0071】
第4ネットワーク機構741は、被写体情報I14から特徴量を抽出する。第4ネットワーク機構741は、例えば、3DCNN、又はCNNとRNNとの組み合わせのアーキテクチャを含む。第4アテンション機構742は、被写体情報I14のうちのどの部分に着目すべきかを決定するテンポラルアテンション機構を含む。これによって、被写体情報I14のうち重要と考えられる部分の特徴量が抽出され、結合部75に入力される。
【0072】
結合部75は、入力された被写体情報I11,I12,I13,I14の特徴量をまとめて融合特徴量とし、融合特徴量を第1出力部76と第2出力部77とに入力する。結合部75は、入力された特徴量のうちのどの特徴量に着目すべきかを決定するアテンション機構を含んでもよい。結合部75は、アテンション機構によって決定された着目すべき程度を示す重要度に基づいて融合特徴量を生成してもよい。
【0073】
第1出力部76は、入力された融合特徴量から、被写体10の行動についての第1予測結果O1を出力する。第1出力部76は、例えば、全結合層を含む。全結合層は、例えば、ソフトマックス関数を含む。
【0074】
第2出力部77は、入力された融合特徴量から、複数の被写体情報I11,I12,I13,I14のうちの少なくとも一つについての第2予測結果O2を出力する。第2出力部77は、例えば、全結合層を含む。全結合層は、例えば、ソフトマックス関数を含む。
【0075】
以上のように、モデル7は、入力された複数の被写体情報から複数の特徴量を抽出する抽出部と、抽出部で抽出された複数の特徴量から被写体10の行動についての第1予測結果O1を決定する第1決定部と、抽出部で抽出された複数の特徴量から複数の被写体情報のうちの少なくとも一つについての第2予測結果O2を決定する第2決定部と、を含む。図10の第1~第4ネットワーク機構711,721,731,741、第1~第4アテンション機構712,722,732,742、及び結合部75は、このような抽出部の一例である。
【0076】
本明細書では、モデル7が、第1~第4ネットワーク機構711,721,731,741、第1~第4アテンション機構712,722,732,742、及び結合部75の各機能に応じた処理を実行することを、モデル7が各機能に対応する抽出部を含む又は有すると表現することがある。
【0077】
図10の第1出力部76は第1決定部の一例であり、第2出力部77は第2決定部の一例である。第1決定部が実行する処理は第1決定処理の一例であり、第2決定部が実行する処理は第2決定処理の一例である。
【0078】
予測システム20のモデル7は、複数の被写体情報の入力に対して、第1予測結果O1と、第2予測結果O2と、を出力する(図2のS14参照)。移動装置1は、第1予測結果O1に基づいて制御システム4が移動装置1の行動を制御することにより、移動装置1と被写体10とが衝突する可能性を低減することができる。また、第2予測結果O2は、第1予測結果O1の結果の分析に用いられ得る。
【0079】
1-1-3-2.モデルの構築手順の例
以下、モデル7の構築手順としての学習方法について説明する。モデル7の学習は、例えば誤差逆伝播法を利用して、演算回路(演算回路23又は他の演算回路)によって行われる。
【0080】
図11は、モデル7の構築手順の一例を説明するための模式図である。モデル7の構築にあたっては、学習用データセットを用いた教師あり学習を採用する。学習用データセットは、入力データT、第1正解データGT1、及び第2正解データGT2を含む。入力データTは、例えば、時系列順の複数の画像を含む。第1正解データGT1は、入力データTに対して予め用意された被写体10の行動についての予測結果の正解を示す。第2正解データGT2は、入力データTに対して予め用意された複数の被写体情報のうちの少なくとも一つについての予測結果の正解を示す。
【0081】
モデル7は、入力データTから検出された複数の被写体情報の入力に対して、被写体10の行動についての第1予測結果O1と、複数の被写体情報のうちの少なくとも一つについての第2予測結果O2と、を出力する。
【0082】
演算回路は、入力データTに対してモデル7から出力された第1予測結果O1と、入力データTに対応する第1正解データ(ラベル情報)GT1との差、すなわち第1予測結果O1の誤差を計算し、計算された第1予測結果O1の誤差をモデル7にフィードバックする。同様に、演算回路は、入力データTに対してモデル7から出力された第2予測結果O2と、第2正解データGT2との差、すなわち第2予測結果O2の誤差を計算し、計算された第2予測結果O2の誤差をモデル7にフィードバックする。以上の手順を多数の学習用データセットについて行うことにより、モデル7が構築される。
【0083】
図12及び図13を用いて、学習用データセットの用意について説明する。図12は、第1正解データGT1を説明するための模式図である。被写体10が移動装置1を回避したことを示す第1正解データGT1は、例えば以下のようにして用意される。
【0084】
まず、被写体10が移動装置1を回避した事例を撮影することにより得られた時系列順の複数の画像9a(これは、非回避の場面が存在しない動画であるともいえる)を用意する。この時系列順の複数の画像9aから、被写体10が移動装置1を回避した時点t0より前の時点t1と、この時点から所定期間t12前の時点t2との間に撮影された時系列順の画像群9bを回避データとして抽出する。画像群9bは、図12に例示したように被写体10が移動装置1を回避した時点t0とこの時点から所定期間t02前の時点t2との間に撮影された時系列順の画像群9cの一部であってもよいし、図12の例とは異なり画像群9cの全てであってもよい。画像群9b、及び所定期間t12又はt02は、モデル7の用途に応じて選択される。例えば、所定期間t12は、数秒、例えば0.5~1.5秒である。例えば、所定期間t02は、数秒、例えば0.5~1.5秒である。
【0085】
次に、抽出された画像群(回避データ)9bに、被写体10が移動装置1を回避したことを示す正解ラベル(例えば1)を付与する。これによって、回避データである入力データTと、被写体10が移動装置1を回避したことを示す正解ラベルである第1正解データGT1との組み合わせが得られる。
【0086】
被写体10が移動装置1を回避しなかったことを示す第1正解データGT1は、被写体10が移動装置1を回避した事例を撮影することにより得られた時系列順の複数の画像9aを利用することにより用意することができる。例えば、この時系列順の複数の画像9aから、被写体10が移動装置1を回避した時点t0から所定期間t02前の時点t2より前に撮影された画像群9dを非回避データとして抽出する。次に、抽出された画像群9d(非回避データ)に、被写体10が移動装置1を回避しなかったことを示す正解ラベル(例えば0)を付与する。これによって、非回避データである入力データTと、被写体10が移動装置1を回避しなかったことを示す正解ラベルである第1正解データGT1との組み合わせが得られる。このようにして、回避する場面が存在する動画から回避データと非回避データとを抽出することができる。
【0087】
図12の例に代えて、又はこれに加えて、被写体10が移動装置1を回避しなかったことを示す第1正解データGT1は、以下のようにして用意されてもよい。まず、被写体10が移動装置1を回避しなかった(移動装置1と衝突した)事例を撮影することにより得られた時系列順の複数の画像を用意する。この時系列順の複数の画像から、被写体10が移動装置1と衝突した時点と、この時点から所定期間前の時点との間に撮影された画像群を抽出する。次に、抽出された画像群に、被写体10が移動装置1を回避しなかったことを示す正解ラベル(例えば0)を付与する。
【0088】
図13は、第2正解データGT2を説明するための模式図である。第2正解データGT2は、例えば以下のようにして用意される。まず、被写体10を撮影することにより得られた時系列順の複数の画像9eを用意する。これらの画像9eは、第1正解データGT1を用意するために用いた時系列順の複数の画像9aと同一であってもよいし、異なっていてもよい。次に、複数の画像9eから、1つの対象画像(対象フレーム)9fを選択する。さらに、対象フレーム9fに写っている被写体10が、対象フレームの撮影時T0に有していた被写体情報を第2正解データGT2(正解ラベル)として用意する。図13では、被写体情報として、被写体10のバウンディングボックスB、被写体10の速度V、及び、被写体10の骨格点Pが示されている。ただし、被写体情報は、例えば、被写体10の位置、被写体10の1又は複数の部位の位置、被写体10の1又は複数の部位の向き、被写体10の1又は複数の部位の画像、被写体10の複数の部位の関連性に基づく情報、被写体10の全体の画像、及び被写体10の軌跡を示す情報であってよい。
【0089】
次に、複数の画像9eから、対象フレーム9fの撮影時T0から第1期間T01前の第1時点T1と、第1時点T1より第2期間T12前の第2時点T2との間に撮影された時系列順の画像群9gを抽出する。第1期間T01は、モデル7の用途に応じて選択される。例えば、第1期間T01は、数秒、例えば0.5~1.5秒である。撮影時T0より前の画像群9gに、正解ラベルとして用意した撮影時T0の被写体情報を付与する。これによって、撮影時T0より前の画像群である入力データTと、撮影時T0の被写体情報である第2正解データGT2との組み合わせが得られる。
【0090】
図13において、抽出された画像群9gから見ると、対象フレーム9fは将来の一時点の画像であるといえる。したがって、このようにして用意された入力データTと第2正解データGT2との組み合わせにより、入力データTの入力に対して、複数の被写体情報のうちの少なくとも一つについての第2予測結果O2を出力するモデル7を構築することができる。
【0091】
第1予測結果O1の誤差及び第2予測結果O2の誤差は、例えば予測関数を用いて算出される。例えば、第1出力O1の誤差をE1とすると、E1は、式(2)で表される二値交差エントロピー(Binary Cross Entropy、BCE)関数を用いて算出される。
【0092】
例えば、第2予測結果O2の誤差をE2とすると、E2は、式(3)で表される平均絶対誤差(Mean Absolute Error、MAE)として算出される。
【0093】
1-2.表示システム
1-2-1.構成例
図14は、一実施の形態に係る表示システム2の構成例を示すブロック図である。表示システム2は、図1のモデル7によって出力された情報を表示装置40に表示させる。表示装置40は、例えば、液晶ディスプレイ、有機ELディスプレイ等のディスプレイを含む。
【0094】
図14に示すように、表示システム2は、インターフェース31と、記憶装置32と、演算回路33とを備える。
【0095】
インターフェース31は、表示装置40への情報の出力、及び、図1の予測システム20からの情報の入力に利用される。インターフェース31は、入出力装置311と、通信装置312と、を含む。入出力装置311は、1以上のヒューマン・マシン・インターフェースを備える。
【0096】
通信装置312は、外部装置又はシステムと通信可能に接続される。本実施の形態では、通信装置312は、通信ネットワークを通じた予測システム20との通信に用いられる。通信装置312は、1以上の通信インターフェースを備える。通信装置312は、通信ネットワークに接続可能であり、通信ネットワークを通じた通信を行う。通信装置312は、所定の通信プロトコルに準拠している。所定の通信プロトコルは、周知の様々な有線及び無線通信規格から選択され得る。
【0097】
記憶装置32は、演算回路33が利用する情報及び演算回路33で生成される情報を記憶する。記憶装置32は、1以上のストレージを含む。ストレージは、例えば、ハードディスクドライブ、光学ドライブ、及びSSDのいずれであってもよい。また、ストレージは、内蔵型、外付け型、及びNAS型のいずれであってもよい。記憶装置32は、モデル出力結果8を記憶してもよい。
【0098】
演算回路33は、表示システム2の動作を制御する回路である。演算回路33は、例えば、1以上のプロセッサと1以上のメモリとを含むコンピュータシステムにより実現され得る。1以上のプロセッサがプログラムを実行することで、演算回路33としての機能を実現する。このようなプログラムは、例えば記憶装置32に予め記憶されるが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記憶媒体に記憶されて提供されてもよい。
【0099】
演算回路33は、記憶装置32にアクセス可能である。演算回路33は、インターフェース31に接続され、インターフェース31を介して、表示装置40及び予測システム20に情報を送信し、表示装置40及び予測システム20から情報を受信することができる。演算回路33は、予測システム20からモデル出力結果8を受信する(図1参照)。
【0100】
1-2-2.動作例
図15は、図14の表示システム2によって実行される処理の一例を示すフローチャートである。
【0101】
まず、演算回路33は、モデル出力結果8を取得する(S21)。本実施の形態において、演算回路33は、インターフェース31を通じて予測システム20からモデル出力結果8を取得する。例えば、演算回路33は、図2のステップS15において関連付けて記憶された第1予測結果O1と第2予測結果O2とを取得する。あるいは、演算回路33は、第1予測結果O1と第2予測結果O2とをモデル7から直接的に(記憶装置を介さずに)取得してもよい。演算回路23は、取得したモデル出力結果8を記憶装置32に記憶させてもよい。
【0102】
次に、演算回路33は、モデル出力結果8を表示装置40に表示させる(S22)。本実施の形態では、演算回路33は、第1予測結果O1を示す情報と、第2予測結果O2を可視化した情報とを表示装置40に表示させる。
【0103】
図16~19を用いて、モデル出力結果8の表示例を説明する。図16は、第1予測結果O1を示す情報と、第2予測結果O2の一例である被写体10の速度Vの予測結果を可視化した情報とを例示している。図16では、第1予測結果O1を示す情報を、被写体10を囲む楕円形で示している。例えば、第1予測結果O1が、被写体10が移動装置1を回避するという予測である場合、演算回路33は、図16の楕円の中又は枠線を緑色で表示する。これにより、表示装置40を見た者は、モデル7が、表示された画像中の被写体10に基づく複数の被写体情報の入力に対して、被写体10が移動装置1を回避するという行動の第1予測結果O1を出力したことを知ることができる。
【0104】
表示装置40を見た者が第1予測結果O1を知ることができれば良いため、第1予測結果O1を示す情報の表示例は図16に示した例に限定されない。例えば、演算回路33は、第1予測結果O1を示すテキストを表示装置40に表示させてもよい。後述の図17~19についても同様である。
【0105】
図17は、第1予測結果O1を示す情報と、第2予測結果O2の一例である被写体10のバウンディングボックスBの予測結果を可視化した情報とを例示している。図17の予測結果は、予測システム20が、表示装置40に表示された図17の画像の撮像時から所定期間(図12参照)経過後に、被写体10が図17に示されたバウンディングボックスBの位置に移動すると予測したことを示している。
【0106】
図18は、第1予測結果O1を示す情報と、第2予測結果O2の一例である被写体10の骨格点Pの予測結果を可視化した情報とを例示している。図18の予測結果は、予測システム20が、表示装置40に表示された図18の画像の撮像時から所定期間経過後に、被写体10が図18に示された骨格点Pの位置に移動すると予測したことを示している。
【0107】
表示装置40には、第2予測結果O2が対象画像情報上に重畳して表示されてもよい。図19は、第1予測結果O1を示す情報と、被写体10の速度V、バウンディングボックスB、及び骨格点Pの予測結果を可視化した情報とを重畳表示する例を示している。第2予測結果O2を可視化した情報は、対象画像情報を加工して得られた情報に基づく画像上に重畳して表示されてもよい。対象画像情報を加工して得られた情報は、例えば、CG(computer graphics)情報、イラスト情報などを含む。
【0108】
また、演算回路33は、移動装置1の動作の決定結果(図7~9参照)を表示装置40に表示させてもよい。例えば、図19に示すように、演算回路33は、移動装置1の進行予定経路Mを表示装置40に表示させてもよい。
【0109】
第2予測結果O2を可視化した情報は、単に予測結果O2のデータを数値として表示されるのではなく、図16~19に示したように、人によって理解される態様で表示されてもよい。
【0110】
以上のように、表示システム2は、被写体10の行動についての第1予測結果O1を示す情報と、複数の被写体情報のうちの少なくとも一つについての第2予測結果O2を可視化した情報とを表示装置40に表示させることにより、第1予測結果O1の分析に利用できる。例えば、第1予測結果O1が正確でなかった場合、開発者等のユーザは、モデル7によって出力された第2予測結果O2を分析することによって、モデル7が正確でない第1予測結果O1を出力した原因を発見し得る。
【0111】
このように予測の不具合の原因が判明すれば、ユーザは、発見した原因をフィードバックすることにより、モデル7による行動についての予測の精度を向上させるよう、モデル7を改良することができる。例えば、ユーザは、第2予測結果O2が正しくなるように抽出部を調整することにより、第1予測結果O1を是正することができる。したがって、表示システム2は、第1予測結果O1の精度を向上させることに利用可能である。
【0112】
1-3.効果等
以上のように、本実施の形態に係る予測方法は、モデル7を記憶する記憶装置22にアクセス可能な演算回路23によって実行される。モデル7は、画像情報中の被写体10に基づく複数の被写体情報の入力に対して、被写体10の行動についての第1予測結果O1と、複数の被写体情報のうちの少なくとも一つについての第2予測結果O2と、を出力するように学習される。
【0113】
予測方法は、ステップS13とステップS14とを含む。ステップS13では、演算回路23は、対象画像情報9から被写体10の複数の被写体情報を検出する。ステップS14では、演算回路23は、対象画像情報9から検出された被写体10の複数の被写体情報をモデル7に入力することによって、対象画像情報9から検出された被写体10の行動についての第1予測結果O1と、対象画像情報9から検出された被写体10の複数の被写体情報のうちの少なくとも一つについての第2予測結果O2と、を出力する。本明細書では、情報の「出力」とは、情報を外部装置又は内部装置に送信すること、外部又は内部の記憶装置に格納すること、外部又は内部の報知装置により報知すること等を含む。
【0114】
この構成は、第1予測結果O1の精度を向上させることができる。例えば、モデル7から出力された第1予測結果O1が正確でない場合、第2予測結果O2がより正しくなるようにモデル7を調整することにより、モデル7の他方の出力である第1予測結果O1を是正することができる。
【0115】
予測方法は、モデル7から出力された第1予測結果O1と第2予測結果O2とを関連付けて記憶させてもよい。この構成は、第1予測結果O1の精度を向上させることができる。
【0116】
複数の被写体情報は、被写体10の位置又は移動に関する情報と、被写体10の状態に関する情報とを含んでもよい。この構成は、第1予測結果O1の精度を向上させることができる。例えば、第2予測結果O2がより正しくなるようにモデル7を調整することにより、第1予測結果O1を是正することができる。
【0117】
予測方法において、複数の被写体情報は、被写体10の位置、被写体10のバウンディングボックスB、被写体10の1又は複数の部位の位置、被写体10の1又は複数の部位の向き、被写体10の1又は複数の部位の画像、被写体10の複数の部位の関連性に基づく情報、被写体10の全体の画像、被写体10の速度、及び被写体10の軌跡のうちの少なくとも一つの情報を含んでもよい。この構成は、被写体10の行動の予測O1の精度を向上させることができる。
【0118】
予測方法において、被写体10の行動は、被写体10が他の物体を回避すること、被写体10が他の物体の通路を横断すること、被写体10が他の物体に接近すること、被写体10が他の物体に随行し、又は他の物体を追い抜くこと、被写体10が加速すること、被写体10が減速すること、被写体10が停止すること、又は停止中であること、被写体10が動き出すこと、及び被写体10が進行方向を変えること、のうちの少なくとも一つを含んでもよい。この構成は、被写体10の行動の予測O1の精度を向上させることができる。
【0119】
予測方法において、第1予測結果O1は、被写体10の行動が第1行動である確率と、被写体10の行動が第1行動と異なる第2行動である確率とを含んでもよい。第1行動及び第2行動は、それぞれ、被写体10が他の物体を回避すること、被写体10が他の物体の通路を横断すること、被写体10が他の物体に接近すること、被写体10が他の物体に随行し、又は他の物体を追い抜くこと、被写体10が加速すること、被写体10が減速すること、被写体10が停止すること、又は停止中であること、被写体10が動き出すこと、及び被写体10が進行方向を変えること、のうちの少なくとも一つを含んでもよい。この構成は、被写体10の行動の予測O1の精度を向上させることができる。これにより、他の物体と被写体10とが衝突する可能性を低減することができる。
【0120】
予測方法において、第1予測結果O1は、被写体10の行動の危険の程度及び安全の程度のうちの少なくとも一方を示す指標を含んでもよい。この構成は、第1予測結果O1の精度を向上させることができる。これにより、他の物体と被写体10とが衝突する可能性を低減することができる。
【0121】
モデル7は、被写体10の複数の被写体情報から複数の特徴量を抽出する抽出部と、第1決定部の一例である第1出力部76と、第2決定部の一例である第2出力部77とを含んでもよい。第1出力部76は、抽出部で抽出された複数の特徴量から被写体10の行動についての第1予測結果O1を決定する。第2出力部77は、抽出部で抽出された複数の特徴量から複数の被写体情報のうちの少なくとも一つについての第2予測結果O2を決定する。この構成は、第1予測結果O1の精度を向上させることができる。
【0122】
本実施の形態に係るプログラムは、上記の予測方法を演算回路23に実行させるためのプログラムである。このプログラムは、被写体10の行動の予測O1の精度を向上させることができる。
【0123】
本実施の形態に係る表示方法は、モデル7から第1予測結果O1と第2予測結果O2とを取得し、第1予測結果O1を示す情報と、第2予測結果O2を可視化した情報とを表示装置40に表示させる。これにより、開発者等のユーザは、第1予測結果O1を分析することができ、被写体10の行動の予測の精度を向上させることができる。
【0124】
複数の被写体情報のうちの少なくとも一つについての予測結果O2を可視化した情報は、対象画像情報又は対象画像情報を加工して得られた情報に基づく画像上に重畳して表示されてもよい。この構成は、被写体10の行動の予測O1の精度を向上させることができる。
【0125】
本実施の形態に係るプログラムは、上記の表示方法を演算回路33に実行させるためのプログラムである。このプログラムは、第1予測結果O1の精度を向上させることができる。
【0126】
本実施の形態に係る予測システム20は、モデル7を記憶する記憶装置22と、被写体10を撮像して対象画像情報9を生成する撮像装置と、撮像装置及び記憶装置22にアクセス可能な演算回路23と、を備える。モデル7は、画像情報中の被写体10に基づく複数の被写体情報の入力に対して、被写体10の行動についての第1予測結果O1と、複数の被写体情報のうちの少なくとも一つについての第2予測結果O2と、を出力するように学習される。演算回路23は、ステップS13と、ステップS14とを実行する。ステップS13では、演算回路23は、対象画像情報9から被写体10の複数の被写体情報を検出する。ステップS14では、演算回路23は、対象画像情報9から検出された被写体10の複数の被写体情報をモデル7に入力することによって、対象画像情報9から検出された被写体10の行動についての第1予測結果O1と、対象画像情報9から検出された被写体10の複数の被写体情報のうちの少なくとも一つについての第2予測結果O2と、を出力する。この構成は、第1予測結果O1の精度を向上させることができる。
【0127】
撮像装置は、移動機構5により移動可能な移動体の一例である移動装置1に搭載されてもよい。この構成は、移動装置1に搭載された撮像装置によって生成された対象画像情報9を用いて、精度の良い第1予測結果O1を出力することができる。
【0128】
予測システム20は、報知装置6を更に備えてもよい。演算回路23は、第1予測結果O1に応じて移動装置1の動作予定を決定し、動作予定を報知装置6に報知させる。これにより、移動装置1と被写体10とが衝突する可能性を低減することができる。
【0129】
演算回路23は、第1予測結果O1に基づく情報を報知装置6に報知させてもよい。この構成は、第1予測結果O1の精度を向上させることに加えて、撮像装置が被写体10に接近する可能性があることを被写体10に知らせることができる。したがって、例えば被写体10は、撮像装置を搭載した予測システム20との衝突を回避する行動をとることができる。
【0130】
予測システム20において、移動装置1は、演算回路23が移動機構5を制御することによって移動可能であってもよい。演算回路23は、モデル7から出力された第1予測結果O1に応じて、移動装置1に、移動体の進行方向及び速度の少なくとも一方を変更させてもよい。この構成は、移動装置1に搭載された撮像装置によって生成された対象画像情報9を用いて、精度良く第1予測結果O1を出力することができる。さらに、この構成は、移動装置1と被写体10とが衝突する可能性を低減することができる。
【0131】
本実施の形態に係る表示システム2は、モデル7から第1予測結果O1と第2予測結果O2とを取得し、第1予測結果O1を示す情報と、第2予測結果O2を可視化した情報とを表示装置40に表示させる。これにより、開発者等のユーザは、第1予測結果O1を分析することができ、第1予測結果O1の精度を向上させることができる。
【0132】
表示システム2は、第1予測結果O1を示す情報に代えて、又は、第1予測結果O1を示す情報に加えて、移動体の動作予定を表示してもよい。ユーザは、表示装置40に表示された移動体の動作予定に基づいて第1予測結果O1を推測することができるため、第1予測結果O1を分析することができ、被写体10の行動の予測の精度を向上させることができる。
【0133】
2.変形例
本開示の実施の形態は、上記実施の形態に限定されない。上記実施の形態は、本開示の課題を達成できれば、設計等に応じて種々の変更が可能である。以下に、上記実施の形態の変形例を示す。以下の変形例は適宜組み合わせることができる。
【0134】
2-1.第1変形例
上記実施の形態では、図10に示したモデル7の構成例を説明した。しかしながら、モデル7は、複数の被写体情報の入力に対して、被写体10の行動についての第1予測結果O1と、複数の被写体情報のうちの少なくとも一つについての第2予測結果O2と、を出力するように学習されればよく、図10の構成に限定されない。
【0135】
図20は、第1変形例に係るモデル7aの構成例の概略説明図である。図10に示したモデル7の構成例と比較すると、図20のモデル7aは、第1結合部75aを更に含み、図10の結合部75に代えて第2結合部75bを含む。第2結合部75bは、図10の結合部75と同様の構成を有してもよい。さらに、モデル7aは、ネットワーク機構781とアテンション機構782とを含む。
【0136】
第1結合部75aには、被写体情報I11,I12,I13が入力される。第1結合部75aは、被写体情報I11,I12,I13を結合し、結合結果をネットワーク機構781に入力する。
【0137】
ネットワーク機構781は、結合された被写体情報I11,I12,I13から特徴量を抽出し、抽出結果をアテンション機構782に入力する。ネットワーク機構781は、例えば、LSTM又はGRU等のRNNのアーキテクチャを含む。アテンション機構782は、被写体情報I12のうちのどの部分に着目すべきかを決定するテンポラルアテンション機構を含む。これによって、結合された被写体情報I11,I12,I13のうち重要と考えられる部分の特徴量が抽出される。アテンション機構782によって抽出された被写体情報I11,I12,I13のうち重要と考えられる部分の特徴量と、第4アテンション機構742によって抽出された被写体情報I14のうち重要と考えられる部分の特徴量とが、第2結合部75bに入力される。
【0138】
第2結合部75bは、入力された被写体情報I11,I12,I13,I14の特徴量をまとめて融合特徴量とし、融合特徴量を第1出力部76と第2出力部77とに入力する。
【0139】
図20の第4ネットワーク機構741、第4アテンション機構742、ネットワーク機構781、アテンション機構782、第1結合部75a、及び第2結合部75bは、本開示の抽出部の一例である。また、第1出力部76は第1決定部の一例であり、第2出力部77は第2決定部の一例である。
【0140】
2-2.第2変形例
図21は、第2変形例に係るモデル7bの構成例の概略説明図である。モデル7bは、第1ネットワーク機構71aと、第1アテンション機構71bと、第2ネットワーク機構72aと、第2アテンション機構72bと、第3ネットワーク機構73aと、第3アテンション機構73bと、第4ネットワーク機構741と、第4アテンション機構742と、第1結合部75cと、第2結合部75dと、第3結合部75eと、第1出力部76と、第2出力部77とを含む。
【0141】
第4ネットワーク機構741が被写体情報I14から特徴量を抽出し、第4アテンション機構742が被写体情報I14のうち重要と考えられる部分の特徴量が抽出する点は図10と同様である。
【0142】
第1~第3ネットワーク機構71a,72a,73aは、例えば、LSTM又はGRU等のRNNのアーキテクチャを含む。第1~第3アテンション機構71b,72b,73bは、被写体情報のうちのどの部分に着目すべきかを決定するテンポラルアテンション機構を含む。これによって、結合された被写体情報のうち重要と考えられる部分の特徴量が抽出される。
【0143】
第1ネットワーク機構71aは、被写体情報I11から特徴量を抽出して第1アテンション機構71bに入力する。第1アテンション機構71bは、被写体情報I11のうち重要と考えられる部分の特徴量を抽出し、第1結合部75cに入力する。第1ネットワーク機構71a及び第1アテンション機構71bは、それぞれ、図10の第1ネットワーク機構711及び第1アテンション機構712と同様の構成を有してもよい。
【0144】
第1結合部75cは、第1アテンション機構71bから入力された被写体情報I11の特徴量と、被写体情報I12とをまとめて第1融合特徴量とし、第2ネットワーク機構72aに入力する。
【0145】
第2ネットワーク機構72aは、第1融合特徴量から特徴量を抽出し、第2アテンション機構72bは、被写体情報I11,I12のうち重要と考えられる部分の特徴量を抽出し、第2結合部75dに入力する。
【0146】
第2結合部75dは、第2アテンション機構72bから入力された被写体情報I11,I12の特徴量と、被写体情報I13とをまとめて第2融合特徴量とし、第3ネットワーク機構73aに入力する。
【0147】
第3ネットワーク機構73aは、第2融合特徴量から特徴量を抽出して第3アテンション機構73bに入力する。第3アテンション機構73bは、被写体情報I11,I12,I13のうち重要と考えられる部分の特徴量を抽出し、第3結合部75eに入力する。
【0148】
第3結合部75eは、入力された被写体情報I11,I12,I13,I14の特徴量をまとめて第3融合特徴量とし、第3融合特徴量を第1出力部76と第2出力部77とに入力する。第3結合部75eは、入力された特徴量のうちのどの特徴量に着目すべきかを決定するアテンション機構を含んでもよい。第3結合部75eは、アテンション機構によって決定された着目すべき程度を示す重要度に基づいて第3融合特徴量を生成してもよい。
【0149】
以上のように、被写体情報I11,I12,I13,I14の特徴量は、図10のように一度に融合される必要はなく、図21のように段階的に融合されてもよい。段階的に融合される場合、融合する順番は、図21に示した順番に限定されない。例えば、図21とは異なり、最初に被写体情報I11と被写体情報I13の特徴量とが融合されてもよい。
【0150】
図21の第4ネットワーク機構741、第4アテンション機構742、第1~第3ネットワーク機構71a,72a,73a、第1~第3アテンション機構71b,72b,73b、及び第1~第3結合部75c,75d,75eは、本開示の抽出部の一例である。また、第1出力部76は第1決定部の一例であり、第2出力部77は第2決定部の一例である。
【0151】
2-3.第3変形例
図22は、第3変形例に係るモデル7cの構成例の概略説明図である。図10に示したモデル7の構成例と比較すると、図22のモデル7cは、図10の第2出力部77に代えて、第3出力部771と、第4出力部772と、第5出力部773とを含む。第3出力部771、第4出力部772、及び第5出力部773は、例えば、全結合層を含む。全結合層は、例えば、ソフトマックス関数を含む。第3出力部771、第4出力部772、及び第5出力部773は、本開示の第2決定部の一例である。
【0152】
第1出力部76、第3出力部771、第4出力部772、及び第5出力部773のいずれにも、結合部75から出力された融合特徴量が入力される。
【0153】
さらに、第3出力部771、第4出力部772、及び第5出力部773には、出力する被写体情報のモダリティに対応する第1~第3アテンション機構712,722,732の出力も入力される。すなわち、第3出力部771には、第1アテンション機構712から出力された特徴量と、結合部75から出力された融合特徴量とが入力される。第1アテンション機構712から出力された特徴量と、結合部75から出力された融合特徴量とは、第3出力部771に入力される前に、図示しない結合部によって融合されてもよい。
【0154】
第4出力部772には、第2アテンション機構722から出力された特徴量と、結合部75から出力された融合特徴量とが入力される。第2アテンション機構722から出力された特徴量と、結合部75から出力された融合特徴量とは、第4出力部772に入力される前に、図示しない結合部によって融合されてもよい。
【0155】
第5出力部773には、第3アテンション機構732から出力された特徴量と、結合部75から出力された融合特徴量とが入力される。第3アテンション機構732から出力された特徴量と、結合部75から出力された融合特徴量とは、第5出力部773に入力される前に、図示しない結合部によって融合されてもよい。
【0156】
2-4.第4変形例
上記実施の形態では、移動装置1の動作の一例として、モデル7から出力された被写体10の行動についての第1予測結果O1に基づく情報を報知装置6に報知させる例を説明した。これに加えて、又はこれに代えて、移動装置1は、動きによって情報を報知してもよい。移動装置1がロボットである例では、被写体10が移動装置1と衝突する可能性が高い場合、移動装置1は、手を振る、首を横に振る等のジェスチャによって被写体10(例えば、通行人)に情報を報知してもよい。移動装置1が顔を有し、表情を変化させることができるロボットである場合、移動装置1は、顔の向き、表情等を変化させることによって被写体10に情報を報知してもよい。
【0157】
2-5.第5変形例
上記実施の形態では、移動装置1の例として、自律移動可能なロボットを挙げた。しかしながら、本実施の形態の移動装置1はこれに限定されない。例えば、移動装置1は、自律的にではなく、外力によって移動可能な情報処理装置であってもよい。また、例えば、移動装置1は、移動可能でない情報処理装置であってもよい。この場合、移動装置1は、移動機構5を備えなくてもよい。
【0158】
2-6.第6変形例
予測システム20は、必ずしも移動装置1に搭載されていなくてもよい。予測システム20は、移動装置1以外の装置又はシステムに利用可能である。例えば、予測システム20は、被写体10との衝突の警告を出す警報システムに利用されてよい。予測システム20は、複数台のサーバ等のコンピュータシステムで実現されてもよい。つまり、予測システム20における複数の機能(構成要素)が、1つの筐体内に集約されていることは必須ではなく、予測システム20の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、予測システム20の少なくとも一部の機能、例えば、演算回路23の一部の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。
【0159】
2-7.第7変形例
上記実施の形態では、モデル7が、画像情報中の被写体10に基づく複数の被写体情報の入力に対して、第1予測結果O1と第2予測結果O2とを出力するように学習される例を説明した。しかしながら、モデル7に入力される情報はこれに限定されない。例えば、モデル7に入力される情報は、空間を表す入力情報から得られる当該空間中の対象物を示す対象物情報に基づく複数の定量情報であってもよい。
【0160】
空間を表す入力情報の一例は、上記実施の形態で説明した画像情報である。上記実施の形態では、入力情報によって表される空間は実空間であり、入力情報は画像情報である。画像情報は、2次元画像情報、3次元画像情報、動画像情報、及び静止画像情報を含む。上記実施の形態の被写体10は、「対象物」又は「対象物を示す対象物情報」の一例であり、複数の被写体情報は、「複数の定量情報」の一例である。
【0161】
空間を表す入力情報の他の例は、2次元モデルデータ、3次元モデルデータ等の複数次元モデルデータである。複数次元モデルデータは、例えば、演算回路によって実現される仮想現実空間、メタバース(登録商標)等の仮想空間を表す。生成装置は、空間を表す入力情報の中の対象物を示す対象物情報を生成する。生成装置の一例は、上記実施の形態の撮像システム3(撮像装置)である。
【0162】
3.態様
以下に本開示の態様を例示する。
【0163】
<態様1>
学習済みモデルを記憶する記憶装置にアクセス可能な演算回路によって実行される予測方法であって、
前記学習済みモデルは、空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習され、
前記予測方法は、
対象空間を表す対象入力情報から前記対象物の前記複数の定量情報を検出し、
前記対象入力情報から検出された前記対象物の前記複数の定量情報を前記学習済みモデルに入力することによって、前記対象入力情報から検出された前記対象物の行動についての前記第1予測結果と、前記対象入力情報から検出された前記対象物の前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果と、を出力する、
予測方法。
【0164】
<態様2>
前記予測方法は、前記学習済みモデルから出力された前記第1予測結果と前記第2予測結果とを関連付けて記憶させる、態様1に記載の予測方法。
【0165】
<態様3>
前記複数の定量情報は、前記対象物の位置又は移動に関する情報と、前記対象物の状態に関する情報とを含む、態様1又は2に記載の予測方法。
【0166】
<態様4>
前記複数の定量情報は、前記対象物の位置、前記対象物のバウンディングボックス、前記対象物の1又は複数の部位の位置、前記対象物の1又は複数の部位の向き、前記対象物の1又は複数の部位の画像、前記対象物の複数の部位の関連性に基づく情報、前記対象物の全体の画像、前記対象物の速度、及び前記対象物の軌跡のうちの少なくとも一つの情報を含む、態様1~3のいずれかに記載の予測方法。
【0167】
<態様5>
前記対象物の行動は、
前記対象物が前記対象空間中の他の物体を回避すること、
前記対象物が前記他の物体の通路を横断すること、
前記対象物が前記他の物体に接近すること、
前記対象物が前記他の物体に随行し、又は前記他の物体を追い抜くこと、
前記対象物が加速すること、
前記対象物が減速すること、
前記対象物が停止すること、又は停止中であること、
前記対象物が動き出すこと、及び
前記対象物が進行方向を変えること、
のうちの少なくとも一つを含む、
態様1~4のいずれかに記載の予測方法。
【0168】
<態様6>
前記第1予測結果は、前記対象物の行動が第1行動である確率と、前記対象物の行動が前記第1行動と異なる第2行動である確率とを含み、
前記第1行動及び第2行動は、それぞれ、
前記対象物が前記対象空間中の他の物体を回避すること、
前記対象物が前記他の物体の通路を横断すること、
前記対象物が前記他の物体に接近すること、
前記対象物が前記他の物体に随行し、又は前記他の物体を追い抜くこと、
前記対象物が加速すること、
前記対象物が減速すること、
前記対象物が停止すること、又は停止中であること、
前記対象物が動き出すこと、及び
前記対象物が進行方向を変えること、
のうちの少なくとも一つを含む、
態様1~5のいずれかに記載の予測方法。
【0169】
<態様7>
前記第1予測結果は、前記対象物の行動の危険の程度及び安全の程度のうちの少なくとも一方を示す指標を含む、態様1~6のいずれかに記載の予測方法。
【0170】
<態様8>
前記学習済みモデルは、
前記複数の定量情報から複数の特徴量を抽出する抽出処理と、
前記抽出処理で抽出された前記複数の特徴量から前記対象物の行動についての前記第1予測結果を決定する第1決定処理と、
前記抽出処理で抽出された前記複数の特徴量から前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果を決定する第2決定処理と、
を実行する、
態様1~7のいずれかに記載の予測方法。
【0171】
<態様9>
態様1~8のいずれかに記載の予測方法を演算回路に実行させるためのプログラム。
【0172】
<態様10>
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習された学習済みモデルから前記第1予測結果と前記第2予測結果とを取得し、
前記第1予測結果を示す情報と、前記第2予測結果を可視化した情報とを表示装置に表示させる、
表示方法。
【0173】
<態様11>
前記第2予測結果を可視化した情報は、前記入力情報又は前記入力情報を加工して得られた情報に重畳して表示される、態様10に記載の表示方法。
【0174】
<態様12>
態様10又は11に記載の表示方法を演算回路に実行させるためのプログラム。
【0175】
<態様13>
学習済みモデルを記憶する記憶装置と、
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報を生成する生成装置と、
前記生成装置及び前記記憶装置にアクセス可能な演算回路と、
を備え、
前記学習済みモデルは、前記対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習され、
前記演算回路は、
対象空間を表す対象入力情報から前記対象物の前記複数の定量情報を検出し、
前記対象入力情報から検出された前記対象物の前記複数の定量情報を前記学習済みモデルに入力することによって、前記対象入力情報から検出された前記対象物の行動についての前記第1予測結果と、前記対象入力情報から検出された前記対象物の前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果と、を出力する、
予測システム。
【0176】
<態様14>
前記生成装置は、移動機構により前記対象空間の中で移動可能な移動体に搭載された、態様13に記載の予測システム。
【0177】
<態様15>
報知装置を更に備え、
前記演算回路は、
前記第1予測結果に応じて前記移動体の動作予定を決定し、
前記動作予定を前記報知装置に報知させる、
態様14に記載の予測システム。
【0178】
<態様16>
報知装置を更に備え、
前記演算回路は、前記第1予測結果に基づく情報を前記報知装置に報知させる、
態様13~15のいずれかに記載の予測システム。
【0179】
<態様17>
前記移動体は、前記演算回路が前記移動機構を制御することによって移動可能であり、
前記演算回路は、前記第1予測結果に応じて、前記移動機構に、前記移動体の進行方向及び速度の少なくとも一方を変更させる、
態様14又は15に記載の予測システム。
【0180】
<態様18>
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習された学習済みモデルから前記第1予測結果と前記第2予測結果とを取得し、前記第1予測結果を示す情報と、前記第2予測結果を可視化した情報とを表示装置に表示させる、表示システム。
【0181】
<態様19>
前記第1予測結果を示す情報に代えて、又は、前記第1予測結果を示す情報に加えて、前記空間で移動可能な移動体の動作予定を表示する、態様18に記載の表示システム。
【0182】
<態様20>
空間を表す入力情報から得られる前記空間中の対象物を示す対象物情報に基づく複数の定量情報の入力に対して、前記対象物の行動についての第1予測結果と、前記複数の定量情報のうちの少なくとも一つについての第2予測結果と、を出力するように学習され、
前記複数の定量情報から複数の特徴量を抽出する抽出処理と、
前記抽出処理で抽出された前記複数の特徴量から前記対象物の行動についての前記第1予測結果を決定する第1決定処理と、
前記抽出処理で抽出された前記複数の特徴量から前記複数の定量情報のうちの少なくとも一つについての前記第2予測結果を決定する第2決定処理と、
を実行する、
学習済みモデル。
【符号の説明】
【0183】
1 移動装置
2 表示システム
3 撮像システム
4 制御システム
5 移動機構
6 報知装置
7 モデル
8 モデル出力結果
9 対象画像情報
10 被写体
20 予測システム
22 記憶装置
23 演算回路
32 記憶装置
33 演算回路
40 表示装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22