特許6830052 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許6830052空間情報生成装置及び空間情報生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6830052

(24)【登録日】2021年1月27日

(45)【発行日】2021年2月17日

(54)【発明の名称】空間情報生成装置及び空間情報生成方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20210208BHJP

G06T 7/11 20170101ALI20210208BHJP

G06T 7/593 20170101ALI20210208BHJP

【ＦＩ】

G06T7/00 350C

G06T7/11

G06T7/593

【請求項の数】14

【全頁数】20

(21)【出願番号】特願2017-225930(P2017-225930)

(22)【出願日】2017年11月24日

(65)【公開番号】特開2019-96129(P2019-96129A)

(43)【公開日】2019年6月20日

【審査請求日】2019年12月6日

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100166006

【弁理士】

【氏名又は名称】泉通博

(74)【代理人】

【識別番号】100124084

【弁理士】

【氏名又は名称】黒岩久人

(74)【代理人】

【識別番号】100153280

【弁理士】

【氏名又は名称】寺川賢祐

(72)【発明者】

【氏名】石川彰夫

(72)【発明者】

【氏名】菅谷史昭

【審査官】千葉久博

(56)【参考文献】

【文献】特開２０１０−１２２７２５（ＪＰ，Ａ）

【文献】特開平１０−１３４０２１（ＪＰ，Ａ）

【文献】 Jure zbontar, 外１名，"Computing the stereo matching cost with a convolutional neural network"，2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)，米国，２０１５年６月７日，p.1592-1599

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｔ７／００

Ｇ０６Ｔ７／１１

Ｇ０６Ｔ７／５９３

(57)【特許請求の範囲】

【請求項1】

第１撮像装置で生成された第１撮像画像と、前記第１撮像装置とは異なる位置に設置された第２撮像装置で生成された第２撮像画像と、を取得する画像取得部と、
前記第１撮像画像及び前記第２撮像画像のそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記第１撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第１撮像画像出力と前記第２撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第２撮像画像出力とを抽出する抽出部と、
前記一以上の第１撮像画像出力に基づいて一以上の第１撮像画像特徴点を検出し、かつ前記一以上の第２撮像画像出力に基づいて一以上の第２撮像画像特徴点を検出する特徴点検出部と、
前記一以上の第１撮像画像特徴点と前記一以上の第２撮像画像特徴点とに基づいて、３次元空間における前記被写体の表面位置を示す空間情報を生成する空間情報生成部と、
を有する空間情報生成装置。

【請求項2】

前記抽出部は、
前記第１撮像画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第１撮像画像出力、及び前記第２撮像画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第２撮像画像出力から、共通に活性化している一以上の後段第１撮像画像出力及び一以上の後段第２撮像画像出力を抽出する後段抽出部と、
前記一以上の後段第１撮像画像出力及び前記一以上の後段第２撮像画像出力を活性化させる要因となった前記前段処理層から出力された複数の前段第１撮像画像出力、及び前記前段処理層から出力された複数の前段第２撮像画像出力のうち、共通に活性化している一以上の前段第１撮像画像出力及び一以上の前段第２撮像画像出力を抽出する前段抽出部と、
を有する、
請求項１に記載の空間情報生成装置。

【請求項3】

前記前段抽出部は、前記複数の前段第１撮像画像出力及び前記複数の前段第２撮像画像出力のうち、活性化している大きさに基づいて、前記一以上の前段第１撮像画像出力及び前記一以上の前段第２撮像画像出力を抽出する、
請求項２に記載の空間情報生成装置。

【請求項4】

前記機械学習モデルは、畳み込みニューラルネットワークを含み、
前記後段処理層は、出力層、全結合層、正規化層、プーリング層、及び畳み込み層のうちのいずれかの層である、
請求項２又は３に記載の空間情報生成装置。

【請求項5】

前記前段処理層は、全結合層、正規化層、プーリング層、畳み込み層及び入力層のうちのいずれかの層である、
請求項４に記載の空間情報生成装置。

【請求項6】

前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の第１撮像画像出力及び前記一以上の第２撮像画像出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の第１撮像画像出力及び前記一以上の第２撮像画像出力を抽出する、
請求項１又は５に記載の空間情報生成装置。

【請求項7】

前記特徴点検出部が特定した前記一以上の第１撮像画像特徴点及び前記一以上の第２撮像画像特徴点から、相互の対応関係に基づいて一部の第１撮像画像特徴点及び一部の第２撮像画像特徴点を選択する選択部をさらに有し、
前記空間情報生成部は、前記一部の第１撮像画像特徴点と前記一部の第２撮像画像特徴点とに基づいて、前記空間情報を生成する、
請求項１から６のいずれか一項に記載の空間情報生成装置。

【請求項8】

前記空間情報生成部は、前記第１撮像画像における前記一部の第１撮像画像特徴点の位置と、前記第２撮像画像における前記一部の第２撮像画像特徴点の位置との関係、並びに前記第１撮像装置及び前記第２撮像装置の視差に基づいて、前記空間情報として被写体との距離を推定する、
請求項７に記載の空間情報生成装置。

【請求項9】

前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、
前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用する、
請求項１から８のいずれか一項に記載の空間情報生成装置。

【請求項10】

前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の第１撮像画像出力及び前記一以上の第２撮像画像出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の第１撮像画像出力及び前記一以上の第２撮像画像出力を抽出する、
請求項１から９のいずれか一項に記載の空間情報生成装置。

【請求項11】

第１撮像装置で生成された第１撮像画像と、前記第１撮像装置とは異なる位置に設置された第２撮像装置で生成された第２撮像画像と、を取得するステップと、
前記第１撮像画像及び前記第２撮像画像のそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記第１撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第１撮像画像出力と前記第２撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第２撮像画像出力とを抽出するステップと、
前記一以上の第１撮像画像出力に基づいて一以上の第１撮像画像特徴点を検出し、かつ前記一以上の第２撮像画像出力に基づいて一以上の第２撮像画像特徴点を検出するステップと、
前記一以上の第１撮像画像特徴点と前記一以上の第２撮像画像特徴点とに基づいて、３次元空間における前記被写体の表面位置を示す空間情報を生成するステップと、
を有する空間情報生成方法。

【請求項12】

前記抽出するステップは、
前記第１撮像画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第１撮像画像出力、及び前記第２撮像画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第２撮像画像出力から、共通に活性化している一以上の後段第１撮像画像出力及び一以上の後段第２撮像画像出力を抽出する後段抽出ステップと、
前記一以上の後段第１撮像画像出力及び前記一以上の後段第２撮像画像出力を活性化させる要因となった前記前段処理層から出力された複数の前段第１撮像画像出力、及び前記前段処理層から出力された複数の前段第２撮像画像出力のうち、共通に活性化している一以上の前段第１撮像画像出力及び一以上の前段第２撮像画像出力を抽出する前段抽出ステップと、
を有する、請求項１１に記載の空間情報生成方法。

【請求項13】

前記前段抽出ステップを実行した後に、前記一以上の前段第１撮像画像出力及び前記一以上の前段第２撮像画像出力を、前記複数の後段第１撮像画像出力及び前記複数の後段第２撮像画像出力として、前記後段抽出ステップを実行する、
請求項１２に記載の空間情報生成方法。

【請求項14】

前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行する、
請求項１２又は１３に記載の空間情報生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習モデルを用いて３次元の空間情報を生成する空間情報生成装置及び空間情報生成方法に関する。

【背景技術】

【0002】

複数の画像に基づいて、３次元空間における被写体の表面位置を示す３次元物体モデルを生成する装置が知られている。特許文献１には、複数のカメラで撮像した画像から被写体を抽出して３次元物体モデルを生成する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１０−１２２７２５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

複数のカメラで撮影した動画像に基づき、任意の位置から見た映像を再現する自由視点映像システムを実現するためには、各画像に表されている被写体の位置を示す情報、すなわち、３次元モデル情報を可能な限り正確に生成することが必要である。従来の技術を用いることで、複数の画像に基づいて、当該画像に写っている被写体の表面位置を推定することができる。しかし、複数の画像間で異なる被写体を同一の被写体であるとして抽出する可能性がある。この場合、正確な３次元モデル情報を生成することができない。

【0005】

そこで、本発明はこれらの点に鑑みてなされたものであり、３次元空間における被写体の表面位置を推定する精度を向上させることができる空間情報生成装置及び空間情報生成方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の第１の態様に係る空間情報生成装置は、第１撮像装置で生成された第１撮像画像と、前記第１撮像装置とは異なる位置に設置された第２撮像装置で生成された第２撮像画像と、を取得する画像取得部と、前記第１撮像画像及び前記第２撮像画像のそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記第１撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第１撮像画像出力と前記第２撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第２撮像画像出力とを抽出する抽出部と、前記一以上の第１撮像画像出力に基づいて一以上の第１撮像画像特徴点を検出し、かつ前記一以上の第２撮像画像出力に基づいて一以上の第２撮像画像特徴点を検出する特徴点検出部と、前記一以上の第１撮像画像特徴点と前記一以上の第２撮像画像特徴点とに基づいて、３次元空間における前記被写体の表面位置を示す空間情報を生成する空間情報生成部と、を有する。

【0007】

前記抽出部は、前記第１撮像画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第１撮像画像出力、及び前記第２撮像画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第２撮像画像出力から、共通に活性化している一以上の後段第１撮像画像出力及び一以上の後段第２撮像画像出力を抽出する後段抽出部と、前記一以上の後段第１撮像画像出力及び前記一以上の後段第２撮像画像出力を活性化させる要因となった前記前段処理層から出力された複数の前段第１撮像画像出力、及び前記前段処理層から出力された複数の前段第２撮像画像出力のうち、共通に活性化している一以上の前段第１撮像画像出力及び一以上の前段第２撮像画像出力を抽出する前段抽出部と、を有してもよい。

【0008】

前記前段抽出部は、前記複数の前段第１撮像画像出力及び前記複数の前段第２撮像画像出力のうち、活性化している大きさに基づいて、前記一以上の前段第１撮像画像出力及び前記一以上の前段第２撮像画像出力を抽出してもよい。

【0009】

前記機械学習モデルは、畳み込みニューラルネットワークを含み、前記後段処理層は、出力層、全結合層、正規化層、プーリング層、及び畳み込み層のうちのいずれかの層であってもよい。
前記前段処理層は、全結合層、正規化層、プーリング層、畳み込み層及び入力層のうちのいずれかの層であってもよい。

【0010】

【0011】

前記空間情報生成装置は、前記特徴点検出部が特定した前記一以上の第１撮像画像特徴点及び前記一以上の第２撮像画像特徴点から、相互の対応関係に基づいて一部の第１撮像画像特徴点及び一部の第２撮像画像特徴点を選択する選択部をさらに有し、前記空間情報生成部は、前記一部の第１撮像画像特徴点と前記一部の第２撮像画像特徴点とに基づいて、前記空間情報を生成してもよい。

【0012】

前記空間情報生成部は、前記第１撮像画像における前記一部の第１撮像画像特徴点の位置と、前記第２撮像画像における前記一部の第２撮像画像特徴点の位置との関係、並びに前記第１撮像装置及び前記第２撮像装置の視差に基づいて、前記空間情報として被写体との距離を推定してもよい。

【0013】

前記空間情報生成装置は、前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用してもよい。

【0014】

前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の第１撮像画像出力及び前記一以上の第２撮像画像出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の第１撮像画像出力及び前記一以上の第２撮像画像出力を抽出してもよい。

【0015】

本発明の第２の態様に係る空間情報生成方法は、第１撮像装置で生成された第１撮像画像と、前記第１撮像装置とは異なる位置に設置された第２撮像装置で生成された第２撮像画像と、を取得するステップと、前記第１撮像画像及び前記第２撮像画像のそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記第１撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第１撮像画像出力と前記第２撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第２撮像画像出力とを抽出するステップと、前記一以上の第１撮像画像出力に基づいて一以上の第１撮像画像特徴点を検出し、かつ前記一以上の第２撮像画像出力に基づいて一以上の第２撮像画像特徴点を検出するステップと、前記一以上の第１撮像画像特徴点と前記一以上の第２撮像画像特徴点とに基づいて、３次元空間における前記被写体の表面位置を示す空間情報を生成するステップと、を有する。

【0016】

前記抽出するステップは、前記第１撮像画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第１撮像画像出力、及び前記第２撮像画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第２撮像画像出力から、共通に活性化している一以上の後段第１撮像画像出力及び一以上の後段第２撮像画像出力を抽出する前段抽出ステップと、前記一以上の後段第１撮像画像出力及び前記一以上の後段第２撮像画像出力を活性化させる要因となった前記前段処理層から出力された複数の前段第１撮像画像出力、及び前記前段処理層から出力された複数の前段第２撮像画像出力のうち、共通に活性化している一以上の前段第１撮像画像出力及び一以上の前段第２撮像画像出力を抽出する後段抽出ステップと、を有してもよい。

【0017】

前記空間情報生成方法は、前記前段抽出ステップを実行した後に、前記一以上の前段第１撮像画像出力及び前記一以上の前段第２撮像画像出力を、前記複数の後段第１撮像画像出力及び前記複数の後段第２撮像画像出力として、前記後段抽出ステップを実行してもよい。

【0018】

前記空間情報生成方法は、前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行してもよい。

【発明の効果】

【0019】

本発明によれば、３次元空間における被写体の表面位置を推定する精度を向上させることができるという効果を奏する。

【図面の簡単な説明】

【0020】

【図1】空間情報を生成する処理の概要を説明するための図である。

【図2】機械学習モデルの構成の一例を示す図である。

【図3】空間情報生成装置の構成を示す図である。

【図4】抽出部が行う抽出処理について説明するための図である。

【図5】抽出部が行う抽出処理について説明するための図である。

【図6】抽出部が行う抽出処理について説明するための図である。

【図7】抽出部が行う抽出処理について説明するための図である。

【図8】抽出部が行う抽出処理について説明するための図である。

【図9】抽出部が行う抽出処理について説明するための図である。

【図10】空間情報生成装置が行う処理の流れを示すフローチャートである。

【図11】抽出部が行う処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0021】

［空間情報生成装置１の概要］
図１は、空間情報を生成する処理の概要を説明するための図である。空間情報生成装置１は、例えばＰＣ（Personal Computer）である。空間情報生成装置１は、それぞれ異なる位置に設置された複数の撮像装置によって生成された複数の画像に基づいて、機械学習モデルＭを用いて３次元空間における当該画像に写っている被写体の表面位置を示す空間情報を生成する装置である。本明細書において、撮像装置の撮像パラメータ（例えば、撮像した位置及び撮像装置の向き等）は、既知であるとする。画像は、静止画像又は動画像である。空間情報生成装置１は、画像が動画像である場合、動画像に含まれるフレームごとに空間情報を生成する。

【0022】

空間情報生成装置１は、第１撮像装置で生成された第１撮像画像Ａを取得する（図１の（１））。第１撮像装置は、例えば、車両の前方に備える複数の撮像装置のうち、右側に設置されたカメラである。図１に例示した第１撮像画像Ａには、前方を走行しているトラックＴ１及び道路を横断している歩行者Ｔ２が写っている。

【0023】

続いて、空間情報生成装置１は、第１撮像装置とは異なる位置に設置された第２撮像装置で生成された第２撮像画像Ｂを取得する（図１の（２））。第２撮像装置は、例えば、車両の前方に備える複数の撮像装置のうち、左側に設置されたカメラである。図１に示した第２撮像画像Ｂには、第１撮像画像Ａと同様に、トラックＴ１及び歩行者Ｔ２が写っている。

【0024】

空間情報生成装置１は、取得した第１撮像画像Ａ及び第２撮像画像Ｂそれぞれを機械学習モデルＭに入力し、当該機械学習モデルＭに含まれる複数の処理層を伝搬させる（図１の（３））。機械学習モデルＭは、入力された画像に基づいて当該画像に含まれる被写体の種別を出力するように学習されたモデルである。

【0025】

図２は、機械学習モデルＭの構成の一例を示す図である。機械学習モデルＭは、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を含む。この場合において、機械学習モデルＭは、入力層Ｍ１、第１の畳み込み層Ｍ２、第２の畳み込み層Ｍ３、第１のプーリング層Ｍ４、正規化層Ｍ５、第３の畳み込み層Ｍ６、第２のプーリング層Ｍ７、第１の全結合層Ｍ８、第２の全結合層Ｍ９、及び出力層Ｍ１０を有する。本明細書においては、隣接する２つの処理層のうち、第１撮像画像Ａ及び第２撮像画像Ｂが伝搬する際の上流側の処理層を前段処理層と称し、下流側の処理層を後段処理層と称する。

【0026】

後段処理層となり得る処理層は、第１の畳み込み層Ｍ２、第２の畳み込み層Ｍ３、第１のプーリング層Ｍ４、正規化層Ｍ５、第３の畳み込み層Ｍ６、第２のプーリング層Ｍ７、第１の全結合層Ｍ８、第２の全結合層Ｍ９、及び出力層Ｍ１０のうちのいずれかの層である。また、前段処理層となり得る処理層は、入力層Ｍ１、第１の畳み込み層Ｍ２、第２の畳み込み層Ｍ３、第１のプーリング層Ｍ４、正規化層Ｍ５、第３の畳み込み層Ｍ６、第２のプーリング層Ｍ７、第１の全結合層Ｍ８、及び第２の全結合層Ｍ９のうちのいずれかの層である。空間情報生成装置１は、取得した画像を機械学習モデルＭに入力し、入力層Ｍ１から出力層Ｍ１０までの各処理層を順伝搬させる、すなわち、推論させることにより、画像に写っている被写体の種別を出力させる。

【0027】

図１に戻り、空間情報生成装置１は、機械学習モデルＭが被写体の種別を出力するに至った各処理層における計算結果、すなわち、深層学習による抽象度の高い特徴量を用いて、第１撮像画像Ａ及び第２撮像画像Ｂに共通する特徴点を検出する（図１の（４））。ここで、空間情報生成装置１は、共通する特徴点の検出を、伝搬させた順序とは逆の順序で行う。このようにすることで、空間情報生成装置１は、抽象度が高い特徴量に基づく特徴点を検出することができる。

【0028】

空間情報生成装置１は、共通する特徴点を検出することにより、第１撮像画像Ａに写っているトラックＴ１及び歩行者Ｔ２と、第２撮像画像Ｂに写っているトラックＴ１及び歩行者Ｔ２とにそれぞれ対応関係があることを検出する。対応関係は、第１撮像画像の特徴点が示す第１撮像画像に含まれる画素と、第２撮像画像Ｂの特徴点が示す第２撮像画像に含まれる画素とが一致又は近似した関係である。

【0029】

そして、空間情報生成装置１は、検出した対応関係にある第１撮像画像Ａ及び第２撮像画像Ｂそれぞれの特徴点に基づいて、３次元空間におけるトラックＴ１及び歩行者Ｔ２の表面位置を示す空間情報を生成する（図１の（５））。このようにすることで、空間情報生成装置１は、３次元空間における被写体の表面位置を推定する精度を向上させることができる。
以下、空間情報生成装置１の詳細について説明する。

【0030】

［空間情報生成装置１の構成］
図３は、空間情報生成装置１の構成を示す図である。空間情報生成装置１は、操作部１１、記憶部１２、及び制御部１３を有する。

【0031】

操作部１１は、ユーザの操作を受け付ける入力デバイスである。
記憶部１２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）及びハードディスク等の記憶媒体である。記憶部１２は、制御部１３が実行する各種のプログラムを記憶する。記憶部１２は、第１撮像画像及び第２撮像画像を記憶する。

【0032】

制御部１３は、例えばＣＰＵ（Central Processing Unit）である。制御部１３は、記憶部１２に記憶されているプログラムを実行することにより、空間情報生成装置１に係る機能を制御する。制御部１３は、プログラムを実行することにより、画像取得部１３１、伝搬制御部１３２、抽出部１３３、指示受付部１３６、特徴点検出部１３７、選択部１３８、及び空間情報生成部１３９として機能する。

【0033】

画像取得部１３１は、記憶部１２に記憶されている第１撮像画像と第２撮像画像とを取得する。画像取得部１３１は、取得した第１撮像画像と第２撮像画像とを、伝搬制御部１３２に入力する。

【0034】

伝搬制御部１３２は、第１撮像画像及び第２撮像画像のそれぞれに、機械学習モデルＭに含まれる複数の処理層を伝搬させる。図２に示す例において、伝搬制御部１３２は、第１撮像画像及び第２撮像画像のそれぞれに、機械学習モデルＭに含まれる入力層Ｍ１から出力層Ｍ１０までの各処理層を、順に伝搬させる。

【0035】

抽出部１３３は、複数の処理層から選択した後段処理層、及び後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、第１撮像画像に基づいて後段処理層及び前段処理層から出力された一以上の第１撮像画像出力と第２撮像画像に基づいて後段処理層及び前段処理層から出力された一以上の第２撮像画像出力とを抽出する。抽出部１３３が行う抽出処理の詳細については後述するが、抽出部１３３は、後段処理層で共通に活性化している第１撮像画像出力の一部である後段第１撮像画像出力及び第２撮像画像出力の一部である後段第２撮像画像出力を抽出する後段抽出部１３４と、前段処理層で共通に活性化している第１撮像画像出力の一部である前段第１撮像画像出力及び第２撮像画像出力の一部である前段第２撮像画像出力を抽出する前段抽出部１３５とを有する。

【0036】

抽出部１３３が抽出する第１撮像画像出力及び第２撮像画像出力は、処理層に含まれる複数のユニットのうち、活性化しているユニットを示す情報である。ユニットは、画像に含まれる一以上の画素である。活性化の定義は、例えば、ユニットの出力値又はユニットの出力値と当該ユニットの結合の重みとの積が、所定の閾値を超えた場合でもよいし、出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。また、全結合層以外の処理層においては、例えば、チャンネルごとに出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。チャンネルは、フィルタ毎に畳み込み演算した出力である。

【0037】

抽出部１３３は、複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択することが好ましい。しかし、最後尾層において共通に活性化している第１撮像画像出力及び第２撮像画像出力がない場合がある。そこで、抽出部１３３は、複数の処理層のうち、最後尾層を後段処理層として選択した場合において、最後尾層において共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力がない場合、最後尾層より前の処理層において共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力を抽出してもよい。

【0038】

例えば、抽出部１３３が、最後尾層である出力層Ｍ１０を後段処理層として選択した場合において、出力層Ｍ１０において共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力がないとする。この場合において、抽出部１３３は、出力層Ｍ１０より前の各処理層に対して、共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力を繰り返し探索する。

【0039】

抽出部１３３は、例えば、出力層Ｍ１０の直前の処理層である第２の全結合層Ｍ９において共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力があった場合、第２の全結合層Ｍ９を後段処理層として選択する。そして、抽出部１３３は、後段処理層として選択した第２の全結合層Ｍ９において共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力を抽出する。このようにすることで、抽出部１３３は、第１撮像画像と第２撮像画像とで一致する領域が少ない場合であっても、それぞれに写る被写体を対応付けることができる。

【0040】

抽出部１３３は、ユーザによって指定された処理層を後段処理層として選択してもよい。具体的には、指示受付部１３６が、操作部１１を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付ける。そして、抽出部１３３は、指示受付部１３６が受け付けた指示が示す処理層を、後段処理層として使用する。抽出部１３３は、図２に示す例において、ユーザが第２の全結合層Ｍ９を選択した場合に、指示受付部１３６が受け付けた指示が示す第２の全結合層Ｍ９を、後段処理層として使用する。抽出部１３３は、抽出した第１撮像画像出力と第２撮像画像出力とを特徴点検出部１３７に入力する。

【0041】

特徴点検出部１３７は、一以上の第１撮像画像出力に基づいて一以上の第１撮像画像特徴点を検出し、かつ一以上の第２撮像画像出力に基づいて一以上の第２撮像画像特徴点を検出する。具体的には、特徴点検出部１３７は、まず、一以上の第１撮像画像出力及び一以上の第２撮像画像出力に基づいて、対応する特徴点を探索する。そして、特徴点検出部１３７は、対応関係にある一以上の第１撮像画像出力に基づく一以上の第１撮像画像特徴点と、一以上の第２撮像画像出力に基づく一以上の第２撮像画像特徴点とを検出する。特徴点検出部１３７は、検出した第１撮像画像特徴点及び第２撮像画像特徴点を選択部１３８に入力する。

【0042】

選択部１３８は、特徴点検出部１３７が特定した一以上の第１撮像画像特徴点及び一以上の第２撮像画像特徴点から、相互の対応関係に基づいて一部の第１撮像画像特徴点及び一部の第２撮像画像特徴点を選択する。具体的には、選択部１３８は、誤検出した対応関係を除去し、除去した後の対応関係に基づく一以上の第１撮像画像特徴点及び一以上の第２撮像画像特徴点を選択する。対応関係の誤検出は、第１撮像画像特徴点及び第２撮像画像特徴点の対応関係に矛盾が生じている状態である。対応関係の誤検出は、例えば、被写体の表面位置を推定するために算出される被写体との距離、すなわち、奥行き値が負数になって正常な範囲に入らない場合、又は３つ以上の撮像画像に基づいて空間情報を生成する場合において、撮像画像の組み合わせによって同じ特徴点の奥行き値が著しく異なる場合等である。選択部１３８は、例えば、ＲＡＮＳＡＣ（Random Sampling Consensus）法又は最小２乗メディアン（ＬＭｅｄＳ：Least Median of Square）法に基づいて絞り込みを行うことにより対応関係を除去する。

【0043】

また、選択部１３８は、撮像装置の撮像パラメータに基づいて算出することができる多焦点テンソルが有する多重線形拘束を用いて、対応関係を除去してもよい。選択部１３８は、例えば、２つの撮像画像に基づいて空間情報を生成する場合、２つの撮像画像に対して、２重線形拘束を満たさない対応関係を除去する。また、選択部１３８は、例えば、３つの撮像画像に基づいて空間情報を生成する場合、３つの撮像画像に対して、３重線形拘束を満たさない対応関係を除去する。また、選択部１３８は、例えば、４つの撮像画像に基づいて空間情報を生成する場合、４つの撮像画像に対して、４重線形拘束を満たさない対応関係を除去する。

【0044】

また、選択部１３８は、多焦点テンソルに基づいて、抽出部１３３が行う抽出処理で抽出された撮像画像出力の絞り込みを行ってもよい。具体的には、選択部１３８は、まず、抽出部１３３によって抽出された撮像画像出力に基づいて、当該撮像画像出力が抽出された処理層から逆畳み込みを行い、当該撮像画像出力に対応する撮像画像の領域を特定する。そして、選択部１３８は、特定した領域が多重線形拘束を満たさない場合、当該領域に対応する撮像画像出力を、抽出部１３３によって抽出された撮像画像出力から除去する。

【0045】

選択部１３８は、例えば、一の第１撮像画像出力に対応する第１撮像画像の領域である第１撮像画像領域を、当該一の第１撮像画像出力が抽出された処理層において逆畳み込みを行うことにより特定する。同様に、選択部１３８は、一の第２撮像画像出力に対応する第２撮像画像の領域である第２撮像画像領域を、当該一の第２撮像画像出力が抽出された処理層において逆畳み込みを行うことにより特定する。

【0046】

選択部１３８は、２重線形拘束（例えば、エピポーラ拘束）を用いて、第２撮像画像上に変換した第１撮像画像領域に、第２撮像画像領域と共通する部分があるか否かを判定する。同様に、選択部１３８は、２重線形拘束を用いて第１撮像画像上に変換した第２撮像画像領域に、第１撮像画像領域と共通する部分があるか否かを判定する。

【0047】

選択部１３８は、いずれかの判定において共通する部分がないと判定した場合、抽出すべき出力ではないと判断し、当該一の第１撮像画像出力及び当該一の第２撮像画像出力の対応関係を除去する。この場合、抽出部１３３は、選択部１３８が除去した対応関係にある当該一の第１撮像画像出力及び当該一の第２撮像画像出力に基づく抽出処理を中止する。一方、選択部１３８は、２つの判定において共通する部分があると判定した場合、当該一の第１撮像画像出力及び当該一の第２撮像画像出力の対応関係を維持し、次に抽出部１３３が抽出した第１撮像画像出力及び第２撮像画像出力の絞り込みを行う。

【0048】

空間情報生成部１３９は、一以上の第１撮像画像特徴点と一以上の第２撮像画像特徴点とに基づいて、３次元空間における被写体の表面位置を示す空間情報を生成する。具体的には、空間情報生成部１３９は、選択部１３８が誤検出を除去した後の対応関係に基づく一部の第１撮像画像特徴点と一部の第２撮像画像特徴点とに基づいて、空間情報を生成する。

【0049】

より具体的には、空間情報生成部１３９は、まず、第１撮像画像における一部の第１撮像画像特徴点の位置と、第２撮像画像における一部の第２撮像画像特徴点の位置との関係、並びに第１撮像装置及び第２撮像装置の視差に基づいて、空間情報として被写体との距離を推定する。そして、空間情報生成部１３９は、推定した被写体との距離に基づいて、３次元空間における被写体の表面位置を示す空間情報を生成する。空間情報生成部１３９は、空間情報として、第１撮像画像及び第２撮像画像において３次元空間の同一位置を示している画素の対応関係を示す視差マップを生成してもよい。空間情報生成部１３９が行う被写体との距離を推定する方法は、公知の技術を使用することができる。空間情報生成部１３９は、生成した空間情報を記憶部１２に記憶させる。

【0050】

［抽出処理］
続いて、抽出部１３３が行う抽出処理について説明する。上述のとおり、抽出部１３３は、後段抽出部１３４及び前段抽出部１３５を有する。後段抽出部１３４は、第１撮像画像が複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段第１撮像画像出力、及び第２撮像画像が前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段第２撮像画像出力から、共通に活性化している一以上の後段第１撮像画像出力及び一以上の後段第２撮像画像出力を抽出する。

【0051】

前段抽出部１３５は、一以上の後段第１撮像画像出力及び一以上の後段第２撮像画像出力を活性化させる要因となった前段処理層から出力された複数の前段第１撮像画像出力、及び前段処理層から出力された複数の前段第２撮像画像出力のうち、共通に活性化している一以上の前段第１撮像画像出力及び一以上の前段第２撮像画像出力を抽出する。

【0052】

図４から図９は、抽出部１３３が行う抽出処理について説明するための図である。図４から図９は、前段処理層から後段処理層に伝搬させた状態を示している。図４から図９において、実線で示すユニットを結合する結合線は、結合するユニットから出力があったことを示し、破線で示す結合線は、結合するユニットから出力が無かったことを示す。また、結合線を示す線の太さは、結合するユニットからの出力の大きさを示す。

【0053】

図４の場合において、後段処理層は、最後尾層（例えば、出力層又は全結合層等）又は抽出部１３３が選択した最後尾層より前の処理層（全結合層又はプーリング層等）であり、前段処理層は、後段処理層の直前の処理層（例えば、全結合層又はプーリング層等）である。図４においては、後段処理層が出力層Ｍ２０であり、前段処理層が全結合層Ｍ１９であるとして説明する。

【0054】

図４（ａ）は、抽出前の状態であり、図４（ｂ）は抽出後の状態である。第１撮像画像において、出力層Ｍ２０は、ユニットＵ５、Ｕ８が活性化しており、全結合層Ｍ１９は、ユニットＵ２、Ｕ５、Ｕ６、Ｕ７、Ｕ８が活性化している。第２撮像画像において、出力層Ｍ２０は、ユニットＵ３、Ｕ５が活性化しており、全結合層Ｍ１９は、ユニットＵ２、Ｕ４、Ｕ５、Ｕ８が活性化している。

【0055】

この場合において、後段抽出部１３４は、後段処理層である出力層Ｍ２０から出力された後段第１撮像画像出力であるユニットＵ５、Ｕ８、及び出力層Ｍ２０から出力された後段第２撮像画像出力であるユニットＵ３、Ｕ５を比較する。そして、後段抽出部１３４は、共通に活性化している後段第１撮像画像出力のユニットＵ５及び後段第２撮像画像出力のユニットＵ５を抽出する。

【0056】

続いて、前段抽出部１３５は、後段第１撮像画像出力のユニットＵ５を活性化させる要因となった前段処理層である全結合層Ｍ１９から出力された前段第１撮像画像出力であるユニットＵ２、Ｕ５、Ｕ６、及び後段第２撮像画像出力のユニットＵ５を活性化させる要因となった全結合層Ｍ１９から出力された前段第２撮像画像出力であるユニットＵ２、Ｕ５、Ｕ８を比較する。そして、前段抽出部１３５は、共通に活性化している前段第１撮像画像出力のユニットＵ２、Ｕ５、及び前段第２撮像画像出力のユニットＵ２、Ｕ５を抽出する。

【0057】

抽出部１３３は、出力層Ｍ２０から全結合層Ｍ１９までの出力を抽出すると、次の処理層に対する出力を抽出する。具体的には、抽出部１３３は、処理層ごとに、共通に活性化している第１撮像画像出力及び第２撮像画像出力を抽出する処理を、伝搬制御部１３２が伝搬させた順序とは逆の順序で繰り返し行う。より具体的には、抽出部１３３は、複数の処理層のうち一つの層を後段処理層として選択して一以上の第１撮像画像出力及び一以上の第２撮像画像出力を抽出した後に、前段処理層として選択した処理層を後段処理層として選択して、別の一以上の第１撮像画像出力及び一以上の第２撮像画像出力を抽出する。このようにすることで、抽出部１３３は、第１撮像画像及び第２撮像画像に対する比較の精度を高めることができる。

【0058】

図５は、第１撮像画像に基づいて、前段処理層から後段処理層に伝搬させた状態を示している。図６は、第２撮像画像に基づいて、前段処理層から後段処理層に伝搬させた状態を示している。図５及び図６の場合において、後段処理層は、全結合層Ｍ１８であり、前段処理層は、全結合層以外の処理層（例えば、プーリング層又は畳み込み層等）である。図５及び図６においては、前段処理層がプーリング層Ｍ１７であるとして説明する。また、図５及び図６において、前段処理層は、３つのチャンネルを有する。上段の第１チャンネルは、ユニットＵ１１、Ｕ１２、Ｕ１３、Ｕ１４、及びＵ１５を含む。中段の第２チャンネルは、ユニットＵ２１、Ｕ２２、Ｕ２３、Ｕ２４、及びＵ２５を含む。下段の第３チャンネルは、ユニットＵ３１、Ｕ３２、Ｕ３３、Ｕ３４、及びＵ３５を含む。

【0059】

第１撮像画像において、プーリング層Ｍ１７は、第１チャンネルに含まれるユニットＵ１３及び第２チャンネルに含まれるユニットＵ２１、Ｕ２４が活性化している。第２撮像画像において、全結合層Ｍ１８は、第２チャンネルに含まれるユニットＵ２２、Ｕ２４、Ｕ２５及び第３チャンネルに含まれるユニットＵ３２、Ｕ３３が活性化している。

【0060】

前段抽出部１３５は、後段第１撮像画像出力のユニットＵ５を活性化させる要因となった前段処理層であるプーリング層Ｍ１７から出力された前段第１撮像画像出力、及び後段第２撮像画像出力のユニットＵ５を活性化させる要因となったプーリング層Ｍ１７から出力された前段第２撮像画像出力を比較する。前段抽出部１３５は、活性化しているユニットの有無を調べ、活性化している前段第１撮像画像出力の第１チャンネルに含まれるユニットＵ１３及び第２チャンネルに含まれるＵ２１、Ｕ２４と、前段第２撮像画像出力の第２チャンネルに含まれるユニットＵ２２、Ｕ２４、Ｕ２５及び第３チャンネルに含まれるＵ３２、Ｕ３３とに着目する。

【0061】

そして、前段抽出部１３５は、前段第１撮像画像出力と前段第２撮像画像出力との両方において活性化しているユニットが存在しているチャンネルが第２チャンネルであることから、前段第１撮像画像出力の第２チャンネルに含まれるユニットＵ２１、Ｕ２４及び前段第２撮像画像出力の第２チャンネルに含まれるユニットＵ２２、Ｕ２４、Ｕ２５を抽出する。

【0062】

図７の場合において、後段処理層は、プーリング層Ｍ１６であり、前段処理層は、プーリング層以外の処理層（例えば、畳み込み層又は正規化層等）である。図７においては、前段処理層が畳み込み層Ｍ１５であるとして説明する。また、図７において、前段処理層は、チャンネルが１つであるとして説明する。第１撮像画像において、プーリング層Ｍ１６は、ユニットＵ５が活性化しており、畳み込み層Ｍ１５は、ユニットＵ３、Ｕ５が活性化している。第２撮像画像において、プーリング層Ｍ１６は、ユニットＵ３が活性化しており、畳み込み層Ｍ１５は、ユニットＵ３、Ｕ４が活性化している。

【0063】

ここで、抽出部１３３は、画像の圧縮を行うプーリング層においては、直前の処理層からプーリング層に結合している複数のユニットのうち、チャンネルごとに活性化している程度に基づいて出力を抽出する。具体的には、前段抽出部１３５は、複数の前段第１撮像画像出力及び複数の前段第２撮像画像出力のうち、活性化している大きさに基づいて、一以上の前段第１撮像画像出力及び一以上の前段第２撮像画像出力を抽出する。前段抽出部１３５は、例えば、複数の前段第１撮像画像出力及び複数の前段第２撮像画像出力のうち、チャンネルごとに最も大きく活性化している一以上の前段第１撮像画像出力及び一以上の前段第２撮像画像出力を抽出する。

【0064】

この場合において、後段抽出部１３４は、直前の抽出処理において前段処理層として選択したプーリング層Ｍ１６を選択して、プーリング層Ｍ１６から出力された後段第１撮像画像出力のユニットＵ５、及びプーリング層Ｍ１６から出力された後段第２撮像画像出力のユニットＵ３を抽出する。そして、前段抽出部１３５は、後段第１撮像画像出力のユニットＵ３、Ｕ５及び後段第２撮像画像出力のユニットＵ３、Ｕ４のうち、チャンネルごとに最も大きく活性化している前段第１撮像画像出力のユニットＵ５、及び前段第２撮像画像出力のユニットＵ４を抽出する。このようにすることで、前段抽出部１３５は、画像の中で特徴となる領域を特定することができる。

【0065】

図８の場合において、後段処理層は、畳み込み層Ｍ１４であり、前段処理層は、畳み込み層を含む他の処理層（例えば、正規化層又はプーリング層等）である。図８においては、前段処理層が正規化層Ｍ１３であるとして説明する。また、図８において、前段処理層は、チャンネルが１つであるとして説明する。第１撮像画像において、畳み込み層Ｍ１４は、ユニットＵ５が活性化しており、正規化層Ｍ１３は、ユニットＵ３、Ｕ５、Ｕ６が活性化している。第２撮像画像において、畳み込み層Ｍ１４は、ユニットＵ３が活性化しており、正規化層Ｍ１３は、ユニットＵ３、Ｕ４、Ｕ５が活性化している。

【0066】

この場合において、後段抽出部１３４は、直前の抽出処理において前段処理層として選択した畳み込み層Ｍ１４を選択して、畳み込み層Ｍ１４から出力された後段第１撮像画像出力のユニットＵ５、及び畳み込み層Ｍ１４から出力された後段第２撮像画像出力のユニットＵ３を抽出する。

【0067】

続いて、前段抽出部１３５は、後段第１撮像画像出力のユニットＵ５を活性化させる要因となった前段処理層である正規化層Ｍ１３から出力された前段第１撮像画像出力、及び後段第２撮像画像出力のユニットＵ３を活性化させる要因となった前段処理層である正規化層Ｍ１３から出力された前段第２撮像画像出力を比較する。ここで、前段抽出部１３５は、後段処理層が畳み込み層である場合、後段抽出部１３４が後段処理層から抽出したユニットに結合する前段処理層の複数のユニットのうち、前段第１撮像画像出力と前段第２撮像画像出力とにおいて位置が相対的に同じであり、かつチャンネルが共通するユニットを抽出する。この場合、前段抽出部１３５は、前段第１撮像画像出力と前段第２撮像画像出力とにおいて位置が相対的に同じであり、かつチャンネルが共通するユニットとして、前段第１撮像画像出力のユニットＵ５、Ｕ６、及び前段第２撮像画像出力のユニットＵ３、Ｕ４を抽出する。

【0068】

図９の場合において、後段処理層は、正規化層Ｍ１２であり、前段処理層は、正規化層以外の処理層（例えば、畳み込み層又はプーリング層等）である。図９においては、前段処理層がプーリング層Ｍ１１であるとして説明する。また、図９において、前段処理層は、チャンネルが１つであるとして説明する。第１撮像画像において、正規化層Ｍ１２は、ユニットＵ５が活性化している。第２撮像画像において、正規化層Ｍ１２は、ユニットＵ３が活性化している。

【0069】

ここで、抽出部１３３は、画像に対して前処理を行う正規化層においては、後段処理層において活性化しているユニットに結合している前段処理層に含まれる複数のユニットのうち、中心のユニットを抽出する。この場合において、後段抽出部１３４は、後段処理層として選択した正規化層Ｍ１２から出力された後段第１撮像画像出力のユニットＵ５、及び正規化層Ｍ１２から出力された後段第２撮像画像出力のユニットＵ３を抽出する。

【0070】

そして、前段抽出部１３５は、正規化層Ｍ１２から出力された後段第１撮像画像出力のユニットＵ５に結合しているプーリング層Ｍ１１のユニットのうち、中心のユニットＵ５を抽出する。同様に、前段抽出部１３５は、正規化層Ｍ１２から出力された後段第２撮像画像出力のユニットＵ３に結合しているプーリング層Ｍ１１のユニットのうち、中心のユニットＵ３を抽出する。

【0071】

抽出部１３３は、上述の抽出処理を入力層まで繰り返し行うことが好ましい。しかし、抽出部１３３は、抽出処理を最初の処理層まで行わずに、途中の処理層（例えば、プーリング層又は正規化層等）で終了してもよい。このように、抽出部１３３は、伝搬制御部１３２が伝搬させた順序とは逆の順序で抽出処理を行うことにより、抽象度が高い出力を抽出することができる。

【0072】

［空間情報生成装置１の処理］
続いて、空間情報生成装置１が行う処理の流れを説明する。図１０は、空間情報生成装置１が行う処理の流れを示すフローチャートである。本フローチャートは、記憶部１２に記憶されている第１撮像画像と第２撮像画像とを取得したことを契機として開始する（Ｓ１）。

【0073】

画像取得部１３１は、取得した第１撮像画像と第２撮像画像とを、伝搬制御部１３２に入力する。伝搬制御部１３２は、画像取得部１３１から入力された第１撮像画像及び第２撮像画像のそれぞれに、機械学習モデルＭに含まれる入力層Ｍ１から出力層Ｍ１０までの複数の処理層を、入力層Ｍ１から順に伝搬させる（Ｓ２）。

【0074】

抽出部１３３は、後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力を抽出する処理を行う（Ｓ３）。図１１は、抽出部１３３が行う処理の流れを示すフローチャートである。抽出部１３３は、指示受付部１３６が、操作部１１を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付けたか否かを判定する（Ｓ３１）。

【0075】

抽出部１３３は、指示受付部１３６が指示を受け付けたと判定した場合、指示受付部１３６が受け付けた指示が示す処理層を、後段処理層として選択する（Ｓ３２）。抽出部１３３は、例えば、指示受付部１３６が第１の全結合層Ｍ８を示す指示を受け付けたと判定した場合、指示受付部１３６が受け付けた指示が示す第１の全結合層Ｍ８を、後段処理層として選択する。一方、抽出部１３３は、指示受付部１３６が指示を受け付けていないと判定した場合、最後尾層（例えば、出力層Ｍ１０）で共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力があるか否かを判定する（Ｓ３３）。

【0076】

抽出部１３３は、出力層Ｍ１０で共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力があると判定した場合、最後尾層である出力層Ｍ１０を、後段処理層として使用する（Ｓ３４）。一方、抽出部１３３は、出力層Ｍ１０で共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力がないと判定した場合、出力層Ｍ１０より前の各処理層に対して、共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力を繰り返し探索する。そして、抽出部１３３は、共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力がある処理層（例えば、第２の全結合層Ｍ９）を、後段処理層として使用する（Ｓ３５）。抽出部１３３は、選択した後段処理層、及び前段処理層の両方の処理層において共通に活性化している、第１撮像画像に基づいて後段処理層及び前段処理層から出力された一以上の第１撮像画像出力と第２撮像画像に基づいて後段処理層及び前段処理層から出力された一以上の第２撮像画像出力とを抽出する。

【0077】

具体的には、まず、後段抽出部１３４は、選択した後段処理層から出力された複数の後段第１撮像画像出力、及び選択した後段処理層から出力された複数の後段第２撮像画像出力から、共通に活性化している一以上の後段第１撮像画像出力及び一以上の後段第２撮像画像出力を抽出する（Ｓ３６）。そして、前段抽出部１３５は、後段抽出部１３４が抽出した一以上の後段第１撮像画像出力及び一以上の後段第２撮像画像出力を活性化させる要因となった前段処理層から出力された複数の前段第１撮像画像出力、及び前段処理層から出力された複数の前段第２撮像画像出力のうち、共通に活性化している一以上の前段第１撮像画像出力及び一以上の前段第２撮像画像出力を抽出する（Ｓ３７）。

【0078】

続いて、抽出部１３３は、前段処理層より前に別の処理層があるか否かを判定する（Ｓ３８）。抽出部１３３は、前段処理層（例えば、第２のプーリング層Ｍ７）より前に別の処理層（例えば、第３の畳み込み層Ｍ６）があると判定した場合、第２のプーリング層Ｍ７を後段処理層として選択し（Ｓ３９）、処理をＳ３６に戻す。一方、抽出部１３３は、前段処理層（例えば、入力層Ｍ１）より前に別の処理層がないと判定した場合、抽出した一以上の第１撮像画像出力及び一以上の第２撮像画像出力を特徴点検出部１３７に入力し、抽出処理を終了する。

【0079】

図１０に戻り、特徴点検出部１３７は、一以上の第１撮像画像出力及び一以上の第２撮像画像出力に基づいて、対応する特徴点を探索し、対応関係にある一以上の第１撮像画像出力に基づく一以上の第１撮像画像特徴点と、一以上の第２撮像画像出力に基づく一以上の第２撮像画像特徴点とを検出する（Ｓ４）。続いて、選択部１３８は、特徴点検出部１３７が検出した第１撮像画像特徴点及び第２撮像画像特徴点に不適切な特徴点があるか否かを判定する（Ｓ５）。選択部１３８は、例えば、ＲＡＮＳＡＣ法に基づいて絞り込みを行う。

【0080】

選択部１３８は、第１撮像画像特徴点及び第２撮像画像特徴点に不適切な特徴点があると判定した場合、不適切な特徴点、すなわち、誤検出した対応関係にある第１撮像画像特徴点及び第２撮像画像特徴点を除去し（Ｓ６）、除去した後の対応関係に基づく一部の第１撮像画像特徴点及び一部の第２撮像画像特徴点を選択する。空間情報生成部１３９は、選択部１３８が、第１撮像画像特徴点及び第２撮像画像特徴点に不適切な特徴点がないと判定した場合、又は誤検出した対応関係を除去した後に、一以上の第１撮像画像特徴点と一以上の第２撮像画像特徴点とに基づいて、空間情報を生成する（Ｓ７）。

【0081】

具体的には、空間情報生成部１３９は、まず、第１撮像画像における一部の第１撮像画像特徴点の位置と、第２撮像画像における一部の第２撮像画像特徴点の位置との関係、並びに第１撮像装置及び第２撮像装置の視差に基づいて、被写体との距離を推定する。そして、空間情報生成部１３９は、推定した被写体との距離に基づいて、３次元空間における被写体の表面位置を示す空間情報を生成する。空間情報生成部１３９は、生成した空間情報を記憶部１２に記憶させる。

【0082】

［実施形態における効果］
以上説明したとおり、空間情報生成装置１は、取得した第１撮像画像及び第２撮像画像のそれぞれに、機械学習モデルＭに含まれる複数の処理層を伝搬させる。空間情報生成装置１は、伝搬させた順とは逆の順序で後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の第１撮像画像出力及び一以上の第２撮像画像出力を、処理層ごとに抽出し、対応関係にある第１撮像画像特徴点及び第２撮像画像特徴点をそれぞれ検出する。そして、空間情報生成装置１は、誤検出した対応関係を除去した一以上の第１撮像画像特徴点と一以上の第２撮像画像特徴点とに基づいて、空間情報を生成する。

【0083】

このようにすることで、空間情報生成装置１は、畳み込みニューラルネットワークを含む機械学習モデルＭを使用し、深層学習による抽象度が高い特徴量を求めることにより、被写体との距離を算出することができる。その結果、空間情報生成装置１は、３次元空間における被写体の表面位置を推定する精度を向上させることができる。

【0084】

空間情報生成装置１は、例えば、複数の車載カメラから撮像した多視点画像を用いて、障害物との距離を示す情報を自動車の自動運転技術に提供することにより、障害物をより安全に回避させることができる。また、空間情報生成装置１は、例えば、車載カメラと路上カメラとの併用により撮像した多視点画像を用いて、自動車からでは物陰で見えない歩行者等の位置を示す情報を自動車に提供することにより、ドライバーに歩行者等の飛び出しを警告することができる。空間情報生成装置１は、多視点画像に基づく歩行者等の位置を示す空間情報と自由視点映像生成技術とを併用することにより、物陰を透視したかのような映像を作ることができる。

【0085】

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

【符号の説明】

【0086】

１空間情報生成装置
１１操作部
１２記憶部
１３制御部
１３１画像取得部
１３２伝搬制御部
１３３抽出部
１３４後段抽出部
１３５前段抽出部
１３６指示受付部
１３７特徴点検出部
１３８選択部
１３９空間情報生成部

【図1】