(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023163669
(43)【公開日】2023-11-10
(54)【発明の名称】情報処理方法及び情報処理装置
(51)【国際特許分類】
G06V 20/58 20220101AFI20231102BHJP
G06N 20/00 20190101ALI20231102BHJP
G06T 7/00 20170101ALI20231102BHJP
G06V 10/774 20220101ALI20231102BHJP
【FI】
G06V20/58
G06N20/00 130
G06T7/00 350B
G06T7/00 650A
G06V10/774
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022074720
(22)【出願日】2022-04-28
(71)【出願人】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【弁理士】
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100095500
【弁理士】
【氏名又は名称】伊藤 正和
(74)【代理人】
【識別番号】100098327
【弁理士】
【氏名又は名称】高松 俊雄
(72)【発明者】
【氏名】劉 賀
(72)【発明者】
【氏名】植田 宏寿
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA04
5L096CA02
5L096EA03
5L096EA15
5L096EA16
5L096FA54
5L096FA67
5L096GA34
5L096GA51
5L096KA04
(57)【要約】
【課題】水増し後の学習データの、推論モデルの適用範囲内における有効性及び網羅性を担保して、推論モデルの精度の向上、及び、推論モデルによる学習の効率の向上を図ることができる情報処理方法及び情報処理装置を提供する。
【解決手段】情報処理方法及び情報処理装置は、撮像部により車両の前方を撮像した第1画像に対し、第1画像を構成するピクセルごとに車両が走行する路面標示を識別する第1ラベルが付与されたラベル画像を取得する。そして、撮像部の仮想的な撮像姿勢を示す仮想姿勢情報を生成し、仮想姿勢情報に基づいてラベル画像を視点変換することで対応した教師ラベル画像を生成する。教師ラベル画像に基づいて機械学習を行うことにより、第1画像に基づいて路面標示を識別する学習モデルを生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
車両に搭載された撮像部により前記車両の前方を撮像した第1画像に対し、前記第1画像を構成するピクセルごとに前記車両が走行する路面標示を識別する第1ラベルが付与されたラベル画像が入力されるコントローラを制御する情報処理方法であって、
前記コントローラは、
前記撮像部の仮想的な撮像姿勢を示す仮想姿勢情報を生成し、
前記仮想姿勢情報に基づいて前記ラベル画像を視点変換することで教師ラベル画像を生成し、
前記教師ラベル画像に基づいて機械学習を行うことにより、前記第1画像に基づいて前記路面標示を識別する学習モデルを生成すること
を特徴とする情報処理方法。
【請求項2】
請求項1に記載された情報処理方法であって、
前記コントローラは、
前記車両が走行する道路に対して前記車両が実際に取りうる車両姿勢を示す車両姿勢情報を生成し、
前記車両姿勢情報に基づいて、前記撮像部が実際に取りうる撮像姿勢を可能姿勢情報として生成し、
前記可能姿勢情報を前記仮想姿勢情報として設定すること
を特徴とする情報処理方法。
【請求項3】
請求項1に記載された情報処理方法であって、
前記コントローラは、
前記車両が走行する道路に対して前記車両が実際に取りうる車両姿勢を示す車両姿勢情報を生成し、
前記車両姿勢情報に基づいて、前記撮像部が実際に取りうる撮像姿勢を可能姿勢情報 として生成し、
前記教師ラベル画像の中から、前記可能姿勢情報に対応付けられる前記教師ラベル画像を特定教師ラベル画像として抽出し、
前記特定教師ラベル画像に基づいて前記機械学習を行うこと
を特徴とする情報処理方法。
【請求項4】
請求項2に記載された情報処理方法であって、
前記車両姿勢情報によって示される前記車両姿勢は、正規分布に従うこと
を特徴とする情報処理方法。
【請求項5】
請求項1に記載された情報処理方法であって、
前記コントローラは、
前記教師ラベル画像のそれぞれに対して、前記第1ラベルごとのピクセル数を算出し、
前記教師ラベル画像の中から、前記第1ラベルのうち学習対象ラベルについて所定値以上の前記ピクセル数を有する前記教師ラベル画像を特定教師ラベル画像として抽出し、
前記特定教師ラベル画像に基づいて前記機械学習を行うこと
を特徴とする情報処理方法。
【請求項6】
請求項1に記載された情報処理方法であって、
前記コントローラは、
前記教師ラベル画像の中から特定教師ラベル画像を抽出する際、前記特定教師ラベル画像にわたって、前記第1ラベルのうち学習対象ラベル以外の前記第1ラベルごとのピクセル数の合計を算出し、
前記合計の前記第1ラベル間での差が所定閾値以下となるように、前記教師ラベル画像の中から特定教師ラベル画像を抽出し、
前記特定教師ラベル画像に基づいて前記機械学習を行うこと
を特徴とする情報処理方法。
【請求項7】
請求項1に記載された情報処理方法であって、
前記コントローラは、
前記仮想姿勢情報に対応した、拡大縮小、回転、及び、並進の少なくとも一つを表すホモグラフィ変換行列を算出し、
前記ラベル画像を、前記ホモグラフィ変換行列を用いて前記教師ラベル画像に変換すること
を特徴とする情報処理方法。
【請求項8】
請求項1~7のいずれか一項に記載された情報処理方法であって、
前記コントローラは、
前記撮像部により前記車両の前方を撮像した第2画像を取得し、
前記第2画像が入力された前記学習モデルからの出力を算出することにより、前記第2画像を構成するピクセルごとに前記車両が走行する路面標示を識別する第2ラベルを取得すること
を特徴とする情報処理方法。
【請求項9】
取得部と、コントローラと、を備える情報処理装置であって、
前記取得部は、
車両に搭載された撮像部により前記車両の前方を撮像した第1画像に対し、前記第1画像を構成するピクセルごとに前記車両が走行する路面標示を識別する第1ラベルが付与されたラベル画像を取得し、
前記コントローラは、
前記撮像部の仮想的な撮像姿勢を示す仮想姿勢情報を生成し、
前記仮想姿勢情報に基づいて前記ラベル画像を視点変換することで教師ラベル画像を生成し、
前記教師ラベル画像に基づいて機械学習を行うことにより、前記第1画像に基づいて前記路面標示を識別する学習モデルを生成すること
を特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法及び情報処理装置に関する。
【背景技術】
【0002】
学習データ不足の問題を解消するため、水増し前の多次元量の学習データに対して水増し後の複数の学習データを推論モデルに入力させ、複数の学習データに対して各々出力された予測ラベルの確率分布のうち、水増し前の学習データの正解との誤差を尺度として選択される少なくとも1つの確率分布を用いて、水増し前の学習データの正解との誤差に基づき学習する学習方法及び装置が提案されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1によれば、水増し後の複数の学習データの、推論モデルの適用範囲内における有効性及び網羅性が考慮されていない。そのため、推論モデルの精度向上を図ることができず、推論モデルによる学習の効率が低下するという問題がある。
【0005】
本発明は、上記問題に鑑みてなされたものである。その目的とするところは、水増し後の学習データの、推論モデルの適用範囲内における有効性及び網羅性を担保して、推論モデルの精度の向上、及び、推論モデルによる学習の効率の向上を図ることができる情報処理方法及び情報処理装置を提供することにある。
【課題を解決するための手段】
【0006】
上述した問題を解決するために、本発明の一態様に係る情報処理方法及び情報処理装置は、撮像部により車両の前方を撮像した第1画像に対し、第1画像を構成するピクセルごとに車両が走行する路面標示を識別する第1ラベルが付与されたラベル画像を取得する。そして、撮像部の仮想的な撮像姿勢を示す仮想姿勢情報を生成し、仮想姿勢情報に基づいてラベル画像を視点変換することで対応した教師ラベル画像を生成する。教師ラベル画像に基づいて機械学習を行うことにより、第1画像に基づいて路面標示を識別する学習モデルを生成する。
【発明の効果】
【0007】
本発明によれば、水増し後の学習データの、推論モデルの適用範囲内における有効性及び網羅性を担保して、推論モデルの精度の向上、及び、推論モデルによる学習の効率の向上を図ることができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、本発明の一実施形態に係る情報処理装置の構成を示すブロック図である。
【
図2】
図2は、本発明の一実施形態に係る情報処理装置の第1処理例を示すフローチャートである。
【
図3】
図3は、本発明の一実施形態に係る情報処理装置の第2処理例を示すフローチャートである。
【発明を実施するための形態】
【0009】
次に、図面を参照して、本発明の実施の形態を詳細に説明する。説明において、同一のものには同一符号を付して重複説明を省略する。
【0010】
[情報処理装置の構成]
図1は、本実施形態に係る情報処理装置の構成を示すブロック図である。
図1に示すように、本実施形態に係る情報処理装置は、取得部71と、データベース73と、コントローラ100と、出力部400と、を備える。コントローラ100は、有線あるいは無線の通信路によって、取得部71、データベース73、出力部400と接続されている。
【0011】
取得部71は、コントローラ100における機械学習(又は深層学習)のために用いる教師データを取得する。特に、取得部71は、教師データとして「ラベル画像」を取得する。「ラベル画像」とは、車両に搭載された撮像部(カメラなど)により車両の前方を撮像した第1画像に対し、第1画像を構成するピクセルごとに車両が走行する路面標示を識別する第1ラベルが付与された画像である。
【0012】
第1ラベルにより識別される路面標示には種々の路面標示が挙げられる。路面標示には、実線、点線、ゼブラ、横断歩道、停止線、矢印(直進左折、直進右折、直進、左折、右折、交差点内など)といった種々のものが含まれうる。路面標示は、ここに挙げた例に限定されない。
【0013】
なお、ラベル画像は、人が第1画像を目視で確認して第1画像を構成するピクセルごとに第1ラベルを付与する、いわゆる「アノテーション」によって生成されるものであってもよい。
【0014】
取得部71が取得したラベル画像は、コントローラ100、及び、データベース73に入力される。その他、取得部71は、撮像部により車両の前方を撮像した第2画像を取得するものであってもよい。
【0015】
データベース73は、ラベル画像を記憶する。その他、コントローラ100によって生成された種々の情報を記憶するものであってもよい。例えば、データベース73は、後述する仮想姿勢情報、車両姿勢情報、可能姿勢情報、教師ラベル画像、特定教師ラベル画像、学習モデルなどを記憶するものであってもよい。特に、データベース73は、仮想姿勢情報と教師ラベル画像を対応付けて記憶するものであってもよい。
【0016】
出力部400は、コントローラ100によって生成された種々の情報を出力する。例えば、出力部400は、後述する学習モデルからの出力を、外部に出力するものであってもよい。
【0017】
コントローラ100(制御部または処理部の一例)は、CPU(中央処理装置)、メモリ、及び入出力部を備える汎用のコンピュータである。コントローラ100には、情報処理装置の一部として機能させるためのコンピュータプログラム(情報処理プログラム)がインストールされている。コンピュータプログラムを実行することにより、コントローラ100は、情報処理装置が備える複数の情報処理回路(110、120、130、140、150)として機能する。
【0018】
なお、ここでは、ソフトウェアによって情報処理装置が備える複数の情報処理回路(110、120、130、140、150)を実現する例を示す。ただし、以下に示す各情報処理を実行するための専用のハードウェアを用意して、情報処理回路(110、120、130、140、150)を構成することも可能である。また、複数の情報処理回路(110、120、130、140、150)を個別のハードウェアにより構成してもよい。
【0019】
コントローラ100は、複数の情報処理回路(110、120、130、140、150)として、姿勢情報生成部110、ラベル画像変換部120、教師データ抽出部130、学習モデル生成部140、評価部150を備える。
【0020】
姿勢情報生成部110は、撮像部の仮想的な撮像姿勢を示す仮想姿勢情報を生成する。ここで、「撮像姿勢」とは、撮像部の撮像位置および撮像方向を含む概念である。仮想姿勢情報は、後述するラベル画像変換部120によって行われる画像の変換(例えば、ホモグラフィ変換)を特徴づけるパラメータであってもよい。例えば、仮想姿勢情報は、第1画像を撮像した際の撮像部の視点から、仮想的に配置される撮像部の視点へ視点変換を行うためのパラメータであってもよい。言い換えるなら、仮想姿勢情報は、視点変換に対応するホモグラフィ変換行列に含まれる拡大縮小成分、回転成分、並進成分を特徴づけるパラメータであってもよい。
【0021】
なお、本実施形態に登場するホモグラフィ変換は、反転を行うものではない点に注意する。すなわち、第1画像を撮像した際の撮像部の視点から、仮想的に配置される撮像部の視点へ視点変換する際に、画像の鏡像反転は生じないものとする。
【0022】
姿勢情報生成部110は、仮想姿勢情報は、ホモグラフィ変換行列に含まれる拡大縮小成分、回転成分、並進成分を特徴づけるパラメータが取りうる範囲で、複数の仮想姿勢情報を生成するものであってもよい。なお、生成された仮想姿勢情報には、撮像部が実際には取ることができない撮像姿勢に対応するものも含まれうる。
【0023】
姿勢情報生成部110は、車両が走行する道路に対して車両が実際に取りうる車両姿勢を示す車両姿勢情報を生成するものであってもよい。姿勢情報生成部110は、複数の車両姿勢情報を生成するものであってもよい。
【0024】
例えば、車両の前後方向の長さをL、左右方向の幅をW、高さをHとする。また、車両の前後輪間の距離をIとする。さらに、車両が走行する車線の幅をKとする。
【0025】
姿勢情報生成部110は、車両が実際に取りうる車両姿勢のうち、車両のローリング角αを、[-Arctan(0.4H/W),Arctan(0.4H/W)]の範囲の値に制限してもよい。車両が実際に取りうる車両姿勢のうち、車両のピッチング角βを、[-Arctan(0.4H/I),Arctan(0.4H/I)]の範囲の値に制限してもよい。車両が実際に取りうる車両姿勢のうち、車両のヨーイング角γを、[-Arcsin(0.5K/L),Arcsin(0.5K/L)]の範囲の値に制限してもよい。なお、角度の範囲の指定方法は、ここに挙げた例に限定されない。
【0026】
また、姿勢情報生成部110は、車両の前後方向の並進成分Δxを、[-5m,5m]の範囲の値に制限してもよい。また、車両の左右方向の並進成分Δyを、[-(K-W)/2,(K-W)/2]の範囲の値に制限してもよい。さらに、車両の高さ方向の並進成分Δzを、[-0.2H,0.2H]の範囲の値に制限してもよい。なお、並進成分の範囲の指定方法は、ここに挙げた例に限定されない。
【0027】
姿勢情報生成部110は、制限された範囲の中から、ローリング角α、ピッチング角β、ヨーイング角γ、並進成分Δx、Δy、Δz(6成分)の複数の組合せを、網羅的にサンプリングして設定することで、複数の車両姿勢情報を生成してもよい。例えば、車両が実際に取りうる車両姿勢の範囲として、ローリング角α、ピッチング角β、ヨーイング角γ、並進成分Δx、Δy、Δz(6成分)に対して、上限値から下限値までの範囲で一定間隔で仮想姿勢情報を生成することで、網羅的にサンプリングして設定することができる。
【0028】
なお、姿勢情報生成部110によって生成される車両姿勢情報によって示される車両姿勢は、正規分布に従うものであってもよい。すなわち、姿勢情報生成部110によって複数の車両姿勢情報が生成される場合、車両のローリング角α、ピッチング角β、ヨーイング角γ、Δx、Δy、Δzは、0を平均とする正規分布に従う値の分布を有するものであってもよい。なお、正規分布の標準偏差は、車両の前後方向の長さL、左右方向の幅W、高さH、車両の前後輪間の距離I、車両が走行する車線の幅Kな音基づいて設定されるものであってもよい。
【0029】
また、姿勢情報生成部110は、車両姿勢情報に基づいて、車両が走行する道路に対して撮像部が実際に取りうる撮像姿勢を可能姿勢情報として生成するものであってもよい。撮像部が車両に固定されている場合、撮像部の車両への取り付け角度が設定されることにより、車両姿勢情報に基づいて可能姿勢情報を一意に決定できる。したがって、姿勢情報生成部110は、車両姿勢情報に基づいて可能姿勢情報を生成することができる。
【0030】
さらに、姿勢情報生成部110は、上述した可能姿勢情報を仮想姿勢情報として設定するものであってもよい。この場合、車両が走行する道路に対して車両が実際に取りうる車両姿勢に基づいて、仮想姿勢情報が設定されることになる。
【0031】
ラベル画像変換部120は、仮想姿勢情報に基づいてラベル画像を視点変換することで、教師ラベル画像を生成する。例えば、ラベル画像変換部120は、第1画像を撮像した際の撮像部の視点から、仮想姿勢情報に基づいて仮想的に配置される撮像部の視点へ視点変換を行って変換後の画像を生成する。
【0032】
その際、ラベル画像変換部120は、変換後の画像を構成するピクセルに視点変換によって対応付けられる第1画像を構成するピクセルに付与されている第1ラベルを、変換後の画像を構成するピクセルに対して付与する。このようにして、変換後の画像を構成するピクセルに対して第1ラベルを付与して、ラベル画像変換部120は教師ラベル画像を生成する。
【0033】
なお、ラベル画像変換部120は、ラベル画像を、ホモグラフィ変換行列を用いて教師ラベル画像に変換するものであってもよい。すなわち、ラベル画像変換部120は、この場合、第1画像に対してホモグラフィ変換を行って、変換後の画像を生成するものであってもよい。
【0034】
複数の仮想姿勢情報が生成されている場合、ラベル画像変換部120は、生成された仮想姿勢情報ごとにラベル画像を変換して、仮想姿勢情報に対応した教師ラベル画像を生成する。
【0035】
教師データ抽出部130は、ラベル画像変換部120によって生成された複数の教師ラベル画像から、後述する学習モデル生成部140で用いる教師ラベル画像を特定教師ラベル画像として抽出する。教師データ抽出部130は、生成された複数の教師ラベル画像の全てを、特定教師ラベル画像として抽出してもよい。
【0036】
また、教師データ抽出部130は、教師ラベル画像の中から、可能姿勢情報に対応付けられる教師ラベル画像を特定教師ラベル画像として抽出するものであってもよい。すなわち、教師データ抽出部130は、教師ラベル画像のうち可能姿勢情報に対応付けられない教師ラベル画像を除外して、残った教師ラベル画像を特定教師ラベル画像として抽出するものであってもよい。
【0037】
教師ラベル画像が、可能姿勢情報に対応付けられない場合、当該教師ラベル画像は、車両が走行する道路に対して車両が実際に取りえない車両姿勢において、撮像部を介して取得される画像に対応する。教師データの有効性の観点から、車両が実際に取りえない車両姿勢における教師データは、非現実のデータであり、有効なデータではない。そのため、車両が実際に取りえない車両姿勢における教師データを、学習モデル生成部140で行う機械学習の対象とすべきではない。そのため、学習モデル生成部140は、可能姿勢情報に対応付けられない教師ラベル画像を除外するものであってもよい。
【0038】
その他、教師データ抽出部130は、教師ラベル画像のそれぞれに対して、第1ラベルごとのピクセル数を算出するものであってもよい。そして、教師データ抽出部130は、 教師ラベル画像の中から、第1ラベルのうち学習対象ラベルについて所定値以上のピクセル数を有する教師ラベル画像を特定教師ラベル画像として抽出するものであってもよい。ここで、学習対象ラベルは、本実施形態に係る情報処理装置のユーザが、第1ラベルの中から指定されるラベルであってもよい。また、学習対象ラベルは、後述する評価部150によって第1ラベルの中から指定されるラベルであってもよい。
【0039】
これにより、学習対象ラベルが付与されたピクセル数が少ない第1画像を含む教師ラベル画像が特定教師ラベル画像から除外される。その結果、学習モデル生成部140で行う機械学習において、学習対象ラベルに係る学習の精度が低下することが抑制される。
【0040】
さらに、教師データ抽出部130は、教師ラベル画像の中から特定教師ラベル画像を抽出する際、特定教師ラベル画像にわたって、第1ラベルのうち学習対象ラベル以外の第1ラベルごとのピクセル数の合計を算出するものであってもよい。また、教師データ抽出部130は、合計の第1ラベル間での差が所定閾値以下となるように、教師ラベル画像の中から特定教師ラベル画像を抽出するものであってもよい。
【0041】
これにより、特定教師ラベル画像を抽出する際に、学習対象ラベル以外の第1ラベルに関する特定教師ラベル画像におけるデータの偏りを避けることができ、有効な特定教師ラベルを抽出することができる。その結果、学習モデル生成部140で行う機械学習において、学習対象ラベルに係る学習の精度が向上すると共に、後述する学習モデルに基づく路面標示の認識率を向上させることができる。
【0042】
学習モデル生成部140は、教師ラベル画像に基づいて機械学習(又は深層学習)を行うことにより、第1画像に基づいて路面標示を推定する学習モデルを生成する。特に、学習モデル生成部140は、教師データ抽出部130によって抽出された特定教師ラベル画像に基づいて機械学習を行うものであってもよい。
【0043】
ここで、機械学習によって生成される「学習モデル」は、第1画像と、第1画像を構成するピクセルごとに付与された第1ラベルの間の関係を表現するモデルである。学習モデルは、画像が入力された際に、画像を構成するピクセルごとに付与された第1ラベルの候補を出力するため、学習モデルによってセマンティックセグメンテーションを行うことができ、入力された画像から路面標示の特徴として、種別、形、位置、方向などを識別することができる。
【0044】
学習モデルがニューラルネットワークである場合、ニューラルネットワークは、入力層(又は、カーネル)、出力値が出力される出力層、入力層と出力層の間に設けられる少なくとも1層以上の隠れ層とを含み、入力層、隠れ層、出力層の順番に信号が伝搬する。
【0045】
入力層、隠れ層、出力層の各層は、1つ以上のユニットから構成される。層間のユニット同士が結合しており、各ユニットは活性化関数(例えば、シグモイド関数、正規化線形関数、ソフトマックス関数など)を有する。ユニットへの複数の入力に基づいて重み付きの合計が算出され、合計値を変数とする活性化関数の値が、ユニットの出力となる。例えば、機械学習では、ニューラルネットワークの各ユニットで合計を算出する際の重みが、学習モデルに係るパラメータとして調整される。
【0046】
学習モデル生成部140において機械学習を行う際、学習モデルを構成するニューラルネットワークの入力層に対して、画像が入力される。入力層に教師ラベル画像の画像が入力された際に出力層から出力される第1ラベルと、教師ラベル画像のピクセルごとに付与された第1ラベルとの間の差が小さくなるよう、学習モデルに係るパラメータが調整される。
【0047】
学習モデル生成部140は、例えば、ニューラルネットワークの出力に関する誤差を最小化するため、勾配降下法、確率的勾配降下法などを用いてもよい。学習モデル生成部140は、勾配降下法、確率的勾配降下法での勾配計算のため、誤差逆伝搬法を用いてもよい。
【0048】
ニューラルネットワークによる機械学習では汎化性能(未知データに対する判別能力)と過適合(学習モデル作成に使用したデータに対して適合する一方で汎化性能が改善しない現象)が問題となりうる。
【0049】
そこで、学習モデル生成部140における学習モデルの作成では、過適合を緩和するため、学習時の重みの自由度を制約する正則化などの手法を用いてもよい。その他にも、ニューラルネットワーク中のユニットを確率的に選別してそれ以外のユニットを無効化するドロップアウトなどの手法を用いてもよい。さらには、汎化性能を向上させるため、データ中の偏りをなくすデータ正則化、データ標準化、データ拡張などの手法を用いてもよい。
【0050】
その他、学習モデル生成部140は、生成した学習モデルを、出力部400を介して外部に出力するものであってもよい。
【0051】
評価部150は、学習モデルに対して画像を入力し、入力した画像に対してセマンティックセグメンテーションを行う。すなわち、評価部150は、撮像部により車両の前方を撮像した第2画像を学習モデルに対して入力する。評価部150は、第2画像が入力された学習モデルからの出力を算出することにより、第2画像を構成するピクセルごとに、第2ラベルを取得して、車両が走行する路面標示を識別する。
【0052】
なお、第2画像を撮像した撮像部は、学習モデルの生成に用いた第1画像を撮像した撮像部と同一であってもよいし、異なっていてもよい。また、第2画像に写りこむ領域を前方に有する車両は、第1画像に写りこむ領域を前方に有する車両と同一であってもよいし、異なっていてもよい。
【0053】
その他、評価部150は、第2画像を構成するピクセルごとに取得した第2ラベルを、出力部400を介して外部に出力するものであってもよい。
【0054】
また、評価部150は、追加学習を行って学習モデルを更新する必要があるかどうかを判定するものであってもよい。より具体的には、評価部150は、教師ラベル画像を用いて、学習モデルによりピクセルごとに推定した結果と教師ラベル画像においてピクセルごとに付与された第1ラベル(正解ラベル)との混同行列(TP/TN/FP/FN)を算出するものであってもよい。ここで、TP(真陽性)は、正しく、正解ラベルであると推定した数を表す。TN(真陰性)は、正しく、正解ラベルでないと推定した数を表す。FP(偽陽性)は、誤って、正解ラベルであると推定した数を表す。FN(偽陰性)は、誤って、正解ラベルでないと推定した数を表す。
【0055】
そして、評価部150は、混同行列に基づいて、学習モデルの精度、適合率、再現率、評価指標F値(F-measure)を算出してもよい。ここで、学習モデルの精度は、「(TP+TN)/(TP+TN+FP+FN)」によって算出される。適合率は、正解ラベルと推定されたものが実際に正解ラベルであった程度を測定する指標であり、「TP/(TP+FP)」によって算出される。再現率は、実際に正解ラベルであるものが、正解ラベルと推定された程度を測定する指標であり、「TP/(TP+FN)」によって算出される。
【0056】
評価指標F値は、適合率と再現率の調和平均「2×適合率×再現率/(適合率+再現率)」によって算出される。
【0057】
評価部150は、算出される評価指標F値に基づいて、学習対象ラベルを指定してもよい。目標となる推定精度を満たす学習モデルが得られるまで、教師データ抽出部130、学習モデル生成部140、評価部150での処理を繰り返し実行してもよい。
【0058】
[情報処理装置の第1処理例]
図2は、本実施形態に係る情報処理装置の第1処理例を示すフローチャートである。
図2に示す情報処理装置の処理は、所定の周期で繰り返し実行されるものであってもよい。
【0059】
ステップS101において、取得部71は、教師データとして「ラベル画像」を取得する。
【0060】
ステップS103において、姿勢情報生成部110は、車両が走行する道路に対して車両が実際に取りうる車両姿勢を示す車両姿勢情報を生成する。なお、姿勢情報生成部110は、車両が実際に取りうる車両姿勢の範囲から網羅的にサンプリングして、複数の車両姿勢情報を生成する。
【0061】
ステップS105において、姿勢情報生成部110は、車両姿勢情報に基づいて、車両が走行する道路に対して撮像部が実際に取りうる撮像姿勢を可能姿勢情報として生成し、可能姿勢情報を仮想姿勢情報として設定する。姿勢情報生成部110は、複数の仮想姿勢情報を設定する。
【0062】
ステップS107において、ラベル画像変換部120は、複数の仮想姿勢情報のうち、未選択である一の仮想姿勢情報を選択する。
【0063】
ステップS109において、ラベル画像変換部120は、選択された仮想姿勢情報に基づいてラベル画像を変換し、仮想姿勢情報に対応した教師ラベル画像を生成する。
【0064】
ステップS111において、ラベル画像変換部120は、未選択の仮想姿勢情報があるか否かを判定する。
【0065】
未選択の仮想姿勢情報があると判定された場合(ステップS111でYESの場合)には、ステップS107に戻る。
【0066】
一方、未選択の仮想姿勢情報がないと判定された場合(ステップS111でNOの場合)には、ステップS113において、教師データ抽出部130は、複数の教師ラベル画像から、学習モデル生成部140で用いる教師ラベル画像(特定教師ラベル画像)を抽出する。特定教師ラベル画像を抽出する際に、教師データ抽出部130は、学習対象ラベルを用いた抽出を行ってもよい。
【0067】
ステップS115において、学習モデル生成部140は、特定教師ラベル画像に基づいて機械学習(又は深層学習)を行うことにより、第1画像に基づいて第1ラベルを推定する学習モデルを生成する。その後、
図2のフローチャートは終了する。
【0068】
なお、学習モデルが生成された後、評価部150において、セマンティックセグメンテーションを行ってもよい。
【0069】
[情報処理装置の第2処理例]
図3は、本実施形態に係る情報処理装置の第2処理例を示すフローチャートである。本実施形態に係る情報処理装置は、
図1に示す第1処理例の代わりに、第2処理例を実行してもよい。
図3に示す情報処理装置の処理は、所定の周期で繰り返し実行されるものであってもよい。
【0070】
ステップS201において、取得部71は、教師データとして「ラベル画像」を取得する。
【0071】
ステップS205において、姿勢情報生成部110は、複数の仮想姿勢情報を生成する。なお、
図2のステップS105において設定される仮想姿勢情報とは異なり、生成された仮想姿勢情報には、撮像部が実際には取ることができない撮像姿勢に対応するものも含まれうる。
【0072】
ステップS207において、ラベル画像変換部120は、複数の仮想姿勢情報のうち、未選択である一の仮想姿勢情報を選択する。
【0073】
ステップS209において、ラベル画像変換部120は、選択された仮想姿勢情報に基づいてラベル画像を変換し、仮想姿勢情報に対応した教師ラベル画像を生成する。
【0074】
ステップS211において、ラベル画像変換部120は、未選択の仮想姿勢情報があるか否かを判定する。
【0075】
未選択の仮想姿勢情報があると判定された場合(ステップS211でYESの場合)には、ステップS207に戻る。
【0076】
一方、未選択の仮想姿勢情報がないと判定された場合(ステップS211でNOの場合)には、ステップS213において、教師データ抽出部130は、複数の教師ラベル画像から、一の教師ラベル画像を選択する。
【0077】
ステップS215において、教師データ抽出部130は、選択した教師ラベル画像に対応付けられる可能姿勢情報を算出する。より具体的には、ラベル画像を選択した教師ラベル画像に変換する際の視点変換において、視点変換後の撮像部の視点を算出する。
【0078】
視点変換後の撮像部の視点が存在しない場合、又は、視点変換後の撮像部の視点が、車両が走行する道路に対して車両が実際に取りえる車両姿勢において実現不可能である場合には、可能姿勢情報が存在しないものとして処理する。これら以外の場合には、可能姿勢情報が存在するものとして処理する。
【0079】
ステップS217において、教師データ抽出部130は、選択した教師ラベル画像に対応付けられる可能姿勢情報が存在するか否かを判定する。
【0080】
可能姿勢情報が存在すると判定された場合(ステップS217でYESの場合)には、ステップS219において、教師データ抽出部130は、選択した教師ラベル画像を、特定教師ラベル画像として抽出する。なお、特定教師ラベル画像として抽出する際に、教師データ抽出部130は、学習対象ラベルを用いた抽出を行ってもよい。
【0081】
可能姿勢情報が存在しないと判定された場合(ステップS217でNOの場合)には、ステップS219をスキップしてステップS221に進む。
【0082】
ステップS221において、教師データ抽出部130は、未選択の教師ラベル画像があるか否かを判定する。
【0083】
未選択の教師ラベル画像があると判定された場合(ステップS221でYESの場合)には、ステップS213に戻る。
【0084】
一方、未選択の教師ラベル画像がないと判定された場合(ステップS221でNOの場合)には、ステップS223において、学習モデル生成部140は、特定教師ラベル画像に基づいて機械学習(又は深層学習)を行うことにより、第1画像に基づいて第1ラベルを推定する学習モデルを生成する。その後、
図3のフローチャートは終了する。
【0085】
なお、学習モデルが生成された後、評価部150において、セマンティックセグメンテーションを行ってもよい。
【0086】
[実施形態の効果]
以上詳細に説明したように、本実施形態に係る情報処理方法及び情報処理装置は、撮像部により車両の前方を撮像した第1画像に対し、第1画像を構成するピクセルごとに車両が走行する路面標示を識別する第1ラベルが付与されたラベル画像を取得する。そして、撮像部の仮想的な撮像姿勢を示す仮想姿勢情報を生成し、仮想姿勢情報に基づいてラベル画像を視点変換することで対応した教師ラベル画像を生成する。教師ラベル画像に基づいて機械学習を行うことにより、第1画像に基づいて路面標示を識別する学習モデルを生成する。
【0087】
これにより、水増し後の学習データ(教師ラベル画像)の、推論モデルの適用範囲内における有効性及び網羅性を担保して、推論モデル(学習モデル)の精度の向上、及び、推論モデルによる学習の効率の向上を図ることができる。特に、撮像部の仮想的な撮像姿勢を示す仮想姿勢情報を生成することで、撮像部がとりうる種々の撮像姿勢が網羅され、漏れのない教師ラベル画像が生成される。その結果、教師ラベル画像に基づいて生成された学習モデルの精度を向上させることができる。
【0088】
さらに、学習モデルの生成のために用意するラベル画像(教師データ)の量を削減でき、アノテーションに要するコスト及び時間を削減できる。また、ラベル画像の量を削減して少ないラベル画像に基づいて学習モデルを生成する場合であっても、学習モデルの精度が低下することが抑制される。
【0089】
また、本実施形態に係る情報処理方法及び情報処理装置は、車両が走行する道路に対して車両が実際に取りうる車両姿勢を示す車両姿勢情報を生成し、車両姿勢情報に基づいて、撮像部が実際に取りうる撮像姿勢を可能姿勢情報として生成するものであってもよい。そして、可能姿勢情報を仮想姿勢情報として設定するものであってもよい。これにより、車両が実際に取りうる車両姿勢の範囲内で、撮像部がとりうる種々の撮像姿勢が網羅される。また、車両が実際に取りうる車両姿勢の範囲内で、撮像部がとりうる種々の撮像姿勢が網羅され、漏れのない教師ラベル画像を生成することができる。その結果、教師ラベル画像に基づいて生成された学習モデルの精度を向上させることができる。
【0090】
また、本実施形態に係る情報処理方法及び情報処理装置は、車両が走行する道路に対して車両が実際に取りうる車両姿勢を示す車両姿勢情報を生成し、車両姿勢情報に基づいて、撮像部が実際に取りうる撮像姿勢を可能姿勢情報として生成するものであってもよい。そして、教師ラベル画像の中から、可能姿勢情報に対応付けられる教師ラベル画像を特定教師ラベル画像として抽出し、特定教師ラベル画像に基づいて機械学習を行うものであってもよい。これにより、車両が実際に取りうる車両姿勢の範囲内で、撮像部がとりうる種々の撮像姿勢が網羅される。車両が実際に取りうる車両姿勢の範囲内にある教師ラベル画像のみが、学習モデルの生成に用いられることになる。その結果、有効性が担保された教師ラベル画像に基づいて、学習モデルが生成されることになり、学習モデルの精度を向上させることができる。
【0091】
さらに、本実施形態に係る情報処理方法及び情報処理装置において、車両姿勢情報によって示される車両姿勢は、正規分布に従うものであってもよい。これにより、車両姿勢情報に対応して生成された教師ラベル画像の有効性が担保される。その結果、有効性が担保された教師ラベル画像に基づいて、学習モデルが生成されることになり、学習モデルの精度を向上させることができる。
【0092】
また、本実施形態に係る情報処理方法及び情報処理装置は、教師ラベル画像のそれぞれに対して、第1ラベルごとのピクセル数を算出するものであってもよい。そして、教師ラベル画像の中から、第1ラベルのうち学習対象ラベルについて所定値以上のピクセル数を有する教師ラベル画像を特定教師ラベル画像として抽出し、特定教師ラベル画像に基づいて機械学習を行うものであってもよい。
【0093】
これにより、教師ラベル画像に含まれている教師データの特徴を定量的に表現することができる。さらに、学習対象ラベルの学習への貢献度が高い教師ラベル画像に基づいて、学習モデルを生成することができる。その結果、生成した学習モデルによる学習対象ラベルの認識率を向上させることができる。さらには、学習モデルの生成に係る計算コストを削減することができる。
【0094】
さらに、本実施形態に係る情報処理方法及び情報処理装置は、教師ラベル画像の中から特定教師ラベル画像を抽出する際、特定教師ラベル画像にわたって、第1ラベルのうち学習対象ラベル以外の第1ラベルごとのピクセル数の合計を算出するものであってもよい。そして、合計の第1ラベル間での差が所定閾値以下となるように、教師ラベル画像の中から特定教師ラベル画像を抽出し、特定教師ラベル画像に基づいて機械学習を行うものであってもよい。
【0095】
これにより、特定教師ラベル画像を抽出する際に、学習対象ラベル以外の第1ラベルに関する特定教師ラベル画像におけるデータの偏りを避けることができる。その結果、学習モデルの生成において、学習対象ラベルに係る学習の精度が向上すると共に、学習モデルに基づく全体の認識率を向上させることができる。
【0096】
また、本実施形態に係る情報処理方法及び情報処理装置は、仮想姿勢情報に対応した、拡大縮小、回転、及び、並進の少なくとも一つを表すホモグラフィ変換行列を算出し、ラベル画像を、ホモグラフィ変換行列を用いて教師ラベル画像に変換するものであってもよい。
【0097】
これにより、ラベル画像から教師ラベル画像に変換を行う際に、画像の鏡像反転が防止される。その結果、ラベル画像の画像中では左側通行であった道路が、教師ラベル画像の画像中では右側通行であった道路に置き換わってしまうなど、教師ラベル画像の有効性が担保されなくなってしまう事態を防止できる。その結果、有効性が担保された教師ラベル画像に基づいて、学習モデルが生成されることになり、学習モデルの精度を向上させることができる。
【0098】
さらに、本実施形態に係る情報処理方法及び情報処理装置は、撮像部により車両の前方を撮像した第2画像を取得し、第2画像が入力された学習モデルからの出力を算出することにより、第2画像を構成するピクセルごとに車両が走行する路面標示を識別する第2ラベルを取得するものであってもよい。これにより、生成した学習モデルに基づいて、車両の前方に存在する路面標示を識別することができる。
【0099】
上述の実施形態で示した各機能は、1又は複数の処理回路によって実装されうる。処理回路には、プログラムされたプロセッサや、電気回路などが含まれ、さらには、特定用途向けの集積回路(ASIC)のような装置や、記載された機能を実行するよう配置された回路構成要素なども含まれる。
【0100】
以上、実施形態に沿って本発明の内容を説明したが、本発明はこれらの記載に限定されるものではなく、種々の変形及び改良が可能であることは、当業者には自明である。この開示の一部をなす論述及び図面は本発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
【0101】
本発明はここでは記載していない様々な実施形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
【符号の説明】
【0102】
71 取得部
73 データベース
100 コントローラ
110 姿勢情報生成部
120 ラベル画像変換部
130 教師データ抽出部
140 学習モデル生成部
150 評価部
400 出力部