(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-21
(45)【発行日】2024-08-29
(54)【発明の名称】学習データ生成プログラム、学習データ生成装置及び学習データ生成方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240822BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2020142015
(22)【出願日】2020-08-25
【審査請求日】2023-07-19
(73)【特許権者】
【識別番号】506301140
【氏名又は名称】公立大学法人会津大学
(73)【特許権者】
【識別番号】000010098
【氏名又は名称】アルプスアルパイン株式会社
(74)【代理人】
【識別番号】100094525
【氏名又は名称】土井 健二
(74)【代理人】
【識別番号】100094514
【氏名又は名称】林 恒徳
(72)【発明者】
【氏名】趙 強福
(72)【発明者】
【氏名】富岡 洋一
(72)【発明者】
【氏名】蘇 凱
(72)【発明者】
【氏名】王 慧涛
(72)【発明者】
【氏名】チョウドリ エムディ インティサル
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2016-076073(JP,A)
【文献】神村 吏、木谷 友哉,位置情報を用いた二輪車モーションセンシングデータへの正解データ自動ラベリング手法の一提案,情報処理学会,日本,情報処理学会,2013年10月17日,Vol.2013-DPS-157 No.6,p.1-6
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
撮像装置によって撮像された動画データに含まれる複数の画像データのうちの第1画像データから、複数の固定位置のそれぞれに対応する複数の部分画像データを抽出し、
前記第1画像データに対応する前記複数の部分画像データを出力し、
前記第1画像データに対応する前記複数の部分画像データのそれぞれに映る対象物の種類を示す第1識別情報の入力を受け付け、
前記複数の画像データのうちの前記第1画像データの後に撮像された第2画像データから、前記複数の固定位置のそれぞれに対応する複数の部分画像データを抽出し、
前記第2画像データに対応する前記複数の部分画像データを、前記第2画像データ
に対応する前記複数の部分画像データのそれぞれの出力位置が、前記第1画像データにおける同一の固定位置に対応する前記複数の部分画像データのそれぞれの出力位置と一致するように出力し、
前記第2画像データに対応する前記複数の部分画像データのうちの少なくとも一部に映る対象物の種類を示す第2識別情報の入力を受け付ける、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
【請求項2】
請求項1において、
前記第1画像データから複数の部分画像データを抽出する処理では、前記複数の部分画像データのそれぞれのサイズが前記第1画像データを構成する各ピクセルよりも大きいサイズであって、かつ、前記複数の部分画像データのそれぞれのサイズが互いに同一のサイズになるように、前記第1画像データから前記複数の部分画像データの抽出を行う、
ことを特徴とする学習データ生成プログラム。
【請求項3】
請求項1において、
前記第2画像データに対応する前記複数の部分画像データを出力する処理では、前記第2画像データに対応する前記複数の部分画像データと、前記第1画像データにおける同一の固定位置に対応する前記第1識別情報とを対応付けて出力する、
ことを特徴とする学習データ生成プログラム。
【請求項4】
請求項1において、さらに、
前記第1画像データに対応する部分画像データごとに、各部分画像データにおける色情報と、前記撮像装置から各部分画像データに映る対象物までの距離情報とに対し、前記第1識別情報を付加することによって第1学習データを生成し、
前記第2画像データに対応する部分画像データごとに、各部分画像データにおける色情報と、前記撮像装置から各部分画像データに映る対象物までの距離情報とに対し、前記第2識別情報を付加することによって第2学習データを生成する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
【請求項5】
請求項4において、
前記第2学習データを生成する処理では、
前記第2画像データに対応する部分画像データのうち、前記第2識別情報の入力を受け付けた部分画像データごとに、各部分画像データにおける色情報と、前記撮像装置から各部分画像データに映る対象物までの距離情報とに対し、前記第2識別情報を付加することによって前記第2学習データの生成を行い、
前記第2画像データに対応する部分画像データのうち、前記第2識別情報の入力を受け付けなかった部分画像データごとに、各部分画像データにおける色情報と、前記撮像装置から各部分画像データに映る対象物までの距離情報とに対し、前記第1識別情報のうち、各部分画像データと同一の固定位置に対応する部分画像データに対応する前記第1識別情報を付加することによって前記第2学習データの生成を行う、
ことを特徴とする学習データ生成プログラム。
【請求項6】
請求項4において、さらに、
前記複数の固定位置ごとに、各固定位置に対応する1以上の座標を特定し、
前記第1画像データに対応する前記複数の部分画像データごとに、各部分画像データに対応する前記1以上の座標と前記第1識別情報とを含む第3学習データを生成し、
前記第2画像データに対応する前記複数の部分画像データごとに、各部分画像データに対応する前記1以上の座標と前記第2識別情報とを含む第4学習データを生成する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
【請求項7】
撮像装置によって撮像された動画データに含まれる複数の画像データのうちの第1画像データから、複数の固定位置のそれぞれに対応する複数の部分画像データを抽出する部分画像抽出部と、
前記第1画像データに対応する前記複数の部分画像データを出力する画像出力部と、
前記第1画像データに対応する前記複数の部分画像データのそれぞれに映る対象物の種類を示す第1識別情報の入力を受け付ける入力受付部と、を有し、
前記部分画像抽出部は、さらに、前記複数の画像データのうちの前記第1画像データの後に撮像された第2画像データから、前記複数の固定位置のそれぞれに対応する複数の部分画像データを抽出し、
前記画像出力部は、さらに、前記第2画像データに対応する前記複数の部分画像データを、前記第2画像データ
に対応する前記複数の部分画像データのそれぞれの出力位置が、前記第1画像データにおける同一の固定位置に対応する前記複数の部分画像データのそれぞれの出力位置と一致するように出力し、
前記入力受付部は、さらに、前記第2画像データに対応する前記複数の部分画像データのうちの少なくとも一部に映る対象物の種類を示す第2識別情報の入力を受け付ける、
ことを特徴とする学習データ生成装置。
【請求項8】
撮像装置によって撮像された動画データに含まれる複数の画像データのうちの第1画像データから、複数の固定位置のそれぞれに対応する複数の部分画像データを抽出し、
前記第1画像データに対応する前記複数の部分画像データを出力し、
前記第1画像データに対応する前記複数の部分画像データのそれぞれに映る対象物の種類を示す第1識別情報の入力を受け付け、
前記複数の画像データのうちの前記第1画像データの後に撮像された第2画像データから、前記複数の固定位置のそれぞれに対応する複数の部分画像データを抽出し、
前記第2画像データに対応する前記複数の部分画像データを、前記第2画像データ
に対応する前記複数の部分画像データのそれぞれの出力位置が、前記第1画像データにおける同一の固定位置に対応する前記複数の部分画像データのそれぞれの出力位置と一致するように出力し、
前記第2画像データに対応する前記複数の部分画像データのうちの少なくとも一部に映る対象物の種類を示す第2識別情報の入力を受け付ける、
処理をコンピュータに実行させることを特徴とする学習データ生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習データ生成プログラム、学習データ生成装置及び学習データ生成方法に関する。
【背景技術】
【0002】
近年、高齢者の生活活動を支援することを目的とした電動カート(以下、シニアカーとも呼ぶ)の利用が広がっている。高齢者は、例えば、シニアカーに乗車して買い物等の外出を行うことで、外出に伴う身体への負担を軽減させることが可能になる。
【0003】
ここで、上記のようなシニアカーは、例えば、悪路等の影響によって走行中に転倒する可能性がある。そして、高齢者は、この場合、自力で立ち上がることができない可能性がある。
【0004】
そのため、シニアカーは、例えば、走行経路上において転倒の原因となる障害物の存在を検出し、その検出した障害物を避けながら走行を行う。これにより、シニアカーは、転倒のリスクを自動的に回避することが可能になる(特許文献1乃至2及び非特許文献1乃至2を参照)。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2016-186703号公報
【文献】特開2018-156408号公報
【非特許文献】
【0006】
【文献】Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, “You Only Look Once: Unified, Real-Time Object Detection”, arXiv:1506.02640v5.
【文献】Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla, “SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation”, arXiv:1511.00561v3.
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記のようなシニアカーにおいて、走行中における障害物の検知は、例えば、カメラ等の撮像装置によって撮像された画像データと、その画像データに含まれる障害物の位置及び種類を示す情報(以下、ラベル情報とも呼ぶ)とを含む複数の学習データを学習した学習モデルによって行われる。そのため、作業者は、学習モデルの生成を行う前に、学習モデルの生成に要する数の学習データを予め生成する必要がある。
【0008】
しかしながら、上記のような学習データの生成を行う場合、作業者は、例えば、各画像データに対応するラベル情報の入力を手作業によって行う必要がある。そのため、学習モデルの生成に必要な学習データの数等によって、学習データの生成に要する作業者の作業負担が膨大になる場合がある。
【0009】
そこで、本発明の目的は、学習データの生成に要する作業負担を抑えることを可能とする学習データ生成プログラム、学習データ生成装置及び学習データ生成方法を提供することにある。
【課題を解決するための手段】
【0010】
上記目的を達成するための本発明における学習データ生成プログラムは、撮像装置によって撮像された動画データに含まれる複数の画像データのうちの第1画像データから、複数の固定位置のそれぞれに対応する複数の部分画像データを抽出し、前記第1画像データに対応する前記複数の部分画像データを出力し、前記第1画像データに対応する前記複数の部分画像データのそれぞれに映る対象物の種類を示す第1識別情報の入力を受け付け、前記複数の画像データのうちの前記第1画像データの後に撮像された第2画像データから、前記複数の固定位置のそれぞれに対応する複数の部分画像データを抽出し、前記第2画像データに対応する前記複数の部分画像データを、前記第2画像データにおけるに対応する前記複数の部分画像データのそれぞれの出力位置が、前記第1画像データにおける同一の固定位置に対応する前記複数の部分画像データのそれぞれの出力位置と一致するように出力し、前記第2画像データに対応する前記複数の部分画像データのうちの少なくとも一部に映る対象物の種類を示す第2識別情報の入力を受け付ける、処理をコンピュータに実行させることを特徴とする。
【0011】
また、上記目的を達成するための本発明における学習データ生成プログラムは、一つの態様では、前記複数の部分画像データのそれぞれのサイズが前記第1画像データを構成する各ピクセルよりも大きいサイズであって、かつ、前記複数の部分画像データのそれぞれのサイズが互いに同一のサイズになるように、前記第1画像データから前記複数の部分画像データの抽出を行う、ことを特徴とする。
【0012】
また、上記目的を達成するための本発明における学習データ生成プログラムは、一つの態様では、前記第2画像データに対応する前記複数の部分画像データと、前記第1画像データにおける同一の固定位置に対応する前記第1識別情報とを対応付けて出力する、ことを特徴とする。
【0013】
また、上記目的を達成するための本発明における学習データ生成プログラムは、一つの態様では、前記第1画像データに対応する部分画像データごとに、各部分画像データにおける色情報と、前記撮像装置から各部分画像データに映る対象物までの距離情報とに対し、前記第1識別情報を付加することによって第1学習データを生成し、前記第2画像データに対応する部分画像データごとに、各部分画像データにおける色情報と、前記撮像装置から各部分画像データに映る対象物までの距離情報とに対し、前記第2識別情報を付加することによって第2学習データを生成する、処理をコンピュータに実行させることを特徴とする。
【0014】
また、上記目的を達成するための本発明における学習データ生成プログラムは、一つの態様では、前記第2画像データに対応する部分画像データのうち、前記第2識別情報の入力を受け付けた部分画像データごとに、各部分画像データにおける色情報と、前記撮像装置から各部分画像データに映る対象物までの距離情報とに対し、前記第2識別情報を付加することによって前記第2学習データの生成を行い、前記第2画像データに対応する部分画像データのうち、前記第2識別情報の入力を受け付けなかった部分画像データごとに、各部分画像データにおける色情報と、前記撮像装置から各部分画像データに映る対象物までの距離情報とに対し、前記第1識別情報のうち、各部分画像データと同一の固定位置に対応する部分画像データに対応する前記第1識別情報を付加することによって前記第2学習データの生成を行う、ことを特徴とする。
【0015】
また、上記目的を達成するための本発明における学習データ生成プログラムは、一つの態様では、前記複数の固定位置ごとに、各固定位置に対応する1以上の座標を特定し、前記第1画像データに対応する前記複数の部分画像データごとに、各部分画像データに対応する前記1以上の座標と前記第1識別情報とを含む第3学習データを生成し、前記第2画像データに対応する前記複数の部分画像データごとに、各部分画像データに対応する前記1以上の座標と前記第2識別情報とを含む第4学習データを生成する、処理をコンピュータに実行させることを特徴とする。
【0016】
また、上記目的を達成するための本発明における学習データ生成装置は、撮像装置によって撮像された動画データに含まれる複数の画像データのうちの第1画像データから、複数の固定位置のそれぞれに対応する複数の部分画像データを抽出する部分画像抽出部と、前記第1画像データに対応する前記複数の部分画像データを出力する画像出力部と、前記第1画像データに対応する前記複数の部分画像データのそれぞれに映る対象物の種類を示す第1識別情報の入力を受け付ける入力受付部と、を有し、前記部分画像抽出部は、さらに、前記複数の画像データのうちの前記第1画像データの後に撮像された第2画像データから、前記複数の固定位置のそれぞれに対応する複数の部分画像データを抽出し、前記画像出力部は、さらに、前記第2画像データに対応する前記複数の部分画像データを、前記第2画像データにおけるに対応する前記複数の部分画像データのそれぞれの出力位置が、前記第1画像データにおける同一の固定位置に対応する前記複数の部分画像データのそれぞれの出力位置と一致するように出力し、前記入力受付部は、さらに、前記第2画像データに対応する前記複数の部分画像データのうちの少なくとも一部に映る対象物の種類を示す第2識別情報の入力を受け付ける、ことを特徴とする。
【0017】
また、上記目的を達成するための本発明における学習方法は、撮像装置によって撮像された動画データに含まれる複数の画像データのうちの第1画像データから、複数の固定位置のそれぞれに対応する複数の部分画像データを抽出し、前記第1画像データに対応する前記複数の部分画像データを出力し、前記第1画像データに対応する前記複数の部分画像データのそれぞれに映る対象物の種類を示す第1識別情報の入力を受け付け、前記複数の画像データのうちの前記第1画像データの後に撮像された第2画像データから、前記複数の固定位置のそれぞれに対応する複数の部分画像データを抽出し、前記第2画像データに対応する前記複数の部分画像データを、前記第2画像データにおけるに対応する前記複数の部分画像データのそれぞれの出力位置が、前記第1画像データにおける同一の固定位置に対応する前記複数の部分画像データのそれぞれの出力位置と一致するように出力し、前記第2画像データに対応する前記複数の部分画像データのうちの少なくとも一部に映る対象物の種類を示す第2識別情報の入力を受け付ける、処理をコンピュータに実行させることを特徴とする。
【発明の効果】
【0018】
本発明における学習データ生成プログラム、学習データ生成装置及び学習データ生成方法によれば、学習データの生成に要する作業負担を抑えることが可能になる。
【図面の簡単な説明】
【0019】
【
図1】
図1は、第1の実施の形態における情報処理装置1の構成例を示す図である。
【
図2】
図2は、第1の実施の形態における学習データ生成処理の概略について説明する図である。
【
図3】
図3は、第1の実施の形態における学習データ生成処理の概略について説明する図である。
【
図4】
図4は、第1の実施の形態における学習データ生成処理の詳細を説明するフローチャート図である。
【
図5】
図5は、第1の実施の形態における学習データ生成処理の詳細を説明するフローチャート図である。
【
図6】
図6は、学習データ生成処理の具体例について説明する図である。
【
図7】
図7は、ラベル情報の出力結果について説明する図である。
【
図8】
図8は、ラベル情報の出力結果について説明する図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して本発明の実施の形態について説明する。しかしながら、かかる実施の形態例が、本発明の技術的範囲を限定するものではない。
【0021】
初めに、第1の実施の形態における情報処理装置1(以下、学習データ生成装置1とも呼ぶ)の構成例について説明を行う。
図1は、第1の実施の形態における情報処理装置1の構成例を示す図である。
【0022】
情報処理装置1は、コンピュータ装置であって、例えば、汎用的なPC(Personal Computer)である。そして、情報処理装置1は、例えば、シニアカーに搭載される学習モデルの生成に用いる学習データを生成する処理(以下、単に学習データ生成処理とも呼ぶ)を行う。
【0023】
情報処理装置1は、汎用的なコンピュータ装置のハードウエア構成を有し、例えば、
図1に示すように、プロセッサであるCPU101と、メモリ102と、通信インタフェース103と、記憶媒体104とを有する。各部は、バス105を介して互いに接続される。
【0024】
記憶媒体104は、例えば、学習データ生成処理を行うためのプログラム(図示しない)を記憶するプログラム格納領域(図示しない)を有する。
【0025】
また、記憶媒体104は、例えば、学習データ生成処理を行う際に用いられる情報を記憶する記憶部110(以下、記憶領域110とも呼ぶ)を有する。なお、記憶媒体104は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)であってよい。
【0026】
CPU101は、記憶媒体104からメモリ102にロードされたプログラムを実行して学習処理を行う。
【0027】
通信インタフェース103は、例えば、インターネット網等のネットワークNWを介して操作端末2と通信を行う。なお、情報処理装置1と操作端末2との間における情報の移動は、例えば、作業者がUSBメモリ等の記憶媒体等を用いることによって手動で行うものであってもよい。
【0028】
操作端末2は、例えば、作業者が学習データの生成を行う際に用いるコンピュータ装置であって、例えば、汎用的なPC(Personal Computer)である。
【0029】
[第1の実施の形態の概略]
次に、第1の実施の形態における学習処理の概略について説明を行う。
図2は、第1の実施の形態における学習処理の概略について説明する図である。
【0030】
情報処理装置1の画像取得部111は、例えば、学習モデルの生成に用いる画像データを取得する。具体的に、画像取得部111は、例えば、作業者によって予め記憶領域110に記憶された動画データ(図示しない撮像装置によって予め撮像された動画データ)を構成する複数の画像データを取得するものであってよい。
【0031】
そして、情報処理装置1の部分画像抽出部112は、画像取得部111が取得した画像データのうちの1つの画像データ(以下、第1画像データとも呼ぶ)から、第1画像データにおける複数の固定位置のそれぞれに対応する複数の部分画像データ(以下、第1部分画像データとも呼ぶ)を抽出する。
【0032】
続いて、情報処理装置1の画像出力部113は、例えば、部分画像抽出部112が抽出した複数の第1部分画像データを操作端末2に出力する。
【0033】
その後、情報処理装置の入力受付部114は、画像出力部113が出力した複数の第1部分画像データのそれぞれに映る対象物の種類を示す識別情報(以下、第1識別情報とも呼ぶ)の入力を受け付ける。
【0034】
具体的に、作業者は、例えば、複数の第1部分画像データが操作端末2に出力されたことに応じて、複数の第1部分画像データのそれぞれに対応する第1識別情報(ラベル情報)の入力を行う。
【0035】
そして、学習データ生成部115は、部分画像抽出部112が抽出した複数の第1部分画像データごとに、各部分画像データと、入力受付部114が入力を受け付けた各部分画像データに対応する第1識別情報とを含む学習データ(以下、第1学習データとも呼ぶ)を生成する。
【0036】
さらに、学習データ出力部116は、例えば、学習データ生成部115が生成した複数の第1学習データを操作端末2に出力する。
【0037】
次に、部分画像抽出部112は、画像取得部111が取得した画像データのうち、第1画像データの後の画像データ(以下、第2画像データとも呼ぶ)から、第2画像データにおける複数の固定位置のそれぞれに対応する複数の部分画像データ(以下、第2部分画像データとも呼ぶ)を抽出する。
【0038】
具体的に、部分画像抽出部112は、例えば、第1画像データの次に撮像された第2画像データから、複数の第2部分画像データの抽出を行う。
【0039】
続いて、画像出力部113は、例えば、部分画像抽出部112が抽出した複数の第2部分画像データを操作端末2に出力する。
【0040】
具体的に、画像出力部113は、例えば、部分画像抽出部112が抽出した複数の第2部分画像データのそれぞれを、各部分画像データの出力位置が、部分画像抽出部112が抽出した複数の第1部分画像データのうちの同一の固定位置に対応する部分画像データの出力位置と一致するように出力する。
【0041】
さらに具体的に、画像出力部113は、例えば、部分画像抽出部112が抽出した複数の第2部分画像データのそれぞれを、第1画像データから抽出した複数の第1部分画像データのそれぞれに対応する第1識別情報(入力受付部114が入力を受け付けた第1識別情報)のそれぞれと対応付ける形で出力する。
【0042】
その後、入力受付部114は、画像出力部113が出力した複数の第2部分画像データのうちの少なくとも一部に映る対象物の種類を示す識別情報(以下、第2識別情報とも呼ぶ)の入力を受け付ける。
【0043】
具体的に、作業者は、例えば、複数の第2部分画像データのそれぞれが第1識別情報とともに出力されたことに応じて、複数の第2部分画像データのうち、各部分画像データとともに出力されている第1識別情報が各部分画像データに対応する識別情報として適切ではないものを特定する。言い換えれば、作業者は、複数の第2部分画像データのうち、同一の固定位置に対応する第1部分画像データと第2部分画像データとの間において、各部分画像データに映る対象物の種類が変わっているものを特定する。そして、作業者は、特定した第2部分画像データに対応する第2識別情報(第2部分画像データに対応する適切な識別情報)についての入力を行う。
【0044】
すなわち、例えば、第2画像データが第1画像データの直後の撮像された画像データである場合、第1部分画像データ及び第2画像データは、互いに類似した画像データの組合せであり、異なる部分が少ない画像データの組合せであると判断できる。
【0045】
そのため、情報処理装置1は、例えば、複数の第2部分画像データのそれぞれを、同一の固定位置に対応する第1部分画像データの第1識別情報と対応付ける形で出力する。そして、作業者は、例えば、複数の第2部分画像データとともに出力された第1識別情報のうち、第2部分画像データに対応する識別情報として適切ではない識別情報についてのみ変更を行う。
【0046】
その後、情報処理装置1は、記憶領域110に記憶された動画データを構成する他の画像データについても、各画像データを構成する複数の部分画像データのそれぞれを、各画像データの直前に撮像された画像データを構成する複数の部分画像データのそれぞれに対応する識別情報と対応付けて出力する。そして、作業者は、他の画像データのそれぞれについても、各画像データを構成する複数の部分画像データのそれぞれとともに出力されている識別情報のうち、変更を要する識別情報(適切でない識別情報)についてのみ変更を行う。
【0047】
これにより、情報処理装置1は、学習データの生成時において、識別情報(ラベル情報)の入力に伴う作業者の作業負担を軽減させることが可能になる。そのため、作業者は、例えば、学習モデルの生成に要する学習データの数が膨大である場合であっても、学習データの生成を手作業によって行うことが可能になる。
【0048】
また、情報処理装置1は、例えば、他の学習モデル(例えば、YOLO(You Only Live Once)やSSD(Single Shot Multibox Detector)による学習モデル)よりも規模の小さい学習モデルの生成が可能な学習データを生成することが可能になる。
【0049】
そして、学習データ生成部115は、部分画像抽出部112が抽出した複数の第2部分画像データごとに、各部分画像データと、入力受付部114が入力を受け付けた各部分画像データに対応する第2識別情報とを含む学習データ(以下、第2学習データとも呼ぶ)を生成する。
【0050】
さらに、学習データ出力部116は、例えば、学習データ生成部115が生成した複数の第2学習データを操作端末2に出力する。
【0051】
[第1の実施の形態の詳細]
次に、第1の実施の形態における学習データ生成処理の詳細について説明を行う。
図3及び
図4は、第1の実施の形態における学習データ生成処理の詳細を説明するフローチャート図である。また、
図5から
図8は、第1の実施の形態における学習データ生成処理の詳細を説明する図である。
【0052】
画像取得部111は、
図3に示すように、例えば、学習データの生成タイミングになるまで待機する(S11のNO)。学習データの生成タイミングは、例えば、作業者が操作端末2を介して学習データ生成処理を開始する旨の情報を入力したタイミングであってよい。また、学習データの生成タイミングは、例えば、作業者が撮像装置(図示しない)によって撮像された動画データを記憶領域110に記憶したタイミングであってもよい。
【0053】
そして、学習データの生成タイミングになった場合(S11のYES)、画像取得部111は、例えば、記憶領域110に記憶された動画データを取得する(S12)。
【0054】
続いて、画像取得部111は、S12の処理で取得した画像データから画像データを1つ取得する(S13)。
【0055】
具体的に、画像取得部111は、S12の処理で取得した動画データを構成する画像データを時系列順に1つ取得する。
【0056】
その後、部分画像抽出部112は、S13の処理で取得した画像データにおける各固定位置に対応する複数の部分画像データを抽出する(S14)。以下、S14の処理の具体例について説明を行う。
【0057】
[S14の処理の具体例]
図5は、S14の処理の具体例について説明する図である。具体的に、
図5は、画像データDT1のうち、複数の関心領域ROIのそれぞれに対応する複数の部分画像データを説明する図である。なお、以下、各関心領域ROIの番号は、
図5に示す各領域の番号に対応するものとして説明を行う。
【0058】
作業者は、例えば、情報処理装置1による学習データ生成処理を開始する前に、関心領域ROIの固定位置及びサイズを予め決定する。具体的に、作業者は、例えば、
図5に示すように、第1サイズの矩形からなる6個の関心領域ROI(関心領域ROI1から関心領域ROI6のそれぞれ)と、第1サイズよりも大きい第2サイズの矩形からなる16個の関心領域ROI(関心領域ROI7から関心領域ROI22のそれぞれ)とを決定する。
【0059】
そして、部分画像抽出部112は、S14の処理において、例えば、画像データDT1から、作業者が決定した22個の関心領域ROIに対応する部分画像データのそれぞれを抽出する。
【0060】
具体的に、部分画像抽出部112は、例えば、
図5に示すように、画像データDT1における下端部分の領域を水平方向に沿って8等分した部分画像データ(第2サイズの矩形からなる8個の部分画像データ)を、それぞれ関心領域ROI15、ROI16、ROI17、ROI18、ROI19、ROI20、ROI21及びROI22(以下、これらを総称して単に第1関心領域ROIとも呼ぶ)に対応する部分画像データとして抽出する。
【0061】
また、部分画像抽出部112は、例えば、
図5に示すように、画像データDT1における第1関心領域ROIの上端に接する領域を水平方向に沿って8等分した部分画像データ(第2サイズの矩形からなる8個の部分画像データ)を、それぞれ関心領域ROI7、ROI8、ROI9、ROI10、ROI11、ROI12、ROI13及びROI14(以下、これらを総称して単に第2関心領域ROIとも呼ぶ)に対応する部分画像データとして抽出する。
【0062】
さらに、部分画像抽出部112は、
図5に示すように、例えば、画像データDT1における第2関心領域ROIの上端に接する領域であって水平方向における中央付近の領域を水平方向に沿って6等分した部分画像データ(第1サイズの矩形からなる6個の部分画像データ)を、それぞれ関心領域ROI1、ROI2、ROI3、ROI4、ROI5及びROI6(以下、これらを総称して単に第3関心領域ROIとも呼ぶ)に対応する部分画像データとして抽出する。
【0063】
なお、
図5に示す例において、作業者は、例えば、シニアカーの1mから2m前方の領域が第2関心領域ROI及び第3関心領域ROIに対応するように、第2サイズを決定する。すなわち、例えば、シニアカーが時速6kmで走行する場合、シニアカーが約1秒後に走行する経路上の領域(以下、危険領域:danger areaとも呼ぶ)が第2関心領域ROI及び第3関心領域ROIに対応するように、第2サイズを決定する。また、
図5に示す例において、作業者は、例えば、シニアカーの2mから4m前方の領域が第3関心領域ROIに対応するように、第1サイズを決定する。すなわち、例えば、シニアカーが時速6kmで走行する場合、シニアカーが約2秒後に走行する経路上の領域(以下、注意領域:notice areaとも呼ぶ)が第3関心領域ROIに対応するように、第1サイズを決定する。
【0064】
これにより、情報処理装置1は、後述するように、各画像データから抽出された複数の部分画像データのそれぞれに対応する識別情報と、各画像データの後に撮像された画像データから抽出された複数の部分画像データのそれぞれに対応する識別情報との比較を容易に行わせることが可能になる。
【0065】
なお、以下、作業者が2種類のサイズの関心領域ROIの決定を行う場合について説明を行うが、作業者は、3種類以上のサイズの関心領域ROIの決定を行うものであってもよい。また、以下、作業者が矩形の関心領域ROIの決定を行う場合について説明を行うが、作業者は、矩形以外の形状(例えば、正六角形)の関心領域ROIの決定を行うものであってもよい。
【0066】
図3に戻り、画像出力部113は、S14の処理で抽出した複数の部分画像データを出力する(S15)。
【0067】
ここで、画像出力部113は、例えば、S15の処理が2回目以降に行われる場合、S14の処理が抽出した複数の部分画像データのそれぞれを、各部分画像データの出力位置が、前回行われたS14の処理で抽出した複数の部分画像データのうちの同一の固定位置に対応する部分画像データの出力位置と一致するように出力する。
【0068】
さらに、画像出力部113は、例えば、S15の処理が2回目以降に行われる場合、S14の処理が抽出した複数の部分画像データのそれぞれを、前回行われたS14の処理で抽出した複数の部分画像データのそれぞれに対応するラベル情報(前回行われたS16の処理で入力を受け付けたラベル情報)と対応付ける形で出力する。
【0069】
そして、入力受付部114は、S14の処理で抽出した複数の部分画像データのそれぞれに対応するラベル情報(複数の部分画像データのそれぞれに映る対象物の種類)の入力を受け付ける(S16)。
【0070】
具体的に、作業者は、例えば、S14の処理で抽出した複数の部分画像データが操作端末2に出力されたことに応じて、各部分画像データに対応するラベル情報の入力を行う。
【0071】
さらに具体的に、例えば、学習データ生成処理においてS16の処理が1回目に行われる場合、作業者は、S14の処理で抽出した複数の部分画像データのそれぞれに対応するラベル情報の入力を行う。
【0072】
一方、例えば、学習データ生成処理においてS16の処理が2回目以降に行われる場合、作業者は、S14の処理で抽出した複数の部分画像データのそれぞれに対応するラベル情報のうち、前回行われたS16の処理で入力を受け付けたラベル情報と異なるラベル情報についてのみ入力を行う。
【0073】
続いて、S14の処理で抽出した複数の部分画像データのそれぞれに対応するラベル情報を受け付けた場合(S16のYES)、学習データ生成部115は、
図4に示すように、直前に行われたS16の処理で入力を受け付けた部分画像データごとに、各部分画像データと、直前に行われたS16の処理で入力を受け付けた各部分画像データに対応するラベル情報とを含む学習データを生成する(S21)。そして、学習データ生成部115は、例えば、S21の処理で生成した学習データを記憶領域110に記憶する。
【0074】
また、学習データ生成部115は、この場合、直前に行われたS16の処理で入力を受け付けなかった部分画像データごとに、各部分画像データと、S16の処理で最後に入力を受け付けた各部分画像データに対応するラベル情報とを含む学習データを生成する(S22)。そして、学習データ生成部115は、例えば、S22の処理で生成した学習データを記憶領域110に記憶する。
【0075】
その後、学習データ生成部115は、S13の処理において画像データの全てを取得したか否かを判定する(S23)。
【0076】
その結果、画像データの全てを取得していないと判定した場合(S23のNO)、画像取得部111は、S13以降の処理を再度行う。
【0077】
一方、画像データの全てを取得したと判定した場合(S23のYES)、情報処理装置1は、データ生成処理を終了する。
【0078】
具体的に、情報処理装置1は、この場合、例えば、S21の処理及びS22の処理で生成した学習データを用いた機械学習を行うことによって、学習モデルを生成する。以下、学習データ生成処理の具体例について説明を行う。
【0079】
[学習データ生成処理の具体例]
図6は、学習データ生成処理の具体例について説明する図である。具体的に、
図6は、ラベル情報の入力画面の具体例について説明する図である。
【0080】
図6に示す画像データDT2aは、1回目に行われたS13の処理で取得した画像データから生成されたRGB情報についての画像データであり、画像データDT3aは、1回目に行われたS13の処理で取得した画像データから生成された距離情報についての画像データである。また、
図6に示す入力画面INは、画像データDT2a及び画像データDT3aの指定等を行う画像データ指定部INaと、ラベル情報(各部分画像データに映る障害物の種類)の入力等を行うラベル情報入力部INbとを有する。
【0081】
図6に示す例において、入力受付部114は、例えば、作業者が画像データ指定部INaに含まれる「Load RGB Images」及び「Load Depth Images」を押下することによって画像データDT2a及び画像データDT3aのロードを行う旨が入力された場合、画像データDT2a及び画像データDT3aのそれぞれを、各関心領域ROI(関心領域ROI1から関心領域ROI22)に対応するフレームを重ね合わせた状態で出力する。
【0082】
そして、作業者は、この場合、例えば、画像データDT2aにおける各関心領域ROIに対応する領域(画像データDT2aから抽出された各部分画像データ)ごとに、ラベル情報入力部INbにおける「Bump」や「Dent」等の中から、各領域に映る対象物の種類を指定(選択)する。
【0083】
次に、作業者は、例えば、画像データ指定部INaにおける「Next Images」を押下することによって、2回目に行われたS13の処理で取得した画像データから生成されたRGB情報についての画像データDT2b(画像データDT2aの次のRGB情報についての画像データ)と、2回目に行われたS13の処理で取得した画像データから生成された距離情報についての画像データDT3b(画像データDT3aの次の距離情報についての画像データ)とを、各関心領域ROIに対応するフレームを重ね合わせた状態で表示する。
【0084】
そして、作業者は、例えば、画像データDT2bにおける各関心領域ROIに対応する領域のうち、各領域に映る対象物の種類が画像データDT2aから変わった領域を特定する。さらに、作業者は、特定した領域ごとに、ラベル情報入力部INbにおける「Bump」や「Dent」等の中から、各領域に映る対象物の種類を指定(選択)する。
【0085】
その後、作業者は、S12の処理で取得した動画データに含まれる他の画像データのそれぞれについても同様に、各画像データにおける各関心領域ROIに対応する領域に映る対象物の種類の特定を繰り返し行う。
【0086】
これにより、情報処理装置1は、学習データの生成時において、ラベル情報の入力に要する作業者の作業負担を軽減させることが可能になる。そのため、作業者は、例えば、学習モデルの生成に要する学習データの数が膨大である場合であっても、手作業によって学習データの生成を行うことが可能になる。
【0087】
なお、上記の例では、シニアカーが走行経路上の障害物を検出するための学習モデルの生成に用いられる学習データを生成する場合について説明を行ったが、本実施の形態における学習データ生成処理は、他の用途の学習モデルの生成に用いられる学習データを生成する場合においても適用が可能である。
【0088】
[入力を受け付けたラベル情報の出力]
次に、作業者が入力したラベル情報の出力について説明を行う。
図7及び
図8は、ラベル情報の出力結果について説明する図である。
【0089】
情報処理装置1は、S16の処理において、各画像データを構成する複数の部分画像データのそれぞれに対応するラベル情報の入力を受け付けた場合、入力を受け付けたラベル情報に含まれる情報を予め指定されたフォーマットに変換して出力するものであってもよい。
【0090】
具体的に、情報処理装置1は、例えば、
図7に示すように、例えば、画像データDT2aに含まれる複数の部分画像データごとに、各部分画像データに映る対象物の種類を示す値と、各部分画像データの左上の座標、高さ及び幅とをテキストファイルの形式で出力するものであってもよい。
【0091】
また、情報処理装置1は、例えば、
図8に示すように、例えば、画像データDT2aに含まれる複数の部分画像データごとに、各部分画像データに映る対象物の種類(name)と、各部分画像データのX軸上の最小値(xmin)、X軸上の最大値(xmax)、Y軸上の最小値(ymin)及びY軸上の最大値(ymax)とをXML(Extensible Markup Language)ファイルの形式で出力するものであってもよい。
【0092】
これにより、作業者は、S16の処理で入力を受け付けたラベル情報に含まれる情報を変換したファイルを用いることで、他の学習モデル(例えば、YOLOやSSDによる学習モデル)の生成に用いる学習データについても併せて生成することが可能になる。そのため、作業者は、他の学習モデルについての学習データの生成に伴う作業負荷についても抑えることが可能になる。
【0093】
また、S16の処理で入力を受け付けたラベル情報は、
図5で説明した関心領域ROIごとに入力されるラベル情報であり、例えば、バウンディングボックスを用いる場合よりも単位が小さく、かつ、ピクセルごとの場合よりも単位が大きい。
【0094】
そのため、作業者は、S16の処理で入力を受け付けたラベル情報に含まれる情報を変換したファイルを用いることで、学習データの生成に要する作業負担を抑えながら、判定精度の高い学習モデルを生成することが可能な学習データを生成することが可能になる。
【符号の説明】
【0095】
1:情報処理装置
2:操作端末
101:CPU
102:メモリ
103:通信インタフェース
104:記憶媒体
105:バス