(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-15
(45)【発行日】2024-03-26
(54)【発明の名称】画像処理装置、アノテーション処理装置、画像処理方法、アノテーション処理方法、画像処理プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240318BHJP
H04N 7/18 20060101ALI20240318BHJP
【FI】
G06T7/00 650B
H04N7/18 D
(21)【出願番号】P 2020017074
(22)【出願日】2020-02-04
【審査請求日】2022-12-27
(73)【特許権者】
【識別番号】000237592
【氏名又は名称】株式会社デンソーテン
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】村下 君孝
(72)【発明者】
【氏名】山田 浩
【審査官】新井 則和
(56)【参考文献】
【文献】特開2007-316839(JP,A)
【文献】特開2019-008519(JP,A)
【文献】特開2017-162436(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
H04N 7/18
(57)【特許請求の範囲】
【請求項1】
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理を行う画像を処理対象画像として抽出する画像処理装置であって、
移動体に取り付けられたカメラで撮影された動画像と、当該動画像の撮影時における当該移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
前記選択した動画像から処理対象画像を抽出する、
プロセッサを備える画像処理装置。
【請求項2】
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理装置であって、
移動体に取り付けられたカメラで撮影された動画像と、当該動画像の撮影時における当該移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
前記選択した動画像に含まれる第1のフレームの画像における物体が当該第1のフレームの画像とは異なる第2のフレームの画像において追跡できたとき、前記第1のフレームの画像に対応付けられた物体の位置及び名称を前記第2のフレームの画像に対応付ける、プロセッサを備えるアノテーション処理装置。
【請求項3】
前記プロセッサは、
前記
第1のフレームの画像における物体の位置の前記追跡を、前記動画像における直進移動物に対して実行する、
請求項2に記載のアノテーション処理装置。
【請求項4】
前記プロセッサは、
前記追跡の結果に基づく前記
第2のフレームの画像における物体の位置と、前記
第2のフレームの画像における実際の当該物体の位置が異なるとき、当該
第2のフレームの画像を当該物体の位置及び名称を対応付けて記憶する画像から削除する、
請求項2に記載のアノテーション処理装置。
【請求項5】
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理を行う画像を処理対象画像として抽出する画像処理方法であって、
移動体に取り付けられたカメラで撮影された動画像において、前記移動体が直線走行状態または停止状態である期間の動画像から処理対象画像を抽出する、
画像処理方法。
【請求項6】
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理を行う画像を処理対象画像として抽出する画像処理方法であって、
移動体に取り付けられたカメラで撮影された動画像と、前記動画像の撮影時における前記移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から動画像における前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
当該選択された動画像から処理対象画像を抽出する、
画像処理方法。
【請求項7】
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理方法であって、
移動体に取り付けられたカメラで撮影された動画像と、当該動画像の撮影時における当該移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
前記選択した動画像に含まれる第1のフレームの画像における物体が当該第1のフレームの画像とは異なる第2のフレームの画像において追跡できたとき、当該第1のフレームの画像に対応付けられた物体の位置及び名称を当該第2のフレームの画像に対応付ける、アノテーション処理方法。
【請求項8】
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理を行う画像を処理対象画像として抽出する画像処理のプログラムであって、
移動体に取り付けられたカメラで撮影された動画像と、前記動画像の撮影時における前記移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
当該選択した動画像から処理対象画像を抽出する、
ことをプロセッサが実行するための画像処理プログラム。
【請求項9】
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理のプログラムであって、
移動体に取り付けられたカメラで撮影された動画像と、当該動画像の撮影時における当該移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
前記選択した動画像に含まれる第1のフレームの画像における物体が当該第1のフレームの画像とは異なる第2のフレームの画像において追跡できたとき、当該第1のフレームの画像に対応付けられた物体の位置及び名称を当該第2のフレームの画像に対応付けて記憶する、
ことをプロセッサが実行するための画像処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、アノテーション処理装置、画像処理方法、アノテーション処理方法、画像処理プログラムに関する。
【背景技術】
【0002】
コンピュータ等により、画像に対して、画像中に現れる物体等の位置及び名称を特定する処理を行うことが求められている。当該処理には、例えば、機械学習によって生成された学習済み推定モデルが使用される。当該モデルを学習させるには、画像と当該画像中の物体等の位置及び名称とを対応付けた教師データを大量に用意することが求められる。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2007-316839号公報
【文献】特開2006-234492号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
画像と当該画像中の所定の物体の位置(範囲)及び名称とを対応付ける処理をアノテーション処理という。物体の位置は、例えば、画像中の物体を包含する長方形の角の位置によって表される。アノテーション処理を効率化するために、動画像の1フレームの画像について、手動でアノテーション処理を行い、他のフレームをオートアノテーションツール(CVAT(Computer Vision Annotation Tool)、VoTT(Visual Object Tagging Tool))などにより、自動でアノテーション処理を行う手法がある。これにより、画像と
当該画像中の物体等の位置及び名称とを対応付けた教師データを大量に用意することができる。しかし、この手法では、手動でアノテーション処理を行ったフレームから離れるにつれて、誤差が累積し、画像における物体の位置と検出した物体の位置とが徐々にずれていくという問題がある。画像における物体の位置と検出した物体の位置とがずれた教師データで機械学習すると、学習済みモデルの質が低くなるおそれがある。動画像の各フレームの画像について自動で適切なアノテーション処理を行うには、高精度な自動アノテーション処理が可能となる動画像の区間を適切に選択することが好ましい。
【0005】
本発明は、動画像から物体を追跡しやすい動画像の区間を抽出できる技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、以下の手段を採用する。
即ち、第1の態様は、
画像中に現れる物体の位置及び名称を特定する処理を行う画像処理装置であって、
移動体に取り付けられたカメラで撮影された動画像と、前記動画像に対応付けられている前記移動体の走行情報とを格納する記憶部と、
前記走行情報に基づいて、前記動画像から、前記移動体が所定走行状態である期間の、前記動画像の区間を、前記画像中に現れる物体の位置及び名称を特定する処理を行うために抽出する画像処理部と、
を備える画像処理装置とする。
【0007】
開示の態様は、プログラムが情報処理装置によって実行されることによって実現されてもよい。即ち、開示の構成は、上記した態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録したコンピュー
タ読み取り可能な記録媒体として特定することができる。また、開示の構成は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されてもよい。開示の構成は、上記した各手段が実行する処理を行う情報処理装置を含むシステムとして特定されてもよい。
【発明の効果】
【0008】
本発明によれば、動画像から物体を追跡しやすい動画像の区間を抽出できる技術を提供することができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施形態の画像処理装置の構成例を示す図である。
【
図2】
図2は、情報処理装置のハードウェア構成例を示す図である。
【
図3】
図3は、実施形態の画像処理装置の動作フローの例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して実施形態について説明する。実施形態の構成は例示であり、発明の構成は、開示の実施形態の具体的構成に限定されない。発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
【0011】
〔実施形態〕
(構成例)
図1は、本実施形態の画像処理装置の構成例を示す図である。画像処理装置100は、画像処理部102、入力部104、出力部106、通信部108、記憶部110を有する。画像処理装置100は、車両等に搭載されるカメラで撮影された動画像と、当該動画像が撮影された際の車両の走行状態を示す走行情報とを対応付けて記憶部110に格納している。車両は移動体の一例である。車両の走行情報には、車両の操舵角を示す操舵情報や車両の速度を示す速度情報が含まれる。当該動画像と走行情報とは、通信部108により、車両や他の情報処理装置等から通信ネットワーク等を介して取得される。画像処理装置100は、記憶部110に格納される動画像から、自動でアノテーション処理を行うのに適した動画像の区間を抽出する。画像処理装置100は、車両の走行情報に基づいて、当該動画像の区間を抽出する。画像処理装置100は、抽出された動画像の区間に含まれるフレームの画像について、画像に含まれる物体についてアノテーション処理を行う。物体には、例えば、標識、車両、建物などの人工物、植物、地形、岩、動物などの自然物等が含まれ得る。アノテーション処理は、画像と当該画像中の所定の物体の位置(範囲)及び名称とを対応付ける処理である。画像処理装置100は、画像と画像中の物体の位置(範囲)及び名称とを対応付けて、記憶部110に格納する。物体の名称は、物体の状態、性質などの物体に関連する情報であってもよい。アノテーション処理された画像と物体の位置及び名称とは、アノテーション処理を行う学習済み推定モデルの機械学習における教師データとして使用され得る。
【0012】
画像処理部102は、記憶部110に格納される動画像と当該動画像に対応付けられる車両の走行情報とを取得する。画像処理部102は、車両の走行情報に基づいて、車両が所定の走行状態の際に撮影された動画像を抽出する。画像処理部102は、利用者等に、抽出された動画像に含まれる1フレームの画像中の物体の位置(範囲)及び名称を入力部104により入力させる。物体の位置は、例えば、物体を含む長方形(の各頂点の位置の座標)で特定される。画像処理部102は、入力されたフレームの画像中の物体の範囲に含まれる特徴点を抽出する。画像処理部102は、他のフレームの画像について、抽出した特徴点を追跡し、各物体の特徴点の移動ベクトル(画像内で移動する方向と大きさを示すベクトル)を算出する。画像処理部102は、各物体の特徴点の移動ベクトルに基づい
て、静止物(静止している物体)または直進移動物(直進移動している物体)であるかを判定する。画像処理部102は、静止物または直進移動物と判定された物体について、追跡を行う。画像処理部102は、追跡に基づいて、アノテーション処理を行い、他のフレームの画像中の物体の位置及び名称を記憶部110に格納する。画像処理部102は、出力部106に他のフレームの画像及び当該画像に含まれる物体の位置及び名称を表示し、利用者等に確認結果を入力部104より入力させる。
【0013】
入力部104は、利用者等による情報の入力を受け付ける入力手段である。入力部104は、キーボード、ポインティングデバイス等の入力装置である。入力部104は、利用者による、出力部106に表示される画像に含まれる物体の位置(範囲)及び名称の入力を受け付ける。また、入力部104は、出力部106に表示されるアノテーション処理の結果の確認結果の入力を受け付ける。
【0014】
出力部106は、利用者等に対する情報の表示等の出力を行う出力手段である。出力部106は、例えば、ディスプレイ等の表示装置である。出力部106は、動画像のフレームの画像、アノテーション結果である、画像と画像に含まれる物体の位置及び名称とを表示する。
【0015】
通信部108は、通信ネットワーク等を介して他の情報処理装置などと通信をする通信インタフェースである。通信部108は、他の情報処理装置などから、動画像及び走行情報を受信し、記憶部110に格納する。
【0016】
記憶部110は、車両等に搭載されたカメラで撮影された動画像と当該車両等の走行状態を示す走行情報とを対応付けて格納する。動画像は、複数のフレームの静止画像(画像)の集合体である。記憶部110に格納される動画像は、車両に搭載されるカメラによって撮影された動画像である。車両に搭載されるカメラは、例えば、車両の前方に固定して設置され、車両の走行方向(前方向)に向けられている。動画像に対応付けられる走行情報は、車両のCAN(Control Area Network)等により車両の制御システム等から取得された操舵角や速度等の情報である。例えば、動画像に付加された時刻情報と、車両情報に付加された時刻情報とが対応付けられることにより、動画像が撮影された際の走行状態が認識され得る。また、記憶部110は、アノテーション結果である、画像と画像に含まれる物体の位置及び名称とを対応付けて格納する。車両の走行情報には、カメラの撮影方向の情報が含まれていてもよい。カメラの撮影方向の情報は、画像内のエピポーラ拘束線等を求める際に使用され得る。
【0017】
図2は、情報処理装置のハードウェア構成例を示す図である。
図2に示す情報処理装置は、一般的なコンピュータの構成を有している。画像処理装置100は、
図2に示すような情報処理装置90によって実現される。
図2の情報処理装置90は、プロセッサ91、メモリ92、記憶部93、入力部94、出力部95、通信制御部96を有する。これらは、互いにバスによって接続される。メモリ92及び記憶部93は、コンピュータ読み取り可能な記録媒体である。コンピュータのハードウェア構成は、
図2に示される例に限らず、適宜構成要素の省略、置換、追加が行われてもよい。
【0018】
情報処理装置90は、プロセッサ91が記録媒体に記憶されたプログラムをメモリ92の作業領域にロードして実行し、プログラムの実行を通じて各構成部等が制御されることによって、所定の目的に合致した機能を実現することができる。
【0019】
プロセッサ91は、例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)である。
【0020】
メモリ92は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)を含む。メモリ92は、主記憶装置とも呼ばれる。
【0021】
記憶部93は、例えば、EPROM(Erasable Programmable ROM)、ハードディスク
ドライブ(HDD、Hard Disk Drive)である。また、記憶部93は、リムーバブルメデ
ィア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、USB(Universal Serial Bus)メモリ、あるいは、CD(Compact Disc)やDVD(Digital Versatile Disc)のようなディスク記録媒体である。記憶部93は、二次記憶装置とも呼ばれる。
【0022】
記憶部93は、各種のプログラム、各種のデータ及び各種のテーブルを読み書き自在に記録媒体に格納する。記憶部93には、オペレーティングシステム(Operating System :OS)、各種プログラム、各種テーブル等が格納される。記憶部93に格納される情報は、メモリ92に格納されてもよい。また、メモリ92に格納される情報は、記憶部93に格納されてもよい。
【0023】
オペレーティングシステムは、ソフトウェアとハードウェアとの仲介、メモリ空間の管理、ファイル管理、プロセスやタスクの管理等を行うソフトウェアである。オペレーティングシステムは、通信インタフェースを含む。通信インタフェースは、通信制御部96を介して接続される他の外部装置等とデータのやり取りを行うプログラムである。外部装置等には、例えば、他のコンピュータ、外部記憶装置等が含まれる。
【0024】
入力部94は、キーボード、ポインティングデバイス、ワイヤレスリモコン、タッチパネル等を含む。また、入力部94は、カメラのような映像や画像の入力装置や、マイクロフォンのような音声の入力装置を含むことができる。
【0025】
出力部95は、LCD(Liquid Crystal Display)、EL(Electroluminescence)パ
ネル、CRT(Cathode Ray Tube)ディスプレイ、PDP(Plasma Display Panel)等の表示装置、プリンタ等の出力装置を含む。また、出力部95は、スピーカのような音声の出力装置を含むことができる。
【0026】
通信制御部96は、他の装置と接続し、情報処理装置90と他の装置との間の通信を制御する。通信制御部96は、例えば、LAN(Local Area Network)インタフェースボード、無線通信のための無線通信回路、有線通信のための通信回路である。LANインタフェースボードや無線通信回路は、インターネット等のネットワークに接続される。
【0027】
画像処理装置100を実現するコンピュータは、プロセッサが補助記憶装置に記憶されているプログラムを主記憶装置にロードして実行することによって、画像処理部102、入力部104、出力部106、通信部108としての機能を実現する。一方、記憶部110は、主記憶装置または補助記憶装置の記憶領域に設けられる。
【0028】
(動作例)
図3は、本実施形態の画像処理装置100の動作フローの例を示す図である。ここでは、画像処理装置100の記憶部110には、通信部108等により受信された車両に搭載されるカメラで撮影された動画像及び動画像が撮影された際の車両の走行情報とが対応付けられて格納されているとする。
【0029】
S101では、画像処理装置100の画像処理部102は、記憶部110に格納される動画像及び走行情報を取得する。動画像は、例えば、車両の走行時等に車両の走行方向等を撮影したものである。
【0030】
S102では、画像処理部102は、S101で取得した動画像において、車両が直線走行(直進走行)している動画像の区間を抽出する。画像処理部102は、動画像に対応付けられた車両の走行状態を示す走行情報の、操舵角が0度であり、かつ、速度が0km/hを超えている際に撮影された動画像の区間を抽出する。操舵角が0度であり、かつ、速度が0km/hを超えていることは、車両が停止せずに直進走行していることを示している。例えば、画像処理部102は、動画像に対応付けられている走行情報において、操舵角が0度であり、かつ、速度が0km/hを超えている期間が時刻t1から時刻t2までである場合に、動画像の時刻t1から時刻t2までの区間を抽出する。抽出された動画像は、アノテーション処理を行う画像として使用される。画像処理部102は、抽出した動画像の区間を記憶部110に格納する。画像処理部102は、動画像に直進走行の際に撮影された区間が含まれない場合には、当該動画像から動画像の区間の抽出は行われない。また、画像処理部102は、操舵角が0度であり、かつ、速度が等速(一定速度)である期間を動画像の区間として抽出してもよい。操舵角が0度であり、かつ、速度が等速である期間の動画像では、車両に搭載されたカメラが等速で移動することになり、速度が等速である期間の動画像を使用すると、静止物等の追跡がより容易になる。当該動画像から動画像の区間の抽出がされない場合、
図3の動作フローは終了する。
【0031】
S103では、画像処理部102は、出力部106にS102で抽出した動画像を表示し、利用者に、動画像のフレームの画像に含まれる物体を含む範囲(領域)を選択させ、当該物体の名称を入力させる。1つの画像に対して複数の物体の範囲及び名称を入力させてもよい。入力部104は、利用者による、物体を含む範囲の入力、物体の名称の入力を受け付ける。すなわち、画像処理部102は、抽出した動画像に含まれる画像に対して、利用者に手動でのアノテーション処理を行わせる。画像処理部102は、物体を含む範囲を選択する際に使用する画像を動画像の各フレームの画像から選択できるように出力部106に表示してもよい。ここで、画像処理部102は、例えば、利用者に、動画像の各フレームに含まれる同一の物体について、物体の大きさが最大となるフレームの画像を選択させ、当該画像において、物体を含む領域(例えば、長方形)を選択させる。画像処理部102は、選択された、動画像に含まれるフレームの画像と、物体の範囲と物体の名称とを対応付けて、記憶部110に格納する。また、画像処理部102は、周知の画像認識技術等により、動画像に含まれる画像から所定の物体を含む範囲を抽出し、画像と物体の範囲と当該物体の名称とを対応付けて、記憶部110に格納してもよい。なお、必ずしも物体の大きさが「最大」となるフレームの画像でなくても、利用者が物体を精度よく選択するのに十分な大きさで映っているフレームの画像を選択してもよい。
【0032】
S104では、画像処理部102は、S103で入力された動画像に含まれるフレームの画像における物体の範囲から、特徴点を抽出する。この特徴点を最初に抽出された特徴点とよぶ。特徴点は、例えば、物体が長方形の標識であるときに、標識の角や縁の部分、標識内の数字、文字、記号内の一点などである。また、特徴点は、例えば、物体が自動車であるときのナンバープレート、ヘッドライト、エンブレム、フロントガラスの角、縁、ドアミラー等の一点である。1つの物体に対して1以上の特徴点が抽出される。物体をより適切に追跡するために、1つの物体に対して、複数の特徴点が抽出されることが望ましい。ここで、S103で物体の大きさが最大となるフレームの画像が選択されることで、画像処理部102における特徴点の抽出をしやすくなる。
【0033】
さらに、画像処理部102は、抽出した特徴点を含むフレームの画像の前後のフレームの画像から、同一の特徴点を抽出する。この特徴点を後に抽出された特徴点とよぶ。前後のフレームの画像から特徴点の抽出は、例えば、特徴点近傍の局所的パターンマッチングによって行われる。また、前後のフレームの画像に対する特徴点を追跡するアルゴリズムとして、周知の特徴点追跡アルゴリズム(KLT法(Kanade-Lucas-Tomasi Feature Trac
ker)など)が使用され得る。2フレームの画像における同一の特徴点の位置の差を、特
徴点の移動ベクトルという。物体が静止物である場合、時間的に前のフレームの画像の方向に、特徴点が追跡される。また、物体の大きさが最大となるフレームの画像が選択されるため、物体の大きさが小さくなるフレームの画像の方向に、特徴点が追跡される。画像処理部102は、抽出した各画像における各物体の特徴点を記憶部110に格納する。なお、例えばカメラが車両の前方ではなく後方に取り付けられている場合は、画像の中の物体の大きさは時間が経つほど小さくなる。この場合は時間的に後のフレームの画像の方向に特徴点を追跡すればよい。要するに、画像中の物体の大きさが小さくなる方向に特徴点を追跡すればよい。
【0034】
S105では、画像処理部102は、各物体の特徴点の移動ベクトルに基づいて、S104で抽出された特徴点を含む物体が、静止物(静止している物体)または直進移動物(直進移動している物体)であるかを判定する。
【0035】
一般に、直進移動するカメラで撮影された動画像において、静止物は動画像の画像内で所定の直線上を移動する。この所定の直線をエピポーラ拘束線という。直進移動するカメラで撮影された動画像において、特徴点を含む物体が静止物である場合、当該特徴点は画像内でエピポーラ拘束線上を移動する。車両の直進走行に伴って、画像内の静止物はエピポーラ拘束線上を移動する。例えば、車両の進行方向が画像の中心である(車両が画像の中心に向かって直進走行している)とすると、エピポーラ拘束線は、画像の中心と特徴点とを通る直線となる。よって、車両がカメラで撮影された動画像の中心に向かって直進走行しているとすると、それぞれの最初に抽出された特徴点のエピポーラ拘束線は、最初に抽出された特徴点と画像の中心とを通る直線となる。画像処理部102は、ある物体の最初に抽出された特徴点の当該エピポーラ拘束線上に、当該物体の後に抽出された特徴点が存在する場合に、当該特徴点を含む物体が静止物であると判定する。画像処理部102は、当該特徴点の移動ベクトルがエピポーラ拘束線上に存在する場合に当該特徴点を含む物体が静止物であると判定してもよい。画像処理部102は、当該物体が静止物である情報を、当該物体の範囲等に対応付けて記憶部110に格納する。静止物が画像内でエピポーラ拘束線上を移動すると予測することで、物体の追跡の精度を向上させることができる。
【0036】
また、特徴点を含む物体が直進移動物である場合、特徴点は画像内で直線上を移動する。当該物体は、例えば、直進走行する他の車両である。直進移動するカメラで撮影された動画像において、直進移動物は画像内で直線上を移動する。当該直線は、エピポーラ拘束線とは異なる。画像処理部102は、ある物体の最初に抽出された特徴点及び後から抽出された特徴点が1つの直線上に存在する場合に、当該特徴点を含む物体が直進移動物であると判定する。画像処理部102は、当該物体が直進移動物である情報を、当該物体の範囲等に対応付けて記憶部110に格納する。直進移動物が画像内で直線上を移動すると予測することで、物体の追跡の精度を向上させることができる。
【0037】
画像処理部102は、S104で抽出された特徴点を含む物体が静止物でも直進移動物でもない場合、当該物体に対して以後の処理を行わない。画像処理部102は、ある物体の最初に抽出された特徴点のエピポーラ拘束線上に、当該物体の後に抽出された特徴点の一部が存在しない場合に、当該物体に対して以後の処理を行わなくてもよい。
【0038】
S106では、画像処理部102は、S105で静止物または直進移動物であると判定された物体に対して、各画像のおける当該物体の位置(範囲)の追跡(算出、検出)を行う。画像処理部102は、物体が静止物である場合には、物体の位置(物体を含む長方形の頂点)も特徴点と同様にエピポーラ拘束線上を移動するとみなして、物体の位置を算出する。
【0039】
図4は、静止物の追跡の例を示す図である。
図4の例に示すように、後に抽出された特徴点が最初に抽出された特徴点と画像の中心とを結ぶ線分をa:bに分ける点にあるとする。このとき、画像処理部102は、当該後に抽出された特徴点を含む物体の位置を、最初に抽出された特徴点を含む物体を含む長方形の各頂点と画像の中心とを結ぶ線分をa:bに分ける点同士を結んだ長方形として算出する。
【0040】
また、画像処理部102は、物体が直線移動物である場合には、物体の位置(物体を含む長方形の各頂点)も特徴点と同様に直線上を移動するとみなして、物体の位置を算出する。例えば、当該後に抽出された特徴点を含む物体の位置は、後に算出された特徴点の位置まで平行移動したとする。また、1つの物体に対して複数の特徴点が含まれている場合には、特徴点同士の間隔の拡大縮小に応じて物体を含む長方形を拡大縮小する。画像処理部102は、追跡した各画像における物体の位置を画像等と対応付けて記憶部110に格納する。
【0041】
S107では、画像処理部102は、S106で追跡した物体の位置を示す領域(長方形)を、当該物体を含む画像に重ねて出力部106に表示する。利用者(検査者)等は、出力部106に表示される画像に含まれる物体と、物体の位置を示す領域(長方形)とを比較して、これらがずれているか否かを確認する。画像処理部102は、利用者による確認結果(検査結果)の入力を、入力部104により受け付ける。画像処理部102は、ずれているとの確認結果が入力部104により入力された画像を、記憶部110から削除する。画像処理部102は、ずれていないとの確認結果が入力部104により入力された画像を、記憶部110に格納したままにする。画像処理部102は、ずれていないとの確認結果が入力部104により入力された画像に、ずれていないとの確認されたことを示す情報を対応付けて、記憶部110に格納してもよい。これにより、画像処理部102は、記憶部110に、機械学習の教師データとして使用される画像と当該画像に含まれる物体の位置及び名称とを格納する。
【0042】
(変形例)
上記の例では、S102において、画像処理部102は、車両が直線走行(直進走行)している動画像の区間を抽出したが、車両が静止している同画像の区間を抽出してもよい。このとき、S102において、画像処理部102は、動画像に対応付けられた車両の走行状態を示す走行情報の速度が0km/hである際に撮影された動画像の区間を抽出する。速度が0km/hであることは、車両が停止していることを示している。抽出された動画像は、アノテーション処理を行う画像として使用される。画像処理部102は、抽出した動画像の区間を記憶部110に格納する。また、このとき、S105において、画像処理部102は、各物体の特徴点の移動ベクトルに基づいて、S104で抽出された特徴点を含む物体が、直進移動物(直進移動している物体)であるかを判定する。特徴点を含む物体が直進移動物である場合、特徴点は画像内で直線上を移動する。静止しているカメラで撮影された動画像において、直進移動物は画像内で直線上を移動する。画像処理部102は、ある物体の最初に抽出された特徴点及び後から抽出された特徴点が1つの直線上に存在する場合に、当該特徴点を含む物体が直進移動物であると判定する。このようにすることで、画像処理部102は、静止している車両から撮影された動画像から教師データとして使用される画像と当該画像に含まれる物体の位置及び名称とを記憶部110に格納することができる。
【0043】
(実施形態の作用、効果)
画像処理装置100は、車両等に搭載されるカメラで撮影された動画像と、当該動画像が撮影された際の車両の走行状態を示す走行情報とを対応付けて記憶部110に格納している。画像処理装置100は、記憶部110に格納される動画像から、車両が直進走行または静止している際に撮影された動画像の区間を、車両の走行情報に基づいて、抽出する
。当該動画像の区間は、自動でアノテーション処理を行うのに適した画像が含まれる動画像の区間である。画像処理装置100は、自動でアノテーション処理を行うのに適した画像が含まれる動画像の区間を抽出することができる。画像処理装置100は、出力部106に抽出した動画像を表示し、利用者に、動画像のフレームの画像に含まれる物体を含む範囲(領域)を選択させ、当該物体の名称を入力させる。このとき、画像処理装置100は、動画像の各フレームに含まれる同一の物体について、物体の大きさが最大となるフレームの画像において、物体の領域を選択させる。物体の大きさが最大となるフレームで物体の領域を選択させることで、選択された領域と物体との誤差を最も小さくできる。物体が静止物である場合には、時間的に後のフレームの画像であるほど画像における物体の大きさが大きくなる。画像処理装置100は、選択された物体の領域(範囲)において、物体の特徴点を抽出する。画像処理装置100は、物体が静止物である場合、時間的に前のフレームの画像の方向に、物体の特徴点を追跡する。画像処理装置100は、物体の特徴点がエピポーラ拘束線上を移動するとき、当該物体は静止物であると判定する。画像処理装置100は、物体が静止物であると判定したとき、物体の範囲(領域、位置)が特徴点と同様にエピポーラ拘束線上を移動するとみなして、物体の範囲を追跡する。画像処理装置100は、エピポーラ拘束線上を移動する物体を静止物とみなすことで、静止物の判定を容易にすることができる。画像処理装置100は、追跡の結果、画像における実際の物体の位置が追跡(算出)した物体の位置と異なる場合に、当該画像を削除して教師データとして使用しないことで、アノテーション処理を行う学習済み推定モデルの精度を向上させることができる。画像処理装置100は、車両に搭載されるカメラで撮影された動画像から、精度の高い、アノテーション処理を行う学習済み推定モデルの教師データを生成することができる。
【0044】
〈コンピュータ読み取り可能な記録媒体〉
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
【0045】
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体内には、CPU、メモリ等のコンピュータを構成する要素を設け、そのCPUにプログラムを実行させてもよい。
【0046】
また、このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD、DAT、8mmテープ、メモリカード等がある。
【0047】
また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。
【0048】
(その他)
以上、本発明の実施形態を説明したが、これらはあくまで例示にすぎず、本発明はこれらに限定されるものではなく、特許請求の範囲の趣旨を逸脱しない限りにおいて、各構成の組み合わせなど、当業者の知識に基づく種々の変更が可能である。
【符号の説明】
【0049】
100: 画像処理装置
102: 画像処理部
104: 入力部
106: 出力部
108: 通信部
110: 記憶部
90: 情報処理装置
91: プロセッサ
92: メモリ
93: 記憶部
94: 入力部
95: 出力部
96: 通信制御部