(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022156856
(43)【公開日】2022-10-14
(54)【発明の名称】物体個別認識方法及びプログラム、並びに物体個別認識装置
(51)【国際特許分類】
H04N 7/18 20060101AFI20221006BHJP
G06T 7/00 20170101ALI20221006BHJP
【FI】
H04N7/18 K
G06T7/00 350B
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021060753
(22)【出願日】2021-03-31
(71)【出願人】
【識別番号】000206211
【氏名又は名称】大成建設株式会社
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】太田 兵庫
(72)【発明者】
【氏名】石井 喬之
(72)【発明者】
【氏名】片山 三郎
【テーマコード(参考)】
5C054
5L096
【Fターム(参考)】
5C054FC00
5C054FC12
5C054FE13
5C054HA00
5L096CA04
5L096DA02
5L096DA04
5L096FA69
5L096KA04
(57)【要約】
【課題】広範な領域を撮影した映像によって建設現場の様子を把握するとともに、物体の種類がたとえ同じであっても当該物体を個別に認識しつつその位置を推定する。
【解決手段】物体個別認識装置4は、推定位置入力手段41と、予測位置入力手段42と、変換手段43と、関係付け手段44と、付与手段45とを備える。推定位置入力手段41には、固定カメラ2で撮影した推定用映像において検出された物体9の推定位置が入力される。予測位置入力手段42には、物体に付設された位置情報取得装置6によって得られた当該物体の予測位置が入力される。変換手段43は、推定位置と予測位置とを共通の平面座標系での位置に変換する。関係付け手段44は、物体に対して、当該物体の推定位置に最も近い予測位置を有する位置情報取得装置6を関係付ける。付与手段45は、物体に対して、当該物体に関係付けられた位置情報取得装置6が保持する識別情報を付与する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
固定カメラで建設現場を撮影した推定用映像に含まれる物体を個別に認識する物体個別認識方法であって、
前記推定用映像において検出された前記物体の位置を推定することで得られた当該物体の推定位置が入力される推定位置入力ステップと、
前記物体に付設された位置情報取得装置によって当該物体の位置を予測することで得られた当該物体の予測位置が入力される予測位置入力ステップと、
前記推定位置と前記予測位置とを共通の平面座標系での位置に変換する変換ステップと、
前記推定用映像において検出された前記物体に対して、当該物体の前記推定位置に最も近い前記予測位置を有する前記位置情報取得装置を関係付ける関係付けステップと、
前記推定用映像において検出された前記物体に対して、当該物体に関係付けられた前記位置情報取得装置が保持する識別情報を付与する付与ステップと、
を含む物体個別認識方法。
【請求項2】
学習済みの物体検出モデルを用いて、前記推定用映像において検出された前記物体の位置を推定することを特徴とする請求項1に記載の物体個別認識方法。
【請求項3】
前記物体に対して付与された前記識別情報が付された当該物体を含む前記推定用映像を表示装置に表示する表示ステップを含むことを特徴とする請求項1または請求項2に記載の物体個別認識方法。
【請求項4】
前記物体は、建設機械であることを特徴とする請求項1から請求項3のいずれか一項に記載の物体個別認識方法。
【請求項5】
請求項1から請求項4のいずれか一項に記載の物体個別認識方法を、コンピュータに実行させるプログラム。
【請求項6】
固定カメラで建設現場を撮影した推定用映像に含まれる物体を個別に認識する物体個別認識装置であって、
前記推定用映像において検出された前記物体の位置を推定することで得られた前記物体の推定位置が入力される推定位置入力手段と、
前記物体に付設された位置情報取得装置によって当該物体の位置を予測することで得られた当該物体の予測位置が入力される予測位置入力手段と、
前記推定位置と前記予測位置とを共通の平面座標系での位置に変換する変換手段と、
前記推定用映像において検出された前記物体に対して、当該物体の前記推定位置に最も近い前記予測位置を有する前記位置情報取得装置を関係付ける関係付け手段と、
前記推定用映像において検出された前記物体に対して、当該物体に関係付けられた前記位置情報取得装置が有する識別情報を付与する付与手段と、
を備える物体個別認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体個別認識方法及びプログラム、並びに物体個別認識装置に関する。
【背景技術】
【0002】
ダム工事や大型造成工事の建設現場において、学習済みの物体検出モデルを用いた画像認識によって人や建設機械の位置を割り出す技術が提案されている(特許文献1参照)。
この技術では、人や建設機械等の物体の位置を割り出すためにできるだけ広範な領域の建設現場を固定カメラで撮影した映像が用いられる。これにより、固定カメラで撮影した広範な領域の映像によって建設現場の様子を把握するとともに、物体の種類を区別しつつその位置を推定できる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の技術によれば、人、ショベルカー、ブルドーザーのように物体の種類を区別することは可能である。
しかしながら、例えば同じ機種のショベルカーを一号機、二号機として使用する場合のように、見た目が同じ様に見える物体を識別することは困難である。
本発明は、前記した課題を解決し、広範な領域を撮影した映像によって建設現場の様子を把握するとともに、物体の種類がたとえ同じであっても当該物体を個別に認識しつつその位置を推定することを課題とする。
【課題を解決するための手段】
【0005】
前記課題を解決するために、本発明は、固定カメラで建設現場を撮影した推定用映像に含まれる物体を個別に認識する物体個別認識方法である。前記物体個別認識方法は、推定位置入力ステップと、予測位置入力ステップと、変換ステップと、関係付けステップと、付与ステップと、を含む。前記推定位置入力ステップでは、前記推定用映像において検出された物体の位置を推定することで得られた当該物体の推定位置が入力される。前記予測位置入力ステップでは、前記物体に付設された位置情報取得装置によって当該物体の位置を予測することで得られた当該物体の予測位置が入力される。前記変換ステップは、前記推定位置と前記予測位置とを共通の平面座標系での位置に変換するものである。前記関係付けステップは、前記推定用映像において検出された前記物体に対して、当該物体の前記推定位置に最も近い前記予測位置を有する前記位置情報取得装置を関係付けるものである。前記付与ステップは、前記推定用映像において検出された前記物体に対して、当該物体に関係付けられた前記位置情報取得装置が保持する識別情報を付与するものである。
本発明では、物体に付設された位置情報取得装置が保持する識別情報が、当該物体に対して付与される。したがって、例えば同じ種類の物体であっても、物体ごとに付与された識別情報によって個別に識別することができる。また、固定カメラで撮影した広範な領域の映像によって、例えば建設機械の移動や作業状況等を目視で確認することができる。したがって、本発明によれば、広範な領域を撮影した映像によって建設現場の様子を把握するとともに、物体の種類がたとえ同じであっても当該物体を個別に認識しつつその位置を推定することができる。
前記物体個別認識方法においては、学習済みの物体検出モデルを用いて、前記推定用映像において検出された物体の位置を推定することが好ましい。この構成では、より正確に物体の種類を区別しつつその位置を推定できる。
【0006】
前記物体個別認識方法は、前記物体に対して付与された前記識別情報が付された当該物体を含む前記推定用映像を表示装置に表示する表示ステップを含むことが好ましい。この構成では、管理者は、表示装置に表示された推定用映像を見るだけで、建設現場の様子を把握するとともに、物体を個別に認識することができる。
前記物体個別認識方法においては、前記物体は、建設機械であることが好ましい。この構成では、例えば同じ機種のショベルカーを一号機、二号機として使用する場合であっても、建設機械ごとに付与された識別情報によって一号機と二号機とを識別することができる。つまり、たとえ建設機械の機種が同じで見た目が全く同じ様に見える場合であっても、当該建設機械を個別に認識しつつその位置を推定することができる。
【0007】
なお、本発明は、コンピュータが備えるCPU、メモリ、ハードディスクなどのハードウェア資源を用いて、前記物体個別認識方法をコンピュータに実行させるプログラムで実現することもできる。
【0008】
また、本発明は、固定カメラで建設現場を撮影した推定用映像に含まれる物体を個別に認識する物体個別認識装置である。前記物体個別認識装置は、推定位置入力手段と、予測位置入力手段と、変換手段と、関係付け手段と、付与手段と、を備える。前記推定位置入力手段には、前記推定用映像において検出された物体の位置を推定することで得られた前記物体の推定位置が入力される。前記予測位置入力手段には、前記物体に付設された位置情報取得装置によって当該物体の位置を予測することで得られた当該物体の予測位置が入力される。前記変換手段は、前記推定位置と前記予測位置とを共通の平面座標系での位置に変換する。前記関係付け手段は、前記推定用映像において検出された前記物体に対して、当該物体の前記推定位置に最も近い前記予測位置を有する前記位置情報取得装置を関係付ける。前記付与手段は、前記推定用映像において検出された前記物体に対して、当該物体に関係付けられた前記位置情報取得装置が保持する識別情報を付与する。
【発明の効果】
【0009】
本発明によれば、広範な領域を撮影した映像によって建設現場の様子を把握するとともに、物体の種類がたとえ同じであっても当該物体を個別に認識しつつその位置を推定することができる。
【図面の簡単な説明】
【0010】
【
図1】実施形態に係る物体管理システムの概略構成図である。
【
図2】実施形態に係る物体管理システムの構成を示すブロック図である。
【
図3】実施形態において、固定カメラの撮影映像からフレーム画像を抽出する手法を説明する説明図である。
【
図4】実施形態において、教師データを生成する手法を説明する説明図である。
【
図5】実施形態において、物体の種類及び物体領域を検出する手法を説明する説明図である。
【
図6】実施形態において、物体領域の四隅座標を説明する説明図である。
【
図7】実施形態において、(a)は画像座標系を説明する説明図であり、(b)は世界座標系を説明する説明図である。
【
図8】実施形態において、基準座標を設定する手法を説明する説明図である。
【
図9】実施形態において、物体位置推定装置の学習モードの動作を示すフローチャートである。
【
図10】実施形態において、物体位置推定装置の位置推定モードの動作を示すフローチャートである。
【
図11】実施形態において、物体個別認識装置の個別認識モードの動作を示すフローチャートである。
【
図12】固定カメラで撮影した推定用映像の例を模式的に示す図である。
【
図13】
図12に示される推定用映像に含まれる建設機械の推定位置を平面座標系で示す図である。
【
図14】
図13に対して、位置情報取得装置によって得られた建設機械の予測位置を加えた図である。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態について適宜図面を参照して説明する。なお、以下に示す図面において、同一または同種の部材については、同一の参照符号を付し、重複した説明を適宜省略する。また、部材のサイズおよび形状は、説明の便宜のため、変形または誇張して模式的に表す場合がある。
【0012】
[物体管理システムの全体構成]
図1を参照し、実施形態に係る物体管理システム1の全体構成について説明する。
図1に示すように、物体管理システム1は、ダム工事等の建設現場Lを固定カメラ2で撮影した映像を用いて物体9の位置を推定するとともに、物体9を個別に認識するものである。物体管理システム1は、固定カメラ2と、物体管理装置5と、位置情報取得装置6とを備える。ここで、物体管理システム1で管理対象となる物体9としては、建設機械(例えば、振動ローラ9
1、ブルドーザー9
2、ショベルカー9
3)、作業員9
4、及び、資材9
5があげられる。位置情報取得装置6は、物体9に付設される。具体的には、位置情報取得装置6は、建設機械の運転席付近の所定の場所に置かれたり、作業員9
4に所持されたり、資材9
5に取り付けられたりされる。
【0013】
物体管理システム1は、物体検出モデルを学習する「学習モード」、物体検出モデルにより物体9の位置を推定する「位置推定モード」、及び物体9を個別に認識する「個別認識モード」という3つの動作モードを有する。従って、物体管理システム1は、学習モードで事前に物体検出モデルを学習した後、位置推定モードで実際に物体9の位置を推定するとともに個別認識モードで物体9を個別に認識することになる。なお、物体管理システム1の管理者が、学習モード、又は、位置推定モード及び個別認識モードの何れかを物体管理装置5に指令する。
以後、後記する固定カメラ2が学習モードで撮影した映像、つまり、物体検出モデルの学習に使用する映像を「学習用映像」と呼ぶ。また、固定カメラ2が位置推定モードで撮影した映像、つまり、物体9の位置推定に使用する映像を「推定用映像」と呼ぶ。
【0014】
固定カメラ2は、建設現場Lを撮影する一般的な撮影カメラやWebカメラであり、建設現場Lの撮影映像を物体管理装置5に出力するものである。この固定カメラ2は、その位置、姿勢及び撮影画角が固定されている。つまり、固定カメラ2は、同一の位置、姿勢及び撮影画角で学習用映像及び推定用映像を撮影する。例えば、固定カメラ2は、建設現場Lの全域を俯瞰し、かつ、建設現場L内の物体9を鮮明に撮影できる位置に1台設置されている。
【0015】
位置情報取得装置6としては、例えばスマートフォンが使用され得る。位置情報取得装置6は、人工衛星(GPS衛星)から発せられた電波を受信して現在位置を計測(予測)し、予測位置として、通信回線を介して物体管理装置5に送信する機能を有する。また、位置情報取得装置6は、管理者等によって設定された所定の識別情報を記憶部に保持しており、この識別情報を、通信回線を介して物体管理装置5に送信する機能を有する。なお、位置情報取得装置6は、GPS測位を利用するものに限られず、例えばWi-Fi測位やLPWA(Low Power Wide Area)基地局測位等の他の測位技術を利用するものであってもよい。また、位置情報取得装置6は、スマートフォンに限られず、他の移動端末や測位用の専用機器であってもよい。
【0016】
[物体管理装置の構成]
図2に示すように、物体管理装置5は、物体位置推定装置3と、物体個別認識装置4とを備える。また、物体管理装置5は、一般的なラップトップ型コンピュータと同様、物体管理システム1の管理者が各種設定を行えるようにキーボード等の入力装置51、及び液晶ディスプレイ等の表示装置52を備える。
【0017】
[物体位置推定装置の構成]
図2を参照し、物体位置推定装置3の構成について説明する。
物体位置推定装置3は、学習した物体検出モデルを用いて、固定カメラ2で建設現場Lを撮影した推定用映像に含まれる物体9の種類及び位置を推定するものである。
物体位置推定装置3は、学習用映像入力手段30と、教師データ生成手段31と、深層学習手段32と、記憶手段33と、推定用映像入力手段34と、物体検出手段35と、アフィン投影手段(変換行列算出手段)36と、物体位置推定手段37とを備える。
【0018】
<学習モード>
学習用映像入力手段30には、学習モードにおいて、固定カメラ2から学習用映像が入力される。学習用映像入力手段30は、物体9の移動速度に応じて、後記する抽出レートが予め設定されている。そして、学習用映像入力手段30は、
図3に示すように、抽出レートに基づいて学習用映像M
Aからフレーム画像F
Aを抽出し、抽出したフレーム画像F
Aを教師データ生成手段31に出力する。
抽出レートは、学習用映像M
Aからフレーム画像F
Aを抽出するレート(間隔)を表しており、物体管理システム1の管理者が手動で設定する。ここで、物体9の移動速度が速くなるほど抽出レートを高く設定し、物体9の移動速度が遅くなるほど抽出レートを低く設定すればよい。例えば、1秒間あたり30枚のフレーム画像で構成される30fps(frames per second)の学習用映像M
Aの場合、30枚のフレーム画像から1枚のフレーム画像F
Aを抽出するように抽出レートを設定する(つまり、抽出レート=1/30)。
【0019】
教師データ生成手段31は、学習モードにおいて、学習用映像M
Aと、学習用映像M
Aに含まれる物体9の種類とをアノテーション(正解を教えるタグ付け)するものである。つまり、教師データ生成手段31は、
図4に示すように、学習用映像入力手段30から入力された学習用映像M
Aのフレーム画像F
Aと、学習用映像M
Aのフレーム画像F
Aに含まれる物体9の種類とを対応付けた教師データを生成する。ここで、正解となるタグTは、物体管理システム1の管理者が手動で入力する。
図4の例では、フレーム画像F
Aの振動ローラ9
1に対して、「振動ローラ」というタグTを対応付けている。さらに、フレーム画像F
Aの振動ローラ9
1に対して、振動ローラ9
1であることを一意に識別できる車体番号「T1234」をタグTとして対応付けてもよい。
その後、教師データ生成手段31は、生成した教師データを深層学習手段32に出力する。
【0020】
深層学習手段32は、学習モードにおいて、教師データ生成手段31から教師データが入力され、深層学習(ディープラーニング)により、この教師データから学習済みの物体検出モデルを生成するものである。そして、深層学習手段32は、生成した物体検出モデルを記憶手段33に書き込む。
ここで、深層学習手段32は、深層学習の手法が特に制限されない。例えば、深層学習手段32は、深層学習として、学習が容易で検出が速いYOLO(You Only Look Once)を用いることが好ましい。また、深層学習手段32は、SSD(Single Shot MultiBox Detector)、Faster R-CNN(Regional Convolution Neural Network)、Fast R-CNN、R-CNN等の深層学習を用いてもよい。
記憶手段33は、深層学習手段32が生成した物体検出モデルを記憶するメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶装置である。記憶手段33に記憶されている物体検出モデルは、後記する物体検出手段35により参照される。
【0021】
<位置推定モード>
推定用映像入力手段34には、位置推定モードにおいて、固定カメラ2から推定用映像が入力される。なお、推定用映像入力手段34は、推定用映像からフレーム画像を抽出する以外、学習用映像入力手段30と同様のため、これ以上の説明を省略する。そして、推定用映像入力手段34は、推定用映像から抽出したフレーム画像を物体検出手段35に出力する。
【0022】
物体検出手段35は、記憶手段33に記憶されている物体検出モデルにより、推定用映像入力手段34から入力された推定用映像に含まれる物体9の種類及び物体領域を検出するものである。つまり、物体検出手段35は、
図5に示すように、推定用映像から抽出したフレーム画像F
Bを物体検出モデルに入力し、そのフレーム画像F
B内の物体9の種類と物体領域とを取得する。
図5のフレーム画像F
Bでは、物体9の種類として、振動ローラ9
1を示す「T1234」や作業員9
4を示す「PERSON」が検出されている。
ここで、物体検出モデルは、
図6に示すように、物体9の種類だけでなく、物体領域Aも検出する。この物体領域Aとは、推定用映像のフレーム画像F
B内で各物体9が占める領域のことであり、左上、左下、右下及び右上の四隅座標P
Gi(X
Gi,Y
Gi)で特定される矩形領域のことである(但し、i=1,…,4)。振動ローラ9
1の物体領域Aは、画像座標系で左上座標P
G1(X
G1,Y
G1)、左下座標P
G2(X
G2,Y
G2)、右下座標P
G3(X
G3,Y
G3)、及び、右上座標P
G4(X
G4,Y
G4)で特定可能である。なお、画像座標系とは、
図7(a)に示すように、固定カメラ2で撮影した映像(フレーム画像)の2次元座標系のことである。
その後、物体検出手段35は、検出した物体9の種類と物体領域Aの四隅座標P
Gi(X
Gi,Y
Gi)とをアフィン投影手段36に出力する。
【0023】
アフィン投影手段36は、画像座標系における物体領域Aの四隅座標P
Gi(X
Gi,Y
Gi)を建設現場Lの世界座標系にアフィン投影するための変換行列を算出するものである。なお、建設現場Lの世界座標系とは、
図7(b)に示すように、建設現場Lを表した3次元座標系のことであり、現地座標系とも呼ばれる。
画像座標系を世界座標系にアフィン投影するためには、画像座標系における物体領域Aの四隅座標P
Gi(X
Gi,Y
Gi)、及び、世界座標系における4点の基準座標P
Li(X
Li,Y
Li)からなる合計8点の座標値が必要である。前記したとおり、物体領域Aの四隅座標P
Gi(X
Gi,Y
Gi)は、物体検出手段35から入力されるので既知である。そこで、4点の基準座標P
Li(X
Li,Y
Li)を設定する必要がある。
【0024】
まず、基準座標P
Li(X
Li,Y
Li)の設定手法を説明する。
図8に示すように、建設現場Lには、基準座標P
Li(X
Li,Y
Li)を計測する基準となる基準位置を4カ所設ける。この基準位置としては、測定用映像で撮影可能であれば、その位置や種類は任意である。例えば、基準位置としては、建設現場L内の杭や柱、又は、基準位置を示すために配置したマーカがあげられる。そして、物体管理システム1の管理者が、
図8に示すように、4カ所の基準位置P
L1(X
L1,Y
L1)~P
L4(X
L4,Y
L4)を建設現場Lで計測し、計測結果をアフィン投影手段36に設定すればよい。なお、建設現場Lが同一高度なので、世界座標系の高さ方向(Z
L軸)を省略している。
次に、アフィン投影手段36は、以下の式(1)に示すように、物体領域Aの四隅座標P
Gi(X
Gi,Y
Gi)、及び、4点の基準座標P
Li(X
Li,Y
Li)を用いて、アフィン投影を行うための変換行列kを算出する。なお、式(1)では、添え字Tが行列の転置を示す。
【0025】
【0026】
その後、アフィン投影手段36は、算出した変換行列kと、物体検出手段35で検出された物体9の種類及び物体領域Aの四隅座標PGi(XGi,YGi)とを、物体位置推定手段37に出力する。
なお、変換行列kは、固定カメラ2の位置、姿勢又は撮影画角や、基準座標PLi(XLi,YLi)の位置が変化しない限り一定である。そこで、アフィン投影手段36は、推定用映像入力手段34が推定用映像から抽出した全フレーム画像について、変換行列kを算出せずともよい。例えば、アフィン投影手段36は、推定用映像入力手段34が最初に抽出したフレーム画像について変換行列kを算出してもよく、一定時間毎に変換行列kを算出してもよい。これにより、物体位置推定装置3は、演算量を低減し、処理速度の高速化を図ることができる。
【0027】
物体位置推定手段37は、アフィン投影手段36から入力された変換行列kにより、物体領域A内の任意座標を世界座標系における物体9の位置に変換することで、物体9の位置を推定するものである。
以下、画像座標系における物体領域A内の任意座標をP
G(X
G,Y
G)と表記し、世界座標系における物体9の位置をP
L(X
L,Y
L)と表記する。例えば、物体位置推定手段37は、物体領域A内の任意座標P
G(X
G,Y
G)として、以下の式(2)を用いて、アフィン投影手段36から入力された物体領域Aの下辺中間座標を算出する。
図6に示すように、物体領域Aの下辺中間座標P
G(X
G,Y
G)は、物体領域Aの左下座標P
G2(X
G2,Y
G2)から右下座標P
G3(X
G3,Y
G3)までの中間なので、式(2)で表される。このように、物体領域A内の任意座標P
G(X
G,Y
G)として、物体9が接地する位置を求めることで、物体9の位置を正確に推定できる。
【0028】
【0029】
さらに、物体位置推定手段37は、以下の式(3)を用いて、画像座標系における物体領域Aの下辺中間座標PG(XG,YG)を、世界座標系における物体9の位置PL(XL,YL)に変換する。その後、物体位置推定手段37は、求めた物体9の位置PL(XL,YL)を推定位置として出力する。また、物体位置推定手段37は、アフィン投影手段36から入力された物体9の種類をも出力する。
【0030】
【0031】
なお、物体位置推定手段37が、物体領域A内の任意座標PG(XG,YG)として、物体領域Aの下辺中間座標を算出することとして説明したが、これに限定されない。例えば、物体位置推定手段37は、物体領域A内の任意座標PG(XG,YG)として、物体領域Aの上辺、左辺又は右辺の中間座標を算出してもよい。また、物体位置推定手段37は、物体領域A内の任意座標PG(XG,YG)として、物体領域Aの中心座標や重心座標を算出してもよい。
【0032】
[物体個別認識装置の構成]
図2を参照し、物体個別認識装置4の構成について説明する。
物体個別認識装置4は、物体位置推定装置3と位置情報取得装置6とを用いて物体9を個別に認識するものである。
物体個別認識装置4は、推定位置入力手段41と、予測位置入力手段42と、変換手段43と、関係付け手段44と、付与手段45とを備える。
【0033】
<個別認識モード>
推定位置入力手段41には、個別認識モードにおいて、推定用映像において検出された物体9の位置を推定することで得られた物体9の推定位置が入力される。推定位置入力手段41には、物体位置推定手段37から、物体9の推定位置とともに、物体9の種類も入力される。
予測位置入力手段42には、物体9に付設された位置情報取得装置6によって当該物体9の位置を予測(計測)することで得られた当該物体9の予測位置(計測位置)が入力される。推定位置入力手段41には、位置情報取得装置6から、物体9の予測位置とともに、位置情報取得装置6が保持する識別情報も入力される。
変換手段43は、推定位置入力手段41から送られた推定位置と予測位置入力手段42から送られた予測位置とを共通の平面座標系での位置に変換するものである。ここでは、共通の平面座標系は、前記した建設現場Lの世界座標系において高さ方向(ZL軸)を省略した平面座標系である。
【0034】
関係付け手段44は、推定用映像において検出された物体9に対して、当該物体9の推定位置に最も近い予測位置を有する位置情報取得装置6を関係付けるものである。例えば物体9が建設現場LにN個存在する場合、物体9に付設された位置情報取得装置6もN個存在する。この場合、物体9の推定位置と物体9の予測位置とがそれぞれN個取得される。そして、N個の物体9の中から一つが選択され、この選択された物体9の推定位置と、取得されたN個の予測位置の各々との差(平面座標系における距離)がそれぞれ計算される。N個の予測位置のうち、選択された物体9の推定位置との差が最も小さい予測位置を有する位置情報取得装置6が、選択された物体9に関係付けられる。この手順が、N個の物体9について順次繰り返し行われることで、N個の物体9に対して、当該物体9の推定位置に最も近い予測位置を有する位置情報取得装置6が関係付けられる。
付与手段45は、推定用映像において検出された物体9に対して、当該物体9に関係付けられた位置情報取得装置6が保持する識別情報を付与するものである。物体9と位置情報取得装置6との関係付けを示す情報は、関係付け手段44から送られる。また、位置情報取得装置6が保持する識別情報は、予測位置入力手段42から送られる。
表示装置52は、物体9に対して付与された識別情報が付された当該物体9を含む推定用映像等の各種映像を表示することができる。
【0035】
[物体位置推定装置の動作:学習モード]
図9を参照し、物体位置推定装置3の学習モードの動作について説明する。
図9に示すように、ステップS1において、学習用映像入力手段30には、固定カメラ2から学習用映像が入力される。すると、学習用映像入力手段30は、抽出レートに基づいて学習用映像からフレーム画像を抽出する。
ステップS2において、教師データ生成手段31は、ステップS1で抽出した学習用映像のフレーム画像と、学習用映像のフレーム画像に含まれる物体9の種類とを対応付けた教師データを生成する。
ステップS3において、深層学習手段32は、YOLO等の深層学習により、ステップS2で生成した教師データから物体検出モデルを生成する。そして、深層学習手段32は、生成した物体検出モデルを記憶手段33に書き込む。
【0036】
[物体位置推定装置の動作:位置推定モード]
図10を参照し、物体位置推定装置3の位置推定モードの動作について説明する。
図10に示すように、ステップS10において、推定用映像入力手段34には、固定カメラ2から推定用映像が入力される。すると、推定用映像入力手段34は、抽出レートに基づいて推定用映像からフレーム画像を抽出する。
ステップS11において、物体検出手段35は、記憶手段33に記憶されている物体検出モデルにより、推定用映像に含まれる物体9の種類及び物体領域Aを検出する。つまり、物体検出手段35は、ステップS10で抽出した推定用映像のフレーム画像を物体検出モデルに入力し、そのフレーム画像内の物体9の種類と物体領域Aとを取得する。
【0037】
ステップS12において、アフィン投影手段36は、画像座標系における物体領域Aの四隅座標PGi(XGi,YGi)を世界座標系にアフィン投影するための変換行列を算出する。具体的には、アフィン投影手段36は、前記した式(1)により、物体領域Aの四隅座標PGi(XGi,YGi)、及び、4点の基準座標PLi(XLi,YLi)を用いて、アフィン投影を行うための変換行列kを算出する。
【0038】
ステップS13において、物体位置推定手段37は、ステップS12で算出した変換行列kにより、物体領域A内の任意座標PG(XG,YG)を世界座標系における物体9の位置PL(XL,YL)に変換することで、物体9の位置を推定する。具体的には、物体位置推定手段37は、体領域内の任意座標PG(XG,YG)として、前記した式(2)を用いて、物体領域Aの下辺中間座標を算出する。そして、物体位置推定手段37は、前記した式(3)を用いて、画像座標系における物体領域Aの下辺中間座標PG(XG,YG)を、世界座標系における物体9の位置PL(XL,YL)に変換する。
【0039】
[物体個別認識装置の動作:個別認識モード]
図11を参照し、物体個別認識装置4の個別認識モードの動作について説明する。
図11に示すように、ステップS20において、推定位置入力手段41には、推定用映像において検出された物体9の位置を推定することで得られた物体9の推定位置が入力される。また、推定位置入力手段41には、物体9の種類も入力される。
図12は、固定カメラで撮影した推定用映像の例を模式的に示す図である。
図12の例では、推定用映像において、一台のブルドーザー9
2と、三台のショベルカー9
3とが検出されている。
【0040】
ステップS21において、予測位置入力手段42には、物体9に付設された位置情報取得装置6によって当該物体9の位置を予測することで得られた当該物体9の予測位置が入力される。また、予測位置入力手段42には、位置情報取得装置6が保持する識別情報も入力される。
【0041】
ステップS22において、変換手段43は、推定位置入力手段41から送られた推定位置と予測位置入力手段42から送られた予測位置とを共通の平面座標系での位置に変換する。
図13は、
図12に示される推定用映像に含まれる建設機械の推定位置を平面座標系で示す図である。
図14は、
図13に対して、位置情報取得装置6によって得られた建設機械の予測位置を加えた図である。
【0042】
ステップS23において、関係付け手段44は、推定用映像において検出された物体9に対して、当該物体9の推定位置に最も近い予測位置を有する位置情報取得装置6を関係付ける。
図14の例では、互いに関係付けられた物体9及び位置情報取得装置6の四つの組が大径の円形破線で示されている。
ステップS24において、付与手段45は、推定用映像において検出された物体9に対して、当該物体9に関係付けられた位置情報取得装置6が保持する識別情報を付与する。識別情報は、例えば
図14に示すようなID=001~004であるが、適宜変更して設定され得る。
【0043】
[効果]
以上説明したように、本実施形態では、物体9に付設された位置情報取得装置6が保持する識別情報が、当該物体9に対して付与される。したがって、例えば同じ種類の物体9であっても、物体9ごとに付与された識別情報によって個別に識別することができる。また、固定カメラ2で撮影した広範な領域の映像によって、例えば建設機械の移動や作業状況等を目視で確認することができる。したがって、本実施形態によれば、広範な領域を撮影した映像によって建設現場の様子を把握するとともに、物体9の種類がたとえ同じであっても当該物体9を個別に認識しつつその位置を推定することができる。
また、本実施形態では、学習済みの物体検出モデルを用いて、推定用映像において検出された物体9の位置が推定されるため、より正確に物体9の種類を区別しつつその位置を推定できる。
【0044】
また、本実施形態では、物体9に対して付与された識別情報が付された当該物体9を含む推定用映像が表示装置52に表示され得る。このため、管理者は、表示装置52に表示された推定用映像を見るだけで、建設現場の様子を把握するとともに、物体9を個別に認識することができる。なお、識別情報が付された物体9を含む
図13に示すような平面座標系で示す映像等の各種映像が表示装置52に表示されてもよい。さらに、識別情報に加えて、物体9の種類を示す情報も合わせて表示されてもよい。
また、物体9は、建設機械であってもよい。この構成では、例えば同じ機種のショベルカー9
3を一号機、二号機として使用する場合であっても、建設機械ごとに付与された識別情報によって一号機と二号機とを識別することができる。つまり、たとえ建設機械の機種が同じで見た目が全く同じ様に見える場合であっても、当該建設機械を個別に認識しつつその位置を推定することができる。
【0045】
以上、本発明の実施形態について説明したが、本発明は前記実施形態に限定されることなく、その趣旨を逸脱しない範囲で適宜に変更が可能である。
例えば、前記した実施形態では、管理対象となる物体が、建設機械、作業員及び資材であることとして説明したが、これに限定されない。
また、前記した実施形態では、1台の固定カメラで建設現場を撮影することとして説明したが、固定カメラは2台以上であってもよい。例えば、建設現場が矩形状の場合、建設現場の対角線延長上に固定カメラを2台設置し、各固定カメラで撮影した推定用映像を用いて、物体の位置を推定する。例えば、一方の固定カメラで撮影した推定用映像において、ある物体にオクルージョンが生じた場合でも、他方の固定カメラで撮影した推定用映像から、その物体の位置を推定できる。さらに、両方の固定カメラで撮影した推定用映像から同一物体の位置を推定した場合、2つの位置推定結果を統合(例えば、平均)すればよい。
【0046】
また、前記した実施形態では、物体位置推定装置及び物体個別認識装置を独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した物体位置推定装置及び物体個別認識装置として動作させるプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【符号の説明】
【0047】
1 物体管理システム
2 固定カメラ
3 物体位置推定装置
4 物体個別認識装置
41 推定位置入力手段
42 予測位置入力手段
43 変換手段
44 関係付け手段
45 付与手段
5 物体管理装置
52 表示装置
6 位置情報取得装置
9 物体
L 建設現場