特開2022-156856 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 大成建設株式会社の特許一覧

特開2022-156856物体個別認識方法及びプログラム、並びに物体個別認識装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022156856

(43)【公開日】2022-10-14

(54)【発明の名称】物体個別認識方法及びプログラム、並びに物体個別認識装置

(51)【国際特許分類】

H04N 7/18 20060101AFI20221006BHJP

G06T 7/00 20170101ALI20221006BHJP

【ＦＩ】

H04N7/18 K

G06T7/00 350B

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021060753

(22)【出願日】2021-03-31

(71)【出願人】

【識別番号】000206211

【氏名又は名称】大成建設株式会社

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】太田兵庫

(72)【発明者】

【氏名】石井喬之

(72)【発明者】

【氏名】片山三郎

【テーマコード（参考）】

5C054

5L096

【Ｆターム（参考）】

5C054FC00

5C054FC12

5C054FE13

5C054HA00

5L096CA04

5L096DA02

5L096DA04

5L096FA69

5L096KA04

(57)【要約】

【課題】広範な領域を撮影した映像によって建設現場の様子を把握するとともに、物体の種類がたとえ同じであっても当該物体を個別に認識しつつその位置を推定する。
【解決手段】物体個別認識装置４は、推定位置入力手段４１と、予測位置入力手段４２と、変換手段４３と、関係付け手段４４と、付与手段４５とを備える。推定位置入力手段４１には、固定カメラ２で撮影した推定用映像において検出された物体９の推定位置が入力される。予測位置入力手段４２には、物体に付設された位置情報取得装置６によって得られた当該物体の予測位置が入力される。変換手段４３は、推定位置と予測位置とを共通の平面座標系での位置に変換する。関係付け手段４４は、物体に対して、当該物体の推定位置に最も近い予測位置を有する位置情報取得装置６を関係付ける。付与手段４５は、物体に対して、当該物体に関係付けられた位置情報取得装置６が保持する識別情報を付与する。
【選択図】図２

【特許請求の範囲】

【請求項1】

固定カメラで建設現場を撮影した推定用映像に含まれる物体を個別に認識する物体個別認識方法であって、
前記推定用映像において検出された前記物体の位置を推定することで得られた当該物体の推定位置が入力される推定位置入力ステップと、
前記物体に付設された位置情報取得装置によって当該物体の位置を予測することで得られた当該物体の予測位置が入力される予測位置入力ステップと、
前記推定位置と前記予測位置とを共通の平面座標系での位置に変換する変換ステップと、
前記推定用映像において検出された前記物体に対して、当該物体の前記推定位置に最も近い前記予測位置を有する前記位置情報取得装置を関係付ける関係付けステップと、
前記推定用映像において検出された前記物体に対して、当該物体に関係付けられた前記位置情報取得装置が保持する識別情報を付与する付与ステップと、
を含む物体個別認識方法。

【請求項2】

学習済みの物体検出モデルを用いて、前記推定用映像において検出された前記物体の位置を推定することを特徴とする請求項１に記載の物体個別認識方法。

【請求項3】

前記物体に対して付与された前記識別情報が付された当該物体を含む前記推定用映像を表示装置に表示する表示ステップを含むことを特徴とする請求項１または請求項２に記載の物体個別認識方法。

【請求項4】

前記物体は、建設機械であることを特徴とする請求項１から請求項３のいずれか一項に記載の物体個別認識方法。

【請求項5】

請求項１から請求項４のいずれか一項に記載の物体個別認識方法を、コンピュータに実行させるプログラム。

【請求項6】

固定カメラで建設現場を撮影した推定用映像に含まれる物体を個別に認識する物体個別認識装置であって、
前記推定用映像において検出された前記物体の位置を推定することで得られた前記物体の推定位置が入力される推定位置入力手段と、
前記物体に付設された位置情報取得装置によって当該物体の位置を予測することで得られた当該物体の予測位置が入力される予測位置入力手段と、
前記推定位置と前記予測位置とを共通の平面座標系での位置に変換する変換手段と、
前記推定用映像において検出された前記物体に対して、当該物体の前記推定位置に最も近い前記予測位置を有する前記位置情報取得装置を関係付ける関係付け手段と、
前記推定用映像において検出された前記物体に対して、当該物体に関係付けられた前記位置情報取得装置が有する識別情報を付与する付与手段と、
を備える物体個別認識装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、物体個別認識方法及びプログラム、並びに物体個別認識装置に関する。

【背景技術】

【0002】

ダム工事や大型造成工事の建設現場において、学習済みの物体検出モデルを用いた画像認識によって人や建設機械の位置を割り出す技術が提案されている（特許文献１参照）。
この技術では、人や建設機械等の物体の位置を割り出すためにできるだけ広範な領域の建設現場を固定カメラで撮影した映像が用いられる。これにより、固定カメラで撮影した広範な領域の映像によって建設現場の様子を把握するとともに、物体の種類を区別しつつその位置を推定できる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２１－０２６２８１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１の技術によれば、人、ショベルカー、ブルドーザーのように物体の種類を区別することは可能である。
しかしながら、例えば同じ機種のショベルカーを一号機、二号機として使用する場合のように、見た目が同じ様に見える物体を識別することは困難である。
本発明は、前記した課題を解決し、広範な領域を撮影した映像によって建設現場の様子を把握するとともに、物体の種類がたとえ同じであっても当該物体を個別に認識しつつその位置を推定することを課題とする。

【課題を解決するための手段】

【0005】

前記課題を解決するために、本発明は、固定カメラで建設現場を撮影した推定用映像に含まれる物体を個別に認識する物体個別認識方法である。前記物体個別認識方法は、推定位置入力ステップと、予測位置入力ステップと、変換ステップと、関係付けステップと、付与ステップと、を含む。前記推定位置入力ステップでは、前記推定用映像において検出された物体の位置を推定することで得られた当該物体の推定位置が入力される。前記予測位置入力ステップでは、前記物体に付設された位置情報取得装置によって当該物体の位置を予測することで得られた当該物体の予測位置が入力される。前記変換ステップは、前記推定位置と前記予測位置とを共通の平面座標系での位置に変換するものである。前記関係付けステップは、前記推定用映像において検出された前記物体に対して、当該物体の前記推定位置に最も近い前記予測位置を有する前記位置情報取得装置を関係付けるものである。前記付与ステップは、前記推定用映像において検出された前記物体に対して、当該物体に関係付けられた前記位置情報取得装置が保持する識別情報を付与するものである。
本発明では、物体に付設された位置情報取得装置が保持する識別情報が、当該物体に対して付与される。したがって、例えば同じ種類の物体であっても、物体ごとに付与された識別情報によって個別に識別することができる。また、固定カメラで撮影した広範な領域の映像によって、例えば建設機械の移動や作業状況等を目視で確認することができる。したがって、本発明によれば、広範な領域を撮影した映像によって建設現場の様子を把握するとともに、物体の種類がたとえ同じであっても当該物体を個別に認識しつつその位置を推定することができる。
前記物体個別認識方法においては、学習済みの物体検出モデルを用いて、前記推定用映像において検出された物体の位置を推定することが好ましい。この構成では、より正確に物体の種類を区別しつつその位置を推定できる。

【0006】

前記物体個別認識方法は、前記物体に対して付与された前記識別情報が付された当該物体を含む前記推定用映像を表示装置に表示する表示ステップを含むことが好ましい。この構成では、管理者は、表示装置に表示された推定用映像を見るだけで、建設現場の様子を把握するとともに、物体を個別に認識することができる。
前記物体個別認識方法においては、前記物体は、建設機械であることが好ましい。この構成では、例えば同じ機種のショベルカーを一号機、二号機として使用する場合であっても、建設機械ごとに付与された識別情報によって一号機と二号機とを識別することができる。つまり、たとえ建設機械の機種が同じで見た目が全く同じ様に見える場合であっても、当該建設機械を個別に認識しつつその位置を推定することができる。

【0007】

なお、本発明は、コンピュータが備えるＣＰＵ、メモリ、ハードディスクなどのハードウェア資源を用いて、前記物体個別認識方法をコンピュータに実行させるプログラムで実現することもできる。

【0008】

また、本発明は、固定カメラで建設現場を撮影した推定用映像に含まれる物体を個別に認識する物体個別認識装置である。前記物体個別認識装置は、推定位置入力手段と、予測位置入力手段と、変換手段と、関係付け手段と、付与手段と、を備える。前記推定位置入力手段には、前記推定用映像において検出された物体の位置を推定することで得られた前記物体の推定位置が入力される。前記予測位置入力手段には、前記物体に付設された位置情報取得装置によって当該物体の位置を予測することで得られた当該物体の予測位置が入力される。前記変換手段は、前記推定位置と前記予測位置とを共通の平面座標系での位置に変換する。前記関係付け手段は、前記推定用映像において検出された前記物体に対して、当該物体の前記推定位置に最も近い前記予測位置を有する前記位置情報取得装置を関係付ける。前記付与手段は、前記推定用映像において検出された前記物体に対して、当該物体に関係付けられた前記位置情報取得装置が保持する識別情報を付与する。

【発明の効果】

【0009】

本発明によれば、広範な領域を撮影した映像によって建設現場の様子を把握するとともに、物体の種類がたとえ同じであっても当該物体を個別に認識しつつその位置を推定することができる。

【図面の簡単な説明】

【0010】

【図1】実施形態に係る物体管理システムの概略構成図である。

【図2】実施形態に係る物体管理システムの構成を示すブロック図である。

【図3】実施形態において、固定カメラの撮影映像からフレーム画像を抽出する手法を説明する説明図である。

【図4】実施形態において、教師データを生成する手法を説明する説明図である。

【図5】実施形態において、物体の種類及び物体領域を検出する手法を説明する説明図である。

【図6】実施形態において、物体領域の四隅座標を説明する説明図である。

【図7】実施形態において、（ａ）は画像座標系を説明する説明図であり、（ｂ）は世界座標系を説明する説明図である。

【図8】実施形態において、基準座標を設定する手法を説明する説明図である。

【図9】実施形態において、物体位置推定装置の学習モードの動作を示すフローチャートである。

【図10】実施形態において、物体位置推定装置の位置推定モードの動作を示すフローチャートである。

【図11】実施形態において、物体個別認識装置の個別認識モードの動作を示すフローチャートである。

【図12】固定カメラで撮影した推定用映像の例を模式的に示す図である。

【図13】図１２に示される推定用映像に含まれる建設機械の推定位置を平面座標系で示す図である。

【図14】図１３に対して、位置情報取得装置によって得られた建設機械の予測位置を加えた図である。

【発明を実施するための形態】

【0011】

以下、本発明の実施形態について適宜図面を参照して説明する。なお、以下に示す図面において、同一または同種の部材については、同一の参照符号を付し、重複した説明を適宜省略する。また、部材のサイズおよび形状は、説明の便宜のため、変形または誇張して模式的に表す場合がある。

【0012】

［物体管理システムの全体構成］
図１を参照し、実施形態に係る物体管理システム１の全体構成について説明する。
図１に示すように、物体管理システム１は、ダム工事等の建設現場Ｌを固定カメラ２で撮影した映像を用いて物体９の位置を推定するとともに、物体９を個別に認識するものである。物体管理システム１は、固定カメラ２と、物体管理装置５と、位置情報取得装置６とを備える。ここで、物体管理システム１で管理対象となる物体９としては、建設機械（例えば、振動ローラ９_１、ブルドーザー９_２、ショベルカー９_３）、作業員９_４、及び、資材９_５があげられる。位置情報取得装置６は、物体９に付設される。具体的には、位置情報取得装置６は、建設機械の運転席付近の所定の場所に置かれたり、作業員９_４に所持されたり、資材９_５に取り付けられたりされる。

【0013】

物体管理システム１は、物体検出モデルを学習する「学習モード」、物体検出モデルにより物体９の位置を推定する「位置推定モード」、及び物体９を個別に認識する「個別認識モード」という３つの動作モードを有する。従って、物体管理システム１は、学習モードで事前に物体検出モデルを学習した後、位置推定モードで実際に物体９の位置を推定するとともに個別認識モードで物体９を個別に認識することになる。なお、物体管理システム１の管理者が、学習モード、又は、位置推定モード及び個別認識モードの何れかを物体管理装置５に指令する。
以後、後記する固定カメラ２が学習モードで撮影した映像、つまり、物体検出モデルの学習に使用する映像を「学習用映像」と呼ぶ。また、固定カメラ２が位置推定モードで撮影した映像、つまり、物体９の位置推定に使用する映像を「推定用映像」と呼ぶ。

【0014】

固定カメラ２は、建設現場Ｌを撮影する一般的な撮影カメラやＷｅｂカメラであり、建設現場Ｌの撮影映像を物体管理装置５に出力するものである。この固定カメラ２は、その位置、姿勢及び撮影画角が固定されている。つまり、固定カメラ２は、同一の位置、姿勢及び撮影画角で学習用映像及び推定用映像を撮影する。例えば、固定カメラ２は、建設現場Ｌの全域を俯瞰し、かつ、建設現場Ｌ内の物体９を鮮明に撮影できる位置に１台設置されている。

【0015】

位置情報取得装置６としては、例えばスマートフォンが使用され得る。位置情報取得装置６は、人工衛星（ＧＰＳ衛星）から発せられた電波を受信して現在位置を計測（予測）し、予測位置として、通信回線を介して物体管理装置５に送信する機能を有する。また、位置情報取得装置６は、管理者等によって設定された所定の識別情報を記憶部に保持しており、この識別情報を、通信回線を介して物体管理装置５に送信する機能を有する。なお、位置情報取得装置６は、ＧＰＳ測位を利用するものに限られず、例えばＷｉ－Ｆｉ測位やＬＰＷＡ（Low Power Wide Area）基地局測位等の他の測位技術を利用するものであってもよい。また、位置情報取得装置６は、スマートフォンに限られず、他の移動端末や測位用の専用機器であってもよい。

【0016】

［物体管理装置の構成］
図２に示すように、物体管理装置５は、物体位置推定装置３と、物体個別認識装置４とを備える。また、物体管理装置５は、一般的なラップトップ型コンピュータと同様、物体管理システム１の管理者が各種設定を行えるようにキーボード等の入力装置５１、及び液晶ディスプレイ等の表示装置５２を備える。

【0017】

［物体位置推定装置の構成］
図２を参照し、物体位置推定装置３の構成について説明する。
物体位置推定装置３は、学習した物体検出モデルを用いて、固定カメラ２で建設現場Ｌを撮影した推定用映像に含まれる物体９の種類及び位置を推定するものである。
物体位置推定装置３は、学習用映像入力手段３０と、教師データ生成手段３１と、深層学習手段３２と、記憶手段３３と、推定用映像入力手段３４と、物体検出手段３５と、アフィン投影手段（変換行列算出手段）３６と、物体位置推定手段３７とを備える。

【0018】

＜学習モード＞
学習用映像入力手段３０には、学習モードにおいて、固定カメラ２から学習用映像が入力される。学習用映像入力手段３０は、物体９の移動速度に応じて、後記する抽出レートが予め設定されている。そして、学習用映像入力手段３０は、図３に示すように、抽出レートに基づいて学習用映像Ｍ_Ａからフレーム画像Ｆ_Ａを抽出し、抽出したフレーム画像Ｆ_Ａを教師データ生成手段３１に出力する。
抽出レートは、学習用映像Ｍ_Ａからフレーム画像Ｆ_Ａを抽出するレート（間隔）を表しており、物体管理システム１の管理者が手動で設定する。ここで、物体９の移動速度が速くなるほど抽出レートを高く設定し、物体９の移動速度が遅くなるほど抽出レートを低く設定すればよい。例えば、１秒間あたり３０枚のフレーム画像で構成される３０ｆｐｓ（frames per second）の学習用映像Ｍ_Ａの場合、３０枚のフレーム画像から１枚のフレーム画像Ｆ_Ａを抽出するように抽出レートを設定する（つまり、抽出レート＝１／３０）。

【0019】

教師データ生成手段３１は、学習モードにおいて、学習用映像Ｍ_Ａと、学習用映像Ｍ_Ａに含まれる物体９の種類とをアノテーション（正解を教えるタグ付け）するものである。つまり、教師データ生成手段３１は、図４に示すように、学習用映像入力手段３０から入力された学習用映像Ｍ_Ａのフレーム画像Ｆ_Ａと、学習用映像Ｍ_Ａのフレーム画像Ｆ_Ａに含まれる物体９の種類とを対応付けた教師データを生成する。ここで、正解となるタグＴは、物体管理システム１の管理者が手動で入力する。図４の例では、フレーム画像Ｆ_Ａの振動ローラ９_１に対して、「振動ローラ」というタグＴを対応付けている。さらに、フレーム画像Ｆ_Ａの振動ローラ９_１に対して、振動ローラ９_１であることを一意に識別できる車体番号「Ｔ１２３４」をタグＴとして対応付けてもよい。
その後、教師データ生成手段３１は、生成した教師データを深層学習手段３２に出力する。

【0020】

深層学習手段３２は、学習モードにおいて、教師データ生成手段３１から教師データが入力され、深層学習（ディープラーニング）により、この教師データから学習済みの物体検出モデルを生成するものである。そして、深層学習手段３２は、生成した物体検出モデルを記憶手段３３に書き込む。
ここで、深層学習手段３２は、深層学習の手法が特に制限されない。例えば、深層学習手段３２は、深層学習として、学習が容易で検出が速いＹＯＬＯ（You Only Look Once）を用いることが好ましい。また、深層学習手段３２は、ＳＳＤ（Single Shot MultiBox Detector）、ＦａｓｔｅｒＲ－ＣＮＮ（Regional Convolution Neural Network）、ＦａｓｔＲ－ＣＮＮ、Ｒ－ＣＮＮ等の深層学習を用いてもよい。
記憶手段３３は、深層学習手段３２が生成した物体検出モデルを記憶するメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の記憶装置である。記憶手段３３に記憶されている物体検出モデルは、後記する物体検出手段３５により参照される。

【0021】

＜位置推定モード＞
推定用映像入力手段３４には、位置推定モードにおいて、固定カメラ２から推定用映像が入力される。なお、推定用映像入力手段３４は、推定用映像からフレーム画像を抽出する以外、学習用映像入力手段３０と同様のため、これ以上の説明を省略する。そして、推定用映像入力手段３４は、推定用映像から抽出したフレーム画像を物体検出手段３５に出力する。

【0022】

物体検出手段３５は、記憶手段３３に記憶されている物体検出モデルにより、推定用映像入力手段３４から入力された推定用映像に含まれる物体９の種類及び物体領域を検出するものである。つまり、物体検出手段３５は、図５に示すように、推定用映像から抽出したフレーム画像Ｆ_Ｂを物体検出モデルに入力し、そのフレーム画像Ｆ_Ｂ内の物体９の種類と物体領域とを取得する。図５のフレーム画像Ｆ_Ｂでは、物体９の種類として、振動ローラ９_１を示す「Ｔ１２３４」や作業員９_４を示す「ＰＥＲＳＯＮ」が検出されている。
ここで、物体検出モデルは、図６に示すように、物体９の種類だけでなく、物体領域Ａも検出する。この物体領域Ａとは、推定用映像のフレーム画像Ｆ_Ｂ内で各物体９が占める領域のことであり、左上、左下、右下及び右上の四隅座標Ｐ_Ｇｉ（Ｘ_Ｇｉ，Ｙ_Ｇｉ）で特定される矩形領域のことである（但し、ｉ＝１，…，４）。振動ローラ９_１の物体領域Ａは、画像座標系で左上座標Ｐ_Ｇ１（Ｘ_Ｇ１，Ｙ_Ｇ１）、左下座標Ｐ_Ｇ２（Ｘ_Ｇ２，Ｙ_Ｇ２）、右下座標Ｐ_Ｇ３（Ｘ_Ｇ３，Ｙ_Ｇ３）、及び、右上座標Ｐ_Ｇ４（Ｘ_Ｇ４，Ｙ_Ｇ４）で特定可能である。なお、画像座標系とは、図７（ａ）に示すように、固定カメラ２で撮影した映像（フレーム画像）の２次元座標系のことである。
その後、物体検出手段３５は、検出した物体９の種類と物体領域Ａの四隅座標Ｐ_Ｇｉ（Ｘ_Ｇｉ，Ｙ_Ｇｉ）とをアフィン投影手段３６に出力する。

【0023】

アフィン投影手段３６は、画像座標系における物体領域Ａの四隅座標Ｐ_Ｇｉ（Ｘ_Ｇｉ，Ｙ_Ｇｉ）を建設現場Ｌの世界座標系にアフィン投影するための変換行列を算出するものである。なお、建設現場Ｌの世界座標系とは、図７（ｂ）に示すように、建設現場Ｌを表した３次元座標系のことであり、現地座標系とも呼ばれる。
画像座標系を世界座標系にアフィン投影するためには、画像座標系における物体領域Ａの四隅座標Ｐ_Ｇｉ（Ｘ_Ｇｉ，Ｙ_Ｇｉ）、及び、世界座標系における４点の基準座標Ｐ_Ｌｉ（Ｘ_Ｌｉ，Ｙ_Ｌｉ）からなる合計８点の座標値が必要である。前記したとおり、物体領域Ａの四隅座標Ｐ_Ｇｉ（Ｘ_Ｇｉ，Ｙ_Ｇｉ）は、物体検出手段３５から入力されるので既知である。そこで、４点の基準座標Ｐ_Ｌｉ（Ｘ_Ｌｉ，Ｙ_Ｌｉ）を設定する必要がある。

【0024】

まず、基準座標Ｐ_Ｌｉ（Ｘ_Ｌｉ，Ｙ_Ｌｉ）の設定手法を説明する。図８に示すように、建設現場Ｌには、基準座標Ｐ_Ｌｉ（Ｘ_Ｌｉ，Ｙ_Ｌｉ）を計測する基準となる基準位置を４カ所設ける。この基準位置としては、測定用映像で撮影可能であれば、その位置や種類は任意である。例えば、基準位置としては、建設現場Ｌ内の杭や柱、又は、基準位置を示すために配置したマーカがあげられる。そして、物体管理システム１の管理者が、図８に示すように、４カ所の基準位置Ｐ_Ｌ１（Ｘ_Ｌ１，Ｙ_Ｌ１）～Ｐ_Ｌ４（Ｘ_Ｌ４，Ｙ_Ｌ４）を建設現場Ｌで計測し、計測結果をアフィン投影手段３６に設定すればよい。なお、建設現場Ｌが同一高度なので、世界座標系の高さ方向（Ｚ_Ｌ軸）を省略している。
次に、アフィン投影手段３６は、以下の式（１）に示すように、物体領域Ａの四隅座標Ｐ_Ｇｉ（Ｘ_Ｇｉ，Ｙ_Ｇｉ）、及び、４点の基準座標Ｐ_Ｌｉ（Ｘ_Ｌｉ，Ｙ_Ｌｉ）を用いて、アフィン投影を行うための変換行列ｋを算出する。なお、式（１）では、添え字Ｔが行列の転置を示す。

【0025】

【数1】

【0026】

その後、アフィン投影手段３６は、算出した変換行列ｋと、物体検出手段３５で検出された物体９の種類及び物体領域Ａの四隅座標Ｐ_Ｇｉ（Ｘ_Ｇｉ，Ｙ_Ｇｉ）とを、物体位置推定手段３７に出力する。
なお、変換行列ｋは、固定カメラ２の位置、姿勢又は撮影画角や、基準座標Ｐ_Ｌｉ（Ｘ_Ｌｉ，Ｙ_Ｌｉ）の位置が変化しない限り一定である。そこで、アフィン投影手段３６は、推定用映像入力手段３４が推定用映像から抽出した全フレーム画像について、変換行列ｋを算出せずともよい。例えば、アフィン投影手段３６は、推定用映像入力手段３４が最初に抽出したフレーム画像について変換行列ｋを算出してもよく、一定時間毎に変換行列ｋを算出してもよい。これにより、物体位置推定装置３は、演算量を低減し、処理速度の高速化を図ることができる。

【0027】

物体位置推定手段３７は、アフィン投影手段３６から入力された変換行列ｋにより、物体領域Ａ内の任意座標を世界座標系における物体９の位置に変換することで、物体９の位置を推定するものである。
以下、画像座標系における物体領域Ａ内の任意座標をＰ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）と表記し、世界座標系における物体９の位置をＰ_Ｌ（Ｘ_Ｌ，Ｙ_Ｌ）と表記する。例えば、物体位置推定手段３７は、物体領域Ａ内の任意座標Ｐ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）として、以下の式（２）を用いて、アフィン投影手段３６から入力された物体領域Ａの下辺中間座標を算出する。図６に示すように、物体領域Ａの下辺中間座標Ｐ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）は、物体領域Ａの左下座標Ｐ_Ｇ２（Ｘ_Ｇ２，Ｙ_Ｇ２）から右下座標Ｐ_Ｇ３（Ｘ_Ｇ３，Ｙ_Ｇ３）までの中間なので、式（２）で表される。このように、物体領域Ａ内の任意座標Ｐ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）として、物体９が接地する位置を求めることで、物体９の位置を正確に推定できる。

【0028】

【数2】

【0029】

さらに、物体位置推定手段３７は、以下の式（３）を用いて、画像座標系における物体領域Ａの下辺中間座標Ｐ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）を、世界座標系における物体９の位置Ｐ_Ｌ（Ｘ_Ｌ，Ｙ_Ｌ）に変換する。その後、物体位置推定手段３７は、求めた物体９の位置Ｐ_Ｌ（Ｘ_Ｌ，Ｙ_Ｌ）を推定位置として出力する。また、物体位置推定手段３７は、アフィン投影手段３６から入力された物体９の種類をも出力する。

【0030】

【数3】

【0031】

なお、物体位置推定手段３７が、物体領域Ａ内の任意座標Ｐ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）として、物体領域Ａの下辺中間座標を算出することとして説明したが、これに限定されない。例えば、物体位置推定手段３７は、物体領域Ａ内の任意座標Ｐ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）として、物体領域Ａの上辺、左辺又は右辺の中間座標を算出してもよい。また、物体位置推定手段３７は、物体領域Ａ内の任意座標Ｐ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）として、物体領域Ａの中心座標や重心座標を算出してもよい。

【0032】

［物体個別認識装置の構成］
図２を参照し、物体個別認識装置４の構成について説明する。
物体個別認識装置４は、物体位置推定装置３と位置情報取得装置６とを用いて物体９を個別に認識するものである。
物体個別認識装置４は、推定位置入力手段４１と、予測位置入力手段４２と、変換手段４３と、関係付け手段４４と、付与手段４５とを備える。

【0033】

＜個別認識モード＞
推定位置入力手段４１には、個別認識モードにおいて、推定用映像において検出された物体９の位置を推定することで得られた物体９の推定位置が入力される。推定位置入力手段４１には、物体位置推定手段３７から、物体９の推定位置とともに、物体９の種類も入力される。
予測位置入力手段４２には、物体９に付設された位置情報取得装置６によって当該物体９の位置を予測（計測）することで得られた当該物体９の予測位置（計測位置）が入力される。推定位置入力手段４１には、位置情報取得装置６から、物体９の予測位置とともに、位置情報取得装置６が保持する識別情報も入力される。
変換手段４３は、推定位置入力手段４１から送られた推定位置と予測位置入力手段４２から送られた予測位置とを共通の平面座標系での位置に変換するものである。ここでは、共通の平面座標系は、前記した建設現場Ｌの世界座標系において高さ方向（Ｚ_Ｌ軸）を省略した平面座標系である。

【0034】

関係付け手段４４は、推定用映像において検出された物体９に対して、当該物体９の推定位置に最も近い予測位置を有する位置情報取得装置６を関係付けるものである。例えば物体９が建設現場ＬにＮ個存在する場合、物体９に付設された位置情報取得装置６もＮ個存在する。この場合、物体９の推定位置と物体９の予測位置とがそれぞれＮ個取得される。そして、Ｎ個の物体９の中から一つが選択され、この選択された物体９の推定位置と、取得されたＮ個の予測位置の各々との差（平面座標系における距離）がそれぞれ計算される。Ｎ個の予測位置のうち、選択された物体９の推定位置との差が最も小さい予測位置を有する位置情報取得装置６が、選択された物体９に関係付けられる。この手順が、Ｎ個の物体９について順次繰り返し行われることで、Ｎ個の物体９に対して、当該物体９の推定位置に最も近い予測位置を有する位置情報取得装置６が関係付けられる。
付与手段４５は、推定用映像において検出された物体９に対して、当該物体９に関係付けられた位置情報取得装置６が保持する識別情報を付与するものである。物体９と位置情報取得装置６との関係付けを示す情報は、関係付け手段４４から送られる。また、位置情報取得装置６が保持する識別情報は、予測位置入力手段４２から送られる。
表示装置５２は、物体９に対して付与された識別情報が付された当該物体９を含む推定用映像等の各種映像を表示することができる。

【0035】

［物体位置推定装置の動作：学習モード］
図９を参照し、物体位置推定装置３の学習モードの動作について説明する。
図９に示すように、ステップＳ１において、学習用映像入力手段３０には、固定カメラ２から学習用映像が入力される。すると、学習用映像入力手段３０は、抽出レートに基づいて学習用映像からフレーム画像を抽出する。
ステップＳ２において、教師データ生成手段３１は、ステップＳ１で抽出した学習用映像のフレーム画像と、学習用映像のフレーム画像に含まれる物体９の種類とを対応付けた教師データを生成する。
ステップＳ３において、深層学習手段３２は、ＹＯＬＯ等の深層学習により、ステップＳ２で生成した教師データから物体検出モデルを生成する。そして、深層学習手段３２は、生成した物体検出モデルを記憶手段３３に書き込む。

【0036】

［物体位置推定装置の動作：位置推定モード］
図１０を参照し、物体位置推定装置３の位置推定モードの動作について説明する。
図１０に示すように、ステップＳ１０において、推定用映像入力手段３４には、固定カメラ２から推定用映像が入力される。すると、推定用映像入力手段３４は、抽出レートに基づいて推定用映像からフレーム画像を抽出する。
ステップＳ１１において、物体検出手段３５は、記憶手段３３に記憶されている物体検出モデルにより、推定用映像に含まれる物体９の種類及び物体領域Ａを検出する。つまり、物体検出手段３５は、ステップＳ１０で抽出した推定用映像のフレーム画像を物体検出モデルに入力し、そのフレーム画像内の物体９の種類と物体領域Ａとを取得する。

【0037】

ステップＳ１２において、アフィン投影手段３６は、画像座標系における物体領域Ａの四隅座標Ｐ_Ｇｉ（Ｘ_Ｇｉ，Ｙ_Ｇｉ）を世界座標系にアフィン投影するための変換行列を算出する。具体的には、アフィン投影手段３６は、前記した式（１）により、物体領域Ａの四隅座標Ｐ_Ｇｉ（Ｘ_Ｇｉ，Ｙ_Ｇｉ）、及び、４点の基準座標Ｐ_Ｌｉ（Ｘ_Ｌｉ，Ｙ_Ｌｉ）を用いて、アフィン投影を行うための変換行列ｋを算出する。

【0038】

ステップＳ１３において、物体位置推定手段３７は、ステップＳ１２で算出した変換行列ｋにより、物体領域Ａ内の任意座標Ｐ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）を世界座標系における物体９の位置Ｐ_Ｌ（Ｘ_Ｌ，Ｙ_Ｌ）に変換することで、物体９の位置を推定する。具体的には、物体位置推定手段３７は、体領域内の任意座標Ｐ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）として、前記した式（２）を用いて、物体領域Ａの下辺中間座標を算出する。そして、物体位置推定手段３７は、前記した式（３）を用いて、画像座標系における物体領域Ａの下辺中間座標Ｐ_Ｇ（Ｘ_Ｇ，Ｙ_Ｇ）を、世界座標系における物体９の位置Ｐ_Ｌ（Ｘ_Ｌ，Ｙ_Ｌ）に変換する。

【0039】

［物体個別認識装置の動作：個別認識モード］
図１１を参照し、物体個別認識装置４の個別認識モードの動作について説明する。
図１１に示すように、ステップＳ２０において、推定位置入力手段４１には、推定用映像において検出された物体９の位置を推定することで得られた物体９の推定位置が入力される。また、推定位置入力手段４１には、物体９の種類も入力される。
図１２は、固定カメラで撮影した推定用映像の例を模式的に示す図である。図１２の例では、推定用映像において、一台のブルドーザー９_２と、三台のショベルカー９_３とが検出されている。

【0040】

ステップＳ２１において、予測位置入力手段４２には、物体９に付設された位置情報取得装置６によって当該物体９の位置を予測することで得られた当該物体９の予測位置が入力される。また、予測位置入力手段４２には、位置情報取得装置６が保持する識別情報も入力される。

【0041】

ステップＳ２２において、変換手段４３は、推定位置入力手段４１から送られた推定位置と予測位置入力手段４２から送られた予測位置とを共通の平面座標系での位置に変換する。図１３は、図１２に示される推定用映像に含まれる建設機械の推定位置を平面座標系で示す図である。図１４は、図１３に対して、位置情報取得装置６によって得られた建設機械の予測位置を加えた図である。

【0042】

ステップＳ２３において、関係付け手段４４は、推定用映像において検出された物体９に対して、当該物体９の推定位置に最も近い予測位置を有する位置情報取得装置６を関係付ける。図１４の例では、互いに関係付けられた物体９及び位置情報取得装置６の四つの組が大径の円形破線で示されている。
ステップＳ２４において、付与手段４５は、推定用映像において検出された物体９に対して、当該物体９に関係付けられた位置情報取得装置６が保持する識別情報を付与する。識別情報は、例えば図１４に示すようなＩＤ＝００１～００４であるが、適宜変更して設定され得る。

【0043】

［効果］
以上説明したように、本実施形態では、物体９に付設された位置情報取得装置６が保持する識別情報が、当該物体９に対して付与される。したがって、例えば同じ種類の物体９であっても、物体９ごとに付与された識別情報によって個別に識別することができる。また、固定カメラ２で撮影した広範な領域の映像によって、例えば建設機械の移動や作業状況等を目視で確認することができる。したがって、本実施形態によれば、広範な領域を撮影した映像によって建設現場の様子を把握するとともに、物体９の種類がたとえ同じであっても当該物体９を個別に認識しつつその位置を推定することができる。
また、本実施形態では、学習済みの物体検出モデルを用いて、推定用映像において検出された物体９の位置が推定されるため、より正確に物体９の種類を区別しつつその位置を推定できる。

【0044】

また、本実施形態では、物体９に対して付与された識別情報が付された当該物体９を含む推定用映像が表示装置５２に表示され得る。このため、管理者は、表示装置５２に表示された推定用映像を見るだけで、建設現場の様子を把握するとともに、物体９を個別に認識することができる。なお、識別情報が付された物体９を含む図１３に示すような平面座標系で示す映像等の各種映像が表示装置５２に表示されてもよい。さらに、識別情報に加えて、物体９の種類を示す情報も合わせて表示されてもよい。
また、物体９は、建設機械であってもよい。この構成では、例えば同じ機種のショベルカー９_３を一号機、二号機として使用する場合であっても、建設機械ごとに付与された識別情報によって一号機と二号機とを識別することができる。つまり、たとえ建設機械の機種が同じで見た目が全く同じ様に見える場合であっても、当該建設機械を個別に認識しつつその位置を推定することができる。

【0045】

以上、本発明の実施形態について説明したが、本発明は前記実施形態に限定されることなく、その趣旨を逸脱しない範囲で適宜に変更が可能である。
例えば、前記した実施形態では、管理対象となる物体が、建設機械、作業員及び資材であることとして説明したが、これに限定されない。
また、前記した実施形態では、１台の固定カメラで建設現場を撮影することとして説明したが、固定カメラは２台以上であってもよい。例えば、建設現場が矩形状の場合、建設現場の対角線延長上に固定カメラを２台設置し、各固定カメラで撮影した推定用映像を用いて、物体の位置を推定する。例えば、一方の固定カメラで撮影した推定用映像において、ある物体にオクルージョンが生じた場合でも、他方の固定カメラで撮影した推定用映像から、その物体の位置を推定できる。さらに、両方の固定カメラで撮影した推定用映像から同一物体の位置を推定した場合、２つの位置推定結果を統合（例えば、平均）すればよい。

【0046】

また、前記した実施形態では、物体位置推定装置及び物体個別認識装置を独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を、前記した物体位置推定装置及び物体個別認識装置として動作させるプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、ＣＤ－ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

【符号の説明】

【0047】

１物体管理システム
２固定カメラ
３物体位置推定装置
４物体個別認識装置
４１推定位置入力手段
４２予測位置入力手段
４３変換手段
４４関係付け手段
４５付与手段
５物体管理装置
５２表示装置
６位置情報取得装置
９物体
Ｌ建設現場

【図1】