IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ハイテクソリューションズの特許一覧 ▶ 学校法人東京電機大学の特許一覧

<>
  • 特開-監視システムおよび監視方法 図1
  • 特開-監視システムおよび監視方法 図2
  • 特開-監視システムおよび監視方法 図3
  • 特開-監視システムおよび監視方法 図4
  • 特開-監視システムおよび監視方法 図5
  • 特開-監視システムおよび監視方法 図6
  • 特開-監視システムおよび監視方法 図7
  • 特開-監視システムおよび監視方法 図8
  • 特開-監視システムおよび監視方法 図9
  • 特開-監視システムおよび監視方法 図10
  • 特開-監視システムおよび監視方法 図11
  • 特開-監視システムおよび監視方法 図12
  • 特開-監視システムおよび監視方法 図13
  • 特開-監視システムおよび監視方法 図14
  • 特開-監視システムおよび監視方法 図15
  • 特開-監視システムおよび監視方法 図16
  • 特開-監視システムおよび監視方法 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022180238
(43)【公開日】2022-12-06
(54)【発明の名称】監視システムおよび監視方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221129BHJP
   G06Q 50/04 20120101ALI20221129BHJP
【FI】
G06T7/00 660B
G06T7/00 350C
G06Q50/04
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2021087234
(22)【出願日】2021-05-24
(71)【出願人】
【識別番号】301078191
【氏名又は名称】株式会社日立ハイテクソリューションズ
(71)【出願人】
【識別番号】800000068
【氏名又は名称】学校法人東京電機大学
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】濱谷 章史
(72)【発明者】
【氏名】原田 佳周
(72)【発明者】
【氏名】西川 英雄
(72)【発明者】
【氏名】野口 稔
(72)【発明者】
【氏名】中村 明生
(72)【発明者】
【氏名】池谷 拓夢
(72)【発明者】
【氏名】森田 慎一郎
(72)【発明者】
【氏名】西野 洸
(72)【発明者】
【氏名】川村 聡太
(72)【発明者】
【氏名】大谷 祐太
【テーマコード(参考)】
5L049
5L096
【Fターム(参考)】
5L049CC04
5L096AA09
5L096CA04
5L096CA05
5L096FA18
5L096FA35
5L096FA66
5L096FA69
5L096FA77
5L096GA30
5L096GA51
5L096HA08
5L096HA09
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】複数の作業領域毎の作業時間を容易に管理することができる監視システムを提供する。
【解決手段】監視システムМSは、複数の作業領域を撮影する撮影装置60と、撮影装置60により得られた映像データを解析する解析装置100と、を有し、解析装置100は、映像データのフレーム中の作業員を検出する作業員検出部12と、作業員検出部12で検出された作業員がどの作業領域に存在するかを判定し、判定されたフレームを積算して各作業領域の作業時間を計測する作業時間計測部13と、を有する。作業員検出部12は、映像データのフレーム中の作業員を矩形として検出し、作業時間計測部13は、作業員検出部で検出された検出矩形と各作業領域の定義領域の矩形との重なり度合いを示す評価指標を算出し、評価指標が所定の閾値以上かつ最も前記評価指標の大きい領域に作業員が存在すると判定する。
【選択図】図1
【特許請求の範囲】
【請求項1】
複数の作業領域を撮影する撮影装置と、
前記撮影装置により得られた映像データを解析する解析装置と、を有し、
前記解析装置は、
前記映像データのフレーム中の作業員を検出する作業員検出部と、
前記作業員検出部で検出された作業員がどの作業領域の定義領域に存在するかを判定し、前記判定されたフレームを積算して前記各作業領域の作業時間を計測する作業時間計測部と、を有する
ことを特徴とする監視システム。
【請求項2】
前記作業員検出部は、前記映像データのフレーム中の作業員を矩形として検出し、
前記作業時間計測部は、前記作業員検出部で検出された検出矩形と各作業領域の定義領域の矩形との重なり度合いを示す評価指標を算出し、前記評価指標が所定の閾値以上かつ最も前記評価指標の大きい領域に作業員が存在すると判定する
ことを特徴とする請求項1に記載の監視システム。
【請求項3】
前記作業時間計測部は、畳み込みニューラルネットワークにより、前記作業員が作業中か否かを判定する
ことを特徴とする請求項1に記載の監視システム。
【請求項4】
前記作業時間計測部は、前記定義領域が重なっている場合、深度推定により、前記作業員の深度マップを計測し、そのヒストグラムにより奥行方向を分類する
ことを特徴とする請求項1に記載の監視システム。
【請求項5】
前記作業時間計測部は、前記各フレームにおいて、前記各作業領域で作業中であるか、作業外であるか、撮影範囲外であるか、のフラグを設定する
ことを特徴とする請求項1に記載の監視システム。
【請求項6】
前記作業員検出部は、物体検出の学習過程において、
実モデルと3次元モデルを組合せたアノテーション教示データを用いる
ことを特徴とする請求項1に記載の監視システム。
【請求項7】
複数の作業領域を撮影する撮影装置と、前記撮影装置により得られた映像データを解析する解析装置と、を有する監視システムの監視方法であって、
前記解析装置は、前記映像データのフレーム中の作業員を検出し、前記検出された作業員がどの作業領域の定義領域に存在するかを判定し、前記判定されたフレームを積算して前記各作業領域の作業時間を計測する
ことを特徴とする監視方法。
【請求項8】
前記解析装置、前記映像データのフレーム中の作業員を矩形として検出し、検出された検出矩形と各作業領域の定義領域の矩形との重なり度合いを示す評価指標を算出し、前記評価指標が所定の閾値以上かつ最も前記評価指標の大きい領域に作業員が存在すると判定する
ことを特徴とする請求項7に記載の監視方法。
【請求項9】
前記解析装置は、畳み込みニューラルネットワークにより、前記作業員が作業中か否かを判定する
ことを特徴とする請求項7に記載の監視方法。
【請求項10】
前記解析装置は、前記定義領域が重なっている場合、深度推定により、前記作業員の深度マップを計測し、そのヒストグラムにより奥行方向を分類する
ことを特徴とする請求項7に記載の監視方法。
【請求項11】
前記解析装置は、前記各フレームにおいて、前記各作業領域で作業中であるか、作業外であるか、撮影範囲外であるか、のフラグを設定する
ことを特徴とする請求項7に記載の監視方法。
【請求項12】
前記解析装置は、物体検出の学習過程において、
実モデルと3次元モデルを組合せたアノテーション教示データを用いる
ことを特徴とする請求項7に記載の監視方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の作業領域の作業を監視する撮影装置による監視システムおよび監視方法に関する。
【背景技術】
【0002】
作業現場では、作業効率の向上を検討するため、管理者などが作業者の作業状況をビデオカメラで撮影している。そして、その作業画像を基に作業者の作業内容を分析し、作業の無駄を見つける作業分析手法が実施されている。作業分析では、作業分析ができるスキルを有している分析者が、評価対象の動画を見ながら、撮影された作業内容の分割を行う必要がある。
【0003】
特許文献1には、ビデオカメラで撮影した作業状態を記録したビデオテープを再生するビデオ再生装置と、このビデオ再生装置に接続されたコンピュータ本体とを用いて、作業状態の内容を工程別に分割し、作業内容を解析する技術が開示されている。特許文献2においても、作業者または管理者が作業画像と作業内容の紐づけを行う技術が開示されている。
【0004】
非特許文献1には、作業の様子を撮影した動画ファイルの各フレームを、作業内容に応じて分類する処理の精度を高めることを目的として、画像特徴表現手法の一つであるBag-of-Featuresにおける局所特徴量抽出手法、およびパターン認識モデルの一つであるSupport Vector Machineによる多クラス識別器構成手法について、幾つかの手法を検討し、画像分類実験を行っている。また、分類結果に基づいて単位時間当たりの代表となる作業を選定し、時系列順に代表作業を並べることにより、作業チャートを生成するとともに、作業時間を算出したことが開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平6-231137号公報
【特許文献2】特許第5416322号公報
【非特許文献】
【0006】
【非特許文献1】渡辺博己,外2名,“機械学習を用いた作業時間推定システムの開発”,岐阜県情報技術研究所研究報告 第18号, pp15-21, 2016
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1のビデオを用いたコンピュータ支援作業解析装置によれば、ディスプレイ装置上に俯瞰的に撮影された作業エリアが映し出され、作業内容を解析する解析者は、ディスプレイ装置のその画像を見て、作業の変わり目で細目ボタンエリアから該当する作業細目名を選び、マウスでクリックして作業情報の分割作業を実施している。しかしながら、一連の作業情報が長時間であれば、分割作業に要する時間も多大な時間を要し、分割作業が大変となることが問題であった。
【0008】
非特許文献1では、作業の分類結果に基づき作業時間を算出しているが、検査工程を対象として作業画像を分類しており、検査工程では、作業者は椅子に座り、机上にすわったままの作業である。作業者が複数の作業領域を移動することを対象としていない。
【0009】
本発明は、前記の課題を解決するための発明であって、作業者が移動を伴う複数の作業領域毎の作業時間を容易に管理することができる監視システムおよび監視方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
前記目的を達成するため、本発明の監視システムは、複数の作業領域を撮影する撮影装置と、前記撮影装置により得られた映像データを解析する解析装置と、を有し、前記解析装置は、前記映像データのフレーム中の作業員を検出する作業員検出部と、前記作業員検出部で検出された作業員がどの作業領域に存在するかを判定し、前記判定されたフレームを積算して前記各作業領域の作業時間を計測する作業時間計測部と、を有することを特徴とする。本発明のその他の態様については、後記する実施形態において説明する。
【発明の効果】
【0011】
本発明によれば、作業者が移動を伴う複数の作業領域毎の作業時間を容易に管理することができる。
【図面の簡単な説明】
【0012】
図1】第1実施形態に係る監視システムの構成を示す図である。
図2】第1実施形態に係る複数の作業領域を示す図である。
図3】第1実施形態に係る作業時間計測処理の概要を示す図である。
図4】第1実施形態に係る作業員検出モデルを示す図である。
図5】第1実施形態に係る人物領域と作業領域との関係を示す図である。
図6】第1実施形態に係るGTとPDの関係を示す図であり、(a)はarea(GT∩PD)の領域であり、(b)はarea(GT∪PD)の領域である。
図7】第1実施形態に係るIoUの例を示す図である。
図8】第1実施形態に係る作業時間計測処理を示すフローチャートである。
図9】第1実施形態に係る作業時間計測結果の一例を示す図である。
図10】第1実施形態に係る作業工程毎の作業時間結果を示す図である。
図11】第2実施形態に係る作業分類部の処理を示す図である。
図12】第2実施形態に係る作業時間計測処理を示すフローチャートである。
図13】第3実施形態に係る深度マップによる処理を示す図である。
図14】第3実施形態に係る作業時間計測処理を示すフローチャートである。
図15】第4実施形態に係る3Dモデルを用いた物体検出モデルを示す図である。
図16】第4実施形態に係る多視点画像の例を示す図である。
図17】第4実施形態に係るデータセットの組合せを示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態について図面を参照して詳細に説明する。
<第1実施形態>
図1は、第1実施形態に係る監視システムの構成を示す図である。監視システムМSは、複数の作業領域を撮影する撮影装置60と、撮影装置60により得られた映像データを解析する解析装置100と、を有する。撮影装置60、解析装置100は、LAN(Local Area Network)などのネットワークNWで接続されている。本監視システムМSは、製造現場、作業現場における複数の作業領域間の移動を伴う作業を対象とした俯瞰視点からの撮影映像を用いた監視システムである。
【0014】
撮影装置60には、作業エリアA1を撮影する撮影装置61、作業エリアA2を撮影する撮影装置62等を有する。撮影装置60は、作業エリアを俯瞰的に撮影することができる。撮影装置60は、例えば、Webカメラであり、撮影された映像を、解析装置100に送信する。
【0015】
解析装置100は、処理部10、記憶部20、入力部30、出力部40、通信部50を有する。処理部10には、撮影装置60から送付される映像データを記憶部20に記憶する映像データ保存部11、映像データのフレーム中の作業員を検出する作業員検出部12、作業時間計測部13等を有する。
【0016】
作業時間計測部13は、作業員検出部12で検出された作業員がどの作業領域に存在するかを判定し、判定されたフレームを積算して前記各作業領域の作業時間を計測する。
【0017】
記憶部20には、映像データベース21、作業時間計測結果22(図9参照)、作業工程毎の作業時間結果23(図10参照)等が記憶されている。
【0018】
映像データベース21に記憶される映像データについて説明する。
撮影装置60(例えば、Webカメラ)によって動画撮影する際、例えば、フレームレート30fps(frame per second)と設定した場合、1秒間に30枚の静止画が映像データベース31に格納され、動画では、時間軸やタイムコードといった時間を利用した管理方法が採用される。ここではタイムコードを用いて説明する。タイムコードが「00:07:50:10」の場合は、表示位置0時7分50秒10フレーム目の位置であることを意味する。
【0019】
撮影装置60によって撮影が開始されると、記憶部20の映像データベース21には、タイムコードが「00:00:00:00」、「00:00:00:01」、・・・、「00:00:00:29」、「00:00:01:00」、・・・、「00:07:50:10」の静止画(例えば、JPEG(Joint Photographic Experts Group)形式の画像)が格納されていく。
【0020】
本実施形態では、各フレーム中における作業領域に作業員がいる場合は、その作業領域での作業時間とし、作業領域にいない場合は、作業外時間として判定し、作業領域毎の作業時間を計測する手法について説明する。本実施形態によれば、複数の作業領域毎の作業時間を容易に管理することができる。
【0021】
図2は、第1実施形態に係る複数の作業領域を示す図である。作業エリアには、複数の作業領域(作業領域R1等)を有する。作業エリアでは1人の作業員が、その作業エリアの作業工程を担当する。例えば、作業エリアA1(図1参照)の中に複数の作業領域R1~R5があり、その複数の作業領域R1~R5の作業を一人の作業員が担当する。
【0022】
生産工程に従事する作業者には、必然的に各種作業に対応した多能工化が要求されている。多能工とは1人で複数の業務や工程をこなすスキルを持った作業員のことを指し、作業ごとに扱う製品、作業場所が異なり、作業時間も異なる。
【0023】
また、生産現場において作業効率化のために現状の生産性を把握したいという要望がある。これまでは、生産性を把握するために人手による計測が必要であった。しかし、人手による計測は、作業員の負担が大きく、長時間の計測が困難である。そこで、取得の容易な撮影装置60の映像から生産現場の現状を自動で把握することは、作業員の負担を軽減しつつ、今まで見えていなかった問題点の見える化に繋がると考えられる。また、見える化によって、作業の高効率化や経営改善の気づきが得られる。
【0024】
本実施形態では、図2に示すように、あらかじめ作業時間を計測したい領域をバウンディングボックスとして定義する。この領域を定義済み作業領域と呼ぶこととする(作業領域R1等)。なお、バウンディングボックスは、画像等を囲む長方形の枠線のことである。
【0025】
図3は、第1実施形態に係る作業時間計測処理の概要を示す図である。作業時間計測部13は、所定のフレームレート(例えば、1fps)で動画を入力し(ステップS11)、作業員検出部12は、入力動画を対象に作業員検出(人物検出)を行う(ステップS12)。作業員検出部12には、Faster R-CNN(図4参照)を使用し、作業員を囲うように人物の検出領域を設定する。作業時間計測部13は、人物の検出領域と図2に示した定義済み作業領域のIoU(Intersection over Union)を算出する(ステップS13)。IoUは2つの領域の重なり率を表す.さらに、作業時間計測部13は、これらの結果から、人物の検出領域と各定義済み作業領域のIoUが所定の閾値を超えており、IoUが最大となる作業領域を決定する(ステップS14)。作業時間計測部13は、対象とする動画の全てのフレームが終了か否かを判定し(ステップS15)、終了でなければ、ステップS12に戻り、終了であれば、ステップS16に進む。作業時間計測部13は、作業領域毎の作業時間を算出し(ステップS17)、算出結果を出力し(ステップS17)、一連の処理を終了する。
【0026】
図4は、第1実施形態に係る作業員検出モデルを示す図である。本実施形態では、ステップS13において、Faster R-CNNを採用した。Faster R-CNNは、特徴マップから物体候補領域を推定するRPN(Region Proposal Net)と物体候補領域に存在する物体のクラスラベルと矩形位置を推定するネットワークの2ステージで構成される一般物体検出モデルである。
【0027】
Backborn CNN71では入力された画像(入力画像70)に対し、特徴マップを生成する。次に、RPN72では生成した特徴マップを入力として物体候補領域の推定を行う。推定した物体候補領域をROI Pooling73で固定長の特徴ベクトルに変換する。最後にFC74,75で各物体候補領域がどのような物体であるかのクラス確率(クラス76)と物体位置のBB(BB77)を出力する。なお、FCは、Fully connected layerの略称であり、BBはBounding Boxの略称である。
【0028】
詳細には、ROI Pooling73により変換した固定長の特徴ベクトルを、2層のFC74,75に入力し、中間特徴ベクトルを獲得する。その後、中間特徴ベクトルを物体クラス確率出力用のFC75Aと物体位置のズレ用のFC75Bに入力し、物体クラス確率と物体の正確な矩形座標を出力する。ここでは、人クラスのクラス確率が、0.9以上を正しく人と検出されたとみなし、矩形を描画する。
【0029】
図5は、第1実施形態に係る人物領域と作業領域との関係を示す図である。図5において、太い実線のバウンディングボックスは、作業員検出部12の検出結果を示し、作業員全身を囲うようにバウンディングボックスが設定される。作業領域R1から作業領域R5のバウンディングボックスは作業員の作業場所である。作業場所のバウンディングボックスは、図2に示したように、事前に定義されている。作業員が作業領域R1から作業領域R5の内、どの作業場所で作業を行っているか配置する必要がある。この作業員配属は、前記したIoU(図3のステップS13参照)を用いて処理を行う。
【0030】
IoUとは物体検出における評価指標である。IoU(Intersection over Union)の定義式を式(1)に示す.
【数1】
【0031】
式(1)のGTは、正解のバウンディングボックスを表し、PDは予測した検出バウンディングボックスを表している。
【0032】
図6は、第1実施形態に係るGTとPDの関係を示す図であり、(a)はarea(GT∩PD)の領域であり、(b)はarea(GT∪PD)の領域を示す。図6と式(1)より、2つのバウンディングボックスの領域の積(Intersection)を領域の和(Union)で割る(over)ことで定まる値をIoUとして定義している。以上のことから、IoUは、GTとPDの2つの領域の重なり率を0から1の範囲で表す指標であると言える。
【0033】
図7は、第1実施形態に係るIoUの例を示す図である。図7(a)はIoUが1の場合、図7(b)はIoUが約0.68の場合、図7(c)はIoUが約0.17の場合、図7(d)はIoUが0の場合である。
【0034】
図7において、GTとPDはそれぞれ10×10の正方形とする。図7の(a)において、GTとPDは完全に一致しているためarea(GT∩PD)とarea(GT∪PD)どちらも10×10=100となるため、IoU=area(GT∩PD)/area(GT∪PD)=1となる。図7の(b)では、x軸、y軸方向にそれぞれ1ずつずれている。このとき、area(GT∩PD)=9×9=81、area(GT∪PD)=10×10+10×10-9×9=119より、IoU=area(GT∩PD)/area(GT∪PD)=81/119≒0.68となる。図7(c)では、x軸、y軸方向にそれぞれ5ずつずれている。(b)と同様に計算すると、IoU=area(GT∩PD)/area(GT∪PD)≒0.17となる。図7(d)において、GTとPDは完全に一致していないため、area(GT∩PD)=0となるため、IoU=area(GT∩PD)/area(GT∪PD)=0となる。以上のことから、2つの領域が完全に重なっているときIoUは1、2つの領域は完全に重なっていないときIoUは0となり、重なり率が大きいほどIoUが大きくなる。
【0035】
本実施形態の提案手法の評価を、適合率と再現率で検討した。まず、True Positive(TP)、False Negative(FN)、False Positive(FP)、True Negative(TN)を定義する。予測値が1は、あるフレームのある作業領域において、提案手法の出力が作業中であると判断した場合を示し、正解値が1は、そのフレームでの正解が作業中である場合を示す。TPは予測値が1かつ正解値も1のフレーム数,FNは予測値が0かつ正解値が1のフレーム数,FPは予測値が1かつ正解値が0のフレーム数,TNは予測値が0かつ正解値が0のフレーム数を表す。
【0036】
適合率は、式(2)、再現率は、式(3)に示す。
適合率=TP/(TP+FP) ・・・式(2)
再現率=TP/(TP+FN) ・・・式(3)
【0037】
適合率は、予測値が1のうち実際に正解値が1である割合を示し,作業中の作業領域である予測精度を表現する。再現率は正解値が1のうち実際に予測値が1であった割合を示し,作業中の作業領域の検出精度を表現する。
【0038】
その結果、図5に示した作業エリアのうち、作業領域R1の適合率は1であり、再現率は、0.93を得ることができた。本実施形態の提案手法の有効性を確認することができた。
【0039】
図8は、第1実施形態に係る作業時間計測処理を示すフローチャートである。図8では、図3のステップS12からステップS14を詳細に説明する。図3のステップS12は、図8のステップS21、S27に対応する。図3のステップS13は、図8のステップS22に対応する。図3のステップS14は、図8のステップS23~S25,S28に対応する。
【0040】
作業員検出部12は、入力動画を対象に作業員検出(人物検出)を行う(ステップS21)。フレーム中に人物が検出されなかった場合(ステップS21,No)、作業時間計測部13は、フレームアウトとしてフラグを立てる(ステップS29)。
【0041】
一方、フレーム中に人物が検出された場合(ステップS21,Yes)、作業時間計測部13は、人物の検出領域と図2に示した定義済み作業領域毎のIoU(Intersection over Union)を算出する(ステップS22)。そして、作業時間計測部13は、IoUが閾値以上のものがあるか否かを判定し(ステップS23)、全てのIoUが閾値未満である場合(ステップS23,No)、フレームが作業時間外であるとしてフラグを立てる(ステップS28)。
【0042】
一方、IoUが閾値以上のものがある場合(ステップS23,Yes)、フレームが作業時間内であるとし(ステップS24)、動画内に1人の作業員が存在する条件下で監視システムを運用すること想定すると、複数の定義済み作業領域のIoUが閾値以上の場合、IoUが最大の領域を、作業場所として決定する(ステップS25)。これにより、動画の各フレームにおいて、作業時間内であるか、作業時間外であるか、フレームアウトであるかが判定できる。
【0043】
図9は、第1実施形態に係る作業時間計測結果の一例を示す図である。図9に示す作業時間計測結果22では、1fpsごとにフレームの作業領域を判定している。具体的に説明すると、「20XX/05/10 9:00:00:01」(20XX年5月10日9時00分00秒第1フレーム)において、フレームアウトと判定されている。「20XX/05/10 9:00:03:01」(20XX年5月10日9時00分03秒第1フレーム)において、作業時間外と判定されている。このフレームでは、人物が判定されているが、全てのIoUが閾値未満である場合である。「20XX/05/10 9:01:10:01」(20XX年5月10日9時01分10秒第1フレーム)において、作業員が作業領域R1と判定されている。
【0044】
以上の判定結果を集計すると、作業領域R1では185秒の作業時間であり、作業領域R2では110秒の作業時間であり、作業領域R3では250秒の作業時間であり、作業領域R4では170秒の作業時間であり、作業領域R5では70秒の作業時間であることがわかる。また、作業領域の移動等に155秒要していることがわかる。
【0045】
図10は、第1実施形態に係る作業工程毎の作業時間結果の一例を示す図である。図10に示す作業工程毎の作業時間結果23には、作業工程ID、作業領域、作業開始時刻、作業終了時刻、作業時間、カメラID、撮影装置60により動画の格納先、作業者IDを含んで構成されている。図10によれば、作業工程A0001の場合、作業領域は5つあり、例えば、作業領域R1は作業を、9時1分10秒に開始し、9時4分15秒に終了している。すなわち、作業領域R1の作業時間は、3分5秒(185秒)であることがわかる。また、また、カメラIDがC0001の撮影画像の格納のフォルダ先は、e:¥C0001¥20xx0510¥090110であり、作業者IDはMS001である。なお、作業者IDは、作業開始前に、作業者証等を撮影装置60にかざすようにすれば、自動的に登録することができる。
【0046】
作業工程A0002の場合、作業領域は3つあり、例えば、作業領域R1は作業を、9時20分15秒に開始し、9時25分25秒に終了している。すなわち、作業領域R1の作業時間は、5分10秒(310秒)であることがわかる。また、また、カメラIDがC0002の撮影画像の格納のフォルダ先は、e:¥C0002¥20xx0510¥092015であり、作業者IDはMS002である。
【0047】
図10を参照すると、作業領域間の終了時間と開始時間が1分以上経過していることに着目すると、作業工程A0001の場合、作業領域R3と作業領域R4の間が1分20秒要している。また、作業工程A0002の場合、作業領域R1と作業領域R2間が1分50秒要している。このことから、作業領域間の距離、レイアウトの改善の余地等があることが推測される。
【0048】
第1実施形態によれば、複数の作業領域毎の作業時間を容易に管理することができる。
【0049】
<第2実施形態>
第2実施形態は、第1実施形態と比較して、処理部10に、作業中であるか作業外であるかを分類する作業分類の処理を追加している。これにより、作業時間をさらに精度よく判定することができる。
【0050】
図11は、第2実施形態に係る作業分類の処理を示す図である。作業分類処理では、作業と非作業の2クラス分類を行う。この作業分類処理により、移動中の作業員が作業領域を横切る場合のような作業員が作業領域と重なるが作業中ではないようなパターンへの対応ができる。
【0051】
作業分類部処理は、単一フレームを入力とする画像分類用の畳み込みニューラルネットワークにより作業分類を行う。画像分類に用いられるニューラルネットワークの代表的なアーキテクチャとしてAlexNet、VGGNet、ResNetを実装し、作業分類用データセットで学習を行い、精度比較を行うことで使用する作業分類部14の選定を行った。その結果、本実施形態では、VGGNetを採用した。
【0052】
なお、AlexNetは、Alex Krizhevsky, Ilya Sutskever and Geoffrey E. Hinton, “Imagenet classification with deep convolutional neural networks,” NIPS, 2012.を参照した。VGGNetは、Karen Simonyan and Andrew Zisserman, “Very deep convolutional networks for large-scale image recognition,” ICLR, 2015.を参照した。ResNetは、Kaiming He, Georgia Gkioxari, Piotr Dollar and Ross Girshick, “Mask R-CNN,” ICCV, 2017.を参照した。
【0053】
図11中、FC(Fully connected layer)の2層(FC1、FC2)を用いている。また、ソフトマックス関数(Softmax function)を用い、複数の出力値の合計が1.0(=100%)になるように変換して出力する。これにより、各出力値の範囲は0.0~1.0となる。
【0054】
図12は、第2実施形態に係る作業時間計測処理を示すフローチャートである。図12は、図8と同様の処理については同一符号を付している。
【0055】
作業員検出部12は、入力動画を対象に作業員検出(人物検出)を行う(ステップS21)。フレーム中に人物が検出されなかった場合(ステップS21,No)、作業時間計測部13は、フレームアウトとしてフラグを立てる(ステップS29)。
【0056】
一方、フレーム中に人物が検出された場合(ステップS21,Yes)、作業時間計測部13は、人物の検出領域と図2に示した定義済み作業領域毎のIoU(Intersection over Union)を算出する(ステップS22)。そして、作業時間計測部13は、IoUが閾値以上のものがあるか否かを判定し(ステップS23)、全てのIoUが閾値未満である場合(ステップS23,No)、フレームが作業時間外であるとしてフラグを立てる(ステップS28)。
【0057】
一方、IoUが閾値以上のものがある場合(ステップS23,Yes)、作業分類処理により作業中か否かの判定を行う(ステップS26)。作業中でなければ(ステップS26,No)、ステップS28に進む。作業中であれば(ステップS26,Yes)、フレームが作業時間内であるとし(ステップS24)、動画内に1人の作業員が存在する条件下で監視システムを運用すること想定すると、複数の定義済み作業領域のIoUが閾値以上の場合、IoUが最大の領域を、作業場所として決定する(ステップS25)。これにより、動画の各フレームにおいて、作業時間内であるか、作業時間外であるか、フレームアウトであるかが判定できる。
【0058】
第2実施形態によれば、作業分類処理の適用により、複数の作業領域毎の作業時間をさらに精度よく管理することができる。
【0059】
<第3実施形態>
第3実施形態は、第1実施形態と比較して、撮影装置60からの奥行を考慮して、深度マップのよる作業領域の判定処理を追加している。これにより、作業時間をさらに精度よく判定することができる。
【0060】
図13は、第3実施形態に係る深度マップによる処理を示す図である。入力フレームから深度マップおよび人領域の2値画像を推定し、両画像の要素ごとに積をとることで人物ピクセルのみの深度画像を出力し、検出矩形でクロップしたのち、深度ヒストグラムを生成する。生成した深度ヒストグラムをあらかじめ登録した各領域での作業画像の深度ヒストグラムテンプレートと比較することで滞留可否のフラグを出力する。これにより検出矩形と作業領域の重なりに加え、深度の情報を加味することで作業領域同士の重なりに対処することができる。
【0061】
さらに、詳細に説明すると、図13で示すようにセマンティックセグメンテーションモデルによる作業員ピクセル推定と深度推定モデルによる深度マップ推定を行い、2画像の積をとることで、作業員ピクセルのみの深度マップを抽出する。その後、検出矩形で作業員ピクセルのみの深度マップをクロップし深度ヒストグラムを計算する。算出した深度ヒストグラムとIoUが閾値を超える全作業領域におけるテンプレート深度ヒストグラムのユークリッド距離を算出し、距離が最小の領域で作業中であるとしてフラグを出力する。これにより、奥行き方向を加味した作業時間計測が期待できる。
【0062】
環境に合わせて深度マップのアノテーションとFine-tuningを行うことなく、深度推定が可能なモデルとしてRanftlらが提案したMiDaS(v2.1)を使用する。Ranftlらの研究では深度推定の学習に用いられる複数のデータセットを1つの大きなデータセットとして扱えるようなロス関数と最適化方法を提案することで、屋内外などの環境的な要因や静止物体と移動物体のような撮影対象の違いや相対深度と絶対深度などの出力の数値データの違いを考慮した学習を可能とした。
【0063】
作業員ピクセルを推定するためにセマンティックセグメンテーションモデルのデファクトスタンダードであるMask R-CNNを使用する。Mask R-CNNは、物体検出モデルであるFaster R-CNNをインスタンスセグメンテーション用に改良したモデルである。Faster R-CNNでは最終のFC(Fully Connected Layer)において物体位置とクラス確率を出力するが、Mask R-CNNでは新たにインスタンスセグメンテーション用のブランチを追加することで候補領域内の対象物体ピクセルを推定する。
【0064】
なお、MiDaSは、Rene Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler and Vladlen Koltun, “Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer,” TPAMI, 2020. を参照した。
Mask R-CNNは、Kaiming He, Georgia Gkioxari, Piotr Dollar and Ross Girshick, “Mask R-CNN,” ICCV, 2017. を参照した。
【0065】
図14は、第3実施形態に係る作業時間計測処理を示すフローチャートである。図12は、図8と同様の処理については同一符号を付している。作業員検出部12は、入力動画を対象に作業員検出(人物検出)を行う(ステップS21)。フレーム中に人物が検出されなかった場合(ステップS21,No)、作業時間計測部13は、フレームアウトとしてフラグを立てる(ステップS29)。
【0066】
一方、フレーム中に人物が検出された場合(ステップS21,Yes)、作業時間計測部13は、人物の検出領域と図2に示した定義済み作業領域毎のIoU(Intersection over Union)を算出する(ステップS22)。そして、作業時間計測部13は、IoUが閾値以上のものがあるか否かを判定し(ステップS23)、全てのIoUが閾値未満である場合(ステップS23,No)、フレームが作業時間外であるとしてフラグを立てる(ステップS28)。
【0067】
一方、IoUが閾値以上のものがある場合(ステップS23,Yes)、フレームが作業時間内であるとし(ステップS24)、深度マップによる判定により複数の定義済み作業領域のうち、生成した深度ヒストグラムをあらかじめ登録した各領域での作業画像の深度ヒストグラムテンプレートと比較することで近いものを作業場所として決定する(ステップS27)。これにより、動画の各フレームにおいて、作業時間内であるか、作業時間外であるか、フレームアウトであるかが判定できる。
【0068】
第3実施形態によれば、深度情報を加味することで、複数の作業領域毎の作業時間をさらに精度よく管理することができる。
【0069】
<第4実施形態>
第1実施形態の作業員検出部12では、物体検出手法であるFaster R-CNNを採用したことを説明した。物体検出前に実際の物体をアノテーションしたデータセットで学習している。本実施形態では、物体検出の精度向上を検討するため、実際の物体以外に3Dモデルを用いて作成したデータセットとの組合せについて検討した。ここでは、物体として作業現場にあるカートを用いている。
【0070】
アノテーションとは、機械学習において、データにメタデータをつけて意味づけをすることを指す。膨大なデータに対して、アノテーションを行い、正解のデータ(=教師データ)を付与することで、機械学習のモデルの何が正しいものかを判断できる。
【0071】
図15は、第4実施形態に係る3Dモデルを用いた物体検出モデルを示す図である。
物体検出モデルの流れとして、はじめに、撮影した動画内に存在するカートにアノテーションを付与することで学習用データセットを作成する。アノテーションはBB(Bounding Box)を付与することで行う。次に、アノテーションしたデータセットを用いて、物体検出部であるFaster R-CNNで学習する。最後に、検出対象動画を学習済みの物体検出部に入力することで検出を行う。
【0072】
図16は、第4実施形態に係る多視点画像の例を示す図である。カートの3Dモデルは3DCADソフトウェアを用いて、図16(a)~(d)に示すように、各種モデルを作成した。3Dモデル作成後、データセットのバリエーションを増やすために、作成した3Dモデルを様々な視点から撮影し,多視点画像を作成する。本実施形態では、200視点の画像を作成した。
【0073】
図17は、第4実施形態に係るデータセットの組合せを示す図である。生成したデータセットと実物のカートをアノテーションしたデータセットを組み合わせて学習を行う。図17には、データセットの組み合わせとして、6通りの組み合わせで学習を行った。実物のカートのみ250枚を用いたもの、実物のカート200枚と3Dモデル50枚とを組み合わせたもの、実物のカート150枚と3Dモデル100枚とを組み合わせたもの等である。
【0074】
3Dモデルを用いたカート検出実験を行った結果として、6通りのデータセットを学習させ、複数の動画で検出を行った。実物のカートをアノテーションした画像の枚数が250枚と150枚のデータセットで学習結果を比較すると、実物のカートをアノテーションした画像のみで学習を行い検出した時と比べ、3Dモデル込みで学習を行い検出した方が検出したカートが多くなった。また、実物のカートの枚数が0枚の場合、カートは未検出であった。よって、3Dモデル込みの方が検出精度は高くなるが実物のカートのデータも必要であることが分かった。
【0075】
第4実施形態によれば、物体検出部(例えば、作業員検出部12)は、物体検出の学習過程において、実モデルと3次元モデルを組合せたアノテーション教示データを用いるのがよいことがわかった。
【0076】
<解析速度の検討>
第1実施形態についての作業時間計測算出処理の速度を、小型かつ低価格でGPU(Graphics Processing Unit)を搭載している組み込みコンピュータJetsonTX2(TG731-PC)を用いて検証した。処理時間は、撮影動画のうち、1000枚のフレームの画像を入力したときの処理時間で検討した。フレームレートは、処理時間を入力画像数1000で割ることで算出した。その結果、人物検出のみの処理速度は最高3.1fps,最低2.8fpsとなり、人物検出+IoU算出+作業領域の決定の処理速度は、最高3.1fps,最低2.7fpsとなった。以上より、図9に示した作業時間計測算出処理は、入力動画1fpsの結果であるが、リアルタイム処理できることを確認し、本実施形態の監視システムМSの有効性を確認した。
【符号の説明】
【0077】
10 処理部
11 映像データ保存部
12 作業員検出部
13 作業時間計測部
20 記憶部
21 映像データベース
22 作業時間計測結果
23 作業工程毎の作業時間結果
30 入力部
40 出力部
50 通信部
60,61,62 撮影装置
70 入力画像
71 Backborn CNN
72 RPN
73 ROI Pooling
74,75 FC(Fully connected layer)
76 クラス
77 BB(Bounding Box)
100 解析装置
A1、A2 作業エリア
IoU Intersection over Union
NW ネットワーク
R1、R2、R3、R4、R5 作業領域
MS 監視システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17