IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社小松製作所の特許一覧

<>
  • 特開-情報処理装置および情報処理方法 図1
  • 特開-情報処理装置および情報処理方法 図2
  • 特開-情報処理装置および情報処理方法 図3
  • 特開-情報処理装置および情報処理方法 図4
  • 特開-情報処理装置および情報処理方法 図5
  • 特開-情報処理装置および情報処理方法 図6
  • 特開-情報処理装置および情報処理方法 図7
  • 特開-情報処理装置および情報処理方法 図8
  • 特開-情報処理装置および情報処理方法 図9
  • 特開-情報処理装置および情報処理方法 図10
  • 特開-情報処理装置および情報処理方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023060666
(43)【公開日】2023-04-28
(54)【発明の名称】情報処理装置および情報処理方法
(51)【国際特許分類】
   G06Q 50/04 20120101AFI20230421BHJP
   G06T 7/20 20170101ALI20230421BHJP
   G06T 7/00 20170101ALI20230421BHJP
【FI】
G06Q50/04
G06T7/20 300
G06T7/00 350B
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021170384
(22)【出願日】2021-10-18
(71)【出願人】
【識別番号】000001236
【氏名又は名称】株式会社小松製作所
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】野村 聡一郎
【テーマコード(参考)】
5L049
5L096
【Fターム(参考)】
5L049CC03
5L096BA08
5L096BA18
5L096CA02
5L096FA02
5L096GA08
5L096HA02
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】可視光カメラによる撮像によって得られた動画像データに基づき、作業場において行われている作業の種別を判定可能な情報処理装置を提供する。
【解決手段】情報処理装置は、可視光カメラによる撮像によって得られた連続する複数のフレーム画像データを取得する。可視光カメラは、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像する。情報処理装置は、複数のフレーム画像データのうちの第1のフレーム画像データにおいて、作業者の領域を検出する。情報処理装置は、第1のフレーム画像データと、第1のフレーム画像データよりも所定個前の第2のフレーム画像データとに基づいて、被写体の状態変化を示す画像データを生成する。情報処理装置は、生成された画像データから作業者の領域に対応する領域の画像データを抽出し、抽出された画像データに基づき、作業場で行われている作業の種別を判定する。
【選択図】図3
【特許請求の範囲】
【請求項1】
可視光カメラによる撮像によって得られた連続する複数のフレーム画像データを取得する取得手段を備え、前記可視光カメラは、設置位置および姿勢が固定され、かつ、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像し、
前記複数のフレーム画像データのうちの第1のフレーム画像データにおいて、前記作業者の領域を検出する検出手段と、
前記第1のフレーム画像データと、前記複数のフレーム画像データのうち前記第1のフレーム画像データよりも所定個前の第2のフレーム画像データとに基づいて、前記被写体の状態変化を示す画像データを生成する生成手段と、
生成された前記画像データから、検出された前記作業者の領域に対応する領域の画像データを抽出する抽出手段と、
抽出された前記画像データに基づき、前記作業場で行われている作業の種別を判定する判定手段とをさらに備える、情報処理装置。
【請求項2】
前記第2のフレーム画像データは、前記第1のフレーム画像データよりも1個前のフレーム画像データである、請求項1に記載の情報処理装置。
【請求項3】
前記生成手段は、前記第1のフレーム画像データと前記第2のフレーム画像データとを用いたフレーム差分法により、前記状態変化を示す画像データを生成する、請求項2に記載の情報処理装置。
【請求項4】
前記判定手段は、前記作業場で行われている作業が溶接作業であるか否かを判定する、請求項1から3のいずれか1項に記載の情報処理装置。
【請求項5】
前記判定手段は、前記作業場で行われている作業が、予め指定された複数の作業のうちのいずれであるかを判定する、請求項1から3のいずれか1項に記載の情報処理装置。
【請求項6】
前記複数の作業は、溶接作業と、グラインダ作業と、ガウジング作業とを含む、請求項5に記載の情報処理装置。
【請求項7】
前記判定手段は、
抽出された前記画像データを入力として受け付け、前記作業場で行われている作業が前記溶接作業であるか否かを判定する第1の学習済みモデルと、
抽出された前記画像データを入力として受け付け、前記作業場で行われている作業が前記グラインダ作業であるか否かを判定する第2の学習済みモデルと、
抽出された前記画像データを入力として受け付け、前記作業場で行われている作業が前記ガウジング作業であるか否かを判定する第3の学習済みモデルとを含み、
前記第1の学習済みモデルによる判定の結果と、前記第2の学習済みモデルによる判定の結果と、前記第3の学習済みモデルによる判定の結果とに基づき、前記作業場で行われている作業が、前記溶接作業と前記グラインダ作業と前記ガウジング作業とのうちの何れであるかを判定する、請求項6に記載の情報処理装置。
【請求項8】
前記検出手段は、前記第1のフレーム画像データを入力とし、かつ、前記作業者の領域を示す情報を出力する、第4の学習済みモデルである、請求項1から7のいずれか1項に記載の情報処理装置。
【請求項9】
前記複数のフレーム画像データの各々について、前記検出手段による検出と、前記生成手段による生成と、前記抽出手段による抽出と、前記判定手段による判定とを行い、
前記判定手段により判定された前記作業の種別毎の判定数に基づき、前記作業の種別毎の作業時間を算出する、請求項1から8のいずれか1項に記載の情報処理装置。
【請求項10】
可視光カメラによって、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像するステップを備え、前記可視光カメラは、設置位置および姿勢が固定されており、
前記可視光カメラによる撮像によって得られた連続する複数のフレーム画像データを取得するステップと、
前記複数のフレーム画像データのうちの第1のフレーム画像データにおいて、前記作業者の領域を検出するステップと、
前記第1のフレーム画像データと、前記複数のフレーム画像データのうち前記第1のフレーム画像データよりも所定個前の第2のフレーム画像データとに基づいて、前記被写体の状態変化を示す画像データを生成するステップと、
生成された前記画像データから、検出された前記作業者の領域に対応する領域の画像データを抽出するステップと、
抽出された前記画像データに基づき、前記作業場で行われている作業の種別を判定するステップとをさらに備える、情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置および情報処理方法に関する。
【背景技術】
【0002】
従来、たとえば特開平7-146897号公報(特許文献1)に示すように、赤外線ビデオカメラによって撮像された作業場の映像を再生しながら、当該作業場における作業内容を分類するシステムが知られている。
【0003】
詳しくは、このシステムでは、赤外線ビデオカメラによって記録したビデオテープの内容をビデオデッキにて再生する。システムのコントローラ内の人体認識部は、赤外ビデオモニタに表示された作業者に相当する赤色部を追跡し、当該赤色部の動きをモード切替部を介して条件比較部に入力する。コントローラ内の条件比較部は、条件記憶部に格納してある条件を読み出し、人体認識部から送られてきたデータと比較して作業者が行っている作業を分類する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平7-146897号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1のシステムでは、被写体を赤外線ビデオカメラによって撮像する必要があり、汎用性に欠ける。
【0006】
本開示は、可視光カメラによる撮像によって得られた動画像データ(複数のフレーム画像データ)に基づき、作業場において行われている作業の種別を判定可能な情報処理装置および情報処理方法を提供する。
【課題を解決するための手段】
【0007】
本開示のある局面に従うと、情報処理装置は、可視光カメラによる撮像によって得られた連続する複数のフレーム画像データを取得する取得手段を備える。可視光カメラは、設置位置および姿勢が固定され、かつ、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像する。情報処理装置は、複数のフレーム画像データのうちの第1のフレーム画像データにおいて、作業者の領域を検出する検出手段と、第1のフレーム画像データと、複数のフレーム画像データのうち第1のフレーム画像データよりも所定個前の第2のフレーム画像データとに基づいて、被写体の状態変化を示す画像データを生成する生成手段と、生成された画像データから、検出された作業者の領域に対応する領域の画像データを抽出する抽出手段と、抽出された画像データに基づき、作業場で行われている作業の種別を判定する判定手段とをさらに備える。
【0008】
本開示の他の局面に従うと、情報処理方法は、可視光カメラによって、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像するステップを備える。可視光カメラは、設置位置および姿勢が固定されている。情報処理方法は、可視光カメラによる撮像によって得られた連続する複数のフレーム画像データを取得するステップと、複数のフレーム画像データのうちの第1のフレーム画像データにおいて、作業者の領域を検出するステップと、第1のフレーム画像データと、複数のフレーム画像データのうち第1のフレーム画像データよりも所定個前の第2のフレーム画像データとに基づいて、被写体の状態変化を示す画像データを生成するステップと、生成された画像データから、検出された作業者の領域に対応する領域の画像データを抽出するステップと、抽出された画像データに基づき、作業場で行われている作業の種別を判定するステップとをさらに備える。
【発明の効果】
【0009】
本開示によれば、可視光カメラによる撮像によって得られた複数のフレーム画像データに基づき、作業場において行われている作業の種別を判定可能となる。
【図面の簡単な説明】
【0010】
図1】判定システムの概略構成を説明するための図である。
図2】情報処理装置のハードウェア構成を示した図である。
図3】情報処理装置で実行される処理の概要を説明するための図である。
図4】判定処理の流れを示すフロー図である。
図5図4のステップS1の処理の詳細を示したフロー図である。
図6図4のステップS2の処理の詳細を示したフロー図である。
図7図6のステップS202の処理の詳細を説明するためのフロー図である。
図8】画像データを用いて図7の処理を説明するための図である。
図9図6のステップS206の処理の詳細を説明するためのフロー図である。
図10】互換性が高いファイル形式としてメモリに保存された最終判定結果を含むデータ示した図である。
図11図7に示したステップS202の一連の処理の変形例を示したフロー図である。
【発明を実施するための形態】
【0011】
以下、実施形態について図に基づいて説明する。なお、以下の説明では、同一部品には、同一の符号を付している。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
【0012】
はじめに、本実施の形態で用いる用語の一部について説明する。
【0013】
「学習済みモデル」とは「学習済みパラメータ」が組み込まれた「推論プログラム」をいう。「学習済みパラメータ」とは、学習用データセットを用いた学習の結果、得られたパラメータ(係数)をいう。学習済みパラメータは、学習用データセットを学習用プログラムに対して入力することで、一定の目的のために機械的に調整されることで生成される。「推論プログラム」とは、組み込まれた学習済みパラメータを適用することで、入力に対して一定の結果を出力することを可能にするプログラムをいう。
【0014】
「学習用プログラム」とは、学習用データセットの中から一定の規則を見出し、その規則を表現するモデルを生成するためのアルゴリズムを実行するプログラムをいう。具体的には、採用する学習手法による学習を実現するために、コンピュータに実行させる手順を規定するプログラムがこれに該当する。
【0015】
「学習用データセット」とは、生データに対して、欠測値および外れ値の除去等の前処理、ラベル情報(正解データ)等の別個のデータの付加、あるいはこれらを組み合わせて、変換および/または加工処理を施すことによって、対象とする学習の手法による解析を容易にするために生成された二次的な加工データをいう。学習用データセットは、データ(以下、「学習用データ」とも称する)の集合体である。本実施の形態では、学習用データは、1枚の画像データと、ラベル情報とを含む。
【0016】
<A.システム構成>
図1は、本実施の形態の判定システムの概略構成を説明するための図である。
【0017】
図1に示されるように、判定システム1000は、カメラ1と、情報処理装置2とを備える。
【0018】
カメラ1は、可視光カメラである。カメラ1は、設置位置および姿勢が固定されている。カメラ1は、光の明滅を伴う作業が作業者900によって行われている作業場を被写体として撮像する。光の明滅を伴う作業としては、たとえば、溶接作業、グラインダ作業、ガウジング作業等がある。なお、溶接作業には、スポット溶接を含む。
【0019】
カメラ1によって撮像された動画像データDaは、情報処理装置2に送られる。動画像データDaは、複数の連続するフレーム画像データ#1,#2,#3,…を含んで構成される。
【0020】
情報処理装置2は、ユーザ950によって利用される。情報処理装置2は、典型的には、パーソナルコンピュータである。情報処理装置2は、カメラ1によって撮像された動画像データDaをカメラ1から取得する。なお、情報処理装置2は、サーバ装置等の他の機器を介して、動画像データDaを取得してもよい。また、情報処理装置2は、ICカード、USBメモリ等の記憶媒体を介して、動画像データDaを取得してもよい。
【0021】
図2は、情報処理装置2のハードウェア構成を示した図である。
【0022】
図2に示されるように、情報処理装置2は、プロセッサ201と、メモリ202と、ディスプレイ203と、入力装置204と、通信インターフェイス205と、カードリーダ206と、USBポート207とを備える。メモリ202は、ROM(Read Only Memory)221と、RAM(Random Access Memory)222と、SSD(Solid State Drive)223と、HDD(Hard Disk Drive)224とを含む。
【0023】
メモリ202には、オペレーティングシステムと、学習済みモデルを含む各種のプログラムとが格納されている。メモリ202には、後述する各種の処理を実行するためのプログラムが格納されている。プロセッサ201は、オペレーティングシステムおよび上記プログラムを実行する。
【0024】
入力装置204は、ユーザ950からの操作入力を受け付ける。入力装置204は、典型的には、キーボード、マウスである。
【0025】
プロセッサ201は、入力装置204が受け付けた操作に基づき、各種の処理を実行する。プロセッサ201は、各種の情報をディスプレイ203に表示する。プロセッサ201は、プログラムの実行結果をディスプレイに表示する。
【0026】
通信インターフェイス205は、外部の機器と通信するためのインターフェイスである。プロセッサ201は、通信インターフェイス205を介して、カメラ1から動画像データDaを取得する。
【0027】
カードリーダ206は、ICカードに記憶されたデータを読み取る。USBポート207には、USBメモリが接続される。プロセッサ201は、カードリーダ206またはUSBポート207を介して、動画像データDaを取得することも可能である。
【0028】
<B.作業種別の判定>
図3は、情報処理装置2で実行される処理の概要を説明するための図である。
【0029】
図3に示されるように、情報処理装置2は、動画像データ取得部10と、人物領域検出部20と、生成部30と、抽出部40と、作業種別判定部50と、記憶部60と、表示制御部70と、表示部80とを備える。
【0030】
なお、動画像データ取得部10は、通信インターフェイス205、カードリーダ206、または、USBポート207に対応する。人物領域検出部20と、生成部30と、抽出部40と、作業種別判定部50と、表示制御部70とは、プロセッサ201が、メモリ202に記憶されたプログラム等を実行することにより実現される機能ブロックである。記憶部60は、メモリ202に対応する。表示部80は、ディスプレイ203に対応する。
【0031】
動画像データ取得部10は、カメラ1による撮像によって得られた動画像データDaを、カメラ1から取得する。詳しくは、動画像データ取得部10は、カメラ1によって得られた連続する複数のフレーム画像データ#1,#2,#3,…を取得する。
【0032】
情報処理装置2では、複数のフレーム画像データ#1,#2,#3,…に対し、人物領域検出部20による検出処理と、生成部30による画像生成処理とが個別に行われる。なお、人物領域検出部20による検出処理と、生成部30による画像生成処理とが行われるタイミングは、いずれが先であってもよいし、同時であってもよい。
【0033】
詳しくは、動画像データ取得部10によって取得された動画像データDaは、記憶部60等のメモリ202に一時的に格納され、その後、人物領域検出部20および生成部30によって読み出される。
【0034】
以下、主として、人物領域検出部20と、生成部30と、抽出部40と、作業種別判定部50と、表示制御部70とについて説明する。
【0035】
(b1.人物領域検出部20)
人物領域検出部20は、複数のフレーム画像データ#1,#2,#3,…の各々のフレーム画像データ(以下、Nを自然数として、「フレーム画像データ#N」と称する)において、作業者の領域(以下、「人物領域」とも称する)を検出する。本例では、人物領域検出部20は、学習済みモデルM20によって実現される。なお、本例では、フレーム画像データ#1における人物領域は利用しないため、フレーム画像データ#1において人物領域を検出する必要はない。
【0036】
学習済みモデルM20は、フレーム画像データ#Nを入力とし、かつ、人物領域を示す情報を出力する。具体的には、学習済みモデルM20は、人物領域の座標を出力する。より具体的には、学習済みモデルM20は、人物領域として、矩形状の領域を抽出する。当該領域は、典型的には、矩形の4つの角の座標値として表すことができる。このように、学習済みモデルM20は、人物領域の座標として、4つ座標値を出力する。
【0037】
人物領域検出部20は、フレーム画像データ#Nを示す識別子(たとえば、フレームナンバー、タイムスタンプ)とともに、人物領域の座標を抽出部40に送る。具体的には、人物領域検出部20は、フレーム画像データ#Nの識別子に関連付けられた、フレーム画像データ#Nにおける人物領域の座標を、抽出部40に送る。たとえば、動画像データDaにフレーム画像データがK個(1≦N≦K)だけ含まれる場合、人物領域検出部20は、K個の人物領域の座標のセット(座標値は、合計個数4K=4×K)を抽出部40に送る。より詳しくは、本例では、K個の人物領域の座標は、記憶部60等のメモリ202に一時的に格納され、その後、抽出部40によって読み出される。
【0038】
(b2.生成部30)
生成部30は、フレーム画像データ#Nと、フレーム画像データ#1よりも1個前のフレーム画像データ#N-1とに基づいて、被写体の状態変化を示す画像データを生成する。詳しくは、生成部30は、フレーム差分法(「フレーム間差分法」とも称される)によって、被写体の状態変化を示す画像データを生成する。なお、フレーム画像データ#0は存在しないため、フレーム画像データ#0とフレーム画像データ#1とに基づいた、被写体の状態変化を示す画像データは生成されない。
【0039】
より詳しくは、生成部30は、連続するフレーム画像データ#N-1とフレーム画像データ#Nとから、フレーム差分法によって、マスク処理後の画像データ#N-1(2≦N≦K)を生成する。なお、フレーム差分法およびマスク処理については後述する。
【0040】
生成部30によって、複数のマスク処理後の画像データ#N-1が生成される。このように、生成部30によって、各々が被写体の状態変化を示す画像データが複数生成される。
【0041】
生成部30は、フレーム画像データ#Nを示す識別子とともに、マスク処理後の画像データ#N-1を、抽出部40に送る。具体的には、生成部30は、フレーム画像データ#Nの識別子に関連付けられたマスク処理後の画像データ#N-1を抽出部40に送る。たとえば、動画像データDaにフレーム画像データがK個含まれる場合、生成部30は、K-1個のマスク処理後の画像データを抽出部40に送る。より詳しくは、本例では、K-1個のマスク処理後の画像データは、記憶部60等のメモリ202に一時的に格納され、その後、抽出部40によって読み出される。
【0042】
(b3.抽出部40)
抽出部40は、生成部30によって生成された画像データ(マスク処理後の画像データ#N-1)から、人物領域検出部20によって検出された人物領域に対応する領域の画像データを抽出する。換言すれば、抽出部40は、画像の切り出しを行う。
【0043】
詳しくは、抽出部40は、同じ識別子が付された、人物領域の座標とマスク処理後の画像データとを用いて、当該マスク処理後の画像データから、人物領域に対応する矩形領域の画像データを抽出する。
【0044】
具体的には、抽出部40は、たとえばフレーム画像データ#1とフレーム画像データ#2とにフレーム差分法を適用することよって生成されたマスク処理後の画像データ#1から、フレーム画像データ#2において検出された人物領域に対応する領域(詳しくは、人物領域の4つの頂点座標で特定される矩形領域)の画像データを抽出する。同様に、抽出部40は、フレーム画像データ#2とフレーム画像データ#3とにフレーム差分法を適用することよって生成されたマスク処理後の画像データ#2から、フレーム画像データ#3において検出された人物領域に対応する領域の画像データを抽出する。動画像データDaにフレーム画像データがK個含まれる場合、抽出部40は、このような抽出処理を、合計K-1回行う。
【0045】
抽出部40は、抽出された画像データ#N-1を、作業種別判定部50に送る。詳しくは、本例では、K-1個の抽出された画像データは、記憶部60等のメモリ202に一時的に格納され、その後、作業種別判定部50によって読み出される。
【0046】
(b4.作業種別判定部50)
作業種別判定部50は、抽出部40によって抽出された画像データに基づき、作業場で行われている作業の種別を判定する。換言すれば、作業種別判定部50は、作業場で行われている作業を分類する。作業種別判定部50は、溶接作業判定部51と、グラインダ作業判定部52と、ガウジング作業判定部53と、最終判定部54とを含む。
【0047】
溶接作業は、金属同士を接合する接合加工である。溶接作業が行われる際、アーク光と呼ばれる発光が生じる。グライダ作業は、砥石などで金属を削る研削加工である。グラインダ作業が行われる際、削られた金属粉が発光する。ガウジング作業は、金属を切断、溶断、除去する加工である。ガウジング作業が行われる際、アーク放電によって発光が生じる。このように、溶接作業と、グラインダ作業と、ガウジング作業とは、いずれも金属加工であって、かつ、作業に伴い加工対象の部分で発光が生じる。しかしながら、溶接作業と、グラインダ作業と、ガウジング作業とは、それぞれ、光の発光状態が異なる。本実施の形態では、情報処理装置2は、これらの光の発光状態の違いに着目し、作業種別を判定する。
【0048】
溶接作業判定部51は、抽出部40によって抽出された画像データ#N-1に基づき、作業場で行われている作業が溶接作業であるか否かを判定する。詳しくは、本例では、溶接作業判定部51は、学習済みモデルM51によって実現される。
【0049】
学習済みモデルM51は、抽出部40によって抽出された画像データ#N-1(1個の画像データ)を入力とし、かつ、作業場で行われている作業が溶接作業であることを示す確度を出力する。本例では、確度は、0以上1以下の値である。このように、学習済みモデルM51は、確度を正規化(本例では、最小値が0、最大値が1)して出力する。確度が高い程、作業場で行われている作業が溶接作業である可能性が高い。
【0050】
学習済みモデルM51は、抽出された画像データ#N-1毎に算出された確度を、抽出された画像データ#N-1の識別子に関連付けて、最終判定部54に出力する。たとえば動画像データDaにフレーム画像データがK個含まれる場合、学習済みモデルM51は、K-1個の確度を最終判定部54に出力する。
【0051】
グラインダ作業判定部52は、抽出部40によって抽出された画像データ#N-1に基づき、作業場で行われている作業がグラインダ作業であるか否かを判定する。詳しくは、本例では、グラインダ作業判定部は、学習済みモデルM52によって実現される。
【0052】
学習済みモデルM52は、抽出部40によって抽出された画像データ#N-1(1個の画像データ)を入力とし、かつ、作業場で行われている作業がグラインダ作業であることを示す確度を出力する。本例では、確度は、0以上1以下の値である。このように、学習済みモデルM52は、学習済みモデルM51と同様に、確度を正規化(本例では、最小値が0、最大値が1)して出力する。確度が高い程、作業場で行われている作業がグラインダ作業である可能性が高い。
【0053】
学習済みモデルM52は、学習済みモデルM51と同様、抽出された画像データ#N-1毎に算出された確度を、抽出された画像データ#N-1の識別子に関連付けて、最終判定部54に出力する。たとえば動画像データDaにフレーム画像データがK個含まれる場合、学習済みモデルM52は、K-1個の確度を最終判定部54に出力する。
【0054】
ガウジング作業判定部53は、抽出部40によって抽出された画像データ#N-1に基づき、作業場で行われている作業がガウジング作業であるか否かを判定する。詳しくは、本例では、ガウジング作業判定部は、学習済みモデルM53によって実現される。
【0055】
学習済みモデルM53は、抽出部40によって抽出された画像データ#N-1(1個の画像データ)を入力とし、かつ、作業場で行われている作業がガウジング作業であることを示す確度を出力する。本例では、確度は、0以上1以下の値である。このように、学習済みモデルM53は、学習済みモデルM51,M52と同様に、確度を正規化(本例では、最小値が0、最大値が1)して出力する。確度が高い程、作業場で行われている作業がガウジング作業である可能性が高い。
【0056】
学習済みモデルM53は、学習済みモデルM51,M52と同様、抽出された画像データ#N-1毎に算出された確度を、抽出された画像データ#N-1の識別子に関連付けて、最終判定部54に出力する。たとえば動画像データDaにフレーム画像データがK個含まれる場合、学習済みモデルM53は、K-1個の確度を最終判定部54に出力する。
【0057】
最終判定部54は、学習済みモデルM51による判定の結果と、学習済みモデルM52による判定の結果と、学習済みモデルM53による判定の結果とに基づき、作業場で行われている作業が、溶接作業、グラインダ作業、ガウジング作業、および、分類が不可な作業のうちの何れであるかを判定する。他の作業としては、たとえば、作業者の移動が挙げられる。
【0058】
詳しくは、最終判定部54は、抽出された各画像データ#N-1(1個毎の画像データ)について、確度が閾値(たとえば、0.6)以上となった作業が存在するかを判断する。最終判定部54は、確度が閾値以上となった作業が存在する場合には、当該作業を、作業場で行われている作業と判定する。
【0059】
たとえば、抽出された1個の画像データ#1について、学習済みモデルM51から出力された確度が0.7であり、学習済みモデルM52から出力された確度が0.1であり、学習済みモデルM53から出力された確度が0.05である場合、最終判定部54は、作業場で行われている作業が溶接作業であると判定する。また、抽出された1個の画像データ#2について、学習済みモデルM51から出力された確度が0.5であり、学習済みモデルM52から出力された確度が0.2であり、学習済みモデルM53から出力された確度が0.1である場合、確度が閾値(本例では、0.6)以上となるものがないため、最終判定部54は、作業場で行われている作業については分類が不可であると判定する。このような判定は、抽出された各画像データ#N-1について行われる。
【0060】
さらに、最終判定部54は、所定の周期(たとえば、1秒毎)に、最終判定を行う。当該周期は、動画像データDaのフレームレートに基づき適宜設定され得る。たとえば、動画像データDaのフレームレートが60fps(frames per second)とする。この場合、動画像データDaは、1秒間に60個のフレーム画像データを含む。
【0061】
したがって、最終判定部54では、動画像データDaの1秒間において、60個の判定結果が得られる。最終判定部54は、当該60個の判定結果のうち、最も数が多い作業種別を、当該期間(1秒間)において作業場で行われている作業であると判定(以下、「最終判定」とも称する)する。
【0062】
たとえば、ある1秒の期間における60個の判定結果のうち、溶接作業の判定が40回、グラインダ作業の判定が4回、ガウジング作業の判定が0回、分類が不可の判定が16回であったとすると、最終判定部54は、当該期間の作業種別を溶接と判定(最終判定)する。
【0063】
最終判定部54は、最終判定の結果を、記憶部60に記憶させる。詳しくは、最終判定部54は、最終判定の結果を、動画像データDaに関連付けて記憶部60に記憶させる。より詳しくは、最終判定部54は、最終判定の結果を動画像データDaに同期させる。最終判定部54は、最終判定の元になった各フレーム画像データに、当該最終判定の結果を関連付ける。
【0064】
なお、関連付けの方法は、フレーム画像データの識別子であってもよいし、動画像データDaの再生開始からの経過時刻を基準にしてもよい。
【0065】
(b5.表示制御部70)
表示制御部70は、表示部80の表示を制御する。表示制御部70は、ユーザ操作に基づき、動画像データDaとともに、最終判定の結果を表示する。上述した関連付けにより、最終判定の結果は、動画像データDaの再生が進むに連れて逐次変化する。本例では、動画像データDaの再生時、最終判定の結果は1秒毎に更新される。
【0066】
<C学習済みモデル>
学習済みモデルM20,M51,M52,M53について、説明する。
【0067】
学習済みモデルM20は、予め準備された学習用データセットと、学習用プログラムとにより生成される。当該学習用データセットは、複数の学習用データを含む。各学習用データは、作業場で作業を行う作業者を撮像した画像データ(静止画像データ、フレーム画像データ)に、当該画像データにおける人物領域を示すラベル情報(正解データ)が付与されたものである。本例では、ラベル情報の人物領域は、矩形領域で指定されている。
【0068】
学習済みモデルM51は、学習済みモデルM20と同様、予め準備された学習用データセットと、学習用プログラムとにより生成される。当該学習用データセットは、複数の学習用データを含む。各学習用データは、作業場で溶接作業を行う作業者を撮像した画像データに、作業種別が溶接であることを示すラベル情報(正解データ)が付加されたものである。
【0069】
学習済みモデルM52は、学習済みモデルM20,M51と同様、予め準備された学習用データセットと、学習用プログラムとにより生成される。当該学習用データセットは、複数の学習用データを含む。各学習用データは、作業場でグラインダ作業を行う作業者を撮像した画像データに、作業種別がグラインダであることを示すラベル情報が付加されたものである。
【0070】
学習済みモデルM53は、学習済みモデルM20,M51,M52と同様、予め準備された学習用データセットと、学習用プログラムとにより生成される。当該学習用データセットは、複数の学習用データを含む。各学習用データは、作業場でガウジング作業を行う作業者を撮像した画像データに、作業種別がガウジングであることを示すラベル情報が付加されたものである。
【0071】
学習済みモデルM20,M51,M52,M53は、DNN(Deep Neural Network)に分類されるネットワークである。学習済みモデルM20,M51,M52,M53は、CNN(Convolutional Neural Network)に分類される前処理ネットワークと、中間層と、出力層に相当する活性化関数と、Softmax関数とを含む。
【0072】
前処理ネットワークは、相対的に次数の大きな特徴量から、推定結果を算出するために有効な特徴量を抽出するための一種のフィルタとして機能することが予定されている。前処理ネットワークは、畳み込み層(CONV)およびプーリング層(Pooling)が交互に配置された構成を有している。なお、畳み込み層とプーリング層との数は同数でなくてもよく、また、畳み込み層の出力側にはReLU(正規化線形関数:rectified linear unit)などの活性化関数が配置される。
【0073】
より具体的には、前処理ネットワークは、特徴量の入力を受けて、所定の属性情報を示す内部特徴量を出力するように構築される。中間層は、所定数の層数を有する全結合ネットワークからなり、前処理ネットワークからの出力を、各ノードについて決定される重みおよびバイアスを用いてノード毎に順次結合する。
【0074】
中間層の出力側には、ReLUなどの活性化関数が配置され、最終的には、Softmax関数により確率分布に正規化された上で、推定結果が出力される。
【0075】
学習用プログラムがパラメータの値を最適化するにあたっては、任意の最適化アルゴリズムを用いることができる。より具体的には、最適化アルゴリズムとしては、たとえば、SGD(Stochastic Gradient Descent:確率的勾配降下法)、Momentum SGD(慣性項付加SGD)、AdaGrad、RMSprop、AdaDelta、Adam(Adaptive moment estimation)などの勾配法を用いることができる。
【0076】
<D.処理の流れ>
情報処理装置2における上述した処理の流れについて、フロー図等を用いてさらに説明する。
【0077】
図4は、判定処理の流れを示すフロー図である。
【0078】
図4に示されるように、ステップS1において、情報処理装置2は、動画像データDaを構成する各フレーム画像データ#Nにおいて、人物領域を検出する。ステップS2において、情報処理装置2は、人物領域の検出結果を用いてフレーム画像データ#N毎に作業種別を判定し、さらに、各フレーム画像データ#Nによる判定結果に基づき、1秒間毎の最終判定を実行する。
【0079】
ステップS1およびステップS2の処理は、プロセッサ201によって実行される。ステップS1の処理は、人物領域検出部20(図3)によって実行される。具体的には、ステップS1の処理は、学習済みモデルM20によって実現される。ステップS2の処理は、作業種別判定部50(図3)によって実行される。具体的には、ステップS2の処理は、学習済みモデルM51,M52,M53によって実現される。
【0080】
図5は、図4のステップS1の処理の詳細を示したフロー図である。
【0081】
図5に示されているように、ステップS101において、プロセッサ201は、入力装置204を介して、判定する人数の設定入力を受け付ける。典型的には、プロセッサ201は、1人(1人作業)または2人(2人作業)を示す入力を受け付ける。人数の設定入力を受け付ける理由は、人物領域の検出精度を高めるためである。
【0082】
ステップS102において、プロセッサ201は、メモリ202から動画像データDaを読み込む。ステップS103において、プロセッサ201は、メモリ202から人物領域検出用の学習済みモデルM20を読み込む。ステップS104において、プロセッサ201は、各フレーム画像データ#Nに対して、学習済みモデルM20を用いた人物領域検出処理を実行する。
【0083】
ステップS105において、プロセッサ201は、ステップS101で設定された設定人数に合わせて判定を調整する。具体的には、プロセッサ201は、同じフレーム画像データ内で、設定人数分だけ、人物領域の判定の確度が高い順に人物領域を選定する。たとえば、設定人数が1人の場合、プロセッサ201は、複数の人物領域(候補領域)から、確度が最も高い人物領域を選定する。設定人数が2人の場合、プロセッサ201は、複数の人物領域(候補領域)から、確度が最も高い人物領域と、確度が次に高い人物領域とを選定する。ステップS106において、プロセッサ201は、前後補完等の後処理を実行する。
【0084】
ステップS107において、プロセッサ201は、フレーム画像データ#N毎に,人物領域検出結果(座標)を所定の形式でメモリ202に保存する。プロセッサ201は、典型的には、人物領域検出結果を、互換性が高いフィアル形式の一つ(たとえば、csv(Comma Separated Value)形式)でデータ保存する。詳しくは、プロセッサ201は、人物領域検出(座標)を、タイムスタンプ、フレーム画像データのフレームナンバー、オブジェクトナンバー、人物領域検出についての判定の確度等の情報と関連付けて判定する。
【0085】
ステップS108において、プロセッサ201は、人物領域検出結果の動画像データDcを作成し、かつメモリ202に保存する。なお、動画像データDcは、動画像データDaに対して、人物領域を示す図形(矩形)を重畳したものである。
【0086】
図6は、図4のステップS2の処理の詳細を示したフロー図である。
【0087】
図6に示されているように、ステップS201において、プロセッサ201は、メモリ202から動画像データDaを読み込む。ステップS202において、プロセッサ201は、フレーム差分法を用いて、フレーム差分動画像データDbを作成する。この処理は、生成部30(図3)によって実行される処理である。なお、ステップS202の処理の詳細については、後述する(図7)。
【0088】
ステップS203において、プロセッサ201は、メモリ202から人物領域検出結果を読み込む。なお、人物領域検出結果は、人物領域の座標と、上述したフレーム画像データの識別子(タイムスタンプまたはフレームナンバー)等の情報を含む。
【0089】
ステップS204において、プロセッサ201は、人物領域検出結果に基づき、フレーム差分動画像データDbを構成する各フレーム画像データPから人物領域に対応する領域を抽出する。換言すれば、プロセッサ201は、画像の切り出しを行う。詳しくは、プロセッサ201は、各フレーム画像データPに関連付いた人物領域検出結果を用いて、各フレーム画像データPから、人物領域に対応する領域を抽出する。詳しくは、プロセッサ201は、フレーム画像データP毎に、異なる人物領域検出結果を用いて、画像の切り出しを行う。
【0090】
ステップS205において、プロセッサ201は、メモリ202から、作業種別判定用の学習済みモデルM51,M52,M53を読み込む。ステップS206において、プロセッサ201は、学習済みモデルM51,M52,M53を実行することにより、ステップS204で抽出された各画像データQ(切り出した部分の画像データ)から作業種別の判定処理を実行する。なお、ステップS206の処理の詳細については、後述する(図9)。
【0091】
ステップS207において、プロセッサ201は、ステップS206における作業種別判定結果を、1秒毎の最終判定結果として出力する。具体的には、上述したように、プロセッサ201は、1秒間において最も数が多い作業種別を、当該1秒間において作業場で行われている作業であると判定(最終判定)する。1秒毎の最終判定結果は、逐次、メモリ202の作業領域(典型的には、RAM222)に一時的に記憶される。
【0092】
ステップS208において、プロセッサ201は、1秒間における作業が分類不可と判定された場合、当該作業が作業者の移動であるか否かを判定する移動判定処理を実行する。なお、移動判定処理の詳細については、後述する。
【0093】
ステップS209において、プロセッサ201は、前後補完等の後処理を実行する。ステップS210において、プロセッサ201は、1秒毎の最終判定結果を所定の形式でメモリ202に不揮発的に保存する。典型的には、プロセッサ201は、最終判定結果を、SSD223またはHDD224にcsv形式でデータ保存する。詳しくは、プロセッサ201は、最終判定結果を、タイムスタンプ、フレームナンバー等の情報と関連付けて判定する。
【0094】
ステップS211において、プロセッサ201は、最終判定結果を含んだ動画像データDdを作成し、かつメモリ202に保存する。なお、動画像データDdは、動画像データDaに対して、最終判定結果を文字等の識別情報で示した画像を重畳したものである。
【0095】
ユーザ950が、情報処理装置2において動画像データDdを再生することにより、ディスプレイ203には、作業場での作業の映像に重畳した形式で作業種別が表示される。また、作業種別の表示は、1秒毎に更新される。
【0096】
次に、ステップS208の移動判定処理について説明する。移動判定処理では、先ず、プロセッサ201は、検出された各人物領域の幅と高さとについて平均値を算出する。すなわち、プロセッサ201は、各人物領域のフレーム画像データ#N内での重心位置を算出する。
【0097】
次に、プロセッサ201は、1秒間毎の重心位置の平均値を算出する。その後、プロセッサ201は、重心位置の各平均値を、同じ時刻(タイミング)の最終判定結果に関連付ける。さらにプロセッサ201は、重心位置の各平均値に基づき、1秒毎の人物領域の移動量を算出する。
【0098】
プロセッサ201は、他の作業(分類不可)とされた最終判定結果を、メモリ202の作業領域から抽出する。その後、プロセッサ201は、抽出された最終判定結果に関連付けられた移動量が所定の範囲内(下限の閾値と上限の閾値との間)に収まっているか否かを判定する。プロセッサ201は、移動量が所定の範囲内に収まっている場合、他の作業(分類不可)の情報を「移動」に置換する。
【0099】
図7は、図6のステップS202の処理の詳細を説明するためのフロー図である。図8は、画像データを用いて図7の処理を説明するための図である。
【0100】
図7に示されるように、ステップS2201において、プロセッサ201は、上述した変数N(#N)の値を2とする。ステップS2202において、プロセッサ201は、読み込んだ動画像データDaから、連続する2つのフレーム画像データ#N-1,#Nを取得する。図8に、フレーム画像データ#N-1とフレーム画像データ#Nとの例を示す。
【0101】
ステップS2203において、プロセッサ201は、フレーム画像データ#N-1とフレーム画像データ#Nとの差分を表す差分画像データR(図8参照)を生成する。ステップS2204において、プロセッサ201は、差分画像データRを二値化し、二値化画像データT(図8参照)を生成する。
【0102】
ステップS2205において、プロセッサ201は、二値化画像データTに対してクロージング処理を行うことにより、クロージング画像データU(図8参照)を生成する。クロージング画像データUは、マスク画像として用いられる。ステップS2206において、プロセッサ201は、フレーム画像データ#Nに対してクロージング画像データUでマスキング処理を行う。これにより、マスク処理後の画像データV(図8参照)が生成される。
【0103】
ステップS2207において、プロセッサ201は、マスク処理後の画像データVを、新規画像データ#N-1としてメモリ202に保存する。ステップS2208において、プロセッサ201は、動画像データDaが終了したか否かを判断する。具体的には、プロセッサ201は、動画像データDaの全ての連続する2つのフレーム画像データに対して上述した処理を実行したか否かを判断する。
【0104】
動画像データDaが終了していないと判断された場合(ステップS2208においてNO)、プロセッサ201は、ステップS2210において、Nの値を1つだけ増加(インクリメント)させる。動画像データDaが終了したと判断された場合(ステップS2208においてYES)、プロセッサ201は、ステップS2209において、新規画像データ#Nの全てを時系列の順につなげることにより上述したフレーム差分動画像データDbを生成し、かつ、メモリ202に保存する。
【0105】
プロセッサ201は、ステップS2209の後、処理を図6のステップS203に進める。
【0106】
図9は、図6のステップS206の処理の詳細を説明するためのフロー図である。
【0107】
図9に示されるように、ステップS2601において、プロセッサ201は、メモリ202から抽出された各画像データQ(切り出した部分の画像データ)を読み込む。
【0108】
ステップS2602において、プロセッサ201は、1つの画像データQに対して、各学習済みモデルM51,M52,M53を用いて判定を行う。具体的には、プロセッサ201は、各学習済みモデルM51,M52,M53を実行することにより、上述したように各作業(溶接作業、グラインダ作業、ガウジング作業)の確度を算出する。ステップS2603において、プロセッサ201は、算出された3つの作業の確度のうち最大の確度が閾値(たとえば、0.6)を超えているか否かを判断する。
【0109】
最大の確度が閾値を超えていると判断された場合(ステップS2603においてYES)、プロセッサ201は、ステップS2604において、最大の確度の判定を採用する。具体例を挙げると、学習済みモデルM51から出力された確度が0.7であり、学習済みモデルM52から出力された確度が0.1であり、学習済みモデルM53から出力された確度が0.05である場合、プロセッサ201は、学習済みモデルM51による判定を採用する。プロセッサ201は、作業種別が溶接であると判定する。
【0110】
最大の確度が閾値を超えていないと判断された場合(ステップS2603においてNO)、プロセッサ201は、ステップS2607において、分類不可と判定する。ステップS2605において、プロセッサ201は、判定の結果をメモリ202に保存する。
【0111】
ステップS2606において、プロセッサ201は、最後の画像データQであるか否かを判断する。最後の画像データQであると判定された場合(ステップS2606においてYES)、プロセッサ201は、ステップS206の一連の処理を終了し、処理を図6のステップS207に進める。最後の画像データQでないと判定された場合(ステップS2606においてNO)、プロセッサ201は、ステップS2608において、処理対象を次の画像データQに切り替える。その後、プロセッサ201は、処理をステップS2602に進める。
【0112】
<E.最終判定結果例>
図10は、互換性が高いファイル形式(本例では、csv形式)としてメモリ202に保存された最終判定結果を含むデータ示した図である。
【0113】
図10に示されるように、データの「Predict」の欄には、1秒ごとに最終判定結果が記録されている。“Indistinguishable”は「分類不可」を、“Moving”は「移動」を、“Welding”は「溶接」を表している。
【0114】
なお、“G_X”と“G_Y”とは、それぞれ、人物領域の重心のX座標とY座標とを表している。詳しくは、“G_X”と“G_Y”とは、1秒間における重心位置の平均値である。“Width”と“Height”とは、それぞれ、人物領域の幅と高さとを表している。
【0115】
このように、情報処理装置2によれば、1秒毎に作業種別が特定される。それゆえ、作業種別毎に時間を累積すれば、各作業種別の作業に要した時間を算出できる。情報処理装置2は、たとえばユーザ操作に応じて、このような時間を算出し、かつ算出された結果(作業種別毎の作業時間)をディスプレイ203に表示させる。
【0116】
<F.小括>
情報処理装置2で実行される処理の一部を小括すると、以下のとおりである。
【0117】
(1)情報処理装置2は、カメラ1(可視光カメラ)による撮像によって得られた連続する複数のフレーム画像データ(動画像データ、映像データ)を取得する動画像データ取得部10を備える。カメラ1は、設置位置および姿勢が固定され、かつ、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像する。
【0118】
情報処理装置2は、上記複数のフレーム画像データのうちのフレーム画像データ#Nにおいて、作業者の領域(人物領域)を検出する人物領域検出部20と、フレーム画像データ#Nと、上記複数のフレーム画像データのうちフレーム画像データ#Nよりも1個前のフレーム画像データ#N-1とに基づいて、被写体の状態変化を示す画像データを生成する生成部30と、生成された画像データから、検出された作業者の領域に対応する領域の画像データを抽出する抽出部40と、抽出された画像データに基づき、作業場で行われている作業の種別を判定する作業種別判定部50とをさらに備える。
【0119】
このような構成の情報処理装置2によれば、可視光カメラによる撮像によって得られた複数のフレーム画像データにおいて、作業者の領域における状態変化を示す画像データを抽出できる。さらに、情報処理装置2によれば、作業者の領域における状態変化を示す画像データに基づいて、作用場で行われている作業の種別を判定する。
【0120】
それゆえ、情報処理装置2によれば、可視光カメラによる撮像によって得られた動画像データに基づき、作業場において行われている作業の種別を判定可能となる。詳しくは、フレーム画像データ毎に、光の明滅を伴う作業の種別を精度良く判定することができる。
【0121】
(2)情報処理装置2は、判定された作業の種別を示す情報を記憶する記憶部60をさらに備える。このような構成によれば、情報処理装置2では、判定の結果が記憶されるため、当該結果を用いた各種の後処理(たとえば、上述した最終判定処理、表示処理)を行うことができる。
【0122】
(3)生成部30は、フレーム画像データ#Nとフレーム画像データ#N-1とを用いたフレーム差分法により、被写体の状態変化を示す画像データを生成する。このような構成によれば、移動物体の検出方法の1つであるフレーム差分法を用いることにより、被写体の状態変化を示す画像データを生成できる。
【0123】
(4)作業種別判定部50は、作業場で行われている作業が溶接作業であるか否かを判定する。このような構成によれば、光の明滅を伴う作業が溶接作業であるか否かを判定できる。
【0124】
(5)作業種別判定部50は、作業場で行われている作業が、予め指定された複数の作業のうちのいずれであるかを判定する。このような構成によれば、光の明滅を伴う作業が複数の作業のうちの何れであるか否かを判定できる。
【0125】
(6)上記複数の作業は、溶接作業と、グラインダ作業と、ガウジング作業とを含む。このような構成によれば、光の明滅を伴う作業が、溶接作業、グラインダ作業、およびガウジング作業の何れであるかを判定できる。
【0126】
(7)作業種別判定部50は、抽出された画像データを入力として受け付け、作業場で行われている作業が溶接作業であるか否かを判定する学習済みモデルM51と、抽出された画像データを入力として受け付け、作業場で行われている作業がグラインダ作業であるか否かを判定する学習済みモデルM52と、抽出された画像データを入力として受け付け、作業場で行われている作業がガウジング作業であるか否かを判定する学習済みモデルM53とを含む。
【0127】
作業種別判定部50は、学習済みモデルM51による判定の結果と、学習済みモデルM52による判定の結果と、学習済みモデルM53による判定の結果とに基づき、作業場で行われている作業が、溶接作業とグラインダ作業とガウジング作業とのうちの何れであるかを判定する。
【0128】
このような構成によれば、情報処理装置2は、学習済みモデルM51,M52,M53を用いて、作業種別の判定をおこなう。それゆえ、情報処理装置2によれば、学習済みモデルを用いないルールベースの判定処理に比べて、精度の高い判定が可能となる。
【0129】
(8)人物領域検出部20は、フレーム画像データ#Nを入力とし、かつ、作業者の領域を示す情報を出力する、学習済みモデルM20である。このような構成によれば、情報処理装置2は、学習済みモデルM20を用いて、作業者の領域(人物領域)の検出をおこなう。それゆえ、情報処理装置2によれば、学習済みモデルを用いないルールベースの検出処理に比べて、精度の高い検出が可能となる。
【0130】
(9)情報処理装置2は、複数のフレーム画像データの各々について、人物領域検出部20による検出と、生成部30による生成と、抽出部40による抽出と、作業種別判定部50による判定とを行う。情報処理装置2は、作業種別判定部50により判定された作業種別毎の判定数に基づき、作業種別毎の作業時間を算出する。
【0131】
このような構成によれば、情報処理装置2は、カメラ1による撮像によって得られた複数のフレーム画像データに基づいて、各作業の作業時間の合計を作業毎に算出する。それゆえ、情報処理装置2のユーザ950は、どの作業にどの位の時間を要しているかを把握することができる。
【0132】
<G.変形例>
(1)図11は、図7に示したステップS202の一連の処理の変形例を示したフロー図である。以下では、3つの連続するフレーム画像データを用いたフレーム差分法を利用する構成について説明する。
【0133】
図11を参照して、図11に示す一連の処理は、図7に示す一連の処理に比べて、以下の点が異なっている。図11に示す一連の処理は、ステップS2202,S2203,S2204,S2205(図7参照)の代わりに、ステップS2202A,S2203A,S2204A,S2205Aを備える。さらに、図11に示す一連の処理は、ステップS2211を備える点で、このステップを備えない図7とは異なる。
【0134】
なお、図11の他のステップの処理は、図7で説明した処理と同じである。そこで、以下では、これらのステップS2202A,S2203A,S2204A,S2205A,S2211について説明する。
【0135】
ステップS2201の後のステップS2202Aにおいて、プロセッサ201は、読み込んだ動画像データDaから、連続する3つのフレーム画像データ#N-1,#N,#N+1を取得する。ステップS2203Aにおいて、プロセッサ201は、フレーム画像データ#N-1とフレーム画像データ#Nとの差分を表す差分画像データRと、フレーム画像データ#Nとフレーム画像データ#N+1との差分を表す差分画像データRとを生成する。
【0136】
ステップS2204Aにおいて、プロセッサ201は、各差分画像データRを二値化し、2つの二値化画像データTを生成する。ステップS2211において、プロセッサ201は、2つの二値化画像データTの共有部分を抽出し、画像データWを生成する。具体的には、プロセッサ201は、2つの二値化画像データTにおいてともに白色(すなわち、値が1の部分)となっている部分は白色(値を1)とし、それ以外は、黒色(値を0)とする。
【0137】
ステップS2205Aにおいて、プロセッサ201は、抽出された画像データWに対してクロージング処理を行うことにより、クロージング画像データUを生成する。その後、プロセッサ201は、処理をステップS2206に進める。
【0138】
詳しくは、本変形例においては、生成部30が、フレーム画像データ#Nとフレーム画像データ#N-1とフレーム画像データ#N+1とを用いたフレーム差分法により、被写体の状態変化を示す画像データを生成する。
【0139】
このような処理によれば、図7の構成よりも精度の高い判定処理が可能となる。
【0140】
(2)上記においては、生成部30が、連続するフレーム画像データ#N,#N-1を用いて、被写体の状態変化を示す画像データを生成する構成を例に挙げて説明したが、必ずしも、これに限定されるものではない。生成部30は、フレーム画像データ#Nと、フレーム画像データ#Nよりも所定個前(1個以上前)のフレーム画像データとに基づいて、被写体の状態変化を示す画像データを生成する構成であればよい。たとえば、生成部30は、フレーム画像データ#Nと、フレーム画像データ#Nよりも2個前のフレーム画像データ#N-2とに基づいて、被写体の状態変化を示す画像データを生成してもよい。
【0141】
(3)被写体の状態変化を示す画像データを生成できれば、フレーム差分法以外の移動体検出の手法も適用可能である。
【0142】
(4)作業者の領域(人物領域)の検出には、必ずしも、学習済みモデルを用いる必要はない。ルールベースの手法により、作業者の領域を検出してもよい。
【0143】
今回開示された実施の形態は例示であって、上記内容のみに制限されるものではない。本発明の範囲は特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0144】
1 カメラ、2 情報処理装置、10 動画像データ取得部、20 人物領域検出部、30 生成部、40 抽出部、50 作業種別判定部、51 溶接作業判定部、52 グラインダ作業判定部、53 ガウジング作業判定部、54 最終判定部、60 記憶部、70 表示制御部、80 表示部、201 プロセッサ、202 メモリ、203 ディスプレイ、204 入力装置、205 通信インターフェイス、206 カードリーダ、207 ポート、900 作業者、950 ユーザ、1000 判定システム、M20,M51,M52,M53 学習済みモデル。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11