特開2023-60666 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社小松製作所の特許一覧

特開2023-60666情報処理装置および情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023060666

(43)【公開日】2023-04-28

(54)【発明の名称】情報処理装置および情報処理方法

(51)【国際特許分類】

G06Q 50/04 20120101AFI20230421BHJP

G06T 7/20 20170101ALI20230421BHJP

G06T 7/00 20170101ALI20230421BHJP

【ＦＩ】

G06Q50/04

G06T7/20 300

G06T7/00 350B

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021170384

(22)【出願日】2021-10-18

(71)【出願人】

【識別番号】000001236

【氏名又は名称】株式会社小松製作所

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】野村聡一郎

【テーマコード（参考）】

5L049

5L096

【Ｆターム（参考）】

5L049CC03

5L096BA08

5L096BA18

5L096CA02

5L096FA02

5L096GA08

5L096HA02

5L096HA11

5L096KA04

5L096KA15

(57)【要約】

【課題】可視光カメラによる撮像によって得られた動画像データに基づき、作業場において行われている作業の種別を判定可能な情報処理装置を提供する。
【解決手段】情報処理装置は、可視光カメラによる撮像によって得られた連続する複数のフレーム画像データを取得する。可視光カメラは、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像する。情報処理装置は、複数のフレーム画像データのうちの第１のフレーム画像データにおいて、作業者の領域を検出する。情報処理装置は、第１のフレーム画像データと、第１のフレーム画像データよりも所定個前の第２のフレーム画像データとに基づいて、被写体の状態変化を示す画像データを生成する。情報処理装置は、生成された画像データから作業者の領域に対応する領域の画像データを抽出し、抽出された画像データに基づき、作業場で行われている作業の種別を判定する。
【選択図】図３

【特許請求の範囲】

【請求項1】

可視光カメラによる撮像によって得られた連続する複数のフレーム画像データを取得する取得手段を備え、前記可視光カメラは、設置位置および姿勢が固定され、かつ、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像し、
前記複数のフレーム画像データのうちの第１のフレーム画像データにおいて、前記作業者の領域を検出する検出手段と、
前記第１のフレーム画像データと、前記複数のフレーム画像データのうち前記第１のフレーム画像データよりも所定個前の第２のフレーム画像データとに基づいて、前記被写体の状態変化を示す画像データを生成する生成手段と、
生成された前記画像データから、検出された前記作業者の領域に対応する領域の画像データを抽出する抽出手段と、
抽出された前記画像データに基づき、前記作業場で行われている作業の種別を判定する判定手段とをさらに備える、情報処理装置。

【請求項2】

前記第２のフレーム画像データは、前記第１のフレーム画像データよりも１個前のフレーム画像データである、請求項１に記載の情報処理装置。

【請求項3】

前記生成手段は、前記第１のフレーム画像データと前記第２のフレーム画像データとを用いたフレーム差分法により、前記状態変化を示す画像データを生成する、請求項２に記載の情報処理装置。

【請求項4】

前記判定手段は、前記作業場で行われている作業が溶接作業であるか否かを判定する、請求項１から３のいずれか１項に記載の情報処理装置。

【請求項5】

前記判定手段は、前記作業場で行われている作業が、予め指定された複数の作業のうちのいずれであるかを判定する、請求項１から３のいずれか１項に記載の情報処理装置。

【請求項6】

前記複数の作業は、溶接作業と、グラインダ作業と、ガウジング作業とを含む、請求項５に記載の情報処理装置。

【請求項7】

前記判定手段は、
抽出された前記画像データを入力として受け付け、前記作業場で行われている作業が前記溶接作業であるか否かを判定する第１の学習済みモデルと、
抽出された前記画像データを入力として受け付け、前記作業場で行われている作業が前記グラインダ作業であるか否かを判定する第２の学習済みモデルと、
抽出された前記画像データを入力として受け付け、前記作業場で行われている作業が前記ガウジング作業であるか否かを判定する第３の学習済みモデルとを含み、
前記第１の学習済みモデルによる判定の結果と、前記第２の学習済みモデルによる判定の結果と、前記第３の学習済みモデルによる判定の結果とに基づき、前記作業場で行われている作業が、前記溶接作業と前記グラインダ作業と前記ガウジング作業とのうちの何れであるかを判定する、請求項６に記載の情報処理装置。

【請求項8】

前記検出手段は、前記第１のフレーム画像データを入力とし、かつ、前記作業者の領域を示す情報を出力する、第４の学習済みモデルである、請求項１から７のいずれか１項に記載の情報処理装置。

【請求項9】

前記複数のフレーム画像データの各々について、前記検出手段による検出と、前記生成手段による生成と、前記抽出手段による抽出と、前記判定手段による判定とを行い、
前記判定手段により判定された前記作業の種別毎の判定数に基づき、前記作業の種別毎の作業時間を算出する、請求項１から８のいずれか１項に記載の情報処理装置。

【請求項10】

可視光カメラによって、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像するステップを備え、前記可視光カメラは、設置位置および姿勢が固定されており、
前記可視光カメラによる撮像によって得られた連続する複数のフレーム画像データを取得するステップと、
前記複数のフレーム画像データのうちの第１のフレーム画像データにおいて、前記作業者の領域を検出するステップと、
前記第１のフレーム画像データと、前記複数のフレーム画像データのうち前記第１のフレーム画像データよりも所定個前の第２のフレーム画像データとに基づいて、前記被写体の状態変化を示す画像データを生成するステップと、
生成された前記画像データから、検出された前記作業者の領域に対応する領域の画像データを抽出するステップと、
抽出された前記画像データに基づき、前記作業場で行われている作業の種別を判定するステップとをさらに備える、情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置および情報処理方法に関する。

【背景技術】

【0002】

従来、たとえば特開平７－１４６８９７号公報（特許文献１）に示すように、赤外線ビデオカメラによって撮像された作業場の映像を再生しながら、当該作業場における作業内容を分類するシステムが知られている。

【0003】

詳しくは、このシステムでは、赤外線ビデオカメラによって記録したビデオテープの内容をビデオデッキにて再生する。システムのコントローラ内の人体認識部は、赤外ビデオモニタに表示された作業者に相当する赤色部を追跡し、当該赤色部の動きをモード切替部を介して条件比較部に入力する。コントローラ内の条件比較部は、条件記憶部に格納してある条件を読み出し、人体認識部から送られてきたデータと比較して作業者が行っている作業を分類する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開平７－１４６８９７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１のシステムでは、被写体を赤外線ビデオカメラによって撮像する必要があり、汎用性に欠ける。

【0006】

本開示は、可視光カメラによる撮像によって得られた動画像データ（複数のフレーム画像データ）に基づき、作業場において行われている作業の種別を判定可能な情報処理装置および情報処理方法を提供する。

【課題を解決するための手段】

【0007】

本開示のある局面に従うと、情報処理装置は、可視光カメラによる撮像によって得られた連続する複数のフレーム画像データを取得する取得手段を備える。可視光カメラは、設置位置および姿勢が固定され、かつ、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像する。情報処理装置は、複数のフレーム画像データのうちの第１のフレーム画像データにおいて、作業者の領域を検出する検出手段と、第１のフレーム画像データと、複数のフレーム画像データのうち第１のフレーム画像データよりも所定個前の第２のフレーム画像データとに基づいて、被写体の状態変化を示す画像データを生成する生成手段と、生成された画像データから、検出された作業者の領域に対応する領域の画像データを抽出する抽出手段と、抽出された画像データに基づき、作業場で行われている作業の種別を判定する判定手段とをさらに備える。

【0008】

本開示の他の局面に従うと、情報処理方法は、可視光カメラによって、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像するステップを備える。可視光カメラは、設置位置および姿勢が固定されている。情報処理方法は、可視光カメラによる撮像によって得られた連続する複数のフレーム画像データを取得するステップと、複数のフレーム画像データのうちの第１のフレーム画像データにおいて、作業者の領域を検出するステップと、第１のフレーム画像データと、複数のフレーム画像データのうち第１のフレーム画像データよりも所定個前の第２のフレーム画像データとに基づいて、被写体の状態変化を示す画像データを生成するステップと、生成された画像データから、検出された作業者の領域に対応する領域の画像データを抽出するステップと、抽出された画像データに基づき、作業場で行われている作業の種別を判定するステップとをさらに備える。

【発明の効果】

【0009】

本開示によれば、可視光カメラによる撮像によって得られた複数のフレーム画像データに基づき、作業場において行われている作業の種別を判定可能となる。

【図面の簡単な説明】

【0010】

【図1】判定システムの概略構成を説明するための図である。

【図2】情報処理装置のハードウェア構成を示した図である。

【図3】情報処理装置で実行される処理の概要を説明するための図である。

【図4】判定処理の流れを示すフロー図である。

【図5】図４のステップＳ１の処理の詳細を示したフロー図である。

【図6】図４のステップＳ２の処理の詳細を示したフロー図である。

【図7】図６のステップＳ２０２の処理の詳細を説明するためのフロー図である。

【図8】画像データを用いて図７の処理を説明するための図である。

【図9】図６のステップＳ２０６の処理の詳細を説明するためのフロー図である。

【図10】互換性が高いファイル形式としてメモリに保存された最終判定結果を含むデータ示した図である。

【図11】図７に示したステップＳ２０２の一連の処理の変形例を示したフロー図である。

【発明を実施するための形態】

【0011】

以下、実施形態について図に基づいて説明する。なお、以下の説明では、同一部品には、同一の符号を付している。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。

【0012】

はじめに、本実施の形態で用いる用語の一部について説明する。

【0013】

「学習済みモデル」とは「学習済みパラメータ」が組み込まれた「推論プログラム」をいう。「学習済みパラメータ」とは、学習用データセットを用いた学習の結果、得られたパラメータ（係数）をいう。学習済みパラメータは、学習用データセットを学習用プログラムに対して入力することで、一定の目的のために機械的に調整されることで生成される。「推論プログラム」とは、組み込まれた学習済みパラメータを適用することで、入力に対して一定の結果を出力することを可能にするプログラムをいう。

【0014】

「学習用プログラム」とは、学習用データセットの中から一定の規則を見出し、その規則を表現するモデルを生成するためのアルゴリズムを実行するプログラムをいう。具体的には、採用する学習手法による学習を実現するために、コンピュータに実行させる手順を規定するプログラムがこれに該当する。

【0015】

「学習用データセット」とは、生データに対して、欠測値および外れ値の除去等の前処理、ラベル情報（正解データ）等の別個のデータの付加、あるいはこれらを組み合わせて、変換および／または加工処理を施すことによって、対象とする学習の手法による解析を容易にするために生成された二次的な加工データをいう。学習用データセットは、データ（以下、「学習用データ」とも称する）の集合体である。本実施の形態では、学習用データは、１枚の画像データと、ラベル情報とを含む。

【0016】

＜Ａ．システム構成＞
図１は、本実施の形態の判定システムの概略構成を説明するための図である。

【0017】

図１に示されるように、判定システム１０００は、カメラ１と、情報処理装置２とを備える。

【0018】

カメラ１は、可視光カメラである。カメラ１は、設置位置および姿勢が固定されている。カメラ１は、光の明滅を伴う作業が作業者９００によって行われている作業場を被写体として撮像する。光の明滅を伴う作業としては、たとえば、溶接作業、グラインダ作業、ガウジング作業等がある。なお、溶接作業には、スポット溶接を含む。

【0019】

カメラ１によって撮像された動画像データＤａは、情報処理装置２に送られる。動画像データＤａは、複数の連続するフレーム画像データ＃１，＃２，＃３,…を含んで構成される。

【0020】

情報処理装置２は、ユーザ９５０によって利用される。情報処理装置２は、典型的には、パーソナルコンピュータである。情報処理装置２は、カメラ１によって撮像された動画像データＤａをカメラ１から取得する。なお、情報処理装置２は、サーバ装置等の他の機器を介して、動画像データＤａを取得してもよい。また、情報処理装置２は、ＩＣカード、ＵＳＢメモリ等の記憶媒体を介して、動画像データＤａを取得してもよい。

【0021】

図２は、情報処理装置２のハードウェア構成を示した図である。

【0022】

図２に示されるように、情報処理装置２は、プロセッサ２０１と、メモリ２０２と、ディスプレイ２０３と、入力装置２０４と、通信インターフェイス２０５と、カードリーダ２０６と、ＵＳＢポート２０７とを備える。メモリ２０２は、ＲＯＭ（Read Only Memory）２２１と、ＲＡＭ（Random Access Memory）２２２と、ＳＳＤ（Solid State Drive）２２３と、ＨＤＤ（Hard Disk Drive）２２４とを含む。

【0023】

メモリ２０２には、オペレーティングシステムと、学習済みモデルを含む各種のプログラムとが格納されている。メモリ２０２には、後述する各種の処理を実行するためのプログラムが格納されている。プロセッサ２０１は、オペレーティングシステムおよび上記プログラムを実行する。

【0024】

入力装置２０４は、ユーザ９５０からの操作入力を受け付ける。入力装置２０４は、典型的には、キーボード、マウスである。

【0025】

プロセッサ２０１は、入力装置２０４が受け付けた操作に基づき、各種の処理を実行する。プロセッサ２０１は、各種の情報をディスプレイ２０３に表示する。プロセッサ２０１は、プログラムの実行結果をディスプレイに表示する。

【0026】

通信インターフェイス２０５は、外部の機器と通信するためのインターフェイスである。プロセッサ２０１は、通信インターフェイス２０５を介して、カメラ１から動画像データＤａを取得する。

【0027】

カードリーダ２０６は、ＩＣカードに記憶されたデータを読み取る。ＵＳＢポート２０７には、ＵＳＢメモリが接続される。プロセッサ２０１は、カードリーダ２０６またはＵＳＢポート２０７を介して、動画像データＤａを取得することも可能である。

【0028】

＜Ｂ．作業種別の判定＞
図３は、情報処理装置２で実行される処理の概要を説明するための図である。

【0029】

図３に示されるように、情報処理装置２は、動画像データ取得部１０と、人物領域検出部２０と、生成部３０と、抽出部４０と、作業種別判定部５０と、記憶部６０と、表示制御部７０と、表示部８０とを備える。

【0030】

なお、動画像データ取得部１０は、通信インターフェイス２０５、カードリーダ２０６、または、ＵＳＢポート２０７に対応する。人物領域検出部２０と、生成部３０と、抽出部４０と、作業種別判定部５０と、表示制御部７０とは、プロセッサ２０１が、メモリ２０２に記憶されたプログラム等を実行することにより実現される機能ブロックである。記憶部６０は、メモリ２０２に対応する。表示部８０は、ディスプレイ２０３に対応する。

【0031】

動画像データ取得部１０は、カメラ１による撮像によって得られた動画像データＤａを、カメラ１から取得する。詳しくは、動画像データ取得部１０は、カメラ１によって得られた連続する複数のフレーム画像データ＃１，＃２，＃３,…を取得する。

【0032】

情報処理装置２では、複数のフレーム画像データ＃１，＃２，＃３,…に対し、人物領域検出部２０による検出処理と、生成部３０による画像生成処理とが個別に行われる。なお、人物領域検出部２０による検出処理と、生成部３０による画像生成処理とが行われるタイミングは、いずれが先であってもよいし、同時であってもよい。

【0033】

詳しくは、動画像データ取得部１０によって取得された動画像データＤａは、記憶部６０等のメモリ２０２に一時的に格納され、その後、人物領域検出部２０および生成部３０によって読み出される。

【0034】

以下、主として、人物領域検出部２０と、生成部３０と、抽出部４０と、作業種別判定部５０と、表示制御部７０とについて説明する。

【0035】

（ｂ１．人物領域検出部２０）
人物領域検出部２０は、複数のフレーム画像データ＃１，＃２，＃３,…の各々のフレーム画像データ（以下、Ｎを自然数として、「フレーム画像データ＃Ｎ」と称する）において、作業者の領域（以下、「人物領域」とも称する）を検出する。本例では、人物領域検出部２０は、学習済みモデルＭ２０によって実現される。なお、本例では、フレーム画像データ＃１における人物領域は利用しないため、フレーム画像データ＃１において人物領域を検出する必要はない。

【0036】

学習済みモデルＭ２０は、フレーム画像データ＃Ｎを入力とし、かつ、人物領域を示す情報を出力する。具体的には、学習済みモデルＭ２０は、人物領域の座標を出力する。より具体的には、学習済みモデルＭ２０は、人物領域として、矩形状の領域を抽出する。当該領域は、典型的には、矩形の４つの角の座標値として表すことができる。このように、学習済みモデルＭ２０は、人物領域の座標として、４つ座標値を出力する。

【0037】

人物領域検出部２０は、フレーム画像データ＃Ｎを示す識別子（たとえば、フレームナンバー、タイムスタンプ）とともに、人物領域の座標を抽出部４０に送る。具体的には、人物領域検出部２０は、フレーム画像データ＃Ｎの識別子に関連付けられた、フレーム画像データ＃Ｎにおける人物領域の座標を、抽出部４０に送る。たとえば、動画像データＤａにフレーム画像データがＫ個（１≦Ｎ≦Ｋ）だけ含まれる場合、人物領域検出部２０は、Ｋ個の人物領域の座標のセット（座標値は、合計個数４Ｋ＝４×Ｋ）を抽出部４０に送る。より詳しくは、本例では、Ｋ個の人物領域の座標は、記憶部６０等のメモリ２０２に一時的に格納され、その後、抽出部４０によって読み出される。

【0038】

（ｂ２．生成部３０）
生成部３０は、フレーム画像データ＃Ｎと、フレーム画像データ＃１よりも１個前のフレーム画像データ＃Ｎ－１とに基づいて、被写体の状態変化を示す画像データを生成する。詳しくは、生成部３０は、フレーム差分法（「フレーム間差分法」とも称される）によって、被写体の状態変化を示す画像データを生成する。なお、フレーム画像データ＃０は存在しないため、フレーム画像データ＃０とフレーム画像データ＃１とに基づいた、被写体の状態変化を示す画像データは生成されない。

【0039】

より詳しくは、生成部３０は、連続するフレーム画像データ＃Ｎ－１とフレーム画像データ＃Ｎとから、フレーム差分法によって、マスク処理後の画像データ＃Ｎ－１（２≦Ｎ≦Ｋ）を生成する。なお、フレーム差分法およびマスク処理については後述する。

【0040】

生成部３０によって、複数のマスク処理後の画像データ＃Ｎ－１が生成される。このように、生成部３０によって、各々が被写体の状態変化を示す画像データが複数生成される。

【0041】

生成部３０は、フレーム画像データ＃Ｎを示す識別子とともに、マスク処理後の画像データ＃Ｎ－１を、抽出部４０に送る。具体的には、生成部３０は、フレーム画像データ＃Ｎの識別子に関連付けられたマスク処理後の画像データ＃Ｎ－１を抽出部４０に送る。たとえば、動画像データＤａにフレーム画像データがＫ個含まれる場合、生成部３０は、Ｋ－１個のマスク処理後の画像データを抽出部４０に送る。より詳しくは、本例では、Ｋ－１個のマスク処理後の画像データは、記憶部６０等のメモリ２０２に一時的に格納され、その後、抽出部４０によって読み出される。

【0042】

（ｂ３．抽出部４０）
抽出部４０は、生成部３０によって生成された画像データ（マスク処理後の画像データ＃Ｎ－１）から、人物領域検出部２０によって検出された人物領域に対応する領域の画像データを抽出する。換言すれば、抽出部４０は、画像の切り出しを行う。

【0043】

詳しくは、抽出部４０は、同じ識別子が付された、人物領域の座標とマスク処理後の画像データとを用いて、当該マスク処理後の画像データから、人物領域に対応する矩形領域の画像データを抽出する。

【0044】

具体的には、抽出部４０は、たとえばフレーム画像データ＃１とフレーム画像データ＃２とにフレーム差分法を適用することよって生成されたマスク処理後の画像データ＃１から、フレーム画像データ＃２において検出された人物領域に対応する領域（詳しくは、人物領域の４つの頂点座標で特定される矩形領域）の画像データを抽出する。同様に、抽出部４０は、フレーム画像データ＃２とフレーム画像データ＃３とにフレーム差分法を適用することよって生成されたマスク処理後の画像データ＃２から、フレーム画像データ＃３において検出された人物領域に対応する領域の画像データを抽出する。動画像データＤａにフレーム画像データがＫ個含まれる場合、抽出部４０は、このような抽出処理を、合計Ｋ－１回行う。

【0045】

抽出部４０は、抽出された画像データ＃Ｎ－１を、作業種別判定部５０に送る。詳しくは、本例では、Ｋ－１個の抽出された画像データは、記憶部６０等のメモリ２０２に一時的に格納され、その後、作業種別判定部５０によって読み出される。

【0046】

（ｂ４．作業種別判定部５０）
作業種別判定部５０は、抽出部４０によって抽出された画像データに基づき、作業場で行われている作業の種別を判定する。換言すれば、作業種別判定部５０は、作業場で行われている作業を分類する。作業種別判定部５０は、溶接作業判定部５１と、グラインダ作業判定部５２と、ガウジング作業判定部５３と、最終判定部５４とを含む。

【0047】

溶接作業は、金属同士を接合する接合加工である。溶接作業が行われる際、アーク光と呼ばれる発光が生じる。グライダ作業は、砥石などで金属を削る研削加工である。グラインダ作業が行われる際、削られた金属粉が発光する。ガウジング作業は、金属を切断、溶断、除去する加工である。ガウジング作業が行われる際、アーク放電によって発光が生じる。このように、溶接作業と、グラインダ作業と、ガウジング作業とは、いずれも金属加工であって、かつ、作業に伴い加工対象の部分で発光が生じる。しかしながら、溶接作業と、グラインダ作業と、ガウジング作業とは、それぞれ、光の発光状態が異なる。本実施の形態では、情報処理装置２は、これらの光の発光状態の違いに着目し、作業種別を判定する。

【0048】

溶接作業判定部５１は、抽出部４０によって抽出された画像データ＃Ｎ－１に基づき、作業場で行われている作業が溶接作業であるか否かを判定する。詳しくは、本例では、溶接作業判定部５１は、学習済みモデルＭ５１によって実現される。

【0049】

学習済みモデルＭ５１は、抽出部４０によって抽出された画像データ＃Ｎ－１（１個の画像データ）を入力とし、かつ、作業場で行われている作業が溶接作業であることを示す確度を出力する。本例では、確度は、０以上１以下の値である。このように、学習済みモデルＭ５１は、確度を正規化（本例では、最小値が０、最大値が１）して出力する。確度が高い程、作業場で行われている作業が溶接作業である可能性が高い。

【0050】

学習済みモデルＭ５１は、抽出された画像データ＃Ｎ－１毎に算出された確度を、抽出された画像データ＃Ｎ－１の識別子に関連付けて、最終判定部５４に出力する。たとえば動画像データＤａにフレーム画像データがＫ個含まれる場合、学習済みモデルＭ５１は、Ｋ－１個の確度を最終判定部５４に出力する。

【0051】

グラインダ作業判定部５２は、抽出部４０によって抽出された画像データ＃Ｎ－１に基づき、作業場で行われている作業がグラインダ作業であるか否かを判定する。詳しくは、本例では、グラインダ作業判定部は、学習済みモデルＭ５２によって実現される。

【0052】

学習済みモデルＭ５２は、抽出部４０によって抽出された画像データ＃Ｎ－１（１個の画像データ）を入力とし、かつ、作業場で行われている作業がグラインダ作業であることを示す確度を出力する。本例では、確度は、０以上１以下の値である。このように、学習済みモデルＭ５２は、学習済みモデルＭ５１と同様に、確度を正規化（本例では、最小値が０、最大値が１）して出力する。確度が高い程、作業場で行われている作業がグラインダ作業である可能性が高い。

【0053】

学習済みモデルＭ５２は、学習済みモデルＭ５１と同様、抽出された画像データ＃Ｎ－１毎に算出された確度を、抽出された画像データ＃Ｎ－１の識別子に関連付けて、最終判定部５４に出力する。たとえば動画像データＤａにフレーム画像データがＫ個含まれる場合、学習済みモデルＭ５２は、Ｋ－１個の確度を最終判定部５４に出力する。

【0054】

ガウジング作業判定部５３は、抽出部４０によって抽出された画像データ＃Ｎ－１に基づき、作業場で行われている作業がガウジング作業であるか否かを判定する。詳しくは、本例では、ガウジング作業判定部は、学習済みモデルＭ５３によって実現される。

【0055】

学習済みモデルＭ５３は、抽出部４０によって抽出された画像データ＃Ｎ－１（１個の画像データ）を入力とし、かつ、作業場で行われている作業がガウジング作業であることを示す確度を出力する。本例では、確度は、０以上１以下の値である。このように、学習済みモデルＭ５３は、学習済みモデルＭ５１，Ｍ５２と同様に、確度を正規化（本例では、最小値が０、最大値が１）して出力する。確度が高い程、作業場で行われている作業がガウジング作業である可能性が高い。

【0056】

学習済みモデルＭ５３は、学習済みモデルＭ５１，Ｍ５２と同様、抽出された画像データ＃Ｎ－１毎に算出された確度を、抽出された画像データ＃Ｎ－１の識別子に関連付けて、最終判定部５４に出力する。たとえば動画像データＤａにフレーム画像データがＫ個含まれる場合、学習済みモデルＭ５３は、Ｋ－１個の確度を最終判定部５４に出力する。

【0057】

最終判定部５４は、学習済みモデルＭ５１による判定の結果と、学習済みモデルＭ５２による判定の結果と、学習済みモデルＭ５３による判定の結果とに基づき、作業場で行われている作業が、溶接作業、グラインダ作業、ガウジング作業、および、分類が不可な作業のうちの何れであるかを判定する。他の作業としては、たとえば、作業者の移動が挙げられる。

【0058】

詳しくは、最終判定部５４は、抽出された各画像データ＃Ｎ－１（１個毎の画像データ）について、確度が閾値（たとえば、０．６）以上となった作業が存在するかを判断する。最終判定部５４は、確度が閾値以上となった作業が存在する場合には、当該作業を、作業場で行われている作業と判定する。

【0059】

たとえば、抽出された１個の画像データ＃１について、学習済みモデルＭ５１から出力された確度が０．７であり、学習済みモデルＭ５２から出力された確度が０．１であり、学習済みモデルＭ５３から出力された確度が０．０５である場合、最終判定部５４は、作業場で行われている作業が溶接作業であると判定する。また、抽出された１個の画像データ＃２について、学習済みモデルＭ５１から出力された確度が０．５であり、学習済みモデルＭ５２から出力された確度が０．２であり、学習済みモデルＭ５３から出力された確度が０．１である場合、確度が閾値（本例では、０．６）以上となるものがないため、最終判定部５４は、作業場で行われている作業については分類が不可であると判定する。このような判定は、抽出された各画像データ＃Ｎ－１について行われる。

【0060】

さらに、最終判定部５４は、所定の周期（たとえば、１秒毎）に、最終判定を行う。当該周期は、動画像データＤａのフレームレートに基づき適宜設定され得る。たとえば、動画像データＤａのフレームレートが６０ｆｐｓ（frames per second）とする。この場合、動画像データＤａは、１秒間に６０個のフレーム画像データを含む。

【0061】

したがって、最終判定部５４では、動画像データＤａの１秒間において、６０個の判定結果が得られる。最終判定部５４は、当該６０個の判定結果のうち、最も数が多い作業種別を、当該期間（１秒間）において作業場で行われている作業であると判定（以下、「最終判定」とも称する）する。

【0062】

たとえば、ある１秒の期間における６０個の判定結果のうち、溶接作業の判定が４０回、グラインダ作業の判定が４回、ガウジング作業の判定が０回、分類が不可の判定が１６回であったとすると、最終判定部５４は、当該期間の作業種別を溶接と判定（最終判定）する。

【0063】

最終判定部５４は、最終判定の結果を、記憶部６０に記憶させる。詳しくは、最終判定部５４は、最終判定の結果を、動画像データＤａに関連付けて記憶部６０に記憶させる。より詳しくは、最終判定部５４は、最終判定の結果を動画像データＤａに同期させる。最終判定部５４は、最終判定の元になった各フレーム画像データに、当該最終判定の結果を関連付ける。

【0064】

なお、関連付けの方法は、フレーム画像データの識別子であってもよいし、動画像データＤａの再生開始からの経過時刻を基準にしてもよい。

【0065】

（ｂ５．表示制御部７０）
表示制御部７０は、表示部８０の表示を制御する。表示制御部７０は、ユーザ操作に基づき、動画像データＤａとともに、最終判定の結果を表示する。上述した関連付けにより、最終判定の結果は、動画像データＤａの再生が進むに連れて逐次変化する。本例では、動画像データＤａの再生時、最終判定の結果は１秒毎に更新される。

【0066】

＜Ｃ学習済みモデル＞
学習済みモデルＭ２０，Ｍ５１，Ｍ５２，Ｍ５３について、説明する。

【0067】

学習済みモデルＭ２０は、予め準備された学習用データセットと、学習用プログラムとにより生成される。当該学習用データセットは、複数の学習用データを含む。各学習用データは、作業場で作業を行う作業者を撮像した画像データ（静止画像データ、フレーム画像データ）に、当該画像データにおける人物領域を示すラベル情報（正解データ）が付与されたものである。本例では、ラベル情報の人物領域は、矩形領域で指定されている。

【0068】

学習済みモデルＭ５１は、学習済みモデルＭ２０と同様、予め準備された学習用データセットと、学習用プログラムとにより生成される。当該学習用データセットは、複数の学習用データを含む。各学習用データは、作業場で溶接作業を行う作業者を撮像した画像データに、作業種別が溶接であることを示すラベル情報（正解データ）が付加されたものである。

【0069】

学習済みモデルＭ５２は、学習済みモデルＭ２０，Ｍ５１と同様、予め準備された学習用データセットと、学習用プログラムとにより生成される。当該学習用データセットは、複数の学習用データを含む。各学習用データは、作業場でグラインダ作業を行う作業者を撮像した画像データに、作業種別がグラインダであることを示すラベル情報が付加されたものである。

【0070】

学習済みモデルＭ５３は、学習済みモデルＭ２０，Ｍ５１，Ｍ５２と同様、予め準備された学習用データセットと、学習用プログラムとにより生成される。当該学習用データセットは、複数の学習用データを含む。各学習用データは、作業場でガウジング作業を行う作業者を撮像した画像データに、作業種別がガウジングであることを示すラベル情報が付加されたものである。

【0071】

学習済みモデルＭ２０，Ｍ５１，Ｍ５２，Ｍ５３は、ＤＮＮ（Deep Neural Network）に分類されるネットワークである。学習済みモデルＭ２０，Ｍ５１，Ｍ５２，Ｍ５３は、ＣＮＮ（Convolutional Neural Network）に分類される前処理ネットワークと、中間層と、出力層に相当する活性化関数と、Ｓｏｆｔｍａｘ関数とを含む。

【0072】

前処理ネットワークは、相対的に次数の大きな特徴量から、推定結果を算出するために有効な特徴量を抽出するための一種のフィルタとして機能することが予定されている。前処理ネットワークは、畳み込み層（CONV）およびプーリング層（Pooling）が交互に配置された構成を有している。なお、畳み込み層とプーリング層との数は同数でなくてもよく、また、畳み込み層の出力側にはＲｅＬＵ（正規化線形関数：rectified linear unit）などの活性化関数が配置される。

【0073】

より具体的には、前処理ネットワークは、特徴量の入力を受けて、所定の属性情報を示す内部特徴量を出力するように構築される。中間層は、所定数の層数を有する全結合ネットワークからなり、前処理ネットワークからの出力を、各ノードについて決定される重みおよびバイアスを用いてノード毎に順次結合する。

【0074】

中間層の出力側には、ＲｅＬＵなどの活性化関数が配置され、最終的には、Ｓｏｆｔｍａｘ関数により確率分布に正規化された上で、推定結果が出力される。

【0075】

学習用プログラムがパラメータの値を最適化するにあたっては、任意の最適化アルゴリズムを用いることができる。より具体的には、最適化アルゴリズムとしては、たとえば、ＳＧＤ（Stochastic Gradient Descent：確率的勾配降下法）、ＭｏｍｅｎｔｕｍＳＧＤ（慣性項付加ＳＧＤ）、ＡｄａＧｒａｄ、ＲＭＳｐｒｏｐ、ＡｄａＤｅｌｔａ、Ａｄａｍ（Adaptive moment estimation）などの勾配法を用いることができる。

【0076】

＜Ｄ．処理の流れ＞
情報処理装置２における上述した処理の流れについて、フロー図等を用いてさらに説明する。

【0077】

図４は、判定処理の流れを示すフロー図である。

【0078】

図４に示されるように、ステップＳ１において、情報処理装置２は、動画像データＤａを構成する各フレーム画像データ＃Ｎにおいて、人物領域を検出する。ステップＳ２において、情報処理装置２は、人物領域の検出結果を用いてフレーム画像データ＃Ｎ毎に作業種別を判定し、さらに、各フレーム画像データ＃Ｎによる判定結果に基づき、１秒間毎の最終判定を実行する。

【0079】

ステップＳ１およびステップＳ２の処理は、プロセッサ２０１によって実行される。ステップＳ１の処理は、人物領域検出部２０（図３）によって実行される。具体的には、ステップＳ１の処理は、学習済みモデルＭ２０によって実現される。ステップＳ２の処理は、作業種別判定部５０（図３）によって実行される。具体的には、ステップＳ２の処理は、学習済みモデルＭ５１，Ｍ５２，Ｍ５３によって実現される。

【0080】

図５は、図４のステップＳ１の処理の詳細を示したフロー図である。

【0081】

図５に示されているように、ステップＳ１０１において、プロセッサ２０１は、入力装置２０４を介して、判定する人数の設定入力を受け付ける。典型的には、プロセッサ２０１は、１人（１人作業）または２人（２人作業）を示す入力を受け付ける。人数の設定入力を受け付ける理由は、人物領域の検出精度を高めるためである。

【0082】

ステップＳ１０２において、プロセッサ２０１は、メモリ２０２から動画像データＤａを読み込む。ステップＳ１０３において、プロセッサ２０１は、メモリ２０２から人物領域検出用の学習済みモデルＭ２０を読み込む。ステップＳ１０４において、プロセッサ２０１は、各フレーム画像データ＃Ｎに対して、学習済みモデルＭ２０を用いた人物領域検出処理を実行する。

【0083】

ステップＳ１０５において、プロセッサ２０１は、ステップＳ１０１で設定された設定人数に合わせて判定を調整する。具体的には、プロセッサ２０１は、同じフレーム画像データ内で、設定人数分だけ、人物領域の判定の確度が高い順に人物領域を選定する。たとえば、設定人数が１人の場合、プロセッサ２０１は、複数の人物領域（候補領域）から、確度が最も高い人物領域を選定する。設定人数が２人の場合、プロセッサ２０１は、複数の人物領域（候補領域）から、確度が最も高い人物領域と、確度が次に高い人物領域とを選定する。ステップＳ１０６において、プロセッサ２０１は、前後補完等の後処理を実行する。

【0084】

ステップＳ１０７において、プロセッサ２０１は、フレーム画像データ＃Ｎ毎に，人物領域検出結果（座標）を所定の形式でメモリ２０２に保存する。プロセッサ２０１は、典型的には、人物領域検出結果を、互換性が高いフィアル形式の一つ（たとえば、ｃｓｖ（Comma Separated Value）形式）でデータ保存する。詳しくは、プロセッサ２０１は、人物領域検出（座標）を、タイムスタンプ、フレーム画像データのフレームナンバー、オブジェクトナンバー、人物領域検出についての判定の確度等の情報と関連付けて判定する。

【0085】

ステップＳ１０８において、プロセッサ２０１は、人物領域検出結果の動画像データＤｃを作成し、かつメモリ２０２に保存する。なお、動画像データＤｃは、動画像データＤａに対して、人物領域を示す図形（矩形）を重畳したものである。

【0086】

図６は、図４のステップＳ２の処理の詳細を示したフロー図である。

【0087】

図６に示されているように、ステップＳ２０１において、プロセッサ２０１は、メモリ２０２から動画像データＤａを読み込む。ステップＳ２０２において、プロセッサ２０１は、フレーム差分法を用いて、フレーム差分動画像データＤｂを作成する。この処理は、生成部３０（図３）によって実行される処理である。なお、ステップＳ２０２の処理の詳細については、後述する（図７）。

【0088】

ステップＳ２０３において、プロセッサ２０１は、メモリ２０２から人物領域検出結果を読み込む。なお、人物領域検出結果は、人物領域の座標と、上述したフレーム画像データの識別子（タイムスタンプまたはフレームナンバー）等の情報を含む。

【0089】

ステップＳ２０４において、プロセッサ２０１は、人物領域検出結果に基づき、フレーム差分動画像データＤｂを構成する各フレーム画像データＰから人物領域に対応する領域を抽出する。換言すれば、プロセッサ２０１は、画像の切り出しを行う。詳しくは、プロセッサ２０１は、各フレーム画像データＰに関連付いた人物領域検出結果を用いて、各フレーム画像データＰから、人物領域に対応する領域を抽出する。詳しくは、プロセッサ２０１は、フレーム画像データＰ毎に、異なる人物領域検出結果を用いて、画像の切り出しを行う。

【0090】

ステップＳ２０５において、プロセッサ２０１は、メモリ２０２から、作業種別判定用の学習済みモデルＭ５１，Ｍ５２，Ｍ５３を読み込む。ステップＳ２０６において、プロセッサ２０１は、学習済みモデルＭ５１，Ｍ５２，Ｍ５３を実行することにより、ステップＳ２０４で抽出された各画像データＱ（切り出した部分の画像データ）から作業種別の判定処理を実行する。なお、ステップＳ２０６の処理の詳細については、後述する（図９）。

【0091】

ステップＳ２０７において、プロセッサ２０１は、ステップＳ２０６における作業種別判定結果を、１秒毎の最終判定結果として出力する。具体的には、上述したように、プロセッサ２０１は、１秒間において最も数が多い作業種別を、当該１秒間において作業場で行われている作業であると判定（最終判定）する。１秒毎の最終判定結果は、逐次、メモリ２０２の作業領域（典型的には、ＲＡＭ２２２）に一時的に記憶される。

【0092】

ステップＳ２０８において、プロセッサ２０１は、１秒間における作業が分類不可と判定された場合、当該作業が作業者の移動であるか否かを判定する移動判定処理を実行する。なお、移動判定処理の詳細については、後述する。

【0093】

ステップＳ２０９において、プロセッサ２０１は、前後補完等の後処理を実行する。ステップＳ２１０において、プロセッサ２０１は、１秒毎の最終判定結果を所定の形式でメモリ２０２に不揮発的に保存する。典型的には、プロセッサ２０１は、最終判定結果を、ＳＳＤ２２３またはＨＤＤ２２４にｃｓｖ形式でデータ保存する。詳しくは、プロセッサ２０１は、最終判定結果を、タイムスタンプ、フレームナンバー等の情報と関連付けて判定する。

【0094】

ステップＳ２１１において、プロセッサ２０１は、最終判定結果を含んだ動画像データＤｄを作成し、かつメモリ２０２に保存する。なお、動画像データＤｄは、動画像データＤａに対して、最終判定結果を文字等の識別情報で示した画像を重畳したものである。

【0095】

ユーザ９５０が、情報処理装置２において動画像データＤｄを再生することにより、ディスプレイ２０３には、作業場での作業の映像に重畳した形式で作業種別が表示される。また、作業種別の表示は、１秒毎に更新される。

【0096】

次に、ステップＳ２０８の移動判定処理について説明する。移動判定処理では、先ず、プロセッサ２０１は、検出された各人物領域の幅と高さとについて平均値を算出する。すなわち、プロセッサ２０１は、各人物領域のフレーム画像データ＃Ｎ内での重心位置を算出する。

【0097】

次に、プロセッサ２０１は、１秒間毎の重心位置の平均値を算出する。その後、プロセッサ２０１は、重心位置の各平均値を、同じ時刻（タイミング）の最終判定結果に関連付ける。さらにプロセッサ２０１は、重心位置の各平均値に基づき、１秒毎の人物領域の移動量を算出する。

【0098】

プロセッサ２０１は、他の作業（分類不可）とされた最終判定結果を、メモリ２０２の作業領域から抽出する。その後、プロセッサ２０１は、抽出された最終判定結果に関連付けられた移動量が所定の範囲内（下限の閾値と上限の閾値との間）に収まっているか否かを判定する。プロセッサ２０１は、移動量が所定の範囲内に収まっている場合、他の作業（分類不可）の情報を「移動」に置換する。

【0099】

図７は、図６のステップＳ２０２の処理の詳細を説明するためのフロー図である。図８は、画像データを用いて図７の処理を説明するための図である。

【0100】

図７に示されるように、ステップＳ２２０１において、プロセッサ２０１は、上述した変数Ｎ（＃Ｎ）の値を２とする。ステップＳ２２０２において、プロセッサ２０１は、読み込んだ動画像データＤａから、連続する２つのフレーム画像データ＃Ｎ－１，＃Ｎを取得する。図８に、フレーム画像データ＃Ｎ－１とフレーム画像データ＃Ｎとの例を示す。

【0101】

ステップＳ２２０３において、プロセッサ２０１は、フレーム画像データ＃Ｎ－１とフレーム画像データ＃Ｎとの差分を表す差分画像データＲ（図８参照）を生成する。ステップＳ２２０４において、プロセッサ２０１は、差分画像データＲを二値化し、二値化画像データＴ（図８参照）を生成する。

【0102】

ステップＳ２２０５において、プロセッサ２０１は、二値化画像データＴに対してクロージング処理を行うことにより、クロージング画像データＵ（図８参照）を生成する。クロージング画像データＵは、マスク画像として用いられる。ステップＳ２２０６において、プロセッサ２０１は、フレーム画像データ＃Ｎに対してクロージング画像データＵでマスキング処理を行う。これにより、マスク処理後の画像データＶ（図８参照）が生成される。

【0103】

ステップＳ２２０７において、プロセッサ２０１は、マスク処理後の画像データＶを、新規画像データ＃Ｎ－１としてメモリ２０２に保存する。ステップＳ２２０８において、プロセッサ２０１は、動画像データＤａが終了したか否かを判断する。具体的には、プロセッサ２０１は、動画像データＤａの全ての連続する２つのフレーム画像データに対して上述した処理を実行したか否かを判断する。

【0104】

動画像データＤａが終了していないと判断された場合（ステップＳ２２０８においてＮＯ）、プロセッサ２０１は、ステップＳ２２１０において、Ｎの値を１つだけ増加（インクリメント）させる。動画像データＤａが終了したと判断された場合（ステップＳ２２０８においてＹＥＳ）、プロセッサ２０１は、ステップＳ２２０９において、新規画像データ＃Ｎの全てを時系列の順につなげることにより上述したフレーム差分動画像データＤｂを生成し、かつ、メモリ２０２に保存する。

【0105】

プロセッサ２０１は、ステップＳ２２０９の後、処理を図６のステップＳ２０３に進める。

【0106】

図９は、図６のステップＳ２０６の処理の詳細を説明するためのフロー図である。

【0107】

図９に示されるように、ステップＳ２６０１において、プロセッサ２０１は、メモリ２０２から抽出された各画像データＱ（切り出した部分の画像データ）を読み込む。

【0108】

ステップＳ２６０２において、プロセッサ２０１は、１つの画像データＱに対して、各学習済みモデルＭ５１，Ｍ５２，Ｍ５３を用いて判定を行う。具体的には、プロセッサ２０１は、各学習済みモデルＭ５１，Ｍ５２，Ｍ５３を実行することにより、上述したように各作業（溶接作業、グラインダ作業、ガウジング作業）の確度を算出する。ステップＳ２６０３において、プロセッサ２０１は、算出された３つの作業の確度のうち最大の確度が閾値（たとえば、０．６）を超えているか否かを判断する。

【0109】

最大の確度が閾値を超えていると判断された場合（ステップＳ２６０３においてＹＥＳ）、プロセッサ２０１は、ステップＳ２６０４において、最大の確度の判定を採用する。具体例を挙げると、学習済みモデルＭ５１から出力された確度が０．７であり、学習済みモデルＭ５２から出力された確度が０．１であり、学習済みモデルＭ５３から出力された確度が０．０５である場合、プロセッサ２０１は、学習済みモデルＭ５１による判定を採用する。プロセッサ２０１は、作業種別が溶接であると判定する。

【0110】

最大の確度が閾値を超えていないと判断された場合（ステップＳ２６０３においてＮＯ）、プロセッサ２０１は、ステップＳ２６０７において、分類不可と判定する。ステップＳ２６０５において、プロセッサ２０１は、判定の結果をメモリ２０２に保存する。

【0111】

ステップＳ２６０６において、プロセッサ２０１は、最後の画像データＱであるか否かを判断する。最後の画像データＱであると判定された場合（ステップＳ２６０６においてＹＥＳ）、プロセッサ２０１は、ステップＳ２０６の一連の処理を終了し、処理を図６のステップＳ２０７に進める。最後の画像データＱでないと判定された場合（ステップＳ２６０６においてＮＯ）、プロセッサ２０１は、ステップＳ２６０８において、処理対象を次の画像データＱに切り替える。その後、プロセッサ２０１は、処理をステップＳ２６０２に進める。

【0112】

＜Ｅ．最終判定結果例＞
図１０は、互換性が高いファイル形式（本例では、ｃｓｖ形式）としてメモリ２０２に保存された最終判定結果を含むデータ示した図である。

【0113】

図１０に示されるように、データの「Predict」の欄には、１秒ごとに最終判定結果が記録されている。“Indistinguishable”は「分類不可」を、“Moving”は「移動」を、“Welding”は「溶接」を表している。

【0114】

なお、“Ｇ＿Ｘ”と“Ｇ＿Ｙ”とは、それぞれ、人物領域の重心のＸ座標とＹ座標とを表している。詳しくは、“Ｇ＿Ｘ”と“Ｇ＿Ｙ”とは、１秒間における重心位置の平均値である。“Ｗｉｄｔｈ”と“Ｈｅｉｇｈｔ”とは、それぞれ、人物領域の幅と高さとを表している。

【0115】

このように、情報処理装置２によれば、１秒毎に作業種別が特定される。それゆえ、作業種別毎に時間を累積すれば、各作業種別の作業に要した時間を算出できる。情報処理装置２は、たとえばユーザ操作に応じて、このような時間を算出し、かつ算出された結果（作業種別毎の作業時間）をディスプレイ２０３に表示させる。

【0116】

＜Ｆ．小括＞
情報処理装置２で実行される処理の一部を小括すると、以下のとおりである。

【0117】

（１）情報処理装置２は、カメラ１（可視光カメラ）による撮像によって得られた連続する複数のフレーム画像データ（動画像データ、映像データ）を取得する動画像データ取得部１０を備える。カメラ１は、設置位置および姿勢が固定され、かつ、光の明滅を伴う作業が作業者によって行われている作業場を被写体として撮像する。

【0118】

情報処理装置２は、上記複数のフレーム画像データのうちのフレーム画像データ＃Ｎにおいて、作業者の領域（人物領域）を検出する人物領域検出部２０と、フレーム画像データ＃Ｎと、上記複数のフレーム画像データのうちフレーム画像データ＃Ｎよりも１個前のフレーム画像データ＃Ｎ－１とに基づいて、被写体の状態変化を示す画像データを生成する生成部３０と、生成された画像データから、検出された作業者の領域に対応する領域の画像データを抽出する抽出部４０と、抽出された画像データに基づき、作業場で行われている作業の種別を判定する作業種別判定部５０とをさらに備える。

【0119】

このような構成の情報処理装置２によれば、可視光カメラによる撮像によって得られた複数のフレーム画像データにおいて、作業者の領域における状態変化を示す画像データを抽出できる。さらに、情報処理装置２によれば、作業者の領域における状態変化を示す画像データに基づいて、作用場で行われている作業の種別を判定する。

【0120】

それゆえ、情報処理装置２によれば、可視光カメラによる撮像によって得られた動画像データに基づき、作業場において行われている作業の種別を判定可能となる。詳しくは、フレーム画像データ毎に、光の明滅を伴う作業の種別を精度良く判定することができる。

【0121】

（２）情報処理装置２は、判定された作業の種別を示す情報を記憶する記憶部６０をさらに備える。このような構成によれば、情報処理装置２では、判定の結果が記憶されるため、当該結果を用いた各種の後処理（たとえば、上述した最終判定処理、表示処理）を行うことができる。

【0122】

（３）生成部３０は、フレーム画像データ＃Ｎとフレーム画像データ＃Ｎ－１とを用いたフレーム差分法により、被写体の状態変化を示す画像データを生成する。このような構成によれば、移動物体の検出方法の1つであるフレーム差分法を用いることにより、被写体の状態変化を示す画像データを生成できる。

【0123】

（４）作業種別判定部５０は、作業場で行われている作業が溶接作業であるか否かを判定する。このような構成によれば、光の明滅を伴う作業が溶接作業であるか否かを判定できる。

【0124】

（５）作業種別判定部５０は、作業場で行われている作業が、予め指定された複数の作業のうちのいずれであるかを判定する。このような構成によれば、光の明滅を伴う作業が複数の作業のうちの何れであるか否かを判定できる。

【0125】

（６）上記複数の作業は、溶接作業と、グラインダ作業と、ガウジング作業とを含む。このような構成によれば、光の明滅を伴う作業が、溶接作業、グラインダ作業、およびガウジング作業の何れであるかを判定できる。

【0126】

（７）作業種別判定部５０は、抽出された画像データを入力として受け付け、作業場で行われている作業が溶接作業であるか否かを判定する学習済みモデルＭ５１と、抽出された画像データを入力として受け付け、作業場で行われている作業がグラインダ作業であるか否かを判定する学習済みモデルＭ５２と、抽出された画像データを入力として受け付け、作業場で行われている作業がガウジング作業であるか否かを判定する学習済みモデルＭ５３とを含む。

【0127】

作業種別判定部５０は、学習済みモデルＭ５１による判定の結果と、学習済みモデルＭ５２による判定の結果と、学習済みモデルＭ５３による判定の結果とに基づき、作業場で行われている作業が、溶接作業とグラインダ作業とガウジング作業とのうちの何れであるかを判定する。

【0128】

このような構成によれば、情報処理装置２は、学習済みモデルＭ５１，Ｍ５２，Ｍ５３を用いて、作業種別の判定をおこなう。それゆえ、情報処理装置２によれば、学習済みモデルを用いないルールベースの判定処理に比べて、精度の高い判定が可能となる。

【0129】

（８）人物領域検出部２０は、フレーム画像データ＃Ｎを入力とし、かつ、作業者の領域を示す情報を出力する、学習済みモデルＭ２０である。このような構成によれば、情報処理装置２は、学習済みモデルＭ２０を用いて、作業者の領域（人物領域）の検出をおこなう。それゆえ、情報処理装置２によれば、学習済みモデルを用いないルールベースの検出処理に比べて、精度の高い検出が可能となる。

【0130】

（９）情報処理装置２は、複数のフレーム画像データの各々について、人物領域検出部２０による検出と、生成部３０による生成と、抽出部４０による抽出と、作業種別判定部５０による判定とを行う。情報処理装置２は、作業種別判定部５０により判定された作業種別毎の判定数に基づき、作業種別毎の作業時間を算出する。

【0131】

このような構成によれば、情報処理装置２は、カメラ１による撮像によって得られた複数のフレーム画像データに基づいて、各作業の作業時間の合計を作業毎に算出する。それゆえ、情報処理装置２のユーザ９５０は、どの作業にどの位の時間を要しているかを把握することができる。

【0132】

＜Ｇ．変形例＞
（１）図１１は、図７に示したステップＳ２０２の一連の処理の変形例を示したフロー図である。以下では、３つの連続するフレーム画像データを用いたフレーム差分法を利用する構成について説明する。

【0133】

図１１を参照して、図１１に示す一連の処理は、図７に示す一連の処理に比べて、以下の点が異なっている。図１１に示す一連の処理は、ステップＳ２２０２，Ｓ２２０３，Ｓ２２０４，Ｓ２２０５（図７参照）の代わりに、ステップＳ２２０２Ａ，Ｓ２２０３Ａ，Ｓ２２０４Ａ，Ｓ２２０５Ａを備える。さらに、図１１に示す一連の処理は、ステップＳ２２１１を備える点で、このステップを備えない図７とは異なる。

【0134】

なお、図１１の他のステップの処理は、図７で説明した処理と同じである。そこで、以下では、これらのステップＳ２２０２Ａ，Ｓ２２０３Ａ，Ｓ２２０４Ａ，Ｓ２２０５Ａ，Ｓ２２１１について説明する。

【0135】

ステップＳ２２０１の後のステップＳ２２０２Ａにおいて、プロセッサ２０１は、読み込んだ動画像データＤａから、連続する３つのフレーム画像データ＃Ｎ－１，＃Ｎ，＃Ｎ＋１を取得する。ステップＳ２２０３Ａにおいて、プロセッサ２０１は、フレーム画像データ＃Ｎ－１とフレーム画像データ＃Ｎとの差分を表す差分画像データＲと、フレーム画像データ＃Ｎとフレーム画像データ＃Ｎ＋１との差分を表す差分画像データＲとを生成する。

【0136】

ステップＳ２２０４Ａにおいて、プロセッサ２０１は、各差分画像データＲを二値化し、２つの二値化画像データＴを生成する。ステップＳ２２１１において、プロセッサ２０１は、２つの二値化画像データＴの共有部分を抽出し、画像データＷを生成する。具体的には、プロセッサ２０１は、２つの二値化画像データＴにおいてともに白色（すなわち、値が１の部分）となっている部分は白色（値を１）とし、それ以外は、黒色（値を０）とする。

【0137】

ステップＳ２２０５Ａにおいて、プロセッサ２０１は、抽出された画像データＷに対してクロージング処理を行うことにより、クロージング画像データＵを生成する。その後、プロセッサ２０１は、処理をステップＳ２２０６に進める。

【0138】

詳しくは、本変形例においては、生成部３０が、フレーム画像データ＃Ｎとフレーム画像データ＃Ｎ－１とフレーム画像データ＃Ｎ＋１とを用いたフレーム差分法により、被写体の状態変化を示す画像データを生成する。

【0139】

このような処理によれば、図７の構成よりも精度の高い判定処理が可能となる。

【0140】

（２）上記においては、生成部３０が、連続するフレーム画像データ＃Ｎ，＃Ｎ－１を用いて、被写体の状態変化を示す画像データを生成する構成を例に挙げて説明したが、必ずしも、これに限定されるものではない。生成部３０は、フレーム画像データ＃Ｎと、フレーム画像データ＃Ｎよりも所定個前（１個以上前）のフレーム画像データとに基づいて、被写体の状態変化を示す画像データを生成する構成であればよい。たとえば、生成部３０は、フレーム画像データ＃Ｎと、フレーム画像データ＃Ｎよりも２個前のフレーム画像データ＃Ｎ－２とに基づいて、被写体の状態変化を示す画像データを生成してもよい。

【0141】

（３）被写体の状態変化を示す画像データを生成できれば、フレーム差分法以外の移動体検出の手法も適用可能である。

【0142】

（４）作業者の領域（人物領域）の検出には、必ずしも、学習済みモデルを用いる必要はない。ルールベースの手法により、作業者の領域を検出してもよい。

【0143】

今回開示された実施の形態は例示であって、上記内容のみに制限されるものではない。本発明の範囲は特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

【符号の説明】

【0144】

１カメラ、２情報処理装置、１０動画像データ取得部、２０人物領域検出部、３０生成部、４０抽出部、５０作業種別判定部、５１溶接作業判定部、５２グラインダ作業判定部、５３ガウジング作業判定部、５４最終判定部、６０記憶部、７０表示制御部、８０表示部、２０１プロセッサ、２０２メモリ、２０３ディスプレイ、２０４入力装置、２０５通信インターフェイス、２０６カードリーダ、２０７ポート、９００作業者、９５０ユーザ、１０００判定システム、Ｍ２０，Ｍ５１，Ｍ５２，Ｍ５３学習済みモデル。

【図1】