特開2024-98321 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オムロン株式会社の特許一覧

特開2024-98321動作学習装置、動作学習システム、動作学習方法及び動作学習プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024098321

(43)【公開日】2024-07-23

(54)【発明の名称】動作学習装置、動作学習システム、動作学習方法及び動作学習プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240716BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023001757

(22)【出願日】2023-01-10

(71)【出願人】

【識別番号】000002945

【氏名又は名称】オムロン株式会社

(74)【代理人】

【識別番号】110002860

【氏名又は名称】弁理士法人秀和特許事務所

(72)【発明者】

【氏名】木焦火炎

(72)【発明者】

【氏名】藤本慎也

(57)【要約】

【課題】より容易に動作認識学習の精度を高める。
【解決手段】本動作学習装置は、作業エリア内で移動する作業者を撮影する第１カメラで撮影された第１動画像データを基に上記作業者の位置を認識する位置認識部と、上記作業者の上記位置を基に、上記作業エリア内の所定の作業場所において複数回行われた作業の夫々についての作業時間の統計値を算出する作業時間算出部と、上記作業エリア内の所定の作業場所における上記作業者の作業を撮影する第２カメラで撮影されて記憶部に蓄積された第２動画像データから、上記第２動画像データにおける上記作業の開始から終了までの時間と上記統計値との差が所定範囲内の学習データを抽出する抽出部と、上記学習データを用いて動作認識学習を実施する学習部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

作業エリア内で移動する作業者を撮影する第１カメラで撮影された第１動画像データを基に前記作業者の位置を認識する位置認識部と、
前記作業者の前記位置を基に、複数回行われた作業の夫々についての作業時間の統計値を算出する作業時間算出部と、
前記作業エリア内の所定の作業場所における前記作業者の作業を撮影する第２カメラで撮影されて記憶部に蓄積された第２動画像データから、前記第２動画像データにおける前記作業の開始から終了までの時間と前記統計値との差が所定範囲内である学習データを抽出する抽出部と、
前記学習データを用いて動作認識学習を実施する学習部と、を備える、
動作学習装置。

【請求項2】

前記統計値は、前記作業時間の最頻値を含み、
前記抽出部は、前記記憶部から、前記第２動画像データにおける前記作業の開始から終了までの時間と前記最頻値との差が前記所定範囲内の前記学習データを抽出する、
請求項１に記載の動作学習装置。

【請求項3】

前記作業エリア内では複数の前記作業者が前記作業を行っており、
前記作業時間算出部は、前記複数の前記作業者夫々について前記統計値を算出し、
前記抽出部は、前記複数の前記作業者夫々について前記統計値の標準偏差を算出し、前記標準偏差から所定範囲外の前記統計値が算出された前記作業者についての前記第２動画像データを前記学習データから除外する、
請求項１または２に記載の動作学習装置。

【請求項4】

作業エリア内で移動する作業者を撮影する第１カメラと、
前記作業エリア内の所定の作業場所における前記作業者の作業を撮影する第２カメラと、
前記第１カメラで撮影された第１動画像データを基に前記作業者の位置を認識する位置認識部と、
前記作業者の前記位置を基に、前記作業エリア内の所定の作業場所において複数回行われた作業の夫々についての作業時間の統計値を算出する作業時間算出部と、
前記第２カメラで撮影された第２動画像データを蓄積した記憶部から、前記第２動画像データにおける前記作業の開始から終了までの時間と前記統計値との差が所定範囲内の学習データを抽出する抽出部と、
前記学習データを用いて動作認識学習を実施する学習部と、を備える、
動作学習システム。

【請求項5】

コンピュータが、
作業エリア内で移動する作業者を撮影する第１カメラで撮影された第１動画像データを基に前記作業者の位置を認識する位置認識ステップと、
前記作業者の前記位置を基に、前記作業エリア内の所定の作業場所において複数回行われた作業の夫々についての作業時間の統計値を算出する作業時間算出ステップと、
前記所定の作業場所における前記作業者の前記作業を撮影する第２カメラで撮影されて記憶部に蓄積された第２動画像データから、前記第２動画像データにおける前記作業の開始から終了までの時間と前記統計値との差が所定範囲内の学習データを抽出する抽出ステップと、
前記学習データを用いて動作認識学習を実施する学習ステップと、を実行する、
動作学習方法。

【請求項6】

コンピュータに、
作業エリア内で移動する作業者を撮影する第１カメラで撮影された第１動画像データを基に前記作業者の位置を認識する位置認識ステップと、
前記作業者の前記位置を基に、前記作業エリア内の所定の作業場所において複数回行われた作業の夫々についての作業時間の統計値を算出する作業時間算出ステップと、
前記所定の作業場所における前記作業者の前記作業を撮影する第２カメラで撮影されて記憶部に蓄積された第２動画像データから、前記第２動画像データにおける前記作業の開始から終了までの時間と前記統計値との差が所定範囲内の学習データを抽出する抽出ステップと、
前記学習データを用いて動作認識学習を実施する学習ステップと、を実行させる、
動作学習プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、動作学習装置、動作学習システム、動作学習方法及び動作学習プログラムに関する。

【背景技術】

【0002】

人を撮影した動画像データを学習データとして動作認識を行う学習モデルを構築することが行われている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Zhi Hou、他３名、“Visual Compositional Learning for Human-Object Interaction Detection”、[online]、[令和４年１１月１４日検索]、インターネット<URL: https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123600579.pdf>

【発明の概要】

【発明が解決しようとする課題】

【0004】

工場等における作業者の作業を動作認識学習させた学習モデルを構築することが行われている。しかしながら、動作認識学習に用いる学習データの中に所定の作業以外の動作を含む動画像データが含まれていると、動作認識学習によって生成される学習モデルの精度が低下する。そのため、そのような所定の作業以外の動作を含む動画像データは、人手で学習データから除外されていた。しかしながら、このような動画像データを人手で除外するのは、極めて作業負担の大きいものあった。

【0005】

開示の技術の１つの側面は、より容易に動作認識学習の精度を高めることができる動作学習装置、動作学習システム、動作学習方法及び動作学習プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

開示の技術の１つの側面は、次のような動作学習装置によって例示される。本動作学習装置は、作業エリア内で移動する作業者を撮影する第１カメラで撮影された第１動画像データを基に上記作業者の位置を認識する位置認識部と、上記作業者の上記位置を基に、複数回行われた作業の夫々についての作業時間の統計値を算出する作業時間算出部と、上記作業エリア内の所定の作業場所における上記作業者の作業を撮影する第２カメラで撮影されて記憶部に蓄積された第２動画像データから、上記第２動画像データにおける上記作業の開始から終了までの時間と上記統計値との差が所定範囲内の学習データを抽出する抽出部と、上記学習データを用いて動作認識学習を実施する学習部と、を備える。

【0007】

上記所定の作業場所において同一の作業が行われる場合、作業時間は略一定になると考えられる。しかしながら、作業は作業者という人によって行われることから、所定の作業以外の動作によって作業時間が長くなる場合も考えられる。上記動作学習装置では、上記第１カメラで撮影された第１動画像データを基に複数回行われた上記作業についての作業時間の統計値が算出される。そして、上記作業者の作業を撮影する第２カメラによって撮影された第２動画像データのうち、上記第２動画像データにおける上記作業の開始から終了までの時間と上記統計値との差が所定範囲内の学習データが動作認識学習に用いられる。統計値が用いられることで所定の作業以外の動作による作業時間の変動の影響が抑制されるため、所定の作業以外の動作を可能な限り含まない第２動画像データが動作認識学習
の学習データとして用いられることになる。ひいては、本動作学習装置によれば、より容易に動作認識学習の精度を高めることができる。

【0008】

ここで、上記統計値として、最頻値が採用されてもよい。上記作業において所定の作業以外の動作が行われるのは、操作を誤った場合のようなイレギュラーな事象が発生した場合と考えられる。そのため、偶発的な動作を含まない標準的な作業時間として最頻値を採用できると考えられる。

【0009】

上記動作学習装置は、次の特徴を備えてもよい。上記作業エリア内では複数の上記作業者が上記作業を行っており、上記作業時間算出部は、上記複数の上記作業者夫々について上記統計値を算出し、上記抽出部は、上記複数の上記作業者夫々について上記統計値の標準偏差を算出し、上記標準偏差から所定範囲外の上記統計値が算出された上記作業者についての上記第２動画像データを上記学習データから除外する。

【0010】

動作認識学習においては、多数の上記作業者についての上記第２動画像データを用いて学習を行った方が、学習の精度は高くなると考えられる。一方で、極端に作業時間が他の作業者と異なる作業者についての第２動画像データをも動作認識学習に採用してしまうと、かえって動作認識学習の精度が低下する虞もある。そこで、上記動作学習装置では、上記標準偏差から所定範囲外の上記統計値が算出された上記作業者についての上記第２動画像データを上記学習データから除外することで、動作認識学習の精度低下が抑制される。

【0011】

上記動作学習装置は、動作学習システム、動作学習方法及び動作学習プログラムの側面から把握することも可能である。

【発明の効果】

【0012】

開示の技術によれば、より容易に動作認識学習の精度を高めることができる。

【図面の簡単な説明】

【0013】

【図1】図１は、実施形態に係る動作学習システムの一例を示す図である。

【図2】図２は、実施形態に動作学習装置のハードウェア構成の一例を示す図である。

【図3】図３は、実施形態に係る動作学習装置の処理ブロックの一例を示す図である。

【図4】図４は、ある作業台における作業時間の出現頻度の一例を示す図である。

【図5】図５は、作業撮影カメラによって撮影された第２動画像データの一例を示す図である。

【図6】図６は、実施形態に係る動作学習装置の処理フローの一例を示す図である。

【図7】図７は、ある作業台における３名の作業者の作業時間の出現頻度の一例を示す図である。

【図8】図８は、第１変形例に係る動作学習装置の処理ブロックの一例を示す図である。

【発明を実施するための形態】

【0014】

＜適用例＞
本発明の適用例について説明する。適用例に係る動作学習システム４００は、例えば、工場５００で作業する作業者Ｈ１の作業を動作学習装置１００に学習させるシステムである。動作学習システム４００は、俯瞰カメラ１、作業撮影カメラ２Ａ、２Ｂ、２Ｃ、２Ｄ、２Ｅ、動作学習装置１００及びネットワークＮ１を備える。俯瞰カメラ１、作業撮影カメラ２Ａ、２Ｂ、２Ｃ、２Ｄ、２Ｅ及び動作学習装置１００は、ネットワークＮ１によって相互に接続される。ネットワークＮ１は、情報処理装置を相互に接続するコンピュータ
ネットワークである。

【0015】

俯瞰カメラ１は、工場５００内を俯瞰できる位置に配置されるカメラである。すなわち、俯瞰カメラ１は、工場５００内に配置された作業台３Ａ、３Ｂ、３Ｃ、３Ｄ、３Ｅ及び、工場５００内で作業する作業者Ｈ１を撮影範囲に含む位置に配置される。俯瞰カメラ１によって撮影された動画像データは、ネットワークＮ１を介して動作学習装置１００に出力される。

【0016】

作業撮影カメラ２Ａ、２Ｂ、２Ｃ、２Ｄ、２Ｅは、作業台３Ａ、３Ｂ、３Ｃ、３Ｄ、３Ｅの夫々における作業者Ｈ１の作業を撮影する。作業撮影カメラ２Ａは、作業台３Ａに撮影方向を向けて配置される。同様に、作業撮影カメラ２Ｂ、２Ｃ、２Ｄ、２Ｅは、作業台３Ｂ、３Ｃ、３Ｄ、３Ｅの夫々に撮影方向を向けて配置される。作業撮影カメラ２Ａ、２Ｂ、２Ｃ、２Ｄ、２Ｅの夫々を区別しないときは、作業撮影カメラ２とも称する。また、作業台３Ａ、３Ｂ、３Ｃ、３Ｄ、３Ｅの夫々を区別しないときは、作業台３とも称する。作業撮影カメラ２によって撮影された動画像データは、ネットワークＮ１を介して動作学習装置１００に出力される。

【0017】

作業台３は、作業者Ｈ１による作業が行われるテーブルである。作業台３Ａ、３Ｂ、３Ｃ、３Ｄの夫々では、工場５００における一連の作業工程における各工程の作業が行われる。例えば、作業台３Ａでは部品のケースへの嵌合が行われ、作業台３Ｂでは嵌合された部品のケースへのネジ締めが行われる。続いて、作業台３Ｃでは製品の外観検査が行われ、作業台３Ｄではケースへのラベル貼付が行われる。そして、作業台３Ｅでは、製品の梱包が行われる。作業者Ｈ１は、例えば、作業台３を移動しながら夫々の作業工程における作業を遂行する。すなわち、作業者Ｈ１がどの作業台３で作業しているかによって、作業者Ｈ１が行う作業を特定することができる。作業台３における作業者Ｈ１の作業の様子は、作業撮影カメラ２によって撮影される。

【0018】

動作学習装置１００は、情報処理装置である。動作学習装置１００は、俯瞰カメラ１によって撮影された第１動画像データ及び作業撮影カメラ２によって撮影された第２動画像データを記憶部（例えば、後述の補助記憶部１０３）に蓄積する。動作学習装置１００は、俯瞰カメラ１によって撮影された第１動画像データについて、作業者Ｈ１の位置を認識する。動作学習装置１００は、例えば、作業台３Ａへと作業者Ｈ１が移動したことで作業台３Ａにおける作業を作業者Ｈ１が開始したと判定し、作業台３Ａから作業者Ｈ１が移動したことで作業台３Ａにおける作業を作業者Ｈ１が終了したと判定する。動作学習装置１００は、このような処理によって、作業台３における作業の開始から終了までの第１作業時間を算出する。各作業台３では繰り返し作業が実施されるため、動作学習装置１００は、作業台３において繰り返し実施された作業の夫々について第１作業時間を算出し、算出した第１作業時間の統計値（例えば、最頻値）を算出する。

【0019】

動作学習装置１００は、作業撮影カメラ２によって撮影された第２動画像データの夫々について、作業認識を行うことで作業台３の夫々における第２作業時間を算出する。そして、動作学習装置１００は、作業撮影カメラ２によって撮影された第２動画像データから、上記統計値との作業時間の差が所定範囲内の第２動画像データを抽出する。動作学習装置１００は、抽出した第２動画像データを学習データとして用い、動作認識学習を実行して学習モデルを構築する。

【0020】

作業台３の夫々で実施される作業工程が定められていることから、作業者Ｈ１によって作業台３の夫々で周期的な作業が行われ、ひいては、夫々の作業台３で行われる作業の作業時間は略一定になると考えられる。しかしながら、作業台３の夫々では人によって作業が実施されるため、予定された作業内容以外の非周期的な動作が行われることもあり、そ
のような非周期的な動作によって作業時間が想定より長くなることがある。非周期的な動作が行われた動画像データを基に動作認識学習が実行されると、構築される学習モデルの精度が低下する虞がある。

【0021】

本適用例では、俯瞰カメラ１によって撮影された動画像データを基に作業時間の統計値が算出される。そして、作業撮影カメラ２によって撮影された動画像データから、算出した統計値との作業時間の差が所定範囲内の動画像データが抽出され、抽出された動画像データが動作認識学習に用いられる。本適用例では、算出した統計値との作業時間の差が所定範囲外の動画像データを動作認識学習に用いる動画像データから除外することで、非周期的な動作が含まれる動画像データを動作認識学習の学習データから除外することができる。そのため、本適用例によれば、より容易に非周期的な動作を含む動画像データを学習データから除外できる。

【0022】

＜実施形態＞
以下、図面を参照して実施形態についてさらに説明する。図１は、実施形態に係る動作学習システム４００の一例を示す図である。動作学習システム４００では、動作学習装置１００は、適用例でも説明した通り、工場５００内を俯瞰する位置に設けられた俯瞰カメラ１、作業台３の夫々における作業を撮影する作業撮影カメラ２、及び、動作認識学習を行う動作学習装置１００を備える。

【0023】

俯瞰カメラ１及び作業撮影カメラ２は、例えば、ネットワークカメラである。また、俯瞰カメラ１及び作業撮影カメラ２は、例えば、ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ（ＣＣＤ）イメージセンサーやＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ（ＣＭＯＳ）イメージセンサーを有するデジタルカメラである。デジタルビデオカメラである。俯瞰カメラ１は、例えば、魚眼レンズを備えることで広い撮影範囲をカバーしてもよい。

【0024】

俯瞰カメラ１は、上記の通り、工場５００内に配置された作業台３Ａ、３Ｂ、３Ｃ、３Ｄ、３Ｅ及び、工場５００内で作業する作業者Ｈ１を撮影範囲に含む位置に配置される。そのため、動作学習装置１００は、俯瞰カメラ１の第１動画像データによって作業者Ｈ１の作業動線を把握できる。また、作業撮影カメラ２は、上記の通り、作業台３の夫々に対応付けて配置される。そのため、動作学習装置１００は、作業撮影カメラ２の第２動画像データによって作業台３の夫々における作業者Ｈ１による作業の詳細を把握できる。俯瞰カメラ１及び作業撮影カメラ２は、撮影した動画像データをネットワークＮ１を介して動作学習装置１００に出力する。

【0025】

ネットワークＮ１は、例えば、ＬｏｃａｌＡｒｅａＮｅｔｏｗｏｒｋ（ＬＡＮ）である。ネットワークＮ１は、有線であっても無線であってもよい。

【0026】

動作学習装置１００は、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）及び記憶部を有する情報処理装置である。動作学習装置１００は、俯瞰カメラ１から取得した第１動画像データを基に作業者Ｈ１の位置を認識するとともに、作業台３における作業者Ｈ１による作業時間を算出する。また、動作学習装置１００は、作業撮影カメラ２から取得した第２動画像データを基に、当該作業撮影カメラ２が撮影対象とする作業台３における作業時間を算出する。動作学習装置１００は、作業撮影カメラ２によって撮影された動画像データのうち、第１動画像データを基に算出された作業時間との差が所定の範囲内の作業時間である第２動画像データを学習データとして抽出して、抽出した第２動画像データを用いて動作認識学習を行う。

【0027】

図２は、実施形態に動作学習装置１００のハードウェア構成の一例を示す図である。動
作学習装置１００は、ＣＰＵ１０１、主記憶部１０２、補助記憶部１０３、通信部１０４及び接続バス１０５を備える。ＣＰＵ１０１、主記憶部１０２、補助記憶部１０３及び通信部１０４は、接続バス１０５によって相互に接続される。

【0028】

ＣＰＵ１０１は、マイクロプロセッサーユニット（ＭＰＵ）、プロセッサーとも呼ばれる。ＣＰＵ１０１は、単一のプロセッサーに限定される訳ではなく、マルチプロセッサー構成であってもよい。また、単一のソケットで接続される単一のＣＰＵ１０１がマルチコア構成を有していてもよい。ＣＰＵ１０１が実行する処理のうち少なくとも一部は、ＣＰＵ１０１以外のプロセッサー、例えば、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ（ＤＳＰ）、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＧＰＵ）、数値演算プロセッサー、ベクトルプロセッサー、画像処理プロセッサー等の専用プロセッサーで行われてもよい。また、ＣＰＵ１０１が実行する処理のうち少なくとも一部は、集積回路（ＩＣ）、その他のデジタル回路によって実行されてもよい。また、ＣＰＵ１０１の少なくとも一部にアナログ回路が含まれてもよい。集積回路は、ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ（ＬＳＩ）、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）を含む。ＰＬＤは、例えば、Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ（ＦＰＧＡ）を含む。ＣＰＵ１０１は、プロセッサーと集積回路との組み合わせであってもよい。組み合わせは、例えば、マイクロコントローラーユニット（ＭＣＵ）、Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ（ＳｏＣ）、システムＬＳＩ、チップセットなどと呼ばれる。動作学習装置１００では、ＣＰＵ１０１が補助記憶部１０３に記憶されたプログラムを主記憶部１０２の作業領域に展開し、プログラムの実行を通じて周辺装置の制御を行う。これにより、動作学習装置１００は、所定の目的に合致した処理を実行することができる。主記憶部１０２及び補助記憶部１０３は、ＣＰＵ１０１が読み取り可能な記録媒体である。

【0029】

主記憶部１０２は、ＣＰＵ１０１から直接アクセスされる記憶部として例示される。主記憶部１０２は、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）及びＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）を含む。

【0030】

補助記憶部１０３は、各種のプログラム及び各種のデータを読み書き自在に記録媒体に格納する。補助記憶部１０３は外部記憶装置とも呼ばれる。補助記憶部１０３には、オペレーティングシステム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ＯＳ）、各種プログラム、各種テーブル等が格納される。ＯＳは、通信部１０４を介して接続される外部装置等とのデータの受け渡しを行う通信インターフェースプログラムを含む。外部装置等には、例えば、ネットワークＮ１によって接続された俯瞰カメラ１及び作業撮影カメラ２が含まれる。

【0031】

補助記憶部１０３は、例えば、ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ（ＥＰＲＯＭ）、ソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ、ＳＳＤ）、ハードディスクドライブ（ＨａｒｄＤｉｓｋＤｒｉｖｅ、ＨＤＤ）等である。また、補助記憶部１０３は、例えば、ＣｏｍｐａｃｔＤｉｓｃ（ＣＤ）ドライブ装置、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）ドライブ装置、Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃ（ＢＤ）ドライブ装置等である。

【0032】

通信部１０４は、例えば、ネットワークＮ１とのインターフェースである。通信部１０４は、ネットワークＮ１を介して俯瞰カメラ１及び作業撮影カメラ２と通信を行う。

【0033】

＜動作学習装置１００の処理ブロック＞
図３は、実施形態に係る動作学習装置１００の処理ブロックの一例を示す図である。動
作学習装置１００は、受信部１１、位置認識部１２、作業時間算出部１３、抽出部１４及び学習部１５を備える。動作学習装置１００は、主記憶部１０２に実行可能に展開されたコンピュータープログラムをＣＰＵ１０１が実行することで、上記動作学習装置１００の、受信部１１、位置認識部１２、作業時間算出部１３、抽出部１４及び学習部１５等の各部としての処理を実行する。

【0034】

受信部１１は、俯瞰カメラ１から受信した第１動画像データ及び作業撮影カメラ２から受信した第２動画像データを補助記憶部１０３に記憶させる。位置認識部１２、作業時間算出部１３、抽出部１４及び学習部１５は、補助記憶部１０３に記憶された動画像データを用いて各種処理を実行する。

【0035】

位置認識部１２は、俯瞰カメラ１から取得され、補助記憶部１０３に記憶された第１動画像データを基に、作業者Ｈ１の位置を認識する。

【0036】

作業時間算出部１３は、位置認識部１２によって認識された作業者Ｈ１の位置を基に、作業者Ｈ１の作業時間を算出する。作業時間算出部１３は、例えば、作業者Ｈ１が作業台３Ｄに移動したときに、作業台３Ｄにおける作業（例えば、ケースへのラベル貼付）を作業者Ｈ１が開始されたと認識する。また、作業時間算出部１３は、例えば、作業者Ｈ１が作業台３Ｄから移動したときに、作業台３Ｄにおける作業を作業者Ｈ１が完了したと認識する。そして、作業時間算出部１３は、作業を開始したと認識した時刻と作業を終了したと認識した時刻とを基に、作業者Ｈ１による作業台３Ｄにおける作業時間を算出する。

【0037】

作業時間算出部１３は、俯瞰カメラ１から取得した第１動画像データを基に、作業台３の夫々における第１作業時間を算出する。作業台３の夫々では予め決められた作業が繰り返し行われるため、作業台３の夫々について複数の第１作業時間が算出される。また、作業台３における作業は人によって行われるため、ネジ締めやケースへの嵌合等の同じ作業を繰り返し実施する周期的な作業以外にも、非周期的な動作が含まれ得る。非周期的な動作としては、例えば、物を落とした、操作を誤った、摩耗した部材を交換した、等を挙げることができる。このような非周期的な動作が生じることにより、作業台３における第１作業時間が標準的な作業時間よりも長くなることがある。

【0038】

図４は、ある作業台３における作業時間の出現頻度の一例を示す図である。図４の縦軸は作業時間の出現頻度を示し、横軸は作業時間を示す。図４では、ある作業台３における作業者Ｈ１による作業の第１作業時間の出現頻度の分布を例示する。作業者Ｈ１は、夫々の作業台３において所定の周期的な作業を実行する。そして、非周期的な動作が作業者Ｈ１によって行われるのは、物を落とした場合のようにイレギュラーな事象が発生した場合と考えられる。そのため、非周期的な動作を含まない標準的な第１作業時間は、図４において最も出現頻度の高い作業時間であると考えられる。そこで、作業時間算出部１３は、例えば、最も高い出現頻度の作業時間Ｔ１（最頻値）を作業者Ｈ１の当該ある作業台３における作業時間とする。

【0039】

抽出部１４は、学習部１５による動作認識学習に用いる第２動画像データを抽出する。抽出部１４は、作業撮影カメラ２によって撮影された第２動画像データから作業者Ｈ１の第２作業時間を算出する。図５は、作業撮影カメラ２によって撮影された第２動画像データの一例を示す図である。作業撮影カメラ２によって撮影された第２動画像データには、作業者Ｈ１の作業台３上に配置された手Ｈ１１、Ｈ１２及び作業台３における作業対象となるワークＷ１が含まれる。なお、図５では、第２動画像データのうち、手Ｈ１１、Ｈ１２、ワークＷ１及び作業台３以外の被写体の映像は省略される。

【0040】

抽出部１４は、第２動画像データにおいて、手Ｈ１１を認識するバウンディングボック
スＢ１、手Ｈ１２を認識するバウンディングボックスＢ２及びワークＷ１を認識するバウンディングボックスＢ３を設定する。そして、抽出部１４は、設定したバウンディングボックスＢ１、Ｂ２、Ｂ３を用いた作業認識を行って、作業台３における作業の開始時刻及び終了時刻を認識する。そして、抽出部１４は、認識した開始時刻及び終了時刻を基に、作業時間（第２作業時間とも称する）を算出する。ここで、抽出部１４は、例えば、手Ｈ１１、Ｈ１２がワークＷ１を把持した時刻を作業の開始時刻とし、手Ｈ１１、Ｈ１２がワークＷ１を離した時刻を作業の終了時刻としてもよい。

【0041】

抽出部１４は、補助記憶部１０３に記憶された第２動画像データから、作業時間算出部１３によって算出された第１作業時間の最頻値と抽出部１４によって算出した第２作業時間との差が所定範囲内の第２動画像データを学習データとして抽出する。抽出部１４は、例えば、作業撮影カメラ２Ａによって撮影されて補助記憶部１０３に記憶された第２動画像データから、作業時間算出部１３によって算出された作業台３Ａにおける第１作業時間の最頻値と抽出部１４によって算出した作業台３Ａにおける第２作業時間との差が所定範囲内の動画像データを作業台３Ａにおける作業についての学習データとして抽出する。抽出部１４は、他の作業撮影カメラ２によって撮影された動画像データについても同様に、学習データとして用いる第２動画像データを抽出する。

【0042】

学習部１５は、抽出部１４によって抽出された動画像データを用いて動作認識学習を行い、学習モデルを構築する。学習部１５は、例えば、構築した学習モデルを補助記憶部１０３に記憶させる。

【0043】

＜処理フロー＞
図６は、実施形態に係る動作学習装置１００の処理フローの一例を示す図である。以下、図６を参照して、動作学習装置１００の処理フローの一例について説明する。

【0044】

ステップＳ１では、受信部１１は、俯瞰カメラ１からの第１動画像データ及び作業撮影カメラ２からの第２動画像データを受信する。受信部１１は、受信した第１動画像データ及び第２動画像データを補助記憶部１０３に記憶させる。

【0045】

ステップＳ２では、位置認識部１２は、補助記憶部１０３に記憶された第１動画像データを基に、作業者Ｈ１の位置を認識する。作業時間算出部１３は、位置認識部１２によって認識された作業者Ｈ１の位置を基に、作業台３の夫々で行われた作業の第１作業時間の最頻値を算出する。

【0046】

ステップＳ３では、作業時間算出部１３は、補助記憶部１０３に記憶された第２動画像データを基に、作業台３の夫々で作業が行われた第２作業時間を算出する。

【0047】

ステップＳ４では、抽出部１４は、ステップＳ２で算出された第１作業時間の最頻値及びステップＳ３で算出された第２作業時間を基に、補助記憶部１０３に記憶された第２動画像データから動作認識学習に用いる第２動画像データを抽出する。

【0048】

ステップＳ５では、学習部１５は、ステップＳ４で抽出された動画像データを用いて動作認識学習を行い、学習モデルを構築する。

【0049】

＜実施形態の作用効果＞
本実施形態では、作業時間算出部１３が、俯瞰カメラ１によって撮影された第１動画像データを用いて作業台３の夫々で複数回行われた作業について第１作業時間を算出し、算出した第１作業時間の最頻値を算出する。抽出部１４は、作業撮影カメラ２によって撮影された第２動画像データの夫々について第２作業時間を算出する。そして、抽出部１４は
、作業時間算出部１３によって算出された第１作業時間の最頻値と抽出部１４によって算出した第２作業時間との差が所定範囲内の第２動画像データを学習データとして抽出する。本実施形態では、このような処理によって、第２動画像データのうち、非周期な動作が含まれない第２動画像データを動作認識学習の学習データとして採用することができる。ひいては、学習部１５によって生成される学習モデルの精度をより高いものとすることができる。

【0050】

本実施形態では、作業台３の夫々で複数回行われた作業についての作業時間の最頻値を第１作業時間として採用する。そのため、作業台３の夫々で行われる作業は予め定められた周期的な作業であるため、非周期的な動作を含む作業の出現頻度は低いと考えられる。本実施形態では、最頻値を第１作業時間として採用することで、非周期的な作業が含まれない蓋然性の高い第１作業時間を算出することができる。なお、第１作業時間は、最頻値に限定されず、平均値等の他の統計値であってもよい。

【0051】

＜第１変形例＞
作業台３の夫々における作業時間は、作業を担当する作業者の熟練度や技能によっても差が生じ得る。そこで、第１変形例では、個々の作業者による作業時間の差を考慮して、第２動画像データを抽出する変形例について説明する。

【0052】

図７は、ある作業台３における３名の作業者の作業時間の出現頻度の一例を示す図である。図７の縦軸は作業時間の出現頻度を示し、横軸は作業時間を示す。図７では、ある作業台３における３人の作業者（作業者Ｈ１、Ｈ２、Ｈ３）夫々による作業の作業時間の出現頻度の分布を例示する。図７に例示するように、作業者によって作業時間の出現頻度は異なる。そして、より多くの作業者についての動画像データを用いて動作認識学習を実行した方が、より精度の高い学習モデルを作成できると考えられる。一方で、極端に作業時間が異なる作業者についての第２動画像データも動作認識学習に用いると、学習モデルの精度はかえって低下するとも考えられる。

【0053】

図８は、第１変形例に係る動作学習装置１００Ａの処理ブロックの一例を示す図である。第１変形例に係る動作学習装置１００Ａは、位置認識部１２、作業時間算出部１３及び抽出部１４に代えて、位置認識部１２Ａ、作業時間算出部１３Ａ及び抽出部１４Ａを備える点で、実施形態に係る動作学習装置１００とは異なる。

【0054】

位置認識部１２Ａは、俯瞰カメラ１から取得した第１動画像データを基に、作業者の夫々の位置を認識する。すなわち、位置認識部１２Ａは、作業者Ｈ１、Ｈ２、Ｈ３と３名の作業者が工場５００において作業する場合に、作業者Ｈ１、Ｈ２、Ｈ３の夫々の位置を認識する。位置認識部１２Ａによる作業者Ｈ１、Ｈ２、Ｈ３夫々の認識は、例えば、服装、体格の違いや顔認識を用いてもよい。また、作業者Ｈ１、Ｈ２、Ｈ３の夫々が作業を行う時間帯が異なる場合には、位置認識部１２Ａは位置を認識した時間帯を基に作業者Ｈ１、Ｈ２、Ｈ３を認識してもよい。

【0055】

作業時間算出部１３Ａは、俯瞰カメラ１から取得した第１動画像データを基に、夫々の作業台３における夫々の作業者Ｈ１、Ｈ２、Ｈ３の第１作業時間の最頻値を算出する。

【0056】

抽出部１４Ａは、作業者Ｈ１、Ｈ２、Ｈ３のうち、他の作業者と作業時間が大幅に異なる一部の作業者についての動画像データを動作認識学習から除外する。抽出部１４は、例えば、作業者Ｈ１、Ｈ２、Ｈ３についての作業時間の標準偏差をσとして、作業時間が所定範囲（例えば、σ、２σまたは３σ）外の作業時間である作業者の第２動画像データを動作認識学習から除外してもよい。換言すれば、抽出部１４は、作業時間が所定範囲（例えば、σ、２σまたは３σ）内の作業時間である作業者の第２動画像データを動作認識学
習用の学習データとして抽出する。

【0057】

第１変形例によれば、極端に作業時間が異なる作業者についての第２動画像データを動作認識学習用の学習データから除外することで、学習モデルの精度を可及的に高めることができる。

【0058】

以上で開示した実施形態や変形例はそれぞれ組み合わせることができる。

【0059】

＜コンピューターが読み取り可能な記録媒体＞
コンピューターその他の機械、装置（以下、コンピューター等）に上記いずれかの機能を実現させる情報処理プログラムをコンピューター等が読み取り可能な記録媒体に記録することができる。そして、コンピューター等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。

【0060】

ここで、コンピューター等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピューター等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピューター等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＣＤ－ＲＯＭ）、ＣｏｍｐａｃｔＤｉｓｃ－Ｒｅｃｏｒｄａｂｌｅ（ＣＤ－Ｒ）、ＣｏｍｐａｃｔＤｉｓｃ－ＲｅＷｒｉｔｅｒａｂｌｅ（ＣＤ－ＲＷ）、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）、ブルーレイディスク（ＢＤ）、ＤｉｇｉｔａｌＡｕｄｉｏＴａｐｅ（ＤＡＴ）、８ｍｍテープ、フラッシュメモリー、外付け型のハードディスクドライブやＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ（ＳＳＤ）等がある。また、コンピューター等に固定された記録媒体として内蔵型のハードディスクドライブ、ＳＳＤやＲＯＭ等がある。

【0061】

＜付記＞
作業エリア（５００）内で移動する作業者（Ｈ１）を撮影する第１カメラ（１）で撮影された第１動画像データを基に前記作業者（Ｈ１）の位置を認識する位置認識部（１２）と、
前記作業者（Ｈ１）の前記位置を基に、複数回行われた前記作業の夫々についての作業時間の統計値を算出する作業時間算出部（１３）と、
前記作業エリア（５００）内の所定の作業場所（３）における前記作業者（Ｈ１）の作業を撮影する第２カメラ（２）で撮影されて記憶部（１０３）に蓄積された第２動画像データから、前記第２動画像データにおける前記作業の開始から終了までの時間と前記統計値との差が所定範囲内の学習データを抽出する抽出部（１４）と、
前記学習データを用いて動作認識学習を実施する学習部（１５）と、
を備える、
動作学習装置（１００）。

【符号の説明】

【0062】

１・・俯瞰カメラ
１１・・受信部
１２・・位置認識部
１２Ａ・・位置認識部
１３・・作業時間算出部
１３Ａ・・作業時間算出部
１４・・抽出部
１４Ａ・・抽出部
１５・・学習部
２・・作業撮影カメラ
２Ａ・・作業撮影カメラ
２Ｂ・・作業撮影カメラ
２Ｃ・・作業撮影カメラ
２Ｄ・・作業撮影カメラ
２Ｅ・・作業撮影カメラ
３・・作業台
３Ａ・・作業台
３Ｂ・・作業台
３Ｃ・・作業台
３Ｄ・・作業台
３Ｅ・・作業台
１００・・動作学習装置
１００Ａ・・動作学習装置
１０１・・ＣＰＵ
１０２・・主記憶部
１０３・・補助記憶部
１０４・・通信部
１０５・・接続バス
４００・・動作学習システム
５００・・工場
Ｈ１・・作業者
Ｈ２・・作業者
Ｈ３・・作業者
Ｈ１１・・手
Ｈ１２・・手
Ｂ１・・バウンディングボックス
Ｂ２・・バウンディングボックス
Ｂ３・・バウンディングボックス
Ｗ１・・ワーク
Ｎ１・・ネットワーク

【図1】