(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024165568
(43)【公開日】2024-11-28
(54)【発明の名称】学習モデル生成方法、作業分析装置および作業分析プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241121BHJP
【FI】
G06T7/00 660B
【審査請求】未請求
【請求項の数】21
【出願形態】OL
(21)【出願番号】P 2023081854
(22)【出願日】2023-05-17
(71)【出願人】
【識別番号】000001052
【氏名又は名称】株式会社クボタ
(74)【代理人】
【識別番号】110003502
【氏名又は名称】弁理士法人芳野国際特許事務所
(72)【発明者】
【氏名】日比野 剛士
(72)【発明者】
【氏名】松村 将弘
(72)【発明者】
【氏名】芝越 貴将
(72)【発明者】
【氏名】中島 巧貴
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA08
5L096CA04
5L096DA02
5L096FA66
5L096FA69
5L096HA09
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】アノテーションを簡素化し、人が作業を行うときの動作を効率的に推定することができる学習モデルを生成する学習モデル生成方法、作業分析装置、および作業分析プログラムを提供すること。
【解決手段】学習モデル生成方法は、人の前を撮像し作業に関する作業データを取得するステップと、取得した作業データと、人の正中面のキーポイントを起点としたときの人の手のキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成するステップと、教師データを用いて機械学習を行い、取得した作業データを入力とし、人の動作推定に関するデータを出力とする学習モデルを生成するステップと、を備える。
【選択図】
図7
【特許請求の範囲】
【請求項1】
人が行う作業を分析する作業分析装置に用いられる学習モデルを生成する学習モデル生成方法であって、
前記人の前を撮像し前記作業に関する作業データを取得するステップと、
取得した前記作業データと、前記人の正中面のキーポイントを起点としたときの前記人の手のキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成するステップと、
前記教師データを用いて機械学習を行い、取得した前記作業データを入力とし、前記人の動作推定に関するデータを出力とする学習モデルを生成するステップと、
を備えたことを特徴とする学習モデル生成方法。
【請求項2】
前記正中面のキーポイントは、前記人の臍のキーポイントであることを特徴とする請求項1に記載の学習モデル生成方法。
【請求項3】
前記離散値は、前記作業データにおける第1方向の前記相対距離に関する第1離散値と、前記作業データにおける前記第1方向に交差する第2方向の前記相対距離に関する第2離散値と、を含むことを特徴とする請求項1に記載の学習モデル生成方法。
【請求項4】
前記手のキーポイントは、前記人の左手首のキーポイントと、前記人の右手首のキーポイントと、を含むことを特徴とする請求項1に記載の学習モデル生成方法。
【請求項5】
前記手のキーポイントは、前記人の左手の指のキーポイントと、前記人の右手の指のキーポイントと、を含むことを特徴とする請求項1に記載の学習モデル生成方法。
【請求項6】
前記手のキーポイントは、前記人の左手の平のキーポイントと、前記人の右手の平のキーポイントと、を含むことを特徴とする請求項1に記載の学習モデル生成方法。
【請求項7】
前記手のキーポイントは、前記人の左手の甲のキーポイントと、前記人の右手の甲のキーポイントと、を含むことを特徴とする請求項1に記載の学習モデル生成方法。
【請求項8】
前記教師データを生成するステップは、取得した前記作業データと、前記人の正中面のキーポイントを起点としたときの前記人の胸のキーポイントの相対距離を前記離散値で表したラベルと、の対応付けをさらに行うことを特徴とする請求項1に記載の学習モデル生成方法。
【請求項9】
前記胸のキーポイントは、前記人の左胸のキーポイントと、前記人の右胸のキーポイントと、を含むことを特徴とする請求項8に記載の学習モデル生成方法。
【請求項10】
前記教師データを生成するステップは、取得した前記作業データと、前記人の正中面のキーポイントを起点としたときの前記人の腕のキーポイントの相対距離を前記離散値で表したラベルと、の対応付けをさらに行うことを特徴とする請求項1に記載の学習モデル生成方法。
【請求項11】
前記腕のキーポイントは、前記人の左肘のキーポイントと、前記人の右肘のキーポイントと、を含むことを特徴とする請求項10に記載の学習モデル生成方法。
【請求項12】
前記教師データを生成するステップは、取得した前記作業データと、前記人の正中面のキーポイントを起点としたときの前記人の足のキーポイントの相対距離を前記離散値で表したラベルと、の対応付けをさらに行うことを特徴とする請求項1に記載の学習モデル生成方法。
【請求項13】
前記足のキーポイントは、前記人の左足のキーポイントと、前記人の右足のキーポイントと、を含むことを特徴とする請求項12に記載の学習モデル生成方法。
【請求項14】
前記教師データを生成するステップは、取得した前記作業データと、前記手の領域の面積を前記離散値で表したラベルと、の対応付けをさらに行うことを特徴とする請求項1に記載の学習モデル生成方法。
【請求項15】
前記手の領域は、前記人の左手の領域と、前記人の右手の領域と、を含むことを特徴とする請求項14に記載の学習モデル生成方法。
【請求項16】
前記教師データを生成するステップは、取得した前記作業データと、前記人の足の領域の面積を前記離散値で表したラベルと、の対応付けをさらに行うことを特徴とする請求項1に記載の学習モデル生成方法。
【請求項17】
前記足の領域は、前記人の左足の領域と、前記人の右足の領域と、を含むことを特徴とする請求項16に記載の学習モデル生成方法。
【請求項18】
教師データを生成するステップは、取得した前記作業データに応じて前記区分の数を自動的に設定することを特徴とする請求項1に記載の学習モデル生成方法。
【請求項19】
前記学習モデルを生成するステップは、前記離散値の時系列の変化に基づいて前記動作推定に関するデータを出力する前記学習モデルを生成することを特徴とする請求項1に記載の学習モデル生成方法。
【請求項20】
人が行う作業を分析する作業分析装置であって、
前記人の前を撮像し前記作業に関する作業データを取得する撮像部と、
取得した前記作業データと、前記人の正中面のキーポイントを起点としたときの前記人の手のキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成する教師データ生成部と、
前記教師データを用いて機械学習を行い、取得した前記作業データを入力とし、前記人の動作推定に関するデータを出力とする学習モデルを生成する機械学習部と、
を備えたことを特徴とする作業分析装置。
【請求項21】
人が行う作業を分析する作業分析装置のコンピュータによって実行される作業分析プログラムであって、
前記コンピュータに、
前記人の前を撮像し前記作業に関する作業データを取得するステップと、
取得した前記作業データと、前記人の正中面のキーポイントを起点としたときの前記人の手のキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成するステップと、
前記教師データを用いて機械学習を行い、取得した前記作業データを入力とし、前記人の動作推定に関するデータを出力とする学習モデルを生成するステップと、
を実行させることを特徴とする作業分析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習モデル生成方法、作業分析装置および作業分析プログラムに関する。
【背景技術】
【0002】
特許文献1には、画像データを入力とした画像認識により、画像データに写る人物の関節位置を示す特徴点データを含む骨格データを取得する骨格抽出部と、骨格データごとに姿勢ラベルが対応づけられている姿勢モデルの記憶部と、骨格抽出部が取得した骨格データをもとに、姿勢モデルに予め決められた姿勢ラベルから、画像データに写る人物の姿勢を判別する姿勢推定部と、を有する姿勢分析装置が開示されている。
【0003】
特許文献1に記載された姿勢分析装置では、姿勢学習部が、骨格データごとに入力された正解ラベルである姿勢ラベルを学習データとして姿勢モデルを機械学習する。また、背景定義部が、画像データの一部として定義された背景領域に写る背景画像データごとに、入力された正解ラベルである背景ラベルを学習データとして背景モデルを機械学習する。しかし、そうすると、正解ラベルが膨大になり、入力データとラベルとの対応付け、すなわちアノテーションが複雑あるいは困難になるおそれがある。
【0004】
特許文献2には、作業者の視野と略同等以上の領域を撮像可能なウエアラブルカメラと、ウエアラブルカメラで撮像された撮像領域内で対象体を検出する対象体検出手段と、撮像領域内の作業者の手の骨格を検出する手骨格検出手段と、対象体検出手段で検出された対象体及び手骨格検出手段で検出された作業者の手の骨格の時系列変化から作業者の手の挙動を検出する動作検出手段と、少なくとも対象体検出手段で検出された対象体及び動作検出手段で検出された作業者の手の挙動が予め学習した対象体及び作業者の手の挙動と略一致するか否かを判定し、それらが略一致する場合に所定の作業が適正に行われたと判定する作業適正判定手段と、を備えた作業適正判定装置が開示されている。
【0005】
特許文献2に記載された作業適正判定装置は、作業者の手の挙動だけではなく対象物(物体)の学習を行う。しかし、そうすると、対象物(物体)の正解ラベルが膨大となり、入力データとラベルとの対応付け、すなわちアノテーションが複雑あるいは困難になるおそれがある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第6825041号公報
【特許文献2】特開2022-106155号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、前記事情に鑑みてなされたものであり、アノテーションを簡素化し、人が作業を行うときの動作を効率的に推定することができる学習モデルを生成する学習モデル生成方法、作業分析装置、および作業分析プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の第1態様は、人が行う作業を分析する作業分析装置に用いられる学習モデルを生成する学習モデル生成方法であって、前記人の前を撮像し前記作業に関する作業データを取得するステップと、取得した前記作業データと、前記人の正中面のキーポイントを起点としたときの前記人の手のキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成するステップと、前記教師データを用いて機械学習を行い、取得した前記作業データを入力とし、前記人の動作推定に関するデータを出力とする学習モデルを生成するステップと、を備えたことを特徴とする学習モデル生成方法である。
【0009】
本発明の第2態様は、人が行う作業を分析する作業分析装置であって、前記人の前を撮像し前記作業に関する作業データを取得する撮像部と、取得した前記作業データと、前記人の正中面のキーポイントを起点としたときの前記人の手のキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成する教師データ生成部と、前記教師データを用いて機械学習を行い、取得した前記作業データを入力とし、前記人の動作推定に関するデータを出力とする学習モデルを生成する機械学習部と、を備えたことを特徴とする作業分析装置である。
【0010】
本発明の第3態様は、人が行う作業を分析する作業分析装置のコンピュータによって実行される作業分析プログラムであって、前記コンピュータに、前記人の前を撮像し前記作業に関する作業データを取得するステップと、取得した前記作業データと、前記人の正中面のキーポイントを起点としたときの前記人の手のキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成するステップと、前記教師データを用いて機械学習を行い、取得した前記作業データを入力とし、前記人の動作推定に関するデータを出力とする学習モデルを生成するステップと、を実行させることを特徴とする作業分析プログラムである。
【発明の効果】
【0011】
本発明によれば、アノテーションを簡素化し、人が作業を行うときの動作を効率的に推定することができる学習モデルを生成する学習モデル生成方法、作業分析装置、および作業分析プログラムを提供することができる。
【図面の簡単な説明】
【0012】
【
図1】本発明の第1実施形態に係る作業分析装置の要部構成を表すブロック図である。
【
図2】本実施形態の撮像部が撮像し取得した作業データの第1具体例を表す模式図である。
【
図3】本実施形態の撮像部が撮像し取得した作業データの第2具体例を表す模式図である。
【
図4】本実施形態に係る学習モデル生成方法を説明するフローチャートである。
【
図5】本実施形態の撮像部が撮像し取得した作業データの具体例を表す模式図である。
【
図6】キーポイント同士の相対距離を複数の区分としての離散値で表したラベルを説明する模式図である。
【
図7】本実施形態に係る学習モデル生成方法を説明するフローチャートである。
【
図8】各キーポイントの相対距離を複数の区分としての離散値で表したラベルの例を示す表である。
【
図9】各バウンディングボックスの面積を複数の区分としての離散値で表したラベルの例を示す表である。
【発明を実施するための形態】
【0013】
以下に、本発明の実施形態を、図面を参照して説明する。
なお、以下に説明する実施形態は、本発明の好適な具体例であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。また、各図面中、同様の構成要素には同一の符号を付して詳細な説明を適宜省略する。
【0014】
図1は、本発明の第1実施形態に係る作業分析装置の要部構成を表すブロック図である。
図2は、本実施形態の撮像部が撮像し取得した作業データの第1具体例を表す模式図である。
図3は、本実施形態の撮像部が撮像し取得した作業データの第2具体例を表す模式図である。
【0015】
本発明の第1実施形態に係る作業分析装置2は、作業を行う人(以下、説明の便宜上「作業者」と称する。)の姿勢を推定するための学習モデルを生成し、作業者が行う作業を分析する。本願明細書における「作業」としては、例えば、屋内におけるものづくりの作業、ならびに屋外における水道工事の作業および農作業などが挙げられる。但し、作業分析装置2が分析する作業は、前述した作業に限定されるわけではない。
【0016】
図1に表したように、本実施形態に係る作業分析装置2は、制御部3と、記憶部4と、通信部5と、撮像部62と、を備える。
図1に表したように、作業分析装置2は、作業者端末61と、表示部7と、をさらに備えていてもよい。
【0017】
撮像部62は、例えばCCD(Charge Coupled Device)あるいはCMOS(Complementary Metal Oxide Semiconductor)などのイメージセンサを有するウエアラブルカメラである。撮像部62としては、例えばUVC(USB Video Class)カメラなどが挙げられる。
図1に表したように、撮像部62は、ケーブル64を介して作業者端末61に電気的に接続され、撮像した画像データを作業者端末61を介して作業分析装置2のコンピュータ21に送信する。
【0018】
作業者端末61は、作業者によって使用される例えばスマートフォンおよびタブレットコンピュータなどの携帯型の端末装置である。作業者端末61は、例えば作業者の指の接触等を検出可能なタッチパネルを含むディスプレイを有していてもよい。
【0019】
撮像部62は、作業者の頭部に装着され、作業者の頭部から作業者の前へ向かって撮像する。具体的には、撮像部62は、作業者の額に装着され、作業者の額から作業者の前へ向かって撮像し、作業者の前の作業に関する作業データを取得する。作業データは、撮像部62が作業者を撮像することにより取得した画像データである。本願明細書において「画像データ」すなわち「作業データ」とは、撮像部62が任意のタイミングで撮像した単独の静止画に関するデータだけではなく、連続的な画像の集合(すなわち動画あるいは映像)の一部を抽出した静止画に関するデータを含むものとする。
【0020】
図3に表したように、例えば、撮像部62は、作業者が頭部に装着したヘルメット63の鍔に取り付けられ、作業者の額から作業者の前へ向かって撮像し、作業者の前の作業に関する作業データを取得する。あるいは、撮像部62は、作業者が頭部に装着した帽子(図示せず)の鍔に取り付けられ、作業者の額から作業者の前へ向かって撮像し、作業者の前の作業に関する作業データを取得してもよい。あるいは、撮像部62は、作業者が頭部に装着したベルト(図示せず)の鍔に取り付けられ、作業者の額から作業者の前へ向かって撮像し、作業者の前の作業に関する作業データを取得してもよい。
【0021】
図3に表したように、撮像部62は、ケーブル64を介して作業者端末61に電気的に接続されている。撮像部62が作業者の前を撮像し取得した作業データは、作業者端末61および通信部5を介して作業分析装置2のコンピュータ21に送信され、記憶部4に格納される。
【0022】
図1に表したように、作業分析装置2のコンピュータ21は、制御部3と、記憶部4と、を有し、記憶部4に記憶されたプログラム44を読み出して種々の演算や処理を実行する。ここでいう「コンピュータ」とは、パソコンには限定されず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0023】
本実施形態のプログラム44は、本発明の「作業分析プログラム」の一例である。プログラム44は、画像処理のための画像処理プログラム、画像認識のための画像認識プログラム、教師データおよび学習モデルを生成するためのシーケンスプログラムなどを含む。なお、プログラム44は、記憶部4に格納されていることには限定されず、コンピュータ読み取り可能な記憶媒体に予め格納され頒布されてもよく、あるいはネットワークを介して作業分析装置2にダウンロードされてもよい。
【0024】
制御部3は、例えばCPU(central processing unit)などであり、記憶部4に記憶されたプログラム44を読み出して種々の演算や処理を実行する。制御部3は、教師データ生成部31と、機械学習部32と、を有する。教師データ生成部31および機械学習部32は、記憶部4に格納されているプログラム44をコンピュータ21が実行することにより実現される。なお、教師データ生成部31および機械学習部32は、ハードウェアによって実現されてもよく、ハードウェアとソフトウェアとの組み合わせによって実現されてもよい。
【0025】
教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者の正中面のキーポイントを起点としたときの作業者の各部位のキーポイントを示すラベルと、の対応付けを行うことにより教師データ42を生成し、記憶部4に格納する。
【0026】
具体的には、
図2に表したように、教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の正中面65のキーポイントを起点としたときの作業者60の手のキーポイントを示すラベルと、の対応付けを行うことにより教師データ42を生成し、記憶部4に格納する。作業者60の正中面65のキーポイントは、具体的には、作業者60の臍のキーポイントK0である。
【0027】
図2に表したように、作業者60の手のキーポイントは、作業者60の左手首のキーポイントK5と、作業者60の右手首のキーポイントK6と、を含む。作業者60の手のキーポイントは、作業者60の左手の指のキーポイントと、作業者60の右手の指のキーポイントと、を含んでいてもよい。また、作業者60の手のキーポイントは、作業者60の左手の平のキーポイントと、作業者60の右手の平のキーポイントと、を含んでいてもよい。また、作業者60の手のキーポイントは、作業者60の左手の甲のキーポイントと、作業者60の右手の甲のキーポイントと、を含んでいてもよい。
【0028】
図2に表したように、教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の胸のキーポイントを示すラベルと、の対応付けをさらに行うことにより教師データ42を生成し、記憶部4に格納してもよい。この場合、
図2に表したように、作業者60の胸のキーポイントは、作業者60の左胸のキーポイントK1と、作業者60の右胸のキーポイントK2と、を含む。
【0029】
また、
図2に表したように、教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の腕のキーポイントを示すラベルと、の対応付けをさらに行うことにより教師データ42を生成し、記憶部4に格納してもよい。この場合、
図2に表したように、作業者60の腕のキーポイントは、作業者60の左肘のキーポイントK3と、作業者60の右肘のキーポイントK4と、を含む。
【0030】
また、教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の足のキーポイントを示すラベルと、の対応付けをさらに行うことにより教師データ42を生成し、記憶部4に格納してもよい。この場合、作業者60の足のキーポイントは、作業者60の左足のキーポイントと、作業者60の右足のキーポイントと、を含む。
【0031】
また、
図2に表したように、教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の手のバウンディングボックスを示すラベルと、の対応付けをさらに行うことにより教師データ42を生成し、記憶部4に格納してもよい。この場合、
図2に表したように、作業者60の手のバウンディングボックスは、作業者60の左手のバウンディングボックスB1と、作業者60の右手のバウンディングボックスB2と、を含む。
【0032】
本実施形態のバウンディングボックスは、本発明の「領域」の一例である。すなわち、作業者60の手および足などの特徴範囲は、矩形のバウンディングボックスには限定されず、手および足などの形状あるいは輪郭を示す領域であってもよい。以下の説明では、本発明の「領域」がバウンディングボックスである場合を例に挙げる。
【0033】
また、教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の足のバウンディングボックスを示すラベルと、の対応付けをさらに行うことにより教師データ42を生成し、記憶部4に格納してもよい。この場合、
図2に表したように、作業者60の足のバウンディングボックスは、作業者60の左足のバウンディングボックスB3と、作業者60の右足のバウンディングボックスB4と、を含む。
【0034】
機械学習部32は、記憶部4に格納された教師データ42を用いて機械学習を行い、撮像部62により取得された作業データ41を入力とし、作業者60の姿勢推定に関するデータを出力とする学習モデル43を生成し、記憶部4に格納する。すなわち、機械学習部32は、記憶部4に格納された教師データ42を用いて機械学習を行い、作業者60の姿勢を推定するための学習モデル43を生成し、記憶部4に格納する。機械学習部32は、記憶部4に格納された教師データ42を用い、ニューラルネットワーク(NN:Neural Network)などの既知のアルゴリズムにより学習モデル43を生成する。これにより、入力データとしての作業データ41を入力すると、作業者60の姿勢推定に関するデータを出力する学習モデル43が生成される。
【0035】
記憶部4は、撮像部62により撮像され作業者端末61および通信部5を介して受信した作業データ41と、教師データ生成部31により生成された教師データ42と、機械学習部32により生成された学習モデル43と、コンピュータ21によって実行されるプログラム44と、を格納する。記憶部4としては、作業分析装置2に内蔵された半導体メモリやハードディスクドライブ(HDD:Hard Disk Drive)などが挙げられる。あるいは、記憶部4としては、作業分析装置2に接続可能なCD(Compact Disc)、DVD(Digital Versatile Disc)、RAM(Random access memory)、ROM(Read only memory)、ハードディスク、メモリカードなどの種々の記憶媒体および記憶装置が挙げられる。
【0036】
表示部7は、学習モデル43の出力データ、すなわち作業者60の姿勢推定に関するデータを通信部5を介して受信し表示する。表示部7としては、例えば、表示専用のディスプレイおよび人の指の接触等を検出可能なタッチパネルを含むディスプレイなどが挙げられる。
【0037】
図4は、本実施形態に係る学習モデル生成方法を説明するフローチャートである。
まず、ステップS1において、作業者60の頭部に装着された撮像部62により作業者60の頭部から作業者60の前へ向かって撮像し、作業に関する作業データ41を取得する。
【0038】
図2は、撮像部62が撮像し取得した作業データ41の第1具体例である。
図2に表した第1具体例では、作業者60は、正面を向いている。この場合、撮像部62は、作業者60の前において足から胸までを撮像範囲内に収め作業データ41として取得できる。
【0039】
図3は、撮像部62が撮像し取得した作業データ41の第2具体例である。
図3に表した第2具体例では、作業者60は、頭部を左に向けている、あるいは頭部を左に傾けている。この場合であっても、撮像部62は、作業者60の前において臍から胸までを撮像範囲内に収め作業データ41として取得できる。
【0040】
ステップS1に続くステップS2において、作業データ41を記憶部4に記憶する。続いて、ステップS3において、教師データ生成部31は、作業データ41と、作業者60の正中面65のキーポイントを起点としたときの作業者60の胸と作業者60の腕と作業者60の手とのそれぞれのキーポイントを示すラベルと、の対応付けを行う。具体的には、
図2および
図3に表したように、教師データ生成部31は、作業者60の臍のキーポイントK0を起点としたときの作業者60の左胸のキーポイントK1と、作業者60の右胸のキーポイントK2と、作業者60の左肘のキーポイントK3と、作業者60の右肘のキーポイントK4と、作業者60の左手首のキーポイントK5と、作業者60の右手首のキーポイントK6と、を示すラベルを作業データ41に付す。ステップS3において、教師データ生成部31は、作業データ41と、作業者60の正中面65のキーポイントを起点としたときの作業者60の足のキーポイントを示すラベルと、の対応付けを行ってもよい。
【0041】
また、ステップS3において、教師データ生成部31は、作業データ41と、作業者60の手のバウンディングボックスを示すラベルと、の対応付けを行う。具体的には、
図2に表したように、教師データ生成部31は、作業者60の左手のバウンディングボックスB1と、作業者60の右手のバウンディングボックスB2と、を示すラベルを作業データ41に付す。
【0042】
また、ステップS3において、教師データ生成部31は、作業データ41と、作業者60の足のバウンディングボックスを示すラベルと、の対応付けを行う。具体的には、
図2に表したように、教師データ生成部31は、作業者60の左足のバウンディングボックスB3と、作業者60の右足のバウンディングボックスB4と、を示すラベルを作業データ41に付す。教師データ生成部31は、このようなアノテーションを実行することにより、教師データ42を生成する。
【0043】
なお、ステップS3において、教師データ生成部31は、作業データ41と、作業者60の正中面65のキーポイントを起点としたときの作業者60の胸と作業者60の腕とのそれぞれのキーポイントを示すラベルと、の対応付け、および、作業データ41と、作業者60の手と足とのそれぞれのバウンディングボックスを示すラベルと、の対応付けを必ずしも行わなくともよい。
【0044】
ステップS3に続くステップS4において、教師データ42を記憶部4に記憶する。続いて、ステップS5において、機械学習部32は、教師データ42を用いて機械学習を行い、撮像部62により取得された作業データ41を入力とし、作業者60の姿勢推定に関するデータを出力とする学習モデル43を生成する。続いて、ステップS6において、学習モデル43を記憶部4に記憶する。
【0045】
本実施形態によれば、撮像部62は、作業者60の頭部に装着され、作業者60の頭部から作業者60の前へ向かって撮像し、作業者60の前の作業に関する作業データ41を取得する。そして、教師データ生成部31は、撮像部62により取得された入力データとしての作業データ41と、作業者60の正中面65のキーポイント(K0)を起点としたときの作業者60の手のキーポイント(K5、K6)を示すラベルと、の対応付けを行う。また、教師データ生成部31は、撮像部62により取得された入力データとしての作業データ41と、作業者60の正中面65のキーポイント(K0)を起点としたときの作業者60の胸と作業者60の腕とのそれぞれのキーポイント(K1~K4)を示すラベルと、の対応付け、および作業データ41と、作業者60の手と足とのそれぞれのバウンディングボックス(B1~B4)と、対応付けを行う。これにより、教師データ生成部31は、教師データ42を生成する。そのため、作業者60が作業を行う場所、ならびに作業者60の頭部などの体の向きおよび姿勢によらず、教師データ生成部31は、作業者60の正中面65のキーポイント(K0)を起点としたときの作業者60の各部位のキーポイント(K1~K6)と作業データ41との対応付け、および作業者60の各部位のバウンディングボックス(B1~B4)と作業データ41との対応付けを、実行できる。これにより、機械学習部32は、作業者60が作業を行う場所、ならびに作業者60の頭部などの体の向きおよび姿勢によらず、撮像部62により取得された作業データ41を入力とし、作業者60の姿勢推定に関するデータを出力とする学習モデル43を生成できる。
【0046】
また、撮像部62は、作業者60の額に装着され、作業者60の額から作業者60の前へ向かって撮像し、作業者60の前の作業に関する作業データを取得することにより、作業者60の前をより確実に撮像範囲内に収め作業データ41として取得できる。さらに、教師データ生成部31は、作業者60の正中面65のうち臍のキーポイントK0を起点としたときの作業者60の各部位のキーポイント(K1~K6)と作業データ41との対応付けを行う。これにより、機械学習部32は、作業者60が作業を行う場所、ならびに作業者60の頭部などの体の向きおよび姿勢によらず、撮像部62により取得された作業データ41を入力とし、作業者60の姿勢推定に関するデータを出力とする学習モデル43をより確実に生成できる。
【0047】
次に、本発明の第2実施形態について説明する。
なお、第2実施形態に係る作業分析装置の構成要素が、
図1~
図4に関して前述した第1実施形態に係る作業分析装置の構成要素と同様である場合には、重複する説明は適宜省略し、以下、相違点を中心に説明する。
【0048】
図5は、本実施形態の撮像部が撮像し取得した作業データの具体例を表す模式図である。
図6は、キーポイント同士の相対距離を複数の区分としての離散値で表したラベルを説明する模式図である。
【0049】
本発明の第2実施形態に係る作業分析装置2は、作業者の動作を推定するための学習モデルを生成し、作業者が行う作業を分析する。第2実施形態に係る作業分析装置2の要部構成は、第1実施形態に係る作業分析装置2の要部構成と同様である。
【0050】
本実施形態の教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の正中面65のキーポイントを起点としたときの作業者の各部位のキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成する。
【0051】
具体的には、
図5に表したように、教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の正中面65のキーポイントを起点としたときの作業者60の手のキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成し、記憶部4に格納する。作業者60の正中面65のキーポイントは、具体的には、作業者60の臍のキーポイントK0である。
【0052】
また、教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の正中面65のキーポイントを起点としたときの作業者60の胸と作業者60の腕と作業者60の足とのそれぞれのキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成し、記憶部4に格納してもよい。
【0053】
図5に表したように、作業者60の手のキーポイントは、作業者60の左手首のキーポイントK5と、作業者60の右手首のキーポイントK6と、作業者60の左手の指のキーポイントK7と、作業者60の右手の指のキーポイントK8と、を含む。作業者60の手のキーポイントは、作業者60の左手の平のキーポイントと、作業者60の右手の平のキーポイントと、作業者60の左手の甲のキーポイントと、作業者60の右手の甲のキーポイントと、を含んでいてもよい。
【0054】
作業者60の胸のキーポイントは、作業者60の左胸のキーポイントK1と、作業者60の右胸のキーポイントK2と、を含む。作業者60の腕のキーポイントは、作業者60の左肘のキーポイントK3と、作業者60の右肘のキーポイントK4と、を含む。作業者60の足のキーポイントは、作業者60の左足のキーポイントと、作業者60の右足のキーポイントと、を含む。
【0055】
本実施形態では、
図6に表したように、教師データ生成部31が、作業データ41と、作業者60の正中面65のうちの臍のキーポイントK0を起点としたときの作業者60の右手首のキーポイントK6の相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行う場合を例に挙げて説明する。なお、以下の対応付けに関する説明は、教師データ生成部31が、作業データ41と、作業者60の正中面65のうちの臍のキーポイントK0を起点としたときの作業者60の右手首以外のキーポイントK1~K5、K7~K8の相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行う場合と同様である。
【0056】
図6に表したように、キーポイントの相対距離に関する離散値は、作業データ41における水平方向の相対距離に関する第1離散値66と、作業データ41における垂直方向の相対距離に関する第2離散値67と、を含む。本実施形態の「水平方向」は、本発明の「第1方向」の一例である。本実施形態の「垂直方向」は、本発明の「第2方向」の一例である。第1方向および第2方向は、互いに直交していることには限定されず、互いに交差していればよい。すなわち、第1方向および第2方向は、互いに平行ではなく、互いに交差している。本実施形態の説明では、本発明の「第1方向」が水平方向であり、本発明の「第2方向」が垂直方向である場合を例に挙げる。
【0057】
例えば、教師データ生成部31は、第1離散値66を算出する際には、以下の計算式を用いる。
右手首のキーポイントK6のX座標-臍のキーポイントK0のX座標・・式(1)
【0058】
式(1)の計算結果(差)が負のときには、教師データ生成部31は、水平方向の相対距離に関する第1離散値66として「1」を出力する。式(1)の計算結果(差)が0以上、第1閾値未満であるときには、教師データ生成部31は、水平方向の相対距離に関する第1離散値66として「2」を出力する。式(1)の計算結果(差)が第1閾値以上、第2閾値未満であるときには、教師データ生成部31は、水平方向の相対距離に関する第1離散値66として「3」を出力する。式(1)の計算結果(差)が上記のいずれの範囲でもない場合には、教師データ生成部31は、水平方向の相対距離に関する第1離散値66として「4」を出力する。
図6に表した例では、教師データ生成部31は、水平方向の相対距離に関する第1離散値66として「2」を出力している。
【0059】
また、例えば、教師データ生成部31は、第2離散値67を算出する際には、以下の計算式を用いる。
臍のキーポイントK0のY座標-右手首のキーポイントK6のY座標・・式(2)
【0060】
式(2)の計算結果(差)が負のときには、教師データ生成部31は、垂直方向の相対距離に関する第2離散値67として「4」を出力する。式(2)の計算結果(差)が0以上、第1閾値未満であるときには、教師データ生成部31は、垂直方向の相対距離に関する第2離散値67として「3」を出力する。式(2)の計算結果(差)が第1閾値以上、第2閾値未満であるときには、教師データ生成部31は、垂直方向の相対距離に関する第2離散値67として「2」を出力する。式(2)の計算結果(差)が上記のいずれの範囲でもない場合には、教師データ生成部31は、垂直方向の相対距離に関する第2離散値67として「1」を出力する。
図6に表した例では、教師データ生成部31は、垂直方向の相対距離に関する第2離散値67として「4」を出力している。
【0061】
なお、教師データ生成部31が第1離散値66を算出する際に用いる計算式は、前述した式(1)に限定されるわけではない。また、教師データ生成部31が第2離散値67を算出する際に用いる計算式は、前述した式(2)に限定されるわけではない。さらに、キーポイントの相対距離に関する離散値の数(すなわち区分の数)は、前述した「1」、「2」、「3」および「4」の4つに限定されるわけではない。例えば、教師データ生成部31は、撮像部62により取得され記憶部4に格納された作業データ41に応じて、キーポイントの相対距離に関する離散値の数(すなわち区分の数)を自動的に設定してもよい。
【0062】
また、
図5に表したように、教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の手のバウンディングボックスの面積を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成し、記憶部4に格納する。
図5に表したように、作業者60の手のバウンディングボックスは、作業者60の左手のバウンディングボックスB1と、作業者60の右手のバウンディングボックスB2と、を含む。
【0063】
また、教師データ生成部31は、撮像部62により取得され記憶部4に格納された入力データとしての作業データ41と、作業者60の足のバウンディングボックスの面積を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データを生成し、記憶部4に格納する。
図5に表したように、作業者60の足のバウンディングボックスは、作業者60の左足のバウンディングボックスB3と、作業者60の右足のバウンディングボックスB4と、を含む。
【0064】
例えば、バウンディングボックスの面積が0以上、第1閾値未満である場合には、教師データ生成部31は、バウンディングボックスの面積に関する離散値として「1」を出力する。バウンディングボックスの面積が第1閾値以上、第2閾値未満である場合には、教師データ生成部31は、バウンディングボックスの面積に関する離散値として「2」を出力する。バウンディングボックスの面積が第2閾値以上、第3閾値未満である場合には、教師データ生成部31は、バウンディングボックスの面積に関する離散値として「3」を出力する。バウンディングボックスの面積が上記のいずれの範囲でもない場合には、教師データ生成部31は、バウンディングボックスの面積に関する離散値として「4」を出力する。
【0065】
なお、バウンディングボックスの面積に関する離散値の数(すなわち区分の数)は、前述した「1」、「2」、「3」および「4」の4つに限定されるわけではない。例えば、教師データ生成部31は、撮像部62により取得され記憶部4に格納された作業データ41に応じて、バウンディングボックスの面積に関する離散値の数(すなわち区分の数)を自動的に設定してもよい。
【0066】
機械学習部32は、記憶部4に格納された教師データ42を用いて機械学習を行い、撮像部62により取得された作業データ41を入力とし、作業者60の動作推定に関するデータを出力とする学習モデル43を生成し、記憶部4に格納する。具体的には、機械学習部32は、キーポイントの相対距離に関する各離散値と、バウンディングボックスの面積に関する各離散値と、の時系列の変化に基づいて、作業者60の動作推定に関するデータを出力とする学習モデル43を生成する。
【0067】
このように、機械学習部32は、記憶部4に格納された教師データ42を用いて機械学習を行い、作業者60の動作を推定するための学習モデル43を生成し、記憶部4に格納する。機械学習部32は、記憶部4に格納された教師データ42を用い、ニューラルネットワーク(NN:Neural Network)などの既知のアルゴリズムにより学習モデル43を生成する。これにより、入力データとしての作業データ41を入力すると、作業者60の動作推定に関するデータを出力する学習モデル43が生成される。
【0068】
表示部7は、学習モデル43の出力データ、すなわち作業者60の動作推定に関するデータを通信部5を介して受信し表示する。表示部7としては、例えば、表示専用のディスプレイおよび人の指の接触等を検出可能なタッチパネルを含むディスプレイなどが挙げられる。
その他の構成は、
図1~
図4に関して前述した第1実施形態に係る作業分析装置2の構成と同様である。
【0069】
図7は、本実施形態に係る学習モデル生成方法を説明するフローチャートである。
図8は、各キーポイントの相対距離を複数の区分としての離散値で表したラベルの例を示す表である。
図9は、各バウンディングボックスの面積を複数の区分としての離散値で表したラベルの例を示す表である。
【0070】
まず、ステップS11~S12は、
図4に関して前述したステップS1~S2と同様である。ステップS12に続くステップS13において、教師データ生成部31は、作業データ41と、作業者60の正中面65のキーポイントを起点としたときの作業者60の手のキーポイントの相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行う。具体的には、教師データ生成部31は、作業者60の臍のキーポイントK0を起点としたときの作業者60の左手首のキーポイントK5と、作業者60の右手首のキーポイントK6と、作業者60の左手の指のキーポイントK7と、作業者60の右手の指のキーポイントK8と、のそれぞれの相対距離を複数の区分としての離散値で表したラベルを作業データ41に付す。
【0071】
このとき、教師データ生成部31は、作業者60の臍のキーポイントK0を起点としたときの作業者60の左胸のキーポイントK1と、作業者60の右胸のキーポイントK2と、作業者60の左肘のキーポイントK3と、作業者60の右肘のキーポイントK4と、のそれぞれの相対距離を複数の区分としての離散値で表したラベルを作業データ41に付してもよい。また、教師データ生成部31は、作業者60の臍のキーポイントK0を起点としたときの作業者60の左足のキーポイントと、作業者60の右足のキーポイントと、のそれぞれの相対距離を複数の区分としての離散値で表したラベルを作業データ41に付してもよい。
【0072】
教師データ生成部31が、作業者60の臍のキーポイントK0を起点としたときの作業者60の各部位のキーポイントK1~K8の相対距離を複数の区分としての離散値で表したラベルを作業データ41に付した例は、
図8に表した通りである。
【0073】
また、ステップS13において、教師データ生成部31は、作業データ41と、作業者60の手のバウンディングボックスの面積を複数の区分としての離散値で表したラベルと、の対応付けを行う。具体的には、教師データ生成部31は、作業者60の臍のキーポイントK0を起点としたときの作業者60の左手のバウンディングボックスB1と、作業者60の右手のバウンディングボックスB2と、のそれぞれの面積を複数の区分としての離散値で表したラベルを作業データ41に付す。
【0074】
また、ステップS13において、教師データ生成部31は、作業データ41と、作業者60の足のバウンディングボックスの面積を複数の区分としての離散値で表したラベルと、の対応付けを行う。具体的には、教師データ生成部31は、作業者60の臍のキーポイントK0を起点としたときの作業者60の左足のバウンディングボックスB3と、作業者60の右足のバウンディングボックスB4と、のそれぞれの面積を複数の区分としての離散値で表したラベルを作業データ41に付す。
【0075】
教師データ生成部31が、作業者60の臍のキーポイントK0を起点としたときの作業者60の各部位のバウンディングボックスB1~B4の面積を複数の区分としての離散値で表したラベルを作業データ41に付した例は、
図9に表した通りである。
【0076】
なお、ステップS13において、教師データ生成部31は、作業データ41と、作業者60の手と作業者60の足とのそれぞれのバウンディングボックスの面積を複数の区分としての離散値で表したラベルと、の対応付けを必ずしも行わなくともよい。
【0077】
教師データ生成部31は、このようなアノテーションを実行することにより、教師データ42を生成する。
【0078】
ステップS13に続くステップS14は、
図4に関して前述したステップS4と同様である。ステップS14に続くステップS15において、機械学習部32は、教師データ42を用いて機械学習を行い、撮像部62により取得された作業データ41を入力とし、作業者60の動作推定に関するデータを出力とする学習モデル43を生成する。具体的には、機械学習部32は、キーポイントの相対距離に関する各離散値と、バウンディングボックスの面積に関する各離散値と、の時系列の変化に基づいて、作業者60の動作推定に関するデータを出力とする学習モデル43を生成する。続いて、ステップS15に続くステップS16は、
図4に関して前述したステップS16と同様である。
【0079】
本実施形態によれば、撮像部62は、作業者60の前を撮像し、作業者60の前の作業に関する作業データ41を取得する。そして、教師データ生成部31は、撮像部62により取得された入力データとしての作業データ41と、作業者60の正中面のキーポイント(K0)を起点としたときの作業者の手のキーポイント(K5~K8)の相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行うことにより教師データ42を生成する。このように、教師データ生成部31は、各キーポイントの実際の相対距離(例えば25.5cmなどの具体的な距離)および各バウンディングボックスの実際の面積(例えば225.5cm2などの具体的な面積)ではなく、各キーポイントの相対距離および各バウンディングボックスの面積を複数の区分(本実施形態では4つの区分)としての離散値で表したラベルと、の対応付けを行うことにより教師データ42を生成する。そのため、ラベルが膨大になることを抑え、入力データとラベルとの対応付け、すなわちアノテーションの回数を低減することができる。これにより、アノテーションを簡素化、すなわちアノテーションが複雑および困難になることを抑え、作業者60が作業を行うときの動作を効率的に推定することができる学習モデル43を生成することができる。
【0080】
また、機械学習部32は、工具や設置物などの対象物(物体)に関するデータに基づいて生成された教師データではなく、撮像部62により撮像され取得された作業者60の前の作業に関する作業データ41に基づいて生成された教師データ42を用いて機械学習を行う。そのため、ラベルが膨大になることを抑え、入力データとラベルとの対応付け、すなわちアノテーションの回数を低減することができる。これにより、アノテーションを簡素化、すなわちアノテーションが複雑および困難になることを抑え、作業者60が作業を行うときの動作を効率的に推定することができる学習モデル43を生成することができる。
【0081】
また、教師データ生成部31は、作業者60の正中面65のうち臍のキーポイントK0を起点としたときの作業者60の各部位のキーポイント(K1~K8)の相対距離を複数の区分としての離散値で表したラベルと、の対応付けを行う。これにより、教師データ生成部31は、作業者60が作業を行う場所、ならびに作業者60の頭部などの体の向きおよび姿勢によらず、より高い精度かつ少ない回数でアノテーションを実行し教師データ42を生成できる。
【0082】
さらに、教師データ生成部31が、作業データ41に応じて、各キーポイントの相対距離および各バウンディングボックスの面積に関する離散値の数(すなわち区分の数)を自動的に設定する場合には、作業者60が行う作業の内容に柔軟に対応しつつ、アノテーションの回数を低減し、アノテーションを簡素化することができる。
【0083】
以上、本発明の実施形態について説明した。しかし、本発明は、上記実施形態に限定されず、特許請求の範囲を逸脱しない範囲で種々の変更を行うことができる。上記実施形態の構成は、その一部を省略したり、上記とは異なるように任意に組み合わせたりすることができる。
【符号の説明】
【0084】
2:作業分析装置、 3:制御部、 4:記憶部、 5:通信部、 7:表示部、 21:コンピュータ、 31:教師データ生成部、 32:機械学習部、 41:作業データ、 42:教師データ、 43:学習モデル、 44:プログラム、 60:作業者、 61:作業者端末、 62:撮像部、 63:ヘルメット、 64:ケーブル、 65:正中面、 66:第1離散値、 67:第2離散値