(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2026048487
(43)【公開日】2026-03-17
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
G06T 7/20 20170101AFI20260310BHJP
G06T 7/60 20170101ALI20260310BHJP
G06T 7/246 20170101ALI20260310BHJP
【FI】
G06T7/20 300Z
G06T7/60 150D
G06T7/246
G06T7/60 180B
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2024153405
(22)【出願日】2024-09-05
(71)【出願人】
【識別番号】000000044
【氏名又は名称】AGC株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】小山 哲哉
(72)【発明者】
【氏名】前川 政晴
(72)【発明者】
【氏名】南 匠弥
(72)【発明者】
【氏名】山本 一輝
(72)【発明者】
【氏名】増田 勝久
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA13
5L096BA18
5L096DA05
5L096FA09
5L096FA66
5L096HA03
(57)【要約】
【課題】作業者が安心して作業習得に取り組むことができる
【解決手段】作業者20の動作をカメラ50で撮像した動画を受付ける受付部と、前記動画中の前記作業者20の人体の関節を認識して、前記動作に応じた各前記関節の時系列の座標である時系列座標データを生成する生成部と、前記作業者20の動作に係る前記時系列座標データと、前記作業者20のうち手本となる熟練者の動作に係る前記時系列座標データとの差分に基づいて集計されたスコアで評価する評価部と、前記スコアに対応した前記作業者20の動作に対するアドバイスを前記スコアと共に出力する出力部と、を含む情報処理装置10。
【選択図】
図1
【特許請求の範囲】
【請求項1】
作業者の動作を撮像装置で撮像した動画を受付ける受付部と、
前記動画中の前記作業者の人体の関節を認識して、前記動作に応じた各前記関節の時系列の座標である時系列座標データを生成する生成部と、
前記作業者の動作に係る前記時系列座標データと、前記作業者のうち手本となる熟練者の動作に係る前記時系列座標データとの差分に基づいて集計されたスコアで評価する評価部と、
前記スコアに対応した前記作業者の動作に対するアドバイスを前記スコアと共に出力する出力部と、
を含む情報処理装置。
【請求項2】
前記評価部は、前記熟練者の前記時系列座標データと、前記作業者の前記時系列座標データとの相違度を、両者の前記時系列座標データ間の距離に基づいて算出し、前記相違度を集計した値である前記スコアで評価する、
請求項1に記載の情報処理装置。
【請求項3】
前記出力部は、前記熟練者の動作に係る前記動画に対して、前記熟練者及び前記熟練者の前記動作に係る物を含む各物体の輪郭を単一色で表現した手本動画と、前記作業者の動作に係る前記動画に対して、前記作業者及び前記作業者の前記動作に係る物を含む各物体の輪郭を前記単一色とは異なる他の単一色で表現した現状動画とを、重ねた動画を出力する、
請求項1に記載の情報処理装置。
【請求項4】
前記作業者の動作が所定の位置に侵入した場合に、前記撮像装置は撮像を開始し、
前記作業者の動作が他の所定の位置に侵入した場合に、前記出力部は、前記スコア及び前記アドバイス、並びに前記重ねた動画の少なくとも何れかを出力する、
請求項3に記載の情報処理装置。
【請求項5】
前記受付部は、複数人の前記作業者の動作を撮像装置で同時に撮像した動画を受付け、
前記評価部は、前記複数人毎に各前記スコアを評価し、
前記出力部は、前記複数人の前記スコアを相対評価させた結果を前記アドバイスに反映させて出力する、
請求項1に記載の情報処理装置。
【請求項6】
作業者の動作を撮像装置で撮像した動画を受付け、
前記動画中の前記作業者の人体の関節を認識して、前記動作に応じた各前記関節の時系列の座標である時系列座標データを生成し、
前記作業者の動作に係る前記時系列座標データと、前記作業者のうち手本となる熟練者の動作に係る前記時系列座標データとの差分に基づいて集計されたスコアで評価し、
前記スコアに対応した前記作業者の動作に対するアドバイスを前記スコアと共に出力する、
処理をコンピュータが実行する情報処理方法。
【請求項7】
作業者の動作を撮像装置で撮像した動画を受付け、
前記動画中の前記作業者の人体の関節を認識して、前記動作に応じた各前記関節の時系列の座標である時系列座標データを生成し、
前記作業者の動作に係る前記時系列座標データと、前記作業者のうち手本となる熟練者の動作に係る前記時系列座標データとの差分に基づいて集計されたスコアで評価し、
前記スコアに対応した前記作業者の動作に対するアドバイスを前記スコアと共に出力する、
処理をコンピュータに実行させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、工場などの作業現場において、作業者の作業の習熟度を定量的に評価する技術がある(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の技術は、管理技術又は監視技術に相当する側面があり、作業者は監視されているということの緊張感で作業に集中できず、習得のしやすさ、及び作業安全面で課題があった。
【0005】
本開示は、上記の点に鑑みてなされたものであり、作業者が安心して作業習得に取り組むことができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の第1態様は、情報処理装置であって、作業者の動作を撮像装置で撮像した動画を受付ける受付部と、前記動画中の前記作業者の人体の関節を認識して、前記動作に応じた各前記関節の時系列の座標である時系列座標データを生成する生成部と、前記作業者の動作に係る前記時系列座標データと、前記作業者のうち手本となる熟練者の動作に係る前記時系列座標データとの差分に基づいて集計されたスコアで評価する評価部と、前記スコアに対応した前記作業者の動作に対するアドバイスを前記スコアと共に出力する出力部と、を含む。
【0007】
第1態様の情報処理装置によれば、作業者が安心して作業習得に取り組むことができる。
【0008】
本開示の第2態様は、第1態様の情報処理装置であって、前記評価部は、前記熟練者の前記時系列座標データと、前記作業者の前記時系列座標データとの相違度を、両者の前記時系列座標データ間の距離に基づいて算出し、前記相違度を集計した値である前記スコアで評価する。
【0009】
第2態様の情報処理装置によれば、精度の高いスコアで評価できる。
【0010】
本開示の第3態様は、第1態様の情報処理装置であって、前記出力部は、前記熟練者の動作に係る前記動画に対して各物体の輪郭を単一色で表現した手本動画と、前記作業者の動作に係る前記動画に対して各物体の輪郭を前記単一色とは異なる他の単一色で表現した現状動画とを、重ねた動画を出力する。
【0011】
第3態様の情報処理装置によれば、手本動画と現状動画を視覚的に比較できる。
【0012】
本開示の第4態様は、第3態様の情報処理装置であって、前記作業者の動作が所定の位置に侵入した場合に、前記撮像装置は撮像を開始し、前記作業者の動作が他の所定の位置に侵入した場合に、前記出力部は、前記スコア及び前記アドバイス、並びに前記重ねた動画の少なくとも何れかを出力する。
【0013】
第4態様の情報処理装置によれば、作業の撮像開始から評価終了までを自動化できる。
【0014】
本開示の第5態様は、第1態様の情報処理装置であって、前記受付部は、複数人の前記作業者の動作を撮像装置で同時に撮像した動画を受付け、前記評価部は、前記複数人毎に各前記スコアを評価し、前記出力部は、前記複数人の前記スコアを相対評価させた結果を前記アドバイスに反映させて出力する。
【0015】
第5態様の情報処理装置によれば、複数人の間で作業のスコアを競争できる。
【0016】
本開示の第6態様は、情報処理方法であって、作業者の動作を撮像装置で撮像した動画を受付け、前記動画中の前記作業者の人体の関節を認識して、前記動作に応じた各前記関節の時系列の座標である時系列座標データを生成し、前記作業者の動作に係る前記時系列座標データと、前記作業者のうち手本となる熟練者の動作に係る前記時系列座標データとの差分に基づいて集計されたスコアで評価し、前記スコアに対応した前記作業者の動作に対するアドバイスを前記スコアと共に出力する、処理をコンピュータが実行する。
【0017】
第6態様の情報処理方法によれば、作業者が安心して作業習得に取り組むことができる。
【0018】
本開示の第7態様は、情報処理プログラムであって、作業者の動作を撮像装置で撮像した動画を受付け、前記動画中の前記作業者の人体の関節を認識して、前記動作に応じた各前記関節の時系列の座標である時系列座標データを生成し、前記作業者の動作に係る前記時系列座標データと、前記作業者のうち手本となる熟練者の動作に係る前記時系列座標データとの差分に基づいて集計されたスコアで評価し、前記スコアに対応した前記作業者の動作に対するアドバイスを前記スコアと共に出力する、処理をコンピュータに実行させる。
【0019】
第7態様の情報処理プログラムによれば、作業者が安心して作業習得に取り組むことができる。
【発明の効果】
【0020】
開示の技術によれば、作業者が安心して作業習得に取り組むことができる。
【図面の簡単な説明】
【0021】
【
図1】本実施形態に係る情報処理装置10と周辺装置の全体構成を示す図である。
【
図2】本実施形態に係る情報処理装置10のハードウェア構成を示すブロック図である。
【
図3】本実施形態に係る情報処理装置10の機能構成を示すブロック図である。
【
図4】本実施形態に係る情報処理装置10の受付部が受付ける動画の開始点を示す説明図である。
【
図5】本実施形態に係る情報処理装置10による各関節等の認識を示す説明図である。
【
図6】本実施形態に係る情報処理装置10による各関節等の認識を示す説明図である。
【
図7】本実施形態に係る情報処理装置10による各関節等の認識を示す説明図である。
【
図8】本実施形態に係る情報処理装置10による各関節等の認識を示す説明図である。
【
図9】本実施形態に係る情報処理装置10による各関節等の認識を示す説明図である。
【
図10】本実施形態に係る情報処理装置10による各関節等の認識を動画のフレーム毎に示す説明図である。
【
図11】本実施形態に係る情報処理装置10の受付部が受付ける動画の終了点を示す説明図である。
【
図12】本実施形態に係る情報処理装置10による手本動画と現状動画の比較を示す説明図である。
【
図13】本実施形態に係る情報処理装置10による手本動画と現状動画の比較を示す説明図である。
【
図14】本実施形態に係る情報処理装置10による手本動画と現状動画の比較を示す説明図である。
【
図15】本実施形態に係る情報処理装置10による出力画面イメージを示す説明図である。
【
図16】本実施形態に係る情報処理装置10のスコア評価処理を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0023】
本実施形態に係る情報処理装置10は、カメラ50で作業者20の作業を撮像した動画を受信するために、カメラ50と接続されている。また、情報処理装置10は、後述する出力部104の出力結果を表示するために、表示装置40と接続されている(
図1参照)。なお、
図1では、情報処理装置10とカメラ50が別の装置として記載されているが、これに限定されず、情報処理装置10の内部にカメラ50が備えられていてもよい。例えば、情報処理装置10はノートパソコンで構成され、ノートパソコンに内蔵又は付随しているWebカメラがカメラ50でもよい。また、
図1では、情報処理装置10と表示装置40が別の装置として記載されているが、これに限定されず、例えば、情報処理装置10がノートパソコンで構成されている場合、当該ノートパソコンの液晶ディスプレイ部分を表示装置40としてもよい。
【0024】
図1に示されるように、カメラ50は、作業者20が素材30を用いて加工等の作業をしている動作を撮像し、撮像した動画をカメラ50から情報処理装置10に送信している。情報処理装置10は、カメラ50から受信した動画中の作業者20の作業中の動作における作業者20の人体の関節、目、口、鼻、及び耳を認識する。なお、
図1において、作業前の素材を符号30で示し、作業中の素材は符号33で示し、成果物は符号35で示している。
【0025】
情報処理装置10は、コンピュータで構成される。例えば、情報処理装置10は、エッジコンピュータ、デスクトップパソコン、ノートパソコン、及びサーバなどである。なお、情報処理装置10は、インターネットなどのネットワークに繋がれずに、情報処理装置10内で本実施形態に係るスコア評価処理(詳細は後述)の実行を完結させてもよい。
【0026】
カメラ50は、動画を撮像するビデオカメラで構成される。例えば、カメラ50は、三脚等で固定されて作業者20の動作を撮像可能な位置に配置される。また例えば、カメラ50が情報処理装置10に内蔵されているWebカメラである場合に、作業者20の動作を撮像可能な位置に情報処理装置10自体が配置される。
図1の例では、作業者20の正面天井側から作業者20の動作の手元を撮像できるように、カメラ50が配置されている。
【0027】
表示装置40は、情報処理装置10による出力結果を表示する装置であり、例えば液晶ディスプレイである。なお、表示装置40は、音声出力手段としてのスピーカ等を備えてもよい。
【0028】
図2は、本実施形態の情報処理装置10のハードウェア構成を示すブロック図である。
図2に示されるように、情報処理装置10は、CPU(Central Processing Unit)11A、GPU(Graphics Processing Unit)11B、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入出力I/F(Inter Face)15、及び通信I/F16を含んで構成されている。各構成は、バス17を介して相互に通信可能に接続されている。
【0029】
CPU11Aは、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、CPU11Aは、ROM12からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11Aは、ROM12に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。
【0030】
GPU11Bは、主に画像を描写するために必要な計算を処理する。GPU11Bは、膨大な計算を高速に処理する。本実施形態では、動画処理を高速で実行する必要があることから、GPU11Bを情報処理装置10は備える。なお、GPU11Bは、情報処理装置10の内部に必ずしも備えなくてもよく、例えば、クラウドサーバにGPU11Bがあり、情報処理装置10が当該クラウドサーバにアクセスしてGPU11Bを利用してもよい(図示省略)。
【0031】
ROM12により構成される記憶装置は、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。ROM12には、後述するスコア評価処理を実行するための処理プログラムが格納されている。
【0032】
RAM13により構成されるメモリは、作業領域として一時的にプログラム及びデータを記憶する。
【0033】
ストレージ14は、HDD(Hard Disk Drive)、及びSSD(Solid State Drive)等により構成され、各種データを格納する。
【0034】
入出力I/F15は、情報処理装置10の外部にある入力装置及び出力装置の一例である表示装置40と通信するためのインタフェースである。入力装置は、カメラ50、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。出力装置は、例えば、液晶ディスプレイであり、各種の情報を出力するための装置である。出力装置は、タッチパネル方式を採用して、入力装置として機能してもよい。また、出力装置は、音声出力手段としてのスピーカ等も備えてよい。
【0035】
通信I/F16は、情報処理装置10の外部にあるクラウドサーバ等の他の機器と通信するためのインタフェースである。当該通信には、たとえば、イーサネット(登録商標)若しくはFDDI等の有線通信の規格、又は、4G、5G、若しくはWi-Fi(登録商標)等の無線通信の規格が用いられる。なお、情報処理装置10は、インターネットなどのネットワーク通信をしない場合、通信I/F16を備えずに、情報処理装置10内でスコア評価処理の実行を完結させてもよい。
【0036】
次に、
図3を参照して、本実施形態に係る情報処理装置10の機能的な構成を説明する。
図3に示されるように、本実施形態の情報処理装置10は、受付部101、生成部102、評価部103、及び出力部104を含む。また、ROM12又はストレージ14の所定の記憶領域にデータ記憶部105が設けられる。CPU11AがROM12に記憶されている処理プログラムを実行することで、受付部101、生成部102、評価部103、及び出力部104として機能する。なお、当該各機能部の処理をCPU11AではなくGPU11Bが実行してもよい。また、データ記憶部105には、後述する評価されたスコア等が記憶される。また、データ記憶部105には、受付部101で受付けた撮像動画が格納される。なお、情報処理装置10が通信I/F16を有している場合に、情報処理装置10の外部にあるクラウドサーバ等に、後述する評価されたスコア及び受付部101で受付けた撮像動画を格納してもよい。
【0037】
受付部101は、作業者20の動作を撮像装置であるカメラ50で撮像した動画を受付ける。具体的には、カメラ50で撮像した作業者20の動作の動画をカメラ50が情報処理装置10に向けて送信し、情報処理装置10の受付部101は当該動画を受信して入力として受付ける。
【0038】
受付部101は、作業者20の動作が所定の位置に侵入した場合に、撮像装置であるカメラ50が撮像を開始する。
図4は、表示装置40に表示された動画の画像に係るイメージ図である。一例として、
図4で示されるように、予め開始位置を矩形ブロック41で囲まれた範囲として設定しておき、例えば、当該矩形ブロック41内に作業者の両手首61が侵入した場合に、カメラ50が撮像を開始する。なお、当該矩形ブロック41の位置は柔軟に設定可能である。受付部101は、カメラ50が撮像を開始及び終了した動画を受付ける。
【0039】
また、受付部101は、複数人の作業者20の動作を撮像装置であるカメラ50で同時に撮像した動画も受付ける。具体的には、受付部101は、複数人の作業者20が同時に作業している様子を動作のレベルで撮像された動画を受付ける。
【0040】
なお、受付部101で受付けた動画は、一例として、情報処理装置10のデータ記憶部105に保存される。後述する出力部104で作業者20の動画と熟練者の動画を重ねた動画として出力する場合に、一例として、データ記憶部105に格納されている動画を出力する。すなわち、出力部104で出力される動画は録画動画であり、リアルタイムの動画出力は基本的には実行しない。これにより、作業者20は作業中にアラート等の通知をリアルタイムで受けないため、作業者20は作業に集中でき、作業の安全性を担保できる。なお、技術的には情報処理装置10の受付部101が受け付けた動画を出力部104でリアルタイムに出力することは可能である。作業の安全性向上の観点で、本実施形態では情報処理装置10によるリアルタイムの動画等の出力を基本的には実行しない想定としている。
【0041】
生成部102は、動画中の作業者20の人体の関節を認識して、動作に応じた各関節の時系列の座標である時系列座標データを生成する。具体的には、生成部102は、既存のオープンソースであるOpenpose(https://github.com/CMU-Perceptual-Computing-Lab/openpose)や、Posenet(https://www.tensorflow.org/lite/examples/pose_estimation/overview?hl=ja)などの骨格検知技術を用いて、動画中の作業者20の人体の関節、目、口、鼻、及び耳(これらを以下、「関節等」という)を認識する。具体的には、
図5~
図9に示されるように、生成部102は、動画中の作業者20の人体の各関節等を認識する。補足すると、生成部102は、各関節等を点で示し、各点を線で繋いで全体としての動作を示している。
【0042】
なお、
図10に示されるように、生成部102による各関節等の認識は、当該動画のフレーム毎に実行される。
図10では、動画のフレーム毎の各関節等の認識を、フレーム単位で実行し、動画中の全フレームのうち一部を抜粋して示している。また、生成部102は、フレーム毎に映っている作業者20の各関節等の位置座標を、XY座標で認識する。
【0043】
生成部102は、認識した各関節等の位置座標であるXY座標を、時系列に沿ってグラフにプロットし、熟練者の当該グラフと比較する。生成部102は、作業者20のグラフと熟練者のグラフを比較する際に、DTW(Dynamic Time Warping)という動的時間伸縮法を用いる。DTWは、時系列座標データ同士の類似度を測る際に用いられる手法であり、波形の類似度を求められる。具体的には、DTWは、2つの時系列座標データの各点の距離を総当たりで算出し、2つの時系列座標データの各点の距離が最短となるパスを抽出する。なお、対応する点を選ぶ際に重複を許すため、時系列座標データ同士の長さや周期が異なっても類似度を求めることができる。また、DTWでは、抽出した最短パスが0の値に近いほど類似度が高くなる。本実施形態では、当該時系列座標データ同士の距離を相違度として表し、相違度を集計した値が評価指標となるスコアとしている。例えば、スコアが100点になる場合とは、生成部102が、DTWの手法を用いて作業者20のグラフと熟練者のグラフを比較して、抽出した各点の距離が最短となるパスが0の値(すなわち、相違度が0の値)であった場合であり、すなわち2つの時系列座標データが完全一致している場合である。
【0044】
評価部103は、作業者20の動作に係る時系列座標データと、作業者20のうち手本となる熟練者の動作に係る時系列座標データとの差分に基づいて集計されたスコアで評価する。ここで、差分とは、双方の時系列座標データの距離のことである。この距離の値を集計するとは、具体的には、生成部102が各点の距離を総当たりで算出し、2つの時系列座標データの各点の距離が最短となるパスを抽出し、評価部103がパスに基づいてスコアを算出することを示している。評価部103は、算出したスコアで作業者20の動作を評価する。具体的なスコアの算出式を次に示す。標準作業にあたる熟練者のグラフと完全一致する場合をスコア100点としたとき、スコアを算出する式は、一例として、x=1÷(d÷12+1)×100で表される。例えば、パスであるdが3の値の場合にはスコアxは80点となる。なお、評価部103による評価においてはスコアの基準値があり、作業者20が作業を習得できたと認められるスコアを基準値として評価部103で設定される。例えば、基準値をスコア80点と設定されたとき、80点以上のスコアを算出された作業者20は当該作業をクリアしたと評価部103が評価し、一方、80点未満のスコアを算出された作業者20は当該作業の再トライを促すように評価部103は評価する。なお、基準値が厳しすぎると、作業者20の作業の動機を損ないうるため、基準値の設定は標準的なスコアで設定される。
【0045】
評価部103は、熟練者の時系列座標データと、作業者20の時系列座標データとの相違度を、両者の時系列座標データ間の距離に基づいて算出し、相違度を集計した値であるスコアで評価する。具体的には、一例として、評価部103は、スコアの満点を100点として、時系列座標データの相違度に基づいて、例えば、前述した式によって算出したスコアで作業者20の動作を評価する。
【0046】
また、評価部103は、複数人毎に各スコアを評価する。具体的には、評価部103は、同時に複数人の各スコアを評価する。なお、基準スコアは熟練者の作業になるため、複数人の各スコアは絶対評価で算出されたスコア同士を比較することで基準が同じであるため、精度高く相対評価できる。
【0047】
出力部104は、スコアに対応した作業者20の動作に対するアドバイスをスコアと共に出力する。具体的には、出力部104は、
図11に示されるように、スコアを100点満点中何点に該当するかを出力し、さらに課題点や改善策をアドバイスとして出力する。例えば、
図11に示されるように、出力部104は、表示装置40に対し、現状動画と手本動画を重ねた動画のスコア表示部分71にスコアを表示させる。また例えば、出力部104は、表示装置40に対し、当該重ねた動画のアドバイス表示部分72にアドバイスに係るテキストを表示させる。なお、
図11におけるスコアの表示内容やアドバイス内容、レイアウト等は一例であってこれに限定されない。
【0048】
また、出力部104は、熟練者の動作に係る動画に対して各物体の輪郭を単一色で表現した手本動画と、作業者20の動作に係る動画に対して各物体の輪郭を前述の単一色とは異なる他の単一色で表現した現状動画とを、重ねた動画を出力する。ここで、物体とは、熟練者の動作に係る動画であれば、当該動画に映っている熟練者及び熟練者の動作に係る物を少なくとも示している。同様に、作業者の動作に係る動画であれば、物体とは、当該動画に映っている作業者及び作業者の動作に係る物を少なくとも示している。なお、単一色は視認しやすい色であれば何色でもよい。また当該重ねた動画は、作業者20の作業の開始から終了までを熟練者の手本動画と重ねて出力するだけでなく、作業者20の現状動画において特に手本動画と相違度の高い時点、すなわち特に動作がズレている時点を切り出して出力することも可能である。作業者20は、動作の一連の流れを重ねた動画で確認できるだけでなく、特に改善すべき動作をフォーカスした要約も確認できる。
【0049】
出力部104は、作業者20の動作が他の所定の位置に侵入した場合に、出力部104は、スコア及びアドバイス、並びに重ねた動画の少なくとも何れかを出力する。一例として、
図12のように、右手62が矩形ブロック42に侵入した場合に、出力部はスコア及びアドバイス、並びに重ねた動画の少なくとも何れかを出力する。なお、当該矩形ブロッ42の位置は柔軟に設定できる。
【0050】
具体的には、
図13~
図15に示されるように、出力部104は、一例として、スコア、アドバイス、及び重ねた動画を出力する。なお、
図13~
図15において、点線は、熟練者のお手本の動作を示し、実線は、作業者20の現状の動作を示している。なお、実際の重ねた動画では、これらは異なる単一色で各物体の輪郭を示す。
図13では、作業者20は動作として素材30を台に乗せるまでに時間がかかっていることを示している。
図13の例では、アドバイスとして、出力部104は、表示装置40に対し、「素早く素材30を取り出しましょう」と、アドバイス表示部分72に、アドバイスに係るテキストを表示させる。
図14では、作業者20は動作として作業中の素材33を仕上げるまでに時間がかかっていることを示している。
図14の例では、アドバイスとして、出力部104は、表示装置40に対し、「仕上げの作業を見返して覚えることでスムーズに作業できます」と、アドバイス表示部分72に、アドバイスに係るテキストを表示させる。
図15では、作業者20の動作は熟練者の動作とほぼ一致していることを示している。
図15の例では、アドバイスとして、出力部104は、表示装置40に対し、「この調子です。作業を覚えられてきましたね!」と、アドバイス表示部分72に、アドバイスに係るテキストを表示させる。なお、出力部104による上記アドバイスの出力例として、当該重ねた動画のアドバイス表示部分72にアドバイスを表示する例で示したが、これに限定されず、当該重ねた動画の再生中に出力部104は音声でアドバイス等を出力してもよい。
【0051】
このように出力部104は、現状動画と手本動画を重ねた動画をオーバーレイで表示して出力することで、作業者20は視覚的に自身の作業を振り返ることができる。また、出力部104は、重ねた動画を出力しながら作業者20への改善点を的確に示し習得を促す。作業者20は、高いスコアへの願望を持つようになり、またアドバイスにより課題が提示されることから向上意欲や改善意欲を喚起されるため、作業の継続を促進される。また、出力部104はスコアを出力するため、作業者20に対してゲーミフィケーションによる動機付けを作用させる。
【0052】
また、出力部104は、複数人のスコアを相対評価させた結果をアドバイスに反映させて出力する(図示省略)。例えば、作業者20の各人のスコアを競わせるように、出力部104は、ランキングを表示する。
【0053】
次に、
図16を参照して、本実施形態に係る情報処理装置10の作用について説明する。
図16は作業者20のスコア評価処理の流れを示すフローチャートである。情報処理装置10のCPU11Aでは、
図16に示すスコア評価処理が実行される。情報処理装置10における各処理は、CPU11Aが受付部101、生成部102、評価部103、及び出力部104として機能することにより実行される。なお、前述したように、GPU11Bが各処理を実行してもよい。
【0054】
図16のステップS100で、CPU11Aが、カメラ50で撮像した動画を受付ける。
【0055】
ステップS102で、CPU11Aが、動画のフレーム毎に画像中の人体の関節を認識する。
【0056】
ステップS104で、CPU11Aが、各関節のXY座標を取得する。
【0057】
ステップS106で、CPU11Aが、各XY座標を時系列座標データ化する。
【0058】
ステップS108で、CPU11Aが、DTWの手法を用いて、熟練者の時系列座標データと作業者20の時系列座標データとを比較する。具体的には、2つの時系列座標データの各点の距離を算出し、距離が最短となるパスを算出する。
【0059】
ステップS110で、CPU11Aが、算出したパスの距離で作業者20の時系列座標データの相違度を定量化する。
【0060】
ステップS112で、CPU11Aが、相違度を集計した値に基づいてスコアで評価する。
【0061】
ステップS114で、CPU11Aが、評価した作業者20の動作のスコアを出力する。具体的には、
図11に示されるように、CPU11Aは、表示装置40に対し、現状動画と手本動画を重ねた動画のスコア表示部分71にスコアを表示させる。なお、CPU11Aによるスコアの出力は、画面表示に限定されず、音声で出力してもよい。
【0062】
ステップS116で、CPU11Aが、アドバイスを生成する。
【0063】
ステップS118で、CPU11Aが、生成したアドバイスを出力する。具体的には、
図11に示されるように、CPU11Aは、表示装置40に対し、アドバイス表示部分72にアドバイスに係るテキストを表示させる。また、同時に、熟練者の動作と作業者20の動作を重ねた動画を出力してよい。
【0064】
ステップS120で、CPU11Aが、評価スコアが基準値以上か否かを判定する。CPU11Aが、評価スコアが基準値以上であると判定した場合(ステップS120:YES)、処理を終了する。一方、CPU11Aが、評価スコアが基準値以上でない、すなわち基準値未満であると判定した場合(ステップS120:NO)、ステップS100に戻る。一例として、基準値を90点とした場合、評価されたスコアが90点以上であったら、この作業のステージはクリアであると出力部104が表示装置40に対して表示させる。また、評価されたスコアが90点未満であった場合に、もう一度作業を行ってくださいと、作業の練習を促すように出力部104が表示装置40に対して表示させる。このように、作業者20の評価スコアが基準値を超えるまで作業を繰り返すようにすることで、作業を習得しやすくしている。
【0065】
(備考)
なお、上記実施形態でCPU11A又はGPU11Bがソフトウェア(プログラム)を読み込んで実行したスコア評価処理を、CPU及びGPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、スコア評価処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
【0066】
また、上記実施形態では、情報処理装置10の入出力I/Fの接続先の1つである出力装置として、表示装置40(具体的には液晶ディスプレイ等)を想定して動画をオーバーレイで視認可能としていたが、これに限定されない。例えば、出力装置として、VRヘッドセットを作業者20が装着して、仮想世界内で視覚的に周囲を360度見渡せる状態で、出力部104が出力する現状動画及び手本動画を重ねた動画を作業後に視聴してもよい。これにより、作業者20は作業後に習得訓練として没入感を得ながら動画を確認し振り返りを行うことができる。また例えば、出力装置として、ARヘッドセットを作業者20が装着して、実世界の視界をそのまま保ちつつその上にデジタル情報を重ねられるため、熟練者の動作の動画を再生しながら作業者20は実世界で作業をすることも可能である。この場合、熟練者の動画再生を見ながら実際の作業をすることは危険を伴う可能性があるため、情報処理装置10の当該出力装置としてのARヘッドセットは、最初の練習用動画、動作のシミュレーション用途として、インプットに用いる程度を想定される。情報処理装置10によるスコア評価の対象となる作業においては、リアルタイムで現状及び手本動画を視認可能なARヘッドセットは装着しない方が安全性が高いため、評価部103が評価する作業時にはARヘッドセットは装着しないことが好ましい。これらのように、情報処理装置10に係る出力装置は液晶ディスプレイに限定されず、本実施形態の情報処理装置10を用いれば様々な出力に対応可能である。
【0067】
(まとめ)
以上説明したように、本実施形態に係る情報処理装置10は、作業者20の動作をカメラ50で撮像した動画を受付ける受付部101と、動画中の作業者20の人体の関節を認識して、動作に応じた各前記関節の時系列の座標である時系列座標データを生成する生成部102と、作業者20の動作に係る時系列座標データと、作業者20のうち手本となる熟練者の動作に係る時系列座標データとの差分に基づいて集計されたスコアで評価する評価部103と、スコアに対応した作業者20の動作に対するアドバイスをスコアと共に出力する出力部104と、を含んで構成されている。よって、本実施形態に係る情報処理装置10によれば、作業者20が安心して作業習得に取り組むことができる。
【0068】
補足すると、情報処理装置10によれば、作業者20は作業の手順の正誤、所要時間の長短などを客観的に視認しながら比較でき、またスコア及びアドバイスが表示されるためゲーム感覚で作業習得に取り組むことができる。また、情報処理装置10によれば、複数人の作業者20で、スコアを競争できるため、習得の向上心に働きかけることが可能である。このように情報処理装置10によれば、作業者20自身が作業を積極的に改善することを促せるだけでなく、作業の最中にアドバイスが出力されないことで、作業に集中でき、安全な環境で安心して作業習得に取り組むことができる。また、安全に再現性のある作業習得に取り組めるだけでなく、情報処理装置10によるゲーミフィケーションによれば作業者20の作業習得に対する負担感を軽減できる。
【符号の説明】
【0069】
10 情報処理装置
11A CPU
11B GPU
12 ROM
13 RAM
14 ストレージ
15 入出力I/F
16 通信I/F
17 バス
20 作業者
30 素材
33 素材(作業中)
35 素材(成果物)
40 表示装置
50 カメラ
71 スコア表示部分
72 アドバイス表示部分
101 受付部
102 生成部
103 評価部
104 出力部
105 データ記憶部