(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-29
(45)【発行日】2024-08-06
(54)【発明の名称】学習モデル生成装置、学習モデル、行動認識装置、学習データ生成装置、及び、学習データ生成方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240730BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2020173100
(22)【出願日】2020-10-14
【審査請求日】2023-04-21
(73)【特許権者】
【識別番号】000002130
【氏名又は名称】住友電気工業株式会社
(74)【代理人】
【識別番号】110000280
【氏名又は名称】弁理士法人サンクレスト国際特許事務所
(74)【代理人】
【識別番号】100100147
【氏名又は名称】山野 宏
(72)【発明者】
【氏名】田村 孝
(72)【発明者】
【氏名】藤田 康仁
(72)【発明者】
【氏名】坂本 遼平
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2019-114211(JP,A)
【文献】特開2019-159819(JP,A)
【文献】特開2005-140550(JP,A)
【文献】Pavlo Molchanov,Hand gesture recognition with 3D convolutional neural networks,2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),IEEE,2015年06月07日,P.1-7,https://ieeexplore.ieee.org/document/7301342
【文献】井上 善文,双方向型関数を用いたニューラルネットワークの学習アルゴリズムとその応用,電子情報通信学会技術研究報告 Vol.106 No.451,日本,社団法人電子情報通信学会,2007年01月10日,NLP2006-112 (2007-01),P.9-13
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 1/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
複数の画像データが時系列順に並んだ第1映像データとは異なる第2映像データを生成する第2映像データ生成処理を含む学習データ生成処理と、
前記第1映像データ及び前記第2映像データを学習データとして、行動認識のための学習モデルを生成する機械学習処理と、
を実行するよう構成された処理装置を備え、
前記学習データ生成処理は、元映像データから、前記元映像データの時間長よりも短い第1時間長を有する前記第1映像データを複数生成する第1映像データ生成処理を更に備え、
前記第1映像データ生成処理によって生成された前記複数の第1映像データそれぞれは、前記複数の第1映像データに含まれる他の第1映像データと時間的に重複しており、
前記第2映像データは、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んで構成されている
学習モデル生成装置。
【請求項2】
前記複数の第1映像データそれぞれが、前記複数の第1映像データに含まれる他の第1映像データと重複する重複時間は、前記第1時間長の50%以上、80%以下である
請求項
1に記載の学習モデル生成装置。
【請求項3】
学習データを用いて機械学習された、行動認識のための学習モデルであって、
前記学習データは、
複数の画像データが時系列順に並んだ複数の第1映像データ
であって、
元映像データから、前記元映像データの時間長よりも短い第1時間長を有する前記第1映像データを複数生成することで、それぞれ時間的に重複している前記複数の第1映像データと、
前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んだ第2映像データと、
を含
み、
映像データが入力として与えられると、前記映像データ中のオブジェクトの行動の認識結果を出力するようにコンピュータを機能させる、
学習モデル。
【請求項4】
テストデータとしての映像データ中のオブジェクトの行動を、請求項
3に記載の学習モデルを用いて認識するよう構成された行動認識装置。
【請求項5】
複数の画像データが時系列順に並んだ第1映像データとは異なる第2映像データを生成する第2映像データ生成処理を含む学習データ生成処理を実行するよう構成された処理装置を備え、
前記学習データ生成処理は、元映像データから、前記元映像データの時間長よりも短い第1時間長を有する前記第1映像データを複数生成する第1映像データ生成処理を更に備え、
前記第1映像データ生成処理によって生成された前記複数の第1映像データそれぞれは、前記複数の第1映像データに含まれる他の第1映像データと時間的に重複しており、
前記第2映像データは、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んで構成されている
学習データ生成装置。
【請求項6】
複数の画像データが時系列順に並んだ複数の第1映像データ
を生成する第1ステップと、前記複数の第1映像データとは異なる第2映像データを生成する
第2ステップを備え、
前記第1ステップは、元映像データから、前記元映像データの時間長よりも短い第1時間長を有する前記第1映像データを複数生成し、
前記第1ステップによって生成された前記複数の第1映像データそれぞれは、前記複数の第1映像データに含まれる他の第1映像データと時間的に重複しており、
前記第2映像データは、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んで構成されている
学習データ生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、学習モデル生成装置、学習モデル、行動認識装置、学習データ生成装置、及び、学習データ生成方法に関する。
【背景技術】
【0002】
特許文献1は、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)等の深層学習技術を用いて、映像から人物の行動を認識する行動認識装置を開示している。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
深層学習のような機械学習においては、機械学習のための多くの学習データが必要とされる。多くの学習データを得るために、学習データの数を増やすデータ拡張という手法が用いられる。データ拡張は、データ水増しとも呼ばれる。静止画データのデータ拡張処理としては、例えば、画像の回転、上下反転、及び画像の左右反転がある。
【0005】
しかし、静止画データに対して適用される従来のデータ拡張処理を、映像データに対して適用しても、充分な学習効果が期待できない場合もある。このため、映像データに適した新たなデータ拡張手法が望まれる。
【課題を解決するための手段】
【0006】
本開示のある側面は、学習モデル生成装置である。開示の学習モデル生成装置は、複数の画像データが時系列順に並んだ第1映像データとは異なる第2映像データを生成する第2映像データ生成処理を含む学習データ生成処理と、前記第1映像データ及び前記第2映像データを学習データとして、行動認識のための学習モデルを生成する機械学習処理と、を実行するよう構成された処理装置を備え、前記第2映像データは、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んで構成されている。
【0007】
本開示の他の側面は、学習モデルである。開示の学習モデルは、学習データを用いて機械学習された、行動認識のための学習モデルであって、前記学習データは、複数の画像データが時系列順に並んだ1又は複数の第1映像データと、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んだ第2映像データと、を含む。
【0008】
本開示の他の側面は、行動認識装置である。開示の行動認識装置は、テストデータとしての映像データ中のオブジェクトの行動を、前記学習モデルを用いて認識するよう構成されている。
【0009】
本開示の他の側面は、学習データ生成装置である。開示の学習データ生成装置は、複数の画像データが時系列順に並んだ第1映像データとは異なる第2映像データを生成する第2映像データ生成処理を含む学習データ生成処理を実行するよう構成された処理装置を備え、前記第2映像データは、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んで構成されている。
【0010】
本開示の他の側面は、学習データ生成方法である。開示の学習データ生成方法は、複数の画像データが時系列順に並んだ1又は複数の第1映像データとは異なる第2映像データを生成することを備え、前記第2映像データは、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んで構成されている。
【発明の効果】
【0011】
本開示によれば、映像に適したデータ拡張がなされる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、学習モデル生成装置及び行動認識装置を備えるシステムの概略構成図である。
【
図3】
図3は、行動認識処理のフローチャートである。
【
図4】
図4は、テストデータの生成方法の説明図である。
【
図5】
図5は、表示装置に表示される画面例を示す図である。
【
図6】
図6は、学習モデル生成装置の構成図である。
【
図7】
図7は、学習データ生成処理のフローチャートである。
【
図8】
図8は、ショート映像の作成方法の説明図である。
【
図9】
図9は、ショート映像から第1映像データ及び第2映像データを作成する方法の説明図である。
【
図11】
図11は、第1実験における条件1,2,3の結果を示す図である。
【
図12】
図12は、第1実験における条件4,5,6の結果を示す図である。
【
図13】
図13は、第2実験における条件1,2,3の結果を示す図である。
【
図14】
図14は、第2実験における条件4,5,6の結果を示す図である。
【発明を実施するための形態】
【0013】
[本開示の実施形態の説明]
【0014】
(1)実施形態に係る学習モデル生成装置は、複数の画像データが時系列順に並んだ第1映像データとは異なる第2映像データを生成する第2映像データ生成処理を含む学習データ生成処理と、前記第1映像データ及び前記第2映像データを学習データとして、行動認識のための学習モデルを生成する機械学習処理と、を実行するよう構成された処理装置を備える。前記第2映像データは、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んで構成されている。この場合、第1映像データとは逆順に並んだ第2映像データが得られる。すなわち、映像データがデータ拡張される。
【0015】
(2)前記学習データ生成処理は、元映像データから、前記元映像データの時間長よりも短い第1時間長を有する前記第1映像データを複数生成する第1映像データ生成処理を更に備え、前記第1映像データ生成処理によって生成された前記複数の第1映像データそれぞれは、前記複数の第1映像データに含まれる他の第1映像データと時間的に重複しているのが好ましい。この場合、元映像データからより多くの第1映像データを生成でき、データ拡張がなされる。
【0016】
(3)前記複数の第1映像データそれぞれが、前記複数の第1映像データに含まれる他の第1映像データと重複する重複時間は、前記第1時間長の50%以上、80%以下であるのが好ましい。この場合、重複時間長が適切になる。
【0017】
(4)実施形態に係る学習モデルは、学習データを用いて機械学習された、行動認識のための学習モデルであって、前記学習データは、複数の画像データが時系列順に並んだ1又は複数の第1映像データと、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んだ第2映像データと、を含むのが好ましい。この場合、データ拡張された学習データによって、より適切な学習モデルになる。
【0018】
(5)実施形態に係る行動認識装置は、テストデータとしての映像データ中のオブジェクトの行動を、前記(4)に記載の学習モデルを用いて認識するよう構成されている。この場合、行動認識の精度が向上する。
【0019】
(6)実施形態に係る学習データ生成装置は、複数の画像データが時系列順に並んだ第1映像データとは異なる第2映像データを生成する第2映像データ生成処理を含む学習データ生成処理を実行するよう構成された処理装置を備え、前記第2映像データは、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んで構成されている。この場合、第1映像データとは逆順に並んだ第2映像データが得られる。すなわち、映像データがデータ拡張される。
【0020】
(7)実施形態に係る学習データ生成方法は、複数の画像データが時系列順に並んだ1又は複数の第1映像データとは異なる第2映像データを生成することを備え、前記第2映像データは、前記第1映像データに含まれる前記複数の画像データが前記時系列順とは逆順に並んで構成されている。この場合、第1映像データとは逆順に並んだ第2映像データが得られる。すなわち、映像データがデータ拡張される。
【0021】
実施形態に係るコンピュータプログラムは、学習データ生成処理、機械学習処理及び行動認識処理のすくなくともいずれか1つをプロセッサに実行させる。コンピュータプログラムは、コンピュータ読み取り可能な、非一時的な記憶媒体に格納される。
【0022】
[本開示の実施形態の詳細]
【0023】
図1は、行動認識のためのシステム1を示している。行動認識は、映像データに映っているオブジェクトの行動を認識することである。映像データに映っているオブジェクトは、例えば、人又は物である。行動認識は、映像データの分類でもある。
【0024】
行動認識は、例えば、工場等において、作業者の行動を、撮像装置30によって撮像した映像データを用いて行われる。この場合、行動認識によって、作業者が行われている行動が分類される。これにより、作業者が特定の作業をするのに要した時間を計測することができる。また、作業者の行動を分類することで、作業者が適切なタイミングで作業を実施しているか否かの把握をすることができる。また、複数の作業者それぞれの行動を分類することで、作業者毎の行動の違いの有無を把握することができる。
【0025】
図1に示すシステム1は、行動認識装置20と、行動認識装置20に接続された1又は複数の撮像装置30と、を備える。撮像装置30は、作業者等のオブジェクトを撮像するように設置される。撮像装置30は、映像データを出力する。映像データは、複数の画像データ(画像フレーム)が時系列に並んで構成された動画である。以下では、撮像装置30から出力された映像データを、「元映像データ」という。行動認識装置20は、撮像装置30によって撮像された元映像データに基づいて、作業者の行動を分類する。分類される行動は、例えば、製品の加工等の特定の第1作業と、第1作業以外の作業である第2作業と、を含む。
【0026】
図2に示すように、行動認識装置20は、処理装置21と、処理装置21に接続された記憶装置22と、を備えるコンピュータによって構成されている。行動認識装置20を構成するコンピュータは、インタフェース25を更に備える。
【0027】
行動認識装置20が備える処理装置21は、例えば、GPU(Graphics Processing Unit)及びCPU(Central Processing Unit)の少なくとも1つを有する。記憶装置22は、例えば、一次記憶装置及び二次記憶装置を有する。一次記憶装置は、例えば、RAMである。二次記憶装置は、例えば、ハードディスクドライブ(HDD)又はソリッドステートドライブ(SSD)である。インタフェース25は、学習モデル生成装置10、撮像装置30、及び表示装置40などの外部機器との接続に用いられる。行動認識装置20は、例えば、図示しないネットワークを介して、外部機器に接続される。
【0028】
行動認識装置20を構成するコンピュータは、行動認識処理210を実行する。行動認識装置20が備える記憶装置22は、コンピュータを行動認識装置20として機能させるためのコンピュータプログラム24を記憶している。換言すると、記憶装置12は、コンピュータに行動認識処理210を実行させるためのコンピュータプログラム24を記憶している。コンピュータプログラム24は、行動認識処理210をコンピュータに実行させるためのプログラムコードを備える。処理装置21は、記憶装置22からコンピュータプログラム24を読み出して実行する。行動認識処理210は、後述される。
【0029】
記憶装置22は、元映像データ220と、テストデータ221と、を記憶することができる。元映像データ220は、撮像装置30から取得され、記憶装置22に保存される。テストデータ221は、記憶装置22に保存された元映像データ220から生成された映像データである。行動認識装置20は、テストデータ221に対して行動認識処理210を実行する。行動認識処理210は、機械学習によって構築された学習モデル225を用いて実行される。行動認識処理210において、テストデータ221は、学習モデル225へ入力される。
【0030】
記憶装置22は、行動認識処理210に用いられる学習モデル225を記憶することができる。具体的には、記憶装置22は、学習モデル225を構成するパラメータを記憶する。実施形態に係る学習モデル225は、例えば、ニューラルネットワークによって構成される。学習モデル225は、一例として、3次元畳み込みニューラルネットワーク(3D Convolutional Neural Network;3D-CNN)によって構成される。3D-CNNは、2次元の空間情報と1次元の時間情報とを有する3次元データを入力データとして受け付けることができる。実施形態において、行動認識装置20において、3D-CNNによって構成される学習モデル225に入力される3次元データは、前述のテストデータ221である。3D-CNNは、入力されたテストデータ221に映っているオブジェクト(作業者等)の行動を分類する。
【0031】
行動認識装置20は、行動認識処理210による作業分類結果を、行動認識結果として出力する。作業分類結果は、例えば、表示装置40において表示される。表示装置40による表示は、後述される。
【0032】
なお、2次元畳み込みニューラルネットワーク(2D Convolutional Neural Network;2D-CNN)における入力データは、例えば、カラー静止画像である場合、[高さ(Height),幅(Width),チャネル(Channels)]によって構成される。「高さ」は、画像の縦位置を示す。「幅」は、画像の横位置を示す。「チャネル」は、例えば、RGB(赤、緑、青)といった画像の色を示す。一方、3D-CNNにおける入力データは、2D-CNNにおける入力データに、時間(Time)が追加されている。3D-CNNにおける入力データは、例えば、[高さ(Height),幅(Width),時間(Time),チャネル(Channels)]によって構成される。
【0033】
図3は、行動認識処理210の手順を示している。まず、行動認識装置20の処理装置21は、記憶装置22に保存された元映像データ220を読み出し、読み出した元映像データ220から複数のテストデータ221を生成する(ステップS21)。元映像データ220は、例えば、数分、数十分、数時間、又は数十時間の時間長を有する。
【0034】
図4は、元映像データ220からテストデータ221を生成する方法を示している。元映像データ220は、複数のショート映像に分割される。各ショート映像の時間長は、例えば、60秒である。例えば、元映像データ220が1時間の時間長を有する場合、60個の60秒ショート映像が生成される。1つのショート映像から1つのテストデータ221が生成される。60秒ショート映像は、60秒分の複数の画像データから構成されている。テストデータ221は、ショート映像から等間隔かつ時系列順に複数の画像データを抽出する。ここでは、一例として、ショート映像から、32枚の画像データが抽出される。抽出された32枚の画像データの組からなる映像データが、1つのテストデータ221になる。テストデータ221において、32枚の画像データは、時系列順に並んでいる。なお、ショート映像から等間隔かつ時系列順に複数の画像データを抽出する手順を省略して、各ショート映像がテストデータ221とされてもよい。
【0035】
図3に戻り、行動認識装置20の処理装置21は、各テストデータ221を、学習モデル225に入力として与える。実施形態に係る学習モデル225は、映像データであるテストデータ221が入力されると、テストデータ221に映っているオブジェクトの行動を分類した結果を出力する(ステップS22)。実施形態においては、一例として、学習モデル225は、テストデータ221に映っている作業者が行っている作業が、製品の加工等の特定の第1作業であるか、第1作業以外の作業である第2作業であるか、を分類する。分類は、テストデータ221毎に行われる。テストデータ221が60秒ショート映像から生成されている場合、分類は、作業者の1分毎の行動について行われる。ここで、分類される行動の種類は、前述の第1作業及び第2作業である。
【0036】
行動認識装置20の処理装置21は、作業分類結果を出力する(ステップS23)。作業分類結果の出力は、例えば、行動認識装置20に接続された表示装置40による画面400の表示として行われる。
【0037】
図5は、表示装置40によって表示される画面400の例を示している。画面400は、作業の分類結果を時間軸に沿って示す分類結果表示部405を備える。
図5の分類結果表示部405においては、白色箇所は第1作業を示し、黒色箇所は第2作業を示す。また、画面400は、作業の実施日を示す日付表示部401と、第1作業が行われた実施時間及び実施回数を示す第1作業表示部402と、凡例表示部403と、を備える。画面400が表示されることで、作業の管理者等のユーザは、第1作業が行われた時間、回数、タイミング等を把握することができる。
【0038】
図1に示すシステム1は、行動認識装置20によって用いられる学習モデル225を生成する学習モデル生成装置10を備える。学習モデル生成装置10によって生成された学習モデル225は、ネットワークを介して、行動認識装置20に与えられる。
【0039】
図6に示すように、実施形態に係る学習モデル生成装置10は、処理装置11と、処理装置11に接続された記憶装置12と、を備えるコンピュータによって構成されている。学習モデル生成装置10を備えるコンピュータは、インタフェース15を更に備える。
【0040】
学習モデル生成装置10が備える処理装置11は、例えば、GPU(Graphics Processing Unit)及びCPU(Central Processing Unit)の少なくとも1つを有する。記憶装置12は、例えば、一次記憶装置及び二次記憶装置を有する。一次記憶装置は、例えば、RAMである。二次記憶装置は、例えば、ハードディスクドライブ(HDD)又はソリッドステートドライブ(SSD)である。インタフェース15は、行動認識装置20及び撮像装置30などの外部機器との接続に用いられる。学習モデル生成装置10は、例えば、図示しないネットワークを介して、外部機器に接続される。
【0041】
学習モデル生成装置10を構成するコンピュータは、学習モデルの生成に用いられる学習データを生成する学習データ生成処理110を実行する。したがって、学習モデル生成装置10を構成するコンピュータは、学習データ生成装置でもある。また、学習モデル生成装置10を構成するコンピュータは、学習データを用いて学習モデルを生成する機械学習処理115を実行する。
【0042】
学習モデル生成装置10が備える記憶装置12は、コンピュータを学習モデル生成装置10又は学習データ生成装置として機能させるためのコンピュータプログラム14を記憶している。換言すると、記憶装置12は、コンピュータに学習データ生成処理110を実行させるためのコンピュータプログラムを記憶している。また、記憶装置12は、コンピュータに機械学習処理115を実行させるためのコンピュータプログラム14を記憶している。コンピュータプログラム14は、学習データ生成処理110及び機械学習処理115を処理装置11に実行させるためのプログラムコードを備える。処理装置11は、記憶装置12からコンピュータプログラム14を読み出して実行する。学習データ生成処理110及び機械学習処理115は後述される。
【0043】
記憶装置12は、元映像データ120と、学習データ121と、を記憶することができる。元映像データ120は、撮像装置30から取得され、記憶装置12に保存される。学習データ121は、記憶装置12に保存された元映像データ120から、学習データ生成処理110によって生成される。学習データ121は、教師データともいう。実施形態に係る学習データは、第1映像データ121Aと、第2映像データ121Bと、を含む。第1映像データ121Aは、学習データ生成処理110に含まれる第1映像データ生成処理111によって生成される。第2映像データ121Bは、学習データ生成処理110に含まれる第2映像データ生成処理112によって生成される。
【0044】
図7は、学習データ生成処理110の手順を示している。まず、学習モデル生成装置10の処理装置11は、記憶装置12に保存された元映像データ120を読み出すことで、元映像データ120を取得する(ステップS11)。処理装置11は、元映像データ120から、複数のショート映像を作成する(ステップS12)。ステップS12では、
図8に示すように、各ショート映像の間に所定の重複時間の重複が生じるように複数のショート映像が作成される。重複を生じさせることで、元映像データ120から多くのショート映像を作成することができる。すなわち、映像データを重複させることで、データ拡張が可能である。映像データ間に重複が生じるようにデータ拡張を行うことで、行動認識精度(作業分類精度)を低下させることなく、効率的な学習が可能である。
【0045】
各ショート映像の時間長は、30秒以上であるのが好ましく、40秒以上であるのがより好ましく、50秒以上であるのが更に好ましい。ショート映像の時間長が十分に長いと、重複するショート映像同士の違いが大きくなる。したがって、ショート映像の時間長が長い方が、データ拡張にとって適切である。
【0046】
また、各ショート映像の時間長は、5分以下であるのが好ましく、3分以下であるのがより好ましく、2分以下であるのが更に好ましい。ショート映像の時間長が長すぎると、元映像データ120から得られるショート映像の数が少なくなり、機械学習に不利である。したがって、ショート映像の時間長は、長すぎない方が有利である。
【0047】
各ショート映像の時間長は、30秒以上、5分以下の範囲内にあるのが好ましい。かかる範囲の下限は、前述のように、40秒以上がより好ましく、50秒以上が更に好ましい。かかる範囲の上限は、前述のように、3分以下であるのがより好ましく、2分以下であるのが更に好ましい。
【0048】
各ショート映像の間の重複時間は、5秒以上であるのが好ましく、20秒以上であるのがより好ましく、30秒以上であるのが更に好ましい。重複時間が長いと、元映像データ120から得られるショート映像の数が多くなり、有利である。
【0049】
各ショート映像の重複時間は、50秒以下であるのが好ましく、45秒以下であるのがより好ましく、40秒以下であるのが更に好ましい。重複時間が長すぎると、重複するショート映像同士の違いが小さくなり、データ拡張として不利である。
【0050】
各ショート映像の重複時間は、5秒以上、50秒以下の範囲内にあるのが好ましい。かかる範囲の下限は、前述のように、20秒以上がより好ましく、30秒以上が更に好ましい。かかる範囲の上限は、前述のように、45秒以下であるのがより好ましく、40秒以下であるのが更に好ましい。
【0051】
各ショート映像の時間長に対する重複時間の割合は、10%以上であるのが好ましく、30%以上であるのがより好ましく、50%以上であるのが更に好ましい。重複時間の割合が大きいと、元映像データ120から得られるショート映像の数が多くなり、有利である。
【0052】
各ショート映像の時間長に対する重複時間の割合は、80%以下であるのが好ましく、75%以下であるのがより好ましく、70%以下であるのが更に好ましい。重複時間の割合が大きすぎると、重複するショート映像同士の違いが小さくなり、データ拡張として不利である。
【0053】
各ショート映像の時間長に対する重複時間の割合は、10%以上、80%以下の範囲内にあるのが好ましい。かかる範囲の下限は、前述のように、30%以上がより好ましく、50%以上が更に好ましい。かかる範囲の上限は、前述のように、75%以下であるのがより好ましく、70%以下であるのが更に好ましい。
【0054】
例えば、ショート映像の時間長が60秒である場合、重複時間は、5秒、10秒、15秒、20秒、25秒、及び30秒のいずれか1つにすることができる。
【0055】
図8は、ショート映像の時間長を60秒とし、重複時間を30秒とした場合の例を示している。
図8において、第1ショート映像は、元映像データの0[s]から60[s]までの範囲の映像である。第2ショート映像は、元映像データの30[s]から90[s]までの範囲の映像である。第3ショート映像は、元映像データの60[s]から120[s]までの範囲の映像である。
【0056】
図4に示すように、単に、元映像データを分割すると、120[s]分の元映像データから得られるのは、2つの60秒ショート映像だけである。しかし、
図8に示すように、30秒の重複時間を設けると、120[s]分の元映像データ120から3つの60秒ショート映像が得られ、有利である。
【0057】
図7に戻り、処理装置11は、各ショート映像に対して作業の種類をラベル付けする(ステップS13)。すなわち、各ショート映像に作業の種類が対応付けられて、記憶装置12に保存される。ここでの作業の種類は、第1作業及び第2作業のいずれかである。ショート映像に対してラベル付けされた作業の種類は、ショート映像から作成される第1映像データ121A及び第2映像データ121Bに対応付けられた作業の種類として用いられる。
【0058】
処理装置11は、ショート映像から、等間隔かつ時系列順に複数の画像データを抽出する(ステップS14)。例えば、
図9に示すように、60秒分の複数の画像データから構成されている60秒ショート映像から、32枚の画像データが抽出される。抽出された32枚の画像データの組が、学習用の第1映像データ121Aになる。このように画像データを間引くことで、第1映像データ121Aの時間長を長くしても、第1映像データ121Aのデータ量増加を抑えることができる。第1映像データ121Aにおいて、32枚の画像データは、60秒分の時間長(第1時間長)を有し、時系列順に並んでいる。
【0059】
学習データ生成処理110において、ステップS14までの処理は、第1映像データ生成処理111に相当する。生成された複数の第1映像データ121Aそれぞれは、複数の第1映像データ121Aに含まれる他の第1映像データ121Aと時間的に重複している。例えば、各第1映像データ121Aは、60秒の時間長を有し、他の第1映像データ121Aとの重複時間は、30秒である。なお、学習データ生成処理110においては、ショート映像から等間隔かつ時系列順に複数の画像データを抽出する手順を省略して、各ショート映像を第1映像データ121Aとしてもよい。
【0060】
さらに、処理装置11は、ショート映像から、等間隔、かつ、前記時系列順とは逆順に複数の画像データを抽出する(ステップS15)。例えば、
図9に示すように、60秒分の複数の画像データから構成されている60秒ショート映像から、第1映像データ121Aとは逆順に32枚の画像データが抽出される。抽出された32枚の画像データの組が、学習用の第2映像データ121Bになる。このように画像データを間引くことで、第2映像データ121Bの時間長を長くしても、第2映像データ121Bのデータ量増加を抑えることができる。第2映像データ121Bにおいて、32枚の画像データは、60秒分の時間長(第1時間長)を有し、時系列順とは逆順に並んでいる。すなわち、第2映像データ121Bを再生したものは、第1映像データ121Aを逆再生したものに相当する。
【0061】
学習データ生成処理110において、ステップS15の処理は、第2映像データ生成処理112に相当する。生成された複数の第2映像データ121Bそれぞれは、複数の第2映像データ121Bに含まれる他の第2映像データ121Bと時間的に重複している。例えば、各第2映像データ121Bは、60秒の時間長を有し、他の第2映像データ121Bとの重複時間は、30秒である。なお、学習データ生成処理110においては、ショート映像から第2映像データ121Bが生成されるのではなく、第1映像データ121Aを逆順に並び替えることで、第2映像データ121Bが生成されてもよい。
【0062】
本実施形態では、学習データとして第1映像データ121Aだけでなく、第1映像データ121Aとは逆順の第2映像データ121Bも作成されるため、学習データの数を増加させることができる。また、第1映像データ121A及び第2映像データ121Bそれぞれは重複時間を有しているため、学習データの数が更に増加している。
【0063】
学習モデル生成装置10は、第1映像データ121A及び第2映像データ121Bを学習データ(教師データ)として、機械学習処理115を実行する。機械学習処理115によって、学習モデル225が、作業分類などの行動認識のために最適化される。以上により、学習モデル225の生成が完了する。学習データ生成処理110では、第2映像データ121Bを生成するというデータ拡張が行われているため、学習データ数が多くなっている。このため、効率的な学習が可能である。生成された学習モデル225は、行動認識装置20へ送信される。
【0064】
ここで、映像データが入力される学習モデル(特に、3D-CNN)は、映像データの動き特徴を捉えているわけではなく、入力された映像データのうち識別(分類)に必要な画像データ(画像フレーム)を選択しているにすぎない。したがって、映像データ中のオブジェクト(作業者など)が向いている向き及び動きの順序は、行動認識にさほど影響しない。本実施形態では、かかる観点に着目し、第1映像データ121Aとは逆順の第2映像データ121Bを作成することで、学習データのデータ拡張を行った。後述のように、第2映像データ121Bを用いると、行動認識精度(作業分類精度)を低下させることなく、効率的な学習が可能である。
【0065】
図10は、実施形態に係る学習モデルを用いた行動認識装置20によって、第1作業及び第2作業を行う作業者の作業を分類した実験結果を示している。実験として、第1の日において行った第1実験と、第1の日とは異なる第2の日において行った第2実験とを実施した。第1実験及び第2実験それぞれは、複数の異なる条件について行った。複数の条件は、条件1、条件2、条件3、条件4、条件5、及び条件6である。
【0066】
条件1では、互いに重複しておらず、画像データが時系列順に並んだ複数の第1映像データ121Aだけを学習データとして用いた。条件2では、互いに重複しておらず画像データが時系列順に並んだ複数の第1映像データ121Aと、互いに重複しておらず画像データが時系列順の逆順に並んだ複数の第2映像データ121Bと、を学習データとして用いた。条件3では、条件2と同様に第1映像データ121A及び第2映像データ121Bを用いた。ただし、条件3では、第1映像データ121A間の重複時間及び第2映像データ121B間の重複時間を、それぞれ5[s]とした。
【0067】
条件4は、重複時間を20[s]とした以外は、条件3と同様である。条件5は、重複時間を25[s]とした以外は、条件3と同様である。条件6は、重複時間を30[s]とした以外は、条件3と同様である。
【0068】
図10において、TPは、真陽性(True Positive)をし、正しく第1作業と分類されたことを示す。FPは、偽陽性(False Positive)を示し、誤って第1作業と分類されたことを示す。FNは、偽陰性(False Negative)を示し、第1作業であることを見逃したことを示す。TNは、真陰性(True Negative)を示し、正しく第2作業と分類されたことを示す。
【0069】
また、適合率は、TP/(TP+FP)の式によって計算される。再現率は、TP/(TP+FN)の式によって計算される。F値(F-Measure)は、(2×適合率×再現率)/(適合率+再現率)の式によって計算される。F値は、適合率と再現率との調和平均である。
【0070】
条件1の場合、第1実験及び第2実験のF値の平均は、0.598であった。条件1の場合、第1実験及び第2実験のF値の平均は、0.672であった。条件1と条件2を比べると、条件2のほうが、F値の平均が良好である。したがって、逆順の第2映像データ121Bを学習データとして用いることが有利であることがわかる。
【0071】
条件3の場合、第1実験及び第2実験のF値の平均は、0.871であった。条件2と条件3とを比べると、条件3のほうが、F値の平均が良好である。したがって、重複時間がある第2映像データ121Bを学習データとして用いることが有利であることがわかる。
【0072】
条件4の場合、第1実験及び第2実験のF値の平均は、0.882であった。条件5の場合、第1実験及び第2実験のF値の平均は、0.897であった。条件5の場合、第1実験及び第2実験のF値の平均は、0.934であった。したがって、重複時間が長いほど、F値が良好になることがわかる。特に、重複時間が30秒であり、第1映像データ121A及び第2映像データ121Bそれぞれの時間長(第1時間長)に対する重複時間の割合が50%である条件5のF値が最も良好であった。
【0073】
また、
図11及び
図12は、第1実験における条件1,2,3,4,5,6それぞれにおける目視確認による作業分類結果と、学習モデルによる作業分類結果を示す。また、
図13及び
図14は、第2実験における条件1,2,3,4,5,6それぞれにおける目視確認による作業分類結果と、学習モデルによる作業分類結果を示す。
図11から
図14に示す分類結果において、横軸は時間である。
図11から
図14において、白色箇所は第1作業に分類されたことを示し、黒色箇所は第2作業に分類されたことを示す。
【0074】
図11及び
図12に示す着目点721,722,723,724,725,726を観察すると、第1実験においては、条件1,2,3,4,5,6の順で、学習モデルによる分類結果が目視による分類結果により近づいており良好になっている。
【0075】
また、
図13及び
図14に示す着目点731,732,733,734,735,736を観察すると、第2実験においても、条件1,2,3,4,5,6の順で、学習モデルによる分類結果が目視による分類結果により近づいており良好になっている。
【0076】
図10から
図14に示す実験結果によれば、第1映像データ121A及び第2映像データ121Bそれぞれの時間長(第1時間長)に対する重複時間の割合は、50%以上であるのがより好ましい。前述のように重複時間の割合が大きすぎると、重複するショート映像同士の違いが小さくなる。このため、第1映像データ121A及び第2映像データ121Bそれぞれの時間長(第1時間長)に対する重複時間の割合は、50%以上、80%以下の範囲内にあるのが好ましい。
【0077】
なお、今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味、及び範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0078】
1 :システム
10 :学習モデル生成装置
11 :処理装置
12 :記憶装置
14 :コンピュータプログラム
15 :インタフェース
20 :行動認識装置
21 :処理装置
22 :記憶装置
24 :コンピュータプログラム
25 :インタフェース
30 :撮像装置
40 :表示装置
110 :学習データ生成処理
111 :第1映像データ生成処理
112 :第2映像データ生成処理
115 :機械学習処理
120 :元映像データ
121 :学習データ
121A :第1映像データ
121B :第2映像データ
210 :行動認識処理
220 :元映像データ
221 :テストデータ
225 :学習モデル
400 :画面
401 :日付表示部
402 :第1作業表示部
403 :凡例表示部
405 :分類結果表示部
721 :着目点
722 :着目点
723 :着目点
724 :着目点
725 :着目点
726 :着目点
731 :着目点
732 :着目点
733 :着目点
734 :着目点
735 :着目点
736 :着目点