特許6783713 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社　日立産業制御ソリューションズの特許一覧

特許6783713人行動推定システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B
6C
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6783713

(24)【登録日】2020年10月26日

(45)【発行日】2020年11月11日

(54)【発明の名称】人行動推定システム

(51)【国際特許分類】

G06T 7/20 20170101AFI20201102BHJP

【ＦＩ】

G06T7/20 300Z

【請求項の数】6

【全頁数】10

(21)【出願番号】特願2017-127426(P2017-127426)

(22)【出願日】2017年6月29日

(65)【公開番号】特開2019-12328(P2019-12328A)

(43)【公開日】2019年1月24日

【審査請求日】2019年7月18日

(73)【特許権者】

【識別番号】000153443

【氏名又は名称】株式会社日立産業制御ソリューションズ

(74)【代理人】

【識別番号】110000350

【氏名又は名称】ポレール特許業務法人

(72)【発明者】

【氏名】和久井一則

(72)【発明者】

【氏名】加納泰輔

(72)【発明者】

【氏名】三沢博章

【審査官】藤原敬利

(56)【参考文献】

【文献】特開２０１６−０３８７１６（ＪＰ，Ａ）

【文献】特開２０１６−１８１２２０（ＪＰ，Ａ）

【文献】特開２００５−２５０７０８（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｔ１／００ − １／４０

Ｇ０６Ｔ３／００ − ９／４０

Ｈ０４Ｎ７／１８

(57)【特許請求の範囲】

【請求項1】

人が道具を用いて行う行動を判別する人行動推定システムであって、
前記行動を撮影した映像を取得する映像取得部と、
前記映像取得部からの前記映像に基づき、あらかじめ定められた人行動定義から、前記映像に撮影された前記行動に対しての人行動候補を出力する人行動判別部と、
前記道具に付されたセンサからセンサ情報を取得する道具データ取得部と、
前記道具データ取得部からの前記センサ情報に基づき、あらかじめ定められた道具動作定義から、前記センサ情報が取得された前記道具に対しての道具動作候補を出力する道具動作判別部と、
前記人行動判別部より出力された前記人行動候補及び前記道具動作判別部より出力された前記道具動作候補に基づき、前記映像取得部からの前記映像に撮影された前記行動を推定する総合人行動判別部とを有する人行動推定システム。

【請求項2】

請求項１において、
前記人行動定義は、前記行動が行われる領域を示す第１領域情報を含み、
前記道具動作定義は、前記道具が使用される領域を示す第２領域情報を含み、
前記総合人行動判別部は、前記人行動候補の前記第１領域情報及び前記道具動作候補の前記第２領域情報に基づきマッピングすることにより、前記映像取得部からの前記映像に撮影された前記行動を推定する人行動推定システム。

【請求項3】

請求項２において、
前記第１領域情報は、前記映像の映像空間を区分することにより定義される人行動推定システム。

【請求項4】

請求項２において、
前記道具動作判別部が、前記センサ情報が取得された前記道具に対して該当する前記道具動作定義がないと判別する場合、または前記総合人行動判別部が前記映像に撮影された前記行動に対して該当する前記人行動定義がないと推定する場合に警告を発する人行動推定システム。

【請求項5】

請求項１において、
前記人行動判別部は、前記人行動定義と前記映像取得部からの前記映像とを対応付けた学習データによって機械学習させることによって得られる学習モデルを用いて前記映像に撮影された前記行動に対しての前記人行動候補を出力する人行動推定システム。

【請求項6】

請求項１において、
前記道具動作判別部は、前記道具動作定義と前記道具データ取得部からの前記センサ情報とを対応付けた学習データによって機械学習させることによって得られる学習モデルを用いて前記センサ情報が取得された前記道具に対しての前記道具動作候補を出力する人行動推定システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、人物の行動推定システムに関する。

【背景技術】

【0002】

特許文献１には、「人物行動判定装置は、映像に含まれる１以上の人物領域を所定のフレーム間隔で機械学習により検出する人物領域検出手段と、人物領域毎に特徴量を算出すると共に、複数のフレーム画像において人物領域の特徴量が類似する人物領域を同一人物の人物領域と判定し、同一人物の人物領域の重心位置を連結して人物軌跡を生成する人物軌跡生成手段と、人物軌跡毎に特徴量を算出すると共に、人物軌跡の特徴量が行動条件を満たすか否かを判定し、人物軌跡の特徴量が行動条件を満たすときは、人物が行動条件に対応する行動を行っていると判定する人物行動判定手段と、を備える。」と記載されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１１−１００１７５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

映像解析による人物の動作認識は、映像中から人物領域を切り出し、その人物の輪郭を正確に取得し、人物を正確に抽出できていることが前提となっている。しかし、人物が抽出できたとしても、人の行動は、カメラの位置、手の位置、体の位置などにより死角が生じてしまい、正確な人物の行動推定が困難である。

【0005】

特許文献１では、人物軌跡の特徴量が人物の行動毎に予め設定された行動条件を満たすか否かにより、人物の行動を判定する人物行動判定装置について記載されている。しかし、死角に隠れた行動に行動条件を設定することは難しく、このような場合に人物の行動を正確に判定するためには情報が不足していると考えられる。

【課題を解決するための手段】

【0006】

このために、特許請求の範囲に記載の構成を採用する。例えば、本発明に係る、人が道具を用いて行う行動を判別する人行動推定システムは、行動を撮影した映像を取得する映像取得部と、映像取得部からの映像に基づき、あらかじめ定められた人行動定義から、映像に撮影された行動に対しての人行動候補を出力する人行動判別部と、道具に付されたセンサからセンサ情報を取得する道具データ取得部と、道具データ取得部からのセンサ情報に基づき、あらかじめ定められた道具動作定義から、センサ情報が取得された道具に対しての道具動作候補を出力する道具動作判別部と、人行動判別部より出力された人行動候補及び道具動作判別部より出力された道具動作候補に基づき、映像取得部からの映像に撮影された行動を推定する総合人行動判別部とを有する。

【発明の効果】

【0007】

行動推定対象とする人の行動を、人を撮影している映像からの行動推定と、人が使用している工具の動作推定とを用いることで、精度よく実現することができる。

【図面の簡単な説明】

【0008】

【図1】人物行動推定システムの処理フローを示す図である。

【図2】監視空間の領域区分例である。

【図3】映像の人行動情報の定義（学習データ）を示す図である。

【図4】工具（センサ）データの工具動作情報の定義（学習データ）を示す図である。

【図5】総合人行動判別部のフローチャートを示す図である。

【図6A】監視空間の映像例である。

【図6B】監視空間の別の映像例である。

【図6C】監視空間の別の映像例である。

【図7】人物行動推定結果と工具動作推定結果とのマッピング図である。

【図8】人物行動推定システムを実現するハードウェア構成を示す図である。

【発明を実施するための形態】

【0009】

図１に人行動推定システム１の処理フローを示す。人行動推定システム１は一般的なＰＣ（Personal Computer）などのローカル環境で実現しても、クラウドのようなネットワーク経由で実現しても、どちらでもよい。

【0010】

図８に人行動推定システム１を実現するハードウェア構成例を示す。計算機８００は、プロセッサ８０１、主記憶８０２、補助記憶８０３、入出力インタフェース８０４、表示インタフェース８０５、ネットワークインタフェース８０６を含み、これらはバス８０７により結合されている。入出力インタフェース８０４は、キーボードやマウス等の入力装置８０９と接続されてユーザインタフェースを提供する。表示インタフェース８０５は、ディスプレイ８０８に接続される。ネットワークインタフェース８０６は計算機８００と外部ネットワーク（図示せず）とを接続するためのインタフェースである。

【0011】

補助記憶８０３は通常、ＨＤＤやフラッシュメモリなどの不揮発性メモリで構成され、計算機８００が実行するプログラムやプログラムが処理対象とするデータ等を記憶する。主記憶８０２はＲＡＭで構成され、プロセッサ８０１の命令により、プログラムやプログラムの実行に必要なデータ等を一時的に記憶する。プロセッサ８０１は、補助記憶８０３から主記憶８０２にロードしたプログラムを実行する。

【0012】

人行動推定システム１の処理ブロックのそれぞれはプログラムとして補助記憶８０３に格納されており、補助記憶８０３から主記憶８０２にロードされ、プロセッサ８０１により実行される。また、図１に特定のデータの格納するデータベースについても、それぞれ補助記憶８０３に記憶され、あるいは補助記憶８０３から主記憶８０２に呼び出されて処理がなされる。以下では、一応用例として、製造ラインの作業員が正しく部品の取り付けや加工を行っているかを監視する監視システムに人行動推定システム１を適用した場合を例にとって説明する。

【0013】

カメラ装置２００は行動推定対象の人（この例では製造ラインの作業者）を撮影する。映像取得部１０はカメラ装置２００で撮影された映像（動画像）を取得し、映像情報蓄積部１１に格納する。システムではあらかじめ判別したい人の行動を人行動定義１２として定義しておく。例えば、図３のテーブル４００では、「人」「領域」「動作」の３カテゴリについて、人の行動を定義する例を示している。

【0014】

「人」カテゴリは、行動推定対象の人が誰かを定義する。この例では「人Ａ」、「人Ｂ」が定義されている。「領域」カテゴリは、行動推定対象の人が撮影された映像のどの領域において行動（作業）しているかを定義する。これは、製造ラインの作業員がどの作業をどこで行うか、およそ定まっているため、行動推定対象の人がどこで行動しているかは行動推定に重要な情報であるためである。このため、図２のようにカメラ装置２００によって撮影される映像空間を区分し（この例では３×３の９領域に区分している）、行動推定対象の人が映っている位置を定義する。なお、単純化のためカメラ装置２００を固定として、映像空間により領域を区分する例で本実施例は説明するが、カメラ装置２００がステレオカメラであれば、３次元空間で定義してもよい。さらに、現実空間の領域を区分し、公知の映像処理技術により、映像から行動推定対象の人がどの現実空間の領域にいるか解析してもよい。「動作」カテゴリは、行動推定対象の人が何の行動（作業）をしているかを定義する。この例では「ねじをしめる」、「穴をあける」、「ねじをゆるめる」といった作業が定義されている。この定義はカメラ装置２００で撮影された映像（動画像）から判別したい内容にしたがって定めればよい。「動作」カテゴリは作業マニュアル等により作業者が製造ラインにおいて実行する作業であって監視システムにおいて判別したい作業を洗い出して定めることができる。なお、これらの全てのカテゴリについて定義することを要求するものではなく、行動推定対象の人が誰であるか特定不要であれば、「人」カテゴリを定義する必要はない。あるいは、例えば、作業者の服装や装備のように、必要に応じて別の定義カテゴリを設けてもよい。

【0015】

一方、行動推定対象とする人が用いる工具であるドライバ１０１ａ、錐１０１ｂには、振動センサや加速度センサなどのセンサ１０３ａ，ｂが取り付けられている。センサの種類は特に限定されず、工具ごとに異なっていても、また複数のセンサが設けられていても構わない。工具データ取得部２０は、工具１０１が使用される位置を示す位置情報及び、工具１０１に取り付けられたセンサ１０３からのセンサデータやセンサデータを加工した情報もしくは、工具の出力情報を取得し、工具データ蓄積部２１へ格納する。例えば、ドライバ１０１ａに加速度センサ１０３ａが取り付けられている場合、ねじをしめる動作時に取得した加速度データや加工した軌跡データを蓄積する。また、工具１０１が使用される位置情報については工具から取得しても、映像取得部１０で取得された映像から検出するようにしてもよい。システムではあらかじめ判別したい人の行動に伴う工具動作を工具動作定義２２として定義しておく。例えば、図４のテーブル５００では、「工具」「領域」「動作」の３カテゴリについて、人の行動を定義する例を示している。

【0016】

「工具」カテゴリは、行動推定対象の人が使用する工具を定義する。この例では「ドライバ」、「錐」が定義されている。「領域」カテゴリは、工具が用いられている領域を定義する。これは、製造ラインの作業員がどの作業をどこで行うか、およそ定まっているため、工具が用いられる場所もそれに伴って限定されることによる。領域は人行動定義と同様に定めることができ、人行動定義と同じ領域定義をしてもよいし、異なる領域定義をしてもよい。図４の例では同じ領域定義をしている。「動作」カテゴリは、工具で行われる動作を定義する。この例ではドライバであれば「ねじをしめる」、「ねじをゆるめる」、錐であれば「穴をあける」といった動作が定義されている。

【0017】

人行動学習部１３では、まずカメラ装置２００から取得し、映像情報蓄積部１１に蓄積された映像を人行動定義１２に基づき定義する。これが学習データとなる。図３に示すテーブル４００は学習データの例であり、例えば、レコード４０１は映像「a.mpeg」は「人Ａ」が領域「X1Y1及びX1Y2」において「ねじをしめる」動作をおこなっている映像であると定義するものである。学習データ４００により人の行動を判別するモデルをつくる。例えば、ディープラーニング等の機械学習を用いて、カメラ装置２００から取得した映像から人の行動を判別するモデルを作成する。人行動学習結果であるモデルは、人行動学習結果蓄積部１４に保存される。

【0018】

工具動作学習部２３では、まず工具１０１に取り付けられたセンサ１０３から取得し、工具データ蓄積部２１に蓄積された工具データを工具動作定義２２に基づき定義する。これが学習データとなる。図４に示すテーブル５００は学習データの例であり、例えば、レコード５０１は、工具データ「a.csv」は「ドライバ」が領域「X1Y3」において「ねじをしめる」動作をおこなっている工具データであると定義するものである。なお、工具に取り付けられたセンサが加速度センサであれば、工具データ「a.csv」とは、検出した加速度の時系列データやそれを加工した特徴量データ（テキストデータファイル）である。学習データ５００により工具動作を判別するモデルをつくる。例えば、ディープラーニング等の機械学習を用いて、工具に取り付けられたセンサ１０３から取得した工具データから工具動作を判別するモデルを作成する。工具動作学習結果であるモデルは、工具動作学習結果蓄積部２４に保存される。

【0019】

人行動判別部１５は、人行動学習結果蓄積部１４に保存されたモデルを映像取得部１０からの映像に適用して、人の行動を推定して人の行動候補を出力する。ここでは複数の行動候補を出力することを許容する。同様に、工具動作判別部２５は、工具動作学習結果蓄積部２４に保存されたモデルを工具データ取得部２０からの工具データに適用して、工具動作を推定して工具の動作候補を出力する。ここでは複数の動作候補を出力することを許容する。

【0020】

図５に総合人行動判別部２のフローチャートを示す。まず、工具動作判別部２５の結果の有無を判定する（Ｓ５１）。工具動作判別部２５からの工具動作候補がない場合は人行動判別部１５の人の行動候補を結果として出力する。工具動作判別部２５の工具動作候補がある場合、人行動判別部１５の人の行動候補と工具動作判別部２５の工具動作候補を比較して一致判定する（Ｓ５２）。人行動判別部１５からの人の行動候補と工具動作判別部２５からの工具動作候補とが一致する場合は、一致したものを人の行動判別結果として出力する。不一致の場合、人の行動候補と工具の動作候補から人の行動を推定して、推定結果を出力する（Ｓ５３）。

【0021】

総合人行動判別部２は、映像のみからでは行動推定対象の人の行動を判定することが困難であることが多いことから、工具からの動作情報により判定精度を高めるものである。例えば、図６Ａは、「人Ａ」が、「ドライバ１０１ａ」で領域「X1Y1, X1Y2」において「ねじをしめる」状況を映した映像の一シーンである。同様に、図６Ｂは、「人Ａ」が、「錐１０１ｂ」で領域「X2Y1, X2Y2」において「穴をあける」状況を映した映像の一シーンである。また同様に、図６Ｃは、「人Ｂ」が、「ドライバ１０１ａ」で領域「X2Y1, X2Y2」において「ねじをゆるめる」状況を映した映像の一シーンである。これらは、人が目視で行動を判定する場合でも、類似の映像であるため判定が難しいものである。まして、画像処理による行動判定では、これらの類似行動を正確に判別することは難しく、さらに、重要な行動判定のもととなる工具は人の影に隠れてしまい、映像から常時確認することが難しい。

【0022】

例えば、人Ａが監視領域全体のおよそ左下半分の領域においてドライバによりねじをしめる作業を行っているとし、本実施例では、まず、その状況に対する映像を映像取得部１０が、その状況に対する工具データを工具データ取得部２０が取得し、それぞれ人行動判別部１５及び工具動作判別部２５がそれぞれ学習結果蓄積部のモデルを用いて判別する。ここで、人行動定義は図３に、工具動作定義は図４のようであったとする。

【0023】

このとき、人行動判別部１５は、「人Ａ」が領域「X1Y1, X1Y2」において「ねじをしめる」という人行動候補４０１と、「人Ａ」が領域「X2Y1, X2Y2」において「ねじをしめる」という人行動候補４０２と、「人Ｂ」が領域「X2Y1, X2Y2」において「穴をあける」という人行動候補４０３と、「人Ａ」が領域「X2Y1, X2Y2」において「ねじをゆるめる」という人行動候補４０５とを人行動候補として出力する可能性がある。

【0024】

なお、人は動きながら行動したり、あるいは作業位置が人行動定義における監視領域の区分を跨っていたりする場合には、一連の作業であったとしても人行動判別部１５は複数の人行動候補を出力する可能性がある。例えば、上述の例であれば人行動候補４０１と人行動候補４０２の双方を出力する。このような場合には、連続動作である場合には、いずれか一方（例えば、候補を推定したときの領域）を出力するようにしてもかまわない。

【0025】

一方、工具動作判別部２５は、「ドライバ」が領域「X2Y1」において「ねじをしめる」という動作候補５０２と、「ドライバ」が領域「X2Y2」において「ねじをしめる」という動作候補５０３とを出力する可能性がある。なお、工具の位置情報にずれが生じたりや工具の位置が工具動作定義における監視領域の区分を跨っていたりする場合には、一連の作業であったとしても工具動作判別部２５は複数の工具動作候補を出力する可能性がある。このような場合には、人行動候補と同様に、連続動作である場合には、いずれか一方（例えば、候補を推定したときの領域）を出力するようにしてもかまわない。

【0026】

総合人行動判別部２では、まず、人行動判別部１５で出力した人行動候補と工具動作判別部２５の出力した工具動作候補とを照合し、矛盾するものを除く。例えば、「穴をあける」人行動候補４０３、「ねじをゆるめる」人行動候補４０５は出力された工具動作候補から排除される。さらに、図７のように、人行動判別部１５が推定した人行動候補と、工具動作判別部２５が推定した工具動作候補とのマッピングを行い、その重なりに基づき人行動推定候補として出力する。この場合、「人Ａ」が領域「X2Y1, X2Y2」において、「ドライバ１０１ａ」で「ねじをしめる」を人行動推定候補とする。なお、総合人行動判別部２においても、図７のようなマッピング状況をディープラーニングなどの機械学習により分類問題として学習し、人行動推定するようにしてもよい。

【0027】

また、本実施例では工具の使用領域を定義しているため、例えば、工具動作定義が図４のようであれば、錐１０１ｂは領域「X2Y2」、「X3Y1」での使用のみが定義されているため、工具動作判別部２５または総合人行動判別部２により、領域「X2Y2」、「X3Y1」以外での使用状況が取得できれば警告を発することが可能となり、工具の誤使用や誤作業防止を図ることも可能である。具体的には、工具動作判別部２５は、該当する道具動作定義がないと判別する場合、あるいは総合人行動判別部２が該当する人行動定義がないと推定する場合に警告を発する。

【0028】

以上、本発明を製造ラインにおける監視システムに適用した場合を例に説明したが、記載の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、工具は行動推定対象の人が使用する一般的な道具やものに拡張可能である。上述の実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

【符号の説明】

【0029】

１：人行動推定システム、２：総合人行動判別部、１０：映像取得部、１１：映像情報蓄積部、１２：人行動定義、１３：人行動学習部、１４：人行動学習結果蓄積部、１５：人行動判別部、２０：工具データ取得部、２１：工具データ蓄積部、２２：工具動作定義、２３：工具動作学習部、２４：工具動作学習結果蓄積部、２５：工具動作判別部、１０１：工具、１０３：センサ、２００：カメラ装置。

【図1】