IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > 富士通株式会社

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2022-189456行動認識プログラム、行動認識方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022189456

(43)【公開日】2022-12-22

(54)【発明の名称】行動認識プログラム、行動認識方法および情報処理装置

(51)【国際特許分類】

G06T 7/20 20170101AFI20221215BHJP

G06T 7/246 20170101ALI20221215BHJP

【ＦＩ】

G06T7/20 300Z

G06T7/246

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021098038

(22)【出願日】2021-06-11

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】内田大輔

(72)【発明者】

【氏名】島田智史

(72)【発明者】

【氏名】村瀬有一

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096CA04

5L096DA02

5L096FA05

5L096FA62

5L096FA64

5L096FA66

5L096FA67

5L096FA69

5L096GA30

5L096GA51

5L096HA11

5L096JA22

5L096KA04

(57)【要約】

【課題】対象者の行動を低コストで高精度に認識することを課題とする。
【解決手段】情報処理装置は、撮像装置により取得される画像から人物の骨格情報を検出する。情報処理装置は、人物が撮像された位置と対象となる領域および対象物の位置に関する領域情報を取得する。情報処理装置は、人物の骨格情報と領域情報とに基づいて、人物が対象物に行う動作を推定する。情報処理装置は、人物と対象物との距離と、推定された動作とに基づき、人物の行動を認識する。
【選択図】図７

【特許請求の範囲】

【請求項1】

コンピュータに、
撮像装置により取得される画像から人物の骨格情報を検出し、
前記人物が撮像された位置と対象となる領域および対象物の位置に関する領域情報を取得し、
前記人物の骨格情報と前記領域情報とに基づいて、前記人物が前記対象物に行う動作を推定し、
前記人物と前記対象物との距離と、推定された前記動作とに基づき、前記人物の行動を認識する、
処理を実行させることを特徴とする行動認識プログラム。

【請求項2】

前記推定する処理は、
前記対象物に対して手を伸ばした動作、前記対象物を見ている動作、または、前記対象物に向いている動作のいずれかの条件を満たすか否かにより、前記人物が前記対象物に行う動作を推定し、
前記認識する処理は、
前記人物と前記対象物の距離が閾値未満、かつ、前記いずれかの条件と満たす動作が推定された場合に、前記人物が前記対象物に手を伸ばした行動と認識する、
ことを特徴とする請求項１に記載の行動認識プログラム。

【請求項3】

前記認識する処理は、
前記人物と前記対象物の距離が閾値未満、かつ、所定時間の間に、予め指定した複数の動作が予め指定した順番通りに推定された場合に、前記人物が前記対象物に手を伸ばした行動と認識する、
ことを特徴とする請求項２に記載の行動認識プログラム。

【請求項4】

前記人物と前記対象物との距離として、前記人物の骨格情報と前記領域情報とから前記人物の手が届く範囲を推定する処理を前記コンピュータに実行させ、
前記認識する処理は、
推定された前記動作と、前記人物の手が届く範囲とを用いて、前記人物が前記対象物に手を伸ばした行動を認識する、
ことを特徴とする請求項１から３のいずれか一つに記載の行動認識プログラム。

【請求項5】

前記人物の手が届く範囲を推定する処理は、
前記骨格情報により特定される両足の中心点を前記人物が立っている位置と検出し、
前記対象物に対して、前記両足の中心点からの最短距離を算出し、
前記最短距離に対する、前記対象物の高さ方向への垂線を算出し、
前記垂線に対して、前記骨格情報により特定される足から肩までの高さに対応する前記垂線の位置を、前記人物の手が届く範囲と推定する、
ことを特徴とする請求項４に記載の行動認識プログラム。

【請求項6】

前記人物の手が届く範囲を推定する処理は、
前記骨格情報に基づき前記人物の肩幅を算出し、
前記骨格情報により特定される足から肩までの高さに対応する前記垂線の位置で、前記肩幅に対応する領域を、前記人物の手が届く範囲と推定する、
ことを特徴とする請求項５に記載の行動認識プログラム。

【請求項7】

前記人物が前記対象物に手を伸ばした行動と認識された場合に、前記骨格情報と前記領域情報とに基づき、前記手の位置を算出し、
前記手の位置と前記対象物の位置関係とに基づき、前記手がアクセスする前記対象物を特定する、処理を前記コンピュータに実行させることを特徴とする請求項１から６のいずれか一つに記載の行動認識プログラム。

【請求項8】

前記骨格情報に基づき前記人物の属性を推定する処理を前記コンピュータに実行させ、
前記認識する処理は、
前記人物が前記対象物に手を伸ばした行動と認識した結果と、前記人物の属性とを対応付けて出力する、
ことを特徴とする請求項１から７のいずれか一つに記載の行動認識プログラム。

【請求項9】

コンピュータが、
撮像装置により取得される画像から人物の骨格情報を検出し、
前記人物が撮像された位置と対象となる領域および対象物の位置に関する領域情報を取得し、
前記人物の骨格情報と前記領域情報とに基づいて、前記人物が前記対象物に行う動作を推定し、
前記人物と前記対象物との距離と、推定された前記動作とに基づき、前記人物の行動を認識する、
処理を実行することを特徴とする行動認識方法。

【請求項10】

撮像装置により取得される画像から人物の骨格情報を検出する検出部と、
前記人物が撮像された位置と対象となる領域および対象物の位置に関する領域情報を取得する取得部と、
前記人物の骨格情報と前記領域情報とに基づいて、前記人物が前記対象物に行う動作を推定する推定部と、
前記人物と前記対象物との距離と、推定された前記動作とに基づき、前記人物の行動を認識する認識部と、
を有することを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、行動認識プログラム、行動認識方法および情報処理装置に関する。

【背景技術】

【0002】

ＡＩ（Artificial Intelligence）技術の発展により、映像から人や物体を認識し、認識した人の骨格情報から人の動作や姿勢、状態や行動を自動で検知する技術が開発されたり、利用されたりしている。例えば、高齢者や体の不自由な人を自動で検知し、危険な状態か否かを把握するする技術や、作業者の姿勢や工程を認識し、危険な場所に立ち入っていないか、無理な姿勢で作業していなか、手順を守っているか等を把握する技術がある。

【0003】

このように、ＡＩ技術の活用により、人の行動や状態を自動で分析することが可能であることから、購買分析や作業分析、現場監視や見守り、不審者検知など様々な分野への適用が望まれる。例えば、カメラとセンサを組み合わせ、対象者の動作、特に手を伸ばした動作や作業を認識する技術が知られている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１９－１３９３２１号公報

【特許文献2】特開２０１５－１７６２２７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記技術では、対象者の行動を低コストで高精度に認識することが難しい。例えば、センサを用いる認識技術は、レーザーや無線などの特殊なセンサを使うことが一般的であり、構成が複雑で、コストも高くなる。なお、カメラのみを用いる認識技術も知られているが、上下左右および奥行方向が正確に検知できない。

【0006】

一つの側面では、対象者の行動を低コストで高精度に認識することができる行動認識プログラム、行動認識方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0007】

第１の案では、行動認識プログラムは、コンピュータに、撮像装置により取得される画像から人物の骨格情報を検出し、前記人物が撮像された位置と対象となる領域および対象物の位置に関する領域情報を取得し、前記人物の骨格情報と前記領域情報とに基づいて、前記人物が前記対象物に行う動作を推定し、前記人物と前記対象物との距離と、推定された前記動作とに基づき、前記人物の行動を認識する、処理を実行させることを特徴とする。

【発明の効果】

【0008】

一実施形態によれば、対象者の行動を低コストで高精度に認識することができる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施例１にかかる情報処理装置を説明する図である。

【図2】図２は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。

【図3】図３は、対象場所情報ＤＢに記憶される情報の例を示す図である。

【図4】図４は、人物検知および骨格検知を説明する図である。

【図5】図５は、骨格情報の一例を説明する図である。

【図6】図６は、人物の動作推定を説明する図である。

【図7】図７は、手伸ばし範囲の推定を説明する図である。

【図8】図８は、人物の手伸ばし行動認識と位置算出を説明する図である。

【図9】図９は、実施例１にかかる行動認識処理の全体的な流れを示すフローチャートである。

【図10】図１０は、実施例１にかかる人物検知処理の流れを示すフローチャートである。

【図11】図１１は、実施例１にかかる骨格検知処理の流れを示すフローチャートである。

【図12】図１２は、実施例１にかかる動作推定処理の流れを示すフローチャートである。

【図13】図１３は、実施例１にかかる範囲推定処理の流れを示すフローチャートである。

【図14】図１４は、実施例１にかかる手伸ばし行動の認識処理の流れを示すフローチャートである。

【図15】図１５は、実施例１にかかる手伸ばし位置の算出処理の流れを示すフローチャートである。

【図16】図１６は、実施例２にかかる行動認識処理の全体的な流れを示すフローチャートである。

【図17】図１７は、出力結果の画面例を説明する図である。

【図18】図１８は、動作遷移を用いた動作推定処理を説明する図である。

【図19】図１９は、ハードウェア構成例を説明する図である。

【発明を実施するための形態】

【0010】

以下に、本願の開示する行動認識プログラム、行動認識方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

【実施例0011】

［全体構成］
図１は、実施例１にかかる情報処理装置１０を説明する図である。図１に示すように、このシステムは、衣料や食料品などを消費者に販売する小売店などに設置されるカメラなどの撮像装置と、情報処理装置１０とが有線や無線に接続され、情報処理装置１０により小売店内の購買状況を把握するシステムである。情報処理装置１０は、小売店の店内の映像データを取得して解析することで、ある商品を購入する消費者層の特定、ある商品を手に取った消費者層の特定などに利用可能な情報を生成して出力するコンピュータ装置の一例である。

【0012】

具体的には、情報処理装置１０は、撮像装置により取得される画像データなどから人物の骨格情報を特定する。そして、情報処理装置１０は、人物が撮像された位置と対象となる領域および対象物の位置に関する領域情報を取得し、人物の骨格情報と領域情報とに基づいて、人物が対象物に行う動作を推定する。その後、情報処理装置１０は、人物と対象物との距離と、推定された動作とに基づき、人物の行動を認識する。

【0013】

例えば、情報処理装置１０は、カメラから取得した画像データから人物の骨格情報を認識し、骨格情報が条件「棚を見ている（見た）、棚に向かっている、立つもしくはしゃがむ、手を伸ばしているなどの動作を含み、棚と人物の距離は手の届く範囲である」に合致する場合に、画像に存在する該人物が「棚にある商品に手を延ばす行動をしている」と認識する。そして、情報処理装置１０は、「棚にある商品に手を延ばす行動をしている」と認識した場合に、骨格情報から手を伸ばしている位置を特定する。

【0014】

このようにすることで、情報処理装置１０は、カメラの映像を使った簡易かつ低コストな手法で、対象者の行動を高精度に認識することができる。この結果、情報処理装置１０は、高精度に対象者の手伸ばし動作分析や棚だし業務等の作業分析を行うことができる。

【0015】

［機能構成］
図２は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図２に示すように、情報処理装置１０は、通信部１１、出力部１２、記憶部１３、制御部２０を有する。

【0016】

通信部１１は、他の装置の間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部１１は、カメラなどの撮像装置から、映像、画像、または、動画などのデータを受信する。

【0017】

出力部１２は、各種情報を表示する処理部であり、例えばディスプレイやタッチパネルなどにより実現される。例えば、出力部１２は、後述する制御部２０により認識された行動認識の結果などを出力する。

【0018】

記憶部１３は、各種データや制御部２０が実行するプログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部１３は、機械学習モデルＤＢ１４と対象場所情報ＤＢ１５を記憶する。

【0019】

機械学習モデルＤＢ１４は、訓練済みである機械学習モデルを記憶するデータベースである。例えば、機械学習モデルＤＢ１４は、映像データの各フレームなどである画像データの入力に応じて、画像データに写っている人物を特定し、写っている人物の領域情報を出力する第１機械学習モデルを記憶する。また、機械学習モデルＤＢ１４は、人物の領域情報および画像データの入力に応じて、写っている人物の骨格情報を出力する第２機械学習モデルを記憶する。

【0020】

対象場所情報ＤＢ１５は、撮像装置が撮像する領域に関する対象場所情報を記憶するデータベースである。具体的には、対象場所情報ＤＢ１５は、設置されている撮像装置ごとに、各撮像装置の撮像領域にある商品棚および商品の領域や位置を示す対象場所情報を記憶する。

【0021】

図３は、対象場所情報ＤＢ１５に記憶される情報の例を示す図である。図３に示すように、対象場所情報ＤＢ１５は、商品棚のＲＯＩ（Region of Interest）である棚ＲＯＩ３０、通路のＲＯＩである通路ＲＯＩ４０を記憶する。これら以外にも、対象場所情報ＤＢ１５は、商品棚の座標、商品棚（棚ＲＯＩ３０）に設置される各商品の座標、通路の座標などを記憶する。

【0022】

なお、対象場所情報は、あらかじめ棚の領域として左右上下端の位置を記録されたものでも構わない。また、対象場所情報は、棚の領域をあらかじめ学習し、認識された棚領域（Semantic Segmentation）を使用してもかまわない。また、対象場所情報は、棚の商品をあらかじめ物体モデルとして学習し、映像解析技術を用いて物体検知した領域群を使用しても構わない。

【0023】

制御部２０は、情報処理装置１０全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部２０は、映像取得部２１、人物検知部２２、骨格検知部２３、動作推定部２４、範囲推定部２５、手伸ばし行動認識部２６、手伸ばし位置算出部２７を有する。なお、映像取得部２１、人物検知部２２、骨格検知部２３、動作推定部２４、範囲推定部２５、手伸ばし行動認識部２６、手伸ばし位置算出部２７は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。

【0024】

映像取得部２１は、映像データを取得する処理部である。例えば、映像取得部２１は、ＵＳＢ（Universal Serial Bus）やＬＡＮ（Local Area Network）、無線などにより接続されるカメラより、対象とするエリアの映像データを取得し、人物検知部２２に出力する。なお、映像取得部２１は、カメラからのリアルタイムな映像データのほか、あらかじめ撮影した動画像データを取得することもできる。

【0025】

人物検知部２２は、映像データから映像データに映っている人物を検知する処理部である。具体的には、人物検知部２２は、映像取得部２１により取得される映像データの各フレームについて、人物検知を実行し、検知された人物に関する情報を骨格検知部２３に出力する。例えば、人物検知部２２は、取得した映像に対し、深層学習等の映像解析技術を用いて人物検知を行う。なお、閾値等のパラメータを用い、人物らしさを判定し、次のフレーム映像取得処理に移ってもかまわない。

【0026】

骨格検知部２３は、撮像装置により取得される画像から人物の骨格情報を検出する処理部である。例えば、骨格検知部２３は、人物検知部２２により検知された人物領域に対し、同様に映像解析技術を用い、骨格検知を行う。なお、閾値等のパラメータを用い、骨格らしさを判定し、次のフレーム映像取得処理に移ってもかまわない。

【0027】

ここで、人物検知と骨格検知について具体的に説明する。図４は、人物検知および骨格検知を説明する図である。図４に示すように、人物検知部２２は、映像データの１フレームを第１機械学習モデルに入力し、検知された人物の領域を含む位置情報（領域情報）を取得する。ここで、人物検知部２２は、第１機械学習モデルの出力値のスコア（確率）が閾値以上の場合に、出力された人物の位置情報を採用することもできる。

【0028】

続いて、骨格検知部２３は、人物が検知された画像データおよび第１機械学習モデルから得られた人物の位置情報を第２機械学習モデルに入力し、検知された人物の骨格情報を取得する。ここで、骨格検知部２３は、第２機械学習モデルの出力値のスコア（確率）が閾値以上の場合に、出力された人物の骨格情報を採用することもできる。

【0029】

図５は、骨格情報の一例を説明する図である。図５には、骨格情報として取得される骨格の定義情報が示される。図５に示すように、骨格情報は、公知の骨格モデルで特定される各関節をナンバリングした、１８個（０番から１７番）の定義情報を記憶する。例えば、右肩関節（SHOULDER＿RIGHT）には７番が付与され、左肘関節（ELBOW＿LEFT）には５番が付与され、左膝関節（KNEE＿LEFT）には１１番が付与され、右股関節（HIP＿RIGHT）には１５番が付与される。

【0030】

したがって、骨格検知部２３は、図５に示した１８個の骨格の座標情報を、第２機械学習モデルから取得する。例えば、骨格検知部２３は、７番の右肩関節の位置として「Ｘ座標＝Ｘ７、Ｙ座標＝Ｙ７、Ｚ座標＝Ｚ７」を取得する。なお、例えば、Ｚ軸は、撮像装置から対象に向けた距離方向、Ｙ軸は、Ｚ軸に垂直な高さ方向、Ｘ軸は、水平方向をと定義することができる。

【0031】

図２に戻り、動作推定部２４は、人物が撮像された位置にある対象物の領域に関する領域情報を取得し、領域情報と人物の骨格情報とに基づいて、人物が対象物に行う動作を推定する処理部である。具体的には、動作推定部２４は、人物検知部２２により検知された人物が棚に対して手を伸ばした動作、棚を見ている動作、または、棚に向いている動作（正対している動作）のいずれかの条件と一致するか否かにより、人物が対象物に行う動作を推定し、推定結果を範囲推定部２５と手伸ばし行動認識部２６に出力する。

【0032】

図６は、人物の動作推定を説明する図である。図６では、骨格情報に含まれる各関節を線でつなげることで人物を描写している。図６に示すように、動作推定部２４は、対象場所情報ＤＢ１５に記憶される棚の位置情報と、骨格検知部２３により検知された骨格情報とを用い、検出された人物の動作が予め学習した動作と一致するか否かを判定する。

【0033】

例えば、動作推定部２４は、棚からの所定位置内に位置し、検知された骨格情報が予め用意しておいた動作Ａを示す骨格情報と類似する場合に、その動作Ａを推定結果とする。また、動作推定部２４は、棚からの所定位置内に位置する状態で、それまでに検知された各骨格情報の遷移が予め用意しておいた動作Ｂの骨格情報の遷移と類似する場合に、その動作Ｂを推定結果とする。なお、類似度は、各座標の差分の合計値が閾値未満か否かなど、公知の手法を採用することができる。

【0034】

ここで、動作推定部２４は、棚を見る、棚に向いているなどの判定に際しては、例えば、顔や肩、胴体など垂線ベクトルが、あらかじめ設定した棚や商品などの物体情報の領域と交差することを用いる。

【0035】

例えば、動作推定部２４は、手を伸ばした動作として、さらに一連の動作の中で腕の角度が最も大きいことを、判定条件として用いてもかまわない。具体的には、動作推定部２４は、骨格情報の５番や８番を用いた腕の角度が閾値以上の場合に、手を伸ばした動作と推定することもできる。また、動作推定部２４は、手を伸ばしたのちに左右上下方向に手を伸ばす動作のほか、手が一方向の軌跡で動いた場合に、手を伸ばす動作と推定することもできる。

【0036】

また、動作推定部２４は、場所を見る動作として、上述のあらかじめ指定した領域や棚などの物体領域以外に、検知した手を見ることを用いて、場所を見るみなし動作として判定してもかまわない。例えば、動作推定部２４は、数枚のフレームを用いて骨格情報の３番（HEAD）の遷移を監視することで、手を伸ばした動作のちに、手を見る動作を検知した場合に、場所（棚）を見る動作と推定する。また、動作推定部２４は、複数回の顔を動かす動作を検知し後、手を伸ばす動作を検知した場合に、場所（棚）を見る動作として推定する。

【0037】

また、動作推定部２４は、棚に向いている動作として、立つ、しゃがむ、座る動作に加え、領域や物体に対して体が正面または斜めに向いていることを、判定条件として用いてもかまわない。例えば、動作推定部２４は、棚からの所定位置内に位置した状態かつ体が対象物（棚）に向いている状態で、立つ、しゃがむ、座る動作のいずれかを検出した場合に、棚に向いている動作と推定する。なお、上述した各動作は、骨格情報や骨格情報の遷移を監視することにより特定できる。また、動作推定部２４は、複数の動作を推定してもよい。

【0038】

図２に戻り、範囲推定部２５は、人物と対象物（棚）の距離として、人物の骨格情報と棚の領域情報とから人物の手が届く範囲を推定する処理部である。例えば、範囲推定部２５は、動作推定部２４による推定結果とあらかじめ設定した棚の位置情報（物体領域）とを用い、例えば両足の中心点などにより特定される、人物が立っている位置に対し、最短となる棚の垂線から一定の距離（例えば肩幅に相当）を手の届く範囲として推定する。また、範囲推定部２５は、骨格検知部２３により検知された、例えば足の長さや背の高さ、肩幅などの骨格情報から推定される手の長さと、例えば腕の角度は１８０度以上曲がらないなどの生体的特徴から推定される手の位置を用いて、手の届く範囲を推定してもかまわない。

【0039】

図７は、手伸ばし範囲の推定を説明する図である。図７に示すように、範囲推定部２５は、まず、骨格検知部２３により検知された骨格情報で特定される両足の中心点を、立っている位置として検出する（Ｓ１）。続いて、範囲推定部２５は、対象場所情報ＤＢ１５に記憶される棚（位置情報）に対し、両足の中心点から最短となる距離として、例えば棚ＲＯＩ３０の下線への垂線を算出する（Ｓ２）。そして、範囲推定部２５は、最短距離に対する棚（位置情報）の高さ方向の垂線を算出する（Ｓ３）。その後、範囲推定部２５は、骨格検知部２３により検知された骨格情報における足と肩までの高さ（Ｓ４）と肩幅情報（Ｓ５）を用いて、例えば高さの９０から１１０％、肩幅の±１００％を、手伸ばし範囲（手の届く範囲）と推定する（Ｓ６）。そして、範囲推定部２５は、推定結果を手伸ばし行動認識部２６に出力する。なお、ここで示した数値は、あくまで一例であり、任意に変更することができる。

【0040】

なお、範囲推定部２５は、立っている状態に限らず、座っていると動作を判定された場合であっても、座っている状態から上記Ｓ１からＳ６の判定により、座っている状態で手が届く範囲を推定することもできる。また、範囲推定部２５は、肩と肘と手先の骨格情報により特定される腕の長さを用い、肩の骨格情報と棚の垂線から、手の届く範囲を推定することもできる。

【0041】

図２に戻り、手伸ばし行動認識部２６は、動作推定部２４により推定された動作と、範囲推定部２５により推定された人物の手が届く範囲とから、人物が対象物に手を伸ばした行動を認識する処理部である。そして、手伸ばし行動認識部２６は、認識結果を手伸ばし位置算出部２７に出力する。

【0042】

具体的には、手伸ばし行動認識部２６は、動作推定部２４により推定された動作と、範囲推定部２５により推定された人物の手が届く範囲とを用い、あらかじめ設けた閾値にて判定することで、手を伸ばした行動として認識する。また、これらの判定項目を特徴量として数値化し、マハラビノス距離などを算出し機械学習の結果を用いて判定してもかまわない。

【0043】

手伸ばし位置算出部２７は、手伸ばし行動認識部２６により手を伸ばした行動と認識された画像（映像のフレーム）において、骨格情報や棚ＲＯＩ３０などを用いて、伸ばした手の位置情報を算出する処理部である。

【0044】

また、手伸ばし位置算出部２７は、手伸ばし行動を認識した時間における手の位置情報を算出し、対応する商品へのアクセスとすることもできる。例えば、手伸ばし位置算出部２７は、棚ＲＯＩ３０内の商品の位置情報と、伸ばした手の位置情報との比較により、人物が手に取った商品や手に取ろうとした商品などを特定する。このように、手伸ばし位置算出部２７は、映像データの各フレームから人物が特定された場合に、その人物が手を伸ばした商品を特定して集計する。

【0045】

ここで、行動認識と位置算出について具体的に説明する。図８は、人物の手伸ばし行動認識と位置算出を説明する図である。図８に示すように、手伸ばし行動認識部２６は、手の届く範囲の推定結果および人物の動作の推定結果と、予め定めた条件とのスコア（例えば一致率）により、手伸ばし行動か否かを認識する。

【0046】

例えば、手伸ばし行動認識部２６は、所定数以上の条件と一致する場合、または、全条件のうち所定の割合の条件と一致する場合に、手伸ばし行動と認識する。なお、条件は、実験データ等を用いて予め生成して設定しておくこともでき、手の届く範囲の推定結果に対する条件と、人物の動作の推定結果に対する条件とに分けて定義して分けて判定することもできる。

【0047】

その後、手伸ばし位置算出部２７は、手伸ばし行動と認識された画像データを特定し、その画像データを用いて特定された人物の骨格情報、棚ＲＯＩ３０、商品の位置情報などを用いて、手の位置情報を算出する。例えば、手伸ばし位置算出部２７は、棚の座標や商品の座標などを用いて、画像データ内の手と重複する棚や商品の座標を手の位置情報として算出する。また、手伸ばし位置算出部２７は、棚の座標、商品の座標、手伸ばし行動の認識結果、人物の骨格情報を訓練済みの機械学習モデルに入力して、人物の手の位置情報を取得することもできる。

【0048】

そして、手伸ばし位置算出部２７は、商品の位置情報と人物の手の位置情報とを用いて、人物がアクセスした商品を特定する。例えば、手伸ばし位置算出部２７は、手の座標と一致する商品、手の座標から所定範囲のある商品、または、手の座標から棚方向への延長線上にある商品などを、アクセスした商品と特定する。

【0049】

［処理の流れ］
次に、上述した行動認識処理の流れについて説明する。ここでは、全体的な処理の流れ、各処理部による処理の流れについて説明する。

【0050】

（全体的な処理の流れ）
図９は、実施例１にかかる行動認識処理の全体的な流れを示すフローチャートである。図９に示すように、情報処理装置１０は、処理を開始すると（Ｓ１０１：Ｙｅｓ）、撮像装置から映像データを取得する（Ｓ１０２）。

【0051】

続いて、情報処理装置１０は、映像データ内の各フレーム（画像データ）から人物の検知を行い（Ｓ１０３）、人物が検知できない場合（Ｓ１０４：Ｎｏ）、次の映像データを取得する。一方、情報処理装置１０は、人物が検知できた場合（Ｓ１０４：Ｙｅｓ）、検知された人物の骨格を検知する（Ｓ１０５）。

【0052】

そして、情報処理装置１０は、検知された人物の動作を推定し（Ｓ１０６）、検知された人物の手伸ばし範囲を推定する（Ｓ１０７）。ここで、情報処理装置１０は、推定された手伸ばし範囲により、商品もしくは棚に手が届く範囲ではない場合（Ｓ１０８：Ｎｏ）、次の画像を取得する。一方、情報処理装置１０は、商品もしくは棚に手が届く範囲である場合（Ｓ１０８：Ｙｅｓ）、人物の行動認識を行い（Ｓ１０９）、人物の手の位置を算出する（Ｓ１１０）。

【0053】

（人物検知処理の流れ）
図１０は、実施例１にかかる人物検知処理の流れを示すフローチャートである。図１０に示すように、人物検知部２２は、映像データを取得し（Ｓ２０１）、映像データ内の各フレーム（画像データ）に対して、第１機械学習モデルを適用して、人物検知を行う（Ｓ２０２）。

【0054】

そして、人物検知部２２は、第１機械学習モデルの出力値のスコア（確率）が閾値未満の場合（Ｓ２０３：Ｎｏ）、第１機械学習モデルの予測精度が低いと判定して、次の映像データを取得する。一方、人物検知部２２は、第１機械学習モデルの出力値のスコア（確率）が閾値以上の場合（Ｓ２０３：Ｙｅｓ）、第１機械学習モデルの予測精度が高いと判定して、検知された人物の位置情報を記憶部１３等に出力する（Ｓ２０４）。

【0055】

（骨格検知処理の流れ）
図１１は、実施例１にかかる骨格検知処理の流れを示すフローチャートである。図１１に示すように、骨格検知部２３は、映像データを取得し（Ｓ３０１）、人物検知部２２により検知された人物の位置情報を取得する（Ｓ３０２）。

【0056】

そして、骨格検知部２３は、映像データ内の人物が検知された画像データおよび人物の位置情報を第２機械学習モデルに入力し、検知された人物の骨格情報を取得し（Ｓ３０３）、記憶部１３等に出力する（Ｓ３０４）。なお、ここでも、図１０と同様、スコアによる判定を実行してもよい。

【0057】

（動作推定処理の流れ）
図１２は、実施例１にかかる動作推定処理の流れを示すフローチャートである。図１２に示すように、動作推定部２４は、対象場所情報ＤＢ１５から、撮像領域にある棚等の情報を含む対象場所の情報（領域情報）を取得する（Ｓ４０１）。また、動作推定部２４は、骨格検知部２３から人物の骨格情報を取得する（Ｓ４０２）。

【0058】

続いて、動作推定部２４は、人物の骨格情報と対象場所の情報とに基づいて、人物が対象物に行う動作を推定する。具体的には、動作推定部２４は、手伸ばし動作を推定し（Ｓ４０３）、場所を見る動作を推定し（Ｓ４０４）、場所に向く動作を推定する（Ｓ４０５）。なお、動作推定部２４は、推定した動作に関する情報を、記憶部１３等に出力する。

【0059】

（範囲推定処理の流れ）
図１３は、実施例１にかかる範囲推定処理の流れを示すフローチャートである。図１３に示すように、範囲推定部２５は、対象場所情報ＤＢ１５から、撮像領域にある棚等の情報を含む対象場所の情報（領域情報）を取得する（Ｓ５０１）。また、動作推定部２４は、骨格検知部２３から、人物の骨格情報を取得する（Ｓ５０２）。

【0060】

続いて、範囲推定部２５は、人物の骨格情報と対象場所（棚）の情報とに基づいて、人物から対象場所への最短距離を推定する（Ｓ５０３）。そして、範囲推定部２５は、推定された最短距離と、人物の骨格情報とに基づき、手の届く範囲を推定する（Ｓ５０４）。なお、範囲推定部２５は、推定した手の届く範囲に関する情報を、記憶部１３等に出力する。

【0061】

（手伸ばし行動の認識処理の流れ）
図１４は、実施例１にかかる手伸ばし行動の認識処理の流れを示すフローチャートである。図１４に示すように、手伸ばし行動認識部２６は、動作推定部２４により推定された動作推定の情報を取得し（Ｓ６０１）、範囲推定部２５により推定された手の届く範囲の推定結果を取得する（Ｓ６０２）。

【0062】

続いて、手伸ばし行動認識部２６は、取得した上記情報を用いて、人物が対象物（棚）に手を伸ばした行動のスコアを算出する（Ｓ６０３）。ここで、手伸ばし行動認識部２６は、スコアが閾値未満である場合（Ｓ６０３：Ｎｏ）、Ｓ６０１に戻って以降の処理を繰り返す。一方、手伸ばし行動認識部２６は、スコアが閾値以上である場合（Ｓ６０３：Ｙｅｓ）、手伸ばし行動と認識する（Ｓ６０４）。なお、手伸ばし行動認識部２６は、認識した手伸ばし行動の認識結果を、記憶部１３等に出力する。

【0063】

（手伸ばし位置の算出処理の流れ）
図１５は、実施例１にかかる手伸ばし位置の算出処理の流れを示すフローチャートである。図１５に示すように、手伸ばし位置算出部２７は、手伸ばし行動認識部２６により手伸ばし行動の認識結果を取得し（Ｓ７０１）、人物の骨格情報を取得し（Ｓ７０２）、認識結果や骨格情報などを用いて、伸ばした手の位置情報を算出する（Ｓ７０３）。なお、手伸ばし位置算出部２７は、算出した手の位置情報を、記憶部１３等に出力する。

【0064】

［効果］
上述したように、情報処理装置１０は、映像データから取得した骨格情報とあらかじめ定義した棚位置情報から、人体特性に基づき手を伸ばした位置を高精度に算出することができる。この結果、情報処理装置１０は、作業状態分析や購買分析等に用いる有用な情報を生成して出力することができる。また、棚前に到達してから手を伸ばすまでに要した時間や、手伸ばし速度、軌跡や姿勢、回数をさらに分析することによって、作業者や購買者の心理状況も把握することも可能となる。

【0065】

また、情報処理装置１０は、機械学習モデルを用いて、人物検知や骨格検知を行うので、機械学習モデルの再訓練などを定期的に行うことで、検知精度の向上を図ることができる。また、情報処理装置１０は、予め想定した動作の骨格情報を用意しておき、検知された骨格情報とそれらとの比較により、動作を推定することができるので、画像データの画質等に依存せず、画像データの高度な解析も不要とし、検知処理の高速化を図ることができる。

【0066】

また、センサのみを用いる認識技術は、センサで取得された位置関係のみを用いるので、手の位置や体の向きと商品が重なった場合に手伸ばしと判定する。このため、実施例１で説明した商品棚のような大きな棚を対象物とした場合、誤検知することが多く、手が届かない場所でも、画像上重なった場合には誤検知する。一方、情報処理装置１０は、人の位置（骨格情報）と棚の位置に応じて、動的に手の届く範囲を変えることで、手と商品（もしくは棚全体）が重なっても、手の届く範囲外の場合は検知しない仕組みを採用しており、検知精度を改善することが可能である。

【実施例0067】

ところで、情報処理装置１０は、人物の属性を推定することで、作業状態分析や購買分析等に用いることができるさらに有用な情報を生成して出力することができる。

【0068】

図１６は、実施例２にかかる行動認識処理の全体的な流れを示すフローチャートである。図１６に示すように、情報処理装置１０は、処理を開始すると（Ｓ８０１：Ｙｅｓ）、撮像装置から映像データを取得する（Ｓ８０２）。

【0069】

続いて、情報処理装置１０は、映像データ内の各フレーム（画像データ）から人物の検知を行い（Ｓ８０３）、人物が検知できない場合（Ｓ８０４：Ｎｏ）、次の映像データを取得する。一方、情報処理装置１０は、人物が検知できた場合（Ｓ８０４：Ｙｅｓ）、検知された人物の骨格を検知する（Ｓ８０５）。

【0070】

そして、情報処理装置１０は、検知された人物の動作を推定し（Ｓ８０６）、検知された人物の手伸ばし範囲を推定する（Ｓ８０７）。ここで、情報処理装置１０は、推定された手伸ばし範囲により、商品もしくは棚に手が届く範囲ではない場合（Ｓ８０８：Ｎｏ）、次の画像を取得する。一方、情報処理装置１０は、商品もしくは棚に手が届く範囲である場合（Ｓ８０８：Ｙｅｓ）、人物の行動認識を行う（Ｓ８０９）。

【0071】

これらと並行して、情報処理装置１０は、人物の属性を推定する（Ｓ８１０）。例えば、情報処理装置１０の属性推定部（図示しない）は、検知された人物の骨格情報を深層学習等により生成された機械学習モデルに入力して、属性推定を行う。人の属性として、性別や年代推定のほか、店員検知、不審者検知などを推定してもかまわない。なお、閾値等のパラメータを用い、属性らしさを判定し、次のフレーム映像取得処理に移ってもかまわない。

【0072】

その後、情報処理装置１０は、手伸ばし行動を認識した時間における手の位置情報を算出し、推定した属性情報を付加し、どの属性の人が対応する商品へアクセスしたかを出力する（Ｓ８１１）。

【0073】

このように、情報処理装置１０は、１日や１週間などの所定期間の映像データを用いて、人物の属性をさらに推定することで、どのような人物がどのような時間帯にどのような商品を手に取るかを集計して、ユーザに出力することができる。図１７は、出力結果の画面例を説明する図である。図１７に示すように、情報処理装置１０は、店舗の各時間帯に棚前を通過した人数や棚前に滞留した人数を集計した情報に加え、属性情報を用いて生成される各種情報を含むコンバージョン分析結果５０を生成して出力することができる。このコンバージョン分析結果５０には、取得される映像５１、左手で商品を手の取った性別の割合および時間帯ごとの集計結果５２、左手で商品を手に取った年代の割合および時間帯ごとの集計結果５３などが含まれる。

【実施例0074】

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

【0075】

［数値等］
上記実施例で用いた数値例、動作例、画面例、属性例等は、あくまで一例であり、任意に変更することができる。また、クラウドシステムを採用することができる。例えば、エッジ端末で処理した結果をアップロードし、結果をクラウド経由でブラウザ表示することもできる。また、カメラ映像をアップロードし、クラウドで処理し、結果をブラウザ表示することもできる。

【0076】

また、検知対象のデータは、映像データに限らず、画像データでも動画データもよい。また、手伸ばした行動を認識し、伸ばした手の位置を算出する例を説明したが、これに限定されるものではなく、人物の様々な所作を検知することができる。例えば、情報処理装置１０は、足を伸ばした動作を検知することで、棚へのいたずら検知を行うこともできる。また、情報処理装置１０は、駐車場で、足により車のトランクのセンサを起動させた行動を認識し、車両開発に役立つ情報を収集して出力することもできる。

【0077】

［行動認識例］
例えば、情報処理装置１０は、映像フレームにおける複数枚のフレーム（画像データ）から連続した動作が推定された場合に、手伸ばし動作と推定することで、誤検出を抑制し、推定精度を向上させることができる。図１８は、動作遷移を用いた動作推定処理を説明する図である。具体的には、情報処理装置１０は、図１８に示すように、（１）棚前にくる動作、（２）棚前を見る、棚前で立つもしくはしゃがむ、または、手を前に出す動作、（３）手が伸びる動作を、所定フレーム内で連続して検知した場合に、手伸ばし行動の認識へ移行する特定動作と推定することもできる。

【0078】

例えば、情報処理装置１０は、第１のフレームにおいて、棚ＲＯＩ３０から所定距離以上離れているものの棚ＲＯＩ３０の前の通路ＲＯＩ４０にいる「棚前に来る」動作を検知する。次に、情報処理装置１０は、第１のフレームから所定枚数内に取得された第２のフレームにおいて、棚ＲＯＩ３０から所定距離未満の位置にいる「棚前を見る」動作を検知する。その後、情報処理装置１０は、第２のフレームから所定枚数内に取得された第３フレームにおいて、「手が伸びる」動作を検知する。このように、情報処理装置１０は、予め想定した連続動作を検知した場合に、手伸ばし行動の認識を実行することもできる。

【0079】

なお、ここでは、映像フレームにおける複数枚のフレーム（画像データ）から連続した動作が推定された場合の例を説明したが、これに限定されるものではない。例えば、情報処理装置１０は、予め指定した複数の動作が予め指定した順番通りに推定された場合に、手伸ばし行動の認識を実行することもできる。

【0080】

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

【0081】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0082】

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0083】

［ハードウェア］
図１９は、ハードウェア構成例を説明する図である。図１９に示すように、情報処理装置１９は、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図２に示した各部は、バス等で相互に接続される。

【0084】

通信装置１０ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１０ｂは、図２に示した機能を動作させるプログラムやＤＢを記憶する。

【0085】

プロセッサ１０ｄは、図２に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図２等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、映像取得部２１、人物検知部２２、骨格検知部２３、動作推定部２４、範囲推定部２５、手伸ばし行動認識部２６、手伸ばし位置算出部２７等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、映像取得部２１、人物検知部２２、骨格検知部２３、動作推定部２４、範囲推定部２５、手伸ばし行動認識部２６、手伸ばし位置算出部２７等と同様の処理を実行するプロセスを実行する。

【0086】

このように、情報処理装置１０は、プログラムを読み出して実行することで行動認識方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

【0087】

このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。