(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-23
(45)【発行日】2025-01-31
(54)【発明の名称】動作予測装置、方法及びプログラム
(51)【国際特許分類】
G06T 7/20 20170101AFI20250124BHJP
【FI】
G06T7/20 300Z
(21)【出願番号】P 2022035654
(22)【出願日】2022-03-08
【審査請求日】2024-02-07
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】中塚 智尋
(72)【発明者】
【氏名】明堂 絵美
(72)【発明者】
【氏名】三原 翔一郎
(72)【発明者】
【氏名】小森田 賢史
【審査官】清水 祐樹
(56)【参考文献】
【文献】国際公開第2018/163555(WO,A1)
【文献】特開2021-144679(JP,A)
【文献】特許第6854959(JP,B1)
【文献】Mohammad Samin YASAR et al.,“A Scalable Approach to Predict Multi-Agent Motion for Human-Robot Collaboration”,IEEE Robotics and Automation Letters,IEEE,2021年04月,Vol. 6,No. 2,p.1686-1693,DOI: 10.1109/LRA.2021.3058917
【文献】Sadegh ALIAKBARIAN et al.,“Contextually Plausible and Diverse 3D Human Motion Prediction”,2021 IEEE/CVF International Conference on Computer Vision (ICCV),IEEE,2021年10月,p.11313-11322,DOI: 10.1109/ICCV48922.2021.01114
【文献】Mohamed HASSAN et al.,“Stochastic Scene-Aware Motion Prediction”,2021 IEEE/CVF International Conference on Computer Vision (ICCV),IEEE,2021年10月,p.11354-11364,DOI: 10.1109/ICCV48922.2021.01118
【文献】Thomas CALLENS et al.,“A Framework for Recognition and Prediction of Human Motions in Human-Robot Collaboration Using Probabilistic Motion Models”,IEEE Robotics and Automation Letters,IEEE,2020年10月,Vol. 5,No. 4,p.5151-5158,DOI: 10.1109/LRA.2020.3005892
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
人物が動作する映像に基づいて続きの動作を予測する動作予測装置において、
人物
が動作する映像を解析
して当該人物の現在に至る各姿勢を推定し、当該推定した各姿勢の系列を動作解析結果として出力する手段と、
前記
動作解析結果に基づいて当該人物の動作の目的地点を
推定する手段と、
前記
動作解析結果及び目的地点に基づいて
当該人物の続きの動作の潜在表現を抽出する手段と、
前記
動作解析結果、目的地点及び潜在表現に基づいて当該人物の続きの動作を予測する手段とを具備したことを特徴とする動作予測装置。
【請求項2】
前記動作解析結果を出力する手段は、人物が動作する映像を解析し、当該人物の検出、追跡及び姿勢推定を実施して当該人物の現在に至る姿勢の系列を出力することを特徴とする請求項1に記載の動作予測装置。
【請求項3】
前記目的地点を推定する手段に代えて、手動で入力された目的地点を取得する手段を具備したことを特徴とする請求項1または2に記載の動作予測装置。
【請求項4】
前記目的地点を
推定する手段は、
映像から物体を検出する手段と、
映像に基づいて人物の移動方向を推定する手段とを具備し、
前記移動方向で検出された物体の位置を目的地点と推定することを特徴とする請求項
1また2に記載の動作予測装置。
【請求項5】
前記目的地点を
推定する手段には物体のカテゴリが予め通知され、
前記物体を検出する手段は前記カテゴリに属する物体を検出することを特徴とする請求項
4に記載の動作予測装置。
【請求項6】
前記
動作解析結果を出力する手段は、人物の行動を識別して識別結果の行動ラベルを出力し、
前記目的地点を
推定する手段は、前記行動ラベルに対応する物体を検出することを特徴とする請求項
4に記載の動作予測装置。
【請求項7】
人物が動作する映像に基づいて続きの動作をコンピュータが予測する動作予測方法において、
人物
が動作する映像を解析
して当該人物の現在に至る各姿勢を推定し、当該推定した各姿勢の系列を動作解析結果として出力し、
前記
動作解析結果に基づいて当該人物の動作の目的地点を
推定し、
前記
動作解析結果及び目的地点に基づいて
当該人物の続きの動作の潜在表現を抽出し、
前記
動作解析結果、目的地点及び潜在表現に基づいて当該人物の続きの動作を予測することを特徴とする動作予測方法。
【請求項8】
人物が動作する映像に基づいて続きの動作を予測する動作予測プログラムにおいて、
人物
が動作する映像を解析
して当該人物の現在に至る各姿勢を推定し、当該推定した各姿勢の系列を動作解析結果として出力する手順と、
前記
動作解析結果に基づいて当該人物の動作の目的地点を
推定する手順と、
前記
動作解析結果及び目的地点に基づいて
当該人物の続きの動作の潜在表現を抽出する手順と、
前記
動作解析結果、目的地点及び潜在表現に基づいて当該人物の続きの動作を予測する手順と、をコンピュータに実行させることを特徴とする動作予測プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人物が動作する映像に基づいてその続きを予測する装置、方法及びプログラムに係り、特に、周辺の状況を考慮して人物の動作を予測する動作予測装置、方法及びプログラムに関する。
【背景技術】
【0002】
手足の動きのような人の詳細な動作について数秒先を予測することが、迅速な危険行動察知や人と連携して動作するロボットやアクチュエータの制御などの分野で必要とされている。
【0003】
非特許文献2には2D映像からの人物の骨格位置を検出し、過去の骨格位置からLSTM(Long Short Term Memory)を用いて未来の骨格位置を予測する技術が開示されている。非特許文献2では単純な動きを推測しやすい反面、人が取り得る姿勢の制限を別途に加える必要があり、厳密な制約条件を与えることが難しかった。
【0004】
非特許文献1にはLSTMではなくGRU(Gated Recurrent Unit)をエンコーダデコーダのモジュールとして採用したCVAE(Conditional Variational Autoencoder)モデルをベースとして用いる技術が開示されている。CVAEは標準正規分布からランダムにサンプリングした潜在表現をもとに過去の動作を条件(Condition)として尤もらしい続きの動作を出力するよう学習できる。
【0005】
非特許文献1は更に、人間の将来の動作には多様な可能性があることを踏まえ、続きの動作として複数の多様な予測結果を出力するよう、潜在表現に多様性を課している。非特許文献1は、与えられた過去の動作に基づき、ランダムにサンプリングされた潜在変数に対して多様な線形変換を加え、それを新たな潜在表現としてCVAEに与えるようにしている。これにより、多様な未来の可能性をカバーした尤もらしい動作の予測ができるようになった。
【0006】
特許文献1には人物の行動を個々人の特性を反映して予測する技術が開示されている。特許文献1は、撮影した人物の行動の状態および人物の識別子を分析し、得られた人物情報に対して照合するルールに基づく行動予測情報を生成する。
【先行技術文献】
【特許文献】
【0007】
【非特許文献】
【0008】
【文献】Yuan, Ye and Kitani, Kris (2020). Dlow: Diversifying latent flows for diverse human motion prediction. ECCV
【文献】Erwin Wu and Hideki Koike: FuturePose - Mixed Reality Martial Arts Training Using Real-Time 3D Human Pose Forecasting With a RGB Camera, WACV(2019)
【文献】J. Redmon, S. Divvala, R. Girshick and A. Farhadi, "You Only Look Once: Unified, Real-Time Object Detection," 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 779-788, doi: 10.1109/CVPR.2016.91.
【文献】Wojke, Nicolai and Bewley, Alex and Paulus, Dietrich, "Simple Online and Realtime Tracking with a Deep Association Metric", ICIP2017
【文献】Zhe Cao and Tomas Simon and Shih-En Wei and Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", CVPR2017
【文献】Yang, Ceyuan and Xu, Yinghao and Shi, Jianping and Dai, Bo and Zhou, Bolei, "Temporal Pyramid Network for Action Recognition", CVPR2020
【発明の概要】
【発明が解決しようとする課題】
【0009】
非特許文献1では与えられた動作の続きとして妥当かつ多様な動作を予測できる。しかしながら、周辺の状況に対する考慮がないために可能性の低い動作も予測してしまう場合がある。例えば自律ロボットに動作の予測結果を参照させて動作計画を立てさせる場合、周辺の状況に応じてより妥当性の高い動作に集中して予測させることが望ましい。しかしながら、非特許文献1では可能性の低い動作を含む必要以上に多くの予測結果を提示するために自律ロボットの動作計画を阻害しかねない。
【0010】
特許文献1は個々人の特性を反映した行動予測を行うが、周辺の状況に対する考慮がないために状況に対して不整合な行動を予測結果として生成してしまう可能性がある。
【0011】
本発明の目的は、上記の技術課題を解決し、撮影した人物の動作の続きを周辺の状況を考慮して正確に予測できる動作予測装置、方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0012】
上記の目的を達成するために、本発明は、人物が動作する映像に基づいて続きの動作を予測する動作予測装置において、以下の構成を具備した点に特徴がある。
【0013】
(1) 人物の現在に至る動作を解析する手段と、動作の目的地点を取得する手段と、人物の現在に至る動作及び目的地点に基づいて続きの動作の潜在表現を抽出する手段と、前記人物の現在に至る動作、目的地点及び潜在表現に基づいて当該人物の続きの動作を予測する手段とを具備した。
【0014】
(2) 前記動作の目的地点を取得する手段は、人物の現在に至る動作に基づいて目的地点を推定するようにした。
【0015】
(3) 前記目的地点を取得する手段は、映像から物体を検出する手段と、映像に基づいて人物の移動方向を推定する手段とを具備し、移動方向で検出された物体の位置を目的地点と推定するようにした。
【発明の効果】
【0016】
(1) 撮影した人物の動作の続きを周辺の状況を考慮して予測するので正確な予測が可能になる。
【0017】
(2)目的地点は動作に関連するところ、目的地点を現在に至る動作に基づいて推定するので目的地点を高精度に推定できるようになる。
【0018】
(3)目的地点は移動方向に依存するところ、移動方向で検出された物体の位置を目的地点と推定するので目的地点を更に高精度に推定できるようになる。
【図面の簡単な説明】
【0019】
【
図1】本発明の一実施形態に係る動作予測装置の主要部の構成を示した機能ブロック図である。
【
図2】表現抽出部の構成を示した機能ブロック図である。
【
図3】表現抽出部の動作を示したフローチャートである。
【
図4】動作予測部の構成を示した機能ブロック図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
図1は本発明の一実施形態に係る動作予測装置1の主要部の構成を示した機能ブロック図であり、映像取得部10、動作解析部20、目的地点推定部30、表現抽出部40及び動作予測部50を主要な構成としている。
【0021】
このような三次元形状復元装置1は、CPU,ROM,RAM,バス,インタフェース等を備えた少なくとも一台の汎用のコンピュータやサーバに各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。
【0022】
本実施形態では一人の人物の単一動作について、現在に至る過去の動作の解析結果に基づいて当該動作に続くその後の動作を予測するものとし、ここでは特に、人物が物体(静止物体)を手に取ろうとしているシーンの予測を例にして説明する。なお、動作予測の対象人物が複数であれば各人に同様の処理を繰り返すことで個別予測が可能になる。
【0023】
映像取得部10は、RGBカメラや深度カメラを使って動作予測の対象人物を所定の時間(例えば、3秒)だけ撮影して人物の映ったフレーム画像を取得する。あるいは予め人物を所定の時間だけ撮影した動画ファイルを取得するようにしても良い。
【0024】
動作解析部20は、取得した映像を解析して人物の検出およびその追跡を実施し、検出及び追跡の結果に基づいて当該人物の現在に至る動作を推定する。人物検知には非特許文献3が開示するYOLO (You Only Look Once)、人物追跡には非特許文献4が開示するDeepSORTなどの深層学習モデルを用いることができる。これにより同一人物を複数フレームにわたって正確に追跡することができる。
【0025】
動作解析部20は更に、人物が映った各フレーム画像に対して姿勢推定の処理を実施する。姿勢推定には非特許文献5が開示するOpenPoseのように、映像中の骨格のキーポイントの位置を姿勢として出力する方法を用いることができる。キーポイントの位置は2次元座標や3次元座標で表現できる。
【0026】
OpenPose等の出力は通常2次元座標のため、3次元座標で表現する場合には追加の処理が必要になる。例えば三角測量(入力に複数視点映像があること)、深度情報の付加(入力に深度画像があること)あるいは人間の3Dモデルのあてはめなどが考えられる。
【0027】
動作解析部20は、全フレーム分の結果を合わせた人物の動作の推定結果を動作解析結果として出力する。なお、フレーム数をT、骨格のキーポイント数をJとし、姿勢が3次元座標で表現されるとすると、動作解析結果のデータ形式はT×3Jの行列となる。
【0028】
なお、上記の解析結果に加えて、人物の動作が何の行動であるかについても解析してラベル付けし、動作解析結果に行動ラベルを付するようにしてもよい。行動ラベルは、例えば非特許文献6が開示する深層学習モデルを使うことで推定できる。
【0029】
目的地点推定部30は、物体検出部301および方向推定部302を具備し、動作解析結果に基づいて動作の目的となっている物体を検出し、人物の移動方向に基づいて人物が目的としている地点を推定する。
【0030】
本実施例のように人が物体を手に取る動作を予測するのであれば、物体検出部301には人が手に取ることが可能な物体のカテゴリが予めいくつか与えられ、当該カテゴリに属する物体を対象に非特許文献3の手法により物体検出を実施する。
【0031】
なお、物体を手に取る動作以外にも、対象の動作と関連する物体の定義を事前に行っておけば同様の処理が可能になる。例えばドアを開けようとする動作を予測するのであれば取っ手、座ろうとする動作を予測するのであれば椅子などが検出対象となる。前記動作解析部20が行動ラベルの認識を行っていた場合には、当該行動ラベルに関連する物体に限定して検出するようにしてもよい。
【0032】
物体を検出できると、続いて人物の動作の進行方向などを手掛かりに、動作の目的となっている物体の特定を行う。方向推定部302は人物の進行方向を身体の中心座標の移動方向のフレーム平均として算出し、目的としている物体を進行方向の延長線で人物との距離が最も近い物体に特定する。
【0033】
推定した物体の位置は人物の動作を表現した座標系と同じ座標系を用いて表すこととする。2次元座標であれば検出器が出力した領域の中心座標とし、3次元座標であれば物体の中心の3次元座標を三角測量や深度画像、事前定義した物体モデルのあてはめなどによって求めたものとする。推定した物体の位置は動作の目的地点として人物の動作と共に後段の表現抽出部40へ送られる。
【0034】
また、物体を手に取る動作であれば、例えばコップや鞄などの物体の種類によって取り方が変化すると考えられることから、物体の種類も併せて後段の表現抽出部40へ送るようにしてもよい。物体の種類は例えばIDのような数値で表すことができ、非特許文献3が開示する検出器を用いることで検出結果と合わせてそのIDも出力できる。
【0035】
物体の種類を考慮する場合は、例えば物体IDをワンホットベクトル表現に変換し、目的地点のデータに結合したうえで後段の処理を行うようにしてもよい。なお、目的地点推定部30に代えて目的地点を入力する構成を設け、目的地点を手動で入力できるようにしても良い。
【0036】
表現抽出部40は、人物の動作x及び目的地点yの推定結果に基づいて、当該人物が続ける将来の動作の潜在表現を近似確率分布で推論することで複数の妥当な潜在表現zを抽出する。
【0037】
図2は表現抽出部40の構成を示した機能ブロック図であり、人物の現在に至る動作xがゲート付き回帰ユニット(GRU)401に入力され、目的地点yは多層パーセプトロン(MLP:Multilayer Perceptron)402に入力される。GRU401は人物の動作xを各時刻に応じて重み付け処理した後、後段の多層パーセプトロン403へ出力する。
【0038】
図3は、表現抽出部40が人物の動作x及び目的地点yの推定結果に基づいて潜在表現zを抽出する手順を示したフローチャートであり、ここでは人物の動作xや目的地点yは3次元座標で表現されているものとする。
【0039】
ステップS1では、多変量ガウス分布N(0,I)からK個のベクトル値ε={ε1,…,εK}がランダムにサンプリングされて変換部405へ提供される。ステップS2では、各MLP403が人物の動作x∈RT×3JをK個の複雑な非線形関数φ(事前に学習済のニューラルネットなど)によりエンコードすることでK個の行列とベクトルとのペアAk,bk (k=1,…,K)を算出する。
【0040】
ステップS3では、後段の変換部405が前記K個のベクトル値εをそれぞれ次式(1)に適用してK個のベクトル値δ(δ1~δk)に変換する。
【0041】
δk=Ak・εk+bk (1)
【0042】
ステップS4では、MLP402が目的地点yをL個の複雑な非線形関数ψ(事前に学習済のニューラルネットなど)によりエンコードし、L個の行列とベクトルとのペアCl,dl (l=1,…,L)を算出する。
【0043】
ステップS5では、後段の変換部406が前記K個のベクトル値δをそれぞれ次式(2)に適用してK・L個の潜在表現Z={Z1, 1,…,ZK, L}に変換する。
【0044】
Zk,1=C1・δ1+d1
…
Zk,L=CL・δk+dL (2)
【0045】
ステップS2の非線形関数φ及びステップS4非線形関数ψは、人物の動作xと目的地点yとの対を含むデータセット上でまとめて学習する。データセットの人物の動作xは途中のフレームで切り分けて「観測した動作」と正解の「続きの動作」として扱う。学習の方法は非特許文献1とよく似たものとしてよい。具体的には次式(3)の目的関数を確率的勾配降下法などの最適化手法を用いて最小化する。
【0046】
LRecon+LDiv+LKL (3)
【0047】
ここで、LReconは再構成誤差、LDivは予測結果の多様性を促すエネルギー関数を示す。潜在表現zを後述の動作予測部50に入力して得られるK・L個の動作の予測結果を次式(4),正解を次式(5)とすれば、前記LRecon,LDivは次式(6),(7)で求められる。ただしλは適当な定数を設定する。
【0048】
【0049】
LKLはK・L個ある潜在表現zの確率分布とN(0,I)との間のカルバック・ライブラー距離の平均を示す。潜在表現zk, lの確率分布はN(0,I)をAk,bkとCl,dlで順にアフィン変換した確率分布として次式(8)で表現できる。
【0050】
【0051】
上式(8)とN(0,I)とのカルバック・ライブラー距離をDk,lとするとLKLは次式(9)で求まる。なお、この学習では動作予測部50の出力を使うため、動作予測部50を先に学習しておく必要がある。
【0052】
【0053】
ステップS2,3とステップS4,5とは順番を入れ替えてもよく、その場合はステップS1でL個のベクトル値をサンプルするなど、適宜上式の記号も入れ替えることになる。
【0054】
ステップS2,3とステップS4,5とを同時に行うようにして人物の動作xと目的地点yとをK・L個の複雑な非線形関数(事前に学習済ニューラルネットなど)によりエンコードし、K・L個の行列とベクトルのペアA,bを算出するようにして、ただ一回のベクトル値εの変換により潜在表現zを得てもよい。
【0055】
得られた潜在表現zは人物の動作x及び物体の位置yにより条件づけられた確率分布からサンプルされた値としてみなすことができ、それぞれを続きの動作の潜在表現として合計K・L個の潜在表現zが後続の動作予測部50へ送られる。
【0056】
動作予測部50は、現在に至るまでの人物の動作x、目的地点y及び潜在表現zに基づいて当該人物の妥当な複数の動作を予測する。例えば、人物の動作x、目的地点y、K・L個の潜在表現zを複雑な非線形関数ρ(事前に学習済のニューラルネットなど)に入力し、K・L個の続きの動作の予測x'を出力する。複雑な非線形関数をニューラルネットとした場合のモデルの例を
図4に示す。
【0057】
GRU501は人物の現在に至る過去の動作xを各時刻に応じて重み付け処理する。MLP502は目的地点yをL個の複雑な非線形関数ψによりエンコードし、L個の行列とベクトルのペアCl,dl (l=1,…,L)を算出する。結合モジュール503はGRU501及びMLP502の出力を潜在表現zと結合して後段のGRU504へ出力する。
【0058】
GRU504はx、y、zから非線形関数ρによって動作の予測x'を推論する。非線形関数ρの学習は人物の動作x及び目的地点yの対を含むデータセット上で行い、非特許文献1がベースとする深層生成モデルであるCVAEと同様の方法を用い、潜在変数の生成に目的変数の情報を考慮できるようにすることで理想状態の推定を行うようにしても良い。
【0059】
GRU504は予測x'の再構成誤差並びに潜在表現zの近似確率分布とN(0,I)とのカルバック・ライブラー距離の二つの項を持つ目的関数を考え、確率的勾配降下法などの最適化手法を用いて最小化する。
【0060】
なお、上記の実施形態では表現抽出部40及び動作予測部50のいずれもが目的地点yを考慮しているが、どちらか一方でのみ考慮するようにしても良い。具体的には、表現抽出部40が実施する前記ステップS4,5の処理、あるいは動作予測部50の目的地点yの入力のいずれか一方を省略しても良い。
【0061】
そして、上記の実施形態によれば人物が動作する映像に基づいて当該人物の続きの動作を正確に予測できるので、地理的あるいは経済的な格差を超えて多くの人々に安価で利便性の高い動作予測システムを提供できるようになる。その結果、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、包括的で持続可能な産業化を推進する」や目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することが可能となる。
【符号の説明】
【0062】
1…動作予測装置,10…映像取得部,20…動作解析部,30…目的地点推定部,40…表現抽出部,50…動作予測部,401,501,504…GRU,402,403,404,502…MLP,405,406…変換部,503…結合モジュール