IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許7615584視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム
<>
  • 特許-視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム 図1
  • 特許-視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム 図2
  • 特許-視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム 図3
  • 特許-視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム 図4
  • 特許-視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム 図5
  • 特許-視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム 図6
  • 特許-視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム 図7A
  • 特許-視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム 図7B
  • 特許-視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム 図8
  • 特許-視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-08
(45)【発行日】2025-01-17
(54)【発明の名称】視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム
(51)【国際特許分類】
   G06T 7/20 20170101AFI20250109BHJP
【FI】
G06T7/20 300Z
【請求項の数】 23
(21)【出願番号】P 2020158788
(22)【出願日】2020-09-23
(65)【公開番号】P2021144679
(43)【公開日】2021-09-24
【審査請求日】2023-08-30
(31)【優先権主張番号】16/816130
(32)【優先日】2020-03-11
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】ヂゥ ヤンジュン
(72)【発明者】
【氏名】ザング ヤンシャ
(72)【発明者】
【氏名】チョン リュウ
(72)【発明者】
【氏名】アンドレアス ガーゲンソン
(72)【発明者】
【氏名】アブラハミ ダニエル
(72)【発明者】
【氏名】フランシーン チェン
(72)【発明者】
【氏名】フー ハオ
【審査官】伊知地 和之
(56)【参考文献】
【文献】特開2019-057247(JP,A)
【文献】特開2020-027647(JP,A)
【文献】特開2015-130151(JP,A)
【文献】特開2019-096252(JP,A)
【文献】Wang Yachuan et al.,“RNN -based Human Motion Prediction via Differential Sequence Representation”,2019 IEEE 6th International Conference on Cloud Computing and Intelligence Systems (CCIS)[online],IEEE,2019年12月,pp.138-143,[検索日 2024.5.14], インターネット:<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9073734>,DOI: 10.1109/CCIS48116.2019.9073734
【文献】閔庚甫 外2名,ハイブリッドモデルに基づく単視点ビデオデータにおける人間の歩行動作のトラッキング,映像情報メディア学会技術報告,(社)映像情報メディア学会,2007年08月03日,第31巻 第38号,pp.47~52
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
単一のフレームレートにおいてビデオシーケンスの各フレームを抽出することであって、前記ビデオシーケンスは一連のビデオフレームを含む、抽出すること、
各ビデオフレーム内の対象の現在の姿勢を推定し、各ビデオフレーム内で前記対象に関連付けられる関節の関節位置を決定すること、
前記ビデオシーケンスの各時間ステップの連続するビデオフレームの各対の間のオプティカルフローを計算すること、
前記オプティカルフローに基づいて前記ビデオシーケンスの各ビデオフレームから運動特性を抽出すること、並びに
符号化器が、現在の姿勢及び前記運動特性に基づいて状態情報を符号化すること
を含み、
前記符号化器が1又は複数のプロセッサを含む、
コンピュータ実施方法。
【請求項2】
前記一連のビデオフレームの第1のフレームの前記状態情報に含まれる各運動特性の現在の動作ラベルを決定することであって、前記一連のビデオフレームは赤緑青(RGB)フォーマットである、決定すること、
復号器によって、前記現在の姿勢、動作ラベル、及び前記状態情報に基づいて、前記第1のフレームに続く前記一連のビデオフレームの第2のフレーム内の各運動特性の将来の動作ラベルを予測すること
復号器によって、前記現在の姿勢及び前記状態情報に基づいて、前記第2のフレーム内の各運動特性の将来の姿勢を予測すること、並びに
損失関数に基づいて、前記現在の動作ラベル、前記将来の動作ラベル、及び前記将来の姿勢を調整すること
をさらに含む、請求項1に記載のコンピュータ実施方法。
【請求項3】
モデル及び前記ビデオシーケンスに基づいて、前記第2のフレームの少なくとも1つの将来の姿勢及び将来の運動を予測することをさらに含む、請求項2に記載のコンピュータ実施方法。
【請求項4】
前記復号器が1又は複数のプロセッサを含む、請求項2に記載のコンピュータ実施方法。
【請求項5】
前記符号化器は、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実施される、請求項1に記載のコンピュータ実施方法。
【請求項6】
前記復号器は、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実施される、請求項4に記載のコンピュータ実施方法。
【請求項7】
前記オプティカルフローを前記計算することは、各チャネルがそれぞれx軸及びy軸における変位を含む2チャネルフローフレームを形成する、請求項1に記載のコンピュータ実施方法。
【請求項8】
前記フレームレートは、24fps~60fpsである、請求項1に記載のコンピュータ実施方法。
【請求項9】
1又は複数の前記関節位置の各関節位置が、一対の2次元座標(例えば、X、Y)又は3D座標(例えば、X、Y、Z)を含む、請求項1に記載のコンピュータ実施方法。
【請求項10】
プロセッサに、
符号化器によって、単一のフレームレートにおいてビデオシーケンスの各フレームを抽出することであって、前記ビデオシーケンスは一連のビデオフレームを含む、抽出すること、
各ビデオフレーム内の1又は複数の対象の現在の姿勢を推定し、前記ビデオシーケンスの各ビデオフレーム内で前記対象に関連付けられる関節の関節位置を決定すること、
前記ビデオシーケンスの各時間ステップの連続するビデオフレームの各対の間のオプティカルフローを計算すること、
前記オプティカルフローに基づいて前記ビデオシーケンスの各ビデオフレームから運動特性を抽出すること、並びに
前記符号化器によって、前記現在の姿勢及び前記運動特性に基づいて状態情報を符号化すること、
を含む処理を実行させる、プログラムであって、
前記符号化器に関連する機能が、1又は複数のプロセッサにより実行される、
プログラム。
【請求項11】
前記一連のビデオフレームの第1のフレームの前記状態情報に含まれる各運動特性の現在の動作ラベルを決定すること、
復号器によって、前記現在の姿勢、動作ラベル、及び前記状態情報に基づいて、前記第1のフレームに続く前記一連のビデオフレームの第2のフレーム内の各運動特性の将来の動作ラベルを予測すること
前記復号器によって、前記現在の姿勢及び前記状態情報に基づいて、前記第2のフレーム内の各運動特性の将来の姿勢を予測すること、並びに
損失関数に基づいて、前記現在の動作ラベル、前記将来の動作ラベル、及び前記将来の姿勢を修正すること
をさらに含む、請求項10に記載のプログラム。
【請求項12】
モデル及び前記ビデオシーケンスに基づいて、前記第2のフレームの少なくとも1つの将来の姿勢及び将来の運動を予測することをさらに含む、請求項11に記載のプログラム
【請求項13】
前記符号化器に関連する機能が、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実行される、請求項10に記載のプログラム。
【請求項14】
前記復号器に関連する機能が、1又は複数のプロセッサにより実行され、前記復号器に関連する機能が、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実行される、請求項11に記載のプログラム。
【請求項15】
前記オプティカルフローを前記計算することは、各チャネルがそれぞれx軸及びy軸における変位を含む2チャネルフローフレームを形成する、請求項10に記載のプログラム。
【請求項16】
前記フレームレートは24fps~60fpsである、請求項10に記載のプログラム。
【請求項17】
前記1又は複数の関節位置の各関節位置が、一対の2次元座標(例えば、X、Y)又は3D座標(例えば、X、Y、Z)を含む、請求項10に記載のプログラム。
【請求項18】
プロセッサ及び記憶装置を含む、視覚ベースの関節動作及び姿勢運動の予想のためのシステムであって、
単一のフレームレートにおいてビデオシーケンスの各フレームを抽出するように構成されている符号化器であって、前記ビデオシーケンスは一連のビデオフレームを含む、符号化器、
各ビデオフレーム内の1又は複数の対象の現在の姿勢を推定し、前記ビデオシーケンスの各ビデオフレーム内で1又は複数の対象に関連付けられる1又は複数の関節の関節位置を決定する前記プロセッサ、
前記ビデオシーケンスの各時間ステップの連続するビデオフレームの各対の間のオプティカルフローを計算する前記プロセッサ、
前記オプティカルフローに基づいて前記ビデオシーケンスの各ビデオフレームから運動特性を抽出する前記プロセッサ、並びに
前記現在の姿勢及び前記運動特性に基づいて状態情報を符号化する符号化器
を含み、
前記符号化器が1又は複数のプロセッサを含む、
システム。
【請求項19】
前記プロセッサは、
前記一連のビデオフレームの第1のフレームの前記状態情報に含まれる各運動特性の現在の動作ラベルを決定すること、
復号器によって、前記現在の姿勢、動作ラベル、及び前記状態情報に基づいて、前記第1のフレームに続く前記一連のビデオフレームの第2のフレーム内の各運動特性の将来の動作ラベルを予測すること
復号器によって、前記現在の姿勢及び前記状態情報に基づいて、前記第2のフレーム内の各運動特性の将来の姿勢を予測すること、
損失関数に基づいて、前記現在の動作ラベル、前記将来の動作ラベル、及び前記将来の姿勢を修正すること、並びに
モデル及び前記ビデオシーケンスに基づいて前記第2のフレームの少なくとも1つの将来の姿勢及び将来の運動を予測すること
を実施するように構成されている、請求項18に記載のシステム。
【請求項20】
前記符号化器が、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実施される、請求項18に記載のシステム。
【請求項21】
前記復号器が1又は複数のプロセッサを含み、前記復号器が、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実施される、請求項19に記載のシステム。
【請求項22】
前記オプティカルフローを計算する前記プロセッサは、各チャネルがそれぞれx軸及びy軸における変位を含む2チャネルフローフレームを形成する、請求項18に記載のシステム。
【請求項23】
前記1又は複数の関節位置の各関節位置が、一対の2次元座標(例えば、X、Y)又は3D座標(例えば、X、Y、Z)を含む、請求項18に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
実施例の諸態様は、環境内の画像ベースの予想に関連する方法、システム、及びユーザ体験、より具体的には、人間の動作及び姿勢を予想するための視覚ベースの方法に関連する。
【背景技術】
【0002】
人間の動作及び運動の軌跡を予測することは、人が次に何をするか、及び、どのようにそれを実行するかを予測する分野に対応し、生活支援及び将来の協働ロボットの状況など、関連する幅広い用途において重要である。
【0003】
従来技術の手法は、人間の動作及び人間の姿勢を独立してモデル化又は予想することができる。本明細書において説明される場合、人間の動作とは、歩くこと、落ちること、及びドアを開くことなど、人々が何をするか、又は何を引き起こすかを指す。人間の動作は、一連の動作を含む日常生活及び関連する活動と密接に関連する。各動作は、人の状態に、肯定的又は否定的に、独立して、又は共同して影響を与える可能性がある。人間の動作を分析することで、機械が世界をよりよく理解できるようになる。したがって、有害な動作を防止するなど、人間指向のインテリジェンスによって人間により良いサービスを提供することが期待される。
【0004】
一部の関連技術のシステムは、適切にトリミングされたビデオクリップにおける人間の動作の認識を含む人間の動作の認識に焦点を当てており、ビデオクリップ全体を分析した後に動作ラベルを提供することができる。これらの関連技術のシステムは、トリミングされていないビデオを分析した後、タイムライン内で特定の意味のある動作をローカライズすることを含む、時間的な動作のローカライズを考慮することもできる。しかしながら、前述の関連技術の例では、システムが事後的に動作ラベルを提供するとき、動作はすでに完了している。すなわち、動作の分析が完了したときに、傷害がすでに発生している可能性がある。
【0005】
関連技術システムの主要な問題の1つは、予測される姿勢が平均姿勢に急速に収束し、システムの性能がゼロ速度予測器(すなわち、単に最後の観測を繰り返す)よりも劣ることである。したがって、既存のシステムでは、人間の動作及び姿勢を共同的に予想することはできない。
【先行技術文献】
【非特許文献】
【0006】
【文献】FARHA, Y.A., et al., When Will You do What? - Anticipating Temporal Occurrences of Activities, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5343-5352.
【文献】CARREIRA, J., et al., Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset, 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017,10 pgs.
【文献】HAN,T.,et al., Human Action Forecasting by Learning Task Grammars, arXiv:1709.06391vl,September 19, 2017, 8 pgs.
【文献】JAIN, M., et al., Action Localization with Tubelets from Motion, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 740-747.
【文献】KE, Q., et al., Time-Conditioned Action Anticipation in One Shot, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 9925-9934.
【文献】KOPPULA, H. S., et al., Anticipating Human Activities Using Object Affordances for Reactive Robotic Response, IEEE Tranactions on Pattern Analysis and Machine Intelligence, 2015, 38(1),pp.14-29.
【文献】Ll, Y., et al., Online Human Action Detection Using Joint Classification-Regression Recurrent Neural Networks, European Conference on Computer Vision, 2016, pp. 203-220.
【文献】MA., S., et al., Learning Activity Progression on LSTMs for Activity Detection and Early Detection, Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 1942-1950.
【文献】MAHMUD, T., Joint Prediction of Activity Label and Starting Times in Untrimmed Videos, Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 5773-5782.
【文献】MARTINEZ, J., et al., On Human Motion Prediction Using Recurrent Neural Networks, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 2891-2900.
【文献】RYOO, M.S., Human Activity Prediction: Early Recognition of Ongoing Activities from Streaming Videos, IEEE International Conference on Computer Vision (ICCV) Barcelona, Spain, November 2011,8 pgs.
【文献】SIMONYAN, K., et al., Two-Stream Convolutional Networks for Action Recognition in Videos, Advances in Neural Information Processing Systems, 2014, pp. 568-576.
【文献】SRIVASTAVA, N., et al., Unsupervised Learning of Video Representations Using LSTMs, Proc. International Conference on Machine Learning (ICML), 2015, pp. 843-852.
【文献】TOYER, S., et al., Human Pose Forecasting via Deep Markov Models, 2017 International Conference on Digital Image Computing: Techniques and Applications (DICTA), 2017, 8 pgs.
【文献】WALKER, J., et al., The Pose Knows: Video Forecasting by Generating Pose Futures, Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 3332-3341.
【文献】ZHANG, Y. et al., Activity Forecasting in Routine Tasks by Combining Local Motion Trajectories and High-Level Temporal Models, 2019 IEEE International Conference on Computational Science and Engineering (CSE) and IEEE International Conference on Embedded and Ubiquitous Computing (EUC), 2019, pp. 447-452.
【発明の概要】
【発明が解決しようとする課題】
【0007】
したがって、当該技術分野において、将来の動作及びそれらの動作の運動軌跡を予測することができるシステムに対して、満たされていない需要が存在する。
本開示の技術は、人間の動作及び姿勢を共同的に予想することの可能なコンピュータ実施方法、プログラム、及びシステムを提供することを目的とする。
【課題を解決するための手段】
【0008】
実施例の一態様によれば、単一のフレームレートにおいてビデオシーケンスの各フレームを抽出することであって、前記ビデオシーケンスは一連のビデオフレームを含む、抽出すること、各ビデオフレーム内の対象の現在の姿勢を推定し、各ビデオフレーム内で前記対象に関連付けられる関節の関節位置を決定すること、前記ビデオシーケンスの各時間ステップの連続するビデオフレームの各対の間のオプティカルフロー(Optical Flow)を計算すること、前記オプティカルフローに基づいて前記ビデオシーケンスの各ビデオフレームから運動特性を抽出すること、並びに、前記現在の姿勢及び前記運動特性に基づいて状態情報を符号化することを含む、コンピュータ実施方法が提供される。
第2の態様は、第1の態様において、前記一連のビデオフレームの第1のフレームの前記状態情報に含まれる各運動特性の現在の動作ラベルを決定することであって、前記一連のビデオフレームは赤緑青(RGB)フォーマットである、決定すること、復号器によって、前記現在の姿勢、動作ラベル、及び前記状態情報に基づいて、前記第1のフレームに続く前記一連のビデオフレームの第2のフレーム内の各運動特性の将来の動作ラベルを予測すること、復号器によって、前記現在の姿勢及び前記状態情報に基づいて、前記第2のフレーム内の各運動特性の将来の姿勢を予測すること、及び損失関数に基づいて、前記現在の動作ラベル、前記将来の動作ラベル、及び前記将来の姿勢を調整することをさらに含む。
第3の態様は、第2の態様において、モデル及び前記ビデオシーケンスに基づいて、前記第2のフレームの少なくとも1つの将来の姿勢及び将来の運動を予測することをさらに含む。
第4の態様は、第1の態様において、前記符号化器が1又は複数のプロセッサを含む。
第5の態様は、第2の態様において、前記復号器が1又は複数のプロセッサを含む。
第6の態様は、第4の態様において、前記符号化器及び前記復号器は、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実施される。
第7の態様は、第5の態様において、前記符号化器及び前記復号器は、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実施される。
第8の態様は、第1の態様において、前記オプティカルフローを前記計算することは、各チャネルがそれぞれx軸及びy軸における変位を含む2チャネルフローフレームを形成する。
第9の態様は、第1の態様において、前記フレームレートは、24fps~60fpsである。
第10の態様は、第1の態様において、前記1又は複数の関節位置の各関節位置が、一対の2次元座標(例えば、X、Y)又は3D座標(例えば、X、Y、Z)を含む。
第11の態様のプログラムは、プロセッサに、符号化器によって、単一のフレームレートにおいてビデオシーケンスの各フレームを抽出することであって、前記ビデオシーケンスは一連のビデオフレームを含む、抽出すること、各ビデオフレーム内の1又は複数の対象の現在の姿勢を推定し、前記ビデオシーケンスの各ビデオフレーム内で前記対象に関連付けられる関節の関節位置を決定すること、前記ビデオシーケンスの各時間ステップの連続するビデオフレームの各対の間のオプティカルフローを計算すること、前記オプティカルフローに基づいて前記ビデオシーケンスの各ビデオフレームから運動特性を抽出すること、及び符号化器によって、前記現在の姿勢及び前記運動特性に基づいて状態情報を符号化すること、を含む処理を実行させる。
第12の態様は、第11の態様において、前記一連のビデオフレームの第1のフレームの前記状態情報に含まれる各運動特性の現在の動作ラベルを決定すること、復号器によって、前記現在の姿勢、動作ラベル、及び前記状態情報に基づいて、前記第1のフレームに続く前記一連のビデオフレームの第2のフレーム内の各運動特性の将来の動作ラベルを予測すること、復号器によって、前記現在の姿勢及び前記状態情報に基づいて、前記第2のフレーム内の各運動特性の将来の姿勢を予測すること、並びに損失関数に基づいて、前記現在の動作ラベル、前記将来の動作ラベル、及び前記将来の姿勢を修正することをさらに含む。
第13の態様は、第12の態様において、モデル及び前記ビデオシーケンスに基づいて、前記第2のフレームの少なくとも1つの将来の姿勢及び将来の運動を予測することをさらに含む。
第14の態様は、第11の態様において、前記符号化器が1又は複数のプロセッサを含み、前記符号化器及び前記復号器が、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実施される。
第15の態様は、第12の態様において、前記復号器が1又は複数のプロセッサを含み、前記符号化器及び前記復号器が、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実施される。
第16の態様は、第11の態様において、前記オプティカルフローを前記計算することは、各チャネルがそれぞれx軸及びy軸における変位を含む2チャネルフローフレームを形成する。
第17の態様は、第11の態様において、前記フレームレートは24fps~60fpsである。
第18の態様は、第11の態様において、前記1又は複数の関節位置の各関節位置が、一対の2次元座標(例えば、X、Y)又は3D座標(例えば、X、Y、Z)を含む。
第19の態様のシステムは、プロセッサ及び記憶装置を含む、視覚ベースの間接動作及び姿勢運動の予想のためのシステムであって、単一のフレームレートにおいてビデオシーケンスの各フレームを抽出するように構成されている符号化器であって、前記ビデオシーケンスは一連のビデオフレームを含む、符号化器、各ビデオフレーム内の1又は複数の対象の現在の姿勢を推定し、前記ビデオシーケンスの各ビデオフレーム内で1又は複数の対象に関連付けられる1又は複数の関節の関節位置を決定する前記プロセッサ、前記ビデオシーケンスの各時間ステップの連続するビデオフレームの各対の間のオプティカルフローを計算する前記プロセッサ、前記オプティカルフローに基づいて前記ビデオシーケンスの各ビデオフレームから運動特性を抽出する前記プロセッサ、並びに前記現在の姿勢及び前記運動特性に基づいて状態情報を符号化する符号化器を含む、システム。
第20の態様は、第19の態様において、前記プロセッサは、前記一連のビデオフレームの第1のフレームの前記状態情報に含まれる各運動特性の現在の動作ラベルを決定すること、復号器によって、前記現在の姿勢、動作ラベル、及び前記状態情報に基づいて、前記第1のフレームに続く前記一連のビデオフレームの第2のフレーム内の各運動特性の将来の動作ラベルを予測すること、復号器によって、前記現在の姿勢及び前記状態情報に基づいて、前記第2のフレーム内の各運動特性の将来の姿勢を予測すること、損失関数に基づいて、前記現在の動作ラベル、前記将来の動作ラベル、及び前記将来の姿勢を修正すること、並びにモデル及び前記ビデオシーケンスに基づいて前記第2のフレームの少なくとも1つの将来の姿勢及び将来の運動を予測することを実施するように構成されている。
第21の態様は、第16の態様において、前記符号化器が1又は複数のプロセッサを含み、前記符号化器及び前記復号器が、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実施される。
第22の態様は、第20の態様において、前記復号器が1又は複数のプロセッサを含み、前記符号化器及び前記復号器が、1又は複数のゲート式再帰型ネットワークを実施する再帰型ニューラルネットワークを使用して実施される。
第23の態様は、第19の態様において、前記オプティカルフローを計算する前記プロセッサは、各チャネルがそれぞれx軸及びy軸における変位を含む2チャネルフローフレームを形成する。
第24の態様は、第19の態様において、前記1又は複数の関節位置の各関節位置が、一対の2次元座標(例えば、X、Y)又は3D座標(例えば、X、Y、Z)を含む。
【0009】
実施例はまた、記憶装置及びプロセッサを有する非一時的コンピュータ可読媒体をも含むことができ、前記プロセッサは、環境における画像ベースの予想に関連する命令、より具体的には、人間の動作及び姿勢を予想するための視覚ベースの方法を実行することができる。
【0010】
本開示の実施形態の詳細は、それらの構造及び動作の両方に関して、添付の図面を検討することによって部分的に収集することができ、図面において、同様の参照符号は同様の部分を参照する。
【図面の簡単な説明】
【0011】
図1図1は、現在及び以前の観察から将来の動作及び姿勢を予測するための方法の一実施形態の流れ図である。
【0012】
図2図2は、本開示による、関節動作及び姿勢運動を予想するためのシステムの一実施形態の機能ブロック図である。
【0013】
図3図3は、本開示による、ビデオから運動特性及び人間の姿勢を推定するための方法の一実施形態の流れ図である。
【0014】
図4図4は、本開示による、系列変換モデルのマルチタスク訓練のための方法の一実施形態の流れ図である。
【0015】
図5図5は、本開示による、訓練されたモデルを使用して推論を提供するための方法の一実施形態の流れ図である。
【0016】
図6図6は、試験データを使用した、異なる予測長の動作予測正確度のグラフ図である。
【0017】
図7A図7Aは、本開示による、視覚ベースの関節動作及び姿勢運動の予想のための方法の一実施形態の流れ図である。
図7B図7Bは、本開示による、視覚ベースの関節動作及び姿勢運動の予想のための方法の一実施形態の流れ図である。
【0018】
図8図8は、本開示によるコンピューティング環境の一実施形態の機能ブロック図である。
【0019】
図9図9は、本開示による例示的な動作環境の機能ブロック図である。
【発明を実施するための形態】
【0020】
以下の詳細な説明は、本出願の図面及び実施例のさらなる詳細を提供する。図面間の重複する要素の参照番号及び説明は、明確にするために省略されている。本明細書全体にわたって使用されている用語は、例として提供されており、限定を意図するものではない。
【0021】
実施例の諸態様は、先行する動作の観察に基づいて人間の動作を予測又は他の様態で予期するためのディープラーニング方法を対象とする。人間の動作及び運動軌跡を予期することは、AI支援生活及び人間とロボットとの相互作用など、幅広い用途で重要である。動作及び姿勢を早期に予期することは、例えば患者の転倒を防ぐためのAI支援医療を含む、さまざまな用途に益することができる。AIシステムが病院又は生活支援施設における転倒を予測することができる場合、転倒を防止して傷害を減らし、したがって医療費を削減して生活の質を向上させることができる。
【0022】
図1は、現在及び以前の観察から将来の動作及び姿勢を予測するための方法の一実施形態の流れ図である。人間は自然に、現在の動作又は姿勢の観察及び同じような状況における個々の過去の経験に基づいて、動作及び動作が行われる前の動作者の位置を予期することができる。同様に、本開示は、以前に分析されている先行するビデオフレームに基づいて、将来のビデオフレームにおける1又は複数の人間の動作カテゴリ及び骨格関節(姿勢)を共同的に予期又は他の様態で予測するためのシステム及び方法を提供する。
【0023】
図1に示される方法100は、1又は複数のビデオストリーム130から運動特性110及び姿勢120を抽出することができる。前記方法100は、両方ともビデオストリーム130に関連する将来のフレームに対する、動作カテゴリ分類及び骨格関節回帰を含むマルチタスク学習問題としてモデル化することができる。前記ビデオストリーム130が与えられると、前記ビデオストリーム130のすべてのフレームについて、被験者の前記運動特性110(オプティカルフロー)及び前記姿勢120を抽出することができる。
【0024】
本明細書において使用される場合、骨格姿勢はいくつか(例えば、14個又は25個、14は身体の上部の関節の総数を表し、25は身体の関節の総数を表す。本発明の範囲から逸脱することなく、他の数の関節をその代わりに使用することができる)の関節点を利用して、人体上の所与の位置を表すことができる。これらの骨格姿勢又は関節点は、手、手首、肘、肩、足首、膝、腰などの、身体の関節を含むか、記述するか、又はそれらと関連付けられることができる。本明細書において説明される場合、限定ではなく例として、ビデオストリームからのRGB(赤-緑-青)画像を使用すると、動的にモデル化するのが容易な低次元の対象が提供される。例えば、限定ではなく、骨格(例えば、25関節x 3のサイズ)を使用すると、前記RGB画像からの生のピクセル(例えば、サイズ480X640)を使用するよりもコンパクトに被験者を表現することができる。
【0025】
前記ビデオストリーム130内のすべての時間ステップtにおいて、前記運動特性110及び前記姿勢120を組み合わせて、系列変換モデルを含むことができるディープモデル(deep model)140を形成することができる。次に、前記方法100を使用して、前記ディープモデル140に基づいて、将来の動作及び姿勢150のシーケンスを漸進的に予測することができる。
【0026】
図2は、本開示による、関節動作及び姿勢運動を予想するためのシステムの一実施形態の機能ブロック図である。システム200を使用して、ビデオストリーム(例えば、前記ビデオストリーム130)から関節動作及び姿勢運動を予想するための前記方法の1又は複数の態様を実行することができる。前記システム200は、復号器220に通信可能に結合される符号化器210を含むことができる。前記システム200は、前記(例えば、RGB)ビデオストリーム130を受信して処理し、将来の動作及び姿勢シーケンスを共同的に予測することができる。前記システム200は、マルチタスク符号化器復号器再帰型ネットワーク構造を組み込むことができる。
【0027】
前記ビデオストリーム130の各時間ステップtにおいて、前記符号化器210は、過去のビデオストリーム情報からマルチモダリティ特性を符号化し、前記ビデオストリーム130に見られる現在の動作を認識することができる。前記符号化情報は、予測を漸進的に実行する関連情報を用いて前記復号器220を初期化するのに役立つ。
【0028】
過去のイベントのビデオ全体に基づいて決定を行う動作認識及び検出を対象とするシステムとは対照的に、本明細書において説明する動作の予想は、その瞬間に利用可能な、又はリアルタイムで発生する観測を使用して、現時点の直後の運動又は姿勢を予測又は予期することを含むことができる。これは、図示されているように、前記システム200の逐次符号化器-復号器再帰型ネットワーク構造を使用して達成することができる。
【0029】
前記符号化器210は、ゲート式再帰型ネットワーク(GRU)又は長期短期記憶(LSTM)などの再帰型ニューラルネットワーク(RNN)を含むことができる。前記符号化器210は、GRU212a、212b、212cとして示される1又は複数のRNNを有することができる。前記符号化器210は、過去のビデオシーケンス(例えば、前記ビデオストリーム130)からのマルチモーダル特性を符号化し、前記過去のビデオシーケンスに基づいて現在の動作タイプを決定することができる。前記現在の動作タイプは、例えば、前記ビデオストリーム130に見られる動作の記述を含むことができる。図1の前記ビデオストリーム130に示されるように、例えば、ユーザは電子レンジの隣に立って、次に手を伸ばして、電子レンジを開いている。前記現在の状態情報は、そのようなシーンの諸態様を記述することができる。
【0030】
前記復号器220は、前記符号化器210の現在の状態情報230を受信することができる。本明細書では状態230とも呼ばれる前記現在の状態情報230は、前記符号化器210によって、隠され状態として符号化するか、又は、そうでなければハッシュ関数、圧縮、若しくは他の適用可能なプロセスによって不明瞭にすることができる。したがって、前記状態230は、本明細書においては「隠れ状態」又は「符号化器状態」と呼ばれる場合もある。
【0031】
前記復号器220は、3つの情報、すなわち、前記状態情報230、予測される現在の動作200、及び開始点としての検出される姿勢を受信することができる:。「損失関数」は240の上に示されている。図2において、「at」は動作タイプを意味し、これは前記損失関数における「yt」に対応する。次に、前記復号器220は、RNN222(GRU222a、GRU222bとして示される)を実施して、前記符号化された過去のフレーム及び前記認識された現在の動作によって作成されるモデル(例えば、前記ディープモデル140)に基づいて、動作及び姿勢の対240(240a、240bとして示される)の将来のシーケンスを漸進的に生成することができる。
【0032】
時間tにおいて、(例えば、ビデオストリーム130からの)一連の過去のビデオフレームV0:tが与えられると、前記システム200は、将来の時間ステップTにおける動作ラベル及び対応する姿勢のシーケンスを予測するために使用され得る。これは(Yt:t+T’t:t+T)として示すことができる。Yは時間ステップtにおける動作カテゴリを示し、ワンホットベクトルとして符号化され、ここで、1は真のクラス、0は他のすべてのクラスである。Pは、主要な身体関節のセットの(x、y)座標によって定義される時間tにおける2次元(2D)姿勢、又は代替的に、(x、y、z)座標によって示される3D姿勢である。この意味での主要な身体関節は、例えば、鼻、首、肩、肘、手首、足首、膝、目、耳、つま先、かかと、肘などを含むことができる。
【0033】
図3は、本開示による、ビデオから運動特性及び人間の姿勢を推定するための方法の一実施形態の流れ図である。方法300は、例えば、前記システム200によって実行することができる。方法300は、ディープラーニング表現の進歩を活用して、RGB画像frgb、オプティカルフローfmotion、及び人間の姿勢fposeを含む複数のモダリティから特性を抽出することができる。RGBモダリティは視覚的外観を表す。
【0034】
後者の2つのモダリティ、すなわち、オプティカルフローfmotion及び人間の姿勢fposeは、それぞれ、例えば、ビデオストリーム130からのビデオフレームのシーケンスに関連する短期運動情報及び長期運動情報を表す。短期の時間的関係を捕捉するために、方法300は、単一の画像とは対照的に、(例えば、ビデオストリーム130からの)L個のビデオフレームのスタックを入力として実施することができる。特性表現frgb、fmotion、及びfposeについて、以下で説明する。
【0035】
RGB特性抽出。フレームレベル特性は、ResNet-18畳み込みニューラルネットワーク(CNN)から抽出される。標準のResNet-18 CNNはRGB画像を取り込み、入力チャネルは3である。L個のフレームのスタックを入力として収容するために、ResNet-18 CNNネットワークの入力チャネルはL×3に調整される。最終的なRGB表現frgbは、最後の平均プーリング層から抽出される512-dベクトルである。他の実施例においては、ResNet-18に加えて、VGG、Densenetなどの代替的な既製のCNNネットワーク、又はResNet-34などのさまざまな層を利用することができる。
【0036】
オプティカルフロー特性抽出。ディープラーニングベースのオプティカルフロー推定器(FlowNet2.0など)を利用して、前記ビデオストリーム130の2つの連続するフレーム間のオプティカルフローを計算することができる。各時間ステップtに対して、このようなシステムは2チャネルフローフレームを生成することができ、各チャネルにはそれぞれx軸及びy軸の変位が含まれる。RGBモダリティと同様に、LスタックオプティカルフローフレームをResNet-18 CNNへの入力として使用し、入力チャネルの数をL×2に変更する。最終的な表現fmotionは512-dベクトルである。
【0037】
姿勢抽出。姿勢は、単一の画像からのリアルタイムのボディポイント検出の成功に起因して、最近大きな関心を集めている。姿勢モダリティの場合、既製の姿勢推定器(OpenPoseなど)を利用して、各フレームから主要な身体点の関節位置を決定することができる。各関節位置は2D座標の対によって表すことができるため、各姿勢はnum_joints(関節数)×2elements(要素)を有する1Dベクトルによって符号化される。最終的な姿勢表現fposeは、L個のフレームからの姿勢を連結したもので、合計サイズは1×L×num_joints×2elementsである。ビデオ(例えば、前記ビデオストリーム130)が与えられると、前記システムは、最初に、固定サンプリングレート(例えば、30fps)においてすべての前記フレームを抽出することができる。各時間ステップtにおいて、RGB、オプティカルフロー、及び姿勢特性が別個に使用されるか、又は、fとして示される最終的なマルチモーダル特性表現として連結される。
【0038】
ブロック310で、システム200は、固定サンプリングレート(例えば、毎秒30フレーム(fps))において前記ビデオストリーム130からすべてのビデオフレームを抽出することができ、又は滑らかな動きの描写を可能にするフレームを抽出することができる。すべてのビデオフレームにわたって前記サンプリングレートを固定することは、前記将来の動作及び姿勢をフレームごとに予測するための一貫した比較を維持するために重要である。前記サンプリング又はフレームレートに一貫性がない場合、動作の速度があいまいになる可能性がある。したがって、一貫性のないフレームレートでは、前記モデルが動作の動態を学習することは困難である。本明細書において使用される場合、30fpsは本開示を限定するものではない。介在するフレームレート値を含め、例えば、40、45、50、60fps以上など、30fpsを下回る又は上回る他のサンプリングレートが可能である。一般的なビデオフレームレートには、24、29.97、30、59.94、及び60fpsが含まれるが、これらに限定されない。処理のために、レートは29.97又は30fpsに正規化され得る(24fpsは典型的には、映画に見られる)。したがって、実施例は、24fps~60fpsのフレームレートを含み得る。
【0039】
次に、前記抽出されたビデオフレームを使用して、2つの異なるドメインの前記特性、すなわち前記ビデオ内の被験者の骨格姿勢特性及び運動特性を計算する。
【0040】
ブロック330において、姿勢推定が、骨格姿勢特性332をモデル化することができる。ブロック330における前記姿勢推定中に、各ビデオフレーム内の1又は複数の人間の関節位置を、既製の姿勢推定ディープモデルを使用して推定することができる。前記姿勢特性332の各関節位置は、二次元(2D)座標又は3D座標によって表すことができる。したがって、各姿勢は1×numjoints*2vector(ベクトル)として記述することができる。
【0041】
ブロック320において、前記オプティカルフロー推定を使用して、運動特性をモデル化することができる。ブロック320、又は前記方法300の運動分岐において、(例えば、前記ビデオストリーム130の)連続するビデオフレームの各対間の前記オプティカルフロー322を計算するために、オプティカルフロー推定ディープモデルを実施することができる。オプティカルフローの幅及び高さは、前記ビデオストリーム130に関連付けられるRGBフレームと同じであるが、前記オプティカルフロー322には、前記x軸とy軸の各々の変位値を表す2つのチャネルがあることに留意されたい。
【0042】
ブロック340において、事前訓練された特性抽出器が、各ビデオフレームに対して運動特性342を生成することができる。ブロック340の前記特性抽出は、スタックされたオプティカルフローを入力として受信することができ、これは、現在の時間及び以前のnum_stack(スタック数)時間ステップの前記オプティカルフローを連結したものである。ブロック340の出力は、motion-dim(運動次元)の次元を有する短期運動特性342を含むことができる。各フレームに早期融合を使用して、前記運動特性及び前記姿勢特性を後続するプロセスの最終的な特性として連結する。
【0043】
前記方法300は、両方のモダリティ(例えば、姿勢及びオプティカルフロー/運動)の組み合わされた特性を効率的に表すために後期融合を実施することもできる。単一の符号化器(例えば、単一のRNNを有する前記符号化器210)を利用して連結された特性から時間パターンを捕捉する早期融合とは異なり、後期融合は、前記連結の前に個々のモダリティのための異なる符号化器を含むことができ、運動及び姿勢の別個の隠れ状態をもたらす。いくつかの例では、前記符号化器(例えば、前記符号化器210)は、図2に関連して上記で説明したものと同様の、GRUセルなどのRNNとすることができる。
【0044】
早期融合と比較して、後期融合は追加の符号化器構造を導入するため、モデルの複雑さが増す。ただし、運動特性は局所的分散の密な記述子であるため、姿勢は連続的動態のより高いレベルの抽象化と見なすことができるが、後期融合の分割される潜在空間は、このような種々のタイプの時間依存性のモデル化について、早期融合よりも柔軟性がある。
【0045】
したがって、前記方法300の復号プロセスをさらに改善するために、前記(第1の又は一次)GRU222及び212は、双方向構造を形成するように、訓練段階中に二次GRUセルによって増強することができる。前記第1のGRU222を介した将来の姿勢予測に加えて、前記第2のGRUセル222は、同じ隠れ状態によって初期化されるが、逆の順序で以前の入力を再構築することを目的とする。前記双方向GRUは、過去から未来へ、及び未来から過去への入力を実行するときに、コンテキストをより適切に捕捉し、これにより、過去及び未来の両方からの情報が保持される。より具体的には、各時間ステップにおいて、現在のフレームの再構築された姿勢が、最後のフレームから入力姿勢を再構築するために提供される。これにより、前記隠れ状態(例えば、状態230)が、過去のすべてのフレームを回復するために重要である可能性がある姿勢及び運動に関する十分な、必要な履歴情報を維持するように強制される。したがって、訓練後、試験段階中にそのような拡張構造が初期の単一GRU復号器に縮減され、二次GRUが除去されるとしても、前記隠れ状態は長期パターンを捕捉する能力が高くなり得る。
【0046】
図4は、本開示による、系列変換モデルのマルチタスク訓練のための方法の一実施形態の流れ図400である。系列変換モデルは、上記で説明した予想問題に対処することができる。本開示の方法は、過去の情報を符号化するように構成される符号化器410と、(例えば、前記ビデオストリーム130内の個人の)将来の動作及び姿勢を予測するように構成される復号器430とを含むことができる。前記符号化器410は、RNN(例えば、GRU)を実施して、過去のビデオシーケンス(例えば、前記ビデオストリーム130)からのマルチモーダル特性を符号化し、現在の動作タイプを決定することができる。
【0047】
前記復号器430は、前記符号化器410の現在の隠れ状態412と同じ値に設定される。前記予測された現在の動作及び検出された姿勢を開始点として供給することにより、前記復号器430は(例えば、GRUを使用して)将来の動作シーケンス及び姿勢の対を漸進的に生成することができる。前記符号化器410及び前記復号器430の両方は、RNNベースのモデルであり得る。すべての時間ステップにおいて、前記符号化器410は、現在のフレーム及びすべての以前のフレームの最終的な特性を入力として受信することができる。RNNは、シーケンス内の異なる要素間の依存関係をモデル化することができるため、前記符号化器410は、観測されるフレームのすべてを、前記シーケンスの長期情報である隠れ状態に符号化する。
【0048】
前記符号化器410から符号化された隠れ状態412が与えられると、前記復号器430は、動作ラベル432及び姿勢434の両方を漸進的に出力することができる。前記復号器430の入力と前記符号化器410の出力とは同じでなければならないため、前記復号器430への入力も、動作ラベル432及び姿勢434であり得る。ただし、いずれの時間ステップにおいても動作ラベルはない。
【0049】
いくつかの実施態様では、前記符号化器410は、現在のフレームの動作カテゴリを認識することもできる。次に、現在の時間ステップにおける動作ラベル及び前記計算される姿勢を、第1の時間ステップの入力として前記復号器430に供給することができる。次に、前記復号器430は、第1の時間ステップの予測結果、すなわち、動作ラベル及び姿勢を出力する。後続する時間ステップについて、前記復号器430は、最大時間ステップに達するまで、先行する時間ステップの出力を入力として受け取る。その結果、前記システム400は、すべての時間ステップの予測される将来の動作ラベル及び姿勢を提供することができる。
【0050】
前記方法400は、図4においてタスク1、タスク2、タスク3とラベル付けされる3つのタスクを含むことができる。これらのタスクは、現在の動作ラベルの認識(タスク1)、将来の動作ラベルの予測(タスク2)、及び将来の姿勢の予測(タスク3)を含む。これらは別個のタスクであるが、互いに完全に独立してはいない。例えば、現在の動作ラベル436を知ることは、現在の動作ラベルから進展した将来の動作ラベルを予測するのに役立つ。一方では、将来の動作ラベルは、将来の姿勢を予測するための追加の検証として機能する。このように、姿勢予測モジュールは、特定の動作に属する姿勢のみをモデル化することができ、これにより、このモジュールの負担が軽減され、学習が容易になる。他方、現在の時間ステップの動作ラベルとは別に、将来の姿勢が将来の姿勢の予測の追加情報として機能することができる。要約すると、3つのタスクは互いに密接に関連しており、したがって、共同学習の自然な候補である。
【0051】
図4に示すように、提案される前記モデルは、重みを共有する1つの基幹ネットワークと、これらのタスクを実行するための3つのヘッドとからなる。マルチタスク学習を用いることによって、前記提案されるモデルは共同的に訓練される。マルチタスク符号化器復号器再帰型ネットワークは、損失関数450によってエンドツーエンドで共同的に最適化される。前記損失関数は、以下の式(1)のように表すことができる。
【数1】

合計
交差エントロピー
スムーズ
【0052】
ここで、Lclsは、時間tからt+Tまでの各フレームの動作分類損失の合計である。Lregは、時間tからt+Tまでの各フレームの姿勢関節位置のL1スムーズ回帰損失の合計である。λは、2種類の損失のバランスをとるスカラーパラメータである。動作分類は、前記現在の動作ラベル436を定義するために420において動作分類器によって実行されることに留意されたい。前記システム400は、当然ながら、前記復号器430内の前記RNNモデルの組み込みに基づいて、異なる予測長を処理することができる。本明細書において使用される場合、予測長は、前記システム400が運動及び姿勢予測を提供することができる将来への時間量である。
【0053】
前記符号化器410から符号化された隠れ状態412が与えられると、前記復号器430は、動作ラベル及び姿勢の両方を自身で漸進的に出力することが可能である。最初の予測時間ステップにおいて、前記復号器430はまた、認識された動作ラベル、及び、最後に見られた時間ステップにおける姿勢を入力として受け取る。後続する時間ステップにおいて、前記復号器430は常に、前の時間ステップの出力を現在の時間ステップの入力、すなわち、隠れ状態、動作ラベル、姿勢として受け取る。したがって、予測の長さは前記システムの可変パラメータとして設定される。これは、推論中に設定される限り、予測することができる。
【0054】
図5は、本開示による、訓練されたモデルを使用して推論を提供するための方法の一実施形態の流れ図である。ブロック505(ブロック405と同様)において、運動特性110及び姿勢120がビデオストリーム130から抽出される。ブロック510において、前記抽出された運動特性110及び姿勢120は、状態情報230として(例えば、前記符号化器210又は510によって)符号化され得る。
【0055】
前記方法400によって生成される前記訓練されたモデルに基づいて、前記動作分類器520は、ブロック520における動作分類を実行して、現在の動作ラベル536を定義することができる。
【0056】
ブロック530において、前記復号器220は前記状態230を復号して、前記方法400からの前記モデルに基づいて、将来のラベル532及び将来の姿勢534を予測することができる。前記現在の動作ラベル436、前記将来の動作ラベル432、及び前記将来の姿勢434は、前記方法500が運動及び姿勢予測に使用される状況について、前記モデルを訓練するためのものとは対照的に、前記現在の動作ラベル536、前記将来の動作ラベル532、及び前記将来の姿勢534とは明確に異なる。
【0057】
図6は、試験データを使用した、異なる予測長の動作予測正確度のグラフ図である。テーブルメソッド400及び500は、試験データに基づいて評価することができる。例えば、家具の組み立てなどの単純な手順を、別の、おそらくより複雑なタスクの代理として使用することができる。例示的なデータセットは、小さな家具を組み立てる個人のビデオのセット(例えば、前記ビデオストリーム130)を有する。
【0058】
前記例示的なデータセットは、各々が約2~4分の長さの、毎秒30フレームで撮影された101個の短いビデオを有する。シナリオの例は、前記ビデオ内に14人の動作者を含み、11人の動作者からのシーケンスが前記方法400を使用して訓練及び検証のために実施され、試験がバランスをとって前記方法500を使用して遂行される。前記シーケンスの半分は床の上での組み立てを示し、一方、残りの半分は作業台上での組み立てを示す。前記ビデオの例示的な動作ラベルは、例えば、4つの「脚を取り付ける」動作(各脚に1つ)、4つの「脚を取り外す」動作、「脚を取り上げる」動作、「テーブルをひっくり返す」動作、「回して入れる(spin in)」、「回して外す(spin out)」動作、及び前記方法400によってラベル付けされていない、又はラベル付けできなかったフレームに対するヌル動作を含む。
【0059】
前記システム200は、2つの態様、すなわち、動作予測正確度及び将来の姿勢予測の性能に基づいて評価することができる。第1の態様において、前記動作予測正確度は、最高水準の又は既製のモデル及び異なる予測長の動作予測正確度と比較することができる。選択される2つの制御方法は、1)2ストリーム予測システムを使用するLSTM及び2)改良型高密度軌道(iDT)を使用するLSTMである。
【0060】
以下の表1に示すように、前記方法500の次の最初の予測(Acc)の正確度(例えば、系列間又はseq2seq)は、両方の対照よりも11.1%を超えて高い。さらに、他の2つの予測方法は次の1つの時間ステップしか予測できないが、前記方法400及び前記方法500によって実施されるモデルは複数の連続する時間ステップ又はシーケンスを予測することができる。
【0061】
開示される試験では、前記方法500は、次の5番目の予測(Acc4)、又はAccを過ぎた4つの追加ステップにおいて74.3%の正確度を達成することができた。これは、第1の予測の正確度よりわずかに低いだけである。予測正確度の低減は、将来の姿勢/運動の情報量の低減、したがって、予測正確度の低下に起因する。図4に示すように、動作予測正確度と予測長との間の関係は、次の1番目(Acc)から61番目まで5つおきの時間ステップにおいて示されている。示されているように、予測の長さが長くなるにつれて正確度は低下する。これは、上記の点を示す。
【0062】
【表1】
【0063】
図7A及び図7Bは、本開示による、視覚ベースの関節動作及び姿勢運動の予想のための方法の一実施形態の流れ図である。方法700は、コンピューティング環境(例えば、以下で説明されるコンピューティング環境1000)内の1又は複数のプロセッサによって実施することができる。いくつかの実施形態では、図7Aに示すように、前記方法700は、701における現在の姿勢及び関節運動の推定、702におけるディープラーニングモデルの訓練(例えば、学習)、及び703における前記モデルに基づく将来の運動及び姿勢の予測を含む、複数のサブプロセスの組み合わせであり得る。
【0064】
より詳細には、図7Bは、前記実施例の前記方法700による、前記推定701、学習702、及び予測703のさらなる詳細を示す。要素705~725は前記推定701に関連する追加の詳細を表し、要素730~745は前記学習702に関連する追加の詳細を表し、要素750は前記予測703に関連する追加の詳細を表す。
【0065】
ブロック705において、前記システム200は、単一のフレームレートにおいてビデオシーケンス(例えば、前記ビデオシーケンス130)の各フレームを抽出することができる。前記単一のフレームレートは、前記ビデオシーケンスのすべてのビデオフレームにわたって一定であり得る。前記ビデオフレームは、例えば赤-緑-青(RGB)ビデオフォーマットとしてフォーマットすることができる。しかしながら、本実施例はこれに限定されない。例えば、限定ではないが、前記ビデオフレームはRGBとして抽出されてもよいが、前記ビデオフレームは、1又は複数の他の周知のビデオフォーマットにおいてYUVとして表されてもよい。
【0066】
ブロック710において、前記システム200は、各ビデオフレーム内の1又は複数の対象の現在の姿勢を推定することができる。システム200はさらに、前記ビデオシーケンスの各ビデオフレーム内の1又は複数の対象に関連する1又は複数の関節の関節位置を決定することができる。前記関節の位置の決定及び姿勢の推定は、同時に、並行して、又は順次、任意の順序で行うことができる。
【0067】
ブロック715において、前記システム200は、前記ビデオシーケンスの各時間ステップの連続するビデオフレームの各対間のオプティカルフローを計算して、各チャネルがそれぞれx軸及びy軸における変位を含む2チャネルフローフレームを形成することができる。
【0068】
ブロック720において、前記システム200は、前記オプティカルフローに基づいて、前記ビデオシーケンスの各ビデオフレームから運動特性を抽出することができる。
【0069】
ブロック725において、前記システム200は、前記現在の姿勢及び前記運動特性に基づいて状態情報を符号化することができる。
【0070】
ブロック730において、前記システム200は、一連のビデオフレームの第1のフレームの前記状態情報に含まれる各運動特性の現在の動作ラベルを決定することができる。
【0071】
ブロック735において、前記システム200は、現在の動作ラベル及び状態情報に基づいて、前記第1のフレームに続く前記一連のビデオフレームの第2のフレームにおける各運動特性の将来の動作ラベルを予測することができる。
【0072】
ブロック740において、前記システム200は、前記現在の姿勢及び前記状態情報に基づいて、前記第2のフレーム内の各運動特性の将来の姿勢を予測することができる。
【0073】
ブロック745において、前記システム200は、損失関数に基づいて、前記現在の動作ラベル、前記将来の動作ラベル、及び前記将来の姿勢を修正することができる。
【0074】
ブロック750において、前記システム200は、前記モデル及び前記ビデオシーケンスに基づいて、前記第2のフレームの少なくとも1つの将来の姿勢及び将来の運動を予測することができる。
【0075】
例えば、前記方法700の実施形態及び本明細書に他の様態で開示されている実施形態は、ロボット又はロボットシステムに適用可能であり得る。いくつかの例では、ロボットシステムは、前記方法700をさまざまな医療又は外科的手順に実施し、人間の動作者の必要を予期することによってさまざまな手順の速度を改善するか、又は、訓練の速度を向上させることができる。少なくとも1つの例では、医療用途のロボットアシスタントは、患者/被験者の直前に捕捉されたビデオに基づいて患者が落下しようとしているときを予期するか、又は、外科チームの動作に基づいて手術中に外科医に手術道具を渡すことができる。
【0076】
別の例示的な用途によれば、外科手術中に外科医によって実行される活動が、姿勢及び運動の予想の対象となり得る。したがって、外科医が切開又はツールを不適切な場所、角度、設定などに配置するなど、潜在的なリスクに対応する姿勢及び運動に従事し始めると、実施例は、外科医に、是正措置を講じ、患者への危害を回避する機会を与える予想出力を提供することができる。
【0077】
別の例示的な用途では、前記方法700は、小売環境において紛失又は盗難防止のために実施することができ、ビデオ(例えば、前記ビデオストリーム130)上で捕捉される対象の動作を予期する。例えば、限定ではなく、万引き行為に関連する姿勢及び運動を盗難前に検出できるように、動作予想を使用して、小売環境に入る個人に対して姿勢運動の予想を実行することができる。同様に、製品と接触する個人(例えば、大きすぎる製品を試験又は保持する、棚のより高い段にある製品に届くように棚に登るなどしている個人)の特定の姿勢など、ユーザを傷害し、又は、商品に損傷を与える可能性のある、店内での活動に関連する姿勢及び運動。したがって、前記実施例を使用して、顧客又は従業員などの小売環境における個人への危害のリスクを低減するとともに、そのようなリスク及び損失又は盗難の挙動を低減する方法で介入する機会を特定して提供することができる。
【0078】
さらに、前記実施例は、家庭などの消費者に向き合う設定で利用することができる。家電製品、ロボット工学、通信デバイスなどは、姿勢及び運動の予想に基づいて動作を実施することができる。例えば、限定ではなく、一連の姿勢及び運動に基づいて、調理に関連する活動を予想することができ、キッチン内の電化製品を予熱解凍などの1又は複数のモードに設定して、消費者にさらなる利便性を提供することができる。他の実施例では、消費者は、消費者が誤った順序でタスクを実行しているときを識別し(例えば、消費者が調理していて、食材を加えるのを忘れているなど)、傷害、誤り又は他の危害を回避するための是正措置を提供することができるアシスタントを提供され得る。ホームアシスタント製品は、オーディオ、ビデオ、又は他のセンサ又はIoTデバイスによってそのような活動を検知し、さまざまな消費者及び家庭での使用状況において、ユーザに修正フィードバック又は提案を提供することができる。
【0079】
前記実施例は、製造、組立などの産業環境でも使用することができ、例えば、限定ではなく、品質管理への総合的な品質管理手法など、製造上の欠陥に関連する姿勢及び運動を使用して、発生する前に欠陥を予想することができる。このような実施例では、部品を十分に取り付けていない、組立の手順を抜かした、又は不適切なツール若しくは不適切な部品数を使用したなど、対応する欠陥に関連付けられる姿勢又は運動を、個人又はロボットの姿勢又は運動によって検出することができる。それに応じて、前記姿勢及び運動に関連する前記出力予想に基づいて、是正措置を提案することができ、追加の訓練を提供することができ、又は他の推奨若しくは措置を提供することができる。
【0080】
図8は、本開示によるコンピューティング環境の一実施形態の機能ブロック図である。いくつかの実施例における使用に適した例示的なコンピュータデバイス805を有するコンピューティング環境800。コンピューティング環境800内のコンピューティングデバイス805は、1又は複数の処理ユニット、コア、又はプロセッサ810、メモリ815(例えば、RAM、ROMなど)、内部ストレージ820(例えば、磁気、光学、ソリッドステートストレージ、及び/又は有機)、及び/又はI/Oインターフェース825を含むことができ、それらのうちのいずれかが、通信機構又はバス830上で、情報を通信するために結合され得るか、又はコンピューティングデバイス805に組み込まれ得る。前記環境800は、前記システム200、並びに前記方法80、前記方法300、及び前記方法400に関連する動作をサポートすることができる。
【0081】
本実施例によれば、神経活動に関連する処理は、中央処理装置(CPU)であるプロセッサ810上で行われ得る。代替的に、本発明の概念から逸脱することなく、他のプロセッサを代わりに使用することができる。例えば、限定ではなく、グラフィックスプロセッシングユニット(GPU)、及び/又はニューラル処理ユニット(NPU)を、前述の例示的な実施の処理を実行するために、前記CPUの代わりに、又は前記CPUと組み合わせて使用することができる。開示されるシステム及び方法のさまざまな実施態様又は実施形態では、本明細書において説明されている機能を実行し、目的を達成するために、1又は複数のGRU及び/又はLSTMを使用してRNNを実施することができる。
【0082】
コンピューティングデバイス805は、入力/インターフェース835及び出力デバイス/インターフェース840に通信可能に結合することができる。入力/インターフェース835及び出力デバイス/インターフェース840の一方又は両方は、有線又は無線インターフェースであってもよく、取り外し可能であってもよい。入力/インターフェース835は、入力を提供するために使用することができる、物理的又は仮想的な、任意のデバイス、コンポーネント、センサ、又はインターフェースを含むことができる(例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソル制御装置、マイクロフォン、カメラ、点字、運動センサ、光学読取り装置など)。
【0083】
出力デバイス/インターフェース840は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含むことができる。いくつかの実施例では、入力/インターフェース835(例えば、ユーザインターフェース)及び出力デバイス/インターフェース840は、コンピューティングデバイス805に埋め込まれてもよく、又は物理的に結合されてもよい。他の実施例では、他のコンピューティングデバイスが、コンピューティングデバイス805の入力/インターフェース835及び出力デバイス/インターフェース840として機能してもよく、又は、その機能を提供してもよい。
【0084】
コンピューティングデバイス805の例には、限定ではないが、高移動性デバイス(例えば、スマートフォン、車両及び他の機械内のデバイス、人間及び動物が携行するデバイスなど)、モバイルデバイス(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、携帯テレビ、ラジオなど)、携帯するようには設計されていないデバイス(例えば、デスクトップコンピュータ、サーバデバイス、他のコンピュータ、情報キオスク、1又は複数のプロセッサが埋め込まれた及び/又はそれに結合されるテレビ、ラジオなど)を含むことができる。
【0085】
コンピューティングデバイス805は、同じ構成又は異なる構成の1又は複数のコンピューティングデバイスを含む、任意の数のネットワーク構成要素、デバイス、及びシステムと通信するために、外部記憶装置845及びネットワーク850に通信可能に(例えば、I/Oインターフェース825を介して)結合することができる。コンピューティングデバイス805又は任意の接続されるコンピューティングデバイスは、サーバ、クライアント、シンサーバ、汎用マシン、専用マシン、又は別のラベルとして機能し、そのサービスを提供し、又はそのように称され得る。限定ではなく例として、ネットワーク850は、ブロックチェーンネットワーク及び/又はクラウドを含んでもよい。
【0086】
I/Oインターフェース825は、限定ではなく、コンピューティング環境800内の少なくともすべての接続されるコンポーネント、デバイス及びネットワークとの間で情報を通信するための、任意の通信又はI/Oプロトコル又は規格(例えば、Ethernet(登録商標)、802.11xs、ユニバーサルシステムバス、WiMAX、モデム、セルラネットワークプロトコルなど)を使用する有線及び/又は無線インターフェースを含むことができる。ネットワーク850は、任意のネットワーク又はネットワークの組み合わせ(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラネットワーク、衛星ネットワークなど)であってもよい。
【0087】
コンピューティングデバイス805は、一時的媒体及び非一時的媒体を含むコンピュータ使用可能又はコンピュータ可読媒体を使用することができ、且つ/又は、それを使用して通信することができる。一時的媒体には、伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波などが含まれる。非一時的媒体には、磁気媒体(例えばディスク及びテープ)、光媒体(例えばCD-ROM、デジタルビデオディスク、Blu-ray(登録商標)ディスク)、ソリッドステート媒体(例えば、RAM、ROM、フラッシュメモリ、ソリッドステート記憶装置)、及び他の不揮発性記憶装置又はメモリが含まれる。
【0088】
コンピューティングデバイス805は、いくつかの例示的コンピューティング環境において、技法、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実施するために使用することができる。コンピュータ実行可能命令は、一時的媒体から取り出され、非一時媒体に記憶され、それから取り出されることができる。実行可能命令は、任意のプログラミング言語、スクリプト言語、及び機械語(例えば、C、C++、C#、Java(登録商標)、Visual Basic、Python、Perl、JavaScript(登録商標)など)のうちの1又は複数に由来することができる。
【0089】
プロセッサ(複数可)810は、ネイティブ環境又は仮想環境において、任意のオペレーティングシステム(OS)(図示せず)の下で実行することができる。論理ユニット855、アプリケーションプログラミングインターフェース(API)ユニット860、入力ユニット865、出力ユニット870、訓練ユニット875、特性抽出ユニット880、予測ユニット885、及び、異なるユニット(例えば、前記符号化器110及び前記復号器120)が相互に、OSと、及び他のアプリケーション(図示せず)と通信するためのユニット間通信機構895を含む1又は複数のアプリケーションを展開することができる。
【0090】
前記訓練ユニット875は、前記符号化器110に関連する機能を実行し、前記方法300及び前記方法400のように前記モデルを訓練することができる。前記特性抽出ユニット880は、例えば、前記方法300に関連する機能を実行することができる。いくつかの実施形態では、前記特性抽出ユニット880は、ブロック340(図3)の特性抽出に加えて、ブロック310のフレーム抽出、ブロック330(図3)の姿勢推定の1又は複数を実行することができる。前記予測ユニット885は、前記方法100、前記方法300、及び前記方法400における前記状態情報230に基づく姿勢及び運動の予測又は予期を含む、前記復号器120に関連する機能を実行することができる。
【0091】
例えば、前記訓練ユニット875、前記特性抽出ユニット880、及び前記予測ユニット885は、前記方法300及び前記方法400に加えて、上記に説明される構造に関して上記に示されている1又は複数のプロセスを実施することができる。説明されるユニット及び要素は、設計、機能、構成、又は実施態様において変更可能であり、提供されている説明に限定されない。
【0092】
いくつかの実施例では、情報又は実行命令は、APIユニット860によって受信されると、1又は複数の他のユニット(例えば、論理ユニット855、入力ユニット865、訓練ユニット875、特性抽出ユニット880、及び予測ユニット885)に通信することができる。
【0093】
例えば、前記訓練ユニット875は、少なくとも前記方法400に関連して上記で説明したように、シミュレートデータ、履歴データ、又は1つ若しくは複数のセンサから情報を受信して処理することができる。前記訓練ユニット875の出力は、前記特性抽出ユニット880に提供され、特性抽出ユニット880は、例えば、上記で説明され、図1図5に示されるようなニューラルネットワークのアプリケーションに基づいて必要な動作を実行する。さらに、前記予測ユニット885は、前記訓練ユニット875及び前記特性抽出ユニット880の出力に基づいて、演算を実行し、再投影エラーを最小化して出力信号を提供することができる。
【0094】
いくつかの例では、前記論理ユニット855は、前記ユニット間の情報フローを制御し、上述したいくつかの実施例において、APIユニット860、入力ユニット865、訓練ユニット875、特性抽出ユニット880、及び予測ユニット885によって提供されるサービスを方向付けるように構成することができる。例えば、1又は複数のプロセス又は実施態様のフローは、論理ユニット855によって単独で、又はAPIユニット860と連携して制御されてもよい。
【0095】
図9は、本開示による例示的な動作環境の機能ブロック図である。環境900は、本明細書で開示されるいくつかの実施例に適することができる。環境900は、デバイス905~945を含み、各々が、例えば、ネットワーク960を介して(例えば、有線及び/又は無線接続によって)少なくとも1つの他のデバイスに通信可能に接続される。一部のデバイスは、1又は複数の記憶デバイス930及び945に通信可能に接続され得る。
【0096】
1又は複数のデバイス905~945の例は、それぞれ図8に記載されているコンピューティングデバイス805であってもよい。デバイス905~945は、限定ではないが、上記で説明したモニタ及び関連するウェブカメラを有するコンピュータ905(例えば、ラップトップコンピューティングデバイス)、モバイルデバイス910(例えば、スマートフォン又はタブレット)、テレビ915、車両920に関連するデバイス、サーバコンピュータ925、コンピューティングデバイス935~940、記憶デバイス930及び945を含んでもよい。
【0097】
いくつかの実施態様では、デバイス905~920は、前述の実施例の入力として使用される、感知される入力をリモートで取得することができる、ユーザに関連付けられるユーザデバイスと見なすことができる。本実施例においては、これらのユーザデバイス905~920の1又は複数は、上記で説明したように、本実施例について必要とされるような情報を感知することができる、一時的又は永続的に、患者介護施設から遠隔して、ユーザの体に埋め込まれたカメラなどの1又は複数のセンサに関連付けられ得る。
【0098】
前述の実施例は、本発明の範囲を示すために提供されているが、それらは限定を意図するものではなく、本発明の範囲から逸脱することなく他の手法又は実施態様を代用又は追加することができる。例えば、限定はしないが、本明細書に開示されているもの以外の画像技法を利用することができる。
【0099】
1つの実施例によれば、SuperPointなどのアルゴリズムを使用して、画像点の検出及び決定を訓練することができる。さらに、前記実施例は、代替の画像分類アルゴリズムを利用し、及び/又は他のニューラルネットワーク構造(例えば、Siameseネットワーク)を使用することができる。追加の手法は、ゾーンクラス動作の専門知識を統合し、フォーメーション、ライティング及び照明などの技法を使用して2つの画像に処理を適用し、及び/又は、単一の画像を深度法に使用する。
【0100】
これは必須ではないが、前記実施例にはさまざまな利点及び利益があり得る。例えば、限定ではなく、前記実施例は小さなデータセットに対して作用可能である。さらに、前記実施例は、結腸又は肺などの標的組織内の場所の制約を可能にする。したがって、外科医は、ビデオを使用することによって、スコープの位置をだれでもより正確に特定することが可能であり得る。さらに、前記実施例は、関連技術の手法よりもはるかに高い正確度を提供する。
【0101】
いくつかの実施例が示され、説明されているが、これらの実施例は、本明細書に記載される主題を当業者に伝えるために提供される。本明細書に記載される主題は、記載される実施例に限定されることなく、さまざまな形態で実施されてもよいことを理解されたい。本明細書に記載される主題は、具体的に定義若しくは記載される事項なしに、又は記載されていない他の若しくは異なる要素若しくは事項とともに実施することができる。当業者は、添付の特許請求の範囲及びその均等物で定義される本明細書に記載される主題から逸脱することなく、これらの実施例に変更を行うことができることを理解するであろう。
【0102】
本開示の特定の非限定的な実施形態の態様は、上述の特性及び/又は上述されていない他の特性に対処する。しかしながら、非限定的な実施形態の態様は、上記の特性に対処する必要はなく、本開示の非限定的な実施形態の態様は、上記の特性に対処しない場合がある。
図1
図2
図3
図4
図5
図6
図7A
図7B
図8
図9