IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-519443双方向空間-時間変換器を使用したアクション認識方法、システム
<>
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図1
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図2
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図3
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図4
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図5
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図6
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図7
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図8
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図9
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図10
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図11
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図12
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図13
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図14
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図15
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図16
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図17
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図18
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図19
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図20
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図21
  • 特表-双方向空間-時間変換器を使用したアクション認識方法、システム 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-14
(54)【発明の名称】双方向空間-時間変換器を使用したアクション認識方法、システム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240507BHJP
   G06T 7/20 20170101ALI20240507BHJP
   G06V 10/34 20220101ALI20240507BHJP
   G06V 10/82 20220101ALI20240507BHJP
   G06V 40/20 20220101ALI20240507BHJP
   G06N 3/04 20230101ALI20240507BHJP
【FI】
G06T7/00 350C
G06T7/00 660B
G06T7/20 300A
G06V10/34
G06V10/82
G06V40/20
G06N3/04
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023561248
(86)(22)【出願日】2022-04-01
(85)【翻訳文提出日】2023-10-04
(86)【国際出願番号】 CN2022084747
(87)【国際公開番号】W WO2022237383
(87)【国際公開日】2022-11-17
(31)【優先権主張番号】17/315,319
(32)【優先日】2021-05-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】100091568
【弁理士】
【氏名又は名称】市位 嘉宏
(72)【発明者】
【氏名】ウー、ブー
(72)【発明者】
【氏名】ガン、チュアン
(72)【発明者】
【氏名】ワン、ダクオ
(72)【発明者】
【氏名】チエン、ガイシ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096FA12
5L096FA69
5L096FA72
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
双方向空間-時間変換器ニューラル・ネットワーク(BDSTT)は、骨格関節と他の関節との、および他のフレーム内の骨格関節の状態との相対的関係を通じて、固有フレーム内の骨格関節の元座標を予測するように訓練される。骨格関節の座標および他の関節の座標を含む複数のフレームが取得される。空間的にマスクされたフレームは、骨格関節の元座標にマスクすることによって生み出される。固有フレーム、空間的にマスクされたフレーム、および、少なくとも1つまたは複数のフレームが、BDSTTの座標予測ヘッドに提供される。骨格関節についての座標の予測は、座標予測ヘッドから取得される。BDSTTのパラメータは、骨格関節についての座標の予測と骨格関節の元座標との間の平均2乗誤差が収束するまで調節される。
【特許請求の範囲】
【請求項1】
コンピュータ実行方法であって、
双方向空間-時間変換器ニューラル・ネットワークをインスタンス化することと、
骨格関節の座標および他の関節の座標を含む複数のフレームを取得すること、
前記骨格関節の元座標にマスクすることによって固有フレームから空間的にマスクされたフレームを生み出すこと、
前記固有フレーム、前記空間的にマスクされたフレーム、および、前記複数のフレームのうちの少なくとも1つまたは複数を、前記双方向空間-時間変換器ネットワークの座標予測ヘッドに提供すること、
前記空間的にマスクされたフレーム内の前記骨格関節についての座標の予測を、前記座標予測ヘッドから取得すること、ならびに
前記骨格関節についての座標の前記予測と前記骨格関節の前記元座標との間の平均2乗誤差が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節すること
によって、前記骨格関節と他の関節との、および他のフレーム内の前記骨格関節の状態との相対的関係を通じて、前記固有フレーム内の前記骨格関節の前記元座標を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練することと
を含む、コンピュータ実行方法。
【請求項2】
前記複数のフレームを時間シャッフルすることによって、複数の時間シャッフルされたフレームを生み出すことと、
前記複数の時間シャッフルされたフレームを前記複数のフレームと共に時間分類ヘッドに提供することと、
前記複数の時間シャッフルされたフレームについての正しい時間順序の予測を、前記時間分類ヘッドから取得することと、
正しい時間順序の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、前記骨格関節の連続座標の正しい時間順序を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項1に記載の方法。
【請求項3】
前記訓練済みの双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項2に記載の方法。
【請求項4】
前記フレームのうちの1つまたは複数における複数の関節を空間的に再配置することによって、複数の空間シャッフルされたフレームを生み出すことと、
前記複数の空間シャッフルされたフレームを前記複数のフレームと共に空間分類ヘッドに提供することと、
前記複数の空間シャッフルされたフレーム内の前記複数の関節についての正しい空間配置の予測を、前記空間分類ヘッドから取得することと、
正しい空間配置の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、複数の骨格関節の座標の正しい空間配置を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項1に記載の方法。
【請求項5】
前記訓練済みの双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項4に記載の方法。
【請求項6】
前記固有フレーム内の前記複数の関節に対応するワンホット・ベクトルの行列の少なくとも一部にマスクすることによって、前記固有フレームから意味論的にマスクされたフレームを生み出すことと、
前記意味論的にマスクされたフレームおよび前記固有フレームを前記双方向空間-時間変換器ネットワークの意味論的予測ヘッドに提供することと、
前記意味論的にマスクされたフレームについてのワンホット・ベクトルの予測行列を、前記意味論的予測ヘッドから取得することと、
ワンホット・ベクトルの前記予測行列と前記複数の関節に対応するワンホット・ベクトルの前記行列との間のクロス・エントロピ分類損失が収束するまで、前記双方向空間-時間変換器ネットワークのパラメータを調節することと
によって、複数の骨格関節の正しい意味論的コーディングを予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項1に記載の方法。
【請求項7】
前記訓練済みの双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項6に記載の方法。
【請求項8】
コンピュータ・プログラム製品であって、コンピュータによって実行されると、
双方向空間-時間変換器ニューラル・ネットワークをインスタンス化することと、
骨格関節の座標および他の関節の座標を含む複数のフレームを取得すること、
前記骨格関節の元座標にマスクすることによって固有フレームから空間的にマスクされたフレームを生み出すこと、
前記固有フレーム、前記空間的にマスクされたフレーム、および、前記複数のフレームのうちの少なくとも1つまたは複数を、前記双方向空間-時間変換器ネットワークの座標予測ヘッドに提供すること、
前記空間的にマスクされたフレーム内の前記骨格関節についての座標の予測を、前記座標予測ヘッドから取得すること、ならびに
前記骨格関節についての座標の前記予測と前記骨格関節の前記元座標との間の平均2乗誤差が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節すること
によって、前記骨格関節と他の関節との、および他のフレーム内の前記骨格関節の状態との相対的関係を通じて、前記固有フレーム内の前記骨格関節の前記元座標を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練することと
を含む方法を前記コンピュータに実施させる、コンピュータ実行可能命令を具体化する1つまたは複数のコンピュータ可読ストレージ媒体を備える、コンピュータ・プログラム製品。
【請求項9】
前記方法が、
前記複数のフレームを時間シャッフルすることによって、複数の時間シャッフルされたフレームを生み出すことと、
前記複数の時間シャッフルされたフレームを前記複数のフレームと共に時間分類ヘッドに提供することと、
前記複数の時間シャッフルされたフレームについての正しい時間順序の予測を、前記時間分類ヘッドから取得することと、
正しい時間順序の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、前記骨格関節の連続座標の正しい時間順序を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項10】
前記方法が、
前記訓練済みの双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項9に記載のコンピュータ・プログラム製品。
【請求項11】
前記方法が、
前記フレームのうちの1つまたは複数における前記複数の関節を空間的に再配置することによって、複数の空間シャッフルされたフレームを生み出すことと、
前記複数の空間シャッフルされたフレームを前記複数のフレームと共に空間分類ヘッドに提供することと、
前記複数の空間シャッフルされたフレーム内の前記複数の関節についての正しい空間配置の予測を、前記空間分類ヘッドから取得することと、
正しい空間配置の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、複数の骨格関節の座標の正しい空間配置を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項12】
前記方法が、
前記訓練済みの双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項11に記載のコンピュータ・プログラム製品。
【請求項13】
前記方法が、
前記固有フレーム内の前記複数の関節に対応するワンホット・ベクトルの行列の少なくとも一部にマスクすることによって、前記固有フレームから意味論的にマスクされたフレームを生み出すことと、
前記意味論的にマスクされたフレームおよび前記固有フレームを前記双方向空間-時間変換器ネットワークの意味論的予測ヘッドに提供することと、
前記意味論的にマスクされたフレームについてのワンホット・ベクトルの予測行列を、前記意味論的予測ヘッドから取得することと、
ワンホット・ベクトルの前記予測行列と前記複数の関節に対応するワンホット・ベクトルの前記行列との間のクロス・エントロピ分類損失が収束するまで、前記双方向空間-時間変換器ネットワークのパラメータを調節することと
によって、複数の骨格関節の正しい意味論的コーディングを予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項14】
前記方法が、
前記訓練済みの双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項13に記載のコンピュータ・プログラム製品。
【請求項15】
装置であって、
コンピュータ実行可能命令を具体化するメモリと、
少なくとも1つのプロセッサであって、前記メモリに連結され、
双方向空間-時間変換器ニューラル・ネットワークをインスタンス化すること、
骨格関節の座標および他の関節の座標を含む複数のフレームを取得すること、
前記骨格関節の元座標にマスクすることによって固有フレームから空間的にマスクされたフレームを生み出すこと、
前記固有フレーム、前記空間的にマスクされたフレーム、および、前記複数のフレームのうちの少なくとも1つまたは複数を、前記双方向空間-時間変換器ネットワークの座標予測ヘッドに提供すること、
前記空間的にマスクされたフレーム内の前記骨格関節についての座標の予測を、前記座標予測ヘッドから取得すること、ならびに
前記骨格関節についての座標の前記予測と前記骨格関節の前記元座標との間の平均2乗誤差が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節すること
によって、前記骨格関節と他の関節との、および他のフレーム内の前記骨格関節の状態との相対的関係を通じて、前記固有フレーム内の前記骨格関節の前記元座標を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
を含む方法を実施するように前記コンピュータ実行可能命令によって動作可能な、少なくとも1つのプロセッサと
を備える、装置。
【請求項16】
前記方法が、
前記複数のフレームを時間シャッフルすることによって、複数の時間シャッフルされたフレームを生み出すことと、
前記複数の時間シャッフルされたフレームを前記複数のフレームと共に時間分類ヘッドに提供することと、
前記複数の時間シャッフルされたフレームについての正しい時間順序の予測を、前記時間分類ヘッドから取得することと、
正しい時間順序の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、前記骨格関節の連続座標の正しい時間順序を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項15に記載の装置。
【請求項17】
前記方法が、
前記訓練済みの双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項16に記載の装置。
【請求項18】
前記方法が、
前記フレームのうちの1つまたは複数における前記複数の関節を空間的に再配置することによって、複数の空間シャッフルされたフレームを生み出すことと、
前記複数の空間シャッフルされたフレームを前記複数のフレームと共に空間分類ヘッドに提供することと、
前記複数の空間シャッフルされたフレーム内の前記複数の関節についての正しい空間配置の予測を、前記空間分類ヘッドから取得することと、
正しい空間配置の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、複数の骨格関節の座標の正しい空間配置を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項15に記載の装置。
【請求項19】
前記方法が、
前記訓練済みの双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項18に記載の装置。
【請求項20】
前記方法が、
前記固有フレーム内の前記複数の関節に対応するワンホット・ベクトルの行列の少なくとも一部にマスクすることによって、前記固有フレームから意味論的にマスクされたフレームを生み出すことと、
前記意味論的にマスクされたフレームおよび前記固有フレームを前記双方向空間-時間変換器ネットワークの意味論的予測ヘッドに提供することと、
前記意味論的にマスクされたフレームについてのワンホット・ベクトルの予測行列を、前記意味論的予測ヘッドから取得することと、
ワンホット・ベクトルの前記予測行列と前記複数の関節に対応するワンホット・ベクトルの前記行列との間のクロス・エントロピ分類損失が収束するまで、前記双方向空間-時間変換器ネットワークのパラメータを調節することと
によって、複数の骨格関節の正しい意味論的コーディングを予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項15に記載の装置。
【請求項21】
前記方法が、
前記訓練済みの双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項20に記載の装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電気、電子、およびコンピュータの技術に関し、より詳細には、コンピュータ・ビジョンに関する。
【発明の概要】
【0002】
本発明の原理は、双方向空間-時間変換器を使用した骨格ベースのアクション認識のための技術を提供する。1つの態様では、例示的な方法は、双方向空間-時間変換器ニューラル・ネットワークをインスタンス化することと、骨格関節の座標および他の関節の座標を含む複数のフレームを取得すること、骨格関節の元座標にマスクすることによって固有フレームから空間的にマスクされたフレームを生み出すこと、固有フレーム、空間的にマスクされたフレーム、および、複数のフレームのうちの少なくとも1つまたは複数を、双方向空間-時間変換器ネットワークの座標予測ヘッドに提供すること、空間的にマスクされたフレーム内の骨格関節についての座標の予測を、座標予測ヘッドから取得すること、ならびに骨格関節についての座標の予測と骨格関節の元座標との間の平均2乗誤差が収束するまで、双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することによって、骨格関節と他の関節との、および他のフレーム内の骨格関節の状態との相対的関係を通じて、固有フレーム内の骨格関節の元座標を予測するように、双方向空間-時間変換器ニューラル・ネットワークを訓練することとを含む。
【0003】
本発明の1つまたは複数の実施形態またはその要素は、指示された方法ステップを容易にするためのコンピュータ使用可能プログラム・コードを有するコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品の形で実行可能である。さらに、本発明の1つまたは複数の実施形態またはその要素は、コンピュータ実行可能命令を具体化するメモリと、例示的な方法ステップを容易にするために、メモリに連結され、命令によって動作可能な、少なくとも1つのプロセッサとを含む、システム(または装置)の形で実行可能である。さらに、別の態様では、本発明の1つまたは複数の実施形態またはその要素は、本明細書で説明される方法ステップのうちの1つまたは複数を実行するための手段の形で実行可能であり、手段は、(i)ハードウェア・モジュール、(ii)有形のコンピュータ可読ストレージ媒体(もしくは複数のこのような媒体)に格納され、ハードウェア・プロセッサ上で実行される、ソフトウェア・モジュール、または(iii)(i)および(ii)の組合せを含むことができ、(i)~(iii)のいずれかが、本明細書で説明される固有の技術を実行する。
【0004】
本明細書で使用されるように、アクションを「容易にすること」は、アクションを実施すること、アクションを簡単にすること、アクションを実行するのを助けること、またはアクションが実施されるようにすることを含む。したがって、例として、また限定ではなく、1つのプロセッサ上で実行する命令は、アクションが実施されるようにすること、またはアクションが実施されるのを支援することのために、適切なデータまたはコマンドを送ることによって、アクションがリモート・プロセッサ上で実行する命令によって実行されることを容易にしてもよい。誤解を避けるために、行為者が、アクションを実施すること以外によってアクションを容易にする場合、アクションは、それでも、いくつかのエンティティまたはエンティティの組合せによって実施される。
【0005】
前述を考慮して、本発明の技術は、たくさんの有益な技術的効果をもたらすことができる。例えば、1つまたは複数の実施形態は、以下のうちの1つまたは複数を提供する。
【0006】
背景画像ノイズがある場合でも体の姿勢の堅牢な検出を提供することによって体の姿勢の機械検出の技術プロセスを改善すること。
【0007】
高度な意味論的特徴(例えば、感情、アクション)を有する体の姿勢の正確なタグ付け。
【0008】
いくつかの実施形態には、これらの潜在的利点がない場合もあり、これらの潜在的利点は、必ずしも全ての実施形態に必要なわけではない。本発明のこれらおよび他の特徴および利点は、添付の図面と共に読まれることになる、その例証的実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0009】
図1】本発明の実施形態によるクラウド・コンピューティング環境の図である。
図2】本発明の実施形態による抽象化モデル層の図である。
図3】例示的実施形態による双方向空間-時間変換器を組み込んだ骨格ベースのアクション認識システムの全体的なアーキテクチャの図である。
図4図3のアーキテクチャの実施形態の詳細の図である。
図5図3のアーキテクチャの別の実施形態の詳細の図である。
図6】例示的実施形態によるベクトル変換器のアーキテクチャの図である。
図7】例示的実施形態による空間変換器のアーキテクチャの図である。
図8】例示的実施形態による時間変換器のアーキテクチャの図である。
図9】双方向セルフアテンションのための骨格フレームの順行および逆行時間マスキングの図である。
図10図7によるアーキテクチャを通じたデータ・フローである。
図11】例示的実施形態による複数の双方向空間-時間変換器を組み込んだ骨格ベースのアクション認識システムのアーキテクチャの図である。
図12】ユーザの行動を解釈するための骨格ベースのアクション認識システムを使用した家電製品の図である。
図13】ユーザの行動を解釈するための骨格ベースのアクション認識システムを使用した仮想現実システムの図である。
図14】ユーザの行動を解釈するための骨格ベースのアクション認識システムを使用したリアルタイム翻訳システムの図である。
図15】ユーザの行動を解釈するための骨格ベースのアクション認識システムを使用した安全監視システムの図である。
図16】ユーザの行動を解釈するために骨格ベースのアクション認識システムを使用した神経筋健康状態評価システムを使用する図である。
図17】骨格ベースのアクション認識システムの結果を解釈するための方法のステップの図である。
図18】骨格ベースのアクション認識システムを訓練および実行するための方法のステップの図である。
図19】骨格ベースのアクション認識システムを訓練するさらなるステップの図である。
図20】骨格ベースのアクション認識システムを訓練するさらなるステップの図である。
図21】骨格ベースのアクション認識システムを訓練するさらなるステップの図である。
図22】本発明の実施形態によるクラウド・コンピューティング・ノードを同様に表す、本発明の1つまたは複数の態様または要素あるいはその両方を実行する際に有益になり得るコンピュータ・システムの図である。
【発明を実施するための形態】
【0010】
本開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書で列挙される教示の実装形態は、クラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているか、後で開発される、他の任意のタイプのコンピューティング環境と併用して実行される能力がある。
【0011】
クラウド・コンピューティングは、サービスの提供者による最低限の管理努力または対話で迅速に提供および解放可能な、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共用プールへの、便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含んでもよい。
【0012】
特性は、以下の通りである。
【0013】
オンデマンド・セルフ・サービス:クラウド利用者は、サービスの提供者との人間対話を必要とせず必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的に提供することができる。
【0014】
ブロード・ネットワーク・アクセス:能力は、ネットワークを介して利用可能であり、ヘテロジニアスなシンまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を推進する標準メカニズムを通じてアクセスされる。
【0015】
リソース・プーリング:提供者のコンピューティング・リソースは、種々の物理および仮想リソースが、要求に従って動的に割当ておよび再割当てされる、マルチ・テナント・モデルを使用して多数の利用者をサーブするためにプールされる。利用者には一般に、提供されるリソースの正確な位置についての制御権も知識もなく、抽象化のより高いレベル(例えば、国、州、またはデータセンタ)で位置を指定でき得るという点で位置独立の意味がある。
【0016】
迅速な弾力性:能力は、素早くスケール・アウトするために迅速かつ伸縮自在に、場合によっては自動的に提供され、素早くスケール・インするために迅速に解放されることが可能である。利用者にとって、提供のために利用可能な能力は無制限のように見えることが多く、いつでも任意の量で購入可能である。
【0017】
測定されるサービス:クラウド・システムは、サービスのタイプに適した抽象化のいくつかのレベル(例えば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)で計量能力を活用することによって、リソース使用を自動的に制御し、最適化する。利用されるサービスの提供者と利用者双方に透明性をもたらすリソース使用率が、監視、制御、レポートされることが可能である。
【0018】
サービス・モデルは、以下の通りである。
【0019】
サービスとしてのソフトウェア(SaaS):利用者に提供される能力は、クラウド・インフラストラクチャ上で動く提供者のアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ(例えば、ウェブ・ベースの電子メール)などの、シン・クライアント・インターフェースを通じて様々なクライアント・デバイスからアクセス可能である。利用者は、限定的なユーザ固有アプリケーション構成設定を例外とする可能性もあるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または、個々のアプリケーション能力さえをも含む、基礎をなすクラウド・インフラストラクチャの管理も制御も行わない。
【0020】
サービスとしてのプラットフォーム(PaaS):利用者に提供される能力は、提供者によってサポートされるプログラミング言語およびツールを使用して制作された、利用者制作または獲得アプリケーションを、クラウド・インフラストラクチャ上に配置することである。利用者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基礎をなすクラウド・インフラストラクチャの管理も制御も行わず、配置したアプリケーション、および場合によっては、アプリケーション・ホスティング環境構成に対する制御を行う。
【0021】
サービスとしてのインフラストラクチャ(IaaS):利用者に提供される能力は、処理、ストレージ、ネットワーク、ならびに、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを利用者が展開して動かすことができる他の基本的なコンピューティング・リソースを提供することである。利用者は、基礎をなすクラウド・インフラストラクチャの管理も制御も行わず、オペレーティング・システム、ストレージ、展開したアプリケーションに対する制御、および場合によっては、選択したネットワーキング構成要素(例えば、ホスト・ファイアウォール)の限定的な制御を行う。
【0022】
展開モデルは、以下の通りである。
【0023】
プライベート・クラウド:クラウド・インフラストラクチャは、組織のためにだけ運用される。クラウド・インフラストラクチャは、組織または第三者によって管理されてもよく、敷地内または敷地外にあってもよい。
【0024】
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有の懸念(例えば、ミッション、セキュリティ要件、ポリシ、およびコンプライアンス考慮)を有する固有のコミュニティをサポートする。クラウド・インフラストラクチャは、組織または第三者によって管理されてもよく、敷地内または敷地外にあってもよい。
【0025】
パブリック・クラウド:クラウド・インフラストラクチャは、一般大衆または大規模業界団体に対して利用可能にされ、クラウド・サービスを売る組織によって所有される。
【0026】
ハイブリッド・クラウド:クラウド・インフラストラクチャは、一意のエンティティのままであるが、データおよびアプリケーション移植性を可能にする標準または独自の技術(例えば、クラウド間の負荷分散のためのクラウド・バースティング)によって一緒に結びつけられた、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成物である。
【0027】
クラウド・コンピューティング環境は、無国籍、疎結合、モジュラリティ、および意味論的相互運用性に焦点を置いたサービス指向のものである。クラウド・コンピューティングの中心には、相互接続ノードのネットワークを含むインフラストラクチャがある。
【0028】
図1をここで参照すると、例証的なクラウド・コンピューティング環境50が描写されている。図示のように、クラウド・コンピューティング環境50は、例えば、パーソナル・デジタル・アシスタント(PDA)もしくはセルラー電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、あるいはその組合せなどの、クラウド利用者によって使用されるローカル・コンピューティング・デバイスが通信し得る1つまたは複数のクラウド・コンピューティング・ノード10を含む。ノード10は、互いに通信してもよい。ノード10は、上記で説明されたような、プライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはその組合せなどの1つまたは複数のネットワークにおいて、物理的または仮想的にグループ化されてもよい(図示せず)。これは、クラウド利用者がローカル・コンピューティング・デバイス上でリソースを維持する必要のない、サービスとしてのインフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せをクラウド・コンピューティング環境50が提供することを可能にする。図1に示されたコンピューティング・デバイス54A-Nのタイプは、例証にすぎないことが意図され、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意のタイプのネットワークまたはネットワーク・アドレス可能接続あるいはその両方を介して(例えば、ウェブ・ブラウザを使用して)任意のタイプのコンピュータ化デバイスと通信可能であることが理解される。
【0029】
図2をここで参照すると、クラウド・コンピューティング環境50(図1)によって提供される機能抽象化層のセットが示されている。図2に示された構成要素、層、および機能は、例証にすぎないことが意図され、本発明の実施形態はこれらに限定されないことを予め理解されたい。描写されたように、以下の層および対応する機能が提供される。
【0030】
ハードウェアおよびソフトウェア層60は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム61、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング構成要素66を含む。いくつかの実施形態では、ソフトウェア構成要素は、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
【0031】
仮想化層70は、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75といった、仮想エンティティの例が提供される抽象化層を提供する。
【0032】
1つの例では、管理層80は、下記で説明される機能を提供し得る。リソース提供81は、クラウド・コンピューティング環境内でタスクを実施するために利用されるコンピューティング・リソースおよび他のリソースの動的な調達を行う。計量および価格設定82は、クラウド・コンピューティング環境内でリソースが利用されるときのコスト追跡、および、これらのリソースの利用量に対する請求またはインボイスを行う。1つの例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド利用者およびタスクの検証、ならびに、データおよび他のリソースの保護を行う。ユーザ・ポータル83は、利用者およびシステム・アドミニストレータに、クラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されるサービス・レベルを満たすように、クラウド・コンピューティング・リソースの配分および管理を行う。サービス・レベル・アグリーメント(SLA)計画およびフルフィルメント85は、SLAに応じて、将来の要件が予想されるクラウド・コンピューティング・リソースの事前配置および調達を行う。
【0033】
ワークロード層90は、クラウド・コンピューティング環境が利用される機能の例を提供する。この層から提供されるワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想クラスルーム教育配信93、データ分析処理94、トランザクション処理95、ならびに、例示的実施形態による双方向空間-時間変換器を組み込んだ骨格ベースのアクション認識システム96を含む。
【0034】
図3を参照すると、アクション認識システム96は、双方向空間-時間変換器(BDSTT:bi-directionalspatial-temporal transformer)100を組み込んでいる。BDSTT100は、(図7および図8に示された)2種類のモジュール、すなわち、図7に示された空間変換器ブロック(STB:Spatial Transformer Block)112、および(図8に示された)時間変換器ブロック(TTB:Temporal Transformer Block)114を含む。通常動作(すなわち、推測)中、システム96は、埋め込みモジュール102において骨格アクション・フレーム106を受け取る。骨格アクション・フレーム106は、空間および時間を通じて移動する人間骨格の関節の位置を表す。埋め込みモジュール102は、(図6を参照しながら下記でさらに説明される)関節行列Xとしてフレーム106をエンコードする。通常動作中、埋め込みモジュール102は、関節行列106をBDSTT100に渡し、BDSTT100は、予測を生成するために平均化層、多層パーセプトロン、およびソフトマックス・オプティマイザを使用して推測を実行するアクション分類器104に配信される特徴を生み出す。訓練中、データ生成モジュール108は、BDSTT100を通じて敵対的自己管理学習タスク・ヘッド(SSLヘッド:self-supervised learning task head)110に渡される関節行列Xを生み出す。SSLヘッド110は、BDSTT100の重みまたはパラメータあるいはその両方を調節して、BDSTT100によって生み出される特徴の精度を改善する。
【0035】
図4を参照すると、システム96の実施形態における埋め込みユニット102は、フレーム106受け取り、空間行列111および時間行列113を生み出す。埋め込みユニット102は、コンピュータ・ビジョン・プログラミングの当業者が見慣れているような、フレーム106内の画像の空間的特徴をマッピングするアルゴリズムを実施する。BDSTT100は、STBが空間行列111を処理し、次いでTTBが時間行列113を処理するように順次配置された、STB112およびTTB114を有する。SSLヘッド110は、座標予測(再現)ヘッド116、関節分類(意味論的)ヘッド118、空間的順序付けヘッド120、および時間的順序付けヘッド122を含む。データ生成器108は、元のフレーム106を受け取り、空間的並べ替えユニット124、時間的並べ替えユニット126、意味論的トークン・マスク128、および座標トークン・マスク130を含む。空間的並べ替えユニット124は、フレーム106を空間的にセグメント化し、これらをランダムまたは擬似ランダム的に再配置する(空間内でこれらをシャッフルする)ための、アルゴリズムを実施する。時間的並べ替えユニット126は、時間内でフレーム106をシャッフルするためのアルゴリズムを実施する。意味論的トークン・マスク128は、タイプによって関節を識別するワン・ホット意味論的ベクトルのいくつかの要素に対してゼロを返す。座標トークン・マスク130は、空間行列111内のいくつかの座標に対してゼロを返す。
【0036】
図5は、別の実施形態を描写しており、STB112およびTTB114は、これらが空間行列111および時間行列113を同時に処理し、次いで、結果が結びつけられるように、平行に配置されている。図5の残りの要素は、本明細書の他の場所で説明されたような、図4の要素に類似している。
【0037】
一般に、図6は、一般的な変換器ブロック400を描写しており、これは、セルフアテンション・メカニズム402を利用して、全ての入力要素404の間の関係をキャプチャする。行列
【数1】
が、骨格アクション・フレーム106の全ての要素404を表し、Nが、要素の数であり、Cが、各アイテムを表す各ベクトルのチャネル数であるとすると、アテンション動作は、(1)アテンション・マップAを取得すること、(2)アテンション・マップに基づいて新しい表現を全ての要素に与えること、という2つのステップを含む。アテンション・マップAは、全ての要素404の間の相関関係を表し、線形変換された入力のドット積を取ることによって取得され、すなわち
【数2】
であり、ここで、
【数3】
および
【数4】
は、出力チャネルChiddenを共有する2つの異なる訓練可能な線形変換である。AにおけるアイテムAijは、要素iと要素jとの間の相関スコアを表す。
【0038】
1つまたは複数の実施形態では、Xは、正方行列であり、すなわちN=Cである。いくつかの実施形態に対して、追加の中間特徴を可能にする隠れたチャネルまたは隠れた次元を提供するために、C>Nであると意図されることが可能である。
【0039】
アテンション・マップAに基づいて、全ての要素の隠れた表現Hが、以下のように生み出され、
H=LayerNorm(ψ(AX)+X)
ここで、ψは、線形変換であり、LayerNormは、層正規化関数である。したがって、1つまたは複数の実施形態では、モデルの安定性を改善するために、ショートカット接続が適用される。
【0040】
図6では、セルフアテンション・メカニズム402は、いくつかのそれぞれのセルフアテンション動作を適用すること、および単一の集約されたマルチヘッド出力として出力全てを結びつけることのような、マルチヘッド戦略を使用する。入力X404を仮定すると、以下に従って、変換器ブロック400においてXをアップデートし、
X=LayerNorm(H+FF(H))
ここで、FFは、ニューラル・ネットワークの任意の行方向のフィード・フォワード(完全接続)層である(すなわち、FFは、各要素の特徴を別々および同一に処理する)。言い換えれば、Xは、以下のようにアップデート可能であり、
X=F(X,A)
変換器ブロック全体は、以下のように表されることが可能である。
TB(X)=F(X,Att(X))
【0041】
一般に、ニューラル・ネットワークは、1つまたは複数の機械学習アルゴリズムを実行するために一緒に機能するように構成された複数のコンピュータ・プロセッサを含む。実行は、同期式でも非同期式でもよい。ニューラル・ネットワークでは、プロセッサは、軸索およびシナプスによって接続された数千または数百万ものニューロンをシミュレートする。各接続は、接続された神経ユニットの活性化状態へのその影響において強制的、抑制的、または中立的である。各個々の神経ユニットは、神経ユニットの全ての入力の値を一緒に組み合わせる合計関数を有する。いくつかの実装形態では、他のニューロンに伝搬させる前に、信号が限界を越えなければならないように、少なくともいくつかの接続または少なくともいくつかの神経ユニットあるいはその両方に対する閾値関数または限定関数がある。ニューラル・ネットワークは、教師あり、教師なし、または半教師あり機械学習を実行することができる。ニューラル・ネットワークの訓練への一般的なアプローチは、「真」値と、ネットワークによって予測される値との間の「損失」または差を計算し、次いで、ネットワークにおけるニューロンの重みを繰り返し調節し、損失が収束するまで、すなわち、損失が、複数の反復の間、閾値内にとどまるまで、損失を再計算することである。例えば、損失は、損失が、3回の反復の間にわずか5%だけ変化した場合、または、損失が、5回の反復の間にわずか1%だけ変化した場合、または、損失が、2回の反復の間にわずか2%だけ変化した場合、収束すると言われることがある。収束条件を選択することは、本明細書の教示を考慮すると、当業者の範囲内のデザイン選択の問題である。
【0042】
図7は、空間変換器ブロック(STB)112を描写しており、STB112は、関節の間の関係を計算することによって各フレームの骨格姿勢をモデル化する専用の変換器ブロックである。STB112は、図6に示されたようにセットアップされたマルチヘッド・アテンションを使用する。STB112において、行列Xは、関節×チャネル行列であり、T個の行列のシーケンスがあり、シーケンス内の各行列Xは、フレームtに対応し、ここで、1≦t≦Tであり、Tは、フレームの数である。関節のタイプ、すなわち「首」または「肘」をモデルに区別させることが役立つ。このために、ワン・ホット分類ベクトルが、例えば以下のように、関節行列に追加され、
【数5】
ここで、
【数6】
は、モデル全体と一緒に訓練されたワン・ホット意味論的トークン・ベクトルの行列である。Sは、関節の数であり、その一方で、Cは、チャネルの数である。1つまたは複数の実施形態では、チャネルの数C=S関節の数である。
【0043】
アテンション・マップ等式によれば、フレームtのアテンション・マップAは、
【数7】
のように取得可能である。モデルの安定性を向上させるために、全てのフレームのアテンション・マップが平均され、共有される。
【0044】
したがって、STB112は、図6を参照しながら説明されたセルフアテンション・メカニズム402を実行する、マルチヘッド・セルフアテンション・ユニット132を組み込んでいる。STB112はまた、2つのADD&正規化ブロック134、138、およびフィード・フォワード(または多層パーセプトロン)層136を組み込んでいる。
【0045】
図8は、時間変換器ブロック(TTB)114を描写しており、TTB114は、長期間にわたる姿勢変化をキャプチャし、姿勢変化のシーケンス全体をモデル化する能力がある専用の変換器ブロックである。STB112とのTTB114の違いは、TTBが双方向マルチヘッド・セルフアテンション・ユニット142を組み込んでいることであり、双方向マルチヘッド・セルフアテンション・ユニット142は、図6を参照しながら以前に説明された、様々な(下記でさらに説明される)セルフアテンション・メカニズム402を実行する。TTB114はまた、2つのADD&正規化ブロック144、148、およびフィード・フォワード(または多層パーセプトロン)層146を組み込んでいる。
【0046】
図9は、ユニット142の動作を示している。全てのフレーム内のs番目の関節のシーケンスは、
【数8】
であり、ここで、1≦s≦Sである。S、T、Cは、STB112についての意味と同じ意味を有する。時間次元に対して、モデルは、時系列の順序を区別するようにデザインされる。第1に、例えば以下のように、各フレームtに対する各関節sの位置をエンコードするために、異なる周波数のサインおよびコサイン関数が使用される。
【数9】
【0047】
次いで、以下のように、位置エンコーディングPが各入力フレームXに追加される。
【数10】
【0048】
それでも、三角関数の周期対称性は、フレームの順序付けを混乱させる場合がある。したがって、TTB114は、時間順序を認識することをモデルに強いるために、方向マスク戦略を訓練データに適用することによって、フレームのシーケンスを解き放すように訓練される。変換器ブロック400における動作のような、単一のセルフアテンション動作が、図9に示されたような、1つの時間順行セルフアテンション動作、および1つの時間逆行セルフアテンション動作によって置き換えられている。順行セルフアテンションについては、各関節に対して、各フレームが、時間内のその前のフレームだけに相関するように、1sの三角行列によって
【数11】
がマスクされる。逆行セルフアテンションについては、各関節に対して、各フレームが、時間内の後続のフレームにだけ相関するように、1sの転置三角行列によって
【数12】
がマスクされる。したがって、TTB114に対して、
【数13】
である。上記において、f/bは、順行または逆行を意味し、Mf/bは、順方向または逆方向のセルフアテンション用のマスクを意味する。
【0049】
本発明の態様は、BDSTT100の自己管理訓練である。自己管理学習は、大量のラベルなしデータから特徴表現を学習することを目指す。例えば、自己管理学習は、骨格シーケンスによって表されたアクションにおける高度な意味論的情報をBDSTT100が学習するのに役立つ。4つの敵対的自己管理学習タスクは、骨格ベースのアクション認識における種々の例外状況を扱う。図4および図5を再び参照すると、これらの敵対的自己管理学習タスクは、座標予測ヘッド116によって実施される座標予測タスク、意味論的ヘッド118によって実施される関節タイプ(意味論的)予測タスク、空間的順序付けヘッド120によって実施される空間的順序予測タスク、および時間的順序付けヘッド122によって実施される時間的順序予測タスクを含む。これらのタスクを表現する等式では、BDSTT100は、エンコーダf(・)と表される。
【0050】
1つまたは複数の実施形態では、骨格ベースのモデルは、姿勢変化の法則を知覚する。したがって、BDSTT100などの骨格ベースのモデルが、他の関節との相対的関係、および他のフレーム内の関節の状態を通じて、固有フレーム内の関節の座標を予測することが有利である。このような予測のためにBDSTT100を訓練するために、データ生成器108は、特定の比率に応じて、マスク済み座標をゼロにセットすることによって、いくつかのフレーム内のいくつかの関節の元座標にマスクし、残りの関節を変化しない状態に保つ。適切な比率は、所与の用途の詳細に応じて、当業者によって発見的に選択されることが可能である。例えば、座標の約15%をゼロにセットすると、BDSTT100および特にSTB112の訓練を強化することができる(他の実施形態は他の値を使用することができる)。ランダムにマスクされたデータをXmaskedと定義する。エンコーダf(・)100が、入力シーケンスを読み取り、入力から表現を抽出し、次いで、座標予測ヘッドh(・)116が、学習済み表現を受け取り、入力シーケンス内の全ての関節の座標を再現または予測するためのシーケンスを生成する。他のヘッド118、120、122のように、座標予測ヘッドh(・)は、ニューラル・ネットワークである。平均2乗誤差(MSE)損失関数LPCを使用して、h(・)のためのネットワークのパラメータが以下のように推定される。
【数14】
【0051】
したがって、BDSTT100は、オートエンコーダのように学習するが、入力は、固有値に対してデータが1または0にセットされたトークン・シーケンスである。再現ヘッド116は、マスクされた関節の元座標を、マスクされていない関節の座標から予測するように訓練されたニューラル・ネットワークである。言い換えれば、再現ヘッド116は、これが、完全に既知ではない座標の他のセット内の欠落した座標を予測できるように、完全に既知の座標の人工的に不完全なセットについて訓練される。
【0052】
意味論的トークンは、モデルBDSTT100が関節のタイプと適切な動きの包絡線(motionenvelope)とを区別するのに役立つ。都合のよいことに、優れた骨格ベースのモデルには、動きの履歴および他の関節との相対的位置関係から、関節のタイプを推測する能力がある。この推測能力に起因したBDSTT100を訓練するために、データ生成器108は、エンコーダにおいて関節の数パーセントの意味論的トークンを除去し、以下のクロス・エントロピ分類損失関数LPJによって訓練された関節タイプ(意味論的)予測ヘッドh(・)118にマスク済み行列Xを引き渡す。
【数15】
【0053】
関節の間違った空間的順序付けのインパクトを低減させるために、BDSTT100は、行列XShfSに空間的にシャッフルされた関節の正しい空間的並べ替えを予測するように訓練可能である。各セグメント内に
【数16】
個の関節を有する、K個の等しいセグメントに分割された関節の各シーケンスには、セグメントをシャッフルするためのK!個の方式がある。空間分類ヘッドh(・)120は、以下のクロス・エントロピ損失LPSを使用して正しい空間的シャッフルを予測するように訓練される。
【数17】
【0054】
これは、フレームの潜在的に時間シャッフルされたシーケンスにとっての正しい時間的順序を、骨格ベースのモデルが確認可能な場合に役立つ。BDSTT100の能力を強化してこれを行うために、データ生成器108は、時間的順序並べ替えを、シャッフルされたシーケンスXShfTに適用する。各セグメント内に
【数18】
個のフレームを有するK個のセグメントに、各シーケンスを等しく分割し、したがって、セグメントをシャッフルするためのK!個の方式があり、時間分類ヘッドh122は、以下のクロス・エントロピ損失公式LPTに基づいて、正確なシャッフルを予測するように訓練されることが可能である。
【数19】
【0055】
図10は、図7に示されたようなアーキテクチャを通じたデータ・フローを描写している。フレーム106から、埋め込みユニット102(図3図4、および図5に示されているが、図10には示されていない)は、フレームに関する(空間)行列111および関節に関する(時間)行列113を生み出す。STB112は、空間行列111を受け取り、各フレーム内の骨格姿勢特徴を表現する行列を生み出す。TTB114は、時間行列113を受け取り、フレームのシーケンスにまたがる骨格姿勢特徴の進展を表現する行列を生み出す。
【0056】
図11に示されたような1つまたは複数の実施形態では、アクション認識システム96には、BDSTT100の8つの(8)インスタンスがスタックされ、インスタンスは、64、64、128、128、256、256、256、および256個の出力チャネルをそれぞれ有する。BDSTT100のそれぞれが、マルチヘッド・アテンション・ネットワークの3つの(3)ヘッドと同時に、空間変換器ブロック112および時間変換器ブロック114を含む。1つまたは複数の実施形態では、システム96はまた、全ての骨格シーケンスを150個のフレームにランダムかつ一様にサンプリングし、次いで、訓練/テスト分割のために、サンプリングされたシーケンスを128個のフレームにランダムかつ集中的に切り取るプリプロセッサを含む。1つまたは複数の実施形態では、システム96は、Nesterovモーメンタム0.9の確率勾配降下を使用して、バッチ・サイズ32の120個のエポックに対して訓練される。1つまたは複数の実施形態では、初期の学習率(LR)は、エポック60および90においてステップLR減衰(因子0.1)で0.1にセットされる。
【0057】
本発明の実施形態には、数多くの実用的な用途がある。本発明の実施形態のための1つの非限定的な例示的用途は、家電製品制御の領域におけるものである。別の非限定的な例示的用途は、車両制御の領域におけるものである。両方の分野において、ユーザがデバイスの制御装置に触れることなくデバイス(例えば、冷蔵庫、自動車、車いす)の動作を調節可能であることが役立つ場合がある。例えば、デバイスに関連付けられたカメラは、ユーザの動きの画像(フレーム)をキャプチャすることができ、システム96は、訓練済みの双方向空間-時間変換器ネットワーク100をフレームに適用することによって、フレームを処理して骨格関節運動シーケンスを検出することができる。検出された骨格関節運動シーケンスに応答して、システム96は、制御信号をデバイスに伝送することができる。例えば、システム96は、入出力インターフェース22を介して外部の電気機械デバイス、電気光学デバイス、または電子デバイス14と通信状態で接続された、図22に示されたような、コンピュータ・システム/サーバ12において(または、モニタおよびキーボードなどの周辺機器のないマイクロプロセッサにおいて)、実行されることが可能である。システム96は、訓練済みの双方向空間-時間変換器ネットワーク100の動作によって骨格関節運動シーケンスを検出することに応答して、入出力インターフェース22を介して制御信号をデバイス14に伝送することができる。
【0058】
図12は、ユーザの行動を解釈するために骨格ベースのアクション認識システム(図12に図示せず)を使用した、家電製品(ロボット)1200を描写している。アクション認識に基づいて、ロボットは、固有のサービスを提供することができる。1つの例として、家族サービスにおいて、ロボットは、人々の行動および意図を理解することができる。図12では、ロボットは人の方に向いており、人が水を飲んでいることを認識したとき、収集または掃除する準備ができている。
【0059】
図13は、ユーザの行動を解釈するための骨格ベースのアクション認識システムを使用した、仮想現実システム1300を描写しており、これにより、人々は、かさばるコントローラを使用するのではなく、アクション/ジェスチャを使用してVRシステム1300と容易に対話することができる。図13では、VRシステム1300は、ユーザの実際の手1306の骨格関節運動シーケンスを検出することに応答して、ユーザの仮想の手1304の中で仮想オブジェクト1302を回転させている。
【0060】
図14は、ユーザの行動を解釈するための骨格ベースのアクション認識システムを使用した、リアルタイム翻訳システムを描写している。骨格ベースのアクション認識は、耳が聞こえない人々/聞こえる人と話すことによる意思疎通を行わない人々を助けるための、手話翻訳システムにおいて機能することができる。図14では、ハンドヘルド電子デバイス1402は、そのカメラ1404を使用して、ユーザの手1406のジェスチャをキャプチャし、骨格ベースのアクション認識を適用して、発言への翻訳のためにジェスチャ・データベース1408内のジェスチャを探索する。
【0061】
別の実用的用途は、脆弱なグループの遠隔監視およびケアのためのものである。年配者および子供などの脆弱なグループのために、骨格ベースのアクション認識スキームを用いた異常行動検出が非常に有益である。図15は、骨格関節運動シーケンス1502が検出され、「通常」シーケンス1504と比較される例を描写しており、システム96(図15に図示せず)は、異常な動きが検出されたとき、保護者/世話をする人/病院スタッフにアラートすることができる。図16は、骨格ベースのアクション認識システムを使用してユーザの行動を解釈する、神経筋健康状態評価システムを実行する医療ロボット1602を描写している。
【0062】
図17は、図12から図16の実用的用途のいずれかを実施するための基本的方法1700のステップを描写している。1702において、動いている人の画像をキャプチャする。1704において、画像を骨格関節運動シーケンスに変換する。1706において、骨格ベースのアクション認識システムを骨格関節運動シーケンスに適用する。1708において、骨格ベースのアクション認識システムによって認識されたアクションを、潜在的に関連したアクションのデータベースと比較する。1710において、認識されたアクションがデータベースからの任意のアクションにマッチするかマッチしないかによって、デバイスを動作させる。例えば、図12では、人がコップ一杯の水を置いたとき(データベース・アクションにマッチした)、コップ一杯の水を取るようにロボット1200を動作させる。図15では、ドアを開けるのではなく(いずれかのデータベース・アクションにマッチしなかった)、人が転んだときに、スタッフを連れて来るためにアラート・ブザー(図示せず)を動作させる。
【0063】
これまでの議論を考慮すると、また、添付の図18から図21を特に参照すると、一般的に、本発明の1つの態様による例示的な方法1800は、1802において、双方向空間-時間変換器(BDSTT)ニューラル・ネットワークをインスタンス化することを含むことが理解されよう。1804において、骨格関節と他の関節との、および他のフレーム内の骨格関節の状態との相対的関係を通じて、固有フレーム内の骨格関節の元座標を予測するように双方向空間-時間変換器ニューラル・ネットワークを訓練する。当業者は、予測がグラウンド・トゥルースと比較可能であるように、およびBDSTTのパラメータが、満足限界内の元座標に予測が近づくまで調節可能であるように訓練するために、既に知られている元座標の予測が行われることを理解するであろう。訓練は、いくつかのステップを含む。1806において、骨格関節の座標および他の関節の座標を含む複数のフレームを取得する。1808において、骨格関節の元座標にマスクすることによって固有フレームから空間的にマスクされたフレームを生み出す。1810において、固有フレーム、空間的にマスクされたフレーム、および、複数のフレームのうちの少なくとも1つまたは複数を、双方向空間-時間変換器ネットワークの座標予測ヘッドに提供する。1812において、空間的にマスクされたフレーム内の骨格関節についての座標の予測を、座標予測ヘッドから取得する。1814において、骨格関節についての座標の予測と骨格関節の元座標との間の平均2乗誤差が収束するまで、双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節する。1つまたは複数の実施形態では、方法1800はまた、1900において、正しい時間順序を予測するようにBDSTTを訓練すること、2000において、正しい空間配置を予測するようにBDSTTを訓練すること、または、2100において、正しい意味論的コーディングを予測するようにBDSTTを訓練すること、あるいはその組合せを含んでもよい。
【0064】
図19を詳細に参照すると、正しい時間順序を予測するようにBDSTTを訓練することは、図示の例におけるいくつかのステップを含む。1902において、複数のフレームを時間シャッフルすることによって、複数の時間シャッフルされたフレームを生み出す。1904において、複数の時間シャッフルされたフレームを複数のフレームと共に時間分類ヘッドに提供する。1906において、複数の時間シャッフルされたフレームについての正しい時間順序の予測を、時間分類ヘッドから取得する。1908において、正しい時間順序の予測と複数のフレームとの間のクロス・エントロピ損失が閾値内に収束するまで、双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節する。
【0065】
図20を詳細に参照すると、正しい空間配置を予測するようにBDSTTを訓練することは、図示の例におけるいくつかのステップを含む。2002において、フレームのうちの1つまたは複数における複数の関節を空間的に再配置することによって、複数の空間シャッフルされたフレームを生み出す。2004において、複数の空間シャッフルされたフレームを複数のフレームと共に空間分類ヘッドに提供する。2006において、複数の空間シャッフルされたフレーム内の複数の関節についての正しい空間配置の予測を、時間分類ヘッドから取得する。2008において、正しい空間配置の予測と複数のフレームとの間のクロス・エントロピ損失が閾値内に収束するまで、双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節する。
【0066】
図21をここで参照すると、正しい意味論的コーディングを予測するようにBDSTTを訓練することは、図示の例におけるいくつかのステップを含む。2102において、固有フレーム内の複数の関節に対応するワンホット・ベクトルの行列の少なくとも一部にマスクすることによって、固有フレームから意味論的にマスクされたフレームを生み出す。2104において、意味論的にマスクされたフレームおよび固有フレームを、双方向空間-時間変換器ネットワークの意味論的予測ヘッドに提供する。2106において、意味論的にマスクされたフレームについてのワンホット・ベクトルの予測行列を、時間分類ヘッドから取得する。2108において、ワンホット・ベクトルの予測行列と複数の関節に対応するワンホット・ベクトルの行列との間のクロス・エントロピ分類損失が閾値内に収束するまで、双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節する。
【0067】
さらに、図18を再び参照すると、1つまたは複数の実施形態では、本発明の態様は、骨格の動きに応答してデバイスを制御することを含んでもよいことが理解されよう。例えば、1816において、訓練済みの双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出する。次いで、1818において、(例えば、下記で論じられるI/Oインターフェース22またはネットワーク・アダプタ20あるいはその両方を介して、)検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送する。
【0068】
本発明の1つまたは複数の実施形態またはその要素は、メモリと、メモリに連結され、例示的な方法ステップを実施するように動作可能な、少なくとも1つのプロセッサとを含む、装置の形で、またはコンピュータによって実行されると、例示的な方法ステップをコンピュータに実施させるコンピュータ実行可能命令を具体化する、非一過性コンピュータ可読媒体の形で、実行されることが可能である。図22は、本発明の実施形態によるクラウド・コンピューティング・ノードを同様に表す、本発明の1つまたは複数の態様または要素あるいはその両方を実行する際に有益になり得るコンピュータ・システムを描写している。図22をここで参照すると、クラウド・コンピューティング・ノード10は、適切なクラウド・コンピューティング・ノードのただ1つの例であり、本明細書で説明される本発明の実施形態の使用または機能の範囲について何らかの限定を示唆することを意図するものではない。それにもかかわらず、クラウド・コンピューティング・ノード10は、以上で説明された機能のいずれかを実行または実施あるいはその両方を行う能力がある。
【0069】
クラウド・コンピューティング・ノード10には、コンピュータ・システム/サーバ12があり、これは、数多くの他の汎用または専用コンピューティング・システム環境または構成で動作可能である。コンピュータ・システム/サーバ12と共に使用するのに適切であり得る周知のコンピューティング・システム、環境、または構成、あるいはその組合せの例は、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能家電製品、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および、上記のシステムまたはデバイスのいずれかを含む分散クラウド・コンピューティング環境、ならびに同様のものを含むがこれらに限定されない。
【0070】
コンピュータ・システム/サーバ12は、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明されてもよい。一般に、プログラム・モジュールは、特定のタスクを実施するか、特定の抽象データ型を実行する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含んでもよい。コンピュータ・システム/サーバ12は、通信ネットワークを通じてリンクされたリモート処理デバイスによってタスクが実施される分散クラウド・コンピューティング環境で実践されてもよい。分散クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルおよびリモート両方のコンピュータ・システム・ストレージ媒体に置かれてもよい。
【0071】
図22に示されたように、クラウド・コンピューティング・ノード10におけるコンピュータ・システム/サーバ12は、汎用コンピューティング・デバイスの形で示されている。コンピュータ・システム/サーバ12の構成要素は、1つまたは複数のプロセッサまたは処理ユニット16、システム・メモリ28、および、システム・メモリ28を含む様々なシステム構成要素をプロセッサ16に連結するバス18を含んでもよいがこれらに限定されない。
【0072】
バス18は、メモリ・バスまたはメモリ・コントローラ、周辺バス、アクセラレイティッド・グラフィックス・ポート、および、様々なバス・アーキテクチャのいずれかを使用するプロセッサまたはローカル・バスを含む、バス構造のいくつかのタイプのいずれかのうちの1つまたは複数を表す。例として、また限定ではなく、このようなアーキテクチャは、インダストリ・スタンダード・アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、エンハントISA(EISA)バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション(VESA)ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト(PCI)バスを含む。
【0073】
コンピュータ・システム/サーバ12は、典型的には、様々なコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム/サーバ12によってアクセス可能な任意の利用可能な媒体でもよく、揮発性媒体および不揮発性媒体の両方、取外し可能媒体および取外し不能媒体を含む。
【0074】
システム・メモリ28は、ランダム・アクセス・メモリ(RAM:randomaccess memory)30またはキャッシュ・メモリ32あるいはその両方など、揮発性メモリの形のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム/サーバ12はさらに、他の取外し可能/取外し不能な、揮発性/不揮発性のコンピュータ・システム・ストレージ媒体を含んでもよい。ほんの一例として、ストレージ・システム34は、取外し不能な不揮発性磁気媒体(図示されず、典型的には「ハード・ドライブ」と呼ばれる)を読み書きするために提供可能である。図示していないが、取外し可能な不揮発性磁気ディスク(例えば、「フロッピー(R)・ディスク」)を読み書きするための磁気ディスク・ドライブ、およびCD-ROM、DVD-ROM、または他の光媒体などの取外し可能な不揮発性光ディスクを読み書きするための光ディスク・ドライブが提供されることが可能である。このような事例では、それぞれが、1つまたは複数のデータ媒体インターフェースによってバス18に接続されることが可能である。下記でさらに描写および説明されるように、メモリ28は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含んでもよい。
【0075】
例として、また限定ではなく、オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データだけでなく、プログラム・モジュール42のセット(少なくとも1つ)を有するプログラム/ユーティリティ40がメモリ28に格納されてもよい。オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データのそれぞれ、またはそのいくつかの組合せは、ネットワーキング環境の実装形態を含んでもよい。プログラム・モジュール42は一般に、本明細書で説明されるような、本発明の実施形態の機能または方法あるいはその両方を実行する。
【0076】
コンピュータ・システム/サーバ12はまた、キーボード、ポインティング・デバイス、ディスプレイ24などの1つもしくは複数の外部デバイス14、ユーザがコンピュータ・システム/サーバ12と対話することを可能にする1つもしくは複数のデバイス、または、コンピュータ・システム/サーバ12が1つもしくは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(例えば、ネットワーク・カード、モデム等)、あるいはその組合せと通信してもよい。このような通信は、入出力(I/O)インターフェース22を介して行われることが可能である。さらに、コンピュータ・システム/サーバ12は、ネットワーク・アダプタ20を介して、ローカル・エリア・ネットワーク(LAN)、一般的なワイド・エリア・ネットワーク(WAN)、またはパブリック・ネットワーク(例えば、インターネット)、あるいはその組合せなどの、1つまたは複数のネットワークと通信することができる。描写されたように、ネットワーク・アダプタ20は、バス18を介してコンピュータ・システム/サーバ12の他の構成要素と通信する。図示していないが、他のハードウェア構成要素またはソフトウェア構成要素あるいはその両方は、コンピュータ・システム/サーバ12と共に使用可能であることを理解されたい。例は、マイクロコード、デバイス・ドライバ、冗長処理ユニット、ならびに、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システム等を含むがこれらに限定されない。
【0077】
したがって、1つまたは複数の実施形態は、汎用コンピュータまたはワークステーション上で動くソフトウェアを使用することができる。図22を参照すると、このような実装形態は、例えば、プロセッサ16と、メモリ28と、ディスプレイ24および(キーボード、ポインティング・デバイス、または同様のものなどの)外部デバイス14への入出力インターフェース22とを採用してもよい。本明細書で使用されるような「プロセッサ」という用語は、例えば、CPU(中央処理ユニット)または処理回路機器の他の形式あるいはその両方を含むものなど、任意の処理デバイスを含むことを意図している。さらに、「プロセッサ」という用語は、2つ以上の個々のプロセッサを指してもよい。「メモリ」という用語は、例えば、RAM(ランダム・アクセス・メモリ)30、ROM(リード・オンリ・メモリ)、固定メモリ・デバイス(例えば、ハード・ドライブ34)、取外し可能メモリ・デバイス(例えば、ディスケット)、フラッシュ・メモリおよび同様のものなど、プロセッサまたはCPUに関連付けられたメモリを含むことを意図している。追加として、本明細書で使用されるような「入出力インターフェース」という句は、例えば、データを処理ユニットに入力するための1つまたは複数のメカニズム(例えば、マウス)、および、処理ユニットに関連付けられた結果を提供するための1つまたは複数のメカニズム(例えば、プリンタ)への、インターフェースを意図することを意図している。プロセッサ16、メモリ28、および入出力インターフェース22は、例えば、データ処理ユニット12の一部としてのバス18を介して、相互接続されることが可能である。例えばバス18を介した適切な相互接続はまた、ネットワーク・カードなどのネットワーク・インターフェース20に提供されることが可能であり、ネットワーク・カードは、コンピュータ・ネットワークとのインターフェースに、および、適切な媒体とのインターフェースに提供可能なディスケットまたはCD-ROMドライブなどの媒体インターフェースに、提供可能である。
【0078】
したがって、本明細書で説明されるような本発明の方法を実施するための命令またはコードを含むコンピュータ・ソフトウェアは、関連付けられたメモリ・デバイス(例えば、ROM、固定または取外し可能メモリ)のうちの1つまたは複数に格納されてもよく、利用される準備ができると、部分的または全体的に(例えば、RAM)にロードされ、CPUによって実行される。このようなソフトウェアは、ファームウェア、常駐ソフトウェア、マイクロコード、および同様のものを含んでもよいがこれらに限定されない。
【0079】
プログラム・コードを格納または実行あるいはその両方を行うのに適切なデータ処理システムは、システム・バス18を通じて記憶素子28に直接的または間接的に連結された少なくとも1つのプロセッサ16を含むことになる。記憶素子は、プログラム・コードの実際の実装中に採用されるローカル・メモリ、大容量ストレージ、およびキャッシュ・メモリ32を含むことができ、キャッシュ・メモリ32は、実行中にコードが大容量ストレージから取り出されなければならない回数を低減させるための、少なくともいくつかのプログラム・コードの一時記憶を提供する。
【0080】
入出力またはI/Oデバイス(キーボード、ディスプレイ、ポインティング・デバイス、および同様のものを含むがこれらに限定されない)は、直接的に、または介在するI/Oコントローラを通じて、システムに連結可能である。
【0081】
ネットワーク・アダプタ20はまた、データ処理システムが、介在するプライベートまたはパブリック・ネットワークを通じて、他のデータ処理システムまたはリモート・プリンタまたはストレージ・デバイスに連結された状態になることを可能にするために、システムに連結されてもよい。モデム、ケーブル・モデムおよびイーサネット(R)・カードは、ネットワーク・アダプタの現在利用可能なタイプのうちのほんの少しである。
【0082】
本明細書で使用されるように、特許請求の範囲を含めて、「サーバ」は、サーバ・プログラムを動かす物理的なデータ処理システム(例えば、図22に示されたようなシステム12)を含む。このような物理サーバは、ディスプレイおよびキーボードを含んでも含まなくてもよいことが理解されよう。
【0083】
クラウドまたは仮想マシン環境のコンテキストで、1つまたは複数の実施形態が少なくとも部分的に実行されることが可能であるが、これは、例示的かつ非限定的である。図1図2および添付のテキストへの参照が再び行われる。
【0084】
本明細書で説明される方法のいずれかは、コンピュータ可読ストレージ媒体上で具体化された別個のソフトウェア・モジュールを備えるシステムを提供する追加のステップを含むことができ、モジュールは、例えば、ブロック図で描写された、または本明細書で説明された、あるいはその両方の、適切な要素のいずれかまたは全てを含むことができ、例として、また限定ではなく、モジュール/ブロックまたはサブモジュール/サブ・ブロックあるいはその両方のうちのいずれか1つ、いくつか、または全てが説明されることに留意されたい。方法ステップは、次いで、16などの1つまたは複数のハードウェア・プロセッサ上で実行する、上記で説明されたような、システムの別個のソフトウェア・モジュールまたはサブモジュールあるいはその両方を使用して実行可能である。さらに、コンピュータ・プログラム製品は、別個のソフトウェア・モジュールをシステムに提供することを含む、本明細書で説明される1つまたは複数の方法ステップを実行するように実装されるように適合されたコードを有する、コンピュータ可読ストレージ媒体を含むことができる。
【0085】
例示的なシステムおよび製品詳細
本発明は、統合の任意の可能な技術詳細レベルにおけるシステム、方法、またはコンピュータ・プログラム製品、あるいはその組合せでもよい。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体(または複数の媒体)を含んでもよい。
【0086】
コンピュータ可読ストレージ媒体は、命令実行デバイスによる使用のための命令を保持および格納可能な有形デバイスであることが可能である。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の適切な組合せでもよいがこれらに限定されない。コンピュータ可読ストレージ媒体のより具体的な例の完全に網羅されていないリストは、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、命令を記録したパンチ・カードまたは溝内隆起構造などの機械的にエンコードされたデバイス、および前述の任意の適切な組合せを含む。本明細書で使用されるようなコンピュータ可読ストレージ媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号などの、本質的に一時的な信号であると解釈されるべきではない。
【0087】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、あるいは、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはその組合せといった、ネットワークを介して外部コンピュータまたは外部ストレージ・デバイスに、ダウンロード可能である。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備えてもよい。各コンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受け取り、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納するためにコンピュータ可読プログラム命令を転送する。
【0088】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路機器用の構成データ、または、Smalltalk(R)、C++、もしくは同様のものなどのオブジェクト指向プログラミング言語、および「C」プログラミング言語または類似のプログラミング言語などの手続き型プログラミング言語を含む1つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードでもよい。コンピュータ可読プログラム命令は、全面的にユーザのコンピュータ上で、または、部分的にユーザのコンピュータ上で、スタンド・アロン・ソフトウェア・パッケージとして、あるいは、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、または全面的にリモート・コンピュータもしくはサーバ上で実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよく、または接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラマブル・ロジック回路(PLC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路機器は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路機器を個別化することによって、コンピュータ可読プログラム命令を実行してもよい。
【0089】
本発明の態様は、本発明の実施形態による、方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャートまたはブロック図あるいはその両方を参照しながら本明細書で説明される。フローチャートまたはブロック図あるいはその両方の各ブロック、ならびにフローチャートまたはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実行可能であることが理解されよう。
【0090】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、流れ図またはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/行為を実行するための手段を作り出すべく、機械を生み出すために汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてもよい。これらのコンピュータ可読プログラム命令はまた、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/行為の態様を実行する命令を含む製品を、命令を格納したコンピュータ可読ストレージ媒体が備えるべく、コンピュータ可読ストレージ媒体に格納されてもよく、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはその組合せに特定の様式で機能するように指図することができる。
【0091】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/行為を実行するべく、コンピュータ実行処理を生み出すために、コンピュータ、他のプログラム可能装置、または他のデバイスで一連の動作ステップを実施させるために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされてもよい。
【0092】
図中のフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、指定の論理機能を実施するための1つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または一部を表してもよい。いくつかの代替実装形態では、ブロックに記された機能は、図に記された順序とは無関係に行われてもよい。例えば、連続して示された2つのブロックは、実際には、実質的に同時に実行されてもよく、またはブロックは、時には、含まれる機能に応じて逆の順序で実行されてもよい。ブロック図またはフローチャートあるいはその両方の各ブロック、および、ブロック図またはフローチャートあるいはその両方におけるブロックの組合せは、指定の機能もしくは行為を実施するか、または、専用ハードウェアとコンピュータ命令との組合せを実行する、専用ハードウェア・ベースのシステムによって実行可能であることも指摘される。
【0093】
本発明の様々な実施形態の説明は、例証のために提示されてきたが、網羅的であること、または開示の実施形態に限定されることを意図するものではない。多くの変更形態および変形形態が、説明された実施形態の範囲から逸脱することなく、当業者には明らかであろう。本明細書で使用される専門用語は、実施形態の原理、実用的用途、もしくは市場で見つかる技術に対する技術的改善を最も良く説明するように、または、本明細書で開示された実施形態を当業者が理解できるように、選ばれた。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
【手続補正書】
【提出日】2023-12-06
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータの情報処理による、コンピュータ実行方法であって、
双方向空間-時間変換器ニューラル・ネットワークをインスタンス化することと、
骨格関節の座標および他の関節の座標を含む複数のフレームを取得すること、
前記骨格関節の元座標にマスクすることによって固有フレームから空間的にマスクされたフレームを生み出すこと、
前記固有フレーム、前記空間的にマスクされたフレーム、および、前記複数のフレームのうちの少なくとも1つまたは複数を、前記双方向空間-時間変換器ネットワークの座標予測ヘッドに提供すること、
前記空間的にマスクされたフレーム内の前記骨格関節についての座標の予測を、前記座標予測ヘッドから取得すること、ならびに
前記骨格関節についての座標の前記予測と前記骨格関節の前記元座標との間の平均2乗誤差が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節すること
によって、前記骨格関節と他の関節との、および他のフレーム内の前記骨格関節の状態との相対的関係を通じて、前記固有フレーム内の前記骨格関節の前記元座標を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練することと
を含む、コンピュータ実行方法。
【請求項2】
前記複数のフレームを時間シャッフルすることによって、複数の時間シャッフルされたフレームを生み出すことと、
前記複数の時間シャッフルされたフレームを前記複数のフレームと共に時間分類ヘッドに提供することと、
前記複数の時間シャッフルされたフレームについての正しい時間順序の予測を、前記時間分類ヘッドから取得することと、
正しい時間順序の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、前記骨格関節の連続座標の正しい時間順序を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項1に記載の方法。
【請求項3】
前記訓練された双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項2に記載の方法。
【請求項4】
前記フレームのうちの1つまたは複数における複数の関節を空間的に再配置することによって、複数の空間シャッフルされたフレームを生み出すことと、
前記複数の空間シャッフルされたフレームを前記複数のフレームと共に空間分類ヘッドに提供することと、
前記複数の空間シャッフルされたフレーム内の前記複数の関節についての正しい空間配置の予測を、前記空間分類ヘッドから取得することと、
正しい空間配置の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、複数の骨格関節の座標の正しい空間配置を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項1に記載の方法。
【請求項5】
前記訓練された双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項4に記載の方法。
【請求項6】
前記固有フレーム内の前記複数の関節に対応するワンホット・ベクトルの行列の少なくとも一部にマスクすることによって、前記固有フレームから意味論的にマスクされたフレームを生み出すことと、
前記意味論的にマスクされたフレームおよび前記固有フレームを前記双方向空間-時間変換器ネットワークの意味論的予測ヘッドに提供することと、
前記意味論的にマスクされたフレームについてのワンホット・ベクトルの予測行列を、前記意味論的予測ヘッドから取得することと、
ワンホット・ベクトルの前記予測行列と前記複数の関節に対応するワンホット・ベクトルの前記行列との間のクロス・エントロピ分類損失が収束するまで、前記双方向空間-時間変換器ネットワークのパラメータを調節することと
によって、複数の骨格関節の正しい意味論的コーディングを予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項1に記載の方法。
【請求項7】
前記訓練された双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項6に記載の方法。
【請求項8】
コンピュータ・プログラム製品であって、コンピュータの情報処理により、
双方向空間-時間変換器ニューラル・ネットワークをインスタンス化することと、
骨格関節の座標および他の関節の座標を含む複数のフレームを取得すること、
前記骨格関節の元座標にマスクすることによって固有フレームから空間的にマスクされたフレームを生み出すこと、
前記固有フレーム、前記空間的にマスクされたフレーム、および、前記複数のフレームのうちの少なくとも1つまたは複数を、前記双方向空間-時間変換器ネットワークの座標予測ヘッドに提供すること、
前記空間的にマスクされたフレーム内の前記骨格関節についての座標の予測を、前記座標予測ヘッドから取得すること、ならびに
前記骨格関節についての座標の前記予測と前記骨格関節の前記元座標との間の平均2乗誤差が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節すること
によって、前記骨格関節と他の関節との、および他のフレーム内の前記骨格関節の状態との相対的関係を通じて、前記固有フレーム内の前記骨格関節の前記元座標を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練することと
を含む方法を前記コンピュータに実施させる、コンピュータ実行可能命令を具体化する1つまたは複数のコンピュータ可読ストレージ媒体を備える、コンピュータ・プログラム製品。
【請求項9】
前記方法が、
前記複数のフレームを時間シャッフルすることによって、複数の時間シャッフルされたフレームを生み出すことと、
前記複数の時間シャッフルされたフレームを前記複数のフレームと共に時間分類ヘッドに提供することと、
前記複数の時間シャッフルされたフレームについての正しい時間順序の予測を、前記時間分類ヘッドから取得することと、
正しい時間順序の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、前記骨格関節の連続座標の正しい時間順序を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項10】
前記方法が、
前記訓練された双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項9に記載のコンピュータ・プログラム製品。
【請求項11】
前記方法が、
前記フレームのうちの1つまたは複数における前記複数の関節を空間的に再配置することによって、複数の空間シャッフルされたフレームを生み出すことと、
前記複数の空間シャッフルされたフレームを前記複数のフレームと共に空間分類ヘッドに提供することと、
前記複数の空間シャッフルされたフレーム内の前記複数の関節についての正しい空間配置の予測を、前記空間分類ヘッドから取得することと、
正しい空間配置の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、複数の骨格関節の座標の正しい空間配置を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項12】
前記方法が、
前記訓練された双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項11に記載のコンピュータ・プログラム製品。
【請求項13】
前記方法が、
前記固有フレーム内の前記複数の関節に対応するワンホット・ベクトルの行列の少なくとも一部にマスクすることによって、前記固有フレームから意味論的にマスクされたフレームを生み出すことと、
前記意味論的にマスクされたフレームおよび前記固有フレームを前記双方向空間-時間変換器ネットワークの意味論的予測ヘッドに提供することと、
前記意味論的にマスクされたフレームについてのワンホット・ベクトルの予測行列を、前記意味論的予測ヘッドから取得することと、
ワンホット・ベクトルの前記予測行列と前記複数の関節に対応するワンホット・ベクトルの前記行列との間のクロス・エントロピ分類損失が収束するまで、前記双方向空間-時間変換器ネットワークのパラメータを調節することと
によって、複数の骨格関節の正しい意味論的コーディングを予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項14】
前記方法が、
前記訓練された双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項13に記載のコンピュータ・プログラム製品。
【請求項15】
装置であって、
コンピュータ実行可能命令を具体化するメモリと、
少なくとも1つのプロセッサであって、前記メモリに連結され、
双方向空間-時間変換器ニューラル・ネットワークをインスタンス化すること、
骨格関節の座標および他の関節の座標を含む複数のフレームを取得すること、
前記骨格関節の元座標にマスクすることによって固有フレームから空間的にマスクされたフレームを生み出すこと、
前記固有フレーム、前記空間的にマスクされたフレーム、および、前記複数のフレームのうちの少なくとも1つまたは複数を、前記双方向空間-時間変換器ネットワークの座標予測ヘッドに提供すること、
前記空間的にマスクされたフレーム内の前記骨格関節についての座標の予測を、前記座標予測ヘッドから取得すること、ならびに
前記骨格関節についての座標の前記予測と前記骨格関節の前記元座標との間の平均2乗誤差が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節すること
によって、前記骨格関節と他の関節との、および他のフレーム内の前記骨格関節の状態との相対的関係を通じて、前記固有フレーム内の前記骨格関節の前記元座標を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
を含む方法を実施するように前記コンピュータ実行可能命令によって動作可能な、少なくとも1つのプロセッサと
を備える、装置。
【請求項16】
前記方法が、
前記複数のフレームを時間シャッフルすることによって、複数の時間シャッフルされたフレームを生み出すことと、
前記複数の時間シャッフルされたフレームを前記複数のフレームと共に時間分類ヘッドに提供することと、
前記複数の時間シャッフルされたフレームについての正しい時間順序の予測を、前記時間分類ヘッドから取得することと、
正しい時間順序の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、前記骨格関節の連続座標の正しい時間順序を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項15に記載の装置。
【請求項17】
前記方法が、
前記訓練された双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項16に記載の装置。
【請求項18】
前記方法が、
前記フレームのうちの1つまたは複数における前記複数の関節を空間的に再配置することによって、複数の空間シャッフルされたフレームを生み出すことと、
前記複数の空間シャッフルされたフレームを前記複数のフレームと共に空間分類ヘッドに提供することと、
前記複数の空間シャッフルされたフレーム内の前記複数の関節についての正しい空間配置の予測を、前記空間分類ヘッドから取得することと、
正しい空間配置の前記予測と前記複数のフレームとの間のクロス・エントロピ損失が収束するまで、前記双方向空間-時間変換器ニューラル・ネットワークのパラメータを調節することと
によって、複数の骨格関節の座標の正しい空間配置を予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項15に記載の装置。
【請求項19】
前記方法が、
前記訓練された双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項18に記載の装置。
【請求項20】
前記方法が、
前記固有フレーム内の前記複数の関節に対応するワンホット・ベクトルの行列の少なくとも一部にマスクすることによって、前記固有フレームから意味論的にマスクされたフレームを生み出すことと、
前記意味論的にマスクされたフレームおよび前記固有フレームを前記双方向空間-時間変換器ネットワークの意味論的予測ヘッドに提供することと、
前記意味論的にマスクされたフレームについてのワンホット・ベクトルの予測行列を、前記意味論的予測ヘッドから取得することと、
ワンホット・ベクトルの前記予測行列と前記複数の関節に対応するワンホット・ベクトルの前記行列との間のクロス・エントロピ分類損失が収束するまで、前記双方向空間-時間変換器ネットワークのパラメータを調節することと
によって、複数の骨格関節の正しい意味論的コーディングを予測するように、前記双方向空間-時間変換器ニューラル・ネットワークを訓練すること
をさらに含む、請求項15に記載の装置。
【請求項21】
前記方法が、
前記訓練された双方向空間-時間変換器ニューラル・ネットワークをフレームのシーケンスに適用することによって骨格関節運動シーケンスを検出することと、
前記検出された骨格関節運動シーケンスに応じて、電気機械デバイス、電気光学デバイス、および電子デバイスのうちの少なくとも1つに制御信号を伝送することと
をさらに含む、請求項20に記載の装置。
【国際調査報告】