(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-25
(54)【発明の名称】キーポイントベースの行動位置特定
(51)【国際特許分類】
G06T 7/00 20170101AFI20231218BHJP
G06V 10/82 20220101ALI20231218BHJP
【FI】
G06T7/00 660Z
G06T7/00 350C
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023535717
(86)(22)【出願日】2022-01-28
(85)【翻訳文提出日】2023-06-12
(86)【国際出願番号】 US2022014246
(87)【国際公開番号】W WO2022165132
(87)【国際公開日】2022-08-04
(32)【優先日】2021-01-28
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-01-27
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】カダヴ、 アシム
(72)【発明者】
【氏名】レイ、 ファーレイ
(72)【発明者】
【氏名】グラフ、 ハンス、 ペーター
(72)【発明者】
【氏名】ホワン、 イ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA03
5L096FA06
5L096FA18
5L096FA34
5L096FA69
5L096HA11
(57)【要約】
行動位置特定のためのコンピュータで実施される方法が提供される。本方法は、1つまたは複数のビデオフレームを人物キーポイント及びオブジェクトキーポイントに変換するステップ(510)を含む。本法は、キーポイント埋め込みを得るために、位置、タイムスタンプ、インスタンス及びタイプ情報を人物キーポイント及びオブジェクトキーポイントに埋め込むステップ(520)をさらに含む。また、本方法は、キーポイント埋め込みを用いる階層型トランスフォーマエンコーダによって、1つまたは複数のビデオフレームにおける人の行動と人の行動がいつどこで発生するかの境界ボックス情報を予測するステップ(530)を含む。
【選択図】
図5
【特許請求の範囲】
【請求項1】
行動位置特定のためのコンピュータで実施される方法であって、
1つまたは複数のビデオフレームを人物キーポイント及びオブジェクトキーポイントに変換するステップ(510)と、
キーポイント埋め込みを得るために、位置、タイムスタンプ、インスタンス及びタイプ情報を前記人物キーポイント及び前記オブジェクトキーポイントに埋め込むステップ(520)と、
前記キーポイント埋め込みを用いる階層型トランスフォーマエンコーダによって、前記1つまたは複数のビデオフレームにおける人の行動と前記人の行動がいつどこで発生するかの境界ボックス情報を予測するステップ(530)と、
を有する、コンピュータで実施される方法。
【請求項2】
前記変換するステップは、前記1つまたは複数のビデオフレームを、検出された人物毎に人の関節名形式の人物キーポイントに変換する(510A)、請求項1に記載のコンピュータで実施される方法。
【請求項3】
前記変換するステップは、人物検出信頼度スコアに基づいて、前記検出された人物から上位N人を選択するステップ(510B)をさらに有する、請求項2に記載のコンピュータで実施される方法。
【請求項4】
前記変換するステップは、マスクR-CNNで検出されたオブジェクトマスクの輪郭をサブサンプリングすることで前記オブジェクトキーポイントを抽出するステップ(510C)を有する、請求項1に記載のコンピュータで実施される方法。
【請求項5】
前記変換するステップは、オブジェクト検出信頼度スコアに基づいて、検出されたオブジェクトから上位N個を選択するステップ(510D)をさらに有する、請求項4に記載のコンピュータで実施される方法。
【請求項6】
前記人物キーポイント及び前記オブジェクトキーポイントからアトミック行動を学習するステップをさらに有する、請求項1に記載のコンピュータで実施される方法。
【請求項7】
前記位置情報は、各ピクセル座標のダウンサンプリングされた空間的な位置を有する、請求項1に記載のコンピュータで実施される方法。
【請求項8】
前記タイムスタンプ情報は、キーポイントのタイムスタンプと開始キーフレームのタイムスタンプとの間の差を有する、請求項1に記載のコンピュータで実施される方法。
【請求項9】
前記インスタンス情報は、前記人物キーポイントと人物インスタンスとの間の空間的な相関を含む、請求項1に記載のコンピュータで実施される方法。
【請求項10】
前記タイプ情報は、人体の部位名を含む、請求項1に記載のコンピュータで実施される方法。
【請求項11】
前記位置、タイムスタンプ、インスタンス及びタイプ情報は、それぞれの埋め込みメトリックに線形投影され、トランスフォーマベースのキーポイント埋め込みネットワークを用いて出力キーポイント埋め込みを得るために合計される典型的なトークンを有する、請求項1に記載のコンピュータで実施される方法。
【請求項12】
前記予測される人の行動及び前記境界ボックス情報に応答して、事故を回避するために車両システムを制御するステップをさらに有する、請求項1に記載のコンピュータで実施される方法。
【請求項13】
前記予測される人の行動及び前記境界ボックス情報に応答して、衝突を回避するためにロボットシステムを制御するステップをさらに有する、請求項1に記載のコンピュータで実施される方法。
【請求項14】
行動位置特定のためのコンピュータプログラム製品であって、
前記コンピュータプログラム製品は、プログラム命令が組み込まれた非一時的なコンピュータで読み取り可能な記録媒体を有し、前記プログラム命令はコンピュータによって実行可能であり、前記コンピュータに、
前記コンピュータのプロセッサ装置により、1つまたは複数のビデオフレームを人物キーポイント及びオブジェクトキーポイントに変換するステップ(510)と、
前記プロセッサ装置により、キーポイント埋め込みを得るために、位置、タイムスタンプ、インスタンス及びタイプ情報を前記人物キーポイント及び前記オブジェクトキーポイントに埋め込むステップ(520)と、
前記キーポイント埋め込みを用いる階層型トランスフォーマエンコーダによって、前記1つまたは複数のビデオフレームにおける人の行動と前記人の行動がいつどこで発生するかの境界ボックス情報を予測するステップ(530)と、
を実行させる、コンピュータプログラム製品。
【請求項15】
前記変換するステップは、前記1つまたは複数のビデオフレームを、検出された人物毎に人の関節名形式の人物キーポイントに変換する(510A)、請求項14に記載のコンピュータプログラム製品。
【請求項16】
前記変換するステップは、人物検出信頼度スコアに基づいて、前記検出された人物から上位N人を選択するステップ(510B)をさらに有する、請求項15に記載のコンピュータプログラム製品。
【請求項17】
前記変換するステップは、マスクR-CNNで検出されたオブジェクトマスクの輪郭をサブサンプリングすることで前記オブジェクトキーポイントを抽出するステップ(510C)を有する、請求項14に記載のコンピュータプログラム製品。
【請求項18】
前記変換するステップは、オブジェクト検出信頼度スコアに基づいて、検出されたオブジェクトから上位N個を選択するステップ(510D)をさらに有する、請求項17に記載のコンピュータプログラム製品。
【請求項19】
前記人物キーポイント及び前記オブジェクトキーポイントからアトミック行動を学習するステップをさらに有する、請求項14に記載のコンピュータプログラム製品。
【請求項20】
行動位置特定のためのコンピュータ処理システムであって、
プログラムコードを記憶するためのメモリ装置(140)と、
1つまたは複数のビデオフレームを人物キーポイント及びオブジェクトキーポイントに変換し、
キーポイント埋め込みを得るために、位置、タイムスタンプ、インスタンス及びタイプ情報を前記人物キーポイント及び前記オブジェクトキーポイントに埋め込み、
前記キーポイント埋め込みを用いる階層型トランスフォーマエンコーダによって、前記1つまたは複数のビデオフレームにおける人の行動と人の行動がいつどこで発生するかの境界ボックス情報を予測する、前記プログラムコードを実行するための、前記メモリ装置に動作可能に接続されたプロセッサ装置(110)と、
を有するコンピュータ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
この出願は、2021年1月28日に出願された米国仮特許出願第63/142,602号及び2022年1月27日に出願された米国特許出願第17/586,284号を基礎とする優先権を主張し、それらの開示の全てをここに取り込む。
【0002】
本発明は、オブジェクトの追跡に関し、より詳細には、キーポイントベースの行動位置特定に関する。
【背景技術】
【0003】
ビデオ及び該ビデオにおける特定のオブジェクトの最終位置を要求するクエリが与えられると、タスクは該ビデオにおけるオブジェクトの最終位置を特定する。ビデオには、時間の経過と共に移動する多数のオブジェクトまたは人物が存在する。オブジェクトは、ビデオ内で遮蔽物を通して動き回ったり、様々なカメラアングルで隠れたりするため、ビデオ内でオブジェクトの位置を特定することは非常に困難である。
【発明の概要】
【0004】
本発明の態様によれば、行動位置特定のためのコンピュータで実施する方法が提供される。この方法は、1つまたは複数のビデオフレームを人物キーポイント及びオブジェクトキーポイントに変換することを含む。この方法は、キーポイント埋め込みを得るために、位置、タイムスタンプ、インスタンス及びタイプ情報を人物キーポイント及びオブジェクトキーポイントに埋め込むことをさらに含む。また、この方法は、キーポイント埋め込みを用いる階層型トランスフォーマエンコーダによって、1つまたは複数のビデオフレームにおける人の行動と該人の行動がいつどこで発生するかの境界ボックス情報を予測することを含む。
【0005】
本発明の他の態様によれば、行動位置特定のためのコンピュータプログラム製品が提供される。コンピュータプログラム製品には、プログラム命令が組み込まれた非一時的なコンピュータで読み取り可能な記録媒体が含まれる。プログラム命令は、コンピュータに方法を実行させるためにコンピュータによって実行可能である。この方法は、コンピュータのプロセッサ装置によって、1つまたは複数のビデオフレームを人物キーポイント及びオブジェクトキーポイントに変換することを含む。この方法は、キーポイント埋め込みを得るために、プロセッサ装置によって、位置、タイムスタンプ、インスタンス及びタイプ情報を人物キーポイント及びオブジェクトキーポイントに埋め込むことをさらに含む。また、この方法は、キーポイント埋め込みを用いる階層型トランスフォーマエンコーダによって、1つまたは複数のビデオフレームにおける人の行動と該人の行動がいつどこで発生するかの境界ボックス情報を予測することを含む。
【0006】
本発明のさらに他の態様によれば、行動位置特定のためのコンピュータ処理システムが提供される。コンピュータ処理システムは、プログラムコードを記憶するためのメモリ装置を含む。コンピュータ処理システムは、プログラムコードを実行し、1つまたは複数のビデオフレームを人物キーポイント及びオブジェクトキーポイントに変換するためにメモリ装置に行動可能に接続されたプロセッサ装置をさらに含む。プロセッサ装置は、プログラムコードを実行し、キーポイント埋め込みを得るために、位置、タイムスタンプ、インスタンス及びタイプ情報を人物キーポイント及びオブジェクトキーポイントに埋め込むことをさらに含む。また、プロセッサ装置は、プログラムコードを実行し、キーポイント埋め込みを用いる階層型トランスフォーマエンコーダによって、1つまたは複数のビデオフレームにおける人の行動と該人の行動がいつどこで発生するかの境界ボックス情報を予測することを含む。
【0007】
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
【0008】
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
【図面の簡単な説明】
【0009】
【
図1】
図1は、本発明の一実施形態による、例示的なコンピューティング装置を示すブロック図である。
【0010】
【
図2】
図2は、本発明の一実施形態による、キーポイントベースの行動位置特定のための例示的なシステムを示すブロック図である。
【0011】
【
図3】
図3は、本発明の一実施形態による、
図2の階層型トランスフォーマエンコーダをさらに示すブロック図である。
【0012】
【
図4】
図4は、本発明の一実施形態による、
図2のキーポイント埋め込みネットワークをさらに示すブロック図である。
【0013】
【
図5】
図5は、本発明の一実施形態による、キーポイントベースの行動位置特定のための例示的な方法を示すフロー図である。
【発明を実施するための形態】
【0014】
本発明の実施形態は、キーポイントベースの行動位置特定が対象とされる。
【0015】
本発明の実施形態は、キーポイント情報のみを用いて行動位置特定の問題に対処する方法を提案する。この提案するアプローチでは、ビデオ処理パイプラインにおいてRGB情報を使用しない。したがって、LIDARデータまたはキーポイントを与えるその他のNFCデータを用いることで、これまで不可能であった行動認識や位置特定が可能になる。
【0016】
本発明の実施形態は、キーポイント情報だけを用いて行動位置特定の結果を予測するため、独特である。本発明の実施形態は、まず各フレームにおける全ての動作主体の境界ボックスを検出し、次に与えられたタイムスタンプにおいて動作主体の行動を分類するトップダウンアーキテクチャを提供する。このモデルには3つの段階が含まれており、その後にチューブレット(tubelet)の行動認識のアイデアが続く。まず、キーポイントのセットが、Tフレームのビデオクリップの「行動表現」として識別される。次に、キーポイント埋め込みネットワークは、時空間情報及びキーポイント特性情報を追加することで、キーポイントをより代表的な特徴に投影する。これには、位置、タイプ等の埋め込み情報が含まれる。最後に、行動タグ付けネットワーク(Action Tagger Network)が高次のインタラクティブな機能を学習し、各動作主体に行動タグを割り当てる。
【0017】
図1は、本発明の一実施形態による、例示的なコンピューティング装置100を示すブロック図である。コンピューティング装置100は、キーポイントベースの行動位置特定を実行するように構成されている。
【0018】
コンピューティング装置100は、コンピュータ、サーバ、ラックベースのサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティング装置、ウェアラブルコンピューティング装置、ネットワークアプライアンス、Webアプライアンス、分散コンピューティングシステム、プロセッサベースのシステム及び/または家庭用電化製品を含むがこれらに限定されない、本明細書に記載された機能を実行できる任意のタイプの計算装置またはコンピュータ装置で実現される。追加または代替として、コンピューティング装置100は、1つまたは複数の計算スレッド、メモリスレッドまたは他のラック、スレッド、コンピューティングシャーシ、あるいは物理的に分散されたコンピューティング装置の他のコンポーネントで実現してもよい。
図1で示すように、コンピューティング装置100は、プロセッサ110、入出力サブシステム120、メモリ130、データ記憶装置140、通信サブシステム150及び/またはサーバまたは同様の計算で一般的に見られる他のコンポーネント及び装置を例示的に含む。もちろん、コンピューティング装置100は、他の実施形態において、サーバコンピュータに一般的に見られるコンポーネント(例えば、様々な入力/出力装置)等、他のコンポーネントまたは追加のコンポーネントを含んでいてもよい。さらに、いくつかの実施形態において、例示的な構成要素のうちの1つまたは複数を、別の構成要素に組み込む、または別の構成要素の一部を形成してもよい。例えば、メモリ130またはその一部は、いくつかの実施形態において、プロセッサ110に組み込まれていてもよい。
【0019】
プロセッサ110は、本明細書に記載の機能を実現できる任意のタイプのプロセッサを包含してもよい。プロセッサ110は、単一のプロセッサ、複数のプロセッサ、中央処理装置(CPU)、グラフィックス処理装置(GPU)、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラまたは他のプロセッサまたは処理/制御回路で実現してもよい。
【0020】
メモリ130は、本明細書に記載の機能を実行できる任意のタイプの揮発性または不揮発性メモリあるいはデータ記憶装置で実現してもよい。動作中、メモリ130は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ及びドライバ等、コンピューティング装置100の動作中に使用される様々なデータ及びソフトウェアを格納できる。メモリ130は、I/Oサブシステム120を介してプロセッサ110に通信可能に接続され、これはプロセッサ110、メモリ130及びコンピューティング装置100の他のコンポーネントとの入出力動作を容易にする回路及び/またはコンポーネントで実現される。例えば、I/Oサブシステム120は、メモリコントローラハブ、入力/出力制御ハブ、プラットフォームコントローラハブ、統合制御回路、ファームウェア装置、通信リンク(例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレース等)及び/または入出力操作を容易にするその他のコンポーネント及びサブシステムで実現されてもよく、あるいは含んでいてもよい。いくつかの実施形態において、I/Oサブシステム120は、システムオンチップ(SOC)の一部を形成してもよく、プロセッサ110、メモリ130及びコンピューティング装置100の他の構成要素と共に、単一の集積回路チップに組み込まれていてもよい。
【0021】
データ記憶装置140は、例えば、メモリ装置及び回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブまたはその他のデータ記憶装置等、データの短期または長期の記憶のために構成された任意のタイプの装置または複数の装置で実現できる。データ記憶装置140は、キーポイントベースの行動位置特定のためのプログラムコードを格納できる。コンピューティング装置100の通信サブシステム150は、ネットワークを介してコンピューティング装置100と他のリモート装置との間の通信を可能にする、任意のネットワークインタフェースコントローラまたは他の通信回路、装置、あるいはそれらの集合が包含される。通信サブシステム150は、任意の1つまたは複数の通信技術(例えば、有線または無線通信)及び関連するプロトコル(例えば、イーサネット、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAXなど)を用いて、そのような通信を行うように構成される。
【0022】
示されているように、コンピューティング装置100は、1つまたは複数の周辺装置160を含んでいてもよい。周辺装置160は、任意の数の追加の入力/出力装置、インタフェース装置及び/または他の周辺装置を含んでいてもよい。例えば、いくつかの実施形態において、周辺装置160は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイクロフォン、ネットワークインタフェース及び/または他の入出力装置、インタフェース装置、ビデオキャプチャ装置及び/または周辺機器を含んでいてもよい。
【0023】
もちろん、コンピューティング装置100は、当業者であれば容易に思いつくような他の要素(図示せず)を含んでいてもよく、特定の要素を省略してもよい。例えば、当業者には容易に理解されるように、特定の実施に応じて、様々な他のセンサ、入力装置及び/または出力装置をコンピューティング装置100に含んでいてもよい。例えば、様々なタイプの無線及び/または有線入力装置及び/または出力装置を利用できる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリ等を利用することもできる。処理システム100のこれら及び他の変形例は、本明細書で提供される本発明の教示を考慮すれば、当業者に容易に考えられる。
【0024】
本明細書で用いる「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指す。有用な実施形態において、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行装置等)を含んでいてもよい。1つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置及び/または個別のプロセッサまたはコンピューティング要素ベースのコントローラ(例えば、論理ゲート等)を含んでいてもよい。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリ等)を含んでいてもよい。任意の実施形態において、ハードウェアプロセッササブシステムは、オンボードまたはオフボードとしてもよく、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)等)で用いるための専用の1つ以上のメモリを含んでいてもよい。
【0025】
いくつかの実施形態において、ハードウェアプロセッササブシステムは、1つまたは複数のソフトウェア要素を含んでいてもよく、実行してもよい。1つまたは複数のソフトウェア要素は、オペレーティングシステム及び/または1つまたは複数のアプリケーション及び/または特定の結果を達成するための特定のコードを含んでいてもよい。
【0026】
他の実施形態において、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用回路を含んでいてもよい。そのような回路は、1つまたは複数の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)及び/またはプログラマブルロジックアレイ(PLA)を含んでいてもよい。
【0027】
ハードウェアプロセッササブシステムのこれら及び他の変形例もまた本発明の実施形態によって考えられる。
【0028】
図2は、本発明の一実施形態による、キーポイントベースの行動位置特定のための例示的なシステム200を示すブロック図である。
【0029】
ここでのタスクは、ビデオ201が与えられると、目標は該ビデオ201における行動位置を特定することである。ビデオ201は、RGBフォーマットであってもよく、LIDAR情報を用いた単なるキーポイントの集まりであってもよい。RGB入力の場合、ビデオ201は、1つまたは複数のコンピュータビジョンアルゴリズムを用いてキーポイントに変換される。具体的には、人物トラックレット(tracklet)211及びオブジェクトキーポイント212は、HRNet210、トップダウンの人物キーポイント推定器及びコンピュータビジョンアルゴリズムベースのオブジェクトキーポイント抽出器212を用いてビデオ201から抽出される。これは、オブジェクトキーポイント212及び人物トラックレット211の位置、タイムスタンプ、インスタンス及びタイプ埋め込みを利用するKeyNetアーキテクチャ290に渡される。キーポイント埋め込みネットワーク230からの動作主体の特徴231及びオブジェクトの特徴232は、階層型トランスフォーマエンコーダ(hierarchical transformer encoder)240に渡される。階層型トランスフォーマエンコーダ240の出力は、出力行動を分類する行動タグ付けネットワーク250で使用される。
【0030】
図3は、本発明の一実施形態による、
図2の階層型トランスフォーマエンコーダ240をさらに示すブロック図である。
【0031】
階層型トランスフォーマエンコーダ240は、時間の経過に伴う各動作主体及びオブジェクトのキーポイント埋め込みから行動レベル表現を学習するキーポイントエンコーダトランスフォーマ320を含む。
【0032】
階層型トランスフォーマエンコーダ240は、行動位置特定のための動作主体レベル表現を学習するための動作主体エンコーダトランスフォーマ310をさらに含む。
【0033】
図4は、本発明の一実施形態による、
図2のキーポイント埋め込みネットワーク230をさらに示すブロック図である。
【0034】
キーポイント埋め込みネットワーク230は、位置トークン320、タイムスタンプトークン330、インスタンストークン340及びタイプ(例えば、頭、肩、手首等)トークン350の組み合わせに基づいて、トランスフォーマ360を用いてキーポイント埋め込み310を学習する。位置トークン320は、フレームにおけるキーポイントの位置をエンコードする。タイムスタンプトークン330は、シーンシーケンスにおけるフレーム時間インデックスをエンコードする。インスタンストークン340は、フレームにおける人物またはオブジェクトIDをエンコードする。タイプトークン350は、キーポイントまたはサンプリングされたオブジェクトキーポイントインデックスの人体の部位のタイプをエンコードする。
【0035】
図5は、本発明の一実施形態による、キーポイントベースの行動位置特定のための例示的な方法500を示すフロー図である。
【0036】
ブロック510において、1つまたは複数のビデオフレームを人物キーポイント及びオブジェクトキーポイントに変換する。
【0037】
一実施形態において、ブロック510は、ブロック510Aから510Dのうちの1つまたは複数を含んでいてもよい。
【0038】
ブロック510Aにおいて、1つまたは複数のビデオフレームを、検出された人物毎に人の関節形式の人物キーポイントに変換する。
【0039】
ブロック510Bにおいて、人物検出信頼度スコアに基づいて、検出された人物から上位N人を選択する。
【0040】
ブロック510Cにおいて、マスクR-CNNで検出されたオブジェクトマスクの輪郭をサブサンプリングすることでオブジェクトキーポイントを抽出する。
【0041】
ブロック510Dにおいて、オブジェクト検出信頼度スコアに基づいて、検出されたオブジェクトから上位N個を選択する。
【0042】
ブロック520において、キーポイント埋め込みを得るために、位置、タイムスタンプ、インスタンス及びタイプ情報を人物キーポイント及びオブジェクトキーポイントに埋め込む。
【0043】
ブロック530において、キーポイント埋め込みを用いる階層型トランスフォーマエンコーダによって、1つまたは複数のビデオフレームにおける人の行動と該人の行動がいつどこで発生するかの境界ボックス情報を予測する。
【0044】
ブロック540において、予測される人の行動及び境界ボックス情報に応じてオブジェクトを制御する。例えば、予測される人の行動及び境界ボックス情報に応じて、事故を回避するために車両システムを制御する。別の例として、予測される人の行動及び境界ボックス情報に応じて、衝突を回避するためのロボットシステムを制御する。
【0045】
次に、
図2で示した本発明の全体設計について説明する。目標は、疎らなキーポイントを用いて一般的な行動認識の問題を解決できるか否かという仮説を検証することである。本発明の実施形態は、最初に各フレーム内の全ての動作主体の境界ボックスを検出し、次に与えられたタイムスタンプにおいて動作主体が行っている行動を分類するトップダウンアーキテクチャを提供する。
【0046】
モデルは、チューブレットの行動認識のアイデアに続く3つの段階を含む。まず、キーポイントのセットが、Tフレームのビデオクリップ201に関する行動表現として識別される。次に、キーポイント埋め込みネットワーク230は、時空間情報及びキーポイント特性情報を追加することで、キーポイントをより代表的な特徴に投影する。最後に、行動タグ付けネットワーク250は、高次のインタラクティブな機能を学習し、各動作主体に行動タグを割り当てる。
【0047】
次に、本発明の一実施形態による、行動表現について説明する。
【0048】
シーンシーケンス。本発明の実施形態は、以下のように行動表現をシーンシーケンスとして設計する。
【数1】
ここで、
【数2】
は、時間の経過に伴うi番目の人物トラックレットからのk
hキーポイントのセットであり、
【数3】
は、j番目のオブジェクトからのk
0キーポイントのセットである。
【0049】
行動表現としてシーンシーケンスDを得るため、動作主体の特徴に関するN個の人物トラックレットHiを抽出し、コンテキスト上の特徴についてはM個のオブジェクトキーポイントをOjとして抽出するキーポイントのサンプリング方法を提案する。
【0050】
人物トラックレット。N個の人物トラックレットを得るため、人検出装置と、トラクション、つまりIoUベースの追跡装置を組み合わせて、Tフレームにわたる人物トラックレット211を構築する。そして、既製のキーポイント推定器を用いて、Tフレームにわたって検出された各人物のkh個の関節情報が抽出される。
【0051】
検出信頼度スコアに基づいて上位N人の人物を選択することで、それらの人物トラックレットがN×kh×Tのキーポイントから構成される。
【0052】
オブジェクトキーポイント。オブジェクトのキーポイントを抽出する目的は、シーンにコンテキスト機能を提供し、オブジェクトのインタラクティブな行動に関するパフォーマンスを向上させることである。ここでは、人(オブジェクト)のインタラクティブな行動は、形状及び空間情報のみを備えたクラスに依存しないキーポイントのセットによってモデル化できると仮定する。したがって、オブジェクトのキーポイントは、マスクR-CNNによって検出されたオブジェクトマスクの輪郭をサブサンプリングすることで抽出される。
【0053】
具体的には、ビデオクリップ毎に、マスクR-CNN検出装置がそのキーフレームに適用されてクラスに依存しないオブジェクトマスクが収集され、マスク毎にテオ・パブリディス(Theo Pavlidis)のアルゴリズムまたは他のコンピュータビジョンアルゴリズムが輪郭追跡に利用される。最後に、等距離サンプリングを適用することで、オブジェクトのキーポイントが抽出され、該キーポイントは検出されたマスクの輪郭に沿って同じ間隔になる。
【0054】
したがって、キーフレームにおいて最も高い信頼度スコアを有する上位K個のオブジェクトを選択することで、各ビデオクリップのK×k0個のキーポイントからOを得ることができる。
【0055】
キーポイント埋め込みネットワーク
【0056】
キーポイント表現におけるアトミック行動を効果的に学習するには、各関節の空間的な相関関係及びこれらの関節がTフレームのビデオクリップにおいてどのように変形するかを学習する必要がある。したがって、シーンシーケンスにおける各キーポイントはトークンのシーケンスに変換され、各トークンは各キーポイントの関係をモデル化するために学習可能なルックアップテーブルである埋め込みEに線形投影される。
【0057】
トークン化。トークン化の目標は、各トラックレットとコンテキストオブジェクトキーポイントとの間の時空間の相関を学習するために、シーンシーケンスをより代表的な情報に変換することである。この目標を達成するため、従来のトークン化技術をマルチインスタンス及びマルチカテゴリのシナリオに拡張して本発明の実施形態の埋め込みを提供する。位置トークン及びタイプトークンの場合、各キーポイントには、空間的な位置、時間的な位置のインデックス及び固有のタイプ情報(例えば、頭、肩、手首等)の表現がそれぞれ提供される。本発明の貢献は、セグメントトークンをTフレームに拡張し、現在のシーンでキーポイントが属するトラックレットのIDを示すインスタンストークンのアイデアに対処することであり、ペアワイズマッチングから以前のトークン化方法のアプリケーションが、複数のインスタンスの時空間の相関情報を同時に提供するために一般化されている。シーンシーケンスを4種類のトークンに変換する方法を以下に詳しく説明する。
【0058】
位置トークン。オリジナル画像のダウンサンプリングされた空間的な位置は、各ピクセル座標の独自の表現を与える。キーポイントPに関して、その位置トークンは([1,W’],[1,H’])の2D位置範囲を有するρとして書き込まれる。ここで、W’はダウンサンプリングされた幅であり、H’はダウンサンプリングされた高さである。これにより、フレームにおける各キーポイントの空間的な相関を維持しつつ、計算コストが削減される。位置トークンの一般的な表現は以下のとおりである。
【数4】
ここで、
【数5】
は、タイムスタンプtにおけるn番目の人物からのk番目のキーポイントの位置トークンを示している。
【0059】
タイプトークン。タイプトークンは、人体の部位(すなわち、頭、右肩及び左手首等)の特徴を表す。タイプトークンの範囲は[1,K]であり、Kはキーポイントの数である。タイプトークンは、人体の各部位がキーポイントシーケンスにおいてどのように変化したかに関する情報を提供する。これは、低解像度で高精度を達成するために不可欠である。タイプトークン
【数6】
は、n番目の人物のタイムスタンプtにおけるk番目のキーポイントに割り当てられる。タイプトークンの一般的な式を以下に示す。
【数7】
【0060】
セグメントトークン。セグメントトークンは、時刻tにおけるキーポイントp
tを有するタイムスタンプ情報を埋め込む。シーンシーケンスの設定によれば、セグメントトークンの範囲は[1,T]であり、Tはビデオクリップの総フレーム数である。n番目の人物のフレームtのキーポイントにセグメントトークン
【数8】
を割り当てる。セグメントトークンの一般式は、以下の式3で示される。
【数9】
【0061】
インスタンストークン。インスタンストークンは、フレームにおけるキーポイントP
tとそれに対応する人物インスタンスnとの間の空間的な相関を提供する。インスタンストークンはセグメントトークンと同様の役割を果たすが、時間的な情報ではなく空間的な情報を提供する。インスタンストークン
【数10】
は、フレームtにおけるn番目の人物インスタンスのk番目のキーポイントである
【数11】
に割り当てられる。インスタンストークンの一般的な式は、以下の式4で示される。
【数12】
【0062】
上述した4種類のトークンでシーンシーケンスをトークン化した後、各トークンを4種類の埋め込みメトリクスに線形投影し、4つのトークンの情報を合計することで出力埋め込みを取得できる。すなわち、
【数13】
である。行動タグ付けネットワーク250は、動作主体レベルの行動位置特定を行うために、埋め込みEを入力として受け取る。
【0063】
行動タグ付けネットワーク
【0064】
行動タグ付けネットワークの目標は、シーンシーケンスDにおける各キーポイントPtの時空間の相関を学習し、各動作主体のサブシーケンスの行動を予測することである。
【0065】
これを達成するため、BERTにおけるセンテンスレベル及びトークンレベルの分類サブタスクで予測を行うのと同様に、キーポイント埋め込みベクトルEが一連のセルフアテンションブロックに供給され、キーポイントの埋め込み間の高次相互作用をモデル化する。出力表現は、行動位置特定のために全結合層に供給される。共有マルチクラス分類器に続いて、本発明のモデルは、シーンシーケンスDにおける各動作主体について、動作主体レベルの行動予測を行うことができる。
【0066】
トランスフォーマネットワーク。典型的なトランスフォーマの実施は、各入力ベクトル(ここでは、各キーポイントの埋め込み)から3つのベクトルを作成する。したがって、キーポイント毎に、クエリベクトル(Q)、キーベクトル(K)及び値ベクトル(V)が作成される。次に、トランスフォーマネットワークは、QキーポイントとKキーポイントとの内積を取ることでシーンシーケンスDにおけるキーポイントをペアワイズにスコア付けする。最後に、トランスフォーマネットワークは、
【数14】
及びソフトマックス演算を用いてスコアを正規化する。ここで、dは埋め込み次元である。各Vキーポイントにソフトマックススコアを乗算すると、重み付けされたVキーポイントを合計することで結果が得られる。これは、以下の式で表すことができる、いわゆるセルフアテンションである。
【数15】
【0067】
階層型トランスフォーマエンコーダ。しかしながら、入力埋め込みシーケンスの長さが増大するにつれて、入力埋め込み間のペアワイズのセルフアテンションにより、トランスフォーマネットワークの計算の複雑さが二次関数的に増大する。したがって、この二次関数的な非効率性に対処するため、単一のトランスフォーマで全てのキーポイントを学習するのではなく、各動作主体の表現が階層的な方法で学習される。具体的には、キーポイントエンコードトランスフォーマは、最初にキーポイント
【数16】
の埋め込みを行動レベル表現のリストにエンコードする。フレームtにおける人物キーポイントの特徴として次のような表現
【数17】
を採用する。
【数18】
ここで、
【数19】
は位置トークンであり、
【数20】
はタイプトークンである。
【0068】
次に、動作主体エンコードトランスフォーマは、
【数21】
からの時間を通して人物トラックレット表現
【数22】
をエンコードする。シーンシーケンスにおける各人物で共通のコンテキスト依存トラックレット表現は、
【数23】
として表すことができる。最後に、動作主体レベルの行動は、次のように
【数24】
をデータセットにおけるクラスの総数に線形投影することで導出される。
【数25】
ここで、
【数26】
はインスタンストークンであり、
【数27】
はフレーム時間tにおけるn番目のインスタンスのセグメントトークンである。
【0069】
RGB特徴抽出器
【0070】
我々が提案するKeyNetによって集められた表現の有効性を検証するため、全ての動作主体トラックレットにおける全情報を用いて行動を予測するRGBベースのアーキテクチャが構築される。このため、上記と同じ戦略が適用され、検出された人物毎にK個のキーポイントを抽出するのではなく、動作主体のサブ画像を直接トリミングすることで人物トラックレットが構築される。
【0071】
RGB特徴抽出器に関して、まず各動作主体の画像ベースの特徴がHRNetを用いて抽出される。次に、特徴はキーポイント埋め込みネットワークの同じ出力次元に線形投影される。画像の特徴はフレーム毎に抽出されるため、空間的な相関や時間的な順序に関する手がかりは含まれない。したがって、時空間の相関に対処するため、同じ埋め込み技術がキーポイント埋め込みネットワークとして適用される。空間的な相関の場合、位置トークンは動作主体の境界ボックスの中心に基づいている。キーポイント埋め込みネットワークにおける同じセグメントトークンは、一時的な手がかりを提供するために使用される。したがって、各動作主体の結果として生じる特徴は、(1)HRNetから抽出された画像特徴、(2)空間的な相関のための位置埋め込み及び(3)時間的な手がかりのためのセグメント埋め込みの総数である。この表現を提案する行動タグ付けネットワーク250に供給することで、画像から抽出された特徴のパフォーマンスがキーポイントから導出された特徴と比較される。
【0072】
本発明は、任意の技術的詳細レベルの統合におけるシステム、方法及び/またはコンピュータプログラム製品とすることができる。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータで読み取り可能なプログラム命令を有するコンピュータで読み取り可能な記録媒体(またはメディア)を含むことができる。
【0073】
コンピュータで読み取り可能な記憶媒体は、命令実行装置によって使用される命令を保持し記憶することができる有形な装置であってもよい。コンピュータで読み取り可能な記憶媒体は、例えば、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、パンチカード等の機械的に符号化された装置及び上記の任意の適切な組み合わせが含まれる。本明細書で使用されるコンピュータで読み取り可能な記憶媒体は、電波または他の自由に伝播する電磁波、導波管または他の伝送媒体(例えば、光ファイバケーブルを通過する光パルス)を通って伝播する電磁波、またはワイヤを通って伝送される電気信号等、それ自体が一時的な信号であると解釈されるべきではない。
【0074】
本明細書に記載するコンピュータで読み取り可能なプログラム命令は、コンピュータで読み取り可能な記録媒体から、またはネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/または無線ネットワークを用いて、外部コンピュータまたは外部記憶装置に、それぞれの演算/処理装置にダウンロードできる。ネットワークは、ワイヤ伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/またはエッジサーバを含むことができる。各演算/処理装置におけるネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータで読み取り可能なプログラム命令を受信し、それぞれの演算/処理装置におけるコンピュータで読み取り可能な記憶媒体に記録するために、コンピュータで読み取り可能なプログラム命令を転送する。
【0075】
本発明の行動を実行するためのコンピュータで読み取り可能なプログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA:instruction-set-architecture)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk(登録商標)、C++等のオブジェクト指向プログラミング言語及び「C」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたはオブジェクトコードのいずれかでもよい。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、(例えば、インターネットサービスプロバイダを利用したインターネットを介して)外部コンピュータと接続されてもよい。いくつかの実施形態において、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、電子回路をパーソナル化するコンピュータで読み取り可能なプログラム命令の状態情報を利用することで、コンピュータで読み取り可能なプログラム命令を実行できる。
【0076】
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して本明細書で説明される。フローチャート及び/またはブロック図の各ブロック、並びにフローチャート及び/またはブロック図におけるブロックの組合せは、コンピュータで読み取り可能なプログラム命令によって実現できることを理解されたい。
【0077】
これらのコンピュータで読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータ、または機械を製造する他のプログラマブルデータ処理装置のプロセッサに提供され、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを用いて実行される命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックで指定された機能/行動を実施するための手段を生成する。これらのコンピュータで読み取り可能なプログラム命令は、コンピュータ、プログラマブルデータ処理装置及び/または他の装置を特定の方法で機能するように指示できるコンピュータで読み取り可能な記憶媒体に格納されていてもよく、その結果、その中に格納された命令を有するコンピュータで読み取り可能な記憶媒体は、フローチャート及び/またはブロック図の1つまたは複数のブロックで指定された機能/行動の態様を実現する命令を含む製品を備える。
【0078】
コンピュータで読み取り可能なプログラム命令は、コンピュータ、他のプログラマブルデータ処理装置または他の装置にロードされて、コンピュータ、他のプログラマブル装置または他の装置で実行される命令がフローチャート及び/またはブロック図の1つまたは複数のブロックで指定された機能/行動を実現するように、一連の行動ステップをコンピュータ、他のプログラマブル装置または他の装置に実行させる、コンピュータ実装プロセスを生成できる。
【0079】
図中のフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法及びコンピュータプログラム製品に実装可能なアーキテクチャ、機能及び行動を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実現するための1つまたは複数の実行可能命令を備える、モジュール、セグメントまたは命令の一部を表している。一部の代替実装において、ブロックに記載されている機能は、図に記載されている順序以外で発生する場合がある。例えば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよく、またはブロックが含まれる機能に応じて、時には逆の順序で実行されてもよい。また、ブロック図及び/またはフローチャートの各ブロック、並びにブロック図及び/またはフローチャートのブロックの組み合わせは、指定された機能または行動を実行するか、または特殊目的ハードウェア及びコンピュータ命令の組み合わせを実行する特殊目的ハードウェアベースのシステムによって実現され得ることにも留意されたい。
【0080】
本明細書では本発明の「一実施形態」または「一実施形態」、並びにその他の変形形態に言及し、実施形態に関連して説明した特定の機能、構成、特徴などが、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、「一実施形態において」または「一実施形態において」という語句の出現、並びに本明細書全体を通して様々な場所に出現する任意の他の変形形態は、必ずしも全てが同じ実施形態を参照しているわけではない。
【0081】
例えば、「A/B」、「A及び/またはB」、並びに「A及びBのうちの少なくとも1つ」の場合における「/」、「及び/または」、並びに「うちの少なくとも1つ」のうちのいずれかの使用は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、または両方の選択肢(A及びB)の選択を含むことを意図したものと理解すべきである。さらに例を挙げれば、「A、B及び/またはC」、並びに「A、B及びCのうちの少なくとも1つ」の場合、このような表現法は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、第3に挙げた選択肢(C)のみの選択、第1及び第2に挙げた選択肢(A及びB)のみの選択、第1及び第3に挙げた選択肢(A及びC)のみの選択、第2及び第3に挙げた選択肢(B及びC)のみの選択、または3つの選択肢全て(A及びB及びC)の選択を含むことを意図したものである。上述した例は、当業者に容易に明らかとなるように、列挙される多数の項目に応じて拡大適用される。
【0082】
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。
【国際調査報告】