(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024107963
(43)【公開日】2024-08-09
(54)【発明の名称】行動認識装置、行動認識方法及びプログラム
(51)【国際特許分類】
G06T 7/20 20170101AFI20240802BHJP
G06V 10/70 20220101ALI20240802BHJP
【FI】
G06T7/20 300
G06V10/70
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023012177
(22)【出願日】2023-01-30
(71)【出願人】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】筒川 和樹
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA02
5L096CA04
5L096FA06
5L096FA09
5L096FA12
5L096HA02
5L096JA11
(57)【要約】 (修正有)
【課題】密集シーンにおける行動認識の性能を向上させる行動認識装置を提供する。
【解決手段】行動認識装置100は、動画の画像フレームに対してオブジェクト検出を実行する検出部110と、検出されたオブジェクトの密集度に応じて、オブジェクトの検出結果をサンプリングするサンプリング部120と、サンプリングされた検出結果に基づいて、オブジェクトの行動の認識結果を取得する行動認識部130と、を有する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
動画の画像フレームに対してオブジェクト検出を実行する検出部と、
検出されたオブジェクトの密集度に応じて、前記オブジェクトの検出結果をサンプリングするサンプリング部と、
前記サンプリングされた検出結果に基づいて、前記オブジェクトの行動の認識結果を取得する行動認識部と、
を有する行動認識装置。
【請求項2】
前記サンプリング部は、前記密集度が相対的に高い検出結果を優先的にサンプリングする、請求項1に記載の行動認識装置。
【請求項3】
前記密集度は、前記検出されたオブジェクトの間の重畳度合い、前記検出されたオブジェクトの間の距離、及び前記検出されたオブジェクトの数の少なくとも1つに基づく、請求項1に記載の行動認識装置。
【請求項4】
前記オブジェクトの検出結果は、前記オブジェクトの関節点又は輪郭を含む、請求項1に記載の行動認識装置。
【請求項5】
前記検出部は、物体検出モデルを利用してオブジェクト候補を検出し、設定された検出閾値に従って前記オブジェクト候補から前記オブジェクトを検出する、請求項1に記載の行動認識装置。
【請求項6】
前記検出部は、前記オブジェクトを補間する、請求項1に記載の行動認識装置。
【請求項7】
前記行動認識部は、前記サンプリングされた検出結果におけるオブジェクトの位置又は時刻を示す特徴量を取得する、請求項1に記載の行動認識装置。
【請求項8】
前記オブジェクトの行動の認識結果は、人物の移乗、車椅子による移動又は、人物に対する介助を含む、請求項1に記載の行動認識装置。
【請求項9】
前記オブジェクトの行動の認識結果は、人物間のインタラクション、又は、人物と物体との間のインタラクションを含む、請求項1に記載の行動認識装置。
【請求項10】
動画の画像フレームに対してオブジェクト検出を実行することと、
前記検出されたオブジェクトの密集度に応じて、前記オブジェクトの検出結果をサンプリングすることと、
前記サンプリングされた検出結果に基づいて、前記オブジェクトの行動の認識結果を取得することと、
をコンピュータが実行する行動認識方法。
【請求項11】
動画の画像フレームに対してオブジェクト検出を実行することと、
前記検出されたオブジェクトの密集度に応じて、前記オブジェクトの検出結果をサンプリングすることと、
前記サンプリングされた検出結果に基づいて、前記オブジェクトの行動の認識結果を取得することと、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、行動認識装置、行動認識方法及びプログラムに関する。
【背景技術】
【0002】
近年のディープラーニング技術の進展によって、機械学習モデルの利用機会が拡大している。例えば、人物、物体などのオブジェクトを含む動画から人物の行動を認識するよう訓練された行動認識モデルが利用され、ビデオカメラによって撮影された人物が何をしているか認識することが可能になってきている。
【0003】
機械学習モデルを利用した行動認識処理は、動画像から行動認識に重要な特徴量を抽出、集約し行動を認識するアピアランスベース手法と、動画を構成する画像フレーム毎にキーポイント(人物の関節点や物体の輪郭点)を検出し、キーポイント情報を用いて行動を認識するスケルトンベース手法に大別される。スケルトンベース手法においては、典型的には、入力動画を取得し、取得した動画内の人物、物体などのオブジェクトを検出する物体検出モデルと、検出された人物の行動を認識する行動認識モデルとが一緒に利用され、動画内の人物の行動が認識される。例えば、物体検出モデルが、入力動画の画像フレームから人物の関節点、人物/オブジェクトの輪郭などを検出し、行動認識モデルが、物体検出モデルによって検出された人物の関節点、人物/オブジェクトの輪郭などから人物の行動(例えば、起立、歩行、異常行動など)を判断しうる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2019-191981号公報
【特許文献2】特開2021-51375号公報
【特許文献3】特開2011-100175号公報
【非特許文献】
【0005】
【非特許文献1】https://slidetodoc.com/numerical-geometry-of-nonrigid-shapes-discrete-geometry-1/
【発明の概要】
【発明が解決しようとする課題】
【0006】
人物及び/又は物体が密集するシーンにおいて物体検出が実行される場合、人物及び/又は物体の間のオクルージョン(遮蔽)によって、シーン内の人物及び/又は物体の未検出が発生しうる。このような未検出が発生した場合、行動認識モデルは、シーン内の人物及び/又は物体の行動を正しく認識できない可能性がある。
【0007】
このため、行動認識に必要な人物及び/又は物体の未検出を軽減し、より多数の検出結果を行動認識モデルに入力するようにしてもよい。しかしながら、より多数の検出結果に対して行動認識を実行することは、より多くの計算リソースを使用することになり、計算負荷が増大しうる。
【0008】
上記問題点に鑑み、本開示の1つの課題は、密集シーンにおける行動認識の性能を向上させるための技術を提供することである。
【課題を解決するための手段】
【0009】
本開示の一態様は、動画の画像フレームに対してオブジェクト検出を実行する検出部と、検出されたオブジェクトの密集度に応じて、前記オブジェクトの検出結果をサンプリングするサンプリング部と、前記サンプリングされた検出結果に基づいて、前記オブジェクトの行動の認識結果を取得する行動認識部と、を有する行動認識装置に関する。
【発明の効果】
【0010】
本開示によると、密集シーンにおける行動認識の性能を向上させるための技術を提供することができる。
【図面の簡単な説明】
【0011】
【
図1】
図1は、本開示の一実施例による行動認識処理を示す概略図である。
【
図2】
図2は、本開示の一実施例による行動認識装置のハードウェア構成を示すブロック図である。
【
図3】
図3は、本開示の一実施例による行動認識装置の機能構成を示すブロック図である。
【
図4】
図4は、本開示の一実施例による密集度を説明する図である。
【
図5】
図5は、本開示の一実施例による密集度を説明する図である。
【
図6】
図6は、本開示の一実施例による検出結果のサンプリングを説明する図である。
【
図7】
図7は、本開示の一実施例による検出処理を示す概略図である。
【
図8】
図8は、本開示の一実施例による検出処理を示す概略図である。
【
図9】
図9は、本開示の一実施例による行動認識処理を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、図面を参照して本開示の実施の形態を説明する。
【0013】
以下の実施例では、動画内の人物、物体などのオブジェクトの行動を認識する行動認識装置が開示される。
【0014】
[本開示の概略]
図1に示されるように、本開示の一実施例による行動認識装置100は、認識対象の人物、物体などのオブジェクトを撮影した動画を入力として受け付けると、当該人物がどのような行動を行っているかを示す行動認識結果を出力する。
図1に示される例では、カメラは、病院や介護施設の個室内に設置され、個室にいる人物(患者、介護者など)、物体(椅子など)などを撮影している。行動認識装置100は、カメラによって撮影された動画を受け付け、撮影された人物の行動を認識する。なお、行動認識の対象は、人物に限定されず、ロボットなどの動作可能な物体などであってもよい。
【0015】
以下の実施例による行動認識装置100は、受け付けた動画を構成する画像フレームに対してオブジェクト検出を実行し、画像フレーム内の人物、物体などのオブジェクトを検出する。例えば、オブジェクト検出は、入力された画像フレームから当該画像フレーム内の人物、物体などのオブジェクトを検出するよう訓練された物体検出モデルを利用して実行されてもよい。検出結果は、例えば、オブジェクトの関節点、輪郭などであってもよい。
【0016】
物体検出モデルから画像フレーム内のオブジェクトの検出結果を取得すると、行動認識装置100は、行動認識モデルに入力される検出結果をサンプリングする。行動認識モデル100は、画像フレーム内におけるオブジェクトの密集度に応じて、行動認識モデルに入力されるオブジェクトの検出結果をサンプリングする。例えば、行動認識装置100は、密集度が相対的に高い検出結果を優先的にサンプリングするようにしてもよい。ここでの密集度は、例えば、検出されたオブジェクトの間の重畳度合い、検出されたオブジェクトの間の距離、又は、検出されたオブジェクトの数などに基づくものであってもよい。例えば、図示された例では、物体検出モデルによって検出された8つの画像フレームにおけるオブジェクトの検出結果から6つの画像フレームの検出結果が、検出されたオブジェクトの間の密集度が高いシーンに該当すると判定され、サンプリングされている。一方、検出されたオブジェクトの間の密集度が低いと判定された2つの画像フレームは、行動認識モデルには入力されず、これら2つの画像フレームの検出結果に対して行動認識モデルは実行されず、計算リソースを節約することができる。
【0017】
行動認識モデル100は、サンプリングされた検出結果を行動認識モデルに入力し、行動認識モデルからオブジェクトの行動認識結果を取得する。例えば、病院や介護施設の個室内に設置されたカメラによって撮影された動画について、行動認識モデル100は、介助者による椅子への患者の移乗、患者/介助者の歩行などの行動を認識してもよい。
【0018】
このようにして、オブジェクトが密集するシーンにおいて、オブジェクト間のオクルージョン(遮蔽)によってシーン内のオブジェクトの未検出が発生した場合であっても、制約された計算リソースの下でシーン内の人物や物体の行動をより高精度に認識することができうる。なお、図示された物体検出モデル及び行動認識モデルは、行動認識装置100内に備えられているが、本開示による物体検出モデル及び/又は行動認識モデルは、これに限定されず、行動認識装置100と通信接続されたクラウド上のサーバなどの他の情報処理装置に備えられてもよい。
【0019】
行動認識装置100は、サーバ、パーソナルコンピュータ(PC)、スマートフォン、タブレット等の計算装置によって実現されてもよく、例えば、
図2に示されるようなハードウェア構成を有してもよい。すなわち、行動認識装置100は、バスBを介し相互接続されるドライブ装置101、ストレージ装置102、メモリ装置103、プロセッサ104、ユーザインタフェース(UI)装置105及び通信装置106を有する。
【0020】
行動認識装置100における各種機能及び処理を実現するプログラム又は指示は、CD-ROM(Compact Disk-Read Only Memory)、フラッシュメモリ等の着脱可能な記憶媒体に格納されてもよい。当該記憶媒体がドライブ装置101にセットされると、プログラム又は指示が記憶媒体からドライブ装置101を介しストレージ装置102又はメモリ装置103にインストールされる。ただし、プログラム又は指示は、必ずしも記憶媒体からインストールされる必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードされてもよい。
【0021】
ストレージ装置102は、ハードディスクドライブなどによって実現され、インストールされたプログラム又は指示と共に、プログラム又は指示の実行に用いられるファイル、データ等を格納する。
【0022】
メモリ装置103は、ランダムアクセスメモリ、スタティックメモリ等によって実現され、プログラム又は指示が起動されると、ストレージ装置102からプログラム又は指示、データ等を読み出して格納する。ストレージ装置102、メモリ装置103及び着脱可能な記憶媒体は、非一時的な記憶媒体(non-transitory storage medium)として総称されてもよい。
【0023】
プロセッサ104は、1つ以上のプロセッサコアから構成されうる1つ以上のCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、処理回路(processing circuitry)等によって実現されてもよく、メモリ装置103に格納されたプログラム、指示、当該プログラム若しくは指示を実行するのに必要なパラメータなどのデータ等に従って、行動認識装置100の各種機能及び処理を実行する。
【0024】
ユーザインタフェース(UI)装置105は、キーボード、マウス、カメラ、マイクロフォン等の入力装置、ディスプレイ、スピーカ、ヘッドセット、プリンタ等の出力装置、タッチパネル等の入出力装置から構成されてもよく、ユーザと行動認識装置100との間のインタフェースを実現する。例えば、ユーザは、ディスプレイ又はタッチパネルに表示されたGUI(Graphical User Interface)をキーボード、マウス等を操作し、行動認識装置100を操作する。
【0025】
通信装置106は、外部装置、インターネット、LAN(Local Area Network)、セルラーネットワーク等の通信ネットワークとの有線及び/又は無線通信処理を実行する各種通信回路により実現される。
【0026】
しかしながら、上述したハードウェア構成は単なる一例であり、本開示による行動認識装置100は、他の何れか適切なハードウェア構成により実現されてもよい。
【0027】
次に、
図3を参照して、本開示の一実施例による行動認識装置100を説明する。
図3は、本開示の一実施例による行動認識装置100の機能構成を示すブロック図である。
【0028】
図3に示されるように、行動認識装置100は、検出部110、サンプリング部120及び行動認識部130を有する。行動認識装置100は、検出部110、サンプリング部120及び/又は行動認識部130として1つ以上のプロセッサ104を動作させるプログラムによって実現されてもよい。
【0029】
検出部110は、動画の画像フレームに対してオブジェクト検出を実行する。具体的には、検出部110は、ビデオカメラによって撮影された動画データを取得し、動画データを構成する画像フレームを抽出する。そして、検出部110は、抽出された画像フレームに対してオブジェクト検出を実行し、画像フレーム内に撮影されたオブジェクトを検出する。オブジェクト検出の検出結果は、サンプリング部120に提供される。
【0030】
例えば、オブジェクト検出は、畳み込みニューラルネットワークベースの物体検出モデルなど、何れか公知の物体検出用の機械学習モデルを利用して行われてもよい。このような物体検出モデルは、具体的には、画像内のオブジェクトを点、直線、矩形領域(バウンデイングボックス)などによって特定し、所定の閾値以上の確信度(典型的には、0から1までの値)を有する点、直線、矩形領域などを検出結果として出力しうる。従って、閾値が相対的に高い値に設定される場合、より少数の点、直線、矩形領域などが検出され、閾値が相対的に低い値に設定される場合、より多数の点、直線、矩形領域などが検出されうる。例えば、ここでの検出結果は、オブジェクトの関節点又は輪郭を含むものであってもよい。検出された関節点及び/又は輪郭によってオブジェクトの姿勢を推定することができる。また、検出結果は、人物のみ、物体のみ、又は人物と物体との双方であってもよい。
【0031】
サンプリング部120は、検出されたオブジェクトの密集度に応じて、オブジェクトの検出結果をサンプリングする。具体的には、サンプリング部120は、検出部110の検出結果に基づいて、検出されたオブジェクトの間の密集度を決定し、決定した密集度に応じて動画の画像フレームに対する検出結果をサンプリングしてもよい。
【0032】
例えば、オブジェクトの間の密集度は、検出されたオブジェクトの間の重畳度合い、検出されたオブジェクトの間の距離、及び検出されたオブジェクトの数の少なくとも1つに基づくものであってもよい。例えば、密集度がオブジェクトの間の重畳度合いに基づき決定される場合、
図4に示される検出結果において検出された2人の人物は、重畳して撮像されており、密集度が相対的に高いと考えられうる。一方、検出された椅子は、他の何れのオブジェクトとも重畳して撮像されておらず、密集度は相対的に低いと考えられうる。重畳度合いとして、例えば、検出された2つのオブジェクトの間のIoU(Intersection over Union)が利用されてもよい。なお、3つ以上のオブジェクトの重畳度合いについては、オブジェクトの各ペアのIoUの和が利用されてもよい。
【0033】
あるいは、密集度がオブジェクトの間の距離に基づいて決定される場合、
図5に示される検出結果において検出された2人の人物は、相対的に近くにあり、密集度が相対的に高いと考えられうる。一方、検出された椅子は、他の何れのオブジェクトも近くにはなく、密集度は相対的に低いと考えられうる。具体的には、オブジェクト間の距離として、検出されたオブジェクトの中心位置の間の距離が利用されてもよい。なお、オブジェクト間の距離が小さいほど、密集度が高くなるように、
図5に示されるように、オブジェクト間の距離に反比例するスコアが、密集度として利用されてもよい。なお、3つ以上のオブジェクトの間の距離については、オブジェクトの各ペアのスコアの和が利用されてもよい。
【0034】
また、密集度は、オブジェクトの間の重畳度合い、オブジェクトの間の距離、及びオブジェクトの数の何れか2つ以上の組み合わせに基づいて決定されてもよい。例えば、重畳度合いとオブジェクト間の距離との組み合わせが利用される場合、密集度は、重畳度合いとスコアとの加重和として決定されてもよい。しかしながら、本開示による密集度は、これらに限定されず、オブジェクトの密集度合いを示す他の何れかの指標であってもよい。
【0035】
このようにして密集度を決定すると、サンプリング部120は、密集度が相対的に高い検出結果を優先的にサンプリングしてもよい。例えば、
図6に示されるように、サンプリング部120は、画像フレームが密集シーンを示す場合、行動認識モデルに入力するための検出結果としてこれら密集シーンの画像フレームをサンプリングするようにし、画像フレームが密集シーンでない場合、これら非密集シーンの画像フレームをサンプリングしないようにしてもよい。これにより、相対的に密集度が低いオブジェクトを行動認識モデルに入力しないようにし、計算負荷を低下させることができる。
【0036】
行動認識部130は、サンプリングされた検出結果に基づいて、オブジェクトの行動の認識結果を取得する。具体的には、行動認識部130は、サンプリング部120によってサンプリングされた画像フレームの検出結果(例えば、人物の関節点、人物/物体の輪郭など)を行動認識モデルに入力し、行動認識モデルから人物などのオブジェクトの行動認識結果(例えば、移乗、歩行など)を取得する。そして、行動認識部130は、取得した行動認識結果を出力する。例えば、オブジェクトの行動認識結果は、人物の移乗、車椅子の移動、人物に対する介助などを含んでもよい。また、オブジェクトの行動認識結果は、人物間のインタラクション(例えば、暴力行為、犯罪行為、危険行為など)、人物と物体との間のインタラクション(例えば、接触行為、不正行為、危険行為など)を含んでもよい。
【0037】
行動認識モデルは、例えば、PointNet、Skeleton Points Interaction Learningなどの何れか公知の機械学習モデルにより実現されてもよい。例えば、行動認識モデルは、検出結果の点の座標、時刻、人物/物体の中心座標、関節点、物体の頂点の種類、物体の種類、人物/物体識別情報(ID)などの特徴量を入力として取得し、人物/物体の行動クラスを予測してもよい。あるいは、行動認識モデルは、時系列の関節点検出結果を3次元点群として表現した入力を取得し、人物/物体の行動クラスを予測してもよい。PointNetは、ノイズに頑健であり、認識に不要なデータが存在しても行動認識結果に影響を与える可能性が低いことが知られている。従って、行動認識モデルがPointNetにより実現される場合、サンプリングされた密集シーンに基づいて、誤検出などのノイズの影響を受けることなく、認識性能を向上させうると見込まれる。
【0038】
一実施例では、検出部110は、物体検出モデルを利用してオブジェクト候補を検出し、設定された検出閾値に従ってオブジェクト候補からオブジェクトを検出してもよい。物体検出モデルは、例えば、確信度と関連付けてオブジェクト候補を出力しうる。ここで、確信度は、オブジェクト候補がオブジェクトである確からしさを示すものであってもよく、例えば、0から1までの値によって表されてもよい。検出部110は、所定の検出閾値以上の確信度を有するオブジェクト候補をオブジェクトとして決定しうる。従って、所定の検出閾値が相対的に低い場合、オブジェクト候補からより多数のオブジェクトが検出され、所定の検出閾値が相対的に高い場合、オブジェクト候補からより少数のオブジェクトが検出されうる。多数のオブジェクトを検出し、未検出を回避したい場合、検出閾値は相対的に低く設定され、誤検出を回避するため少数のオブジェクトしか検出したくない場合、検出閾値は相対的に高く設定されてもよい。
【0039】
なお、検出閾値は、画像フレーム全体に対して一律に設定されてもよいし、あるいは、特定のオブジェクトに対して個別に設定されてもよい。また、検出閾値は、行動認識の分類クラスに応じて特定のオブジェクトに対して設定されてもよい。具体的には、介護施設、病院などにおいて入居者がベッドから椅子に移乗するケースでは、ベッド、椅子及び入居者に対する検出閾値が個別に設定されてもよい。例えば、介護施設、病院などにおける入居者の椅子への移乗を認識するため、当該移乗に関連するオブジェクトとしてベッド、椅子、入居者、施設スタッフなどの未検出を回避するため、これらのオブジェクトの検出閾値は、画像フレームに対して設定されている閾値より低く設定されてもよい。例えば、
図7に示される例では、オブジェクト候補として、ベッド、人物及び椅子が抽出され、画像フレーム全体に対して設定される検出閾値によると、人物と椅子しか検出されない。一方、移乗に関連するオブジェクトに対してより低い検出閾値が設定されうる場合、人物と椅子だけでなくベッドもオブジェクトとして検出されうる。これにより、認識対象の行動に関連するオブジェクトの未検出を低減することが可能になり、行動認識の精度を向上させることが可能になる。
【0040】
また、一実施例では、検出部110は、オブジェクトを補間してもよい。具体的には、
図8に示されるように、時点t1及びt3において、2人の人物と1つの物体とが検出されている一方、時点t1とt3との間の時点t2において、1人の人物と1つの物体しか検出されていない場合、検出部110は、時点t2において1人の人物が未検出であると推定し、時点t1とt3とにおいて検出された人物の画像から時点t2における未検出の人物を補間してもよい。例えば、当該補間は、線形補間などの何れか公知の補間処理によって行われてもよい。検出部110は、時点t2の検出結果に補間された人物を含めて、サンプリング部120にわたしてもよい。これにより、検出の失敗を補うことが可能になり、適切な行動認識を行うことが可能になる。
【0041】
[行動認識処理]
次に、
図9を参照して、本開示の一実施例による行動認識処理を説明する。当該行動認識処理は、行動認識装置100によって実行され、より詳細には、行動認識装置100の1つ以上のプロセッサ104が1つ以上のメモリ装置103に格納された1つ以上のプログラム又は指示を実行することによって実現されてもよい。
【0042】
ステップS101において、行動認識装置100は、検出対象のオブジェクトを撮影する動画を取得する。例えば、介護施設や病院などの個室における入居者の行動を認識する場合、ビデオカメラによって個室を撮影した動画が取得されうる。あるいは、監視対象エリアにおける人物の行動を認識する場合、ビデオカメラによって当該監視対象エリアを撮影した動画が取得されうる。
【0043】
ステップS102において、行動認識装置100は、動画の画像フレームに対してオブジェクト検出を実行する。具体的には、行動認識装置100は、動画から抽出された画像フレームを物体検出モデルに入力し、物体検出モデルから画像フレームにおいて検出されたオブジェクトの検出結果を取得する。例えば、物体検出モデルは、何れか公知のニューラルネットワークベースのモデルであってもよい。また、検出結果は、検出された人物の関節点、検出された人物/物体の輪郭などであってもよい。
【0044】
ステップS103において、行動認識装置100は、検出されたオブジェクトの密集度に応じて、オブジェクトの検出結果をサンプリングする。具体的には、行動認識装置100は、ステップS102において取得した検出結果のうち、密集度が相対的に高い検出結果を優先的にサンプリングする。ここでの密集度は、検出されたオブジェクトの間の重畳度合い、検出されたオブジェクトの間の距離、及び検出されたオブジェクトの数の少なくとも1つに基づくものであってもよい。
【0045】
ステップS104において、行動認識装置100は、サンプリングされた検出結果に基づいて、オブジェクトの行動の認識結果を取得する。具体的には、行動認識装置100は、ステップS103においてサンプリングされた検出結果を行動認識モデルに入力し、行動認識モデルからオブジェクトの行動認識結果を取得する。例えば、行動認識モデルは、PointNet、Skeleton Points Interaction Learningなどの何れか公知の機械学習モデルにより実現されてもよい。例えば、介護施設や病院などの個室における入居者の行動を認識する場合、オブジェクトの行動認識結果は、人物の移乗、車椅子の移動、人物に対する介助などを含んでもよい。また、監視対象エリアにおける人物の行動を認識する場合、オブジェクトの行動の認識結果は、人物間のインタラクション(例えば、暴力行為、犯罪行為、危険行為など)、人物と物体との間のインタラクション(例えば、接触行為、不正行為、危険行為など)を含んでもよい。
【0046】
上述した実施例によると、オブジェクトが密集するシーンにおいて、オブジェクト間のオクルージョン(遮蔽)によってシーン内のオブジェクトの未検出が発生した場合であっても、制約された計算リソースの下でシーン内の人物の行動をより高精度に認識することができうる。
【0047】
なお、以上の説明に関して更に以下の付記を開示する。
(付記1)
動画の画像フレームに対してオブジェクト検出を実行する検出部と、
検出されたオブジェクトの密集度に応じて、前記オブジェクトの検出結果をサンプリングするサンプリング部と、
前記サンプリングされた検出結果に基づいて、前記オブジェクトの行動の認識結果を取得する行動認識部と、
を有する行動認識装置。
(付記2)
前記サンプリング部は、前記密集度が相対的に高い検出結果を優先的にサンプリングする、付記1に記載の行動認識装置。
(付記3)
前記密集度は、前記検出されたオブジェクトの間の重畳度合い、前記検出されたオブジェクトの間の距離、及び前記検出されたオブジェクトの数の少なくとも1つに基づく、付記1又2に記載の行動認識装置。
(付記4)
前記オブジェクトの検出結果は、前記オブジェクトの関節点又は輪郭を含む、付記1から3の何れか1つに記載の行動認識装置。
(付記5)
前記検出部は、物体検出モデルを利用してオブジェクト候補を検出し、設定された検出閾値に従って前記オブジェクト候補から前記オブジェクトを検出する、付記1から4の何れか1つに記載の行動認識装置。
(付記6)
前記検出部は、前記オブジェクトを補間する、付記1から5の何れか1つに記載の行動認識装置。
(付記7)
前記行動認識部は、前記サンプリングされた検出結果におけるオブジェクトの位置又は時刻を示す特徴量を取得する、付記1から6の何れか1つに記載の行動認識装置。
(付記8)
前記オブジェクトの行動の認識結果は、人物の移乗、車椅子による移動又は、人物に対する介助を含む、付記1から7の何れか1つに記載の行動認識装置。
(付記9)
前記オブジェクトの行動の認識結果は、人物間のインタラクション、又は、人物と物体との間のインタラクションを含む、付記1から8の何れか1つに記載の行動認識装置。
(付記10)
動画の画像フレームに対してオブジェクト検出を実行することと、
前記検出されたオブジェクトの密集度に応じて、前記オブジェクトの検出結果をサンプリングすることと、
前記サンプリングされた検出結果に基づいて、前記オブジェクトの行動の認識結果を取得することと、
をコンピュータが実行する行動認識方法。
(付記11)
動画の画像フレームに対してオブジェクト検出を実行することと、
前記検出されたオブジェクトの密集度に応じて、前記オブジェクトの検出結果をサンプリングすることと、
前記サンプリングされた検出結果に基づいて、前記オブジェクトの行動の認識結果を取得することと、
をコンピュータに実行させるプログラム。
【0048】
以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0049】
100 行動認識装置
110 検出部
120 サンプリング部
130 行動認識部