IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカミノルタ株式会社の特許一覧

特開2024-180408画像解析装置、画像解析方法、および画像解析プログラム
<>
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図1
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図2
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図3
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図4
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図5
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図6
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図7
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図8
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図9
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図10
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図11
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図12
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図13
  • 特開-画像解析装置、画像解析方法、および画像解析プログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024180408
(43)【公開日】2024-12-26
(54)【発明の名称】画像解析装置、画像解析方法、および画像解析プログラム
(51)【国際特許分類】
   G06V 20/70 20220101AFI20241219BHJP
   G06V 40/20 20220101ALI20241219BHJP
【FI】
G06V20/70
G06V40/20
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2024166818
(22)【出願日】2024-09-26
(62)【分割の表示】P 2024539948の分割
【原出願日】2024-03-11
(31)【優先権主張番号】P 2023099028
(32)【優先日】2023-06-16
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】小島 和浩
(72)【発明者】
【氏名】宮本 宏
(72)【発明者】
【氏名】南條 崇
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA04
5L096DA03
5L096FA09
5L096FA16
5L096FA62
5L096FA64
5L096FA69
5L096GA51
5L096GA53
5L096HA11
5L096KA04
(57)【要約】
【課題】属性付き骨格点情報に基づいて、精度の高い場面認識を行うこと。
【解決手段】画像解析装置100は、複数の人物が撮像された時系列画像を取得する時系列画像取得部10と、時系列画像の各フレーム画像から複数の人物それぞれの複数の骨格点情報を取得する骨格点情報取得部20と、複数の骨格点情報のそれぞれに対応する複数の属性情報を取得する属性情報取得部30と、骨格点情報と属性情報とを関連づけて、複数の属性付き骨格点情報を生成する属性付き骨格点情報生成部40と、複数の属性付き骨格点情報のそれぞれを行動解析して、複数の行動解析結果を複合的に解析する行動解析部50と、時系列画像における場面の解析結果を出力する場面解析出力部60と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
複数の人物が撮像された時系列画像を取得する時系列画像取得部と、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得する骨格点情報取得部と、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得する属性情報取得部と、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成する属性付き骨格点情報生成部と、
前記複数の属性付き骨格点情報のそれぞれを行動解析して、複数の行動解析結果を複合的に解析する行動解析部と、
前記時系列画像における場面の解析結果を出力する場面解析出力部と、
を備える画像解析装置。
【請求項2】
前記場面解析出力部は、
異なる属性間の関係性と、前記複数の属性付き骨格点情報の行動解析結果とに基づいて、前記場面の解析結果を出力する、
請求項1に記載の画像解析装置。
【請求項3】
前記場面解析出力部は、
前記場面の解析結果を出力する際に、前記複数の属性付き骨格点情報の相互作用を解析する、
請求項1に記載の画像解析装置。
【請求項4】
前記相互作用の解析とは、
第1の人物に係る第1の属性情報を持つ第1属性付き骨格点情報が、前記第1の人物と異なる第2の人物に係る第2の属性情報を持つ第2の属性付き骨格点情報に対して作用した結果の前記第2の属性付き骨格点情報の行動解析結果に基づいて、前記場面の解析結果を出力することである、
請求項3に記載の画像解析装置。
【請求項5】
前記異なる属性間の属性情報は、前記人物の役割に基づくものである、
請求項2に記載の画像解析装置。
【請求項6】
前記属性付き骨格点情報生成部は、
前記複数の属性付き骨格点情報に関して同じ属性が付与された属性付き骨格点情報のグループを形成する、
請求項1に記載の画像解析装置。
【請求項7】
前記場面解析出力部は、
前記場面の解析結果に応じて、アラートを出力する、
請求項1に記載の画像解析装置。
【請求項8】
前記行動解析部は、
前記複数の行動解析結果を解析した際の前記時系列画像を記憶する、
請求項1に記載の画像解析装置。
【請求項9】
前記行動解析部は、
前記複合的に解析する処理が終了するまで前記時系列画像をバッファで保存して、当該処理が終了すると当該時系列画像を削除する、
請求項8に記載の画像解析装置。
【請求項10】
前記骨格点情報取得部による前記時系列画像からの前記骨格点情報の取得と同時に、前記属性情報取得部は、前記時系列画像から前記属性情報を取得する、
請求項1に記載の画像解析装置。
【請求項11】
複数の人物が撮像された時系列画像を取得する時系列画像取得部と、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得する骨格点情報取得部と、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得する属性情報取得部と、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成する属性付き骨格点情報生成部と、
前記複数の属性付き骨格点情報を基に、前記時系列画像における場面の解析結果を出力する場面解析出力部と、
を備える画像解析装置。
【請求項12】
複数の人物が撮像された時系列画像を取得するステップと、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得するステップと、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得するステップと、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成するステップと、
前記複数の属性付き骨格点情報のそれぞれを行動解析して、複数の行動解析結果を複合的に解析するステップと、
前記時系列画像における場面の解析結果を出力するステップと、
を実行する画像解析方法。
【請求項13】
複数の人物が撮像された時系列画像を取得するステップと、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得するステップと、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得するステップと、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成するステップと、
前記複数の属性付き骨格点情報を基に、前記時系列画像における場面の解析結果を出力するステップと、
を実行する画像解析方法。
【請求項14】
複数の人物が撮像された時系列画像を取得する手順、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得する手順、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得する手順、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成する手順、
前記複数の属性付き骨格点情報のそれぞれを行動解析して、複数の行動解析結果を複合的に解析する手順、
前記時系列画像における場面の解析結果を出力する手順、
をコンピュータに実行させるための画像解析プログラム。
【請求項15】
複数の人物が撮像された時系列画像を取得する手順、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得する手順、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得する手順、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成する手順、
前記複数の属性付き骨格点情報を基に、前記時系列画像における場面の解析結果を出力する手順、
をコンピュータに実行させるための画像解析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像解析装置、画像解析方法、および画像解析プログラムに関する。
【背景技術】
【0002】
従来、人の属性ごとに行動特徴量の出現頻度をヒストグラム化し、行動特徴量に基づき、場面の解析結果を出力する装置が提案されている。
【0003】
例えば、特許文献1には、「システムが、撮影画像の時系列であり一定数以上のフレームからなる時系列画像の各フレームに含まれる人物から当該人物の骨格位置を表す骨格位置情報を抽出する。システムが、当該抽出された骨格位置情報に基づき、時系列画像の各フレームに含まれる人物が同一人物であるか否かを判定する。システムが、時系列画像の所定数以上のフレームに含まれる同一人物の人物について、当該抽出された骨格位置情報に基づき、行動特徴量を生成する。システムは、当該生成された行動特徴量の出現頻度を、人物の属性ごとにヒストグラム化した属性ヒストグラムを生成し、人物の行動特徴量に基づき当該人物の異常行動を検出するために使用され得る当該属性ヒストグラムを記憶部に格納する。」異常行動検出システムが開示されている(特許文献1の要約書参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2022-17939号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に開示された異常行動検出システムは、個々の人物の属性と行動認識結果だけで、複雑な場面認識をして判断している。しかし、個々の人物の解析結果だけでは、正常か異常かを判断できないことがある。
【0006】
具体的には、先生と生徒とが学校の教室にいる場合に、生徒がその教室内を歩いている状況を想定する。この場合、先生が板書をしていれば、生徒が教室内を歩く行動は、学級崩壊、と判断される。一方、先生が生徒に指示し、生徒が黒板に向かって歩いていれば、その教室では正常な授業が行われている、と判断される。
【0007】
このように、生徒が教室内を歩く行動は、先生の行動との相互作用により正常か異常かの認識が変わってくる。このため、個々の人物の属性と行動認識だけでは、正しく認識できない場面も存在する。
【0008】
そこで、本発明は、属性付き骨格点情報に基づいて、精度の高い場面認識を行うことができる、画像解析装置、画像解析方法、および画像解析プログラムを提供することを課題とする。
【課題を解決するための手段】
【0009】
すなわち、本発明の上記課題は、下記の構成により解決される。
(1) 複数の人物が撮像された時系列画像を取得する時系列画像取得部と、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得する骨格点情報取得部と、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得する属性情報取得部と、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成する属性付き骨格点情報生成部と、
前記複数の属性付き骨格点情報のそれぞれを行動解析して、複数の行動解析結果を複合的に解析する行動解析部と、
前記時系列画像における場面の解析結果を出力する場面解析出力部と、
を備える画像解析装置。
【0010】
(2) 前記場面解析出力部は、
異なる属性間の関係性と、前記複数の属性付き骨格点情報の行動解析結果とに基づいて、前記場面の解析結果を出力する、
(1)に記載の画像解析装置。
【0011】
(3) 前記場面解析出力部は、
前記場面の解析結果を出力する際に、前記複数の属性付き骨格点情報の相互作用を解析する、
(1)に記載の画像解析装置。
【0012】
(4) 前記相互作用の解析とは、
第1の人物に係る第1の属性情報を持つ第1属性付き骨格点情報が、前記第1の人物と異なる第2の人物に係る第2の属性情報を持つ第2の属性付き骨格点情報に対して作用した結果の前記第2の属性付き骨格点情報の行動解析結果に基づいて、前記場面の解析結果を出力することである、
(3)に記載の画像解析装置。
【0013】
(5) 前記異なる属性間の属性情報は、前記人物の役割に基づくものである、
(2)に記載の画像解析装置。
【0014】
(6) 前記属性付き骨格点情報生成部は、
前記複数の属性付き骨格点情報に関して同じ属性が付与された属性付き骨格点情報のグループを形成する、
(1)に記載の画像解析装置。
【0015】
(7) 前記場面解析出力部は、
前記場面の解析結果に応じて、アラートを出力する、
(1)に記載の画像解析装置。
【0016】
(8) 前記行動解析部は、
前記複数の行動解析結果を解析した際の前記時系列画像を記憶する、
(1)に記載の画像解析装置。
【0017】
(9) 前記行動解析部は、
前記複合的に解析する処理が終了するまで前記時系列画像をバッファで保存して、当該処理が終了すると当該時系列画像を削除する、
(8)に記載の画像解析装置。
【0018】
(10) 前記骨格点情報取得部による前記時系列画像からの前記骨格点情報の取得と同時に、前記属性情報取得部は、前記時系列画像から前記属性情報を取得する、
(1)に記載の画像解析装置。
【0019】
(11) 複数の人物が撮像された時系列画像を取得する時系列画像取得部と、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得する骨格点情報取得部と、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得する属性情報取得部と、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成する属性付き骨格点情報生成部と、
前記複数の属性付き骨格点情報を基に、前記時系列画像における場面の解析結果を出力する場面解析出力部と、
を備える画像解析装置。
【0020】
(12) 複数の人物が撮像された時系列画像を取得するステップと、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得するステップと、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得するステップと、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成するステップと、
前記複数の属性付き骨格点情報のそれぞれを行動解析して、複数の行動解析結果を複合的に解析するステップと、
前記時系列画像における場面の解析結果を出力するステップと、
を実行する画像解析方法。
【0021】
(13) 複数の人物が撮像された時系列画像を取得するステップと、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得するステップと、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得するステップと、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成するステップと、
前記複数の属性付き骨格点情報を基に、前記時系列画像における場面の解析結果を出力するステップと、
を実行する画像解析方法。
【0022】
(14) 複数の人物が撮像された時系列画像を取得する手順、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得する手順、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得する手順、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成する手順、
前記複数の属性付き骨格点情報のそれぞれを行動解析して、複数の行動解析結果を複合的に解析する手順、
前記時系列画像における場面の解析結果を出力する手順、
をコンピュータに実行させるための画像解析プログラム。
【0023】
(15) 複数の人物が撮像された時系列画像を取得する手順、
前記時系列画像の各フレーム画像から前記複数の人物それぞれの複数の骨格点情報を取得する手順、
前記複数の骨格点情報のそれぞれに対応する複数の属性情報を取得する手順、
前記骨格点情報と前記属性情報とを関連づけて、複数の属性付き骨格点情報を生成する手順、
前記複数の属性付き骨格点情報を基に、前記時系列画像における場面の解析結果を出力する手順、
をコンピュータに実行させるための画像解析プログラム。
【発明の効果】
【0024】
本発明によれば、属性付き骨格点情報に基づいて、精度の高い場面認識を行うことができる。
【図面の簡単な説明】
【0025】
図1】第1実施形態に係る画像解析装置の機能を示した機能ブロック図である。
図2】第1実施形態に係る画像解析装置のハードウェアを示したブロック図である。
図3】人物がガッツポーズをしている状態を示した説明図である。
図4】Openposeで検出することができる部位を示した説明図である。
図5図4で検出することができる部位をリスト化したものである。
図6】骨格点情報取得部が人矩形、骨格情報、人IDを取得し、骨格を推定する骨格推定テーブルを示した図である。
図7】属性情報取得部が属性情報、人IDを取得した属性情報取得テーブルを示した図である。
図8図7の属性情報取得テーブルの時刻と推定IDを拡張したテーブルを示した図である。
図9図6の骨格推定テーブルと、図8の属性情報取得テーブルとを統合した情報統合テーブルを示した図である。
図10】統合人IDごとに行動情報を示した行動情報テーブルを示した図である。
図11】情報統合テーブルに行動情報テーブルを統合した行動解析テーブルを示した図である。
図12】場面解析出力部が生成した相互作用表を示した図である。
図13】第2実施形態に係る画像解析装置の機能を示した機能ブロック図である。
図14】第3実施形態に係る画像解析装置の機能を示した機能ブロック図である。
【発明を実施するための形態】
【0026】
以下に、本発明を実施するための形態について詳細に説明する。なお、以下に説明する実施の形態は、本発明を実現するための一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は、以下の実施の形態に限定されるものではない。
【0027】
<第1実施形態>
[画像解析装置の全体構成]
図1は、第1実施形態に係る画像解析装置100の機能を示した機能ブロック図である。画像解析装置100は、概略、属性付き骨格点情報を行動解析し、行動解析結果を複合的に解析することで、場面の解析結果を出力する装置である。
【0028】
図1に示すように、画像解析装置100は、時系列画像取得部10、骨格点情報取得部20、属性情報取得部30、属性付き骨格点情報生成部40、行動解析部50および場面解析出力部60を備えて構成されている。
【0029】
時系列画像取得部10は、後述するカメラ200(図2を参照)から、複数の人物が撮像された画像を経時的に取得する。換言すれば、時系列画像取得部10は、複数の人物が撮像された時系列画像を取得する。よって、時系列画像取得部10は、1フレーム単位の時系列画像を出力することができる。なお、時系列画像取得部10は、撮影済の動画が記録されているストレージから、複数の人物が撮像された画像を取得してもよく、特に限定されない。
【0030】
骨格点情報取得部20は、時系列画像の各フレーム画像から複数の人物それぞれの複数の骨格点情報を1フレーム単位で取得する。骨格点情報取得部20は、1フレーム単位で複数の人物それぞれの骨格を推定することで、骨格点情報と、人ID(IDentification)(人単位)と、を取得する。また、骨格点情報取得部20は、人矩形を取得する。人矩形とは、人物がいる領域(座標)であって、長方形の画像領域を意味し、物体検出(人物検出)の領域を意味する。骨格点情報取得部20は、例えば、カーネギーメロン大学で開発されたOpenposeなどを使って、フレーム画像から複数人物それぞれのキーポイントである骨格点情報と人矩形と人IDを取得する。
【0031】
属性情報取得部30は、時系列画像の各フレーム画像から被写体(人物)の属性を推定することで、属性情報と人IDを取得する。換言すれば、属性情報取得部30は、複数の骨格点情報のそれぞれに対応する複数の属性情報を取得する。よって、属性情報取得部30は、人矩形と、属性情報と、人ID(人単位)とを取得する。属性情報取得部30は、例えば、本件の出願人によって開発されたFORXAIなどを使って、フレーム画像から複数人物それぞれの属性情報と人矩形と人IDを取得する。また、属性情報取得部30は、例えば、学校の解析において、属性情報のうち年代情報からその人物が先生であることを示す属性、または、生徒であることを示す属性情報を付与してもよい。
【0032】
また、属性情報取得部30は、骨格点情報取得部20による時系列画像からの骨格点情報の取得と同時に、時系列画像から属性情報を取得してもよい。
【0033】
属性付き骨格点情報生成部40は、同一人物の骨格点情報と属性情報を統合する。換言すれば、属性付き骨格点情報生成部40は、骨格点情報と属性情報とを関連づけて、複数の属性付き骨格点情報を生成する。属性付き骨格点情報生成部40は、人矩形と、骨格点と、属性情報と、統合人ID(人単位)を出力できる。
【0034】
また、属性付き骨格点情報生成部40は、複数の属性付き骨格点情報に関して同じ属性が付与された属性付き骨格点情報のグループを形成してもよい。例えば、属性付き骨格点情報生成部40では、男性の属性が付与されている属性付き骨格点情報のグループや、中年の属性が付与されている属性付き骨格点情報のグループを形成することができる。
【0035】
行動解析部50は、同一フレーム画像の骨格点情報と属性情報から、その場面にいる人々の行動を解析する。換言すれば、行動解析部50は、複数の属性付き骨格点情報のそれぞれを行動解析して得た複数の行動解析結果を複合的に解析する。
【0036】
例えば、学校を解析対象とする場合、先生が生徒に教室内で授業をしている状況を想定する。この場合、行動解析部50は、先生の行動と生徒の行動との組み合わせを解析する。行動解析部50は、人矩形と、骨格点と、属性情報と、行動情報と、統合人ID(人単位)と、を取得する。そして、行動解析部50は、例えば、以下の4つの状態を解析する。
【0037】
行動解析部50は、例えば、フレーム画像に写っている先生と生徒が、(1).先生が動いておらず、生徒が寝ている状態、(2).先生が動いておらず、生徒がうろついている状態、(3).先生が動いておらず、生徒が黒板に向かって歩いている状態、(4).先生がうろついており、生徒が動いていない状態の4つの状態の何れに該当するか否かを解析する。なお、行動解析部50が解析する対象は、学校における先生と生徒に限定されず、店員とお客、警察官と群衆などであってもよい。
【0038】
ここで、行動解析部50では、先生に属するグループと生徒に属するグループを複合的に解析する。本実施形態の行動解析部50は、グループ間の相互作用を、1対1、1対多、多対多の何れかに当て嵌めて解析する。このように、例えば、行動解析部50が、グループ間の相互作用を利用して解析することを、複合的に解析する、という。
【0039】
また、行動解析部50は、複数の行動解析結果を解析した際の時系列画像を、記憶部120に記憶してもよい。また、行動解析部50は、複合的に解析する処理が終了するまで時系列画像をバッファで保存して、当該処理が終了すると当該時系列画像を削除してもよい。
【0040】
場面解析出力部60は、属性情報と行動情報から場面を解析する。換言すれば、場面解析出力部60は、時系列画像における場面の解析結果を出力する。
【0041】
上述した学校の場合、(1).の先生が動いておらず、生徒が寝ている状態は、退屈な授業の状態を意味しており、先生による授業が下手であることを示している。(2).の先生が動いておらず、生徒がうろついている状態は、学級崩壊していることを意味している。(3).の先生が動いておらず、生徒が黒板に向かって歩いている状態は、生徒が板書に行く正常な授業を意味している。(4).の先生がうろついており、生徒が動いていない状態も、正常な授業を意味している。
【0042】
なお、場面解析出力部60は、場面の解析結果に応じて、アラートを出力してもよい。例えは、(2).の先生が動いておらず、生徒がうろついている状態は、学級崩壊しているため、職員室にアラートを出力することが望ましい。
【0043】
また、場面解析出力部60は、異なる属性間の関係性と、複数の属性付き骨格点情報の行動解析結果とに基づいて、場面の解析結果を出力してもよい。例えば、属性情報取得部30が先生と生徒という異なる属性の人物を取得した場合、場面解析出力部60は、先生が立っており、生徒が座っている状態において、通常の授業中を示す正常な状態である、と解析して出力することができる。
【0044】
[画像解析装置のハードウェアの構成]
図2は、第1実施形態に係る画像解析装置100のハードウェアを示したブロック図である。画像解析装置100は、カメラ200に接続される。画像解析装置100は、カメラ200に接続されることで、画像解析システム300を構成する。
【0045】
カメラ200は、被写体を撮像し、画像(これを撮像画像という。)を生成する。カメラ200は、撮像画像を経時的に生成することで、連続した時系列画像(すなわち、動画である。)を生成する。
【0046】
画像解析装置100は、CPU(Central Processing Unit)110、記憶部120、ROM(Read Only Memory)130、RAM(Random Access Memory)140、入力部150、表示部160、および通信部170を備えて構成されている。
【0047】
CPU110は、記憶部120に格納されている画像解析プログラム121を読み出して実行することで、図1に示した時系列画像取得部10、骨格点情報取得部20、属性情報取得部30、属性付き骨格点情報生成部40、行動解析部50、および場面解析出力部60を具現化する。また、CPU110は、画像解析装置100の全体動作を制御する。このとき、記憶部120に格納されている各種データが参照される。記憶部120は、例えば、半導体メモリやハードディスクドライブなどの大容量記憶媒体で構成される。
【0048】
CPU110は、通信部170を介して、LAN(Local Area Network)、WAN(Wide Area Network)等の通信ネットワークに接続された外部の装置との間で、各種データの送受信を行う。CPU110は、例えば、カメラ200から送信された撮像画像を取得し、処理を施す。
【0049】
通信部170は、例えばNIC(Network Interface Card)等の通信制御カードで構成される。
【0050】
入力部150は、テンキー、スタートキー等の各種操作キーを備える。入力部150は、ユーザによる各種入力操作を受け付けて、操作信号をCPU110に出力する。
【0051】
表示部160は、例えば、液晶ディスプレイなどであり、撮像画像、文字、図形などを表示する。
【0052】
なお、図2に示す画像解析装置100は、図1に示す第1実施形態に限定されるものではなく、第2実施形態に係る画像解析装置101から第4実施形態に係る画像解析装置102も、図2に示す画像解析装置100の構成により実現される。
【0053】
[第1実施形態の具体例]
例えば、骨格点情報取得部20は、立っている人Sの動作を含む骨格点と、座っている人Tの動作を含む骨格点と、を取得する。また、属性情報取得部30は、立っている人Sの属性として中年という属性と、座っている人Tの属性として子供という属性と、を取得する。このような状態から、第1実施形態の場面解析出力部60は、正常授業が行われている、と場面の解析結果を出力する。
【0054】
ここで、骨格点情報取得部20は、例えば、深層学習を用いた人物のポーズをリアルタイムに抽出する手法(例えば、Openposeなど)により、骨格点を取得する。
【0055】
図3は、人物がガッツポーズをしている状態を示した説明図である。図3に示すように、人物が両手を挙げて、ガッツポーズをしている。
【0056】
例えば、Openposeでは、加速度センサなどを用いることなく、カメラ200による撮像画像(動画像を含む)のみで人間の点座標や関節点を検出することができ、点座標や関節点を取得することができる。
【0057】
図4は、Openposeで検出することができる部位を示した説明図である。図5は、図4で検出することができる部位をリスト化したものである。
【0058】
図4および図5に示すように、Openposeでは、人間の骨格を推定することで、図4および図5に対応する部位を検出する。すなわち、Openposeでは、鼻500、首501、右肩502、右肘503、右手首504、左肩505、左肘506、左手首507、中ヒップ508、右ヒップ509、右膝510、右足首511、左ヒップ512、左膝513、左足首514、右目515、左目516、右耳517、左耳518、左親指519、左小指520、左踵521、右親指522、右小指523、および右踵524を検出する。
【0059】
骨格点情報取得部20は、図1に示すように、例えば、1フレーム画像から人矩形と、骨格点と、人IDとをそれぞれ人物単位で取得する。
【0060】
図6は、骨格点情報取得部20が人矩形、骨格情報、人IDを取得し、骨格を推定する骨格推定テーブルを示した図である。
【0061】
図6では、時刻、推定ID、人矩形、骨格情報の各欄を備えている。例えば、時刻1では、推定IDが人Sについて、人矩形の中心座標(X,Y)が(100,100)を有し、矩形枠として、高さを示すHが120、幅を示すWが20となっている。
【0062】
骨格点情報取得部20は、この状態から、骨格情報として、鼻の中心座標(X,Y)を(100,110)と推定し、右踵の中心座標を、(90,150)を推定する。
【0063】
また、時刻2では、推定IDが人Tについて、人矩形の中心座標(X,Y)が(110,160)を有し、矩形枠として、Hが180、Wが30となっている。
【0064】
一方、属性情報取得部30は、属性を推定し、属性情報、人IDを取得する。なお、属性情報取得部30が属性を推定する際、公知の属性推定処理を適用することができる。
【0065】
図7は、属性情報取得部30が属性情報、人IDを取得した属性情報取得テーブルを示した図である。
【0066】
図7では、図6の骨格推定テーブルに対し、骨格情報の代わりに属性情報の欄が追加されている。属性情報では、眼鏡の有無、性別、年代、体の向き、服色を推定する。属性情報取得部30は、例えば、時刻1の推定IDが人Sについて、眼鏡をかけておらず、性別は女性で、年代は中年で、前向きであり、服色が赤であることを推定している。
【0067】
また、属性情報取得部30は、時刻2の推定IDが人Tについて、眼鏡をかけておらず、性別は女性で、年代は子供で、前向きであり、服色が赤であることを推定している。ここで、属性情報取得部30は、年代情報から、人Sの中年の女性を先生と推定し、人Tの子供を生徒と推定して、それぞれ属性を付与する。
【0068】
なお、属性情報取得部30は、骨格点情報取得部20による時系列画像からの骨格点情報の取得と同時に、時系列画像から属性情報を取得してもよい。
【0069】
属性付き骨格点情報生成部40は、図6の骨格推定テーブルと、図7の属性情報取得テーブルとから、同一人物の骨格点情報や属性情報を統合する処理を行う。なお、一例として、図7の属性情報取得テーブルを拡張した図8を用いて、図6の骨格推定テーブルと、図8の属性情報取得テーブルを統合する。図8の属性情報取得テーブルは、図7の属性情報取得テーブルの時刻と推定IDを拡張したテーブルである。
【0070】
図9は、図6の骨格推定テーブルと、図8の属性情報取得テーブルとを統合した情報統合テーブルを示した図である。
【0071】
属性付き骨格点情報生成部40は、例えば、図6の骨格推定テーブルの推定IDが人Sと、図8の属性情報取得テーブルの推定IDが人Sとを統合するとともに、図6の骨格推定テーブルの推定IDが人Tと、図8の属性情報取得テーブルの推定IDが人Tとを統合する。
【0072】
具体的には、まず、属性付き骨格点情報生成部40は、図6に示す骨格点情報が持つ人矩形情報を取得する。次に、属性付き骨格点情報生成部40は、図8に示す属性情報が持つ人矩形情報を取得する。そして、属性付き骨格点情報生成部40は、人矩形(骨格点)と人矩形(属性情報)から、Iu(IoU)を計算する。
【0073】
ここで、属性付き骨格点情報生成部40は、次式(1)を用いて、Iuを計算する。
【0074】
【数1】
【0075】
属性付き骨格点情報生成部40は、Iuが一番高いペアを探し、そのIuが閾値以上であれば、統合人IDを生成し、閾値未満であれば、ペアを形成しない。
【0076】
このように、図9では、図6の骨格推定テーブルの推定IDが人Sと、図8の属性情報取得テーブルの推定IDが人Sとを統合するとともに、図6の骨格推定テーブルの推定IDが人Tと、図8の属性情報取得テーブルの推定IDが人Tとを統合する。
【0077】
なお、この具体例では、行動解析部50は、骨格検出を用いた行動認識技術を用いることで、図9の情報統合テーブルに、行動情報を統合することができる。例えば、特願2002-095108に記載のように、時系列の骨格点情報を点群データと考え、この点群データが示す行動ラベルと点群データとを教師データとして学習モデルに機械学習させることで、時系列の骨格点情報から行動認識を行うことができる。なお、行動認識技術は、特に限定されるものではない。
【0078】
図10は、統合人IDごとに行動情報を示した行動情報テーブルである。図10では、統合IDが人Sの人物は、立っている状態を示しており、統合IDが人Tの人物は、座っている状態を示している。
【0079】
行動解析部50は、図9の情報統合テーブルに、図10の行動情報テーブルを統合することで、行動解析テーブルを生成し、相互作用表を生成する。
【0080】
図11は、図9の情報統合テーブルに図10の行動情報テーブルを統合した行動解析テーブルを示している。
【0081】
行動解析部50は、図11の行動解析テーブルに基づいて、中年で属性が先生と、子供で属性が生徒との相互作用を示す相互作用表を生成する。
【0082】
図12は、行動解析部50が生成した相互作用表を示したものである。図12では、横方向には、属性が先生である中年の行動が記載され、縦方向には、属性が生徒である子供の行動が記載され、場面の解析がマトリックス状に記載されている。
【0083】
場面解析出力部60では、図12の相互作用表を用いて場面の解析を行うことができ、先生の行動が後ろ向きで合って、生徒の行動が立っている状態を異常と判定し、それ以外の行動については正常と判断することを示している。
【0084】
これにより、場面解析出力部60は、図1の属性付き骨格点情報生成部40から人矩形と、骨格点と、属性情報と、行動情報と、統合人ID(人単位)を取得することで、場面の解析を出力することができる。
【0085】
<第2実施形態>
図13は、第2実施形態に係る画像解析装置101の機能を示した機能ブロック図である。第2実施形態の画像解析装置101が第1実施形態の画像解析装置100と異なる点は、場面解析出力部60が、相互作用検出部61を備えている点である。その他の構成は、第1実施形態と同一であるため、説明を省略する。
【0086】
相互作用検出部61は、相互作用を検出する。よって、場面解析出力部60は、場面の解析結果を出力する際に、複数の属性付き骨格点情報の相互作用を解析する。
【0087】
例えば、小売業の場合、店員がタイムセールの案内を告知した状態を想定する。この場合、行動解析部50は、複数の客の行動を解析する。具体的には、行動解析部50は、(1).ある客は来店するが、(2).ある客は通過する、という行動を解析する。
【0088】
相互作用検出部61は、店員のタイムセールによる客寄せ行動に対し、客の行動変容を検出する。行動変容とは、人の行動が変わることを意味する。よって相互作用検出部61は、タイムセールの告知により、客の行動が変わることを検出する。
【0089】
場面解析出力部60は、時系列画像における情報を利用し、タイムセールによる効果があるかどうかを撮像画像の変化から判断する。例えば、場面解析出力部60は、時系列画像に含まれるタイムスタンプ情報を利用する。場面解析出力部60は、人矩形に含まれるタイムスタンプ情報を利用してもよい。これにより、場面解析出力部60は、例えば、タイムセールによる客寄せ行動に対し、集客が増えたかどうか等のイベントの効果を出力することができる。
【0090】
なお、場面の解析結果には、タイムスタンプ情報が含まれる。タイムスタンプ情報は、時刻、時間、フレーム番号などが該当する。タイムスタンプは、タイムスタンプに刻印されている時刻にその撮像画像が撮影されたことを示すものである。
【0091】
<第3実施形態>
第3実施形態では、第2実施形態の場面解析出力部60が、相互作用の解析として、第1の人物に係る第1の属性情報を持つ第1属性付き骨格点情報が、第1の人物と異なる第2の人物に係る第2の属性情報を持つ第2の属性付き骨格点情報に対して作用した結果の第2の属性付き骨格点情報の行動解析結果に基づいて、場面の解析結果を出力する。
【0092】
例えば、学校の場合、先生が板書している状態を想定する。この場合、行動解析部50は、(1).ある生徒Aは、ノートを取っており、(2).ある生徒Bは、ノートを取っておらず、(3).また、ある生徒Cは、携帯を触っている、という各状態を解析する。
【0093】
場面解析出力部60の相互作用検出部61は、先生が板書している状態でありながら、手が動いていない生徒について場面を検出する。場面解析出力部60は、生徒Bと生徒Cが退屈な状態に該当し、3名の生徒のうち生徒Aを除いた比率(1-1名(生徒A)/3名(生徒A~C))により、退屈な授業度として出力する。
【0094】
また、例えば、ダンスレッスンの場合、先生がダンスを生徒に例示する状態を想定する。この場合、行動解析部50は、(1).ある生徒A、B、Cは、適切なタイミングでダンスを踊り、(2).ある生徒Dは、先生よりタイミングが遅れてダンスを踊り、(3).ある生徒Eは、座って休憩している、と各状態を解析する。
【0095】
場面解析出力部60の相互作用検出部61は、先生の例示に対し、各生徒A~Dが踊るタイミングのズレを検出する。場面解析出力部60は、5名の生徒A~Eのうち、ダンスを踊っている4名の生徒(生徒A~D)を抽出し、適切なタイミングでダンスを踊る生徒の比率(3名(生徒A~C)/4名(生徒A~D))により、生徒の理解度として出力する。
【0096】
また、例えば、警察の場合、警察が群集に誘導指示する状態を想定する。この場合、行動解析部50は、警察官による誘導指示に対し、群衆Eの避難行動を解析する。属性情報取得部30は、例えば、異なる属性間の関係性として、警察官と群衆という関係性を取得する。
【0097】
場面解析出力部60の相互作用検出部61は、警察官による誘導指示に対し、群衆Eの避難行動を検出する。場面解析出力部60は、全体を1とした総群衆のうち、避難行動した群衆Eの属性を除いた比率(1-群衆E/総群衆数)を、パニック度として出力する。
【0098】
<第4実施形態>
図14は、第4実施形態に係る画像解析装置102の機能を示した機能ブロック図である。図14に示すように、画像解析装置102は、時系列画像取得部10、骨格点情報取得部20、属性情報取得部30、属性付き骨格点情報生成部40、および場面解析出力部62を備えて構成されている。
【0099】
図14に示す第4実施形態に係る画像解析装置102が、図1に示す第1実施形態に係る画像解析装置100と異なる点は、行動解析部50を備えていない点である。
【0100】
場面解析出力部62は、複数の属性付き骨格点情報を基に、時系列画像における場面の解析結果を出力する。場面解析出力部62は、場面の解析を行う際、複数の属性付き骨格点情報を基に、行動解析とAI(Artificial Intelligence)とを用いて、まとめて処理する。より具体的には、時系列の属性付き骨格点情報(点群データ)とその場面解析結果(シーンラベル)とを教師データとして機械学習させた学習モデルに、時系列の属性付き骨格点情報を入力することで、場面の解析結果を出力することができる。
【0101】
これにより、場面解析出力部62は、図14の属性付き骨格点情報生成部40から人矩形と、骨格点と、属性情報と、行動情報と、統合人ID(人単位)を取得することで、機械学習による学習モデルに基づいて、場面の解析を行うことができる。
【0102】
<作用・効果>
以上説明したように、第1実施形態に係る画像解析装置100は、時系列画像取得部10、骨格点情報取得部20、属性情報取得部30、属性付き骨格点情報生成部40、行動解析部50、および場面解析出力部60を備えて構成されている。
【0103】
第1実施形態に係る画像解析装置100は、行動解析部50が、複数の属性付き骨格点情報のそれぞれを行動解析して、複数の行動解析結果を複合的に解析する。場面解析出力部60は、時系列画像における場面の解析結果を出力する。
【0104】
これにより、第1実施形態に係る画像解析装置100は、行動解析部50が複数の行動解析結果を複合的に解析することにより、グループ間の相互作用を利用することができる。よって、画像解析装置100は、グループ間の相互作用を利用することで、精度の高い場面認識を行うことができる。
【0105】
また、第1実施形態に係る画像解析装置100は、場面解析出力部60により、異なる属性間の関係性と、複数の属性付き骨格点情報の行動解析結果とに基づいて、場面の解析結果を出力してもよい。
【0106】
第1実施形態に係る画像解析装置100は、属性情報取得部30により異なる属性間の関係性を取得することができるので、場面解析出力部60は、複数の属性付き骨格点情報の行動解析結果にグループ間の相互作用を利用できる。
【0107】
例えば、属性情報取得部30が先生と生徒という異なる属性間の関係性を取得した場合に、場面解析出力部60は、先生が立っており、生徒が座っている状態において、通常の授業中を示す正常な状態である、と解析して出力することができる。
【0108】
このように、第1実施形態に係る画像解析装置100は、より複雑な場面認識を行うことができる。
【0109】
また、第2実施形態に係る画像解析装置100は、場面解析出力部60において相互作用検出部61を備えている。相互作用検出部61は、相互作用を検出する。これにより、場面解析出力部60は、場面の解析結果を出力する際に、複数の属性付き骨格点情報の相互作用を解析することができる。
【0110】
例えば、相互作用検出部61は、店員のタイムセールによる客寄せ行動に対し、客の行動変容を検出する。これにより、場面解析出力部60は、時系列画像における情報を利用し、タイムセールによる客寄せ行動に効果があるかどうかを、行動変容から判断することができる。
【0111】
また、第3実施形態に係る画像解析装置100は、第2実施形態の場面解析出力部60が、相互作用の解析として、第1の人物に係る第1の属性情報を持つ第1属性付き骨格点情報が、第1の人物と異なる第2の人物に係る第2の属性情報を持つ第2の属性付き骨格点情報に対して作用した結果の第2の属性付き骨格点情報の行動解析結果に基づいて、場面の解析結果を出力する。
【0112】
例えば、学校の場合、場面解析出力部60の相互作用検出部61は、先生が板書している状態でありながら、手が動いていない生徒について場面を解析する。場面解析出力部60は、生徒Bと生徒Cが退屈な状態に該当し、3名の生徒のうち生徒Aを除いた比率(1-1名(生徒A)/3名(生徒A~C))により、退屈な授業度として出力できる。
【0113】
また、例えば、ダンスレッスンの場合、場面解析出力部60の相互作用検出部61は、先生の例示に対し、各生徒A~Dが踊るタイミングのズレを解析する。場面解析出力部60は、4名の生徒A~Dのうち、適切なタイミングでダンスを踊る生徒の比率(3名(生徒A~C)/4名(生徒A~D))により、生徒の理解度として出力することができる。
【0114】
また、例えば、警察の場合、場面解析出力部60の相互作用検出部61は、警察官による誘導指示に対し、群衆Eの避難行動を検出する。場面解析出力部60は、全体を1とした総群衆のうち、避難行動した群衆Eの属性を除いた比率(1-群衆E/総群衆数)を、パニック度として出力することができる。
【0115】
また、第4実施形態に係る画像解析装置100は、画像解析装置102は、時系列画像取得部10、骨格点情報取得部20、属性情報取得部30、属性付き骨格点情報生成部40、および場面解析出力部62を備えて構成されている。
【0116】
属性付き骨格点情報生成部40は、骨格推定テーブルと、属性情報取得テーブルとから、同一人物の骨格点情報や属性情報を統合する。第4実施形態では、行動解析部50の代わりに骨格検出を用いた行動認識技術(行動解析とAI)を用いることで、場面解析出力部62は、複数の属性付き骨格点情報を基に、時系列画像における場面の解析結果を出力する。
【0117】
このように、第4実施形態に係る画像解析装置100は、場面解析出力部62において場面の解析を行うことができる。
【0118】
(変形例)
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)~(f)のようなものがある。
【0119】
(a) 異なる属性間の属性情報は、人物の役割に基づくものであってもよい。例えば、異なる属性には、先生の属性と生徒の属性とが該当する。
(b) 属性付き骨格点情報生成部40は、複数の属性付き骨格点情報に関して同じ属性が付与された属性付き骨格点情報のグループを形成してもよい。これにより、第1実施形態から第4実施形態に係る画像解析装置100~102は、グループ間の相互作用を利用することができ、より複雑な場面認識を行うことができる。
(c) 場面解析出力部60,62は、場面の解析結果に応じて、アラートを出力してもよい。これにより、第1実施形態から第4実施形態に係る画像解析装置100~102は、例えば、監視カメラ、人流システム、工場でのDX(Digital Transformation:デジタルトランスフォーメーション)などに適用することができる。
(d) 行動解析部50は、複数の行動解析結果を解析した際の時系列画像を、記憶部120に記憶してもよい。また、行動解析部50は、複合的に解析する処理が終了するまで時系列画像をバッファで保存して、当該処理が終了すると当該時系列画像を削除してもよい。これにより、記憶部120は、必要な記憶容量を、適宜、確保することができる。
(e) 属性情報取得部30は、骨格点情報取得部による時系列画像からの骨格点情報の取得と同時に、時系列画像から属性情報を取得してもよい。これにより、リアルタイム性を向上させることができる。また、属性情報取得部30は、属性情報を時系列画像から取得することに限定されず、例えば、個々の骨格情報に対してユーザがそれぞれ入力してもよく、また、他のデータベースなどから属性情報を取得してもよい。
(f) 第1実施形態から第4実施形態に係る画像解析装置100~102は、例えば、音声を行動解析に紐づけて、行動解析結果を音声とともに複合的に解析してもよい。これにより、場面認識の精度を向上させることができる。
【符号の説明】
【0120】
10 時系列画像取得部
20 骨格点情報取得部
30 属性情報取得部
40 属性付き骨格点情報生成部
50 行動解析部
60,62 場面解析出力部
61 相互作用検出部
100 画像解析装置
110 CPU
120 記憶部
121 画像解析プログラム
130 ROM
140 RAM
150 入力部
160 表示部
170 通信部
200 カメラ
300 画像解析システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14