(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-31
(54)【発明の名称】画像処理装置、特徴マップ生成装置、学習モデル生成装置、画像処理方法、及びプログラム
(51)【国際特許分類】
G06T 7/70 20170101AFI20240524BHJP
G06T 7/00 20170101ALI20240524BHJP
【FI】
G06T7/70 A
G06T7/00 660B
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023576414
(86)(22)【出願日】2021-06-28
(85)【翻訳文提出日】2023-12-12
(86)【国際出願番号】 JP2021024380
(87)【国際公開番号】W WO2023275941
(87)【国際公開日】2023-01-05
(81)【指定国・地域】
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110002044
【氏名又は名称】弁理士法人ブライタス
(72)【発明者】
【氏名】潘 雅冬
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096FA09
5L096FA54
5L096FA66
5L096FA67
5L096FA69
5L096FA78
5L096GA34
5L096HA08
5L096HA11
5L096KA04
(57)【要約】
画像処理装置10は、画像中の人物の水平方向における位置を特定する第1の特徴マップと、画像中の人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成部11と、画像から検出された関節それぞれの水平方向及び垂直方向における位置と、第1の特徴マップ及び第2の特徴マップと、を用いて、関節それぞれを、対応ずる人物にグルーピングする、グルーピング部12とを備えている。
ことを特徴とする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成手段と、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピング手段と、
を備えている、
ことを特徴とする画像処理装置。
【請求項2】
前記特徴マップ生成手段が、
前記第1の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の水平方向における位置を示す数値を割り当てる、マップを生成し、
前記第2の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の垂直方向における位置を示す数値を割り当てる、マップを生成する、
請求項1に記載の画像処理装置。
【請求項3】
前記人物の水平方向における位置を示す数値が、前記第1の特徴マップの水平方向の長さに対する、前記第1の特徴マップの原点から前記人物の基準点までの水平方向における距離の比を示す値であり、
前記人物の垂直方向における位置を示す数値が、前記第2の特徴マップの垂直方向の長さに対する、前記第2の特徴マップの原点から前記人物の基準点までの垂直方向における距離の比を示す値である、
請求項2に記載の画像処理装置。
【請求項4】
前記特徴マップ生成手段が、
画像と第1の特徴マップ及び第2の特徴マップとの関係を機械学習した学習モデルを用いて、前記第1の特徴マップ及び前記第2の特徴マップを生成する、
請求項1~3のいずれかに記載の画像処理装置。
【請求項5】
前記グルーピング手段が、
前記画像から検出された関節それぞれ毎に、前記画像中の人物それぞれについて、前記第1の特徴マップにおける当該関節に対応するピクセルの数値と前記第2の特徴マップにおける当該関節に対応するピクセルの数値とを特定し、
特定した2つの前記数値と、前記人物の水平方向における位置を示す数値及び垂直方向における位置を示す数値と、を用いて、当該関節と前記人物との間の距離を算出し、
算出した前記距離に基づいて、当該関節に対応する人物を決定し、決定結果に基づいてグルーピングする、
請求項2または3に記載の画像処理装置。
【請求項6】
前記グルーピング手段が、算出した前記距離が設定値以上とならないことと、同一種類の複数の関節が同一人物に対応しないこととを、条件として、前記関節に対応する人物を決定する、
請求項5に記載の画像処理装置。
【請求項7】
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成手段を備えている、
ことを特徴とする特徴マップ生成装置。
【請求項8】
人物を含む画像の画像データ、前記画像中の前記人物の水平方向における位置を特定する第1の特徴マップ、及び前記画像中の前記人物の垂直向における位置を特定する第2の特徴マップを訓練データとして用いて、前記画像と前記第1の特徴マップ及び前記第2の特徴マップとの関係を機械学習した学習モデルを生成する、学習モデル生成手段を備えている、
ことを特徴とする学習モデル生成装置。
【請求項9】
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成ステップと、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピングステップと、
を有する、
ことを特徴とする画像処理方法。
【請求項10】
前記特徴マップステップにおいて、
前記第1の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の水平方向における位置を示す数値を割り当てる、マップを生成し、
前記第2の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の垂直方向における位置を示す数値を割り当てる、マップを生成する、
請求項9に記載の画像処理方法。
【請求項11】
前記人物の水平方向における位置を示す数値が、前記第1の特徴マップの水平方向の長さに対する、前記第1の特徴マップの原点から前記人物の基準点までの水平方向における距離の比を示す値であり、
前記人物の垂直方向における位置を示す数値が、前記第2の特徴マップの垂直方向の長さに対する、前記第2の特徴マップの原点から前記人物の基準点までの垂直方向における距離の比を示す値である、
請求項10に記載の画像処理方法。
【請求項12】
前記特徴マップ生成ステップにおいて、
画像と第1の特徴マップ及び第2の特徴マップとの関係を機械学習した学習モデルを用いて、前記第1の特徴マップ及び前記第2の特徴マップを生成する、
請求項9~11のいずれかに記載の画像処理方法。
【請求項13】
前記グルーピングステップにおいて、
前記画像から検出された関節それぞれ毎に、前記画像中の人物それぞれについて、前記第1の特徴マップにおける当該関節に対応するピクセルの数値と前記第2の特徴マップにおける当該関節に対応するピクセルの数値とを特定し、特定した2つの前記数値と、前記人物の水平方向における位置を示す数値及び垂直方向における位置を示す数値と、を用いて、当該関節と前記人物との間の距離を算出し、算出した前記距離に基づいて、当該関節に対応する人物を決定し、決定結果に基づいてグルーピングする、
請求項10または11に記載の画像処理方法。
【請求項14】
前記グルーピングステップにおいて、算出した前記距離が設定値以上とならないことと、同一種類の複数の関節が同一人物に対応しないこととを、条件として、前記関節に対応する人物を決定する、
請求項13に記載の画像処理方法。
【請求項15】
コンピュータに、
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成ステップと、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピングステップと、
を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
【請求項16】
前記特徴マップステップにおいて、
前記第1の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の水平方向における位置を示す数値を割り当てる、マップを生成し、
前記第2の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の垂直方向における位置を示す数値を割り当てる、マップを生成する、
請求項15に記載のコンピュータ読み取り可能な記録媒体。
【請求項17】
前記人物の水平方向における位置を示す数値が、前記第1の特徴マップの水平方向の長さに対する、前記第1の特徴マップの原点から前記人物の基準点までの水平方向における距離の比を示す値であり、
前記人物の垂直方向における位置を示す数値が、前記第2の特徴マップの垂直方向の長さに対する、前記第2の特徴マップの原点から前記人物の基準点までの垂直方向における距離の比を示す値である、
請求項16に記載のコンピュータ読み取り可能な記録媒体。
【請求項18】
前記特徴マップ生成ステップにおいて、
画像と第1の特徴マップ及び第2の特徴マップとの関係を機械学習した学習モデルを用いて、前記第1の特徴マップ及び前記第2の特徴マップを生成する、
請求項15~17のいずれかに記載のコンピュータ読み取り可能な記録媒体。
【請求項19】
前記グルーピングステップにおいて、
前記画像から検出された関節それぞれ毎に、前記画像中の人物それぞれについて、前記第1の特徴マップにおける当該関節に対応するピクセルの数値と前記第2の特徴マップにおける当該関節に対応するピクセルの数値とを特定し、特定した2つの前記数値と、前記人物の水平方向における位置を示す数値及び垂直方向における位置を示す数値と、を用いて、当該関節と前記人物との間の距離を算出し、算出した前記距離に基づいて、当該関節に対応する人物を決定し、決定結果に基づいてグルーピングする、
請求項16または17に記載のコンピュータ読み取り可能な記録媒体。
【請求項20】
前記グルーピングステップにおいて、算出した前記距離が設定値以上とならないことと、同一種類の複数の関節が同一人物に対応しないこととを、条件として、前記関節に対応する人物を決定する、
請求項19に記載のコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人物を含む画像の画像データを処理するための、画像処理装置、及び画像処理方法に関し、更には、これらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。また、本発明は、画像処理装置及び画像処理方法に用いられる特徴マップを生成するための特徴マップ生成装置に関し、加えて、特徴マップの生成に用いられる学習モデルを生成するための学習モデル生成装置にも関する。
【背景技術】
【0002】
近年、画像から人物の姿勢を推定する研究が注目されている。このような研究は、画像監視システムの分野や、スポーツの分野などでの利用が期待されている。また、画像から人物の姿勢を推定することによって、例えば、店舗内での店員の動きを分析することができ、効率的な商品配置に貢献することもできると考えられる。
【0003】
そして、このような画像からの人物の姿勢推定においては、画像から検出された関節と画像中の人物とを正しく関連付けることが重要となる。これは、画像中に複数の人物が存在する場合に、検出された関節を、間違った人物に関連付けてしまうと、姿勢推定精度が大きく低下するからである。
【0004】
例えば、非特許文献1は、画像中の関節と人物とを関連付けるシステムを開示している。具体的には、非特許文献1に開示されたシステムは、人物を含む画像の画像データが入力されると、人物の関節の画像を学習した畳み込みニューラルネットワークを用いて、画像データから、全ての人物の関節を検出する。
【0005】
更に、非特許文献1に開示されたシステムは、人物毎に人物全体の画像を学習した畳み込みニューラルネットワークを用いて、画像データから、画像中の人物それぞれ毎に人物のインスタンスセグメンテーションを示す特徴マップを生成する。その後、非特許文献1に開示されたシステムは、特徴マップ毎に、特徴マップ内のインスタンスセグメンテーションと検出された関節との比較を行って、検出された関節を対応する人物に関連付ける。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Kaiming He, et al., “Mask R-CNN.”, 2017 IEEE International Conference on Computer Vision (ICCV 2017)
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、上述の非特許文献1に開示されたシステムには、画像中の人物毎に特徴マップを生成する必要があるため、画像中に存在する人物が多くなればなる程、システムにかかる処理負担が大きくなるという問題が生じてしまう。このため、上述の非特許文献1に開示されたシステムでは、適用できる分野が限定されてしまう。
【0008】
本発明の目的の一例は、画像中に存在する人物の数に影響されることなく、関節と人物との関連付けを実行し得る、画像処理装置、画像処理方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。また、本発明の目的の他の一例は、画像処理装置に適用可能な特徴マップ生成装置及び学習モデル生成装置を提供することにある。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明の一側面における画像処理装置は、
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成手段と、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピング手段と、
を備えている、ことを特徴とする。
【0010】
上記目的を達成するため、本発明の一側面における特徴マップ生成装置は、
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成手段を備えている、
ことを特徴とする。
【0011】
上記目的を達成するため、本発明の一側面における学習モデル生成装置は、
人物を含む画像の画像データ、前記画像中の前記人物の水平方向における位置を特定する第1の特徴マップ、及び前記画像中の前記人物の垂直向における位置を特定する第2の特徴マップを訓練データとして用いて、前記画像と前記第1の特徴マップ及び前記第2の特徴マップとの関係を機械学習した学習モデルを生成する、学習モデル生成手段を備えている、
ことを特徴とする。
【0012】
また、上記目的を達成するため、本発明の一側面における画像処理方法は、
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成ステップと、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピングステップと、
を有する、
ことを特徴とする。
【0013】
更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータに、
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成ステップと、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピングステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
【発明の効果】
【0014】
以上のように、本発明によれば、画像中に存在する人物の数に影響されることなく、関節と人物との関連付けを実行する。
【図面の簡単な説明】
【0015】
【
図1】
図1は、実施の形態1における画像処理装置の概略構成を示す構成図である。
【
図2】
図2は、実施の形態1における画像処理装置の構成の一例を具体的に示す構成図である。
【
図3】
図3(a)は、実施の形態1で生成される第1の特徴マップの一例を示す図であり、
図3(b)は、実施の形態1で生成される第2の特徴マップの一例を示す図である。
【
図4】
図4は、実施の形態1におけるグルーピング部における処理を説明するための図である。
【
図5】
図5は、実施の形態1における画像処理装置の動作を示すフロー図である。
【
図6】
図6は、実施の形態2における特徴マップ生成装置の構成の一例を示す図である。
【
図7】
図7は、実施の形態3における学習モデル生成装置の構成の一例を示す構成図である。
【
図8】
図8は、実施の形態3における学習モデル生成装置の動作を示すフロー図である。
【
図9】
図9は、実施の形態1~3における画像処理装置、特徴マップ生成装置、及び学習モデル生成装置30を実現するコンピュータの一例を示すブロック図である。
【発明を実施するための形態】
【0016】
(実施の形態1)
実施の形態1では、画像処理装置、画像処理方法、及び画像処理用のプログラムについて、
図1~
図5を参照しながら説明する。
【0017】
[装置構成]
最初に、実施の形態1における、画像処理装置の概略構成について
図1を用いて説明する。
図1は、実施の形態1における画像処理装置の概略構成を示す構成図である。
【0018】
図1に示す、実施の形態1における画像処理装置10は、人物を含む画像の画像データを処理するための装置である。
図1に示すように、画像処理装置10は、特徴マップ生成部11と、グルーピング部12とを備えている。
【0019】
特徴マップ生成部11は、第1の特徴マップと第2の特徴マップとを生成する。第1の特徴マップは、画像中の人物の水平方向における位置を特定するためのマップである。第2の特徴マップは、画像中の人物の垂直方向における位置を特定するためのマップである。
【0020】
グルーピング部12は、画像から検出された関節それぞれの水平方向及び垂直方向における位置と、第1の特徴マップ及び第2の特徴マップと、を用いて、関節それぞれを、対応ずる人物にグルーピングする。
【0021】
このように、画像処理装置10では、第1の特徴マップと第2の特徴マップとが生成されるため、画像中に存在する人物の数に影響されることなく、関節と人物との関連付けを実行することができる。
【0022】
続いて、
図2~
図5を用いて、実施の形態1における画像処理装置10の構成及び機能について具体的に説明する。
図2は、実施の形態1における画像処理装置の構成の一例を具体的に示す構成図である。
図3(a)は、実施の形態1で生成される第1の特徴マップの一例を示す図であり、
図3(b)は、実施の形態1で生成される第2の特徴マップの一例を示す図である。
図4は、実施の形態1におけるグルーピング部における処理を説明するための図である。
【0023】
図2に示すように、実施の形態1では、画像処理装置10は、上述した特徴マップ生成部11及びグルーピング部12に加えて、画像データ取得部13と、記憶部14と、関節検出部15とを備えている。
【0024】
画像データ取得部13は、撮像装置によって撮像された、人物を含む画像の画像データ17を取得し、取得した画像データ17を記憶部14に格納する。なお、画像データの取得元は、撮像装置であっても良いし、画像データを格納している外部の記憶装置等であっても良い。記憶部14は、更に、後述する学習モデル16も格納している。
【0025】
特徴マップ生成部11は、実施の形態1では、
図3(a)に示すように、第1の特徴マップとして、画像を構成するピクセルと同数のピクセルで構成され、且つ、人物に対応する領域のピクセルそれぞれに、人物の水平方向における位置を示す数値を割り当てる、マップを生成する。また、特徴マップ生成部11は、第2の特徴マップとして、
図3(b)に示すように、画像を構成するピクセルと同数のピクセルで構成され、且つ、人物に対応する領域のピクセルそれぞれに、人物の垂直方向における位置を示す数値を割り当てる、マップを生成する。
【0026】
具体的には、
図3(a)に示すように、特徴マップ生成部11は、第1の特徴マップにおいては、人物に対応する領域のピクセルに、「人物の水平方向における位置を示す数値」として、次の値を割り当てる。割り当てられる値は、第1の特徴マップの水平方向の長さWに対する、第1の特徴マップの原点から人物の基準点までの水平方向における距離の比(0.1W等)を示す値である。
【0027】
また、
図3(b)に示すように、特徴マップ生成部11は、第2の特徴マップにおいては、人物に対応する領域のピクセルに、「人物の垂直方向における位置を示す数値」として、次の値を割り当てる。割り当てられる値は、第2の特徴マップの垂直方向の長さHに対する、第2の特徴マップの原点から人物の基準点までの垂直方向における距離の比(0.25H等)を示す値を割り当てる。
【0028】
図3(a)及び(b)においては、マップの原点は、左上の角の点に設定されているが、これに限定されるものではない。また、
図3(a)及び(b)においては、人物の基準点は、人物の首の付け根に設定されているが、これも限定されるものではない。
【0029】
また、特徴マップ生成部11は、実施の形態1では、記憶部14に格納されている学習モデル16を用いて、第1の特徴マップ及び第2の特徴マップを生成することもできる。学習モデル16は、予め、人物を含む画像と第1の特徴マップ及び第2の特徴マップとの関係を、機械学習することによって構築される。機械学習の手法としては、ディープラーニング等が挙げられる。構築された学習モデル16は、記憶部14に格納される。学習モデル16の構築は、後述する学習モデル生成装置によって行われる。
【0030】
関節検出部15は、画像データ取得部13によって取得された画像データの画像から、人物の関節を検出する。具体的には、関節検出部15は、画像データを、関節検出用学習モデルに適用することによって、画像データ中の人物の関節を検出することができる。機械学習モデルとしては、人物の画像と画像中の人物の各関節との関係を機械学習したモデルが挙げられる。機械学習モデルは、画像データが入力されると、例えば、画像中の関節毎に、その関節が存在する確率を示すヒートマップを出力する。この場合、関節検出部15は、出力されたヒートマップに基づいて、各関節を検出する。
【0031】
実施の形態1において、画像からの関節の検出手法は、限定されるものではない。関節検出部15は、例えば、予め用意された関節毎の特徴量を用いて、画像データから、各関節を検出することもできる。
【0032】
グルーピング部12は、実施の形態1では、画像から検出された関節それぞれ毎に、第1の特徴マップにおける、その関節に対応するピクセルの数値と、第2の特徴マップにおける、その関節に対応するピクセルの数値とを特定する。
【0033】
次いで、グルーピング部12は、画像から検出された関節それぞれ毎に、画像中の人物それぞれについて、特定した2つの数値と、人物の水平方向における位置を示す数値及び垂直方向における位置を示す数値と、を用いて、その関節と人物との間の距離を算出する。その後、グルーピング部12は、関節毎に、各人物について算出した距離に基づいて、その関節に対応する人物を決定し、決定結果に基づいてグルーピングを実行する。
【0034】
具体的には、
図4に示すように、グルーピング部12は、関節検出部15によって検出された各関節を、第1の特徴マップ及び第2の特徴マップに投影する。
図4の例では、第1の特徴マップ及び第2の特徴マップには、関節Jのみが投影されている。
【0035】
そして、グルーピング部12は、関節Jについて、第1の特徴マップでの対応するピクセルの数値LX(J)と、第2の特徴マップでの対応するピクセルの数値LY(J)とを特定する。また、グルーピング部12は、人物P1及びP2それぞれについて、その人物の水平方向における位置を示す数値LX(Ni)及び垂直方向における位置を示す数値LY(Ni)を特定する。Niは、第1の特徴マップ及び第2の特徴マップの作成に用いられた各人物の基準点を示している。
【0036】
その後、グルーピング部12は、特定した数値LX(J)及びLY(J)と、人物の位置を示す数値LX(Ni)及びLY(Ni)とを、下記の数1に代入して、関節Jと人物Piとの間の距離Ad(J,Pi)を算出する。
【0037】
(数1)
Ad (J, Pi) = [LX (J) - LX (Ni)]2 + [LY (J) - LY (Ni)]2
【0038】
図4の例では、人物P
1については、LX(J)=0.3W、LX(N
1)=0.3W、LY(J)=0.2H、LY(N
1)=0.2Hとなるので、Ad(J,P
1)=0となる。一方、人物P
2については、LX(N
2)=0.5W、LY(N
2)=0.4Hとなるので、Ad(J,P
2)=0.04(W+H)
2となる。従って、
図5の例では、グルーピング部12は、関節Jが対応する人物を、人物P
1に決定する。
【0039】
また、グルーピング部12は、明らかに不自然なグルーピングを避けるため、条件を設定して、関節に対応する人物を決定することができる。条件として、算出した距離が設定値以上とならないこと、同一種類の複数の関節が同一人物に対応しないこと、等が挙げられる。
【0040】
[装置動作]
次に、実施の形態1における画像処理装置10の動作について
図5を用いて説明する。
図5は、実施の形態1における画像処理装置の動作を示すフロー図である。以下の説明においては、適宜
図1~
図4を参照する。また、実施の形態1では、画像処理装置10を動作させることによって、画像処理方法が実施される。よって、実施の形態1における画像処理方法の説明は、以下の画像処理装置10の動作説明に代える。
【0041】
図5に示すように、最初に、画像データ取得部13が、人物を含む画像の画像データ17を取得し、取得した画像データ17を記憶部15に格納する(ステップA1)。
【0042】
次に、特徴マップ生成部11は、記憶部15に格納されている学習モデル16に、ステップA1で取得された画像データを適用して、第1の特徴マップ及び第2の特徴マップを生成する(ステップA2)。
【0043】
次に、関節検出部15は、ステップA1で取得された画像データの画像から、画像中の人物の関節を検出する(ステップA3)。また、ステップA3において、関節検出部15は、検出された関節それぞれについて、その座標を特定する。
【0044】
次に、グルーピング部12は、ステップA3で検出された各関節を、第1の特徴マップ及び第2の特徴マップに投影する(ステップA4)。
【0045】
次に、グルーピング部12は、関節毎に、第1の特徴マップにおける、その関節に対応するピクセルの数値と、第2の特徴マップにおける、その関節に対応するピクセルの数値とを特定する。そして、グルーピング部12は、特定した値と人物それぞれの位置を示す数値とを用いて、関節毎に、画像中の人物それぞれについて、その関節と人物との間の距離を算出する(ステップA5)。
【0046】
次に、グルーピング部12は、関節毎に、各人物についてステップA5で算出した距離に基づいて、その関節に対応する人物を決定し、決定結果に基づいてグルーピングを実行する(ステップA6)。
【0047】
その後、グルーピング部12は、ステップA6で得られたグルーピング結果を出力する(ステップA7)。グルーピング結果は、例えば、人物の姿勢を推定するシステムにおいて、人物の姿勢を推定するために用いられる。
【0048】
以上のように、実施の形態1によれば、検出された関節が、第1の特徴マップと第2の特徴マップとに投影されると、関節毎に各人物との距離が求められる。そして、距離が求められると、関節が対応する人物が簡単に特定される。つまり、実施の形態1によれば、画像中に存在する人物の数に影響されることなく、関節と人物との関連付けを実行することができる。
【0049】
[プログラム]
実施の形態1における画像処理のためのプログラムは、コンピュータに、
図5に示すステップA1~A7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態1における画像処理装置10と画像処理方法とを実現することができる。この場合、コンピュータのプロセッサは、特徴マップ生成部11、グルーピング部12、画像データ取得部13、及び関節検出部15として機能し、処理を行なう。
【0050】
また、実施の形態1では、記憶部14は、コンピュータに備えられたハードディスク等の記憶装置に、データファイルを格納することによって実現されていても良いし、別のコンピュータの記憶装置によって実現されていても良い。コンピュータとしては、汎用のPCの他に、スマートフォン、タブレット型端末装置が挙げられる。
【0051】
また、実施の形態1におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、特徴マップ生成部11、グルーピング部12、画像データ取得部13、及び関節検出部15のいずれかとして機能しても良い。
【0052】
(実施の形態2)
実施の形態2では、特徴マップ生成装置、特徴マップ生成方法、及び特徴マップ生成用のプログラムについて
図6を用いて説明する。
図6は、実施の形態2における特徴マップ生成装置の構成の一例を示す構成図である。
【0053】
図6に示すように、実施の形態2において、特徴マップ生成装置20は、
図3(a)及び(b)に示した第1の特徴マップ及び第2の特徴マップを生成するための装置である。
図6に示すように、特徴マップ生成装置20は、画像データ取得部21と、記憶部22と、特徴マップ生成部23と、を備えている。
【0054】
画像データ取得部21、記憶部22、及び特徴マップ生成部23は、実施の形態1において
図2に示された、画像データ取得部13、記憶部14、及び特徴マップ生成部11と同様に構成されている。また、画像データ取得部21、記憶部22、及び特徴マップ生成部23は、画像データ取得部13、記憶部14、及び特徴マップ生成部11と同様の機能を有している。
【0055】
具体的には、画像データ取得部21は、画像データ取得部13と同様に、撮像装置によって撮像された、人物を含む画像の画像データ25を取得し、取得した画像データ25を記憶部22に格納する。記憶部22は、記憶部15と同様に、学習モデル24も格納している。
【0056】
特徴マップ生成部23は、特徴マップ生成部11と同様に、
図3(a)に示す第1の特徴マップと、
図3(b)に示す第2の特徴マップとを生成する。実施の形態2においても、特徴マップ生成部23は、記憶部22に格納されている学習モデル24を用いて、第1の特徴マップ及び第2の特徴マップを生成する。
【0057】
学習モデル24は、学習モデル16と同様に、予め、人物を含む画像と第1の特徴マップ及び第2の特徴マップとの関係を、ディープラーニング等によって機械学習することによって構築される。学習モデル24は、記憶部22に格納される。学習モデル24の構築も、後述する学習モデル生成装置によって行われる。
【0058】
このように、特徴マップ生成装置20によれば、第1の特徴マップ及び第2の特徴マップを生成することができる。なお、実施の形態2では、特徴マップ生成装置20は、特徴マップ生成部23のみを備えた構成であっても良い。
【0059】
また、実施の形態2では、特徴マップ生成装置20において、
図5に示したステップA1及びA2と同様のステップを実行することによって、特徴マップ生成方法が実現される。更に、コンピュータに
図5に示すステップA1及びA2を実行させるプログラムを用いれば、実施の形態2における特徴マップ生成装置20と特徴マップ生成方法とを実現することができる。
【0060】
(実施の形態3)
実施の形態3では、学習モデル生成装置、学習モデル生成方法、及び学習モデル生成用のプログラムについて
図7及び
図8を用いて説明する。
【0061】
[装置構成]
最初に、実施の形態3における、学習モデル生成装置の構成について
図7を用いて説明する。
図7は、実施の形態3における学習モデル生成装置の構成の一例を示す構成図である。
【0062】
実施の形態3における
図7に示す学習モデル生成装置30は、実施の形態1及び2において用いられる学習モデルを生成するための装置である。
図7に示すように、実施の形態3における学習モデル生成装置30は、訓練データ取得部31と、記憶部32と、学習モデル生成部33とを備えている。
【0063】
訓練データ取得部31は、訓練データ35を取得する。訓練データ35は、人物を含む画像の画像データ、画像中の人物の水平方向における位置を特定する第1の特徴マップ、及び画像中の人物の垂直向における位置を特定する第2の特徴マップで構成されている。取得された訓練データ35は、記憶部32に格納される。
【0064】
学習モデル生成部33は、記憶部32に格納されている訓練データ35を用いて、画像と第1の特徴マップとの関係、及び画像と第2の特徴マップとの関係を、機械学習する。これにより、学習モデル34が生成される。機械学習の手法としては、ディープラーニング等が挙げられる。
【0065】
具体的には、学習モデル生成部33は、まず、画像の画像データを学習モデルに入力して、学習モデルから第1の特徴マップ及び第2の特徴マップを出力させる。そして、学習モデル生成部33は、出力された第1の特徴マップ及び第2の特徴マップと、訓練データとして用いられた第1の特徴マップ及び第2の特徴マップとの差分を求める。更に、学習モデル生成部33は、求めた差分が小さくなるように、学習モデルのパラメータを更新する。このように、訓練データによって、学習モデルのパラメータが更新されることにより、学習モデル34が生成される。
【0066】
[装置動作]
次に、実施の形態3における学習モデル生成装置30の動作について
図8を用いて説明する。
図8は、実施の形態3における学習モデル生成装置の動作を示すフロー図である。以下の説明においては、適宜
図7を参照する。また、実施の形態3では、学習モデル生成装置30を動作させることによって、学習モデル生成方法が実施される。よって、実施の形態3における学習モデル生成方法の説明は、以下の学習モデル生成装置30の動作説明に代える。
【0067】
図8に示すように、最初に、訓練データ取得部31が、訓練データ35として、人物を含む画像の画像データと、画像データに対応する第1の特徴マップと、同じく画像データに対応する第2の特徴マップとを取得する(ステップB1)。また、訓練データ取得部31は、取得した訓練データ35を、記憶部32に格納する。
【0068】
次に、学習モデル生成部33は、記憶部32に格納されている訓練データ35を用いて、画像と第1の特徴マップとの関係、及び画像と第2の特徴マップとの関係を、機械学習によって学習する(ステップB2)。これにより、学習モデル34が生成される。
【0069】
このように、実施の形態3によれば、学習モデル34が生成される。学習モデル34は、画像データと第1の特徴マップとの関係、及び画像データと第2の特徴マップとの関係を学習している。生成された学習モデル34は、実施の形態1及び2において利用することができる。
【0070】
[プログラム]
実施の形態3におけるプログラムは、コンピュータに、
図8に示すステップB1~B2を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態3における学習モデル生成装置30と学習モデル生成方法とを実現することができる。この場合、コンピュータのプロセッサは、訓練データ取得部31及び学習モデル生成部33として機能し、処理を行なう。
【0071】
また、実施の形態3では、記憶部32は、コンピュータに備えられたハードディスク等の記憶装置に、データファイルを格納することによって実現されていても良いし、別のコンピュータの記憶装置によって実現されていても良い。コンピュータとしては、汎用のPCの他に、スマートフォン、タブレット型端末装置が挙げられる。
【0072】
また、実施の形態3におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、訓練データ取得部31及び学習モデル生成部33のいずれかとして機能しても良い。
【0073】
(物理構成)
ここで、プログラムを実行することによって、画像処理装置10、特徴マップ生成装置20、及び学習モデル生成装置30を実現するコンピュータについて
図9を用いて説明する。
図9は、実施の形態1~3における画像処理装置、特徴マップ生成装置、及び学習モデル生成装置30を実現するコンピュータの一例を示すブロック図である。
【0074】
図9に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
【0075】
また、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。この態様では、GPU又はFPGAが、実施の形態におけるプログラムを実行することができる。
【0076】
CPU111は、記憶装置113に格納された、コード群で構成された実施の形態におけるプログラムをメインメモリ112に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。
【0077】
また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
【0078】
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
【0079】
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
【0080】
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
【0081】
実施の形態における画像処理装置10、特徴マップ生成装置20、及び学習モデル生成装置30は、それぞれ、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、画像処理装置10、特徴マップ生成装置20、及び学習モデル生成装置30は、それぞれ、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。ハードウェアとしては、電子回路が挙げられる。
【0082】
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記20)によって表現することができるが、以下の記載に限定されるものではない。
【0083】
(付記1)
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成部と、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピング部と、
を備えている、
ことを特徴とする画像処理装置。
【0084】
(付記2)
前記特徴マップ生成部が、
前記第1の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の水平方向における位置を示す数値を割り当てる、マップを生成し、
前記第2の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の垂直方向における位置を示す数値を割り当てる、マップを生成する、
付記1に記載の画像処理装置。
【0085】
(付記3)
前記人物の水平方向における位置を示す数値が、前記第1の特徴マップの水平方向の長さに対する、前記第1の特徴マップの原点から前記人物の基準点までの水平方向における距離の比を示す値であり、
前記人物の垂直方向における位置を示す数値が、前記第2の特徴マップの垂直方向の長さに対する、前記第2の特徴マップの原点から前記人物の基準点までの垂直方向における距離の比を示す値である、
付記2に記載の画像処理装置。
【0086】
(付記4)
前記特徴マップ生成部が、
画像と第1の特徴マップ及び第2の特徴マップとの関係を機械学習した学習モデルを用いて、前記第1の特徴マップ及び前記第2の特徴マップを生成する、
付記1~3のいずれかに記載の画像処理装置。
【0087】
(付記5)
前記グルーピング部が、
前記画像から検出された関節それぞれ毎に、前記画像中の人物それぞれについて、前記第1の特徴マップにおける当該関節に対応するピクセルの数値と前記第2の特徴マップにおける当該関節に対応するピクセルの数値とを特定し、
特定した2つの前記数値と、前記人物の水平方向における位置を示す数値及び垂直方向における位置を示す数値と、を用いて、当該関節と前記人物との間の距離を算出し、
算出した前記距離に基づいて、当該関節に対応する人物を決定し、決定結果に基づいてグルーピングする、
付記2または3に記載の画像処理装置。
【0088】
(付記6)
前記グルーピング部が、算出した前記距離が設定値以上とならないことと、同一種類の複数の関節が同一人物に対応しないこととを、条件として、前記関節に対応する人物を決定する、
付記5に記載の画像処理装置。
【0089】
(付記7)
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成部を備えている、
ことを特徴とする特徴マップ生成装置。
【0090】
(付記8)
人物を含む画像、前記画像中の前記人物の水平方向における位置を特定する第1の特徴マップ、及び前記画像中の前記人物の垂直向における位置を特定する第2の特徴マップを訓練データとして用いて、前記画像と前記第1の特徴マップ及び前記第2の特徴マップとの関係を機械学習した学習モデルを生成する、学習モデル生成部を備えている、
ことを特徴とする学習モデル生成装置。
【0091】
(付記9)
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成ステップと、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピングステップと、
を有する、
ことを特徴とする画像処理方法。
【0092】
(付記10)
前記特徴マップステップにおいて、
前記第1の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の水平方向における位置を示す数値を割り当てる、マップを生成し、
前記第2の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の垂直方向における位置を示す数値を割り当てる、マップを生成する、
付記9に記載の画像処理方法。
【0093】
(付記11)
前記人物の水平方向における位置を示す数値が、前記第1の特徴マップの水平方向の長さに対する、前記第1の特徴マップの原点から前記人物の基準点までの水平方向における距離の比を示す値であり、
前記人物の垂直方向における位置を示す数値が、前記第2の特徴マップの垂直方向の長さに対する、前記第2の特徴マップの原点から前記人物の基準点までの垂直方向における距離の比を示す値である、
付記10に記載の画像処理方法。
【0094】
(付記12)
前記特徴マップ生成ステップにおいて、
画像と第1の特徴マップ及び第2の特徴マップとの関係を機械学習した学習モデルを用いて、前記第1の特徴マップ及び前記第2の特徴マップを生成する、
付記9~11のいずれかに記載の画像処理方法。
【0095】
(付記13)
前記グルーピングステップにおいて、
前記画像から検出された関節それぞれ毎に、前記画像中の人物それぞれについて、前記第1の特徴マップにおける当該関節に対応するピクセルの数値と前記第2の特徴マップにおける当該関節に対応するピクセルの数値とを特定し、特定した2つの前記数値と、前記人物の水平方向における位置を示す数値及び垂直方向における位置を示す数値と、を用いて、当該関節と前記人物との間の距離を算出し、算出した前記距離に基づいて、当該関節に対応する人物を決定し、決定結果に基づいてグルーピングする、
付記10または11に記載の画像処理方法。
【0096】
(付記14)
前記グルーピングステップにおいて、算出した前記距離が設定値以上とならないことと、同一種類の複数の関節が同一人物に対応しないこととを、条件として、前記関節に対応する人物を決定する、
付記13に記載の画像処理方法。
【0097】
(付記15)
コンピュータに、
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成ステップと、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピングステップと、
を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
【0098】
(付記16)
前記特徴マップステップにおいて、
前記第1の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の水平方向における位置を示す数値を割り当てる、マップを生成し、
前記第2の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の垂直方向における位置を示す数値を割り当てる、マップを生成する、
付記15に記載のコンピュータ読み取り可能な記録媒体。
【0099】
(付記17)
前記人物の水平方向における位置を示す数値が、前記第1の特徴マップの水平方向の長さに対する、前記第1の特徴マップの原点から前記人物の基準点までの水平方向における距離の比を示す値であり、
前記人物の垂直方向における位置を示す数値が、前記第2の特徴マップの垂直方向の長さに対する、前記第2の特徴マップの原点から前記人物の基準点までの垂直方向における距離の比を示す値である、
付記16に記載のコンピュータ読み取り可能な記録媒体。
【0100】
(付記18)
前記特徴マップ生成ステップにおいて、
画像と第1の特徴マップ及び第2の特徴マップとの関係を機械学習した学習モデルを用いて、前記第1の特徴マップ及び前記第2の特徴マップを生成する、
付記15~17のいずれかに記載のコンピュータ読み取り可能な記録媒体。
【0101】
(付記19)
前記グルーピングステップにおいて、
前記画像から検出された関節それぞれ毎に、前記画像中の人物それぞれについて、前記第1の特徴マップにおける当該関節に対応するピクセルの数値と前記第2の特徴マップにおける当該関節に対応するピクセルの数値とを特定し、特定した2つの前記数値と、前記人物の水平方向における位置を示す数値及び垂直方向における位置を示す数値と、を用いて、当該関節と前記人物との間の距離を算出し、算出した前記距離に基づいて、当該関節に対応する人物を決定し、決定結果に基づいてグルーピングする、
付記16または17に記載のコンピュータ読み取り可能な記録媒体。
【0102】
(付記20)
前記グルーピングステップにおいて、算出した前記距離が設定値以上とならないことと、同一種類の複数の関節が同一人物に対応しないこととを、条件として、前記関節に対応する人物を決定する、
付記19に記載のコンピュータ読み取り可能な記録媒体。
【0103】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【産業上の利用可能性】
【0104】
以上のように、本発明によれば、画像中に存在する人物の数に影響されることなく、関節と人物との関連付けを実行する。本発明は、画像から人物の姿勢の推定を行うシステムに有用である。
【符号の説明】
【0105】
10 画像処理装置
11 特徴マップ生成部
12 グルーピング部
13 画像データ取得部
14 記憶部
15 関節検出部
16 学習モデル
17 画像データ
20 特徴マップ生成装置
21 画像データ取得部
22 記憶部
23 特徴マップ生成部
24 学習モデル
25 画像データ
30 学習モデル生成装置
31 訓練データ取得部
32 記憶部
33 学習モデル生成部
34 学習モデル
35 訓練データ
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
【手続補正書】
【提出日】2023-12-12
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成
部と、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピング
部と、
を備えている、
ことを特徴とする画像処理装置。
【請求項2】
前記特徴マップ生成
部が、
前記第1の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の水平方向における位置を示す数値を割り当てる、マップを生成し、
前記第2の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の垂直方向における位置を示す数値を割り当てる、マップを生成する、
請求項1に記載の画像処理装置。
【請求項3】
前記人物の水平方向における位置を示す数値が、前記第1の特徴マップの水平方向の長さに対する、前記第1の特徴マップの原点から前記人物の基準点までの水平方向における距離の比を示す値であり、
前記人物の垂直方向における位置を示す数値が、前記第2の特徴マップの垂直方向の長さに対する、前記第2の特徴マップの原点から前記人物の基準点までの垂直方向における距離の比を示す値である、
請求項2に記載の画像処理装置。
【請求項4】
前記特徴マップ生成
部が、
画像と第1の特徴マップ及び第2の特徴マップとの関係を機械学習した学習モデルを用いて、前記第1の特徴マップ及び前記第2の特徴マップを生成する、
請求項
1に記載の画像処理装置。
【請求項5】
前記グルーピング
部が、
前記画像から検出された関節それぞれ毎に、前記画像中の人物それぞれについて、前記第1の特徴マップにおける当該関節に対応するピクセルの数値と前記第2の特徴マップにおける当該関節に対応するピクセルの数値とを特定し、
特定した2つの前記数値と、前記人物の水平方向における位置を示す数値及び垂直方向における位置を示す数値と、を用いて、当該関節と前記人物との間の距離を算出し、
算出した前記距離に基づいて、当該関節に対応する人物を決定し、決定結果に基づいてグルーピングする、
請求項
2に記載の画像処理装置。
【請求項6】
前記グルーピング
部が、算出した前記距離が設定値以上とならないことと、同一種類の複数の関節が同一人物に対応しないこととを、条件として、前記関節に対応する人物を決定する、
請求項5に記載の画像処理装置。
【請求項7】
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成
部を備えている、
ことを特徴とする特徴マップ生成装置。
【請求項8】
人物を含む画像の画像データ、前記画像中の前記人物の水平方向における位置を特定する第1の特徴マップ、及び前記画像中の前記人物の垂直向における位置を特定する第2の特徴マップを訓練データとして用いて、前記画像と前記第1の特徴マップ及び前記第2の特徴マップとの関係を機械学習した学習モデルを生成する、学習モデル生成
部を備えている、
ことを特徴とする学習モデル生成装置。
【請求項9】
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成ステップと、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピングステップと、
を有する、
ことを特徴とする画像処理方法。
【請求項10】
コンピュータに、
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成ステップと、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピングステップと、
を実行させ
る、プログラ
ム。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0001
【補正方法】変更
【補正の内容】
【0001】
本発明は、人物を含む画像の画像データを処理するための、画像処理装置、及び画像処理方法に関し、更には、これらを実現するためのプログラムに関する。また、本発明は、画像処理装置及び画像処理方法に用いられる特徴マップを生成するための特徴マップ生成装置に関し、加えて、特徴マップの生成に用いられる学習モデルを生成するための学習モデル生成装置にも関する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0008
【補正方法】変更
【補正の内容】
【0008】
本発明の目的の一例は、画像中に存在する人物の数に影響されることなく、関節と人物との関連付けを実行し得る、画像処理装置、画像処理方法、及びプログラムを提供することにある。また、本発明の目的の他の一例は、画像処理装置に適用可能な特徴マップ生成装置及び学習モデル生成装置を提供することにある。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0013
【補正方法】変更
【補正の内容】
【0013】
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータに、
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成ステップと、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピングステップと、
を実行させる、ことを特徴とする。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0097
【補正方法】変更
【補正の内容】
【0097】
(付記15)
コンピュータに、
画像中の人物の水平方向における位置を特定する第1の特徴マップと、前記画像中の前記人物の垂直方向における位置を特定する第2の特徴マップとを生成する、特徴マップ生成ステップと、
前記画像から検出された関節それぞれの水平方向及び垂直方向における位置と、前記第1の特徴マップ及び前記第2の特徴マップと、を用いて、前記関節それぞれを、対応ずる人物にグルーピングする、グルーピングステップと、
を実行させる、プログラム。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0098
【補正方法】変更
【補正の内容】
【0098】
(付記16)
前記特徴マップステップにおいて、
前記第1の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の水平方向における位置を示す数値を割り当てる、マップを生成し、
前記第2の特徴マップとして、前記画像を構成するピクセルと同数のピクセルで構成され、且つ、前記人物に対応する領域の前記ピクセルそれぞれに、前記人物の垂直方向における位置を示す数値を割り当てる、マップを生成する、
付記15に記載のプログラム。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0099
【補正方法】変更
【補正の内容】
【0099】
(付記17)
前記人物の水平方向における位置を示す数値が、前記第1の特徴マップの水平方向の長さに対する、前記第1の特徴マップの原点から前記人物の基準点までの水平方向における距離の比を示す値であり、
前記人物の垂直方向における位置を示す数値が、前記第2の特徴マップの垂直方向の長さに対する、前記第2の特徴マップの原点から前記人物の基準点までの垂直方向における距離の比を示す値である、
付記16に記載のプログラム。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0100
【補正方法】変更
【補正の内容】
【0100】
(付記18)
前記特徴マップ生成ステップにおいて、
画像と第1の特徴マップ及び第2の特徴マップとの関係を機械学習した学習モデルを用いて、前記第1の特徴マップ及び前記第2の特徴マップを生成する、
付記15~17のいずれかに記載のプログラム。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0101
【補正方法】変更
【補正の内容】
【0101】
(付記19)
前記グルーピングステップにおいて、
前記画像から検出された関節それぞれ毎に、前記画像中の人物それぞれについて、前記第1の特徴マップにおける当該関節に対応するピクセルの数値と前記第2の特徴マップにおける当該関節に対応するピクセルの数値とを特定し、特定した2つの前記数値と、前記人物の水平方向における位置を示す数値及び垂直方向における位置を示す数値と、を用いて、当該関節と前記人物との間の距離を算出し、算出した前記距離に基づいて、当該関節に対応する人物を決定し、決定結果に基づいてグルーピングする、
付記16または17に記載のプログラム。
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0102
【補正方法】変更
【補正の内容】
【0102】
(付記20)
前記グルーピングステップにおいて、算出した前記距離が設定値以上とならないことと、同一種類の複数の関節が同一人物に対応しないこととを、条件として、前記関節に対応する人物を決定する、
付記19に記載のプログラム。
【国際調査報告】