IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2024-83602情報処理装置、情報処理方法及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024083602
(43)【公開日】2024-06-21
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240614BHJP
【FI】
G06T7/00 350B
G06T7/00 660B
【審査請求】有
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2024066640
(22)【出願日】2024-04-17
(62)【分割の表示】P 2023550828の分割
【原出願日】2021-09-29
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100110928
【弁理士】
【氏名又は名称】速水 進治
(72)【発明者】
【氏名】池田 浩雄
(57)【要約】
【課題】学習済モデルを用いて画像から人物の身体のキーポイントを抽出する技術において、キーポイントの一部が見えていない画像が学習データの中に含まれている場合に推定精度が低下する問題を軽減する。
【解決手段】教師画像において人物の身体の見えているキーポイントの位置の指定を受け付ける受付部と、教師画像と、各人物の位置と、各人物の身体の複数のキーポイント各々が教師画像において見えているか否かを示すラベルと、受け付けたキーポイントの位置とを関連付けた学習データを取得する取得部と、を有する情報処理装置を提供する。
【選択図】図9
【特許請求の範囲】
【請求項1】
教師画像において人物の身体の見えているキーポイントの位置の指定を受け付ける受付手段と、
前記教師画像と、各人物の位置と、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示すラベルと、前記受け付けたキーポイントの位置とを関連付けた学習データを取得する取得手段と、
を有する情報処理装置。
【請求項2】
前記学習データにおいて、前記教師画像において見えていないキーポイントの前記教師画像内の位置は示されない請求項1に記載の情報処理装置。
【請求項3】
前記学習データは、前記教師画像において人物毎の見えていない前記キーポイント各々の状態をさらに含む請求項1又は2に記載の情報処理装置。
【請求項4】
前記状態は、画像外に位置する状態、画像内に位置するが他の物体に隠れている状態、画像内に位置するが自身の部位に隠れている状態を含む請求項3に記載の情報処理装置。
【請求項5】
前記状態は、前記教師画像もしくは前記処理画像において見えていない前記キーポイントを隠している物体の数を示す請求項3に記載の情報処理装置。
【請求項6】
前記学習データを学習した推定モデルに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定手段、
をさらに有する請求項1~5のいずれか1項に記載の情報処理装置。
【請求項7】
前記学習データを学習した推定モデルに基づき、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段をさらに有する請求項1~5のいずれか1項に記載の情報処理装置。
【請求項8】
コンピュータが、
教師画像において人物の身体の見えているキーポイントの位置の指定を受け付ける受付工程と、
前記教師画像と、各人物の位置と、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示すラベルと、前記受け付けたキーポイントの位置とを関連付けた学習データを取得する取得工程と、
を実行する情報処理方法。
【請求項9】
前記コンピュータが、
前記学習データを学習した推定モデルに基づき、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定工程をさらに実行する請求項8に記載の情報処理方法。
【請求項10】
コンピュータを、
教師画像において人物の身体の見えているキーポイントの位置の指定を受け付ける受付手段、
前記教師画像と、各人物の位置と、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示すラベルと、前記受け付けたキーポイントの位置とを関連付けた学習データを取得する取得手段、
として機能させるプログラム。
【請求項11】
前記コンピュータを、
前記学習データを学習した推定モデルに基づき、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段としてさらに機能させる請求項10に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
特許文献1及び非特許文献1には、学習済モデルを用いて画像から人物の身体のキーポイントを抽出する技術が開示されている。
【0003】
特許文献1の技術では、身体の一部が他の遮蔽物に隠れて見えていない画像を学習データとする場合、見えていない部分のキーポイントの位置情報も正解データとして与える。このようにすることで、他の遮蔽物で隠れて見えていないキーポイントも検出可能になると記載されている。
【0004】
非特許文献1の技術では、画像を格子状に分割したマップに対して、人の位置(人の中心位置)を尤度として示すマップと、人の位置を示すマップ位置に位置の修正量及び人のサイズを示したマップと、人の位置を示すマップ位置に関節の種類毎の相対位置を示したマップと、関節の種類毎に関節位置を尤度として示すマップと、関節位置を示すマップ位置に関節位置の修正量を示したマップとを、出力するニューラルネットワークを構成する。そして、非特許文献1の技術では、入力を画像とし、上記の各マップを出力するニューラルネットワークを用いて、画像から人の関節位置を推定する。なお、非特許文献1の技術については、以下で、図面を用いてより詳細に説明する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2004-295436号公報
【非特許文献】
【0006】
【非特許文献1】Xingyi Zhou他、Objects as Points、[Online]、提出日2019年4月16日、検索日2021年4月23日、https://arxiv.org/abs/1904.07850
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来技術の場合、キーポイントの一部が見えていない画像が学習データの中に含まれていると、推定精度が低下するという問題がある。以下、理由を説明する。
【0008】
まず、学習データは、図1に示すように、人物が含まれる教師画像と、人物の身体の複数のキーポイント各々の教師画像内の位置を示す正解ラベルとを紐付けたデータとなる。図中、丸印で、複数のキーポイント各々の教師画像内の位置を示している。なお、図示するキーポイントの種類及び数は一例であり、これに限定されない。
【0009】
キーポイントの一部が見えていない教師画像を学習データとして利用する場合、従来技術においては、図2に示すように、見えているキーポイントの教師画像内の位置のみならず、見えていないキーポイントの教師画像内の位置をも示す正解ラベルを用意して学習することとなる。図2では、手前に位置する人物の足元が遮蔽物により隠れて見えていない。しかし、この人物の足元のキーポイントがこの人物の足元を隠す遮蔽物上で指定されている。例えば、オペレータが、人物の身体の見えている部分に基づき、見えていないキーポイントの教師画像内の位置を予測し、図2に示すような正解ラベルを作成する。
【0010】
このように構成した場合、見えていないキーポイントに関しては、そのキーポイントの外観の特徴が示されていない画像パターンでそのキーポイントの位置を学習することとなる。また、画像において実際に見えていないキーポイントの教師画像内の位置をオペレータが予測して正解ラベルを作成することになるので、実際のキーポイントの位置とずれが発生する恐れがある。例えばこれらの理由から、従来技術の場合、キーポイントの一部が見えていない画像が学習データの中に含まれていると、推定精度が低下するという問題がある。
【0011】
本発明は、学習済モデルを用いて画像から人物の身体のキーポイントを抽出する技術において、キーポイントの一部が見えていない画像が学習データの中に含まれている場合に推定精度が低下する問題を軽減することを課題とする。
【課題を解決するための手段】
【0012】
本発明によれば、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段と、
を有する学習装置が提供される。
【0013】
また、本発明によれば、
コンピュータが、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得工程と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習工程と、
を実行する学習方法が提供される。
【0014】
また、本発明によれば、
コンピュータを、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段、
として機能させるプログラムが提供される。
【0015】
また、本発明によれば、
前記学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段を有する推定装置が提供される。
【0016】
また、本発明によれば、
コンピュータが、
前記学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定工程を実行する推定方法が提供される。
【0017】
また、本発明によれば、
コンピュータを、
前記学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段として機能させるプログラムが提供される。
【発明の効果】
【0018】
本発明によれば、学習済モデルを用いて画像から人物の身体のキーポイントを抽出する技術において、キーポイントの一部が見えていない画像が学習データの中に含まれている場合に推定精度が低下する問題を軽減できる。
【図面の簡単な説明】
【0019】
図1】本実施形態の技術の特徴を説明するための図である。
図2】本実施形態の技術の特徴を説明するための図である。
図3】従来技術を説明するための図である。
図4】従来技術を説明するための図である。
図5】従来技術を説明するための図である。
図6】従来技術を説明するための図である。
図7】従来技術を説明するための図である。
図8】本実施形態の技術を説明するための図である。
図9】本実施形態の技術を説明するための図である。
図10】本実施形態の技術を説明するための図である。
図11】本実施形態の技術を説明するための図である。
図12】本実施形態の技術を説明するための図である。
図13】本実施形態の学習装置の機能ブロック図の一例である。
図14】本実施形態の学習装置の機能ブロック図の一例である。
図15】本実施形態の学習装置の処理の流れの一例を示すフローチャートである。
図16】本実施形態の学習装置及び推定装置のハードウエア構成の一例を示す図である。
図17】本実施形態の推定装置の機能ブロック図の一例である。
図18】本実施形態の推定装置の機能ブロック図の一例である。
図19】本実施形態の推定装置の処理を説明するための図である。
図20】本実施形態の推定装置の処理を説明するための図である。
図21】本実施形態の推定装置の処理の流れの一例を示すフローチャートである。
図22】本実施形態の技術を説明するための図である。
図23】本実施形態の技術を説明するための図である。
図24】本実施形態の技術を説明するための図である。
図25】本実施形態の技術を説明するための図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0021】
「第1の実施形態」
<概要>
本実施形態の学習装置10は、画像において見えていないキーポイントの情報を除いて学習することで、キーポイントの一部が見えていない画像が学習データの中に含まれている場合に推定精度が低下する問題を軽減する。
【0022】
<本実施形態の技術の特徴>
まず、非特許文献1に記載の技術と比較しながら、本実施形態の技術の特徴、具体的には「画像において見えていないキーポイントの情報を除いた学習」を実現するための構成を説明する。
【0023】
-非特許文献1に記載の技術-
最初に、非特許文献1に記載の技術を説明する。図3に示すように、非特許文献1に記載の技術の場合、画像がニューラルネットワークに入力されると、図示するような複数のデータが出力される。換言すれば、非特許文献1に記載のニューラルネットワークは、図示するような複数のデータを出力する複数の層で構成される。
【0024】
図3に示す複数のデータの中の「人位置の尤度」、「人位置の修正量」、「サイズ」、「キーポイントaの相対位置」、「キーポイントbの相対位置」の一例を図4に示す。図5に、図4のデータの元となった画像に、図4のデータ各々の概念を示す説明を追記した図を示す。
【0025】
「人位置の尤度」のデータは、人の身体の中心位置の画像内の位置の尤度を示すデータである。例えば、人の身体の外観の特徴量に基づき人の身体が画像内で検出され、検出結果に基づき人の身体の中心位置の尤度を示すデータが出力される。図示するように、当該データでは、画像を分割して得られた複数の格子各々に人の身体の中心位置が位置する尤度が示される。なお、画像を格子状に分割する手法は設計的事項であり、図示する格子の数及び大きさは一例に過ぎない。図4に示すデータによれば、「左から3つ目、下から3つ目の格子」と、「右から2つ目、上から3つ目の格子」が、人の身体の中心位置が位置する格子として特定される。図5に示すように複数の人物が含まれる画像が入力された場合、複数の人物各々の身体の中心位置が位置する格子が特定される。
【0026】
「人位置の修正量」のデータは、人の身体の中心位置が位置すると特定された格子の中心から人の身体の中心位置に移動するまでのx方向の移動量、及びy方向の移動量を示すデータである。図5に示すように、人の身体の中心位置は、1つの格子の中のある位置に存在する。人位置の尤度と、人位置の修正量を利用することで、画像内における人の身体の中心位置を特定することができる。
【0027】
「サイズ」のデータは、人の身体を包含する矩形エリアの縦横の長さを示すデータである。
【0028】
「キーポイントの相対位置」のデータは、複数のキーポイント各々の画像内の位置を示すデータである。具体的には、複数のキーポイント各々と、身体の中心位置が位置する格子の中心との相対的な位置関係を示す。なお、図4及び図5では人物毎に2つのキーポイントの位置が示されているが、キーポイントの数は3以上となり得る。
【0029】
次に、図3に示す複数のデータの中の「キーポイントaの位置の尤度」、「キーポイントbの位置の尤度」、「キーポイントの位置の修正量」の一例を図6に示す。図7に、図6のデータの元となった画像に、図6のデータ各々の概念を示す説明を追記した図を示す。
【0030】
「キーポイントの位置の尤度」のデータは、複数のキーポイント各々の画像内の位置の尤度を示すデータである。例えば、複数のキーポイント各々の外観の特徴量に基づき各キーポイントが画像内で検出され、検出結果に基づき各キーポイントの位置の尤度を示すデータが出力される。図示するように、キーポイント毎に当該データが出力される。そして、当該データでは、画像を分割して得られた複数の格子各々に各キーポイントが位置する尤度が示される。なお、図示する格子の数は一例に過ぎない。図7に示すように複数の人物が含まれる画像が入力された場合、複数の人物各々のキーポイントが位置する尤度が示される。図6に示すデータによれば、「左から4つ目、下から1つ目の格子」と、「右から2つ目、上から4つ目の格子」が、キーポイントaが位置する格子として特定される。また、「左から4つ目、下から4つ目の格子」と、「右から2つ目、上から2つ目の格子」が、キーポイントbが位置する格子として特定される。なお、図では2つのキーポイントのデータが示されているが、キーポイントの数は3以上となり得る。そして、キーポイント毎に上述したようなデータが出力される。
【0031】
「キーポイントの位置の修正量」のデータは、複数のキーポイント各々が位置すると特定された格子の中心から各キーポイントの位置に移動するまでのx方向の移動量、及びy方向の移動量を示すデータである。図7に示すように、各キーポイントは、1つの格子の中のある位置に存在する。各キーポイントの位置の尤度と、各キーポイントの位置の修正量を利用することで、画像内における各キーポイントの位置を特定することができる。
【0032】
非特許文献1に記載の技術では、入力された画像から上述のような複数のデータを出力した後、当該複数のデータと、予め与えられた正解ラベルとに基づき、所定の損失関数の値を最小化することで、推定モデルのパラメータを算出(学習)する。また、推定時においては、各キーポイントの画像内の位置を2つの手法(図4に示す格子の中心位置からの相対位置、図6に示す尤度と修正量)で特定されているが、例えば、2つの手法各々で算出した位置を統合した結果が、複数のキーポイント各々の位置として利用される。統合の手法としては、平均、加重平均、どちらか一方の選択、等が例示される。
【0033】
-本実施形態の技術-
次に、本実施形態の技術を、非特許文献1に記載の技術と比較しながら説明する。図8に示すように、本実施形態の技術においても、画像がニューラルネットワークに入力されると、図示するような複数のデータが出力される。換言すれば、本実施形態のニューラルネットワークは、図示するような複数のデータを出力する複数の層で構成される。
【0034】
図3図8の比較から明らかなように、本実施形態の技術は、出力されるデータの中に、複数のキーポイント各々に対応した「隠れ情報」のデータを含む点で、非特許文献1に記載の技術と異なる。
【0035】
図8に示す複数のデータの中の「人位置の尤度」、「人位置の修正量」、「サイズ」、「キーポイントaの隠れ情報」、「キーポイントaの相対位置」、「キーポイントbの隠れ情報」、「キーポイントbの相対位置」の一例を図9に示す。図10に、図9のデータの元となった画像に、図9のデータ各々の概念を示す説明を追記した図を示す。
【0036】
「人位置の尤度」、「人位置の修正量」及び「サイズ」のデータは、非特許文献1に記載の技術と同じ概念である。
【0037】
「キーポイントの隠れ情報」のデータは、各キーポイントが画像において隠れているか否か、すなわち各キーポイントが画像において見えているか否かを示すデータである。キーポイントが画像において見えていない状態は、キーポイントが画像外に位置する状態、及び、キーポイントが画像内に位置するが他の物体(他の人物及びその他の物体等)に隠れている状態を含む。
【0038】
図9に示すように、キーポイント毎に当該データが出力される。図示する例では見えているキーポイントに「0」の値が付与され、見えていないキーポイントに「1」の値が付与されている。図10に示す例の場合、手前に位置する人物1のキーポイントaは他の物体に隠れて見えていない。このため、本実施形態の学習済みのニューラルネットワークを利用すると、図9に示すように人物1のキーポイントaの隠れ情報として「1」を付与したデータが出力されるようになる。
【0039】
なお、図では2つのキーポイントのデータが示されているが、キーポイントの数は3以上となり得る。そして、キーポイント毎に上述したようなデータが出力される。
【0040】
「キーポイントの相対位置」のデータは、複数のキーポイント各々の画像内の位置を示すデータである。本実施形態の「キーポイントの相対位置」のデータは、キーポイントの隠れ情報のデータで見えていることが示されているキーポイントのデータを含み、キーポイントの隠れ情報のデータで見えていないことが示されているキーポイントのデータを含まない点で、非特許文献1に記載の技術と異なる。その他は、非特許文献1に記載の技術と同じ概念である。
【0041】
図10に示す例の場合、手前に位置する人物1のキーポイントa(足元のキーポイント)は他の物体に隠れて見えていない。このため、本実施形態の学習済みのニューラルネットワークを利用すると、図9に示すように人物1のキーポイントaの相対位置のデータを含まないキーポイントaの相対位置のデータが出力されるようになる。図9に示すキーポイントaの相対位置のデータは、図10に示す人物2のキーポイントaの相対位置のデータのみを含んでいる。
【0042】
次に、図8に示す複数のデータの中の「キーポイントaの位置の尤度」、「キーポイントbの位置の尤度」、「キーポイントの位置の修正量」の一例を図11に示す。図12に、図11のデータの元となった画像に、図11のデータ各々の概念を示す説明を追記した図を示す。
【0043】
「キーポイントの位置の尤度」のデータは、非特許文献1に記載の技術と同じ概念である。図12に示す例の場合、手前に位置する人物1のキーポイントaは他の物体に隠れて見えていない。このため、本実施形態の学習済みのニューラルネットワークを利用すると、図11に示すように人物1のキーポイントaの位置の尤度のデータを含まないキーポイントaの位置の尤度のデータが出力されるようになる。図11に示すキーポイントaの位置の尤度のデータは、図12に示す人物2のキーポイントaの位置の尤度のデータのみを含んでいる。
【0044】
「キーポイントの位置の修正量」のデータは、非特許文献1に記載の技術と同じ概念である。図12に示す例の場合、手前に位置する人物1のキーポイントa(足元のキーポイント)は他の物体に隠れて見えていない。このため、本実施形態の学習済みのニューラルネットワークを利用すると、図11に示すように人物1のキーポイントaの位置の修正量のデータを含まないキーポイントaの位置の修正量のデータが出力されるようになる。
【0045】
以上、本実施形態の技術は、少なくとも、複数のキーポイント各々の隠れ情報のデータを出力する点、及び、隠れ情報で見えていないことが示されているキーポイントの位置のデータを出力しない点で、非特許文献1に記載の技術と異なる。そして、本実施形態の技術では、非特許文献1に記載の技術が有さないこれらの特徴を備えることで、画像において見えていないキーポイントの情報を除いた学習を実現する。
【0046】
<機能構成>
次に、本実施形態の学習装置の機能構成を説明する。図13に、学習装置10の機能ブロック図の一例を説明する。図示するように、学習装置10は、取得部11と、学習部12と、記憶部13とを有する。なお、図14の機能ブロック図に示すように、学習装置10は記憶部13を有さなくてもよい。この場合、学習装置10と通信可能に構成された外部装置が記憶部13を備える。
【0047】
取得部11は、教師画像と正解ラベルとを紐付けた学習データを取得する。教師画像は、人物が含まれる。教師画像は、1人の人物のみを含んでもよいし、複数の人物を含んでもよい。正解ラベルは、少なくとも、人物の身体の複数のキーポイント各々が教師画像において見えているか否か、及び、教師画像において見えているキーポイントの教師画像内の位置を示す。正解ラベルは、教師画像において見えていないキーポイントの教師画像内の位置は示さない。なお、正解ラベルは、例えば人の位置や人のサイズ等のその他の情報を含んでもよい。また、正解ラベルは、元の正解ラベルを加工した新しい正解ラベルでもよい。例えば、上記キーポイントの教師画像内の位置と上記キーポイントの隠れ情報から加工した図8に示される複数のデータという正解ラベルでもよい。
【0048】
例えば、正解ラベルを作成するオペレータは、画像内で見えているキーポイントのみを画像内で指定する作業等を行えばよい。そして、オペレータは、他の物体に隠れて見えていないキーポイントの画像内の位置を予測して、画像内で指定する等の面倒な作業を行わなくてもよい。
【0049】
キーポイントは、関節部分、所定のパーツ部分(目、鼻、口、へそ等)、身体の末端部分(頭の先、足先、手先等)の中の少なくとも一部であってもよい。また、キーポイントは、その他の部分であってもよい。キーポイントの数や位置の定義の仕方は様々であり、特段制限されない。
【0050】
例えば、記憶部13に多数の学習データが記憶されている。そして、取得部11は、記憶部13から学習データを取得することができる。
【0051】
学習部12は、学習データに基づき推定モデルを学習する。記憶部13が推定モデルを記憶する。推定モデルは、図8を用いて説明したニューラルネットワークを含んで構成される。推定モデルは、図8に示される複数のデータを出力する。図8に示される複数のデータは、各人物の位置を示す情報、処理画像に含まれる各人物の複数のキーポイント各々が処理画像において見えているか否かを示す情報、及び、前記処理画像において見えているキーポイントの処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報等を示す。キーポイント各々の位置に関係する情報は、各キーポイントの相対位置、各キーポイントの位置の尤度、各キーポイントの位置の修正量等を示す。
【0052】
そして、当該推定モデルが出力した複数のデータを用いて、各種推定処理を行うことができる。例えば、推定部(例えば、以下の実施形態で説明する推定部21)は、図8乃至図12を用いて説明したような複数のデータの一部に基づく所定の演算処理を行う。推定部は、処理画像において見えているキーポイントの処理画像内の位置を推定することができる。例えば、推定部は、図9に示す人の位置(人の中心位置)の尤度と中心位置からの相対位置で示される各キーポイントの位置に基づき特定される各キーポイントの処理画像内の位置と、図11に示す各キーポイントの位置の尤度と修正量に基づき特定される各キーポイントの処理画像内の位置とを統合した結果を、複数のキーポイント各々の処理画像内の位置として算出する。統合の手法としては、平均、加重平均、どちらか一方の選択、等が例示されるがこれらに限定されない。
【0053】
学習部12は、学習データの隠れ情報や学習データのキーポイントの位置情報において、見えていることが示されているキーポイントの情報のみを用いて、すなわち、学習データの隠れ情報や学習データのキーポイントの位置情報において、見えていないことが示されているキーポイントの情報を用いずに学習する。例えば、学習部12は、キーポイントの位置に関する学習の際、学習データでキーポイントが見えていることを示す格子上の位置に対して、学習中の推定モデルから出力されるキーポイントの位置情報と、学習データ(正解ラベル)のキーポイントの位置情報との誤差を最小化するように推定モデルのパラメータを調整する。
【0054】
ここで、学習部12による学習の手法の具体例を説明する。
【0055】
学習部12は、人の位置(中心位置)の尤度のデータについては、学習中の推定モデルから出力される人の位置の尤度を示すマップと、学習データの人の位置の尤度を示すマップとの誤差を最小化するように学習する。また、学習部12は、人の位置の修正量、人のサイズ、各キーポイントの隠れ情報のデータについては、学習データの人の位置を示す格子上の位置のみに対して、学習中の推定モデルから出力される人の位置の修正量、人のサイズ、各キーポイントの隠れ情報と、学習データの人の位置の修正量、人のサイズ、各キーポイントの隠れ情報との誤差を最小化するように学習する。
【0056】
また、学習部12は、各キーポイントの相対位置のデータについては、学習データの人の位置を示す格子上の位置の中で、さらに学習データの各キーポイントの隠れ情報で隠れていないことを示す格子上の位置のみに対して、学習中の推定モデルから出力される各キーポイントの相対位置と、学習データの各キーポイントの相対位置との誤差を最小化するように学習する。
【0057】
また、学習部12は、各キーポイントの位置の尤度のデータについては、学習中の推定モデルから出力される各キーポイントの位置の尤度を示すマップと、学習データの各キーポイントの位置の尤度を示すマップとの誤差を最小化するように学習する。また、学習部12は、各キーポイントの位置の修正量のデータについては、学習データの各キーポイントの位置を示す格子上の位置のみに対して、学習中の推定モデルから出力される各キーポイントの位置の修正量と、学習データの各キーポイントの位置の修正量との誤差を最小化するように学習する。学習データの各キーポイントの位置の尤度、及び、学習データのキーポイントの位置の修正量は、見えているキーポイントしか示されていないので、おのずと見えているキーポイントのみで学習することになる。
【0058】
このように、学習部12は、キーポイントの位置に関する学習の際、学習データでキーポイントが見えていることを示す格子上の位置に対して、学習中の推定モデルから出力されるキーポイントの位置情報と、学習データ(正解ラベル)のキーポイントの位置情報との誤差を最小化するように推定モデルのパラメータを調整する。
【0059】
図15を用いて、学習装置10の処理の流れの一例を説明する。
【0060】
S10では、学習装置10は、教師画像と正解ラベルとを紐付けた学習データを取得する。当該処理は、取得部11により実現される。取得部11が実行する処理の詳細は上述した通りである。
【0061】
S11では、学習装置10は、S10で取得した学習データを用いて推定モデルを学習する。当該処理は、学習部12により実現される。学習部12が実行する処理の詳細は上述した通りである。
【0062】
学習装置10は、終了条件をみたすまで、S10及びS11のループを繰り返す。終了条件は、例えば損失関数の値等を用いて定義される。
【0063】
<ハードウエア構成>
次に、学習装置10のハードウエア構成の一例を説明する。学習装置10の各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
【0064】
図16は、学習装置10のハードウエア構成を例示するブロック図である。図16に示すように、学習装置10は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。学習装置10は周辺回路4Aを有さなくてもよい。なお、学習装置10は物理的及び/又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。
【0065】
バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
【0066】
<作用効果>
本実施形態の学習装置10が学習する推定モデルは、複数のキーポイント各々が画像において見えているか否かを示す隠れ情報のデータを出力するという特徴を有する。そして、当該推定モデルは、隠れ情報のデータで見えていないことが示されているキーポイントの位置情報を出力しないという特徴をさらに有する。また、学習装置10は、当該推定モデルを学習する際、キーポイントの位置情報の学習データに関して、キーポイントが画像に見えている位置情報のみを与えられればよいという特徴を有する。学習装置10は、このような推定モデルから出力された結果と正解ラベル(学習データ)とに基づき、推定モデルのパラメータを最適化する。このような学習装置10によれば、画像において見えていないキーポイントの情報を除いて正しく学習することが可能となる。結果、学習データの中にキーポイントの一部が見えていない画像が含まれている場合に推定精度が低下する問題を軽減できる。
【0067】
「第2の実施形態」
本実施形態の推定装置は、第1の実施形態の学習装置により学習された推定モデルを用いて、画像に含まれる各人物の複数のキーポイント各々の画像内の位置を推定する。以下、詳細に説明する。
【0068】
図17に、推定装置20の機能ブロック図の一例を示す。図示するように、推定装置20は、推定部21と、記憶部22とを有する。なお、図18の機能ブロック図に示すように、推定装置20は記憶部22を有さなくてもよい。この場合、推定装置20と通信可能に構成された外部装置が記憶部22を備える。
【0069】
推定部21は、任意の画像を処理画像として取得する。例えば、推定部21は、監視カメラが撮影した画像を処理画像として取得してもよい。
【0070】
そして、推定部21は、学習装置10により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の処理画像内の位置を推定し、出力する。第1の実施形態で説明した通り、推定モデルは、画像が入力されると、図8乃至図11を用いて説明したデータを出力する。推定部21は、この推定モデルで出力されたデータを用いて、さらに推定処理を行うことで、処理画像に含まれる各人物の複数のキーポイント各々の処理画像内の位置を推定し、推定結果として出力する。学習済みの推定モデルは、記憶部22に記憶されている。推定結果の出力は、ディスプレイ、投影装置、プリンター、電子メール等のあらゆる手段を利用して実現される。また、推定部21は、推定モデルで出力されたデータをそのまま推定結果として出力してもよい。
【0071】
なお、推定部21は、推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々が処理画像において見えているか否かを推定し、当該推定の結果を用いて、処理画像に含まれる各人物の複数のキーポイント各々の処理画像内の位置を推定するという特徴を有する。以下、推定部21が行う処理の一例を、図19及び図20を用いて説明する。
【0072】
(ステップ1):処理画像を推定モデルで処理し、図8乃至図11に示すような複数のデータを得る。
(ステップ2):人位置の尤度のデータに基づき、各人物の、人の中心位置(図19のP11)が位置する(含まれる)格子(図19のP1)を特定する。具体的には、尤度が閾値以上の格子を特定する。
(ステップ3):人位置の修正量のデータから、(ステップ2)で特定した格子の位置に対応する修正量(図19のP10)を取得する。
(ステップ4):(ステップ2)で特定した格子の位置(格子の中心位置も含む)、及び(ステップ3)で取得した修正量に基づき、処理画像に含まれる人毎に、処理画像内の人の中心位置(図19のP11)を特定する。これにより、各人物の身体の中心位置が特定される。
【0073】
(ステップ5):サイズのデータから、(ステップ2)で特定した格子の位置に対応する人物のサイズを取得する。これにより、各人物のサイズが特定される。
(ステップ6):各キーポイントの隠れ情報のデータから、(ステップ2)で特定した格子の位置に対応するデータを取得する。これにより、各人物の各キーポイントにおける見えていないという情報及び見えているという情報が特定される。
(ステップ7):各キーポイントの相対位置のデータから、(ステップ6)でキーポイントが見えていると特定された格子の位置に対応するデータのみ(図19のP12)を取得する。これにより、各人物の、見えているキーポイント各々における相対位置のみが取得される。
(ステップ8):(ステップ2)で特定された格子の中心と、(ステップ7)で取得したデータとを用いて、見えているキーポイント各々の処理画像内の位置(図19のP2)を特定する。これにより、各人物の、見えているキーポイント各々における処理画像内の位置が特定される。
【0074】
(ステップ9):キーポイントの位置の尤度のデータに基づき、各キーポイント(図20のP5)が位置する(含まれる)格子(図20のP4)を特定する。具体的には、尤度が閾値以上の格子を特定する。
(ステップ10):キーポイントの位置の修正量のデータから、(ステップ9)で特定した格子の位置に対応する修正量(図20のP6)を取得する。
(ステップ11):(ステップ9)で特定した格子の位置(格子の中心位置も含む)、及び(ステップ10)で取得した修正量に基づき、処理画像に含まれるキーポイント各々の処理画像内の位置(図20のP5)を特定する。
(ステップ12):(ステップ8)で求めた各人物の処理画像内のキーポイントの位置と、(ステップ11)で求めた処理画像内のキーポイントの位置に対し、同じ種類のキーポイントで距離が近いもの(例:距離が閾値以下のもの)を対応付け、対応付けた位置の統合により、(ステップ8)で求めた各人物の処理画像内のキーポイントの位置を補正することで、処理画像において各人物の見えている複数のキーポイント各々の処理画像内における位置を算出する。統合の手法としては、平均、加重平均、どちらか一方の選択、等が例示される。
【0075】
(ステップ12)で算出されたキーポイント各々の処理画像内における位置と、人の位置を示す格子の位置は、(ステップ8)で対応づけられているので、算出されたキーポイント各々の処理画像内における位置は、どの人物に対応しているかが分かることになる。また、(ステップ7)では、(ステップ6)でキーポイントが見えていると特定された格子の位置に対応するデータのみを取得したが、見えていないと特定された格子の位置も含めてデータを取得してもよい。
【0076】
なお、推定部21は、処理画像内において各人物の、見えていない複数のキーポイント各々の処理画像内における位置を推定してもよいし、推定しなくてもよい。推定しない場合、各人物に対して、見えていないキーポイントの種類が分かっているので、その情報(見えていないキーポイントの種類)を人物毎に出力することも可能である。さらには、図24のP40に示すように、人物毎の見えていないキーポイントの種類を人を模したオブジェクトに表し人物毎に表示することも可能である。
【0077】
推定する場合、推定する処理としては、例えば、次のようなものが考えられる。推定部21は、予め定義された人に対する複数のキーポイントの接続関係に基づき、見えていないキーポイントと直接繋がる見えているキーポイントを特定する。そして、推定部21は、見えていないキーポイントと直接繋がる見えているキーポイントの処理画像内の位置に基づき、見えていないキーポイントの処理画像内の位置を推定する。その詳細は様々であり、あらゆる技術を利用して実現することができる。
【0078】
また、推定された見えていないキーポイントの処理画像内の位置は、その位置を中心とする円の範囲として表示することもできる。推定された見えていないキーポイントの処理画像内の位置は、実際にはおおよその位置であるため、それを表現できる表示方法である。円の範囲は、キーポイントが属する人物に対応するキーポイントの位置の広がりに基づいて算出してもよいし、固定でもよい。ちなみに、推定された見えているキーポイントの処理画像内の位置は、正確であるため、その位置を一点で示せるオブジェクト(点、図形など)で表示すればよい。
【0079】
次に、図21のフローチャートを用いて、推定装置20の処理の流れの一例を説明する。
【0080】
S20では、推定装置20は、処理画像を取得する。例えば、オペレータが処理画像を推定装置20に入力する。そして、推定装置20は、入力された処理画像を取得する。
【0081】
S21では、推定装置20は、学習装置10により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の処理画像内の位置を推定する。当該処理は、推定部21により実現される。推定部21が実行する処理の詳細は上述した通りである。
【0082】
S22では、推定装置20は、S21の推定結果を出力する。推定装置20は、ディスプレイ、投影装置、プリンター、電子メール等のあらゆる手段を利用することができる。
【0083】
次に、推定装置20のハードウエア構成の一例を説明する。推定装置20の各機能部は、任意のコンピュータのCPU、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
【0084】
図16は、推定装置20のハードウエア構成を例示するブロック図である。図16に示すように、推定装置20は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。推定装置20は周辺回路4Aを有さなくてもよい。なお、推定装置20は物理的及び/又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。
【0085】
以上説明した本実施形態の推定装置20によれば、画像において見えていないキーポイントの情報を除いて正しく学習した推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の処理画像内の位置を推定することができる。このような推定装置20によれば、当該推定の精度が向上する。
【0086】
「変形例」
以下、いくつかの変形例を説明する。上記実施形態は、以下の複数の変形例の中の1つ又は複数を採用した構成とすることもできる。
【0087】
-第1の変形例-
推定部21は、推定された各人物に対する、処理画像において見えていると推定されたキーポイントの数、及び、処理画像において見えていないと推定されたキーポイントの数の少なくとも一方に基づき、推定された人物毎に、処理画像において人物の身体が見えている程度、及び、処理画像において人物の身体が隠れている程度の少なくとも一方を示す情報を計算し、出力してもよい。
【0088】
例えば、推定部21は、推定された人物毎の(キーポイントの総数)に対する(処理画像において見えていると推定されたキーポイントの数)の割合を、推定された各人物に対する処理画像において人物の身体が見えている程度を示す情報として算出してもよい。
【0089】
その他、推定部21は、推定された人物毎の(キーポイントの総数)に対する(処理画像において見えていないと推定されたキーポイントの数)の割合を、推定された各人物に対する処理画像において人物の身体が隠れている程度を示す情報として算出してもよい。
【0090】
上記に示す、計算された人物毎の身体が見えている/見えていない程度を示す情報(もしくは、割合)は、図22のP30に示すように、各人物の中心位置もしくは指定したキーポイントの位置に基づき、人物毎に表示されてもよい。また、その情報(もしくは、割合)を指定の閾値に基づいて、人物毎の隠れなし/隠れありという情報に変換し、その変換された情報を上記と同様な方法で表示してもよい(図23のP31)。さらに、人物毎の隠れなし/隠れありという情報に色/模様を割り当てて、図23のP32に示すように、人物単位のキーポイントをその色で表示してもよい。
【0091】
-第2の変形例-
上述した実施形態の推定モデルは、各人物の、複数のキーポイント各々が処理画像において見えているか否かを学習し推定した。変形例として、推定モデルは、上述した隠れ情報の代わりに、又は上述した隠れ情報に加えて、処理画像において見えていないキーポイント各々の隠れ方の状態をさらに学習し推定してもよい。当該変形例では、学習データの正解ラベルにおいて、教師画像において見えていないキーポイント各々の隠れ方の状態がさらに示される。見えていないキーポイントの隠れ方の状態は、例えば、画像外に位置する状態、画像内に位置するが他の物体に隠れている状態、画像内に位置するが自身の部位に隠れている状態、を含むことができる。
【0092】
当該変形例を実現する一例として、隠れ情報にこれらの情報を付加する例が考えられる。例えば、上記実施形態では、隠れ情報において、見えているキーポイントに「0」の値が付与され、見えていないキーポイントに「1」の値が付与された。変形例では、隠れ情報において、例えば、見えているキーポイントに「0」の値が付与され、画像外に位置する状態のため見えていないキーポイントに「1」の値が付与され、画像内に位置するが他の物体に隠れている状態のため見えていないキーポイントに「2」の値が付与され、画像内に位置するが自身の部位に隠れている状態のため見えていないキーポイントに「3」の値が付与されてもよい。隠れ情報の1以上が、見えていないキーポイントを示す。
【0093】
-第3の変形例-
上述した実施形態の推定モデルは、各人物の、複数のキーポイント各々が処理画像において見えているか否かを学習し推定した。変形例として、推定モデルは、上述した隠れ情報の代わりに、又は上述した隠れ情報に加えて、処理画像において見えていないキーポイント各々の重なり方の状態を、当該キーポイントを隠している物体の数として、さらに学習し推定してもよい。当該変形例では、学習データの正解ラベルにおいて、教師画像において見えていないキーポイント各々の重なり方の状態が、当該キーポイントを隠している物体の数として、さらに示される。
【0094】
当該変形例を実現する一例として、隠れ情報にこれらの情報を付加する例が考えられる。例えば、上記実施形態では、隠れ情報において、見えているキーポイントに「0」の値が付与され、見えていないキーポイントに「1」の値が付与された。変形例では、隠れ情報において、例えば、見えているキーポイントに「0」の値が付与され、見えていないキーポイントにはそのキーポイントを隠している物体の数Mに応じた値、例えば「M」の値が付与される。隠れ情報の1以上が、見えていないキーポイントを示す。
【0095】
上記に示す、人物毎の各キーポイントを隠している物体の数において、人物毎に最大値を計算し、計算された最大値を人物毎の重なり方の状態として算出する。算出された人物毎の重なり方の状態(もしくは、最大値)は、図25のP35に示すように、各人物の中心位置もしくは指定したキーポイントの位置に基づき、人物毎に表示されてもよい。また、人物毎の重なり方の状態に色/模様を割り当てて、図25のP36に示すように、人物単位のキーポイントをその色で表示してもよい。
【0096】
上記に示す、人物毎の各キーポイントを隠している物体の数、もしくは、人物毎の重なり方の状態(もしくは、最大値)がわかるので、それらの情報に基づき、人物単位またはキーポイント単位の奥行情報を構築することも可能である。ここで示す奥行情報とは、カメラからの距離の順番を示す。
【0097】
なお、第3の変形例は、第2の変形例と組み合わせることもできる。
【0098】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【0099】
なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと(能動的な取得)」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等、および、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること(受動的な取得)」、たとえば、配信(または、送信、プッシュ通知等)されるデータを受信すること、また、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集(テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等)などして新たなデータを生成し、当該新たなデータを取得すること」の少なくともいずれか一方を含む。
【0100】
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. 人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段と、
を有する学習装置。
2. 前記正解ラベルにおいて、前記教師画像において見えていない前記キーポイントの前記教師画像内の位置は示されない1に記載の学習装置。
3. 前記学習手段は、
学習中の前記推定モデルに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、複数の前記キーポイント各々の前記教師画像内の位置を算出するためのキーポイント各々の位置に関する情報、を推定し、
各人物の位置を示す情報の推定結果と、前記正解ラベルで示される各人物の位置を示す情報との差を最小化するように前記推定モデルのパラメータを調整し、
前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報の推定結果と、前記正解ラベルで示される各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す情報との差を最小化するように前記推定モデルのパラメータを調整し、
複数の前記キーポイント各々の前記教師画像内の位置を算出するためのキーポイント各々の位置に関する情報の推定結果と、前記正解ラベルで示される複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置から得られたキーポイント各々の位置に関する情報との差を、前記正解ラベルで示される前記教師画像において見えているキーポイントのみに対して、最小化するように前記推定モデルのパラメータを調整する1又は2に記載の学習装置。
4. 前記正解ラベルは、前記教師画像において人物毎の見えていない前記キーポイント各々の状態をさらに示し、
前記推定モデルは、前記処理画像において人物毎の見えていない前記キーポイント各々の前記状態をさらに推定する1から3のいずれかに記載の学習装置。
5. 前記状態は、画像外に位置する状態、画像内に位置するが他の物体に隠れている状態、画像内に位置するが自身の部位に隠れている状態を含む4に記載の学習装置。
6. 前記状態は、前記教師画像もしくは前記処理画像において見えていない前記キーポイントを隠している物体の数を示す4に記載の学習装置。
7. 1から6のいずれかに記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段を有する推定装置。
8. 前記推定手段は、前記推定モデルを用いて、前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを推定し、当該推定の結果を用いて、前記処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する7に記載の推定装置。
9. 前記推定手段は、前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かという前記推定された情報を用いて、人物毎に見えていないキーポイントの種類を出力する、もしくは、前記見えていないキーポイントの種類を人を模したオブジェクトに表し人物毎に表示する8に記載の推定装置。
10. 前記推定手段は、前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かという前記推定された情報を用いて、見えていないキーポイントを特定し、予め定義された人に対する複数のキーポイントの接続関係に基づき、前記特定された見えていないキーポイントと直接繋がる見えているキーポイントを特定し、前記特定された見えているキーポイントの処理画像内の位置に基づき、前記特定された見えていないキーポイントの処理画像内の位置を推定する8又は9に記載の推定装置。
11. 前記推定手段は、
推定された各人物に対する、前記処理画像において見えていると推定された前記キーポイントの数、及び、前記処理画像において見えていないと推定された前記キーポイントの数の少なくとも一方に基づき、推定された人物毎に、前記処理画像において人物の身体が見えている程度、及び、前記処理画像において人物の身体が隠れている程度の少なくとも一方を示す情報を計算する7から10のいずれかに記載の推定装置。
12. 前記推定手段は、前記計算された人物の身体が見えている程度、及び、人物の身体が隠れている程度の少なくとも一方を示す情報を、各人物の中心位置もしくは指定したキーポイント位置に基づき、人物毎に表示する11に記載の推定装置。
13. 前記推定手段は、前記計算された人物の身体が見えている程度、及び、人物の身体が隠れている程度の少なくとも一方を示す情報を指定の閾値に基づいて、人物毎の隠れなし/隠れありという情報に変換し、その変換された情報を、各人物の中心位置もしくは指定したキーポイント位置に基づき、人物毎に表示する11に記載の推定装置。
14. 前記推定手段は、人物毎の各キーポイントを隠している前記物体の数において、人物毎に最大値を計算し、計算された最大値を人物毎の重なり方の状態として算出し、算出された人物毎の重なり方の状態を、各人物の中心位置もしくは指定したキーポイントの位置に基づき、人物毎に表示する、もしくは、人物毎の重なり方の状態に色/模様を割り当てて、人物単位のキーポイントを割り当てた色で表示する7に記載の推定装置。
15. コンピュータが、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得工程と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習工程と、
を実行する学習方法。
16. コンピュータを、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段、
として機能させるプログラム。
17. コンピュータが、
1から6のいずれかに記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定工程を実行する推定方法。
18. コンピュータを、
1から6のいずれかに記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段として機能させるプログラム。
【符号の説明】
【0101】
10 学習装置
11 取得部
12 学習部
13 記憶部
20 推定装置
21 推定部
22 記憶部
1A プロセッサ
2A メモリ
3A 入出力I/F
4A 周辺回路
5A バス
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25