特開2024-101684 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカミノルタ株式会社の特許一覧

特開2024-101684学習用データ生成装置、学習用データ生成方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024101684

(43)【公開日】2024-07-30

(54)【発明の名称】学習用データ生成装置、学習用データ生成方法、及び、プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240723BHJP

G06V 10/774 20220101ALI20240723BHJP

【ＦＩ】

G06T7/00 660B

G06T7/00 350B

G06V10/774

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2023005734

(22)【出願日】2023-01-18

(71)【出願人】

【識別番号】000001270

【氏名又は名称】コニカミノルタ株式会社

(74)【代理人】

【識別番号】100117651

【弁理士】

【氏名又は名称】高垣泰志

(72)【発明者】

【氏名】加世田匠

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA09

5L096BA08

5L096CA05

5L096DA01

5L096DA02

5L096FA02

5L096FA66

5L096FA67

5L096FA69

5L096FA72

5L096HA11

(57)【要約】（修正有）

【課題】人物を撮影した二次元画像に人物の一部が写っていないときでも二次元画像にアノテーションを紐付けた学習用データを生成する装置、方法及びプログラムを提供する。
【解決手段】学習用データ生成装置１０は、人物Ｕの複数の二次元画像を取得する画像取得部２１と、三次元空間を構築して三次元画像を生成する画像生成部２２と、複数の二次元画像のそれぞれから人物Ｕを抽出し、人物Ｕを三次元空間に配置したアノテーション座標を生成する座標生成部２３と、三次元画像に基づいて任意の視点から見た人物Ｕの学習用二次元画像Ｄｆを生成すると共に、アノテーション座標を変換した学習用座標Ｄｇを生成し、学習用データＤＬを生成する学習用データ生成部２４と、を備える。座標生成部は、二次元画像に人物Ｕの一部が写っていないとき二次元画像に写っている他の部分に基づいて二次元画像に写っていない一部の位置を推定してアノテーション座標を生成する。
【選択図】図２

【特許請求の範囲】

【請求項1】

人物を複数の視点から撮影した複数の二次元画像を取得する画像取得部と、
前記複数の二次元画像に基づいて三次元空間を構築し、三次元画像を生成する画像生成部と、
前記複数の二次元画像のそれぞれに写っている前記人物を抽出し、前記人物を前記三次元空間に配置したアノテーション座標を生成する座標生成部と、
前記三次元空間における視点位置を設定し、前記三次元画像に基づいて前記視点位置から見た前記人物の学習用二次元画像を生成すると共に、前記アノテーション座標を、前記視点位置を基準とした学習用座標に変換し、前記学習用二次元画像と前記学習用座標とを組み合わせた学習用データを生成する学習用データ生成部と、
を備え、
前記座標生成部は、前記二次元画像に前記人物の一部が写っていないとき、前記二次元画像に写っている部分に基づいて前記二次元画像に写っていない一部の位置を推定して前記アノテーション座標を生成することを特徴とする学習用データ生成装置。

【請求項2】

前記座標生成部は、前記複数の二次元画像のそれぞれに写っている前記人物の骨格を抽出し、前記骨格を前記三次元空間に配置したアノテーション座標を生成し、
前記座標生成部は、前記二次元画像に前記人物の一部の骨格が写っていないとき、前記二次元画像に写っている骨格に基づいて前記一部の骨格の位置を推定し、前記アノテーション座標を生成することを特徴とする請求項１に記載の学習用データ生成装置。

【請求項3】

前記座標生成部は、前記二次元画像に前記人物の一方の手が写っていないとき、前記二次元画像に写っている他方の手に基づいて前記一方の手の位置を推定し、前記アノテーション座標を生成することを特徴とする請求項１に記載の学習用データ生成装置。

【請求項4】

前記座標生成部は、前記二次元画像において前記人物の一部が他の物体に隠れて写っていないとき、前記三次元空間における前記物体の座標位置を検出し、前記二次元画像に写っていない一部の位置を前記物体に重ならない位置に推定することを特徴とする請求項１に記載の学習用データ生成装置。

【請求項5】

前記二次元画像は、動画像であり、
前記座標生成部は、前記二次元画像において特定のタイミングで前記人物の一部が写っていないとき、前記二次元画像において前記特定のタイミング以外のタイミングで前記人物の一部が写っていれば、前記特定のタイミング以外のタイミングでの前記人物の一部の位置に基づいて前記特定のタイミングでの前記人物の一部の位置を推定することを特徴とする請求項１に記載の学習用データ生成装置。

【請求項6】

前記座標生成部は、前記特定のタイミング以外のタイミングで前記人物の一部が移動しているとき、前記人物の一部の移動方向及び移動速度に基づいて前記特定のタイミングにおける前記人物の一部の位置を推定することを特徴とする請求項５に記載の学習用データ生成装置。

【請求項7】

前記学習用データ生成部は、前記視点位置を変化させ、複数の前記学習用データを生成することを特徴とする請求項１に記載の学習用データ生成装置。

【請求項8】

前記学習用データ生成部は、前記三次元空間における注視点を設定し、前記注視点を中心にした前記学習用二次元画像を生成することを特徴とする請求項１に記載の学習用データ生成装置。

【請求項9】

前記学習用データ生成部は、前記注視点を変化させ、複数の前記学習用データを生成することを特徴とする請求項８に記載の学習用データ生成装置。

【請求項10】

人物を複数の視点から撮影した複数の二次元画像を取得する画像取得ステップと、
前記複数の二次元画像に基づいて三次元空間を構築し、三次元画像を生成する画像生成ステップと、
前記複数の二次元画像のそれぞれに写っている前記人物を抽出し、前記人物を前記三次元空間に配置したアノテーション座標を生成する座標生成ステップと、
前記三次元空間における視点位置を設定し、前記三次元画像に基づいて前記視点位置から見た前記人物の学習用二次元画像を生成すると共に、前記アノテーション座標を、前記視点位置を基準とした学習用座標に変換し、前記学習用二次元画像と前記学習用座標とを組み合わせた学習用データを生成する学習用データ生成ステップと、
を有し、
前記座標生成ステップは、前記二次元画像に前記人物の一部が写っていないとき、前記二次元画像に写っている部分に基づいて前記二次元画像に写っていない一部の位置を推定して前記アノテーション座標を生成することを特徴とする学習用データ生成方法。

【請求項11】

コンピュータに、
人物を複数の視点から撮影した複数の二次元画像を取得する画像取得ステップと、
前記複数の二次元画像に基づいて三次元空間を構築し、三次元画像を生成する画像生成ステップと、
前記複数の二次元画像のそれぞれに写っている前記人物を抽出し、前記人物を前記三次元空間に配置したアノテーション座標を生成する座標生成ステップと、
前記三次元空間における視点位置を設定し、前記三次元画像に基づいて前記視点位置から見た前記人物の学習用二次元画像を生成すると共に、前記アノテーション座標を、前記視点位置を基準とした学習用座標に変換し、前記学習用二次元画像と前記学習用座標とを組み合わせた学習用データを生成する学習用データ生成ステップと、
を実行させ、
前記座標生成ステップは、前記二次元画像に前記人物の一部が写っていないとき、前記二次元画像に写っている部分に基づいて前記二次元画像に写っていない一部の位置を推定して前記アノテーション座標を生成することを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習用データ生成装置、学習用データ生成方法、及び、プログラムに関し、特に人工知能（ＡＩ）によって二次元画像からアノテーション座標を生成する際の精度向上のための学習用データを生成する技術に関する。

【背景技術】

【0002】

近年、職人などの技能伝承において三次元姿勢推定が用いられている。例えば熟練の作業者が技能作業を行っているときにカメラを用いてその作業を撮影し、その画像から作業者の三次元姿勢を推定して可視化することにより、作業中の作業者の細かな動作や姿勢を未熟な作業者に分かりやすく伝えることができる。

【0003】

特に三次元姿勢推定は、作業者の骨格などに相当する部分の位置を画像平面内だけでなく、奥行きを含めた三次元座標として推定する。多視点カメラや赤外カメラなどのように深度情報を取得可能なカメラを用いれば、比較的高精度に三次元座標を推定することができる。しかし、多視点カメラや赤外カメラは高額であるため利用し難いという欠点がある。そこで、近年は、単眼カメラを利用して二次元画像を撮影し、学習済みのディープラーニングを利用して二次元画像から三次元姿勢を推定する手法が確立されている。例えば特許文献１の従来技術では、モバイルカメラで人間を撮影した画像を取得し、学習済みのディープラーニングを利用して人間の身体特徴を測定する方法が提案されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特表２０２０－５２２２８５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところで、二次元画像から推定される三次元座標の精度を向上させるためには、事前に多数の二次元画像をディープラーニングで学習させる必要がある。このとき、二次元画像と、正解となる三次元座標とが互いに紐付いた多数の学習用データを準備する必要がある。

【0006】

そのような学習用データを準備するために、例えば、それぞれ視点の異なる複数のカメラを用いて作業中の人物を撮影し、それら複数のカメラから得られる複数の二次元画像に基づいて三次元空間を構築し、各二次元画像から抽出した人物の骨格などの位置を三次元空間上にマッピングしてアノテーション座標（三次元座標）を生成することが考えられる。この場合、三次元空間に配置された人物像を多数の視点から見た二次元画像に切り出していくと共に、アノテーション座標を、各視点を基準とする座標に変換することにより、二次元画像と骨格などの位置を示すアノテーションとを紐付けた学習用データを生成することができる。

【0007】

しかしながら、作業中の人物が機械や物の近くで作業している場合、複数のカメラの位置をどんなに変えても人物の一部が機械や物によって隠れてしまうことがある。その場合、二次元画像から人物の骨格などを適切に抽出することができず、アノテーションを付与することができない。そのため、三次元空間に配置された人物像から多数の二次元画像を切り出したとしても、それぞれの二次元画像に適切なアノテーションを紐付けることができず、ディープラーニングのための学習用データを生成することができないという問題がある。

【0008】

本発明は、上記従来の問題点を解決するためになされたものであり、人物を撮影した二次元画像に人物の一部が写っていないときでも、二次元画像にアノテーションを紐付けた学習用データを生成できるようにした学習用データ生成装置、学習用データ生成方法、及び、プログラムを提供することを目的とする。

【課題を解決するための手段】

【0009】

上記目的を達成するため、請求項１に係る発明は、学習用データ生成装置であって、人物を複数の視点から撮影した複数の二次元画像を取得する画像取得部と、前記複数の二次元画像に基づいて三次元空間を構築し、三次元画像を生成する画像生成部と、前記複数の二次元画像のそれぞれに写っている前記人物を抽出し、前記人物を前記三次元空間に配置したアノテーション座標を生成する座標生成部と、前記三次元空間における視点位置を設定し、前記三次元画像に基づいて前記視点位置から見た前記人物の学習用二次元画像を生成すると共に、前記アノテーション座標を、前記視点位置を基準とした学習用座標に変換し、前記学習用二次元画像と前記学習用座標とを組み合わせた学習用データを生成する学習用データ生成部と、を備え、前記座標生成部は、前記二次元画像に前記人物の一部が写っていないとき、前記二次元画像に写っている部分に基づいて前記二次元画像に写っていない一部の位置を推定して前記アノテーション座標を生成することを特徴とする構成である。

【0010】

請求項２に係る発明は、請求項１の学習用データ生成装置において、前記座標生成部は、前記複数の二次元画像のそれぞれに写っている前記人物の骨格を抽出し、前記骨格を前記三次元空間に配置したアノテーション座標を生成し、前記座標生成部は、前記二次元画像に前記人物の一部の骨格が写っていないとき、前記二次元画像に写っている骨格に基づいて前記一部の骨格の位置を推定し、前記アノテーション座標を生成することを特徴とする構成である。

【0011】

請求項３に係る発明は、請求項１の学習用データ生成装置において、前記座標生成部は、前記二次元画像に前記人物の一方の手が写っていないとき、前記二次元画像に写っている他方の手に基づいて前記一方の手の位置を推定し、前記アノテーション座標を生成することを特徴とする構成である。

【0012】

請求項４に係る発明は、請求項１の学習用データ生成装置において、前記座標生成部は、前記二次元画像において前記人物の一部が他の物体に隠れて写っていないとき、前記三次元空間における前記物体の座標位置を検出し、前記二次元画像に写っていない一部の位置を前記物体に重ならない位置に推定することを特徴とする構成である。

【0013】

請求項５に係る発明は、請求項１の学習用データ生成装置において、前記二次元画像は、動画像であり、前記座標生成部は、前記二次元画像において特定のタイミングで前記人物の一部が写っていないとき、前記二次元画像において前記特定のタイミング以外のタイミングで前記人物の一部が写っていれば、前記特定のタイミング以外のタイミングでの前記人物の一部の位置に基づいて前記特定のタイミングでの前記人物の一部の位置を推定することを特徴とする構成である。

【0014】

請求項６に係る発明は、請求項５の学習用データ生成装置において、前記座標生成部は、前記特定のタイミング以外のタイミングで前記人物の一部が移動しているとき、前記人物の一部の移動方向及び移動速度に基づいて前記特定のタイミングにおける前記人物の一部の位置を推定することを特徴とする構成である。

【0015】

請求項７に係る発明は、請求項１の学習用データ生成装置において、前記学習用データ生成部は、前記視点位置を変化させ、複数の前記学習用データを生成することを特徴とする構成である。

【0016】

請求項８に係る発明は、請求項１の学習用データ生成装置において、前記学習用データ生成部は、前記三次元空間における注視点を設定し、前記注視点を中心にした前記学習用二次元画像を生成することを特徴とする構成である。

【0017】

請求項９に係る発明は、請求項８の学習用データ生成装置において、前記学習用データ生成部は、前記注視点を変化させ、複数の前記学習用データを生成することを特徴とする構成である。

【0018】

請求項１０に係る発明は、学習用データ生成方法であって、人物を複数の視点から撮影した複数の二次元画像を取得する画像取得ステップと、前記複数の二次元画像に基づいて三次元空間を構築し、三次元画像を生成する画像生成ステップと、前記複数の二次元画像のそれぞれに写っている前記人物を抽出し、前記人物を前記三次元空間に配置したアノテーション座標を生成する座標生成ステップと、前記三次元空間における視点位置を設定し、前記三次元画像に基づいて前記視点位置から見た前記人物の学習用二次元画像を生成すると共に、前記アノテーション座標を、前記視点位置を基準とした学習用座標に変換し、前記学習用二次元画像と前記学習用座標とを組み合わせた学習用データを生成する学習用データ生成ステップと、を有し、前記座標生成ステップは、前記二次元画像に前記人物の一部が写っていないとき、前記二次元画像に写っている部分に基づいて前記二次元画像に写っていない一部の位置を推定して前記アノテーション座標を生成することを特徴とする構成である。

【0019】

請求項１１に係る発明は、プログラムであって、コンピュータに、人物を複数の視点から撮影した複数の二次元画像を取得する画像取得ステップと、前記複数の二次元画像に基づいて三次元空間を構築し、三次元画像を生成する画像生成ステップと、前記複数の二次元画像のそれぞれに写っている前記人物を抽出し、前記人物を前記三次元空間に配置したアノテーション座標を生成する座標生成ステップと、前記三次元空間における視点位置を設定し、前記三次元画像に基づいて前記視点位置から見た前記人物の学習用二次元画像を生成すると共に、前記アノテーション座標を、前記視点位置を基準とした学習用座標に変換し、前記学習用二次元画像と前記学習用座標とを組み合わせた学習用データを生成する学習用データ生成ステップと、を実行させ、前記座標生成ステップは、前記二次元画像に前記人物の一部が写っていないとき、前記二次元画像に写っている部分に基づいて前記二次元画像に写っていない一部の位置を推定して前記アノテーション座標を生成することを特徴とする構成である。

【発明の効果】

【0020】

本発明によれば、人物を撮影した二次元画像に人物の一部が写っていないときでも、二次元画像にアノテーションを紐付けた学習用データを生成することができるようになる。

【図面の簡単な説明】

【0021】

【図1】三次元姿勢推定システムの構成例を示す図である。

【図2】学習用データ生成装置の機能構成を示すブロック図である。

【図3】画像生成部及び座標生成部によって生成される三次元画像の概念を示す図である。

【図4】学習用データの生成処理の例を示す図である。

【図5】複数のカメラによって人物が撮影されるときにカメラと人物との間に機械などの遮蔽物が存在する例を示す図である。

【図6】カメラと人物との間に遮蔽物が存在する状態で得られる二次元画像を示す図である。

【図7】他のフレーム画像から二次元画像に写っていない人物の一部の位置を推定する例を示す図である。

【図8】学習用データ生成装置による処理手順の一例を示すフローチャートである。

【図9】学習用データ生成処理の詳細な処理手順の一例を示すフローチャートである。

【発明を実施するための形態】

【0022】

以下、本発明に関する好ましい実施形態について図面を参照しつつ詳細に説明する。尚、以下に説明する実施形態において互いに共通する要素には同一符号を付しており、それらについての重複する説明は省略する。

【0023】

図１は、本発明の一実施形態における三次元姿勢推定システム１の構成例を示す図である。三次元姿勢推定システム１は、熟練作業者などの人物Ｕを撮影した二次元画像Ｄａを入力し、その二次元画像Ｄａから人物Ｕの三次元姿勢を、ＡＩ（人工知能）によって推定するシステムである。この三次元姿勢推定システム１は、学習用データ生成装置１０と、三次元姿勢推定装置２とを備えている。

【0024】

三次元姿勢推定装置２には、カメラ３が接続される。例えば、カメラ３は、単眼カメラによって構成され、熟練作業者などの人物Ｕが技能作業を行っているときにその人物Ｕの画像を撮影する。三次元姿勢推定装置２は、カメラ３から得られる二次元画像Ｄａを解析することにより、人物Ｕの骨格や関節などの特徴部分の位置を三次元空間４にマッピングしてアノテーション座標を生成することにより、人物Ｕの人物像５を三次元化し、人物Ｕの三次元姿勢を推定したデータＤｂを生成する。

【0025】

三次元姿勢推定装置２は、ＡＩによる姿勢推定機能を有し、機械学習部２ａを備えている。機械学習部２ａは、学習用データ生成装置１０から提供される学習用データを用いてディープラーニングなどの機械学習を行うことにより、二次元画像Ｄａから人物Ｕの三次元姿勢を推定するためのニューラルネットワークモデルを構築する。学習用データ生成装置１０から提供される学習用データのデータ量が多い程、機械学習部２ａは、精緻なニューラルネットワークモデルを構築し、三次元姿勢の推定精度を高めることができる。

【0026】

学習用データ生成装置１０は、そのような三次元姿勢推定装置２に提供する学習用データを自動生成する装置である。この学習用データ生成装置１０は、機械学習部２ａに学習させるための人物を含む学習用二次元画像と、その学習用二次元画像から推定される人物の三次元姿勢を示す学習用座標とを互いに紐付けた学習用データとして生成する。学習用データ生成装置１０は、多数の学習用データを自動生成し、三次元姿勢推定装置２へ出力する。

【0027】

例えば、学習用データ生成装置１０は、一般的なパーソナルコンピュータなどの情報処理装置で構成され、ＣＰＵ１１と記憶部１２とを備えている。ＣＰＵ１１は、記憶部１２に予め記憶されているプログラムを読み出して実行するハードウェアプロセッサーである。記憶部１２は、例えばハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）などで構成される不揮発性の記憶手段である。学習用データ生成装置１０は、ＣＰＵ１１がプログラムを実行することにより、三次元姿勢推定装置２へ提供する学習用データを生成する。

【0028】

図２は、学習用データ生成装置１０の機能構成を示すブロック図である。図２に示すように、学習用データ生成装置１０には、複数のカメラ３ａ，３ｂが接続される。カメラ３ａ，３ｂは、いずれも単眼カメラであり、熟練作業者などの人物Ｕをそれぞれ異なる視点から撮影した二次元画像を生成し、それら二次元画像を学習用データ生成装置１０へ出力する。カメラ３ａ，３ｂが撮影する画像は、静止画像であっても良いし、動画像であっても良い。本実施形態では、カメラ３ａ，３ｂが動画像を撮影する場合を例に挙げて説明する。尚、図２では、２台のカメラ３ａ，３ｂを用いて人物Ｕを撮影する場合を例示しているが、カメラの台数は２台に限られるものではなく、３台以上であっても構わない。

【0029】

学習用データ生成装置１０は、ＣＰＵ１１がプログラムを実行することにより、画像取得部２１、画像生成部２２、座標生成部２３、及び、学習用データ生成部２４として機能する。

【0030】

画像取得部２１は、複数のカメラ３ａ，３ｂによって撮影された複数の二次元画像を取得する。すなわち、画像取得部２１は、それぞれ異なる視点から同一の人物Ｕを同じタイミングで撮影した複数の二次元画像を取得する。そのため、画像取得部２１が取得する複数の二次元画像には、同じ姿勢の人物Ｕが写っていることになる。

【0031】

画像生成部２２は、画像取得部２１によって取得される複数の二次元画像に基づいて三次元空間を構築し、その三次元空間に人物Ｕの人物像を配置した三次元画像を生成する。この画像生成部２２は、座標生成部２３と連携して三次元空間に人物Ｕの人物像を配置した三次元画像を生成する。

【0032】

座標生成部２３は、画像取得部２１によって取得された複数の二次元画像のそれぞれから人物Ｕの骨格や関節などの特徴部分を抽出し、画像生成部２２によって生成される三次元空間に人物Ｕの特徴部分を配置したアノテーション座標（三次元座標）を生成する。

【0033】

図３は、画像生成部２２及び座標生成部２３によって生成される三次元画像の概念を示す図である。例えば、画像生成部２２は、図３（ａ），（ｂ）に示す二次元画像３０ａ，３０ｂを取得する。画像生成部２２は、複数の二次元画像３０ａ，３０ｂに基づき、図３（ｃ）に示すような三次元空間３０を構築する。画像生成部２２が三次元空間３０を構築する手法としては、例えば三次元姿勢推定装置２が三次元空間４を構築する手法と同様の公知の手法を採用すれば良い。

【0034】

座標生成部２３は、複数の二次元画像３０ａ，３０ｂのそれぞれから骨格や関節などの特徴部分３１を抽出し、特徴部分３１の深度情報を検出する。例えば、複数のカメラ３ａ，３ｂから得られる複数の二次元画像３０ａ，３０ｂは、互いに異なる視点から人物Ｕを撮影したステレオ画像を形成する。座標生成部２３は、それらステレオ画像から人物Ｕの特徴部分３１までの深度情報（カメラ３ａ，３ｂからの距離）を演算によって検出する。そして座標生成部２３は、二次元画像３０ａ，３０ｂにおける横方向（Ｘ軸）の位置と、縦方向（Ｙ軸）の位置と、深度情報とに基づき、図３（ｃ）に示すように、特徴部分３１を三次元空間３０に配置する。これにより、人物Ｕの人物像３４が三次元化された三次元画像３５が生成される。

【0035】

図２に戻り、画像生成部２２及び座標生成部２３によって人物像の三次元画像３５が生成されると、次に学習用データ生成部２４が動作する。学習用データ生成部２４は、学習用二次元画像Ｄｆと学習用座標Ｄｇとを相互に紐付けた学習用データＤＬを生成する。

【0036】

図４は、学習用データＤＬの生成処理の例を示す図である。学習用データ生成部２４は、三次元空間３０に人物像が配置された三次元画像３５を取得し、その三次元画像３５に基づいて多数の学習用データＤＬを自動生成する。図４に示すように、学習用データ生成部２４は、画像生成部２２によって生成される三次元画像３５に対し、注視点と視点とを設定する。注視点は、人物像３４の任意の部位に設定される。例えば、注視点は、人物像３４全体として設定しても良いし、人物像３４の特定の部位（例えば手や目など）に限定して設定しても良い。また、視点は、三次元画像３５から二次元画像を生成する際の視点であり、人物像３４の周囲の任意の位置に設定される。

【0037】

学習用データ生成部２４は、人物像３４の周囲に設定される複数の視点からみた二次元画像を三次元画像３５から切り出していき、学習用二次元画像Ｄｆを生成する。このとき、学習用データ生成部２４は、人物像３４に設定される注視点を二次元画像の中心位置に設定して学習用二次元画像Ｄｆを生成する。そして、学習用データ生成部２４は、注視点及び視点を変化させつつ、三次元画像３５から二次元画像を生成する処理を繰り返し実行することで、複数の学習用二次元画像Ｄｆを生成する。例えば、学習用データ生成部２４は、４に示すように、人物像３４の周囲に複数の視点Ｐ１，Ｐ２，Ｐ３，…を順次設定し、それら複数の視点Ｐ１，Ｐ２，Ｐ３，…からみた学習用二次元画像Ｄｆを順次生成する。例えば、人物像３４に対してＮ個の注視点を設定すると共に、人物像３４の周囲にＭ個の視点を設定した場合、学習用データ生成部２４は、Ｎ×Ｍ個の学習用二次元画像Ｄｆを生成することができる。また、学習用データ生成部２４は、学習用二次元画像Ｄｆを生成するときの倍率を変化させることにより、更に多くの学習用二次元画像Ｄｆを生成することも可能である。

【0038】

また、学習用データ生成部２４は、１つの視点から注視点をみた学習用二次元画像Ｄｆを生成することに伴い、人物像３４の特徴部分を示すアノテーション座標を、視点位置を基準とした座標に変換し、学習用座標Ｄｇを生成する。そして、学習用データ生成部２４は、学習用二次元画像Ｄｆと学習用座標Ｄｇを相互に紐付けた１組の学習用データＤＬを生成する。学習用二次元画像Ｄｆは、三次元姿勢推定装置２の機械学習部２ａに学習させるための画像であり、学習用座標Ｄｇは、学習用二次元画像Ｄｆから推定される人物の姿勢を示す正解データである。したがって、学習用データ生成装置１０は、学習用二次元画像Ｄｆと、正解データである学習用座標Ｄｇとを相互に紐付けた多数の学習用データＤＬを三次元姿勢推定装置２へ提供することにより、三次元姿勢推定装置２に多数の学習用データＤＬに基づく機械学習を行わせることができる。

【0039】

図５は、複数のカメラ３ａ，３ｂによって人物Ｕが撮影されるとき、カメラ３ａ，３ｂと人物Ｕとの間に機械などの遮蔽物４０が存在する例を示す図である。カメラ３ａ，３ｂと人物Ｕとの間に遮蔽物４０が存在すると、カメラ３ａ，３ｂは、人物Ｕの全体を写した画像を撮影することができない。

【0040】

図６（ａ）は、カメラ３ａ，３ｂと人物Ｕとの間に遮蔽物４０が存在する状態で得られる二次元画像４１を示す図である。図６（ａ）に示すように、カメラ３ａ，３ｂによって撮影された二次元画像４１において人物Ｕの一部が遮蔽物４０に隠れている場合、座標生成部２３は、二次元画像４１から人物Ｕの骨格や関節などの全ての特徴部分３１を抽出することができず、人物像３４の三次元姿勢を示す完全なアノテーション座標を付与することができない。

【0041】

そこで、座標生成部２３は、カメラ３ａ，３ｂで撮影された二次元画像４１に人物Ｕの一部が写っていないとき、二次元画像４１に写っている他の部分に基づいて二次元画像４１に写っていない一部の位置を推定し、三次元画像３５にアノテーション座標を付与する。例えば、図６（ａ）に示すように、人物Ｕの左側の一部が遮蔽物４０に隠れている場合、座標生成部２３は、人物Ｕの右側の二次元画像４１に写っている部分から二次元画像４１に写っていない左側の一部の位置を推定する。すなわち、座標生成部２３は、図６（ｂ）に示すように、人物Ｕの右側の二次元画像４１に写っている部分４２から特徴部分３１を抽出し、二次元画像４１に写っていない部分４３の特徴部分３２の位置を推定する。このとき、座標生成部２３は、二次元画像４１に写っていない部分４３の特徴部分３２が二次元画像４１に写っている部分４２の特徴部分３１の姿勢と同じ姿勢である仮定して特徴部分３２の位置を推定しても良いし、また、二次元画像４１に写っていない部分４３の特徴部分３２が二次元画像４１に写っている部分４２の特徴部分３１の姿勢と対称な姿勢である仮定して特徴部分３２の位置を推定しても良い。したがって、座標生成部２３は、例えば二次元画像４１に人物Ｕの一方の手が写っていないとき、二次元画像４１に写っている他方の手に基づいて一方の手の位置を推定し、アノテーション座標を生成する。

【0042】

また、座標生成部２３は、二次元画像４１に写っている遮蔽物４０の座標を生成することが可能である。そのため、座標生成部２３は、二次元画像４１において人物Ｕの一部が遮蔽物４０に隠れて写っていないとき、三次元空間３０における遮蔽物４０（物体）の座標位置を検出し、二次元画像４１に写っていない人物Ｕの一部の位置を遮蔽物４０に重ならない位置に推定する。これにより、二次元画像４１に写っていない人物Ｕの一部の位置が不自然な位置に配置されてしまうことを防止することができる。

【0043】

また、カメラ３ａ，３ｂによって撮影される画像は、動画像である。そのため、座標生成部２３は、二次元画像４１の前後のフレーム画像から、二次元画像４１には写っていない部分が写っている二次元画像を検索し、検索した二次元画像から特徴部分３２の位置を推定することも可能である。具体的に説明すると、座標生成部２３は、二次元画像４１において特定のタイミングで人物Ｕの一部が写っていないとき、特定のタイミング以外のタイミングで撮影された二次元画像に人物Ｕの一部が写っていれば、特定のタイミング以外のタイミングでの人物Ｕの一部の位置に基づいて特定のタイミングでの人物Ｕの一部の位置を推定する。このとき、座標生成部２３は、特定のタイミング以外のタイミングで人物Ｕの一部が移動しているとき、一連のフレーム画像から人物Ｕの一部の移動方向及び移動速度を検出する。そして座標生成部２３は、検出した移動方向及び移動速度に基づいて特定のタイミングにおける人物Ｕの一部の位置を推定する。

【0044】

図７は、他のフレーム画像から二次元画像４１に写っていない人物の一部の位置を推定する例を示す図である。例えば、図６（ａ）に示した二次元画像４１が取得される前に、図７（ａ）に示す二次元画像４５が取得されていた場合、人物Ｕは、遮蔽物４０の後に移動したことになる。この場合、座標生成部２３は、図７（ａ）の二次元画像４５から人物Ｕの特徴部分３１を抽出し、それら特徴部分３１の移動方向及び移動速度を検出する。そして、座標生成部２３は、その移動方向及び移動速度に基づき、図７（ｂ）に示すように二次元画像４１が取得されたタイミングで遮蔽物４０に隠れてしまい、二次元画像４１に写っていない部分４３の特徴部分３２の位置を推定する。

【0045】

上記のように座標生成部２３は、カメラ３ａ，３ｂによって取得された二次元画像に人物Ｕの一部が写っていないときには、二次元画像に写っている他の部分に基づいて二次元画像に写っていない一部の位置を推定し、アノテーション座標を付与する。これにより、画像生成部２２によって生成される三次元画像３５に、人物Ｕの全ての骨格や関節等を含む三次元座標を付与することができる。したがって、学習用データ生成部２４が学習用データＤＬを生成するときには、人物Ｕの三次元姿勢を示す学習用座標Ｄｇを適切に生成することが可能である。その結果、三次元姿勢推定装置２は、カメラ３で撮影された二次元画像Ｄａにおいて人物Ｕの一部が写っていない場合であってもその一部の位置を推定することができ、人物Ｕの三次元姿勢を推定できるようになる。

【0046】

次に、学習用データ生成装置１０による処理手順の一例について説明する。図８及び図０は、学習用データ生成装置１０による処理手順の一例を示すフローチャートである。この処理は、ＣＰＵ１１が記憶部１２に記憶されているプログラムを読み出して実行することにより行われる。学習用データ生成装置１０は、この処理を開始すると、まず、複数のカメラ３ａ，３ｂから複数の二次元画像３０ａ，３０ｂを取得する。複数の二次元画像３０ａ，３０ｂを取得すると、学習用データ生成装置１０は、二次元画像３０ａ，３０ｂに基づいて三次元空間３０を構築する（ステップＳ１１）。また、学習用データ生成装置１０は、複数の二次元画像３０ａ，３０ｂのそれぞれから人物Ｕの骨格や関節などの特徴部分を抽出し（ステップＳ１２）、抽出した特徴部分を三次元空間３０に配置したアノテーション座標を生成する（ステップＳ１３）。

【0047】

次に学習用データ生成装置１０は、二次元画像３０ａ，３０ｂに写っていない部分があるか否かを判断する（ステップＳ１４）。二次元画像３０ａ，３０ｂに写っていない部分がある場合（ステップＳ１４でＹＥＳ）、学習用データ生成装置１０は、同じ二次元画像において写っている他の部分から写っていない部分を推定可能であるか否かを判断する（ステップＳ１５）。同じ二次元画像に写っている他の部分から写っていない部分を推定可能である場合（ステップＳ１５でＹＥＳ）、学習用データ生成装置１０は、同じ二次元画像の写っている部分から写っていない部分の位置を推定し（ステップＳ１７）、アノテーション座標を生成する（ステップＳ１８）。

【0048】

これに対し、同じ二次元画像に写っている他の部分から写っていない部分を推定することが困難である場合（ステップＳ１５でＮＯ）、学習用データ生成装置１０は、前後のフレーム画像から写っていない部分が写っている画像を検索する（ステップＳ１６）。そして学習用データ生成装置１０は、他の二次元画像から写っていない部分の位置を推定し（ステップＳ１７）、アノテーション座標を生成する（ステップＳ１８）。

【0049】

ステップＳ１４～Ｓ１８の処理で、二次元画像３０ａ，３０ｂに写っていない人物Ｕの特徴部分についてもアノテーション座標が付与されることになり、人物Ｕの三次元姿勢を示す完全な座標情報を含む三次元画像３５を生成することができる。尚、二次元画像３０ａ，３０ｂに人物Ｕの全体が写っており、写っていない部分がない場合（ステップＳ１４でＮＯ）、ステップＳ１５～Ｓ１８はスキップする。

【0050】

次に、学習用データ生成装置１０は、学習用データ生成処理を実行する（ステップＳ１９）。図９は、学習用データ生成処理の詳細な処理手順の一例を示すフローチャートである。学習用データ生成装置１０は、学習用データ生成処理を開始すると、注視点の数Ｎと、視点の数Ｍとを設定する。例えば、これらの数Ｎ，Ｍは、学習用データ生成装置１０を操作するユーザーによって任意に設定可能である。続いて、学習用データ生成装置１０は、変数ｉ，ｊを０に初期化する。

【0051】

学習用データ生成装置１０は、三次元画像３５の人物像３４に対して注視点を設定する（ステップＳ３２）。次に、学習用データ生成装置１０は、人物像３４の周囲に視点を設定し（ステップＳ３３）、三次元画像３５から視点を基準とする二次元画像を切り出し、その切り出した二次元画像を学習用二次元画像Ｄｆとして生成する（ステップＳ３４）。また、学習用データ生成装置１０は、三次元画像３５に付与されている人物Ｕのアノテーション座標を、視点を基準とする座標に変換し、学習用座標Ｄｇを生成する（ステップＳ３５）。そして、学習用データ生成装置１０は、学習用二次元画像Ｄｆと学習用座標Ｄｇとを相互に紐付けた学習用データＤＬを生成する（ステップＳ３６）。

【0052】

次に学習用データ生成装置１０は、変数ｊに１を加算し（ステップＳ３７）、変数ｊが予め設定された視点の数Ｍに達したか否かを判断する（ステップＳ３８）。変数ｊが視点の数Ｍに達していない場合（ステップＳ３８でＮＯ）、学習用データ生成装置１０は、ステップＳ３３以降の処理を繰り返す。このとき、学習用データ生成装置１０は、視点の位置をそれ以前の位置とは異なる位置に設定し、三次元画像３５から学習用二次元画像Ｄｆと学習用座標Ｄｇとを相互に紐付けた学習用データＤＬを生成する。一方、変数ｊが視点の数Ｍに達した場合（ステップＳ３８でＹＥＳ）、学習用データ生成装置１０は、変数ｉに１を加算し（ステップＳ３９）、変数ｊを０に初期化する（ステップＳ４０）。そして学習用データ生成装置１０は、変数ｉが予め設定した注視点の数Ｎに達したか否かを判断する（ステップＳ４１）。変数ｉが注視点の数Ｎに達していない場合（ステップＳ４１でＮＯ）、学習用データ生成装置１０は、ステップＳ３２以降の処理を繰り返す。このとき、学習用データ生成装置１０は、注視点の位置をそれ以前の位置とは異なる位置に設定し、三次元画像３５から学習用二次元画像Ｄｆと学習用座標Ｄｇとを相互に紐付けた学習用データＤＬを生成する処理を、視点を変化させつつ繰り返し実行する。これにより、視点及び注視点を変化させた多数の学習用データＤＬを自動生成することができる。そして、変数ｉが注視点の数Ｎに達すると（ステップＳ４１でＹＥＳ）、学習用データ生成処理が終了する。

【0053】

図８のフローチャートに戻り、学習用データ生成装置１０は、ステップＳ１９で生成した多数の学習用データＤＬを三次元姿勢推定装置２へ出力する（ステップＳ２０）。これにより、三次元姿勢推定装置２において機械学習を行われ、精緻なニューラルネットワークモデルが構築されていく。

【0054】

以上のように本実施形態の学習用データ生成装置１０は、人物Ｕを複数の視点から撮影した複数の二次元画像を取得する画像取得部２１と、それら複数の二次元画像に基づいて三次元空間を構築し、三次元画像を生成する画像生成部２２と、複数の二次元画像のそれぞれに写っている人物Ｕを抽出し、人物Ｕを三次元空間に配置したアノテーション座標を生成する座標生成部２３と、三次元空間における視点位置を設定し、三次元画像に基づいて視点位置から見た人物Ｕの学習用二次元画像Ｄｆを生成すると共に、アノテーション座標を、視点位置を基準とした学習用座標Ｄｇに変換し、学習用二次元画像Ｄｆと学習用座標Ｄｇとを組み合わせた学習用データＤＬを生成する学習用データ生成部２４とを備えている。この学習用データ生成装置１０の座標生成部２３は、二次元画像に人物Ｕの一部が写っていないとき、二次元画像に写っている部分に基づいて二次元画像に写っていない一部の位置を推定してアノテーション座標を生成する。そのため、人物Ｕを複数の視点から撮影した複数の二次元画像において人物Ｕの一部が写っていない場合であっても、アノテーション座標を付与することが可能であり、学習用データＤＬを生成するときには人物Ｕの三次元姿勢を示す学習用座標を適切に生成することができる。したがって、学習用データ生成装置１０は、学習用二次元画像Ｄｆと学習用座標Ｄｇとを組み合わせた学習用データＤＬを大量に自動生成することが可能である。

【0055】

以上、本発明に関する好ましい実施形態について説明した。しかし、本発明は、上記実施形態において説明した内容のものに限られるものではなく、種々の変形例が適用可能である。

【0056】

例えば、上記実施形態では、学習用データ生成装置１０と三次元姿勢推定装置２とが別の装置として構成される場合を例示した。しかし、これに限られるものではなく、学習用データ生成装置１０と三次元姿勢推定装置２とは一体的な１つの装置として構築されるものであっても構わない。

【0057】

また、上記実施形態では、学習用データ生成装置１０のＣＰＵ１１によって実行されるプログラムが予め記憶部１２に記憶されている場合を例示した。しかし、これに限られるものではなく、ＣＰＵ１１によって実行されるプログラムは、外部のコンピュータ読み取り可能な記録媒体に記録されていても構わない。また、プログラムは、インターネットなどのネットワークを介してパーソナルコンピュータなどの情報処理装置にインストールされるものであっても構わない。

【符号の説明】

【0058】

１三次元姿勢推定システム
２三次元姿勢推定装置
３，３ａ，３ｂカメラ
１０学習用データ生成装置
２１画像取得部
２２画像生成部
２３座標生成部
２４学習用データ生成部
ＤＬ学習用データ
Ｄｆ学習用二次元画像
Ｄｇ学習用座標

【図1】