(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024064413
(43)【公開日】2024-05-14
(54)【発明の名称】画像データ生成装置、画像データ生成方法、画像データ生成プログラム
(51)【国際特許分類】
G06V 10/774 20220101AFI20240507BHJP
G06T 7/70 20170101ALI20240507BHJP
【FI】
G06V10/774
G06T7/70 Z
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022172984
(22)【出願日】2022-10-28
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り Advanced Robotics,Volume 36,Issue 16(2022) 2022年9月6日発行
(71)【出願人】
【識別番号】504174135
【氏名又は名称】国立大学法人九州工業大学
(74)【代理人】
【識別番号】100170748
【弁理士】
【氏名又は名称】稲垣 悟
(74)【代理人】
【識別番号】100126859
【弁理士】
【氏名又は名称】江上 裕士
(72)【発明者】
【氏名】田向 権
(72)【発明者】
【氏名】小野 智寛
(72)【発明者】
【氏名】鈴木 章央
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA01
5L096FA66
5L096FA67
5L096FA69
5L096KA04
5L096KA13
5L096KA15
(57)【要約】
【課題】機械学習等に用いる高品質で多様な訓練用画像データを比較的短時間に生成する。
【解決手段】対象物体の形状を示すモデル情報を取得するモデル情報取得部102と、環境の異なる複数の仮想空間を生成し、対象物体を仮想空間内に配置する仮想空間生成部104と、仮想空間内を撮影した撮影画像を生成する画像処理部106と、この撮影画像に含まれる対象物体の位置を特定した画像データを生成するアノテーション処理部107とを備えている。仮想空間における背景や物体の位置をランダムに変化させ、種々の角度や距離から対象物体を撮影することにより多数の訓練用画像データが得られる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象物体の形状を示すモデル情報を取得するモデル情報取得部と、
環境の異なる複数の仮想空間を生成し、前記モデル情報に基づき前記対象物体を前記仮想空間内に配置する仮想空間生成部と、
前記仮想空間内を、所定の位置から撮影した撮影画像を生成する画像処理部と、
前記撮影画像に含まれる前記対象物体の属性情報を特定し、前記撮影画像に前記対象物体の属性情報を関連付けたデータを生成するアノテーション処理部と
を備えた画像データ生成装置。
【請求項2】
前記属性情報は、前記対象物体の位置もしくは名称もしくは形状もしくは領域のうち、少なくともいずれか一つを含む請求項1に記載の画像データ生成装置。
【請求項3】
前記環境は、前記仮想空間における背景の配置位置もしくはテクスチャもしくは色味もしくは鏡面反射率、または前記対象物体の配置位置もしくは大きさもしくは鏡面反射率、または前記仮想空間の光源位置もしくは光源の強さのうち、少なくとも一つを含む、請求項2に記載の画像データ生成装置。
【請求項4】
前記画像処理部は、前記仮想空間内を複数の位置から撮影して前記撮影画像を生成する、請求項3に記載の画像データ生成装置。
【請求項5】
前記画像処理部は、撮影における画角と解像度のうち、少なくとも一つを変化させて前記撮影画像を生成する請求項4に記載の画像データ生成装置。
【請求項6】
前記アノテーション処理部は、前記仮想空間生成部から取得した情報に基づき前記属性情報を特定する、請求項3に記載の画像データ生成装置。
【請求項7】
前記アノテーション処理部は、前記仮想空間生成部から取得した情報に基づき、前記属性情報に、前記環境に関する情報をさらに関連付けて前記データを生成する請求項6に記載の画像データ生成装置。
【請求項8】
前記アノテーション処理部は、前記仮想空間生成部から取得した情報に基づき、前記対象物体と他の物体との位置関係に基づいて、前記属性情報の特定を行うか否かの判断を行う請求項3記載の画像データ生成装置。
【請求項9】
前記アノテーション処理部は、前記対象物体の一部が前記撮影画像に含まれる他の物体の背後に位置し、かつ前記撮影画像における前記対象物体が占める領域の大きさが所定値未満の場合、前記属性情報の特定を行わない、請求項8に記載の画像データ生成装置。
【請求項10】
前記対象物体は、機械学習で用いる学習対象物体であり、
前記アノテーション処理部は、前記撮影画像に前記対象物体の属性情報を関連付けた前記データを、前記機械学習に用いる訓練用画像データとして生成する請求項3に記載の画像データ生成装置。
【請求項11】
対象物体の形状を示すモデル情報を取得するステップと、
環境の異なる複数の仮想空間を生成するステップと、
前記モデル情報に基づき、前記対象物体を前記仮想空間内に配置するステップと、
前記仮想空間内を、所定の位置から撮影した撮影画像を生成するステップと、
前記撮影画像に含まれる前記対象物体の属性情報を特定するステップと、
前記撮影画像に前記対象物体の属性情報を関連付けたデータを生成するステップと
を備えた画像データ生成方法。
【請求項12】
前記環境は、前記仮想空間における背景の配置位置もしくはテクスチャもしくは色味もしくは鏡面反射率、または前記対象物体の配置位置もしくは大きさもしくは鏡面反射率、または前記仮想空間の光源位置もしくは光源の強さのうち、少なくとも一つを含む、請求項11に記載の画像データ生成方法。
【請求項13】
対象物体の形状を示すモデル情報を取得するステップと、
環境の異なる複数の仮想空間を生成するステップと、
前記モデル情報に基づき、前記対象物体を前記仮想空間内に配置するステップと、
前記仮想空間内を、所定の位置から撮影した撮影画像を生成するステップと、
前記撮影画像に含まれる前記対象物体の属性情報を特定するステップと、
前記撮影画像に前記対象物体の属性情報を関連付けたデータを生成するステップと
を備えた画像データ生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データを生成する技術に関する。
【背景技術】
【0002】
近年、ロボットビジョンや自動運転等の分野において、機械学習や深層学習を用いた画像認識が用いられている。これら機械学習や深層学習を用いた画像認識を高精度に実現するためには、一般的には大量かつ多様な訓練用画像のデータセットが必要となる。この訓練用画像のデータセットには画像とその属性情報が含まれる。しかし訓練用画像のデータセットを人手で作成すると、多大な労力と時間が必要となりヒューマンエラーも懸念される。また複数人が並行して作業する場合には、例えば、学習対象物体の位置等の属性情報等を付与する際、作業者によってその付与の基準が異なる可能性もあるため、訓練用画像のデータセットの品質低下も懸念される。
【0003】
そこで、訓練用画像のデータセットを自動生成する手法が提案されている。例えば、学習対象物体の画像と背景画像とを準備しておき、背景画像のあらかじめ定められた位置に学習対象物体の画像を合成してデータセットを生成する手法等である(例えば非特許文献1、2参照)。これらの手法により訓練用画像のデータセットを生成することができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Yutaro Ishida, Hakaru Tamukoh, “Semi-Automatic Dataset Generation for Object Detection and Recognition and its Evaluation on Domestic Service Robots”, Journal of Robotics and Mechatronics, Vol.32, no.1, pp.245-253, 2020.
【非特許文献2】Yushi Abe, Yutaro Ishida, Tomohiro Ono, Hakaru Tamukoh, “Acceleration of training dataset generation by 3D scanning of objects”, The 2020 International Conference on Artificial Life and Robotics (ICAROB2020), OS20-4, Oita, Japan, January 13-16 (14), 2020.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら従来の手法では、学習対象物体の画像と背景画像とが合成処理されて訓練用の画像データが生成されるため、あらかじめ準備された画像の組合せの範囲内でしか画像を生成することができない。すなわち、生成される訓練用画像の多様性は、あらかじめ準備された画像の数によって上限が決まってしまう。訓練用画像の多様性を増すためには、相応の画像を準備しておく必要がある。
【0006】
本発明は、このような課題を解決するためになされたものであって、その目的は、多様な訓練用画像のデータセットを生成する画像データ生成装置を提供することである。
【課題を解決するための手段】
【0007】
上述の課題を解決するために、本発明の画像データ生成装置は、対象物体の形状を示すモデル情報を取得するモデル情報取得部と、環境の異なる複数の仮想空間を生成しモデル情報に基づき対象物体を仮想空間内に配置する仮想空間生成部と、仮想空間内を所定の位置から撮影した撮影画像を生成する画像処理部と、撮影画像に含まれる対象物体の属性情報を特定し撮影画像に対象物体の属性情報を関連付けたデータを生成するアノテーション処理部とを備える。
【0008】
また、本発明の画像データ生成方法は、対象物体の3次元形状を含むモデル情報を取得するステップと、環境の異なる複数の仮想空間を生成するステップと、モデル情報に基づき対象物体を仮想空間内に配置するステップと、仮想空間内を所定の位置から撮影した撮影画像を生成するステップと、撮影画像に含まれる対象物体の属性情報を特定するステップと、撮影画像に対象物体の属性情報を関連付けたデータを生成するステップとを備える。
【発明の効果】
【0009】
本発明によれば、高品質で多様な訓練用画像のデータセットを生成することができる。
【図面の簡単な説明】
【0010】
【
図1】本実施の形態における画像データ生成システム全体の構成図
【
図3】画像データ生成装置の動作を示すフローチャート
【
図4】仮想空間生成部で生成された仮想空間を模式的に示した図
【
図6】仮想空間生成部最初に生成された仮想空間を模式的に示した図
【
図7】環境乱択化によってパラメータの一部が変化した場合の仮想空間を模式的に示した図
【
図8】画像処理部において撮影された撮影画像を示す図
【
図10】アノテーション処理された他の画像を示す図
【
図11】学習対象物体が複数含まれた訓練用画像データを示す図
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について説明する。なお本発明は以下の実施の形態には限定されない。
【0012】
(実施の形態)
本実施の形態における画像データ生成装置は、応用用途の一例として家庭用ロボットを想定し、部屋の中に学習対象物体が配置された訓練用画像のデータセットが生成される様子について説明する。
【0013】
概要としては、まず3次元の仮想空間が生成され、この仮想空間内に学習対象物体が配置される。その後、仮想空間を構成する種々のパラメータがランダムに変更されることによって、異なった環境を有する複数の仮想空間が次々と生成される。そして各仮想空間が種々の位置や方向から撮影され、撮影された画像が生成される。その後、撮影された画像に写った学習対象物体の位置が特定され、多様な訓練用画像のデータセットが生成される。以下、画像データ生成装置の具体的な構成および動作について説明する。
<1.全体構成>
図1は、本実施の形態における画像データ生成システム全体の構成図である。画像データ生成システムは、モデル生成装置100と画像データ生成装置101とから構成される。
【0014】
モデル生成装置100は、学習対象物体の3次元モデルを生成する装置である。例えば3次元スキャナ等が用いられる。
【0015】
画像データ生成装置101は、学習対象物体の情報を用いて画像を生成する装置であり、主に機械学習や深層学習向けの訓練用画像データを生成する。モデル情報取得部102は、学習対象となる物体のモデル情報を外部から取得する。ここでは、モデル生成装置100で生成されたモデル情報が入力される。環境生成部103は、背景等を含む3次元仮想空間の環境を構築する。仮想空間生成部104は、環境生成部103で生成された仮想空間に、モデル情報取得部102で取得した学習対象物体のモデルを配置して仮想空間を生成する。パラメータ設定部105には、背景の位置やテクスチャ情報等、仮想空間を構築するための種々のパラメータが設定されている。学習対象物体や仮想空間における背景は、このパラメータ設定部105で設定されたパラメータに基づいて配置される。
【0016】
仮想空間生成部104は、パラメータ設定部105の設定に従い、各種パラメータをランダムに変化させながら、異なる環境の仮想空間を次々と生成する。画像処理部106は、次々に構築される仮想空間を所定の位置および角度から撮影し、撮影した画像を出力する。アノテーション処理部107は、撮影画像中の学習対象物体の位置を特定し、撮影画像と関連付ける。学習対象物体の位置は、仮想空間生成部104の情報を用いて正確に特定することができる。画像記録部108は、アノテーション処理部107の出力を訓練用画像データとして保存する。なお画像データ生成装置101にはメモリ109と画像出力部110が備えられており、処理の過程における任意の画像やパラメータ等の情報を保存し出力することができる。
【0017】
次に、画像データ生成装置101で生成される訓練用画像のデータセットの概要について説明する。
【0018】
図2は訓練用画像のデータセットの模式図である。仮想空間上に構築された部屋の中に学習対象物体であるマグカップ201が配置され、その近傍に学習対象を示す学習枠208が表示されている。この学習枠208は、アノテーション処理部107によって生成されたものである。ここでは、説明のためマグカップ201が大きく表現されているが、実際には現実的な大きさで配置されている。なお、訓練用画像のデータセットには、訓練用の画像に加え、画像に含まれる物体や背景等の各要素の属性を示す属性情報が含まれる。
図2は、属性情報が画像に重畳されて表示された例を示している。このように、画像と属性情報が関連付けられたデータを、本実施の形態では訓練用画像データとも表現する。
【0019】
なお、パラメータ設定部105では、部屋の壁202~204の色やテクスチャ等のパラメータが多数設定されている。また、背景物体205~207の種類や位置等のパラメータも設定されている。仮想空間生成部104では、これらのパラメータを次々とランダムに変化させた仮想空間が生成される。すなわち
図2において、壁202~204の色やテクスチャがそれぞれランダムに変更され、また背景物体205~207の位置や色やテクスチャ等もそれぞれランダムに変更される。そしてこのように生成された仮想空間は、種々の位置や角度から次々と撮影され、アノテーション処理される。
<2.動作説明>
次に、本実施の形態における画像データ生成システムの動作を説明する。
【0020】
まずモデル生成装置100について説明する。モデル生成装置100は、例えば3次元スキャナで構成される。学習対象物体が3次元的にスキャンされ、その物体の3次元形状を含むモデル情報が出力される。このモデル情報は、物体表面の質感等を示すテクスチャ情報を含んでもよい。またモデル情報は、物体に関する種々の属性情報を含んでもよい。例えば学習対象物体としてマグカップをスキャンした場合には、「マグカップ」という名称が属性情報として含まれてもよい。この属性情報はモデル生成時に人手によって入力してもよいし、例えば認識機能が含まれた3次元スキャナを使用した場合には、その認識結果を用いてもよい。また属性情報は名称に限らず、学習対象物体に関する種々の情報を含めてもよい。
【0021】
なお、モデル生成装置100は、3次元スキャナを一例として用いたがこれに限られない。例えば、スマートフォンのカメラ機能を使った3次元スキャンアプリ等を用いてもよい。また学習の対象物となる3次元のモデル情報を、通信回線等を経由してダウンロードしてもよい。またあらかじめモデル情報が記録された記録媒体から所望のモデル情報を読み出してもよい。また自ら3Dモデリングを行ってもよい。
【0022】
次に、画像データ生成装置101の動作を説明する。
図3は画像データ生成装置101の動作を示すフローチャートである。
図1における画像データ生成装置101の構成を参照しながら動作を説明する。
まず、モデル情報取得部102において学習対象物体のモデル情報が取得される(S300)。ここではモデル生成装置100によって生成されたモデル情報が取得される。次に環境生成部103において学習対象物体を配置するための3次元仮想空間の環境が構築される(S301)。具体的には、仮想空間における背景が構築され、例えば
図2における部屋の壁202~204や背景物体205~207等が生成される。そして仮想空間生成部104において、学習対象物体が配置された3次元の仮想空間が生成される(S302)。この様子を、
図4を用いて説明する。
【0023】
図4は、仮想空間生成部104で生成される仮想空間の模式図を示している。400は、モデル情報取得部102(S300)で取得された学習対象物体を示している。401は環境生成部103(S301)で生成された仮想空間の環境を示している。402は仮想空間生成部104(S302)において生成された仮想空間である。このように、モデル情報取得部102から入力された学習対象物体が、環境生成部103で生成された仮想空間と同一空間内に配置される。なお学習対象物体や背景が配置される位置は、あらかじめパラメータ設定部105に設定されている。
【0024】
次に仮想空間生成部104では、仮想空間を構成する種々のパラメータがランダムに変更され、仮想空間を再生成する処理が行われる(S303、S304)。すなわち仮想空間における環境が乱択され、種々のバリエーションの仮想空間が次々に生成される。この環境乱択化は、パラメータ設定部105の設定に基づいて実行される。
【0025】
図5はパラメータ設定部105における設定値の一例を示した図である。例えば仮想空間上における学習対象物体は、パラメータ設定部105において設定された範囲で任意の位置に配置される。そして環境乱択化のステップS303において、最小値と最大値の範囲内でパラメータがランダムに変更される。また、背景のテクスチャの種類も複数用意されており、初期設定ではテクスチャ番号Pが選択されるが、環境乱択化のステップS303では、最小のテクスチャ番号Pminから最大のテクスチャ番号Pmaxまでランダムに設定される。このように、パラメータ設定部105で設定されたパラメータをランダムに変更させることにより、種々のバリエーションの仮想空間を構築することができる。この様子を、
図6および
図7を用いて説明する。
【0026】
図6は、仮想空間生成部104によって最初に生成された仮想空間を示した図である。600は生成された仮想空間を示している。仮想空間600の中に、環境生成部103によって生成された部屋の壁601~603と床604、および背景物体605~607が配置されている。また学習対象物体であるマグカップ608も配置されている。ここでマグカップ608は、パラメータ設定部105で設定された範囲内で任意の位置に配置されている。また部屋の壁601~603および床604のテクスチャは、テクスチャ番号がPの標準テクスチャが選択されている。
【0027】
図7は、環境乱択化のステップS303によってパラメータの一部が変化した場合の仮想空間の様子を示した図である。変更するパラメータは、例えばマグカップ608の位置と、部屋の壁601~603と床604のテクスチャとする。
【0028】
まずマグカップ608の位置は、パラメータ設定部105に設定された範囲内で仮想空間生成部104によってランダムに設定される。これに伴いマグカップ608の位置はランダムに変更され、例えば708の位置へと変更される。また、部屋の壁601~603および床604のテクスチャ番号も、パラメータ設定部105に設定された範囲内でランダムに変更される。すなわち
図7における部屋の壁701~703および床704のテクスチャはそれぞれランダムに変更される。
【0029】
なお、ここではマグカップの位置と部屋のテクスチャを変化させた場合について説明したが、背景物体605~607の位置やテクスチャ等、パラメータ設定部105の設定次第で、種々のパラメータを変化させることができる。例えば、仮想空間における背景のパラメータは、位置、テクスチャ、色味、鏡面反射率等を含んでもよい。また学習対象物体や背景物体のパラメータは、配置位置、大きさ、鏡面反射率等を含んでもよい。また仮想空間における光源のパラメータは、その光源位置や光源の強さ等を含んでもよい。また画像処理部106で用いられるカメラのパラメータは、カメラ位置、カメラの角度、解像度、画角(FoV:Field of View)等を含んでもよい。これらのパラメータを全て変化させてもよいし、その一部を変化させてもよい。これらパラメータのうち少なくとも一つを変化させることにより、環境の異なる仮想空間を構築することができる。
【0030】
なお、ここで設定されるテクスチャは、素材の質感等を表現する模様でもよいし、人工的に生成された幾何学模様等でもよい。例えばフラクタル画像やパーリンノイズのような幾何学模様がテクスチャとして用いられてもよい。
【0031】
またパラメータはランダムに変更されると説明したがこれに限られない。設定された値の範囲内で任意の値が選択されればよく、例えば所定の変化幅で順次変化させてもよい。
【0032】
また学習対象物体が配置される初期位置は、パラメータ設定部105で設定された範囲内で任意の位置が選択されると説明したがこれに限られない。例えば標準位置(X,Y,Z)に配置される等、あらかじめ定められた位置に配置されてもよい。またテクスチャの初期設定については、あらかじめ設定されたテクスチャが選択されるとして説明したがこれに限られない。例えばパラメータ設定部105で設定された範囲内で任意に選択されるとしてもよい。またパラメータ設定部105では、最小値、最大値、標準値が設定されているとして説明したが必ずしもこれに限られない。例えば初期設定等においても種々のパラメータを任意に選択すれば標準値は不要であり、最小値と最大値が規定されていればよい。
【0033】
また環境生成部103において、まずは学習対象物体を配置するための3次元仮想空間の環境が構築される(S301)と説明したがこれに限られない。例えば仮想空間生成部104が環境構築も含めて仮想空間を生成してもよい。この場合、例えばパラメータ設定部105において、部屋の壁や背景物体等、環境構築のための種々のパラメータが設定されていればよい。
【0034】
また、パラメータの変更に伴いマグカップの位置がランダムに変更されると説明したが、仮想空間の環境に応じてマグカップの位置に制約条件を設けてもよく、例えば物理演算を用いて物体を配置してもよい。例えばマグカップ608が床604から浮かび上がるのは不自然なため、マグカップ608の位置を変更する場合には、床604から離れないような範囲内で変更するとしてもよい。同様にマグカップ608が部屋の外に存在することは不自然であるため、壁601~603および床604に囲まれた空間の中でのみマグカップ680の位置を変更するとしてもよい。このように、仮想空間の状況に応じてパラメータの変化に制限を設けることにより、より自然な訓練用画像データを生成することができる。
【0035】
次に画像処理部106において、仮想空間内における所定の位置および角度からカメラ撮影された画像が出力される(S305)。
図8は、画像処理部106において撮影された撮影画像の一例を示す図である。800は、撮影された2次元の撮影画像を示している。ここではある一点から撮影された画像を示しているが、カメラの位置や角度やズーム倍率等を少しずつ変化させることにより、種々の視点からの画像を出力することができる。なお、ここでのカメラは仮想空間内における仮想的なカメラを意味しており、仮想カメラから撮影した仮想空間の光景が、画像処理部106により生成されて出力される。
【0036】
次にアノテーション処理について説明する。画像処理部106から出力された画像は、アノテーション処理部107に入力され、アノテーションの処理が行われる(S306)。アノテーションとは、学習対象となる物体が含まれた画像に、学習対象となる物体の位置や名称等の情報を関連付けることを意味する。ここでは学習対象物体の位置を示す位置情報や名称を示す名称情報等の情報が属性情報として画像に関連付けられる。このように属性情報が関連付けられた画像が訓練用画像データとして出力される。
【0037】
図9は、アノテーション処理部107でアノテーション処理された画像の一例を示す図である。900はアノテーション処理部107から出力された訓練用画像データであり、マグカップ901の近傍に、学習対象物体であることを示す枠902と、学習対象物体の名称903が表示されている。アノテーション処理によって生成された枠902と名称903が、後に機械学習等を行う際の訓練用データとして用いられる。
【0038】
ここで、学習対象物体の位置を示す枠902は四角形の枠として説明したが、これには限られない。枠902は、円や三角形等、他の形状でもよい。また物体の近傍位置だけでなく物体の形状や物体が存在する領域を特定してもよい。この様子を、
図10を用いて説明する。
【0039】
図10は、アノテーション処理部107から出力された別の一例を示す図である。1000はアノテーション処理部107から出力された訓練用画像データを示している。1001は学習対象物体の存在している領域を示しており、学習対象物体が特定の色で塗りつぶされた状態を示している。このように学習対象物体の位置情報だけでなく、形状や領域に関する属性情報も訓練用画像データに関連付けることができる。なおこれらの形状や領域の情報は、モデル情報取得部102から入力された学習対象物体のモデル情報と、仮想空間生成部104からの情報に基づいて算出することができる。また属性情報は、仮想空間を構築する背景やテクスチャ等の環境に関する情報を含んでもよい。この環境に関する情報は仮想空間生成部104から取得することができる。
【0040】
なお、
図9や
図10において、枠902や名称903、領域1001が画像上に表示されている例を示したが、実際にはこれらの属性情報は、画像データとは別データ(アノテーションデータともいう)として生成され記録される。なお学習対象物体の位置、名称、形状、領域等の属性情報、すなわちアノテーションデータは、出力画像に関連付けられていればよく、例えば画像データのヘッダ部分にタグ情報として付加されていてもよい。
【0041】
アノテーション処理部107から出力された訓練用画像データは、画像記録部108に保存される(S307)。そして画像撮影のステップS305に戻り、カメラの位置や角度等を少し変えて撮影が行われ、カメラ撮影が終了するまでステップS305~S307の処理が繰り返される(S308)。終了のタイミングは、あらかじめ設定された位置および角度からの撮影を一通り終えた時点としてもよいし、外部からの指示や割込み等が発生した時点で終了するとしてもよい。
【0042】
所定のカメラ撮影が終了すると環境乱択化のステップS303に戻る。そしてパラメータを変化させた仮想空間が生成され、ステップS303~S308の処理が繰り返される(S309)。終了のタイミングは、あらかじめ設定された範囲内でパラメータが変化し終えた時点としてもよいし、外部からの指示や割込み等が発生した時点で終了するとしてもよい。
【0043】
これまでの説明では、仮想空間内の学習対象物体は1つであったが、1つの仮想空間内に複数の学習対象物体を配置してもよい。この様子を、
図11を用いて説明する。
【0044】
図11は、学習対象物体が複数含まれた訓練用画像データの一例を示す。1100はアノテーション処理部107から出力された訓練用画像である。訓練用画像1100は、壁1101~1103および床1104に囲まれた部屋を示しており、背景物体1105~1107が配置されている。学習対象は1108~1111の4つであり、1108がマグカップ、1109がりんご、1110が本、1111がボールを示している。このように、1つの仮想空間に複数の学習対象物体が配置されている。
【0045】
ここで、機械学習や深層学習においては訓練用画像データに含まれている学習対象物体の見え方によって、その後の認識精度が異なることがある。例えば物体どうしが重なり、学習対象物体の一部が他の物体の背後に隠れてしまい、学習対象物体の特徴が不明瞭となっている場合がある。このような場合は良好な学習が行えず、その後の認識精度が低下する恐れもある。すなわち認識精度を高める良好な学習を行うためには、少なくともその特徴がわかる程度の見え方で表示されていることが好ましい。
【0046】
そこで、画像処理部106から出力された画像において、学習対象物体の一部が他の物体の背後に隠れており、かつその大きさが所定の大きさ以下の場合、アノテーション処理部107におけるアノテーション処理は行わないこととする。すなわち、アノテーション処理の対象から除外され、この学習対象物体の位置や領域は特定されない。
図11におけるボール1111がその例を示している。ボール1111は仮想空間内に配置されているが、画像内では背景物体1107の背後に隠れており、その一部分しか写っていない。このように学習対象物体の一部しか見えていない場合はアノテーション処理が行われない。例えば対象物体と他の物体との位置関係により、画像に占める学習対象物体の領域の大きさを演算し、その大きさが所定値未満と判断された場合、アノテーション処理の対象から除外される。この所定値は、例えば画像全体の数%程度に相当する値が設定される。一方でマグカップ1108、りんご1109、本1110は重なることなく単体で写っている。したがって、アノテーション処理部107においてはマグカップ1108、りんご1109、本1110の3つのみが学習対象としてアノテーション処理される。
【0047】
なお物体の重なりは、仮想空間生成部104および画像処理部106の情報を用いることにより判断することができる。
【0048】
なお、アノテーション処理において、学習対象物体の位置を四角形等の枠で囲む場合、その囲み位置は統一されている方が好ましい。訓練用画像ごとに枠にばらつきが生じると、深層学習の精度に影響を及ぼす恐れがあるためである。アノテーション処理によって生成される枠について
図12を用いて説明する。
【0049】
図12はアノテーション処理を説明する図である。1200および1201は学習対象物体のりんごを示している。ここで学習対象物体を示す枠は、1202のようにツルを含まない枠としてもよいし、1203のようにツルを含む枠としてもよい。ただし前述のように、学習対象物体を示す枠は、いずれかに統一されていることが望ましい。例えば枠1203で統一する場合、アノテーション処理部107において、学習対象物体の全ての領域を含んだ枠が生成されるよう基準を決めておくことが好ましい。これにより、ばらつきのない高品質な訓練用画像データを生成することができる。
【0050】
なお、本実施の形態において、背景物体は背景として取り扱い、背景と背景物体とを合わせて背景シーンを構築したがこれに限られない。例えば、背景物体を学習対象物体としてその属性情報を生成してもよい。例えば
図6において、部屋の壁601~603と床604、および背景物体605~607は、環境生成部103によって生成され、これらが背景シーンを構成していた。しかし、環境生成部103で生成された背景物体605~607も3次元モデルであるため、マグカップ608と同様、学習対象物体として扱うこともできる。
【0051】
また、撮影画像内に存在する全ての構成物に対してその属性情報を生成してもよい。例えば
図2において、マグカップ201や背景物体205~207も学習対象物体としてその属性情報を生成することができる。また部屋の壁202、203、204もそれぞれ一つの学習対象物体として、それぞれの属性情報を出力することもできる。また部屋の壁202~204を含む部屋のシーンを一つの背景としてとらえ、背景全体としての属性情報を出力することもできる。仮想空間における全ての存在物の属性情報は仮想空間生成部104により管理されているため、仮想空間生成部104の情報を利用することにより、撮影画像内の全ての構成物を学習対象物体として扱うことができ、またその属性情報も生成することができる。
【0052】
なお、本実施の形態における画像データ生成装置は、汎用コンピュータを用いたプログラムでも実現できる。また3次元グラフィックスを処理できるシミュレータ等でも実現できる。
【0053】
以上詳細に説明したとおり、本実施の形態における画像データ生成装置および画像データ生成方法および画像データ生成プログラムは、正確にアノテーションされた高品質な訓練用画像のデータセットを比較的短時間で大量に生成することができる。この訓練用画像データを用いることにより、機械学習や深層学習における認識精度を向上することが期待できる。
【0054】
なお、本実施の形態における画像データ生成装置、画像データ生成方法について説明したが、本発明はこれらの実施の形態に限定されるものではなく、本発明の範囲内において、種々の改良や変更が可能である。
【符号の説明】
【0055】
100 モデル生成装置
101 画像データ生成装置
102 モデル情報取得部
103 環境生成部
104 仮想空間生成部
105 パラメータ設定部
106 画像処理部
107 アノテーション処理部
108 画像記録部
109 メモリ
110 画像出力部
200 訓練用画像データ
201、608、708、901、1108 マグカップ
202、203、204、601、602、603、701、702、703、1101、1102、1103 部屋の壁
205、206、207、605、606、607、705、706、707、1105、1106、1107 背景物体
208、902 学習対象枠
209、903 学習対象物体の名称
400 学習対象物体
401 仮想空間の環境
402、600、700 仮想空間
604、704、1104 床
800 撮影画像
900、1000、1100 訓練用画像データ
1001 学習対象物体の存在領域
1109 りんご
1110 本
1111 ボール