IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特開2023-173367生成装置、生成方法及び生成プログラム
<>
  • 特開-生成装置、生成方法及び生成プログラム 図1
  • 特開-生成装置、生成方法及び生成プログラム 図2
  • 特開-生成装置、生成方法及び生成プログラム 図3
  • 特開-生成装置、生成方法及び生成プログラム 図4
  • 特開-生成装置、生成方法及び生成プログラム 図5-1
  • 特開-生成装置、生成方法及び生成プログラム 図5-2
  • 特開-生成装置、生成方法及び生成プログラム 図6
  • 特開-生成装置、生成方法及び生成プログラム 図7
  • 特開-生成装置、生成方法及び生成プログラム 図8
  • 特開-生成装置、生成方法及び生成プログラム 図9
  • 特開-生成装置、生成方法及び生成プログラム 図10
  • 特開-生成装置、生成方法及び生成プログラム 図11
  • 特開-生成装置、生成方法及び生成プログラム 図12
  • 特開-生成装置、生成方法及び生成プログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023173367
(43)【公開日】2023-12-07
(54)【発明の名称】生成装置、生成方法及び生成プログラム
(51)【国際特許分類】
   G06T 1/00 20060101AFI20231130BHJP
   G06T 7/00 20170101ALI20231130BHJP
【FI】
G06T1/00 500B
G06T7/00 350B
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022085562
(22)【出願日】2022-05-25
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】市川 裕人
(72)【発明者】
【氏名】丹野 良介
(72)【発明者】
【氏名】島田 健一郎
(72)【発明者】
【氏名】泉谷 知範
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057BA02
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CC03
5B057CE04
5B057CE08
5B057DA08
5B057DB02
5B057DC40
5L096CA02
5L096DA01
5L096EA35
5L096FA24
5L096FA69
5L096GA10
5L096GA34
5L096HA08
5L096HA11
5L096KA04
(57)【要約】
【課題】物体検出モデルの学習データとして、少数のラベリング済みデータから適切な教師データを生成することで、物体検出モデルの精度向上を図ることができる。
【解決手段】生成装置10は、画像に含まれるオブジェクトのクラスを示すラベルとオブジェクトの位置情報とが付与された教師データを取得する取得部11と、マスク生成モデルを用いて、教師データからオブジェクトを切り出すマスクを生成するマスク生成部12と、マスクを基に、教師データからオブジェクトが写る領域をオブジェクト画像として抽出し、抽出したオブジェクト画像にオブジェクトのラベルを付与して出力するオブジェクト抽出部13と、貼り付け先画像に、オブジェクト画像を、ランダムに貼り付ける貼り付け部142と、貼り付け先画像の背景と、オブジェクト画像との境界部分を滑らかに変換した画像を生成する円滑化処理部143と、を有する。
【選択図】図2
【特許請求の範囲】
【請求項1】
画像に含まれるオブジェクトのクラスを示すラベルと前記オブジェクトの位置情報とが付与された第1の画像を取得する取得部と、
教師なし学習によって学習が実行されたマスク生成モデルを用いて、前記第1の画像からオブジェクトを切り出すマスクを生成するマスク生成部と、
前記マスクを基に、前記第1の画像から前記オブジェクトが写る領域をオブジェクト画像として抽出し、抽出した前記オブジェクト画像に前記オブジェクトのラベルを付与して出力する抽出部と、
貼り付け先である第2の画像に、前記オブジェクト画像を、ランダムに貼り付ける貼り付け部と、
前記第2の画像の背景と、前記オブジェクト画像との境界部分を滑らかに変換した第3の画像を生成する変換部と、
を有することを特徴とする生成装置。
【請求項2】
前記第3の画像を、画像内の特定の物体の位置情報とラベルとを検出する物体検出モデルの教師データとして出力する出力部をさらに有することを特徴とする請求項1に記載の生成装置。
【請求項3】
前記貼り付け部は、前記第1の画像に対する前記オブジェクト画像のラベル、数及びサイズに関する統計情報を基に、前記第2の画像に貼り付ける前記オブジェクト画像の第1のラベル、第1の数、及び第1のサイズを設定し、前記第1のラベルが付与された前記オブジェクト画像を、前記第1の数及び前記第1のサイズで前記第2の画像に貼り付けることを特徴とする請求項1に記載の生成装置。
【請求項4】
前記貼り付け部は、前記統計情報から外れた第2のラベル、第2の数、及び第2のサイズを設定し、前記第2のラベルが付与された前記オブジェクト画像を、前記第2の数及び前記第2のサイズで前記第2の画像に貼り付けることを特徴とする請求項3に記載の生成装置。
【請求項5】
前記第2の画像に対し、種別が異なる領域間の境界を検出する検出部をさらに有し、
前記貼り付け部は、前記第2の画像の各領域に対応するラベルが付与された前記オブジェクト画像を、前記第2の画像の各領域に貼り付けることを特徴とする請求項1に記載の生成装置。
【請求項6】
前記検出部は、前記第2の画像に写る地平線を検出することを特徴とする請求項5に記載の生成装置。
【請求項7】
生成装置が実行する生成方法であって、
画像に含まれるオブジェクトのクラスを示すラベルと前記オブジェクトの位置情報とが付与された第1の画像を取得する工程と、
教師なし学習によって学習が実行されたマスク生成モデルを用いて、前記第1の画像からオブジェクトを切り出すマスクを生成する工程と、
前記マスクを基に、前記第1の画像から前記オブジェクトが写る領域をオブジェクト画像として抽出し、抽出した前記オブジェクト画像に前記オブジェクトのラベルを付与して出力する工程と、
貼り付け先である第2の画像に、前記オブジェクト画像を、ランダムに貼り付ける工程と、
前記第2の画像の背景と、前記オブジェクト画像との境界部分を滑らかに変換した第3の画像を生成する工程と、
を含んだことを特徴とする生成方法。
【請求項8】
画像に含まれるオブジェクトのクラスを示すラベルと前記オブジェクトの位置情報とが付与された第1の画像を取得するステップと、
教師なし学習によって学習が実行されたマスク生成モデルを用いて、前記第1の画像からオブジェクトを切り出すマスクを生成するステップと、
前記マスクを基に、前記第1の画像から前記オブジェクトが写る領域をオブジェクト画像として抽出し、抽出した前記オブジェクト画像に前記オブジェクトのラベルを付与して出力するステップと、
貼り付け先である第2の画像に、前記オブジェクト画像を、ランダムに貼り付けるステップと、
前記第2の画像の背景と、前記オブジェクト画像との境界部分を滑らかに変換した第3の画像を生成するステップと、
をコンピュータに実行させるための生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生成装置、生成方法及び生成プログラムに関する。
【背景技術】
【0002】
機械学習を用いた最も基本的な画像処理タスクの一つとして、画像・動画内の特定の物体のクラスと位置と検出する物体検出モデルがある。
【0003】
物体検出モデルの検出精度を上げるには、学習データとして、多くの教師データを、物体検出モデルに与えることが一般的である。しかしながら、教師データは、手作業で生成することが多く、大量の教師ありデータを一度に用意することは容易ではない。
【0004】
特に、物体検出に必要なクラスラベルやBounding Boxを設定するラベリングコストは、極めて大きい。さらに、正解ラベルの付け方も、ラベリングする個人によって揺らぎがあり、時にはドメイン知識を要求することがある。このため、大量の正解ラベルを付与した教師データを一度に作成することは極めて困難である。
【0005】
どこで、これらの問題を解決するため、データ拡張が提案されている。データ拡張とは、既存のデータセットに類似した画像を水増しし、物体検出モデルの学習データに加えることで、モデルの汎化性能を上げる手法である。
【0006】
データ拡張は、物体検出モデルのアーキテクチャを変えずに、少数の教師データを基に、学習に十分な量の教師データを生成することができる。このようなデータ拡張として、ルールベースのシンプルなものから、ニューラルネットワークを用いた複雑な手法まで様々な手法が提案されている。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Relja Arandjelovic and Andrew Zisserman, “Object Discovery with a Copy-Pasting GAN”, CoRR, Vol.abs/1905.11369, (2019)
【非特許文献2】Terrance DeVries1 and Graham W. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout”, (2017), [online],[令和4年5月18日検索],インターネット<URL:https://arxiv.org/pdf/1708.04552.pdf>
【非特許文献3】Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and, Yoshua Bengio, “Generative Adversarial Networks”, (2014) , [online],[令和4年5月18日検索],インターネット<URL:https://arxiv.org/pdf/1406.2661.pdf>
【非特許文献4】Sungeun Hong, Sungil Kang, and Donghyeon Cho, “Patch-Level Augmentation for Object Detection in Aerial Images”, in 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), pp. 127-134 (2019).
【非特許文献5】G. Jocher, A. Stoken, J. Borovec, et al.: “ultralytics/yolov5: v3.1 - Bug Fixes and Performance Improvements”, (2020)
【非特許文献6】Patrick Perez, Michel Gangnet, and Andrew Blake, “Poisson Image Editing”, ACM Trans. Graph., Vol. 22, No. 3, p.313-318 (2003)
【非特許文献7】Othman Sbai, Camille Couprie, and Mathieu Aubry. “Surprising Image Compositions”, in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, pp. 3926-3930 (2021)
【非特許文献8】Yukun Su, Ruizhou Sun, Guosheng Lin, and Qingyao Wu, “Context Decoupling Augmentation for Weakly Supervised Semantic Segmentation”, (2021)
【非特許文献9】Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo, “CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features”, (2019), [online],[令和4年5月18日検索],インターネット<URL:https:// https://openaccess.thecvf.com/content_ICCV_2019/papers/Yun_CutMix_Regularization_Strategy_to_Train_Strong_Classifiers_With_Localizable_Features_ICCV_2019_paper.pdf>
【非特許文献10】Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, and David Lopez-Paz, “mixup: BEYOND EMPIRICAL RISK MINIMIZATION”, CoRR, Vol. abs/1710.09412, (2017)
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来、ラベリングしたBounding Boxを切り出して背景画像に貼り付けるデータ拡張手法がある。しかしながら、この手法では、貼り付け元の画像の背景と貼り付け先の画像の背景との違いによる不自然さがあり、物体検出モデルの精度を十分に高めることができない場合があった。
【0009】
本発明は、上記に鑑みてなされたものであって、物体検出モデルの学習データとして、少数のラベリング済みデータから適切な教師データを生成することで、物体検出モデルの精度向上を図ることができる生成装置、生成方法及び生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上述した課題を解決し、目的を達成するために、本発明に係る生成装置は、画像に含まれるオブジェクトのクラスを示すラベルと前記オブジェクトの位置情報とが付与された第1の画像を取得する取得部と、教師なし学習によって学習が実行されたマスク生成モデルを用いて、前記第1の画像からオブジェクトを切り出すマスクを生成するマスク生成部と、前記マスクを基に、前記第1の画像から前記オブジェクトが写る領域をオブジェクト画像として抽出し、抽出した前記オブジェクト画像に前記オブジェクトのラベルを付与して出力する抽出部と、貼り付け先である第2の画像に、前記オブジェクト画像を、ランダムに貼り付ける貼り付け部と、前記第2の画像の背景と、前記オブジェクト画像との境界部分を滑らかに変換した第3の画像を生成する変換部と、を有することを特徴とする。
【発明の効果】
【0011】
本発明によれば、物体検出モデルの学習データとして、少数のラベリング済みデータから適切な教師データを生成することで、物体検出モデルの精度向上を図ることができる。
【図面の簡単な説明】
【0012】
図1図1は、実施の形態1における処理システムの構成の一例を模式的に示す図である。
図2図2は、図1に示す生成装置の構成の一例を模式的に示す図である。
図3図3は、図2に示す生成装置における処理の概要を説明する図である。
図4図4は、図2に示す生成装置における処理の概要を説明する図である。
図5-1】図5-1は、図2に示す生成装置における処理の概要を説明する図である。
図5-2】図5-2は、図2に示す生成装置における処理の概要を説明する図である。
図6図6は、実施の形態1に係る生成処理の処理手順を示すフローチャートである。
図7図7は、従来技術を説明する図である。
図8図8は、実施の形態1における物体検出を説明する図である。
図9図9は、実施の形態2に係る生成装置の構成の一例を模式的に示す図である。
図10図10は、図9に示す生成装置の処理を説明する図である。
図11図11は、実施の形態2に係る生成処理の処理手順を示すフローチャートである。
図12図12は、実施の形態2の処理を説明するための図である。
図13図13は、プログラムを実行するコンピュータを示す図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
【0014】
[実施の形態1]
図1は、実施の形態1における処理システムの構成の一例を模式的に示す図である。実施の形態1における処理システムは、学習装置20と物体検出装置30とを有する。
【0015】
学習装置20は、画像・動画内の特定の物体の位置情報とラベルとを検出する物体検出モデルの学習を実行する。物体検出装置30は、学習装置20によって学習された物体検出モデルを用いて、テストデータである画像または動画に写る物体のラベルと位置情報とを検出する。
【0016】
実施の形態1における処理システムは、学習装置20の前段に生成装置10を有する。
【0017】
生成装置10は、教師データ(第1の画像)を水増しした水増しデータ(第3の画像)を、物体検出モデルの学習データとして学習装置20に出力する。教師データは、物体検出モデルの学習用の画像データである。教師データの各画像データには、画像に含まれるオブジェクトのクラスを示すラベルとオブジェクトの位置情報とが付与されている。
【0018】
[生成装置]
次に、図1に示す生成装置10について説明する。図2は、図1に示す生成装置10の構成の一例を模式的に示す図である。
【0019】
生成装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、生成装置10は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。
【0020】
図2に示すように、生成装置10は、取得部11、マスク生成部12、オブジェクト抽出部13(抽出部)、生成部14及び出力部15を有する。
【0021】
取得部11は、教師データの入力を受け付けることで、教師データを取得する。
【0022】
マスク生成部12は、教師なし学習によって学習が実行されたマスク生成モデルを用いて、教師データからマスクを生成する。マスクは、教師データの領域のうちオブジェクト以外の領域をマスクすることで、教師データからオブジェクトを切り出す。マスク生成モデルは、GAN(Generative Adversarial Network)等のDNN(Deep Neural Network)アーキテクチャや、CP-GAN(Context Pyramid Generative Adversarial Network)などの教師なしセグメンテーションマスク生成モデルを採用することができる。
【0023】
オブジェクト抽出部13は、マスク生成部12によって生成されたマスクを基に、教師データからオブジェクトが写る領域をオブジェクト画像として抽出する。オブジェクト抽出部13は、抽出したオブジェクト画像にオブジェクトのラベルを付与して出力する。
【0024】
生成部14は、水増しデータを生成する。生成部14は、貼り付け部142及び円滑化処理部143(変換部)を有する。
【0025】
貼り付け部142は、貼り付け先画像(第2の画像)を取得し、この貼り付け先画像に、オブジェクト抽出部13によって抽出されたオブジェクト画像を、ランダムに貼り付ける。
【0026】
この際、貼り付け部142は、教師データに対するオブジェクト画像のラベル、数及びサイズに関する統計情報を基に、貼り付け先画像に貼り付けるオブジェクト画像のラベル(第1のラベル)、数(第1の数)、及びサイズ(第1のサイズ)を設定する。貼り付け部142は、設定したラベルが付与されたオブジェクト画像を、設定した数及び設定したサイズで貼り付け先画像に貼り付ける。
【0027】
円滑化処理部143は、貼り付け先画像の背景と、この貼り付け先画像に貼り付けるオブジェクト画像との境界部分を滑らかに変換した画像を、水増しデータ(第3の画像)として生成する。
【0028】
例えば、撮像時間が異なる場合(例えば、夜と昼との場合)や光源の当たり方が異なる場合に、貼り付け先画像の背景と、オブジェクト画像との境界部分とに不自然さが生じる。円滑化処理部143は、貼り付け先画像とオブジェクト画像とのコントラストや、画像全体の輝度を調整することによって、貼り付け先画像の背景と、オブジェクト画像との境界部分とが滑らかに見えるようにする。
【0029】
円滑化処理部143は、Blur(例えば、Gaussian Blur(参考文献1,2))、Poisson Blending(非特許文献6)を採用して、貼り付け先画像の背景と貼り付けるオブジェクト画像の境界部分を滑らかにして自然な画像に変換する。
参考文献1:Blurred Borders in CSS, [online],[令和4年5月24日検索],インターネット<URL:URL:https://css-tricks.com/blurred-borders-in-css/>
参考文献2:Gaussian Blur, [online],[令和4年5月24日検索],インターネット<URL:https://www.sciencedirect.com/topics/engineering/gaussian-blur>
【0030】
出力部15は、水増しデータを、画像内の特定の物体の位置情報とラベルとを検出する物体検出モデルの学習用データとして、学習装置20に出力する。
【0031】
生成装置10が生成した水増しデータでは、貼り付け先画像に貼り付けるオブジェクト画像との境界部分が、滑らかに変換されている。したがって、水増しデータには、貼り付け元の画像の背景と貼り付け先の画像の背景との境界部分に不自然さがない。このため、学習装置20は、この水増しデータを学習データとして物体検出モデルに学習させることで、物体検出モデルの精度向上を図ることができる。
【0032】
[生成装置の処理の概要]
次に、図3図4図5-1及び図5-2を参照して、生成装置10の処理について説明する。図3図4図5-1及び図5-2は、図2に示す生成装置10における処理の概要を説明する図である。
【0033】
生成装置10では、取得部11が、貼り付け対象となるオブジェクトが写る教師データを取得する。教師データは、例えば、犬が写る画像であり、ラベル「犬」と犬の位置情報とが付与されている。生成装置10では、教師データから、ラベリングしたBounding Box Gsを切り出す(図3の(1))。
【0034】
マスク生成部12は、教師なしセグメンテーションマスク生成モデルを用いて、Bounding Box Gsのうち、オブジェクト以外の領域をマスクできるマスクMsを生成する(図3の(2))。
【0035】
続いて、オブジェクト抽出部13は、マスクMsを用いて、教師データから切り出したBounding Box Gsのうち、オブジェクト(物体)のみが写る領域をオブジェクト画像Gaとして抽出する(図3の(3))。オブジェクト抽出部13は、例えば、犬、猫または鳥が写るBounding Box Gsの背景を排し、犬、猫、鳥等のオブジェクトが写る領域のみをオブジェクト画像Gaとして抽出する。そして、オブジェクト抽出部13は、各オブジェクト画像に、オブジェクトのラベルを付与する。
【0036】
貼り付け部142は、オブジェクト画像Gaの貼り付け先の画像である貼り付け先画像G1を取得する(図3の(4))。例えば、貼り付け先画像G1は、平原と空とが写る画像である。
【0037】
貼り付け部142は、貼り付け先画像G1に、オブジェクト画像Gaをランダムに貼り付ける(図3の(5))。例えば、貼り付け部142は、貼り付け先画像G1に、犬、猫、鳥のオブジェクト画像Gaを、ランダムに貼り付ける。
【0038】
そして、円滑化処理部143は、貼り付け先画像G1の背景と、この貼り付け先画像G1に貼り付ける各オブジェクト画像Gaとの境界部分を滑らかに変換して、自然な画像に変換する境界円滑化を行う(図3の(6))。
【0039】
生成部14は、貼り付け先画像G1の背景と各オブジェクト画像Gaとの境界部分が円滑された合成画像G2を複数生成する(図3の(7))。出力部15は、生成された複数の合成画像G2を水増しデータとして、学習装置20に出力する。
【0040】
ここで、図4に示すように、貼り付け部142は、貼り付け先画像G1に貼り付けるオブジェクト画像Gaのサイズ、数、ラベル等を、教師データGtの統計情報を基に決定する。
【0041】
貼り付け部142は、教師データGtから、この教師データGtに含まれるオブジェクト画像のラベル、各ラベルの数、及び、オブジェクトのサイズに関する統計情報を抽出する(図4の(1))。例えば、貼り付け部142は、統計情報として、犬、猫、鳥の各ラベルに該当するオブジェクトの数、各オブジェクトのサイズ(図4では、犬のサイズの統計情報を示す。)を抽出する。
【0042】
そして、貼り付け部142は、この統計情報から、確率分布の種類と、ハイパラメータを決定する(図4の(2),(3))。例えば、確率分布として、正規分布、対数正規分布、ポアソン分布、GMM(Gaussian Mixture Model)、カーネル密度関数等を採用する。
【0043】
そして、貼り付け部142は、設定した確率分布から、貼り付け対象のオブジェクト画像Gaの、ラベル、数、サイズを設定する。そして、貼り付け部142は、設定したラベルのオブジェクト画像Gaを、設定した数、設定したサイズで、貼り付け先画像G1に貼り付けて(図4の(4))、合成画像G2を生成する(図4の(5))。
【0044】
ラベルが犬であるオブジェクト画像について、教師データGtと同じ傾向の水増しデータを生成したい場合について説明する。この場合、貼り付け部142は、ハイパラメータを調整して、教師データGtの犬のオブジェクト画像のサイズ及び数の分布(図5-1)と、同様の確率分布を作成する。貼り付け部142は、生成した確率分布にしたがって、貼り付け対象となる、犬のオブジェクト画像の数及びサイズを設定する。
【0045】
このように、生成装置10は、教師データGtの統計情報にしたがって、貼り付け先画像G1にオブジェクト画像Gaを貼り付けた複数の合成画像を生成する。このため、生成装置10は、少数のラベリング済みの教師データGtから、適切なオブジェクト画像が適切な数及びサイズで配置された水増しデータを生成することができる。物体検出モデルは、教師データGtの統計情報にしたがった適切な水増しデータを多数学習することができるため、物体検出モデルの精度向上も期待できる。
【0046】
また、生成装置10は、教師データGtの入力を受け付けた後、自動的に水増しデータを生成する。このため、生成装置10によれば、高精度な教師データを、作業者によるラベリング等の煩雑な処理を行うことなく、簡易に取得することができる。
【0047】
また、ラベルが犬であるオブジェクト画像について、意図的にサイズの大きいオブジェクトを貼り付けた水増しデータを生成したい場合について説明する。この場合、貼り付け部142は、確率分布に対する分散パラメータを大きくし、図5-2に示す確率分布のように、分布の裾を広くする。貼り付け部142は、生成した図5-2に示す確率分布にしたがって、貼り付け対象となる、犬のオブジェクト画像の数及びサイズを設定する。
【0048】
言い換えると、貼り付け部142は、統計情報から外れたラベル(第2のラベル)、数(第2の数)、及び、サイズ(第2のサイズ)を設定し、このラベルのオブジェクト画像を、統計情報から外れたサイズ及び数で貼り付け先画像G1に貼り付ける。なお、統計情報からの外れ度合いは、予め、設定されており、適宜更新される。
【0049】
このように、貼り付け部142は、統計情報から外れた外れ値に対応する、ラベル、数、大きさで、オブジェクト画像を貼り付け先画像G1に貼り付けてもよい。このように作成された水増しデータを学習することによって、物体検出モデルは、統計情報から外れたサイズ等で写る物体についても学習することができるため、物体検出モデルの精度向上が期待できる。
【0050】
[生成処理の処理手順]
次に、生成装置10が実行する生成処理の処理手順について説明する。図6は、実施の形態1に係る生成処理の処理手順を示すフローチャートである。
【0051】
図6に示すように、生成装置10では、取得部11が、教師データを取得すると(ステップS1)、マスク生成部12は、教師なし学習によって学習が実行されたマスク生成モデルを用いて、教師データからマスクを生成する(ステップS2)。
【0052】
オブジェクト抽出部13は、マスク生成部12によって生成されたマスクを基に、教師データからオブジェクトが写る領域をオブジェクト画像として抽出する(ステップS3)。
【0053】
貼り付け部142は、貼り付け先画像を取得し、この貼り付け先画像に、オブジェクト抽出部13によって抽出されたオブジェクト画像をランダムに貼り付ける(ステップS4)。
【0054】
円滑化処理部143は、貼り付け先画像の背景と、この貼り付け先画像に貼り付けるオブジェクト画像との境界部分を滑らかに変換した画像を生成する円滑化処理を行う(ステップS5)。出力部15は、円滑化処理が行われた画像を、水増しデータとして、学習装置20に出力する(ステップS6)。
【0055】
[実施の形態1の効果]
図7は、従来技術を説明する図である。従来、少数のラベリング済みの教師データGtから類似するデータを水増しする場合(図7の(1))、ラベリングしたBounding Boxを教師データGtから切り出して、貼り付け先画像に貼り付けるだけであった。
【0056】
このように水増しした水増しデータGp´を物体検出モデルの学習に使用すると(図7の(2))、貼り付け元であるBounding Boxの境界と貼り付け先画像の背景との違いによる不自然さのため、物体検出モデルの精度を十分に高めることができない場合があった。このため、従来技術では、テストデータを学習済みの物体検出モデルに入力しても(図7の(3))、物体検出モデルが出力した物体のラベルと位置情報との精度が十分でない場合があった(図7の(4))。例えば、従来の物体検出モデルでは、一部の物体が検出できない場合があった。
【0057】
図8は、実施の形態1における物体検出を説明する図である。生成装置10は、ラベリング済みの教師データGtから学習データを水増しする際に(図8の(1))、教師データからオブジェクト画像のみを抽出する。そして、生成装置10は、貼り付け先画像の背景と、この貼り付け先画像に貼り付けるオブジェクト画像との境界部分を滑らかに変換した画像を、水増しデータとして生成する(図8の(1))。また、生成装置10は、オブジェクト画像のサイズや、生成するデータのラベルの比率等を教師データの統計情報から求めて、水増しデータを生成する。
【0058】
学習装置20は、生成装置10によって生成された十分な量の水増しデータGpを物体検出モデルに学習させる(図8の(2))。水増しデータGpは、オブジェクト画像の境界と貼り付け先画像の背景との境界が円滑化されているため、物体検出モデルは、不自然さのない適切な水増しデータGpを学習でき、精度を十分に高めることができる。
【0059】
このため、テストデータを学習済みの物体検出モデルに入力した場合(図8の(3))、物体検出モデルが出力した物体のラベルと位置情報との検出精度が十分に確保できると考えられる(図8の(4))。
【0060】
このように、生成装置10が生成した水増しデータは、貼り付け先画像に貼り付けるオブジェクト画像との境界部分が滑らかに変換されており、貼り付け元の画像の背景と貼り付け先の画像の背景との境界部分に不自然さがない。このため、学習装置20は、この水増しデータGpを学習データとして物体検出モデルに学習させることで、物体検出モデルの精度向上を図ることができる。
【0061】
[実施の形態2]
次に、実施の形態2について説明する。図9は、実施の形態2に係る生成装置の構成の一例を模式的に示す図である。図10は、図9に示す生成装置の処理を説明する図である。
【0062】
図9に示すように、実施の形態2に係る生成装置210は、図2に示す生成装置10と比して、生成部14に代えて生成部214を有する。生成部214は、検出部2141、貼り付け部2142及び円滑化処理部143を有する。
【0063】
検出部2141は、貼り付け先画像に対し、種別が異なる領域間の境界を検出する。検出部2141は、貼り付け先画像G1に写る地平線H1を検出する(図10の(1))。検出部2141は、例えば、ハフ変換、または、線分ハフ変換を用いて、空と地面との境界である地平線H1を検出する。
【0064】
貼り付け部2142は、貼り付け先画像の各領域に対応するラベルが付与されたオブジェクト画像を、貼り付け先画像の各領域に貼り付ける。なお、生成装置210は、貼り付け先画像の領域の識別情報と、該領域に対応するラベルの識別情報とが対応付けられた貼り付けルールを記憶する。例えば、貼り付けルールには、領域「空」に、ラベル「鳥」が対応付けられている。また、貼り付けルールには、領域「地面」に、ラベル「犬」,「猫」が対応付けられている。
【0065】
貼り付け部2142は、地平線H1が検出された貼り付け先画像G1´に対し、地平線H1の上下に適切なオブジェクト画像Gaを配置する(図10の(2))。
【0066】
例えば、貼り付け部2142は、オブジェクト画像Gaのうち、「犬」,「猫」のオブジェクト画像を、地平線H1の下の領域「地面」に、オブジェクト画像の下端が位置するように、貼り付け先画像G1´に貼り付ける。また、貼り付け部2142は、例えば、オブジェクト画像Gaのうち、「鳥」のオブジェクト画像を、地平線H1の上の領域「空」に、オブジェクト画像の下端が位置するように、貼り付け先画像G1´に貼り付ける。
【0067】
なお、貼り付け部2142は、貼り付け部142と同様に、貼り付け先画像G1´に貼り付けるオブジェクト画像Gaのサイズ、数、ラベル等を、教師データGtの統計情報を基に決定する。また、貼り付け部2142は、統計情報から外れたラベル、数、及び、サイズを設定し、このラベルのオブジェクト画像を、統計情報から外れたサイズ及び数で貼り付け先画像G1´に貼り付けてもよい。
【0068】
そして、生成装置210は、円滑化処理部143による、貼り付け先画像G1の背景と、この貼り付け先画像G1に貼り付ける各オブジェクト画像Gaとの境界部分を滑らかに変換して、自然な画像に変換する境界円滑化を行う(図10の(3))。生成装置210合成画像G3を複数生成する(図10の(4))。
【0069】
[生成処理の処理手順]
次に、生成装置210が実行する生成処理の処理手順について説明する。図11は、実施の形態2に係る生成処理の処理手順を示すフローチャートである。
【0070】
図11に示すステップS11~ステップS13は、図6に示すステップS1~ステップS3と同じ処理である。
【0071】
生成装置210では、検出部2141が、貼り付け先画像に写る地平線を検出する(ステップS14)。そして、貼り付け部2142は、貼り付け先画像に対し、貼り付け先画像の各領域に対応するラベルが付与されたオブジェクト画像を、貼り付け先画像の各領域に貼り付ける(ステップS15)。
【0072】
図11に示すステップS16及びステップS17は、図6に示すステップS5及びステップS6と同じ処理である。
【0073】
[実施の形態2の効果]
図12は、実施の形態2の処理を説明するための図である。図12に示すように、オブジェクト画像Gaの属性を考慮せずに、貼り付け先画像G1に配置すると、本来、そのオブジェクトがいない領域に、オブジェクトが配置されてしまう場合がある。例えば、合成画像G4のように、空中に犬のオブジェクト画像が配置されてしまう。このような不自然な合成画像G4を物体検出モデルの学習データとして使用すると、物体検出モデルの検出精度が低下してしまうおそれがあった。
【0074】
これに対し、実施の形態2に係る生成装置210では、貼り付け先画像における種別が異なる領域間の境界を判定し、貼り付け先画像の各領域に対応するラベルが付与されたオブジェクト画像を、貼り付け先画像の各領域に適切に貼り付けた水増し画像を生成する。言い換えると、生成装置210は、任意のオブジェクトについて、該オブジェクトが存在することが自然である領域に、そのオブジェクトが写るオブジェクト画像を貼り付ける。
【0075】
したがって、生成装置210は、貼り付け先画像の各領域に、それぞれ存在することが自然であるオブジェクトが写るオブジェクト画像を貼り付け、貼り付け先画像の背景と、オブジェクト画像との境界部分を滑らかに変換した画像を、水増しデータとして生成する。このため、学習装置20は、生成装置210が生成した不自然さがない水増しデータを学習データとして物体検出モデルに学習させることで、物体検出モデルの精度向上を図ることができる。
【0076】
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUやGPU及び当該CPUやGPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0077】
また、本実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0078】
[プログラム]
また、上記実施形態において説明した生成装置10,210が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態における生成装置10,210が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
【0079】
図13は、プログラムを実行するコンピュータを示す図である。図13に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
【0080】
メモリ1010は、図13に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図13に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0081】
ここで、図13に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の、プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
【0082】
また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
【0083】
なお、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0084】
上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0085】
10,210 生成装置
11 取得部
12 マスク生成部
13 オブジェクト抽出部
14,214 生成部
15 出力部
20 学習装置
30 物体検出装置
142,2142 貼り付け部
143 円滑化処理部
2141 検出部
図1
図2
図3
図4
図5-1】
図5-2】
図6
図7
図8
図9
図10
図11
図12
図13