IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社神戸製鋼所の特許一覧

特開2023-144382学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム
<>
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図1
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図2
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図3
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図4
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図5
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図6
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図7
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図8
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図9
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図10
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図11
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図12
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図13
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図14
  • 特開-学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023144382
(43)【公開日】2023-10-11
(54)【発明の名称】学習データ生成装置、該方法および該プログラム、ならびに、物体検出装置、該方法および該プログラム
(51)【国際特許分類】
   G06V 10/82 20220101AFI20231003BHJP
   G06T 7/00 20170101ALI20231003BHJP
【FI】
G06V10/82
G06T7/00 350C
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022051322
(22)【出願日】2022-03-28
(71)【出願人】
【識別番号】000001199
【氏名又は名称】株式会社神戸製鋼所
(74)【代理人】
【識別番号】100115381
【弁理士】
【氏名又は名称】小谷 昌崇
(74)【代理人】
【識別番号】100111453
【弁理士】
【氏名又は名称】櫻井 智
(72)【発明者】
【氏名】土屋 雅大
(72)【発明者】
【氏名】桑名 孝汰
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA35
5L096EA45
5L096FA02
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】本発明は、アノテーションの工数をより低減できる学習データ生成装置、該方法および該プログラム、ならびに、これによって生成された学習データを用いて、検出対象を検出する機械学習モデルを機械学習する物体検出装置、該方法および該プログラムを提供する。
【解決手段】本発明の学習データ生成装置は、所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、背景に無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する。
【選択図】図1
【特許請求の範囲】
【請求項1】
所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する、
学習データ生成装置。
【請求項2】
前記機械学習方法は、CycleGANである、
請求項1に記載の学習データ生成装置。
【請求項3】
前記機械学習方法のCycleGANは、前記模擬画像から、前記対象物の第1画像領域を除いた背景画像と、前記模擬画像から、前記対象物の第1画像領域のみの物体画像と、を識別して検出する検出器を含む、
請求項2に記載の学習データ生成装置。
【請求項4】
前記対象物は、検出対象であり、
請求項1ないし請求項3のいずれか1項の学習データ生成装置と、
画像から前記検出対象を検出する機械学習モデルを、前記学習データ生成装置で生成した学習データセットを用いて機械学習する機械学習部とを備える、
物体検出装置。
【請求項5】
所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する、コンピュータによって実行される学習データ生成方法。
【請求項6】
所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する、コンピュータによって実行される学習データ生成プログラム。
【請求項7】
検出対象である所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する学習データ生成工程と、
画像から前記検出対象を検出する機械学習モデルを、前記学習データ生成工程で生成した学習データセットを用いて機械学習する機械学習工程とを備える、
コンピュータによって実行される物体検出方法。
【請求項8】
検出対象である所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する学習データ生成工程と、
画像から前記検出対象を検出する機械学習モデルを、前記学習データ生成工程で生成した学習データセットを用いて機械学習する機械学習工程とを備える、
コンピュータによって実行される物体検出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習に用いる学習データを生成する学習データ生成装置、学習データ生成方法および学習データ生成プログラム、ならびに、これによって生成された学習データを用いて、検出対象を検出する機械学習モデルを機械学習する物体検出装置、物体検出方法および物体検出プログラムに関する。
【背景技術】
【0002】
近年、機械学習が研究、開発され、様々な分野に適用されつつある。この機械学習には、機械学習を実施するための比較的多数の学習データが必要である。特に、教師ありの機械学習では、学習データに、前記教師、すなわち、当該学習データが正解であるか否かを表す教師データ(教師ラベル)を付す必要がある。このため、学習データごとに教師データを生成すること(アノテーション)が必要であることから、多大な工数が発生する。このため、前記工数の低減が要望されており、例えば、非特許文献1に開示された技術がある。
【0003】
非特許文献1に開示された機械学習方法は、ペア画像のピクセル間の対応関係ではなく、ドメイン(domain)の異なる2つの画像データセットにおけるドメイン間の対応関係を、敵対的生成ネットワーク(GAN、Generatine Adversarial Network)によって、機械学習する。この機械学習方法では、2つの画像データセットに対し、変換と逆変換との循環構造で機械学習するので、大量の画像データセットを学習データセットとして用意しなくても機械学習できる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】LanIan Liu、et al.“Generative Modeling for SmallData Object Detection”、[online]、令和4年1月28日検索、https://arxiv.org/pdf/1910.017169.pdf
【発明の概要】
【発明が解決しようとする課題】
【0005】
前記非特許文献1に開示された機械学習方法は、大量の画像データセットを学習データセットとして必要としないが、不要と言うわけではなく、少量の学習データセットは、必要であり、これに応じたアノテーションを要する。
【0006】
本発明は、上述の事情に鑑みて為された発明であり、その目的は、アノテーションの工数をより低減できる学習データ生成装置、学習データ生成方法および学習データ生成プログラム、ならびに、これによって生成された学習データを用いて、検出対象を検出する機械学習モデルを機械学習する物体検出装置、物体検出方法および物体検出プログラムを提供することである。
【課題を解決するための手段】
【0007】
本発明者は、種々検討した結果、上記目的は、以下の本発明により達成されることを見出した。すなわち、本発明の一態様にかかる学習データ生成装置は、所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する。
【0008】
このような学習データ生成装置は、実画像とマスク画像とに基づいて模擬画像を生成し、この模擬画像と前記マスク画像とを組にすることによって、前記マスク画像を教師データとした学習データを生成する。上記学習データ生成装置は、このような学習データを複数備える学習データセットを生成する。このため、上記学習データ生成装置は、アノテーションの工数をより低減できる。
【0009】
他の一態様では、上述の学習データ生成装置において、前記機械学習方法は、CycleGANである。
【0010】
このような学習データ生成装置は、CycleGANを機械学習方法に用いるので、実画像とマスク画像に基づいて、マスク画像の対象模式画像を除く背景部分が実画像になるように、模擬画像を適切に生成できる。
【0011】
他の一態様では、上述の学習データ生成装置において、前記機械学習方法のCycleGANは、前記模擬画像から、前記対象物の第1画像領域を除いた背景画像と、前記模擬画像から、前記対象物の第1画像領域のみの物体画像と、を識別して検出する検出器を含む。
【0012】
このような学習データ生成装置は、前記模擬画像から、背景画像と物体画像とを識別して検出する検出器を含むので、より適切に模擬画像を生成できる。
【0013】
本発明の他の一態様にかかる物体検出装置は、前記対象物は、検出対象であり、これら上述のいずれかの学習データ生成装置と、画像から前記検出対象を検出する機械学習モデルを、前記学習データ生成装置で生成した学習データセットを用いて機械学習する機械学習部とを備える。
【0014】
これによれば、学習データ生成装置によって生成された学習データセットを用いて、検出対象を検出する機械学習モデルを機械学習する物体検出装置が提供できる。上記物体検出装置は、学習データ生成装置を備えるので、別途、学習データセットを用意することなく、機械学習部で機械学習モデルを機械学習できる。
【0015】
本発明の他の一態様にかかる学習データ生成方法は、所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する、コンピュータによって実行される方法である。
【0016】
本発明の他の一態様にかかる学習データ生成プログラムは、所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する、コンピュータによって実行されるプログラムである。
【0017】
このような学習データ生成方法および学習データ生成プログラムは、実画像とマスク画像とに基づいて模擬画像を生成し、この模擬画像と前記マスク画像とを組にすることによって、前記マスク画像を教師データとした学習データを生成する。上記学習データ生成方法および学習データ生成プログラムは、このような学習データを複数備える学習データセットを生成する。このため、上記学習データ生成方法および学習データ生成プログラムは、アノテーションの工数をより低減できる。
【0018】
本発明の他の一態様にかかる物体検出方法は、検出対象である所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する学習データ生成工程と、画像から前記検出対象を検出する機械学習モデルを、前記学習データ生成工程で生成した学習データセットを用いて機械学習する機械学習工程とを備える、コンピュータによって実行される方法である。
【0019】
本発明の他の一態様にかかる物体検出プログラムは、検出対象である所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する学習データ生成工程と、画像から前記検出対象を検出する機械学習モデルを、前記学習データ生成工程で生成した学習データセットを用いて機械学習する機械学習工程とを備える、コンピュータによって実行されるプログラムである。
【0020】
これによれば、学習データ生成方法および学習データ生成プログラムによって生成された学習データセットを用いて、検出対象を検出する機械学習モデルを機械学習する物体検出方法および物体検出プログラムが提供できる。上記物体検出方法および物体検出プログラムは、別途、学習データセットを用意することなく、機械学習工程で機械学習モデルを機械学習できる。
【発明の効果】
【0021】
本発明にかかる学習データ生成装置、学習データ生成方法およひ学習データ生成プログラムは、アノテーションの工数をより低減できる。本発明によれば、これによって生成された学習データセットを用いて、検出対象を検出する機械学習モデルを機械学習する物体検出装置、物体検出方法および物体検出プログラムが提供できる。
【図面の簡単な説明】
【0022】
図1】実施形態における学習データ生成機能付きの物体検出装置の構成を示すブロック図である。
図2】学習データセットの生成に用いられる実画像および検出対象を説明するための図である。
図3】手動で生成された対象模式画像の一例を示す図である。
図4図3に示す対象模式画像を用いたマスク画像の一例を示す図である。
図5】自動で対象模式画像を生成する方法を説明するための図である。
図6】自動で生成された対象模式画像の一例を示す図である。
図7図6に示す対象模式画像を用いたマスク画像の一例を示す図である。
図8】学習データセットの生成に用いられた模擬画像生成モデルを説明するための図である。
図9】学習データセットの生成に用いられた、複数の実画像および複数のマスク画像の一例を示す図である。
図10】前記学習データ生成機能付きの物体検出装置で生成した教師あり学習データの一例を示す図である。
図11】検出対象の検出に用いられた物体検出モデルを説明するための図である。
図12】機械学習済みの物体検出モデルを用いた検出結果の一例を示す図である。
図13】学習データセットの生成に関する物体検出装置の動作を示すフローチャートである。
図14】物体検出モデルの機械学習に関する物体検出装置の動作を示すフローチャートである。
図15】検出対象の検出に関する物体検出装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0023】
以下、図面を参照して、本発明の1または複数の実施形態が説明される。しかしながら、発明の範囲は、開示された実施形態に限定されない。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。
【0024】
実施形態における学習データ生成装置は、機械学習モデルを機械学習する際に用いられる学習データセットを生成する装置であり、特に、教師データを含む学習データセットを生成する。この学習データ生成装置は、所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する。そして、実施形態における物体検出装置は、画像に基づいて検出対象を検出する装置であり、前記検出対象を前記対象物として、上述の学習データ生成装置と、画像から前記検出対象を検出する機械学習モデルを、前記学習データ生成装置で生成した学習データセットを用いて機械学習する機械学習部とを備える。以下、このような学習データ生成装置、これに実装される学習データ生成方法およびこれに実装される学習データ生成プログラム、ならびに、物体検知装置、これに実装される物体検出方法およびこれに実装される物体検出プログラムについて、これら学習データ生成装置と物体検出装置とを一体にした、学習データ生成機能付きの物体検出装置によって、より具体的に説明する。
【0025】
図1は、実施形態における学習データ生成機能付きの物体検出装置の構成を示すブロック図である。図2は、学習データセットの生成に用いられる実画像および検出対象を説明するための図である。図2Aは、実画像の一例を示し、図2Bは、図2Aに示す実画像に写り込んでいる検出対象の見え方を説明するための図である。図3は、手動で生成された対象模式画像の一例を示す図である。図3Aないし図3Dは、図2Aおよび図2Bに示す実画像における中央付近の内側領域に写り込む検出対象(対象物)の対象模式画像の各一例を示し、図3Eないし図3Gは、図2Aおよび図2Bに示す実画像における前記内側領域の外側の外側領域に写り込む検出対象(対象物)の対象模式画像の各一例を示す。図4は、図3に示す対象模式画像を用いたマスク画像の一例を示す図である。図4Aおよび図4Bは、各一例を示す。図5は、自動で対象模式画像を生成する方法を説明するための図である。図5Aないし図5Fは、各工程を示す。図6は、自動で生成された対象模式画像の一例を示す図である。図6Aないし図6Jは、各一例を示す。図7は、図6に示す対象模式画像を用いたマスク画像の一例を示す図である。図7Aないし図7Cは、各一例を示す。図8は、学習データセットの生成に用いられた模擬画像生成モデルを説明するための図である。図9は、学習データセットの生成に用いられた、複数の実画像および複数のマスク画像の一例を示す図である。平面視にて、図9の左半分には、16枚の実画像が示され、図9の右半分には、16枚のマスク画像が示されている。図10は、前記学習データ生成機能付きの物体検出装置で生成した教師あり学習データの一例を示す図である。図10Aおよび図10Bは、各一例を示す。図11は、検出対象の検出に用いられた物体検出モデルを説明するための図である。図12は、機械学習済みの物体検出モデルを用いた検出結果の一例を示す図である。図12Aおよび図12Bは、各一例であり、平面視にて左側に入力画像を示し、その右側に検出結果の画像を示す。
【0026】
実施形態における学習データ生成機能付きの物体検出装置Dは、例えば、図1に示すように、画像取得部1と、制御処理部2と、入力部3と、表示部4と、インターフェース部(IF部)5と、記憶部6とを備える。
【0027】
画像取得部1は、制御処理部2に接続され、制御処理部2の制御に従って、所定の画像を取得する装置であり、物体検出装置Dは、前記取得した所定の画像に、所定の検出対象が写り込んでいるか否かを判定することによって、前記検出対象を検出する処理を実行する。画像取得部1は、例えば、略リアルタイムで検出対象を検出するために、画像を生成する撮像部1であり、この撮像部1は、例えば、撮像対象における光学像を所定の結像面上に結像する結像光学系、前記結像面に受光面を一致させて配置され、前記撮像対象における光学像を電気的な信号に変換するエリアイメージセンサ、および、エリアイメージセンサの出力を画像処理することで前記撮像対象における画像を表すデータである画像データを生成する画像処理部等を備えるデジタルカメラである。
【0028】
なお、画像取得部1は、撮像部1に限らず、他の装置であってもよい。例えば、画像取得部1は、外部の機器との間でデータを入出力するインターフェース回路である。前記外部の機器は、前記所定の画像を記憶した、例えばUSB(Universal Serial Bus)メモリおよびSDカード(登録商標)等の記憶媒体である。あるいは、前記外部の機器は、前記所定の画像を記録した、例えばCD-ROM(Compact Disc Read Only Memory)、CD-R(Compact Disc Recordable)、DVD-ROM(Digital Versatile Disc Read Only Memory)およびDVD-R(Digital Versatile Disc Recordable)等の記録媒体からデータを読み込むドライブ装置である。この画像取得部1としてのインターフェース回路は、有線または無線によって前記外部の機器に接続されてよい。あるいは、画像取得部1は、例えば、外部の機器と通信信号を送受信する通信インターフェース回路であって、前記外部の機器は、ネットワーク(WAN(Wide Area Network、公衆通信網を含む))あるいはLAN(Local Area Network)を介して前記通信インターフェース回路に接続され、前記所定の画像を管理するサーバ装置である。このような画像取得部1では、前記所定の画像の生成後に、検出対象の有無を検出でき、過去の画像が検証できる。ここで、画像取得部1がインターフェース回路や通信インターフェース回路である場合では、画像取得部1は、IF部5と兼用されてもよい(すなわち、IF部5が画像取得部1として用いられてもよい)。
【0029】
入力部3は、制御処理部2に接続され、例えば、学習データの生成開始を指示するコマンドや検出開始を指示するコマンド等の各種コマンド、および、学習データの生成の元になる実画像やマスク画像等の、学習データ生成機能付きの物体検出装置Dを動作させる上で必要な各種データを前記物体検出装置Dに入力する機器であり、例えば、所定の機能を割り付けられた複数の入力スイッチ、キーボードおよびマウス等である。表示部4は、制御処理部2に接続され、制御処理部2の制御に従って、入力部3から入力されたコマンドやデータおよび検出結果等を表示する機器であり、例えばCRTディスプレイ、LCD(液晶表示装置)および有機ELディスプレイ等の表示装置である。
【0030】
なお、入力部3および表示部4は、タッチパネルより構成されてもよい。このタッチパネルを構成する場合において、入力部3は、例えば抵抗膜方式や静電容量方式等の操作位置を検出して入力する位置入力装置である。このタッチパネルでは、表示装置の表示面上に位置入力装置が設けられ、表示装置に入力可能な1または複数の入力内容の候補が表示され、ユーザが、入力したい入力内容を表示した表示位置に触れると、位置入力装置によってその位置が検出され、検出された位置に表示された表示内容がユーザの操作入力内容として物体検出装置Dに入力される。このようなタッチパネルでは、ユーザは、入力操作を直感的に理解し易いので、ユーザにとって取り扱い易い物体検出装置Dが提供される。
【0031】
IF部5は、制御処理部2に接続され、制御処理部2の制御に従って、例えば、外部の機器との間でデータを入出力する回路であり、例えば、シリアル通信方式であるRS-232Cのインターフェース回路、Bluetooth(登録商標)規格を用いたインターフェース回路、および、USB規格を用いたインターフェース回路等である。また、IF部5は、例えば、データ通信カードや、IEEE802.11規格等に従った通信インターフェース回路等の、外部の機器と通信信号を送受信する通信インターフェース回路であってもよい。
【0032】
記憶部6は、制御処理部2に接続され、制御処理部2の制御に従って、各種の所定のプログラムおよび各種の所定のデータを記憶する回路である。前記各種の所定のプログラムには、例えば、制御処理プログラムが含まれ、前記制御処理プログラムには、例えば、物体検出装置Dの各部1、3~6を当該各部の機能に応じてそれぞれ制御する制御プログラムや、画像から検出対象を検出する機械学習モデル(第1機械学習モデル、物体検出モデル)を機械学習する第1機械学習プログラムや、前記第1機械学習プログラムによって機械学習した機械学習済みの物体検出モデルを用いることによって、画像取得部1で取得した画像に基づいて検出対象を検出する検出プログラムや、所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成する学習データ生成プログラム等が含まれる。前記各種の所定のデータには、例えば、画像取得部1で取得した画像や模擬画像等の、これら各プログラムを実行する上で必要なデータが含まれる。このような記憶部6は、例えば不揮発性の記憶素子であるROM(Read Only Memory)や書き換え可能な不揮発性の記憶素子であるEEPROM(Electrically Erasable Programmable Read Only Memory)等を備える。そして、記憶部6は、前記所定のプログラムの実行中に生じるデータ等を記憶するいわゆる制御処理部2のワーキングメモリとなるRAM(Random Access Memory)等を含む。また、記憶部6は、比較的記憶容量の大きいハードディスク装置を備えて構成されてもよい。
【0033】
制御処理部2は、学習データ生成機能付きの物体検出装置Dの各部1、3~6を当該各部の機能に応じてそれぞれ制御し、所定の検出対象を検出し、所定の学習データセットを生成するための回路である。制御処理部2は、例えば、CPU(Central Processing Unit)およびその周辺回路を備えて構成される。制御処理部2は、制御処理プログラムが実行されることによって、制御部21、第1機械学習部22、検出部23および学習データ生成部24を機能的に備える。
【0034】
制御部21は、物体検出装置Dの各部1、3~6を当該各部の機能に応じてそれぞれ制御し、物体検出装置Dの全体制御を司るものである。
【0035】
学習データ生成部24は、所定の対象物を含む複数の実画像と、前記対象物を模式的に表した対象模式画像を1または複数、前記対象模式画像とは異なる単色の背景に、無作為に配置して成る複数のマスク画像とに基づいて、所定の機械学習方法を用いることによって、前記マスク画像における前記対象模式画像を配置した第1画像領域を除く残余の第2画像領域を実画像に置き換えた模擬画像を、複数、生成し、前記複数のマスク画像それぞれについて、当該マスク画像と当該マスク画像に対応する模擬画像とを1つの組にすることによって、前記マスク画像と前記模擬画像との組を、複数、備える学習データセットを生成するものである。前記機械学習方法は、CycleGANであり、前記機械学習方法のCycleGANは、本実施形態では、前記模擬画像から、前記対象物の第1画像領域を除いた背景画像と、前記模擬画像から、前記対象物の第1画像領域のみの物体画像と、を識別する構造を含む。なお、CycleGANに限らず、いわゆるペア画像無しに、マスク画像とこれに対応する模擬画像が生成できれば、他の機械学習方法であってもよい。
【0036】
より具体的には、本実施形態では、学習データ生成部24は、第2機械学習部241および生成部242を機能的に備える。
【0037】
第2機械学習部241は、複数の実画像および複数のマスク画像(模擬画像用学習データセット)に基づいて模擬画像を生成する第2機械学習モデル(模擬画像生成モデル)を機械学習するものである。
【0038】
本実施形態における物体検出装置Dは、例えば、工場内等の作業所に居る人を検出対象として検出する装置である。このため、前記実画像は、前記検出対象である所定の対象物を含む画像であり、例えば、図2Aに示すように、作業所を上方、より具体的には直上から俯瞰した画像である。したがって、画像取得部1の一例である前記撮像部1は、その光軸が垂線に沿うように、クレーンのレール等に配設される。あるいは例えば、前記撮像部1は、その光軸が垂線に沿うように、建屋の天井から吊り下げられて配設される。
【0039】
前記対象物を模式的に表した対象模式画像は、このような実画像から、例えば、手動(マニュアル)で描き出される。図2Aに示す実画像の例では、図2Bに示すように、実画像における中央付近の内側領域IAに写り込む検出対象(対象物)の人は、その頭部を中心に見えるため、例えば、図3Aないし図3Dに示すように、頭部を中心に、主に肩、腕および手を模した対象模式画像となる。図2Bに示す例では、内側領域IAは、実画像の各辺それぞれから25%内側の矩形領域である。一方、図2Bに示すように、前記実画像における前記内側領域IAの外側の外側領域OAに写り込む検出対象(対象物)の人は、足元から頭部まで見えるため、例えば、図3Eないし図3Gに示すように、足元から頭部までの人全体を模した対象模式画像となる。そして、このように生成された対象模式画像を、1または複数、前記対象模式画像とは異なる単色の背景に、無作為(ランダム)に配置することによって、例えば図4Aおよび図4Bに示すようなマスク画像が、複数、生成される。例えば、単色の背景を2次元マトリクス状に8×8の64個の領域に分け、その中央付近の4×4の内側領域には、乱数で設定した個数分、例えば図3Aないし図3Dに示すような対象模式画像が無作為に選択されて無作為に配置され、その外側領域には、乱数で設定した個数分、例えば図3Eないし図3Gに示すような対象模式画像が無作為に選択さて無作為に配置される。ここで、この対象模式画像を配置する際に、その座標位置、回転角度および大きさ(縮小または拡大の倍率)それぞれが対象模式画像ごとに乱数によって設定される。
【0040】
あるいは、例えば、前記対象模式画像は、自動で生成されてもよい。まず、図5Aに示すように、方向が乱数で設定され、体のライン(所定長の線分)が前記方向に沿って設定される。次に、図5Bに示すように、前記体の線分の上から、20~30%の位置に顔が所定の楕円で描画される。次に、図5Cに示すように、太さおよび長さそれぞれが乱数で設定され、前記線分に沿って顔の下方向に肩が前記太さおよび長さの線分で描画される。次に、図5Dに示すように、太さが乱数で設定され、前記線分に沿って肩の下方向に胴体が前記太さの線分で描画される。次に、図5Eに示すように、各太さ、各長さおよび各方向それぞれが乱数で設定され、前記線分に沿った胴体の下方向に各脚が前記各太さおよび各長さの各線分で前記各方向に沿って描画される。図5Eに示す例では、両脚が1つに重なっている。そして、図5Fに示すように、各太さ、各長さおよび各方向それぞれが乱数で設定され、肩から各腕が前記各太さおよび各長さの各線分で各方向に描画される。図5Fに示す例では、両腕が1つに重なっている。これによって前記対象模式画像が生成され、その各一例が図6Aないし図6Jに示されている。そして、このように生成された対象模式画像を、1または複数、前記対象模式画像とは異なる単色の背景に、無作為(ランダム)に配置することによって、例えば図7Aないし図7Cに示すようなマスク画像が、複数、生成される。ここで、この対象模式画像を配置する際に、その個数、座標位置、回転角度および大きさ(縮小または拡大の倍率)それぞれが対象模式画像ごとに乱数によって設定される。
【0041】
本実施形態では、マスク画像は、対象模式画像の画像領域を、白とし、その背景を黒として2値化した画像である。
【0042】
第2機械学習モデル(模擬画像生成モデル)には、公知のCycleGANが用いられてよいが、本実施形態では、図8に示すように、CycleGANにおける生成器2411および識別器2412に、さらに検出器2413を含む、変形態様のCycleGANが用いられる。
【0043】
CycleGANは、互いに異なる2個のドメイン(domain)間の対応関係を機械学習する。一方のドメインをXとし、その画像データをxとし、他方のドメインをYとし、その画像データをyとする。
【0044】
生成器2411は、ドメインXの画像xをドメインYの画像に変換する第1生成器2411xyと、ドメインYの画像yをドメインXの画像に変換する第2生成器2411yxとを備える。識別器2412は、第1生成器2411xyの生成した画像yfがドメインYの画像yか否かを識別する第1識別器2412yと、第2生成器2411yxの生成した画像xfがドメインXの画像xか否かを識別する第2識別器2412xとを備える。CycleGANは、このような2組の第1生成器2411xyおよび第1識別器2412yと第2生成器2411yxおよび第2識別器2412xとを使った変換と逆変換との循環構造を持つ。そして、第1生成器2411xyおよび第1識別器2412yは、敵対的生成ネットワーク(Generative Adversarial Network、GAN)を構成し、第1生成器2411xyは、第1識別器2412yを騙すように機械学習し、第1識別器2412yは、第1生成器2411xyの嘘を見破るように機械学習する。同様に、第2生成器2411yxおよび第2識別器2412xは、敵対的生成ネットワークを構成し、第2生成器2411yxは、第2識別器2412xを騙すように機械学習し、第2識別器2412xは、第2生成器2411yxの嘘を見破るように機械学習する。本実施形態では、ドメインXは、例えば図9の左半分に示すような、複数の実画像から成るデータセットであり、ドメインYは、例えば図9の右半分に示すような、複数のマスク画像から成るデータセットである。CycleGANは、ドメイン間の対応関係を機械学習するため、図9に示す実画像とマスク画像とは、ペア画像ではない。
【0045】
検出器2413は、前記模擬画像から、前記対象物の第1画像領域を除いた背景画像と、前記模擬画像から、前記対象物の第1画像領域のみの物体画像と、を識別して検出するものである。本実施形態では、マスク画像の対象模式画像の位置に、対象物(検出対象)を配置し、残余の領域に実画像を配置した模擬画像を好適に生成するために、このような検出器2413が通常のCycleGANに追加される。前記2組の第1生成器2411xyおよび第1識別器2412yと第2生成器2411yxおよび第2識別器2412xとの機械学習の各回において、検出器2413は、第1生成器2411xyおよび第1識別器2412yの学習タイミングと同時に機械学習する。この際に、前記背景画像は、第1生成器2411xyに実画像およびマスク画像を入力することによって生成される模擬画像において、前記入力したマスク画像における対象模式画像の画像領域に対応する画像領域(対応画像領域)の画素値を0に置換するとともに、前記対応画像領域を除く残余の画像領域の画素値をそのままとすることによって、第2機械学習部241によって生成され、検出器2413に入力される。前記物体画像は、第1生成器2411xyに実画像およびマスク画像を入力することによって生成される模擬画像において、前記対応画像領域を除く残余の画像領域の画素値を0に置換するとともに、前記対応画像領域の画素値をそのままとすることによって、第2機械学習部241によって生成され、検出器2413に入力される。
【0046】
第1生成器2411xyを表す関数(画像変換機能)をGとし、第2生成器2411yxを表す関数(画像変換機能)をFとし、第1識別器2412yを表す関数(識別機能)をDyとし、第2識別器2412xを表す関数(識別機能)をDxとすると、第1生成器2411xyと第1識別器2412yとの関係は、次式1で表され、第1生成器2411xyおよび第1識別器2412yの機械学習の目的は、式1において、次式2に示すようにGを最小化し、Dyを最大化することである。式1のLGANは、一般に、敵対的損失(Adversarial Loss)と呼称される。同様に、第2生成器2411yxおよび第2識別器2412xの機械学習の目的は、次式3に示すようにFを最小化し、Dxを最大化することである。
【0047】
【数1】
【0048】
【数2】
【0049】
【数3】
【0050】
ここで、y~pdata(y)は、yが確率分布関数pdataに従って分布する表現であり、x~pdata(x)は、xが確率分布関数pdataに従って分布する表現であり、Eは、平均情報量(エントロピー)を指す(例えば、Ey~pdata(y)[logDy(y)]=Σypdata(y)Dy(y))。
【0051】
上記式2および式3のままでは、それぞれ独立して機械学習することになるので、CycleGANでは、変換と逆変換とを繰り返す循環での一貫性を保つために、次式4が導入される。式4のLcycは、一般に、循環一貫性損失(Cycle Consistency Loss)あるいは、再構成損失(Reconstruction Loss)と呼称される。
【0052】
【数4】
【0053】
したがって、CycleGANの機械学習の目的は、次式5において、次式6に示すようにG、Fを最小化し、Dy、Dxを最大化することである。
【0054】
【数5】
【0055】
【数6】
【0056】
ここで、λは、敵対的損失と循環一貫性損失との間における相対的な重要性を制御するための重みであり、予め適宜に設定される。
【0057】
本実施形態における図8に示す変形態様のCycleGANの機械学習の目的は、検出器2413を表す関数(識別機能)をDboとした場合に、次式7において、次式8に示すようにGを最小化し、Dyを最大化し、次式9に示すようにFを最小化し、Dxを最大化することである。
【0058】
【数7】
【0059】
【数8】
【0060】
【数9】
【0061】
図1に戻って、生成部242は、この第2機械学習部241で機械学習した機械学習済みの第2機械学習モデル(模擬画像生成モデル)を用いることによって、教師あり学習データを、複数、生成し、学習データセット(検出用学習データセット)を生成するものである。より具体的には、実画像とマスク画像とが機械学習済みの模擬画像生成モデルに入力され、前記マスク画像と前記機械学習済みの模擬画像生成モデルから出力された模擬画像とが教師あり学習データとして1つの組とされる。前記マスク画像が教師データとなり、前記模擬画像が学習データとなる。複数のマスク画像それぞれについて、この処理が実行され、前記マスク画像と前記模擬画像との組を、複数、備える検出用学習データセットが生成される。教師あり学習データの各一例が図10Aおよび図10Bに示されている。図10Aおよび図10Bにおいて、平面視にて左側に教師データとなるマスク画像が示され、その右側に学習データとなる模擬画像が示されている。なお、物体検出装置Dの配設位置が決定されると、背景画像は、固定されるので、検出用学習データセットを生成する際に前記機械学習済みの模擬画像生成モデルに入力される実画像は、前記複数のマスク画像それぞれについて、1個であってよいが、もちろん、複数であってもよい。また、マスク画像そのものが教師データとされたが、マスク画像から対象模式画像の位置座標が検出され、その位置座標が教師データとされてもよい。
【0062】
第1機械学習部22は、画像から検出対象を検出する第1機械学習モデル(物体検出モデル)を、学習データ生成部24で生成した学習データセット(検出用学習データセット)を用いて機械学習するものである。前記物体検出モデルには、例えばCNN(Convolution Neural Network)やR-CNN(Region based Convolution Neural Network)等による、アノテーションされたデータセットが必要な画像検出手法が用いられてもよし、深層学習(Deep Learning)に限らずルールベース手法でもよいが、本実施形態では、図11に示す公知のMask R-CNNが用いられた。Mask R-CNNは、画像の画素ごとに、物体クラスの分類および同一物であるか否かの分類を行うインスタンスセグメンテーション(Instance Segmentation)で物体を検出するモデルである。前記Mask R-CNNは、大略、入力画像の特徴を抽出するバックボーンネットワーク(Bacbone Network)221と、物体の候補領域を選定するRPN(Region Proporsal Network)222と、バックボーンネットワーク221の出力から、RPN222で得られた領域候補を切り出してクラス識別と領域抽出(物体検出)と行うヘッドネットワーク(Head Network)223とを備える。本実施形態では、第1機械学習部22は、既存のモデルの一部を再利用して新しいモデルを構築する手法であるファインチューニングによって、物体検出モデルとしてMask R-CNNを、学習データ生成部24で生成した学習データセットを用いて機械学習した。より具体的には、第1機械学習部22は、Microsoft Common Object in Context(Microsoftは登録商標)のデータセットで機械学習済みのMask R-CNNに対し、ヘッドネットワーク223のみを初期化したヘッドネットワーク223に代え、学習データ生成部24で生成した検出用学習データセットを用いてファインチューニングすることによって、学習データ生成部24で生成した検出用学習データセットを用いて機械学習した機械学習済みの物体検出モデルを生成した。
【0063】
検出部23は、第1機械学習部22によって機械学習した機械学習済みの物体検出モデルを用いることによって、画像取得部1で取得した画像に基づいて検出対象を検出するものである。検出部23の検出結果は、表示部4に表示される。前記検出結果の一例が図12Aおよび図12Bに示されている。図12Aの左側に示す画像が機械学習済みの物体検出モデルに入力されると、図12Aの右側に示す画像が出力され、表示部4に表示される。図12Bの左側に示す画像が機械学習済みの物体検出モデルに入力されると、図12Bの右側に示す画像が出力され、表示部4に表示される。
【0064】
これら制御処理部2、入力部3、表示部4、IF部5および記憶部6は、例えば、デスクトップ型やノート型やタブレット型等のコンピュータによって構成可能である。なお、画像取得部1がインターフェース回路や通信インターフェース回路である場合には、IF部5は、画像取得部1と兼用できるので、画像取得部1も含めて、物体検出装置Dは、コンピュータによって構成可能である。
【0065】
次に、本実施形態の動作について説明する。図13は、学習データセットの生成に関する物体検出装置の動作を示すフローチャートである。図14は、物体検出モデルの機械学習に関する物体検出装置の動作を示すフローチャートである。図15は、検出対象の検出に関する物体検出装置の動作を示すフローチャートである。
【0066】
このような構成の学習データ生成機能付きの物体検出装置Dは、その電源が投入されると、必要な各部の初期化を実行し、その稼働を始める。制御処理部2には、その制御処理プログラムの実行によって、制御部21、第1機械学習部22、検出部23および学習データ生成部24が機能的に構成され、学習データ生成部24には、第2機械学習部241および生成部242が機能的に構成される。
【0067】
学習データセット(検出用学習データセット)の生成では、物体検出装置Dは、次のように動作する。
【0068】
図13において、まず、学習データ生成機能付きの物体検出装置Dは、制御処理部2の制御部21によって、模擬画像用学習データセットを取得し、記憶部6に記憶する(S11)。手動でマスク画像を生成する場合には、ユーザは、前記図9に示すような複数の実画像および複数のマスク画像を備える模擬画像用学習データセットを用意する。そして、ユーザは、この用意した模擬画像用学習データセットを入力部3またはIF部5から、物体検出装置Dに入力し、物体検出装置Dは、これを取得する。あるいは、自動でマスク画像を生成する場合には、物体検出装置Dは、上述のように、複数のマスク画像を生成して模擬画像用学習データセットを取得する。
【0069】
次に、物体検出装置Dは、制御処理部2における学習データ生成部24の第2機械学習部241によって、処理S11で取得した模擬画像用学習データセット(複数の実画像および複数のマスク画像)に基づいて模擬画像生成モデルを機械学習し、機械学習済みの模擬画像生成モデルを記憶部6に記憶する(S12)。
【0070】
次に、物体検出装置Dは、制御部21によって、入力部3またはIF部5を介して、実画像とマスク画像との組を、複数、取得し、記憶部6に記憶する(S13)。例えば、模擬画像生成モデルの機械学習が終了すると、物体検出装置Dは、制御部21によって、実画像とマスク画像との組を、複数、入力するように、ユーザに促す画像を、表示部4に表示する。ユーザは、この画面を参照し、実画像とマスク画像との組を、複数、入力部3またはIF部5から、物体検出装置Dに入力する。なお、上述したように、前記実画像は、前記複数のマスク画像それぞれについて、1個であってよいが、もちろん、複数であってもよい。1個の場合、処理S11で取得した模擬画像用学習データセットにおける複数のマスク画像が流用され、その1つの実画像が流用され、前記複数のマスク画像それぞれと組み合わされてもよい。
【0071】
次に、物体検出装置Dは、制御処理部2における学習データ生成部24の生成部242によって、処理S12で機械学習した機械学習済みの模擬画像生成モデルに、処理S13で取得した実画像とマスク画像との組を、複数、用いることによって、教師あり学習データ(マスク画像と模擬画像との組)を、複数、生成して検出用学習データセットを生成し、記憶部6に記憶する(S14)。
【0072】
そして、物体検出装置Dは、制御部21によって、処理S14で生成した検出用学習データセットを、IF部5から、例えば記憶媒体や記録媒体等の外部の装置に出力し、本処理を終了する(S15)。
【0073】
検出用学習データセットの生成に関し、物体検出装置Dは、このように動作する。
【0074】
物体検出モデルの機械学習に関し、物体検出装置Dは、次のように動作する。
【0075】
図14において、まず、物体検出装置Dは、制御処理部2の制御部21によって、検出用学習データセットを取得し、記憶部6に記憶する(S21)。例えば、ユーザは、検出用学習データセットをIF部5から、物体検出装置Dに入力し、物体検出装置Dは、これを取得する。あるいは、上述の図13に示す検出用学習データセットの生成の各処理に続けて本処理を実行する場合には、物体検出装置Dは、記憶部6から学習データセットを取得し、記憶部6に記憶することになるので、この処理S21は、省略できる。
【0076】
次に、物体検出装置Dは、制御処理部2の第1機械学習部22によって、処理S21で取得した検出用学習データセットに基づいて物体検出モデルを機械学習する(S22)。
【0077】
そして、物体検出装置Dは、制御処理部2の第1機械学習部22によって、処理S22で機械学習した機械学習済みの物体検出モデルを記憶部6に記憶し、本処理を終了する(S23)。
【0078】
物体検出モデルの機械学習に関し、物体検出装置Dは、このように動作する。
【0079】
検出対象の検出に関し、物体検出装置Dは、次のように動作する。検出対象の検出を開始すると、図15において、物体検出装置Dは、制御処理部2の制御部21によって、画像取得部1から画像を取得し、記憶部6に記憶する(S31)。
【0080】
次に、物体検出装置Dは、制御処理部2の検出部23によって、第1機械学習部22によって機械学習した機械学習済みの物体検出モデルを用いることによって、処理S31で画像取得部1から取得した画像に基づいて検出対象を検出する(S32)。
【0081】
次に、物体検出装置Dは、検出部23によって、処理S32の検出結果を表示部4に表示して出力する(S33)。
【0082】
そして、物体検出装置Dは、制御部21によって、本処理の終了であるか否かを判定する(S34)。この判定の結果、本処理の終了である場合(Yes)には、物体検出装置Dは、本処理を終了し、前記判定の結果、本処理の終了ではない場合(No)には、物体検出装置Dは、処理を、処理S31に戻す。したがって、本処理の終了まで、物体検出装置Dは、検出対象を検出する各処理を繰り返し実行する。例えば、上述の処理S31ないし処理S33の各処理の実行中に、入力部3で、処理の終了を指示する所定のコマンドの入力を受け付けた場合(所定の入力スイッチ等が入力操作された場合)には、前記本処理の終了と判定され、これを除く場合には、前記本処理の終了ではないと判定される。
【0083】
検出対象の検出に関し、物体検出装置Dは、このように動作する。
【0084】
以上説明したように、学習データ生成機能付きの物体検出装置D、ならびに、これに実装された学習データ生成方法および学習データ生成プログラムは、実画像とマスク画像とに基づいて模擬画像を生成し、この模擬画像と前記マスク画像とを組にすることによって、前記マスク画像を教師データとした学習データを生成する。上記学習データ生成機能付きの物体検出装置D、学習データ生成方法および学習データ生成プログラムは、このような学習データを複数備える学習データセットを生成する。このため、上記学習データ生成機能付きの物体検出装置D、学習データ生成方法および学習データ生成プログラムは、アノテーションの工数をより低減できる。
【0085】
上記学習データ生成機能付きの物体検出装置D、学習データ生成方法および学習データ生成プログラムは、CycleGANを機械学習方法に用いるので、実画像とマスク画像に基づいて、マスク画像の対象模式画像を除く背景部分が実画像になるように、模擬画像を適切に生成できる。
【0086】
上記学習データ生成機能付きの物体検出装置D、学習データ生成方法および学習データ生成プログラムは、前記模擬画像から、背景画像と物体画像とを識別して検出する検出器を含むので、より適切に模擬画像を生成できる。
【0087】
上述によれば、学習データ生成部24によって生成された学習データセットを用いて、検出対象を検出する機械学習モデルを機械学習する学習データ生成機能付きの物体検出装置D、ならびに、これに実装された物体検出方法および物体検出プログラムが提供できる。上記物体検出装置D、物体検出方法および物体検出プログラムは、学習データ生成部24を備えるので、別途、学習データセットを用意することなく、第1機械学習モデル(物体検出モデル)を機械学習できる。
【0088】
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
【符号の説明】
【0089】
D 学習データ生成機能付きの物体検出装置
1 画像取得部
2 制御処理部
3 入力部
4 表示部
5 インターフェース部(IF部)
6 記憶部
21 制御部
22 第1機械学習部
23 検出部
24 学習データ生成部
241 第2機械学習部
242 生成部
2411 生成器
2412 識別器
2413 検出器
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15