(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024147914
(43)【公開日】2024-10-17
(54)【発明の名称】学習データ生成方法、該プログラムおよび該装置
(51)【国際特許分類】
G06V 10/72 20220101AFI20241009BHJP
G06T 7/00 20170101ALI20241009BHJP
G06V 10/82 20220101ALI20241009BHJP
【FI】
G06V10/72
G06T7/00 350C
G06V10/82
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023060655
(22)【出願日】2023-04-04
(71)【出願人】
【識別番号】000001199
【氏名又は名称】株式会社神戸製鋼所
(74)【代理人】
【識別番号】100115381
【弁理士】
【氏名又は名称】小谷 昌崇
(74)【代理人】
【識別番号】100111453
【弁理士】
【氏名又は名称】櫻井 智
(72)【発明者】
【氏名】土屋 雅大
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA03
5L096EA15
5L096FA67
5L096HA04
5L096HA11
5L096KA04
(57)【要約】
【課題】本発明は、人手によるアノテーションの工数をより低減できる学習データ生成方法、該プログラムおよび該装置を提供する。
【解決手段】本発明は、所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルに、前記対象物を幾何学的に変化させる機能を付与した第2モデルを、前記変化の仕方を異ならせて複数生成し、第1画像から前記第1モデルで第1疑似画像を生成し、前記第1疑似画像から前記複数の第2モデルそれぞれで複数の第2疑似画像を生成し、前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求め、これら求めた各変化量に基づいて、前記第1疑似画像のラベルを生成し、前記第1疑似画像と前記ラベルとを対応付けて学習データを生成し、この第1疑似画像の生成からそのラベルの生成までの各処理を複数回繰り返すことによって学習データセットとして生成する。
【選択図】
図7
【特許請求の範囲】
【請求項1】
所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルに、前記対象物を幾何学的に変化させる機能を付与した第2モデルを、前記変化の仕方を異ならせて複数生成する第1工程と、
第1画像から前記第1モデルによって第1疑似画像を生成する第2工程と、
前記第1疑似画像から前記複数の第2モデルそれぞれによって複数の第2疑似画像を生成する第3工程と、
前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求め、前記複数の第2疑似画像それぞれについて求めた各変化量に基づいて、前記第1疑似画像のラベルを生成する第4工程と、
前記第1疑似画像と前記ラベルとを対応付けて学習データを生成する第5工程と、
前記第2ないし第5工程を複数回繰り返すことによって複数の学習データを学習データセットとして生成する第6工程とを備える、
学習データ生成方法。
【請求項2】
前記第4工程は、
前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求めて変化量データを生成する第41工程と、
前記複数の第2疑似画像それぞれについて前記第41工程で求めた各変化量データそれぞれについて、当該変化量データの欠損を補完して補完変化量データを生成する第42工程と、
前記各変化量データそれぞれについて前記第42工程で生成した各補完変化量データに基づいて前記ラベルを生成する第43工程とを備える、
請求項1に記載の学習データ生成方法。
【請求項3】
前記第1モデルは、STYLEGANまたはSTYLEGAN2であり、
複数の第1画像と前記複数の第1画像それぞれに対応付けられたクラスラベルとを備える第1モデル用学習データセットを用いることによって、前記第1モデルを、機械学習する第7工程を、前記第1工程より前にさらに備える、
請求項1に記載の学習データ生成方法。
【請求項4】
前記変化の仕方は、前記対象物を左右方向に位置変化させる第1の変化の仕方、前記対象物を上下方向に位置変化させる第2の変化の仕方、前記対象物を斜め方向に位置変化させる第3の変化の仕方、および、前記対象物を拡大および縮小のいずれかを行う第4の変化の仕方のうちの少なくとも2つを含み、
前記第1工程は、前記少なくとも2つを実施することにより、少なくとも2つの第2モデルを生成する、
請求項1に記載の学習データ生成方法。
【請求項5】
前記第1疑似画像と前記第2疑似画像との変化量は、オプティカルフローによって表されている、
請求項1に記載の学習データ生成方法。
【請求項6】
コンピュータに、
所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルに、前記対象物を幾何学的に変化させる機能を付与した第2モデルを、前記変化の仕方を異ならせて複数生成する第1工程と、
第1画像から前記第1モデルによって第1疑似画像を生成する第2工程と、
前記第1疑似画像から前記複数の第2モデルそれぞれによって複数の第2疑似画像を生成する第3工程と、
前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求め、前記複数の第2疑似画像それぞれについて求めた各変化量に基づいて、前記第1疑似画像のラベルを生成する第4工程と、
前記第1疑似画像と前記ラベルとを対応付けて学習データを生成する第5工程と、
前記第2ないし第5工程を複数回繰り返すことによって複数の学習データを学習データセットとして生成する第6工程と、
を実行させるための学習データ生成プログラム。
【請求項7】
所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルに、前記対象物を幾何学的に変化させる機能を付与した第2モデルを、前記変化の仕方を異ならせて複数生成する第2モデル生成部と、
第1画像から前記第1モデルによって第1疑似画像を生成する第1疑似画像生成処理を実行する第1疑似画像生成部と、
前記第1疑似画像から前記複数の第2モデルそれぞれによって複数の第2疑似画像を生成する第2疑似画像生成処理を実行する第2疑似画像生成部と、
前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求め、前記複数の第2疑似画像それぞれについて求めた各変化量に基づいて、前記第1疑似画像のラベルを生成するラベル生成処理を実行するラベル生成部と、
前記第1疑似画像と前記ラベルとを対応付けて学習データを生成する学習データ生成処理を実行する学習データ生成部と、
前記第1疑似画像生成処理、前記第2疑似画像生成処理、前記ラベル生成処理および前記学習データ生成処理を複数回繰り返すことによって複数の学習データを学習データセットとして生成する学習データセット生成部とを備える、
学習データ生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象物を検出する機械学習モデルを機械学習するために用いられる学習データセットを生成する学習データ生成方法、学習データ生成プログラムおよび学習データ生成装置に関する。
【背景技術】
【0002】
近年、機械学習が研究、開発され、様々な分野に適用されつつある。この機械学習には、機械学習を実施するための比較的多数の学習データが必要である。特に、教師ありの機械学習では、学習データに、前記教師、すなわち、当該学習データが正解であるか否かを表す教師データ(教師ラベル、ラベル)を付す必要がある。このため、学習データごとに教師データを生成すること(アノテーション)が必要であることから、多大な工数が発生する。このため、前記工数の低減が要望されており、例えば、非特許文献1に開示された技術がある。
【0003】
非特許文献1に開示された機械学習方法は、ペア画像のピクセル間の対応関係ではなく、ドメイン(domain)の異なる2つの画像データセットにおけるドメイン間の対応関係を、敵対的生成ネットワーク(GAN、Generatine Adversarial Network)によって、機械学習する。この機械学習方法では、2つの画像データセットに対し、変換と逆変換との循環構造で機械学習するので、大量の画像データセットを学習データセットとして用意しなくても機械学習できる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】LanIan Liu、et al.“Generative Modeling for SmallData Object Detection”、[online]、令和4年1月28日検索、https://arxiv.org/pdf/1910.017169.pdf
【発明の概要】
【発明が解決しようとする課題】
【0005】
前記非特許文献1に開示された機械学習方法は、大量の画像データセットを学習データセットとして必要としないが、不要と言うわけではなく、少量の学習データセットは、必要であり、これに応じたアノテーションを要する。
【0006】
本発明は、上述の事情に鑑みて為された発明であり、その目的は、人手によるアノテーションの工数をより低減できる学習データ生成方法、学習データ生成プログラムおよび学習データ生成装置を提供することである。
【課題を解決するための手段】
【0007】
本発明者は、種々検討した結果、上記目的は、以下の本発明により達成されることを見出した。すなわち、本発明の一態様にかかる学習データ生成方法は、所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルに、前記対象物を幾何学的に変化させる機能を付与した第2モデルを、前記変化の仕方を異ならせて複数生成する第1工程と、第1画像から前記第1モデルによって第1疑似画像を生成する第2工程と、前記第1疑似画像から前記複数の第2モデルそれぞれによって複数の第2疑似画像を生成する第3工程と、前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求め、前記複数の第2疑似画像それぞれについて求めた各変化量に基づいて、前記第1疑似画像のラベルを生成する第4工程と、前記第1疑似画像と前記ラベルとを対応付けて学習データを生成する第5工程と、前記第2ないし第5工程を複数回繰り返すことによって複数の学習データを学習データセットとして生成する第6工程とを備える。
【0008】
このような学習データ生成方法は、第1モデルに基づき生成した第2モデルを用いることによって、第1モデルによって生成した第1疑似画像のラベルを生成することができるから、アノテーションが不要となり、人手によるアノテーションの工数をより低減できる。
【0009】
他の一態様では、上述の学習データ生成方法において、前記第4工程は、前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求めて変化量データを生成する第41工程と、前記複数の第2疑似画像それぞれについて前記第41工程で求めた各変化量データそれぞれについて、当該変化量データの欠損を補完して補完変化量データを生成する第42工程と、前記各変化量データそれぞれについて前記第42工程で生成した各補完変化量データに基づいて前記ラベルを生成する第43工程とを備える。
【0010】
このような学習データ生成方法は、変化量データの欠損を補完するので、より精度良くラベルを生成できる。
【0011】
他の一態様では、これら上述の学習データ生成方法において、前記第1モデルは、STYLEGANまたはSTYLEGAN2であり、複数の第1画像と前記複数の第1画像それぞれに対応付けられたクラスラベルとを備える第1モデル用学習データセットを用いることによって、前記第1モデルを、機械学習する第7工程を、前記第1工程より前にさらに備える。
【0012】
このような学習データ生成方法は、第1モデルを機械学習によって生成できる。
【0013】
他の一態様では、これら上述の学習データ生成方法において、前記変化の仕方は、前記対象物を左右方向に位置変化させる第1の変化の仕方、前記対象物を上下方向に位置変化させる第2の変化の仕方、前記対象物を斜め方向に位置変化させる第3の変化の仕方、および、前記対象物を拡大および縮小のいずれかを行う第4の変化の仕方のうちの少なくとも2つを含み、前記第1工程は、前記少なくとも2つを実施することにより、少なくとも2つの第2モデルを生成する。
【0014】
これによれば、第1ないし第3の変化の仕方のうちの少なくとも2つを含む学習データ生成方法が提供できる。
【0015】
他の一態様では、これら上述の学習データ生成方法において、前記第1疑似画像と前記第2疑似画像との変化量は、オプティカルフローによって表されている。
【0016】
これによれば、前記第1疑似画像と前記第2疑似画像との変化量をオプティカルフローによって表した学習データ生成方法が提供できる。
【0017】
本発明の他の一態様にかかる学習データ生成プログラムは、コンピュータに、 所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルに、前記対象物を幾何学的に変化させる機能を付与した第2モデルを、前記変化の仕方を異ならせて複数生成する第1工程と、第1画像から前記第1モデルによって第1疑似画像を生成する第2工程と、前記第1疑似画像から前記複数の第2モデルそれぞれによって複数の第2疑似画像を生成する第3工程と、前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求め、前記複数の第2疑似画像それぞれについて求めた各変化量に基づいて、前記第1疑似画像のラベルを生成する第4工程と、前記第1疑似画像と前記ラベルとを対応付けて学習データを生成する第5工程と、前記第2ないし第5工程を複数回繰り返すことによって複数の学習データを学習データセットとして生成する第6工程と、を実行させるためのプログラムである。
【0018】
このような学習データ生成プログラムは、第1モデルに基づき生成した第2モデルを用いることによって、第1モデルによって生成した第1疑似画像のラベルを生成することができるから、アノテーションが不要となり、人手によるアノテーションの工数をより低減できる。
【0019】
本発明の他の一態様にかかる学習データ生成装置は、 所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルに、前記対象物を幾何学的に変化させる機能を付与した第2モデルを、前記変化の仕方を異ならせて複数生成する第2モデル生成部と、第1画像から前記第1モデルによって第1疑似画像を生成する第1疑似画像生成処理を実行する第1疑似画像生成部と、前記第1疑似画像から前記複数の第2モデルそれぞれによって複数の第2疑似画像を生成する第2疑似画像生成処理を実行する第2疑似画像生成部と、前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求め、前記複数の第2疑似画像それぞれについて求めた各変化量に基づいて、前記第1疑似画像のラベルを生成するラベル生成処理を実行するラベル生成部と、前記第1疑似画像と前記ラベルとを対応付けて学習データを生成する学習データ生成処理を実行する学習データ生成部と、前記第1疑似画像生成処理、前記第2疑似画像生成処理、前記ラベル生成処理および前記学習データ生成処理を複数回繰り返すことによって複数の学習データを学習データセットとして生成する学習データセット生成部とを備える。
【0020】
このような学習データ生成装置は、第1モデルに基づき生成した第2モデルを用いることによって、第1モデルによって生成した第1疑似画像のラベルを生成することができるから、アノテーションが不要となり、人手によるアノテーションの工数をより低減できる。
【発明の効果】
【0021】
本発明にかかる学習データ生成方法、学習データ生成プログラムおよび学習データ生成装置は、手によるアノテーションの工数をより低減できる。
【図面の簡単な説明】
【0022】
【
図1】実施形態における学習データ生成装置の構成を示すブロック図である。
【
図2】一例として、第2学習データを示す図である。
【
図4】一例として、オプティカルフローを示す図である。
【
図5】一例として、変化量を視覚化した変化量マップおよびその補完変化量マップを示す図である。
【
図6】一例として、第1疑似画像とそのヒートマップを示す図である。
【
図7】前記学習データ生成装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0023】
以下、図面を参照して、本発明の1または複数の実施形態が説明される。しかしながら、発明の範囲は、開示された実施形態に限定されない。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。
【0024】
実施形態における学習データ生成装置は、所定の物体を検出する機械学習モデルを機械学習するための、教師ありの学習データを、複数、備えた学習データセットを生成する装置である。この学習データ生成装置は、第2モデル生成部と、第1疑似画像生成部と、第2疑似画像生成部と、ラベル生成部と、学習データ生成部と、学習データセット生成部とを備える。前記第2モデル生成部は、所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルに、前記対象物を幾何学的に変化させる機能を付与した第2モデルを、前記変化の仕方を異ならせて複数生成するものである。前記第1疑似画像生成部は、第1画像から前記第1モデルによって第1疑似画像を生成する第1疑似画像生成処理を実行するものである。前記第2疑似画像生成部は、前記第1疑似画像から前記複数の第2モデルそれぞれによって複数の第2疑似画像を生成する第2疑似画像生成処理を実行するものである。前記ラベル生成部は、前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求め、前記複数の第2疑似画像それぞれについて求めた各変化量に基づいて、前記第1疑似画像のラベルを生成するラベル生成処理を実行するものである。前記学習データ生成部は、前記第1疑似画像と前記ラベルとを対応付けて学習データを生成する学習データ生成処理を実行するものである。前記学習データセット生成部は、前記第1疑似画像生成処理、前記第2疑似画像生成処理、前記ラベル生成処理および前記学習データ生成処理を複数回繰り返すことによって複数の学習データを学習データセットとして生成するものである。以下、このような学習データ生成装置ならびにこれに実装された学習データ生成方法および学習データ生成プログラムについて、より具体的に説明する。
【0025】
図1は、実施形態における学習データ生成装置の構成を示すブロック図である。
図2は、一例として、第2学習データを示す図である。
図2Aおよび
図2Bは、左右位置変化用の学習データを示し、
図2Cおよび
図2Dは、上下位置変化用の学習データを示し、
図2Eおよび
図2Fは、斜め位置変化用の学習データを示し、
図2Gおよび
図2Hは、拡大縮小変化用の学習データを示す。
図3は、一例として、第1疑似画像を示す図である。
図3には、4枚の互いに異なる第1疑似画像が示されている。
図4は、一例として、オプティカルフローを示す図である。
図4Aは、左右位置変化の場合のオプティカルフローを示し、
図4Bは、上下位置変化の場合のオプティカルフローを示し、
図4Cは、斜め位置変化の場合のオプティカルフローを示し、
図4Dは、拡大縮小変化の場合のオプティカルフローを示す。
図5は、一例として、変化量を視覚化した変化量マップおよびその補完変化量マップを示す図である。
図5Aは、左右位置変化の場合の変化量マップを示し、
図5Bは、
図5Aに示す変化量マップを補完した補完変化量マップを示す。
図5Cは、上下位置変化の場合の変化量マップを示し、
図5Dは、
図5Cに示す変化量マップを補完した補完変化量マップを示す。
図5Eは、斜め位置変化の場合の変化量マップを示し、
図5Fは、
図5Eに示す変化量マップを補完した補完変化量マップを示す。
図5Gは、拡大縮小変化の場合の変化量マップを示し、
図5Hは、
図5Gに示す変化量マップを示す。なお、拡大縮小変化の場合では、補完が行われていない。
図6は、一例として、第1疑似画像とそのヒートマップを示す図である。
図6Aは、第1疑似画像を示し、
図6Bは、そのヒートマップを示す。
【0026】
実施形態における学習データ生成装置Sは、例えば、
図1に示すように、制御処理部1と、入力部2と、出力部3と、インターフェース部(IF部)4と、記憶部5とを備える。
【0027】
入力部2は、制御処理部1に接続され、例えば、学習データの生成開始を指示するコマンド等の各種コマンド、および、第1モデル用学習データセットや第2モデル用学習データセット等の、学習データ生成装置Sを動作させる上で必要な各種データを前記学習データ生成装置Sに入力する機器であり、例えば、所定の機能を割り付けられた複数の入力スイッチや、キーボードや、マウス等である。出力部3は、制御処理部1に接続され、制御処理部1の制御に従って、入力部2から入力されたコマンドやデータ、および、当該学習データ生成装置Sで生成した学習データ等を出力する機器であり、例えばCRTディスプレイ、LCD(液晶表示装置)および有機ELディスプレイ等の表示装置やプリンタ等の印刷装置等である。
【0028】
なお、入力部2および出力部3は、タッチパネルより構成されてもよい。このタッチパネルを構成する場合において、入力部2は、例えば抵抗膜方式や静電容量方式等の操作位置を検出して入力する位置入力装置であり、出力部3は、表示装置である。このタッチパネルでは、表示装置の表示面上に位置入力装置が設けられ、表示装置に入力可能な1または複数の入力内容の候補が表示され、ユーザが、入力したい入力内容を表示した表示位置に触れると、位置入力装置によってその位置が検出され、検出された位置に表示された表示内容がユーザの操作入力内容として学習データ生成装置Sに入力される。このようなタッチパネルでは、ユーザは、入力操作を直感的に理解し易いので、ユーザにとって取り扱い易い学習データ生成装置Sが提供される。
【0029】
IF部4は、制御処理部1に接続され、制御処理部1の制御に従って、例えば、外部の機器との間でデータを入出力する回路であり、例えば、シリアル通信方式であるRS-232Cのインターフェース回路、Bluetooth(登録商標)規格を用いたインターフェース回路、および、USB規格を用いたインターフェース回路等である。また、IF部4は、例えば、データ通信カードや、IEEE802.11規格等に従った通信インターフェース回路等の、外部の機器と通信信号を送受信する通信インターフェース回路であってもよい。
【0030】
記憶部5は、制御処理部1に接続され、制御処理部1の制御に従って、各種の所定のプログラムおよび各種の所定のデータを記憶する回路である。
【0031】
前記各種の所定のプログラムには、例えば、制御処理プログラムが含まれ、前記制御処理プログラムには、例えば、制御プログラム、第1モデル生成プログラム、第2モデル生成プログラム、第1疑似画像生成プログラム、第2疑似画像生成プログラム、ラベル生成プログラム、学習データ生成プログラムおよび学習データセット生成プログラム等が含まれる。前記制御プログラムは、学習データ生成装置Sの各部2~5を当該各部の機能に応じてそれぞれ制御するものである。前記第1モデル生成プログラムは、所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルを、複数の第1画像と前記複数の第1画像それぞれに対応付けられたクラスラベルとを備える第1モデル用学習データセットを用いることによって、機械学習するプログラムである。前記第2モデル生成プログラムは、前記第1モデルに、前記対象物を幾何学的に変化させる機能を付与した第2モデルを、前記変化の仕方を異ならせて複数生成するプログラムである。前記第1疑似画像生成プログラムは、第1画像から前記第1モデルによって第1疑似画像を生成する第1疑似画像生成処理を実行するプログラムである。前記第2疑似画像生成プログラムは、前記第1疑似画像から前記複数の第2モデルそれぞれによって複数の第2疑似画像を生成する第2疑似画像生成処理を実行するプログラムである。前記ラベル生成プログラムは、前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求め、前記複数の第2疑似画像それぞれについて求めた各変化量に基づいて、前記第1疑似画像のラベルを生成するラベル生成処理を実行するプログラムである。前記学習データ生成プログラムは、前記第1疑似画像と前記ラベルとを対応付けて学習データを生成する学習データ生成処理を実行するプログラムである。前記学習データセット生成プログラムは、前記第1疑似画像生成処理、前記第2疑似画像生成処理、前記ラベル生成処理および前記学習データ生成処理を複数回繰り返すことによって複数の学習データを学習データセットとして生成するプログラムである。
【0032】
前記各種の所定のデータには、例えば、第1モデル用学習データセット、第2モデル用学習データセット、および、当該学習データ生成装置Sで生成した学習データ(生成学習データ、第3学習データ)の学習データセット(生成学習データセット、第3学習データセット)等の、これら各プログラムを実行する上で必要なデータが含まれる。
【0033】
このような記憶部5は、例えば不揮発性の記憶素子であるROM(Read Only Memory)や書き換え可能な不揮発性の記憶素子であるEEPROM(Electrically Erasable Programmable Read Only Memory)等を備える。そして、記憶部5は、前記所定のプログラムの実行中に生じるデータ等を記憶するいわゆる制御処理部1のワーキングメモリとなるRAM(Random Access Memory)等を含む。また、記憶部5は、比較的記憶容量の大きいハードディスク装置を備えて構成されてもよい。
【0034】
記憶部5は、第1学習データ記憶部51、第2学習データ記憶部52および生成学習データ記憶部53を機能的に備える。
【0035】
第1学習データ記憶部51は、第1学習データを、複数、備える第1モデル用学習データセットを記憶するものである。前記第1モデル用学習データセットは、所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルを、機械学習で生成するために用いられる。このため、前記第1学習データは、前記所定の対象物を含む第1画像と、前記第1画像に対応付けられたクラスラベル(教師データ)とを備える。したがって、前記第1モデル用学習データセットは、複数の第1画像と前記複数の第1画像それぞれに対応付けられたクラスラベルとを備える。前記対象物は、任意の物体であってよく、例えば、検出対象となる物体である。一例では、検出対象が猫である場合、第1画像は、猫を写し込んだ画像であり、クラスラベルは、猫である。クラスラベルの付いた画像とは、検出対象が画像中のどこかに含まれている画像である。このため、クラスラベルの付いた画像を複数備えて第1モデル用学習データセットとすればよいので、第1学習データは、黙示的にクラスラベル(教師データ)を備えていることになるから、必ずしも明示的にクラスラベル(教師データ)を備えている必要は無い。第1画像中の猫の位置や大きさに応じて、機械学習後の第1モデルで生成可能な猫の位置の大きさが制御されるので、第1学習データの第1画像は、検出対象の検出範囲に応じて様々な態様の画像であることが好ましく、第1モデルで多くのバリエーションの第1疑似画像を生成する観点から、猫が様々な位置で様々なポーズ(姿勢)をとっている画像であることが好ましい。
【0036】
第2学習データ記憶部52は、第2学習データを、複数、備える第2モデル用学習データセットを記憶するものである。前記第2モデル用学習データセットは、前記第1モデルに、前記対象物を幾何学的に変化させる機能を付与する第2モデルを、機械学習で生成するために用いられる。前記幾何学的な変化の仕方は、前記対象物を左右方向に位置変化させる第1の変化の仕方、前記対象物を上下方向に位置変化させる第2の変化の仕方、前記対象物を斜め方向に位置変化させる第3の変化の仕方、および、前記対象物を拡大および縮小のいずれかを行う第4の変化の仕方のうちの少なくとも2つを含む。本実施形態では、これら4つが含まれる。このため、4個の第2A、第2B、第2Cおよび第2Dモデル用学習データセットが用意され、これらは、第2学習データ記憶部52に記憶される。
【0037】
前記第2Aモデル用学習データセットは、前記対象物を左右方向に位置変化させる機能(左右位置変化機能)を前記第1モデルに付与した第2モデル(第2Aモデル)を機械学習で生成するために用いられる。このため、前記第2Aモデル用学習データセットの第2学習データ(第2A学習データ)は、例えば、
図2Aに示す猫が中央位置より左寄りに写り込んだ画像(左寄り画像)と
図2Bに示す猫が前記中央位置より右寄りに写り込んだ画像(右寄り画像)とを備える。このような第2A学習データは、背景が単色(例えば黒色等)の画像(背景画像)に、猫を写した画像(猫画像)を重ねることによって生成され、前記重ねる際に、重ねる位置を無作為(ランダム)に前記中央位置より左寄りに生成することによって前記左寄り画像が生成でき、重ねる位置を無作為に前記中央位置より右寄りに生成することによって前記右寄り画像が生成できる。前記第2A学習データにおける左寄り画像および右寄り画像における各猫画像は、同一である。このような第2A学習データが互いに異なるように複数生成され、前記第2Aモデル用学習データセットが生成される。
【0038】
前記第2Bモデル用学習データセットは、前記対象物を上下方向に位置変化させる機能(上下位置変化機能)を前記第1モデルに付与した第2モデル(第2Bモデル)を機械学習で生成するために用いられる。このため、前記第2Bモデル用学習データセットの第2学習データ(第2B学習データ)は、例えば、
図2Cに示す猫が中央位置より上寄りに写り込んだ画像(上寄り画像)と
図2Dに示す猫が前記中央位置より下寄りに写り込んだ画像(下寄り画像)とを備える。このような第2B学習データは、前記背景画像に、前記猫画像を重ねることによって生成され、前記重ねる際に、重ねる位置を無作為に前記中央位置より上寄りに生成することによって前記上寄り画像が生成でき、重ねる位置を無作為に前記中央位置より下寄りに生成することによって前記下寄り画像が生成できる。前記第2B学習データにおける上寄り画像および下寄り画像における各猫画像は、同一である。このような第2B学習データが互いに異なるように複数生成され、前記第2Bモデル用学習データセットが生成される。
【0039】
前記第2Cモデル用学習データセットは、前記対象物を斜め方向に位置変化させる機能(斜め位置変化機能)を前記第1モデルに付与した第2モデル(第2Cモデル)を機械学習で生成するために用いられる。このため、前記第2C学習データセットの第2学習データ(第2C学習データ)は、例えば、一方斜め画像と他方斜め画像とを備え、前記一方斜め画像および前記他方斜め画像それぞれは、例えば
図2Eおよび
図2Fに示すように、前記一方斜め画像と前記他方斜め画像とを並置した場合に、前記一方斜め画像の猫画像における中央位置(一方中央位置)と前記他方斜め画像の猫画像における中央位置(他方中央位置)とを結ぶ線分が並置方向に沿った線分と交差する画像である。このような第2C学習データは、前記背景画像に、前記猫画像を重ねることによって生成され、前記重ねる際に、前記交差の角度を無作為に生成し、前記一方斜め画像と前記他方斜め画像における各猫画像の重ねる各位置を前記線分上で無作為に生成することによって生成できる。前記第2C学習データにおける一方斜め画像および他方斜め画像における各猫画像は、同一である。
図2Eに示す一方斜め画像は、猫画像が背景画像の中央位置より斜め左下に重ねられた画像であり、
図2Fに示す他方斜め画像は、猫画像が背景画像の前記中央位置より斜め右上に重ねられた画像である。このような第2C学習データが互いに異なるように複数生成され、前記第2Cモデル用学習データセットが生成される。
【0040】
前記第2Dモデル用学習データセットは、前記対象物を拡大および縮小のいずれかを行う機能(拡大縮小変化機能)を前記第1モデルに付与した第2モデル(第2Dモデル)を機械学習で生成するために用いられる。このため、前記第2Dモデル用学習データセットの第2学習データ(第2D学習データ)は、例えば、一方拡大縮小画像と他方拡大縮小画像とを備え、前記一方拡大縮小画像および前記他方拡大縮小画像それぞれは、例えば
図2Gおよび
図2Hに示すように、前記一方拡大縮小画像の猫画像のサイズ(大きさ)と前記他方拡大縮小画像の猫画像のサイズとが互いに異なる画像である。このような第2D学習データは、前記背景画像に、前記猫画像を重ねることによって生成され、前記重ねる際に、前記一方拡大縮小画像の猫画像のサイズ(大きさ)と前記他方拡大縮小画像の猫画像のサイズとが互いに異なるように各サイズを無作為に生成することによって生成できる。なお、リサイズする場合、例えば画素の補完によって元画像が拡大され、例えば画素の間引きによって元画像が縮小される。前記一方拡大縮小画像の猫画像および前記他方拡大縮小画像の猫画像のうちの両方がリサイズされてよく、これらのうちの一方がリサイズされてもよい。前記第2D学習データにおける一方拡大縮小画像および他方拡大縮小画像における各猫画像は、サイズの点で異なるが、被写体およびアングルが同一である。
図2Gに示す一方拡大縮小画像は、猫画像のサイズが
図2Hに示す他方拡大縮小画像の猫画像のサイズより小さい画像である。言い換えれば、
図2Hに示す他方拡大縮小画像は、猫画像のサイズが
図2Gに示す一方拡大縮小画像の猫画像のサイズより大きい画像である。このような第2D学習データが互いに異なるように複数生成され、前記第2Dモデル用学習データセットが生成される。
【0041】
生成学習データ記憶部53は、当該学習データ生成装置Sで生成した学習データ(生成学習データ、第3学習データ)を、複数、備える学習データセット(生成学習データセット、第3モデル用学習データセット)を記憶するものである。前記生成学習データは、後述のように生成される、前記第1疑似画像と、前記第1疑似画像に対応付けられた前記第1疑似画像のラベルと備える。
【0042】
制御処理部1は、学習データ生成装置Sの各部2~5を当該各部の機能に応じてそれぞれ制御し、前記生成学習データセットを生成するための回路である。制御処理部1は、例えば、CPU(Central Processing Unit)およびその周辺回路を備えて構成される。制御処理部1には、前記制御処理プログラムが実行されることによって、制御部11、第1モデル生成部12、第2モデル生成部13、第1疑似画像生成部14、第2疑似画像生成部15、ラベル生成部16、学習データ生成部17および学習データセット生成部18が機能的に構成される。
【0043】
制御部11は、学習データ生成装置Sの各部2~5を当該各部の機能に応じてそれぞれ制御し、学習データ生成装置Sの全体の制御を司るものである。
【0044】
第1モデル生成部12は、所定の対象物を含む第1画像に基づいて第1疑似画像を生成する第1モデルを、複数の第1学習データを備える第1モデル用学習データセットを用いることによって、機械学習するものである。前記第1モデルは、そのアーキテクチャに潜在空間を備え、前記潜在空間を操作することで、検出対象の画像における位置やサイズを変化できるモデルであり、前記第1モデルには、例えば、公知のStyleGANやその改良であるStyleGAN2が用いられる。StyleGANおよびStyleGAN2は、機械学習により前記潜在空間の潜在変数が獲得される。本実施形態では、第1モデル生成部12は、記憶部5の第1学習データ記憶部51に記憶されている第1モデル用学習データセットを用いて未機械学習のStyleGAN2を機械学習することによって、機械学習済みのStyleGAN2を前記第1モデルとして生成し、この生成した第1モデル(この例では機械学習済みのStyleGAN2)を記憶部5に記憶する。
図3には、このように生成した第1モデルによって生成した第1疑似画像の一例が、4例、示されている。
【0045】
第2モデル生成部13は、前記第1モデルに、前記対象物を幾何学的に変化させる機能を付与した第2モデルを、前記変化の仕方を異ならせて複数生成するものである。前記幾何学的な変化の仕方は、上述したように、4つの第1ないし第4の変化の仕方のうちの少なくとも2つを含み、本実施形態では、これら4つが含まれる。より具体的には、第2モデル生成部13は、まず、第1モデル生成部13で機械学習した第1モデル(この例では機械学習済みのStyleGAN2)を4個に複製して記憶部5に記憶する。続いて、第2モデル生成部13は、記憶部5の第2学習データ記憶部52に記憶されている第2Aモデル用学習データセットを用いて、前記4個のうちの1個の第1モデルを機械学習することによって、前記左右位置変化機能を前記第1モデルに付与した第2Aモデルを生成し、この生成した第2Aモデル(この例では、前記左右位置変化機能を付与した機械学習済みのStyleGAN2)を記憶部5に記憶する。続いて、第2モデル生成部13は。記憶部5の第2学習データ記憶部52に記憶されている第2Bモデル用学習データセットを用いて、残余の3個のうちの1個の第1モデルを機械学習することによって、前記上下位置変化機能を前記第1モデルに付与した第2Bモデルを生成し、この生成した第2Bモデル(この例では、前記上下位置変化機能を付与した機械学習済みのStyleGAN2)を記憶部5に記憶する。続いて、第2モデル生成部13は。記憶部5の第2学習データ記憶部52に記憶されている第2Cモデル用学習データセットを用いて、残余の2個のうちの1個の第1モデルを機械学習することによって、前記斜め位置変化機能を前記第1モデルに付与した第2Cモデルを生成し、この生成した第2Cモデル(この例では、前記斜め位置変化機能を付与した機械学習済みのStyleGAN2)を記憶部5に記憶する。そして、第2モデル生成部13は。記憶部5の第2学習データ記憶部52に記憶されている第2Dモデル用学習データセットを用いて、残余の1個の第1モデルを機械学習することによって、前記拡大縮小変化機能を前記第1モデルに付与した第2Dモデルを生成し、この生成した第2Dモデル(この例では、前記拡大縮小変化機能を付与した機械学習済みのStyleGAN2)を記憶部5に記憶する。このような第2Aモデルは、機械学習に用いた第2Aモデル用学習データセットそれぞれにおける検出対象の位置や大きさの範囲内で前記検出対象を変化できる。第2Bないし第2Dモデルも同様である。
【0046】
第1疑似画像生成部14は、第1画像から前記第1モデルによって第1疑似画像を生成する第1疑似画像生成処理を実行するものである。本実施形態では、第1疑似画像生成部14は、第1画像を、機械学習済みのStyleGAN2に入力することによって、その出力として第1疑似画像を生成し、この生成した第1疑似画像を記憶部5に記憶する。
【0047】
第2疑似画像生成部15は、前記第1疑似画像から前記複数の第2モデルそれぞれによって複数の第2疑似画像を生成する第2疑似画像生成処理を実行するものである。本実施形態では、第2疑似画像生成部15は、まず、第1疑似画像生成部14で生成した第1疑似画像を、前記第2Aモデル(この例では、前記左右位置変化機能を付与した機械学習済みのStyleGAN2)に入力することによって、その出力として第2疑似画像(第2A疑似画像)を生成し、この生成した第2A疑似画像を前記第1疑似画像と対応付けて記憶部5に記憶する。続いて、第2疑似画像生成部15は、前記第1疑似画像を、前記第2Bモデル(この例では、前記上下位置変化機能を付与した機械学習済みのStyleGAN2)に入力することによって、その出力として第2疑似画像(第2B疑似画像)を生成し、この生成した第2B疑似画像を前記第1疑似画像と対応付けて記憶部5に記憶する。続いて、第2疑似画像生成部15は、前記第1疑似画像を、前記第2Cモデル(この例では、前記斜め位置変化機能を付与した機械学習済みのStyleGAN2)に入力することによって、その出力として第2疑似画像(第2C疑似画像)を生成し、この生成した第2C疑似画像を前記第1疑似画像と対応付けて記憶部5に記憶する。そして、第2疑似画像生成部15は、前記第1疑似画像を、前記第2Dモデル(この例では、前記拡大縮小変化機能を付与した機械学習済みのStyleGAN2)に入力することによって、その出力として第2疑似画像(第2D疑似画像)を生成し、この生成した第2D疑似画像を前記第1疑似画像と対応付けて記憶部5に記憶する。したがって、第1疑似画像生成部14で生成した1個の第1疑似画像には、4個の第2Aないし第2D疑似画像が対応付けられる。
【0048】
なお、第1疑似画像に対して変化量の多い第2疑似画像(変化の大きい第2疑似画像)は、廃棄(削除)されてもよい(第1疑似画像に対して所定の変化量範囲内で第2疑似画像が生成されてもよい)。例えば、前記変化の仕方に応じて閾値が設定され、潜在空間の潜在変数における前記変化の仕方に関わる潜在変数を前記閾値の範囲内で変化させて第2疑似画像が生成される。これにより第1疑似画像に対して所定の変化量範囲内で第2疑似画像が生成される。
【0049】
ラベル生成部16は、前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求め、前記複数の第2疑似画像それぞれについて求めた各変化量に基づいて、前記第1疑似画像のラベルを生成するラベル生成処理を実行するものである。第2モデルは、対象物(一例では検出対象)を幾何学的に変化させるので、第1疑似画像に対する第2疑似画像の変化量を求めることによって第1疑似画像における前記対象物の位置が推定できるから、ラベルが生成できる。より具体的には、本実施形態では、ラベル生成部16は、前記ラベル生成処理として、まず、前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求めて変化量データを生成し、続いて、前記複数の第2疑似画像それぞれについて求めた各変化量データそれぞれについて、当該変化量データの欠損を補完して補完変化量データを生成し、そして、前記各変化量データそれぞれについて生成した各補完変化量データに基づいて前記ラベルを生成する。前記第1疑似画像と前記第2疑似画像との変化量は、オプティカルフローによって表される。
【0050】
より詳しくは、ラベル生成部16は、まず、第1疑似画像に対する第2A疑似画像のオプティカルフローを前記変化量データとして求める。すなわち、ラベル生成部16は、第1疑似画像を、所定のサイズの領域にメッシュ状(格子状)に区分けし、各領域それぞれについて、第1疑似画像における当該領域に対応する、第2疑似画像の領域を例えばLucasKanade法やHorn-Schunk法等により推定(探索)し、第1疑似画像における当該領域から前記推定した第2疑似画像の領域への変位ベクトルを、当該領域のオプティカルフローとして求める。その一例が
図4に示されている。
図4では、第1疑似画像に重ねて各領域の各オプティカルフローが矢印で表されている。前記矢印における矢の方向がオプティカルフローの移動方向を表し、前記矢印における長さがオプティカルフローの大きさを表す。
【0051】
続いて、ラベル生成部16は、各領域それぞれについて、当該領域のオプティカルフローの大きさが予め設定した所定の閾値(第1判定閾値)以上であるか否かを判定し、これによって前記第1判定閾値以上の大きさのオプティカルフローを持つ領域を抽出する。これによって前記第1判定閾値に対応した変化量を持つ領域が抽出される。前記第1判定閾値に対応した変化量を持つ領域を白抜きの丸印(○)で表した変化量マップの一例が
図5A、
図5Cおよび
図5Eに示されている。ここで、大きな変化量の領域を抽出する場合、検出対象のエッジは、大きく変化するが、検出対象の内部は、変化量が小さく抽出されない場合が起こり得る。このため、変化の仕方に応じて、欠損した領域が補完される。左右位置変化の場合における変化量マップでは、左右方向で、前記第1判定閾値に対応した変化量を持つ2個の領域の間に、前記第1判定閾値に対応した変化量を持つ領域として抽出されていない領域が存在する場合、これを前記欠損した領域として、補完が行われ、この欠損した領域が、前記第1判定閾値に対応した変化量を持つ領域に変更される。これにより、例えば、
図5Aに示す左右位置変化の場合における変化量マップは、補間後、
図5Bに示す補完変化量マップとなる。上下位置変化の場合における変化量マップでは、上下方向で、前記第1判定閾値に対応した変化量を持つ2個の領域の間に、前記第1判定閾値に対応した変化量を持つ領域として抽出されていない領域が存在する場合、これを前記欠損した領域として、補完が行われ、この欠損した領域が、前記第1判定閾値に対応した変化量を持つ領域に変更される。これにより、例えば、
図5Cに示す上下位置変化の場合における変化量マップは、補間後、
図5Dに示す補完変化量マップとなる。斜め位置変化の場合における変化量マップでは、斜め方向で、前記判定閾値に対応した変化量を持つ2個の領域の間に、前記第1判定閾値に対応した変化量を持つ領域として抽出されていない領域が存在する場合、これを前記欠損した領域として、補完が行われ、この欠損した領域が、前記第1判定閾値に対応した変化量を持つ領域に変更される。これにより、例えば、
図5Eに示す左右位置変化の場合における変化量マップは、補間後、
図5Fに示す補完変化量マップとなる。
【0052】
拡大縮小変化の場合、オプティカルフローの変位ベクトルの重なりが多い領域が前記検出対象の中心の領域として抽出される。すなわち、ラベル生成部16は、各領域それぞれについて、当該領域に重なる変位ベクトルの個数が予め設定した所定の閾値(第2判定閾値)以上であるか否かを判定し、これによって前記第2判定閾値以上の個数のオプティカルフローを持つ領域を抽出する。
図5Gおよび
図5Hには、変位ベクトルの重なり具合が白線として表されて変化量マップが構成されている。拡大縮小変化の場合では、補完は、行われてない。
【0053】
そして、ラベル生成部16は、各領域それぞれにおいて、前記複数の第2疑似画像それぞれについて求めた各補完変化量データそれぞれについて、前記第1判定閾値に対応した変化量を持つ領域として抽出した回数を計数し、この計数した回数でヒートマップを前記第1疑似画像のラベルとして生成する。前記第1判定閾値に対応した変化量を持つ領域として抽出された回数が多いほど、その領域に対象物(一例では検出対象)が位置している確率が高く、前記第1判定閾値に対応した変化量を持つ領域として抽出した回数のヒートマップをラベルとすることで、第1疑似画像における前記対象物の位置を確率的に示すことができる。そのヒートマップの一例が
図6B、
図6D、
図6Fおよび
図6Hに示されている。
図6Bは、
図6Aに示す第1疑似画像のヒートマップであり、
図6Dは、
図6Cに示す第1疑似画像のヒートマップであり、
図6Fは、
図6Eに示す第1疑似画像のヒートマップであり、
図6Hは、
図6Gに示す第1疑似画像のヒートマップであり、これら各ヒートマップそれぞれは、各第1疑似画像それぞれに重ねて表示されている。これら各ヒートマップでは、前記第1判定閾値に対応した変化量を持つ領域として3回、抽出された領域が白抜きの丸印(○)で表され、前記第1判定閾値に対応した変化量を持つ領域として2回、抽出された領域が白抜きの菱形(◇)で表され、前記第1判定閾値に対応した変化量を持つ領域として1回、抽出された領域が白抜きの三角形(△)で表され、前記第1判定閾値に対応した変化量を持つ領域として0回、抽出された領域(前記第1判定閾値に対応した変化量を持つ領域として抽出されなかった領域)が白抜きの四角形(□)で表されている。そして、これら各ヒートマップでは、前記第2判定閾値以上の個数のオプティカルフローを持つ領域が前記検出対象の中心の領域として白抜きの五角形で表されている。
【0054】
なお、上述のように、このヒートマップが第1疑似画像のラベルとされてよいが、例えば、3回の領域が猫の領域を表すラベルとされてよく、あるいは例えば、2回以上の領域の画素が猫の画素を表すラベルとされてよい。
【0055】
学習データ生成部17は、前記第1疑似画像と前記ラベルとを対応付けて学習データを生成する学習データ生成処理を実行するものである。より具体的には、学習データ生成部17は、第1疑似画像生成部14で生成した第1疑似画像と、この第1疑似画像およびこの第1疑似画像から第2疑似画像生成部15で生成した複数の第2疑似画像に基づきラベル生成部16で生成した前記第1疑似画像のラベルとを対応付けて生成学習データセットの生成学習データの1つとして記憶部5の生成学習データ記憶部53に記憶する。
【0056】
学習データセット生成部18は、前記第1疑似画像生成処理、前記第2疑似画像生成処理、前記ラベル生成処理および前記学習データ生成処理を複数回繰り返すことによって複数の学習データを学習データセットとして生成するものである。
【0057】
これら制御処理部1、入力部2、出力部3、IF部4および記憶部5は、例えば、デスクトップ型やノート型等のコンピュータによって構成可能である。
【0058】
次に、本実施形態の動作について説明する。
図7は、前記学習データ生成装置の動作を示すフローチャートである。
【0059】
このような構成の学習データ生成装置Sは、その電源が投入されると、必要な各部の初期化を実行し、その稼働を始める。制御処理部1には、その制御処理プログラムの実行によって、制御部11、第1モデル生成部12、第2モデル生成部13、第1疑似画像生成部14、第2疑似画像生成部15、ラベル生成部16、学習データ生成部17および学習データセット生成部18が機能的に構成される。
【0060】
生成学習データセットの生成前に、記憶部5における第1および第2学習データ記憶部51、52それぞれには、第1および第2学習データセットそれぞれが記憶される。例えば、第1および第2学習データセットが入力部2から入力され、記憶部5に記憶される。あるいは例えば、第1および第2学習データセットは、これらを記憶した記憶媒体(例えばUSBメモリやSDカード(登録商標)等)からIF部4を介して入力されて記憶部5に記憶されてよく、これらを記録した記録媒体(例えばCD-RやDVD-R等)から、そのドライブ装置およびIF部4を介して入力されて記憶部5に記憶されてよく、これらを管理する管理サーバ装置から通信ネットワークおよびIF部4を介して入力されて記憶部5に記憶されてよい。あるいは、例えば、第1学習データセットが入力されて記憶され、第2学習データセットは、この第1学習データセットの学習データから生成され、記憶されてもよい。
【0061】
生成学習データセットの生成では、
図7において、まず、学習データ生成装置Sは、制御処理部1の第1モデル生成部12によって、第1モデルを生成し、この生成した第1モデルを記憶部5に記憶する(S1、第7工程)。
【0062】
続いて、学習データ生成装置Sは、制御処理部1の第2モデル生成部13によって、複数の第2モデルを生成し、これら生成した複数の第2モデルを記憶部5に記憶する(S2、第1工程)。本実施形態では、4個の第2Aないし第2Dモデルが生成され、記憶される。
【0063】
続いて、学習データ生成装置Sは、制御処理部1の第1疑似画像生成部14によって、第1画像から前記第1モデルによって第1疑似画像を生成し、この生成した第1疑似画像を記憶部5に記憶する(S3、第1疑似画像生成処理、第2工程)。
【0064】
続いて、学習データ生成装置Sは、制御処理部1の第2疑似画像生成部15によって、前記処理S3で第1疑似画像生成部14によって生成した第1疑似画像から、前記処理S2で第2モデル生成部13によって生成した前記複数の第2モデルそれぞれによって複数の第2疑似画像を生成し、これら生成した複数の第2疑似画像を前記第1疑似画像に対応付けて記憶部5に記憶する(S4、第2疑似画像生成処理、第3工程)。本実施形態では、4個の第2Aないし第2Dモデルそれぞれによって4個の第2Aないし第2D疑似画像が生成され、記憶される。
【0065】
続いて、学習データ生成装置Sは、制御処理部1のラベル生成部16によって、前記複数の第2疑似画像それぞれについて、当該第2疑似画像と前記第1疑似画像との変化量を求めて変化量データを生成し、この生成した変化量データを記憶部5に記憶する(S5、ラベル生成処理の変化量演算処理、第4工程の第41工程)。本実施形態では、変化量データとして、第1疑似画像を区分けした各領域のオプティカルフローが求められる。
【0066】
続いて、学習データ生成装置Sは、制御処理部1のラベル生成部16によって、前記複数の第2疑似画像それぞれについて前記S5で求めた各変化量データそれぞれについて、当該変化量データの欠損を補完して補完変化量データを生成し、この生成した補完変化量データを記憶部5に記憶する(S6、ラベル生成処理の補完処理、第4工程の第42工程)。本実施形態では、第1疑似画像を区分けした各領域のオプティカルフローに基づき変化量マップが生成され、この生成した変化量マップを前記変化の仕方に応じて補間することによって補完変化量マップが生成される。
【0067】
続いて、学習データ生成装置Sは、制御処理部1のラベル生成部16によって、前記各変化量データそれぞれについて前記処理S6で生成した各補完変化量データに基づいて前記ラベルを生成する(S7、ラベル生成処理のラベル処理、第4工程の第43工程)。
【0068】
続いて、学習データ生成装置Sは、制御処理部1の学習データ生成部17によって、前記処理S3で第1疑似画像生成部14によって生成した第1疑似画像と、前記処理S7でラベル生成部16によって生成したラベルとを対応付けて学習データ(生成学習データ)を生成し、この生成した生成学習データを記憶部5の生成学習データ記憶部53に記憶する(S8、学習データ生成処理、第5工程)。
【0069】
続いて、学習データ生成装置Sは、制御処理部1の学習データセット生成部18によって、処理の終了か否かを判定する(S9、第6工程)。この判定の結果、処理の終了である場合(Yes)には、学習データ生成装置Sは、次に処理S10を実行する。一方、前記判定の結果、処理の終了ではない場合(No)には、学習データ生成装置Sは、処理を処理S3に戻す。これによって前記第1疑似画像生成処理、前記第2疑似画像生成処理、前記ラベル生成処理および前記学習データ生成処理(前記第2ないし第5工程)が繰り返される。前記判定では、例えば、処理の終了を指示するコマンドを入力部2で受け付けた場合や、予め設定された所定の繰り返し回数、前記第1疑似画像生成処理、前記第2疑似画像生成処理、前記ラベル生成処理および前記学習データ生成処理(前記第2ないし第5工程)を繰り返した場合等に、前記処理の終了と判定される。
【0070】
前記処理S10では、学習データ生成装置Sは、制御処理部1の制御部11によって、記憶部5の生成学習データ記憶部53に記憶された生成学習データセットを出力部3に出力し、本処理を終了する。なお、必要に応じて、前記生成学習データセットは、IF部6を介して外部の機器へ出力されてもよい。
【0071】
処理S1および処理S3の各処理は、生成学習データの画像を生成するための処理であり、処理S2および処理S4ないし処理S7の各処理は、前記生成学習データのラベル(前記画像のラベル)を生成するための処理である。
【0072】
以上説明したように、実施形態における学習データ生成装置Sならびにこれに実装された学習データ生成方法および学習データ生成プログラムは、第1モデルに基づき生成した第2モデルを用いることによって、第1モデルによって生成した第1疑似画像のラベルを生成することができるから、アノテーションが不要となり、人手によるアノテーションの工数をより低減できる。
【0073】
上記学習データ生成装置S、学習データ生成方法および学習データ生成プログラムは、変化量データの欠損を補完するので、より精度良くラベルを生成できる。特に、前記変化の仕方に応じて補完するので、上記学習データ生成装置S、学習データ生成方法および学習データ生成プログラムは、より適切に補完でき、より精度良くラベルを生成できる。
【0074】
上記学習データ生成装置S、学習データ生成方法および学習データ生成プログラムは、第1モデルを機械学習によって生成できる。したがって、上記学習データ生成装置S、学習データ生成方法および学習データ生成プログラムは、人では気付けなかった特徴量を勘案して第1モデルを生成できる。
【0075】
本実施形態によれば、第1ないし第4の変化の仕方のうちの少なくとも2つを含む学習データ生成装置S、学習データ生成方法および学習データ生成プログラムが提供できる。
【0076】
本実施形態によれば、前記第1疑似画像と前記第2疑似画像との変化量をオプティカルフローによって表した学習データ生成装置S、学習データ生成方法および学習データ生成プログラムが提供できる。
【0077】
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
【符号の説明】
【0078】
S 学習データ生成装置
1 制御処理部
5 記憶部
11 制御部
12 第1モデル生成部
13 第2モデル生成部
14 第1疑似画像生成部
15 第2疑似画像生成部
16 ラベル生成部
17 学習データ生成部
18 学習データセット生成部
51 第1学習データ記憶部
52 第2学習データ記憶部
53 生成学習データ記憶部