(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025021064
(43)【公開日】2025-02-13
(54)【発明の名称】教師データ生成プログラムなど
(51)【国際特許分類】
G06V 10/774 20220101AFI20250205BHJP
G06T 7/00 20170101ALI20250205BHJP
【FI】
G06V10/774
G06T7/00 350C
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023124769
(22)【出願日】2023-07-31
(71)【出願人】
【識別番号】504050275
【氏名又は名称】株式会社 ミックウェア
(71)【出願人】
【識別番号】515085451
【氏名又は名称】ノアソリューション株式会社
(74)【代理人】
【識別番号】100183564
【弁理士】
【氏名又は名称】西村 伸也
(72)【発明者】
【氏名】鈴江 秀介
(72)【発明者】
【氏名】坂部 由典
(72)【発明者】
【氏名】唐 鵬貴
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA01
5L096GA19
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】運用時の背景画像を有しなくても、教師データを生成する技術を提供する。
【解決手段】教師データ生成プログラム36、36aは、ターゲット画像13に対応するターゲット12を含む画像11の画像データを入力するとターゲットを識別した結果を出力する学習モデル10を生成するための教師データ17を生成するプログラムであって、コンピュータに、複数種のターゲット画像13が用意された画像群14から第1ターゲット画像13aを選択し、変形処理をして背景画像15を生成させ、画像群14から第2ターゲット画像13bを選択し、背景画像15に第2ターゲット画像13bを合成する合成処理をして教師データ17を生成させることを特徴としている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ターゲット画像に対応するターゲットを含む画像の画像データを入力すると前記ターゲットを識別した結果を出力する学習モデルを生成するための教師データを生成するプログラムであって、
コンピュータに、
複数種の前記ターゲット画像が用意された画像群から第1ターゲット画像を選択し、変形処理をして背景画像を生成させ、
前記画像群から第2ターゲット画像を選択し、前記背景画像に前記第2ターゲット画像を合成する合成処理をして教師データを生成させる、教師データ生成プログラム。
【請求項2】
前記変形処理が、前記第1ターゲット画像を分割した画像について施される、請求項1記載の教師データ生成プログラム。
【請求項3】
ターゲット画像に対応するターゲットを含む画像の画像データを入力すると前記ターゲットを識別した結果を出力する学習モデルを生成するための教師データを生成する方法であって、
コンピュータが、
複数種の前記ターゲット画像が用意された画像群から第1ターゲット画像を選択し、変形処理をして背景画像を生成し、
前記画像群から第2ターゲット画像を選択し、前記背景画像に前記第2ターゲット画像を合成する合成処理をして教師データを生成する、教師データ生成方法。
【請求項4】
ターゲット画像に対応するターゲットを含む画像の画像データを入力すると前記ターゲットを識別した結果を出力する学習モデルを生成するための教師データを生成する装置であって、
複数種の前記ターゲット画像が用意された画像群から第1ターゲット画像を選択し、変形処理をして背景画像を生成する背景画像生成部と、
前記画像群から第2ターゲット画像を選択し、前記背景画像に前記第2ターゲット画像を合成する合成処理をして教師データを生成する教師データ生成部とからなる、教師データ生成装置。
【請求項5】
複数種のターゲット画像が用意された画像群から第1ターゲット画像を選択し、変形処理をして背景画像を生成する背景画像生成部と、
前記画像群から第2ターゲット画像を選択し、前記背景画像に前記第2ターゲット画像を合成する合成処理をして、複数の教師データを生成する教師データ生成部と、
複数の前記教師データを用いて、前記ターゲット画像に対応するターゲットを含む画像の画像データを入力すると前記ターゲットを識別した結果を出力する学習モデルを生成する学習モデル生成部とからなる、学習装置。
【請求項6】
ターゲット画像に対応するターゲットを含む画像の画像データを入力すると前記ターゲットを識別した結果を出力する学習モデルを生成するための教師画像の画像データを有する教師データのデータ構造であって、
前記教師画像が、
前記学習モデルにより相互に識別すべき前記ターゲットに対応する複数の前記ターゲット画像の画像群から選択された第2ターゲット画像と、
前記第2ターゲット画像の周囲に配置される背景画像とからなり、
前記背景画像が、前記画像群から選択された第1ターゲット画像を変形処理した変形画像を用いて形成されている、教師データのデータ構造。
【請求項7】
前記第2ターゲット画像の前記背景画像に対する位置情報をさらに備えている、請求項6記載の教師データのデータ構造。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像から検出したいターゲットを検出する技術に関する。
【背景技術】
【0002】
近年、YOLO(You Only Look Once)、SSD(Sngle Shot MultiBox Detector)等の物体検出アルゴリズムを用いて、ターゲットを検出することが、様々な事業分野で行われている。これらの物体検出のための学習モデルでは、ターゲットを正しく検出するために、質の良い、ある程度の数量の教師データを用意して学習させる必要がある。
【0003】
また教師データの画像に対して、平行移動、拡大縮小、回転、ノイズの付与などの処理を加えることで、データ数を人為的に水増しするデータオーグメンテーション(データ拡張)という技術が知られている。
【0004】
例えば、データオーグメンテーションに関連する技術として、特許文献1がある。特許文献1には、機械学習に適した画像を選別するための情報処理装置が開示されている。その情報処理装置は、対象要素が写る複数の要素画像を背景画像の上に配置して作成された合成画像が、要素画像の重なりを含む場合、重なりにおいて背面に配置されている第1の要素画像が、重なりにおいて前面に配置されている第2の要素画像によって遮蔽される度合いを表す遮蔽度合いを特定する特定部と、遮蔽度合いが、第1の要素画像の複雑さに応じて特定される上限値以下の場合、対象要素を検出する認識モデルを生成するための機械学習で用いる教師データとして合成画像を選別する選別部と、を含む、というものである。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
物体検出のAIは、背景画像とターゲットが混在している画像からターゲットを分離する。機械学習においては、ターゲットの特徴と共に、背景画像に関する情報(知識)も重要である。理想的には、学習した背景画像の知識と実際の運用時の背景画像の知識とを一致させるのが好ましい。しかし運用時の背景画像は入手できないことがある。
【0007】
そこで本発明は、一側面として、運用時の背景画像を有しなくても、教師データを生成する技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
(1)本発明の一つの態様の教師データ生成プログラムは、ターゲット画像に対応するターゲットを含む画像の画像データを入力すると前記ターゲットを識別した結果を出力する学習モデルを生成するための教師データを生成するプログラムであって、コンピュータに、複数種の前記ターゲット画像が用意された画像群から第1ターゲット画像を選択し、変形処理をして背景画像を生成させ、前記画像群から第2ターゲット画像を選択し、前記背景画像に前記第2ターゲット画像を合成する合成処理をして教師データを生成させることを特徴としている。
【0009】
(2)このような教師データ生成プログラムは、前記変形処理が、前記第1ターゲット画像を分割した画像について施されるのが好ましい。
【0010】
(3)本発明の他の態様の教師データ生成方法は、ターゲット画像に対応するターゲットを含む画像の画像データを入力すると前記ターゲットを識別した結果を出力する学習モデルを生成するための教師データを生成する方法であって、コンピュータが、複数種の前記ターゲット画像が用意された画像群から第1ターゲット画像を選択し、変形処理をして背景画像を生成し、前記画像群から第2ターゲット画像を選択し、前記背景画像に前記第2ターゲット画像を合成する合成処理をして教師データを生成することを特徴としている。
【0011】
(4)本発明の他の態様の教師データ生成装置は、ターゲット画像に対応するターゲットを含む画像の画像データを入力すると前記ターゲットを識別した結果を出力する学習モデルを生成するための教師データを生成する装置であって、複数種の前記ターゲット画像が用意された画像群から第1ターゲット画像を選択し、変形処理をして背景画像を生成する背景画像生成部と、前記画像群から第2ターゲット画像を選択し、前記背景画像に前記第2ターゲット画像を合成する合成処理をして教師データを生成する教師データ生成部とからなることを特徴としている。
【0012】
(5)本発明の他の態様の学習装置は、複数種のターゲット画像が用意された画像群から第1ターゲット画像を選択し、変形処理をして背景画像を生成する背景画像生成部と、前記画像群から第2ターゲット画像を選択し、前記背景画像に前記第2ターゲット画像を合成する合成処理をして、複数の教師データを生成する教師データ生成部と、複数の前記教師データを用いて、前記ターゲット画像に対応するターゲットを含む画像の画像データを入力すると前記ターゲットを識別した結果を出力する学習モデルを生成する学習モデル生成部とからなることを特徴としている。
【0013】
(6)本発明の他の態様の教師データのデータ構造は、ターゲット画像に対応するターゲットを含む画像の画像データを入力すると前記ターゲットを識別した結果を出力する学習モデルを生成するための教師画像の画像データを有する教師データのデータ構造であって、前記教師画像が、前記学習モデルにより相互に識別すべき前記ターゲットに対応する複数の前記ターゲット画像の画像群から選択された第2ターゲット画像と、前記第2ターゲット画像の周囲に配置される背景画像とからなり、前記背景画像が、前記画像群から選択された第1ターゲット画像を変形処理した変形画像を用いて形成されているのを特徴としている。
【0014】
(7)このような教師データのデータ構造は、前記第2ターゲット画像の前記背景画像に対する位置情報をさらに備えているのが好ましい。
【発明の効果】
【0015】
教師データなどを効率的に生成できる。
【図面の簡単な説明】
【0016】
【
図1】学習モデル生成装置の一実施形態を示す機能ブロック図である。
【
図2】ターゲットを識別する処理の流れの一実施形態を示すフローチャートである。
【
図3】ハードウェア構成の一例を示す概略図である。
【
図4】ターゲット画像の生成の処理の流れの一実施形態を示すフローチャートである。
【
図5】背景画像の生成の処理の流れの一実施形態を示すフローチャートである。
【
図6】教師データのデータ構造の一実施形態を示す概略図である。
【
図7】教師データセットのデータベースのデータ構造の一例を示す概略図である。
【
図8】学習モデルによるターゲットの検出結果の一例を示す概略図である。
【
図10】比較例1及び比較例2の画像を示す概略図である。
【
図11】教師データの教師画像の他の実施形態を示す概略図である。
【
図12】教師データの教師画像の他の実施形態を示す概略図である。
【
図13】教師データの教師画像の他の実施形態を示す概略図である。
【発明を実施するための形態】
【0017】
[1.概略説明]
(はじめに)
本実施形態で生成する教師データ(
図6参照)は、背景画像に特徴を有する。前記背景画像は、認識の目的(ターゲット)となるターゲット画像を変形処理した画像から生成されている。前記背景画像は、ターゲット画像に似た紛らわしい画像であるから、豊な背景情報を学習モデルに与え、学習の効率を高める。
【0018】
例えば、アプリに表示されている複数種のボタン/アイコンがある。UI(User Interface:ユーザインターフェイス)/UX(User Experoence:ユーザエクスペリエンス)の観点から、複数種のボタン/アイコンのスタイル(色、パターン)は、ボタン/アイコンを含む表示部の全体の背景も含めたスタイルと近似する傾向にある。このため、複数種のアイコンで生成した背景画像は、アプリの背景の特徴(色の分布、パータンなど)を反映しやすく、学習の効率が高い。
【0019】
(学習モデル10)
まず
図2を用いて、本実施形態の教師データを機械学習して生成される学習モデルを説明する。図に示している学習モデル10は、画像11の画像データを入力すると、ターゲット12を識別した結果を出力する、というものである。
学習モデル10としては、例えば、YOLO(You Only Look Once)、SSD(Sngle Shot MultiBox Detector)等の物体検出アルゴリズムが用いられる。
【0020】
(画像11)
画像11は、学習モデル10により認識すべきターゲット12を含む画像である。静止画でも動画でもよい。動画の場合は所定時間毎の画像でもよい。例えば、画面に表示した画像のキャプチャーや、カメラ、車載カメラ、監視カメラなどで撮像した画像が相当する。
【0021】
(ターゲット)
ターゲットは、画像11に含まれる検知すべき対象である。ターゲットは、学習モデルによって検知されると、例えば、周囲を枠(図示せず)で囲って示される。その他、矢印で指したり、色を付したりして、他の部分と識別できるように表示される。
【0022】
(教師データ生成装置1、学習装置4)
図1を用いて教師データ生成装置を説明する。図に示している教師データ生成装置1は、背景画像生成部2と、教師データ生成部3とからなる。
学習装置4は、教師データ生成装置1と、学習モデル生成部5とからなる。
【0023】
[2.各構成]
(背景画像生成部2)
背景画像生成部2は、複数種のターゲット画像13が用意された画像群14から第1ターゲット画像13aを選択し、拡大、縮小、回転若しくは反転などを含む変形処理をして背景画像15を生成する。
【0024】
(ターゲット画像13、13a)
ターゲット画像13は、画像11に含まれるターゲットに対応する画像である。
第1ターゲット画像13aは、背景画像15の生成のために用いられる1つ以上のターゲット画像13からなる。
【0025】
(画像群14)
画像群14は識別すべき複数のターゲット画像13からなる。画像群14のターゲット画像13は、学習モデル10により相互に識別されるべき画像からなる。画像群14は後述する記憶部31に記憶されている。なお外部のサーバに記憶させてもよい。
【0026】
(背景画像15)
背景画像15は変形画像16を背景枠15aに配置して生成される。本実施形態では背景枠15aが埋まるまでランダムに変形画像16が配置される。配置に際し、変形画像16同士は重なってもよいし、重ならないように配置してもよい。背景枠15a中の符号16で示されている四角形は、変形画像16が配置されている様子の一部を示している。
【0027】
(変形画像16、変形処理)
変形画像16は、画像群14から選択された第1ターゲット画像13aを、拡大、縮小、回転、上下反転、左右反転などの変形処理をして生成される。その他、ノイズの付与、射影変換などの処理をしてもよい。その他、例えば、一般的なデータオーグメンテーション(データ拡張)による手法を用いてもよい。
なお変形処理は、後述する
図5の工程R2、R3が相当する。
【0028】
(教師データ生成部3)
教師データ生成部3は、画像群14から第2ターゲット画像13aを選択し、背景画像15に前記第2ターゲット画像13bを合成する合成処理をして教師データ17(
図6参照)を生成させる。
【0029】
(第2ターゲット画像13b)
第2ターゲット画像13bは、背景画像15に合成するために用いられる1つ以上のターゲット画像13からなる。
【0030】
(教師データ17)
教師データ17は、機械学習における教師あり学習に用いられるデータである。本実施形態では、教師データ17は、背景画像15、ターゲット画像13および位置情報18を含む。なお、教師データ17については、
図6の説明において詳述する。
【0031】
[3.ハードウェア構成]
次に
図3を用いて、教師データ生成装置1、学習装置4のハードウェア構成を説明する。
【0032】
(教師データ生成装置1、学習装置4のハードウェア構成)
教師データ生成装置1のハードウェア構成を説明する。学習装置4のハードウェア構成は教師データ生成装置1のハードウェア構成とほぼ同じであるので、説明を省略する。
【0033】
図3に示すように、本実施形態の教師データ生成装置1は、CPU(またはGPU)30を備えたコンピュータである。そのCPU30には、例えば、メモリ(以下、記憶部という。)31と、記憶デバイス32などを接続/読み込むための接続ポート33と、ネットワークを介して外部と通信するための通信回路34とがバスライン35を介して接続されている。
【0034】
記憶部31には、教師データの生成および学習モデルの生成の処理をするためのプログラム36、36aがそれぞれ記憶されている。またブラウザプログラム37、さらにはOS38(オペレーティングシステム)が記憶されていてもよい。プログラム36、36aは、例えば、記憶デバイス32によりインストールされる。また本実施形態では、記憶部31に、ターゲット画像13(画像群14)、教師データ17および学習モデル10が記憶されているが、外部のサーバ装置に記憶させてもよい。
【0035】
本実施形態では、プログラム36、36aは、それぞれOS38およびブラウザプログラム37の機能を利用して協働して動作してもよい。なおプログラム36、36aとして、それぞれブラウザプログラム37、OS38を利用せず、単独で動作するようにしてもよい。
【0036】
上述したプログラム36、36aのハードウェア構成では、
図1の機能ブロック図に示す機能を、例えば、CPU30とプログラム36、36aを用いて実現するようにしているが、その一部または全部をマイコンなどの論理回路、あるいは、PLC(プログラマブルロジックコントローラ)を用いてシーケンス制御してもよい。
【0037】
[4.プログラム]
(教師データの生成処理を示すフローチャート)
図4は、教師データ生成装置1で用いられるプログラム36、36aの処理の一実施形態を示すフローチャートである。
以下のフローチャートは1つの教師データ17を生成するものである。実際には、以下のフローチャートを用いて、異なる種類の教師データ17を大量に生成する。生成する際には、並列処理により複数の教師データ17を同時に生成するようにしてもよい。
【0038】
(S0:前処理工程)
図示していない前処理工程S0では、プログラム36で処理するためのターゲット画像13の画像データのファイル形式を所定の形式に整える。
【0039】
(S1:背景画像の生成)
教師データ生成装置1のCPU30(
図3参照)は、背景画像15を生成する。
【0040】
次いで、
図5を用いて背景画像の生成を説明する。
図5は、教師データ生成装置1で用いられるプログラム36aの処理の一実施形態を示すフローチャートである。
【0041】
(R1:ターゲット画像の選択)
画像群14(
図1参照)から第1ターゲット画像13aをランダムに選択する。
【0042】
(R2:切り取り)
選択された第1ターゲット画像13aについて縦方向/横方向のいずれか1つの方向をランダムに選択する。縦/横の方向は、ターゲット画像13ごとに定められている。3、4若しくは5分割のいずれかをランダムに選択する。選択された分割数で、前記選択された方向と平行に分割する。分割により形成された3~5個の画像から1つの画像をランダムに選択する。
【0043】
(R3:変形処理)
選択された前記分割された画像を変形処理して変形画像16(
図6参照)を生成する。予め複数種の変形処理を登録しておき、それらの中からランダムに変形処理が選択される。本実施形態では、回転/反転のみ、拡大/縮小のみ、拡大/縮小+回転/反転の登録した変形処理からいずれか1つの変形をランダムに選択している。背景枠15a中の符号16で示されている四角形は、変形画像16が配置されている様子の一部を示している。
【0044】
(R4:背景枠に配置する)
背景枠15aに変形画像16を配置する。本実施形態では、背景枠15aにランダムに配置している。本実施形態では、変形画像16同士が重なってもよい。また後から配置される変形画像16が上に表示される。
【0045】
(R5:背景枠が埋まっているか?)
背景枠15aが変形画像16で埋まっている場合は次工程に進み、埋まっていない場合は工程R1に戻る。なお背景枠15aを全て埋めなくても、所定量が埋まれば、次工程に進むようにしてもよい。所定量としては、例えば、背景枠15a内の面積の90~95%である。
【0046】
(R6:背景完成)
背景画像15が完成する。
【0047】
(S2:第2ターゲット画像を選択)
図4に戻って、第2ターゲット画像13bをランダムに選択する。なお第1ターゲット画像13aで選択される画像の全部/一部の画像を含むようにしてもよい。
選択する際に、既に特定の第2ターゲット画像13bが他の教師データ17で多量に選択されている場合、選択される確率を低減するように調整する。一方で、少量しか選択されていない場合、選択される確率を増加させるように調整する。教師データセット20において、選択される各第2ターゲット画像13bが同数/ほぼ同数となるように調節する。
本実施形態では、例えば、ルーレット選択方式を採用して、第2ターゲット画像13bの選択される数を調節しているが、他の公知の手法を採用してもよい。
また教師データ17の生成が、並列的に処理されている場合は、各処理における特定の第2ターゲット画像13bの数を合計し、各処理の次の選択において、選択の確率を増加/減少させて、動的に各第2ターゲット画像13bの選択される確率が均衡するように調整する。
【0048】
(S3:合成する)
完成した背景画像15に第2ターゲット画像13bをランダムに配置する。第2ターゲット画像13bが背景画像15の上に表示されるように合成する。
また第2ターゲット画像13bの背景枠15aに対する位置情報18を記憶する。位置情報18に対応する第2ターゲット画像13bの起点となる位置は、中心、重心または矩形状の角などが設定されている。
第2ターゲット画像13bに関する情報として、例えば、正方形、長方形、円形などの形状や、例えば、辺の長さ、直径などの大きさなどを位置情報18と共に記憶してもよい。
【0049】
(S4:ターゲット画像が適切な表示か?)
合成した第2ターゲット画像13bが背景画像15に適切に表示されているか判断する。例えば、以下の(a、b、c)のいずれにも該当しない場合は、適切であり、次工程に進む。
(a)複数の第2ターゲット画像13bが重なり合っている
(b)第2ターゲット画像13bが背景枠15aよりも大きい
(c)第2ターゲット画像13bが背景枠15aからはみ出している
上記(a、b、c)のいずれかに該当する場合、工程S3の合成をキャンセルし、工程S2に戻る。
【0050】
(S5:位置情報を紐付ける)
背景画像15に合成した第2ターゲット画像13bの位置情報18を紐付けて、記憶部31に記憶する。
【0051】
(S6:ターゲット画像の数が適切か?)
第2ターゲット画像13bの数が、所定数に満たない場合は工程S2に戻り、所定数である場合は処理を終了する。
本実施形態では、第2ターゲット画像13bの数は10~20個の範囲でランダムに決定されている。第2ターゲット画像13bの数は、工程S1と工程S2の間で決定されている。なお他の工程で決定してもよい。
【0052】
(その他の処理)
上述した処理において、ランダムで選択または配置する処理の一部または全部を予め設定した選択順または配置順としてもよい。
さらにR2の切り取り工程を削除してもよい。この場合、識別すべき第2ターゲット画像13bと背景画像の変形画像16との区別を付けるのが困難になる可能性を考慮して、拡大/縮小のみ、回転/反転のみの変形処理をしないようにしてもよい。
背景画像の生成において変形画像16同士が重ならないように配置してもよい。
【0053】
(教師データ17)
図6は教師データのデータ構造の一例を示す概略図である。図に示す教師データ17は、前述の教師データ生成装置1で説明したのと同じ構成を含んでいるから、同じ構成には同じ符号を付して、その説明を省略する。
図に示す教師データ17は、ターゲット画像13に対応するターゲット12を含む画像11の画像データを入力するとターゲット12を識別した結果を出力する学習モデル10を生成するための機械学習に用いられる。教師データ17は、教師画像19と、位置情報18とからなる。
【0054】
(教師画像19)
教師画像19は、学習モデル10により相互に識別すべきターゲット12に対応する複数のターゲット画像13の画像群14から選択された第2ターゲット画像13bと、第2ターゲット画像13bの周囲に配置される背景画像15とからなる。背景画像15は、画像群14から選択された第1ターゲット画像13aを変形処理した変形画像16から形成されている。
【0055】
(教師データセット)
図7は教師データセットのデータ構造の一例を示す概略図である。図に示す教師データセット20は、教師データ17と、ターゲット画像13とからなる。例えば、教師データT1はターゲット画像L1を機械学習で学習するものである。
【0056】
(機械学習)
図1に戻って、学習モデル生成部5は、記憶部31に格納されている教師データセット20に基づいて、繰り返し学習により、学習モデル10を生成する。なお、学習モデル10の生成手法については、種々の手法を用いることができる。学習モデル生成部5は、生成した学習モデル10を記憶部31に記憶させる。
【0057】
(検出結果21)
図8は学習モデルによるターゲット12の検出結果の一例を示す概略図である。図に示す検出結果21は、検出No、背景1~4、生成画像数、Epoch数、学習時間、正しく検出されたターゲット数、未検出ターゲット数、誤検出ターゲット数からなる。なお検出すべきターゲットの総数は20個である。
【0058】
表中のNoは教師データセット20を識別する番号である。生成画像数は教師データセット20における教師データの数である。Epoch数は繰り返し学習の回数である。学習時間は学習モデルを生成するために要した時間である。正しく検出されたターゲット数は、正しくターゲットを検出できた数である。未検出ターゲット数は、検出できなかったターゲットの数である。誤検出ターゲット数は、ターゲットでないのに間違って検出した数である。
【0059】
(背景1)
背景1は本実施形態の方法で生成した背景画像15(
図6参照)である。
【0060】
(背景2:比較例1)
図9は比較例1の画像を示す概略図である。図に示している教師画像21の背景画像21aはオープンデータの画像などの情報の多い画像である。
図8の背景2に相当する。符号13はターゲット画像である。
【0061】
(背景3:比較例2、背景4:比較例3)
図10は比較例2、3の画像を示す概略図である。図に示している比較例2の教師画像22の背景画像22aはノイズ画像からなる。
図8の背景3に相当する。図に示している比較例3の教師画像23の背景画像23aは薄い緑色の単一色からなる。
図8の背景4に相当する。符号13はターゲット画像である。背景3の生成方法として、例えば、背景に配置したいターゲットを先に数個を選び、選んだターゲットの色分布を統計的に計算する。次いで、前記色分布の平均値又は中央値を単一色とした背景を生成する。
【0062】
図8に戻って、検出No1では、背景1、2、3、4の背景画像の学習データをそれぞれ200個用意し、合計800個の教師データを学習させている。
また検出No2では、背景1の背景画像の学習データを800個用意して学習させている。検出No2と同様に、検出No3、4、5は、それぞれ背景2、3、4の背景画像の学習データをそれぞれ800個用意して学習させている。
また検出No6では、背景1、2の背景画像の学習データをそれぞれ400個用意し、合計800個の教師データを学習させている。検出No6と同様に、検出No7、8、9のそれぞれは、背景1、2の学習データをそれぞれ400個用意し、それぞれ合計800個の教師データを学習させている。
【0063】
正しく検出されたターゲットの数は、検出No2、3のデータによると、背景1または背景2を学習データとした場合に良好な結果となっている。すなわち本実施形態の背景画像15は、オープンデータを背景画像とする場合と同程度の結果を得ることができる。
【0064】
また検出No6-9のデータによると、背景1および背景2を学習データとした場合に良好な結果となっている。すなわち背景1および背景2を学習データとすれば、正しくターゲットを検出できた数が向上する。
【0065】
(背景画像のその他)
教師データ17において、背景画像15を形成するターゲット画像13はランダムに選択され、拡大などの変形処理がランダムに施される。このため背景枠15a内に配置される背景画像15に利用される変形画像16の数に幅がある。
図11、
図12、
図13に、それぞれ変形画像16が少ない例と、平均的な例と、多い例を示す。
【0066】
図11は、教師データ17の他の実施形態を示す概略図である。図に示している教師画像24の背景画像24aは、背景枠15a内に配置される変形画像16の数が教師データセット20において平均より少ない。
【0067】
図12は、教師データ17の教師画像15の他の実施形態を示す概略図である。図に示している教師画像25の背景画像25aは、背景枠15a内に配置される変形画像16の数が教師データセット20において平均的な数である。
【0068】
図13は、教師データ17の教師画像15の他の実施形態を示す概略図である。図に示している教師画像26の背景画像26aは、背景枠15a内に配置される変形画像16の数が教師データセット20において平均よりも多い。
【0069】
[5.他の実施形態]
次に他の実施形態を説明する。以下に説明する変形例は、前述した教師データ17とほぼ同様であるので、同じ部分には同じ符号を付して、その説明を省略する。
【0070】
(変形例)
変形例の背景画像は、ターゲット画像13に加え、ターゲット画像以外の画像を用いている。
【0071】
[6.その他]
前述の実施形態に、その他として記載した事項を、それぞれを適宜に組み合わせて用いることができる。
【0072】
[7.まとめ]
(1)教師データ生成プログラム36、36a(教師データ生成方法27、教師データ生成装置1)は、ターゲット画像13に対応するターゲット12を含む画像11の画像データを入力するとターゲット12を識別した結果を出力する学習モデル10を生成するための教師データ17を生成するプログラムであって、コンピュータに、複数種のターゲット画像13が用意された画像群14から第1ターゲット画像13aを選択し、変形処理をして背景画像15を生成させ、画像群14から第2ターゲット画像13bを選択し、背景画像15に前記第2ターゲット画像13bを合成する合成処理をして教師データ17を生成させるとこを特徴としている。
【0073】
背景画像15は、ターゲット画像13に似た紛らわしい画像であるから、豊な背景情報を学習モデルに与え、学習の効率を高めることができる。またオープンデータを準備しなくても、ターゲット画像13から背景画像15を生成することができる。
【0074】
(2)このような教師データ生成プログラム36、36aにおいて、前記変形処理が、前記第1ターゲット画像13aを分割し、分割した画像について施されるので、人為的に学習データ17を容易に増やすことができる。
【0075】
(3)教師画像データ17のデータ構造は、ターゲット画像13に対応するターゲット12を含む画像11の画像データを入力するとターゲット12を識別した結果を出力する学習モデル10を生成するための教師画像19の画像データを有する教師データ17のデータ構造であって、教師画像19が、学習モデル10により相互に識別すべきターゲット12に対応する複数のターゲット画像13の画像群14から選択された第2ターゲット画像13bと、第2ターゲット画像13bの周囲に配置される背景画像15とからなり、背景画像15が、画像群14から選択された第1ターゲット画像13aを変形処理した変形画像16を用いて形成されていることを特徴としている。
【0076】
ターゲット画像13で生成した背景画像15を用いた教師データ17から生成された学習モデルは、オープンデータで生成された背景画像21aを用いた教師データにより生成された学習モデルと、同程度のターゲット12の検知能力を得ることができる。
【0077】
(4)このような教師データのデータ構造は、第2ターゲット画像13bの背景画像15に対する位置情報18をさらに備えているので、教師データ17として利用することができる。
【0078】
(5)学習モデル10は、コンピュータが、複数種のターゲット画像13が用意された画像群14から第1ターゲット画像13aを選択し、変形処理をして背景画像15を生成し、画像群14から第2ターゲット画像13bを選択し、背景画像15に前記第2ターゲット画像13bを合成する合成処理をして複数の教師データ17を生成し、複数の教師データ17を用いて生成した学習モデル10であって、ターゲット画像13に対応するターゲット12を含む画像11の画像データを入力するとターゲット12を識別した結果を出力することを特徴としている。
【0079】
学習モデル10は、オープンデータで生成された背景画像21aを用いた教師データにより生成された学習モデルと、同程度のターゲット12の検知能力を得ることができる。
【符号の説明】
【0080】
1 教師データ生成装置
2 背景画像生成部
3 教師データ生成部
4 学習装置
5 学習モデル生成部
10 学習モデル
11 撮像画像
12 ターゲット
13 ターゲット画像
13a 第1ターゲット画像
13b 第2ターゲット画像
14 画像群
15 背景画像
15a 背景枠
16 変形画像
17 教師データ
18 位置情報
19 教師画像
20 教師データセット
21 教師画像
21a 背景画像
22 教師画像
22a 背景画像
23 教師画像
23a 背景画像
24 教師画像
24a 背景画像
25 教師画像
25a 背景画像
26 教師画像
26a 背景画像
27 教師データ生成方法
30 CPU
31 メモリ
32 記録デバイス
33 接続ポート
34 通信回路
35 バスライン
36、36a プログラム
37 ブラウザプログラム
38 OS
【手続補正書】
【提出日】2024-07-30
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0016
【補正方法】変更
【補正の内容】
【0016】
【
図1】学習モデル生成装置の一実施形態を示す機能ブロック図である。
【
図2】ターゲットを識別する処理の流れの一実施形態を示すフローチャートである。
【
図3】ハードウェア構成の一例を示す概略図である。
【
図4】ターゲット画像の生成の処理の流れの一実施形態を示すフローチャートである。
【
図5】背景画像の生成の処理の流れの一実施形態を示すフローチャートである。
【
図6】教師データのデータ構造の一実施形態を示す概略図である。
【
図7】教師データセットのデータベースのデータ構造の一例を示す概略図である。
【
図8】学習モデルによるターゲットの検出結果の一例を示す概略図である。
【
図10】比較例
2及び比較例
3の画像を示す概略図である。
【
図11】教師データの教師画像の他の実施形態を示す概略図である。
【
図12】教師データの教師画像の他の実施形態を示す概略図である。
【
図13】教師データの教師画像の他の実施形態を示す概略図である。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0018
【補正方法】変更
【補正の内容】
【0018】
例えば、アプリに表示されている複数種のボタン/アイコンがある。UI(User Interface:ユーザインターフェイス)/UX(User Experoence:ユーザエクスペリエンス)の観点から、複数種のボタン/アイコンのスタイル(色、パターン)は、ボタン/アイコンを含む表示部の全体の背景も含めたスタイルと近似する傾向にある。このため、複数種のアイコンで生成した背景画像は、アプリの背景の特徴(色の分布、パターンなど)を反映しやすく、学習の効率が高い。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0028
【補正方法】変更
【補正の内容】
【0028】
(教師データ生成部3)
教師データ生成部3は、画像群14から第2ターゲット画像13
bを選択し、背景画像15に前記第2ターゲット画像13bを合成する合成処理をして教師データ17(
図6参照)を生成させる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0061
【補正方法】変更
【補正の内容】
【0061】
(背景3:比較例2、背景4:比較例3)
図10は比較例2、3の画像を示す概略図である。図に示している比較例2の教師画像22の背景画像22aはノイズ画像からなる。
図8の背景3に相当する。図に示している比較例3の教師画像23の背景画像23aは薄い緑色の単一色からなる。
図8の背景4に相当する。符号13はターゲット画像である。背景
4の生成方法として、例えば、背景に配置したいターゲットを先に数個を選び、選んだターゲットの色分布を統計的に計算する。次いで、前記色分布の平均値又は中央値を単一色とした背景を生成する。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0062
【補正方法】変更
【補正の内容】
【0062】
図8に戻って、検出No1では、背景1、2、3、4の背景画像の学習データをそれぞれ200個用意し、合計800個の教師データを学習させている。
また検出No2では、背景1の背景画像の学習データを800個用意して学習させている。検出No2と同様に、検出No3、4、5は、それぞれ背景2、3、4の背景画像の学習データをそれぞれ800個用意して学習させている。
また検出No6では、背景1、2の背景画像の学習データをそれぞれ400個用意し、合計800個の教師データを学習させている。検出No6と同様に、検出N
o8、9のそれぞれは、背景1、2の学習データをそれぞれ400個用意し、それぞれ合計800個の教師データを学習させている。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0072
【補正方法】変更
【補正の内容】
【0072】
[7.まとめ]
(1)教師データ生成プログラム36、36a(教師データ生成方法27、教師データ生成装置1)は、ターゲット画像13に対応するターゲット12を含む画像11の画像データを入力するとターゲット12を識別した結果を出力する学習モデル10を生成するための教師データ17を生成するプログラムであって、コンピュータに、複数種のターゲット画像13が用意された画像群14から第1ターゲット画像13aを選択し、変形処理をして背景画像15を生成させ、画像群14から第2ターゲット画像13bを選択し、背景画像15に前記第2ターゲット画像13bを合成する合成処理をして教師データ17を生成させることを特徴としている。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0074
【補正方法】変更
【補正の内容】
【0074】
(2)このような教師データ生成プログラム36、36aにおいて、前記変形処理が、前記第1ターゲット画像13aを分割し、分割した画像について施されるので、人為的に教師データ17を容易に増やすことができる。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0075
【補正方法】変更
【補正の内容】
【0075】
(3)教師データ17のデータ構造は、ターゲット画像13に対応するターゲット12を含む画像11の画像データを入力するとターゲット12を識別した結果を出力する学習モデル10を生成するための教師画像19の画像データを有する教師データ17のデータ構造であって、教師画像19が、学習モデル10により相互に識別すべきターゲット12に対応する複数のターゲット画像13の画像群14から選択された第2ターゲット画像13bと、第2ターゲット画像13bの周囲に配置される背景画像15とからなり、背景画像15が、画像群14から選択された第1ターゲット画像13aを変形処理した変形画像16を用いて形成されていることを特徴としている。
【手続補正9】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正10】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正11】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】