IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラ株式会社の特許一覧 ▶ 株式会社Ristの特許一覧

特許7581521認識モデル生成方法及び認識モデル生成装置
<>
  • 特許-認識モデル生成方法及び認識モデル生成装置 図1
  • 特許-認識モデル生成方法及び認識モデル生成装置 図2
  • 特許-認識モデル生成方法及び認識モデル生成装置 図3
  • 特許-認識モデル生成方法及び認識モデル生成装置 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-01
(45)【発行日】2024-11-12
(54)【発明の名称】認識モデル生成方法及び認識モデル生成装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241105BHJP
   G06V 10/70 20220101ALI20241105BHJP
   G06N 20/00 20190101ALI20241105BHJP
【FI】
G06T7/00 350B
G06V10/70
G06N20/00 130
【請求項の数】 14
(21)【出願番号】P 2023534865
(86)(22)【出願日】2022-07-14
(86)【国際出願番号】 JP2022027775
(87)【国際公開番号】W WO2023286847
(87)【国際公開日】2023-01-19
【審査請求日】2024-01-15
(31)【優先権主張番号】P 2021117345
(32)【優先日】2021-07-15
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】000006633
【氏名又は名称】京セラ株式会社
(73)【特許権者】
【識別番号】517051371
【氏名又は名称】株式会社Rist
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100132045
【弁理士】
【氏名又は名称】坪内 伸
(72)【発明者】
【氏名】中村 匡芳
(72)【発明者】
【氏名】堤 匡史
(72)【発明者】
【氏名】和泉 智之
(72)【発明者】
【氏名】古川 康平
(72)【発明者】
【氏名】村岡 慧
(72)【発明者】
【氏名】樺澤 達将
【審査官】小池 正彦
(56)【参考文献】
【文献】国際公開第2019/059343(WO,A1)
【文献】国際公開第2019/021456(WO,A1)
【文献】特開2019-056966(JP,A)
【文献】特開2019-191973(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/70
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
検出対象を示す複数の合成画像を取得し、
前記複数の合成画像に基づき、画像の入力に対して物体認識結果を出力する第1認識モデルを作成する第1学習を行い、
前記検出対象の撮像画像を取得し、
複数の前記撮像画像の前記第1認識モデルへの入力によって出力された前記物体認識結果をアノテーションデータとして、前記撮像画像に付与し、
前記撮像画像および前記アノテーションデータに基づいて、第2認識モデルを作成する第2学習を行う
認識モデル生成方法。
【請求項2】
前記第2学習では、前記第1認識モデルを再学習する、請求項1に記載の認識モデル生成方法。
【請求項3】
前記第2学習は、前記第1学習を行うときに使用される複数の合成画像の数よりも少ない数の複数の撮影画像によって行われる、請求項1又は2に記載の認識モデル生成方法。
【請求項4】
前記合成画像は、前記検出対象の3次元形状データに基づいて生成されている、請求項1又は2に記載の認識モデル生成方法。
【請求項5】
請求項1又は2に記載の認識モデル生成方法において、
前記第2学習では、前記アノテーションデータが付与された撮像画像を用いて第2認識モデルを生成する
認識モデル生成方法。
【請求項6】
請求項1又は2に記載の認識モデル生成方法において、
前記第2学習では、前記第1認識モデルを、前記アノテーションデータが付与されていない前記検出対象の撮像画像を用いたドメイン適応を行うことにより再学習させ、
前記アノテーションデータが付与された撮像画像を、前記第2認識モデルの評価に用いる
認識モデル生成方法。
【請求項7】
請求項1又は2に記載の認識モデル生成方法において、
前記撮像画像のアノテーションにおける確信度が閾値以下である場合、前記撮像画像と同じ特徴となるように、前記検出対象の合成画像を生成し、
該合成画像を前記第2学習に用いる
認識モデル生成方法。
【請求項8】
請求項に記載の認識モデル生成方法において、
前記3次元形状データに基づいて提供される、前記撮像画像を撮像するための撮像ガイドに基づいて前記撮像画像を撮像する
認識モデル生成方法。
【請求項9】
請求項8に記載の認識モデル生成方法において、
前記検出対象の撮像画像を取得する撮像装置を取付けたロボットを、前記撮像ガイドに基づき制御することで前記撮像画像を撮像する
認識モデル生成方法。
【請求項10】
請求項8に記載の認識モデル生成方法において、
前記撮像ガイドは、前記3次元形状データに基づいて決定される、前記検出対象の撮影方向を含む
認識モデル生成方法。
【請求項11】
請求項に記載の認識モデル生成方法において、
前記アノテーションにおいて、前記撮像画像のノイズ除去を行った除去画像を前記第1認識モデルに認識させることにより前記アノテーションデータを付与し、
前記第2学習において、前記撮像画像を用いて前記第1認識モデルを学習させる
認識モデル生成方法。
【請求項12】
請求項1又は2に記載の認識モデル生成方法において、
前記検出対象を撮像手段により撮像した画像に基づき特定した前記検出対象の材料に対応するテクスチャ、又は任意の材料に対応するテンプレートから選択されるテクスチャとして用いて前記合成画像が生成される
認識モデル生成方法。
【請求項13】
請求項1又は2に記載の認識モデル生成方法において、
前記アノテーションデータは、取得する撮像画像における前記検出対象のマスク画像及び前記検出対象を囲繞するバウンディングボックスの少なくとも一方である
認識モデル生成方法。
【請求項14】
検出対象を示す複数の合成画像に基づき、画像の入力に対して物体認識結果を出力する第1認識モデルを生成する第1認識モデル生成手段と、
前記検出対象の複数の撮像画像の前記第1認識モデルへの入力によって前記物体認識結果をアノテーションデータとして、前記撮像画像に付与する付与手段と、
前記撮像画像および前記アノテーションデータに基づいて第2認識モデルを生成する第2認識モデル生成手段と、を備える
認識モデル生成装置。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本出願は、2021年7月15日に日本国に特許出願された特願2021-117345の優先権を主張するものであり、この先の出願の開示全体をここに参照のために取り込む。
【技術分野】
【0002】
本開示は、認識モデル生成方法及び認識モデル生成装置に関するものである。
【背景技術】
【0003】
従来、画像全体の中から特定の物体を認識する画像認識において、機械学習による認識が知られている。例えば、CADデータから生成した学習画像を用いて画像認識を行なう画像認識方法が提案されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2019-191973号公報
【発明の概要】
【0005】
第1の観点による認識モデル生成方法は、
検出対象を示す複数の合成画像を取得し、
前記複数の合成画像に基づき、画像の入力に対して物体認識結果を出力する第1認識モデルを作成する第1学習を行い、
前記検出対象の撮像画像を取得し、
複数の前記撮影画像の前記第1認識モデルへの入力によって出力された前記物体認識結果をアノテーションデータとして、前記撮像画像に付与し、
前記撮像画像および前記アノテーションデータに基づいて、第2認識モデルを作成する第2学習を行う。
【0006】
また、第2の観点による認識モデル生成装置は、
検出対象を示す複数の合成画像に基づき、画像の入力に対して物体認識結果を出力する第1認識モデルを生成する第1認識モデル生成手段と、
前記検出対象の複数の撮像画像の前記第1認識モデルへの入力によって前記物体認識結果をアノテーションデータとして、前記撮像画像に付与する付与手段と、
前記撮像画像および前記アノテーションデータに基づいて第2認識モデルを生成する第2認識モデル生成手段と、を備える。
【0007】
また、第3の観点による認識モデル生成装置は、
検出対象の撮像画像を教師データとして、第1認識モデルを学習させて第2認識モデルを生成する認識モデル生成装置であって、
前記第1認識モデルは、検出対象の3次元形状データに基づき生成した合成画像を教師データとして、物体認識に用いる原認識モデルを学習させて生成した認識モデルである。
【図面の簡単な説明】
【0008】
図1図1は、一実施形態に係る認識モデル生成装置の概略構成示す機能ブロック図である。
図2図1の制御部の仮想的な概略構成を示す機能ブロック図である。
図3図1の制御部が実行する認識モデル生成処理を説明するための第1のフローチャートである。
図4図1の制御部が実行する認識モデル生成処理を説明するための第2のフローチャートである。
【発明を実施するための形態】
【0009】
機械学習による認識精度を上げるためには、多量の教師データを用いて学習する必要がある。多量の教師データは、例えば、同一の認識対象の物体を、多様な方向から見た画像、多様な照明状態で見た画像等を必要とする。このような同一の認識対象の物体に対して多量の教師データを用意するために、当該物体のCADデータから学習画像を生成することが知られている。CADデータから生成した学習画像のみを用いて学習した認識モデルでは、現実の撮像画像を正確に認識することが難しい。
【0010】
以下、本開示を適用した認識モデル生成装置の実施形態について、図面を参照して説明する。なお、認識モデル生成方法は、認識モデル生成装置の説明により、説明される。
【0011】
認識モデル生成装置は、検出対象の3次元形状データに基づく合成画像を用いて、原認識モデルを学習させることにより第1認識モデルを作成する。認識モデル生成装置は、第1認識モデルを用いて、当該検出対象の撮像画像の少なくとも一部にアノテーションを行うことによりアノテーション情報を付与する。認識モデル生成装置は、第1認識モデルを学習させることにより第2認識モデルを介してデプロイ用モデルを作成する。認識モデル生成装置は、デプロイ用モデルの作成に、アノテーションデータが付与された当該検出対象の撮像画像を用いる。
【0012】
図1に示すように、一実施形態に係る認識モデル生成装置10は、通信部11、記憶部12、及び制御部13を含んで構成されてよい。認識モデル生成装置10は、例えば、1つまたは互いに通信可能な複数のサーバ装置、PC(Personal Computer)等の汎用の電子機器、又は専用の電子機器である。
【0013】
通信部11は、外部機器と通信してよい。外部機器は、例えば、撮像装置、記憶媒体、及び端末装置である。撮像装置は、例えば、スマートフォン、タブレット等の携帯端末、又はロボット等の装置に設けられる。記憶媒体は、例えば、コネクタにおいて着脱可能な任意の記憶媒体である。端末装置は、例えば、スマートフォン、タブレット、PC等の汎用の電子機器、又は専用の電子機器である。通信部11は、有線又は無線で外部機器と通信してよい。
【0014】
通信部11は、外部機器との通信により情報及び指示を取得してよい。通信部11は、外部機器との通信により情報及び指示を付与してよい。
【0015】
通信部11は、検出対象の3次元形状データを取得してよい。3次元形状データは、例えば、CADデータである。3次元形状データには、検出対象の名称がラベルデータとして関連付けられていてよい。
【0016】
通信部11は、検出対象のテクスチャ情報を取得してよい。テクスチャデータとして、想定される検出対象に一般的に用いられる材料のテクスチャがテンプレートとしてデータ化されてよく、実物の写真の表面がデータ化されてよい。
【0017】
通信部11は、検出対象の3次元形状データに基づいて生成された合成画像を取得してよい。取得する合成画像には、アノテーションデータが関連付けられていてよい。アノテーションデータは、例えば、検出対象のマスク画像、検出対象のバウンディングボックス、及びラベルの少なくとも1つに対応するデータを含んでよい。マスク画像は、例えば、画像範囲全体の中で、検出対象の輪郭内を塗りつぶす画像である。バウンディングボックスは、例えば、検出対象を囲繞する矩形の枠である。ラベルは、例えば、検出対象の名称である。なお、合成画像は、例えば2次元の複数の形状データに基づいて生成されていてもよい。
【0018】
通信部11は、検出対象の撮像画像を取得してよい。通信部11は、後述するように、撮像画像に付与されるアノテーションデータに対して修正されたアノテーションデータを取得してよい。
【0019】
通信部11は、後述するように、検出対象を撮像するための撮像ガイドを、携帯端末又はロボットに付与してよい。通信部11は、後述するように、取得した撮像画像に対して第1認識モデルを用いて求めたアノテーション情報を、端末装置に付与してよい。
【0020】
記憶部12は、例えば、RAM(Random Access Memory)およびROM(Read Only Memory)など、任意の記憶デバイスを含む。記憶部12は、制御部13を機能させる多様なプログラム、および制御部13が用いる多様な情報を記憶してよい。
【0021】
制御部13は、1以上のプロセッサおよびメモリを含む。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、および特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けIC(ASIC;Application Specific Integrated Circuit)を含んでよい。プロセッサは、プログラマブルロジックデバイス(PLD;Programmable Logic Device)を含んでよい。PLDは、FPGA(Field-Programmable Gate Array)を含んでよい。制御部13は、1つ又は複数のプロセッサが協働するSoC(System-on-a-Chip)、およびSiP(System In a Package)のいずれかであってもよい。
【0022】
図2に示すように、制御部13は、以下に説明する、合成手段14、第1認識モデル生成手段15、撮像ガイド生成手段16、付与手段17、及び第2認識モデル生成手段18として機能してよい。
【0023】
合成手段14は、通信部11を介して、検出対象の3次元形状データを取得する場合、当該3次元形状データに基づいて、検出対象の合成画像を生成してよい。合成手段14は、3次元形状データに基づいて、例えば、矩形等の画像表示領域に、単一又は複数の検出対象の像を含む2次元の合成画像を生成してよい。合成手段14は、複数の合成画像を生成してよい。合成手段14は、画像表示領域における検出対象の像が多様に配置された合成画像を生成してよい。合成手段14は、異なる検出対象の像をそれぞれ別々に含む合成画像を生成してよい。合成手段14は、異なる検出対象を含む合成画像を生成してよい。合成手段14は、後述する第1認識モデルの推論時に入力する入力情報の形式を有するように合成画像を生成すればよい。例えば、第1認識モデルに入力される撮影画像が2次元であれば、合成画像も2次元であってよい。
【0024】
合成手段14は、画像表示領域における検出対象の多様な姿勢の像を含む合成画像を生成してよい。合成手段14は、検出対象の3次元形状データに基づいて、像の姿勢を決定してよい。合成手段14は、例えば、検出対象が球状である場合、任意の一方向から見た像を検出対象の姿勢とする合成画像として生成する。合成手段14は、例えば、検出対象が立方体状である場合、任意の面から任意の辺を軸に45°傾斜させた方向から、当該辺に垂直な辺を軸に10°ずつ回転させた方向から見た角像を合成画像として生成してよい。合成手段14は、更には、任意の面から任意の辺を軸に50°傾斜させた方向から、当該辺に垂直な辺を軸に10°ずつ回転させた方向から見た角像を合成画像として生成してよい。
【0025】
合成手段14は、同一の検出対象に対して複数の合成画像を生成した場合、一部を学習用データとして用い、他の一部を評価用データとして用いることを定めてよい。例えば、前述のように立方体状の検出対象の合成画像が生成される場合、任意の面から任意の辺を軸に45°傾斜させた方向から見た合成画像が学習用データに決定されてよい。また、任意の面から任意の辺を軸に50°傾斜させた方向から見た合成画像が評価用データに決定されてよい。更に、学習用データは、トレーニングデータ又はヴァリデーションデータに決定されてよい。
【0026】
合成手段14は、検出対象に対応するテクスチャを用いて合成画像を生成してよい。検出対象に対応するテクスチャは、金属等の材料の種類毎に予め登録され記憶部12に記憶されたテンプレート又は当該材料の画像を指定することにより選択されてよい。材料の画像は、カメラ等の撮像手段による検出対象の撮像により生成される全体画像に基づいて特定される材料に対応するテクスチャの像であってよい。材料の画像は、記憶部12に予め記憶されていてよい。テクスチャの選択は、通信部11を介して、マウス等のポインティングデバイス、キーボード等の入力デバイスへの手動入力を検出することにより行われてよい。
【0027】
合成手段14は、後述する、付与手段17から合成画像の作成指令を取得する場合、3次元形状データに基づいて、当該撮影画像の特徴を再現するように合成画像を生成してよい。言い換えれば、合成手段14は、当該撮像画像と同じ特徴となるように合成画像を生成してよい。同じ特徴とは、例えば、撮像画像における検出対象と同じ姿勢、言換えると同じ見え方、及び同じ色、言換えると同じ色相、彩度、明度である。合成手段14は、新規に生成した合成画像を、後述する、デプロイ用モデル作成のためのデータとして記憶部12に格納してよい。
【0028】
合成手段14は、3次元形状データに基づいて合成画像にアノテーションを行ってよい。アノテーションとは、合成画像にアノテーションデータを付与することを指す。すなわち、合成手段14は、アノテーションを行うことにより、合成画像にアノテーションデータを付与してよい。合成手段14がアノテーションにより付与するアノテーションデータは、例えば、検出対象のマスク画像、及び検出対象のバウンディングボックスを含んでよい。合成手段14は、3次元形状データに基づいてポリゴンを生成し、合成画像の撮影方向から見た検出対象が占める領域を算出することによりマスク画像、及び当該ポリゴンを囲繞するバウンディングボックスを生成してよい。合成手段14は、アノテーションデータが付与された合成画像を、デプロイ用モデル作成のためのデータとして記憶部12に格納してよい。
【0029】
第1認識モデル生成手段15は、合成画像を教師データとして原認識モデルを学習させる第1学習を行う。原認識モデルは、物体認識に用いる認識モデルである。原認識モデルは、例えばインスタンスセグメンテーション等のオブジェクト検出を行うために、オブジェクト毎の領域をマスク画像及び領域を矩形の枠状のバウンディングボックスの少なくとも一方で検出するモデルである。原認識モデルは、例えば、ImageNet若しくはMS COCO等の大量のデータセット、又は工業製品等の特定の製品群のデータセットを用いた学習済みのモデルであってよい。第1学習は、例えば、原認識モデルの転移学習及びFine Tuningである。第1認識モデル生成手段15は、第1学習により第1認識モデルを生成する。第1認識モデルは、入力される任意の画像に対して、物体認識結果を出力する。物体認識結果は、検出対象のマスク画像、検出対象のバウンディングボックス、ラベル、マスクスコア、及びバウンディングボックススコアの少なくとも1つに対応するデータであってよい。
【0030】
第1認識モデル生成手段15は、トレーニングデータを用いた学習における1エポック毎に、ヴァリデーションデータに対する精度を算出してよい。第1認識モデル生成手段15は、ヴァリデーションデータに対する精度上昇が一定回数ない場合、学習率を減衰させてよい。更に、第1認識モデル生成手段15は、ヴァリデーションデータに対する精度上昇が一定回数ない場合、学習を終了してよい。
【0031】
第1認識モデル生成手段15は、ヴァリデーションデータに対する精度が最良のエポックのモデルを第1認識モデルとして記憶部12に格納してよい。第1認識モデル生成手段15は、確信度閾値を変化させながらヴァリデーションデータに対する精度が最良となる確信度閾値を探索してよい。第1認識モデル生成手段15は、探索した確信度閾値を第1認識モデルの確信度閾値に決定してよい。第1認識モデル生成手段15は、評価データを用いて、第1認識モデルを評価してよい。
【0032】
撮像ガイド生成手段16は、取得した3次元形状データに基づいて撮像ガイドを提供してよい。撮像ガイドは、取得した3次元形状データに対応する検出対象の撮像方法を示してよい。撮像ガイドは、例えば、検出対象の撮影方向、言換えると撮像により生成される撮像画像における検出対象の見え方の指定を含んでよい。撮像ガイドは、例えば、撮像画像全体における検出対象の像の大きさ、言換えると焦点距離及び検出対象とカメラとの距離等の指定を含んでよい。撮像ガイド生成手段16は、3次元形状データに基づいて、検出対象の撮影方向及び像の大きさを決定してよい。
【0033】
撮像ガイドは、スマートフォン及びタブレットのように撮像装置付きの携帯端末、又は撮像装置を取付けたロボットの制御装置に送られてよい。撮像装置は、撮像ガイドに基づく制御により撮像を行い、検出対象の撮像画像を取得してよい。
【0034】
撮像ガイドは、携帯端末に送られる構成においては、文章及び図面により示される撮像方法であってよい。検出対象は、撮像ガイドを参照したユーザの手動操作により撮像されてよい。撮像ガイドは、ロボットの制御装置に送られる構成においては、指定する撮影方向及び大きさとなるように撮像装置の位置をロボットに調整させる制御指令であってよい。検出対象は、撮像ガイドに基づいてロボットが調整した位置において撮像されてよい。
【0035】
制御部13は、撮像された撮像画像を、通信部11を介して、取得してよい。制御部13は、撮像画像を取得する際に、取得済みの3次元形状データに対応する検出対象の名称を、選択可能に提示してよい。制御部13は、検出対象の名称を、例えば、認識モデル生成装置10に接続されるディスプレイ、又は端末装置に提示してよい。制御部13は、撮像画像に対応する名称を、認識モデル生成装置10に接続される入力デバイス又は端末装置からの操作入力により取得してよい。制御部13は、取得する撮像画像に、検出対象の名称をラベルとして関連付けてよい。
【0036】
付与手段17は、取得した撮像画像の少なくとも一部に第1認識モデルを用いてアノテーションすることにより、当該撮像画像にアノテーションデータを付与する。アノテーションデータは、検出対象のマスク画像及び当該検出対象のバウンディングボックスの少なくとも1つに対応するデータを含んでよい。付与手段17は、アノテーションデータが付与された撮像画像を、デプロイ用モデル作成のためのデータとして記憶部12に格納してよい。
【0037】
付与手段17は、アノテーションを行う撮像画像にノイズ除去を行うことにより除去画像を生成してよい。付与手段17は、アノテーションにおいて、除去画像を第1認識モデルに認識させることによりアノテーションを行い、除去画像に対応する撮像画像にアノテーションデータを付与してよい。したがって、生成された除去画像は後述する第2認識モデル生成手段18で用いられることなく、アノテーションデータが付与された撮像画像を用いて第2学習が行われる。
【0038】
付与手段17は、認識モデル生成装置10に接続されるディスプレイ又は通信部11を介して接続される端末装置に、アノテーションデータが付与された撮像画像を提示してよい。アノテーションデータは、認識モデル生成装置10に接続される入力デバイス又は端末装置への操作入力により修正可能であってよい。付与手段17は、修正されたアノテーションデータを、通信部11を介して取得してよい。付与手段17は、修正されたアノテーションデータを用いて、デプロイ用モデル作成のためのデータとして記憶部12に記憶されたアノテーションデータを更新してよい。
【0039】
付与手段17は、撮像画像のアノテーションにおける確信度、すなわち撮像画像をアノテーションするため第1認識モデルに認識させた際の確信度が閾値以下である場合、合成手段14に、当該撮像画像の特徴で合成画像を作成する指令を付与してよい。
【0040】
第2認識モデル生成手段18は、撮像画像を用いて第1認識モデルを学習させる第2学習を行う。第2認識モデル生成手段18は、第2学習により第2認識モデルを生成する。第2認識モデルは、入力される任意の画像に対して、物体認識結果を出力する。物体認識結果は、検出対象のマスク画像、検出対象のバウンディングボックス、ラベル、マスクスコア、及びバウンディングボックススコアの少なくとも1つに対応するデータであってよい。
【0041】
第2認識モデル生成手段18は、アノテーションデータが付与された撮像画像を教師データとして用いて第2学習を行うことにより第2認識モデルを生成してよい。第2認識モデル生成手段18は、デプロイ用モデル作成のためのデータとして記憶部12に記憶されている、アノテーションデータが付与された合成画像を用いて第2学習を行ってよい。
【0042】
第2認識モデル生成手段18は、アノテーションデータが付与された撮像画像を用いて第2学習を行う構成においては、デプロイ用モデル作成のためのデータとして記憶部12に記憶されている、アノテーションデータが付与された撮像画像の少なくとも一部を、学習用データに決定してよい。更に、第2認識モデル生成手段18は、学習用データをトレーニングデータ又はヴァリデーションデータに決定してよい。第2認識モデル生成手段18は、アノテーションデータが付与された撮像画像の別の一部を評価用データに決定してよい。
【0043】
第2認識モデル生成手段18は、トレーニングデータを用いた学習における1エポック毎に、ヴァリデーションデータに対する精度を算出してよい。第2認識モデル生成手段18は、ヴァリデーションデータに対する精度上昇が一定回数ない場合、学習率を減衰させてよい。更に、第2認識モデル生成手段18は、ヴァリデーションデータに対する精度上昇が一定回数ない場合、学習を終了してよい。
【0044】
第2認識モデル生成手段18は、ヴァリデーションデータに対する精度が最良のエポックのモデルを第2認識モデルとして記憶部12に格納してよい。第2認識モデル生成手段18は、確信度閾値を変化させながらヴァリデーションデータに対する精度が最良となる確信度閾値を探索してよい。第2認識モデル生成手段18は、探索した確信度閾値を第2認識モデルの確信度閾値に決定してよい。第2認識モデル生成手段18は、評価用データを用いて、第2認識モデルを評価してよい。
【0045】
第2認識モデル生成手段18は、第1認識モデルを、アノテーションデータが付与されていない撮像画像を用いたドメイン適応を行うことによる再学習を、第2の学習として行うことにより第2認識モデルを生成してよい。
【0046】
第2認識モデル生成手段18は、アノテーションデータが付与されていない撮像画像を用いて第2学習を行う構成においては、デプロイ用モデル作成のためのデータとして記憶部12に記憶されている、アノテーションデータが付与された撮像画像の少なくとも一部を、評価用データに決定してよい。第2認識モデル生成手段18は、評価用データを用いて、第2認識モデルを評価してよい。
【0047】
第2認識モデル生成手段18は、評価後の第2認識モデルを、デプロイ用モデルとして、記憶部12に格納してよい。
【0048】
次に、本実施形態において制御部13が実行する、認識モデル生成処理について、図3、4のフローチャートを用いて説明する。認識モデル生成処理は、例えば、認識モデル生成装置10に接続される入力デバイス等への生成処理開始の操作入力を検出する場合、開始する。
【0049】
ステップS100において、制御部13は、検出対象の3次元形状データを取得しているか否かを判別する。取得していない場合、プロセスはステップS100に戻る。取得している場合、プロセスはステップS101に進む。
【0050】
ステップS101では、制御部13は、ステップS100において取得が確認された3次元形状データに基づいて合成画像を生成する。生成後、プロセスはステップS102に進む。
【0051】
ステップS102では、制御部13は、ステップS100において取得が確認された3次元形状データに基づいてアノテーションデータを生成する。制御部13は、生成したアノテーションデータをステップS101において生成した合成画像に付与する。付与後、プロセスはステップS103に進む。
【0052】
ステップS103では、制御部13は、ステップS102においてアノテーションデータが付与された合成画像を用いて原認識モデルを学習させることにより、第1学習を実行する。制御部13は、第1学習の実行により生成した第1認識モデルを、記憶部12に格納する。第1学習の実行後、プロセスはステップS104に進む。
【0053】
ステップS104では、制御部13は、ステップS100において取得が確認された3次元形状データに基づいて撮像ガイドを生成してよい。制御部13は、提供先に応じた撮像ガイドを生成してよい。生成後、プロセスはステップS105に進む。
【0054】
ステップS105では、制御部13は、ステップS104において生成した撮像ガイドを外部機器に提供する。提供後、プロセスはステップS106に進む。
【0055】
ステップS106では、制御部13は、外部機器から撮像画像を取得しているか否かを判別する。撮像画像を取得していない場合、プロセスはステップS106に戻る。撮像画像を取得している場合、プロセスはステップS107に進む。
【0056】
ステップS107では、制御部13は、記憶部12に記憶している3次元形状データに対応する検出対象の名称を選択可能に提示する。提示後、プロセスはステップS108に進む。
【0057】
ステップS108では、制御部13は、検出対象の名称を取得しているか否かを判別する。検出対象の名称を取得している場合、プロセスはステップS109に進む。検出対象の名称を取得していない場合、プロセスはステップS110に進む。
【0058】
ステップS109では、制御部13は、ステップS108において取得が確認された名称を、ステップS106において取得が確認された撮像画像に関連付ける。制御部13は、検出対象の名称が関連付けられた撮像画像を記憶部12に格納する。関連付け後、プロセスはステップS110に進む。
【0059】
ステップS110では、制御部13は、ステップS106において取得が確認された撮像画像からノイズを除去して除去画像を生成する。ノイズ除去後、プロセスはステップS111に進む。
【0060】
ステップS111では、制御部13は、ステップS103において生成した第1認識モデルを用いて、ステップS110において生成した除去画像にアノテーションを行う。制御部13は、アノテーションにより生成するアノテーションデータを、除去画像に対応する撮像画像に付与する。付与後、プロセスはステップS112に進む。
【0061】
ステップS112では、制御部13は、アノテーションデータが付与された撮像画像を提示する。提示後、プロセスはステップS113に進む。
【0062】
ステップS113では、制御部13は、アノテーションデータが付与された撮像画像の提示に対して修正されたアノテーションデータを取得しているか否かを判別する。修正されたアノテーションデータを取得している場合、プロセスはステップS114に進む。修正されたアノテーションデータを取得していない場合、プロセスはステップS115に進む。
【0063】
ステップS114では、制御部13は、ステップS113において取得が確認された、修正されたアノテーションデータを用いて、記憶部12に記憶されたアノテーションデータを更新する。更新後、プロセスはステップS115に進む。
【0064】
ステップS115では、制御部13は、第2学習を実行することにより、第2認識モデルを生成する。制御部13は、第2学習においてアノテーションデータが付与された撮像画像を用いる構成では、アノテーションにおける確信度が閾値以下である撮像画像と同じ特徴の合成画像を生成する。制御部13は、更にアノテーションデータが付与された撮像画像及び新規に生成した合成画像を用いて第1認識モデルを学習させる。又は、制御部13は、第2学習においてアノテーションデータが付与されていない撮像画像を用いる構成では、当該撮像画像を用いたドメイン適応を行う。第2学習の実行後、プロセスはステップS116に進む。
【0065】
ステップS116では、制御部13は、ステップS116において生成した第2認識モデルを、アノテーションデータが付与された撮像画像を用いて評価する。評価後、プロセスはステップS117に進む。
【0066】
ステップS117では、制御部13は、ステップS116において評価された第2認識モデルを、デプロイ用モデルとして記憶部12に格納する。格納後、認識モデル生成処理は終了する。
【0067】
以上のような構成の本実施形態の認識モデル生成装置10は、検出対象を示す複数の合成画像に基づき、画像の入力に対して物体認識結果を出力する第1認識モデルを生成し、検出対象の複数の撮像画像の第1認識モデルへの入力によって物体認識結果を用いてアノテーションデータとして、撮像画像に付与し、撮像画像および前記アノテーションデータに基づいて第2学習モデルを作成する。このような構成により、認識モデル生成装置10は、第1認識モデルにより撮像画像のアノテーションが行われるので、合成画像及び撮像画像を用いた、検出対象の認識モデルの学習のための撮像画像のアノテーション作業を軽減させ得る。
【0068】
また、認識モデル生成装置10は、上述のように第2学習モデルを作成するので、実際の撮像した画像において検出対象の認識精度を向上させ得る。また、認識モデル生成装置10は、3次元形状データに基づいて生成する多量の合成画像を用いて学習可能なため、撮像画像が少数であっても認識精度の高いモデルを生成し得る。
【0069】
検出対象の実物を製造ラインで製造する場合、当該実物は3次元形状データによって製造される。従って、検出対象の撮像画像を準備するより以前に、検出対象の3次元形状データが生成されるため、合成画像が撮像画像よりも先に入手できる。以上のような構成の本実施形態の認識モデル生成方法では、検出対象の実物が製造され、撮像画像が取得できるようになるまでは、合成画像を用いて原認識モデルを学習させることにより第1認識モデルが作成され得る。その後、検出対象の実物が製造され、撮像画像が入手できるようになった後に、第1認識モデルを用いて撮像画像の少なくとも一部にアノテーションデータを付与し、検出対象の撮像画像を用いて第1認識モデルを学習させることにより第2学習モデルが作成され得る。これにより、本実施形態の認識モデル生成方法は、製造ラインの構築と、認識モデルの生成とを平行して進めることができるため、早期に認識モデル生成を導入した製造ラインを導入しうる。
【0070】
また、本実施形態の認識モデル生成装置10では、第2学習において、アノテーションデータが付与された撮像画像を用いて第2認識モデルを生成する。このような構成により、認識モデル生成装置10は、第2学習にかかる時間を短縮し得る。
【0071】
また、本実施形態の認識モデル生成装置10では、第2学習において、第1認識モデルをアノテーションデータが付与されていない検出対象の撮像画像を用いたドメイン適応を行うことにより再学習させ、アノテーションデータが付与された撮像画像が第2認識モデルの評価に用いられる。このような構成により、認識モデル生成装置10は、学習した認識モデルを合成画像でなく撮像画像で評価するので、評価結果の信頼性を向上させ得る。
【0072】
また、本実施形態の認識モデル生成装置10は、撮像画像のアノテーションにおける確信度、すなわち撮像画像をアノテーションするため第1認識モデルに認識させた際の確信度が閾値以下である場合、撮像画像と同じ特徴となるように検出対象の合成画像を生成し、当該合成画像を前記第2学習に用いる。このような構成により、認識モデル生成装置10は、認識精度が低下する見え方と同様に見える合成画像を多用に生成し得るので、最終的に学習された第2認識モデルの認識精度を向上し得る。また、上述の構成により、認識モデル生成装置10は、合成画像のドメインでロバスト性を担保しながら、撮像画像を用いることにより実際の撮像した画像における検出対象の認識精度を向上させ得る。
【0073】
また、本実施形態の認識モデル生成装置10では、3次元形状データに基づいて撮像ガイドを提供する。このような構成により、認識モデル生成装置10は、撮像ガイドに基づいて撮像画像を撮像させ得る。したがって、認識モデル生成装置10は、ユーザの経験及び知識によらず、3次元形状データに基づいて、学習の必要性の高い姿勢の検出対象を撮像した撮像画像を取得し得る。その結果、認識モデル生成装置10は、最終的に認識精度の高い第2認識モデルを生成し得る。
【0074】
また、本実施形態の認識モデル生成装置10は、アノテーションにおいて撮像画像のノイズ除去を行った除去画像を第1認識モデルに認識させることによりアノテーションデータを付与し、第2学習において撮像画像を用いて第1認識モデルを学習させる。このような構成により、認識モデル生成装置10は、アノテーションにおいては撮像画像を、ノイズの少ない合成画像に近づけることにより、精度の高いアノテーションデータを付与し得る。更に、認識モデル生成装置10は、第2学習においてはノイズの除去されていない撮像画像をそのまま用いて学習を行うので、実際の撮像した画像における検出対象の認識精度を向上させ得る。
【0075】
また、本実施形態の認識モデル生成装置10は、テクスチャを用いて合成画像を生成する。このような構成により、認識モデル生成装置10は、第1認識モデル及び第2認識モデルの認識精度を更に向上させ得る。
【0076】
以上、認識モデル生成装置10の実施形態を説明してきたが、本開示の実施形態としては、装置を実施するための方法又はプログラムの他、プログラムが記録された記憶媒体(一例として、光ディスク、光磁気ディスク、CD-ROM、CD-R、CD-RW、磁気テープ、ハードディスク、又はメモリカード等)としての実施態様をとることも可能である。
【0077】
また、プログラムの実装形態としては、コンパイラによってコンパイルされるオブジェクトコード、インタプリタにより実行されるプログラムコード等のアプリケーションプログラムに限定されることはなく、オペレーティングシステムに組み込まれるプログラムモジュール等の形態であってもよい。さらに、プログラムは、制御基板上のCPUにおいてのみ全ての処理が実施されるように構成されてもされなくてもよい。プログラムは、必要に応じて基板に付加された拡張ボード又は拡張ユニットに実装された別の処理ユニットによってその一部又は全部が実施されるように構成されてもよい。
【0078】
本開示に係る実施形態について説明する図は模式的なものである。図面上の寸法比率等は、現実のものとは必ずしも一致していない。
【0079】
本開示に係る実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は改変を行うことが可能であることに注意されたい。従って、これらの変形又は改変は本開示の範囲に含まれることに留意されたい。例えば、各構成部等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の構成部等を1つに組み合わせたり、或いは分割したりすることが可能である。
【0080】
本開示に記載された構成要件の全て、及び/又は、開示された全ての方法、又は、処理の全てのステップについては、これらの特徴が相互に排他的である組合せを除き、任意の組合せで組み合わせることができる。また、本開示に記載された特徴の各々は、明示的に否定されない限り、同一の目的、同等の目的、または類似する目的のために働く代替の特徴に置換することができる。したがって、明示的に否定されない限り、開示された特徴の各々は、包括的な一連の同一、又は、均等となる特徴の一例にすぎない。
【0081】
さらに、本開示に係る実施形態は、上述した実施形態のいずれの具体的構成にも制限されるものではない。本開示に係る実施形態は、本開示に記載された全ての新規な特徴、又は、それらの組合せ、あるいは記載された全ての新規な方法、又は、処理のステップ、又は、それらの組合せに拡張することができる。
【0082】
本開示において「第1」及び「第2」等の記載は、当該構成を区別するための識別子である。本開示における「第1」及び「第2」等の記載で区別された構成は、当該構成における番号を交換することができる。例えば、第1認識モデルは、第2認識モデルと識別子である「第1」と「第2」とを交換することができる。識別子の交換は同時に行われる。識別子の交換後も当該構成は区別される。識別子は削除してよい。識別子を削除した構成は、符号で区別される。本開示における「第1」及び「第2」等の識別子の記載のみに基づいて、当該構成の順序の解釈、小さい番号の識別子が存在することの根拠に利用してはならない。
【0083】
本開示において、合成手段14、第1認識モデル生成手段15、撮像ガイド生成手段16、付与手段17、及び第2認識モデル生成手段18は制御部13によって機能するものとして説明されたが、これに限られない。合成手段14、第1認識モデル生成手段15、撮像ガイド生成手段16、付与手段17、及び第2認識モデル生成手段18は、それぞれが1又は複数の装置によって構成されていてよい。この場合、本実施形態に開示された認識モデル生成方法は、例えば、合成装置、第1認識モデル生成装置、撮像ガイド生成装置、アノテーションデータを付与する付与装置、及び第2認識モデル生成装置からなる認識モデル生成システムにおいて実施しうる。
【符号の説明】
【0084】
10 認識モデル生成装置
11 通信部
12 記憶部
13 制御部
14 合成手段
15 第1認識モデル生成手段
16 撮像ガイド生成手段
17 付与手段
18 第2認識モデル生成手段
図1
図2
図3
図4