(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-26
(45)【発行日】2024-12-04
(54)【発明の名称】学習モデルの生成方法、学習済みモデル、画像処理方法、画像処理システム、及び溶接システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241127BHJP
B23K 26/00 20140101ALI20241127BHJP
B23K 26/21 20140101ALI20241127BHJP
B23K 9/095 20060101ALI20241127BHJP
G06N 3/04 20230101ALI20241127BHJP
G06N 3/08 20230101ALI20241127BHJP
【FI】
G06T7/00 350C
B23K26/00 P
B23K26/21 F
B23K26/00 M
B23K9/095 510A
G06N3/04
G06N3/08
(21)【出願番号】P 2020167698
(22)【出願日】2020-10-02
【審査請求日】2023-09-14
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110004026
【氏名又は名称】弁理士法人iX
(72)【発明者】
【氏名】塩見 康友
(72)【発明者】
【氏名】鷲谷 泰佑
【審査官】長谷川 素直
(56)【参考文献】
【文献】特開2018-192524(JP,A)
【文献】特開2020-028889(JP,A)
【文献】特開平08-132230(JP,A)
【文献】特開2019-185483(JP,A)
【文献】国際公開第2020/031422(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
B23K 26/00
B23K 9/00
G06N 3/00
(57)【特許請求の範囲】
【請求項1】
複数の学習用の入力画像と、前記複数の学習用の入力画像のうちの一つから特徴を抽出した学習用の特徴抽出画像と、を含む教師データを取得する工程と、
複数の入力画像から推定される前記特徴の抽出画像を出力する学習モデルを、前記教師データを用いて学習させる工程と、
を備え、
前記学習モデルは、コンボリューションを行う入力層を含み、
前記複数の学習用の入力画像のそれぞれにおける前記特徴の位置は、相互に異なり、
前記複数の学習用の入力画像における前記特徴の位置の変化量は、前記入力層のフィルタのカーネルサイズよりも小さい、学習モデルの生成方法。
【請求項2】
前記学習モデルは、コンボリューションを行う出力層を含み、
前記変化量は、前記出力層のフィルタのカーネルサイズよりも小さい請求項1に記載の学習モデルの生成方法。
【請求項3】
前記学習モデルは、コンボリューションを行う中間層を含み、
前記変化量は、前記中間層のフィルタのカーネルサイズよりも小さい請求項1または2に記載の学習モデルの生成方法。
【請求項4】
前記学習モデルは、デコンボリューションを行う他の中間層を含み、
前記変化量は、前記他の中間層のフィルタのカーネルサイズよりも小さい、請求項
3に記載の学習モデルの生成方法。
【請求項5】
前記学習モデルには、U-NETが用いられている請求項1~4のいずれか1つに記載の学習モデルの生成方法。
【請求項6】
前記学習させる工程の前に、前記複数の学習用の入力画像の前記特徴をぼかした複数の前処理済み画像を作成する工程を更に備え、
前記学習させる工程において、前記複数の前処理済み画像を前記入力層に入力する請求項1~5のいずれか1つに記載の学習モデルの生成方法。
【請求項7】
前記複数の前処理済み画像を作成する工程において、
前記複数の学習用の入力画像のうちの一の学習用の入力画像において前記特徴をぼかす程度は、前記複数の学習用の入力画像のうちの他の学習用の入力画像において前記特徴をぼかす程度と異なる請求項6に記載の学習モデルの生成方法。
【請求項8】
前記複数の学習用の入力画像は、対象箇所を撮影した際の撮影条件が相互に異なる画像である請求項1~7のいずれか1つに記載の学習モデルの生成方法。
【請求項9】
前記複数の学習用の入力画像は、前記対象箇所を撮影した際の、時刻、光の偏光方向、撮影位置、撮影角度、光の波長、及び、露光時間のうちの少なくとも1つの前記撮影条件が相互に異なる画像である請求項8に記載の学習モデルの生成方法。
【請求項10】
前記複数の学習用の入力画像は、対象箇所を撮影した動画を構成する画像である請求項1~7のいずれか1つに記載の学習モデルの生成方法。
【請求項11】
前記複数の学習用の入力画像は、溶接時に溶接個所を撮影した画像であり、
前記特徴は、溶融池の輪郭の少なくとも一部、キーホールの輪郭の少なくとも一部、又は被溶接部材の輪郭の少なくとも一部である請求項1~10のいずれか1つに記載の学習モデルの生成方法。
【請求項12】
コンボリューションを行う入力層を含み、
複数の学習用の入力画像と、前記複数の学習用の入力画像のうちの一つから特徴を抽出した学習用の特徴抽出画像と、を含む教師データを用いて学習済みであり、
前記複数の学習用の入力画像のそれぞれにおける前記特徴の位置は、相互に異なり、
前記複数の学習用の入力画像における前記特徴の位置の変化量が、前記入力層のフィルタのカーネルサイズよりも小さく、
コンピュータに、複数の入力画像から推定される前記特徴の抽出画像を出力させる学習済みモデル。
【請求項13】
複数の入力画像を取得する工程と、
学習済みモデルを用いて、前記複数の入力画像から推定される特徴の抽出画像を出力する工程と、
を備え、
前記学習済みモデルは、
コンボリューションを行う入力層を含み、
複数の学習用の入力画像と、前記複数の学習用の入力画像のうちの一つから前記特徴を抽出した学習用の特徴抽出画像と、を含む教師データを用いて学習済みであり、
前記複数の学習用の入力画像のそれぞれにおける前記特徴の位置は相互に異なり、
前記複数の学習用の入力画像における前記特徴の位置の変化量が、前記入力層のフィルタのカーネルサイズよりも小さい、画像処理方法。
【請求項14】
前記複数の入力画像における前記特徴の位置の変化量は、前記入力層のフィルタのカーネルサイズよりも小さい、請求項13に記載の画像処理方法。
【請求項15】
学習済みモデルを用いて、複数の入力画像から推定される特徴の抽出画像を出力する画像処理部を備え、
前記学習済みモデルは、
コンボリューションを行う入力層を含み、
複数の学習用の入力画像と、前記複数の学習用の入力画像のうちの一つから前記特徴を抽出した学習用の特徴抽出画像と、を含む教師データを用いて学習済みであり、
前記複数の学習用の入力画像のそれぞれにおける前記特徴の位置は相互に異なり、
前記複数の学習用の入力画像における前記特徴の位置の変化量が、前記入力層のフィルタのカーネルサイズよりも小さい、画像処理システム。
【請求項16】
被溶接部材を溶接する溶接部と、
前記被溶接部材の溶接個所を撮影する1つ以上の撮影装置と、
学習モデルを用いて前記撮影装置が撮影した複数の画像から推定される溶接の特徴の抽出画像を出力する画像処理部と、
前記画像処理部が出力した特徴抽出画像に基づき、前記溶接部を制御する制御部と、
を備え、
前記学習済みモデルは、
コンボリューションを行う入力層を含み、
複数の学習用の入力画像と、前記複数の学習用の入力画像のうちの一つから前記特徴を抽出した学習用の特徴抽出画像と、を含む教師データを用いて学習済みであり、
前記複数の学習用の入力画像のそれぞれにおける前記特徴の位置は相互に異なり、
前記複数の学習用の入力画像における前記特徴の位置の変化量が、前記入力層のフィルタのカーネルサイズよりも小さい、溶接システム。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、学習モデルの生成方法、学習済みモデル、画像処理方法、画像処理システム、及び溶接システムに関する。
【背景技術】
【0002】
従来から、学習済みの学習モデルを用いて入力画像から特徴の抽出画像を推定する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
実施形態は、特徴の抽出精度の高い学習モデルの生成方法、学習済みモデル、画像処理方法、画像処理システム、及び溶接システムを提供することを目的とする。
【課題を解決するための手段】
【0005】
実施形態に係る学習モデルの生成方法は、複数の学習用の入力画像と、前記複数の学習用の入力画像のうちの一つから特徴を抽出した学習用の特徴抽出画像と、を含む教師データを取得する工程と、複数の入力画像から推定される前記特徴の抽出画像を出力する学習モデルを、前記教師データを用いて学習させる工程と、を備える。前記学習モデルは、コンボリューションを行う入力層を含む。前記複数の学習用の入力画像のそれぞれにおける前記特徴の位置は、相互に異なる。前記複数の学習用の入力画像における前記特徴の位置の変化量は、前記入力層のフィルタのカーネルサイズよりも小さい。
【図面の簡単な説明】
【0006】
【
図1】第1の実施形態に係る溶接システムを示す図である。
【
図2】
図2(a)は、溶接前の被溶接部材を示す上面図であり、
図2(b)は、溶接中の被溶接部材を示す上面図である。
【
図3】第1の実施形態に係る溶接システムにおける制御装置のハードウェアの構成を示すブロック図である。
【
図4】第1の実施形態に係る学習モデルを示す図である。
【
図5】第1の実施形態に係る学習モデルの生成方法を示すフローチャートである。
【
図6】第1の実施形態に係る学習モデルの学習に用いられるデータを示す図である。
【
図7】第1の実施形態に係る学習モデルの生成方法のうち、学習用の入力画像の前処理方法を示す図である。
【
図8】第1の実施形態に係る学習モデルの生成器を示す図である。
【
図9】
図9(a)は、第1の実施形態に係る学習モデルにおける入力層の処理を示す図であり、
図9(b)は、入力層におけるコンボリューションの方法を示す図である。
【
図10】複数の学習用の入力画像において溶融池の輪郭の位置が相互に異なることを示す図である。
【
図11】
図11(a)は、第1の実施形態に係る学習モデルにおける第1中間層の処理を示す図であり、
図11(b)は、第1の実施形態に係る学習モデルにおける第2中間層の処理を示す図であり、
図11(c)は、第1の実施形態に係る学習モデルにおける第3中間層の処理を示す図である。
【
図12】
図12(a)は、第1の実施形態に係る学習モデルの第4中間層の処理を示す図であり、
図12(b)は、第1の実施形態に係る学習モデルの第5中間層の処理を示す図であり、
図12(c)は、第1の実施形態に係る学習モデルの第6中間層の処理を示す図である。
【
図13】第1の実施形態に係る学習モデルにおける出力層の処理を示す図である。
【
図14】第1の実施形態に係る学習モデルが出力する特徴抽出画像を示す図である。
【
図15】第1の実施形態に係る学習モデルを用いた溶接方法を示すフローチャートである。
【
図16】第2の実施形態に係る溶接システムの一部を示す図である。
【
図17】第3の実施形態に係る溶接システムの一部を示す図である。
【
図18】第4の実施形態に係る溶接システムの一部を示す図である。
【発明を実施するための形態】
【0007】
<第1の実施形態>
先ず、第1の実施形態について説明する。
図1は、本実施形態に係る溶接システムを示す図である。
図2(a)は、溶接前の被溶接部材を示す上面図であり、
図2(b)は、溶接中の被溶接部材を示す上面図である。
【0008】
(溶接システム)
本実施形態に係る溶接システム10は、2つ以上の被溶接部材を溶接して一体化する。溶接システム10は、例えば、レーザ溶接又はアーク溶接を実行する。ここでは、主に溶接システム10が、
図2(a)及び
図2(b)に示すように、2つの被溶接部材21、22のレーザ溶接を実行する例について説明する。以下、2つの被溶接部材21、22を「第1被溶接部材21」及び「第2被溶接部材22」ともいう。
【0009】
第1被溶接部材21と第2被溶接部材22は、例えば板状の部材である。第1被溶接部材21と第2被溶接部材22は、互いに対向するように配置されている。以下、第1被溶接部材21において第2被溶接部材22と対向する面を「第1面21a」といい、第2被溶接部材22において第1被溶接部材21と対向する面を「第2面22a」という。
【0010】
溶接システム10は、
図1に示すように、例えば、溶接部11と、撮影装置15と、照明装置16と、制御装置17と、を備える。
【0011】
以下、説明をわかりやすくするためにXYZ直交座標系を用いる。第1被溶接部材21及び第2被溶接部材22からヘッド13に向かう方向を「Z方向」とする。また、Z方向を直交する方向であって、第1被溶接部材21から第2被溶接部材22に向かう方向を「Y方向」とする。また、Z方向及びY方向と直交する方向であってヘッド13の進行方向を「X方向」とする。
【0012】
溶接部11は、光源12と、ヘッド13と、アーム14と、を含む。ヘッド13は、光源12に接続されており、光源12が出射したレーザ光Lを第1被溶接部材21及び第2被溶接部材22に照射する。アーム14は、ヘッド13を保持しており、第1被溶接部材21及び第2被溶接部材22に対してヘッド13を移動させる。アーム14は、例えばX方向、Y方向、及びZ方向にヘッド13を移動可能である。
【0013】
撮影装置15は、例えばCCDイメージセンサ又はCMOSイメージセンサを含むカメラである。撮影装置15は、第1被溶接部材21及び第2被溶接部材22の上方に配置されている。撮影装置15は、本実施形態では、溶接中に溶接個所の動画Dを撮影する。以下、動画Dを「制御用の動画D」ともいう。
【0014】
照明装置16は、撮影装置15によってより鮮明な画像が得られるように、溶接箇所を照らす。溶接個所を照らさなくても、後述する画像処理システムによる画像処理に使用できる画像が得られるのであれば、照明装置16は設けられていなくてもよい。
【0015】
図3は、本実施形態に係る溶接システムにおける制御装置のハードウェアの構成を示すブロック図である。
制御装置17は、本実施形態では、GPU(Graphics Processing Unit)17a、ROM(Read Only Memory)17b、RAM(Random Access Memory)17c、ハードディスク17d等を含むコンピュータである。GPU17a、ROM17b、RAM17c、及びハードディスク17dはバス17eにより相互に接続されている。ただし、制御装置の構成は上記に限定されない。例えば、制御装置は、GPUではなくCPU等の他のプロセッサーを用いていてもよい。また、制御装置は、入出力インターフェース等の他の構成を含んでいてもよい。
【0016】
制御装置17は、本実施形態では
図1に示すように、取得部171、画像処理部172、制御部173、及び記憶部174として機能する。取得部171、画像処理部172、及び制御部173としての機能は、例えばGPU17aによって実現される。また、記憶部174としての機能は、例えばROM17b、RAM17c、ハードディスク17d等によって実現される。
【0017】
制御部173は、第1被溶接部材21と第2被溶接部材22を溶接する場合、溶接部11を制御して、ヘッド13から第1被溶接部材21及び第2被溶接部材22に向けてレーザ光Lを出射させつつ、ヘッド13をX方向に移動させる。また、制御部173は、撮影装置15を制御して、溶接中の溶接個所の動画Dを撮影する。
【0018】
レーザ光Lが第1被溶接部材21及び第2被溶接部材22に照射されることにより、
図2(b)に示すように、第1被溶接部材21の一部及び第2被溶接部材22の一部が溶融して、溶融池31が生じる。ヘッド13の進行方向であるX方向において、溶融池31の前方には未溶融の第1面21a及び第2面22aが存在する。また、溶融池31内において照射されるレーザ光Lのエネルギー密度が高い領域には、溶融した金属が蒸発して、キーホール32が生じる場合がある。そして、溶融池31が凝固することにより、第1被溶接部材21及び第2被溶接部材22が一体化する。第1被溶接部材21と第2被溶接部材22とのつなぎ目には、溶接ビード33が形成される。したがって、動画Dを構成する各画像には、第1面21a、第2面22a、溶融池31、キーホール32、及び溶接ビード33のいずれかが含まれる。
【0019】
取得部171は、
図1に示すように動画Dを構成する画像の中から複数の画像を、複数の制御用の入力画像IA1、IA2、IA3として溶接中に所定の時間間隔で取得する。ここでは、制御用の入力画像の枚数が3枚である例を説明するが、制御用の入力画像の枚数は、2枚以上であれば特に限定されない。例えば、制御用の入力画像IA3は、最新の画像であり、制御用の入力画像IA2は、制御用の入力画像IA3の直前の時刻に撮影された画像である。制御用の入力画像IA1は、制御用の入力画像IA2の直前の時刻に撮影された画像である。ただし、制御用の入力画像IA2は、制御用の入力画像IA3の直前に撮影された画像でなくてもよいし、制御用の入力画像IA1は、制御用の入力画像IA2の直前の時刻に撮影された画像でなくてもよい。
【0020】
画像処理部172は、記憶部174に記憶された学習済みの学習モデル200を用いて、複数の制御用の入力画像IA1、IA2、IA3から推定される特徴抽出画像IBを溶接中に所定の時間間隔で出力する。以下、特徴抽出画像IBを「制御用の特徴抽出画像IB」ともいう。また、学習済みの学習モデル200を「学習済みモデル200」ともいう。
【0021】
画像処理部172が抽出する特徴は、複数の制御用の入力画像IA1、IA2、IA3中の特定の領域の輪郭等である。ここでは、画像処理部172が複数の特徴を抽出する例を説明する。ただし、画像処理部が抽出する特徴の数は、1以上であれば特に限定されない。
【0022】
画像処理部172は、複数の制御用の入力画像IA1、IA2、IA3から、溶融池31の輪郭を線R1として抽出し、キーホール32の輪郭を線R2として抽出し、第1被溶接部材21の輪郭の一部である第1面21aを線R3として抽出し、第2被溶接部材22の輪郭の一部である第2面22aを線R4として抽出する。すなわち、制御用の特徴抽出画像IBは、溶融池31の輪郭が線R1として示され、キーホール32の輪郭が線R2として示され、第1面21aが線R3として示され、第2面22aが線R4として示された画像である。ただし、画像処理部が抽出する特徴は上記に特に限定されない。例えば画像処理部は、溶接ビードの輪郭を特徴として抽出してもよい。
【0023】
制御部173は、制御用の特徴抽出画像IBを用いて所定の時間間隔で溶接部11を制御する。具体的には、制御部173は、制御用の特徴抽出画像IBからキーホール32のY方向における中心位置と、その前方の第1面21aと第2面22aとの隙間のY方向における中心位置と、のずれを算出し、ずれを解消するようにアーム14を制御する。また、制御部173は、制御用の特徴抽出画像IBにおける溶融池31の輪郭のY方向における位置が、第1面21a及び第2面22aよりも外側に位置し、かつ、一定の範囲に収まるように光源12の出力を制御する。これにより、第1被溶接部材21と第2被溶接部材22の溶接の位置精度及び溶接の強度を向上させることができる。
【0024】
(学習モデル)
次に、溶接システム10に用いられる学習済みモデル200について説明する。
図4は、本実施形態に係る学習モデルを示す図である。
溶接システム10に用いられる学習モデル200は、教師データTDを用いて学習済みである。
【0025】
教師データTDは、複数の学習用の入力画像IC1、IC2、IC3と、複数の学習用の入力画像IC1、IC2、IC3のうちの一つから特徴を抽出した学習用の特徴抽出画像ID2と、を含む。学習モデル200が1回の学習で用いる学習用の入力画像IC1、IC2、IC3の枚数は、1回の画像処理で用いる制御用の入力画像IA1、IA2、IA3の枚数と同じであり、例えば3枚である。
【0026】
複数の学習用の入力画像IC1、IC2、IC3は、例えば、溶接個所を撮影した学習用の動画を構成する画像のうちの3枚の画像である。学習用の動画は、例えば撮影装置15によって撮影される。例えば、学習用の入力画像IC1は、学習用の入力画像IC2の直前の時刻に撮影された画像であり、学習用の入力画像IC3は、学習用の入力画像IC2の直後に撮影された画像である。ただし、学習用の動画の撮影装置と制御用の動画Dの撮影装置は、異なっていてもよい。
【0027】
学習用の特徴抽出画像ID2は、例えば学習用の入力画像IC2から特徴を抽出した画像であり、後述する生成装置40の使用者によって学習モデル200の学習前に準備される。具体的には、学習用の特徴抽出画像ID2は、制御用の特徴抽出画像IBと同様に、学習用の入力画像IC2中の溶融池31の輪郭を線R5として示し、キーホール32の輪郭を線R6として示し、第1面21aを線R7として示し、第2面22aを線R8として示した画像である。学習用の特徴抽出画像ID2は、例えば、作成者が、学習用の入力画像IC2において溶融池31の輪郭、キーホール32の輪郭、第1面21a、及び第2面22aとして認定した部分を線でなぞり、なぞった線を抽出することによって作成される。ただし、学習用の特徴抽出画像の作成方法は、上記に限定されない。また、学習用の特徴抽出画像は、例えば学習用の入力画像IC1又は学習用の入力画像IC3から特徴を抽出した画像であってもよい。
【0028】
学習モデル200に用いられるアルゴリズムは、画像から画像を生成するアルゴリズムであり、例えばpix2pixである。
【0029】
学習モデル200は、生成器210と、識別器220と、を有する。生成器210は、複数の学習用の入力画像IC1、IC2、IC3から推定される特徴の抽出画像IEを出力する。識別器220は、学習用の入力画像IC2及び学習用の特徴抽出画像ID2のペアと、学習用の入力画像IC2及び生成器210が生成した特徴抽出画像IEのペアと、が入力された場合に、どちらのペアが教師データTD、すなわち本物であり、どちらのペアが教師データTDではない、すなわち偽物であるのかを識別する。学習用の入力画像IC2及び生成器210が生成した特徴抽出画像IEのペアを識別器220が本物であると識別するように、生成器210の学習が進められる。また、学習用の入力画像IC2及び学習用の特徴抽出画像ID2のペアが本物であると識別できるように、及び、学習用の入力画像IC2及び生成器210が生成した特徴抽出画像IEのペアが偽物であると識別できるように、識別器220の学習が進められる。生成器210及び識別器220が行う具体的な処理については、後述する。
【0030】
学習モデル200は、本実施形態では
図1に示すように生成装置40によって生成される。生成装置40は、GPU又はCPU等のプロセッサー、ROM、RAM、ハードディスク等を含むコンピュータである。ただし、制御装置17が学習モデルを生成してもよい。
【0031】
(学習モデルの生成方法)
次に、学習モデル200の生成方法について説明する。
図5は、本実施形態に係る学習モデルの生成方法を示すフローチャートである。
学習モデル200の生成方法は、教師データTDを取得する工程S11と、各学習用の入力画像IC1、IC2、IC3を前処理する工程S12と、学習モデル200を学習させる工程S13と、を備える。以下、各工程について詳述する。
【0032】
図6は、本実施形態に係る学習モデルの学習に用いられるデータを示す図である。
先ず、生成装置40は、使用者が予め準備した教師データTDを取得する(工程S11)。すなわち、生成装置40は、複数の学習用の入力画像IC1、IC2、IC3と、学習用の入力画像IC2から特徴を抽出した学習用の特徴抽出画像ID2と、を取得する。
【0033】
また、生成装置40は、本実施形態では、学習用の入力画像IC1から特徴を抽出した前処理用の特徴抽出画像ID1と、学習用の入力画像IC3から特徴を抽出した前処理用の特徴抽出画像ID3と、を更に取得する。前処理用の特徴抽出画像ID1、ID3では、学習用の特徴抽出画像ID2と同様に、溶融池31の輪郭を線R5として抽出し、キーホール32の輪郭を線R6として抽出し、第1面21aを線R7として抽出し、第2面22aを線R8として抽出した画像であり、使用者によって予め準備される。前処理用の特徴抽出画像ID1、ID3は、学習用の特徴抽出画像ID2と同様に、作成者が、学習用の入力画像IC1、IC3において溶融池31の輪郭、キーホール32の輪郭、第1面21a、及び第2面22aとして認定した部分を線でなぞり、なぞった線を抽出することによって作成される。
【0034】
図7は、本実施形態に係る学習モデルの生成方法のうち、学習用の入力画像の前処理方法を示す図である。
次に、生成装置40は、学習用の入力画像IC1、IC2、IC3を前処理する(工程S12)。
【0035】
具体的には、生成装置40は、前処理用の特徴抽出画像ID1を用いて、線R5、R6、R7、R8及び線R5、R6、R7、R8の周囲を構成するピクセルの値をゼロとし、それ以外のピクセルの値を1とした第1マスクM1を作成する。以下では、画像をマトリクスとしても捉え、ピクセルを「要素」ともいう。また、生成装置40は、前処理用の特徴抽出画像ID1において線R5、R6、R7、R8及び線R5、R6、R7、R8の周囲を構成する要素の値を1とし、それ以外の要素の値が0である第2マスクM2を作成する。なお、
図7では説明をわかりやすくするために、第1マスクM1及び第2マスクM2において値がゼロの要素は黒色で示し、値が1の要素は白色で示している。
【0036】
次に、生成装置40は、学習用の入力画像IC1と第1マスクM1の要素同士を掛け合せる。ここで「要素同士をかけ合わせる」とは、学習用の入力画像IC1及び第1マスクM1等の2つのマトリクスにおいて、一方のマトリクスのi行目かつj列目の要素と他方のマトリクスのi行目かつj列目の要素とを掛け合わせる処理を、全ての要素について行うことを意味する。これにより、学習用の入力画像IC1のうち、特徴及び特徴の周囲を除去した画像M4が作成される。
【0037】
また、生成装置40は、平滑化フィルタ、ガウシアンフィルタ、又はメジアンフィルタ等のフィルタを学習用の入力画像IC1に適用することにより、学習用の入力画像IC1の全体をぼかした画像M3を作成する。「ぼかす」とは、画像中の階調の変化を低減する処理を意味する。そして、生成装置40は、全体をぼかした画像M3と第2マスクM2の要素同士を掛け合わせる。これにより、全体をぼかした画像M3のうち特徴及び特徴の周囲の領域を取り出した画像M5が作成される。
【0038】
次に、生成装置40は、学習用の入力画像IC1と第1マスクM1を掛け合わせた画像M4と、全体をぼかした画像M3と第2マスクM2を掛け合わせた画像M5と、の要素同士を足し合わせる。ここで「要素同士を足し合わせる」とは、2つのマトリクスにおいて、一方のマトリクスのi行目かつj列目の要素と他方のマトリクスのi行目かつj列目の要素とを足し合わせる処理を、全ての要素について行うことを意味する。これにより、前処理済み画像IM1が作成される。
【0039】
以上のような処理を行うことで、学習用の入力画像IC1の特徴及びその周囲をぼかし、他の領域をぼかさない前処理済み画像IM1を取得することができる。生成装置40は、同様の処理を学習用の入力画像IC2についても行い、学習用の入力画像IC2の前処理済み画像IM2を作成する。また、生成装置40は、同様の処理を学習用の入力画像IC3についても行い、学習用の入力画像IC3の前処理済み画像IM3を作成する。
【0040】
工程S12において、複数の学習用の入力画像IC1、IC2、IC3をぼかす程度は、同一であってもよいし、相互に異なっていてもよい。各学習用の入力画像IC1、IC2、IC3をぼかす程度は、例えば平滑化フィルタ、ガウシアンフィルタ、又はメジアンフィルタ等のフィルタを適用する際の重みづけの値により調整できる。複数の前処理済み画像IM1、IM2、IM3においてぼかしの程度が相互に異なる場合、複数の前処理済み画像IM1、IM2、IM3のうちぼかしの程度が最大の前処理済み画像で特徴の抽出ができるように学習モデル200の学習が進む。
【0041】
ただし、各学習用の入力画像の全体をぼかした画像を前処理済み画像とし、後述する学習モデルの入力層に入力してもよい。また、前処理は行わない学習用の入力画像を入力層に入力してもよい。
【0042】
図8は、本実施形態に係る学習モデルの生成器を示す図である。
次に、生成装置40は、複数の前処理済み画像IM1、IM2、IM3と、学習用の特徴抽出画像ID2と、を用いて学習モデル200を学習させる(工程S13)。
【0043】
生成器210には、本実施形態では、U-NETが用いられている。具体的には、生成器210は、本実施形態では、入力層211、第1中間層212a、第2中間層212b、第3中間層212c、第4中間層213a、第5中間層213b、第6中間層213c、及び出力層214を含む。なお、
図8では、中間層212a、212b、212c、213a、213b、213cの数が6つである例を示しているが、中間層の数は上記に限定されない。
【0044】
図9(a)は、本実施形態に係る学習モデルにおける入力層の処理を示す図であり、
図9(b)は、入力層におけるコンボリューションの方法を示す図である。
以下では、説明をわかりやすくするために、画像やフィルタ等のマトリクスにおいて、一つの行内において要素が並ぶ方向を「横方向x」といい、一つの列内において要素が並ぶ方向を「縦方向y」という。
【0045】
複数の前処理済み画像IM1、IM2、IM3は、一組のデータとして入力層211に入力される。入力層211では、一組の前処理済み画像IM1、IM2、IM3がコンボリューションされる。以下では、入力層211においてb個のフィルタF11、F12~F1bでコンボリューションが行われ、各フィルタF11~F1bのカーネルサイズがn1×n1である例を説明する。
【0046】
先ず、生成装置40は、前処理済み画像IM1においてフィルタF11と同じサイズの領域A1を抽出する。次に、生成装置40は、抽出した領域A1のi行目j列目の要素im1(i,j)と、フィルタF11のi行目j列目の要素f1(i,j)と、を掛け合わせた値r1(i,j)を算出する。生成装置40は、同様の処理を、領域A1内の全ての要素im1(i,j)について行う。次に、生成装置40は、領域A1について算出された全ての値r1(i,j)を足し合わせた値c1(p,q)を算出する。
【0047】
同様に、生成装置40は、前処理済み画像IM2においてフィルタF11と同じサイズであって、領域A1と同様の位置に位置する領域A2を抽出する。次に、生成装置40は、抽出した領域A2のi行目j列目の要素im2(i,j)と、フィルタF11のi行目j列目の要素f1(i,j)と、を掛け合わせた値r2(i,j)を算出する。生成装置40は、同様の処理を、領域A2内の全ての要素im2(i,j)について行う。次に、生成装置40は、領域A2について算出された全ての値r2(i,j)を足し合わせた値c2(p,q)を算出する。
【0048】
同様に、生成装置40は、前処理済み画像IM3においてフィルタF11と同じサイズであって、領域A1と同様の位置に位置する領域A3を抽出する。次に、生成装置40は、抽出した領域A3のi行目j列目の要素im3(i,j)と、フィルタF11のi行目j列目の要素f1(i,j)と、を掛け合わせた値r3(i,j)を算出する。生成装置40は、同様の処理を領域A3内の全ての要素im3(i,j)について行う。次に、生成装置40は、領域A3について算出された全ての値r3(i,j)を足し合わせた値c3(p,q)を算出する。
【0049】
次に、生成装置40は、算出した値c1(p,q)、c2(p,q)、c3(p,q)を足し合わせた値cs(p,q)を算出する。
【0050】
次に、生成装置40は、各前処理済み画像IM1、IM2、IM3に対してフィルタF11を適用する領域A1、A2、A3を横方向xに順次シフトさせて、同様に値cs(p,q)を算出する。領域A1、A2、A3を各前処理済み画像IM1、IM2、IM3の最後の行までシフトさせたら、最初の行に戻すとともに各領域A1、A2、A3を縦方向yにシフトさせ、同様の処理を行う。以上の処理を、各領域A1、A2、A3が、各前処理済み画像IM1、IM2、IM3の最後の行及び最後の列に属する要素上にシフトするまで繰り返す。
【0051】
なお、本実施形態では、入力層211において、各領域A1、A2、A3を横方向x又は縦方向yに1要素ずつシフトさせる。すなわち、ストライドは1である。各領域A1、A2、A3をシフトさせた際に、各領域A1、A2、A3が、前処理済み画像IM1、IM2、IM3からはみ出す場合は、各領域A1、A2、A3においてはみ出した部分の要素の値をゼロとするゼロパディングを行う。ただし、各領域A1、A2、A3を、2以上の要素毎にシフトさせてもよい。すなわち、ストライドは2以上であってもよい。
【0052】
以上により、
図9(a)に示すように、p行目かつq列目の要素が値cs(p、q)である第1特徴マップP11が作成される。上述したように、本実施形態では、領域A1、A2、A3は横方向x及び縦方向yに1要素ずつシフトさせる。そのため、第1特徴マップP11のサイズは、各前処理済み画像IM1、IM2、IM3のサイズと同じである。
【0053】
次に、フィルタF12~F1bについても、フィルタF11と同様の処理を行う。これにより、複数の第1特徴マップP12~P1bが作成される。このように、入力層211では、3枚の前処理済み画像IM1、IM2、IM3が一組のデータとしてコンボリューションされる。
【0054】
図10は、複数の学習用の入力画像において溶融池の輪郭の位置が相互に異なることを示す図である。
図10では、学習用の入力画像IC1の溶融池31の輪郭の位置を線R5aで示し、学習用の入力画像
IC2の溶融池31の輪郭の位置を線R5bで示し、学習用の入力画像IC3の溶融池31の輪郭の位置を線R5cで示している。
複数の学習用の入力画像IC1、IC2、IC3は、特徴の位置が相互に異なり、複数の学習用の入力画像IC1、IC2、IC3の特徴の位置の変化量Δx、Δyが各フィルタF11~F1bのカーネルサイズn1よりも小さいものを使用する。
【0055】
例えば、第1被溶接部材21及び第2被溶接部材22のある領域にレーザ光Lが連続的に照射された場合、溶融池31は徐々に広がる。この際、撮影装置15により溶接個所の動画を撮影した場合、動画を構成する画像において、溶融池31の輪郭の位置は相互に異なる。
【0056】
本実施形態では、動画を構成する画像のうち、溶融池31の輪郭の位置の横方向xの最大の変化量Δx、及び、溶融池31の輪郭の位置の縦方向yの最大の変化量Δyが、各フィルタF11~F1bのカーネルサイズn1よりも小さくなるような画像の組み合わせを、各学習用の入力画像IC1、IC2、IC3として選定する。このような選定が行えるように、撮影装置15が撮影を行う時間間隔、すなわちフレームレートは、複数の学習用の入力画像IC1、IC2、IC3の特徴の位置の変化量Δx、Δyが各フィルタF11~F1bのカーネルサイズn1よりも小さくなるように設定される。フレームレートが決まっている場合、複数の学習用の入力画像IC1、IC2、IC3の特徴の位置の変化量Δx、Δyが各フィルタF11~F1bのカーネルサイズn1よりも小さくなるように、カーネルサイズn1を小さくしてもよい。また、同様に、画角を大きくしてもよい。
【0057】
他の特徴であるキーホール32の輪郭、及び第1面21a、第2面22aについても、同様の要件を満たすように学習用の入力画像IC1、IC2、IC3を選定する。
【0058】
上記のように複数の学習用の入力画像IC1、IC2、IC3を選定することで、例えば、一の学習用の入力画像IC1においてフィルタF11と同じサイズの領域A1内に特徴が含まれていた場合、他の学習用の入力画像IC2、IC3においてフィルタF11と同じサイズの領域A2、A3についても特徴が含まれている可能性が高くなる。そのため、学習モデル200は、複数の学習用の入力画像IC1、IC2、IC3における特徴の位置の変化に関する情報を盛り込んで、複数の学習用の入力画像IC1、IC2、IC3から特徴の抽出画像IEを推定するように学習できる。これにより、一枚の画像では特徴の位置が抽出し難い場合でも、複数の画像の特徴の位置の変化から高精度に特徴の位置を捉えて抽出できる。その結果、学習モデル200に複数の制御用の入力画像IA1、IA2、IA3が入力された際の特徴の抽出精度を向上させることができる。
【0059】
なお、本実施形態では、複数の学習用の入力画像IC1、IC2、IC3の特徴の位置が時間の経過に基づくものである例を説明した。すなわち、本実施形態では、変化量Δx、Δyは時間の経過に起因して生じている。しかし、後述する他の実施形態のように、変化量は、時間の経過に起因して生じるものでなくてよい。
【0060】
図11(a)は、本実施形態に係る学習モデルにおける第1中間層の処理を示す図であり、
図11(b)は、本実施形態に係る学習モデルにおける第2中間層の処理を示す図であり、
図11(c)は、本実施形態に係る学習モデルにおける第3中間層の処理を示す図である。
次に、
図11(a)に示すように、入力層211において作成された複数の第1特徴マップP11~P1bを、第1中間層212aに入力する。
【0061】
第1中間層212aでは、複数の第1特徴マップP12~P1bが一組のデータとして、c個のフィルタF21、F22~F2cによりコンボリューションされる。なお、コンボリューションの具体的な方法は、コンボリューションされる画像において各フィルタF21~F2cと同サイズの領域を2以上の要素ごとにシフトさせている点を除き、入力層211におけるコンボリューションの方法と同様である。そのため、第1中間層212aにおけるコンボリューションの詳細な説明を省略する。
【0062】
第1中間層212aでは、複数の第1特徴マップP12~P1bがc個のフィルタF21~F2cでコンボリューションされることにより、複数の第2特徴マップP21、P22~P2cが作成される。本実施形態では、各第1特徴マップP11~P1bにおいて、各フィルタF21~F2cを適用する領域を2以上の要素ごとにシフトさせる。そのため、複数の第2特徴マップP21~P2cのサイズは、複数の第1特徴マップP12~P1bのサイズより小さくなる。
【0063】
次に、
図11(b)に示すように、第2中間層212bでは、複数の第2特徴マップP21~P2cが一組のデータとして、d個のフィルタF31、F32~F3dでコンボリューションされる。これにより、d個の第3特徴マップP31、P32~P3dが作成される。本実施形態では、各第2特徴マップP21~P2cにおいて、各フィルタF31~F3dを適用する領域を2以上の要素ごとにシフトさせる。そのため、複数の第3特徴マップP31~P3dのサイズは、複数の第2特徴マップP21~P2cのサイズより小さくなる。
【0064】
次に、
図11(c)に示すように、第3中間層212cでは、複数の第3特徴マップP31~P3dが一組のデータとして、e個のフィルタF41、F42~F4eでコンボリューションされる。これにより、e個の第4特徴マップP41、P42~P4eが作成される。本実施形態では、各第3特徴マップP31~P3dにおいて、各フィルタF41~F4eを適用する領域を2以上の要素ごとにシフトさせる。そのため、複数の第4特徴マップP41~P4eのサイズは、複数の第3特徴マップP31~P3dのサイズより小さくなる。
【0065】
また、本実施形態では、複数の学習用の入力画像IC1、IC2、IC3の特徴の位置の変化量Δx、Δyは、第1中間層212aの各フィルタF21~F2cのカーネルサイズn2、第2中間層212bの各フィルタF31~F3dのカーネルサイズn3、及び第3中間層212cの各フィルタF41~F4eのカーネルサイズn4よりも小さい。このため、複数の第1特徴マップP11~P1bに含まれる特徴の位置の変化に関する情報を、第1中間層212aから第3中間層212cに伝搬させ易い。
【0066】
図12(a)は、本実施形態に係る学習モデルの第4中間層の処理を示す図であり、
図12(b)は、本実施形態に係る学習モデルの第5中間層の処理を示す図であり、
図12(c)は、本実施形態に係る学習モデルの第6中間層の処理を示す図である。
次に、第3中間層212cが作成した複数の第4特徴マップP41~P4eが、第4中間層213aに入力される。第4中間層213aでは、複数の第4特徴マップP41~P4eが一組のデータとして、デコンボリューションされる。「デコンボリューション」とは、入力された特徴マップが、あるマップを何らかのフィルタでコンボリューションしたことによって作成されたと仮定し、入力された特徴マップに当該フィルタの転置行列に相当するフィルタをコンボリューションする処理である。
【0067】
具体的には、先ず、各第4特徴マップP41~P4eの横方向xのサイズ及び縦方向yのサイズを拡大した第1拡大マップK11、K12~K1eが作成される。各拡大マップK11~K1eは、各第4特徴マップP41~P4eに、値がゼロの要素を追加することにより作成される。次に、複数の第1拡大マップK11、K12、K13~K1eを一組のデータとして、f個のフィルタF51、F52~F5fをコンボリューションする。これにより、f個の第5特徴マップP51、P52~P5fが作成される。ここで、f個のフィルタF51、F52~F5fは、第4特徴マップP41~P4eがあるマップを何らかのフィルタでコンボリューションしたことによって作成されたと仮定した場合の、当該フィルタの転置行列に相当する。これにより、出力した複数の第5特徴マップP51~P5fのサイズを、入力された複数の第4特徴マップP41~P4eのサイズよりも大きくできる。
【0068】
次に、
図12(b)に示すように、第4中間層213aが作成した複数の第5特徴マップP51~
P5fと、第2中間層212bで作成された第3特徴マップP31~P3dが、第5中間層213bに入力される。第5中間層213bでは、複数の第5特徴マップP51~
P5fと、第3特徴マップP31~P3dと、が一組のデータとして、デコンボリューションされる。
【0069】
具体的には、第5中間層213bでは、複数の第5特徴マップP51~P5fの横方向xのサイズ及び縦方向yのサイズを拡大した第2拡大マップK21~K2fと、複数の第3特徴マップP31~P3dの横方向xのサイズ及び縦方向yのサイズを拡大した第3拡大マップK31~K3dと、が作成される。次に、複数の第2拡大マップK21~K2fと、第3拡大マップK31~K3dと、が一組のデータとして、g個のフィルタF61、F62~F6gでコンボリューションされる。これにより、g個の第6特徴マップP61、P62~P6gが作成される。出力した複数の第6特徴マップP61~P6gのサイズは、入力された複数の第5特徴マップP51~P5fのサイズよりも大きい。
【0070】
次に、
図12(c)に示すように、第5中間層213bが作成した複数の第6特徴マップP61~P6gと、第1中間層212aで作成された第2特徴マップP21~P2cが、第6中間層213cに入力される。第6中間層213cでは、複数の第6特徴マップP61~P6gと、第2特徴マップP21~P2cと、が一組のデータとして、デコンボリューションされる。
【0071】
具体的には、第6中間層213cでは、複数の第6特徴マップP61~P6gの横方向xのサイズ及び縦方向yのサイズを拡大した第4拡大マップK41~K4gと、複数の第2特徴マップP21~P2cの横方向xのサイズ及び縦方向yのサイズを拡大した第5拡大マップK51~K5cと、を作成する。次に、複数の第4拡大マップK41~K4gと、第5拡大マップK51~K5cと、が一組のデータとして、h個のフィルタF71、F72~F7hでコンボリューションされる。これにより、h個の第7特徴マップP71、P72~P7hが作成される。出力した複数の第7特徴マップP71~P7hのサイズは、入力された複数の第6特徴マップP61~P6gのサイズよりも大きい。
【0072】
本実施形態では、複数の学習用の入力画像IC1、IC2、IC3の特徴の位置の変化量Δx、Δyは、第4中間層213aの各フィルタF51~F5fのカーネルサイズn5、第5中間層213bの各フィルタF61~F6gのカーネルサイズn6、及び第6中間層213cの各フィルタF71~F7hのカーネルサイズn7よりも小さい。このため、複数の第4特徴マップP41~P4eに含まれる特徴の位置の変化に関する情報を、第4中間層213aから第6中間層213cに伝搬させ易い。
【0073】
図13は、本実施形態に係る学習モデルにおける出力層の処理を示す図である。
次に、
図13に示すように、出力層214では、複数の第7特徴マップP71~P7hが一組のデータとして、3個のフィルタF81、F82、F83でコンボリューションされる。これにより、3個の第8特徴マップP81、P82、P83が作成される。
【0074】
本実施形態では、複数の学習用の入力画像IC1、IC2、IC3の特徴の位置の変化量は、出力層214のフィルタF81~F83のカーネルサイズn8よりも小さい。そのため、学習モデル200は、複数の学習用の入力画像IC1、IC2、IC3における特徴の位置の変化を盛り込んで、複数の学習用の入力画像IC1、IC2、IC3から特徴の抽出画像IEを推定するように学習できる。
【0075】
なお、学習モデル200において、例えば、第1中間層212aのフィルタF21~F2cの数cは、入力層211のフィルタF11~F1bの数bよりも多い。また、第2中間層212bのフィルタF31~F3dの数dは、第1中間層212aのフィルタF21~F2cの数cよりも多い。また、第3中間層212cのフィルタF41~F4eの数eは、第2中間層212bのフィルタF31~F3dの数dよりも多い。また、第4中間層213aのフィルタF51~F5fの数fは、第3中間層212cのフィルタF41~F4eの数eと同じである。また、第5中間層213bのフィルタF61~F6gの数gは、第2中間層212bのフィルタF31~F3dの数dと同じである。また、第6中間層213cのフィルタF71~F7hの数hは、第1中間層212aのフィルタF21~F2cの数cと同じである。ただし、b~hの大小関係は、上記に限定されない。
【0076】
また、学習モデル200において、例えば、入力層211のカーネルサイズn1は、出力層214のカーネルサイズn8と同じである。また、例えば、中間層212a、212b、212c、213a、213b、213cのカーネルサイズn2~n7は、同じであり、入力層211のカーネルサイズn1よりも大きい。ただし、カーネルサイズn1~n8の大小関係は、上記に限定されない。
【0077】
図14は、本実施形態に係る学習モデルの生成器が出力する特徴抽出画像を示す図である。
第8特徴マップP81では、溶融池31の輪郭と推定された部分が線R9として抽出される。第8特徴マップP82では、キーホール32の輪郭と推定された部分が線R10として抽出される。第8特徴マップP83では、第1面21aと推定された部分が線R11として抽出され、第2面22aと推定された部分が線R12として抽出される。3個の第8特徴マップP81、P82、P83の組み合わせが、複数の学習用の入力画像IC1、IC2、IC3から推定される特徴の抽出画像IEに相当する。
【0078】
次に、識別器220には、学習用の入力画像IC2と学習用の特徴抽出画像ID2とのペアと、学習用の入力画像IC2と生成器210が出力した特徴抽出画像IEのペアと、が入力される。そして、識別器220は、どちらが本物のペアでどちらが偽物のペアかを識別する。生成器210は、識別器220が学習用の入力画像IC2と生成器210が出力した特徴抽出画像IEのペアを本物のペアと識別するように学習し、コンボリューションやデコンボリューションを行う際のフィルタの要素の値を定める。また、識別器220は、学習用の入力画像IC2と学習用の特徴抽出画像ID2とのペアが本物のペア、及び、学習用の入力画像IC2と生成器210が出力した特徴抽出画像IEのペアを偽物のペア、と識別するように学習する。生成器210の学習と識別器220の学習を同時に行うことで、両者の学習が進む。
【0079】
(溶接方法)
次に、本実施形態に係る学習モデル200を用いた溶接方法について説明する。
図15は、本実施形態に係る学習モデルを用いた溶接方法を示すフローチャートである。
以下の説明において、溶接中、制御部173は、溶接部11を制御して、ヘッド13からレーザ光Lを出射させるとともにヘッド13をX方向に徐々に移動させる。また、溶接中、制御部173は、撮影装置15を制御して、溶接中の溶接個所の動画Dを撮影させる。
【0080】
溶接が開始した場合、先ず、取得部171は、撮影装置15が撮影した溶接個所の動画Dを構成する画像のうち、最新の画像及びその直前の時刻に撮影された2枚の画像を、複数の制御用の入力画像IA1、IA2、IA3として取得する(工程S21)。撮影装置15のフレームレート及び画角は、本実施形態では、複数の制御用の入力画像IA1、IA2、IA3の特徴の位置の変化量が、入力層211のフィルタF11~F1bのカーネルサイズn1よりも小さくなるように設定されている。
【0081】
次に、画像処理部172は、記憶部174に記憶された学習モデル200を用いて3つの入力画像IA1、IA2、IA3から推定される特徴の抽出画像IBを出力する(工程S22)。
【0082】
次に、制御部173は、画像処理部172が出力した特徴抽出画像IBに基づき溶接部11を制御する(工程S23)。具体的には、制御部173は、制御用の特徴抽出画像IBからキーホール32のY方向における中心位置と、その前方の第1面21aと第2面22aとの隙間のY方向における中心位置と、のずれを算出し、ずれを解消するようにアーム14を制御する。また、制御部173は、制御用の特徴抽出画像IBにおける溶融池31の輪郭のY方向における位置が、第1面21a及び第2面22aよりも外側に位置し、かつ、一定の範囲に収まるように光源12の出力を制御する。
【0083】
次に、制御部173は、溶接が完了したか否かを判断する(工程S24)。溶接が完了したと判断した場合(工程S24:Yes)、制御部173は、レーザの出力をOFFにし、溶接を完了する。溶接が完了していないと判断した場合(工程S24:No)、再び工程S21~S24までの処理が行われる。
【0084】
次に、本実施形態の効果について説明する。
本実施形態に係る学習モデル200の生成方法は、複数の学習用の入力画像IC1、IC2、IC3と、複数の学習用の入力画像IC1、IC2、IC3のうちの一つから特徴を抽出した学習用の特徴抽出画像ID2と、を含む教師データTDを取得する工程と、複数の入力画像IA1、IA2、IA3から推定される特徴の抽出画像IBを出力する学習モデル200を、教師データTDを用いて学習させる工程と、を備える。学習モデル200は、コンボリューションを行う入力層211を含む。複数の学習用の入力画像IC1、IC2、IC3のそれぞれにおける特徴の位置は、相互に異なる。複数の学習用の入力画像IC1、IC2、IC3における特徴の位置の変化量Δx、Δyは、入力層211のフィルタF11~F1bのカーネルサイズn1よりも小さい。
【0085】
このような学習モデル200の生成方法においては、複数の学習用の入力画像IC1、IC2、IC3における特徴の位置の変化を盛り込んだ情報から複数の学習用の入力画像IC1、IC2、IC3から特徴の抽出画像IEを推定するように学習モデル200を学習させることができる。そのため、学習モデル200は、複数の入力画像IA1、IA2、IA3が入力された場合に、高精度で特徴を抽出することができる。
【0086】
また、学習モデル200は、コンボリューションを行う出力層214を含む。変化量Δx、Δyは、出力層214のフィルタF81、F82、F83のカーネルサイズn8よりも小さい。そのため、複数の学習用の入力画像IC1、IC2、IC3における特徴の位置の変化を盛り込んだ情報から複数の学習用の入力画像IC1、IC2、IC3から特徴の抽出画像IEを推定するように学習モデル200を学習させることができる。そのため、学習モデル200は、複数の入力画像IA1、IA2、IA3が入力された場合に、高精度で特徴を抽出することができる。
【0087】
また、学習モデル200は、コンボリューションを行う中間層212a、212b、212cを含む。変化量Δx、Δyは、中間層212a、212b、212cのフィルタF21~F2c、F31~F3d、F41~F4eのカーネルサイズn2、n3、n4よりも小さい。そのため、複数の学習用の入力画像IC1、IC2、IC3における特徴の位置の変化を盛り込んだ情報から複数の学習用の入力画像IC1、IC2、IC3から特徴の抽出画像IEを推定するように学習モデル200を学習させることができる。そのため、学習モデル200は、複数の入力画像IA1、IA2、IA3が入力された場合に、高精度で特徴を抽出することができる。
【0088】
また、学習モデル200は、デコンボリューションを行う中間層213a、213b、213cを含む。変化量Δx、Δyは、中間層213a、213b、213cのフィルタF51~F5f、F61~F6g、F7~F7hのカーネルサイズn5、n6、n7よりも小さい。そのため、複数の学習用の入力画像IC1、IC2、IC3における特徴の位置の変化を盛り込んだ情報から複数の学習用の入力画像IC1、IC2、IC3から特徴の抽出画像IEを推定するように学習モデル200を学習させることができる。そのため、学習モデル200は、複数の入力画像IA1、IA2、IA3が入力された場合に、高精度で特徴を抽出することができる。
【0089】
また、学習モデルには、U-NETが用いられている。すなわち、第5中間層213b及び第6中間層213c等のデコンボリューション層に、第1中間層212a及び第2中間層212b等が出力した特徴マップP21~2c、P31~3dが入力される。そのため、学習モデル200は、複数の入力画像IA1、IA2、IA3が入力された場合に、高い位置精度で特徴を抽出することができる。
【0090】
また、本実施形態に係る学習モデル200の生成方法は、学習させる工程の前に、複数の学習用の入力画像IC1、IC2、IC3の特徴をぼかした前処理済み画像を作成する工程を更に備える。学習させる工程において、前処理済み画像IM1、IM2、IM3を入力層211に入力する。そのため、特徴をぼかした厳しい条件でも特徴を抽出できるように学習モデル200を学習させることができる。
【0091】
また、前処理済み画像を作成する工程において、複数の学習用の入力画像IC1、IC2、IC3のうちの一の学習用の入力画像において特徴をぼかす程度は、複数の学習用の入力画像IC1、IC2、IC3のうちの他の学習用の入力画像において特徴をぼかす程度と異なる。そのため、特徴をぼかす程度が異なる場合にも、特徴を抽出できるように学習モデル200を学習させることができる。
【0092】
また、複数の学習用の入力画像IC1、IC2、IC3は、対象箇所に相当する溶接個所を撮影した動画を構成する画像である。そのため、特徴の位置が相互に異なる複数の学習用の入力画像IC1、IC2、IC3を容易に準備することができる。
【0093】
また、複数の学習用の入力画像IC1、IC2、IC3のうちの一つの学習用の入力画像は、他の学習用の入力画像の直前又は直後の時刻に撮影された画像である。そのため、特徴の位置の変化量Δx、ΔyがフィルタF11~F1bのカーネルサイズn1よりも小さい複数の学習用の入力画像IC1、IC2、IC3を容易に準備することができる。
【0094】
また、複数の学習用の入力画像IC1、IC2、IC3は、溶接時に溶接個所を撮影した画像であり、特徴は、溶融池31の輪郭の少なくとも一部、キーホール32の輪郭の少なくとも一部、又は被溶接部材21、22の輪郭の少なくとも一部である。そのため、溶接に関連する特徴を高精度で抽出することができる。
【0095】
また、本実施形態に係る学習済みモデル200は、コンボリューションを行う入力層211を含み、複数の学習用の入力画像IC1、IC2、IC3と、複数の学習用の入力画像IC1、IC2、IC3のうちの一つから特徴を抽出した学習用の特徴抽出画像ID2と、を含む教師データTDを用いて学習済みである。複数の学習用の入力画像IC1、IC2、IC3、の特徴の位置は、相互に異なり、複数の学習用の入力画像IC1、IC2、IC3における特徴の位置の変化量Δx、Δyが、入力層211のフィルタF11~F1bのカーネルサイズn1よりも小さい。そして、学習済みモデル200は、コンピュータに、複数の入力画像IA1、IA2、IA3から推定される特徴の抽出画像IBを出力させる。そのため、複数の入力画像IA1、IA2、IA3が入力された場合に、高精度で特徴を抽出することができる学習済みモデル200を提供できる。
【0096】
また、本実施形態に係る画像処理方法は、複数の入力画像IA1、IA2、IA3を取得する工程と、学習済みモデル200を用いて、複数の入力画像IA1、IA2、IA3から推定される特徴の抽出画像IBを出力する工程と、を備える。そのため、複数の入力画像IA1、IA2、IA3が入力された場合に、高精度で特徴を抽出することができる画像処理方法を提供できる。
【0097】
また、複数の入力画像IA1、IA2、IA3における特徴の位置の変化量は、入力層211のフィルタF11~F1bのカーネルサイズn1よりも小さい。そのため、複数の入力画像IA1、IA2、IA3が入力された場合に、高精度で特徴を抽出することができる。
【0098】
また、本実施形態に係る画像処理システムは、学習済みモデル200を用いて、複数の入力画像IA1、IA2、IA3から推定される溶接の特徴の抽出画像IBを出力する画像処理部172を備える。そのため、複数の入力画像IA1、IA2、IA3が入力された場合に、高精度で特徴を抽出することができる画像処理システムを提供できる。
【0099】
また、本実施形態に係る溶接システム10は、複数の被溶接部材21、22を溶接する溶接部11と、複数の被溶接部材21、22の溶接個所を撮影する撮影装置15と、学習モデル200を用いて撮影装置15が撮影した複数の画像から推定される溶接の特徴の抽出画像IBを出力する画像処理部172と、画像処理部172が出力した特徴抽出画像IBに基づき、溶接装置を制御する制御部173と、を備える。そのため、複数の入力画像IA1、IA2、IA3に基づいて特徴抽出画像IBを作成し、溶接作業を高精度に制御できる溶接システム10を提供できる。
【0100】
<第2の実施形態>
次に、第2の実施形態について説明する。
図16は、本実施形態に係る溶接システムの一部を示す図である。
なお、以下の説明においては、原則として、第1の実施形態との相違点のみを説明する。以下に説明する事項以外は、第1の実施形態と同様である。
【0101】
第1の実施形態では、撮影装置15が撮影した動画Dを構成する画像を、制御用の入力画像IA1、IA2、IA3及び学習用の入力画像IC1、IC2、IC3として用いる例を説明した。これに対して、本実施形態では、溶接システム310は、波長、偏光、又は露光時間が異なる複数の画像を取得可能な撮影装置315を備える。波長、偏光、又は露光時間が異なる複数の画像においては、特徴の位置が相互に異なる場合がある。そして、撮影装置315が撮影した波長、偏光、又は露光時間の異なる複数の画像を、制御用の入力画像IA1、IA2、IA3及び学習用の入力画像IC1、IC2、IC3として用いてもよい。
【0102】
撮影装置315には、相互に異なる波長の光を透過可能なフィルタが内蔵されており、撮影装置315は、各フィルタに対応した画像を取得してもよい。この場合において、一つの照明装置16が、波長が相互に異なる複数の光を出射してもよいし、波長が相互に異なる複数の光を含む広い帯域の光を出射してもよいし、複数の照明装置16を設け、複数の照明装置16が、波長が相互に異なる光を出射してもよい。また、撮影装置315には、偏光方向が相互に異なる光を透過可能な偏光子が内蔵されており、撮影装置315は、各偏光子に対応した画像を取得してもよい。また、撮影装置315は、無偏光画像と、偏光画像を取得してもよい。これらの場合において、一つの照明装置16が、偏光方向が相互に異なる複数の光を出射してもよいし、複数の照明装置16を設け、複数の照明装置16が、偏光方向が相互に異なる光を出射してもよい。また、撮影装置315には、露光時間が相互に異なる画像を取得可能なシャッターが内蔵されており、撮影装置315は、各露光時間に対応した画像を取得してもよい。
【0103】
このような場合、学習用の入力画像IC1、IC2、IC3の特徴の位置の変化量が入力層211の複数のフィルタF11~F1bのカーネルサイズn1よりも小さくなるように、複数の撮影装置の波長又は偏光が設定される。
【0104】
<第3の実施形態>
次に、第3の実施形態について説明する。
図17は、本実施形態に係る溶接システムの一部を示す図である。
本実施形態では、溶接システム410は、複数の撮影装置415a、415b、415cを備え、複数の撮影装置415a、415b、415cは、相互に異なる位置から溶接個所を撮影する。そして、複数の撮影装置415a、415b、415cが撮影した画像を、制御用の入力画像IA1、IA2、IA3及び学習用の入力画像IC1、IC2、IC3として用いてもよい。
【0105】
このような場合、学習用の入力画像IC1、IC2、IC3の特徴の位置の変化量が入力層211の複数のフィルタF11~F1bのカーネルサイズn1よりも小さくなるように、複数の撮影装置415a、415b、415cの位置が調整される。
【0106】
<第4の実施形態>
次に、第4の実施形態について説明する。
図18は、本実施形態に係る溶接システムの一部を示す図である。
本実施形態では、溶接システム510は、複数の撮影装置515a、515b、515cを備え、複数の撮影装置515a、515b、515cは、撮影角度が相互に異なる。そして、複数の撮影装置515a、515b、515cが撮影した画像を、制御用の入力画像IA1、IA2、IA3及び学習用の入力画像IC1、IC2、IC3として用いてもよい。
【0107】
このような場合、学習用の入力画像IC1、IC2、IC3の特徴の位置の変化量が入力層211の複数のフィルタF11~F1bのカーネルサイズn1よりも小さくなるように、複数の撮影装置515a、515b、515cの撮影角度が調整される。
【0108】
以上説明したように、複数の学習用の入力画像は、溶接箇所を撮影した際の撮影条件が相互に異なる画像である。撮影条件としては、特に限定されないが、上述したように、溶接箇所を撮影した際の時刻、光の偏光方向、撮影位置、撮影角度、光の波長、及び、露光時間等が挙げられる。複数の制御用の入力画像も、同様に、溶接箇所を撮影した際の撮影条件が相互に異なる画像である。なお、上記実施形態では、1つの撮影条件が異なる形態を説明したが、複数の撮影条件が異なっていてもよい。
【0109】
なお、上記実施形態では、撮影装置が、溶接中の溶接個所を撮影する形態を説明したが、溶接後の溶接個所を撮影してもよい。溶接後の溶接個所を撮影した場合、画像処理システムは、例えば溶接ビード等を特徴として抽出し、画像処理システムが出力した特徴抽出画像を溶接の精度の判定等に用いてもよい。
【0110】
また、上記実施形態では、溶接システムの制御装置により画像処理システムを実現する形態を説明した。ただし、画像処理システムを実現する装置は上記に限定されない。画像処理システムは、撮影装置に付属するエッジデバイスにより実現されてもよい。また、画像処理システムは、クラウドにアップされた画像を処理するコンピュータにより実現されてもよい。また、画像処理システムは、複数台のコンピュータにより実現されてもよい。
【0111】
また、画像処理システムは、溶接システム以外のシステムに適用されてもよい。
【0112】
以上、本発明の実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明及びその等価物の範囲に含まれる。
【符号の説明】
【0113】
10、310、410、510:溶接システム
11 :溶接部
12 :光源
13 :ヘッド
14 :アーム
15、315、415a、415b、415c、515a、515b、515c:撮影装置
16 :照明装置
17 :制御装置
17b :ROM
17c :RAM
17d :ハードディスク
17e :バス
21、22:被溶接部材
21a :第1面
22a :第2面
31 :溶融池
32 :キーホール
33 :溶接ビード
40 :生成装置
171 :取得部
172 :画像処理部
173 :制御部
174 :記憶部
200 :学習モデル
210 :生成器
211 :入力層
212a :第1中間層
212b :第2中間層
212c :第3中間層
213a :第4中間層
213b :第5中間層
213c :第6中間層
214 :出力層
220 :識別器
A1、A2、A3:領域
F11~F1b:フィルタ
F21~F2c:フィルタ
F31~F3d:フィルタ
F41~F4e:フィルタ
F51~F5f:フィルタ
F61~F6g:フィルタ
F71~F7h:フィルタ
F81~F83:フィルタ
IA1、IA2、IA3:複数の制御用の入力画像
IB :制御用の特徴抽出画像
IC1、IC2、IC3:複数の学習用の入力画像
ID2 :学習用の特徴抽出画像
ID1、ID3:前処理用の特徴抽出画像
IE :学習用の特徴抽出画像
IM1~IM3:前処理済み画像
K11~K1e:第1拡大マップ
K21~K2f:第2拡大マップ
K31~K3d:第3拡大マップ
K41~K4g:第4拡大マップ
K51~K5c:第5拡大マップ
L :レーザ光
M1 :第1マスク
M2 :第2マスク
M3 :全体をぼかした画像
P11~P1b:第1特徴マップ
P21~P2c:第2特徴マップ
P31~P3d:第3特徴マップ
P41~P4e:第4特徴マップ
P51~P5e:第5特徴マップ
P61~P6g:第6特徴マップ
P71~P7h:第7特徴マップ
P81~P83:第8特徴マップ
R1、R2~R12、R5a、R5b、R5c:線
TD :教師データ
f1 :要素
im1 :要素
im2 :要素
im3 :要素
n1~n8:カーネルサイズ
x :横方向
y :縦方向
Δx :変化量
Δy :変化量