(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-01
(45)【発行日】2024-03-11
(54)【発明の名称】ロボット塗装補修のための学習フレームワーク
(51)【国際特許分類】
G06Q 10/20 20230101AFI20240304BHJP
B05D 3/00 20060101ALI20240304BHJP
B05D 7/00 20060101ALI20240304BHJP
【FI】
G06Q10/20
B05D3/00 D
B05D7/00 N
(21)【出願番号】P 2021510844
(86)(22)【出願日】2019-08-21
(86)【国際出願番号】 IB2019057053
(87)【国際公開番号】W WO2020044178
(87)【国際公開日】2020-03-05
【審査請求日】2022-08-19
(32)【優先日】2018-08-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】505005049
【氏名又は名称】スリーエム イノベイティブ プロパティズ カンパニー
(74)【代理人】
【識別番号】100130339
【氏名又は名称】藤井 憲
(74)【代理人】
【識別番号】100110803
【氏名又は名称】赤澤 太朗
(74)【代理人】
【識別番号】100135909
【氏名又は名称】野村 和歌子
(74)【代理人】
【識別番号】100133042
【氏名又は名称】佃 誠玄
(74)【代理人】
【識別番号】100171701
【氏名又は名称】浅村 敬一
(72)【発明者】
【氏名】ヘムス,ブレット アール.
(72)【発明者】
【氏名】ヘンダーソン,ジョン ダブリュ.
(72)【発明者】
【氏名】ハーブスト,ネイサン ジェイ.
(72)【発明者】
【氏名】フローダー,スティーブン ピー.
(72)【発明者】
【氏名】アドルフ,ジェフェリー ピー.
【審査官】上田 威
(56)【参考文献】
【文献】特開平05-057592(JP,A)
【文献】特表2002-508071(JP,A)
【文献】米国特許出願公開第2003/0139836(US,A1)
【文献】特開平11-118730(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
B05D 3/00
B05D 7/00
(57)【特許請求の範囲】
【請求項1】
ロボット塗装補修を提供するコンピュータで実施される方法であって、
a)1つ以上のプロセッサによって、基材における識別された各欠陥の座標を各欠陥の特性と共に受信するステップと、
b)前記1つ以上のプロセッサによって、前記基材における識別された欠陥の座標を、ロボットコントローラモジュールがロボットマニピュレータを制御するのに必要な任意の追加のデータと共に前記ロボットコントローラモジュールに通信して、前記ロボットマニピュレータのエンドエフェクタを前記基材上の前記識別された欠陥に近接させるステップと、
c)前記1つ以上のプロセッサによって、前記欠陥の特性及び前記ロボットマニピュレータの少なくとも前記エンドエフェクタの現在の状態をポリシーサーバに提供するステップと、
d)前記1つ以上のプロセッサによって、以前に学習した制御ポリシーに基づいて前記ポリシーサーバから補修アクションを受信するステップと、
e)前記1つ以上のプロセッサによって、前記ロボットコントローラモジュール及びエンドエフェクタに命令を通信して、前記補修アクションを実施することにより、前記補修アクションを実行するステップと、を含
み、
前記1つ以上のプロセッサが前記補修アクションから得られる補修の品質に関する品質データを受信し、ロギング用に前記欠陥の前記特性及び前記品質データを前記ポリシーサーバに提供することを更に含み、
前記1つ以上のプロセッサが、特定の識別された欠陥及び後続の実行された補修の評価に基づいて、学習更新を行い、前記ポリシーサーバからの将来の補修アクションを改善する機械学習モジュールを実装することを更に含む、方法。
【請求項2】
前記補修アクションが、サンディングツールのRPMの設定値、適合力フランジの制御入力、前記ロボットマニピュレータの軌道、及び総処理時間のうちの少なくとも1つを含み、
前記ロボットマニピュレータの前記軌道が、前記1つ以上のプロセッサによって、補修される前記欠陥の起点からの経時変化位置オフセットとして前記ロボットマニピュレータに通信される、請求項1に記載の方法。
【請求項3】
前記1つ以上のプロセッサによって、エンドエフェクタセンサから局所的に収集されたin-situ検査データを含む各欠陥の特性を受信することを更に含む、請求項1に記載の方法。
【請求項4】
f)前記1つ以上のプロセッサによって、前記in-situデータを、縞模様投影、偏向測定、及びカメラを使用する拡散反射又は正常白色光の強度測定のうちの少なくとも1つを使用して学習更新を作成するように機械学習ユニットに提供するステップを更に含む、請求項3に記載の方法
。
【請求項5】
前記1つ以上のプロセッサが、前記補修アクションの実行中及び/又は実行後に収集されたセンサフィードバックを使用して、補修を良好又は不良として識別し、識別された欠陥のための補修アクションを開発する強化学習を実装することを更に含む、請求項
1に記載の方法。
【請求項6】
前記強化学習が、識別された欠陥の生画像データを補修アクションにマッピングすることと、前記補修アクションの品質に基づいて報酬を割り当てることと、前記報酬を最大化するポリシーを識別することと、によって実装される、請求項
5に記載の方法。
【請求項7】
前記強化学習が、マルコフ決定過程(MDP)に基づいて強化学習タスクとして実装される、請求項
6に記載の方法。
【請求項8】
前記MDPが、少なくとも初期状態、サンド済状態、ポリッシュ済状態、及び完了状態を使用してMDP遷移グラフに実装されたタスクを有する有限MDPであり、前記初期状態は、前記識別された欠陥をその元の未変更状態で含むように拡張され、前記サンド済状態及び前記ポリッシュ済状態は、それぞれ、sandingアクション及びpolishingアクションの後に発生し、前記完了状態は、前記補修
アクションの終了を示す、請求項
7に記載の方法。
【請求項9】
前記サンド済状態及びポリッシュ済状態が、エンドエフェクタセンサから局所的に収集されたin-situ検査データを含む、請求項
8に記載の方法。
【請求項10】
前記MDP遷移グラフに実装された前記タスクが、complete、tendDisc、sand、及びpolishのうちの少なくとも1つを含むアクションを含み、前記completeアクションは、処理を直ちに前記完了状態にし、tendDiscアクションは、前記ロボットマニピュレータに、前記エンドエフェクタ用の研磨ディスクを湿らせる、清掃する、又は交換するように信号を送り、前記sandアクション及び前記polishアクションは、前記エンドエフェクタのサンディングツールのRPM、印加圧力、滞留/処理時間、及び前記ロボットマニピュレータの補修軌道のうちの少なくとも1つを含むパラメータを使用して実装される、請求項
8に記載の方法。
【請求項11】
前記sandアクション及び前記polishアクションが、連続パラメータによる連続パラメータ関数である、請求項
10に記載の方法。
【請求項12】
前記MDP遷移グラフに実装された前記タスクが、単一のtendDiscアクション、続いて単一のsandingアクション、続いて単一のpolishingアクションを含む、請求項
10に記載の方法。
【請求項13】
前記欠陥の前記特性が未処理の生画像を含む、請求項1に記載の方法。
【請求項14】
前記学習された制御ポリシーが、研磨利用データを使用して、残りの研磨寿命に基づく決定を可能にする、請求項1に記載の方法。
【請求項15】
物理的にシミュレートされた欠陥を使用して前記学習された制御ポリシーを見つけることを更に含む、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、塗装適用(例えば、プライマーサンディング、クリアコート欠陥除去、クリアコートポリッシングなど)のための欠陥固有の自動補修を学習及び実行するためのフレームワークを対象とする。開示された技術は、検査、分類、及びポリシーの最適化のための最新の機械学習方法を使用して、ドメインに固有の処理ノウハウの生成及び利用を自動化する。
【背景技術】
【0002】
クリアコート補修は、自動車の相手先商標製品製造(OEM)セクタで自動化される最後の動作のうちの1つである。この処理並びに研磨剤及び/又はロボット検査及び補修での使用に適している他の塗装適用(例えば、プライマーサンディング、クリアコート欠陥除去、クリアコートポリッシングなど)を自動化するための技術が所望される。加えて、この問題は、アフターマーケットセクタにおいて解決されていない。
【0003】
塗装欠陥の検出及び補修を自動化するための以前の取り組みとしては、米国特許出願公開第2003/0139836号に記載されたシステムが挙げられ、これは、車両本体上の塗装欠陥を検出及び補修するための電子画像の使用について開示している。本システムは、車両のCADデータに対する車両画像データを参照して、各塗装欠陥について三次元の塗装欠陥座標を構築する。塗装欠陥データ及び塗装欠陥座標を使用して、塗装欠陥をサンディング及びポリッシングすることを含む様々なタスクを実行する複数の自動ロボットを使用して、自動補修の補修戦略を策定する。補修戦略は、経路及び処理パラメータ、ツール、並びにロボットの選択を含む。力フィードバックセンサを使用して、補修処理を制御することができる。追加のタスクとしては、ロボット経路及びツーリングパラメータを生成することと、品質データロギングを実行することと、エラー報告とが挙げられる。しかしながら、補修処理の詳細は提供されない。また、本システムは、欠陥の識別を支援するために、又は欠陥を補正するための最適な処理を決定するために、パターンマッチング又は機械学習技術を適用しない。
【0004】
米国特許出願公開第2017/0277979号は、車両検査システムにおけるパターン分類子を使用して、固定位置で鏡面上に光を照射し、固定カメラを用いて反射光を測定することによって生成された画像から欠陥を識別することについて開示している。パターン分類子は、画像を使用して車両モデル及び色の画像トレーニングセットを構築することによって、欠陥検出結果を改善するように訓練される。トレーニングセット内の画像は、どの画像及びどのピクセルが欠陥を有するかを識別するために人間又は機械によって審査される。しかしながら、識別された欠陥を補正するための自動化された技術は開示されていない。
【0005】
米国特許第9,811,057号は、機械学習を使用して、モータの動作状態及びモータの故障の有無に関するデータを検出するセンサの出力データを含む状態変数を観察することによって、モータの寿命を予測することについて開示している。学習ユニットは、状態変数とモータの測定された実際の寿命との組み合わせに基づいて作成された訓練データセットに従って、モータの予測される寿命に関連する状態を学習する。
【0006】
出願人は、自動化された方法で塗装欠陥を識別し、補修するための機械学習技術の適用を発見することができていない。また、先行技術のシステムは、顧客によって使用される自動化された処理のばらつきを考慮して、塗装欠陥を検査及び補正することはない。このような処理を自動化するための改良された技術が所望される。
【発明の概要】
【0007】
ここで、発明を実施するための形態において以下に更に記載される簡略化された形態の概念の選択を紹介するために、様々な実施例が記載される。要約は、特許請求される主題の重要な又は必須の特徴を識別することを意図するものではなく、特許請求される主題の範囲を制限するために使用されることを意図するものでもない。
【0008】
本明細書に記載されるシステム及び方法は、新たな処理を学習する能力及び/又は顧客の処理のずれに適応する能力と共に、部分ごとの形状及び検査/フィードバックに基づいて、ドメイン及び問題固有の最適処理を提供して、ロボット研磨処理の問題に対処する。本明細書に記載されるシステム及び方法は、従来の適用工学技術のデジタル化として機能し、これは、顧客及び研磨剤製造業者のドメインに固有の知識を保護する方法で、研磨剤が、顧客のアプリケーション及び研磨剤製造業者の特定の研磨剤製品の両方に合わせた費用対効果の高い最適な解決策を提供することによって、消費されるように革新することを意味する。プライマー、塗装、及びクリアコートの補修を含むロボット塗装補修を提供するために記載されているが、本明細書に記載される技術は、それ自体が、塗装補修以外の他の工業用途に役立つことが理解されるであろう。
【0009】
本明細書に記載されるようなロボット塗装補修を提供するコンピュータで実施される方法のサンプルの実施形態は、基材における識別された各欠陥の座標を各欠陥の特性と共に受信するステップと、基材における識別された欠陥の座標を、ロボットコントローラモジュールがロボットマニピュレータを制御するのに必要な任意の追加のデータと共にロボットコントローラモジュールに通信して、ロボットマニピュレータのエンドエフェクタを基材上の識別された欠陥に近接させるステップと、欠陥の特性及びロボットマニピュレータの少なくともエンドエフェクタの現在の状態をポリシーサーバに提供するステップと、以前に学習した制御ポリシーに基づいてポリシーサーバから補修アクションを受信するステップと、ロボットコントローラモジュール及びエンドエフェクタに命令を通信して、補修アクションを実施することにより、補修アクションを実行するステップと、を含む。サンプルの実施形態では、補修アクションは、サンディングツールのRPMの設定値、適合力フランジの制御入力、ロボットマニピュレータの軌道、及び総処理時間のうちの少なくとも1つを含む。補修アクションは、識別された欠陥の場所において基材をサンディングすることと、識別された欠陥の場所において基材をポリッシング又はバフ研磨することとを含んでもよい。
【0010】
サンプルの実施形態では、ロボットマニピュレータの軌道は、補修される欠陥の起点からの経時変化位置オフセットとしてロボットマニピュレータに通信される。処理デバイスはまた、エンドエフェクタセンサから局所的に収集されたin-situ検査データを含む各欠陥の特性も受信する。そのような場合、本方法は、in-situデータを、縞模様投影、偏向測定、及びカメラを使用する拡散反射又は正常白色光の強度測定のうちの少なくとも1つを使用して学習更新を作成するように機械学習ユニットに提供するステップを更に含む。サンプルの実施形態では、欠陥の特性及びエンドエフェクタの現在の状態をポリシーサーバに提供するステップからin-situ検査データを提供するステップまでを、識別された欠陥が十分に補修されるまで繰り返す。
【0011】
他の実施形態では、処理デバイスは、補修アクションから得られる補修の品質に関する品質データを更に受信し、ロギング用に欠陥の特性及び品質データをポリシーサーバに提供する。欠陥の特性はまた、未処理の生画像を含んでもよい。
【0012】
更に他の実施形態では、処理デバイスは、特定の識別された欠陥及び後続の実行された補修の評価に基づいて、学習更新を行い、ポリシーサーバからの将来の補修アクションを改善する機械学習モジュールを実装する。処理デバイスはまた、補修アクションの実行中及び/又は実行後に収集されたセンサフィードバックを使用して、補修を良好又は不良として識別し、識別された欠陥のための補修アクションを開発する強化学習を実装してもよい。強化学習は、識別された欠陥の生画像を補修アクションにマッピングすることと、補修アクションの品質に基づいて報酬を割り当てることと、報酬を最大化するポリシーを識別することと、によって実装される。代替実施形態では、本方法は、物理的にシミュレートされた欠陥を使用して学習された制御ポリシーを見つけることを更に含んでもよい。学習された制御ポリシーはまた、研磨利用データを使用して、残りの研磨寿命に基づく決定を可能にすることができる。
【0013】
強化学習はまた、マルコフ決定過程(MDP)に基づいて強化学習タスクとしても実装され得る。MDPは、少なくとも初期状態、サンド済状態、ポリッシュ済状態、及び完了状態を使用してMDP遷移グラフに実装されたタスクを有する有限MDPであり得、初期状態は、識別された欠陥をその元の未変更状態で含むように拡張され、サンド済状態及びポリッシュ済状態は、それぞれ、sandingアクション及びpolishingアクションの後に発生し、完了状態は、補修処理の終了を示す。任意選択的な構成では、サンド済状態及びポリッシュ済状態は、エンドエフェクタセンサから局所的に収集されたin-situ検査データを含む。
【0014】
更に他の実施形態では、MDP遷移グラフに実装されたタスクは、complete、tendDisc、sand、及びpolishのうちの少なくとも1つを含むアクションを含み、completeアクションは、処理を直ちに完了状態にし、tendDiscアクションは、ロボットマニピュレータに、エンドエフェクタ用の研磨ディスクを湿らせる、清掃する、又は交換するように信号を送り、sandアクション及びpolishアクションは、エンドエフェクタのサンディングツールのRPM、印加圧力、滞留/処理時間、及びロボットマニピュレータの補修軌道のうちの少なくとも1つを含むパラメータを使用して実装される。sandアクション及びpolishアクションは、連続パラメータによる連続パラメータ関数であり得る。MDP遷移グラフに実装されたタスクは、単一のtendDiscアクション、続いて単一のsandingアクション、続いて単一のpolishingアクションを更に含み得る。
【0015】
本方法は、ロボット塗装補修システムによって実施される。サンプルの実施形態では、ロボット補修システムは、基材のサンディング及びポリッシングのうちの少なくとも1つを行う、サンディング要素及びポリッシング要素のうちの少なくとも1つを含むエンドエフェクタを制御するロボットマニピュレータと、ロボットマニピュレータの動き及び動作を制御するロボットコントローラモジュールと、識別された欠陥を1つ以上の補修アクションに関連させる現在の学習されたポリシーを維持し、状態及び観察クエリに基づいて制御出力を提供するポリシーサーバと、制御ユニットと、を含む。制御ユニットは、命令を処理する1つ以上のプロセッサを有し、この命令は、基材における識別された各欠陥の座標を各欠陥の特性と共に受信するステップと、基材における識別された欠陥の座標を、ロボットコントローラモジュールがロボットマニピュレータを制御するのに必要な任意の追加のデータと共にロボットコントローラモジュールに通信して、エンドエフェクタを基材上の識別された欠陥に近接させるステップと、欠陥特性及び以前に学習した制御ポリシーに基づいて、ポリシーサーバから補修アクションを受信するステップと、欠陥の特性及びロボットマニピュレータの少なくともエンドエフェクタの現在の状態をポリシーサーバに提供するステップと、ロボットコントローラモジュール及びエンドエフェクタに命令を通信して、補修アクションを実施することにより、補修アクションを実行するステップと、を実装する。制御ユニットは、本明細書に記載される方法の他のステップを実施するための命令を更に含む。
【0016】
前述の例のうちのいずれか1つは、本開示の範囲内で新しい実施形態を作成するために、他の前述の例のうちの任意の1つ以上と組み合わせることができる。
【図面の簡単な説明】
【0017】
図面は必ずしも原寸に比例して描かれていないが、図面における同様の符号は、異なる図における類似の構成要素を記述し得る。図面は、例示的ではあるが限定的ではなく、本明細書で論じられる様々な実施形態を全般的に示す。
【
図1】OEM及びアフターマーケット用途のためのロボット塗装補修を示す図である。
【
図2】ロボット塗装補修スタックのコンポーネントの分解を概略的に示す図である。
【
図3】サンプルの実施形態による、学習コンポーネント及びクラウドベースの処理計画及び最適化を含むロボット塗装補修を示す図である。
【
図4】サンプルの実施形態におけるロボット塗装補修のためのサンプルの実施形態のサンプル処理フローである。
【
図5】サンプル実施形態における強化学習に好適なサンディング及びポリッシング処理のマルコフ決定過程(MDP)遷移グラフである。
【
図6】更なるサンプル実施形態における強化学習に好適なサンディング及びポリッシング処理の簡略化されたMDP遷移グラフである。
【
図7】クリアコートの下に特定のサイズの合成汚れを導入することによって生じる欠陥が、天井光反射の境界で最も可視である高密度欠陥学習基材を示す図である。
【
図8】サンプルポリッシングパターンを示す図である。
【
図9】ポリッシングパターンの高効率ネスティングの例を示す図である。
【
図10】製造業者によって提供された、Micro-Epsilon反射制御塗装欠陥画像である。
【
図11】4つの偏向された垂直縞模様、及び4つの偏向された水平縞模様を各々、π/2の倍数だけシフトさせた8つの画像である。
【
図12】後続の位相アンラッピングを伴う4つの偏向された縞模様にわたるピクセルの弧正接を使用して計算された水平及び垂直の曲率マップである。
【
図13】強度マップ及びメッシュグリッドの両方として可視化された水平及び垂直の結果の両方を組み合わせる複合(正方形の合計の平方根)局所曲率マップである。
【
図14】近暗視野反射画像のサンプルを示す図である。
【
図15】サンプル実施形態に記載されるシステムの1つ以上の実施形態を実装するのに好適な専用コンピュータにプログラムされ得る汎用コンピュータを示す図である。
【発明を実施するための形態】
【0018】
1つ以上の実施形態の例示的な実装形態が以下に提供されるが、
図1~
図15に関連して説明された開示されたシステム及び/又は方法は、現在知られているか又は存在しているかどうかにかかわらず、任意の数の技術を使用して実装されてもよいことを最初に理解されたい。本開示は、本明細書に例示及び説明される例示的な設計及び実装形態を含む、以下に例示される例示的な実装形態、図面、及び技術に限定されるべきではなく、添付の特許請求の範囲内で、それらの同等物の全範囲と共に修正されてもよい。
【0019】
本明細書で説明する機能又はアルゴリズムは、一実施形態ではソフトウェアに実装することができる。ソフトウェアは、ローカル又はネットワーク上のいずれかの、1つ以上の非一時的メモリ又は他の種類のハードウェアベースのストレージデバイスなどの、コンピュータ可読媒体又はコンピュータ可読ストレージデバイス上に記憶されたコンピュータ実行可能命令で構成することができる。更に、そのような機能は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせとすることができる、モジュールに対応する。複数の機能は、所望により1つ以上のモジュールで実行することができ、説明する実施形態は、単なる例である。ソフトウェアは、パーソナルコンピュータ、サーバ、又は他のコンピュータシステムなどのコンピュータシステム上で動作する、デジタル信号プロセッサ、ASIC、マイクロプロセッサ、又は他の種類のプロセッサ上で実行することができ、そのようなコンピュータシステムを、専用にプログラムされた機械に変えることができる。
【0020】
概要
自動研磨処理及びその後のポリッシングを使用して、塗装適用の欠陥を補修する処理を自動化するためのシステム及び方法が記載される。本システム及び方法は、ロボット(スマート)ツール及び/又は部品取り扱い、感知技術、現在の部品/システム状態及び提供されたフィードバックに基づいて所望のシステム挙動をもたらす確率的処理ポリシー、並びに提供された処理ポリシーを最適化すること、顧客の上流処理の変動に起因してポリシーを連続的に適応させること、及び/又は処理ポリシーを、人の介入が皆無かほとんど行われずに引っかき傷から学習することが可能な任意選択の学習コンポーネントの新しい組み合わせを含む。
【0021】
計算力の最近の進歩は、製造速度でのクリアコート検査の処理を実現可能にしてきた。具体的には、ステレオ偏向測定は、後に続く自動スポット補修を可能にするために、空間情報を用いて適切な解像度で塗装及びクリアコート欠陥を提供することが可能であることが最近では示されている。従来の検査方法を使用すると、サンプルの実施形態における自動化されたクリアコートスポット補修システム100は、自動車OEM用途の
図1の概略図と同様に見える場合がある。
図1では、それぞれのボックスは、ロボットコントローラ102、ロボットマニピュレータ104、並びにコンプライアンス力制御ユニット108と、ツーリング110と、研磨物品/コンパウンド112とを含むロボット塗装補修スタック106を含む、システムの様々なハードウェアコンポーネントを表す。データの流れは、背景の矢印114によって示されており、この矢印は、基材における識別された欠陥を含む検査データを提供する検査前データモジュール116から開始し、欠陥補修処理中に基材120から生成されたデータを処理するための検査後欠陥データモジュール118で終了する。
【0022】
サンプルの実施形態では、基材120は、自動車の車体自体であってもよく、仕上げは、製造プロセス全体にわたって自動車の任意の状態とすることができる。典型的には、対象とする自動車又はパネルは塗装され、クリアコートされており、いくつかの形態の硬化(例えば、焼成)が見られ、欠陥を調べられる。動作中、欠陥場所及び特性は、検査前データモジュール116からロボットマニピュレータ104を制御するロボットコントローラ102に供給され、このロボットコントローラは、プログラムがエンドエフェクタ(スタック)106を識別された欠陥に誘導して、いくつかの所定の補修プログラム(確定的)ポリシーを実行する。いくつかのまれな場合には、ポリシーは、提供された欠陥特性に応じて適合することが可能であり得る。
【0023】
塗装補修用途の場合、ロボット塗装補修スタック106は、(適合)力制御ユニット108などの任意の補助機器と共に、研磨ツーリング110並びに研磨物品及びコンパウンド112を含む。本明細書で使用するとき、ロボット塗装補修スタック106は、エンドエフェクタという用語とほとんど同義であるが、本文書では、用語「スタック」は、ロボット塗装補修の文脈においてエンドエフェクタである。また、プライマー、塗装、及びクリアコートの補修を含むロボット塗装補修を提供するために記載されているが、本明細書に記載される技術は、それ自体が、塗装補修以外の他の工業用途に役立つことが理解されるであろう。
【0024】
図2は、ロボット塗装補修スタック106のコンポーネントの分解を概略的に示す。図示されるように、ロボット塗補修スタック106は、ロボットアーム200、力制御センサ及びデバイス108、研削/ポリッシングツール110、ハードウェア統合デバイス202、研磨パッド装及びコンパウンド112、設計研磨処理204、並びにデータ及びサービス206を備える。これらの要素が一緒に働いて、欠陥場所を識別し、識別された欠陥についての確定的なポリシーを使用して、所定の補修プログラムを実装することができる。
【0025】
したがって、
図1及び
図2は、新たに利用可能な検査方法(すなわち、偏向測定)に基づいて、クリアコート補修の自動化へのむしろ真っすぐなアプローチを実施する。以下に記載されるシステム及び方法の実施形態は、補修のためのロボットプログラム(すなわち、ポリシー)に基づいて欠陥ごとにリアルタイムで修正するために、検査、作業セル、又はツーリングからの追加データを利用することによって、
図1及び
図2のシステム及び方法と差異化される。この点において、プログラムは、決定論的な経験的に導出されたレシピ(技術サービス/アプリケーション工学)と、性能(すなわち、強化学習)に基づいて常に改善された確率的ポリシーとの間のスペクトル上にある最適な(又はほぼ最適な)補修戦略(ポリシー)を実行するための観察に基づいて適応する。加えて、分類(教師あり学習)又はクラスタリング(教師なし学習)などの他の学習形態を適用して、感知データなどの次元性の低減を実行するのに役立てることができる。これらのアプローチはあわせて、以下のサンプルの実施形態に関して記載される学習モジュールを含む。
【0026】
サンプルの実施形態
図3は、学習コンポーネント及びクラウドベースの処理計画及び最適化を含むロボット塗装補修システムのサンプルの実施形態を示す。
図3の実施形態では、ロボット塗装補修スタック300は、上述のロボット塗装補修スタック106から強化されており、追加のセンサ302と、スマートツーリング303と、補助制御ユニット304と、データベース307を含むクラウドコンピューティングシステム306とを更に含み、このデータベースは、ローカルにあるか、又はクラウドコンピューティングシステム306内で維持されており、機械学習ユニット308によって推奨され、かつポリシーサーバ309によって維持されるそれらのポリシー及び手順を含む、塗装補修スタック300の制御ポリシーを実行及び維持する役割を担っている。データベース307及びポリシーサーバ309は、クラウド内又はローカルオンサイトサーバ若しくはエッジコンピュータ内にあってもよい。
【0027】
補助制御モジュール304は、ロボットコントローラ102内に以前に収められた確定コードの場所を取り、ロボットマニピュレータ104及びスマートツーリング303の実行のための即時リアルタイム信号及び処理を提供する。この点に関して、ロボットマニピュレータ104は、ここで、補助コントローラ304によって駆動されるシステム300において、反応的な役割を果たす。クラウドコンピューティングシステム306のデータベース307は、ポリシーサーバ309によって実装されるポリシーを生成するために識別された欠陥と相関する、状態変数、測定値、及び結果的性能を含む処理の観察を記憶する長期データリポジトリとして機能する。最後に、機械学習モジュール308は、観察(状態/センサデータ)及び後続の報酬(補修の品質)に基づいて補修ポリシーを連続的に改善する役割を担っている。オンライン学習は、Temporal Difference(TD) Learning、Deep Q Learning、Trust Region Policy Optimizationなどの強化学習の形態によって達成される。
【0028】
図3の実施形態では、ロボットマニピュレータ104は、本明細書に記載される欠陥検査及び補修を達成するために、エンドエフェクタ(スタック)ツーリング305を十分に位置決めすることができる。サンプルの実施形態に関して本明細書に記載される問題ドメイン(プライマー/塗装/クリアコート補修)では、欠陥は、一般的に、基材120(板金、プラスチック、カーボンファイバーなどの複数の成形片のアセンブリ)の外側の自動車本体表面上にあり、これは、一般的に、2Dマニホールド構造(すなわち、局所的に「平坦」又は「平滑」である)を示す。理論上はより自由度の低いシステムを使用することができるが、工業的に標準的な6自由度のシリアルロボットマニピュレータが、この処理への適合性が最良であると見出されている。いくつかの例としては、FanucのM-20シリーズ、ABBのIRB 1600、又はKukaのKR 60シリーズが挙げられる。例えば、Kuka KR 60 HAは、6つの軸及び自由度を有し、60kgの荷重を支持し、2.033mまで届く。処理固有のツーリング(すなわち、エンドエフェクタ)は、以下のスタック305の説明においてより詳細に扱われる。
【0029】
ロボットコントローラモジュール102は、選択されたロボットマニピュレータ104のためにロボットOEMが提供するコントローラである。ロボットコントローラモジュール102は、ロボットマニピュレータ104に直接モーションコマンドを送り、任意のセル関連の安全性に関する懸念を監視する役割を担っている。実際には、ロボットコントローラモジュール102は、一般的に、セル監視のための1つ以上の安全プログラム可能論理コントローラ(PLC)と併せてロボットコントローラを含む。サンプルの実施形態では、ロボットコントローラモジュール102は、欠陥固有の情報及び/又はコマンドを提供する補助制御ユニット304からの入力を行うように構成される。これは、所望の実装に応じて、所定の機能のプログラムダウンロード若しくはパラメトリック実行を介してオフラインで、又は位置/速度オフセットストリーミングを介してリアルタイムで、のいずれかで起こる。オフラインアプローチの例は、ロボットコントローラモジュール102によって実行されるネイティブロボットの言語(例えばRAPID、KRL、Karel、Informなど)の前処理されたロボットプログラムである。一方、例示的なストリーミングインターフェースは、Fanucの動的経路修正パッケージ又はKukaのロバットセンサインターフェースなどのロボットOEMが提供するセンサインターフェースパッケージを介したものであろう。このリアルタイムの実施形態では、補助コントローラ304(以下に更に詳細に記載される)は、補修される欠陥に基づいて、ロボットコントローラモジュール102にオンラインでリアルタイムの位置オフセットを送信するであろう。
【0030】
サンプルの実施形態では、位置補正のオンラインリアルタイムストリーミングのためのKUKA.RobotSensorInterfaceオプションパッケージを有するKuka KR C4 コントローラを、Kuka KR 60 HA ロボットマニピュレータ104を用いてロボットコントローラ102として使用することができる。
【0031】
図3の実施形態では、検査前データモジュール116及び検査後データモジュール118は、処理される各自動車又は部品の全車体検査データを提供する。ここで必要とされるセンサ302の種類は、当面の問題の特性(すなわち、プライマー又はクリアコート補修)に依存する。具体的には、基材120の表面の鏡面性が、センサ302の選択に影響する。高鏡面性(反射性)表面については、較正されたステレオ偏向測定である主要技術のうちの1つを用いる反射アプローチが通常、選択される。非反射性のシナリオ(すなわち、プライマー補修)の場合、投影アプローチが好ましい。両方のアプローチは、それらの基本的な数学的原理において類似しており、主にそれらの表面照度アプローチ(すなわち、投影に対する偏光/反射)によって異なる。投影アプローチに加えて、非鏡面又は混合シナリオのための従来のモノクロ又はRGB撮像に、拡散反射された又は構造化されていない光を使用するという利点もまた存在する。
【0032】
クリアコート補修及び車体の十分な鏡面性のためのサンプルの実施形態では、Micro-Epsilon reflectCONTROL撮像システムが、検査前モジュール116及び検査後モジュール118の両方に使用され、連続オンサイト学習及びポリシー改善及び処理ドリフト補償を可能にする。
【0033】
補助コントローラ304は、特殊な塗装補修エンドエフェクタ305、ロボットマニピュレータ104と、クラウドコンピューティングシステム306、及び/又はローカルオンサイトサーバ若しくはエッジコンピュータとの間の中央通信ハブとして機能する。
図3に図示されるように、補助コントローラ304は、(検査前データ、及び/又はエンドエフェクタセンサ302などの任意のロボット装着型ハードウェアから)当面の補修のための全ての欠陥検査データを受信し、得られたポリシーを、ロボットコントローラモジュール102及びエンドエフェクタスタック305に伝達する。上述したように、この伝達は、特定の実装に応じてオンライン又はオフラインのいずれかであり得る。補助コントローラ304はまた、適合力制御ユニット108、空気/サーボツール、水/コンパウンドディスペンサ、センサ302などの、任意の独自のエンドエフェクタハードウェア305を制御する役割を担っている。
【0034】
サンプルの実施形態では、補助コントローラ304は、リアルタイム/低レイテンシLinuxカーネルを実行する埋め込み型(工業的に堅固にされた)処理PCを含む。(KUKA.RobotSensorInterfaceを介した)ロボットコントローラモジュール102への通信は、UDPプロトコルを通じて達成される。様々なエンドエフェクタコンポーネント305への通信は、UDP、TCP、(シリアルオーバー)USB、デジタル入力/出力などの混合であってもよい。
【0035】
スタック(エンドエフェクタツーリング)305は、サンプルの実施形態における目的に必要な任意の処理固有のツーリングを含んでもよい。材料除去(サンディング、プライマー補修、クリアコート補修、ポリッシングなど)を含む実施形態に関しては、圧力/力制御及び/又はコンプライアンスのいくつかの形態が必要とされる。一般に、ロボットマニピュレータ104自体は、クリアコート補修のための補正処理力を適切に適用するには硬すぎであるため、いくつかの形態のアクティブコンプライアンスが必要又は望ましいことが多い。ツーリング303及び研磨システム112の他に、センサ302もまたin-situ検査に望ましく、センサ302により、処理中盤でのフィードバックを取得する能力と共に、処理時間における局所的な高忠実度測定を可能にし、これは、検査前及び検査後のみを使用したアプローチでは達成できない。例えば、処理中盤フィードバックは、学習アルゴリズムの成功に役立つ。
【0036】
ロボット塗装補修(及びより広範なロボットサンディング)の適用のために、センサ302として使用するための望ましいセンサとしては、以下が挙げられる(ただし、これに限定されない):
1.加速度計又はマイクロフォンを使用した振動、RPMツールを使用した強弱の変化、関節の力(effort)(すなわち、力、トルク、加速、及び/又は速度)、加速度及び/又は速度を含む線形(エンドエフェクタ)の力(effort)(すなわち、力及び/又はトルク)を検出する固有受容性センサ、並びに力/圧力ツール。
2.撮像センサ、温度センサ、及び/又は湿度センサを含む、外受容性センサ。撮像センサは、RGB、モノクロ、赤外線、ヘイズ、反射性、及び/若しくは拡散性センサを含む視覚センサであってもよく、又は、RGB-D(構造化光、飛行時間計測、及び/又はステレオ写真測量)、ステレオ偏向測定、形状測定、及び/若しくは顕微鏡を含むトポグラフィックセンサであってもよい。外受容性センサはまた、エラストマー撮像用の触覚センサ(すなわち、GelSight)を含んでもよい。
3.熱電対及び/又はIR熱撮像を含む温度センサも使用されてもよい。
4.湿度センサもまた使用されてもよい。
【0037】
サンディング、プライマー補修、クリアコート補修、及びポリッシング用途のサンプルの実装形態において、研磨剤/コンパウンド112は、ツール303として3Mエア駆動式ランダムオービタルサンダーと共に使用される3M Trizact Finesse-it研磨システムを含んでもよい。このようなサンプルの実装形態では、コンプライアンス力制御ユニットは、FerRobotics ACFを含んでもよく、センサ302は、Picoプロジェクタ、5インチ4KのLCDマイクロディスプレイ、イーサネットカメラ、及び/又はGelSightユニットを含んでもよい。センサ302の更なる例が以下に提供される。
【0038】
高レベルの手動クリアコート補修処理は、業界で周知であり、受け入れられている。これは、研磨/サンディング及びポリッシング/バフ研磨の2段階処理である。自動化の観点から、以下の入力及び出力は、異なる実施形態において関連性があり得る(3M Finesse-itシステムからの例)。
【0039】
入力:
共通(サンディング及びポリッシング)
ツール速度[周波数]
ツールオービット[長さ]
ランダム度(すなわち、ランダムオービタル対オービタル)
経路パターン
経路速さ[速度]
適用された力
角度(すなわち、垂直からの角度)
総処理時間
サンディング固有
バックアップパッド
硬度
研磨ディスク
製品
例えば、{468LA,366LA,464LA,466LA}
グレード
例えば、{A3,A5,A7}
直径/スカラップ
例えば、{1-1/4インチ,1-3/8インチ スカラップ装飾}
状態
寿命(例えば、寿命≒f (圧力,時間))
清浄度(例えば、ディスクを洗浄したか?)
ポリッシング固有
バフ研磨パッド
発泡体
例えば、{灰色,オレンジ,赤,緑,白}
直径
例えば、{3-1/4インチ,3-3/4インチ,5-1/4インチ}
表面プロファイル
例えば、{平坦,エッグクレート}
ポリッシュ
量
分布
終了
例えば、{FM,P,EF,K211,FF,UF}
出力:
均一性
粗度
光沢率
バフ研磨の時間
最終バフ研磨品質(例えば、均一性、ヘイズなど)
【0040】
サンプル補修シナリオでは、このような入力及び出力を含む処理フローは、
図4に図示されるように実装されてもよい。
図4に図示されるように、処理フロー400は、402で、検査前データモジュール116からの検査前データを補助コントローラ304に提供することを含む。検査前データは、(任意選択の)幾何学的データ/プロファイル及び/又は欠陥自体の分類と共に、識別された各欠陥のグローバルな車体中心の座標を含む。識別された欠陥のグローバル座標は、ロボットマニピュレータ104がエンドエフェクタを識別された欠陥に連続して近接させることができるように、コンベヤベルト位置などの任意の外部軸と共に、404で、ロボットコントローラモジュール102に通信される。任意選択の局所的欠陥情報及び/又は分類が提供された場合、これを使用して、欠陥を処理するか又はスキップするかを選択することができる。次いで、ロボットコントローラモジュール102と併せて補助コントローラモジュール304は、406で、ロボットマニピュレータ104を移動させ、センサ302によってエンドエフェクタ感知をトリガして、局所的未較正偏向測定情報を使用してin-situ局所的欠陥検査データを取得する。
【0041】
408で、システムの検査前データ、in-situ検査データ、及び現在の状態(例えば、装填された研磨剤/コンパウンド、研磨寿命、現在のツーリングなど)は、クラウドコンピューティングシステム306内のポリシーサーバ309に転送され、これは、検査データ及び現在のシステム状態の全てを取り、以前に学習した制御ポリシーを使用して補修アクションを戻す。学習されたポリシーから戻されたsandingアクション(2部補修のステップ1)は、次いで、ロボットコントローラモジュール102及びエンドエフェクタスタック305と同時通信することによって、補助コントローラによって410で実行される。この実施例におけるアクションは、ツールRPM、圧力(適合力フランジへの制御入力)、ロボット軌道、及び総処理時間の設定値を含む。サンプルの実施形態では、ロボット軌道は、KUKA.RobotSensorInterfaceパッケージインターフェースを使用して、欠陥起点からの経時変化位置オフセットとして通信される。センサ302を使用してin-situデータを収集して、補修の品質を確保する。in-situデータは、モノクロ/RGBカメラを使用して、縞模様投影又は従来の撮像、及び新たに研磨された領域から拡散反射を捕捉するために拡散反射された又は構造化されていない白色光を使用する後の学習更新のために保存される。
【0042】
ロボットを誘導して、製造システム内のエラーを排除する際に、選択された補修ポリシーを行うことに加えて、任意のin-situ撮像データを使用して、欠陥の場所を突きとめる/サーボオフすることができる。一般に、グローバル検査前データは、収集された場合、製造プロセスのかなり上流に取り込まれ、位置決めエラーは、部品が塗装補修ステーションに到達する時間までに、容易にインチのオーダーになり得る。
【0043】
414で、補修が満足でないと判断された場合、補修が満足なものとみなされるまでステップ406~412を繰り返すことができるが、最適な補修ポリシーの実行の場合にはそのような繰り返しは必要とされない。
【0044】
ステップ406~414はまた、クラウドコンピューティングシステム306内のポリシーサーバ309から戻されバフ研磨コマンド(2部補修のステップ2)のために繰り返すことができる。
【0045】
最後に、検査後データは、検査後データモジュール118によって、416にて最終的補修品質で収集され、検査後データは、処理のために補助コントローラ304に送られる。全てのデータ(検査前、in-situ、及び検査後)は、クラウドコンピューティングシステム306内のポリシーサーバ309に、ロギング用及び学習更新用に送信される。次いで、この処理は418で終了する。
【0046】
ポリシーサーバ309は、クラウドコンピューティングシステム306内に配置するように本明細書に記載されている。しかしながら、ポリシーサーバ309は、所望の実装形態及び/又はセキュリティニーズに応じて、製造床上のロボット塗装補修スタック300の残りの部分に局所的に配置されてもよいことが理解されるであろう。動作中、ポリシーサーバは、現在の学習されたポリシーを維持し、状態及び観察クエリに基づいて制御出力を提供する。ポリシーは、適切な学習アルゴリズム(以下に記載)を介して取得される。ポリシーサーバ309の出力の特定の性質は、補助コントローラ304によって使用される通信モード(すなわち、オンライン又はオフライン)に依存する。オフラインアプローチでは、ポリシーサーバ309の出力は、滞留時間、圧力、速度などの処理パラメータに対応する。一方、オンラインアプローチは、ロボットの関節(アクチュエータ)における力を直接制御するポリシーを出力することができる。このシナリオでは、レイテンシは問題であり、通常、局所的(非クラウドベース)ポリシーサーバ309を必要とする。
【0047】
ポリシーサーバ309のサンプルクラウドベースの構成において、ポリシーサーバ309は、検査前データ、及びシステム状態を入力として受信し、処理時間、処理圧力、処理速度(RPM)、オービットパターン(ツーリング軌道)などを出力する。ポリシーサーバは、任意選択的に、in-situ検査データを受信してもよい。
【0048】
機械学習ユニット308は、ポリシーサーバ309と並行して実行され、要求されたときにポリシーを改善するために学習更新を実行するモジュールである。機械学習手順は、欠陥補修のための良好なポリシーを学習することを含み、ポリシーは、状況(欠陥観察)と挙動(ロボットアクション/補修戦略)との間の単なるマッピングである。理想的には、機械学習システム308は、人間を超える性能を提供するため、欠陥及び補修戦略の著しく大きくラベルされたデータセットが存在すると仮定することができない。既存の知識は不完全であり得るため、本システムは、教師あり学習技術を全解決策として使用しない。しかしながら、本システムは、処理中に収集されたセンサフィードバックを使用して、良好又は不良(又はそれらの間のどこか)として補修を識別する能力を有し、更に、欠損及び補修戦略の大きくラベルされたデータセットの欠如に対処する強化学習を使用する能力を有する。
【0049】
強化学習は、経験を通して性能を向上させることを目的とする問題及び解決策の部類である。一般に、強化学習システムは、4つの主要素、すなわち、ポリシー、報酬関数、価値関数、及び本システムの任意選択的なモデルを有する。ポリシーは、主に、本システムの知覚される状態をアクションにマッピングすることを見つけることに関心があるものである。本明細書に記載されるサンプルのシナリオでは、これは欠陥画像とロボット補修アクションとの間のマッピングである。画像は前処理されてもよく、及び/又は抽出された特徴を有することができるが、これらは必須ではない。報酬関数は、状態(又は状態とアクションのペア)と、状況の望ましさを捕捉する単一の数値報酬との間のマッピングとして問題の目標を定義する。本システムの目標は、報酬を最大化するポリシーを識別することである。価値関数は、ポリシーを策定するために使用される現在の状態から達成可能な将来の報酬の予測である。任意選択的なモデルは、計画目的で使用することができる環境の近似である。
【0050】
一般に、サンプルの実施形態で使用されるものを含むほとんどの強化学習タスクは、マルコフ性を満たし、マルコフ決定過程(MDP)を構成する。高レベルでは、機械学習を使用するサンディング及びポリッシング処理の欠陥補修問題は、
図5に図示されるMDP遷移グラフ500によって有限MDPとして表すことができる。
図5のMDP遷移グラフ500では、タスクは、S={初期(502),サンド済(504),ポリッシュ済(506),完了(508)}の4つの状態を使用して表される。初期状態502は、元の変更されていない状態の欠陥である。サンド済状態504及びポリッシュ済状態506は、それぞれ、sandingアクション及びpolishingアクションの後に発生し、完了状態508は、補修の終了(並びに、学習エピソードの終了)を示す。一方、アクションは、セットA={complete(510),tendDisc()(512),sand()(514),polish()(516)}によって表される。図示されるように、completeアクション510は、本システムを直ちに(終点)完了状態508にする。初期状態502からのcompleteアクション510は、「補修しない」シナリオと類似しており、欠陥が補修不能である、及び/又は補修により本システムが元の状態よりも悪い状態になる可能性がある場合に補修に異議する(opt out of repairs)能力をシステムに与える。tendDisc()512アクションは、ロボットマニピュレータ104に信号を送り、エンドエフェクタスタック305の新しい研磨ディスク112を得るか、現在のディスク112に水を適用するか、又は現在のディスク112の洗浄動作を実行するかのいずれかを行い、供給された材料を除去する。一般に、研磨寿命は、単一の補修よりも長い。しかしながら、研磨ディスク112の経時的な性能は一定ではない。このアクションを有することにより、本システムは、新しい研磨ディスク112が必要又は望ましいときを(最適に)決定することが可能になる。加えて、最適なポリシーは、ディスクの学習された研磨寿命補償を考慮し、それに応じて補修アクションを選択する(例えば、パッドが摩耗する/負荷がかかると、より多くの力が必要とされる場合があるためなど)。最終的な2つのアクション、sand()514及びpolish()516は、処理関数であり、一般にパラメトリックである。パラメータは、ツールRPM、印加圧力、滞留/処理時間、補修軌道などの処理情報を含む。識別された欠陥及び行われる補修アクションの性質に応じて、多数の異なるパラメータ化が可能である。
【0051】
この問題は、有限MDPとして表現されているが、各状態及びアクションは、連続ドメイン内で有効であることが理解されるであろう。例えば、高レベルからのサンド済状態504は、サンディングが起こった後の欠陥を表すが、状態自体は、本質的に高次元かつ連続的であるサンディング後の欠陥の撮像データを含む。加えて、sandアクション514及びpolishアクション516はそれぞれ、パラメータ自体が連続的であるパラメータ関数である。
【0052】
図6に示すような代替的な簡略化されたMDP遷移グラフ600が可能であり、完全な補修は、単一のsandingアクション514、続いて単一のpolishingアクション516からなる。MDP遷移グラフ600は、任意の所与の状態でのアクションの数を低減するため、当面の問題の次元性を低減する。MDP遷移グラフ600は簡略な構成であるが、問題は、より一般的には、ロボットの関節位置/速度及びアクションを含むように状態が拡大され、拡大されたアクションは、位置、速度、又は労力コマンドからなるように完全に連続的に表現され得る。このシナリオでは、ロボットマニピュレータ104は、有限状態遷移の形態の補修処理の経験的ドメイン知識を与えず、代わりに、所望の処理を達成するリアルタイム制御アクションを学習しなければならない。しかしながら、この問題の策定は、有用なポリシーに収束するために著しくより多くの経験を必要とし、一般的に当面の産業的タスクのためには、恐らく不必要である。
【0053】
使用中、本システムは画像を撮影し続け、オンザフライ上のシステムパラメータを調整するために使用される処理中のセンサフィードバックを提供し続ける。
【0054】
機械学習システムのサンプルの実施形態はまた、図示される自動化ロボットクリアコート欠陥補修システムに実装されてもよい。2つの可能なアルゴリズム実装が記載されている。
図5及び
図6に図示されるMDP遷移グラフの各々である。両方の例では、同じハードウェアセットアップが使用されており、ハードウェアセットアップには、KR C4コンパクトコントローラを備えたKuka KR10 R900 sixxを使用して実装されたロボットマニピュレータ104及びロボットコントローラ102と、FerRobotics ACF/111/01 XSHDアクティブコンタクトフランジと併せてロボット装着型カスタムランダムオービタルサンダー(ROS)を含むツーリング303と、3M Finesse-itシステム(例えば、3Mポリッシュ及び対応するバックアップパッド/アクセサリを備える3M Trizact研磨ディスク)を含む研磨剤/ポリッシングディスクと、鏡面反射(偏向測定)及び拡散(縞模様投影)モダリティの両方で撮像するための5インチ4K LEDディスプレイ、1080P Picoプロジェクタ、及び5MPカラーCCDカメラを含むセンサ302と、を含む。
【0055】
上記のセットアップを使用して、
図5のより大きいnステップMDP遷移グラフを使用して上記のシステム及び方法を適用した。この場合、Deep Deterministic Policy Gradients(DDPG)を、Hierarchical Experience Replay(HER)及び疎な報酬と共に(事前訓練された分類子を介して)使用した。
【0056】
上記のシステム及び方法はまた、
図6の簡略化されたより小さい2ステップMDP遷移を使用して適用され、各ステップの直前の撮像を伴うサンディング及びポリッシングの処理ステップを仮定する。
【0057】
この場合、Deep Deterministic Policy Gradients(DDPG)を再度使用したが、代わりに画像ベース整形報酬(観測報酬関数(Perceptual Reward Function)の機能と同様)を、「良好な」周囲領域と比較した補修領域の類似性の尺度に基づいて使用した。このアプローチは、周囲の補修されていない良好な領域から完全な補修が区別できないという観察に基づく。
【0058】
上記のシステム及び方法はまた、
図6の簡略化されたより小さい2ステップMDP遷移を使用して適用され、各ステップの直前の撮像を伴うサンディング及びポリッシングの処理ステップを仮定する。この場合、連続パラメトリックアクションは、入力として離散パラメータを用いて使用され、これにより、Deep Q-Learning(DQN)の使用を可能にした。このケースは、疎な報酬又は整形報酬のいずれかを使用することができる。
【0059】
データ収集
任意の強化学習問題における重要な問題は、学習アルゴリズムが所望の最適なポリシーに収束するのに十分な経験を生成することである。産業処理用途では、十分な経験を生成することは重大な問題であり、多くの場合、非常に高価であり、かつ/又は時間がかかる。全ての強化学習にわたる1つの一般的なアプローチは、経験生成のために十分に良好なコンピュータ(デジタル)シミュレーションを活用することである。しかしながら、産業上のタスク、及び一般的な処理のために、正確なコンピュータシミュレーションを構築するタスクは、最適なポリシーを見つけるという問題と同じくらい困難であるか、又は更にはそれよりも難しくなり得る。したがって、多くの場合、低コストでデータに富んだ実世界の経験を生成するための効率的かつ便利な方法を見出すことが重要である。この点において、対象の実際の製造プロセスを十分に反映する物理的シミュレーションが生成される。
【0060】
当面のドメインに関しては、ロボット塗装補修では、処理が本質的に「破壊的」な性質であり、したがって不可逆的である(すなわち、塗装欠陥に適用される任意の処理は欠陥の状態を変更する)という事実により、問題は更に困難である。データ収集手順及び欠陥部分作成の両方について、実施形態を以下に概説する。
【0061】
欠陥シミュレーション
シミュレーションのいくつかの形態(デジタル又は物理)は、多くの場合、適用される学習アルゴリズムに対して十分な量の経験を生成するために望ましい。いくつかの可能な方法は、塗装補修の文脈において以下に概説される。
【0062】
最初に、塗装補修の十分に大きな部分が2Dマニホールド構造(すなわち、それらが単一の補修の文脈で局所的に平坦である)を呈する自動車本体領域上で生じることに留意されたい。自動車車体の高曲率領域(例えば、トリム周辺、ドアハンドルなど)は例外であるが、一般に、平坦な表面からの学習されたポリシーは、いくつかのロボット軌道修正を用いて湾曲面に適用され得る。これを念頭に置いて、データ収集及び経験生成の大部分に対して、(コスト及び取り扱いの両方の観点から)便利な標準化は、平坦な塗装された基材を使用することである。
【0063】
多数の異なる基材上に利用可能な多数の異なる厚さ、サイズ、塗装、クリアコート、アンダーコートなどを備える、平坦な矩形の塗装された試験パネルが市販されている。パネルは、このような市販の供給源から購入するか、又は学習される処理と同じ若しくは類似の方法及び機器を使用して調製することができる。
【0064】
製造部品に塗装欠陥が導入されることがないのが理想的であるため、製造プロセスは、可能な最良の部品を製造するように設計される。現実的には、欠陥が存在するが、強化学習の観点から、任意の製造部分又はシミュレートされた試験/学習基材上の欠陥密度は比較的低い。全ての製造プロセスは品質の観点で異なるが、塗装1000平方インチ当たり1個未満のオーダーで欠陥を有することは珍しくない。したがって、学習アルゴリズムの経験を生成するのに十分な量の欠陥を見出すためには非常に高価になり得る。
【0065】
この問題を解決するために、十分に高密度の欠陥基材を生成する方法が開発されてきた。任意の好都合な標準サイズの平坦な基材に関しては、欠陥密度が1平方インチ当たり1超であるオーダーの欠陥のある塗装及び/又はクリアコートが生成される。正確な密度は調節可能であるが、特定の密度は、学習基材の任意のグリッド離散化が少なくとも1つの欠陥を含む可能性が高い。
【0066】
(合成)汚染物質、シリコーン、塗装/クリアコートスプレー速度/パターン、溶媒などの組み合わせを利用することにより、ニブ(汚染物質)、クレーター、フィッシュアイ、ドリップ、サグなどの、対象とする自然に生じる欠陥の大部分を模倣することが可能である。
図7は、クリアコートの下に特定のサイズの合成汚れを導入する結果を示す。
図7は、欠陥が天井光反射の境界で最も良く見える高密度欠陥学習基材を示す。この学習基材を作製するためには、市販の塗装された及びクリアコートされた試験パネルから開始する。パネルを、その全体を(ランダムオービタルツール上の3M Trizact6インチディスクを使用して)サンディングした後、合成汚れで処理して、その後、クリアコートを再適用し、最終硬化した。
【0067】
追加の方法は、十分に薄いパネルを使用することと、制御された方法で(例えば、バネ式パンチを用いて)裏側を打ち抜いて、上部に隆起した欠陥を形成することとを伴う。好都合であるが、そのような欠陥は、自然に及びOEM設定において生じるものとして、正確な補修挙動を必ずしも模倣するとは限らない。
【0068】
データ収集手順
以下は、欠陥補修データを収集するための例示的な手順である。本システムは、欠陥の種類、数、及び/又は存在にかかわらず、多数の個別の所定の場所で、基材上で欠陥補修を実施する(以下、例えば、離散化及び考察を参照されたい)。学習/最適化アルゴリズムの違いとは別に、単一の基材の基本的な処理構造は以下のとおりである。
【0069】
【0070】
指定された状態であるサンド済及び完了は、
図5及び
図6のMDPから取られ、アクションによって取られる任意のパラメータは、指定された学習/最適化アルゴリズムによって提供される。
【0071】
概説されるように、基材は最初に撮像され、その後、サンディングのためにロボットに提示される。基材は、押さえ機構(例えば、磁石、真空、クランプなど)によって固定される。既定のグリッドのセルごとに、アルゴリズムは、tendDisc()アクションを介してディスクの手入れを最初に実行する。これにより、研磨ディスクの洗浄、湿潤、及び/又は交換のいくつかの組み合わせがもたらされる。次に、撮像データ(欠陥特性)の、ポリシーサーバを介して現在提供されているポリシーに基づいて、sand()アクションが実行される。
【0072】
各グリッドの場所がサンディングされた後、パネルはポリッシング前に再び撮像される。再び、セルごとに、ロボットは、各グリッドセルに適用された指定のポリッシングを用いて、基材の所定のグリッドの場所のそれぞれをポリッシングする。ポリッシング後、パネルを再び撮像する。
【0073】
パネル全体が上記のように処理された後、補修処理前、補修処理中、及び補修処理後の、撮像データを介した欠陥特性がグリッドセルのそれぞれに利用可能である。加えて、実行されたポリシーは、特性撮像データと併せて各セルに記憶される。所定の数の基材が処理された後に、各セルについて強化学習更新が実行される。
【0074】
上記は、速度及びコスト要件に基づいて、自動化のスペクトルで実装することができる。単純な実装では、sandingアクション及びpolishingアクションの各々に対して別個のロボット、及び人間の操作者が、セル間で基材を移動させること、並びに要求されたときにディスクを変更することの役割を担っているベンチトップ撮像セットアップを使用することができる。完全自動化セットアップは、エンドエフェクタを変更するツールを含んでもよいため、単一のロボットで実装することができる。加えて、コンベヤは、基材取り扱いのために使用することができ、又は撮像は、セル装着型カメラ又は撮像エンドエフェクタを介してロボットセル内で生じ得る。
【0075】
高密度欠陥塗装基材及び自動化グリッドベースのポリシー実行による上記のアプローチでは、グリッドの離散化を可能な限り厳格にして、各基材の使用された部分を最大化することが望ましい。基材処理手順中に、補修がその隣接セルと干渉しないように用意される。1つのアプローチは、任意の特定の補修アクションが単一のセル内に完全に存在するように、最も厳格なセルの離散化を選択することである。この素朴なアプローチは、実現可能であるが、基材の利用が不十分となり得る。
【0076】
一例として、3M Finesse-itシステムを使用して、効率的な基材処理のためのサンプルの離散化を概説する。このシステムでは、サンディングディスクは、バフ研磨パッドよりも著しく小さい(例えば、直径1-1/4インチのサンディングパッド対直径3-1/2インチのバフ研磨パッド)。加えて、ランダムオービタルツール上のスローは、それぞれ1/4インチ及び1/2インチである。少なくとも半径が重なり合う円形軌道を仮定すると、サンディング及びポリッシングのための最小限の補修された影響領域は、それぞれ直径2-1/4インチ及び6インチの円である。ここで、必要とされるバフ研磨領域ははるかに大きいため、補修セルの入れ子密度を大幅に制限することによって、基材の無駄に有意に寄与することが分かり得る。
【0077】
この制限を克服するために、ポリッシングが隣接セル間で共有される修正パネル処理手順を考案することが可能である。セルの隣接するバッチを独立してサンディングすることができ、次いで、個々のセルのポリッシング軌道の連結から作り出されるポリッシング軌道を使用して共にポリッシングすることができる。
【0078】
一例として、3M Finesse-itが提案する「L」字形状のポリッシング軌道が使用され、ここで、欠陥は「L」の左下頂点にあり、ポリッシングパッドは、交互の上下移動及び左右移動で動かされる。このパターンでは、回転及び並進によって、4つの「L」を一緒に置いて正方形を作ることが可能である。したがって、正方形を共に作製する4つのセルは、独立してサンディングされることができ、次いで正方形のポリッシング軌道を使用してポリッシングすることができる。この方法は、達成可能なセル密度を大幅に改善し、12×18インチの基材上で最大24個のセルの補修を可能にする。
図8は、透明な円800によって描かれたサンプルポリッシングパターンを示す。欠陥場所はドット802として描かれている。破線の輪郭を有する円は、補修領域804を表す。「L」パターン806(左)及び正方形パターン808(右)は、研磨器が停止するたびに番号付きの矢印810によって表される。
図9は、寸法18×24インチパネル基材902上の前述のFinesse-itアクセサリを用いたポリッシングパターン900の高効率ネスティングの例を示す。4つのサンディング補修の各セットは、
図8(右)の単一の正方形のポリッシング経路を共有する。
【0079】
欠陥特性
一般に、欠陥特性は、以下の任意の組み合わせとして解釈することができる。
工学的に作られた特徴(サイズ、種類など)
生画像データ(強度値の行列/テンソル)
補修前、補修中(in-situ)、又は補修後に収集されたもの
【0080】
現在のアプローチは、一般に人間中心である工学的に作られた特徴を使用する。すなわち、現在の手動処理の歴史的な専門知識に基づいて存在する。このような特徴としては、欠陥の種類、欠陥のサイズ、欠陥の重症度などの「有意義な」測定が挙げられる。実際には、各製造業者は、それら自体の特徴のセットと、塗装補修処理の動作手順の形態で経時的に進化したそれぞれの分類とを有する。加えて、より新しい自動化された検査の提供の多くは、自身の分類及び特徴に付随する。例えば、
図10は、Micro-Epsilon反射制御装置1002によって提供される一連の塗装欠陥画像1000を示す。これらの分類は、人間の処理経験/専門知識に基づいて元来経験的に工学的に作られているが、他のアプローチは、教師あり学習及び教師なし学習などの新しい機械学習技術を使用して成功してきた。
【0081】
見た目に魅力的であるが、ロボット処理は、そのような人間の中心の特徴、分類、及び/又は記述子から必ずしも恩恵をうけるわけではない。ディープニューラルネットワークと共に強化学習技術を使用することにより、本システムは、処理ドメイン(すなわち、ロボット塗装補修)の文脈において欠陥特性を最良に捕捉するコンボリューションカーネルを介して内部で自身の表現を学習する自由が与えられる。
【0082】
本発明者らは、前述の従来の工学的特徴記述子の代わりに未処理、未較正、及び/又は生の画像データを使用することに利点を見出した。未較正の偏向測定データは、サンプルの実施形態で使用される。較正、位置合わせ、及び処理は、恐らく、このような視覚処理の実装における最も困難な部分であるため、このアプローチは、本システムの複雑さを大幅に緩和させる。加えて、未較正及び/又は生の画像の使用は、メンテナンスの負担を大幅に低減し、in-situで撮像及びデータを処理することができるより小さい(ロボット装着型)システムを可能にする。これにより、本システムの学習速度、及び全体的な能力、性能、フィードバック、分析の選択肢などの改善の両方を大幅に向上することができる。
【0083】
図11~
図13は、欠陥の局所曲率マップを計算するために、未較正の偏向測定画像をどのように使用することができるかを示す。
図11は、4つの偏向された垂直縞模様1100、及び4つの偏向された水平縞模様1102の、各々がパターンソースをπ/2の倍数だけシフトされた8つの画像を示す。
図12は、4つの偏向された縞模様にわたるピクセルの弧正接を使用して計算された水平及び垂直の曲率マップを示す。上の
図1200は、弧正接(2πを法とする)、中間の
図1202は、アンラッピングされた位相シフト、及び下の
図1204は、一次有限画素ごとの差を使用して近似された局所曲率の結果である。
図13は、強度マップ1300及びメッシュグリッド1302の両方として可視化された水平及び垂直の結果の両方を組み合わせる複合(正方形の合計の平方根)局所曲率マップである。
【0084】
偏向測定を使用して表面の高さマップを計算することのより一般的な動作では、測定された位相シフトの積分を必要とするため、較正及びノイズに対して非常に敏感である。局所曲率は、代わりに導関数を使用するため、感度が低い。加えて、著しく小さい領域(すなわち、単一の欠陥補修)にのみ焦点を当てる場合、低曲率の特徴は関係がない(すなわち、2Dマニホールド)ため、欠陥のサイズ及び強度の指標として相対的な曲率を利用できると仮定することができる。
【0085】
上記の例では、局所曲率は手動で抽出されたが、そのような情報が生画像データ内に存在し、有用であることを示すためだけのものである。実際には、強化学習アルゴリズムは、類似の(おそらくより関連する)特徴及びマッピングを発見するであろう。
【0086】
上記の例の別の興味深い使用は、報酬関数及び欠陥分類の構造である。局所曲率マップは、最大局所曲率がいくらかの閾値を超える場合、領域が欠陥ありと示される単純な閾値アプローチを提供する。
【0087】
また、ユーティリティは、近暗視野反射光並びに非構造化白色光及びRGB/モノクロカメラを用いた従来の撮像を使用する、より単純なアプローチでも見出され得る。前者は、鏡面(前/後処理)及びin-situでのマット/拡散(処理中盤)の両方に、後者はin-situに作用する。
図14は、近暗視野反射画像1400のサンプルを示す。この方法では、表面勾配(すなわち、スロープ)の近似として、画素強度を解釈することができる(表面均一性に関していくつかの仮定がある)。したがって、このような画像は、偏向測定法と同様に、位相アンラッピングの計算的負担を伴わずに表面/欠陥情報を提供する能力を有する。
【0088】
強化学習がそれ自体の特徴表現を付与することが可能であるのと同様に、研磨剤の将来の性能に使用する効果を学習することも可能である。換言すれば、研磨剤は、それらの寿命にわたって異なって機能する。MDP状態増加におけるディスクの使用をエンコードすることによって、ポリシーは、研磨剤の予測された状態に基づいてアクションを選択することができる。いくつかの可能なエンコードとしては、単に補修の数、又は力、時間などのより複雑な関数が挙げられる。別のアプローチは、エンドエフェクタからin-situデータ収集を介して、振動/熱などの性能指標測定値を組み込むこと、又は更には、研磨物品(又はポリッシングパッド)自体内にセンサを配置することがある。このアプローチでは、強化学習アルゴリズムは、処理中の観察と予測された性能との間の直接のマッピングを識別し、これを活用することができる。
【0089】
コンピュータ実施形態
図15は、本明細書で開示されるシステムの1つ以上の実施形態を実装するのに好適な専用コンピュータにプログラムされ得る典型的な汎用コンピュータを示す。上記のロボットコントローラモジュール102、補助制御モジュール304、機械学習ユニット308、及びクラウドコンピューティングシステム306は、十分な処理電力、メモリリソース、及びそれに課せられた必要なワークロードを取り扱うための通信スループット能力を有するコンピュータなどの、専用処理デバイス又は任意の汎用処理コンポーネント上に実装されてもよい。このような汎用処理コンポーネント1500は、二次ストレージ1504、読み取り専用メモリ(ROM)1506、ランダムアクセスメモリ(RAM)1508、入力/出力(I/O)デバイス1510、及びネットワーク接続デバイス1512を含む、メモリデバイスと通信するプロセッサ1502(中央処理装置又はCPUと呼ばれることがある)を含む。プロセッサ1502は、1つ以上のCPUチップとして実装されてもよく、又は1つ以上の特定用途向け集積回路(ASIC)の一部であってもよい。
【0090】
二次ストレージ1504は、典型的には、1つ以上のディスクドライブ又はテープドライブから構成され、RAM1508が全ての作業データを保持するのに十分な大きさでない場合には、データの不揮発性ストレージ及びオーバーフローデータストレージデバイスとして使用される。二次ストレージ1504を使用して、そのようなプログラムが実行のために選択されたときにRAM1508にロードされるプログラムを記憶することができる。ROM1506を使用して、プログラム実行中に読み取られる命令及び恐らくはデータを記憶する。ROM1506は、典型的には、二次ストレージ1504のより大きなメモリ容量に対して小さいメモリ容量を有する不揮発性メモリデバイスである。RAM1508を使用して、揮発性データを記憶し、恐らく命令を記憶する。ROM1506及びRAM1508の両方へのアクセスは、典型的には、二次ストレージ1504よりも速い。
【0091】
本明細書に記載されるデバイスは、コンピュータ可読命令を記憶するコンピュータ可読非一時的媒体と、メモリに連結された1つ以上のプロセッサと、を含むように構成することができ、コンピュータ可読命令を実行するときに、
図1~
図6を参照して上述された方法ステップ及び動作を実行するように、処理コンポーネント1500を構成する。コンピュータ可読非一時的媒体は、磁気ストレージ媒体、光学ストレージ媒体、フラッシュ媒体、及びソリッドステートストレージ媒体を含む、全ての種類のコンピュータ可読媒体を含む。
【0092】
本開示のステップのいずれか1つ又は全てを参照して上述したような処理及び動作を容易にする1つ以上のコンピュータ実行可能命令を含むソフトウェアは、開示と一致する消費者及び/又は生産者ドメイン内の1つ以上のサーバ及び/又は1つ以上のルータ及び/又は1つ以上のデバイスにインストールされ、共に販売され得ることを更に理解されたい。あるいは、ソフトウェアは、開示と一致する消費者及び/又は生産者ドメイン内の1つ以上のサーバ及び/又は1つ以上のルータ及び/又は1つ以上のデバイスで得ることができ、かつこれにロードすることができ、例えば、ソフトウェア作成者が所有するサーバから、又はソフトウェア作成者によって所有されていないが使用されているサーバから、を含む、物理的媒体若しくは分配システムを介してソフトウェアを取得することを含む。ソフトウェアは、例えば、インターネットを介して配信するためにサーバ上に記憶され得る。
【0093】
また、本開示はその適用が、下記の記載で説明する又は図面に示される構造の詳細及び構成要素の配置構成に限定されるものではないと、当業者は理解するであろう。本明細書における実施形態は、他の実施形態も可能であり、様々な方法で実践又は実行することが可能である。また、本明細書において使用される語法及び専門用語は説明を目的としたものであり、限定するものとみなしてはならないことを理解されたい。本明細書における「含む(including)」、「含む(comprising)」、又は「有する(having)」、及びこれらの変化形の使用は、その後に列記される項目及びこれらの同等物、並びに追加的な項目を包含することを意味する。別途限定されない限り、本明細書では「接続される(connected)」、「連結される(coupled)」、及び「取り付けられる(mounted)」という用語、並びにそれらの変化形は、広い意味で使用されるものであり、直接的及び間接的な接続、連結、取り付けを包含する。加えて、「接続される」及び「連結される」、並びにそれらの変化形は、物理的又は機械的な接続又は連結に制限されない。更に、上、下、底部、及び頂部などの用語は、相対的であり、例示を支援するために用いられるが、限定するものではない。
【0094】
本発明の例示的な実施形態に従って用いられる例示的なデバイス、システム、及び方法のコンポーネントは、少なくとも部分的に、デジタル電子回路、アナログ電子回路、又はコンピュータハードウェア、ファームウェア、ソフトウェア、又はそれらの組み合わせで実装することができる。これらのコンポーネントは、例えば、プログラム可能プロセッサ、コンピュータ、又は複数のコンピュータなどのデータ処理装置によって実行される、又はこれらの動作を制御するための情報キャリア、又は機械可読ストレージデバイスに明確に具現化されたコンピュータプログラム、プログラムコード、又はコンピュータ命令などのコンピュータプログラム製品として実装することができる。
【0095】
コンピュータプログラムは、コンパイル又は解釈された言語を含む任意の形態のプログラミング言語で記述することができ、スタンドアロン型のプログラムとして、又はモジュール、コンポーネント、サブルーチン、若しくはコンピューティング環境での使用に適した他のユニットを含む、任意の形態でデプロイすることができる。コンピュータプログラムは、1つのコンピュータにおいて、又は1つのサイトにおいて、若しくは複数のサイトにわたり分散されており、通信ネットワークを介して相互接続されている複数のコンピュータにおいて実行されるようにデプロイすることができる。また、本発明を達成するための機能的プログラム、コード、及びコードセグメントは、本発明が属する技術分野のプログラマーによって、本発明の範囲内で容易に解釈することができる。本発明の例示的実施形態に関連付けられた方法ステップは、コンピュータプログラム、コード、又は命令を実行する1つ以上のプログラム可能プロセッサによって実行されて、(例えば、入力データで動作することによって、及び/又は出力を生成することによって)機能を実行することができる。本方法のステップは、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)によって実行することもでき、本発明の装置は、これらとして実装することもできる。
【0096】
本明細書で開示される実施形態に関連して説明される様々な例示的な論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASIC、FPGA、若しくは他のプログラム可能ロジックデバイス、別個のゲート若しくはトランジスタ論理、別個のハードウェアコンポーネント、又は本明細書に記載される機能を実行するように設計されたこれらの任意の組み合わせにより実装又は実行されてもよい。汎用プロセッサはマイクロプロセッサであってもよいが、代替的に、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又はステートマシンであってもよい。プロセッサはまた、計算デバイスの組み合わせ、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアを伴う1つ以上のマイクロプロセッサ、又は任意の他のそのような構成として実装されてもよい。
【0097】
コンピュータプログラムの実行に適したプロセッサとしては、例えば、汎用マイクロプロセッサ及び専用マイクロプロセッサの両方、及び任意の種類のデジタルコンピュータのうちの任意の1つ以上のプロセッサが挙げられる。一般的に、プロセッサは、読み取り専用メモリ又はランダムアクセスメモリ又はその両方から命令及びデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサ、並びに命令及びデータを記憶するための1つ以上のメモリデバイスである。一般的に、コンピュータはまた、例えば、磁気ディスク、光磁気ディスク、又は光ディスクにデータを記憶するための1つ以上のマスストレージデバイスを含むか、又はこれらに動作可能に連結されて、これらからデータを受信するか、又はこれらにデータを送信するか、又はその両方を行う。コンピュータプログラム命令及びデータを具現化するのに好適な情報キャリアとしては、例えば、半導体メモリデバイス、例えば、電気的プログラム可能読み出し専用メモリ又はROM(EPROM)、電気的消去可能プログラム可能ROM(EEPROM)、フラシュメモリデバイス、及びデータストレージディスク(例えば、磁気ディスク、内部ハードディスク、又は取り外し可能ディスク、光磁気ディスク、並びにCD-ROM及びDVD-ROMディスク)を含む全形態の不揮発性メモリが挙げられる。プロセッサ及びメモリは、専用論理回路によって補完されるか、又はその中に組み込まれ得る。
【0098】
当業者であれば、情報及び信号は、様々な異なるテクノロジー及び技術のいずれかを使用して表され得ることを理解する。上記の説明の至るところで参照され得る、例えば、データ、命令、コマンド、情報、信号、ビット、記号、及びチップは、電圧、電流、電磁波、磁場若しくは粒子、光場若しくは粒子、又はこれらの任意の組み合わせによって表されてもよい。
【0099】
当業者は、本明細書に開示される実施形態に関連して説明される様々な例示的な論理ブロック、モジュール、回路、及びアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア、又はそれらの両方の組み合わせとして実装され得ることを更に理解する。ハードウェア及びソフトウェアのこの互換性を明確に説明するために、様々な例示的なコンポーネント、ブロック、モジュール、回路、及びステップは、一般的に、それらの機能性に関して上述されている。そのような機能がハードウェア又はソフトウェアとして実装されるかどうかは、システム全体に課される特定のアプリケーション及び設計上の制約に依存する。当業者は、それぞれの特定の用途について様々な方法で説明された機能を実装することができるが、そのような実装決定は、本発明の範囲から逸脱を引き起こすものとして解釈されるべきではない。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、フラッシュメモリ、ROM、EPROM、EEPROM、レジスタ、ハードディスク、取り外し可能ディスク、CD-ROM、又は当該技術分野において既知の任意の他の形態のストレージ媒体内に存在してもよい。例示的なストレージ媒体は、プロセッサがストレージ媒体から情報を読み取り、ストレージ媒体に情報を書き込むことができるように、プロセッサに連結される。代替的に、ストレージ媒体はプロセッサと一体であってもよい。換言すれば、プロセッサ及びストレージ媒体は、集積回路内に存在してもよく、又は別個のコンポーネントとして実装されてもよい。
【0100】
本明細書で使用するとき、「機械可読媒体」とは、命令及びデータを一時的又は永続的に記憶することができるデバイスを意味し、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、バッファメモリ、フラッシュメモリ、光学媒体、磁気媒体、キャッシュメモリ、他のタイプのストレージ(例えば、消去可能プログラム可能読み出し専用メモリ(EEPROM))、及び/又はそれらの任意の好適な組み合わせを含み得るが、これらに限定されない。用語「機械可読媒体」は、プロセッサ命令を記憶することができる単一媒体又は複数媒体(例えば、集中型若しくは分散型データベース、又は関連するキャッシュ及びサーバ)を含むように解釈されるべきである。用語「機械可読媒体」はまた、命令が1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、本明細書に記載される方法論のうちのいずれか1つ以上を実行させるように、1つ以上のプロセッサによって実行される命令を記憶することができる、任意の媒体、又は複数の媒体の組み合わせを含むように解釈されるものとする。したがって、「機械可読媒体」とは、単一のストレージ装置又はデバイス、並びに複数のストレージ装置又はデバイスを含む「クラウドベースの」ストレージシステム又はストレージネットワークを指す。このような信号が一時的である限り、本明細書で使用するとき、用語「機械可読媒体」は、信号自体を除外する。
【0101】
上述の説明及び図面は、単に例として意図されており、添付の特許請求の範囲に記載されるものを除いて、例示的実施形態を任意の方法で制限することを意図するものではない。上述した様々な例示的実施形態の様々な要素の様々な技術的態様は、多数の他の方法で組み合わせることができ、これらの全ては、本開示の範囲内であると考えられることに留意されたい。
【0102】
したがって、例示目的で例示的実施形態が開示されてきたが、当業者であれば、様々な修正、追加、及び置換が可能であることを理解するであろう。したがって、本開示は、上述の実施形態に限定されるものではなく、添付の特許請求の範囲内で、同等物の全範囲と共に修正されてもよい。
なお、以上の各実施形態に加えて以下の態様について付記する。
(付記1)
ロボット塗装補修を提供するコンピュータで実施される方法であって、
a)1つ以上のプロセッサによって、基材における識別された各欠陥の座標を各欠陥の特性と共に受信するステップと、
b)前記1つ以上のプロセッサによって、前記基材における識別された欠陥の座標を、ロボットコントローラモジュールがロボットマニピュレータを制御するのに必要な任意の追加のデータと共に前記ロボットコントローラモジュールに通信して、前記ロボットマニピュレータのエンドエフェクタを前記基材上の前記識別された欠陥に近接させるステップと、
c)前記1つ以上のプロセッサによって、前記欠陥の特性及び前記ロボットマニピュレータの少なくとも前記エンドエフェクタの現在の状態をポリシーサーバに提供するステップと、
d)前記1つ以上のプロセッサによって、以前に学習した制御ポリシーに基づいて前記ポリシーサーバから補修アクションを受信するステップと、
e)前記1つ以上のプロセッサによって、前記ロボットコントローラモジュール及びエンドエフェクタに命令を通信して、前記補修アクションを実施することにより、前記補修アクションを実行するステップと、を含む、方法。
(付記2)
前記補修アクションが、サンディングツールのRPMの設定値、適合力フランジの制御入力、前記ロボットマニピュレータの軌道、及び総処理時間のうちの少なくとも1つを含む、付記1に記載の方法。
(付記3)
前記ロボットマニピュレータの前記軌道が、前記1つ以上のプロセッサによって、補修される前記欠陥の起点からの経時変化位置オフセットとして前記ロボットマニピュレータに通信される、付記2に記載の方法。
(付記4)
前記1つ以上のプロセッサによって、エンドエフェクタセンサから局所的に収集されたin-situ検査データを含む各欠陥の特性を受信することを更に含む、付記1に記載の方法。
(付記5)
f)前記1つ以上のプロセッサによって、前記in-situデータを、縞模様投影、偏向測定、及びカメラを使用する拡散反射又は正常白色光の強度測定のうちの少なくとも1つを使用して学習更新を作成するように機械学習ユニットに提供するステップを更に含む、付記4に記載の方法。
(付記6)
前記識別された欠陥が十分に補修されるまで、前記1つ以上のプロセッサがステップc)~f)を繰り返すことを更に含む、付記5に記載の方法。
(付記7)
前記補修アクションが、前記識別された欠陥の場所において前記基材をサンディングすることを含む、付記1に記載の方法。
(付記8)
前記補修アクションが、前記識別された欠陥の前記場所において前記基材をポリッシング又はバフ研磨することを含む、付記1に記載の方法。
(付記9)
前記1つ以上のプロセッサが前記補修アクションから得られる補修の品質に関する品質データを受信し、ロギング用に前記欠陥の前記特性及び前記品質データを前記ポリシーサーバに提供することを更に含む、付記1に記載の方法。
(付記10)
前記1つ以上のプロセッサが、特定の識別された欠陥及び後続の実行された補修の評価に基づいて、学習更新を行い、前記ポリシーサーバからの将来の補修アクションを改善する機械学習モジュールを実装することを更に含む、付記9に記載の方法。
(付記11)
前記1つ以上のプロセッサが、前記補修アクションの実行中及び/又は実行後に収集されたセンサフィードバックを使用して、補修を良好又は不良として識別し、識別された欠陥のための補修アクションを開発する強化学習を実装することを更に含む、付記10に記載の方法。
(付記12)
前記強化学習が、識別された欠陥の生画像データを補修アクションにマッピングすることと、前記補修アクションの品質に基づいて報酬を割り当てることと、前記報酬を最大化するポリシーを識別することと、によって実装される、付記11に記載の方法。
(付記13)
前記強化学習が、マルコフ決定過程(MDP)に基づいて強化学習タスクとして実装される、付記12に記載の方法。
(付記14)
前記MDPが、少なくとも初期状態、サンド済状態、ポリッシュ済状態、及び完了状態を使用してMDP遷移グラフに実装されたタスクを有する有限MDPであり、前記初期状態は、前記識別された欠陥をその元の未変更状態で含むように拡張され、前記サンド済状態及び前記ポリッシュ済状態は、それぞれ、sandingアクション及びpolishingアクションの後に発生し、前記完了状態は、前記補修処理の終了を示す、付記13に記載の方法。
(付記15)
前記サンド済状態及びポリッシュ済状態が、エンドエフェクタセンサから局所的に収集されたin-situ検査データを含む、付記14に記載の方法。
(付記16)
前記MDP遷移グラフに実装された前記タスクが、complete、tendDisc、sand、及びpolishのうちの少なくとも1つを含むアクションを含み、前記completeアクションは、処理を直ちに前記完了状態にし、tendDiscアクションは、前記ロボットマニピュレータに、前記エンドエフェクタ用の研磨ディスクを湿らせる、清掃する、又は交換するように信号を送り、前記sandアクション及び前記polishアクションは、前記エンドエフェクタのサンディングツールのRPM、印加圧力、滞留/処理時間、及び前記ロボットマニピュレータの補修軌道のうちの少なくとも1つを含むパラメータを使用して実装される、付記14に記載の方法。
(付記17)
前記sandアクション及び前記polishアクションが、連続パラメータによる連続パラメータ関数である、付記16に記載の方法。
(付記18)
前記MDP遷移グラフに実装された前記タスクが、単一のtendDiscアクション、続いて単一のsandingアクション、続いて単一のpolishingアクションを含む、付記16に記載の方法。
(付記19)
前記欠陥の前記特性が未処理の生画像を含む、付記1に記載の方法。
(付記20)
前記学習された制御ポリシーが、研磨利用データを使用して、残りの研磨寿命に基づく決定を可能にする、付記1に記載の方法。
(付記21)
物理的にシミュレートされた欠陥を使用して前記学習された制御ポリシーを見つけることを更に含む、付記1に記載の方法。
(付記22)
ロボット塗装補修システムであって、
基材のサンディング及びポリッシングのうちの少なくとも1つを行う、サンディング要素及びポリッシング要素のうちの少なくとも1つを含むエンドエフェクタを制御するロボットマニピュレータと、
前記ロボットマニピュレータの動き及び動作を制御するロボットコントローラモジュールと、
識別された欠陥を1つ以上の補修アクションに関連させる現在の学習されたポリシーを維持し、状態及び観察クエリに基づいて制御出力を提供するポリシーサーバと、
命令を処理する1つ以上のプロセッサを有する制御ユニットと、を備え、前記命令は、
前記基材における識別された各欠陥の座標を各欠陥の特性と共に受信するステップと、
前記基材における識別された欠陥の座標を、ロボットコントローラモジュールが前記ロボットマニピュレータを制御するのに必要な任意の追加のデータと共に前記ロボットコントローラモジュールに通信して、前記エンドエフェクタを前記基材上の前記識別された欠陥に近接させるステップと、
欠陥特性及び以前に学習した制御ポリシーに基づいて、前記ポリシーサーバから補修アクションを受信するステップと、
前記欠陥の特性及び前記ロボットマニピュレータの少なくとも前記エンドエフェクタの現在の状態を前記ポリシーサーバに提供するステップと、
前記ロボットコントローラモジュール及びエンドエフェクタに命令を通信して、前記補修アクションを実施することにより、前記補修アクションを実行するステップと、を実装する、ロボット塗装補修システム。
(付記23)
前記補修アクションが、サンディングツールのRPMの設定値、適合力フランジの制御入力、前記ロボットマニピュレータの軌道、及び総処理時間のうちの少なくとも1つを含む、付記22に記載のシステム。
(付記24)
前記ロボットマニピュレータの前記軌道が、前記制御ユニットによって、補修される前記欠陥の起点からの経時変化位置オフセットとして前記ロボットマニピュレータに通信される、付記23に記載のシステム。
(付記25)
前記補修アクションが、前記識別された欠陥の前記場所において前記基材をサンディングすることを含む、付記22に記載のシステム。
(付記26)
前記補修アクションが、前記識別された欠陥の前記場所において前記基材をポリッシング又はバフ研磨することを含む、付記22に記載のシステム。
(付記27)
前記制御ユニットが、前記補修アクションから得られる補修の品質に関する品質データを受信し、ロギング用に前記欠陥の前記特性及び前記品質データを前記ポリシーサーバに提供する、付記22に記載のシステム。
(付記28)
特定の識別された欠陥及び後続の実行された補修の評価に基づいて、学習更新を行い、前記ポリシーサーバからの将来の補修アクションを改善する機械学習モジュールを更に含む、付記27に記載のシステム。
(付記29)
前記基材における識別された欠陥のin-situ検査データを収集する少なくとも1つのセンサを更に含み、前記機械学習ユニットは、前記少なくとも1つのセンサから前記in-situ検査データを受信し、縞模様投影、偏向測定、及びカメラを使用する拡散反射又は正常白色光の強度測定のうちの少なくとも1つを使用して学習更新を作成する、付記28に記載のシステム。
(付記30)
前記機械学習モジュールが、前記補修アクションの実行中及び/又は実行後に収集されたセンサフィードバックを使用して、補修を良好又は不良として識別し、識別された欠陥のための補修アクションを開発する強化学習を実装する、付記28に記載のシステム。
(付記31)
前記強化学習が、前記機械学習モジュールによって、識別された欠陥の生画像を補修アクションにマッピングすることと、前記補修アクションの品質に基づいて報酬を割り当てることと、前記報酬を最大化するポリシーを識別することと、によって実装される、付記30に記載のシステム。
(付記32)
前記強化学習が、マルコフ決定過程(MDP)に基づいて強化学習タスクとして前記機械学習モジュールによって実装される、付記31に記載のシステム。
(付記33)
前記MDPが、少なくとも初期状態、サンド済状態、ポリッシュ済状態、及び完了状態を使用してMDP遷移グラフに実装されたタスクを有する有限MDPであり、前記初期状態は、前記識別された欠陥をその元の未変更状態で含むように拡張され、前記サンド済状態及び前記ポリッシュ済状態は、それぞれ、sandingアクション及びpolishingアクションの後に発生し、前記完了状態は、前記補修処理の終了を示す、付記32に記載のシステム。
(付記34)
前記MDP遷移グラフに実装された前記タスクが、complete、tendDisc、sand、及びpolishのうちの少なくとも1つを含むアクションを含み、前記completeアクションは、処理を直ちに前記完了状態にし、tendDiscアクションは、前記ロボットマニピュレータに、前記エンドエフェクタ用の研磨ディスクを湿らせる、清掃する、又は交換するように信号を送り、前記sandアクション及び前記polishアクションは、前記エンドエフェクタのサンディングツールのRPM、印加圧力、滞留/処理時間、及び前記ロボットマニピュレータの補修軌道のうちの少なくとも1つを含むパラメータを使用して実装される、付記33に記載のシステム。
(付記35)
前記sandアクション及び前記polishアクションが、連続パラメータによる連続パラメータ関数である、付記34に記載のシステム。
(付記36)
前記機械学習モジュールによって前記MDP遷移グラフに実装された前記タスクが、単一のtendDiscアクション、続いて単一のsandingアクション、続いて単一のpolishingアクションを含む、付記34に記載のシステム。
(付記37)
前記欠陥の前記特性が未処理の生画像を含む、付記22に記載のシステム。
(付記38)
前記学習された制御ポリシーが、研磨利用データを使用して、残りの研磨寿命に基づく決定を可能にする、付記22に記載のシステム。
(付記39)
物理的にシミュレートされた欠陥を使用して前記学習された制御ポリシーを見つけることを更に含む、付記22に記載のシステム。