IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ファナック株式会社の特許一覧 ▶ 株式会社日立製作所の特許一覧

特許7478848教師データ生成装置、機械学習装置、及びロボット関節角度推定装置
<>
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図1
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図2A
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図2B
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図3
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図4
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図5
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図6
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図7
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図8
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図9
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図10
  • 特許-教師データ生成装置、機械学習装置、及びロボット関節角度推定装置 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-24
(45)【発行日】2024-05-07
(54)【発明の名称】教師データ生成装置、機械学習装置、及びロボット関節角度推定装置
(51)【国際特許分類】
   B25J 19/04 20060101AFI20240425BHJP
   B25J 13/00 20060101ALI20240425BHJP
【FI】
B25J19/04
B25J13/00 Z
【請求項の数】 6
(21)【出願番号】P 2022572200
(86)(22)【出願日】2021-12-14
(86)【国際出願番号】 JP2021046117
(87)【国際公開番号】W WO2022138339
(87)【国際公開日】2022-06-30
【審査請求日】2023-05-19
(31)【優先権主張番号】P 2020211712
(32)【優先日】2020-12-21
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】390008235
【氏名又は名称】ファナック株式会社
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100165157
【弁理士】
【氏名又は名称】芝 哲央
(74)【代理人】
【識別番号】100160794
【弁理士】
【氏名又は名称】星野 寛明
(72)【発明者】
【氏名】中田 洋平
(72)【発明者】
【氏名】本▲高▼ 丈士
【審査官】樋口 幸太郎
(56)【参考文献】
【文献】特開平05-088721(JP,A)
【文献】米国特許出願公開第2020/0311855(US,A1)
【文献】国際公開第2020/084667(WO,A1)
【文献】国際公開第2019/138111(WO,A1)
【文献】特開平05-189398(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B25J 19/04
B25J 13/00
(57)【特許請求の範囲】
【請求項1】
カメラにより撮影されたロボットの2次元画像を入力し前記2次元画像が撮影された時の前記ロボットに含まれる複数の関節軸の中心の位置を示す2次元姿勢を出力する2次元骨格推定モデルと、前記2次元骨格推定モデルから出力された前記2次元姿勢並びに前記カメラと前記ロボットとの間の距離及び傾きを入力し前記複数の関節軸の角度を出力する関節角度推定モデルと、を含む学習済みモデルを生成するための教師データを生成する教師データ生成装置であって、
前記カメラにより撮影された前記ロボットの2次元画像と前記カメラと前記ロボットとの間の距離及び傾きと、を取得する入力データ取得部と、
前記2次元画像が撮影された時の前記複数の関節軸の角度と、前記2次元姿勢と、をラベルデータとして取得するラベル取得部と、
を備える教師データ生成装置。
【請求項2】
請求項1に記載の教師データ生成装置により生成された教師データに基づいて教師あり学習を実行し、学習済みモデルを生成する学習部
を備える機械学習装置。
【請求項3】
請求項1に記載の教師データ生成装置を備える、請求項2に記載の機械学習装置。
【請求項4】
請求項2又は請求項3に記載の機械学習装置により生成された学習済みモデルと、
カメラにより撮影されたロボットの2次元画像と、前記カメラと前記ロボットとの間の距離及び傾きと、を入力する入力部と、
前記入力部により入力された前記2次元画像と、前記カメラと前記ロボットとの間の距離及び傾きと、を前記学習済みモデルに入力し、前記2次元画像が撮影された時の前記ロボットに含まれる複数の関節軸の角度と、前記2次元画像における前記複数の関節軸の中心の位置を示す2次元姿勢と、を推定する推定部と、
を備えるロボット関節角度推定装置。
【請求項5】
前記学習済みモデルを、前記ロボット関節角度推定装置からネットワークを介してアクセス可能に接続されるサーバに備える、請求項4に記載のロボット関節角度推定装置。
【請求項6】
請求項2又は請求項3に記載の機械学習装置を備える、請求項4又は請求項5に記載のロボット関節角度推定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、教師データ生成装置、機械学習装置、及びロボット関節角度推定装置に関する。
【背景技術】
【0002】
ロボットのツール先端点を設定する方法として、ロボットを動作させ、ツール先端点を治具等に複数姿勢で接するように教示し、各姿勢での関節軸の角度からツール先端点を算出する方法が知られている。例えば、特許文献1参照。
【先行技術文献】
【特許文献】
【0003】
【文献】特開平8-085083号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、ロボットの各関節軸の角度を取得するには、ロボットプログラムにログ機能を実装するか、ロボットの専用I/Fを用いてデータ取得する必要がある。
しかしながら、ログ機能又は専用I/Fが実装されていないロボットでは、ロボットの各関節軸の角度を取得することができない。
【0005】
そこで、ログ機能又は専用I/Fが実装されていないロボットでもロボットの各関節軸の角度を容易に取得することが望まれている。
【課題を解決するための手段】
【0006】
(1)本開示の教師データ生成装置の一態様は、カメラにより撮影されたロボットの2次元画像と、前記カメラと前記ロボットとの間の距離及び傾きと、を入力して、前記2次元画像が撮影された時の前記ロボットに含まれる複数の関節軸の角度と、前記2次元画像における前記複数の関節軸の中心の位置を示す2次元姿勢と、を推定する学習済みモデルを生成するための教師データを生成する教師データ生成装置であって、前記カメラにより撮影された前記ロボットの2次元画像と前記カメラと前記ロボットとの間の距離及び傾きと、を取得する入力データ取得部と、前記2次元画像が撮影された時の前記複数の関節軸の角度と、前記2次元姿勢と、をラベルデータとして取得するラベル取得部と、を備える。
【0007】
(2)本開示の機械学習装置の一態様は、(1)の教師データ生成装置により生成された教師データに基づいて教師あり学習を実行し、学習済みモデルを生成する学習部を備える。
【0008】
(3)本開示のロボット関節角度推定装置の一態様は、(2)の機械学習装置により生成された学習済みモデルと、カメラにより撮影されたロボットの2次元画像と、前記カメラと前記ロボットとの間の距離及び傾きと、を入力する入力部と、前記入力部により入力された前記2次元画像と、前記カメラと前記ロボットとの間の距離及び傾きと、を前記学習済みモデルに入力し、前記2次元画像が撮影された時の前記ロボットに含まれる複数の関節軸の角度と、前記2次元画像における前記複数の関節軸の中心の位置を示す2次元姿勢と、を推定する推定部と、を備える。
【発明の効果】
【0009】
一態様によれば、ログ機能又は専用I/Fが実装されていないロボットでもロボットの各関節軸の角度を容易に取得することができる。
【図面の簡単な説明】
【0010】
図1】学習フェーズにおける一実施形態に係るシステムの機能的構成例を示す機能ブロック図である。
図2A】関節軸J4の角度が90度のフレーム画像の一例を示す図である。
図2B】関節軸J4の角度が-90度のフレーム画像の一例を示す図である。
図3】教師データの数を増やすための一例を示す図である。
図4】正規化したXY座標における関節軸の座標値の一例を示す図である。
図5】2次元骨格推定モデルと関節角度推定モデルとの関係の一例を示す図である。
図6】ロボットの関節軸の特徴マップの一例を示す図である。
図7】フレーム画像と2次元骨格推定モデルの出力結果との比較の一例を示す図である。
図8】関節角度推定モデルの一例を示す図である。
図9】運用フェーズにおける一実施形態に係るシステムの機能的構成例を示す機能ブロック図である。
図10】運用フェーズにおける端末装置の推定処理について説明するフローチャートである。
図11】システムの構成の一例を示す図である。
【発明を実施するための形態】
【0011】
以下、本開示の一実施形態について、図面を用いて説明する。
<一実施形態>
まず、本実施形態の概略を説明する。本実施形態では、スマートフォン等の端末装置は、学習フェーズにおいて、端末装置に含まれるカメラにより撮影されたロボットの2次元画像と、カメラとロボットとの間の距離及び傾きと、を入力して、2次元画像が撮影された時のロボットに含まれる複数の関節軸の角度と、複数の関節軸の中心の位置を示す2次元姿勢と、を推定する学習済みモデルを生成するための教師データを生成する教師データ生成装置(アノテーション自動化装置)として、動作する。
端末装置は、生成した教師データを機械学習装置に提供し、機械学習装置は、提供された教師データに基づき教師あり学習を実行し、学習済みモデルを生成する。機械学習装置は、生成した学習済みモデルを携帯端末に提供する。
端末装置は、運用フェーズにおいて、カメラにより撮影されたロボットの2次元画像と、カメラとロボットとの間の距離及び傾きと、を学習済みモデルに入力し、2次元画像が撮影された時のロボットの複数の関節軸の角度と、複数の関節軸の中心の位置を示す2次元姿勢と、を推定するロボット関節角度推定装置端末装置として動作する。
【0012】
これにより、本実施形態によれば、「ログ機能又は専用I/Fが実装されていないロボットでもロボットの各関節軸の角度を容易に取得する」という課題を解決することができる。
以上が本実施形態の概略である。
【0013】
次に、本実施形態の構成について図面を用いて詳細に説明する。
<学習フェーズにおけるシステム>
図1は、学習フェーズにおける一実施形態に係るシステムの機能的構成例を示す機能ブロック図である。図1に示すように、システム1は、ロボット10、教師データ生成装置としての端末装置20、及び機械学習装置30を有する。
【0014】
ロボット10、端末装置20、及び機械学習装置30は、無線LAN(Local Area Network)、Wi-Fi(登録商標)、及び4Gや5G等の規格に準拠した携帯電話網等の図示しないネットワークを介して相互に接続されていてもよい。この場合、ロボット10、端末装置20、及び機械学習装置30は、かかる接続によって相互に通信を行うための図示しない通信部を備えている。なお、ロボット10と端末装置20とは、図示しない通信部を介してデータの送受信を行うとしたが、ロボット10の動作を制御するロボット制御装置(図示しない)を介してデータの送受信を行うようにしてもよい。
また、後述するように、端末装置20は、機械学習装置30を含むようにしてもよい。また、端末装置20及び機械学習装置30は、ロボット制御装置(図示しない)に含まれてもよい。
以下の説明では、教師データ生成装置として動作する端末装置20は、全てのデータが同期の取れるタイミングで取得されたデータのみを教師データとして取得する。例えば、端末装置20に含まれるカメラが30フレーム/秒でフレーム画像を撮影し、ロボット10に含まれる複数の関節軸の角度を取得できる周期が100ミリ秒で、他のデータが即時に取得できる場合、端末装置20は、100ミリ秒周期で教師データをファイル出力する。
【0015】
<ロボット10>
ロボット10は、例えば、当業者にとって公知の産業用ロボット等であり、関節角度応答サーバ101を組み込んで有する。ロボット10は、ロボット制御装置(図示しない)からの駆動指令に基づいて、ロボット10に含まれる図示しない複数の関節軸の各々に配置される図示しないサーボモータを駆動することにより、ロボット10の可動部材(図示しない)を駆動する。
なお、以下では、ロボット10は、6つの関節軸J1~J6を有する6軸の垂直多関節ロボットとして説明するが、6軸以外の垂直多関節ロボットでもよく、水平多関節ロボットやパラレルリンクロボット等でもよい。
【0016】
関節角度応答サーバ101は、例えば、コンピュータ等であり、後述する教師データ生成装置としての端末装置20からのリクエストに基づいて、上述の100ミリ秒等の同期の取れる所定の周期でロボット10の関節軸J1~J6の角度を含む関節角度データを出力する。なお、関節角度応答サーバ101は、上述したように、教師データ生成装置としての端末装置20に直接出力してもよく、ロボット制御装置(図示しない)を介して教師データ生成装置としての端末装置20に出力してもよい。
また、関節角度応答サーバ101は、ロボット10とは独立した装置でもよい。
【0017】
<端末装置20>
端末装置20は、例えば、スマートフォン、タブレット端末、拡張現実(AR:Augmented Reality)グラス、複合現実(MR:Mixed Reality)グラス等である。
図1に示すように、端末装置20は、運用フェーズにおいて、教師データ生成装置として、制御部21、カメラ22、通信部23、及び記憶部24を有する。また、制御部21は、3次元物体認識部211、自己位置推定部212、関節角度取得部213、順運動学計算部214、投影部215、入力データ取得部216、及びラベル取得部217を有する。
【0018】
カメラ22は、例えば、デジタルカメラ等であり、ユーザである作業者の操作に基づいて所定のフレームレート(例えば、30フレーム/秒等)でロボット10を撮影し、カメラ22の光軸に対して垂直な平面に投影した2次元画像であるフレーム画像を生成する。カメラ22は、上述の100ミリ秒等の同期の取れる所定の周期で生成したフレーム画像を後述する制御部21に出力する。なお、カメラ22により生成されるフレーム画像は、RGBカラー画像やグレースケール画像等の可視光画像でもよい。
【0019】
通信部23は、無線LAN(Local Area Network)、Wi-Fi(登録商標)、及び4Gや5G等の規格に準拠した携帯電話網等のネットワークとデータの送受信を行う通信制御デバイスである。通信部23は、関節角度応答サーバ101と直接通信してもよく、ロボット10の動作を制御するロボット制御装置(図示しない)を介して関節角度応答サーバ101と通信してもよい。
【0020】
記憶部24は、例えば、ROM(Read Only Memory)やHDD(Hard Disk Drive)等であり、後述する制御部21が実行するシステムプログラム及び教師データ生成アプリケーションプログラム等を格納する。また、記憶部24は、入力データ241、ラベルデータ242、及び3次元認識モデルデータ243を記憶してもよい。
入力データ241は、後述する入力データ取得部216により取得された入力データを格納する。
ラベルデータ242は、後述するラベル取得部217により取得されたラベルデータを格納する。
【0021】
3次元認識モデルデータ243は、例えば、予めロボット10の姿勢や方向を変化させ、カメラ22により様々な距離、角度(傾き)で撮影されたロボット10の複数のフレーム画像それぞれから抽出されたエッジ量等の特徴量を、3次元認識モデルとして格納する。また、3次元認識モデルデータ243は、各3次元認識モデルのフレーム画像が撮影された時のワールド座標系におけるロボット10のロボット座標系の原点(以下、「ロボット原点」ともいう)の3次元座標値、及びワールド座標系におけるロボット座標系のX軸、Y軸、Z軸それぞれの方向を示す情報も、3次元認識モデルに対応付けして格納するようにしてもよい。
なお、端末装置20が教師データ生成アプリケーションプログラムを起動した時に、ワールド座標系が定義され、端末装置20(カメラ22)のカメラ座標系の原点の位置が、当該ワールド座標系の座標値として取得される。そして、教師データ生成アプリケーションプログラムを起動した後に端末装置20(カメラ22)が移動すると、カメラ座標系における原点はワールド座標系における原点から移動する。
【0022】
<制御部21>
制御部21は、CPU(Central Processing Unit)、ROM、RAM、CMOS(Complementary Metal-Oxide-Semiconductor)メモリ等を有し、これらはバスを介して相互に通信可能に構成される、当業者にとって公知のものである。
CPUは端末装置20を全体的に制御するプロセッサである。CPUは、ROMに格納されたシステムプログラム及び教師データ生成アプリケーションプログラムを、バスを介して読み出し、システムプログラム及び教師データ生成アプリケーションプログラムに従って端末装置20全体を制御する。これにより、図1に示すように、制御部21が、3次元物体認識部211、自己位置推定部212、関節角度取得部213、順運動学計算部214、投影部215、入力データ取得部216、及びラベル取得部217の機能を実現するように構成される。RAMには一時的な計算データや表示データ等の各種データが格納される。また、CMOSメモリは図示しないバッテリでバックアップされ、端末装置20の電源がオフされても記憶状態が保持される不揮発性メモリとして構成される。
【0023】
<3次元物体認識部211>
3次元物体認識部211は、カメラ22により撮影されたロボット10のフレーム画像を取得する。3次元物体認識部211は、例えば、公知のロボットの3次元座標認識の方法(例えば、https://linx.jp/product/mvtec/halcon/feature/3d_vision.html)を用いて、カメラ22により撮影されたロボット10のフレーム画像からエッジ量等の特徴量を抽出する。3次元物体認識部211は、抽出した特徴量と、3次元認識モデルデータ243に格納された3次元認識モデルの特徴量とのマッチングを行う。3次元物体認識部211は、マッチングの結果に基づいて、例えば、一致度が最も高い3次元認識モデルにおけるワールド座標系におけるロボット原点の3次元座標値、及びロボット座標系のX軸、Y軸、Z軸それぞれの方向を示す情報を取得する。
なお、3次元物体認識部211は、ロボットの3次元座標認識の方法を用いて、ワールド座標系におけるロボット原点の3次元座標値、及びロボット座標系のX軸、Y軸、Z軸それぞれの方向を示す情報を取得したが、これに限定されない。例えば、3次元物体認識部211は、ロボット10にチェッカーボード等のマーカーを取り付け、公知のマーカー認識技術に基づいてカメラ22により撮影された当該マーカーの画像からワールド座標系におけるロボット原点の3次元座標値、及びロボット座標系のX軸、Y軸、Z軸それぞれの方向を示す情報を取得するようにしてもよい。
あるいは、ロボット10にUWB(Ultra Wide Band)等の屋内測位デバイスが取り付けられ、3次元物体認識部211は、屋内測位デバイスからワールド座標系におけるロボット原点の3次元座標値、及びロボット座標系のX軸、Y軸、Z軸それぞれの方向を示す情報を取得するようにしてもよい。
【0024】
<自己位置推定部212>
自己位置推定部212は、公知の自己位置推定の手法を用いて、ワールド座標系におけるカメラ22のカメラ座標系の原点の3次元座標値(以下、「カメラ22の3次元座標値」ともいう)を取得する。自己位置推定部212は、取得したカメラ22の3次元座標値と、3次元物体認識部211により取得された3次元座標と、に基づいて、カメラ22とロボット10との間の距離及び傾きを算出するようにしてもよい。
【0025】
<関節角度取得部213>
関節角度取得部213は、例えば、通信部23を介して上述の100ミリ秒等の同期の取れる所定の周期で関節角度応答サーバ101にリクエストを送信し、フレーム画像が撮影された時のロボット10の関節軸J1~J6の角度を取得する。
【0026】
<順運動学計算部214>
順運動学計算部214は、例えば、予め定義したDH(Denavit-Hartenberg)パラメータ表を用いて、関節角度取得部213により取得された関節軸J1~J6の角度から順運動学を解き、関節軸J1~J6の中心の位置の3次元座標値を計算し、ワールド座標系におけるロボット10の3次元姿勢を計算する。なお、DHパラメータ表は、例えば、ロボット10の仕様書を基に予め作成され、記憶部24に記憶される。
【0027】
<投影部215>
投影部215は、例えば、公知の2次元平面への投影の方法を用いて、順運動学計算部214により計算されたロボット10の関節軸J1~J6の中心の位置をワールド座標系の3次元空間に配置し、自己位置推定部212により算出されたカメラ22とロボット10との間の距離及び傾きで決まるカメラ22の視点から、カメラ22とロボット10との間の距離及び傾きで決まる投影面に投影することで、関節軸J1~J6の中心の位置の2次元座標(ピクセル座標)(x,y)をロボット10の2次元姿勢として生成する。なお、iは、1~6の整数である。
【0028】
なお、図2A及び図2Bに示すように、ロボット10の姿勢や撮影方向により関節軸がフレーム画像において隠れてしまう場合がある。
図2Aは、関節軸J4の角度が90度のフレーム画像の一例を示す図である。図2Bは、関節軸J4の角度が-90度のフレーム画像の一例を示す図である。
図2Aのフレーム画像では、関節軸J6が隠れて写っていない。一方、図2Bのフレーム画像では、関節軸J6が写っている。
そこで、投影部215は、ロボット10の隣接する関節軸同士を線分で繋ぐとともに、予め設定されたロボット10のリンク幅で各線分に厚みを定義する。投影部215は、順運動学計算部214により算出されたロボット10の3次元姿勢と、カメラ22とロボット10との間の距離及び傾きで決まるカメラ22の光軸方向と、に基づいて線分上に他の関節軸があるか否かを判定する。投影部215は、他の関節軸Jiが線分に対してカメラ22側と反対の奥行方向にある、図2Aのような場合、他の関節軸Ji(図2Aの関節軸J6)の確信度cを「0」に設定する。一方、投影部215は、他の関節軸Jiが線分に対してカメラ22側にある、図2Bのような場合、他の関節軸Ji(図2Bの関節軸J6)の確信度cを「1」に設定する。
すなわち、投影部215は、投影した関節軸J1~J6の中心の位置の2次元座標(ピクセル座標)(x,y)に対して、フレーム画像において各関節軸J1~J6が写っているか否かを示す確信度cをロボット10の2次元姿勢に含めるようにしてもよい。
【0029】
また、後述する機械学習装置30において教師あり学習を行うための訓練データは、多数用意されることが望ましい。
図3は、教師データの数を増やすための一例を示す図である。
図3に示すように、投影部215は、例えば、教師データを増やすために、カメラ22とロボット10との間の距離及び傾きをランダムに与え、順運動学計算部214により算出されたロボット10の3次元姿勢を回転させる。投影部215は、回転されたロボット10の3次元姿勢を、ランダムに与えられた距離及び傾きで決まる2次元平面に投影することによりロボット10の2次元姿勢を多数生成してもよい。
【0030】
<入力データ取得部216>
入力データ取得部216は、カメラ22により撮影されたロボット10のフレーム画像と、フレーム画像を撮影したカメラ22とロボット10との間の距離及び傾きと、を入力データとして取得する。
具体的には、入力データ取得部216は、例えば、カメラ22からフレーム画像を入力データとして取得する。また、入力データ取得部216は、取得したフレーム画像が撮影された時のカメラ22とロボット10との間の距離及び傾きを自己位置推定部212から取得する。入力データ取得部216は、取得したフレーム画像と、カメラ22とロボット10との間の距離及び傾きと、を入力データとして取得し、取得した入力データを記憶部24の入力データ241に格納する。
なお、入力データ取得部216は、学習済みモデルとして構成される後述する関節角度推定モデル252の生成にあたり、図4に示すように、投影部215により生成された2次元姿勢に含まれる関節軸J1~J6の中心の位置の2次元座標(ピクセル座標)(x,y)を、ロボット10のベースリンクである関節軸J1を原点とし、フレーム画像の幅で除算して-1<X<1、及びフレーム画像の高さで除算して-1<Y<1にそれぞれ正規化したXY座標の値に変換するようにしてもよい。
【0031】
<ラベル取得部217>
ラベル取得部217は、上述の100ミリ秒等の同期の取れる所定の周期でフレーム画像が撮影された時のロボット10の関節軸J1~J6の角度と、当該フレーム画像におけるロボット10の関節軸J1~J6の中心の位置を示す2次元姿勢と、をラベルデータ(正解データ)として取得する。
具体的には、ラベル取得部217は、例えば、ロボット10の関節軸J1~J6の中心の位置を示す2次元姿勢、及び関節軸J1~J6の角度を、投影部215、及び関節角度取得部213から、ラベルデータ(正解データ)として取得する。ラベル取得部217は、取得したラベルデータを記憶部24のラベルデータ242に記憶する。
【0032】
<機械学習装置30>
機械学習装置30は、例えば、上述の入力データ241に格納されるカメラ22により撮影されたロボット10のフレーム画像と、フレーム画像を撮影したカメラ22とロボット10との間の距離及び傾きと、を端末装置20から入力データとして取得する。
また、機械学習装置30は、ラベルデータ242に格納されるカメラ22によりフレーム画像が撮影された時のロボット10の関節軸J1~J6の角度と、関節軸J1~J6の中心の位置を示す2次元姿勢と、を端末装置20からラベル(正解)として取得する。
機械学習装置30は、取得した入力データとラベルとの組の訓練データにより教師あり学習を行い、後述する学習済みモデルを構築する。
そうすることで、機械学習装置30は、構築した学習済みモデルを端末装置20に提供することができる。
機械学習装置30について、具体的に説明する。
【0033】
機械学習装置30は、図1に示すように、学習部301、及び記憶部302を有する。
【0034】
学習部301は、上述したように、入力データとラベルとの組を訓練データとして端末装置20から受け付ける。学習部301は、受け付けた訓練データを用いて、教師あり学習を行うことにより、端末装置20が、後述するように、ロボット関節角度推定装置として動作する場合、カメラ22により撮影されたロボット10のフレーム画像と、カメラ22とロボット10との間の距離及び傾きと、を入力し、ロボット10の関節軸J1~J6の角度と、関節軸J1~J6の中心の位置を示す2次元姿勢と、を出力する学習済みモデルを構築する。
なお、本発明では、学習済みモデルを、2次元骨格推定モデル251と、関節角度推定モデル252と、から構成されるように構築する。
図5は、2次元骨格推定モデル251と関節角度推定モデル252との関係の一例を示す図である。
図5に示すように、2次元骨格推定モデル251は、ロボット10のフレーム画像を入力し、フレーム画像におけるロボット10の関節軸J1~J6の中心の位置を示すピクセル座標の2次元姿勢を出力するモデルである。一方、関節角度推定モデル252は、2次元骨格推定モデル251から出力された2次元姿勢と、カメラ22とロボット10との間の距離及び傾きと、を入力し、ロボット10の関節軸J1~J6の角度を出力するモデルである。
そして、学習部301は、構築した2次元骨格推定モデル251と関節角度推定モデル252との学習済みモデルを端末装置20に対して提供する。
以下、2次元骨格推定モデル251及び関節角度推定モデル252それぞれの構築について説明する。
【0035】
<2次元骨格推定モデル251>
学習部301は、例えば、公知のマーカーレス動物追跡ツール(例えば、DeepLabCut)等に用いられる深層学習モデルに基づいて、端末装置20から受け付けたロボット10のフレーム画像の入力データと、当該フレーム画像が撮影された時の関節軸J1~J6の中心の位置を示す2次元姿勢のラベルと、の訓練データを基に機械学習し、端末装置20のカメラ22により撮影されたロボット10のフレーム画像を入力し、撮影されたフレーム画像におけるロボット10の関節軸J1~J6の中心の位置を示すピクセル座標の2次元姿勢を出力する2次元骨格推定モデル251を生成する。
具体的には、2次元骨格推定モデル251は、ニューラルネットワークである、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)に基づいて構築する。
【0036】
畳み込みニューラルネットワークは、畳み込み層、プーリング層、全結合層、及び出力層を備えた構造となっている。
畳み込み層では、エッジ抽出等の特徴抽出を行うために、入力されたフレーム画像に対して所定のパラメータのフィルタをかける。このフィルタにおける所定のパラメータは、ニューラルネットワークの重みに相当しており、フォワードプロパゲーションやバックプロパゲーションを繰り返すことにより学習されていく。
プーリング層では、ロボット10の位置ズレを許容するために、畳み込み層から出力された画像をぼかす。これにより、ロボット10の位置が変動しても同一の物体であるとみなすことができる。
これら畳み込み層及びプーリング層を組み合わせることによって、フレーム画像から特徴量を抽出することができる。
【0037】
全結合層では、畳み込み層及びプーリング層を通して特徴部分が取り出された画像データを1つのノードに結合し、活性化関数によって変換した値、すなわち確信度の特徴マップを出力する。
図6は、ロボット10の関節軸J1~J6の特徴マップの一例を示す図である。
図6に示すように、各関節軸J1~J6の特徴マップでは、確信度cの値を0~1の範囲で表わされ、セルが関節軸の中心の位置に近いほど「1」に近い値が得られ、関節軸の中心の位置から離れるに従い「0」に近い値が得られる。
出力層では、全結合層からの出力を、各関節軸J1~J6の特徴マップにおいて確信度が最大値となるセルの行(row)、列(column)及び確信度(maximum)を出力する。なお、畳み込み層でフレーム画像が1/Nに畳み込まれた場合、出力層では、セルの行(row)及び列(column)をN倍して、フレーム画像における各関節軸J1~J6の中心の位置を示すピクセル座標とする(Nは1以上の整数)。
図7は、フレーム画像と2次元骨格推定モデル251の出力結果との比較の一例を示す図である。
【0038】
<関節角度推定モデル252>
学習部301は、例えば、カメラ22とロボット10との間の距離及び傾き、及び上述の正規化された関節軸J1~J6の中心の位置を示す2次元姿勢を入力データと、フレーム画像が撮影された時のロボット10の関節軸J1~J6の角度のラベルデータと、の訓練データを基に機械学習し、関節角度推定モデル252を生成する。
なお、学習部301は、2次元骨格推定モデル251から出力された関節軸J1~J6の2次元姿勢を正規化したが、2次元骨格推定モデル251から正規化された2次元姿勢が出力されるように、2次元骨格推定モデル251を生成するにしてもよい。
【0039】
図8は、関節角度推定モデル252の一例を示す図である。ここでは、関節角度推定モデル252は、図8に示すように、2次元骨格推定モデル251から出力され正規化された関節軸J1~J6の中心の位置を示す2次元姿勢と、カメラ22とロボット10との間の距離及び傾きと、を入力層として、関節軸J1~J6の角度を出力層とする多層ニューラルネットワークを例示する。なお、2次元姿勢は、正規化された関節軸J1~J6の中心の位置である座標(x,y)と確信度cとを含む(x,y,c)である。
【0040】
また、「X軸の傾きRx」、「Y軸の傾きRy」、及び「Z軸の傾きRz」は、ワールド座標系におけるカメラ22の3次元座標値と、ワールド座標系におけるロボット10のロボット原点の3次元座標値と、に基づいて算出される、ワールド座標系におけるカメラ22とロボット10との間のX軸周りの回転角、Y軸周りの回転角、及びZ軸周りの回転角である。
【0041】
また、学習部301は、2次元骨格推定モデル251及び関節角度推定モデル252から構成される学習済みモデルを構築した後に、新たな訓練データを取得した場合には、2次元骨格推定モデル251及び関節角度推定モデル252から構成される学習済みモデルに対してさらに教師あり学習を行うことにより、一度構築した2次元骨格推定モデル251及び関節角度推定モデル252から構成される学習済みモデルを更新するようにしてもよい。
そうすることで、普段のロボット10の撮影から訓練データを自動的に得ることができるため、ロボット10の2次元姿勢及び関節軸J1~J6の角度の推定精度を日常的に上げることができる。
【0042】
上述した教師あり学習は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、ロボット10のフレーム画像が撮影され、訓練データが作成される都度、即座に教師あり学習を行うという学習方法である。また、バッチ学習とは、ロボット10のフレーム画像が撮影され、訓練データが作成されることが繰り返される間に、繰り返しに応じた複数の訓練データを収集し、収集した全ての訓練データを用いて、教師あり学習を行うという学習方法である。さらに、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度訓練データが溜まるたびに教師あり学習を行うという学習方法である。
【0043】
記憶部302は、RAM(Random Access Memory)等であり、端末装置20から取得された入力データ及びラベルデータ、及び学習部301により構築された2次元骨格推定モデル251及び関節角度推定モデル252等を記憶する。
以上、ロボット関節角度推定装置として動作する場合の端末装置20が備える2次元骨格推定モデル251及び関節角度推定モデル252を生成するための機械学習について説明した。
次に、運用フェーズにおけるロボット関節角度推定装置として動作する端末装置20について説明する。
【0044】
<運用フェーズにおけるシステム>
図9は、運用フェーズにおける一実施形態に係るシステムの機能的構成例を示す機能ブロック図である。図1に示すように、システム1は、ロボット10、及びロボット関節角度推定装置としての端末装置20を有する。なお、図1のシステム1の要素と同様の機能を有する要素については、同じ符号を付し、詳細な説明は省略する。
図1に示すように、運用フェーズにおけるロボット関節角度推定装置として動作する端末装置20は、制御部21a、カメラ22、通信部23、及び記憶部24aを有する。また、制御部21aは、3次元物体認識部211、自己位置推定部212、入力部220、及び推定部221を有する。
【0045】
カメラ22及び通信部23は、学習フェーズにおけるカメラ22及び通信部23と同様である。
【0046】
記憶部24aは、例えば、ROM(Read Only Memory)やHDD(Hard Disk Drive)等であり、後述する制御部21aが実行するシステムプログラム及びロボット関節角度推定アプリケーションプログラム等を格納する。また、記憶部24aは、学習フェーズにおいて機械学習装置30から提供された学習済みモデルとしての2次元骨格推定モデル251及び関節角度推定モデル252と、3次元認識モデルデータ243と、を記憶してもよい。
【0047】
<制御部21a>
制御部21aは、CPU(Central Processing Unit)、ROM、RAM、CMOS(Complementary Metal-Oxide-Semiconductor)メモリ等を有し、これらはバスを介して相互に通信可能に構成される、当業者にとって公知のものである。
CPUは端末装置20を全体的に制御するプロセッサである。CPUは、ROMに格納されたシステムプログラム及びロボット関節角度推定アプリケーションプログラムを、バスを介して読み出し、システムプログラム及びロボット関節角度推定アプリケーションプログラムに従ってロボット関節角度推定装置として端末装置20全体を制御する。これにより、図9に示すように、制御部21aが、3次元物体認識部211、自己位置推定部212、入力部220、及び推定部221の機能を実現するように構成される。
【0048】
3次元物体認識部211及び自己位置推定部212は、学習フェーズの3次元物体認識部211及び自己位置推定部212と同様である。
【0049】
<入力部220>
入力部220は、カメラ22により撮影されたロボット10のフレーム画像と、自己位置推定部212により算出されたカメラ22とロボット10との間の距離L、X軸の傾きRx、Y軸の傾きRy、及びZ軸の傾きRzと、を入力する。
【0050】
<推定部221>
推定部221は、入力部220により入力されたロボット10のフレーム画像と、カメラ22とロボット10との間の距離L、X軸の傾きRx、Y軸の傾きRy、及びZ軸の傾きRzと、を、学習済みモデルとしての2次元骨格推定モデル251及び関節角度推定モデル252に入力する。そうすることで、推定部221は、2次元骨格推定モデル251及び関節角度推定モデル252の出力から、入力されたフレーム画像が撮影された時のロボット10の関節軸J1~J6の角度、及び関節軸J1~J6の中心の位置を示す2次元姿勢を推定することができる。
なお、推定部221は、上述したように、2次元骨格推定モデル251から出力される関節軸J1~J6の中心の位置のピクセル座標を正規化して、関節角度推定モデル252に入力する。また、推定部221は、2次元骨格推定モデル251から出力される2次元姿勢の確信度cも、0.5以上の場合に「1」に設定し、0.5未満の場合に「0」に設定するようにしてもよい。
端末装置20は、推定されたロボット10の関節軸J1~J6の角度、及び関節軸J1~J6の中心の位置を示す2次元姿勢を、端末装置20に含まれる液晶ディスプレイ等の表示部(図示しない)に表示するようにしてもよい。
【0051】
<運用フェーズにおける端末装置20の推定処理>
次に、本実施形態に係る端末装置20の推定処理に係る動作について説明する。
図10は、運用フェーズにおける端末装置20の推定処理について説明するフローチャートである。ここで示すフローは、ロボット10のフレーム画像が入力される度に繰り返し実行される。
【0052】
ステップS1において、カメラ22は、端末装置20に含まれるタッチパネル(図示しない)等の入力装置を介して作業者の指示に基づいてロボット10を撮影する。
【0053】
ステップS2において、3次元物体認識部211は、ステップS1で撮影されたロボット10のフレーム画像と、3次元認識モデルデータ243と、に基づいて、ワールド座標系におけるロボット原点の3次元座標値、及びロボット座標系のX軸、Y軸、Z軸それぞれの方向を示す情報を取得する。
【0054】
ステップS3において、自己位置推定部212は、ステップS1で撮影されたロボット10のフレーム画像に基づいて、ワールド座標系におけるカメラ22の3次元座標値を取得する。
【0055】
ステップS4において、自己位置推定部212は、ステップS3で取得したカメラ22の3次元座標値と、ステップS2で取得したロボット10のロボット原点の3次元座標値と、に基づいて、カメラ22とロボット10との間の距離Lと、X軸の傾きRx、Y軸の傾きRy、及びZ軸の傾きRzと、を算出する。
【0056】
ステップS5において、入力部220は、ステップS1で撮影されたフレーム画像と、ステップS3で算出されたカメラ22とロボット10との間の距離L、X軸の傾きRx、Y軸の傾きRy、及びZ軸の傾きRzと、を入力する。
【0057】
ステップS6において、推定部221は、ステップS5で入力されたフレーム画像と、カメラ22とロボット10との間の距離L、X軸の傾きRx、Y軸の傾きRy、及びZ軸の傾きRzと、を学習済みモデルとしての2次元骨格推定モデル251及び関節角度推定モデル252に入力することで、入力されたフレーム画像が撮影された時のロボット10の関節軸J1~J6の角度、及び関節軸J1~J6の中心の位置を示す2次元姿勢を推定する。
【0058】
以上により、一実施形態に係る端末装置20は、ロボット10のフレーム画像と、カメラ22とロボット10との間の距離及び傾きを、学習済みモデルとしての2次元骨格推定モデル251及び関節角度推定モデル252に入力することで、ログ機能又は専用I/Fが実装されていないロボット10でもロボット10の各関節軸J1~J6の角度を容易に取得することができる。
【0059】
以上、一実施形態について説明したが、端末装置20、及び機械学習装置30は、上述の実施形態に限定されるものではなく、目的を達成できる範囲での変形、改良等を含む。
【0060】
<変形例1>
上述の実施形態では、機械学習装置30は、ロボット10のロボット制御装置(図示しない)、及び端末装置20と異なる装置として例示したが、機械学習装置30の一部又は全部の機能を、ロボット制御装置(図示しない)、又は端末装置20が備えるようにしてもよい。
【0061】
<変形例2>
また例えば、上述の実施形態では、ロボット関節角度推定装置として動作する端末装置20は、機械学習装置30から提供された学習済みモデルとしての2次元骨格推定モデル251及び関節角度推定モデル252を用いて、入力されたロボット10のフレーム画像及びカメラ22とロボット10との間の距離及び傾きからロボット10の関節軸J1~J6の角度及び関節軸J1~J6の中心の位置を示す2次元姿勢を推定したが、これに限定されない。例えば、図11に示すように、サーバ50は、機械学習装置30により生成された2次元骨格推定モデル251及び関節角度推定モデル252を記憶し、ネットワーク60を介してサーバ50に接続されたm個のロボット関節角度推定装置として動作する端末装置20A(1)~20A(m)と2次元骨格推定モデル251及び関節角度推定モデル252を共有してもよい(mは2以上の整数)。これにより、新たなロボット、及び端末装置が配置されても2次元骨格推定モデル251及び関節角度推定モデル252を適用することができる。
なお、ロボット10A(1)~10A(m)の各々は、図9のロボット10に対応する。端末装置20A(1)~20A(m)の各々は、図9の端末装置20に対応する。
【0062】
なお、一実施形態における、端末装置20、及び機械学習装置30に含まれる各機能は、ハードウェア、ソフトウェア又はこれらの組み合わせによりそれぞれ実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
【0063】
端末装置20、及び機械学習装置30に含まれる各構成部は、電子回路等を含むハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、コンピュータにインストールされる。また、これらのプログラムは、リムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。また、ハードウェアで構成する場合、上記の装置に含まれる各構成部の機能の一部又は全部を、例えば、ASIC(Application Specific Integrated Circuit)、ゲートアレイ、FPGA(Field Programmable Gate Array)、CPLD(Complex Programmable Logic Device)等の集積回路(IC)で構成することができる。
【0064】
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(Non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(Tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(Transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は、無線通信路を介して、プログラムをコンピュータに供給できる。
【0065】
なお、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0066】
以上を換言すると、本開示の教師データ生成装置、機械学習装置、及びロボット関節角度推定装置は、次のような構成を有する各種各様の実施形態を取ることができる。
【0067】
(1)本開示の教師データ生成装置は、カメラ22により撮影されたロボット10の2次元画像と、カメラ22とロボット10との間の距離及び傾きと、を入力して、2次元画像が撮影された時のロボット10に含まれる複数の関節軸J1~J6の角度と、2次元画像における複数の関節軸J1~J6の中心の位置を示す2次元姿勢と、を推定する学習済みモデルを生成するための教師データを生成する教師データ生成装置であって、カメラにより撮影されたロボット10の2次元画像とカメラとロボット10との間の距離及び傾きと、を取得する入力データ取得部216と、2次元画像が撮影された時の複数の関節軸J1~J6の角度と、2次元姿勢と、をラベルデータとして取得するラベル取得部217と、を備える。
この教師データ生成装置によれば、ログ機能又は専用I/Fが実装されていないロボットでもロボットの各関節軸の角度を容易に取得するための学習済みモデルを生成するのに最適な教師データを生成することができる。
【0068】
(2)本開示の機械学習装置30は、(1)に記載の教師データ生成装置により生成された教師データに基づいて教師あり学習を実行し、学習済みモデルを生成する学習部301を備える。
この機械学習装置30によれば、ログ機能又は専用I/Fが実装されていないロボットでもロボットの各関節軸の角度を容易に取得するのに最適な学習済みモデルを生成することができる。
【0069】
(3) (2)に記載の機械学習装置30において、(1)に記載の教師データ生成装置を備えてもよい。
そうすることで、機械学習装置30は、教師データを容易に取得することができる。
【0070】
(4)本開示のロボット関節角度推定装置は、(2)又は(3)に記載の機械学習装置30により生成された学習済みモデルと、カメラ22により撮影されたロボット10の2次元画像と、カメラ22とロボット10との間の距離及び傾きと、を入力する入力部220と、入力部220により入力された2次元画像と、カメラ22とロボット10との間の距離及び傾きと、を学習済みモデルに入力し、2次元画像が撮影された時のロボット10に含まれる複数の関節軸J1~J6の角度と、2次元画像における複数の関節軸J1~J6の中心の位置を示す2次元姿勢と、を推定する推定部221と、を備える。
このロボット関節角度推定装置によれば、ログ機能又は専用I/Fが実装されていないロボットでもロボットの各関節軸の角度を容易に取得することができる。
【0071】
(5) (4)に記載のロボット関節角度推定装置において、学習済みモデルは、2次元画像を入力し2次元姿勢を出力する2次元骨格推定モデル251と、2次元骨格推定モデル251から出力された2次元姿勢及びカメラ22とロボット10との間の距離及び傾きを入力し複数の関節軸J1~J6の角度を出力する関節角度推定モデル252と、を含んでもよい。
そうすることで、ロボット関節角度推定装置は、ログ機能又は専用I/Fが実装されていないロボットでもロボットの各関節軸の角度を容易に取得することができる。
【0072】
(6) (4)又は(5)に記載のロボット関節角度推定装置において、学習済みモデルを、ロボット関節角度推定装置からネットワーク60を介してアクセス可能に接続されるサーバ50に備えてもよい。
そうすることで、ロボット関節角度推定装置は、新たなロボット、及びロボット関節角度推定装置が配置されても学習済みモデルを適用することができる。
【0073】
(7) (4)から(6)のいずれかに記載のロボット関節角度推定装置において、(2)又は(3)に記載の機械学習装置30を備えてもよい。
そうすることで、ロボット関節角度推定装置は、(1)から(6)と同様の効果を奏することができる。
【符号の説明】
【0074】
1 システム
10 ロボット
101 関節角度応答サーバ
20 端末装置
21、21a 制御部
211 3次元物体認識部
212 自己位置推定部
213 関節角度取得部
214 順運動学計算部
215 投影部
216 入力データ取得部
217 ラベル取得部
220 入力部
221 推定部
22 カメラ
23 通信部
24、24a 記憶部
241 入力データ
242 ラベルデータ
243 3次元認識モデルデータ
251 2次元骨格推定モデル
252 関節角度推定モデル
30 機械学習装置
301 学習部
302 記憶部
図1
図2A
図2B
図3
図4
図5
図6
図7
図8
図9
図10
図11