IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 川崎重工業株式会社の特許一覧

特許7460366訓練データ選別装置、ロボットシステム及び訓練データ選別方法
<>
  • 特許-訓練データ選別装置、ロボットシステム及び訓練データ選別方法 図1
  • 特許-訓練データ選別装置、ロボットシステム及び訓練データ選別方法 図2
  • 特許-訓練データ選別装置、ロボットシステム及び訓練データ選別方法 図3
  • 特許-訓練データ選別装置、ロボットシステム及び訓練データ選別方法 図4
  • 特許-訓練データ選別装置、ロボットシステム及び訓練データ選別方法 図5
  • 特許-訓練データ選別装置、ロボットシステム及び訓練データ選別方法 図6
  • 特許-訓練データ選別装置、ロボットシステム及び訓練データ選別方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-25
(45)【発行日】2024-04-02
(54)【発明の名称】訓練データ選別装置、ロボットシステム及び訓練データ選別方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240326BHJP
   B25J 9/22 20060101ALI20240326BHJP
   G06F 18/10 20230101ALI20240326BHJP
   G06F 123/02 20230101ALN20240326BHJP
【FI】
G06N20/00
B25J9/22 A
G06F18/10
G06F123:02
【請求項の数】 12
(21)【出願番号】P 2019238564
(22)【出願日】2019-12-27
(65)【公開番号】P2021107970
(43)【公開日】2021-07-29
【審査請求日】2022-11-24
(73)【特許権者】
【識別番号】000000974
【氏名又は名称】川崎重工業株式会社
(74)【代理人】
【識別番号】100118784
【弁理士】
【氏名又は名称】桂川 直己
(72)【発明者】
【氏名】山本 武司
(72)【発明者】
【氏名】蓮沼 仁志
(72)【発明者】
【氏名】倉島 一輝
【審査官】多賀 実
(56)【参考文献】
【文献】特開2019-079157(JP,A)
【文献】特開2019-143387(JP,A)
【文献】国際公開第2013/030984(WO,A1)
【文献】特開2019-202404(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B25J 9/22
G06N 3/00-99/00
G06F 18/00-18/40
G06F 123/02
(57)【特許請求の範囲】
【請求項1】
機械学習により学習モデルを構築するための訓練データを、データ収集装置により収集された収集データから選別する訓練データ選別装置であって、
前記収集データの少なくとも一部に対して機械学習することで、又は前記収集データとは異なるデータに対して機械学習することで、構築されたデータ評価モデルと、
前記データ評価モデルを用いて、入力された前記収集データを評価するデータ評価部と、
前記データ評価部により評価された収集データである評価済データを記憶する記憶部と、
前記記憶部により記憶された前記評価済データから、前記学習モデルを構築するための訓練データを、前記データ評価部の評価結果が提示された作業者の指示により、又は、当該評価結果に基づいて自動的に選別する訓練データ選別部と、
を備え
前記収集データは、制御対象機械に搭載された少なくとも何れかのセンサで得られた検出値に基づく計測値の時系列情報を含み、
前記データ評価部は、前記データ評価モデルを用いて、前記検出値の時系列情報のうち一部の時間に相当する時系列情報である部分時系列情報毎に、前記収集データを評価することを特徴とする訓練データ選別装置。
【請求項2】
請求項1に記載の訓練データ選別装置であって、
前記データ評価部の前記評価結果を作業者に提示する評価提示部と、
前記評価済データを前記訓練データとして選別するか否かに関する作業者の指示を受け付ける指示受付部と、
を備え、
前記訓練データ選別部は、前記指示受付部に入力された指示に基づいて、前記学習モデルを構築するための訓練データを選別することを特徴とする訓練データ選別装置。
【請求項3】
請求項に記載の訓練データ選別装置であって、
前記データ評価モデルは、前記部分時系列情報が入力された場合に、作業者の操作を細分化したものである複数の基準操作のそれぞれに対応する評価値を出力するように構築され、
前記データ評価部は、前記部分時系列情報が入力された場合に前記データ評価モデルが複数の前記基準操作のそれぞれに関して出力した前記評価値のうち最も良い評価値が閾値よりも良い場合は、最も良い前記評価値の前記基準操作に当該部分時系列情報が対応していると評価したことを示す対応情報を前記収集データに付与して、前記評価済データとして前記記憶部に記憶させることを特徴とする訓練データ選別装置。
【請求項4】
請求項に記載の訓練データ選別装置であって、
前記評価済データは、前記評価結果としての前記対応情報が付された形で、前記評価済データの作業者による選別のために提示され、又は、前記評価済データの自動的な選別のために用いられることを特徴とする訓練データ選別装置。
【請求項5】
請求項に記載の訓練データ選別装置であって、
前記評価済データは、前記評価結果としての前記対応情報が付与されている前記部分時系列情報の範囲毎に区別できるように、前記評価済データの作業者による選別のために提示されることを特徴とする訓練データ選別装置。
【請求項6】
請求項に記載の訓練データ選別装置であって、
前記評価済データは、前記データ評価モデルが複数の前記基準操作のそれぞれに関して出力した前記評価値のうち最も良い評価値が閾値よりも良くない前記範囲も併せて、前記評価済データの作業者による選別のために提示されることを特徴とする訓練データ選別装置。
【請求項7】
請求項に記載の訓練データ選別装置であって、
前記データ評価モデルが複数の前記基準操作のそれぞれに関して出力した前記評価値のうち最も良い評価値が閾値よりも良くない範囲を、作業者が指定して、前記複数の基準操作に含まれない操作を示す対応情報を付与することが可能に構成されていることを特徴とする訓練データ選別装置。
【請求項8】
請求項からまでの何れか一項に記載の訓練データ選別装置であって、
前記評価済データは、センサによる検出値又はそれに基づく情報をグラフにより表した形で、前記評価済データの作業者による選別のために視覚的に提示されることを特徴とする訓練データ選別装置。
【請求項9】
請求項からまでの何れか一項に記載の訓練データ選別装置であって、
前記訓練データ選別部は、前記評価済データのうち、前記評価結果としての前記対応情報が付与されている前記部分時系列情報の範囲毎に、訓練データを選別可能であることを特徴とする訓練データ選別装置。
【請求項10】
請求項1からまでの何れか一項に記載の訓練データ選別装置により選別された訓練データを用いて機械学習により構築された学習モデルと、
前記学習モデルの出力に基づいて作業を行うロボットと、
を備えることを特徴とするロボットシステム。
【請求項11】
機械学習により学習モデルを構築するための訓練データを、データ収集装置により収集された収集データから選別する訓練データ選別方法であって、
前記収集データの少なくとも一部に対して機械学習することで、又は前記収集データとは異なるデータに対して機械学習することで、構築されたデータ評価モデルを用いて、入力された前記収集データを評価するデータ評価工程と、
前記データ評価工程で評価された収集データである評価済データを記憶する記憶工程と、
前記記憶工程で記憶された前記評価済データから、前記学習モデルを構築するための訓練データを、前記データ評価工程における評価結果が提示された作業者の指示により、又は当該評価結果に基づいて自動的に選別する訓練データ選別工程と、
を含む処理を行い、
前記収集データは、制御対象機械に搭載された少なくとも何れかのセンサで得られた検出値に基づく計測値の時系列情報を含み、
前記データ評価工程では、前記データ評価モデルを用いて、前記検出値の時系列情報のうち一部の時間に相当する時系列情報である部分時系列情報毎に、前記収集データを評価することを特徴とする訓練データ選別方法。
【請求項12】
請求項11に記載の訓練データ選別方法であって、
前記データ評価工程では、前記訓練データ選別工程で選別された訓練データを機械学習させることにより構築された学習モデルによる操作を収集したデータを、評価することが可能であることを特徴とする訓練データ選別方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習モデルを訓練するための訓練データの選別に関する。
【背景技術】
【0002】
従来から、収集データから反復的に学習して法則やルールを自動的に見つけ出し、人間が自然に行っている学習能力と同様な機能を実現する機械学習を用いてロボットの動作等を制御するシステムが知られている。特許文献1は、この種のシステムを開示する。
【0003】
特許文献1の動作予測システムは、学習用動作事例データ(収集データ)を複数の群に分類した群を、それぞれに対応する動作予測モデルに機械学習させることにより動作予測モデルを構築する構成となっている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2018-206286号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記特許文献1のような機械学習を用いてロボットの動作を制御するシステムにおいて、一般に、学習のために収集されたデータには、作業者が意図する動作データと、意図しない動作データと、が含まれている。学習モデルは、作業者の意図に沿っているか否かにかかわらず、収集されたデータにおける動作データを同じように学習する。
【0006】
収集されたデータにおいて、作業者が意図する動作データは、意図しない動作データよりも、相当に多いことが一般的である。従って、学習を繰り返すうちに、作業者が意図した動作をロボットが行うようになることが期待される。
【0007】
しかし、機械学習モデルは、作業者が意図しない不適切な動作データに対しても機械学習しているので、学習の収束に時間が掛かり、作業者が意図する結果を出力できるまで多くの時間を要していた。また、作業者が意図した動作をロボットが学習により獲得しているかどうかは、ロボットの学習後の動作を目視等で確認して判断せざるを得なかった。仮に、長時間学習した後でも、意図した動作をロボットが行っておらず、今後も動作が改善する見込みがなさそうな場合は、データの収集段階からやり直しとなることもあり、時間と工数の大きな無駄が生じていた。
【0008】
本発明は以上の事情に鑑みてされたものであり、その目的は、機械学習の試行錯誤に掛かる時間と工数を減らすことができ、意図に沿う結果を出力できるまでの学習時間を短縮できる訓練データを提供可能な訓練データ選別装置を提供することにある。
【課題を解決するための手段】
【0009】
本発明の解決しようとする課題は以上の如くであり、次にこの課題を解決するための手段とその効果を説明する。
【0010】
本発明の第1の観点によれば、以下の構成の訓練データ選別装置が提供される。即ち、この訓練データ選別装置は、機械学習により学習モデルを構築するための訓練データを、データ収集装置により収集された収集データから選別する。この訓練データ選別装置は、データ評価モデルと、データ評価部と、記憶部と、訓練データ選別部と、を備える。前記データ評価モデルは、前記収集データの少なくとも一部に対して機械学習することで、又は前記収集データとは異なるデータに対して機械学習することで、構築されている。前記データ評価部は、前記データ評価モデルを用いて、入力された前記収集データを評価する。前記記憶部は、前記データ評価部により評価された収集データである評価済データを記憶する。前記訓練データ選別部は、前記記憶部により記憶された前記評価済データから、前記学習モデルを構築するための訓練データを、前記データ評価部の評価結果が提示された作業者の指示により、又は、当該評価結果に基づいて自動的に選別する。前記収集データは、制御対象機械に搭載された少なくとも何れかのセンサで得られた検出値に基づく計測値の時系列情報を含む。前記データ評価部は、前記データ評価モデルを用いて、前記検出値の時系列情報のうち一部の時間に相当する時系列情報である部分時系列情報毎に、前記収集データを評価する。
【0011】
本発明の第2の観点によれば、以下の構成の訓練データ選別方法が提供される。即ち、この訓練データ選別方法は、機械学習により学習モデルを構築するための訓練データを、データ収集装置により収集された収集データから選別する。この訓練データ選別方法は、データ評価工程と、記憶工程と、訓練データ選別工程と、を含む処理を行う。データ評価工程では、前記収集データの少なくとも一部に対して機械学習することで、又は前記収集データとは異なるデータに対して機械学習することで、構築されたデータ評価モデルを用いて、入力された前記収集データを評価する。記憶工程では、前記データ評価工程で評価された収集データである評価済データを記憶する。訓練データ選別工程では、前記記憶工程で記憶された前記評価済データから、前記学習モデルを構築するための訓練データを、前記データ評価工程における評価結果が提示された作業者の指示により、又は当該評価結果に基づいて自動的に選別する。前記収集データは、制御対象機械に搭載された少なくとも何れかのセンサで得られた検出値に基づく計測値の時系列情報を含む。前記データ評価工程では、前記データ評価モデルを用いて、前記検出値の時系列情報のうち一部の時間に相当する時系列情報である部分時系列情報毎に、前記収集データを評価する。
【0012】
これにより、データ評価モデルによる評価結果を用いて収集データから訓練データを選別することで、機械学習のために好ましいデータからなる訓練データを容易に準備することができる。これにより、学習モデルの構築時間を短縮することができる。収集データにおいて適宜の単位毎にデータが評価されるので、一連の操作を、基本的な操作が適宜の順序で並べられたものとして把握することが容易となる。この評価結果を用いることで、訓練データの選別がより的確になる。また、基本的な操作に相当する部分を訓練データの選別の単位とすることで、収集データを効率的に利用しながら機械学習を行うことができる。
【発明の効果】
【0013】
本発明によれば、機械学習の試行錯誤に掛かる時間と工数を減らすことができ、良い結果を出力できるまでの学習時間を短縮できる訓練データを提供することができる。
【図面の簡単な説明】
【0014】
図1】本発明の一実施形態に係る訓練データ選別装置と、ロボットシステムと、学習装置と、の関係を示すブロック図。
図2】ロボットが行う作業の一例の流れ及び各作業状態を示す図。
図3】操作情報に対する評価を示す説明図。
図4】表示装置で表示されるデータの一例を示す図。
図5】提示されたデータが作業者により選別される例を示す図。
図6】作業状態の収集データから選別されたデータのロバスト性を向上できる例を示す図。
図7】訓練データ選別装置の効果の1つを示す説明図。
【発明を実施するための形態】
【0015】
次に、図面を参照して本発明の実施の形態を説明する。初めに、図1を参照して、本実施形態の訓練データ選別装置2により選別されたデータを機械学習して構築された学習モデルを用いるロボットシステム1、及びこの学習モデルを構築する学習装置3について簡単に説明する。図1は、本実施形態に係る訓練データ選別装置2と、ロボットシステム1と、学習装置3と、の関係を示すブロック図である。
【0016】
ロボットシステム1は、ロボット11に作業を行わせるためのシステムである。この作業としては、例えば、溶接、組立て、加工、ハンドリング、塗装、洗浄、研磨等、様々なものが考えられる。
【0017】
図1に示すように、ロボットシステム(制御対象機械)1は、ロボット制御装置10と、ロボット11と、操作装置12と、データ収集装置13と、を含む。それぞれの装置は、有線又は無線のネットワークを介して互いに接続されており、信号(データ)のやり取りを行うことができる。
【0018】
ロボット制御装置10は、公知のコンピュータにより構成されており、マイクロコントローラ、CPU、MPU、PLC、DSP、ASIC又はFPGA等の演算処理部と、ROM、RAM、HDD等のロボット記憶部と、外部装置と通信可能な通信部と、を備える。ロボット記憶部には、アーム部等を制御するための制御アプリケーション等が記憶されている。
【0019】
ロボット制御装置10は、ロボット11の運転モードを、手動運転モード、自動運転モード及び自律運転モードの間で切り替えることができる。
【0020】
手動運転モードでは、作業者が後述の操作装置12を手動で操作することで、ロボット11を動作させる。
【0021】
自動運転モードでは、ロボット11が予め設定された動作軌道に追従して動作する。この自動運転モードは、ロボット11のアーム部の先端に取り付けられた後述のエンドエフェクタの移動等の、同じ動作を繰り返す場合に用いられる。このエンドエフェクタの移動としては、例えば、予め設定された初期位置から、自律運転モードにおける自律運転を始める位置までの移動が考えられる。
【0022】
自律運転モードでは、手動操作によるロボット11の動作を事前に学習した結果に基づいて、ロボット11が自動的に動作する。本実施形態のロボットシステム1において、自律運転モードでは、ロボット11の動作が、後述の訓練データ選別装置2により選別された訓練データを機械学習することで構築された学習モデルを用いて制御される。
【0023】
ロボット11は、例えば、動作自由度が6である垂直型の多関節ロボットとして構成される。ロボット11は、台座に取り付けられたアーム部を備える。アーム部は、複数の関節を有する。各関節には、当該関節を中心にしてアーム部を駆動するための図略のアクチュエータ(例えば、電動モータ)が設けられている。アーム部の先端には、作業内容に応じたエンドエフェクタが取り付けられている。
【0024】
ロボット11のアーム部及びエンドエフェクタは、ロボット11を動作させるための動作指令に基づいて動作する。この動作指令は、例えば、直線状の速度の指令、角速度の指令、等を含む。
【0025】
ロボット11には、ロボット11の動作及び周囲環境等を検出するためのセンサが取り付けられている。本実施形態では、動作センサ11aと、力センサ11bと、カメラ11cと、がロボット11に取り付けられている。
【0026】
動作センサ11aは、例えば、エンコーダから構成され、ロボット11のアーム部の関節毎に設けられており、各関節の回転角度又は角速度を検出する。
【0027】
力センサ11bは、ロボット11の動作時に、ロボット11のアーム部の各関節、又はアーム部の先端に取り付けられたエンドエフェクタに掛かる力を検出する。力センサ11bは、力に代えて又は加えてモーメントを検出するように構成されても良い。
【0028】
カメラ11cは、作業対象であるワークの映像(ワークへの作業の進行状況)を検出する。ワークへの作業の進行状況を検出するために、カメラ11cに代えて又は加えて、音を検出する音センサ及び/又は振動を検出する振動センサが設けられても良い。また、ロボット11等に、レーザスキャンセンサ、赤外線スキャンセンサ等の距離情報を収集するセンサが設けられても良い。
【0029】
動作センサ11aが検出するデータは、ロボット11の動作を示す動作データであり、力センサ11b、及びカメラ11cが検出するデータは、ロボット11の周囲の環境の状態を示す周囲環境データである。当該周囲環境データは、いわゆる、センサがデータを検出する時刻におけるロボット11の作業の進行の状態を示す状態値である。動作センサ11a、力センサ11b、及びカメラ11cが検出するデータは、状態情報として、後述のデータ収集装置13により収集される。
【0030】
操作装置12は、ロボット11を動作させるために作業者に操作される部材である。操作装置12は、作業内容に応じて異なるが、例えば、作業者が手で作業するレバー又は足で操作するペダルである。操作装置12は、例えば、ロボット11とは物理的に離れた場所に配置された遠隔操作装置として構成される。
【0031】
操作装置12には、操作力検出センサ12aが設けられている。操作力検出センサ12aは、作業者が操作装置12に加えた力である操作力を検出する。操作装置12が様々な方向に動かすことができるように構成されている場合、操作力は力の向き及び大きさを含む値、例えばベクトルであっても良い。また、操作力は、作業者が加えた力だけでなく、力に連動する加速度等の値であっても良い。
【0032】
本実施形態において、操作力検出センサ12aによって検出された操作力は、例えば、図3に示すように、ロボット11の座標系におけるx軸における力及び速度の成分(力x及び速度x)と、y軸における力及び速度の成分(力y及び速度y)と、を含む。操作力検出センサ12aが検出した当該操作力に関するデータは、操作情報として、データ収集装置13により収集される。
【0033】
データ収集装置13は、例えば、公知のコンピュータにより構成されており、マイクロコントローラ、CPU、MPU、PLC、DSP、ASIC又はFPGA等の演算処理部と、ROM、RAM、HDD等のロボット記憶部と、外部装置と通信可能な通信部と、を備える。記憶部には、各種のデータを収集するデータ収集アプリケーション等が記憶されている。データ収集装置13は、ロボット制御装置10とは別途に設けられても良いし、ロボット制御装置10と一体的に構成されても良い。データ収集装置13とロボット制御装置10とが一体的に構成される場合、ロボット制御装置10は、当該ロボット制御装置10が備えるハードウェアとソフトウェアの協働により、データ収集装置13として機能する。
【0034】
データ収集装置13により収集される収集データは、上述のように、ロボット11の周囲環境データを示す状態情報と、ロボット11の周囲環境データに対応する作業者による操作力を反映する操作情報と、を含む。言い換えれば、この収集データは、作業者が操作装置12を連続的に操作して、ロボット11にある作業(又は作業の一部)を行わせる場合、得られた一連の状態情報及び操作情報の時系列データである。即ち、データ収集装置13は、状態情報のそれぞれと操作情報のそれぞれとを、時間に関連させて収集している。状態情報及び操作情報には、カメラ11c及び操作力検出センサ12a等で得られた検出値に基づく計測値が含まれる。
【0035】
学習装置3は、少なくとも1台の公知のコンピュータから構成される。学習装置3を構成するコンピュータは、例えばGPU、ROM、RAM、HDD等の構成を備えている。HDD等には、機械学習するためのアプリケーションが記憶されている。
【0036】
学習装置3は、機械学習(例えば教師あり学習)により、ロボットシステム1で用いられる学習モデルを構築する。学習装置3は、訓練データ選別装置2により、データ収集装置13で収集された収集データから選別された訓練データを機械学習して、学習モデルを構築する。
【0037】
この訓練データは、例えば、少なくともロボット11の作業状態を反映する周囲環境データ(即ち状態情報)と、当該周囲環境データに対応付けられた操作力(即ち操作情報)と、を含む。
【0038】
この学習モデルは、例えば、入力層と、隠れ層と、出力層と、を有する一般的な構成のニューラルネットワークである。それぞれの層には、脳細胞を模擬した複数のユニットが配置されている。隠れ層は、入力層と出力層との間に設けられ、適宜の数の中間ユニットによって構成される。学習装置3に入力されたセンサ情報(訓練データ)は、入力層、隠れ層、出力層の順に流れる。隠れ層の数は適宜定められる。なお、これに限定されず、学習モデルの形式は任意である。
【0039】
このモデルにおいては、入力層に入力されるデータは、上述の周囲環境データを反映するセンサ情報である。出力層が出力するデータは、操作力検出センサ12aの検出値の推定結果である。これは、実質的に、推定される作業者の操作力を意味する。従って、出力層が出力するデータは、モデルが推定した作業者の操作を示す。
【0040】
各入力ユニットと各中間ユニットとは、情報が流れる経路によって結合され、各中間ユニットと各出力ユニットとは、情報が流れる経路によって結合される。それぞれの経路において、上流側のユニットの情報が下流側のユニットの情報に与える影響(重み)が設定されている。
【0041】
モデルの学習フェーズにおいて、学習装置3は、モデルにセンサ情報を入力し、当該モデルから出力される操作力と、作業者による操作力と、を比較する。学習装置3は、この比較により求められる誤差が小さくなるように、例えば、公知のアルゴリズムである誤差逆伝播法によって、上記重みを更新することで、モデルを更新する。学習モデルはニューラルネットワークに限定されないので、モデルの更新も誤差逆伝播法に限定されない。例えば、公知のアルゴリズムであるSOM(Self-organizing maps)によって、モデルを更新することもできる。このような処理を継続的に行うことにより学習が実現される。
【0042】
学習装置3で訓練データを機械学習して構築された学習モデルは、例えば、ロボットシステム1のロボット制御装置10に実装され、ロボット11の自律運転等に用いられる。ロボット制御装置10に実装された学習モデルは、推論フェーズで動作し、入力された周囲環境データに対して、当該周囲環境データに対応する作業者の操作力を推定して出力する。
【0043】
続いて、本実施形態の訓練データ選別装置2、及び、訓練データ選別装置2による収集データからの訓練データの選別について、図2から図7等を参照して詳細に説明する。
【0044】
訓練データ選別装置2は、図1に示すように、データ評価モデル20と、データ評価部21と、記憶部22と、提示装置(評価提示部)23と、入力装置(指示受付部)24と、訓練データ選別部25と、を備える。
【0045】
訓練データ選別装置2は、例えば、マイクロコントローラ、CPU、MPU、PLC、DSP、ASIC又はFPGA等の演算処理部と、ROM、RAM、HDD等のメモリーと、外部装置と通信可能な通信部と、を備える公知のコンピュータを有する。
【0046】
当該コンピュータのHDD等は、訓練データ選別装置2の記憶部22を構成する。記憶部22には、演算処理部が実行するプログラム、後述の評価済データ等が記憶されている。上記ハードウェアとソフトウェアの協働により、コンピュータを、データ評価部21及び訓練データ選別部25として機能させることができる。記憶部22は、記憶工程に含まれる処理を行う。
【0047】
データ評価モデル20は、上述の学習モデルと同様な構成を有し、データ収集装置13により収集された収集データの少なくとも一部に対して機械学習することで構築される。しかし、これに限定されず、データ評価モデル20は、例えば、他のロボットシステム1の運転履歴データを機械学習することで構築されても良い。データ評価モデル20は、他のロボットシステム1の運転履歴データを機械学習することで構築される場合、他のロボットシステム1に含まれるロボット11が制御対象機械に相当する。
【0048】
データ評価モデル20が機械学習する収集データは、例えば、公知のNN法、K-Means法、自己組織化マップ等のクラスタリング手法を用いて、複数のグループに分類される。クラスタリングは、多数のデータから分布の法則を学習して、互いに特徴が似ているデータのまとまりである複数のクラスタを自動的に取得する手法である。収集データを幾つのクラスタに分類するかは、適宜定めることができる。収集データの分類は、クラスタリング以外の自動分類手法を用いて行っても良い。
【0049】
本実施形態においては、例えば、データ収集装置13により収集された一連の作業に関する収集データが、作業状態に対応する作業者の操作(基準操作)毎に分類される。具体的には、図2に示すように、ワーク100を凹部110に入れる一連の作業をロボット11に行わせる場合、例えば、空中、接触、挿入、及び完了の4つの作業状態に分類することができる。
【0050】
作業状態A(空中)は、ロボット11がワーク100を保持して凹部110の上部に位置させている状態である。作業状態B(接触)は、ロボット11が保持したワーク100を、凹部110が形成されている面に接触させている状態である。作業状態C(挿入)は、ロボット11が保持したワーク100を凹部110に挿入している状態である。作業状態D(完了)は、ロボット11が保持したワーク100が凹部110に完全に挿入された状態である。
【0051】
このように、4つの作業状態は、ロボット11による一連の作業を工程毎に分類したものであり、ロボット11の作業が正しく進行すると、作業状態A(空中)、作業状態B(接触)、作業状態C(挿入)、作業状態D(完了)の順で作業状態が遷移する。
【0052】
データ評価モデル20は、例えば、所定時間範囲毎における作業状態及び操作力の組合せを機械学習することにより構築される。なお、上記の作業状態A,B,C,Dは代表的なものであり、実際は、様々に異なる多数の作業状態が存在し得る。仮に、オペレータの操作によりロボット11に同じ作業を何回か行わせて、例えば、1組の状態情報及び操作力に対応する作業状態A1と、別の組の状態情報及び操作力に対応する作業状態A2と、更に別の組の状態情報及び操作力に対応する作業状態A3と、が収集されたとする。オペレータの操作のバラツキ、状況のバラツキ等があるため、これらの作業状態A1,A2,A3は、細かく言えば互いに異なる。しかし、作業状態A1,A2,A3は、共通の特徴を有しているため、同一のクラスタ(作業状態Aのクラスタ)に分類されることになる。
【0053】
しかし、これに限定されず、データ評価モデル20は、例えば、ある作業状態及び当該作業状態に対応付けられる次の作業状態(即ち、次に遷移する作業状態)と、少なくとも1組の状態情報及びこの状態情報に対応付けられる操作力と、を機械学習して構築されても良い。これにより、作業状態(ひいては対応する操作力)同士の順位関係も学習することができる。
【0054】
本実施形態のデータ評価モデル20は、上記のように、操作力の出力の時間順を反映するように機械学習を行っている。簡単に言えば、データ評価モデル20は、作業状態A、作業状態B、作業状態C、作業状態Dのそれぞれに対応する少なくとも1組の状態情報及び操作力の組合せを学習しているとともに、作業状態Aの次に作業状態Bが現れるというような作業順序も学習している。これにより、データ評価モデル20を用いて、操作力の時系列情報を反映した分類を行うことができる。即ち、それぞれの作業状態に対応付けられる操作力のそれぞれを作業順で反映することができる。
【0055】
この状態情報は、上述のように、動作センサ11a、力センサ11b、カメラ11cが検出したセンサ情報(例えば、位置、速度、力、モーメント、映像等の作業状態)である。この状態情報には、当該センサ情報に基づいて算出された情報(例えば、過去から現在までのセンサ情報の経時変化を示す値)が含まれても良い。
【0056】
上記のように構築されたデータ評価モデル20は、入力された時系列情報に対応付けられた状態情報に対して、当該状態情報に対応する基準操作を推定して出力することができる。
【0057】
本実施形態のデータ評価モデル20は、時系列情報に対応付けられた状態情報及び操作情報を含む収集データが入力された場合、入力された状態情報に対応する基準操作を推定して出力するとともに、入力された操作情報と推定した推定基準操作との間の距離値を求め、当該距離値(類似度)を評価値として出力する。なお、推定基準操作の代わりに、例えば基準操作が属するクラスタの情報を出力しても良い。また、出力した推定基準操作と入力された操作情報との比較は、データ評価モデル20の代わりにデータ評価部21にて行っても良い。
【0058】
データ評価部21は、上記のように事前に構築されたデータ評価モデル20を用いて、データ収集装置13により収集された収集データを評価するために用いられる。データ評価部21は、図3に示すように、それぞれの所定時間範囲における操作情報に対して評価を行う。具体的には、データ評価部21は、収集データに対して、データ評価モデル20により出力された評価値が所定閾値以上である場合、データ評価モデル20により出力された基準操作が属するクラスタの情報を示すラベル(対応情報)を、当該収集データに付与する。一方、データ評価モデル20により出力された評価値が所定閾値を下回る場合、データ評価部21は、当該収集データにラベルを付与しない。ただし、データ評価部21は、ラベルを付与しない代わりに、何れのクラスタにも属しない旨を示すラベルを付与しても良い。以下においては、ラベルが付与されているか否か、及び/又は付与されたラベルの種類等を、「ラベル情報」と称することがある。即ち、データ評価部21は、データ評価工程に含まれる処理を行う。
【0059】
例えば、図2に示す一連の作業に対して収集された一連の収集データを評価する場合、データ評価モデル20は、図3に示すように、所定時間範囲毎の操作情報に含まれる力x、力y、速度x、速度yに対して、それぞれの基準操作に含まれる当該成分の類似度を求めることによって、所定時間範囲毎の操作情報とそれぞれの基準操作との全体的な類似度を求めて、評価値として出力する。
【0060】
データ評価部21は、所定時間範囲毎の操作情報に対して、データ評価モデル20が出力した評価値が所定閾値以上である操作情報(ひいては収集データ)を対象として、当該操作情報が類似する基準操作を示すラベルを付与する。
【0061】
以下、具体的に説明する。図3に示すように、所定時間範囲の操作情報が、作業状態Aに対応する基準操作に類似する場合、データ評価部21は、当該操作情報分に数値(1)のラベルを割り当てる(付与する)。所定時間範囲の操作情報が、作業状態Bに対応する基準操作に類似する場合、データ評価部21は、当該操作情報分に数値(2)のラベルを割り当てる。所定時間範囲の操作情報が、作業状態Cに対応する基準操作に類似する場合、データ評価部21は、当該操作情報分に数値(3)のラベルを割り当てる。所定時間範囲の操作情報が、作業状態Dに対応する基準操作に類似する場合、当該操作情報分に数値(4)のラベルを割り当てる。以上により、操作情報(ひいては操作力検出センサ12aの検出値)における連続的な変化を、ラベル情報の変化として捉えることができる。
【0062】
なお、以下の説明においては、数値のラベルが割り当てられたデータを「暫定選択対象データ」と称し、数値のラベルが割り当てられていないデータを「暫定選択除外データ」と称することがある。データ評価部21により評価された収集データを「評価済データ」と称する。この評価済データには、暫定選択対象データ及び暫定選択除外データの一方又は両方を含む。
【0063】
このように、収集データに含まれた情報において、所定時間範囲毎にラベルが割り当てられる。割り当てられたラベルに応じて収集データの各部分をまとめることで、図3に示すように、収集データを、それぞれの基準操作に対応するブロックとして扱うことができる。これにより、一連の作業に対する収集データから、操作が有効な部分を示すデータ(ブロック)のみを抽出することが容易になる。
【0064】
即ち、評価済データにおいては、時系列情報が連続で、かつ、ラベル情報が同一である部分が、1つのまとまったブロックで扱われる。この結果、概括的にいえば、例えば図4及び図5等に示す一連の収集データのように、当該データ列を、数値によるラベルが割り当てられたブロック(範囲)と、数値によるラベルが割り当てられていないブロック(範囲)とが、その時系列情報に応じた順で並べられたものとして表すことができる。
【0065】
収集データは、時系列情報を維持した状態で評価される。従って、複数の基準操作に類似する操作情報を含む一連の作業の収集データを、当該一連の作業の所定作業順(例えば、図3に示す1(A)→2(B)→3(C)→4(D))を有するか否かに応じて容易に区別することができる。即ち、2つの収集データにおいて、それぞれが類似する複数の基準操作の組が同じであっても、操作情報に対応する作業順が異なる場合、当該2つの収集データを異なるクラスタとして扱うことができる。
【0066】
データ評価部21は、上記のように、ラベル情報が割り当てられた収集データ(数値のラベルが割り当てられていないデータ部分も含む)の操作情報を、提示装置23に送信する。この操作情報は、評価済の操作情報に相当する。
【0067】
図1に示す提示装置23は、液晶又は有機EL等のドットマトリクス式のディスプレイである。提示装置23は、データ評価部21により評価された評価済データ、及び当該収集データのラベル情報等を表示することで、データ評価部21の評価結果を作業者に提示する。提示装置23は、例えば、操作装置12の近傍に配置される。提示装置23は、映像信号、ロボットシステム1が行う作業に関する情報等を表示することもできる。
【0068】
具体的には、提示装置23は、例えば、図4に示すように、収集データに含まれた操作情報(例えば、操作力)をグラフにより表した形で視覚的に表示するとともに、時系列情報が連続しており、かつ、同じ数値のラベルが割り当てられたデータ部分を1つのブロックとして表示する。これにより、作業者がより直感的に操作情報を確認することができる。
【0069】
また、提示装置23は、数値のラベルが割り当てられていないデータ部分に「?」マークを付けて、当該データ部分を強調表示しても良い。図4では示されていないが、提示装置23において、異なる数値のラベル及び/又はそのラベルが割り当てられたデータ部分が、異なる色で表示されても良い。なお、提示装置23において、収集データに含まれる操作情報(例えば、操作力)が、基準操作の操作情報(例えば、操作力)と比較できるように、グラフ等の形で表示されても良い。
【0070】
入力装置24は、提示装置23で提示された評価済の操作情報を訓練データとして採用するか否かに関して、作業者の指示を受け付ける。入力装置24は、作業者によって操作可能な図略のキー、マウス、タッチパネル等から構成される。訓練データ選別装置2は、入力装置24への作業者の入力に応じて、訓練データとしての採否に関する情報を、例えばフラグ等の形で当該評価済の操作情報に付与する。作業者からの採否情報が付与された暫定選択対象データ又は暫定選択除外データは、選択済データとして記憶部22に記憶される。
【0071】
本実施形態の訓練データ選別装置2は、作業者が操作装置12を操作して、ロボット11に一連の作業を行わせた直後に、当該一連の作業の収集データに対する評価結果を直ちに提示装置23に表示させることができる。
【0072】
従って、本実施形態では、作業者は、直前に行った操作を機械学習の訓練データとして用いるか否かに関する採否を、操作した現場で、操作の感覚が自らの中に残っているうちに、入力装置24によって指示することができる。
【0073】
作業者が操作装置12を操作するときに、もっと強く/弱く操作すべきだった、もっと早い/遅いタイミングで操作を開始すべきだった等、自分の操作に納得ができない場合も生じ得る。この場合は、収集データを訓練データとして採用することを作業者が拒否し、納得するまで操作をやり直すことができる。このように、本実施形態では、データの収集と、訓練データとしての採否の決定と、からなるサイクルを、機動的かつ効率的に回していくことができる。従って、作業者が納得し易い訓練データを短期間で豊富に得ることができる。
【0074】
データ評価部21によるデータの評価は、機械学習によって構築が完了しているデータ評価モデル20を用いることで、データの収集後、短時間でかつ自動的に完了させることができる。従って、作業者は、上記のように採否をほぼリアルタイムで決定する場合でも、評価結果の提示を補助的に利用することができる。
【0075】
以上により、訓練データで用いる収集データを、作業者の意図どおりのものに限定することができる。言い換えれば、学習モデルの訓練フェーズのために収集データが提供される前に、不適切な収集データを除外することができる。早い段階での収集データの取捨選択により、好ましくない収集データを機械学習するケースを減らすことができる。この結果、意図どおりの出力が得られる学習モデルを構築できるまでの学習時間を短縮させることができる。
【0076】
なお、評価結果の提示及び採否の指示は、リアルタイムでかつその場で行われることに限定されない。訓練データ選別装置2は、例えば、所定期間内に行われた作業者の操作に対応する複数の収集データに対する評価結果を、とりまとめた形で作業者に別の場所で提示しても良い。
【0077】
本実施形態の訓練データ選別装置2においては、作業者が入力装置24を使用して、一連の作業に対して収集された収集データ(評価済データ)を、収集データ単位で選択して、訓練データとしての採否を指示することができる。ただし、作業者は、収集データの一部分のデータのみを選択して、訓練データとしての採否を指示することもできる。
【0078】
例えば、図5の上側には(a)~(e)の5つの操作情報が示されており、それぞれが評価済データに対応する。作業者は、図5の左下に示すように、5つの操作情報のうち操作情報(a)、(b)、及び(d)を選択して、訓練データとして採用するように指示することができる。
【0079】
図5に示す操作情報(b)、(d)においては、暫定選択除外データのブロックが含まれている。しかし、操作者の指示により、当該データを一連の作業に対する有効データとして選択することができる。
【0080】
あるいは、作業者は、図5の右下に示すように、各操作情報(a)~(e)に含まれるデータブロック(例えば、ある基準操作に対応する部分)を単位として選択し、訓練データとして採用するように指示することができる。
【0081】
例えば、図6に示すように、作業状態Bにおいて、ロボット11が保持したワーク100を、凹部110が形成されている面に接触させるとき、上記の面にワーク100の左下部が先に接触する場合と、右下部が先に先に接触する場合と、が考えられる。ワーク100の左下部及び右下部のうちどちらが先に上記の面に接触するかは、この作業状態Bに対しては何れでも良いが、センサにより検出された検出値から見るとそれぞれのデータになるので、データ評価モデル20において、異なる操作として取り扱われる可能性も小さくない。
【0082】
例えば、図5に示す操作情報(a)は、ワーク100の左下部が面に先に接触した場合であり、操作情報(c)は、ワーク100の右下部が面に先に接触した場合であるとする。この場合、データ評価部21の評価においては、例えば、操作情報(a)では該当のデータブロックに数値(2)のラベルを付与し、操作情報(c)では該当のデータブロックにラベルを付与しないことが考えられる。
【0083】
この点、本実施形態の訓練データ選別装置2は、作業者が入力装置24を操作することで、図5に示す操作情報(c)に含まれるラベルが付与されていないデータブロックを選択し、例えば、当該データブロックが数値(2)のラベルに相当する操作である旨を指示することができる。これにより、同じ作業状態において、有効操作となる収集データのバリエーションを、漏れなく訓練データ選別装置2に認識させることができる。例えば、図6に示す作業状態Bにおいては、凹部110が形成された面に対して異なる方向からワーク100が接触するそれぞれの場合の操作情報を、訓練データとして両方選択するように、作業者が訓練データ選別装置2に指示することができる。従って、訓練データ選別装置2により選別された訓練データのロバスト性を向上することができる。
【0084】
上記のように、本実施形態の訓練データ選別装置2は、大量の収集データに対して、機械的な評価情報(ラベル)を付加した状態で、作業者に選択されるように提示することができる。これにより、作業者が適切なデータを効率的に選択して、機械学習の訓練データとして用いることができる。
【0085】
次に、新しい操作を意味するラベルの割当てについて説明する。
【0086】
環境の変化等により、今までロボット11にさせることを意図していなかった動作を、新規に学習させるニーズがある場合も考えられる。この場合、オペレータは操作装置12を操作して、当該動作を含む一連の動作をロボット11に行わせる。このときの状態情報と操作情報が、データ収集装置13によって収集データとして取得される。以下では、収集データのうち新しい動作の部分が、図5に示す操作情報(c)において、ラベル(1)が付与された2つのブロックの間のデータブロックに相当する場合を考える。新しい動作であるので、このデータブロックには、データ評価部21によってラベルが付与されない。
【0087】
この操作情報(c)が提示装置23において提示されると、作業者は入力装置24を操作し、ラベルが付与されていない当該データブロックを選択して、新しい基準操作として学習させる旨を指示する。これにより、訓練データ選別装置2は、対応する暫定選択除外データに、暫定選択対象データで使用されていない数値(例えば5)のラベルを割り当てる。この結果、当該ブロックのデータに数値(5)のラベルが追加的に付与される。更に、作業者は、新しいラベルが付与されたデータブロックに対して、訓練データとして採用する旨を入力装置24によって指示することができる。
【0088】
なお、この場合において、学習モデルが訓練データを学習する場合、上記数値(2)のラベルが付与されたデータと、数値(5)のラベルが付与されたデータとを、同じ作業状態Bに対する操作情報として扱うことが可能である。
【0089】
具体的に説明すると、図2に示す一連の作業に対するある収集データ(ラベル順1→2→3→4)、及び、ある収集データ(ラベル順1→5→3→4)を考える。2つの収集データは、状態情報が類似し、作業順序も類似している。従って、学習モデルにおいて、当該数値(2)のラベルが付与されたデータと数値(5)のラベルが付与されたデータとの両方とも、作業状態Bに対応するクラスタに容易に分類することができる。
【0090】
訓練データ選別部25は、記憶部22で記憶された選択済データから、ロボットシステム1で用いられる学習モデルを構築するための訓練データを選別するために用いられる。訓練データは、目的に応じて様々に選別される。例えば、図2に示す一連の作業を学習モデルに学習させたい場合、訓練データ選別部25は、訓練データとして採用することが指示された選択済データから、数値(1)~(4)のラベルが割り当てられたデータを選別して、訓練データとして出力する。また、例えば、作業状態Cに対する基準操作に関して学習モデルに追加学習させたい場合、訓練データ選別部25は、訓練データとして採用することが指示された選択済データから、数値(3)のラベルが割り当てられたデータ部分のブロックを抽出して、訓練データとして出力する。
【0091】
即ち、図7に示すように、本実施形態の訓練データ選別装置2は、複数種類の作業に対する複数の収集データから、学習モデルに学習させたい訓練データのみを選別することができる。訓練データ選別部25は、上記のように、訓練データ選別工程に含まれる処理を行う。
【0092】
これにより、学習済データを構築するための訓練データを効率的に選別することができる。また、好ましくないデータが訓練データとして選別されることを回避できる。この結果、作業者が意図するように学習モデルが出力を行うまでの時間を短縮することができる。
【0093】
以上に説明したように、本実施形態の訓練データ選別装置2は、機械学習により学習モデルを構築するための訓練データを、データ収集装置により収集された収集データから選別する。訓練データ選別装置2は、データ評価モデル20と、データ評価部21と、記憶部22と、訓練データ選別部25と、を備える。データ評価モデル20は、収集データの少なくとも一部に対して機械学習することで、又は前記収集データとは異なるデータに対して機械学習することで、構築される。データ評価部21は、データ評価モデル20を用いて、入力された収集データを評価する。記憶部22は、データ評価部21により評価された収集データである評価済データを記憶する。訓練データ選別部25は、記憶部22により記憶された評価済データから、学習モデルを構築するための訓練データを、データ評価部21の評価結果が提示された作業者の指示により選別する。
【0094】
これにより、データ評価モデル20を用いて収集データから訓練データを選別することで、機械学習のために好ましいデータからなる訓練データを容易に準備することができる。これにより、学習モデルの構築時間を短縮することができる。
【0095】
また、本実施形態の訓練データ選別装置2は、提示装置23と、入力装置24と、を備える。提示装置23は、データ評価部21の評価結果を作業者に提示する。入力装置24は、評価済データを訓練データとして選別するか否かに関する作業者の指示を受け付ける。訓練データ選別部25は、入力装置24に入力された指示に基づいて、学習モデルを構築するための訓練データを選別する。
【0096】
これにより、人間(好ましくは、操作をした作業者自身)の指示に基づいて訓練データが選別されるので、訓練データを一層適切なデータの集まりにすることができる。また、データ評価モデル20による評価結果を参考にすることで、作業者は、収集データを訓練データとして使用すべきか否かを判断し易くなる。
【0097】
また、本実施形態の訓練データ選別装置2において、収集データは、ロボットシステム1に搭載された少なくとも何れかのセンサで検出された検出値に基づく計測値の時系列情報を含む。データ評価部21は、データ評価モデル20を用いて、検出値の時系列情報のうち一部の時間に相当する時系列情報である部分時系列情報毎に、収集データを評価する。
【0098】
これにより、収集データにおいて適宜の単位毎にデータが評価されるので、一連の操作を、基本的な操作が適宜の順序で並べられたものとして把握することが容易となる。この評価結果を用いることで、訓練データの選別がより的確になる。また、基本的な操作に相当する部分を訓練データの選別の単位とすることで、収集データを効率的に利用しながら機械学習を行うことができる。
【0099】
また、本実施形態の訓練データ選別装置2において、データ評価モデル20は、部分時系列情報が入力された場合に、作業者の操作を細分化したものである複数の基準操作のそれぞれに対応する評価値を出力するように構築される。データ評価部21は、部分時系列情報が入力された場合にデータ評価モデル20が複数の基準操作のそれぞれに関して出力した評価値のうち最も良い評価値が閾値よりも良い場合は、最も良い評価値の基準操作に当該部分時系列情報が対応していると評価したことを示すラベルを収集データに付与して、評価済データとして記憶部に記憶させる。
【0100】
これにより、データ評価部21により良い評価が与えられたデータを容易に区別することができる。
【0101】
また、本実施形態の訓練データ選別装置2において、評価済データは、評価結果としてのラベルが付された形で、評価済データの作業者による選別のために提示される。
【0102】
これにより、作業者は、データ評価部21により良い評価が与えられたデータを容易に確認することができる。
【0103】
また、本実施形態の訓練データ選別装置2において、評価済データは、評価結果としてのラベルが付与されている部分時系列情報の範囲毎に区別できるように、評価済データの作業者による選別のために提示される。
【0104】
これにより、作業者は、一連の操作を示す時系列情報のうちのどの部分が良い評価となっているかを容易に確認することができる。
【0105】
また、本実施形態の訓練データ選別装置2において、評価済データは、データ評価モデル20が複数の基準操作のそれぞれに関して出力した評価値のうち最も良い評価値が閾値よりも良くない範囲も併せて、評価済データの作業者による選別のために提示される。
【0106】
これにより、良い評価が与えられていない範囲についても、作業者により確認することができる。従って、例えば、作業者が自分の一連の操作のどの部分が良くなかったかを検証する手掛かりとすることができる。
【0107】
また、本実施形態の訓練データ選別装置2は、データ評価モデル20が複数の基準操作のそれぞれに関して出力した評価値のうち最も良い評価値が閾値よりも良くない範囲を、作業者が指定して、複数の基準操作に含まれない操作を示すラベルを付与することが可能に構成されている。
【0108】
これにより、新たな基準操作を導入して、訓練データを選別することができる。
【0109】
また、本実施形態の訓練データ選別装置2において、評価済データは、センサによる検出値又はそれに基づく情報をグラフにより表した形で、評価済データの作業者による選別のために視覚的に提示される。
【0110】
これにより、作業者が評価済データを確認し易くなる。
【0111】
また、本実施形態の訓練データ選別装置2において、訓練データ選別部25は、評価済データのうち、評価結果としてのラベルが付与されている部分時系列情報の範囲毎に、訓練データを選別可能である。
【0112】
これにより、評価済データの一部を訓練データとして容易に抽出して選別することができるので、収集データを効率的に利用しながら機械学習を行うことができる。
【0113】
以上に本発明の好適な実施の形態を説明したが、上記の構成は例えば以下のように変更することができる。
【0114】
提示装置23は、視覚表示だけに限定されず、例えば、評価値の良否に応じて異なる効果音で示す聴覚提示や、操作装置12への振動等のフィードバックとしての力覚提示により、操作情報に対する評価を作業者に提示することもできる。
【0115】
作業者は、入力装置24を操作することにより、記憶部22に記憶された、データ評価部21により評価された収集データの履歴に対して、当該データのそれぞれの良否に関する指示情報を入力しても良い。
【0116】
前述の実施形態では、作業者が、データ評価部21が評価した結果の提示による支援を得て、評価済データを訓練データとして採用するか否かの判断を行っている。しかしながら、評価済データの訓練データとしての採否は、作業者に代えて、プログラム(人工知能を用いる場合を含む)により自動的に判断されても良い。この場合、作業者に提示する提示装置23、及び、作業者の指示を入力する入力装置24を省略することができる。
【0117】
学習装置3において、訓練データ選別装置2により選別された訓練データを機械学習することにより学習モデルを構築した後、この学習モデルを、データ評価モデル20として用いることができる。
【0118】
ロボット11は、産業用ロボットだけではなく、医療用ロボット等として構成されても良い。
【0119】
訓練データ選別装置2は、ロボットを制御するための学習モデルの構築のための訓練データだけではなく、乗物の自動操縦、プラントの自動運転のための学習モデルの構築のための訓練データを選別しても良い。
【0120】
データ収集装置13は、ロボットシステム1の代わりに、訓練データ選別装置2に備えられても良い。
【0121】
訓練データ選別装置2のデータ評価モデル20は、収集データを評価している。しかしながら、データ評価モデル20は、訓練データ選別装置2で選別された訓練データを機械学習することにより構築された学習モデルの出力を評価するために用いられても良い。
【0122】
例えばデータの収集時において、遠隔操作を行うオペレータに対し、ロボット11側が得た情報がリアルタイムで提示されても良い。このようにオペレータに提示される情報は、データ収集装置13によって収集される対象となり得る。
【0123】
オペレータへの情報の提示の一例として、データの収集時において、オペレータの操作装置12の操作に応じてロボット制御装置10がロボット11を駆動する一方、ロボット11が周囲から受けた反力を伝達するように、操作装置12を駆動することが考えられる。これにより相互作用的な操作が実現され、オペレータは、操作装置12を通じて疑似的に提示される力覚を感じながら、当該操作装置12を用いてロボット11をリアルタイムで遠隔操作することができる。
【0124】
オペレータへの情報の提示の他の例として、データの収集時において、オペレータの近傍に配置された適宜のディスプレイに、ロボットシステム1が備えるカメラ11cの映像がリアルタイムで表示されても良い。
【符号の説明】
【0125】
1 ロボットシステム(制御対象機械)
2 訓練データ選別装置
20 データ評価モデル
21 データ評価部
22 記憶部
23 提示装置(評価提示部)
24 入力装置(指示受付部)
25 訓練データ選別部
図1
図2
図3
図4
図5
図6
図7