(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023102313
(43)【公開日】2023-07-25
(54)【発明の名称】処理システムおよび処理方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20230718BHJP
B25J 13/00 20060101ALN20230718BHJP
【FI】
G06N20/00
B25J13/00 Z
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022002689
(22)【出願日】2022-01-12
(71)【出願人】
【識別番号】000003333
【氏名又は名称】ボッシュ株式会社
(72)【発明者】
【氏名】中里 研一
【テーマコード(参考)】
3C707
【Fターム(参考)】
3C707AS14
3C707BS10
3C707BS27
3C707JU09
3C707KT01
3C707LS06
3C707LV02
3C707LW12
3C707MT01
3C707WA03
3C707WA13
(57)【要約】
【課題】作業現場にロボットを円滑に導入する。
【解決手段】処理システム1は、状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理システムであって、行動モデルは、第1行動モデルπ1と、作業員30の行動を模倣する模倣モデルを少なくとも含む第2行動モデルπ2とを含み、処理システム1は、第1行動モデルπ1を用いて行動を決定する第1決定部と、第2行動モデルπ2を用いて行動を決定する第2決定部と、第2行動モデルπ2を用いて決定された行動に基づいて、強化学習による第1行動モデルπ1の学習を行う第1学習部と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理システム(1)であって、
前記行動モデルは、第1行動モデル(π1)と、作業員(30)の行動を模倣する模倣モデル(π21)を少なくとも含む第2行動モデル(π2)とを含み、
前記処理システム(1)は、
前記第1行動モデル(π1)を用いて行動を決定する第1決定部(11b)と、
前記第2行動モデル(π2)を用いて行動を決定する第2決定部(21b)と、
前記第2行動モデル(π2)を用いて決定された行動に基づいて、強化学習による前記第1行動モデル(π1)の学習を行う第1学習部(11d)と、
を備える、
処理システム。
【請求項2】
前記作業員(30)が行った行動に基づいて、模倣学習による前記模倣モデル(π21)の学習を行う第2学習部(21d)を備える、
請求項1に記載の処理システム。
【請求項3】
前記第2行動モデル(π2)は、前記模倣モデル(π21)に加えて、前記作業員(30)の行動に基づかずに行動を決定するための非模倣モデル(π22)を含む、
請求項1または2に記載の処理システム。
【請求項4】
前記第2行動モデル(π2)は、前記模倣モデル(π21)と前記非模倣モデル(π22)とを重み付け加算して生成される、
請求項3に記載の処理システム。
【請求項5】
前記第1行動モデル(π1)を用いて決定された行動に基づいて、強化学習による前記非模倣モデル(π22)の学習を行う第3学習部(21e)を備える、
請求項3または4に記載の処理システム。
【請求項6】
前記第1決定部(11b)は、前記作業員(30)が作業している時に、前記第1行動モデル(π1)を用いた行動の決定を行う、
請求項1~5のいずれか一項に記載の処理システム。
【請求項7】
状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理方法であって、
前記行動モデルは、第1行動モデル(π1)と、作業員(30)の行動を模倣する模倣モデル(π21)を少なくとも含む第2行動モデル(π2)とを含み、
前記第1行動モデル(π1)を用いて行動を決定する第1ステップと、
前記第2行動モデル(π2)を用いて行動を決定する第2ステップと、
前記第2ステップで前記第2行動モデル(π2)を用いて決定された行動に基づいて、強化学習による前記第1行動モデル(π1)の学習を行う第3ステップと、
を含む、
処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理システムおよび処理方法に関する。
【背景技術】
【0002】
近年、状態に応じて行動を決定するための行動モデルを用いた人工知能(AI:Artificial Intelligence)に関する種々の技術が提案されている。例えば、特許文献1には、強化学習による行動モデルの学習に関する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許出願公開第2010/094786号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、人工知能の発展に伴い、工場の生産現場等の作業現場で作業員が行っていた一部の作業がロボットによって自動化されることが想定される。ここで、作業現場にロボットを導入する場合、作業員とロボットが共同作業を行う状況が生じる。このような状況において、作業現場にロボットを円滑に導入することが望まれる。
【0005】
そこで、本発明は、このような課題に鑑み、作業現場にロボットを円滑に導入することが可能な処理システムおよび処理方法を提供することを目的としている。
【課題を解決するための手段】
【0006】
上記課題を解決するために、処理システムは、状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理システムであって、行動モデルは、第1行動モデルと、作業員の行動を模倣する模倣モデルを少なくとも含む第2行動モデルとを含み、処理システムは、第1行動モデルを用いて行動を決定する第1決定部と、第2行動モデルを用いて行動を決定する第2決定部と、第2行動モデルを用いて決定された行動に基づいて、強化学習による第1行動モデルの学習を行う第1学習部と、を備える。
【0007】
上記課題を解決するために、処理方法は、状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理方法であって、行動モデルは、第1行動モデルと、作業員の行動を模倣する模倣モデルを少なくとも含む第2行動モデルとを含み、第1行動モデルを用いて行動を決定する第1ステップと、第2行動モデルを用いて行動を決定する第2ステップと、第2ステップで第2行動モデルを用いて決定された行動に基づいて、強化学習による第1行動モデルの学習を行う第3ステップと、を含む。
【発明の効果】
【0008】
本発明によれば、作業現場にロボットを円滑に導入することが可能となる。
【図面の簡単な説明】
【0009】
【
図1】本発明の実施形態に係る処理システムの概略構成を示す模式図である。
【
図2】本発明の実施形態に係る第1処理装置の機能構成の一例を示すブロック図である。
【
図3】本発明の実施形態に係る第2処理装置の機能構成の一例を示すブロック図である。
【
図4】本発明の実施形態に係る第1ロボット、第2ロボットおよび作業員により行われる工程の全体的な流れの一例を示すフローチャートである。
【
図5】本発明の実施形態に係る現場作業工程の実行主体を示す図である。
【
図6】本発明の実施形態に係る学習工程の実行主体を示す図である。
【
図7】本発明の実施形態に係る学習工程における処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値等は、発明の理解を容易にするための例示に過ぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書および図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。
【0011】
<処理システムの構成>
図1~
図3を参照して、本発明の実施形態に係る処理システム1の構成について説明する。
【0012】
図1は、処理システム1の概略構成を示す模式図である。
【0013】
図1に示されるように、処理システム1は、第1ロボット10と、第2ロボット20とを含む。処理システム1は、工場の生産現場等の作業現場において活用される。以下では、処理システム1が工場の生産現場における生産工程に活用される例を説明する。生産工程は、製品を生産する工程である。ただし、処理システム1が活用される作業現場は、製品の生産が行われる生産現場以外の作業現場(例えば、製品の検査が行われる現場等)であってもよい。
【0014】
第1ロボット10および第2ロボット20は、人工知能を用いて行動を決定して実行するロボットである。具体的には、第1ロボット10および第2ロボット20は、状態に応じて行動を決定するための行動モデルを有しており、行動モデルを用いて行動を決定して実行する。第1ロボット10は、第1ロボット10に関する各種処理を行う第1処理装置11を備える。第1処理装置11は、第1行動モデルπ1を用いて第1ロボット10の行動を決定し、決定した行動を第1ロボット10に実行させる。第2ロボット20は、第2ロボット20に関する各種処理を行う第2処理装置21を備える。第2処理装置21は、第2行動モデルπ2を用いて第2ロボット20の行動を決定し、決定した行動を第2ロボット20に実行させる
【0015】
処理システム1が活用される生産工程では、第1ロボット10と作業員30による共同作業によって製品の生産が行われる。第1ロボット10は、製品の生産に関する作業を実行する。
図1の例では、第1ロボット10がロボットアームである例が示されている。ただし、第1ロボット10は、ロボットアーム以外のロボットであってもよい。
【0016】
第2ロボット20は、第1ロボット10により用いられる第1行動モデルπ1の学習に利用されるロボットである。第2ロボット20は、作業員30の行動を模倣することが可能である。
図1の例では、第2ロボット20が人型ロボットである例が示されている。ただし、第2ロボット20は、人型ロボット以外のロボットであってもよい。
【0017】
図2は、第1処理装置11の機能構成の一例を示すブロック図である。
【0018】
第1処理装置11は、演算処理装置であるCPU(Central Processing Unit)、CPUが使用するプログラムや演算パラメータ等を記憶する記憶素子であるROM(Read Only Memory)、および、CPUの実行において適宜変化するパラメータ等を一時記憶する記憶素子であるRAM(Random Access Memory)等を含む。
【0019】
図2に示されるように、第1処理装置11は、例えば、第1取得部11aと、第1決定部11bと、第1制御部11cと、第1学習部11dと、第1記憶部11eとを備える。
【0020】
第1取得部11aは、第1ロボット10の制御に必要な各種情報を取得する。上述したように、第1ロボット10の行動は、第1行動モデルπ1を用いて決定される。第1取得部11aは、第1行動モデルπ1を用いた行動の決定に必要な情報を取得する。
【0021】
第1決定部11bは、第1ロボット10に実行させる行動を決定する。具体的には、第1決定部11bは、第1行動モデルπ1を用いて第1ロボット10の行動を決定する。第1行動モデルπ1は、第1記憶部11eに記憶されており、強化学習によって学習される行動モデルである。第1行動モデルπ1は、例えば、状態と行動のペアを入力すると、入力した行動の評価指数(おすすめ度合い)を出力する関数である。
【0022】
第1行動モデルπ1に状態として入力される情報は、例えば、生産現場に関する情報(例えば、作業の種類を示す情報、または、作業で用いる材料の情報等)、第1ロボット10に関する情報(例えば、第1ロボット10の位置および姿勢を示す情報等)、または、作業員30に関する情報(例えば、作業員30の位置および姿勢を示す情報等)が挙げられる。これらの情報は、第1取得部11aによって取得される。第1取得部11aは、例えば、第1ロボット10に設けられるカメラにより撮像される画像に基づいて、生産現場に関する情報、および、作業員30に関する情報を取得できる。また、第1取得部11aは、例えば、第1ロボット10に設けられる各種センサの出力結果に基づいて、第1ロボット10に関する情報を取得できる。
【0023】
例えば、状態が決まると、いくつかの行動の候補が決まる。第1決定部11bは、これらの行動の候補をそれぞれ第1行動モデルπ1に入力して得られる評価指数同士を比較することで、第1ロボット10の行動を決定することができる。具体的には、第1決定部11bは、評価指数が最も高くなる行動を第1ロボット10に行わせる行動として決定する。
【0024】
第1制御部11cは、第1決定部11bにより第1行動モデルπ1を用いて決定された行動を第1ロボット10に実行させる。例えば、第1制御部11cは、第1ロボット10に設けられるモータ等のアクチュエータを制御することによって、第1ロボット10を制御することができる。
【0025】
第1学習部11dは、第1行動モデルπ1の学習を行う。なお、第1学習部11dによる第1行動モデルπ1の学習の詳細については、後述する。
【0026】
第1記憶部11eは、第1ロボット10の制御に必要な各種情報を記憶する。具体的には、第1記憶部11eは、第1行動モデルπ1を記憶する。第1記憶部11eに記憶される第1行動モデルπ1は、第1学習部11dにより行われる学習に応じて更新される。
【0027】
図3は、第2処理装置21の機能構成の一例を示すブロック図である。
【0028】
第2処理装置21は、演算処理装置であるCPU、CPUが使用するプログラムや演算パラメータ等を記憶する記憶素子であるROM、および、CPUの実行において適宜変化するパラメータ等を一時記憶する記憶素子であるRAM等を含む。
【0029】
図3に示されるように、第2処理装置21は、例えば、第2取得部21aと、第2決定部21bと、第2制御部21cと、第2学習部21dと、第3学習部21eと、第2記憶部21fとを備える。
【0030】
第2取得部21aは、第2ロボット20の制御に必要な各種情報を取得する。上述したように、第2ロボット20の行動は、第2行動モデルπ2を用いて決定される。第2取得部21aは、第2行動モデルπ2を用いた行動の決定に必要な情報を取得する。
【0031】
第2決定部21bは、第2ロボット20に実行させる行動を決定する。具体的には、第2決定部21bは、第2行動モデルπ2を用いて第2ロボット20の行動を決定する。第2行動モデルπ2は、第2記憶部21fに記憶されており、作業員30の行動を模倣する模倣モデルπ21と、作業員30の行動に基づかずに行動を決定するための非模倣モデルπ22とを含む。模倣モデルπ21は、模倣学習によって学習される行動モデルである。非模倣モデルπ22は、強化学習によって学習される行動モデルである。
【0032】
第2行動モデルπ2は、具体的には、模倣モデルπ21と非模倣モデルπ22とを重み付け加算して生成される。
図3に示されるように、第2行動モデルπ2は、例えば、απ21+(1-α)π22との数式で表現され得る。ここで、重み係数αは0~1の間の値を取り、重み係数αが1に近いほど、第2行動モデルπ2が模倣モデルπ21に近くなる。なお、以下では、第2行動モデルπ2が模倣モデルπ21および非模倣モデルπ22を含む例を説明する。ただし、後述するように、第2行動モデルπ2は、模倣モデルπ21を少なくとも含んでいればよい。
【0033】
模倣モデルπ21および非模倣モデルπ22は、例えば、第1行動モデルπ1と同様に、状態と行動のペアを入力すると、入力した行動の評価指数(おすすめ度合い)を出力する関数である。第2決定部21bは、状態に応じた行動の候補をそれぞれ第2行動モデルπ2に入力して得られる評価指数同士を比較することで、第2ロボット20の行動を決定することができる。具体的には、第2決定部21bは、評価指数が最も高くなる行動を第2ロボット20に行わせる行動として決定する。なお、第2行動モデルπ2に状態として入力される情報は、第1行動モデルπ1に状態として入力される情報と同様であり、第1取得部11aによる取得方法と同様の方法で、第2取得部21aによって取得される。
【0034】
第2制御部21cは、第2決定部21bにより第2行動モデルπ2を用いて決定された行動を第2ロボット20に実行させる。例えば、第2制御部21cは、第2ロボット20に設けられるモータ等のアクチュエータを制御することによって、第2ロボット20を制御することができる。
【0035】
第2学習部21dは、第2行動モデルπ2における模倣モデルπ21の学習を行う。なお、第2学習部21dによる模倣モデルπ21の学習の詳細については、後述する。
【0036】
第3学習部21eは、第2行動モデルπ2における非模倣モデルπ22の学習を行う。なお、第3学習部21eによる非模倣モデルπ22の学習の詳細については、後述する。
【0037】
第2記憶部21fは、第2ロボット20の制御に必要な各種情報を記憶する。具体的には、第2記憶部21fは、第2行動モデルπ2を記憶する。第2記憶部21fに記憶される第2行動モデルπ2は、第2学習部21dおよび第3学習部21eにより行われる学習に応じて更新される。
【0038】
<処理システムの動作>
図4~
図7を参照して、本発明の実施形態に係る処理システム1の動作について説明する。
【0039】
上述したように、処理システム1は、例えば、工場の生産現場における生産工程に活用される。以下、このような例における工程の全体的な流れについて
図4~
図6を参照して説明した後に、後述する学習工程の詳細について
図7を参照して説明する。
【0040】
図4は、第1ロボット10、第2ロボット20および作業員30により行われる工程の全体的な流れの一例を示すフローチャートである。
図4におけるステップS101は、
図4に示される処理フローの開始に対応する。
【0041】
図4に示される処理フローが開始されると、ステップS102において、生産現場において実際に製品を生産する現場作業工程が行われる。現場作業工程は、例えば、日中に行われる。
図5は、現場作業工程の実行主体を示す図である。
図5に示されるように、現場作業工程では、第1ロボット10と作業員30による共同作業が行われる。ここで、第1ロボット10の第1決定部11bは、作業員30が作業している時(場合)に、第1行動モデルπ1を用いた行動の決定を行う。そして、第1ロボット10は、第1行動モデルπ1を用いて決定された行動を実行する。
【0042】
図4のステップS102の次に、ステップS103において、第1ロボット10が用いる第1行動モデルπ1、および、第2ロボット20が用いる第2行動モデルπ2を学習する学習工程が行われる。学習工程は、例えば、夜間に行われる。
図6は、学習工程の実行主体を示す図である。
図6に示されるように、学習工程では、第1ロボット10および第2ロボット20によって各行動モデルの学習が行われる。なお、学習工程の詳細については後述する。
【0043】
図4に示される処理フローでは、ステップS103の次に、ステップS102に戻り、ステップS102の現場作業工程、および、ステップS103の学習工程が繰り返される。例えば、現場作業工程および学習工程の1セットが1日に行われ、翌日に、現場作業工程および学習工程の次のセットが行われる。それにより、第1ロボット10と作業員30による共同作業が日々行われるとともに、第1行動モデルπ1および第2行動モデルπ2が日々更新されていく。
【0044】
図7は、学習工程における処理の流れの一例を示すフローチャートである。
図7におけるステップS201は、
図7に示される処理フローの開始に対応する。
図7におけるステップS205は、
図7に示される処理フローの終了に対応する。
図7に示される処理フローは、上述した
図4に示される処理フローにおけるステップS103で行われる処理フローの一例に相当する。
【0045】
図7に示される処理フローが開始されると、ステップS202において、第2ロボット20の第2学習部21dは、第2行動モデルπ2における模倣モデルπ21の学習を行う。模倣モデルπ21の学習は、第2ロボット20によって行われる。
【0046】
ステップS202では、第2学習部21dは、作業員30が行った行動に基づいて、模倣学習による模倣モデルπ21の学習を行う。例えば、日中に行われる現場作業工程において、作業員30が行った行動が記録される。作業員30の行動の記録では、作業員30が行った行動と、その行動が行われた際の状態(例えば、作業の種類等)が紐づけられている。模倣モデルπ21の模倣学習は、このようにして得られた作業員30の行動の記録を用いて行われる。模倣モデルπ21の模倣学習では、第2学習部21dは、第2ロボット20に種々の行動を行わせ、第2ロボット20が行った各行動に対して報酬を算出する。ここで、第2学習部21dは、ある状態で第2ロボット20が行った行動がその状態と対応する作業員30の行動に近いほど(似ているほど)高くなるように報酬を算出する。第2学習部21dは、このような報酬の算出を各状態に対して行う。このようにして得られる報酬は、上述した行動の評価指数(おすすめ度合い)に相当する。第2学習部21dは、得られた状態と行動のペアと報酬との関係を用いて、模倣モデルπ21における入力(状態と行動のペア)と出力(行動の評価指数(おすすめ度合い))との関係を更新する。
【0047】
ステップS202の次に、ステップS203において、第2ロボット20の第3学習部21eは、第2行動モデルπ2における非模倣モデルπ22の学習を行う。非模倣モデルπ22の学習は、第1ロボット10および第2ロボット20によって行われる。
【0048】
ステップS203では、第3学習部21eは、第1決定部11bにより第1行動モデルπ1を用いて決定された行動に基づいて、強化学習による非模倣モデルπ22の学習を行う。例えば、実際の生産現場を模した模擬的な現場において、第1ロボット10は、第1行動モデルπ1を用いて行動を選択して実行する。このような状況において、非模倣モデルπ22の強化学習が行われる。非模倣モデルπ22の強化学習では、第3学習部21eは、第2ロボット20に種々の行動を行わせ、第2ロボット20が行った各行動に対して報酬を算出する。ここで、第3学習部21eは、例えば、第2ロボット20が行った行動の効率が高いほど(例えば、作業時間が短いほど、または、成功率が高いほど)高くなるように報酬を算出する。第3学習部21eは、このような報酬の算出を、各状態に対して行う。そして、第3学習部21eは、得られた状態と行動のペアと報酬との関係を用いて、非模倣モデルπ22における入力(状態と行動のペア)と出力(行動の評価指数(おすすめ度合い))との関係を更新する。
【0049】
ステップS203の次に、ステップS204において、第1ロボット10の第1学習部11dは、第1行動モデルπ1の学習を行い、
図7に示される処理フローは終了する。第1行動モデルπ1の学習は、第1ロボット10および第2ロボット20によって行われる。
【0050】
ステップS204では、第1学習部11dは、第2決定部21bにより第2行動モデルπ2を用いて決定された行動に基づいて、強化学習による第1行動モデルπ1の学習を行う。例えば、実際の生産現場を模した模擬的な現場において、第2ロボット20は、ステップS202およびステップS203で更新された第2行動モデルπ2を用いて行動を選択して実行する。このような状況において、第1行動モデルπ1の強化学習が行われる。第1行動モデルπ1の強化学習では、第1学習部11dは、第1ロボット10に種々の行動を行わせ、第1ロボット10が行った各行動に対して報酬を算出する。ここで、第1学習部11dは、例えば、第1ロボット10が行った行動の効率が高いほど(例えば、作業時間が短いほど、または、成功率が高いほど)高くなるように報酬を算出する。第1学習部11dは、このような報酬の算出を、各状態に対して行う。そして、第1学習部11dは、得られた状態と行動のペアと報酬との関係を用いて、第1行動モデルπ1における入力(状態と行動のペア)と出力(行動の評価指数(おすすめ度合い))との関係を更新する。
【0051】
以上説明したように、処理システム1では、第1ロボット10の第1学習部11dは、第2決定部21bにより第2行動モデルπ2を用いて決定された行動に基づいて、強化学習による第1行動モデルπ1の学習を行う。上記の例では、第1ロボット10および第2ロボット20によって、第1行動モデルπ1の強化学習が行われる。それにより、作業員30が作業していない夜間等において、第1行動モデルπ1の学習を行うことができる。
【0052】
ここで、仮に、第2行動モデルπ2が、作業員30の行動を模倣する模倣モデルπ21を含まずに、作業員30の行動に基づかずに行動を決定するための行動モデル(例えば、非模倣モデルπ22)である場合、第2ロボット20の行動が作業員30の行動に対して大きく乖離してしまう。ゆえに、このような第2ロボット20とともに第1ロボット10の第1行動モデルπ1を学習した場合、学習後の第1行動モデルπ1を用いて決定される第1ロボット10の行動に対して作業員30が上手く適応できない状況が生じるおそれがある。
【0053】
一方、本実施形態では、第2行動モデルπ2は、作業員30の行動を模倣する模倣モデルπ21を含む。それにより、第2ロボット20の行動が作業員30の行動に対して大きく乖離することが抑制される。ゆえに、学習後の第1行動モデルπ1を用いて決定される第1ロボット10の行動に対して作業員30が上手く適応できない状況の発生を抑制できる。よって、本実施形態によれば、作業現場にロボット(上記の例では、第1ロボット10)を円滑に導入することができる。
【0054】
また、上述したように、第1ロボット10の第1決定部11bは、作業員30が作業している時(場合)に、第1行動モデルπ1を用いた行動の決定を行う。具体的には、日中の現場作業工程(つまり、
図4のステップS102)において、作業員30とともに作業を行う第1ロボット10は、第1行動モデルπ1を用いて決定された行動を実行する。それにより、作業員30は、前日の学習工程において更新された第1行動モデルπ1を用いて決定され実行される第1ロボット10の行動に対して適応しながら作業を行うことになる。ゆえに、第1行動モデルπ1の学習後において、作業員30は、第1ロボット10の行動に順応していく。このように、処理システム1では、システム全体の効率が向上されるように、作業員30と第1ロボット10とが、互いに適応しながら成長していく。
【0055】
さらに、上述したように、第2ロボット20の第2学習部21dは、作業員30が行った行動に基づいて、模倣学習による模倣モデルπ21の学習を行う。具体的には、夜間の学習工程(つまり、
図4のステップS103)において、日中の現場作業工程(つまり、
図4のステップS102)で作業員30が行った行動の記録を用いて第2行動モデルπ2における模倣モデルπ21の模倣学習が行われる。それにより、学習後の第1行動モデルπ1を用いて決定され実行される第1ロボット10の行動に適応した後の作業員30の行動を模倣するように、模倣モデルπ21を更新することができる。このように、処理システム1では、システム全体の効率が向上されるように、第2ロボット20も、作業員30および第1ロボット10に適応しながら成長していく。
【0056】
さらに、上述したように、第2ロボット20の第3学習部21eは、第1決定部11bにより第1行動モデルπ1を用いて決定された行動に基づいて、強化学習による非模倣モデルπ22の学習を行う。具体的には、夜間の学習工程(つまり、
図4のステップS103)において、前日の学習によって更新された第1行動モデルπ1を用いる第1ロボット10とともに第2行動モデルπ2における非模倣モデルπ22の強化学習が行われる。それにより、学習後の第1行動モデルπ1を用いて決定され実行される第1ロボット10の行動に適応するように、非模倣モデルπ22を更新することができる。
【0057】
なお、上記では、第2行動モデルπ2が模倣モデルπ21および非模倣モデルπ22を含む例を説明した。ただし、第2行動モデルπ2は、模倣モデルπ21を少なくとも含んでいればよい。例えば、第2行動モデルπ2は、作業員30の行動に基づかずに行動を決定するための非模倣モデルπ22を含まずに、作業員30の行動を模倣する行動モデル(例えば、模倣モデルπ21)であってもよい。この場合であっても、上記の例と同様に、学習後の第1行動モデルπ1を用いて決定される第1ロボット10の行動に対して作業員30が上手く適応できない状況の発生を抑制できるので、作業現場にロボットを円滑に導入することができる。ただし、第2行動モデルπ2が模倣モデルπ21のみである場合、第2行動モデルπ2の学習において、作業員30が経験していない状況で行動を決定するための学習が円滑に進まないおそれがある。ゆえに、第2行動モデルπ2は、模倣モデルπ21に加えて、非模倣モデルπ22を含むことが好ましい。
【0058】
なお、上記では、第1行動モデルπ1の強化学習が夜間の学習工程(つまり、
図4のステップS103)において行われる例を説明した。ただし、第1行動モデルπ1の強化学習は、夜間の学習工程に加えて、日中の現場作業工程(つまり、
図4のステップS102)において行われてもよい。
【0059】
なお、上記では、第1処理装置11の各機能部(つまり、第1取得部11a、第1決定部11b、第1制御部11c、第1学習部11dおよび第1記憶部11e)と、第2処理装置21の各機能部(つまり、第2取得部21a、第2決定部21b、第2制御部21c、第2学習部21d、第3学習部21eおよび第2記憶部21f)とが別々のロボットに分けられている例を説明した。ただし、上記で説明した各機能部を1つの装置が有していてもよい。例えば、上記で説明した第2ロボット20が行う処理を内部的に計算するシミュレーターを第1ロボット10が有していてもよい。この場合、第2ロボット20は処理システム1から省略され得る。
【0060】
<処理システムの効果>
本発明の実施形態に係る処理システム1の効果について説明する。
【0061】
処理システム1では、行動モデルは、第1行動モデルπ1と、作業員30の行動を模倣する模倣モデルπ21を少なくとも含む第2行動モデルπ2とを含む。処理システム1は、第1行動モデルπ1を用いて行動を決定する第1決定部11bと、第2行動モデルπ2を用いて行動を決定する第2決定部21bと、第2行動モデルπ2を用いて決定された行動に基づいて、強化学習による第1行動モデルπ1の学習を行う第1学習部11dとを備える。それにより、作業員30が作業していない夜間等において、第1行動モデルπ1の学習を行うことができる。ここで、第2行動モデルπ2は模倣モデルπ21を含むので、第2ロボット20の行動が作業員30の行動に対して大きく乖離することが抑制される。ゆえに、学習後の第1行動モデルπ1を用いて決定される第1ロボット10の行動に対して作業員30が上手く適応できない状況の発生を抑制できる。よって、本実施形態によれば、作業現場にロボット(上記の例では、第1ロボット10)を円滑に導入することができる。
【0062】
好ましくは、処理システム1は、作業員30が行った行動に基づいて、模倣学習による模倣モデルπ21の学習を行う第2学習部21dを備える。それにより、学習後の第1行動モデルπ1を用いて決定され実行される第1ロボット10の行動に適応した後の作業員30の行動を模倣するように、模倣モデルπ21を更新することができる。
【0063】
好ましくは、処理システム1では、第2行動モデルπ2は、模倣モデルπ21に加えて、作業員30の行動に基づかずに行動を決定するための非模倣モデルπ22を含む。それにより、第2行動モデルπ2の学習において、作業員30が経験していない状況で行動を決定するための学習が円滑に進まないことが抑制される。
【0064】
好ましくは、処理システム1では、第2行動モデルπ2は、模倣モデルπ21と非模倣モデルπ22とを重み付け加算して生成される。それにより、模倣モデルπ21と非模倣モデルπ22とを含む第2行動モデルπ2を適切に生成できる。また、重み係数αを適宜設定することによって、第2行動モデルπ2を模倣モデルπ21に近づける調整、または、模倣モデルπ21から遠ざける調整を行うことができる。
【0065】
好ましくは、処理システム1は、第1行動モデルπ1を用いて決定された行動に基づいて、強化学習による非模倣モデルπ22の学習を行う第3学習部21eを備える。それにより、学習後の第1行動モデルπ1を用いて決定され実行される第1ロボット10の行動に適応するように、非模倣モデルπ22を更新することができる。
【0066】
好ましくは、処理システム1では、第1決定部11bは、作業員30が作業している時に、第1行動モデルπ1を用いた行動の決定を行う。それにより、作業員30は、システム全体の効率を高めるために、学習により更新された第1行動モデルπ1を用いて決定される第1ロボット10の行動に対して適応しながら作業を行うことになる。ゆえに、第1行動モデルπ1の学習後において、作業員30は、第1行動モデルπ1を用いて決定される第1ロボット10の行動に順応していくことができる。
【0067】
以上、添付図面を参照しつつ本発明の好適な実施形態について説明したが、本発明は上述した実施形態に限定されないことは勿論であり、特許請求の範囲に記載された範疇における各種の変更例または修正例についても、本発明の技術的範囲に属することは言うまでもない。
【0068】
例えば、本明細書においてフローチャートを用いて説明した処理は、必ずしもフローチャートに示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
【0069】
また、例えば、上記で説明した処理システム1による一連の制御処理は、ソフトウェア、ハードウェア、およびソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、情報処理装置の内部または外部に設けられる記憶媒体に予め格納される。
【符号の説明】
【0070】
1 処理システム
10 第1ロボット
11 第1処理装置
11a 第1取得部
11b 第1決定部
11c 第1制御部
11d 第1学習部
11e 第1記憶部
20 第2ロボット
21 第2処理装置
21a 第2取得部
21b 第2決定部
21c 第2制御部
21d 第2学習部
21e 第3学習部
21f 第2記憶部
30 作業員
π1 第1行動モデル
π2 第2行動モデル
π21 模倣モデル
π22 非模倣モデル