IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ボッシュ株式会社の特許一覧

<>
  • 特開-処理システムおよび処理方法 図1
  • 特開-処理システムおよび処理方法 図2
  • 特開-処理システムおよび処理方法 図3
  • 特開-処理システムおよび処理方法 図4
  • 特開-処理システムおよび処理方法 図5
  • 特開-処理システムおよび処理方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023102322
(43)【公開日】2023-07-25
(54)【発明の名称】処理システムおよび処理方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230718BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022002707
(22)【出願日】2022-01-12
(71)【出願人】
【識別番号】000003333
【氏名又は名称】ボッシュ株式会社
(72)【発明者】
【氏名】中里 研一
(57)【要約】
【課題】作業現場における技能の伝承を効率良く行う。
【解決手段】処理システム1は、状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理システムであって、行動モデルは、第1作業員30の行動を模倣する模倣モデルである第1行動モデルπ1と、第2作業員40の行動を模倣する模倣モデルである第2行動モデルπ2とを含み、処理システム1は、第1行動モデルπ1を用いて行動を決定する第1決定部と、第1行動モデルの学習を行う第1学習部と、複数の状態の中から特定の状態を選択する選択部と、を備え、第1学習部は、複数の状態の各々において強化学習による第1行動モデルπ1の学習をそれぞれ行い、選択部は、複数の状態の各々について学習後の第1行動モデルπ1と第2行動モデルπ2との比較を行い、比較の結果に基づいて特定の状態を選択する。
【選択図】図1
【特許請求の範囲】
【請求項1】
状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理システム(1)であって、
前記行動モデルは、第1作業員(30)の行動を模倣する模倣モデルである第1行動モデル(π1)と、第2作業員(40)の行動を模倣する模倣モデルである第2行動モデル(π2)とを含み、
前記処理システム(1)は、
前記第1行動モデル(π1)を用いて行動を決定する第1決定部(11b)と、
前記第1行動モデル(π1)の学習を行う第1学習部(11d)と、
複数の状態の中から特定の状態を選択する選択部(11e)と、
を備え、
前記第1学習部(11d)は、前記複数の状態の各々において強化学習による前記第1行動モデル(π1)の学習をそれぞれ行い、
前記選択部(11e)は、前記複数の状態の各々について学習後の前記第1行動モデル(π1)と前記第2行動モデル(π2)との比較を行い、前記比較の結果に基づいて前記特定の状態を選択する、
処理システム。
【請求項2】
前記選択部(11e)は、前記複数の状態のうち、学習後の前記第1行動モデル(π1)の前記第2行動モデル(π2)に対する類似度が最も高い状態を前記特定の状態として選択する、
請求項1に記載の処理システム。
【請求項3】
前記第1学習部(11d)は、前記選択部(11e)により選択された前記特定の状態において前記第1作業員(30)が作業した後に、前記第1作業員(30)が行った行動に基づいて、模倣学習による前記第1行動モデル(π1)の学習を行う、
請求項1または2に記載の処理システム。
【請求項4】
前記第2行動モデル(π2)は、前記第2作業員(40)の行動を模倣する複数の模倣モデルを統合して生成される、
請求項1~3のいずれか一項に記載の処理システム。
【請求項5】
前記第2作業員(40)は、前記第1作業員(30)よりも技能の高い作業員である、
請求項1~4のいずれか一項に記載の処理システム。
【請求項6】
状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理方法であって、
前記行動モデルは、第1作業員(30)の行動を模倣する模倣モデルである第1行動モデル(π1)と、第2作業員(40)の行動を模倣する模倣モデルである第2行動モデル(π2)とを含み、
前記第1行動モデル(π1)を用いて行動を決定する第1ステップと、
前記第1行動モデル(π1)の学習を行う第2ステップと、
複数の状態の中から特定の状態を選択する第3ステップと、
を備え、
前記第2ステップにおいて、前記複数の状態の各々において強化学習による前記第1行動モデル(π1)の学習がそれぞれ行われ、
前記第3ステップにおいて、前記複数の状態の各々について学習後の前記第1行動モデル(π1)と前記第2行動モデル(π2)との比較が行われ、前記比較の結果に基づいて前記特定の状態が選択される、
処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理システムおよび処理方法に関する。
【背景技術】
【0002】
近年、状態に応じて行動を決定するための行動モデルを用いた人工知能(AI:Artificial Intelligence)に関する種々の技術が提案されている。例えば、特許文献1には、強化学習による行動モデルの学習に関する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許出願公開第2010/094786号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、人工知能の技術を工場の生産現場等の作業現場に活用することが考えられる。ここで、作業現場では、熟練の作業員が有する高い技能を伝承することが重要である。技能の伝承には、熟練の作業員が時間を割く必要がある。ゆえに、作業現場における技能の伝承を効率良く行うことが望まれる。
【0005】
そこで、本発明は、このような課題に鑑み、作業現場における技能の伝承を効率良く行うことが可能な処理システムおよび処理方法を提供することを目的としている。
【課題を解決するための手段】
【0006】
上記課題を解決するために、処理システムは、状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理システムであって、行動モデルは、第1作業員の行動を模倣する模倣モデルである第1行動モデルと、第2作業員の行動を模倣する模倣モデルである第2行動モデルとを含み、処理システムは、第1行動モデルを用いて行動を決定する第1決定部と、第1行動モデルの学習を行う第1学習部と、複数の状態の中から特定の状態を選択する選択部と、を備え、第1学習部は、複数の状態の各々において強化学習による第1行動モデルの学習をそれぞれ行い、選択部は、複数の状態の各々について学習後の第1行動モデルと第2行動モデルとの比較を行い、比較の結果に基づいて特定の状態を選択する。
【0007】
上記課題を解決するために、処理方法は、状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理方法であって、行動モデルは、第1作業員の行動を模倣する模倣モデルである第1行動モデルと、第2作業員の行動を模倣する模倣モデルである第2行動モデルとを含み、第1行動モデルを用いて行動を決定する第1ステップと、第1行動モデルの学習を行う第2ステップと、複数の状態の中から特定の状態を選択する第3ステップと、を備え、第2ステップにおいて、複数の状態の各々において強化学習による第1行動モデルの学習がそれぞれ行われ、第3ステップにおいて、複数の状態の各々について学習後の第1行動モデルと第2行動モデルとの比較が行われ、比較の結果に基づいて特定の状態が選択される。
【発明の効果】
【0008】
本発明によれば、作業現場における技能の伝承を効率良く行うことが可能となる。
【図面の簡単な説明】
【0009】
図1】本発明の実施形態に係る処理システムの概略構成を示す模式図である。
図2】本発明の実施形態に係る第1処理装置の機能構成の一例を示すブロック図である。
図3】本発明の実施形態に係る第2処理装置の機能構成の一例を示すブロック図である。
図4】本発明の実施形態に係る第1ロボット、第2ロボットおよび第1作業員により行われる処理の全体的な流れの一例を示すフローチャートである。
図5】本発明の実施形態に係る作業状態の選択処理の実行主体を示す図である。
図6】本発明の実施形態に係る作業状態の選択処理における処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値等は、発明の理解を容易にするための例示に過ぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書および図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。
【0011】
<処理システムの構成>
図1図3を参照して、本発明の実施形態に係る処理システム1の構成について説明する。
【0012】
図1は、処理システム1の概略構成を示す模式図である。
【0013】
図1に示されるように、処理システム1は、第1ロボット10と、第2ロボット20とを含む。処理システム1は、工場の生産現場等の作業現場において活用される。以下では、処理システム1が工場の生産現場における生産工程に活用される例を説明する。生産工程は、製品を生産する工程である。ただし、処理システム1が活用される作業現場は、製品の生産が行われる生産現場以外の作業現場(例えば、製品の検査が行われる現場等)であってもよい。
【0014】
第1ロボット10および第2ロボット20は、人工知能を用いて行動を決定して実行するロボットである。具体的には、第1ロボット10および第2ロボット20は、状態に応じて行動を決定するための行動モデルを有しており、行動モデルを用いて行動を決定して実行する。第1ロボット10は、第1ロボット10に関する各種処理を行う第1処理装置11を備える。第1処理装置11は、第1行動モデルπ1を用いて第1ロボット10の行動を決定し、決定した行動を第1ロボット10に実行させる。第2ロボット20は、第2ロボット20に関する各種処理を行う第2処理装置21を備える。第2処理装置21は、第2行動モデルπ2を用いて第2ロボット20の行動を決定し、決定した行動を第2ロボット20に実行させる
【0015】
処理システム1が活用される生産工程では、複数の作業員によって製品の生産が行われる。このような複数の作業員には、第1作業員30と、第2作業員40とが含まれる。第1作業員30は、第2作業員40よりも技能の低い未熟な作業員である。例えば、第1作業員30は、第2作業員40よりも作業経験年数が短い作業員である。第2作業員40は、第1作業員30よりも技能の高い熟練の作業員である。例えば、第2作業員40は、第1作業員30よりも作業経験年数が長い熟練の作業員である。
【0016】
第1ロボット10は、第1作業員30の行動を模倣することが可能である。図1の例では、第1ロボット10が人型ロボットである例が示されている。ただし、第1ロボット10は、人型ロボット以外のロボットであってもよい。
【0017】
第2ロボット20は、第2作業員40の行動を模倣することが可能である。図1の例では、第2ロボット20が人型ロボットである例が示されている。ただし、第2ロボット20は、人型ロボット以外のロボットであってもよい。
【0018】
処理システム1が活用される生産工程では、熟練の作業員である第2作業員40が有する高い技能を未熟な作業員である第1作業員30に伝承することが重要である。処理システム1では、第1ロボット10および第2ロボット20を活用することによって、後述するように、第1作業員30の技能の上達を促進し、技能の伝承を効率良く行うことが可能となる。
【0019】
図2は、第1処理装置11の機能構成の一例を示すブロック図である。
【0020】
第1処理装置11は、演算処理装置であるCPU(Central Processing Unit)、CPUが使用するプログラムや演算パラメータ等を記憶する記憶素子であるROM(Read Only Memory)、および、CPUの実行において適宜変化するパラメータ等を一時記憶する記憶素子であるRAM(Random Access Memory)等を含む。
【0021】
図2に示されるように、第1処理装置11は、例えば、第1取得部11aと、第1決定部11bと、第1制御部11cと、第1学習部11dと、選択部11eと、第1記憶部11fとを備える。
【0022】
第1取得部11aは、第1ロボット10の制御に必要な各種情報を取得する。上述したように、第1ロボット10の行動は、第1行動モデルπ1を用いて決定される。第1取得部11aは、第1行動モデルπ1を用いた行動の決定に必要な情報を取得する。
【0023】
第1決定部11bは、第1ロボット10に実行させる行動を決定する。具体的には、第1決定部11bは、第1行動モデルπ1を用いて第1ロボット10の行動を決定する。第1行動モデルπ1は、第1記憶部11fに記憶されており、第1作業員30の行動を模倣する模倣モデルである。第1行動モデルπ1は、例えば、状態と行動のペアを入力すると、入力した行動の評価指数(おすすめ度合い)を出力する関数である。
【0024】
第1行動モデルπ1に状態として入力される情報は、例えば、生産現場に関する情報(例えば、作業の種類を示す情報、または、作業で用いる材料の情報等)、第1ロボット10に関する情報(例えば、第1ロボット10の位置および姿勢を示す情報等)、または、作業員に関する情報(例えば、作業員の位置および姿勢を示す情報等)が挙げられる。これらの情報は、第1取得部11aによって取得される。第1取得部11aは、例えば、第1ロボット10に設けられるカメラにより撮像される画像に基づいて、生産現場に関する情報、および、作業員に関する情報を取得できる。また、第1取得部11aは、例えば、第1ロボット10に設けられる各種センサの出力結果に基づいて、第1ロボット10に関する情報を取得できる。
【0025】
例えば、状態が決まると、いくつかの行動の候補が決まる。第1決定部11bは、これらの行動の候補をそれぞれ第1行動モデルπ1に入力して得られる評価指数同士を比較することで、第1ロボット10の行動を決定することができる。具体的には、第1決定部11bは、評価指数が最も高くなる行動を第1ロボット10に行わせる行動として決定する。
【0026】
第1制御部11cは、第1決定部11bにより第1行動モデルπ1を用いて決定された行動を第1ロボット10に実行させる。例えば、第1制御部11cは、第1ロボット10に設けられるモータ等のアクチュエータを制御することによって、第1ロボット10を制御することができる。
【0027】
第1学習部11dは、第1行動モデルπ1の学習を行う。なお、第1学習部11dによる第1行動モデルπ1の学習の詳細については、後述する。
【0028】
選択部11eは、複数の状態の中から特定の状態を選択する。具体的には、選択部11eは、後述するように、複数の作業状態の中から、第1作業員30の技能の上達を促進するために最適な作業状態を選択する。なお、作業状態の選択処理の詳細については後述する。
【0029】
作業状態は、作業環境の状態であり、例えば、箱を整理する作業における箱の位置および数である。以下では、第1作業員30が箱を整理する作業を行う場合について説明する。この場合に、第1作業員30は、選択部11eにより選択された作業状態において、箱を整理する作業を行うことによって、当該作業の技能を効率的に上達させることができる。ただし、第1作業員30の技能の上達の対象となる作業は、箱を整理する作業以外の作業であってもよい。
【0030】
第1記憶部11fは、第1ロボット10の制御に必要な各種情報を記憶する。具体的には、第1記憶部11fは、第1行動モデルπ1を記憶する。第1記憶部11fに記憶される第1行動モデルπ1は、第1学習部11dにより行われる学習に応じて更新される。
【0031】
図3は、第2処理装置21の機能構成の一例を示すブロック図である。
【0032】
第2処理装置21は、演算処理装置であるCPU、CPUが使用するプログラムや演算パラメータ等を記憶する記憶素子であるROM、および、CPUの実行において適宜変化するパラメータ等を一時記憶する記憶素子であるRAM等を含む。
【0033】
図3に示されるように、第2処理装置21は、例えば、第2取得部21aと、第2決定部21bと、第2制御部21cと、第2学習部21dと、第2記憶部21eとを備える。
【0034】
第2取得部21aは、第2ロボット20の制御に必要な各種情報を取得する。上述したように、第2ロボット20の行動は、第2行動モデルπ2を用いて決定される。第2取得部21aは、第2行動モデルπ2を用いた行動の決定に必要な情報を取得する。
【0035】
第2決定部21bは、第2ロボット20に実行させる行動を決定する。具体的には、第2決定部21bは、第2行動モデルπ2を用いて第2ロボット20の行動を決定する。第2行動モデルπ2は、第2記憶部21eに記憶されており、第2作業員40の行動を模倣する模倣モデルである。
【0036】
第2行動モデルπ2は、例えば、第1行動モデルπ1と同様に、状態と行動のペアを入力すると、入力した行動の評価指数(おすすめ度合い)を出力する関数である。第2決定部21bは、状態に応じた行動の候補をそれぞれ第2行動モデルπ2に入力して得られる評価指数同士を比較することで、第2ロボット20の行動を決定することができる。具体的には、第2決定部21bは、評価指数が最も高くなる行動を第2ロボット20に行わせる行動として決定する。なお、第2行動モデルπ2に状態として入力される情報は、第1行動モデルπ1に状態として入力される情報と同様であり、第1取得部11aによる取得方法と同様の方法で、第2取得部21aによって取得される。
【0037】
第2制御部21cは、第2決定部21bにより第2行動モデルπ2を用いて決定された行動を第2ロボット20に実行させる。例えば、第2制御部21cは、第2ロボット20に設けられるモータ等のアクチュエータを制御することによって、第2ロボット20を制御することができる。
【0038】
第2学習部21dは、第2行動モデルπ2の学習を行う。なお、第2学習部21dによる第2行動モデルπ2の学習の詳細については、後述する。
【0039】
第2記憶部21eは、第2ロボット20の制御に必要な各種情報を記憶する。具体的には、第2記憶部21eは、第2行動モデルπ2を記憶する。第2記憶部21eに記憶される第2行動モデルπ2は、第2学習部21dにより行われる学習に応じて更新される。
【0040】
<処理システムの動作>
図4図6を参照して、本発明の実施形態に係る処理システム1の動作について説明する。
【0041】
上述したように、処理システム1は、例えば、工場の生産現場において、第1作業員30の技能の上達の促進に活用される。そして、処理システム1では、第1作業員30の技能の上達の促進のための処理が、第1ロボット10、第2ロボット20および第1作業員30によって行われる。以下、第1作業員30の技能の上達の促進のための処理の全体的な流れについて図4および図5を参照して説明した後に、後述する作業状態の選択処理の詳細について図6を参照して説明する。
【0042】
図4は、第1ロボット10、第2ロボット20および第1作業員30により行われる処理の全体的な流れの一例を示すフローチャートである。図4におけるステップS101は、図4に示される処理フローの開始に対応する。
【0043】
図4に示される処理フローが開始されると、ステップS102において、模倣学習による第1行動モデルπ1の学習が行われる。第1行動モデルπ1の学習は、第1ロボット10の第1学習部11dによって行われる。
【0044】
ステップS102では、第1学習部11dは、第1作業員30が行った行動に基づいて、模倣学習による第1行動モデルπ1の学習を行う。例えば、後述するステップS104において、または、後述するステップS104の後に、第1作業員30が実際に作業を行った際の行動が記録される。第1作業員30の行動の記録では、第1作業員30が行った行動と、その行動が行われた際の状態(例えば、作業の種類等)が紐づけられている。第1行動モデルπ1の模倣学習は、このようにして得られた第1作業員30の行動の記録を用いて行われる。第1行動モデルπ1の模倣学習では、第1学習部11dは、第1ロボット10に種々の行動を行わせ、第1ロボット10が行った各行動に対して報酬を算出する。ここで、第1学習部11dは、ある状態で第1ロボット10が行った行動がその状態と対応する第1作業員30の行動に近いほど(似ているほど)高くなるように報酬を算出する。第1学習部11dは、このような報酬の算出を各状態に対して行う。このようにして得られる報酬は、上述した行動の評価指数(おすすめ度合い)に相当する。第1学習部11dは、得られた状態と行動のペアと報酬との関係を用いて、第1行動モデルπ1における入力(状態と行動のペア)と出力(行動の評価指数(おすすめ度合い))との関係を更新する。
【0045】
ステップS102の次に、ステップS103において、複数の作業状態の中から、第1作業員30の技能の上達を促進するために最適な作業状態を選択する選択処理が行われる。図5は、作業状態の選択処理の実行主体を示す図である。図5に示されるように、作業状態の選択処理は、第1ロボット10および第2ロボット20によって行われる。なお、作業状態の選択処理の詳細については後述する。
【0046】
図4のステップS103の次に、ステップS104において、第1作業員30は、ステップS103の選択処理で選択された作業状態において、作業を行う。それにより、第1作業員30は、当該作業の技能を効率的に上達させることができる。なお、ステップS104において、第1作業員30の技能が早期に上達しない場合には、第1作業員30の技能がある程度上達するまで、第1作業員30に作業を行わせ続けてもよく、第1作業員30に与える作業状態を適宜変更(修正)してもよい。
【0047】
図4に示される処理フローでは、ステップS104の次に、ステップS102に戻り、ステップS102、ステップS103、および、ステップS104の処理が繰り返される。それにより、第1作業員30の成長に伴い第1行動モデルπ1が更新されながら、第1作業員30の技能の上達の促進のための処理(つまり、ステップS102、ステップS103、および、ステップS104)が繰り返される。
【0048】
図6は、作業状態の選択処理における処理の流れの一例を示すフローチャートである。図6におけるステップS201は、図6に示される処理フローの開始に対応する。図6におけるステップS205は、図6に示される処理フローの終了に対応する。図6に示される処理フローは、上述した図4に示される処理フローにおけるステップS103で行われる処理フローの一例に相当する。
【0049】
図6に示される処理フローが開始されると、ステップS202において、第1ロボット10の第1学習部11dは、複数の作業状態の各々において強化学習による第1行動モデルπ1の学習をそれぞれ行う。
【0050】
ステップS202では、いくつかの作業状態の候補が予め用意されている。そして、第1学習部11dは、用意された複数の作業状態の候補の各々について、第1行動モデルπ1の学習を行う。以下では、理解を容易にするために、箱を整理する作業の作業状態として、箱の位置および数の組み合わせが互いに異なる3つの作業状態である第1作業状態、第2作業状態および第3作業状態が候補として用意されている場合について説明する。ただし、作業状態の候補の数は、3つ以外であってもよい。また、作業状態の種類は、この例に限定されない。
【0051】
例えば、3つの作業状態が候補として用意されている上記の例では、まず、第1学習部11dは、第1作業状態において、強化学習による第1行動モデルπ1の学習を行う。第1作業状態についての強化学習では、第1学習部11dは、例えば、実際の第1作業状態を模した模擬的な作業状態において第1ロボット10に種々の行動を行わせ、第1ロボット10が行った各行動に対して報酬を算出する。ここで、第1学習部11dは、例えば、第1ロボット10が行った行動の効率が高いほど(例えば、作業時間が短いほど、または、成功率が高いほど)高くなるように報酬を算出する。第1学習部11dは、このような報酬の算出を、各行動に対して行う。そして、第1学習部11dは、得られた行動と報酬との関係を用いて、第1行動モデルπ1における入力(状態と行動のペア)と出力(行動の評価指数(おすすめ度合い))との関係を更新する。第1作業状態についての強化学習による学習後の第1行動モデルπ1は、例えば、第1ロボット10の第1記憶部11fに記憶される。
【0052】
次に、第1学習部11dは、第1行動モデルπ1を第1作業状態についての強化学習の前の行動モデルに戻した後に、第2作業状態において、強化学習による第1行動モデルπ1の学習を行う。第2作業状態についての強化学習の詳細は、第1作業状態についての強化学習と同様であるので、説明を省略する。第2作業状態についての強化学習による学習後の第1行動モデルπ1は、例えば、第1ロボット10の第1記憶部11fに記憶される。
【0053】
次に、第1学習部11dは、第1行動モデルπ1を第2作業状態についての強化学習の前の行動モデルに戻した後に、第3作業状態において、強化学習による第1行動モデルπ1の学習を行う。第3作業状態についての強化学習の詳細も、第1作業状態についての強化学習と同様であるので、説明を省略する。第3作業状態についての強化学習による学習後の第1行動モデルπ1は、例えば、第1ロボット10の第1記憶部11fに記憶される。
【0054】
ステップS202の次に、ステップS203において、第1ロボット10の選択部11eは、複数の作業状態(上記の例では、第1作業状態、第2作業状態および第3作業状態)の各々について学習後の第1行動モデルπ1と第2行動モデルπ2との比較を行う。
【0055】
上述したように、第2行動モデルπ2は、第2作業員40の行動を模倣する模倣モデルであり、第2行動モデルπ2の学習は、第2ロボット20の第2学習部21dによって行われる。具体的には、第2学習部21dは、第2作業員40が行った行動に基づいて、模倣学習による第2行動モデルπ2の学習を行う。例えば、第2行動モデルπ2の模倣学習は、第1行動モデルπ1の模倣学習と同様に、第2作業員40の行動の記録を用いて行われる。第2行動モデルπ2の模倣学習では、第2学習部21dは、第2ロボット20に種々の行動を行わせ、第2ロボット20が行った各行動に対して報酬を算出する。ここで、第2学習部21dは、ある状態で第2ロボット20が行った行動がその状態と対応する第2作業員40の行動に近いほど(似ているほど)高くなるように報酬を算出する。第2学習部21dは、このような報酬の算出を各状態に対して行う。そして、第2学習部21dは、得られた状態と行動のペアと報酬との関係を用いて、第2行動モデルπ2における入力(状態と行動のペア)と出力(行動の評価指数(おすすめ度合い))との関係を更新する。
【0056】
ステップS203では、選択部11eは、ステップS202での作業状態の各候補についての学習により得られた学習後の各第1行動モデルπ1と第2行動モデルπ2との比較を行う。具体的には、選択部11eは、学習後の各第1行動モデルπ1の第2行動モデルπ2に対する類似度を求める。当該類似度は、学習後の第1行動モデルπ1が第2行動モデルπ2に似ているほど高くなる。学習後の第1行動モデルπ1の第2行動モデルπ2に対する類似度は、例えば、各行動モデルに種々の入力情報を入力した際の出力結果同士の比較により求められてもよく、相関関数等を用いる方法等の計算によって求められてもよい。
【0057】
例えば、3つの作業状態が候補として用意されている上記の例では、まず、選択部11eは、第1作業状態についての強化学習による学習後の第1行動モデルπ1の第2行動モデルπ2に対する類似度を求める。次に、選択部11eは、第2作業状態についての強化学習による学習後の第1行動モデルπ1の第2行動モデルπ2に対する類似度を求める。次に、選択部11eは、第3作業状態についての強化学習による学習後の第1行動モデルπ1の第2行動モデルπ2に対する類似度を求める。
【0058】
ステップS203の次に、ステップS204において、第1ロボット10の選択部11eは、複数の作業状態(上記の例では、第1作業状態、第2作業状態および第3作業状態)のうち、学習後の第1行動モデルπ1の第2行動モデルπ2に対する類似度が最も高い状態を最適な作業状態として選択し、図6に示される処理フローは終了する。
【0059】
上述したように、第2行動モデルπ2は、熟練の作業員である第2作業員40の行動を模倣する模倣モデルである。ゆえに、学習後の第1行動モデルπ1の第2行動モデルπ2に対する類似度が高いほど(つまり、学習後の第1行動モデルπ1が第2行動モデルπ2に似ているほど)、学習後の第1行動モデルπ1を用いる第1ロボット10の行動は、第2作業員40の行動に近いことになる。ゆえに、上記の類似度が最も高い状態は、第1作業員30の技能の上達を促進し、第1作業員30の技能を第2作業員40の技能に効率良く近づけるために最適な作業状態となる。
【0060】
以上説明したように、処理システム1では、第1ロボット10の第1学習部11dは、複数の作業状態の各々において強化学習による第1行動モデルπ1の学習をそれぞれ行い、選択部11eは、複数の作業状態の各々について学習後の第1行動モデルπ1と第2行動モデルπ2との比較を行い、当該比較の結果に基づいて最適な作業状態を選択する。それにより、第1作業員30の技能の上達を促進するために最適な作業状態を選択し、そのような作業状態を第1作業員30に与えることができる。
【0061】
そして、そのような作業状態において第1作業員30が作業を行うことによって、第1作業員30の技能の上達を促進させることができる。それにより、第1作業員30の技能を熟練の作業員である第2作業員40の技能に効率良く近づけることができる。このように、処理システム1によれば、第2作業員40の時間を節約しつつ、第1作業員30の技能を効率良く上達させることができるので、作業現場における技能の伝承を効率良く行うことができる。
【0062】
また、上述したように、第1ロボット10の第1学習部11dは、選択部11eにより選択された作業状態において第1作業員30が作業した後に、第1作業員30が行った行動に基づいて、模倣学習による第1行動モデルπ1の学習を行う。具体的には、第1作業員30は、上述した図6の処理フローで選択された最適な作業状態において、作業を行う(図4のステップS104)。それにより、第1作業員30は成長する。その後、模倣学習による第1行動モデルπ1の学習が行われる(図4のステップS102)。それにより、成長後の第1作業員30の行動を模倣するように、第1行動モデルπ1を更新することができる。
【0063】
なお、上記では、第2行動モデルπ2が1人の第2作業員40の行動を模倣する模倣モデルである例を説明した。ただし、第2行動モデルπ2は、このような行動モデルに限定されない。例えば、複数の第2作業員40の各々の行動を模倣する互いに異なる複数の模倣モデルを用意し、これらの複数の模倣モデルを統合することによって第2行動モデルπ2が生成されてもよい。例えば、上記の複数の模倣モデルの相加平均が、第2行動モデルπ2として生成されてもよい。上記のように、第2行動モデルπ2は、第2作業員40の行動を模倣する複数の模倣モデルを統合して生成されてもよい。それにより、より幅広い様々な技能の伝承を行うことができる。
【0064】
なお、上記では、第1処理装置11の各機能部(つまり、第1取得部11a、第1決定部11b、第1制御部11c、第1学習部11d、選択部11eおよび第1記憶部11f)と、第2処理装置21の各機能部(つまり、第2取得部21a、第2決定部21b、第2制御部21c、第2学習部21dおよび第2記憶部21e)とが別々のロボットに分けられている例を説明した。ただし、上記で説明した各機能部を1つの装置が有していてもよい。例えば、上記で説明した第2ロボット20が行う処理を内部的に計算するシミュレーターを第1ロボット10が有していてもよい。この場合、第2ロボット20は処理システム1から省略され得る。
【0065】
<処理システムの効果>
本発明の実施形態に係る処理システム1の効果について説明する。
【0066】
処理システム1では、行動モデルは、第1作業員30の行動を模倣する模倣モデルである第1行動モデルπ1と、第2作業員40の行動を模倣する模倣モデルである第2行動モデルπ2とを含む。処理システム1は、第1行動モデルπ1を用いて行動を決定する第1決定部11bと、第1行動モデルπ1の学習を行う第1学習部11dと、複数の状態(上記の例では、作業状態)の中から特定の状態(上記の例では、最適な作業状態)を選択する選択部11eとを備える。ここで、第1学習部11dは、複数の状態の各々において強化学習による第1行動モデルπ1の学習をそれぞれ行い、選択部11eは、複数の状態の各々について学習後の第1行動モデルπ1と第2行動モデルπ2との比較を行い、当該比較の結果に基づいて特定の状態を選択する。それにより、選択された特定の状態を第1作業員30に与えることによって、第1作業員30の技能を第2作業員40の技能に効率良く近づけることができる。ゆえに、第2作業員40の時間を節約しつつ、第1作業員30への技能伝承ができるので、作業現場における技能の伝承を効率良く行うことができる。
【0067】
好ましくは、処理システム1では、選択部11eは、複数の状態(上記の例では、作業状態)のうち、学習後の第1行動モデルπ1の第2行動モデルπ2に対する類似度が最も高い状態を特定の状態(上記の例では、最適な作業状態)として選択する。それにより、第1作業員30の技能の上達を促進するために最適な状態を適切に選択できる。ゆえに、作業現場における技能の伝承を効率良く行うことが適切に実現される。
【0068】
好ましくは、処理システム1では、第1学習部11dは、選択部11eにより選択された特定の状態(上記の例では、最適な作業状態)において第1作業員30が作業した後に、第1作業員30が行った行動に基づいて、模倣学習による第1行動モデルπ1の学習を行う。それにより、成長後の第1作業員30の行動を模倣するように、第1行動モデルπ1を更新することができる。
【0069】
好ましくは、処理システム1では、第2行動モデルπ2は、第2作業員40の行動を模倣する複数の模倣モデルを統合して生成される。それにより、より幅広い様々な技能の伝承を行うことができる。
【0070】
好ましくは、処理システム1では、第2作業員40は、第1作業員30よりも技能の高い作業員である。それにより、第1学習部11dおよび選択部11eによる上述した処理によって、第2作業員40の時間を節約しつつ、第1作業員30の技能を効率良く上達させることが適切に実現される。ゆえに、作業現場における技能の伝承を効率良く行うことが適切に実現される。
【0071】
以上、添付図面を参照しつつ本発明の好適な実施形態について説明したが、本発明は上述した実施形態に限定されないことは勿論であり、特許請求の範囲に記載された範疇における各種の変更例または修正例についても、本発明の技術的範囲に属することは言うまでもない。
【0072】
例えば、本明細書においてフローチャートを用いて説明した処理は、必ずしもフローチャートに示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
【0073】
また、例えば、上記で説明した処理システム1による一連の制御処理は、ソフトウェア、ハードウェア、およびソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、情報処理装置の内部または外部に設けられる記憶媒体に予め格納される。
【符号の説明】
【0074】
1 処理システム
10 第1ロボット
11 第1処理装置
11a 第1取得部
11b 第1決定部
11c 第1制御部
11d 第1学習部
11e 選択部
11f 第1記憶部
20 第2ロボット
21 第2処理装置
21a 第2取得部
21b 第2決定部
21c 第2制御部
21d 第2学習部
21e 第2記憶部
30 第1作業員
40 第2作業員
π1 第1行動モデル
π2 第2行動モデル
図1
図2
図3
図4
図5
図6