特開2023-102322 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ボッシュ株式会社の特許一覧

特開2023-102322処理システムおよび処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023102322

(43)【公開日】2023-07-25

(54)【発明の名称】処理システムおよび処理方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20230718BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022002707

(22)【出願日】2022-01-12

(71)【出願人】

【識別番号】000003333

【氏名又は名称】ボッシュ株式会社

(72)【発明者】

【氏名】中里研一

(57)【要約】

【課題】作業現場における技能の伝承を効率良く行う。
【解決手段】処理システム１は、状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理システムであって、行動モデルは、第１作業員３０の行動を模倣する模倣モデルである第１行動モデルπ１と、第２作業員４０の行動を模倣する模倣モデルである第２行動モデルπ２とを含み、処理システム１は、第１行動モデルπ１を用いて行動を決定する第１決定部と、第１行動モデルの学習を行う第１学習部と、複数の状態の中から特定の状態を選択する選択部と、を備え、第１学習部は、複数の状態の各々において強化学習による第１行動モデルπ１の学習をそれぞれ行い、選択部は、複数の状態の各々について学習後の第１行動モデルπ１と第２行動モデルπ２との比較を行い、比較の結果に基づいて特定の状態を選択する。
【選択図】図１

【特許請求の範囲】

【請求項1】

状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理システム（１）であって、
前記行動モデルは、第１作業員（３０）の行動を模倣する模倣モデルである第１行動モデル（π１）と、第２作業員（４０）の行動を模倣する模倣モデルである第２行動モデル（π２）とを含み、
前記処理システム（１）は、
前記第１行動モデル（π１）を用いて行動を決定する第１決定部（１１ｂ）と、
前記第１行動モデル（π１）の学習を行う第１学習部（１１ｄ）と、
複数の状態の中から特定の状態を選択する選択部（１１ｅ）と、
を備え、
前記第１学習部（１１ｄ）は、前記複数の状態の各々において強化学習による前記第１行動モデル（π１）の学習をそれぞれ行い、
前記選択部（１１ｅ）は、前記複数の状態の各々について学習後の前記第１行動モデル（π１）と前記第２行動モデル（π２）との比較を行い、前記比較の結果に基づいて前記特定の状態を選択する、
処理システム。

【請求項2】

前記選択部（１１ｅ）は、前記複数の状態のうち、学習後の前記第１行動モデル（π１）の前記第２行動モデル（π２）に対する類似度が最も高い状態を前記特定の状態として選択する、
請求項１に記載の処理システム。

【請求項3】

前記第１学習部（１１ｄ）は、前記選択部（１１ｅ）により選択された前記特定の状態において前記第１作業員（３０）が作業した後に、前記第１作業員（３０）が行った行動に基づいて、模倣学習による前記第１行動モデル（π１）の学習を行う、
請求項１または２に記載の処理システム。

【請求項4】

前記第２行動モデル（π２）は、前記第２作業員（４０）の行動を模倣する複数の模倣モデルを統合して生成される、
請求項１～３のいずれか一項に記載の処理システム。

【請求項5】

前記第２作業員（４０）は、前記第１作業員（３０）よりも技能の高い作業員である、
請求項１～４のいずれか一項に記載の処理システム。

【請求項6】

状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理方法であって、
前記行動モデルは、第１作業員（３０）の行動を模倣する模倣モデルである第１行動モデル（π１）と、第２作業員（４０）の行動を模倣する模倣モデルである第２行動モデル（π２）とを含み、
前記第１行動モデル（π１）を用いて行動を決定する第１ステップと、
前記第１行動モデル（π１）の学習を行う第２ステップと、
複数の状態の中から特定の状態を選択する第３ステップと、
を備え、
前記第２ステップにおいて、前記複数の状態の各々において強化学習による前記第１行動モデル（π１）の学習がそれぞれ行われ、
前記第３ステップにおいて、前記複数の状態の各々について学習後の前記第１行動モデル（π１）と前記第２行動モデル（π２）との比較が行われ、前記比較の結果に基づいて前記特定の状態が選択される、
処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、処理システムおよび処理方法に関する。

【背景技術】

【0002】

近年、状態に応じて行動を決定するための行動モデルを用いた人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）に関する種々の技術が提案されている。例えば、特許文献１には、強化学習による行動モデルの学習に関する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】米国特許出願公開第２０１０／０９４７８６号明細書

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、人工知能の技術を工場の生産現場等の作業現場に活用することが考えられる。ここで、作業現場では、熟練の作業員が有する高い技能を伝承することが重要である。技能の伝承には、熟練の作業員が時間を割く必要がある。ゆえに、作業現場における技能の伝承を効率良く行うことが望まれる。

【0005】

そこで、本発明は、このような課題に鑑み、作業現場における技能の伝承を効率良く行うことが可能な処理システムおよび処理方法を提供することを目的としている。

【課題を解決するための手段】

【0006】

上記課題を解決するために、処理システムは、状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理システムであって、行動モデルは、第１作業員の行動を模倣する模倣モデルである第１行動モデルと、第２作業員の行動を模倣する模倣モデルである第２行動モデルとを含み、処理システムは、第１行動モデルを用いて行動を決定する第１決定部と、第１行動モデルの学習を行う第１学習部と、複数の状態の中から特定の状態を選択する選択部と、を備え、第１学習部は、複数の状態の各々において強化学習による第１行動モデルの学習をそれぞれ行い、選択部は、複数の状態の各々について学習後の第１行動モデルと第２行動モデルとの比較を行い、比較の結果に基づいて特定の状態を選択する。

【0007】

上記課題を解決するために、処理方法は、状態に応じて行動を決定するための行動モデルを用いて行動を決定する処理方法であって、行動モデルは、第１作業員の行動を模倣する模倣モデルである第１行動モデルと、第２作業員の行動を模倣する模倣モデルである第２行動モデルとを含み、第１行動モデルを用いて行動を決定する第１ステップと、第１行動モデルの学習を行う第２ステップと、複数の状態の中から特定の状態を選択する第３ステップと、を備え、第２ステップにおいて、複数の状態の各々において強化学習による第１行動モデルの学習がそれぞれ行われ、第３ステップにおいて、複数の状態の各々について学習後の第１行動モデルと第２行動モデルとの比較が行われ、比較の結果に基づいて特定の状態が選択される。

【発明の効果】

【0008】

本発明によれば、作業現場における技能の伝承を効率良く行うことが可能となる。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態に係る処理システムの概略構成を示す模式図である。

【図2】本発明の実施形態に係る第１処理装置の機能構成の一例を示すブロック図である。

【図3】本発明の実施形態に係る第２処理装置の機能構成の一例を示すブロック図である。

【図4】本発明の実施形態に係る第１ロボット、第２ロボットおよび第１作業員により行われる処理の全体的な流れの一例を示すフローチャートである。

【図5】本発明の実施形態に係る作業状態の選択処理の実行主体を示す図である。

【図6】本発明の実施形態に係る作業状態の選択処理における処理の流れの一例を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値等は、発明の理解を容易にするための例示に過ぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書および図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。

【0011】

＜処理システムの構成＞
図１～図３を参照して、本発明の実施形態に係る処理システム１の構成について説明する。

【0012】

図１は、処理システム１の概略構成を示す模式図である。

【0013】

図１に示されるように、処理システム１は、第１ロボット１０と、第２ロボット２０とを含む。処理システム１は、工場の生産現場等の作業現場において活用される。以下では、処理システム１が工場の生産現場における生産工程に活用される例を説明する。生産工程は、製品を生産する工程である。ただし、処理システム１が活用される作業現場は、製品の生産が行われる生産現場以外の作業現場（例えば、製品の検査が行われる現場等）であってもよい。

【0014】

第１ロボット１０および第２ロボット２０は、人工知能を用いて行動を決定して実行するロボットである。具体的には、第１ロボット１０および第２ロボット２０は、状態に応じて行動を決定するための行動モデルを有しており、行動モデルを用いて行動を決定して実行する。第１ロボット１０は、第１ロボット１０に関する各種処理を行う第１処理装置１１を備える。第１処理装置１１は、第１行動モデルπ１を用いて第１ロボット１０の行動を決定し、決定した行動を第１ロボット１０に実行させる。第２ロボット２０は、第２ロボット２０に関する各種処理を行う第２処理装置２１を備える。第２処理装置２１は、第２行動モデルπ２を用いて第２ロボット２０の行動を決定し、決定した行動を第２ロボット２０に実行させる

【0015】

処理システム１が活用される生産工程では、複数の作業員によって製品の生産が行われる。このような複数の作業員には、第１作業員３０と、第２作業員４０とが含まれる。第１作業員３０は、第２作業員４０よりも技能の低い未熟な作業員である。例えば、第１作業員３０は、第２作業員４０よりも作業経験年数が短い作業員である。第２作業員４０は、第１作業員３０よりも技能の高い熟練の作業員である。例えば、第２作業員４０は、第１作業員３０よりも作業経験年数が長い熟練の作業員である。

【0016】

第１ロボット１０は、第１作業員３０の行動を模倣することが可能である。図１の例では、第１ロボット１０が人型ロボットである例が示されている。ただし、第１ロボット１０は、人型ロボット以外のロボットであってもよい。

【0017】

第２ロボット２０は、第２作業員４０の行動を模倣することが可能である。図１の例では、第２ロボット２０が人型ロボットである例が示されている。ただし、第２ロボット２０は、人型ロボット以外のロボットであってもよい。

【0018】

処理システム１が活用される生産工程では、熟練の作業員である第２作業員４０が有する高い技能を未熟な作業員である第１作業員３０に伝承することが重要である。処理システム１では、第１ロボット１０および第２ロボット２０を活用することによって、後述するように、第１作業員３０の技能の上達を促進し、技能の伝承を効率良く行うことが可能となる。

【0019】

図２は、第１処理装置１１の機能構成の一例を示すブロック図である。

【0020】

第１処理装置１１は、演算処理装置であるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＣＰＵが使用するプログラムや演算パラメータ等を記憶する記憶素子であるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、および、ＣＰＵの実行において適宜変化するパラメータ等を一時記憶する記憶素子であるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等を含む。

【0021】

図２に示されるように、第１処理装置１１は、例えば、第１取得部１１ａと、第１決定部１１ｂと、第１制御部１１ｃと、第１学習部１１ｄと、選択部１１ｅと、第１記憶部１１ｆとを備える。

【0022】

第１取得部１１ａは、第１ロボット１０の制御に必要な各種情報を取得する。上述したように、第１ロボット１０の行動は、第１行動モデルπ１を用いて決定される。第１取得部１１ａは、第１行動モデルπ１を用いた行動の決定に必要な情報を取得する。

【0023】

第１決定部１１ｂは、第１ロボット１０に実行させる行動を決定する。具体的には、第１決定部１１ｂは、第１行動モデルπ１を用いて第１ロボット１０の行動を決定する。第１行動モデルπ１は、第１記憶部１１ｆに記憶されており、第１作業員３０の行動を模倣する模倣モデルである。第１行動モデルπ１は、例えば、状態と行動のペアを入力すると、入力した行動の評価指数（おすすめ度合い）を出力する関数である。

【0024】

第１行動モデルπ１に状態として入力される情報は、例えば、生産現場に関する情報（例えば、作業の種類を示す情報、または、作業で用いる材料の情報等）、第１ロボット１０に関する情報（例えば、第１ロボット１０の位置および姿勢を示す情報等）、または、作業員に関する情報（例えば、作業員の位置および姿勢を示す情報等）が挙げられる。これらの情報は、第１取得部１１ａによって取得される。第１取得部１１ａは、例えば、第１ロボット１０に設けられるカメラにより撮像される画像に基づいて、生産現場に関する情報、および、作業員に関する情報を取得できる。また、第１取得部１１ａは、例えば、第１ロボット１０に設けられる各種センサの出力結果に基づいて、第１ロボット１０に関する情報を取得できる。

【0025】

例えば、状態が決まると、いくつかの行動の候補が決まる。第１決定部１１ｂは、これらの行動の候補をそれぞれ第１行動モデルπ１に入力して得られる評価指数同士を比較することで、第１ロボット１０の行動を決定することができる。具体的には、第１決定部１１ｂは、評価指数が最も高くなる行動を第１ロボット１０に行わせる行動として決定する。

【0026】

第１制御部１１ｃは、第１決定部１１ｂにより第１行動モデルπ１を用いて決定された行動を第１ロボット１０に実行させる。例えば、第１制御部１１ｃは、第１ロボット１０に設けられるモータ等のアクチュエータを制御することによって、第１ロボット１０を制御することができる。

【0027】

第１学習部１１ｄは、第１行動モデルπ１の学習を行う。なお、第１学習部１１ｄによる第１行動モデルπ１の学習の詳細については、後述する。

【0028】

選択部１１ｅは、複数の状態の中から特定の状態を選択する。具体的には、選択部１１ｅは、後述するように、複数の作業状態の中から、第１作業員３０の技能の上達を促進するために最適な作業状態を選択する。なお、作業状態の選択処理の詳細については後述する。

【0029】

作業状態は、作業環境の状態であり、例えば、箱を整理する作業における箱の位置および数である。以下では、第１作業員３０が箱を整理する作業を行う場合について説明する。この場合に、第１作業員３０は、選択部１１ｅにより選択された作業状態において、箱を整理する作業を行うことによって、当該作業の技能を効率的に上達させることができる。ただし、第１作業員３０の技能の上達の対象となる作業は、箱を整理する作業以外の作業であってもよい。

【0030】

第１記憶部１１ｆは、第１ロボット１０の制御に必要な各種情報を記憶する。具体的には、第１記憶部１１ｆは、第１行動モデルπ１を記憶する。第１記憶部１１ｆに記憶される第１行動モデルπ１は、第１学習部１１ｄにより行われる学習に応じて更新される。

【0031】

図３は、第２処理装置２１の機能構成の一例を示すブロック図である。

【0032】

第２処理装置２１は、演算処理装置であるＣＰＵ、ＣＰＵが使用するプログラムや演算パラメータ等を記憶する記憶素子であるＲＯＭ、および、ＣＰＵの実行において適宜変化するパラメータ等を一時記憶する記憶素子であるＲＡＭ等を含む。

【0033】

図３に示されるように、第２処理装置２１は、例えば、第２取得部２１ａと、第２決定部２１ｂと、第２制御部２１ｃと、第２学習部２１ｄと、第２記憶部２１ｅとを備える。

【0034】

第２取得部２１ａは、第２ロボット２０の制御に必要な各種情報を取得する。上述したように、第２ロボット２０の行動は、第２行動モデルπ２を用いて決定される。第２取得部２１ａは、第２行動モデルπ２を用いた行動の決定に必要な情報を取得する。

【0035】

第２決定部２１ｂは、第２ロボット２０に実行させる行動を決定する。具体的には、第２決定部２１ｂは、第２行動モデルπ２を用いて第２ロボット２０の行動を決定する。第２行動モデルπ２は、第２記憶部２１ｅに記憶されており、第２作業員４０の行動を模倣する模倣モデルである。

【0036】

第２行動モデルπ２は、例えば、第１行動モデルπ１と同様に、状態と行動のペアを入力すると、入力した行動の評価指数（おすすめ度合い）を出力する関数である。第２決定部２１ｂは、状態に応じた行動の候補をそれぞれ第２行動モデルπ２に入力して得られる評価指数同士を比較することで、第２ロボット２０の行動を決定することができる。具体的には、第２決定部２１ｂは、評価指数が最も高くなる行動を第２ロボット２０に行わせる行動として決定する。なお、第２行動モデルπ２に状態として入力される情報は、第１行動モデルπ１に状態として入力される情報と同様であり、第１取得部１１ａによる取得方法と同様の方法で、第２取得部２１ａによって取得される。

【0037】

第２制御部２１ｃは、第２決定部２１ｂにより第２行動モデルπ２を用いて決定された行動を第２ロボット２０に実行させる。例えば、第２制御部２１ｃは、第２ロボット２０に設けられるモータ等のアクチュエータを制御することによって、第２ロボット２０を制御することができる。

【0038】

第２学習部２１ｄは、第２行動モデルπ２の学習を行う。なお、第２学習部２１ｄによる第２行動モデルπ２の学習の詳細については、後述する。

【0039】

第２記憶部２１ｅは、第２ロボット２０の制御に必要な各種情報を記憶する。具体的には、第２記憶部２１ｅは、第２行動モデルπ２を記憶する。第２記憶部２１ｅに記憶される第２行動モデルπ２は、第２学習部２１ｄにより行われる学習に応じて更新される。

【0040】

＜処理システムの動作＞
図４～図６を参照して、本発明の実施形態に係る処理システム１の動作について説明する。

【0041】

上述したように、処理システム１は、例えば、工場の生産現場において、第１作業員３０の技能の上達の促進に活用される。そして、処理システム１では、第１作業員３０の技能の上達の促進のための処理が、第１ロボット１０、第２ロボット２０および第１作業員３０によって行われる。以下、第１作業員３０の技能の上達の促進のための処理の全体的な流れについて図４および図５を参照して説明した後に、後述する作業状態の選択処理の詳細について図６を参照して説明する。

【0042】

図４は、第１ロボット１０、第２ロボット２０および第１作業員３０により行われる処理の全体的な流れの一例を示すフローチャートである。図４におけるステップＳ１０１は、図４に示される処理フローの開始に対応する。

【0043】

図４に示される処理フローが開始されると、ステップＳ１０２において、模倣学習による第１行動モデルπ１の学習が行われる。第１行動モデルπ１の学習は、第１ロボット１０の第１学習部１１ｄによって行われる。

【0044】

ステップＳ１０２では、第１学習部１１ｄは、第１作業員３０が行った行動に基づいて、模倣学習による第１行動モデルπ１の学習を行う。例えば、後述するステップＳ１０４において、または、後述するステップＳ１０４の後に、第１作業員３０が実際に作業を行った際の行動が記録される。第１作業員３０の行動の記録では、第１作業員３０が行った行動と、その行動が行われた際の状態（例えば、作業の種類等）が紐づけられている。第１行動モデルπ１の模倣学習は、このようにして得られた第１作業員３０の行動の記録を用いて行われる。第１行動モデルπ１の模倣学習では、第１学習部１１ｄは、第１ロボット１０に種々の行動を行わせ、第１ロボット１０が行った各行動に対して報酬を算出する。ここで、第１学習部１１ｄは、ある状態で第１ロボット１０が行った行動がその状態と対応する第１作業員３０の行動に近いほど（似ているほど）高くなるように報酬を算出する。第１学習部１１ｄは、このような報酬の算出を各状態に対して行う。このようにして得られる報酬は、上述した行動の評価指数（おすすめ度合い）に相当する。第１学習部１１ｄは、得られた状態と行動のペアと報酬との関係を用いて、第１行動モデルπ１における入力（状態と行動のペア）と出力（行動の評価指数（おすすめ度合い））との関係を更新する。

【0045】

ステップＳ１０２の次に、ステップＳ１０３において、複数の作業状態の中から、第１作業員３０の技能の上達を促進するために最適な作業状態を選択する選択処理が行われる。図５は、作業状態の選択処理の実行主体を示す図である。図５に示されるように、作業状態の選択処理は、第１ロボット１０および第２ロボット２０によって行われる。なお、作業状態の選択処理の詳細については後述する。

【0046】

図４のステップＳ１０３の次に、ステップＳ１０４において、第１作業員３０は、ステップＳ１０３の選択処理で選択された作業状態において、作業を行う。それにより、第１作業員３０は、当該作業の技能を効率的に上達させることができる。なお、ステップＳ１０４において、第１作業員３０の技能が早期に上達しない場合には、第１作業員３０の技能がある程度上達するまで、第１作業員３０に作業を行わせ続けてもよく、第１作業員３０に与える作業状態を適宜変更（修正）してもよい。

【0047】

図４に示される処理フローでは、ステップＳ１０４の次に、ステップＳ１０２に戻り、ステップＳ１０２、ステップＳ１０３、および、ステップＳ１０４の処理が繰り返される。それにより、第１作業員３０の成長に伴い第１行動モデルπ１が更新されながら、第１作業員３０の技能の上達の促進のための処理（つまり、ステップＳ１０２、ステップＳ１０３、および、ステップＳ１０４）が繰り返される。

【0048】

図６は、作業状態の選択処理における処理の流れの一例を示すフローチャートである。図６におけるステップＳ２０１は、図６に示される処理フローの開始に対応する。図６におけるステップＳ２０５は、図６に示される処理フローの終了に対応する。図６に示される処理フローは、上述した図４に示される処理フローにおけるステップＳ１０３で行われる処理フローの一例に相当する。

【0049】

図６に示される処理フローが開始されると、ステップＳ２０２において、第１ロボット１０の第１学習部１１ｄは、複数の作業状態の各々において強化学習による第１行動モデルπ１の学習をそれぞれ行う。

【0050】

ステップＳ２０２では、いくつかの作業状態の候補が予め用意されている。そして、第１学習部１１ｄは、用意された複数の作業状態の候補の各々について、第１行動モデルπ１の学習を行う。以下では、理解を容易にするために、箱を整理する作業の作業状態として、箱の位置および数の組み合わせが互いに異なる３つの作業状態である第１作業状態、第２作業状態および第３作業状態が候補として用意されている場合について説明する。ただし、作業状態の候補の数は、３つ以外であってもよい。また、作業状態の種類は、この例に限定されない。

【0051】

例えば、３つの作業状態が候補として用意されている上記の例では、まず、第１学習部１１ｄは、第１作業状態において、強化学習による第１行動モデルπ１の学習を行う。第１作業状態についての強化学習では、第１学習部１１ｄは、例えば、実際の第１作業状態を模した模擬的な作業状態において第１ロボット１０に種々の行動を行わせ、第１ロボット１０が行った各行動に対して報酬を算出する。ここで、第１学習部１１ｄは、例えば、第１ロボット１０が行った行動の効率が高いほど（例えば、作業時間が短いほど、または、成功率が高いほど）高くなるように報酬を算出する。第１学習部１１ｄは、このような報酬の算出を、各行動に対して行う。そして、第１学習部１１ｄは、得られた行動と報酬との関係を用いて、第１行動モデルπ１における入力（状態と行動のペア）と出力（行動の評価指数（おすすめ度合い））との関係を更新する。第１作業状態についての強化学習による学習後の第１行動モデルπ１は、例えば、第１ロボット１０の第１記憶部１１ｆに記憶される。

【0052】

次に、第１学習部１１ｄは、第１行動モデルπ１を第１作業状態についての強化学習の前の行動モデルに戻した後に、第２作業状態において、強化学習による第１行動モデルπ１の学習を行う。第２作業状態についての強化学習の詳細は、第１作業状態についての強化学習と同様であるので、説明を省略する。第２作業状態についての強化学習による学習後の第１行動モデルπ１は、例えば、第１ロボット１０の第１記憶部１１ｆに記憶される。

【0053】

次に、第１学習部１１ｄは、第１行動モデルπ１を第２作業状態についての強化学習の前の行動モデルに戻した後に、第３作業状態において、強化学習による第１行動モデルπ１の学習を行う。第３作業状態についての強化学習の詳細も、第１作業状態についての強化学習と同様であるので、説明を省略する。第３作業状態についての強化学習による学習後の第１行動モデルπ１は、例えば、第１ロボット１０の第１記憶部１１ｆに記憶される。

【0054】

ステップＳ２０２の次に、ステップＳ２０３において、第１ロボット１０の選択部１１ｅは、複数の作業状態（上記の例では、第１作業状態、第２作業状態および第３作業状態）の各々について学習後の第１行動モデルπ１と第２行動モデルπ２との比較を行う。

【0055】

上述したように、第２行動モデルπ２は、第２作業員４０の行動を模倣する模倣モデルであり、第２行動モデルπ２の学習は、第２ロボット２０の第２学習部２１ｄによって行われる。具体的には、第２学習部２１ｄは、第２作業員４０が行った行動に基づいて、模倣学習による第２行動モデルπ２の学習を行う。例えば、第２行動モデルπ２の模倣学習は、第１行動モデルπ１の模倣学習と同様に、第２作業員４０の行動の記録を用いて行われる。第２行動モデルπ２の模倣学習では、第２学習部２１ｄは、第２ロボット２０に種々の行動を行わせ、第２ロボット２０が行った各行動に対して報酬を算出する。ここで、第２学習部２１ｄは、ある状態で第２ロボット２０が行った行動がその状態と対応する第２作業員４０の行動に近いほど（似ているほど）高くなるように報酬を算出する。第２学習部２１ｄは、このような報酬の算出を各状態に対して行う。そして、第２学習部２１ｄは、得られた状態と行動のペアと報酬との関係を用いて、第２行動モデルπ２における入力（状態と行動のペア）と出力（行動の評価指数（おすすめ度合い））との関係を更新する。

【0056】

ステップＳ２０３では、選択部１１ｅは、ステップＳ２０２での作業状態の各候補についての学習により得られた学習後の各第１行動モデルπ１と第２行動モデルπ２との比較を行う。具体的には、選択部１１ｅは、学習後の各第１行動モデルπ１の第２行動モデルπ２に対する類似度を求める。当該類似度は、学習後の第１行動モデルπ１が第２行動モデルπ２に似ているほど高くなる。学習後の第１行動モデルπ１の第２行動モデルπ２に対する類似度は、例えば、各行動モデルに種々の入力情報を入力した際の出力結果同士の比較により求められてもよく、相関関数等を用いる方法等の計算によって求められてもよい。

【0057】

例えば、３つの作業状態が候補として用意されている上記の例では、まず、選択部１１ｅは、第１作業状態についての強化学習による学習後の第１行動モデルπ１の第２行動モデルπ２に対する類似度を求める。次に、選択部１１ｅは、第２作業状態についての強化学習による学習後の第１行動モデルπ１の第２行動モデルπ２に対する類似度を求める。次に、選択部１１ｅは、第３作業状態についての強化学習による学習後の第１行動モデルπ１の第２行動モデルπ２に対する類似度を求める。

【0058】

ステップＳ２０３の次に、ステップＳ２０４において、第１ロボット１０の選択部１１ｅは、複数の作業状態（上記の例では、第１作業状態、第２作業状態および第３作業状態）のうち、学習後の第１行動モデルπ１の第２行動モデルπ２に対する類似度が最も高い状態を最適な作業状態として選択し、図６に示される処理フローは終了する。

【0059】

上述したように、第２行動モデルπ２は、熟練の作業員である第２作業員４０の行動を模倣する模倣モデルである。ゆえに、学習後の第１行動モデルπ１の第２行動モデルπ２に対する類似度が高いほど（つまり、学習後の第１行動モデルπ１が第２行動モデルπ２に似ているほど）、学習後の第１行動モデルπ１を用いる第１ロボット１０の行動は、第２作業員４０の行動に近いことになる。ゆえに、上記の類似度が最も高い状態は、第１作業員３０の技能の上達を促進し、第１作業員３０の技能を第２作業員４０の技能に効率良く近づけるために最適な作業状態となる。

【0060】

以上説明したように、処理システム１では、第１ロボット１０の第１学習部１１ｄは、複数の作業状態の各々において強化学習による第１行動モデルπ１の学習をそれぞれ行い、選択部１１ｅは、複数の作業状態の各々について学習後の第１行動モデルπ１と第２行動モデルπ２との比較を行い、当該比較の結果に基づいて最適な作業状態を選択する。それにより、第１作業員３０の技能の上達を促進するために最適な作業状態を選択し、そのような作業状態を第１作業員３０に与えることができる。

【0061】

そして、そのような作業状態において第１作業員３０が作業を行うことによって、第１作業員３０の技能の上達を促進させることができる。それにより、第１作業員３０の技能を熟練の作業員である第２作業員４０の技能に効率良く近づけることができる。このように、処理システム１によれば、第２作業員４０の時間を節約しつつ、第１作業員３０の技能を効率良く上達させることができるので、作業現場における技能の伝承を効率良く行うことができる。

【0062】

また、上述したように、第１ロボット１０の第１学習部１１ｄは、選択部１１ｅにより選択された作業状態において第１作業員３０が作業した後に、第１作業員３０が行った行動に基づいて、模倣学習による第１行動モデルπ１の学習を行う。具体的には、第１作業員３０は、上述した図６の処理フローで選択された最適な作業状態において、作業を行う（図４のステップＳ１０４）。それにより、第１作業員３０は成長する。その後、模倣学習による第１行動モデルπ１の学習が行われる（図４のステップＳ１０２）。それにより、成長後の第１作業員３０の行動を模倣するように、第１行動モデルπ１を更新することができる。

【0063】

なお、上記では、第２行動モデルπ２が１人の第２作業員４０の行動を模倣する模倣モデルである例を説明した。ただし、第２行動モデルπ２は、このような行動モデルに限定されない。例えば、複数の第２作業員４０の各々の行動を模倣する互いに異なる複数の模倣モデルを用意し、これらの複数の模倣モデルを統合することによって第２行動モデルπ２が生成されてもよい。例えば、上記の複数の模倣モデルの相加平均が、第２行動モデルπ２として生成されてもよい。上記のように、第２行動モデルπ２は、第２作業員４０の行動を模倣する複数の模倣モデルを統合して生成されてもよい。それにより、より幅広い様々な技能の伝承を行うことができる。

【0064】

なお、上記では、第１処理装置１１の各機能部（つまり、第１取得部１１ａ、第１決定部１１ｂ、第１制御部１１ｃ、第１学習部１１ｄ、選択部１１ｅおよび第１記憶部１１ｆ）と、第２処理装置２１の各機能部（つまり、第２取得部２１ａ、第２決定部２１ｂ、第２制御部２１ｃ、第２学習部２１ｄおよび第２記憶部２１ｅ）とが別々のロボットに分けられている例を説明した。ただし、上記で説明した各機能部を１つの装置が有していてもよい。例えば、上記で説明した第２ロボット２０が行う処理を内部的に計算するシミュレーターを第１ロボット１０が有していてもよい。この場合、第２ロボット２０は処理システム１から省略され得る。

【0065】

＜処理システムの効果＞
本発明の実施形態に係る処理システム１の効果について説明する。

【0066】

処理システム１では、行動モデルは、第１作業員３０の行動を模倣する模倣モデルである第１行動モデルπ１と、第２作業員４０の行動を模倣する模倣モデルである第２行動モデルπ２とを含む。処理システム１は、第１行動モデルπ１を用いて行動を決定する第１決定部１１ｂと、第１行動モデルπ１の学習を行う第１学習部１１ｄと、複数の状態（上記の例では、作業状態）の中から特定の状態（上記の例では、最適な作業状態）を選択する選択部１１ｅとを備える。ここで、第１学習部１１ｄは、複数の状態の各々において強化学習による第１行動モデルπ１の学習をそれぞれ行い、選択部１１ｅは、複数の状態の各々について学習後の第１行動モデルπ１と第２行動モデルπ２との比較を行い、当該比較の結果に基づいて特定の状態を選択する。それにより、選択された特定の状態を第１作業員３０に与えることによって、第１作業員３０の技能を第２作業員４０の技能に効率良く近づけることができる。ゆえに、第２作業員４０の時間を節約しつつ、第１作業員３０への技能伝承ができるので、作業現場における技能の伝承を効率良く行うことができる。

【0067】

好ましくは、処理システム１では、選択部１１ｅは、複数の状態（上記の例では、作業状態）のうち、学習後の第１行動モデルπ１の第２行動モデルπ２に対する類似度が最も高い状態を特定の状態（上記の例では、最適な作業状態）として選択する。それにより、第１作業員３０の技能の上達を促進するために最適な状態を適切に選択できる。ゆえに、作業現場における技能の伝承を効率良く行うことが適切に実現される。

【0068】

好ましくは、処理システム１では、第１学習部１１ｄは、選択部１１ｅにより選択された特定の状態（上記の例では、最適な作業状態）において第１作業員３０が作業した後に、第１作業員３０が行った行動に基づいて、模倣学習による第１行動モデルπ１の学習を行う。それにより、成長後の第１作業員３０の行動を模倣するように、第１行動モデルπ１を更新することができる。

【0069】

好ましくは、処理システム１では、第２行動モデルπ２は、第２作業員４０の行動を模倣する複数の模倣モデルを統合して生成される。それにより、より幅広い様々な技能の伝承を行うことができる。

【0070】

好ましくは、処理システム１では、第２作業員４０は、第１作業員３０よりも技能の高い作業員である。それにより、第１学習部１１ｄおよび選択部１１ｅによる上述した処理によって、第２作業員４０の時間を節約しつつ、第１作業員３０の技能を効率良く上達させることが適切に実現される。ゆえに、作業現場における技能の伝承を効率良く行うことが適切に実現される。

【0071】

以上、添付図面を参照しつつ本発明の好適な実施形態について説明したが、本発明は上述した実施形態に限定されないことは勿論であり、特許請求の範囲に記載された範疇における各種の変更例または修正例についても、本発明の技術的範囲に属することは言うまでもない。

【0072】

例えば、本明細書においてフローチャートを用いて説明した処理は、必ずしもフローチャートに示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

【0073】

また、例えば、上記で説明した処理システム１による一連の制御処理は、ソフトウェア、ハードウェア、およびソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、情報処理装置の内部または外部に設けられる記憶媒体に予め格納される。

【符号の説明】

【0074】

１処理システム
１０第１ロボット
１１第１処理装置
１１ａ第１取得部
１１ｂ第１決定部
１１ｃ第１制御部
１１ｄ第１学習部
１１ｅ選択部
１１ｆ第１記憶部
２０第２ロボット
２１第２処理装置
２１ａ第２取得部
２１ｂ第２決定部
２１ｃ第２制御部
２１ｄ第２学習部
２１ｅ第２記憶部
３０第１作業員
４０第２作業員
π１第１行動モデル
π２第２行動モデル

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版