(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-22
(54)【発明の名称】状態行列を用いたフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法
(51)【国際特許分類】
G06Q 10/04 20120101AFI20221115BHJP
G06N 20/00 20190101ALI20221115BHJP
G05B 19/418 20060101ALI20221115BHJP
G06Q 50/04 20120101ALI20221115BHJP
【FI】
G06Q10/04
G06N20/00
G05B19/418 Z
G06Q50/04
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022515782
(86)(22)【出願日】2019-09-19
(85)【翻訳文提出日】2022-05-09
(86)【国際出願番号】 EP2019075168
(87)【国際公開番号】W WO2021052588
(87)【国際公開日】2021-03-25
(81)【指定国・地域】
(71)【出願人】
【識別番号】390039413
【氏名又は名称】シーメンス アクチエンゲゼルシヤフト
【氏名又は名称原語表記】Siemens Aktiengesellschaft
(74)【代理人】
【識別番号】110003317
【氏名又は名称】特許業務法人山口・竹本知的財産事務所
(74)【代理人】
【識別番号】100075166
【氏名又は名称】山口 巖
(74)【代理人】
【識別番号】100133167
【氏名又は名称】山本 浩
(74)【代理人】
【識別番号】100169627
【氏名又は名称】竹本 美奈
(72)【発明者】
【氏名】ベーア,シーリーン
(72)【発明者】
【氏名】ターナー,ダニエレ チェルシー
【テーマコード(参考)】
3C100
5L049
【Fターム(参考)】
3C100AA03
3C100AA05
3C100AA12
3C100AA22
3C100AA29
3C100BB14
3C100BB23
3C100BB27
5L049AA04
5L049CC03
(57)【要約】
本発明は、状態行列を用いるフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法を提供する。
ハンドリングエンティティを介して相互接続された処理エンティティを有するフレキシブル生産システムのための自己学習製造スケジューリング方法であって、前記製造スケジューリングが前記フレキシブル生産システムのモデルに対して強化学習システムによって学習されるものであって、前記モデルが、少なくとも前記フレキシブル生産システムの行動および意思決定を表し、前記モデルが、状態行列に変換されて前記フレキシブル生産システムの状態をシミュレートする、方法。
提案した解決策は、オンラインスケジューリングと資源配分のための自己学習システムを含み、シミュレーションにおいてトレーニングされ、FMS内の異なる状況に対して定義された行動の集合から最善の決定を学習する。初見の状況では、解に近づく(ニューラルネットワークを使用する場合)。このシステムを適用する場合、生産プロセス中にほぼリアルタイムで意思決定を行うことができ、システムは異なる最適化目標を使用して、製品ごとに最適な方法をFMSを介して見つける。ルーティングの柔軟性を備えた製造システムの使用に特に適しており、プラント内の製品を自動的にルーティングし、適切な機械または製造モジュールを割り当てることができる。
【特許請求の範囲】
【請求項1】
少なくとも製品を製造するために使用されるフレキシブル生産システム(500)のための自己学習型製造スケジューリング方法であって、
前記生産システムは、ハンドリングエンティティ(C,C1,…)を介して相互接続される処理エンティティ(M1,M2,…M6)から構成されており、
前記製造スケジューリングは、前記フレキシブル生産システムのモデル(400)に対して強化学習システム(300)によって学習されてもよく、
前記モデル(400)は、少なくとも前記フレキシブル生産システムの前記行動および前記意思決定を表し、
前記モデル(400)は、状態行列(200)に変換されて、前記フレキシブル生産システムの前記状態をシミュレートする、
方法。
【請求項2】
前記状態行列(200)の1つの状態は、前記製品を含む前記フレキシブル生産システム(500)の1つの状況を表す、
ことを特徴とする特許請求項1に記載の方法。
【請求項3】
前記フレキシブル生産システム(500)は、既知のトポロジー(100)を有し、
前記状態行列(200)は前記モデル(100)からの前記情報に対応するものとして生成され、
前記状態行列(200)における前記情報の前記位置は、前記フレキシブル生産システム(500)の前記トポロジーに応じて順序づけられている、
ことを特徴とする先行する特許請求項の1つに記載の方法。
【請求項4】
前記状態行列(200)における前記情報は、
a)前記ハンドリングエンティティ(C,C1,…,203)の前記情報を、前記フレキシブル生産システムにおける前記実際の位置にしたがって、前記行列中に配置する、第1のステップと、
b)前記処理エンティティ(M1,M2,…M6,201)の前記情報を配置する、第2のステップと、
において自動的に生成される、
ことを特徴とする先行する特許請求項の1つに記載の方法。
【請求項5】
前記処理エンティティに関する前記状態行列(200)における前記情報は、前記それぞれのエンティティの前記処理能力(F1,F2,…)の表現を含む、
ことを特徴とする先行する特許請求項の1つに記載の方法。
【請求項6】
前記状態行列(200)の前記本体は、ある時点において前記フレキシブル生産システム内に位置し、処理エンティティに対する処理キューで待機しているすべての製品についての入力(202)を含む、
ことを特徴とする先行する特許請求項の1つに記載の方法。
【請求項7】
前記状態行列(200)の前記本体は、ジョブリスト(JL)に関する入力(JL)を含む、
ことを特徴とする先行する特許請求項の1つに記載の方法。
【請求項8】
前記強化学習システムの前記訓練のために、前記状態行列(200)に含まれる前記情報は、ある時間tにおける前記フレキシブル生産システムに関する全ての状態情報を含む前記状態行列(200)の前記次の遷移状態を計算することによって用いられ、それは、前記製品の前記製造プロセスまたは前記フレキシブル生産システムの前記効率に関し、付加的に入力され優先順位付けされた最適化基準に基づいて、前記強化学習システムの時間t+1における次のステップへの前記次の遷移の前記選択のための基礎として、前記強化学習システムのための入力情報として使用される、
ことを特徴とする先行する特許請求項の1つに記載の方法。
【請求項9】
前記強化学習システムの前記訓練のために、前記行列の前記初期状態は、フルジョブリスト(JL)、および定義された製品位置を示し、
前記終了状態は、空のジョブリスト(JL)によって特徴づけられる、
ことを特徴とする先行する特許請求項の1つに記載の方法。
【請求項10】
少なくとも製品を製造するために使用されるフレキシブル生産システム(500)の自己学習型製造スケジューリングのための強化学習システムであって、
前記生産システムは、ハンドリングエンティティ(C,C1,…)を介して相互接続された処理エンティティ(M1,M2,…M6)からなり、
前記学習プロセスの前記入力は、前記フレキシブル生産システムのモデル(100)を含み、
前記モデルは、少なくとも前記フレキシブル生産システムの前記行動および前記意思決定を表し、
前記モデル(100)は、特許請求項1~9の方法の1つによる、状態行列(200)として実現される、強化学習システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、状態行列を用いたフレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法に関する。
【背景技術】
【0002】
フレキシブル生産システム(flexible manufacturing system:FMS)とは、予測されている、されていないに関わらず、変更があった場合にシステムが対応できるようにする、ある程度の柔軟性がある生産システムのことである。
経路設定(ルーティング)の柔軟性とは、新しい製品タイプを生産するために変更されるシステムの能力や、部品に対して実行される作業の順序を変更する能力をカバーすることである。また、機械の柔軟性とは、数量、生産力、性能などの大規模な変化を吸収するというシステムの能力ばかりでなく、複数の機械を使用して一つの部品に対して同じ操作を施すことができる能力をもいう。
【0003】
ほとんどのFMSは、3つの主要なシステムから構成されている。
作業機械は、自動化されることの多いCNC機械であり、部品の流れを最適化するためのマテリアルハンドリングシステムと、材料の動きと機械の流れを制御する中央制御コンピュータと、が接続されている。
FMSの主な利点は、新製品を製造するための時間や労力などの製造資源(リソース)を管理する際の柔軟性が高いことである。FMSの最良の用途は、大量生産される製品のような製品を少量生産する際に見られる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Di Caro, G., and Dorigo, M.、Antnet distributed stigmergic control for communications networks.(AntNet:通信ネットワークのための分散スティグマージティック制御)、Journal of Artificial Intelligence Research 9(1998):317-365
【非特許文献2】Dorigo, M., and Stutzle, T.、Ant Colony Optimization(アントコロニー最適化)、The MIT Press.(2004)
【非特許文献3】Sallez, Y.; Berger, T.; and Trentesaux, D.、A stigmergic approach for dynamic routing of active products in fms.(FMSにおけるアクティブ製品の動的ルーティングのための生物学的アプローチ)、Computers in Industry 60(2009):204-216.
【非特許文献4】Pach, C.; Berger, T.; Bonte, T.; and Trentesaux, D.、Orca-fms: a dynamic architecture for the optimized and reactive control of flexible manufacturing scheduling(フレキシブル生産スケジューリングの最適化および反応制御のための動的アーキテクチャ)、Computers in Industry 65(2014):706-720.
【非特許文献5】Frankovic, B., and Budinsk'a, I.、"Advantages and Disadvantages of Heuristic and Multi Agents Approaches to the Solution of Scheduling Problem(スケジューリング問題の解法に対するヒューリスティックおよびマルチエージェントアプローチの利点と欠点)"、IFAC Proceedings of the Conference IFAC Control Systems Design. Bratislava, Slovak Rep.: IFAC Proceeding Volumes 60, Issue 13.
【非特許文献6】Leit~ao, P., and Rodrigues, N.、"Multi-agent system for on-demand production integrating production and quality control(生産と品質管理を統合したオンデマンド生産のためのマルチエージェントシステム)"、HoloMAS 2011, LNAI 6867: 84-93.
【発明の概要】
【発明が解決しようとする課題】
【0005】
世の風潮がモジュール化されたフレキシブル生産システム(FMS)に移行するにつれて、オフラインスケジューリングはもはや、効率的な製品ルーティングを可能にする唯一の手段ではなくなっている。製造モジュールの故障、材料の空積み、FMSの再構築など、予期せぬ事態を考慮しなければならない。したがって、(付加的な)オンラインスケジューリングおよび資源配分システムを有することは有用である。
【0006】
第2の問題は、MESとしての製品ルーティングシステムのような、最尖端のスケジューリングシステムには、技術的に高い労力が必要となることである。さらに、これらの解決策は、静的なものである。自己学習型の製品ルーティングシステムは、実行時に適用されるまで、シミュレーションであらゆる状況に対する決定を自ら学習し、FMSの変更または適応に合わせて再トレーニングできるため、技術的な労力を軽減すると考えられる。
【0007】
製造実行システム(Manufacturing Execution Systems:MES)は、製品の計画とスケジューリングに使用される。しかし、これらの殆どが顧客の固有のシステムを実装することは、極めて高い技術的負担となる。このMESの計画およびスケジューリング部分は、本発明のオンラインスケジューリングおよび配分システムに置き換えることができる。
【0008】
さらに、自己学習型製品ルーティングシステムにはいくつかのコンセプトがあるが、計算コストが高い(製品が回答を待っている間に、オンラインで最善の決定を計算する)。
これらの概念の説明は、例えば、非特許文献1~4の開示に見ることができる。
【0009】
もう一つのアプローチは、マルチエージェントシステムである。このシステムには、エージェントの入札を制御する中心的な実体(エンティティ)があるため、エージェントはこの実体と通信する必要がある。このシステムについては、非特許文献5または非特許文献6に記述されている。
【0010】
強化学習とは、機械学習の一つの方法であり、報酬と懲罰のシステムを用いてエージェントを訓練する。
一般的に、強化学習アルゴリズム、あるいはエージェントは、その環境と相互作用することによって学習する。エージェントは、正しく実行することで報酬を受け取り、間違って実行することでペナルティを受け取る。エージェントは、その報酬を最大化し、ペナルティを最小化することにより、人間からの介入なしに学習する。
【0011】
本発明の目的は、FMSの製品計画およびスケジューリングのために、上述した問題に対する解決策を提供することである。
【課題を解決するための手段】
【0012】
本課題は、請求項1に記載の特徴に係る方法によって解決され、さらに、請求項10に記載の特徴に係るシステムによって解決される。
【0013】
本発明に係る、フレキシブル生産システムのための自己学習型製造スケジューリング方法は、ハンドリングエンティティを介して相互接続されている処理エンティティを有し、以下のステップ:
製造スケジューリングは、強化学習システムによって、フレキシブル生産システムのモデルに対して学習される、
モデルは、少なくとも、フレキシブル生産システムの行動および意思決定を表す、
モデルは、フレキシブル生産システムの状態をシミュレートするための状態行列に変換される、
ことを備える。
【0014】
さらに、本発明に係る、少なくとも製品を製造するために使用されるフレキシブル生産システムのための自己学習型製造スケジューリングのための強化学習システムは、
生産システムが、ハンドリングエンティティを介して相互接続されている処理エンティティで構成され、
学習プロセスの入力が、フレキシブル生産システムのモデルを含み、
モデルは、少なくともフレキシブル生産システムの行動および意思決定を表し、
モデル(400)は、状態行列(100)として実現される、
ことを特徴とする、特許請求の範囲1~9のいずれかの方法による。
【0015】
本発明の有利な実施形態は、従属請求項に記載されている。
実施形態の説明は、本発明の実施の単なる例であり、本発明に対して制限的であることを意味するものではない。
【0016】
提案された解決策には、オンラインスケジューリングと資源配分のための自己学習システムが含まれる。このシステムは、シミュレーションにおいて訓練(トレーニング)され、FMS内の多くの状況に対して定義された行動の集合からの最善の決定を学習する。初見の状況では、解に近づく(ニューラルネットワークを使用する場合)。このシステムを適用すると、生産プロセス中にほぼリアルタイムで意思決定を行うことができ、システムはFMSを通じ、異なる最適化目標を使用して、製品ごとに最適な方法を見出す。特に、ルーティングの自由度が高い生産システムの利用において優れており、生産施設(プラント)内で製品を自動的にルーティングし、適切な機械や製造モジュールを割り当てることができる。
【0017】
以下では、発明を、図を用いて好ましい実施形態について例示する。
【図面の簡単な説明】
【0018】
【
図1】仮想レベルでのRLエージェントのトレーニングコンセプトと、物理レベル(実際のFMS)でのトレーニング済みモデルの応用と、を示す。
【
図2】FMSの状態と行動についての、仮想レベルにおける表現と行列での表現である。
【
図3】FMSを模式的に設計するためのGUIの可能なドラフトを示す。
【0019】
図1には、物理レベル(実際のFMS500)における、仮想レベル(つまり、シミュレーションを意味する)でのRLエージェント300のトレーニングの概念が示されている。エージェント300は、FMS100のシミュレーションに対して、訓練される。訓練済みモデル400は、後に、物理レベル500の制御されたポリシー600として適用される。
右上には、実際のFMS500の模式
図100が示されており、すべての処理エンティティM1,…M6、およびハンドリングエンティティC0,…C6、が示されている。処理エンティティは、機能/行動F1,…F3を有し、例えば、機械加工、穴あけ等として実現される。
【0020】
有限の行動の集合から行動を選択302した後、ランダムな選択から始まり、環境が更新され、RLエージェントは、新しい状態を観測303し、その行動の評価として報酬を得る。RLエージェントの目標は、最良の制御ポリシーを見つけることによって、長期割引報酬301を最大化することである。
【0021】
RL技術としては、SARSA、DQNなどがあり、
図1では、ディープニューラルネット(Deep Neural Net)DNN104が見られる。
【0022】
モジュールはさまざまな製造プロセスに置き換えることができる。そのため、このコンセプトは、プラント内の物流のあらゆるアプリケーションに移管可能である。
【0023】
場合によってはシステムに認識されていない状況がある場合(すなわち、新しい製造モジュールがある場合など)、システムは、この状況における行動を探索し、その行動がどのように実行されるかをオンラインで学習することができる。したがって、システムは、初期には準最適な決定を選択する可能性があるが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、GUIを使用することによって適応されたプラントトポロジーを使用して、システムを、トレーニング・セットアップで再度トレーニングすることも可能である。これについては、
図3で後ほど詳しく説明する。
【0024】
重要なステップは、FMSのシミュレーションとしての状態行列(state matrix)200によるFMS500の表現(表示)である。FMSの表現100からの状態行列の生成は、好ましくは、自動的に行われる。
状態行列は、例えば
図3のGUI10の助けを借りて、FMSの概念図を設計した後に、自動的に生成される。状態行列の一例を、これに属するFMSと共に
図2に示す。この形状の行列を使用することにより、ユーザはブラックボックスを信頼する代わりに、エージェントの行動を容易に理解することができる。
【0025】
図2において、右側にFMSの表現100が配され、左側に、対応するFMSの状態行列200が配されている。
状態行列中に、各処理ユニットM1,…M6は対応するフィールドを有し、状態行列の当該フィールドの配置は、FMSのトポロジーに対応している。特定のフィールドの内容は、特定の処理エンティティの機能(F1,F2,F3)についての情報を示す。
さらに、ハンドリングユニット(C0,…C6)は、自身のフィールドに描かれ、決定点Dは、それぞれの待機製品1,…4と共に、最終行202の行列に見ることができる。最後のラインJLの前のラインは、例えば、どの機械M1,…M6がまだ必要なのかなど、処理ジョブの進行状況を示す。
【0026】
ハンドリングユニット、たとえばベルトコンベア(C0,…C6)は、実際のプラントトポロジーおよびそれらの周囲の生産モジュール/処理ユニット(M1,…M6)と同様の方法で順序づけられる。生産モジュールには、実行可能なジョブに関する詳細情報、または生産時間、品質、またはエネルギー効率のように、プラントオペレータが表現したいと考える属性に関する詳細情報が含まれている。これらのうちのいくつかについてのみ、言及する。制御された製品204は、特定の番号、この例では番号5、によってマークされており、現在配置されている意思決定点4.1,4.2,…に更新される。
【0027】
最後から2番目の行は、ジョブ・リストJLを表し、最後の行202は、製造プロセスで他の製品を考慮するために特定のモジュールのキュー(待ち行列)で現在待機している、製品の数を内容としている。あるいは、製品IDを有するリストを、上記の行列のフィールドに格納することもできる。
【0028】
状態行列は、どの決定が選択されたかに応じて、製品がベルトコンベアの次の位置に移動するように、シミュレーションとして並行して使用される。製品があるモジュールに移動しても、それはシミュレーションには描画されず、シミュレーションは次の意思決定点において更新されたジョブリストによってのみ更新される。初期状態は、完全なジョブリストおよび定義された製品の位置によって定義することができ、終了状態は、遂行ジョブリスト、つまり、すべてのフィールドが値「0」(空)を有し、製品が待機していない状態として定義することができる。
【0029】
プラントのすべてのモジュールまたは機械に対して、行列中に1つのプレース(place)が生成される。これは、各モジュールについて行われ、行列は、プラントトポロジーでモジュールが順に並べられるのと同じように構築される。すべての輸送の決定点(モジュール間のコンベア部分)に対してもまた、あるプレース上に生成された行列中に1つのプレースが生成され、これは2つの接続モジュールに隣接している。行列は、自動的に、かつ、プラントトポロジーと同じ順序でルールに基づいて、構築される。例えば、行列に新しい行を生成する決定のために、GUI中のグリッドが役に立つ可能性がある。グリッドは、一般的に、モジュールやコンベアセクションの位置を特定し、行列内の適切な位置を見つけるのに役立つ。
【0030】
状態行列とシミュレーションが自動的に作成された後、システムはこれらの要件についてトレーニングを受けることができる。システムをトレーニングするために、強化学習(RL)エージェントが使用される。マルチエージェントシステム(Multi Agent System:MAS)ではないため、プラントの状態にはモジュールのキューの長さ情報が含まれており、製品が相互に通信する必要はない。RLのラベル付きデータが必要ないという事実により、このアプローチは、ラベル付きデータを生成するタスクに苦労することがあるプラントオペレータにとって、非常に魅力的なものとなる。
【0031】
本発明の一実施形態では、GUIを使用することができ、ここでプラントオペレータは、プラントを図式的に、かつ非常に少ない技術的負担で表示する必要がある。GUIの一例を
図3に示す。
図3には、モジュール式で静的な生産モジュール用のボックスと、ベルトコンベアセクションを表す薄いボックスと、がある。意思決定点Dは、目的の位置に配置しなければならない。GUIの背景には、意思決定点において意思決定を行う必要があること、意思決定後に製品がある意思決定点から次の意思決定点へとベルトコンベア上を移動することができること、等の一般的な一定のルールが実装されている。
【0032】
処理ユニットは、GUIのボックス11を介して定義することができる。GUIでは、ボックス12および13に参照されるように、プラント内の一度にできる製品の最大数、1つのジョブリスト内の最大ジョブ数、およびジョブリスト内のすべての可能なジョブ、ならびに、モジュールのプロパティ(使用可能な実行可能ジョブまたは操作または最大キュー長を含む)を簡単に設定できる。
行動も設定でき、さまざまな方向を持つ決定点では、デフォルトの行動が方向を選択している。モジュールの前に決定点があり、モジュールに通じるベルトコンベアがない場合、行動「ステップイン」を設定することができる。このプラント100の概略図と、入力の意味に関する一定の知識とを用いることで、ある決定点から次の決定点に移動する製品のトレーニングに十分な、プラントの簡単なシミュレーションを自動的に生成することができる。
【0033】
さらに、FMSの状態の表現は、状態行列を生成するシステムがGUIの入力の意味についての知識を有するので、状態行列15として直接かつ自動的に表現することができる。プラントオペレータがシミュレーションまたは状態行列に表現したい追加情報があれば、その情報を直接コード化する可能性もある。
【0034】
また代わりに、プラントトポロジーなどを記述した記述型(OPC UA)情報モデルを、特定の(OPC UA)クライアントによって読み取ることもできる。その後、クライアントは、シミュレーションと状態行列を構築することができる。
【0035】
報酬関数16は、システムが選択した行動を評価する。この場合、製品が取るルートだけでなく、製品がそのルート上の与えられた制約にどのように適合したかをも評価し、その行動が有用であったかどうかを、各時間ステップで確認する。したがって、報酬関数は、これらのプロセス固有の制約、局所的な最適化目標、および全体的な最適化目標を含む必要があり、これらは、ボックス14を介してすべて定義することができる。また、ジョブ順序についての制約(最初、2番目、などに行う必要があるジョブ)を設定17することもできる。
【0036】
報酬関数は、考慮すべき最適化目標を数学的に定式化したものであるため、自動的に生成される。
ユーザは、(たとえば、GUI14で)最適化目標の重要度を、例えば以下:
5×生産時間,2×品質,1×エネルギー効率
のように定義し、そしてこの情報は、以下のように、報酬関数の数学的な記述:
0.625×生産時間+0.25×品質+0.125×時間エネルギー
に直接変換されることになる。
【0037】
さらに、報酬関数には、システムが製造プロセス中に考慮すべき最適化目標が含まれる。これらの目標には、メイクスパン、処理時間、材料コスト、生産コスト、エネルギー需要、および品質を含めることができる。GUIでプロセス固有の制約と最適化目標とを設定するのは、プラントオペレータの作業である。また、プラントオペレータの希望に応じて、組み合わせおよび重み付けされた最適化目標を検討することも可能である。
実行時に、受け取った報酬を期待される報酬と比較することで、モデルを再トレーニングしたり、微調整したりするためのさらなる分析や決定を行うことができる。
【0038】
要約すると、本発明は、仮想環境(生成されたシミュレーション)で訓練され、見た可能性のあるすべての状況においてどのように反応するかを学習する、RLエージェントを示す。ランダムな選択を行うことで始め、有限の行動の集合から行動を選択した後、環境が更新され、RLエージェントは、新しい状態を観測し、その行動の評価として報酬を得る。RLエージェントの目標は、最良の制御ポリシーを見つけることにより、長期割引報酬を最大化することである。
【0039】
訓練中、RLエージェントは、最適な行動を認識するまで、多くの可能性のある状況(非常に高い状態空間)を複数回確認する。最適化の目標ごとに、異なるRLエージェントがトレーニングされる。
【0040】
最初のトレーニングステップでは、RLエージェントは、その最適化目標にしたがって製造される方法で、製品を制御するようにトレーニングされる。製造工程におけるその他の製品は、一定のポリシーで管理される。
2番目の訓練ステップでは、同じ製造プロセスおよびシミュレーションの間に、複数のRLエージェントを訓練する。これは、RLエージェントを相互に調整し、他のエージェントの意思決定を尊重し、それらに対応するためである。RLエージェントが満足な結果を与えると、仮想環境で訓練されたモデルはプラントの物理レベルに転送され、そこで制御ポリシーとして適用される。各製品に定義された最適化目標に応じて、適切な制御ポリシーを使用して、製品ルーティング、したがって製造を制御する。これにより、ロットサイズ1の製品と、高いエネルギー効率または低材料費のような特定の最適化目標を、同時に1つのFRMSで製造することが可能になる。この制御ポリシーにより、製造プラントの各製品は、定義された最適化目標に応じて、製造工程のあらゆる時間ステップで、自らの決定を下すことができようになる。
【0041】
すでに述べたように、
図1には、仮想レベルでのRLエージェントのトレーニングの概念(シミュレーション)と、物理レベルでのトレーニング済みモデルの適用(実際のFMS)が示されている。
モジュールはさまざまな製造プロセスに置き換えることができるため、このコンセプトは、プラント内物流のあらゆるアプリケーションに転用することができる。
場合によっては、システムに認識されていない状況がある場合(すなわち、新しい製造モジュールがある場合など)、システムは、この状況における行動を探索し、その行動がどのように実行されるかをオンラインで学習することができる。そのため、システムは、初期には準最適の決定を選択する可能性があるが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、GUIを使用することによって適応されたプラントトポロジーを使用して、システムを、トレーニング・セットアップで再度トレーニングすることも可能である。
【0042】
本発明における重要なステップは、FMSを状態行列として自動的に表現することである。したがって、GUIが使用される。この場合、プラントオペレータは、プラントを図式的に、かつ、非常に少ない技術的労力で表現しなければならない。GUIの一例を
図3に示す。モジュール式で静的な生産モジュール用のボックスと、ベルトコンベアセクションを表す細いボックスがある。意思決定点は、必要な位置に配置する必要がある。GUIの背景には、意思決定点において意思決定を行う必要があること、意思決定が行われた後に製品がある意思決定点から次の意思決定点へとベルトコンベア上を移動することができること、のような、一般的な一定のルールが実装されている。
【0043】
GUIでは、プラント内の一度にできる製品の最大数、1つのジョブリスト内の最大ジョブ数、およびジョブリストのすべての可能なジョブ、ならびに、モジュールのプロパティ(使用可能な実行可能ジョブまたは最大キュー長を含む)を簡単に設定できる。行動も設定できるが、さまざまな方向を持つ決定点では、デフォルトの行動が方向を選択している。モジュールの前に決定点があり、モジュールに通じるベルトコンベアがない場合、行動「ステップイン」を設定できる。このプラントの概略図と入力の意味に関する一定の知識により、ある決定点から次の決定点に移動する製品でのトレーニングに十分な、プラントの簡単なシミュレーションを自動的に生成することができる。
【0044】
さまざまな最適化目標を同時に使用して、さまざまな製品を1つのFMSで最適に製造することができる。
プログラミング(自己訓練システム)を必要とせずに、シミュレーションされた環境と相互に作用することにより、FMSを介して製品の最適な方法を自動的に見つけることができる。
シミュレーションはGUIから自動的に生成され、トレーニング用のGUIを生成するための高度な技術的負担はない。
FMSの現在の状態の表現はGUIから自動的に生成されるため、FMSからの重要情報のみを使用して、状態記述を設計するための高い労力は必要ない。
意思決定は、ルールベースでも工学的でもない。高度な技術的負担の少ない自己学習システムである。
意思決定は、オンラインおよびほぼリアルタイムで行われ、トレーニングによってあらゆる状況に対する解決策が分かっている。
場合によっては、システムに認知されていない状況がある場合(すなわち、新しい製造モジュールがある場合など)、システムは、この状況における行動を探索し、その行動がどのように実行されるかをオンラインで学習することができる。したがって、システムは初期に準最適な決定を選択する可能性があるが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、GUIを使用することによって適応されたプラントトポロジーを使用して、システムを、トレーニング・セットアップで再度トレーニングすることも可能である。現在の状態に関する情報はモジュールのキューを含み、したがって重要な製品位置が含まれているため、製品間の通信は必要ない。
シミュレーションとの相互作用によってトレーニングされるため、ラベル付きデータは必要なく、システムは最善の決定を見つけることができる。
このコンセプトは、プラント内物流のあらゆるアプリケーションに適用可能である。
【符号の説明】
【0045】
10…GUI、15…状態行列、100…FMS、200…状態行列、300…RLエージェント、400…訓練済みモデル、500…実際のFMS、600…ポリシー
【手続補正書】
【提出日】2022-05-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
少なくとも製品を製造するために使用されるフレキシブル生産システム(500)のための自己学習型製造スケジューリング方法であって、
前記
フレキシブル生産システムは、ハンドリングエンティティ(C,C1,…)を介して相互接続される処理エンティティ(M1,M2,…M6)
を備え、
前記製造スケジューリングは、前記フレキシブル生産システムのモデル(
100,400)に対して強化学習システム(300)によって学習され
るものであって、
前記モデル(
100,400)は、少なくとも前記フレキシブル生産システム
の行動およ
び意思決定を表しており、
前記モデル(
100,400)は、状態行列(200)に変換されて、前記フレキシブル生産システム
の状態をシミュレートする
ように構成されている、
方法。
【請求項2】
前記状態行列(200)の1つの状態は、前記製品を含む前記フレキシブル生産システム(500)の1つの状況を表す、
ことを特徴とする
請求項1に記載の方法。
【請求項3】
前記フレキシブル生産システム(500)は、既知のトポロジー(100)を有し、
前記状態行列(200)は前記モデル(100)から
の情報に対応するものとして生成され、
前記状態行列(200)における前記情報
の位置は、前記フレキシブル生産システム(500)の前記トポロジーに応じて順序づけられている、
請求項1または2に記載の方法。
【請求項4】
前記状態行列(200)における前記情報は、
a)前記ハンドリングエンティティ(C,C1,…,203)
の情報を、前記フレキシブル生産システムにおけ
る実際の位置にしたがって、前記
状態行列中に配置する、第1のステップと、
b)前記処理エンティティ(M1,M2,…M6,201)
の情報を配置する、第2のステップと、
において自動的に生成される、
請求項3に記載の方法。
【請求項5】
前記処理エンティティに関する前記状態行列(200)における前記情報は
、それぞれの
前記処理エンティティ
の処理能力(F1,F2,…)の表現を含む、
請求項3または4に記載の方法。
【請求項6】
前記状態行列(200)
の本体は、ある時点において前記フレキシブル生産システム内に位置し、処理エンティティに対する処理キューで待機しているすべての製品についての入力(202)を含む、
請求項1~5のいずれか1項に記載の方法。
【請求項7】
前記状態行列(200)
の本体は、ジョブリスト(JL)に関する入
力を含む、
請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記強化学習システム
の訓練のために
、ある時間tにおける前記フレキシブル生産システムに関す
る状態情報を含む
第1の前記状態行列(200)を、
次の遷移状態である時間t+1における
第2の前記状態行列(200)を計算する
ために使用し、
前記強化学習システムは、前記製品
の製造プロセスまたは前記フレキシブル生産システム
の効率に関し
て付加的に入力され優先順位付けされた最適化基準に基づいて
、次のステップへの
遷移を選択
するための基礎として、
前記第1の前記状態行列(200)の前記状態情報を入力情報として使用
する、
請求項
1~7のいずれか1項に記載の方法。
【請求項9】
前記強化学習システム
の訓練のために、前記
状態行列
は、
初期状態
において、フルジョブリスト(JL)および定義された製品位置を示し、
終了状態
において、空のジョブリスト(JL)
を示す、
請求項1~8のいずれか1項に記載の方法。
【請求項10】
少なくとも製品を製造するために使用されるフレキシブル生産システム(500)の自己学習型製造スケジューリングのための強化学習システムであって、
前記
フレキシブル生産システムは、ハンドリングエンティティ(C,C1,…)を介して相互接続された処理エンティティ(M1,M2,…M6)
を備え、
前記
強化学習
システムの入力は、前記フレキシブル生産システムのモデル(100)を含み、
前記モデルは、少なくとも前記フレキシブル生産システム
の行動およ
び意思決定を表し、
前記モデル(100)は、
請求項1~9
のいずれか1項に記載の前記状態行列(200)として実現される、強化学習システム。
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正の内容】
【国際調査報告】