IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シーメンス アクチエンゲゼルシヤフトの特許一覧

特許7379672フレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法
<>
  • 特許-フレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法 図1
  • 特許-フレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法 図2
  • 特許-フレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-06
(45)【発行日】2023-11-14
(54)【発明の名称】フレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法
(51)【国際特許分類】
   G05B 19/418 20060101AFI20231107BHJP
【FI】
G05B19/418 Z
【請求項の数】 10
(21)【出願番号】P 2022515781
(86)(22)【出願日】2019-09-19
(65)【公表番号】
(43)【公表日】2022-11-22
(86)【国際出願番号】 EP2019075173
(87)【国際公開番号】W WO2021052589
(87)【国際公開日】2021-03-25
【審査請求日】2022-05-09
(73)【特許権者】
【識別番号】390039413
【氏名又は名称】シーメンス アクチエンゲゼルシヤフト
【氏名又は名称原語表記】Siemens Aktiengesellschaft
(74)【代理人】
【識別番号】110003317
【氏名又は名称】弁理士法人山口・竹本知的財産事務所
(74)【代理人】
【識別番号】100075166
【弁理士】
【氏名又は名称】山口 巖
(74)【代理人】
【識別番号】100133167
【弁理士】
【氏名又は名称】山本 浩
(74)【代理人】
【識別番号】100169627
【弁理士】
【氏名又は名称】竹本 美奈
(72)【発明者】
【氏名】ベーア,シーリーン
【審査官】石川 健一
(56)【参考文献】
【文献】特開2007-004391(JP,A)
【文献】米国特許出願公開第2017/0083008(US,A1)
【文献】米国特許第09227318(US,B1)
【文献】Maria Drakaki, Panagiotis Tzionas,Manufacturing Scheduling Using Colored Petri Nets and Reinforcement Learning,Applied sciences,スイス,MDPI AG,2017年02月03日,7,136,1-22,https://www.mdpi.com/2076-3417/7/2/136
【文献】Sallez, Y.; Berger, T.; Trentesaux, D.,A stigmergic approach for dynamic routing of active products in FMS,Computers in Industry,Elsevier,2009年01月22日,Vol.60, Issue 3,204-216
【文献】Olatunde T. Baruwa; Migquel Angel Piera; Antoni Guasch,Deadlock-Free Scheduling Method for Flexible Manufacturing Systems Based on Timed Colored Petri Nets and Anytime Heuristic Search,IEEE Transactions on Systems, Man, and Cybernetics: Systems,米国,IEEE,2014年12月19日,Vol.45, Issue 5,831-846
(58)【調査した分野】(Int.Cl.,DB名)
G05B 19/418
G06F 30/22
(57)【特許請求の範囲】
【請求項1】
少なくとも製品(a,b,c,d,e)を製造するために使用されるフレキシブル生産システム(500)のための自己学習製造スケジュールを作成する方法であって、
前記フレキシブル生産システムは、ハンドリングエンティティ(C、C1,…)を介して相互接続される処理エンティティ(M1,M2,…M6)を備え、
前記製造スケジュールの作成は、前記フレキシブル生産システムのモデル(400)について強化学習システム(300)によって学習されるものであって、
前記モデルは、少なくとも、前記フレキシブル生産システムの行動および意思決定を表し、
前記モデル(400)は、ペトリネット(102)として実現され
前記ペトリネット(102)は、
前記処理エンティティ(M1,M2,…M6)のそれぞれに対応する第1のプレースと、
前記処理エンティティ(M1,M2,…M6)のうちの1つと前記処理エンティティ(M1,M2,…M6)のうちの他の1つとの間を接続する前記ハンドリングエンティティ(C、C1,…)上の意思決定点のそれぞれに対応する第2のプレースと、
前記第1のプレースのうちの1つと前記第2のプレースのうちの1つとの間の移動に関連する第1のトランジションと、
前記第1のプレースのうちの1つに製品が移動可能な前記第2のプレースのうちの1つと、当該第1のプレースのうちの1つから前記製品が移動可能な前記第2のプレースのうちの他の1つとの間での移動に関連する第2のトランジションと、
を備えている、
方法。
【請求項2】
前記ペトリネット(102)の1つの状態は、前記フレキシブル生産システムにおける1つの状態を表す、
請求項1に記載の方法。
【請求項3】
前記ペトリネットのプレース(PM1,…PM6)は、1つの前記処理エンティティ(M1,M2,…M6)の状態を表し、
前記ペトリネットのトランジション(1,…24)は、1つの前記ハンドリングエンティティを表す、
請求項1または2に記載の方法。
【請求項4】
トリネットのトランジションは、前記フレキシブル生産システムの行動に対応する、
請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記フレキシブル生産システムは、既知のトポロジーを有し、
前記ペトリネット(102)からの情報に対応して、前記トランジションおよび前記プレースに関する情報を含む行列(103)を生成し、
前記行列(103)内の前記情報の位置は、前記フレキシブル生産システムの前記トポロジーに応じて順序付けされている、
請求項3に記載の方法。
【請求項6】
前記行列(103)の本体は、前記フレキシブル生産システム内にある時点において位置するすべての製品(a,b,c,d,e)に関する入力を含み、前記フレキシブル生産システム内のそれぞれの前記製品(a,b,c,d,e)の、前記位置または1つの位置から別の位置への移動、を示す、
請求項5に記載の方法。
【請求項7】
それぞれの前記製品(a,b,c,d,e)の特性を表すために、着色ペトリネットが使用される、
請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記強化学習システムの訓練のために、
前記行列(103)に含まれる前記情報は、ベクトルを計算することによって使用され、
前記ベクトルは、前記強化学習システムの入力情報として使用されるとともに、前記製品(a,b,c,d,e)の製造プロセスまたは前記フレキシブル生産システムの効率に関して付加的に入力されかつ優先順位付けされた最適化の基準に基づいて、前記強化学習システムの次のステップへのトランジションを選択するための基準として使用される、
請求項5または6に記載の方法。
【請求項9】
前記第2のプレースは、前記第2のトランジションを介して一つの環状に接続されている、
請求項1~8のいずれか1項に記載の方法。
【請求項10】
少なくとも製品(a,b,c,d,e)を製造するために使用される、フレキシブル生産システム(500)のための自己学習製造スケジュールの作成のための強化学習システムであって、
前記フレキシブル生産システムは、ハンドリングエンティティ(C,C1,…)を介して相互接続された処理エンティティ(M1,M2,…M6)を備え、
前記強化学習システムの入力は、前記フレキシブル生産システムのモデル(400)を含み、
前記モデルは、少なくとも前記フレキシブル生産システムの行動および意思決定を表し、
前記モデル(400)は、請求項1~8のいずれか1項に記載のペトリネット(100)として実現され
前記ペトリネット(102)は、
前記処理エンティティ(M1,M2,…M6)のそれぞれに対応する第1のプレースと、
前記処理エンティティ(M1,M2,…M6)のうちの1つと前記処理エンティティ(M1,M2,…M6)のうちの他の1つとの間を接続する前記ハンドリングエンティティ(C、C1,…)上の意思決定点のそれぞれに対応する第2のプレースと、
前記第1のプレースのうちの1つと前記第2のプレースのうちの1つとの間の移動に関連する第1のトランジションと、
前記第1のプレースのうちの1つに製品が移動可能な前記第2のプレースのうちの1つと、当該第1のプレースのうちの1つから前記製品が移動可能な前記第2のプレースのうちの他の1つとの間での移動に関連する第2のトランジションと、
を備える、
強化学習システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、フレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法に関する。
【背景技術】
【0002】
フレキシブル生産システム(flexible manufacturing system:FMS)とは、予測されている、されていないに関わらず、変更があった場合にシステムが対応できるようにする、ある程度の柔軟性がある生産システムのことである。
経路設定(ルーティング)の柔軟性とは、新しい製品タイプを生産するために変更されるシステムの能力や、部品に対して実行される作業の順序を変更する能力をカバーすることである。また、機械の柔軟性とは、数量、生産力、性能などの大規模な変化を吸収するというシステムの能力ばかりでなく、複数の機械を使用して一つの部品に対して同じ操作を施すことができる能力をもいう。
【0003】
ほとんどのFMSは、3つの主要なシステムから構成されている。
作業機械は、自動化されることの多いCNC機械であり、部品の流れを最適化するためのマテリアルハンドリングシステムと、材料の動きと機械の流れを制御する中央制御コンピュータと、が接続されている。
FMSの主な利点は、新製品を製造するための時間や労力などの製造資源(リソース)を管理する際の柔軟性が高いことである。FMSの最良の用途は、大量生産される製品のような製品を少量生産する際に見られる。
【先行技術文献】
【非特許文献】
【0004】
【文献】Di Caro, G., and Dorigo, M.、Antnet distributed stigmergic control for communications networks.(AntNet:通信ネットワークのための分散スティグマージティック制御)、Journal of Artificial Intelligence Research 9(1998):317-365
【文献】Dorigo, M., and Stutzle, T.、Ant Colony Optimization(アントコロニー最適化)、The MIT Press.(2004)
【文献】Sallez, Y.; Berger, T.; and Trentesaux, D.、A stigmergic approach for dynamic routing of active products in fms.(FMSにおけるアクティブ製品の動的ルーティングのための生物学的アプローチ)、Computers in Industry 60(2009):204-216.
【文献】Pach, C.; Berger, T.; Bonte, T.; and Trentesaux, D.、Orca-fms: a dynamic architecture for the optimized and reactive control of flexible manufacturing scheduling(フレキシブル生産スケジューリングの最適化および反応制御のための動的アーキテクチャ)、Computers in Industry 65(2014):706-720.
【文献】Frankovic, B., and Budinsk'a, I.、"Advantages and Disadvantages of Heuristic and Multi Agents Approaches to the Solution of Scheduling Problem(スケジューリング問題の解法に対するヒューリスティックおよびマルチエージェントアプローチの利点と欠点)"、IFAC Proceedings of the Conference IFAC Control Systems Design. Bratislava, Slovak Rep.: IFAC Proceeding Volumes 60, Issue 13.
【文献】Leit~ao, P., and Rodrigues, N.、"Multi-agent system for on-demand production integrating production and quality control(生産と品質管理を統合したオンデマンド生産のためのマルチエージェントシステム)"、HoloMAS 2011, LNAI 6867: 84-93.
【文献】Gabel T.、Multi-Agent Reinforcement Learning Approaches for Distributed Job-Shop Scheduling Problems(分散型ジョブショップ・スケジューリング問題に対するマルチエージェント強化学習アプローチ)、学位論文、June 2009
【文献】"Method for Flexible Manufacturing Systems Based on Timed Colored Petri Nets and Anytime Heuristic Search"(時限有色ペトリネットおよび任意時間ヒューリスティック探索に基づくフレキシブル生産システムのための方法), IEEE Transactions on Systems, Man, and Cybernetics: Systems 45(5):831-846 ? May 2015
【発明の概要】
【発明が解決しようとする課題】
【0005】
世の風潮がモジュール化されたフレキシブル生産システム(FMS)に移行するにつれて、オフラインスケジューリングはもはや、効率的な製品ルーティングを可能にする唯一の手段ではなくなっている。製造モジュールの故障、材料の空積み、FMSの再構築など、予期せぬ事態を考慮しなければならない。したがって、(付加的な)オンラインスケジューリングおよび資源配分システムを有することは有用である。
【0006】
第2の問題は、古典的なヒューリスティック手法のように、製品ルーティングシステムには高度な技術的労力が必要となことである。さらに、これらの解決策は、静的なものである。自己学習型の製品ルーティングシステムは、実行時に適用されるまで、シミュレーションで多くの状況に対する決定を自ら学習するため、技術的な労力を軽減すると考えられる。
【0007】
もう一つのポイントは、FMSにおけるルールと制約を数学的に記述し、それを実装することであり、これは高度な技術的な負担につながる。
自己学習型エージェントのアイデアは、報酬関数で非公式に考慮される制約を理解することである。
【0008】
製造実行システム(Manufacturing Execution Systems:MES)は、製品の計画とスケジューリングに使用される。しかし、これらの殆どが、顧客の固有のシステムを実装することは、極めて高い技術的労力となる。スケジューリング問題の古典的な解決法は、(メタ)ヒューリスティックな手法の使用である。初見のイベントにおいては、リスケジュールが行われる。一方で、これは時間がかかり、他方で、いつリスケジュールを行わなければならないかを決めるのは難しい。
【0009】
自己学習型製品ルーティングシステムのコンセプトはいくつか知られており、計算コストが高く、製品が回答を待っている間にオンラインで最善の決定を計算する。
これらの概念の説明は、例えば、非特許文献1~4の開示に見ることができる。
【0010】
もう一つのアプローチは、マルチエージェントシステムである。このシステムには、エージェントの入札を制御する中心的な実体(エンティティ)があるため、エージェントはこの実体と通信する必要がある。このシステムについては、非特許文献5または非特許文献6に記述されている。
【0011】
強化学習とは、機械学習の一つの方法であり、報酬と懲罰のシステムを用いてエージェントを訓練(トレーニング)する。
一般的に、強化学習アルゴリズム、あるいはエージェントは、その環境と相互作用することによって学習する。エージェントは、正しく実行することで報酬を受け取り、間違って実行することでペナルティを受け取る。エージェントは、その報酬を最大化し、ペナルティを最小化することにより、人間からの介入なしに学習する。
また、分散ジョブショップスケジューリング問題に対するマルチエージェント強化学習(Reinforcement Learning:RL)の分野では、1つのエージェントが1つの製造モジュールを制御し、ジョブの発送の可否を決定する研究が行われている。
【0012】
その例として、非特許文献7が挙げられる。
不利な点は、グローバルな決定をするために中央エンティティが必要であり、各エージェントはFMSの状態に関する限られた見解しか得られないことであり、これは、学習期間の長期化をもたらす可能性がある。
【0013】
本発明の目的は、FMSの製品計画およびスケジューリングのために、上述した問題に対する解決策を提供することである。
【課題を解決するための手段】
【0014】
本課題は、請求項1に記載の特徴に係る方法によって解決され、さらに、請求項8に記載の特徴に係るシステムによって解決される。
【0015】
本発明の有利な実施形態は、従属請求項に記載されている。
実施形態の説明は、本発明の実施の単なる例であり、本発明に対して制限的であることを意味するものではない。
【0016】
提案される方法は、少なくとも製品を生産するために使用されるフレキシブル生産システムのための自己学習製造スケジューリングに使用される方法であって、製造システムは、ハンドリングエンティティを介して相互接続された処理エンティティからなり、製造スケジューリングは、フレキシブル生産システムのモデルに対して強化学習システムによって学習されるものであり、モデルは、少なくとも行動およびフレキシブル生産システムの意思決定を表し、モデルは、ペトリネットとして実現される。
処理エンティティおよび処理エンティティの配列は、交換可能であり、全体の配置に対してとても柔軟である。
【0017】
ペトリネットは、PT(place/transition)ネットとも呼ばれ、分散システムを記述するための数学的モデリング言語である。ペトリネットは、動的な離散事象システムのクラスである。ペトリネットは有向二部グラフであり、ノードは、トランジション(すなわち、発生し得る事象。棒で表される。)と、プレース(すなわち、条件。円で表される。)と、を表す。有向アークは、どのプレースがトランジションの前条件および/または後条件であるかを記述する(矢印で示す)。
【0018】
ペトリネットを用いて材料の流れをモデル化し、ペトリネットモデルとヒューリスティック探索を用いてFMSのジョブスケジューリングを行う研究などが行われている。例えば、非特許文献8参照。
【0019】
本発明は、オンラインスケジューリングのための自己学習システムを提案する。ここで、RLエージェントは、FMS内の多くの状況に対して、定義された行動の集合から最善の決定を学習するまで、ペトリネットに対して訓練される。ペトリネットは、FMSのシステム行動と意思決定点とを表現している。ペトリネットの状態は、FMSにおける状況を表し、モジュールのトポロジーや、製品の位置および種類とに関係する。
【0020】
この自己学習システムの最初のアイデアは、RLエージェントを訓練するためのプラント構造、その状態およびその行動、の表現としてペトリネットを使用することである。ペトリネットの現在の状態、つまりプラントの現在の状態は、RLエージェントの入力として使用される。同時に、ペトリネットは、RLエージェントが選択する行動ごとに更新されるため、FMSのシミュレーション(環境)として使用される。
【0021】
訓練されたシステムを適用する場合、生産プロセス中にほぼリアルタイムで決定を下すことができ、エージェントは、異なる最適化目標を使用してさまざまな製品の製造モジュールに操作を発送(ディスパッチ)することを含むFMSを通して、製品を制御する。本発明は、ルーティングおよびディスパッチングの柔軟性を有する製造システムでの使用において特に優れている。
【0022】
このペトリネットは、ユーザが手動で作成することができるが、例えばGUIを使用することによって、背後にロジックを有する図3に描かれているように、自動的に作成することもできる。このロジックは、ペトリネット内の構造の概略図を翻訳することができる。
各モジュールまたはマシンに対して、1つのプレースが生成される。
各意思決定点に対してもまた、1つのプレースが生成される。
2つの意思決定点の間のコンベヤ接続ごとに、トランジションが生成され、これにより、それぞれのプレースを接続する。これらのルールに従うことで、ペトリネットのトポロジーは自動的に、ユーザーが作成したプラントトポロジーと非常によく似たものになる。
【0023】
MESの計画およびスケジューリングの部分は、本発明のオンラインスケジューリングおよび配分システムに置き換えることができる。
【0024】
以下では、発明を、図を用いて好ましい実施形態について例示する。
【図面の簡単な説明】
【0025】
図1】仮想レベル(ペトリネット)でのRLエージェントの訓練コンセプトと、物理レベル(実際のFMS)での訓練済みモデルの応用と、を示す。
図2図2の上部は、ペトリネットによるFMSの状態と行動の表現を示し、FMS内の複数の製品を色分けしたペトリネットである。図2の下部のマトリックスは、ペトリネットのシステム行動が含まれている。
図3】FMSを模式的に設計するためのGUIの、考慮可能なドラフトを示す。
【0026】
図1は、実プラント500をペトリネット102で表現した訓練システム300からのシステム全体の概観を示す。RL技術として、SARSA、DQNなどを利用することができる。
【0027】
1つのRLエージェントモデルは、後に正確に1つの製品を制御するために、ペトリネット102に対して訓練される。したがって、さまざまな製品に対して訓練されたさまざまなエージェントが存在し、同じエージェントが各製品に対して1つずつ存在する場合もある。プラントの状態には、モジュールのキュー(待ち行列)の長さと他の製品の位置の情報が含まれるため、製品同士が通信する必要はない。
【0028】
図1に訓練の概念を示す。RLエージェントは、仮想環境(ペトリネット)で訓練され、表示された様々な状況でどのように反応するかを学習する。有限の行動の集合から行動を選択した後、ランダムな選択を行うことから始めて、環境が更新され、RLエージェントはその行動の評価として新しい状態と報酬を観測する。RLエージェントの目標は、最良の制御ポリシー(方策)を見つけることにより、長期割引報酬を最大化することである。
【0029】
訓練中に、RLエージェントは多くの状況(非常に高い状態空間)を複数回遭遇し、ニューラルネットワークがRLエージェントと共に使用される場合には、まだ遭遇していないものに対して一般化できる。エージェントは、ペトリネットに対して訓練された後、オンラインスケジューリングのために実行時に適用される前に、実際のFMSで微調整される。
【0030】
行動302を実行した後、シミュレーションにおける結果が観測303され、フィードバック、報酬301、が与えられる。
【0031】
プラントの状態には、モジュールのキューの長さと他の製品の位置との情報が含まれるため、製品同士が通信する必要はない。
【0032】
有限の行動の集合から行動を選択した後、ランダムな選択を行うことから始めて、環境が更新され、RLエージェントはその行動の評価として新しい状態と報酬を観測する。RLエージェントの目標は、最良の制御ポリシーを見つけることにより、長期割引報酬を最大化することである。訓練中に、RLエージェントは多くの状況(非常に高い状態空間)を複数回遭遇し、ニューラルネットワークがRLエージェントと共に使用される場合には、まだ遭遇していないものに対して一般化できる。エージェントは、ペトリネットに対して訓練された後、オンラインスケジューリングのために実行時に適用される前に、実際のFMSで微調整される。
【0033】
プラントの概略図101と、内容の意味についての一定の知識と、を併せ持つことにより、全ての図に概略的に描かれているように、ペトリ102を自動生成することができる。以下に、ペトリネット102の構造について説明する。
【0034】
ペトリネット環境において、円は、プレースM1,…M6と呼ばれ、矢印1,2,…24は、トランジション(遷移)と呼ばれている。図2のペトリネットの内側の六角形は、ベルトコンベア部(プレース7~12)を表し、外側の箇所は製造モジュールが接続可能な箇所(プレース1~6)を表す。トランジション3、11、15、19、23は、製品を同じプレースにとどめる。残りの数字1,…24はトランジションを示し、製品(トークン)をあるプレースから別のプレースに移動するために発火(起動)することができる。これらのトランジションは、1つ目の操作の後に2つ目の操作を同じモジュールで実行できる場合に便利である。ペトリネットの状態は、プレース上の製品a,b,c,d,e(トークン)によって定義される。FMSにおいて多くの異なる製品を検討するために、着色したトークンを複数の製品として持つ着色ペトリネットを使用することができる。色の代わりに、製品IDを使用することもできる。
【0035】
プラントの構造(プレース)とそのシステムの行動(トランジション)を記述するペトリネットは、図2の下部に示されている、1つの単一マトリックスで表すことができる。
【0036】
このマトリックスは、トランジションを活性化することによる、あるプレースから別のプレースへのトークンの移動を記述する。行はプレースであり、列はトランジションである。たとえば、第2列,第1行目の+1は、遷移2をアクティブにすることで、あるトークンが、プレース1に移動することを示している。図2のような行列を用いると、トランジションベクトルおよび行列の内積Cを、前の状態に加えることにより、ペトリネットの次の状態を容易に計算することができる。トランジションベクトルはOne-Hot符号化(1ビット有効符号化)ベクトルであり、これは制御されたエージェントの発火すべきトランジションを記述する。
【0037】
FMSのペトリネット表現は、RLエージェントに十分適した訓練環境である。RLエージェントは、ポリシー/Q値(エピソードに対する長期割引報酬金)が収束するまで、例えばQ-Learningとして知られるアルゴリズムによって、ペトリネットに対して訓練される。ペトリネットの状態は、FMS内の状況を表現するための1つの要素であり、制御された製品と他の製品の製品位置が、それらの特性とともに含まれる。この状態は、単一のベクトルで表現でき、RLエージェントに対する入力ベクトルの一つとして用いられる。このベクトルは、ペトリネットのすべてのプレースの状態を定義し、そこにはプレースに配置された製品のタイプも含まれる。
【0038】
つまり、製品タイプaが、容量3を有するプレース1に配置されている場合、最初のベクトル入力は次のようになる。
[a,0,0]
【0039】
製品タイプbとcとが、容量3を有するプレース2にある場合、1番目と2番目のベクトル入力は次のようになる。
[[a,0,0][b,c,0]]
【0040】
RLエージェントの行動空間は、ペトリネットのすべてのトランジションによって定義される。したがって、RLエージェントのタスクは、状態に応じてトランジションを発火することである。
【0041】
発火されるトランジション t=(001000000000000000)
状態S1での現在のマーキング S1=(000000010000)
次の状態の計算 S2=S1+C.t
状態S2での現在のマーキング S2=(010000000000)
【0042】
そして次の状態は単一行のコードで非常に高速に計算され、報酬機能とエージェントとに逆方向に伝搬される。エージェントは、まず、無効なトランジションを点火したときに報酬が負になることで、プラントの行動を学習し、後に適切なトランジションを点火できるようになる。これにより、さまざまなエージェントによって制御されるすべての製品が効率的な方法で生産される。実行時のエージェントの行動は、決定を下す必要があるすべてのポイントで、制御対象の製品が進むべき方向に変換される。複数のエージェントが、追加のグローバル最適化目標を考慮しながら、最適化目標によってさまざまな製品を制御しているため、このシステムは、オンライン/リアクティブスケジューリングシステムとして使用することができる。
【0043】
報酬関数は、エージェントが選択した行動、つまりモジュールのディスパッチ、およびエージェントが与えられた制約にどのように従ったか、を評価する(報酬機能は発明の一部ではなく、この段落は、報酬関数がRLエージェントのトレーニングにどのように関与しているかを理解するためのものである)。したがって、報酬関数には、これらのプロセス固有の制約、ローカル最適化目標、およびグローバル最適化目標が含まれている必要がある。これらの目標には、メイクスパン、処理時間、材料コスト、生産コスト、エネルギー需要、および品質、を含めることができる。
【0044】
報酬関数は、考慮すべき最適化目標を数学的に定式化したものであるため、自動的に生成される。
プロセス固有の制約と最適化目標をGUIなどで設定するのは、プラントオペレータの作業である。また、プラントオペレータの希望に応じて、組み合わせおよび重み付けされた最適化目標を検討することも可能である。実行時に、受け取った報酬を期待される報酬と比較することで、モデルを再トレーニングしたり、微調整したりするためのさらなる分析や決定を行うことができる。
【0045】
モジュールはさまざまな製造プロセスに置き換えることができる。そのため、このコンセプトは、プラント内物流のあらゆるアプリケーションに転用することができる。本発明は、オンラインスケジューリングに有益であるが、オフラインスケジューリングについても、またはその組み合わせでも、使用することができる。
【0046】
場合によっては、システムに認識されていない状況がある場合(新しい製造モジュールがある場合)、システムは、この状況での行動を探索し、行動がどのように実行されるかをオンラインで学習することができる。したがって、システムは、初期には準最適な決定を選択する可能性が高いが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、GUIを使用するなどして、適合されたプラントトトポロジーを使用して、トレーニングセットアップでシステムを再度トレーニングすることも可能である。
【0047】
図3の右側の例示的なGUI110は、FMSの表現である。モジュール方式で静的な生産モジュール用のボックスM1,…M6と、コンベヤベルトセクションを表す細いボックスC,C1,…C6がある。モジュールボックスM1,…M6内の数字は、特定の製造モジュール、例えば、穴あけ、整形、印刷等の処理機能F1,F5を表す。製造プロセスにおける1つのタスクは、異なる処理機能を実現しても、交換可能な異なる製造ステーションM1,…M6によって実行できる、と考えることができる。意思決定点D1,…D6は、目的の位置に配置される。GUIの背後には、意思決定点では意思決定が必要なこと(→ 後で:エージェント呼び出し)、製品は意思決定後に、コンベヤベルト上を意思決定点から次の意思決定点へ移動するか、モジュール内に滞在することができる、のような一般的な一定のルールが実装されている。例示のGUIの第3+ボックス113において、プラント内の製品の最大数、ジョブリスト内の操作の最大数、および、すべての可能な操作のようなジョブ順序制約117を、モジュールの特性(最大容量またはキュー長を含む)と同様に、設定することができる。行動も同様に設定することができ、当然のことながら、ペトリネット102のすべてのトランジションは行動である。
【0048】
最適化目標の重要性は、例えばGUIで、例えば以下のように値を設定する114ことによって、定義することができ、
5×生産時間,2×品質,1×エネルギー効率
そして、この情報は報酬関数116の数学的記述に直接変換されることとなり、この例においては、例えば以下のようになる。
0.625×生産時間+0.25×品質+0.125×時間エネルギー
【0049】
本発明は、不測の状況に対して非常に迅速にオンラインで反応する可能性を有するスケジューリングシステムを提供する。オンラインスケジューリングを自己学習することは、ルールベースまたは設計されるものではないので、技術的な負担を低減する結果をもたらす。ここに提案した解決策では、ペトリネットと相互作用することにより、例えばヒューリスティクスの定義などの技術的労力を必要とせずに、最適オンラインスケジュールを見出だすことができる。
次の状態を計算するために必要なものはたった一つの方程式だけであるため、「シミュレーション」時間は、既知のプラントシミュレーションツールと比較して、本当に高速である。シミュレーションツールとエージェントとの間の通信は必要ではない(「シミュレーション」は、エージェントの環境に統合されているため、応答時間も必要ではない)。
【0050】
トレーニングのためのシミュレーションツールは必要ではない。
ペトリネットに対して訓練されるので、最善の決定を見つけるためのラベル付きデータは必要ではない。FMS用ペトリネットは、自動的に生成することができる。
【0051】
1つのFMSで、異なる最適化目標を同時に使用し、さらに追加のグローバル最適化目標を使用することで、さまざまな製品を最適に製造することができる。
RLによって、エンジニアがシステムのルールをモデル化するために、あらゆる普通でない(エキゾチックな)状況を過剰に考える必要はない。
適用されたシステムの意思決定は、オンラインでほぼリアルタイムに行われる。
例えば新しいトポロジーについて、エージェントをオフラインで再トレーニングすることと同様に、オンライントレーニングもまた可能である。
【0052】
101…概略図、102…ペトリネット、110…GUI、300…訓練システム、500…実プラント
図1
図2
図3