(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023031401
(43)【公開日】2023-03-09
(54)【発明の名称】物流搬送速度制御エージェント学習装置、物流搬送速度制御エージェント学習方法、及び物流搬送速度制御エージェント学習プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20230302BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021136852
(22)【出願日】2021-08-25
(71)【出願人】
【識別番号】516065135
【氏名又は名称】株式会社IHI物流産業システム
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100175802
【弁理士】
【氏名又は名称】寺本 光生
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100167553
【弁理士】
【氏名又は名称】高橋 久典
(72)【発明者】
【氏名】鹿山 宏之
(72)【発明者】
【氏名】高橋 健吾
(57)【要約】
【課題】物流設備において搬送路に対して渋滞によりワークが受け付けられなくなることを抑制しつつ、エネルギ消費量を削減可能とする。
【解決手段】物流搬送路を形成する複数の搬送ユニットにおける搬送速度を制御する学習エージェント3を強化学習させる物流搬送速度制御エージェント学習装置1であって、モデル化された物流搬送路を用いて物流搬送路の状態及び当該状態に基づく報酬を算出する搬送路シミュレータ2と、報酬に基づいた評価が大きくなるように搬送速度に関する学習を行う学習エージェント3とを有し、搬送路シミュレータ2は、物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、物流搬送路でワークの受け付けができない場合に与えられる受付拒否罰と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて報酬を算出する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
物流搬送路を形成する複数の搬送ユニットにおける搬送速度を制御する学習エージェントを強化学習させる物流搬送速度制御エージェント学習装置であって、
モデル化された前記物流搬送路を用いて前記物流搬送路の状態及び当該状態に基づく報酬を算出する搬送路シミュレータと、
前記報酬に基づいた評価が大きくなるように前記搬送速度に関する学習を行う前記学習エージェントと
を有し、
前記搬送路シミュレータは、前記物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、前記物流搬送路で前記ワークの受け付けができない場合に与えられる受付拒否罰と、前記搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて前記報酬を算出する
ことを特徴とする物流搬送速度制御エージェント学習装置。
【請求項2】
モデル化された前記物流搬送路が、単一あるいは複数の搬送ユニットを含む制御対象部を複数有し、
前記学習エージェントは、前記制御対象部ごとに前記搬送速度を制御する
ことを特徴とする請求項1記載の物流搬送速度制御エージェント学習装置。
【請求項3】
前記搬送路シミュレータは、前記搬送ユニットごとの速度指令値に基づいて前記消費エネルギ増加罰を算出する
ことを特徴とする請求項2記載の物流搬送速度制御エージェント学習装置。
【請求項4】
前記搬送路シミュレータは、前記搬送ユニットごとの速度指令値を各々二乗した値の総和に基づいて前記消費エネルギ増加罰を算出することを特徴とする請求項3記載の物流搬送速度制御エージェント学習装置。
【請求項5】
前記搬送路シミュレータは、前記搬送ユニットごとの加速度に基づいて前記消費エネルギ増加罰を算出する
ことを特徴とする請求項2記載の物流搬送速度制御エージェント学習装置。
【請求項6】
前記物流搬送路におけるワークの搬送中にメンテンナンスによる停止期間が発生する可能性があるメンテナンス発生搬送ユニットが、前記物流搬送路を形成する複数の前記搬送ユニットに含まれ、
単一の前記制御対象部に含まれる前記メンテナンス発生搬送ユニットは1つ以下である
ことを特徴とする請求項2~5いずれか一項に記載の物流搬送速度制御エージェント学習装置。
【請求項7】
物流搬送路を形成する複数の搬送ユニットにおける搬送速度を制御する学習エージェントを強化学習させる物流搬送速度制御エージェント学習方法であって、
搬送路シミュレータによって、モデル化された前記物流搬送路を用いて前記物流搬送路の状態及び当該状態に基づく報酬を算出し、
前記学習エージェントが、前記報酬に基づいた評価が大きくなるように前記搬送速度に関する学習を行い、
前記搬送路シミュレータにて、前記物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、前記物流搬送路で前記ワークの受け付けができない場合に与えられる受付拒否罰と、前記搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて前記報酬を算出する
ことを特徴とする物流搬送速度制御エージェント学習方法。
【請求項8】
コンピュータを、物流搬送路を形成する複数の搬送ユニットにおける搬送速度を制御する学習エージェントを強化学習させる物流搬送速度制御エージェント学習装置として機能させる物流搬送速度制御エージェント学習プログラムであって、
前記コンピュータを、モデル化された前記物流搬送路を用いて前記物流搬送路の状態及び当該状態に基づく報酬を算出する搬送路シミュレータと機能させ、
前記コンピュータを、前記報酬に基づいた評価が大きくなるように前記搬送速度に関する学習を行う前記学習エージェントとして機能させ、
前記コンピュータを前記搬送路シミュレータとして機能させる場合に、前記物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、前記物流搬送路で前記ワークの受け付けができない場合に与えられる受付拒否罰と、前記搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて前記報酬を算出させる
ことを特徴とする物流搬送速度制御エージェント学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物流搬送速度制御エージェント学習装置、物流搬送速度制御エージェント学習方法、及び物流搬送速度制御エージェント学習プログラムに関するものである。
【背景技術】
【0002】
例えば特許文献1に示されているように、物流設備においては、ワークを搬送するための搬送路が複数設けられている。このような搬送路は、ワークを水平搬送するコンベヤや、ワークの移載を行う移載ロボット等の多種の搬送ユニットによって形成されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、搬送路においてワークの搬送が滞ると、いわゆる渋滞が発生する。例えば、物流設備の全体が稼働している途中に、搬送路を形成する搬送ユニットの一部がメンテナンスによって停止する場合がある。このような場合には、メンテンナンスが実施される搬送ユニットが含まれる搬送路において、ワークの搬送が滞って渋滞が発生する。ワークの渋滞が解消されないと、時間の経過に伴って搬送路にワークを一時的に保留するスペースがなくなり、搬送路にてワークを受け付けることができなくなる。このように、上流から供給されたワークを搬送路にて受け付けることができなくなることをドロップと称する。つまり、搬送路に対して搬送能力を超える多くのワークが集まると、搬送路にてワークが受け付けできなくなり、ドロップが発生する。
【0005】
このようなドロップの発生を抑制するためには、搬送ユニットの搬送速度を常に最大とすることが考えられる。搬送ユニットの搬送速度を常に最大とすることで、搬送路におけるワークの数を最小限に抑えることができる。このため、ワークの集中や搬送ユニットのメンテナンスが発生した時点での搬送路上のワークの数が抑えられ、渋滞発生中において搬送路で一時的に受け入れられるワークの数を最大化することが可能になる。したがって、ドロップの発生を抑制することができる。
【0006】
しかしながら、常に搬送速度を最大とした場合には、渋滞が発生しないような場合においても搬送ユニットの搬送速度が不必要に最大の状態となる。このため、エネルギ消費量が大きくなることが想定される。
【0007】
本発明は、上述する問題点に鑑みてなされたもので、物流設備において搬送路に対して渋滞によりワークが受け付けられなくなることを抑制しつつ、エネルギ消費量を削減可能とすることを目的とする。
【課題を解決するための手段】
【0008】
本発明は、上記課題を解決するための手段として、以下の構成を採用する。
【0009】
本発明の第1の態様は、物流搬送路を形成する複数の搬送ユニットにおける搬送速度を制御する学習エージェントを強化学習させる物流搬送速度制御エージェント学習装置であって、モデル化された上記物流搬送路を用いて上記物流搬送路の状態及び当該状態に基づく報酬を算出する搬送路シミュレータと、上記報酬に基づいた評価が大きくなるように上記搬送速度に関する学習を行う上記学習エージェントとを有し、上記搬送路シミュレータは、上記物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、上記物流搬送路で上記ワークの受け付けができない場合に与えられる受付拒否罰と、上記搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて上記報酬を算出するという構成を採用する。
【0010】
本発明の第2の態様は、上記第1の態様において、モデル化された上記物流搬送路が、単一あるいは複数の搬送ユニットを含む制御対象部を複数有し、上記学習エージェントが、上記制御対象部ごとに上記搬送速度を制御するという構成を採用する。
【0011】
本発明の第3の態様は、上記第2の態様において、上記搬送路シミュレータが、上記搬送ユニットごとの速度指令値に基づいて上記消費エネルギ増加罰を算出するという構成を採用する。
【0012】
本発明の第4の態様は、上記第3の態様において、上記搬送路シミュレータが、上記搬送ユニットごとの速度指令値を各々二乗した値の総和に基づいて上記消費エネルギ増加罰を算出するという構成を採用する。
【0013】
本発明の第5の態様は、上記第2の態様において、上記搬送路シミュレータが、上記搬送ユニットごとの加速度に基づいて上記消費エネルギ増加罰を算出するという構成を採用する。
【0014】
本発明の第6の態様は、上記第2~第5いずれかの態様において、上記物流搬送路におけるワークの搬送中にメンテンナンスによる停止期間が発生する可能性があるメンテナンス発生搬送ユニットが、上記物流搬送路を形成する複数の上記搬送ユニットに含まれ、単一の上記制御対象部に含まれる上記メンテナンス発生搬送ユニットは1つ以下であるという構成を採用する。
【0015】
本発明の第7の態様は、物流搬送路を形成する複数の搬送ユニットにおける搬送速度を制御する学習エージェントを強化学習させる物流搬送速度制御エージェント学習方法であって、搬送路シミュレータによって、モデル化された上記物流搬送路を用いて上記物流搬送路の状態及び当該状態に基づく報酬を算出し、上記学習エージェントが、上記報酬に基づいた評価が大きくなるように上記搬送速度に関する学習を行い、上記搬送路シミュレータにて、上記物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、上記物流搬送路で上記ワークの受け付けができない場合に与えられる受付拒否罰と、上記搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて上記報酬を算出するという構成を採用する。
【0016】
本発明の第8の態様は、コンピュータを、物流搬送路を形成する複数の搬送ユニットにおける搬送速度を制御する学習エージェントを強化学習させる物流搬送速度制御エージェント学習装置として機能させる物流搬送速度制御エージェント学習プログラムであって、上記コンピュータを、モデル化された上記物流搬送路を用いて上記物流搬送路の状態及び当該状態に基づく報酬を算出する搬送路シミュレータと機能させ、上記コンピュータを、上記報酬に基づいた評価が大きくなるように上記搬送速度に関する学習を行う上記学習エージェントとして機能させ、上記コンピュータを上記搬送路シミュレータとして機能させる場合に、上記物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、上記物流搬送路で上記ワークの受け付けができない場合に与えられる受付拒否罰と、上記搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて上記報酬を算出させるという構成を採用する。
【発明の効果】
【0017】
本発明によれば、搬送路シミュレータで算出された報酬が学習エージェントに入力され、報酬に基づいて学習エージェントが学習を行う。報酬は、物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、物流搬送路でワークの受け付けができない場合に与えられる受付拒否罰と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて算出される。つまり、学習エージェントに入力される報酬は、搬送速度に関するエネルギ消費量が大きくなることで減少する。このため、本発明において、学習エージェントは、搬送速度に関するエネルギ消費量を小さくするように学習する。また、学習エージェントに入力される報酬は、物流搬送路でワークの受け付けができない場合に減少する。したがって、本発明によれば、学習エージェントは、物流搬送路でワークの受け付けができない場合を回避しようと学習する。よって、本発明によれば、物流設備において搬送路に対して渋滞によりワークが受け付けられなくなることを抑制しつつ、エネルギ消費量を削減することが可能になる。
【図面の簡単な説明】
【0018】
【
図1】本発明の一実施形態における物流搬送速度制御エージェント学習装置のハードウェア構成の概略を示すブロック図である。
【
図2】本発明の一実施形態における物流搬送速度制御エージェント学習装置の機能構成の概略を示すブロック図である。
【
図3】モデル化された物流搬送路のイメージ図である。
【
図4】ワークのドロップについて説明する模式図である。
【
図5】本発明の一実施形態における物流搬送速度制御エージェント学習装置の動作を説明するためのフローチャートである。
【発明を実施するための形態】
【0019】
以下、図面を参照して、本発明に係る物流搬送速度制御エージェント学習装置、物流搬送速度制御エージェント学習方法、及び物流搬送速度制御エージェント学習プログラムの一実施形態について説明する。
【0020】
図1は、本実施形態の物流搬送速度制御エージェント学習装置1のハードウェア構成の概略を示すブロック図である。また、
図1は、本実施形態の物流搬送速度制御エージェント学習装置1の機能構成の概略を示すブロック図である。
【0021】
本実施形態の物流搬送速度制御エージェント学習装置1は、学習エージェント3(
図2参照)を強化学習させる装置である。学習エージェント3は、強化学習後に物流設備の制御装置にインストールされる。物流設備の制御装置にインストールされた学習エージェント3は、物流設備に設けられる物流搬送路の搬送速度を制御する。物流設備に設けられる物流搬送路は、コンベヤや移載装置等の多様な搬送ユニットによって形成される。学習エージェント3は、例えば各々の搬送ユニットにおける搬送速度の制御を行う。
【0022】
図1に示すように、物流搬送速度制御エージェント学習装置1は、記憶部10、操作部11、通信部12、演算部13及び表示部14を備えており、コンピュータによって形成されている。
【0023】
記憶部10は、ROM(Read Only Memory)及びRAM(Random Access Memory)等のメモリ、HDD(Hard Disk Drive)やSSD(Solid State Drive)等のストレージからなる。この記憶部10は、学習プログラムP(物流搬送速度制御エージェント学習プログラム)を記憶している。また、記憶部10は、各種のデータDが記憶される。このデータDには、演算部13で用いられる初期データや、演算部13の演算結果が含まれる。
【0024】
操作部11は、物流搬送速度制御エージェント学習装置1を運用する作業者の操作指示を受け付ける入力装置であり、より具体的にはキーボードやマウス等のポインティングデバイスである。この操作部11は、作業者の操作指示に対応した操作信号を演算部13に出力する。通信部12は、所定の通信回線を介して外部機器とデータの送受信を行う通信装置であり、例えばLAN(Local Area Network)やインターネットに準拠した通信プロトコルを用いて外部機器との通信を行う。
【0025】
演算部13は、上述した学習プログラムP、データD、及び操作信号等に基づいて、学習エージェント3を強化学習させるための演算を行う演算装置である。この演算部13は、インターフェース回路及びCPU(Central Processing Unit)等のハードウェアからなる。上記インターフェース回路は、記憶部10、操作部11、通信部12及び表示部14と各種信号の授受を行う電子回路である。CPUは、上述した学習プログラムPを実行する中央処理装置である。
【0026】
表示部14は、演算部13で生成された画像データに基づいて学習プログラムPに基づいて学習エージェント3の学習状態等を表示する表示装置である。なお、物流搬送速度制御エージェント学習装置1は、必ずしも表示部14を備える必要はない。つまり、物流搬送速度制御エージェント学習装置1から通信部12を介して出力されたデータに基づいて、外部機器が表示を行うようにしても良い。
【0027】
図1に示すようなハードウェア構成を有する物流搬送速度制御エージェント学習装置1は、
図2に示す複数の機能部を有している。これらの機能部は、
図1に示す各種ハードウェア、及び記憶部10に記憶された学習プログラムP等が協働することによって具現化される。
【0028】
図2に示すように、物流搬送速度制御エージェント学習装置1は、上記機能部として、搬送路シミュレータ2と、学習エージェント3と、性能評価部4と、ハイパーパラメータ設定部5とを有している。
【0029】
搬送路シミュレータ2は、学習エージェント3の強化学習において用いられる「状態」、「行動」及び「報酬」のうち、「状態」及び「報酬」を算出して出力する。搬送路シミュレータ2は、モデル化された物流搬送路を用いて、学習エージェント3から出力される「行動」に基づいて、「状態」及び「報酬」を算出する。なお、モデル化された物流搬送路とは、学習後に学習プログラムPがインストールされる物流設備に設置された物流搬送路を、シミュレーション用にモデル化したデータ群である。学習エージェント3は、物流搬送速度制御エージェント学習装置1によって強化学習されるエージェントであり、物流搬送路を形成する搬送ユニットにおけるワークの搬送速度を制御する。この学習エージェント3は、「状態」、「行動」及び「報酬」のうち、「行動」を算出して出力する。
【0030】
つまり、本実施形態の物流搬送速度制御エージェント学習装置1は、搬送路シミュレータ2で算出された「状態」及び「報酬」が学習エージェントに入力され、学習エージェントが搬送速度についての学習を行う。さらに、学習エージェント3が「行動」を選択(算出)して出力し、この「行動」に基づいて搬送路シミュレータ2が再び「状態」及び「報酬」を算出する。これらの動作を学習エージェント3の学習が進むまで繰り返すことで、物流搬送速度制御エージェント学習装置1は、学習エージェント3を強化学習させる。
【0031】
図2に示すように、搬送路シミュレータ2は、セル定義部2aと、搬送路制御部2bと、報酬計算部2cとを有している。セル定義部2aは、物流搬送路を複数部分(セル)に分割し、その単位要素であるセルの動作を定義する。
【0032】
図3は、モデル化された物流搬送路Hのイメージ図である。この図に示すように、本実施形態においては、物流搬送路Hは、複数のセルSに分割して定義されている。各々のセルSは、例えば物流搬送路Hを形成する搬送ユニット(コンベヤや移載ロボット等)ごとに設けられている。このような物流搬送路Hでは、隣接するセルSにてワークWが受け渡されることで、物流搬送路Hの一端側から他端側に向けてワークWが搬送される。
【0033】
セル定義部2aは、例えば各々のセルSにおける搬送速度の設定可能範囲や加速度等の動作条件を定義する。また、本実施形態においてセル定義部2aは、複数のセルS(すなわち搬送ユニット)を複数の制御対象部(第1制御対象部T1、第2制御対象部T2及び第3制御対象部T3)にグループ分けしている。
【0034】
物流搬送路Hを形成する複数の搬送ユニットの中には、物流設備が稼働している最中に、メンテナンス作業が必要となる搬送ユニットが存在する。このようなメンテナンス作業が必要となる搬送ユニットにてメンテナンス作業が発生すると、メンテナンス期間中、メンテナンス作業中の搬送ユニットをワークが通過できなくなる。メンテナンス作業が発生する可能性のある搬送ユニットに対応するセルSをメンテナンス発生セルSa(メンテナンス発生搬送ユニット)とする。本実施形態では、このようなメンテナンス発生セルSaは、制御対象部において1つ以下とされている。つまり、単一の制御対象部に含まれるメンテナンス発生セルSaは、1つ以下である。このように、単一の制御対象部に含まれるメンテナンス発生セルSaを1つ以下とすることで、単一の制御対象部の搬送速度が、複数のメンテナンス発生セルSaの影響を受けることを抑止することが可能となる。
【0035】
本実施形態においては、例えば
図3に示すように、14個のセルSが直列的に配列されて物流搬送路Hが形成されている。このような14個のセルSは、3つの制御対象部(第1制御対象部T1、第2制御対象部T2及び第3制御対象部T3)にグループ分けされている。第1制御対象部T1には、3つのセルSが含まれている。第2制御対象部T2には、8つのセルSが含まれている。第3制御対象部T3には、2つのセルSが含まれている。なお、最後のセルSは、ワークWを受け取るのみでワークWの搬送を行わないため、制御対象部に含められていない。
【0036】
また、本実施形態においては、第2制御対象部T2に含まれるセルSのうち、最も搬送方向における上流側に位置するセルSは、周期的にメンテナンスが行われるメンテナンス発生セルSaである。また、本実施形態においては、第3制御対象部T3に含まれるセルSのうち、最も搬送方向における上流側に位置するセルSは、周期的にメンテナンスが行われるメンテナンス発生セルSaである。
【0037】
このように制御対象部にメンテナンス発生セルSaが含まれる場合には、制御対象部の最も上流側にメンテナンス発生セルSaを配置することができる。制御対象部の最も上流側にメンテナンス発生セルSaを配置することで、メンテナンス発生セルSaでメンテナンスが発生した場合に、メンテナンス発生セルSaの上流端に最も近接して配置されたセルSまでワークWを搬送することが可能になる。
【0038】
図2に戻り、搬送路制御部2bは、各々のセルSを統括し、入力される「行動」に基づいて物流搬送路Hの全体の「状態」を算出する。具体的には、学習エージェント3からは、「行動」として、各々のセルSの速度指令値が搬送路制御部2bに入力される。搬送路制御部2bは、セル定義部2aで定義された条件の下、モデル化された物流搬送路Hを用いて、速度指令値に基づいて「状態」を算出する。搬送路制御部2bは、これらの速度指令値に応じて各々のセルSの搬送速度を設定する。
【0039】
報酬計算部2cは、搬送路制御部2bで算出された「状態」に基づいて、「報酬」を算出する。本実施形態において報酬計算部2cは、例えば、下式(1)に基づいて「報酬」を算出する。
【0040】
【0041】
式(1)において、rtは、時刻tにおける報酬を示している。また、xt,catchは、時刻tにて物流搬送路Hの最下流(上流側から14番目のセルS)までワークWを運んだかそうでないかに対応して1か0を取る変数である。なお、物流搬送路Hの最下流までワークWを運んだ場合には、xt,catchは1を取る。一方、物流搬送路Hの最下流までワークWを運んでいない場合には、xt,catchは0を取る。
【0042】
また、式(1)において、xt,dropは、時刻tにてワークWのドロップが発生したかそうでないかに対応して1か0を取る変数である。なお、ワークWのドロップが発生した場合には、xt,dropは1を取る。一方、ワークWのドロップが発生していない場合には、xt,dropは0を取る。
【0043】
ドロップとは、上流から物流搬送路Hに供給されようとするワークWを物流搬送路Hにて受け付けることができなくなった事象が発生したことを意味する。
図4は、ワークWのドロップについて説明する模式図である。
【0044】
例えば、
図4(a)に示すように、メンテナンス発生セルSaにてメンテナンスが発生すると、ワークWはメンテナンス発生セルSaを通過することができなくなる。ただし、
図4(a)に示すように、メンテナンス発生セルSaの上流側にワークWを留め置きすることが可能なセルSが存在する場合には、物流搬送路HにてワークWを受け取ることができるため、ドロップは発生しない。
【0045】
一方で、
図4(b)に示すように、メンテナンス発生セルSaの上流側にワークWを留め置きすることが可能なセルSが存在しない場合には、物流搬送路HにてワークWを受け取ることができない。このため、メンテナンス発生セルSaの上流側にワークWを留め置きすることが可能なセルSが存在しない場合において、上流から物流搬送路Hに供給されようとするワークWを物流搬送路Hにて受け付けることができなくなり、ワークWのドロップが発生する。
【0046】
また、式(1)において、v(t,i)は時刻tにおけるi番目のセルSへの速度指令値である。NはセルSの総数である。またA、B、Cはハイパーパラメータである。
【0047】
式(1)において右辺第1項は、物流搬送路HでワークWの搬送が完了したことで得られる搬送完了報酬を示している。また、式(1)において右辺第2項は、物流搬送路HでワークWの受け付けができない場合に与えられる受付拒否罰を示している。また、式(1)において右辺第3項は、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰を示している。
【0048】
つまり、本実施形態において報酬計算部2cは、物流搬送路HでワークWの搬送が完了したことで得られる搬送完了報酬と、物流搬送路HでワークWの受け付けができない場合に与えられる受付拒否罰と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて「報酬」を算出する。
【0049】
このような本実施形態の物流搬送速度制御エージェント学習装置1では、式(1)の右辺第1項によって、物流搬送路HでワークWの搬送が完了するように学習エージェント3を学習させることができる。また、本実施形態の物流搬送速度制御エージェント学習装置1では、式(1)の右辺第2項によって、ワークWのドロップを発生させないように学習エージェント3を学習させることができる。また、本実施形態の物流搬送速度制御エージェント学習装置1では、式(1)の右辺第3項によって、搬送速度に関するエネルギ消費量が大きくなることを抑制するように学習エージェント3を学習させることができる。
【0050】
したがって、本実施形態の物流搬送速度制御エージェント学習装置1では、物流搬送路HでワークWの搬送が完了すること、ワークWのドロップを発生させないことを優先として、搬送速度に関するエネルギ消費量が大きくなることを抑制するように学習エージェント3を学習させることができる。
【0051】
また、式(1)の右辺第3項に示されているように、本実施形態において報酬計算部2cは、セルS(搬送ユニット)ごとの速度指令値を各々二乗した値の総和に基づいて消費エネルギ増加罰を算出している。つまり、報酬計算部2cは、セルS(搬送ユニット)ごとの速度指令値に基づいて消費エネルギ増加罰を算出している。速度指令値が大きくなるほど、セルS(搬送ユニット)の消費エネルギが増加する。したがって、セルS(搬送ユニット)ごとの速度指令値に基づいて消費エネルギ増加罰を算出することによって、搬送ユニットの速度に応じて罰則を変化させることができる。
【0052】
なお、本実施形態では、セルS(搬送ユニット)ごとの速度指令値を各々二乗した値の総和に基づいて消費エネルギ増加罰を算出している。このような構成を採用することによって、搬送ユニットの搬送速度が大きい状態でさらに搬送速度を高めようとした場合の罰則が、搬送ユニットの搬送速度がゼロあるいは小さい状態で搬送速度を高めようとした場合の罰則よりも大きくなる。このため、例えば、搬送ユニットにおいて、ワークWが停止した状態やワークWの搬送速度が小さい状態から一定の速度まで搬送速度を素早く速めることが可能となる一方で、ワークWの搬送速度が既に速い状態からさらに速めようとする動作を防ぐように学習エージェント3を学習させることができる。
【0053】
本実施形態において学習エージェント3は、PPO(Proximal Policy Optimization)アルゴリズムに基づいて強化学習を行う。なお、学習エージェント3における強化学習の方法は、PPOアルゴリズムに限られるものではない。例えば、学習エージェント3は、Q-learning法、Soft Actor-Critic法、Temporal Difference learning法等に基づいて強化学習を行うようにしても良い。
【0054】
本実施形態において、学習エージェント3は、価値推定ネットワーク3aと、方策ネットワーク3bと、ネットワーク更新部3cとを備えている。価値推定ネットワーク3aは、搬送路シミュレータ2で算出された「状態」を用いて状態価値を推定する。方策ネットワーク3bは、価値推定ネットワーク3aで推定された状態価値と、搬送路シミュレータ2で算出された「状態」を用いて、次に取る「行動」(各々のセルSに対する速度指令値)を決定する。
【0055】
ネットワーク更新部3cは、ネットワーク更新部3cは、搬送路シミュレータ2で算出された「報酬」に基づいて、価値推定ネットワーク3aと、方策ネットワーク3bとを更新する。例えば、ネットワーク更新部3cは、PPOアルゴリズムの更新式に従って、得られる「報酬」が最大化されるように価値推定ネットワーク3aのパラメータと、方策ネットワーク3bのパラメータとを更新する。例えば、ネットワーク更新部3cは、搬送路シミュレータで算出された「報酬」の系列から累積報酬の系列を得て、状態価値の系列を用いてアドバンテージの系列を得ることで、価値推定ネットワーク3a及び方策ネットワーク3bの更新を行う。
【0056】
性能評価部4は、学習エージェント3が予め定められた性能を満たしているか否かの判定を行う。例えば、性能評価部4は、物流搬送路HでワークWの搬送が完了すること、ワークWのドロップを発生させないことを前提として、搬送速度に関するエネルギ消費量が予め定められた閾値を下回った場合に、学習エージェント3が予め定められた性能を満たしていると判定する。
【0057】
性能評価部4にて、学習エージェント3が予め定められた性能を満たしていると判定された場合には、学習エージェント3が学習済みとなり、学習エージェント3の強化学習が終了される。一方、性能評価部4にて、学習エージェント3が予め定められた性能を満たしていないと判定された場合には、学習エージェント3が学習済みとはならずに、学習エージェント3の強化学習が引き続き行われる。
【0058】
ハイパーパラメータ設定部5は、報酬計算部2cで用いる報酬計算式(例えば上述の式(1))におけるハイパーパラメータを設定する。例えば、学習エージェント3の学習率と、報酬計算式で用いる係数とがハイパーパラメータとして、ハイパーパラメータ設定部5によって設定される。
【0059】
なお、学習エージェント3の学習率とは、ネットワーク更新部3cにおける更新度合いの程度を決めるパラメータである。また、報酬計算式として上述の式(1)を用いる場合には、式(1)におけるA、B及びCの係数がハイパーパラメータである。
【0060】
また、ハイパーパラメータ設定部5は、性能評価部4によって学習エージェント3が予め定められた性能を満たしていないと判定された場合に、報酬計算式におけるハイパーパラメータを更新する。つまり、ハイパーパラメータ設定部5は、報酬計算式として上述の式(1)を用いる場合には、性能評価部4によって学習エージェント3が予め定められた性能を満たしていないと判定された場合に、式(1)における係数A、係数B及び係数Cを更新する。
【0061】
ハイパーパラメータ設定部5は、予め記憶されたアルゴリズムに基づいてハイパーパラメータを決定する。このアルゴリズムとしては、例えばベイズ最適化法のアルゴリズムを用いることができる。
【0062】
次に、このような構成の本実施形態の物流搬送速度制御エージェント学習装置1の動作(物流搬送速度制御エージェント学習方法)について、
図5のフローチャートを参照して説明する。
【0063】
なお、以下の説明においては、物流搬送路Hのモデル化と、セル定義部2aによるセルSの定義は既に完了しているものとする。
図5に示すように、まず、ハイパーパラメータが決定される(ステップS1)。ここでは、ハイパーパラメータ設定部5によって、学習エージェント3の強化学習に用いるハイパーパラメータ(学習エージェント3の学習率や、報酬計算式で用いる係数)が決定される。
【0064】
続いて、搬送路シミュレータ2及び学習エージェント3の初期化が行われる(ステップS2)。ここでは、先の処理によって搬送路シミュレータ2や学習エージェント3が初期設定に対して変化している場合に、搬送路シミュレータ2や学習エージェント3を初期設定の状態に戻す。
【0065】
つまり、ステップS1にてハイパーパラメータが決定されると、ステップS2にて搬送路シミュレータ2及び学習エージェント3の初期化が行われる。したがって、本実施形態においては、ハイパーパラメータが更新した場合(後述するステップS8からステップS1に戻った場合)には、搬送路シミュレータ2や学習エージェント3が初期設定に戻される。
【0066】
搬送路シミュレータ2及び学習エージェント3の初期化が完了すると、タイムステップtが0に設定され(ステップS3)、データ収集ステップ(ステップS4)が行われる。データ収集ステップでは、学習エージェント3から入力される「行動」に基づいて物流搬送路Hの全体の「状態」を搬送路制御部2bが算出する。なお、例えば、初期状態において学習エージェント3から入力される「行動」がない場合には、搬送路制御部2bは初期値として記憶された「状態」を出力する。
【0067】
また、データ収集ステップでは、搬送路シミュレータ2から入力された「状態」に基づいて、学習エージェント3が次のタイムステップで取る「行動」(各々のセルSの速度指令値)を算出する。ここで、学習エージェント3は、入力された「状態」に対して、価値推定ネットワーク3aを用いて状態価値を推定する。さらに、学習エージェント3は、状態価値と「状態」とに基づいて、単位時間後に取る「行動」を選択する。
【0068】
データ収集ステップでは、学習エージェント3から搬送路シミュレータ2に「行動」が入力されると、搬送路シミュレータ2は、セル定義部2aにて定義された動作に従って単位時間後の「状態」を算出し、現在と単位時間後における「状態」の遷移に基づいて、現在のタイムステップにおける「報酬」を算出する。
【0069】
ここで、本実施形態においては、搬送路シミュレータ2は、物流搬送路HでワークWの搬送が完了したことで得られる搬送完了報酬と、物流搬送路HでワークWの受け付けができない場合に与えられる受付拒否罰と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて、報酬計算部2cにて「報酬」を算出する。
【0070】
データ収集ステップでは、搬送路シミュレータ2における「状態」及び「報酬」の算出と、学習エージェント3における「行動」の算出とが予め定められた回数行われる。データ収集ステップでは、上述の過程で得られた「報酬」が学習エージェント3においてデータとして収集される。
【0071】
続いて、パラメータ更新ステップ(ステップS5)が行われる。パラメータ更新ステップでは、データ収集ステップで収取された「報酬」に基づいて、学習エージェント3の価値推定ネットワーク3aのパラメータと、方策ネットワーク3bとのパラメータの更新が、ネットワーク更新部3cによって行われる。ネットワーク更新部3cは、PPOアルゴリズムの更新式に従って、得られる「報酬」が最大化されるように価値推定ネットワーク3aのパラメータと、方策ネットワーク3bのパラメータとを更新する。ここでは、例えば、ネットワーク更新部3cは、収集された「報酬」の系列から累積報酬の系列を得て、状態価値の系列を用いてアドバンテージの系列を得ることで、価値推定ネットワーク3a及び方策ネットワーク3bの更新を行う。
【0072】
パラメータ更新ステップが完了すると、タイムステップの更新が行われる(ステップS6)。ここでは、現在のタイムステップtが1つ増加される。続いて、ステップS6において更新されたタイムステップが、予め定められた最大タイムステップ数T以上であるか否かの判定が行われる(ステップS7)。
【0073】
更新されたタイムステップが最大タイムステップ数T以上でない場合には、ステップS4に戻る。一方で、更新されたタイムステップが最大タイムステップ数T以上である場合には、学習エージェント3が十分な性能であるか否かの判定が行われる(ステップS8)。ここでは、性能評価部4が学習エージェント3の性能を評価かつ判断する。
【0074】
ステップS8において、学習エージェント3の性能が十分であると判定された場合には、学習エージェント3が学習済みであるとされ、学習エージェント3の強化学習が終了となる。一方で、ステップS8において、学習エージェント3の性能が十分でないと判定された場合には、再びステップS1に戻ってハイパーパラメータを決定する。このとき、例えば、ベイズ最適化法等のアルゴリズムによってハイパーパラメータが更新される。
【0075】
なお、ステップS1におけるハイパーパラメータの決定は、例えば作業者や外部機器が行うようにしても良い。このような場合には、物流搬送速度制御エージェント学習装置1にハイパーパラメータ設定部5を設けないようにすることも可能である。
【0076】
ステップS8において、学習済みであると判定された学習エージェント3は、物流設備にインストールされ、物流設備に設置された物流搬送路の速度制御を行う。学習済みの学習エージェント3によれば、物流搬送路でワークの搬送が完了すること、ワークのドロップを発生させないことを優先として、搬送速度に関するエネルギ消費量が大きくなることを抑制するように速度制御を行う。このため、学習エージェント3を用いることで、物流設備においてワークの搬送を確実に実施可能であると共に、エネルギの消費量を削減することが可能となる。
【0077】
このような学習済みの学習エージェント3は、例えば、搬送ユニットにてメンテナンスが実施されない期間あるいはメンテナンスまでの時間的余裕があるような場合には、規定の搬送時間を超えない範囲で、ドロップが発生せずにかつエネルギ消費量が小さくなるように搬送ユニットの速度を制御する。
【0078】
また、学習済みの学習エージェント3は、例えば、ある搬送ユニットのメンテナンスが迫っている場合には、この搬送ユニットがメンテナンスに入る前までに上流側における搬送速度を増加させて、メンテナンス対象の搬送ユニットの上流側に位置するワークの数を減少させる。また、学習済みの学習エージェント3は、例えば、ある搬送ユニットがメンテナンスを行っている場合には、この搬送ユニットの上流側におけるワークの搬送速度を遅くすることで、ドロップが発生しない範囲でエネルギ消費量が小さくなるように搬送ユニットの速度を制御する。
【0079】
以上のような本実施形態の物流搬送速度制御エージェント学習装置1は、物流搬送路を形成する複数の搬送ユニットにおける搬送速度を制御する学習エージェント3を強化学習させる。本実施形態の物流搬送速度制御エージェント学習装置1は、モデル化された物流搬送路Hを用いて物流搬送路Hの状態及び当該状態に基づく報酬を算出する搬送路シミュレータ2を備えている。また、本実施形態の物流搬送速度制御エージェント学習装置1は、報酬に基づいた評価が大きくなるように搬送速度に関する学習を行う学習エージェント3を備えている。搬送路シミュレータ2は、物流搬送路HでワークWの搬送が完了したことで得られる搬送完了報酬と、物流搬送路HでワークWの受け付けができない場合に与えられる受付拒否罰と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて報酬を算出する。
【0080】
本実施形態の物流搬送速度制御エージェント学習装置1によれば、搬送路シミュレータ2で算出された報酬が学習エージェント3に入力され、報酬に基づいて学習エージェント3が学習を行う。報酬は、物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、物流搬送路でワークの受け付けができない場合に与えられる受付拒否罰と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて算出される。つまり、学習エージェント3に入力される報酬は、搬送速度に関するエネルギ消費量が大きくなることで減少する。
【0081】
したがって、本実施形態の物流搬送速度制御エージェント学習装置1によれば、学習エージェント3は、搬送速度に関するエネルギ消費量を小さくするように学習する。また、学習エージェント3に入力される報酬は、物流搬送路でワークの受け付けができない場合に減少する。このため、本実施形態の物流搬送速度制御エージェント学習装置1において、学習エージェント3は、物流搬送路でワークの受け付けができない場合を回避しようと学習する。よって、本実施形態の物流搬送速度制御エージェント学習装置1によれば、物流設備において搬送路に対して渋滞によりワークが受け付けられなくなることを抑制しつつ、エネルギ消費量を削減することが可能になる。
【0082】
また、本実施形態の物流搬送速度制御エージェント学習装置1において、モデル化された物流搬送路Hが、単一あるいは複数の搬送ユニットを含む制御対象部を複数(第1制御対象部T1、第2制御対象部T2及び第3制御対象部T3)有している。また、学習エージェント3が、制御対象部ごとに搬送速度を制御する。このため、全ての搬送ユニットを個別に制御するよりも、制御を容易化することが可能となる。
【0083】
また、本実施形態の物流搬送速度制御エージェント学習装置1において、搬送路シミュレータ2が、搬送ユニットごとの速度指令値に基づいて消費エネルギ増加罰を算出する。このため、速度指令値が大きくなるほど、搬送ユニットの消費エネルギが増加する。したがって、搬送ユニットごとの速度指令値に基づいて消費エネルギ増加罰を算出することによって、搬送ユニットの速度に応じて罰則を変化させることができる。
【0084】
また、本実施形態の物流搬送速度制御エージェント学習装置1において、搬送路シミュレータ2が、搬送ユニットごとの速度指令値を各々二乗した値の総和に基づいて消費エネルギ増加罰を算出する。このため、搬送ユニットの搬送速度が大きい状態でさらに搬送速度を高めようとした場合の罰則が、搬送ユニットの搬送速度がゼロあるいは小さい状態で搬送速度を高めようとした場合の罰則よりも大きくなる。したがって、例えば、搬送ユニットにおいて、ワークWが停止した状態やワークWの搬送速度が小さい状態から一定の速度まで搬送速度を素早く速めることが可能となる一方で、ワークWの搬送速度が既に速い状態からさらに速めようとする動作を防ぐように学習エージェント3を学習させることができる。
【0085】
また、本実施形態の物流搬送速度制御エージェント学習装置1においては、物流搬送路HにおけるワークWの搬送中にメンテンナンスによる停止期間が発生する可能性があるメンテナンス発生搬送ユニット(メンテナンス発生セルSa)が、物流搬送路を形成する複数の搬送ユニットに含まれ、単一の制御対象部に含まれるメンテナンス発生搬送ユニット(メンテナンス発生セルSa)は1つ以下である。このように、単一の制御対象部に含まれるメンテナンス発生セルSaを1つ以下とすることで、単一の制御対象部の搬送速度が、複数のメンテナンス発生セルSaの影響を受けることを抑止することが可能となる。
【0086】
また、以上のような本実施形態の物流搬送速度制御エージェント学習方法は、物流搬送路を形成する複数の搬送ユニットにおける搬送速度を制御する学習エージェント3を強化学習させる。本実施形態の物流搬送速度制御エージェント学習方法は、搬送路シミュレータ2によって、モデル化された物流搬送路Hを用いて物流搬送路Hの状態及び当該状態に基づく報酬を算出する。また、本実施形態の物流搬送速度制御エージェント学習方法においては、学習エージェント3が、報酬に基づいた評価が大きくなるように搬送速度に関する学習を行い、搬送路シミュレータ2にて、報酬を算出する。さらに、搬送路シミュレータ2によって、物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、物流搬送路でワークの受け付けができない場合に与えられる受付拒否罰と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて報酬を算出する。
【0087】
このような本実施形態の物流搬送速度制御エージェント学習方法によれば、搬送路シミュレータ2で算出された報酬が学習エージェント3に入力され、報酬に基づいて学習エージェント3が学習を行う。報酬は、物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、物流搬送路でワークの受け付けができない場合に与えられる受付拒否罰と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて算出される。つまり、学習エージェント3に入力される報酬は、搬送速度に関するエネルギ消費量が大きくなることで減少する。
【0088】
したがって、本実施形態の物流搬送速度制御エージェント学習方法によれば、学習エージェント3は、搬送速度に関するエネルギ消費量を小さくするように学習する。また、学習エージェント3に入力される報酬は、物流搬送路でワークの受け付けができない場合に減少する。このため、本実施形態の物流搬送速度制御エージェント学習方法において、学習エージェント3は、物流搬送路でワークの受け付けができない場合を回避しようと学習する。よって、本実施形態の物流搬送速度制御エージェント学習方法によれば、物流設備において搬送路に対して渋滞によりワークが受け付けられなくなることを抑制しつつ、エネルギ消費量を削減することが可能になる。
【0089】
また、本実施形態においては、上述のように、コンピュータが学習プログラムPによって、物流搬送速度制御エージェント学習装置1として機能される。この学習プログラムPは、コンピュータを、搬送路シミュレータ2及び学習エージェント3として機能させる。つまり、学習プログラムPは、コンピュータを、物流搬送路を形成する複数の搬送ユニットにおける搬送速度を制御する学習エージェント3を強化学習させる物流搬送速度制御エージェント学習装置1として機能させる。また、学習プログラムPは、コンピュータを、モデル化された物流搬送路Hを用いて物流搬送路Hの状態及び当該状態に基づく報酬を算出する搬送路シミュレータ2と機能させる。また、学習プログラムPは、コンピュータを、報酬に基づいた評価が大きくなるように搬送速度に関する学習を行う学習エージェント3として機能させる。さらに、学習プログラムPは、コンピュータを搬送路シミュレータ2として機能させる場合に、物流搬送路HでワークWの搬送が完了したことで得られる搬送完了報酬と、物流搬送路HでワークWの受け付けができない場合に与えられる受付拒否罰と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて報酬を算出させる。
【0090】
このような本実施形態の学習プログラムPによれば、搬送路シミュレータ2で算出された報酬が学習エージェント3に入力され、報酬に基づいて学習エージェント3が学習を行う。報酬は、物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、物流搬送路でワークの受け付けができない場合に与えられる受付拒否罰と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰とに基づいて算出される。つまり、学習エージェント3に入力される報酬は、搬送速度に関するエネルギ消費量が大きくなることで減少する。
【0091】
したがって、本実施形態の学習プログラムPによれば、学習エージェント3は、搬送速度に関するエネルギ消費量を小さくするように学習する。また、学習エージェント3に入力される報酬は、物流搬送路でワークの受け付けができない場合に減少する。このため、本実施形態の学習プログラムPにおいて、学習エージェント3は、物流搬送路でワークの受け付けができない場合を回避しようと学習する。よって、本実施形態の学習プログラムPによれば、物流設備において搬送路に対して渋滞によりワークが受け付けられなくなることを抑制しつつ、エネルギ消費量を削減することが可能になる。
【0092】
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は、上記実施形態に限定されないことは言うまでもない。上述した実施形態において示した各構成部材の諸形状や組み合わせ等は一例であって、本発明の趣旨から逸脱しない範囲において設計要求等に基づき種々変更可能である。
【0093】
例えば、上記実施形態においては、報酬計算式にて、搬送ユニットごとの速度指令値に基づいて消費エネルギ増加罰を算出するという構成を採用した。しかしながら、本発明はこれに限定されるものではない。例えば、物流搬送路の消費エネルギ量は、搬送ユニットの加速度に応じても変化する。つまり、搬送ユニットの加速度が大きい場合には、目標速度に到達するまでの期間が短くなるが、消費エネルギが大きくなる。一方、搬送ユニットの加速度が小さい場合には、目標速度に到達するまでの期間が長くなるが、消費エネルギが小さくなる。このため、搬送路シミュレータ2が、搬送ユニットごとの加速度に基づいて消費エネルギ増加罰を算出するという構成を採用することも可能である。
【0094】
また、上記実施形態においては、搬送ユニットごとの速度指令値を各々二乗した値の総和に基づいて消費エネルギ増加罰を算出した。しかしながら、本発明はこれに限定されるものではない。例えば、搬送ユニットごとの速度指令値の3以上の数の累乗により求められる値の総和に基づいて消費エネルギ増加罰を算出するようにしても良い。また、消費エネルギ増加罰を搬送ユニットごとに算出するようにしても良い。また、複数の搬送ユニットのうち、最も速度指令値が大きいものを用いて消費エネルギ増加罰を算出するようにしても良い。
【0095】
また、上記実施形態においては、報酬計算式における物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と、物流搬送路でワークの受け付けができない場合に与えられる受付拒否罰とが、0か1で与えられる構成について説明した。しかしながら、本発明はこれに限定されるものではない。例えば、物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬と物流搬送路でワークの受け付けができない場合に与えられる受付拒否罰との両方あるいはいずれか一方が、0から1までの中間値をとる構成を採用することも可能である。
【0096】
また、上記実施形態においては、報酬計算式が、物流搬送路でワークの搬送が完了したことで得られる搬送完了報酬を示す第1項と、物流搬送路でワークの受け付けができない場合に与えられる受付拒否罰を示す第2項と、搬送速度に関するエネルギ消費量が大きくなることで増加する消費エネルギ増加罰を示す第3項との3つの項を有していた。しかしながら、本発明はこれに限定されるものではなく、第4項以上の項を有する報酬計算式を用いることも可能である。
【符号の説明】
【0097】
1……物流搬送速度制御エージェント学習装置、2……搬送路シミュレータ、2a……セル定義部、2b……搬送路制御部、2c……報酬計算部、3……学習エージェント、3a……価値推定ネットワーク、3b……方策ネットワーク、3c……ネットワーク更新部、4……性能評価部、5……ハイパーパラメータ設定部、H……物流搬送路、P……学習プログラム(物流搬送速度制御エージェント学習プログラム)、S……セル(搬送ユニット)、Sa……メンテナンス発生セル(メンテナンス発生搬送ユニット)、T1……第1制御対象部(制御対象部)、T2……第2制御対象部(制御対象部)、T3……第3制御対象部(制御対象部)、W……ワーク