IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社豊田自動織機の特許一覧 ▶ 独立行政法人産業技術総合研究所の特許一覧

特開2024-104832仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置
<>
  • 特開-仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置 図1
  • 特開-仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置 図2
  • 特開-仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置 図3
  • 特開-仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置 図4
  • 特開-仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置 図5
  • 特開-仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置 図6
  • 特開-仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置 図7
  • 特開-仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024104832
(43)【公開日】2024-08-06
(54)【発明の名称】仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置
(51)【国際特許分類】
   B65G 1/00 20060101AFI20240730BHJP
   B65G 47/46 20060101ALI20240730BHJP
【FI】
B65G1/00 501C
B65G47/46 Z
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2023009216
(22)【出願日】2023-01-25
(71)【出願人】
【識別番号】000003218
【氏名又は名称】株式会社豊田自動織機
(71)【出願人】
【識別番号】301021533
【氏名又は名称】国立研究開発法人産業技術総合研究所
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【弁理士】
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100124062
【弁理士】
【氏名又は名称】三上 敬史
(74)【代理人】
【識別番号】100148013
【弁理士】
【氏名又は名称】中山 浩光
(74)【代理人】
【識別番号】100162640
【弁理士】
【氏名又は名称】柳 康樹
(72)【発明者】
【氏名】岡本 和也
(72)【発明者】
【氏名】小出 幸和
(72)【発明者】
【氏名】野田 五十樹
【テーマコード(参考)】
3F015
3F022
【Fターム(参考)】
3F015AA06
3F015FA01
3F015FA02
3F015GA01
3F015GA02
3F022AA15
3F022FF01
3F022JJ01
3F022JJ19
3F022MM11
3F022NN31
3F022NN38
(57)【要約】
【課題】搬送効率を向上することができる仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置を提供する。
【解決手段】制御部41は、候補経路が複数存在する場合に、一つの候補経路を選択する経路選択部43を備える。従って、経路選択部43は、特に好ましい候補経路を選択することができる。経路選択部43は、それぞれの候補経路に対し、行動を選択する確率、及び行動に伴う報酬に基づく方策評価を行うことによりQ値を演算する。これにより、経路選択部43は、各候補経路における行動を評価することができる。また、経路選択部43は、方策評価によるQ値の結果に対し、出力結果が収束するまで方策改善を繰り返すことで、候補経路を選択する。この場合、経路選択部43は、各候補経路における条件しながら方策評価を行い、好ましい候補経路を選択できるようになるまで、処理を繰り返すことができる。
【選択図】図3
【特許請求の範囲】
【請求項1】
垂直搬送機を少なくとも含み、物品を仕分ける仕分け装置において、前記物品の経路を学習する制御部を備える仕分け装置の学習装置であって、
前記制御部は、
前記物品の前記経路の候補となる候補経路を探索する経路探索部と、
前記候補経路が複数存在する場合に、一つの候補経路を選択する経路選択部と、を備え、
前記経路選択部は、
それぞれの前記候補経路に対し、行動を選択する確率、及び行動に伴う報酬に基づく方策評価を行うことによりQ値を演算し、
前記方策評価によるQ値の結果に対し、出力結果が収束するまで方策改善を繰り返すことで、前記候補経路を選択する、仕分け装置の学習装置。
【請求項2】
前記経路選択部は、
行動のうち前記仕分け装置が有する搬入手段に前記物品が存在しない隙間部分が存在する場合を仮定し、
前記隙間部分に前記物品が存在しない場合、及び存在する場合におけるQ値の結果をそれぞれ演算し、
それぞれのQ値の結果の平均値を演算し、当該演算結果を前記隙間部分が存在する行動における演算に用いる、請求項1に記載の仕分け装置の学習装置。
【請求項3】
垂直搬送機を少なくとも含み、物品を仕分ける仕分け装置において、前記物品の経路を学習する仕分け装置の学習方法であって、
前記物品の前記経路の候補となる候補経路を探索する経路探索工程と、
前記候補経路が複数存在する場合に、一つの候補経路を選択する経路選択工程と、を備え、
前記経路選択工程では、
それぞれの前記候補経路に対し、行動を選択する確率、及び行動に伴う報酬に基づく方策評価を行うことによりQ値を演算し、
前記方策評価によるQ値の結果に対し、出力結果が収束するまで方策改善を繰り返すことで、前記候補経路を選択する、仕分け装置の学習方法。
【請求項4】
垂直搬送機を少なくとも含み、物品を仕分ける仕分け装置であって、
前記物品の経路に基づいて前記物品を仕分ける仕分け制御を行う仕分け制御部を備え、
前記仕分け制御部は、請求項1又は2の仕分け装置の学習装置によって選択された前記候補経路が記憶された記憶部から、前記物品の経路を読み出すことによって、前記仕分け制御を行う、仕分け装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置に関する。
【背景技術】
【0002】
従来、物品を仕分ける仕分け装置として、例えば特許文献1に記載されたものが知られている。このシステムは、物品を搬入して、所定の階数の棚に仕分ける。仕分けられた物品は、各階にて、保管されて、出庫のタイミングになったら、搬送されて出庫される。この仕分け装置は、予め最適な経路を最適化テーブルに格納しておき、仕分け装置の運用時に最適化テーブルに問い合わせて、最適な経路を取得している。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2022-148146号
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、上述のような仕分け装置よりも、より好適な経路を予め選択しておくことにより、搬送効率を向上することが求められていた。
【0005】
従って、本発明は、搬送効率を向上することができる仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る仕分け装置の学習装置は、垂直搬送機を少なくとも含み、物品を仕分ける仕分け装置において、物品の経路を学習する制御部を備える仕分け装置の学習装置であって、制御部は、物品の経路の候補となる候補経路を探索する経路探索部と、候補経路が複数存在する場合に、一つの候補経路を選択する経路選択部と、を備え、経路選択部は、それぞれの候補経路に対し、行動を選択する確率、及び行動に伴う報酬に基づく方策評価を行うことによりQ値を演算し、方策評価によるQ値の結果に対し、出力結果が収束するまで方策改善を繰り返すことで、候補経路を選択する。
【0007】
制御部は、物品の経路の候補となる候補経路を探索する経路探索部を備える。従って、学習装置は、仕分け装置が実際に仕分けを行うよりも事前の段階にて、物品の搬送経路として効率のよい候補経路を演算しておくことができる。ここで、制御部は、候補経路が複数存在する場合に、一つの候補経路を選択する経路選択部を備える。従って、効率の良い候補経路が複数探索された場合、経路選択部は、特に好ましい候補経路を選択することができる。経路選択部は、それぞれの候補経路に対し、行動を選択する確率、及び行動に伴う報酬に基づく方策評価を行うことによりQ値を演算する。これにより、経路選択部は、各候補経路における行動を評価することができる。また、経路選択部は、方策評価によるQ値の結果に対し、出力結果が収束するまで方策改善を繰り返すことで、候補経路を選択する。この場合、経路選択部は、各候補経路における方策評価を行い、好ましい候補経路を選択できるようになるまで、処理を繰り返すことができる。以上より、搬送効率を向上することができる。
【0008】
経路選択部は、行動のうち仕分け装置が有する搬入手段に物品が存在しない隙間部分が存在する場合を仮定し、隙間部分に物品が存在しない場合、及び存在する場合におけるQ値の結果をそれぞれ演算し、それぞれのQ値の結果の平均値を演算し、当該演算結果を隙間部分が存在する行動における演算に用いる。経路探索の演算上は、搬入手段に隙間部分が存在するが、実際の仕分け装置では、当該隙間部分に物品が存在する状態で仕分けを行う必要が生じる場合もある。従って、経路選択部は、隙間部分に物品が存在する場合と存在しない場合の両方を考慮することで、実際の仕分け作業に即した候補経路を選択することができる。
【0009】
本発明の一態様に係る仕分け装置の学習方法は、垂直搬送機を少なくとも含み、物品を仕分ける仕分け装置において、物品の経路を学習する仕分け装置の学習方法であって、物品の経路の候補となる候補経路を探索する経路探索工程と、候補経路が複数存在する場合に、一つの候補経路を選択する経路選択工程と、を備え、経路選択工程では、それぞれの候補経路に対し、行動を選択する確率、及び行動に伴う報酬に基づく方策評価を行うことによりQ値を演算し、方策評価によるQ値の結果に対し、出力結果が収束するまで方策改善を繰り返すことで、候補経路を選択する。
【0010】
この仕分け装置の学習方法によれば、上述の仕分け装置の学習装置と同趣旨の作用・効果を得ることができる。
【0011】
本発明の一態様に係る仕分け装置は、垂直搬送機を少なくとも含み、物品を仕分ける仕分け装置であって、物品の経路に基づいて物品を仕分ける仕分け制御を行う仕分け制御部を備え、仕分け制御部は、上述の学習装置によって選択された候補経路が記憶された記憶部から、物品の経路を読み出すことによって、仕分け制御を行う。
【0012】
この仕分け装置によれば、上述の仕分け装置の学習装置と同趣旨の作用・効果を得ることができる。
【発明の効果】
【0013】
本発明によれば、搬送効率を向上することができる仕分け装置の学習装置、仕分け装置の学習方法、及び仕分け装置を提供することができる。
【図面の簡単な説明】
【0014】
図1】本発明の実施形態に係る仕分け装置が適用される倉庫システムを示す概略側面図である。
図2】本発明の実施形態に係る仕分け装置の構成を示す概略構成図である。
図3】本実施形態に係る仕分け装置のブロック構成図である。
図4】学習装置及び仕分け装置の処理内容を示す概念図である
図5】最適化テーブルの一例である。
図6】学習装置の処理内容を示すフローチャートである。
図7】学習装置の処理内容について説明する概念図である。
図8】学習装置の処理内容について説明する概念図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態について、図面を参照して詳細に説明する。
【0016】
図1は、本発明の実施形態に係る仕分け装置1が適用される倉庫システム100を示す概略側面図である。図1に示すように、倉庫システム100は、複数の物品150を入庫して保管し、保管された各物品150のうち、出庫すべきものを出庫可能なシステムである。倉庫システム100は、倉庫本体部101と、入庫渡り通路103と、出庫渡り通路102と、入庫エレベータ105と、出庫エレベータ104と、を備える。倉庫本体部101は、複数段の棚110を有している。棚110は、倉庫本体部101の一方側の端部から他方側の端部へ延在している。棚110では、移載装置111にて、入庫経路から出庫経路への物品の移載動作が行われる。入庫渡り通路103は、倉庫本体部101の一方側の端部に設けられ、各段の棚110に対して物品150を入庫する機構である。出庫渡り通路102は、倉庫本体部101の他方側の端部に設けられ、各段の棚110から物品150を出庫する機構である。入庫エレベータ105は、搬入コンベア21から入庫される物品150を上下させて、所望の棚110に対応する段の入庫渡り通路103へ物品150を供給する。出庫エレベータ104は、出庫対象となる物品150を棚110及び出庫渡り通路102から受け取り、図示しない出庫口へ昇降させる。出庫エレベータ104から出庫された物品150は、搬出コンベア121へ搬出される。このうち、入庫エレベータ105付近に、本実施形態に係る仕分け装置1が適用される。
【0017】
図2は、本発明の実施形態に係る仕分け装置1の構成を示す概略構成図である。図2に示すように、仕分け装置1は、物品150を搬送する搬送系2と、搬送系2を制御する仕分け制御部10と、を備える。搬送系2は、搬入コンベア21(搬入手段)と、搬送機22と、搬出コンベア23(搬出手段)と、を備える。このうち、搬送機22は、前述の入庫エレベータ105を構成する機器である。搬入コンベア21は、搬送機22に搬入される物品150を当該搬送機22側へ水平に搬送する装置である。搬入コンベア21は、搬送機22の所定の段に対して設けられている。搬出コンベア23は、搬送機22から搬出される物品150を水平に搬送する装置である。搬出コンベア23は、入庫渡り通路103の各階(ここでは四階)に設けられる。
【0018】
搬送機22は、水平方向移動手段(例えばコンベア)と、上下移動手段と、を備え、物品150を上下方向及び水平方向に移動させる装置である。これにより、搬送機22は、各物品150を入庫渡り通路103における目的階へ移動させる。なお、図では、「n階」を目的地とした物品150に対して、「n」の数字が付されている。以降の図においても同様である。また、以降の説明では、n階を目的値とした物品150を「n階への物品」と称する場合がある。
【0019】
搬送機22は、隣り合う複数の搬送箱22aを交互に昇降しつつ、物品150を水平方向(横方向)に移動させることで垂直搬送を行う垂直搬送機である。搬送機22は、交互動作式の昇降装置であり、入庫レーンR1側の搬送棚22Aと、コンベア23側の搬送棚22Bと、を有している。搬送棚22A、22Bは、それぞれ「自動倉庫の階数+一階」分の段数の収容可能エリアCEを有している。そして、「自動倉庫の階数」分の段数(ここでは四段)で連続した搬送箱22aを有している。連続した搬送箱22aは、同時に上下移動する。連続した搬送箱22aが下側へ移動すると、下から順に一段目から四段目の収容可能エリアCEに各搬送箱22aが配置される。連続した搬送箱22aが上側へ移動すると、下から順に二段目から五段目の収容可能エリアCEに各搬送箱22aが配置される。なお、以降の説明において、単に段数について述べた場合、特に注意が無い限り、下からカウントした段数を示すものとする。また、搬送棚22Aの搬送箱22aと搬送棚22Bの搬送箱22aは、交互に上下移動する。すなわち、搬送棚22Aの搬送箱22aが上側へ移動すると、搬送棚22Bの搬送箱22aが下側へ移動する。これにより、搬送棚22A中の物品150を一段上昇させることができる(動作M1参照)。また、搬送棚22Aの搬送箱22aが下側へ移動すると、搬送棚22Bの搬送箱22aが上側へ移動する。これにより、搬送棚22B中の物品150を一段上昇させることができる。また、同じ段数において、搬送棚22Aの搬送箱22aと搬送棚22Bの搬送箱22aとの間にて、物品150を水平方向に移動させることができ、相互に物品150の受け渡しと受け取りを行うことができる(動作M2参照)。また、搬送棚22Bの搬送箱22aから目的の階数のコンベア23へ物品150を受け渡すことができる(動作M3参照)。
【0020】
本実施形態では、下から二段目の収容可能エリアCEに対して入庫レーンR1が設けられ、下から一段目~四段目の収容可能エリアCEに対して四つのコンベア23が設けられる。なお、図2において収容可能エリアCEのうち「S1」「S2」と示された箇所は、搬送棚22A,22Bが昇降動作をするために設けられたスペースである。ただし、収容可能エリアCE、入庫レーンR1、及びコンベア23との位置関係は特に限定されるものではなく、物流倉庫1の構成に応じて、適宜設定されてよい。
【0021】
次に、図3を参照して、仕分け装置1及び学習装置40のブロック構成について説明する。図3は、本実施形態に係る仕分け装置1及び学習装置40のブロック構成図である。図4は、本実施形態に係る仕分け装置1及び学習装置40の関係を示す概念図である。図4に示すように、仕分け装置1は、搬送効率のよい経路を設定し、当該経路にて物品150を搬送機22で仕分ける。ここで、搬送機22における経路について図4を参照して説明する。例えば、図4の「配置状態S1」に示すように、入庫レーンR1に対象となる物品150が存在している状態をスタート状態とする。図4の「最適経路AS1」の右端に示すように、全ての物品150が搬出コンベア23に到達した状態をゴール状態とする。スタート状態とゴール状態との間では、仕分け装置1は、各物品の水平移動、及び垂直移動を同時に行い、各動作を組み合わせることによって、各物品150の目的地(目的階の搬出コンベア23)まで搬送する。このとき、仕分け装置1は、複数の物品150を搬送機22によって、搬送機22の動作的制限下において、互いの物品150が干渉しないように、且つ、速やかに仕分けできるように、物品150を移動させる。
【0022】
学習装置40は、仕分け装置1において搬送効率を向上できるような経路を学習する。学習装置40は、強化学習を適用して経路を学習する。学習装置40は、動的計画法の処理によって強化学習処理を行ってよい。例えば、学習装置40は、実際の運用(図4の下段)がなされる事前段階に、所定のスタート状態に対して、最適経路AS1の候補となる候補経路を設定して、記憶部3に記憶される。図4に示す例では、配置状態S1に対して、候補経路CS1を設定し、記憶部3の最適化テーブルに格納している。学習装置40は、あらゆるパターンの配置状態についての候補経路を最適化テーブルに格納できる。これにより、図4の下段に示すように、仕分け装置1は、仕分け対象となる配置状態S1の最適解を記憶部3の最適化テーブルに問い合わせる。記憶部3は、最適化テーブルの中から最適解としての最適経路AS1を仕分け装置1に返送する。これにより、仕分け装置1は、容易に最適経路AS1での仕分けが可能になる。
【0023】
仕分け制御部10は、搬送系2を制御するユニットである。仕分け制御部10は、搬入コンベア21から搬入された物品150を搬送機22で仕分けして搬出コンベア23から搬出する。仕分け制御部10は、仕分け装置1を統括的に管理するECU[ElectronicControl Unit]を備えている。ECUは、CPU[Central Processing Unit]、ROM[Read Only Memory]、RAM[Random Access Memory]、CAN[Controller Area Network]、通信回路等を有する電子制御ユニットである。ECUでは、例えば、ROMに記憶されているプログラムをRAMにロードし、RAMにロードされたプログラムをCPUで実行することにより各種の機能を実現する。仕分け制御部10は、動作制御部11と、経路探索部12と、最適化テーブル取得部13と、を備える。
【0024】
動作制御部11は、経路探索部12で探索した経路に従って各物品150が搬送されるように、搬送系2の動作を制御するユニットである。動作制御部11は、搬送系2の搬入コンベア21、搬送機22、及び搬出コンベア23の各駆動部へ制御信号を送信することで、各駆動部を動作させる。
【0025】
経路探索部12は、搬送系2の搬送機22における、各物品150の経路を探索するユニットである。この際、経路探索部12は、各物品150が仕分け部31内にてどのような経路を通って、目的地まで到達するかを演算する。なお、経路探索部12の経路探索方法は、例えば、特開2022-148146号などに記載されているような公知の方法を採用してよい。
【0026】
最適化テーブル取得部13は、物品150の配置状態に対する最適な経路探索情報が予め準備された最適化テーブルを取得するユニットである。このような最適化テーブルは、記憶部3に記憶されている。従って、最適化テーブル取得部13は、記憶部3から最適化テーブルを読み出して取得する。
【0027】
最適化テーブルは、スタート状態からゴール状態の全ての経路(図4の上段の候補経路CS1の全経路)をまとまったパターン情報として保存してもよいが、図5に示すように、ある配置状態に対して一ステップ先の最適経路を保存してもよい。図5は、一部の配置状態のみが示されているが、最適化テーブルには、あらゆる配置状態(「now」の項目)の一ステップ先(「next」の項目)の配置状態が格納されている。この場合、経路探索部12は、スタート状態からゴール状態に至るまでの間、最適化テーブル(逆順テーブル)に再帰的に問い合わせをしてよい。例えば、経路探索部12が配置状態S1について最適化テーブルに問い合わせたら、最適化テーブルは、一ステップ先の配置状態を最適解として返送する。次に、経路探索部12は一ステップ先の配置状態について最適化テーブルに問い合わせ、最適化テーブルは、もう一ステップ先の配置状態を最適解として返送する。経路探索部12は、このような問い合わせを繰り返すことで、ゴール状態までの経路を取得する。
【0028】
図3に示すように、学習装置40は、制御部41を備える。制御部41は、学習装置40を統括的に管理するECUを備える。制御部41は、経路探索部42と、経路選択部43と、を備える。
【0029】
経路探索部42は、演算の対象となる物品150の配置状態に対して、最適解の候補となる候補経路を探索する。なお、経路探索部42が最適解となる候補経路を探索する方法は、例えば、特開2022-148146号などに記載されているような公知の方法を採用してよい。
【0030】
経路選択部43は、候補経路が複数存在する場合に、一つの候補経路を選択する。すなわち、経路選択部43は、一つの配置状態について、同率の評価となる候補経路が複数存在する場合、特に価値が高い候補経路を選択して、最適化テーブルに格納する。例えば、図5に示す例では、配置状態s’に対して、一ステップ先の配置状態とするために選択可能な行動aとして、三つの候補行動が候補として挙げられている。経路選択部43は、後述の処理を行うことで、一つの行動に係る候補経路を選択経路DLとして選択する。
【0031】
経路選択部43は、それぞれの候補経路に対し、行動を選択する確率、及び行動に伴う報酬に基づく方策評価を行うことによりQ値を演算する。最適化テーブルには、各配置状態に対するQ値が設定される(図5参照)。学習の初期状態では、各配置状態のQ値は「0」に設定されるが、経路選択部43は、各配置状態に対するQ値が収束するまで、方策評価を繰り返してQ値を更新し続ける。また、経路選択部43は、方策評価によるQ値の結果に対し、出力結果が収束するまで方策改善を繰り返すことで、候補経路を選択する。
【0032】
ここで、本実施形態の例では、入庫レーンR1(搬入手段)には三つ分の物品150が配置可能である。図4に示す例では、入庫レーンR1に物品150が存在しない隙間部分BKが存在している。従来の経路選択では、入庫レーンR1の範囲内の物品150だけを考慮した演算がなされていた。しかし、運用時には、入庫レーンR1には、当該入庫レーンR1の物品150数以上の物品150が入庫される(図2参照)。そのため、本実施形態に係る学習装置40は、入庫レーンR1の範囲外にある物品150も考慮した行動価値の算出方法を強化学習に適用することができる。
【0033】
具体的に、経路選択部43は、行動のうち仕分け装置1が有する入庫レーンR1に物品150が存在しない隙間部分BKが存在する場合を仮定する(例えば、図5の「候補行動3」参照)。経路選択部43は、隙間部分BKに物品150が存在しない場合、及び存在する場合におけるQ値の結果をそれぞれ演算する。経路選択部43は、それぞれのQ値の結果の平均値を演算し、当該演算結果を隙間部分BKが存在する行動における演算に用いる。本演算の詳細については後述する。
【0034】
次に、図6を参照して、学習装置40の動的計画法による強化学習の処理内容について説明する。図6に示すように、学習装置40は、最適化テーブルの初期化を行う(ステップS10)。ステップS10では、経路選択部43は、各配置状態に対する単数又は複数の候補経路の探索を行い、最適化テーブルに格納する。同率に評価される候補経路は、最適化テーブルに全て記述される(図5の「行動a’」参照)。また、各配置状態に対応するQ値を「0」にする。最適化テーブルのその他の項目については、例えば特開2022-148146号に記載されているような公知の最適化テーブルと同様であってよい。方策の初期化には、離散一様分布を定義する。
【0035】
次に、経路選択部43は、方策評価を行う(ステップS20)。経路選択部43は、それぞれの候補経路に対し、行動を選択する確率、及び行動に伴う報酬に基づく方策評価を行うことによりQ値を演算する。ここで、図5に示すように、配置状態sで選択可能な行動aとして、搬送機22を上下方向に昇降させた行動が一つ示される。行動aの後の配置状態が、次の配置状態s’となる。配置状態s’で選択可能な行動a’として、三つの候補行動が示される。この場合、配置状態sのQ値である「Qπ(s,a)」を求める式として、以下の式(1)が採用される。「π(s’, a’ )」は、方策を示しており、配置状態s’から行動a’を選ぶ確率を示している。初期状態では、複数の候補行動から均等に選択するよう離散一様分布を設定する。「R ss’」は期待報酬を示しており、配置状態sから配置状態s’になるまでの行動で報酬が定義される。例えば、「搬送機内を左右移動:-1.5」「搬送機を上下方向に昇降:-1.75」「各物品が搬出コンベアに到達:+10」という報酬が設定されてよい。「γ」は、割引率であり、例えば0.95に設定されてよい。
【数1】
【0036】
Q値の計算について、図7に示すような簡易的な配置状態を例にして説明する。図7(a)は、入庫レーンR1に二階への物品150が一つ存在するスタート状態であり、図7(b)(c)の配置状態を経て、図7(d)に示すゴール状態へ到達する。例えば、図7(c)の状態のQ値を求める。図7(c)の次の行動は図7(d)だけであるため、「π(s’, a’ )」は1となる。図7(d)はゴール状態であり次のステップがないため、「Qπ(s’, a’ )」は0となる。図7(c)から図7(d)の配置状態になると、ゴールに到達するため報酬は「+10」となる。よって、図7(c)の配置状態のQ値は「10」となる。
【0037】
配置状態sのQ値である「Qπ(s,a)」について説明する。候補行動1~3に対応する「Qπ(s’, a’)」をQ1~Q3とする。候補行動が複数ある配置状態s’の場合、候補行動が三つあるので各候補行動の「π(s’, a’ )」の確率は三分の一(約0.33)となる。よって、式(1)の各項に値を代入すると、「Qπ(s,a)=-1.75+0.95×(0.33×Q1+0.33×Q2+0.33×Q3)」となる。
【0038】
ここで、候補行動3の隙間部分BKには物品150が存在しない。よって、経路選択部43は、図8に示すように、隙間部分BKに物品150が存在しない場合(図8(a))、及び、各階向けの物品150が存在する場合(図8(b)~(e))におけるQ値の結果をそれぞれ演算する。そして、経路選択部43は、それぞれのQ値の結果の平均値を演算し、当該演算結果を隙間部分BKが存在する候補行動3におけるQ値の演算に用いる。図8(a)~(e)における「Qπ(s’, a’ )」をQ3a~Q3eとすると、候補行動3の「Qπ(s’, a’ )」は、「Q3=(1/5) × (Q3a+Q3b+Q3c+Q3d+Q3e)」という各Q値の平均値となる。このような計算により、入庫レーンR1の範囲外にある物品150の影響を考慮してQ値を計算することができる。なお、隙間部分BKが二つある場合は、「物品を追加しない場合」「物品を一つ追加した場合」「物品を二つ追加した場合」のQ値に対して、平均値を計算すればよい。
【0039】
図6に戻り、次に、経路選択部43は、ステップS20での演算結果に基づいて、最適化テーブルのQ値を更新する(ステップS30)。次に、経路選択部43は、Q値が収束したか否かを判定する(ステップS40)。ステップS40では、式(2)を用いて収束の判定を行う。「i」は、方策評価を繰り返した回数となる。初期状態では各配置状態に対応するQ値を全て0と仮定したため、方策評価を繰り返すことで、Q値が正確な値に収束してゆく。例えば、図7(a)~(d)のQ値を「Qa,Qb,Qc,Qd」とすると、初期段階では全て0に設定したため「0,0,0,0」となる。一回目の方策評価では、図7(c)から図7(d)となるときの報酬が「+10」であり、図7(a)から図7(b)及び図7(b)から図7(c)となるときに「搬送機内を左右移動:-1.5」が起きているため「-1.5,-1.5,10,0」となる。二回目の方策評価では、図7(c)の「Qπ(s’, a’ )」が10となるため、図7(b)のQ値は、「Qπ(s,a)=-1.5+0.95×10=8」となり、図7(a)のQ値は、「Qπ(s,a)=-1.5+0.95×(-1.5)=-2.925」となるため「-2.925,8,10,0」となる。三回目の方策評価では、図7(b)の「Qπ(s’, a’)」が8となるため、図7(a)のQ値は、「Qπ(s,a)=-1.5+0.95×8=6.1」となるため「6.1,8,10,0」となる。四回目以降の方策評価では、各Q値は変化しないため、図7についてはQ値が収束したと言える。ある配置状態に対応するQ値は早い段階で収束するが、他の配置状態に対応するQ値は収束に時間がかかる場合がある。従って、経路選択部43は、全ての配置状態に対応するQ値のうち、前回のQ値の演算結果との差が最も大きいものを探し、当該差が0.01より小さければ、Q値は収束したと判定する。なお、0.01は参考値であり変更可能である。
【数2】
【0040】
ステップS40が「NO」である場合、ステップS20から処理が繰り返される。ステップS40が「YES」である場合、経路選択部43は、方策評価によるQ値の結果に対し、方策改善を行う(ステップS50)。経路選択部43は、以下の方策改善の更新式である式(3)を用いて、方策を更新する。初期状態では、離散一様分布を設定することで、配置状態sで選択可能な全ての行動を選択する可能性を考慮した。従って、式(1)の「π(s’, a’)」が全ての候補行動について一定であった。しかし、方策改善を行うことで、配置状態sから選択される行動aが一つに限定される。図5の例では、候補行動2のQ値が一番大きい場合、候補行動2の「π(s’, a’)」が1となり、他の候補行動1,2は0となる。なお、方策改善を繰り返すなかで、候補行動1,2を選択してもよい。
【数3】
【0041】
経路選択部43は、改善数が0であるか否かを判定する(ステップS60)。ステップS60が「NO」である場合、経路選択部43は、ステップS20から処理を繰り返す。これにより、改善した方策にて各Q値を更新することができる。ステップS50にて、何れの配置状態sに対しても方策改善が行われなかった場合、ステップS60は「YES」となる。これにより、経路選択部43は、方策評価によるQ値の結果に対し、出力結果が収束するまで方策改善を繰り返すことができる。経路選択部43は、出力結果が収束したときの候補行動を最適化テーブルにて選択された候補経路とする(ステップS70)。選択した後は、残りの候補行動に係る候補経路は最適化テーブルから削除する。以上により、図6に示す処理が終了する。
【0042】
次に、本実施形態に係る仕分け装置1の学習装置40、学習方法、及び仕分け装置1の作用・効果について説明する。
【0043】
制御部41は、物品150の経路の候補となる候補経路を探索する経路探索部42を備える。従って、学習装置40は、仕分け装置1が実際に仕分けを行うよりも事前の段階にて、物品150の搬送経路として効率のよい候補経路を演算しておくことができる。ここで、制御部41は、候補経路が複数存在する場合に、一つの候補経路を選択する経路選択部43を備える。従って、効率の良い候補経路が複数探索された場合、経路選択部43は、特に好ましい候補経路を選択することができる。経路選択部43は、それぞれの候補経路に対し、行動を選択する確率、及び行動に伴う報酬に基づく方策評価を行うことによりQ値を演算する。これにより、経路選択部43は、各候補経路における行動を評価することができる。また、経路選択部43は、方策評価によるQ値の結果に対し、出力結果が収束するまで方策改善を繰り返すことで、候補経路を選択する。この場合、経路選択部43は、各候補経路における条件しながら方策評価を行い、好ましい候補経路を選択できるようになるまで、処理を繰り返すことができる。以上より、搬送効率を向上することができる。
【0044】
経路選択部43は、行動のうち仕分け装置1が有する搬入手段に物品が存在しない隙間部分BKが存在する場合を仮定し、隙間部分BKに物品が存在しない場合、及び存在する場合におけるQ値の結果をそれぞれ演算し、それぞれのQ値の結果の平均値を演算し、当該演算結果を隙間部分BKが存在する行動における演算に用いる。経路探索の演算上は、入庫レーンR1に隙間部分BKが存在するが、実際の仕分け装置1では、当該隙間部分BKに物品150が存在する状態で仕分けを行う必要が生じる場合もある。従って、経路選択部43は、隙間部分BKに物品150が存在する場合と存在しない場合の両方を考慮することで、実際の仕分け作業に即した候補経路を選択することができる。
【0045】
本実施形態に係る仕分け装置1の学習方法は、垂直搬送機を少なくとも含み、物品150を仕分ける仕分け装置1において、物品150の経路を学習する仕分け装置1の学習方法であって、物品150の経路の候補となる候補経路を探索する経路探索工程(ステップSS10)と、候補経路が複数存在する場合に、一つの候補経路を選択する経路選択工程(ステップS20~S70)と、を備え、経路選択工程では、それぞれの候補経路に対し、行動を選択する確率、及び行動に伴う報酬に基づく方策評価を行うことによりQ値を演算し、方策評価によるQ値の結果に対し、出力結果が収束するまで方策改善を繰り返すことで、候補経路を選択する。
【0046】
この仕分け装置1の学習方法によれば、上述の仕分け装置1の学習装置40と同趣旨の作用・効果を得ることができる。
【0047】
本実施形態に係る仕分け装置1は、垂直搬送機を少なくとも含み、物品150を仕分ける仕分け装置1であって、物品150の経路に基づいて物品を仕分ける仕分け制御を行う仕分け制御部10を備え、仕分け制御部10は、上述の学習装置40によって選択された候補経路が記憶された記憶部3から、物品150の経路を読み出すことによって、仕分け制御を行う。
【0048】
この仕分け装置1によれば、上述の仕分け装置1の学習装置40と同趣旨の作用・効果を得ることができる。
【0049】
本発明は、上述の実施形態に限定されない。
【0050】
上述の実施形態では、動的計画法が用いられたが、Q学習などの他の強化学習方法が用いられてもよい。例えば、運用時に使用する保管棚の階層にバラツキを持たせたい場合がある。例えば、二階を多く利用し、四階の利用を少なくしたいなどの要望がある。この場合、強化学習にQ学習を用いると、学習に用いるエピソードに保管棚の階層のバラツキを持たせることで、階層分布を考慮した学習が可能になる。また、入庫順番の規制を考慮したい場合がある。例えば、「一階行き→二階行き」はセットなどである。その場合も、同様にQ学習を用いて学習のエピソードに規則性を持たせることで、規則性を考慮した学習が可能になる。
【0051】
上述の実施形態では、仕分け装置の範囲外(入庫レーンR1の範囲外)にある物品150の影響を考慮した行動評価を行ったが、範囲外の物品150を考慮しない行動評価を行ってもよい。この場合、Q値の算出において「Q3=Q3a」とする。この場合、行動評価の計算は容易になるが、経路選択して構築した最適化テーブルの搬送効率は、従来技術よりも向上させることができるものの、上述の実施形態より若干低下する。
【0052】
例えば、仕分け装置が適用されるシステムは、図1に示す倉庫システムに限定されない。また、仕分け部の搬送機は、図2に示すような交互に上下動するような一対の収容棚を有するタイプのものでなくてよい。例えば、ロータリー式の搬送機(収容棚が一段ずつ一定方向に周回移動するとともに、収容棚が周回移動しない際には、物品が収容棚間で移動可能な搬送機)を採用してよい。
【0053】
本実施形態では、搬入コンベア21から入庫される物品150を各階の搬出コンベア23に移動させる形態に関して説明したが、各階のコンベアから出庫される物品150を搬出コンベア121に移動させる形態に、本発明の仕分け装置の処理が適用されてもよい。
【0054】
また、搬出コンベアや搬出口は4段に限らず、2段や3段、5段より多くてもよい。また搬入口も1つではなく複数設けられていてもよい。
【符号の説明】
【0055】
1…仕分け装置、10…仕分け制御部、40…学習装置、42…経路探索部、43…経路選択部、22…搬送機、150…物品、R1…入庫レーン(搬送手段)。
図1
図2
図3
図4
図5
図6
図7
図8