【文献】
尾形 直哉,他2名,“値引き戦略を考慮した発注戦略の分析”,[online],情報処理学会 研究報告 知能システム(ICS),日本,情報処理学会,2017年 2月24日,Vol.2017-ICS-186 No.5,<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=177691&file_id=1&file_no=1>
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0011】
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
【0012】
なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
【0013】
[本開示に至る経緯]
食品仕入れ業務は、数万点に及ぶ品目について毎日、仕入れ個数を決定・発注する作業を伴っており、スーパーマーケットや食料品店等の店舗の利益に直接影響を及ぼす重要な業務である。
【0014】
各品目には消費期限が設定されており消費期限を過ぎると廃棄されるが、廃棄によるコストを廃棄ロスと呼ぶ。廃棄ロスを抑えるために消費期限が迫った商品について割引による販売促進対策をとる場合がある。この場合は希望小売価格に対する値引きロスが生じる。また、品切れによる販売機会の喪失を防止するために在庫を用意するのが一般的であるが、品切れによって生じる売上損失を機会ロスと呼ぶ。
【0015】
さらに、食品のうち生鮮食品は消費期限が加工品に比べて短いものが多く、在庫として保存可能な期間が品目ごとに同じとは限らない。そして、生食可能な魚類を焼き物、惣菜、弁当へ転用するなど、1品目の仕入れが複数の販売品目と相関しているものが存在する。つまり、食品仕入れ業務では、多数の品目の仕入れ数を個別に決定する際、在庫数、売行き、消費期限、相関のある商品の仕入れ・販売状況、廃棄・値引・機会ロスの状況、粗利などを考慮する必要がある。
【0016】
ロスを抑えつつ粗利を最大化することを目標として、品目数と考慮する要素との相関関係に基づいて仕入れ数を決定するために検討すべき組合せ数は、膨大である。よって、食品仕入れ業務は、高い専門性を有する少数の従業員が担当せざるを得ないのが現状である。これら従業員は代替不可能であり、同等の技能を有する人材を育成し確保するためには相当な現場経験が必要である。更に、かような技能を有する人材のための教育法や育成法も確立されていない。これらのことから、食品仕入れ業務を適切に行い得る人材は、慢性的に不足している。
【0017】
一方、仕入れ数の組合せに対して、ロス額などを評価対象として、組合せ最適化問題としてモデル化を行うことは可能である。しかしながら、相関のある品目数に対しては、仕入れ数の組合せが指数関数的に増加するため、当該品目数が100を超える場合には従来の数学的プログラミングによる求解は困難となる。仕入れ業務の現場では、天候、季節、イベント、時事情報、などにより複数の関連品目の売上が増減する現象もよく知られている。実際に従来手法では実用規模の問題を解決できていない。
【0018】
以上のような問題点を解決するべく、本願の発明者は、強化学習を用いた、ロスを評価基準とする、仕入れ数の最適組合せ学習・導出法に係る、本開示の食品仕入れ数決定支援システムの考案に到った。本開示に係る食品仕入れ数決定支援システムでは、仕入れ数を逐次決定し、決定済みの仕入れ数を状態記述パラメータとして順次加えていくことにより、品目間の相関に対応する。そして、具体的な個別仕入れ数の組合せについて、確定した粗利、ロス額から評価を計算し、評価値を各仕入れ数に伝播する。伝播は最適方程式に基づいて行い、最適な粗利とロス額を得るための最適な仕入れ数が各品目に関する意思決定段階において得られることを保証する。
【0019】
[1.本開示の基本的特徴]
本開示に係る食品仕入れ数決定支援システムについての基本的特徴を以下、説明する。
【0020】
[1.1.モデリング]
[1.1.1 仕入れ数決定作業]
品目数をk、第i品目に対する仕入れ数の選択肢数をm
iとし、現場の仕入れ決定作業と同じ順序で仕入れ数o
iの決定を行う。現場の運用形態に依存するがこの際、外部(例えば、外部の管理サーバからの)入力として、決定対象品目の在庫数をs
i(i=1, ・ ・ ・ , k)、売行き予測をb
iと表し、初期値を与える。また、消費期限をl
i、予算残額をM
i、相関のある他商品の仕入れ数をp
i=[p
i1, ・ ・ ・ , p
il] とし、状態記述パラメータx
iを次式で表す:
【数1】
【0021】
ただし,p
ij(1≦j≦l)が未決定の場合にはp
ij=0とする。全ての品目について仕入れ数が決定したのち、所定の確率モデルによって当日の販売数を推定し、ロス額と粗利を確定する。与えられた予算枠において、粗利を最大化する状態遷移の組合せ[x
1,x
2, ・ ・ ・ ,x
k] が最適解である。
【0022】
以上のモデルでは、解の構成要素が数万個に及ぶ実用規模では、解の評価を全て保持する必要がある手法の実現が困難となる。
【0023】
[1.1.2 学習モデル]
(1)仕入れ数の評価値と更新則
上記[1.1.1 仕入れ数決定作業]で述べたモデルに対し、第i品目に対する仕入れ数を、各候補
【数2】
から選択する。この際、状態パラメータx
iに対し、仕入れ数候補との組み合わせに対する評価値を
【数3】
としてQ1
iの値に基づいて選択を行う。
【0024】
そして仕入れ数を決定した際、選択結果をo
iで表し、これに対応する評価値Q1を次式で更新する:
【数4】
【数5】
ここで、αは学習率(係数)、γは割引率である。
【0025】
Rは報酬であり、当日の販売実施後、目標粗利額をG
o,粗利額をGとして次式で決定する:
【数6】
つまり、Rは目標達成率であり、粗利確定までは値が0である。
【0026】
(2)1品目に対して複数の販売形態が存在する場合
生食可能な魚類を焼き物、惣菜、弁当へ転用するなど、1品目の仕入れが複数の販売品目と相関している場合、対応する販売品目に対する割当比率がロス額に影響する。そこで、割当比率を選択肢として、局所評価を行う。つまり、割当比率の候補を
【数7】
から選択する。この際、状態パラメータx
iに対し、割当比率との組み合わせに対する評価値を
【数8】
としてQ2
iの値に基づいて関連品目への割当比率を選択する。
【0027】
そして、
【数9】
の中から選択した結果w
iに対応するQ2
iを次式で更新する:
【数10】
【0028】
適切に
【数11】
を選択するために、必要に応じてp
iの構成要素の一部を他品目の仕入れ数から割当比率に変更する。
【0029】
[1.1.3 割引率の計算]
各品目の仕入れ数が販売後の粗利とロス額に影響を及ぼす。
このとき、各仕入れ数の候補の評価に粗利とロス額を反映するために、次式で第i品目のo
i,w
iに対する割引率γ
i(i=1, ・ ・ ・ , k) を計算する:
【数12】
ここで、D
iは第i品目で生じたロス額、T
pはk品目によって得られた当日の総売上額、δ は割引率の範囲を調整するパラメータである。上式(5)はロス額が小さい仕入れ数の選択肢に対する割引率を小さく設定する。また、粗利が大きくなる仕入れ数の組合せに対しては相対的に割引率が小さくなる。
【0030】
上式(2)、(4)は十分な更新回数実行後に
【数13】
に収束する。Rは粗利確定後にのみに与えるので、仕入れ数の決定作業の進捗に伴って評価値が単調増加する。上式(2)〜(5)は、最良の選択肢に対する評価値を用いて伝播を行うので、各状態における評価値が目標状態に至る最良の仕入れ数の組合せを反映することになる。
【0031】
[1.1.4 動作選択]
目標配置、移動対象、貨車移動先、移動貨車台数は、Soft-Max法(非特許文献1参照)によって確率的選択を行う。本更新則では、Q
i(i=1,2)の値が、割引回数の増加とともに小さくなる。一般に大規模問題では、品目数の増加に伴って、仕入れ数の組み合わせ数が大きくなるため、特に初期配置周辺の評価値が過剰に小さくなる。この場合、学習前半部分の導出における探索範囲が過剰に広がり、十分な学習効果が得られない。
【0032】
改善方法として、Q
i(i=1,2)を正規化した
【数14】
を用い、
【数15】
に対する動作の選択確率Pn(x
i,u)を次式で決定する(非特許文献2参照)。
【数16】
ただし、ξは温度定数であり、
【数17】
の各値に対して動作選択確率の違いを拡大/縮小することによって、探索範囲を調整する役割を果たす(非特許文献2参照)。
【0033】
[1.2.意思決定支援]
十分な学習を実行後、各品目における仕入れ数候補には、少なくとも探索済み領域内において導出した粗利とロス額を反映した評価値が対応付けられているため、すべての候補について評価値を取出し、大小関係を比較することによって、仕入れ数の優劣に関する順位付けが可能になる。
【0034】
評価値は品目ごとの各選択肢に対応しているため、仕入れ数決定に伴う状態遷移にしたがって順次参照可能になる。そして、すべての品目について最高順位の選択肢を選ぶ組み合わせが最良解であり、各候補の評価値を使って最良解からの乖離の大きさに関する情報が得られる。
【0035】
[1.3.システムの動作]
意思決定支援を行うために予備学習を行い、Q
iによる評価関数を獲得する。Q
iは初期値0から始め、粗利確定時に受け取るRが割引を伴って伝播する。予備学習を繰り返すことによって、全仕入れ数が決定した状態から初期状態に向かって徐々に評価値が広がっていくが、この際、決定仕入れ数に関わらず、最大の評価値を持つ状態から伝播を実施する。つまり、評価値が粗利に対するロス率を反映している場合にはロス率最小となる選択肢の評価が伝播し、Q
iによる評価関数が任意の状態から最良の仕入れ数組み合わせに対する評価を関数値としてとることになる。
【0036】
売上や来店予測を所定の確率モデルを使って構成した場合、各状態における仕入れ数の評価が、設定した確率分布にしたがった、ロス率の期待値を学習することになる。
【0037】
[1.4.意思決定フローの例]
図1は、本開示に係る食品仕入れ数決定支援システムにおける、意思決定フローを模式的に示す図である。例えば、品目Aについては「仕入れ数1」、「仕入れ数2」・・・「仕入れ数n」という、仕入数の選択肢が存在することが示されている。また、例えば、品目Aについては「生食用」、「寿司用」、「弁当用」に割り当てられ得ることが示されている。更に、粗利、ロス率に基づく評価が、各仕入数候補に順次、伝播する様子を示している。
【0038】
[1.5.オリジナリティと優位性]
上記の[1.1.1 仕入れ数決定作業]で述べた仕入れ数決定モデル、[1.1.2 学習モデル]の学習モデル、[1.1.3 割引率の計算]の割引計算法が夫々、意思決定支援、最適性、粗利とロス率の考慮に必要な基礎理論上の新規手法であり、既存技術では代替手法が存在しない。
【0039】
対象としている問題については大量の教師データが蓄積されているわけではない。例えば、専門職員の発注記録データは残っている(存在している)ものの、判断基準や決定ルールなどについては記録が採られていない。一般に、現場のデータから意思決定ルールを抽出するためには専門職員を対象とする詳細な聞き取り調査が必要になるため、短期間で本開示の模倣に必要な解析を短期間で完了することは困難であり、本開示に係る研究による候補の拡張・抽出や来店予測モデルの拡張・開発の速度が、模倣のそれを上回ることができると考えられる。
【0040】
データから決定ルールを抽出する方法に関する国内における研究は、2005年前後に、主に、化学プラントの反応器オペレータが持っていた、オペレーションに関する操作決定ルールを抽出するものに関して、盛んに行われていた経緯がある。化学プラントでは、反応器の動作に関する数値データは蓄積されているが、オペレータによる操作量や操作タイミングについての意図や判断基準などは、記録されていなかったため、特に職歴の長いオペレータの持つオペレーションに関する操作決定ルールを抽出する研究が必要となった次第である。当該分野にて数多くの研究が行われたが、有効な解決手段は示されていない。
【0041】
[第1の実施形態]
続いて、以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
【0042】
なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
【0043】
[2.1.食品仕入れ数決定支援システムの構成]
図2は、第1の実施形態に係る食品仕入れ数決定支援システム1のブロック図である。
図1に示す食品仕入れ数決定支援システム1は、PDA等により構成され外部ネットワーク16と接続する食品仕入れ数決定支援装置2と、及び、外部ネットワーク16と接続する管理サーバ18とを含む。外部ネットワーク16は、例えば、LAN、WAN、及びインターネットなどである。
【0044】
図1に示す食品仕入れ数決定支援装置2は、制御部4、入力部8、表示部6、記憶部10、及び通信インタフェース部12により構成される。制御部4は、演算処理及び装置全体の制御処理を行う。入力部8は、装置2に対する入力データを生成する若しくは受け取る部位であり、通常、キーボード、マウス、タッチパネル等により構成される。入力部8は、表示部6の表示面に重畳して設けられたタッチセンサで構成されてもよい。このとき入力部8は、表示部6によって表示された画像に対するタッチ(接触)操作を受け付ける。このように入力部8と表示部6とは一体的に構成されてもよいし、別体で構成されてもよい。
【0045】
表示部6は、制御部4による処理結果等を画像により表示する部位であり、液晶ディスプレイ、有機ELディスプレイ、プラズマディスプレイ等により構成される。表示部6は出力部として補助的にスピーカ等の聴覚用デバイスを含んでもよい。記憶部10は、制御部4で稼働するプログラムや食品仕入れ数決定支援に必要なパラメータデータ等が記録されている。記憶部10は、例えばフラッシュメモリで構成される。通信インタフェース部12は、外部ネットワーク16とのインタフェースとして動作する部位である。これらの制御部4、入力部8、表示部6、記憶部10、及び通信インタフェース部12は、適切なバス14により相互に接続されている。
【0046】
食品仕入れ数決定支援装置2は、PDA(ポータブルデジタルアシスタント)、タブレット端末、ノートパソコン、デスクトップパソコン、若しくはワークステーションなどの、情報処理装置で構成される。
【0047】
制御部4は、例えばCPUやMPUで構成され、食品仕入れ数決定支援装置2全体の動
作を制御する。制御部4における演算処理や装置全体の制御処理は、ハードウエア資源であるプロセッサと、記憶部10に記録される、若しくは外部ネットワーク16を介して外部から取り込まれる、ソフトウエアであるプログラムとの協働により実現される。制御部4は、専用に設計された電子回路や再構成可能な電子回路などのハードウエア回路(ASIC、FPGA等)で実現されてもよい。第1の実施形態に係る食品仕入れ数決定支援装置2の特徴的動作は、制御部4における演算処理及び制御処理により実現される。
【0048】
管理サーバ18は、食品仕入れ業務を行うスーパーマーケットや食料品店に係る全体業務をサポートし管理するコンピュータシステムを構成する。管理サーバ18は、在庫数、売行き予測、消費期限、予算残額、売上、イベント、来店数などのデータを格納しており、食品仕入れ数決定支援装置2は、外部ネットワーク16及び通信インタフェース部12を介して、適宜それらデータを取り込み、記憶部10に記録したり、制御部4での演算処理に用いたりする。
【0049】
在庫数、売行き予測、消費期限、予算残額、売上、イベント、来店数などのデータは、前に説明したように、食品仕入れ数決定支援に必要な状態記述パラメータのデータである。
【0050】
なお、食品仕入れ数決定支援装置2における処理のうちの、全部又は一部が、管理サーバ18にて行われてもよい。また、上述の食品仕入れ数決定支援装置2における処理を実行するコンピュータプログラムが、管理サーバ18の記憶部(図示せず)に格納されていてもよく、必要時に、食品仕入れ数決定支援装置2が自らの記憶部10にダウンロードする、というような構成であってもよい。
【0051】
[2.2.食品仕入れ数決定支援システムの動作]
図3及び
図4は、第1の実施形態に係る食品仕入れ数決定支援システム1のうちの、食品仕入れ数決定支援装置2の動作を示すフローチャートである。
図3及び
図4を用いて、第1の実施形態に係る食品仕入れ数決定支援装置2の動作を説明する。
【0052】
作業開始(ステップS02)して、先ず営業日数が決定される(ステップS04)。営業日数は、例えば、入力部8から入力される。次に、決定する品目の仕入れ数の、初期化を行う(ステップS06)。
【0053】
次に、予備学習を実行する(ステップS08)。予備学習の処理は、各営業日に対して実行され、例えば、管理サーバ18から在庫数と売行き予測に関するデータを入力して各仕入数の評価を計算する。予備学習の処理の詳細な内容は、
図4を用いて後で説明する。
【0054】
予備学習の実行後、仕入れ数が未決定の品目が存在するか、判断される(ステップS10)。仕入れ数が未決定の品目が存在するのであれば(ステップS10・YES)、未決定の品目についての仕入れ数候補及びその評価が表示部6に表示され、これに基づき仕入れ数が選択される(ステップS12)。仕入数候補の評価は、予備学習により算出されるものである。選択された仕入れ数は、仕入れ表p
iを構成する(ステップS14)。
【0055】
なお、
図5は、品目Aについての仕入れ数の候補、及びその評価を表示する、食品仕入れ数決定支援装置2の表示部6における画面例である。食品仕入れ数決定支援装置2の操作者は、画面に表示される仕入れ数候補のうちの一つを選択する。
【0056】
次に、割当比率が未決定の品目が存在するか、判断される(ステップS16)。割当比率が未決定の品目が存在するのであれば(ステップS16・YES)、未決定の品目についての割当比率候補及びその評価が表示部6に表示され、これに基づき割当比率が選択される(ステップS18)。割当比率候補の評価は、予備学習により算出されるものである。選択された割当比率は、割当表p
iを構成する(ステップS20)。更に割当比率が未決定の品目が存在するのであれば(ステップS16・YES)、その品目についてステップS18、ステップS20が実行される。なお、割当比率が未決定の品目が存在しないのであれば(ステップS16・NO)、ステップS10に戻る。
【0057】
ステップS10にて、仕入れ数が未決定の品目が更に存在するのであれば(ステップS10・YES)、ステップS12〜ステップS16が実行される(繰り返される)。ステップS10にて、仕入れ数が未決定の品目が存在しない、と判断されれば(ステップS10・NO)、報酬Rが計算されて受理され、更に在庫数が更新される(ステップS22)。
【0058】
更に、作業を終了するかどうか確認され(ステップS24)、ステップS04にて決定した営業日数について全て作業が終了したのであれば(ステップS24・YES)、全体作業を終了する(ステップS26)。終了しないのであれば(ステップS24・NO)、ステップS06に戻る。ここで次の営業日についての作業に切り替わる。決定する品目の仕入れ数が初期化され、各品目の発注数は0に戻るが、在庫総数・賞味期限日の在庫数は前日の売上結果を引き継いで更新することになる。更にステップS08〜が実行される。
【0059】
図4は、第1の実施形態に係る食品仕入れ数決定支援装置2における、予備学習の処理の詳細な動作を示すフローチャートである。
図4を用いて、予備学習の処理の詳細な動作を説明する。
【0060】
学習開始(ステップS0802)して、決定する品目の仕入れ数の、初期化を行う(ステップS0804)。
【0061】
次に、仕入れ数が未決定の品目が存在するか、判断される(ステップS0806)。仕入れ数が未決定の品目が存在するのであれば(ステップS0806・YES)、未決定の品目についての仕入れ数が選択され、これに基づき、割引率γ
iが計算され、Q1
i、Q2
iが更新される(ステップS0808)。なお、Q1
i、Q2
iの更新では、最も新しい選択結果が仕入れ数であったか、割当(比率)であったかによって更新対象が決まる。続いて、仕入れ表p
iを構成し、
【数18】
を格納する(ステップS0810)。
【0062】
次に、割当比率が未決定の品目が存在するか、判断される(ステップS0812)。割当比率が未決定の品目が存在するのであれば(ステップS0812・YES)、未決定の品目についての割当比率が選択され、これに基づき、割引率γ
iが計算され、Q2
i、Q1
iが更新される(ステップS0814)。なお、Q2
i、Q1
iの更新では、最も新しい選択結果が仕入れ数であったか、割当(比率)であったかによって更新対象が決まる。続いて、仕入れ表p
iを構成し、
【数19】
を格納する(ステップS0816)。更に割当比率が未決定の品目が存在するのであれば(ステップS0812・YES)、その品目についてステップS0814、ステップS0816が実行される(繰り返される)。なお、割当比率が未決定の品目が存在しないのであれば(ステップS0812・NO)、ステップS0806に戻る。
【0063】
ステップS0806にて、仕入れ数が未決定の品目が更に存在するのであれば(ステップS0806・YES)、ステップS0808〜ステップS0812が実行される(繰り返される)。ステップS0806にて、仕入れ数が未決定の品目が存在しない、と判断されれば(ステップS0806・NO)、報酬Rが計算されて受理され、更に在庫数が更新される(ステップS0818)。
【0064】
更に、作業を終了するかどうか確認され(ステップS0820)、終了するのであれば(ステップS0820・YES)、全体作業を終了する(ステップS0822)。終了しないのであれば(ステップS0820・NO)、ステップS0804に戻り、決定する品目の仕入れ数の初期化から予備学習を再開する。
【0065】
[他の実施形態]
以上のように、本出願において開示する技術の例示として、第1の実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。
【0066】
また、実施形態を説明するために、添付図面および詳細な説明を提供した。したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
【0067】
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。