IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気航空宇宙システム株式会社の特許一覧

特許7468883輸送計画作成装置、輸送計画作成方法、プログラム
<>
  • 特許-輸送計画作成装置、輸送計画作成方法、プログラム 図1
  • 特許-輸送計画作成装置、輸送計画作成方法、プログラム 図2
  • 特許-輸送計画作成装置、輸送計画作成方法、プログラム 図3
  • 特許-輸送計画作成装置、輸送計画作成方法、プログラム 図4
  • 特許-輸送計画作成装置、輸送計画作成方法、プログラム 図5
  • 特許-輸送計画作成装置、輸送計画作成方法、プログラム 図6
  • 特許-輸送計画作成装置、輸送計画作成方法、プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-08
(45)【発行日】2024-04-16
(54)【発明の名称】輸送計画作成装置、輸送計画作成方法、プログラム
(51)【国際特許分類】
   G06Q 10/083 20240101AFI20240409BHJP
   B65G 61/00 20060101ALI20240409BHJP
【FI】
G06Q10/083
B65G61/00 530
【請求項の数】 5
(21)【出願番号】P 2019202557
(22)【出願日】2019-11-07
(65)【公開番号】P2021077027
(43)【公開日】2021-05-20
【審査請求日】2022-10-11
(73)【特許権者】
【識別番号】000232221
【氏名又は名称】日本電気航空宇宙システム株式会社
(74)【代理人】
【識別番号】100106909
【弁理士】
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100134544
【弁理士】
【氏名又は名称】森 隆一郎
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100162868
【弁理士】
【氏名又は名称】伊藤 英輔
(72)【発明者】
【氏名】大西 宏典
(72)【発明者】
【氏名】佐々木 一
【審査官】小原 正信
(56)【参考文献】
【文献】特開平07-234997(JP,A)
【文献】特開2019-124990(JP,A)
【文献】米国特許出願公開第2017/0185087(US,A1)
【文献】特開2019-034836(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
B65G 61/00
(57)【特許請求の範囲】
【請求項1】
発地から着地まで輸送する輸送対象物に関する輸送情報に基づいて、輸送装置に対する積荷行動または前記輸送装置からの積荷の荷下ろし行動または前記輸送装置の移動の何れかを示す前記輸送装置の輸送行動の組み合わせを抽出し、
前記輸送行動の組み合わせそれぞれに対する、前記輸送対象物を保管する拠点における当該輸送対象物の属性および当該拠点の施設において当該輸送対象物が占有する容積の情報を含む拠点保管情報と、前記輸送装置の現在位置、積載容量、現時点で既に定められている輸送計画を含む輸送現況情報を更新して、前記輸送行動の組み合わせそれぞれに対する状態行動価値を算出し、算出した状態行動価値をもとに輸送行動の組み合わせを1つ選択し、当該選択した輸送行動の組み合わせを行った場合の状態変化と得られる報酬に基づいて、状態行動価値関数を更新する
輸送計画作成装置。
【請求項2】
前記状態行動価値関数と新たな輸送情報とに基づいて、前記輸送行動を含む輸送計画情報を作成する
請求項1に記載の輸送計画作成装置。
【請求項3】
選択した輸送行動の組み合わせを行った場合の状態変化と得られる報酬に基づいて、報酬が大きく算出できる状態行動価値関数に更新する
請求項1または請求項2に記載の輸送計画作成装置。
【請求項4】
輸送計画作成装置は、
発地から着地まで輸送する輸送対象物に関する輸送情報に基づいて、輸送装置に対する積荷行動または前記輸送装置からの積荷の荷下ろし行動または前記輸送装置の移動の何れかを示す前記輸送装置の輸送行動の組み合わせを抽出し、
前記輸送行動の組み合わせそれぞれに対する、前記輸送対象物を保管する拠点における当該輸送対象物の属性および当該拠点の施設において当該輸送対象物が占有する容積の情報を含む拠点保管情報と、前記輸送装置の現在位置、積載容量、現時点で既に定められている輸送計画を含む輸送現況情報を更新して、前記輸送行動の組み合わせそれぞれに対する状態行動価値を算出し、算出した状態行動価値をもとに輸送行動の組み合わせを1つ選択し、当該選択した輸送行動の組み合わせを行った場合の状態変化と得られる報酬に基づいて、状態行動価値関数を更新する
輸送計画作成方法。
【請求項5】
輸送計画作成装置のコンピュータに、
発地から着地まで輸送する輸送対象物に関する輸送情報に基づいて、輸送装置に対する積荷行動または前記輸送装置からの積荷の荷下ろし行動または前記輸送装置の移動の何れかを示す前記輸送装置の輸送行動の組み合わせを抽出する手段と、
前記輸送行動の組み合わせそれぞれに対する、前記輸送対象物を保管する拠点における当該輸送対象物の属性および当該拠点の施設において当該輸送対象物が占有する容積の情報を含む拠点保管情報と、前記輸送装置の現在位置、積載容量、現時点で既に定められている輸送計画を含む輸送現況情報を更新して、前記輸送行動の組み合わせそれぞれに対する状態行動価値を算出し、算出した状態行動価値をもとに輸送行動の組み合わせを1つ選択し、当該選択した輸送行動の組み合わせを行った場合の状態変化と得られる報酬に基づいて、状態行動価値関数を更新する手段と、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、輸送計画作成装置、輸送計画作成方法、プログラムに関する。
【背景技術】
【0002】
物流業界等において輸送対象物の輸送計画を効率よく行うことが求められている。特許文献1には輸送計画を作成する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2013-136421号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで輸送計画の作成には時間や労力がかかり、また輸送業者の報酬が大きくなるよう考慮した輸送計画の作成が求められている。
【0005】
そこでこの発明は、上述の課題を解決する輸送計画作成装置、輸送計画作成方法、プログラムを提供することを目的としている。
【課題を解決するための手段】
【0006】
本発明の第1の態様によれば、輸送計画作成装置は、発地から着地まで輸送する輸送対象物に関する輸送情報に基づいて、輸送装置に対する積荷行動または前記輸送装置からの積荷の荷下ろし行動または前記輸送装置の移動の何れかを示す前記輸送装置の輸送行動の組み合わせを抽出し、前記輸送行動の組み合わせそれぞれに対する状態行動価値を算出し、算出した状態行動価値をもとに輸送行動の組み合わせを1つ選択し、当該選択した輸送行動の組み合わせを行った場合の状態変化と得られる報酬に基づいて、状態行動価値関数を更新することを特徴とする。
【0007】
本発明の第2の態様によれば、輸送計画作成方法は、輸送計画作成装置が、発地から着地まで輸送する輸送対象物に関する輸送情報に基づいて、輸送装置に対する積荷行動または前記輸送装置からの積荷の荷下ろし行動または前記輸送装置の移動の何れかを示す前記輸送装置の輸送行動の組み合わせを抽出し、前記輸送行動の組み合わせそれぞれに対する状態行動価値を算出し、算出した状態行動価値をもとに輸送行動の組み合わせを1つ選択し、当該選択した輸送行動の組み合わせを行った場合の状態変化と得られる報酬に基づいて、状態行動価値関数を更新することを特徴とする。
【0008】
本発明の第3の態様によれば、プログラムは、輸送計画作成装置のコンピュータに、発地から着地まで輸送する輸送対象物に関する輸送情報に基づいて、輸送装置に対する積荷行動または前記輸送装置からの積荷の荷下ろし行動または前記輸送装置の移動の何れかを示す前記輸送装置の輸送行動の組み合わせを抽出する手段と、前記輸送行動の組み合わせそれぞれに対する状態行動価値を算出し、算出した状態行動価値をもとに輸送行動の組み合わせを1つ選択し、当該選択した輸送行動の組み合わせを行った場合の状態変化と得られる報酬に基づいて、状態行動価値関数を更新する手段と、を実行させることを特徴とする。
【発明の効果】
【0009】
本発明によれば、輸送業者の報酬が大きくなるよう考慮した輸送対象物の輸送計画を自動で作成することができる。
【図面の簡単な説明】
【0010】
図1】本発明の一実施形態による輸送計画作成システムの概略構成図である。
図2】本発明の一実施形態による輸送計画作成装置のハードウェア構成図である。
図3】本発明の一実施形態による輸送計画作成装置の機能ブロック図である。
図4】本発明の一実施形態による輸送計画作成装置の処理フローを示す第一の図である。
図5】本発明の一実施形態による輸送計画作成装置の処理フローを示す第二の図である。
図6】本発明の一実施形態による輸送計画作成装置の最小構成を示す図である。
図7】本発明の一実施形態による最小構成による輸送計画作成装置の処理フローを示す図である。
【発明を実施するための形態】
【0011】
以下、本発明の一実施形態による輸送計画作成装置を図面を参照して説明する。
図1は本実施形態による輸送計画作成装置を含む輸送計画作成システムの概略構成図である。
図1で示すように、輸送計画作成システム100は、輸送計画作成装置1、輸送拠点に設けられた拠点端末300、輸送装置(トラックなどの車両、船舶、鉄道車両、輸送航空機、貨物船など)の情報を記憶する輸送装置端末400を含んで構成される。輸送計画作成装置1と拠点端末300、輸送計画作成装置1と輸送装置端末400とはそれぞれ有線ネットワークや無線ネットワーク等の通信ネットワーク500を介して通信接続している。
【0012】
図2は輸送計画作成装置のハードウェア構成図である。
図2で示すように、輸送計画作成装置1は、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、データベース104、インタフェース105(入力装置、出力装置など)、通信モジュール106等の各ハードウェア構成を一例として備える。
【0013】
図3は輸送計画作成装置の機能ブロック図である。
輸送計画作成装置1のCPU101は、予め輸送計画作成装置1に記録されている輸送計画作成プログラムを実行する。これにより輸送計画作成装置1は、マスタデータ管理部110、現況管理部120、輸送要求管理部130、輸送実績管理部140、表示部150、強化学習部160、報酬関数管理部170、輸送計画管理部180の各機能を発揮する。
【0014】
図4は輸送計画作成装置の処理フローを示す第一の図である。
次に輸送計画作成装置1の処理フローについて順を追って説明する。
輸送計画作成装置1には、輸送計画作成の対象期間d(日)における時刻t(0≦t≦T)ごとの離散的時刻集合情報{0、1、・・・、t、・・・、T}と、学習試行回数Nとが与えられて記録される。例えば離散的時刻集合情報は、対象期間dがd=2(日)、離散的時刻集合情報が示す集合で表される各時刻tが1時間間隔で更新される値である場合、離散的時刻集合情報{0、1、・・・、t、・・・、T}はT=48となる。また離散的時刻集合情報は、対象期間dがd=2(日)、各時刻tが30分間隔で更新される値である場合、離散的時刻集合情報{0、1、・・・、T}はT=96となる。
【0015】
ここで、輸送計画作成装置1のマスタデータ管理部110は、拠点端末300から拠点施設情報、輸送装置情報、利用可能施設情報、輸送装置別経路情報を取得する。拠点施設情報は、拠点端末300が設置されている輸送拠点の容積(拠点施設が倉庫である場合には、その倉庫の容積(輸送対象物の収容可能量))や、輸送において当該拠点の使用可否を含む情報である。輸送装置情報は、輸送装置(トラック等の車両、鉄道車両、輸送機及び貨物船等)の諸元を含む情報である。利用可能施設情報は、輸送装置の識別情報と当該輸送装置が利用可能な施設の識別情報とを関係づけた情報を保持し、複数の輸送装置に関してそれらの関係を含んでいる。利用可能施設情報により、どの輸送装置がどの施設(港湾、空港、配送の拠点など)が利用可能かを把握することができる。輸送装置別経路情報は、拠点端末300が設置されている輸送拠点を利用する輸送装置が当該輸送拠点から他の輸送拠点まで移動する際の経路情報を、輸送装置ごとに示す情報である。
【0016】
また現況管理部120は、拠点端末300から拠点保管現況情報を取得する。拠点保管情報は、輸送拠点において保管している貨物などの輸送対象物の属性情報、当該輸送対象物が輸送拠点の施設を占有している容積などの情報を含む。また現況管理部120は、輸送装置端末400から、当該輸送装置端末400を搭載した輸送装置の現在位置、積載容量、当該輸送装置について現時点で既に定められている輸送計画(発地、着地、輸送日時、重量、容積率などを含む情報)などを含む輸送現況情報を取得する。現況管理部120は、これら拠点保管現況情報、輸送現況情報などを記憶する。
【0017】
輸送要求管理部130は、拠点端末300または輸送装置端末400から、新たな輸送対象物の発地、着地、輸送日時、重量、容積、輸送完了時に得られる予定収入などの情報を含む輸送情報を取得する。輸送要求管理部130は新たな輸送対象物に関する輸送情報をデータベース104等に記録する。
【0018】
輸送実績管理部140は、拠点端末300または輸送装置端末400から輸送計画情報に従って輸送装置が輸送した結果を示す輸送実績情報を取得する。輸送実績情報には、発地、着地、輸送完了日時、重量、容積率などの情報が含まれてよい。輸送実績管理部140はこれら輸送実績情報を記憶する。
【0019】
報酬関数管理部170は、マスタデータ管理部110、現況管理部120、輸送要求管理部130、強化学習部160、輸送計画管理部180、輸送実績管理部140から必要な情報を取得し、強化学習時に使用する報酬を算出するための報酬関数を算出し、更新する。
【0020】
このように各機能部が上述の各情報を取得した状態において、強化学習部160は、処理の開始の指示を入力する。すると強化学習部160は、拠点施設情報、輸送装置情報、利用可能施設情報、輸送装置別経路情報を、マスタデータ管理部110から取得する(ステップS101)。また強化学習部160は、報酬関数管理部170より報酬関数を取得する(ステップS102)。強化学習部160は、離散的時刻集合情報と学習試行回数Nとを取得する(ステップS103)。強化学習部160は、試行回数nを1と設定する試行回数初期化を行う(ステップS104)。また強化学習部160は、離散的時刻集合情報に含まれる最初の時刻を時刻tと設定する時刻初期化を行う(ステップS105)。強化学習部160は試行回数nが学習試行回数N以下かを判定する(ステップS106)。
【0021】
試行回数nが学習試行回数N以下である場合、強化学習部160は、現況管理部120から拠点保管現況情報と輸送現況情報とを取得する(ステップS107)。強化学習部160は、現況管理部120から取得した拠点保管現況情報と輸送現況情報とを、現在設定されている時刻tにおける情報と設定して記憶する。そして強化学習部160は、輸送要求管理部130から輸送情報を取得する(ステップS108)。強化学習部160は設定した時刻tが、離散的時刻集合情報が示す集合の最終時刻Tまでの期間以上の時刻(t≦T)かを判定する(ステップS109)。
【0022】
強化学習部160は設定した現在の時刻tが最終時刻Tまでの期間内の時刻である場合には、取得した情報に基づいて、各輸送装置が取り得る輸送行動の組み合わせを全て抽出する(ステップS110)。輸送行動とは、輸送装置に対する積荷行動または前記輸送装置からの前記積荷の荷下ろし行動または前記輸送装置の移動の何れかの輸送装置の状態を示す。
【0023】
例えば、輸送装置としてトラックA(積荷なし)とトラックB(積荷なし)があり、トラックAとトラックBの現在地点が輸送拠点1で、輸送拠点1に輸送対象物cと輸送対象物dがあり、トラックAとトラックBは輸送拠点1から輸送拠点2に移動できる場合を想定する。この場合、トラックA、トラックBの取り得る行動は、輸送拠点1に留まる、輸送拠点2に移動する、輸送対象物cを積む、輸送対象物dを積む、の4種類となり、トラックA、トラックBの取り得る行動の組み合わせは以下の14通りとなる。
【0024】
・トラックAは輸送対象物cを積む、トラックBは輸送拠点1に留まる。
・トラックAは輸送対象物cを積む、トラックBは輸送拠点2に移動する。
・トラックAは輸送対象物cを積む、トラックBは輸送対象物dを積む。
・トラックAは輸送対象物dを積む、トラックBは輸送拠点1に留まる。
・トラックAは輸送対象物dを積む、トラックBは輸送拠点2に移動する。
・トラックAは輸送対象物dを積む、トラックBは輸送対象物cを積む。
・トラックAは輸送拠点1に留まる、トラックBは輸送拠点1に留まる。
・トラックAは輸送拠点1に留まる、トラックBは輸送拠点2に移動する。
・トラックAは輸送拠点1に留まる、トラックBは輸送対象物cを積む。
・トラックAは輸送拠点1に留まる、トラックBは輸送対象物dを積む。
・トラックAは輸送拠点2に移動する、トラックBは輸送拠点1に留まる。
・トラックAは輸送拠点2に移動する、トラックBは輸送拠点2に移動する。
・トラックAは輸送拠点2に移動する、トラックBは輸送対象物cを積む。
・トラックAは輸送拠点2に移動する、トラックBは輸送対象物dを積む。
なお、トラックAとトラックBが共に輸送対象物cを積む行動の組み合わせと、トラックAとトラックBが共に輸送対象物dを積む行動の組み合わせは、実現不可能な組み合わせのため、除外とする。
【0025】
次に、強化学習部160は、各輸送装置が取り得る輸送行動の組み合わせ1つ1つに対する状態行動価値を算出する(ステップS111)。強化学習部160は、各輸送装置が取り得る輸送行動の組み合わせ1つ1つに対する状態行動価値に基づいて、各輸送装置が取り得る輸送行動の組み合わせから1つを選択する(ステップS112)。強化学習部160は、選択した各輸送装置が取り得る輸送行動の組み合わせに基づく行動が行われた場合の、拠点保管現況情報、輸送現況情報を更新し、その行動によって得られる報酬を算出する(ステップS113)。例えば強化学習部160は、報酬関数管理部170から報酬関数を取得し、当該報酬関数を用いて、選択した各輸送装置が取り得る輸送行動の組み合わせに基づく行動によって得られる報酬を算出する。報酬関数は、一例としては、貨物を輸送先である着地に届けた場合の予定収入を加算し、輸送装置が移動する際に輸送コストを減算する関数である。
【0026】
強化学習部160は、選択した各輸送装置が取り得る輸送行動の組み合わせに基づく行動と、その行動を行った場合の拠点保管現況情報と、輸送現況情報と、報酬との関係と、過去のそれらの関係とに基づいて、状態行動価値関数を更新する(ステップS114)。状態行動価値関数は、拠点保管現況情報と、輸送現況情報と、選択した各輸送装置が取り得る輸送行動の組み合わせに基づく行動と、報酬との関係に基づいて、選択した各輸送装置が取り得る輸送行動の組み合わせに基づく行動と、それによる拠点保管現況情報と輸送現況情報とが示す現況情報との関係の良さの度合いを算出する関数である。なお、最終時刻T時点の総報酬が大きいほど、選択した各輸送装置が取り得る輸送行動の組み合わせに基づく行動と現況情報との関係の良さの度合いが高いと言うことができる。
【0027】
このような処理により、強化学習部160は、輸送計画作成対象期間Tにおいて、選択した各輸送装置が取り得る輸送行動の組み合わせに基づく行動と、それによる拠点保管現況情報と輸送現況情報とが示す現況情報との関係の良さの度合いを示す状態行動価値関数を学習する。
【0028】
強化学習部160は時刻tが示す時間の間に上述のステップS110~ステップS114の処理を1回行う。そして強化学習部160は、時刻tに1を加算する(ステップS115)。その後、強化学習部160は、ステップS109からの処理を繰り返す。
【0029】
ステップS109において強化学習部160は、設定した時刻tが、離散的時刻集合情報が示す集合の最終時刻Tまでの期間(t≦T)以上である場合(t>T)、試行回数nに1を加算する(ステップS116)。そして強化学習部160は時刻初期化を行ってt=0と設定し、ステップS105からの処理を繰り返す。
【0030】
強化学習部160は、学習試行回数N以下かを判定するステップS106の判定をn>Nとなるまで行う。強化学習部160は試行回数n>学習試行回数Nとなるまで、ステップS106以降の処理を繰り返す。強化学習部160は、試行回数n>学習試行回数Nとなった場合には、最終的に更新された状態行動価値関数を学習結果として記憶する(ステップS117)。
【0031】
なお強化学習部160は、強化学習として、試行錯誤を通じて「価値を最大化するような行動」を学習する。ここで、強化学習の例としては、Q学習がある。これは、ある状態sで行動aを選択したときの価値Q(s,a)を学習する方法である。ある状態sのとき、Q(s,a)が最も高いaを最適な行動として選択すればよいが、最初は正しいQ(s,a)の値はわからないため、強化学習部160は、ランダムな値を設定しておき、実際に行動をシミュレーションしながら正しいQ(s,a)を学習する。ここで、状態行動価値関数Q(s,a)の一般的な更新式は以下の式(1)のように表すことができる。
【0032】
【数1】
【0033】
ここで、αは学習率、γは割引率という定数である。またr+1は、状態がstからst+1に遷移したときに得た報酬(即時報酬)である。この更新式(1)により、ある状態sにおける行動aの評価値Q(s,a)よりも、行動aによる次の状態st+1における最良の行動の評価値Q(st+1,max_at+1)のほうが大きければ、Q(s,a)を大きくし、逆に小さければ、Q(s,a)も小さくなる。このため、ある状態におけるある行動の価値を、次の状態における最良の行動の価値に近づけることになる。本実施形態においては、各現況情報が状態sを表しており、輸送装置(トラック等)が複数あるため、各輸送装置の取り得る行動の組み合わせを1つの行動aとして扱う。
【0034】
輸送計画作成装置1は、状態行動価値関数を用いて輸送計画情報を作成する(ステップS118)。
【0035】
図5は輸送計画作成装置の処理フローを示す第二の図である。
上述のステップS118の処理は、具体的には、輸送計画作成装置1の輸送計画管理部180が、時刻を初期化する(ステップS201)。輸送計画管理部180は、現況管理部120から拠点保管現況情報と輸送現況情報とを取得する(ステップS202)。輸送計画管理部180は、現況管理部120から取得した拠点保管現況情報と輸送現況情報とを、現在設定されている時刻tにおける情報と設定して記憶する。そして輸送計画管理部180は、輸送要求管理部130から輸送情報を取得する(ステップS203)。輸送計画管理部180は、設定した時刻tが、離散的時刻集合情報が示す集合の最終時刻Tまでの期間以上の時刻(t≦T)かを判定する(ステップS204)。輸送計画管理部180は、t≦Tと判定した場合、各輸送装置が取り得る輸送行動の組み合わせを全て抽出する(ステップS205)。次に、輸送計画管理部180は、各輸送装置が取り得る輸送行動の組み合わせ1つ1つに対する状態行動価値を算出する(ステップS206)。輸送計画管理部180は、各輸送装置が取り得る輸送行動の組み合わせ1つ1つに対する状態行動価値に基づいて、各輸送装置が取り得る輸送行動の組み合わせから状態行動価値が最も大きい輸送行動の組み合わせを選択する(ステップS207)。輸送計画管理部180は、選択した輸送行動の組み合わせに基づく行動が行われた場合の、拠点保管現況情報、輸送現況情報を更新し、その行動によって得られる報酬を算出する(ステップS208)。
【0036】
輸送計画管理部180は、時刻tに1を加算する(ステップS209)。その後、輸送計画管理部180は、ステップS204からの処理を繰り返す指示を行う。輸送計画管理部180は、ステップS204においてt>Tと判定した場合、選択してきた輸送行動の組み合わせを元に、輸送計画情報を作成する。輸送計画管理部180は作成した輸送計画情報を、拠点端末300や輸送装置端末400へ送信する(ステップS210)。輸送計画情報は、例えば、輸送装置Aが輸送拠点1で輸送対象物cを積み、輸送拠点2に届ける(輸送拠点2で下ろす)といった情報である。輸送装置は、輸送計画情報に基づいて、輸送を行う。
【0037】
上述の輸送計画作成装置1の処理によれば、輸送業者の報酬が大きくなるよう考慮した輸送対象物の輸送計画を自動で作成することができる。
【0038】
なお上述の処理において、拠点端末300や輸送装置端末400は、輸送実績に関する情報を輸送実績管理部140に送信する。輸送実績管理部140は、輸送実績情報をデータベース104に記録する。そして、報酬関数管理部170は、マスタデータ管理部110、現況管理部120、輸送要求管理部130、強化学習部160、輸送計画管理部180及び輸送実績管理部140等の各機能部が取得した情報を取得する。報酬関数管理部170は取得した情報と報酬との関係に基づいて、報酬を算出する報酬関数を機械学習により算出する。そして報酬関数管理部170は新たな報酬関数を算出した場合、報酬関数を更新する。
【0039】
図6は輸送計画作成装置の最小構成を示す図である。
図7は最小構成による輸送計画作成装置の処理フローを示す図である。
輸送計画作成装置1は、少なくも強化学習部160を備える。
強化学習部160は、発地から着地まで輸送する輸送対象物に関する輸送情報に基づいて、輸送装置に対する積荷行動または輸送装置からの積荷の荷下ろし行動または輸送装置の移動の何れかを示す輸送装置の輸送行動の組み合わせを抽出する(ステップS301)。
また強化学習部160は、輸送行動の組み合わせそれぞれに対する状態行動価値を算出し、算出した状態行動価値をもとに輸送行動の組み合わせを1つ選択し、当該選択した輸送行動の組み合わせを行った場合の状態変化と得られる報酬に基づいて、状態行動価値関数を更新する(ステップS302)。
【0040】
上述の輸送計画作成装置1は内部に、コンピュータシステムを有している。そして、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0041】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0042】
1・・・輸送計画作成装置
300・・・拠点端末
400・・・輸送装置端末
500・・・通信ネットワーク
110・・・マスタデータ管理部
120・・・現況管理部
130・・・輸送要求管理部
140・・・輸送実績管理部
150・・・表示部
160・・・強化学習部
170・・・報酬関数管理部
180・・・輸送計画管理部
図1
図2
図3
図4
図5
図6
図7