IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧

<>
  • 特許-割当結果決定装置及び割当結果決定方法 図1
  • 特許-割当結果決定装置及び割当結果決定方法 図2
  • 特許-割当結果決定装置及び割当結果決定方法 図3
  • 特許-割当結果決定装置及び割当結果決定方法 図4
  • 特許-割当結果決定装置及び割当結果決定方法 図5
  • 特許-割当結果決定装置及び割当結果決定方法 図6
  • 特許-割当結果決定装置及び割当結果決定方法 図7
  • 特許-割当結果決定装置及び割当結果決定方法 図8
  • 特許-割当結果決定装置及び割当結果決定方法 図9
  • 特許-割当結果決定装置及び割当結果決定方法 図10
  • 特許-割当結果決定装置及び割当結果決定方法 図11
  • 特許-割当結果決定装置及び割当結果決定方法 図12
  • 特許-割当結果決定装置及び割当結果決定方法 図13
  • 特許-割当結果決定装置及び割当結果決定方法 図14
  • 特許-割当結果決定装置及び割当結果決定方法 図15
  • 特許-割当結果決定装置及び割当結果決定方法 図16
  • 特許-割当結果決定装置及び割当結果決定方法 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-31
(45)【発行日】2024-11-11
(54)【発明の名称】割当結果決定装置及び割当結果決定方法
(51)【国際特許分類】
   G08G 1/123 20060101AFI20241101BHJP
   G08G 1/00 20060101ALI20241101BHJP
   G08G 9/00 20060101ALI20241101BHJP
【FI】
G08G1/123 A
G08G1/00 D
G08G9/00 A
【請求項の数】 4
(21)【出願番号】P 2024515821
(86)(22)【出願日】2022-05-12
(86)【国際出願番号】 JP2022020003
(87)【国際公開番号】W WO2023218583
(87)【国際公開日】2023-11-16
【審査請求日】2024-03-12
【早期審査対象出願】
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】110003166
【氏名又は名称】弁理士法人山王内外特許事務所
(72)【発明者】
【氏名】大西 直
(72)【発明者】
【氏名】芳川 昇之
【審査官】田中 将一
(56)【参考文献】
【文献】特開2017-199193(JP,A)
【文献】特表2020-531993(JP,A)
【文献】特開2020-184094(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G08G 1/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
複数の割当対象物に対する割り当て順序を示す割当結果として、第1の時刻のときに決定された第1の割当結果と、前記第1の時刻よりも後の時刻である第2の時刻のときに決定された第2の割当結果とを取得し、割当結果を前記第1の割当結果から前記第2の割当結果に変更した場合のコストの増加量である変更コストを算出する変更コスト算出部と、
前記第1の割当結果及び前記第2の割当結果のそれぞれを報酬値予測用の学習モデルに与えて、前記学習モデルから、前記第1の割当結果の良否の程度を示す第1の報酬値と前記第2の割当結果の良否の程度を示す第2の報酬値とを取得し、前記第2の報酬値から前記第1の報酬値を減算することで、前記第1の報酬値と前記第2の報酬値との報酬値差分を予測する報酬値差分予測部と、
前記報酬値差分予測部により予測された報酬値差分が0よりも大きく、かつ、前記変更コスト算出部により算出された変更コストがコスト閾値以下であれば、前記第2の割当結果を選択し、前記報酬値差分予測部により予測された報酬値差分が0以下、又は、前記変更コスト算出部により算出された変更コストが前記コスト閾値よりも大きければ、前記第1の割当結果を選択する割当結果選択部と、
前記第1の割当結果を報酬関数に与えて前記第1の報酬値を算出し、前記第2の割当結果を前記報酬関数に与えて前記第2の報酬値を算出し、前記第2の報酬値から前記第1の報酬値を減算することで、前記第1の報酬値と前記第2の報酬値との報酬値差分を算出する報酬値差分算出部と、を備え、
前記報酬値差分予測部は、前記予測した報酬値差分と、前記報酬値差分算出部により算出された報酬値差分との差異が小さくなるように、前記学習モデルを更新する
割当結果決定装置。
【請求項2】
複数の割当対象物に対する割り当て順序を示す割当結果として、第1の時刻における前記複数の割当対象物のスケジュール情報を第1の学習モデルに与えて、前記第1の学習モデルから第1の割当結果を取得する第1の割当結果取得部と、
前記複数の割当対象物に対する割り当て順序を示す割当結果として、前記第1の時刻よりも後の時刻である第2の時刻における前記複数の割当対象物のスケジュール情報を第2の学習モデルに与えて、前記第2の学習モデルから第2の割当結果を取得する第2の割当結果取得部と、
前記第1の割当結果取得部から出力される前記第1の割当結果と、前記第2の割当結果取得部から出力される前記第2の割当結果とを取得し、割当結果を前記第1の割当結果から前記第2の割当結果に変更した場合のコストの増加量である変更コストを算出する変更コスト算出部と、
前記変更コスト算出部により算出された変更コストに基づいて、前記第1の割当結果、又は、前記第2の割当結果を選択する割当結果選択部と、
前記割当結果選択部により選択された割当結果に割当違反があれば、当該割当違反に対するペナルティ値を算出するペナルティ値算出部と、を備え、
前記ペナルティ値算出部は、前記割当結果選択部により選択された割当結果を目的関数に与えて、前記目的関数の値を算出し、前記目的関数の値である目的関数値を前記ペナルティ値に加算し、
前記第2の割当結果取得部は、前記目的関数値が付加されたペナルティ値が小さくなるように、前記第2の学習モデルを更新する、
割当結果決定装置。
【請求項3】
複数の割当対象物に対する割り当て順序を示す割当結果として、第1の時刻のときに決定された第1の割当結果と、前記第1の時刻よりも後の時刻である第2の時刻のときに決定された第2の割当結果とを取得し、割当結果を前記第1の割当結果から前記第2の割当結果に変更した場合のコストの増加量である変更コストを算出する変更コスト算出部と、
前記第1の割当結果及び前記第2の割当結果のそれぞれを報酬値予測用の学習モデルに与えて、前記学習モデルから、前記第1の割当結果の良否の程度を示す第1の報酬値と前記第2の割当結果の良否の程度を示す第2の報酬値とを取得し、前記第2の報酬値から前記第1の報酬値を減算することで、前記第1の報酬値と前記第2の報酬値との報酬値差分を予測する報酬値差分予測部と、
前記報酬値差分予測部により予測された報酬値差分が0よりも大きく、かつ、前記変更コスト算出部により算出された変更コストがコスト閾値以下であれば、前記第2の割当結果を選択し、前記報酬値差分予測部により予測された報酬値差分が0以下、又は、前記変更コスト算出部により算出された変更コストが前記コスト閾値よりも大きければ、前記第1の割当結果を選択する割当結果選択部と、
前記第1の割当結果を報酬関数に与えて前記第1の報酬値を算出し、前記第2の割当結果を前記報酬関数に与えて前記第2の報酬値を算出し、前記第2の報酬値から前記第1の報酬値を減算することで、前記第1の報酬値と前記第2の報酬値との報酬値差分を算出する報酬値差分算出部と、を備える割当結果決定装置の割当結果決定方法であって、
前記報酬値差分予測部が、前記予測した報酬値差分と、前記報酬値差分算出部により算出された報酬値差分との差異が小さくなるように、前記学習モデルを更新する、
割当結果決定方法。
【請求項4】
複数の割当対象物に対する割り当て順序を示す割当結果として、第1の時刻における前記複数の割当対象物のスケジュール情報を第1の学習モデルに与えて、前記第1の学習モデルから第1の割当結果を取得する第1の割当結果取得部と、
前記複数の割当対象物に対する割り当て順序を示す割当結果として、前記第1の時刻よりも後の時刻である第2の時刻における前記複数の割当対象物のスケジュール情報を第2の学習モデルに与えて、前記第2の学習モデルから第2の割当結果を取得する第2の割当結果取得部と、
前記第1の割当結果取得部から出力される前記第1の割当結果と、前記第2の割当結果取得部から出力される前記第2の割当結果とを取得し、割当結果を前記第1の割当結果から前記第2の割当結果に変更した場合のコストの増加量である変更コストを算出する変更コスト算出部と、
前記変更コスト算出部により算出された変更コストに基づいて、前記第1の割当結果、又は、前記第2の割当結果を選択する割当結果選択部と、
前記割当結果選択部により選択された割当結果に割当違反があれば、当該割当違反に対するペナルティ値を算出するペナルティ値算出部と、を備える割当結果決定装置の割当結果決定方法であって、
前記ペナルティ値算出部が、前記割当結果選択部により選択された割当結果を目的関数に与えて、前記目的関数の値を算出し、前記目的関数の値である目的関数値を前記ペナルティ値に加算し、
前記第2の割当結果取得部が、前記目的関数値が付加されたペナルティ値が小さくなるように、前記第2の学習モデルを更新する、
割当結果決定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、割当結果決定装置及び割当結果決定方法に関するものである。
【背景技術】
【0002】
複数の割当対象物に対する割り当て順序を決定する装置として、例えば、複数の航空機の着陸順序を決定する着陸順序決定装置がある(例えば、特許文献1を参照)。
当該着陸順序決定装置は、それぞれの航空機が滑走路に到着する到着予定時刻と、それぞれの航空機の機体サイズとに基づいて、複数の航空機の着陸順序を決定するスケジューラを備えている。当該スケジューラは、複数の航空機の着陸順序を決定した後に、例えば、いずれかの航空機の到着予定時刻に変更が生じた場合、複数の航空機の着陸順序を再決定する。
【先行技術文献】
【特許文献】
【0003】
【文献】特表2006-523874号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
複数の航空機の着陸順序を決定した後に、いずれかの航空機の到着予定時刻に変更が生じた場合に、決定した着陸順序を維持するよりも着陸順序を変更した方が、運航コストが低い場合と、着陸順序を変更するよりも着陸順序を維持した方が、運航コストが低い場合とがある。運航コストとしては、例えば、航空機の燃料コストのほか、パイロットの肉体的な負担、又は、パイロットの精神的な負担に係る負担コストがある。
特許文献1に開示されている着陸順序決定装置では、スケジューラが、複数の航空機の着陸順序を決定した後に、いずれかの航空機の到着予定時刻に変更が生じた場合に、複数の航空機の着陸順序を変更することで、運航コストが上昇してしまうことがあるという課題があった。
【0005】
本開示は、上記のような課題を解決するためになされたもので、複数の割当対象物に対する割り当て順序を示す割当結果として、第1の割当結果が決定された後に、第2の割当結果が決定された場合に、コストに基づいて、第1の割当結果、又は、第2の割当結果を選択することができる割当結果決定装置及び割当結果決定方法を得ることを目的とする。
【課題を解決するための手段】
【0006】
本開示に係る割当結果決定装置は、複数の割当対象物に対する割り当て順序を示す割当結果として、第1の時刻のときに決定された第1の割当結果と、第1の時刻よりも後の時刻である第2の時刻のときに決定された第2の割当結果とを取得し、割当結果を第1の割当結果から第2の割当結果に変更した場合のコストの増加量である変更コストを算出する変更コスト算出部と、第1の割当結果及び第2の割当結果のそれぞれを報酬値予測用の学習モデルに与えて、学習モデルから、第1の割当結果の良否の程度を示す第1の報酬値と第2の割当結果の良否の程度を示す第2の報酬値とを取得し、第2の報酬値から第1の報酬値を減算することで、第1の報酬値と第2の報酬値との報酬値差分を予測する報酬値差分予測部と、報酬値差分予測部により予測された報酬値差分が0よりも大きく、かつ、変更コスト算出部により算出された変更コストがコスト閾値以下であれば、第2の割当結果を選択し、報酬値差分予測部により予測された報酬値差分が0以下、又は、変更コスト算出部により算出された変更コストがコスト閾値よりも大きければ、第1の割当結果を選択する割当結果選択部と、第1の割当結果を報酬関数に与えて第1の報酬値を算出し、第2の割当結果を報酬関数に与えて第2の報酬値を算出し、第2の報酬値から第1の報酬値を減算することで、第1の報酬値と第2の報酬値との報酬値差分を算出する報酬値差分算出部と、を備える。報酬値差分予測部は、予測した報酬値差分と、報酬値差分算出部により算出された報酬値差分との差異が小さくなるように、学習モデルを更新する。
【発明の効果】
【0007】
本開示によれば、複数の割当対象物に対する割り当て順序を示す割当結果として、第1の割当結果が決定された後に、第2の割当結果が決定された場合に、コストに基づいて、第1の割当結果、又は、第2の割当結果を選択することができる。
【図面の簡単な説明】
【0008】
図1】実施の形態1に係る割当結果決定装置を示す構成図である。
図2】実施の形態1に係る割当結果決定装置のハードウェアを示すハードウェア構成図である。
図3】割当結果決定装置が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。
図4】実施の形態1に係る割当結果決定装置の差分予測処理部6を示す構成図である。
図5】3台の飛行機の着陸の割り当て順序を示す割当結果の一例を示す説明図である。
図6図1に示す割当結果決定装置の処理手順である割当結果決定方法を示すフローチャートである。
図7図7Aは、スケジュール情報Sが第1の割当結果取得部1に与えられたときに、第1の割当結果取得部1により取得される第1の割当結果Xの一例を示す説明図、図7Bは、スケジュール情報Sが第2の割当結果取得部2に与えられたときに、第2の割当結果取得部2により取得される第2の割当結果Xの一例を示す説明図である。
図8】変更コスト表の一例を示す説明図である。
図9】減衰関数g(j)を示す説明図である。
図10図10Aは、航空機jの割り当て順序が先頭から数えて4番目から最後尾に変更された場合の差異情報dabを示す説明図、図10Bは、スケジュール情報Sに含まれていなかった航空機jが、スケジュール情報Sに含まれた場合の差異情報dabを示す説明図である。
図11】実施の形態2に係る割当結果決定装置を示す構成図である。
図12】実施の形態2に係る割当結果決定装置のハードウェアを示すハードウェア構成図である。
図13】実施の形態2に係る割当結果決定装置の報酬値差分算出部8を示す構成図である。
図14】実施の形態2に係る割当結果決定装置の差分予測処理部10を示す構成図である。
図15】実施の形態3に係る割当結果決定装置を示す構成図である。
図16】実施の形態3に係る割当結果決定装置のハードウェアを示すハードウェア構成図である。
図17図17Aは、割当可能な時刻と割当不可能な時刻とを示す説明図、図17Bは、ペナルティ表を示す説明図である。
【発明を実施するための形態】
【0009】
以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
【0010】
実施の形態1.
図1は、実施の形態1に係る割当結果決定装置を示す構成図である。
図2は、実施の形態1に係る割当結果決定装置のハードウェアを示すハードウェア構成図である。
図1に示す割当結果決定装置は、第1の割当結果取得部1、第2の割当結果取得部2、変更コスト算出部3、報酬値差分予測部4及び割当結果選択部7を備えている。
図1に示す割当結果決定装置は、複数の割当対象物に対する割り当て順序を示す割当結果として、例えば、複数の航空機の離着陸の割り当て順序を示す割当結果を決定するものとする。しかし、割当対象物は、航空機に限るものではなく、例えば、荷物、又は、タクシーであってもよい。割当対象物が例えばタクシーであれば、図1に示す割当結果決定装置は、タクシーの配車順序を示す割当結果を決定する。
【0011】
第1の割当結果取得部1は、例えば、図2に示す第1の割当結果取得回路21によって実現される。
第1の割当結果取得部1は、第1の時刻における複数の割当対象物である航空機のスケジュール情報Sを第1の学習モデル1aに与えて、第1の学習モデル1aから第1の割当結果Xを取得する。
第1の割当結果取得部1は、第1の割当結果Xを変更コスト算出部3、報酬値差分予測部4及び割当結果選択部7のそれぞれに出力する。
スケジュール情報Sは、例えば、それぞれの航空機の着陸予定時刻又はそれぞれの航空機の離陸予定時刻と、それぞれの航空機の機体サイズとを示す情報を含んでいる。第1の割当結果Xは、第1の時刻のときに決定された割当結果である。
【0012】
第1の学習モデル1aは、学習時において、入力データとして、複数の航空機のスケジュール情報Sが与えられ、教師データとして、複数の航空機の離着陸の割り当て順序を示す割当結果Xが与えられ、割当結果Xを学習している。
第1の学習モデル1aは、推論時において、複数の航空機のスケジュール情報Sが与えられたとき、スケジュール情報Sに対応する第1の割当結果Xを出力する。
ここでは、第1の学習モデル1aが、教師あり学習によって学習している。しかし、これは一例に過ぎず、第1の学習モデル1aは、例えば、教師なし学習、強化学習、又は、数理最適化手法によって学習しているものであってもよい。
【0013】
第2の割当結果取得部2は、例えば、図2に示す第2の割当結果取得回路22によって実現される。
第2の割当結果取得部2は、第1の時刻よりも後の時刻である第2の時刻における複数の割当対象物である航空機のスケジュール情報Sを第2の学習モデル2aに与えて、第2の学習モデル2aから第2の割当結果Xを取得する。
スケジュール情報Sは、例えば、それぞれの航空機の着陸予定時刻又はそれぞれの航空機の離陸予定時刻と、それぞれの航空機の機体サイズとを示す情報を含んでいる。第2の割当結果Xは、第2の時刻のときに決定された割当結果である。
第2の割当結果取得部2は、第2の割当結果Xを変更コスト算出部3、報酬値差分予測部4及び割当結果選択部7のそれぞれに出力する。
【0014】
第2の学習モデル2aは、学習時において、入力データとして、複数の航空機のスケジュール情報Sが与えられ、教師データとして、複数の航空機の離着陸の割り当て順序を示す割当結果Xが与えられ、割当結果Xを学習している。
第2の学習モデル2aは、推論時において、複数の航空機のスケジュール情報Sが与えられたとき、スケジュール情報Sに対応する第2の割当結果Xを出力する。
ここでは、第2の学習モデル2aが、教師あり学習によって学習している。しかし、これは一例に過ぎず、第2の学習モデル2aは、例えば、教師なし学習、強化学習、又は、数理最適化手法によって学習しているものであってもよい。
【0015】
変更コスト算出部3は、例えば、図2に示す変更コスト算出回路23によって実現される。
変更コスト算出部3は、第1の割当結果取得部1から第1の割当結果Xを取得し、第2の割当結果取得部2から第2の割当結果Xを取得する。
変更コスト算出部3は、割当結果を第1の割当結果Xから第2の割当結果Xに変更した場合のコストの増加量である変更コストCabを算出する。割当対象物が航空機であれば、変更コスト算出部3により増加量が算出されるコストは、運航コストである。運航コストとしては、例えば、航空機の燃料コストのほか、パイロットの肉体的な負担、又は、パイロットの精神的な負担に係る負担コストがある。
変更コスト算出部3は、変更コストCabを割当結果選択部7に出力する。
【0016】
報酬値差分予測部4は、例えば、図2に示す報酬値差分予測回路24によって実現される。
報酬値差分予測部4は、割当結果差異検出部5及び差分予測処理部6を備えている。
報酬値差分予測部4は、1の割当結果X及び第2の割当結果Xのそれぞれを図4に示す報酬値予測用の学習モデル6cに与えて、学習モデル6cから、第1の割当結果Xの良否の程度を示す第1の報酬値Rpredaと第2の割当結果Xの良否の程度を示す第2の報酬値Rpredbとを取得する。
報酬値差分予測部4は、第2の報酬値Rpredbから第1の報酬値Rpredaを減算することで、第1の報酬値Rpredaと第2の報酬値Rpredbとの報酬値差分ΔRpredを予測する。
報酬値差分予測部4は、報酬値差分ΔRpredを割当結果選択部7に出力する。
【0017】
割当結果差異検出部5は、第1の時刻におけるスケジュール情報Sと第2の時刻におけるスケジュール情報Sとの差異を検出し、差異を示す差異情報dabを差分予測処理部6に出力する。
【0018】
差分予測処理部6は、割当結果差異検出部5から出力された差異情報dabが、差異がある旨を示していれば、1の割当結果X及び第2の割当結果Xのそれぞれを報酬値予測用の学習モデル6cに与えて、学習モデル6cから、第1の報酬値Rpredaと第2の報酬値Rpredbとを取得する。
差分予測処理部6は、第2の報酬値Rpredbから第1の報酬値Rpredaを減算することで、第1の報酬値Rpredaと第2の報酬値Rpredbとの報酬値差分ΔRpredを予測する。
差分予測処理部6は、報酬値差分ΔRpredを割当結果選択部7に出力する。
【0019】
割当結果選択部7は、例えば、図2に示す割当結果選択回路27によって実現される。
割当結果選択部7は、変更コスト算出部3により算出された変更コストCabに基づいて、第1の割当結果X、又は、第2の割当結果Xを選択する。
具体的には、割当結果選択部7は、報酬値差分予測部4により予測された報酬値差分ΔRpredが0よりも大きく、かつ、変更コストCabがコスト閾値Thc以下であれば、第2の割当結果Xを選択する。
割当結果選択部7は、報酬値差分ΔRpredが0以下、又は、変更コストCabがコスト閾値Thcよりも大きければ、第1の割当結果Xを選択する。
コスト閾値Thcは、割当結果選択部7の内部メモリに格納されていてもよいし、割当結果決定装置の外部から与えられるものであってもよい。
【0020】
図1では、割当結果決定装置の構成要素である第1の割当結果取得部1、第2の割当結果取得部2、変更コスト算出部3、報酬値差分予測部4及び割当結果選択部7のそれぞれが、図2に示すような専用のハードウェアによって実現されるものを想定している。即ち、割当結果決定装置が、第1の割当結果取得回路21、第2の割当結果取得回路22、変更コスト算出回路23、報酬値差分予測回路24及び割当結果選択回路27によって実現されるものを想定している。
第1の割当結果取得回路21、第2の割当結果取得回路22、変更コスト算出回路23、報酬値差分予測回路24及び割当結果選択回路27のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、又は、これらを組み合わせたものが該当する。
【0021】
割当結果決定装置の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、割当結果決定装置が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
ソフトウェア又はファームウェアは、プログラムとして、コンピュータのメモリに格納される。コンピュータは、プログラムを実行するハードウェアを意味し、例えば、CPU(Central Processing Unit)、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、あるいは、DSP(Digital Signal Processor)が該当する。
【0022】
図3は、割当結果決定装置が、ソフトウェア又はファームウェア等によって実現される場合のコンピュータのハードウェア構成図である。
割当結果決定装置が、ソフトウェア又はファームウェア等によって実現される場合、第1の割当結果取得部1、第2の割当結果取得部2、変更コスト算出部3、報酬値差分予測部4及び割当結果選択部7におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムがメモリ41に格納される。そして、コンピュータのプロセッサ42がメモリ41に格納されているプログラムを実行する。
【0023】
また、図2では、割当結果決定装置の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図3では、割当結果決定装置がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、割当結果決定装置における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
【0024】
図4は、実施の形態1に係る割当結果決定装置の差分予測処理部6を示す構成図である。
図4に示す差分予測処理部6は、第1の予測処理部6a、第2の予測処理部6b、報酬値予測用の学習モデル6c及び差分算出処理部6dを備えている。
【0025】
第1の予測処理部6aは、割当結果差異検出部5から出力された差異情報dabが、差異がある旨を示していれば、第1の割当結果取得部1から出力された第1の割当結果Xを報酬値予測用の学習モデル6cに与えて、学習モデル6cから、第1の報酬値Rpredaを取得する。
第1の予測処理部6aは、第1の報酬値Rpredaを差分算出処理部6dに出力する。
【0026】
第2の予測処理部6bは、割当結果差異検出部5から出力された差異情報dabが、差異がある旨を示していれば、第2の割当結果取得部2から出力された第2の割当結果Xを報酬値予測用の学習モデル6cに与えて、学習モデル6cから、第2の報酬値Rpredbを取得する。
第2の予測処理部6bは、第2の報酬値Rpredbを差分算出処理部6dに出力する。
【0027】
報酬値予測用の学習モデル6cは、学習時において、入力データとして、割当結果Xが与えられ、教師データとして、報酬値Rpredが与えられ、報酬値Rpredを学習している。報酬値Rpredは、例えば、割当結果Xを選択した場合のコストが高ければ、小さい値であり、割当結果Xを選択した場合のコストが低ければ、大きな値である。
学習モデル6cは、推論時において、第1の割当結果X、又は、第2の割当結果Xが与えられたとき、第1の割当結果Xに対応する第1の報酬値Rpreda、又は、第2の割当結果Xに対応する第2の報酬値Rpredbを出力する。
ここでは、学習モデル6cが、教師あり学習によって学習している。しかし、これは一例に過ぎず、学習モデル6cは、例えば、教師なし学習、強化学習、又は、数理最適化手法によって学習しているものであってもよい。
【0028】
差分算出処理部6dは、第2の報酬値Rpredbから第1の報酬値Rpredaを減算することで、第1の報酬値Rpredaと第2の報酬値Rpredbとの報酬値差分ΔRpredを算出する。
差分算出処理部6dは、報酬値差分ΔRpredを割当結果選択部7に出力する。
【0029】
図5は、3台の飛行機の着陸の割り当て順序を示す割当結果の一例を示す説明図である。
図5の例では、3台の飛行機が、小型飛行機、中型飛行機、又は、大型飛行機である。
図5の例では、小型飛行機が着陸した後の着陸禁止時間は60[sec]、中型飛行機が着陸した後の着陸禁止時間は180[sec]、大型飛行機が着陸した後の着陸禁止時間は240[sec]である。
中型飛行機、大型飛行機、小型飛行機の順番で着陸を許可した場合、図5に示すように、3台の飛行機の全てが着陸するまでの最短時間は、420(=180+240)[sec]である。
中型飛行機、小型飛行機、大型飛行機の順番で着陸を許可した場合、図5に示すように、3台の飛行機の全てが着陸するまでの最短時間は、240(=180+60)[sec]である。
したがって、中型飛行機、小型飛行機、大型飛行機の順番で着陸を許可した場合、中型飛行機、大型飛行機、小型飛行機の順番で着陸を許可した場合よりも、全てが着陸するまでの最短時間は、180(=420-240)[sec]の時間だけ短くなる。
【0030】
次に、図1に示す割当結果決定装置の動作について説明する。
図6は、図1に示す割当結果決定装置の処理手順である割当結果決定方法を示すフローチャートである。
第1の割当結果取得部1は、第1の時刻における複数の航空機のスケジュール情報Sを取得する。
スケジュール情報Sは、例えば、それぞれの航空機の着陸予定時刻又はそれぞれの航空機の離陸予定時刻と、それぞれの航空機の機体サイズとを示す情報を含んでいる。
第1の割当結果取得部1は、スケジュール情報Sを第1の学習モデル1aに与えて、第1の学習モデル1aから第1の割当結果Xを取得する(図6のステップST1)。
第1の割当結果取得部1は、第1の割当結果Xを変更コスト算出部3、報酬値差分予測部4及び割当結果選択部7のそれぞれに出力する。
【0031】
図7Aは、スケジュール情報Sが第1の割当結果取得部1に与えられたときに、第1の割当結果取得部1により取得される第1の割当結果Xの一例を示す説明図である。
図7Aにおいて、t,t,・・・・,tは、時刻であり、j,j,・・・・,jは、航空機を識別するID(IDentification)である。
“0”は、航空機の離着陸を割り当てることができない旨を示し、“1”は、航空機の離着陸を割り当てることができる旨を示している。
図7Aの例では、航空機j,航空機j,航空機j,航空機j,航空機jの順番で離着陸を許可する第1の割当結果Xが得られている。
【0032】
第2の割当結果取得部2は、第1の時刻よりも後の時刻である第2の時刻における複数の航空機のスケジュール情報Sを取得する。
スケジュール情報Sは、例えば、それぞれの航空機の着陸予定時刻又はそれぞれの航空機の離陸予定時刻と、それぞれの航空機の機体サイズとを示す情報を含んでいる。
第2の割当結果取得部2は、スケジュール情報Sを第2の学習モデル2aに与えて、第2の学習モデル2aから第2の割当結果Xを取得する(図6のステップST2)。
第2の割当結果取得部2は、第2の割当結果Xを変更コスト算出部3、報酬値差分予測部4及び割当結果選択部7のそれぞれに出力する。
【0033】
図7Bは、スケジュール情報Sが第2の割当結果取得部2に与えられたときに、第2の割当結果取得部2により取得される第2の割当結果Xの一例を示す説明図である。
図7Bにおいて、t,t,・・・・,tは、時刻であり、j,j,・・・・,jは、航空機を識別するIDである。
“0”は、航空機の離着陸を割り当てることができない旨を示し、“1”は、航空機の離着陸を割り当てることができる旨を示している。
図7Bの例では、航空機j,航空機j,航空機j,航空機j,航空機jの順番で離着陸を許可する第2の割当結果Xが得られている。
【0034】
変更コスト算出部3は、第1の割当結果取得部1から第1の割当結果Xを取得し、第2の割当結果取得部2から第2の割当結果Xを取得する。
変更コスト算出部3は、例えば、図8に示すような変更コスト表を参照して、割当結果を第1の割当結果Xから第2の割当結果Xに変更した場合のコストの増加量である変更コストCabを算出する(図6のステップST3)。
変更コスト算出部3は、変更コストCabを割当結果選択部7に出力する。
【0035】
図8は、変更コスト表の一例を示す説明図である。
図8において、j,j,・・・・,jは、航空機を示す識別記号である。表内の数字は、変更コストを示している。
例えば、第1の割当結果がX=[j,j,j,j,j]であり、第2の割当結果がX=[j,j,j,j,j]である場合、航空機jと航空機jとの順番が入れ替えられている。このため、変更コストCabは、“100”である。
例えば、第1の割当結果がX=[j,j,j,j,j]であり、第2の割当結果がX=[j,j,j,j,j]である場合、航空機jと航空機jとの順番が入れ替えられ、さらに、航空機jと航空機jとの順番が入れ替えられている。このため、変更コストCabは、“180”(=80+100)である。
【0036】
図1に示す割当結果決定装置では、変更コスト算出部3が、図8に示すような変更コスト表を参照して、変更コストCabを算出している。しかし、これは一例に過ぎず、変更コスト算出部3は、例えば、以下のようにして、変更コストCabを算出してもよい。
まず、変更コスト算出部3は、以下の式(1)に示すように、第2の割当結果X’から第1の割当結果Xを減算することで、割当差分ΔXを算出する。X’は、第2の割当結果Xの時刻を第1の割当結果Xの時刻に合わせたものである。例えば、第1の割当結果Xの時刻が、t,t,・・・・,tであり、第2の割当結果Xの時刻が、t,t,・・・・,t10であれば、第2の割当結果Xの時刻tがt、時刻tがt、時刻t10がtであるものとする。
ΔX=X’-X(1)
【0037】
次に、変更コスト算出部3は、割当差分ΔXを以下の式(2)に代入することで、順序の変更に伴う変更コストCを算出する。
また、変更コスト算出部3は、割当差分ΔXを以下の式(3)に代入することで、時刻の変更に伴う変更コストCを算出する。
【0038】

g(j)は、図9に示すような減衰関数であり、例えば、g(j)=e(-j/T)である。jは、航空機を識別するIDであり、Tは、時定数である。
abは、割当結果差異検出部5から変更コスト算出部3に出力される差異情報dabである。図1では、割当結果差異検出部5から変更コスト算出部3への矢印が省略されている。スケジュール情報Sとスケジュール情報Sとの差異が無ければ、dab=0であり、スケジュール情報Sとスケジュール情報Sとの差異があれば、dab=1である。
γ,γのそれぞれは、係数である。
【0039】
変更コスト算出部3は、例えば、以下の式(4)に示すように、順序の変更に伴う変更コストCと時刻の変更に伴う変更コストCとを重み付け加算することで、変更コストCabを算出する。
ab=C+w・C(4)
式(4)において、wは、重み係数である。
【0040】
報酬値差分予測部4は、報酬値差分ΔRpredを予測する(図6のステップST4)。
以下、報酬値差分予測部4による報酬値差分ΔRpredの予測処理を具体的に説明する。
報酬値差分予測部4の割当結果差異検出部5は、第1の時刻におけるスケジュール情報Sと第2の時刻におけるスケジュール情報Sとを取得する。
割当結果差異検出部5は、図10に示すように、スケジュール情報Sとスケジュール情報Sとの差異を検出し、差異を示す差異情報dabを差分予測処理部6に出力する。変更コスト算出部3が、式(4)によって、変更コストCabを算出する場合、割当結果差異検出部5は、差異情報dabを変更コスト算出部3に対しても出力する。
図10Aは、航空機jの割り当て順序が先頭から数えて4番目から最後尾に変更された場合の差異情報dabを示す説明図である。
図10Bは、スケジュール情報Sに含まれていなかった航空機jが、スケジュール情報Sに含まれた場合の差異情報dabを示す説明図である。
図10A及び図10Bにおいて、○の中の数字は、航空機を識別するIDである。ただし、jの記号は省略している。
スケジュール情報Sとスケジュール情報Sとの差異が無ければ、dab=0であり、スケジュール情報Sとスケジュール情報Sとの差異があれば、dab=1である。
【0041】
差分予測処理部6の第1の予測処理部6aは、第1の割当結果取得部1から第1の割当結果Xを取得し、割当結果差異検出部5から差異情報dabを取得する。
第1の予測処理部6aは、差異情報dabが“1”であれば、第1の割当結果Xを報酬値予測用の学習モデル6cに与えて、学習モデル6cから、第1の報酬値Rpredaを取得する。
第1の予測処理部6aは、第1の報酬値Rpredaを差分算出処理部6dに出力する。
【0042】
差分予測処理部6の第2の予測処理部6bは、第2の割当結果取得部2から第2の割当結果Xを取得し、割当結果差異検出部5から差異情報dabを取得する。
第2の予測処理部6bは、差異情報dabが“1”であれば、第2の割当結果Xを報酬値予測用の学習モデル6cに与えて、学習モデル6cから、第2の報酬値Rpredbを取得する。
第2の予測処理部6bは、第2の報酬値Rpredbを差分算出処理部6dに出力する。
【0043】
差分算出処理部6dは、第1の予測処理部6aから第1の報酬値Rpredaを取得し、第2の予測処理部6bから第2の報酬値Rpredbを取得する。
差分算出処理部6dは、以下の式(5)に示すように、第2の報酬値Rpredbから第1の報酬値Rpredaを減算することで、第1の報酬値Rpredaと第2の報酬値Rpredbとの報酬値差分ΔRpredを算出する。報酬値差分ΔRpredがマイナスの値である場合、第2の割当結果Xを選択した場合のコストは、第1の割当結果Xを選択した場合のコストよりも高い。報酬値差分ΔRpredがプラスの値である場合、第2の割当結果Xを選択した場合のコストは、第1の割当結果Xを選択した場合のコストよりも低い。
ΔRpred=Rpredb-Rpreda (5)
差分算出処理部6dは、報酬値差分ΔRpredを割当結果選択部7に出力する。
【0044】
割当結果選択部7は、第1の割当結果取得部1から第1の割当結果Xを取得し、第2の割当結果取得部2から第2の割当結果Xを取得する。
割当結果選択部7は、変更コスト算出部3により算出された変更コストCabと報酬値差分予測部4により予測された報酬値差分ΔRpredとに基づいて、第1の割当結果X、又は、第2の割当結果Xを選択する(図6のステップST5)。
即ち、割当結果選択部7は、報酬値差分予測部4により予測された報酬値差分ΔRpredが0よりも大きく、かつ、変更コストCabがコスト閾値Thc以下であれば、第2の割当結果Xを選択する。
割当結果選択部7は、報酬値差分ΔRpredが0以下、又は、変更コストCabがコスト閾値Thcよりも大きければ、第1の割当結果Xを選択する。
【0045】
図1に示す割当結果決定装置では、割当結果選択部7が、変更コストCabと報酬値差分ΔRpredとに基づいて、第1の割当結果X、又は、第2の割当結果Xを選択している。しかし、これは一例に過ぎず、割当結果選択部7は、変更コストCabのみに基づいて、第1の割当結果X、又は、第2の割当結果Xを選択するようにしてもよい。割当結果選択部7が、変更コストCabのみに基づいて、第1の割当結果X、又は、第2の割当結果Xを選択する場合、割当結果決定装置は、報酬値差分予測部4を備える必要がない。
また、割当結果選択部7は、報酬値差分ΔRpredのみに基づいて、第1の割当結果X、又は、第2の割当結果Xを選択するようにしてもよい。割当結果選択部7が、報酬値差分ΔRpredのみに基づいて、第1の割当結果X、又は、第2の割当結果Xを選択する場合、割当結果決定装置は、変更コスト算出部3を備える必要がない。
【0046】
以上の実施の形態1では、複数の割当対象物に対する割り当て順序を示す割当結果として、第1の時刻のときに決定された第1の割当結果と、第1の時刻よりも後の時刻である第2の時刻のときに決定された第2の割当結果とを取得し、割当結果を第1の割当結果から第2の割当結果に変更した場合のコストの増加量である変更コストを算出する変更コスト算出部3を備えるように、割当結果決定装置を構成した。また、割当結果決定装置は、変更コスト算出部3により算出された変更コストに基づいて、第1の割当結果、又は、第2の割当結果を選択する割当結果選択部7を備えている。したがって、割当結果決定装置は、複数の割当対象物に対する割り当て順序を示す割当結果として、第1の割当結果が決定された後に、第2の割当結果が決定された場合に、コストに基づいて、第1の割当結果、又は、第2の割当結果を選択することができる。
【0047】
実施の形態2.
実施の形態2では、学習モデル10cを更新する報酬値差分予測部9を備える割当結果決定装置について説明する。
【0048】
図11は、実施の形態2に係る割当結果決定装置を示す構成図である。図11において、図1と同一符号は同一又は相当部分を示すので説明を省略する。
図12は、実施の形態2に係る割当結果決定装置のハードウェアを示すハードウェア構成図である。図12において、図2と同一符号は同一又は相当部分を示すので説明を省略する。
図11に示す割当結果決定装置は、第1の割当結果取得部1、第2の割当結果取得部2、変更コスト算出部3、報酬値差分予測部9、割当結果選択部7及び報酬値差分算出部8を備えている。
【0049】
報酬値差分算出部8は、例えば、図12に示す報酬値差分算出回路28によって実現される。
報酬値差分算出部8は、第1の割当結果Xを報酬関数に与えて第1の報酬値Rを算出し、第2の割当結果Xを報酬関数に与えて第2の報酬値Rを算出する。
報酬値差分算出部8は、第2の報酬値Rから第1の報酬値Rを減算することで、第1の報酬値Rと第2の報酬値Rとの報酬値差分ΔRを算出する。
報酬値差分算出部8は、報酬値差分ΔRを報酬値差分予測部9に出力する。
【0050】
報酬値差分予測部9は、例えば、図12に示す報酬値差分予測回路29によって実現される。
報酬値差分予測部9は、割当結果差異検出部5及び差分予測処理部10を備えている。
報酬値差分予測部9は、1の割当結果X及び第2の割当結果Xのそれぞれを図14に示す報酬値予測用の学習モデル10cに与えて、学習モデル10cから、第1の割当結果Xの良否の程度を示す第1の報酬値Rpredaと第2の割当結果Xの良否の程度を示す第2の報酬値Rpredbとを取得する。
報酬値差分予測部9は、第2の報酬値Rpredbから第1の報酬値Rpredaを減算することで、第1の報酬値Rpredaと第2の報酬値Rpredbとの報酬値差分ΔRpredを予測する。
報酬値差分予測部9は、報酬値差分ΔRpredを割当結果選択部7に出力する。
また、報酬値差分予測部9は、予測した報酬値差分ΔRpredと、報酬値差分算出部8により算出された報酬値差分ΔRとの差異が小さくなるように、学習モデル10cを更新する。
【0051】
図11では、割当結果決定装置の構成要素である第1の割当結果取得部1、第2の割当結果取得部2、変更コスト算出部3、報酬値差分予測部9、割当結果選択部7及び報酬値差分算出部8のそれぞれが、図12に示すような専用のハードウェアによって実現されるものを想定している。即ち、割当結果決定装置が、第1の割当結果取得回路21、第2の割当結果取得回路22、変更コスト算出回路23、報酬値差分予測回路29、割当結果選択回路27及び報酬値差分算出回路28によって実現されるものを想定している。
第1の割当結果取得回路21、第2の割当結果取得回路22、変更コスト算出回路23、報酬値差分予測回路29、割当結果選択回路27及び報酬値差分算出回路28のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
【0052】
割当結果決定装置の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、割当結果決定装置が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
割当結果決定装置が、ソフトウェア又はファームウェア等によって実現される場合、第1の割当結果取得部1、第2の割当結果取得部2、変更コスト算出部3、報酬値差分予測部9、割当結果選択部7及び報酬値差分算出部8におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図3に示すメモリ41に格納される。そして、図3に示すプロセッサ42がメモリ41に格納されているプログラムを実行する。
【0053】
また、図12では、割当結果決定装置の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図3では、割当結果決定装置がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、割当結果決定装置における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
【0054】
図13は、実施の形態2に係る割当結果決定装置の報酬値差分算出部8を示す構成図である。
図13に示す報酬値差分算出部8は、第1の報酬値算出部8a、第2の報酬値算出部8b及び差分算出処理部8cを備えている。
第1の報酬値算出部8aは、第1の割当結果取得部1から第1の割当結果Xを取得する。
第1の報酬値算出部8aは、第1の割当結果Xを報酬関数に与えて第1の報酬値Rを算出し、第1の報酬値Rを差分算出処理部8cに出力する。
【0055】
第2の報酬値算出部8bは、第2の割当結果取得部2から第2の割当結果Xを取得する。
第2の報酬値算出部8bは、第2の割当結果Xを報酬関数に与えて第2の報酬値Rを算出し、第2の報酬値Rを差分算出処理部8cに出力する。
差分算出処理部8cは、第1の報酬値算出部8aから第1の報酬値Rを取得し、第2の割当結果取得部2から第2の報酬値Rを取得する。
差分算出処理部8cは、第2の報酬値Rから第1の報酬値Rを減算することで、第1の報酬値Rと第2の報酬値Rとの報酬値差分ΔRを算出する。
差分算出処理部8cは、報酬値差分ΔRを報酬値差分予測部9に出力する。
【0056】
図14は、実施の形態2に係る割当結果決定装置の差分予測処理部10を示す構成図である。
図14に示す差分予測処理部10は、第1の予測処理部10a、第2の予測処理部10b、報酬値予測用の学習モデル10c及び差分算出処理部10dを備えている。
【0057】
第1の予測処理部10aは、割当結果差異検出部5から出力された差異情報dabが、差異がある旨を示していれば、第1の割当結果取得部1から出力された第1の割当結果Xを報酬値予測用の学習モデル10cに与えて、学習モデル10cから、第1の報酬値Rpredaを取得する。
第1の予測処理部10aは、第1の報酬値Rpredaを差分算出処理部10dに出力する。
【0058】
第2の予測処理部10bは、割当結果差異検出部5から出力された差異情報dabが、差異がある旨を示していれば、第2の割当結果取得部2から出力された第2の割当結果Xを報酬値予測用の学習モデル10cに与えて、学習モデル10cから、第2の報酬値Rpredbを取得する。
第2の予測処理部10bは、第2の報酬値Rpredbを差分算出処理部10dに出力する。
【0059】
報酬値予測用の学習モデル10cは、学習時において、入力データとして、割当結果Xが与えられ、教師データとして、報酬値Rpredが与えられ、報酬値Rpredを学習している。
学習モデル10cは、推論時において、第1の割当結果X、又は、第2の割当結果Xが与えられたとき、第1の割当結果Xに対応する第1の報酬値Rpreda、又は、第2の割当結果Xに対応する第2の報酬値Rpredbを出力する。
ここでは、学習モデル10cが、教師あり学習によって学習している。しかし、これは一例に過ぎず、学習モデル10cは、例えば、教師なし学習、強化学習、又は、数理最適化手法によって学習しているものであってもよい。
【0060】
差分算出処理部10dは、第2の報酬値Rpredbから第1の報酬値Rpredaを減算することで、第1の報酬値Rpredaと第2の報酬値Rpredbとの報酬値差分ΔRpredを算出する。
【0061】
次に、図11に示す割当結果決定装置の動作について説明する。ただし、報酬値差分算出部8及び報酬値差分予測部9以外は、図1に示す割当結果決定装置と同様である。このため、ここでは、報酬値差分算出部8及び報酬値差分予測部9の動作のみを説明する。
【0062】
報酬値差分算出部8の第1の報酬値算出部8aは、第1の割当結果取得部1から第1の割当結果Xを取得する。
第1の報酬値算出部8aは、第1の割当結果Xを以下の式(6)に示すような報酬関数に与えて第1の報酬値Rを算出する。
=Rassigna+α・Rseparationa (6)
式(6)において、Rassignaは、それぞれの航空機の割当時刻が、適正な時刻であるか否かを評価するための評価値である。Rassignaは、第1の割当結果Xによって決まる値であり、それぞれの航空機の割当時刻が、割当可能な時刻の範囲内で早い時刻であるほど、大きな値になる。
separationaは、複数の航空機の割当間隔に関する評価値である。Rseparationaは、第1の割当結果Xによって決まる値であり、割当間隔が割当可能な最小間隔よりも大きければ、割当間隔が小さいほど、大きな値になる。
αは、重み係数である。
第1の報酬値算出部8aは、第1の報酬値Rを差分算出処理部8cに出力する。
【0063】
第2の報酬値算出部8bは、第2の割当結果取得部2から第2の割当結果Xを取得する。
第2の報酬値算出部8bは、第2の割当結果Xを以下の式(7)に示すような報酬関数に与えて第2の報酬値Rを算出する。
=Rassignb+β・Rseparationb (7)
式(7)において、Rassignbは、それぞれの航空機の割当時刻が、適正な時刻であるか否かを評価するための評価値である。Rassignbは、第2の割当結果Xによって決まる値であり、それぞれの航空機の割当時刻が、割当可能な時刻の範囲内で早い時刻であるほど、大きな値になる。
separationbは、複数の航空機の割当間隔に関する評価値である。Rseparationbは、第2の割当結果Xによって決まる値であり、割当間隔が割当可能な最小間隔よりも大きければ、割当間隔が小さいほど、大きな値になる。
βは、重み係数である。
第2の報酬値算出部8bは、第2の報酬値Rを差分算出処理部8cに出力する。
【0064】
差分算出処理部8cは、第1の報酬値算出部8aから第1の報酬値Rを取得し、第2の割当結果取得部2から第2の報酬値Rを取得する。
差分算出処理部8cは、以下の式(8)に示すように、第2の報酬値Rから第1の報酬値Rを減算することで、第1の報酬値Rと第2の報酬値Rとの報酬値差分ΔRを算出する。
ΔRpred=R-R(8)
差分算出処理部8cは、報酬値差分ΔRを報酬値差分予測部9の差分予測処理部10に出力する。
【0065】
差分予測処理部10の第1の予測処理部10aは、第1の割当結果取得部1から第1の割当結果Xを取得し、割当結果差異検出部5から差異情報dabを取得する。
第1の予測処理部10aは、差異情報dabが“1”であれば、第1の割当結果Xを報酬値予測用の学習モデル10cに与えて、学習モデル10cから、第1の報酬値Rpredaを取得する。
第1の予測処理部10aは、第1の報酬値Rpredaを差分算出処理部10dに出力する。
【0066】
第2の予測処理部10bは、第2の割当結果取得部2から第2の割当結果Xを取得し、割当結果差異検出部5から差異情報dabを取得する。
第2の予測処理部10bは、差異情報dabが“1”であれば、第2の割当結果Xを報酬値予測用の学習モデル10cに与えて、学習モデル10cから、第2の報酬値Rpredbを取得する。
第2の予測処理部10bは、第2の報酬値Rpredbを差分算出処理部10dに出力する。
【0067】
差分算出処理部10dは、第1の予測処理部10aから第1の報酬値Rpredaを取得し、第2の予測処理部10bから第2の報酬値Rpredbを取得する。
差分算出処理部10dは、上記の式(5)に示すように、第2の報酬値Rpredbから第1の報酬値Rpredaを減算することで、第1の報酬値Rpredaと第2の報酬値Rpredbとの報酬値差分ΔRpredを算出する。
差分算出処理部10dは、報酬値差分ΔRpredを割当結果選択部7に出力する。
【0068】
第1の予測処理部10a及び第2の予測処理部10bのそれぞれは、差分算出処理部10dにより算出された報酬値差分ΔRpredと、報酬値差分算出部8の差分算出処理部8cにより算出された報酬値差分ΔRとの差異が小さくなるように、学習モデル10cを更新する。
具体的には、第1の予測処理部10a及び第2の予測処理部10bのそれぞれは、(ΔR-ΔRpredが最小になるように、学習モデル10cの重みを更新する。
【0069】
以上の実施の形態2では、第1の割当結果を報酬関数に与えて第1の報酬値を算出し、第2の割当結果を報酬関数に与えて第2の報酬値を算出し、第2の報酬値から第1の報酬値を減算することで、第1の報酬値と第2の報酬値との報酬値差分を算出する報酬値差分算出部8を備えるように、図11に示す割当結果決定装置を構成した。また、図11に示す割当結果決定装置は、報酬値差分予測部9が、予測した報酬値差分と、報酬値差分算出部8により算出された報酬値差分との差異が小さくなるように、学習モデル10cを更新する。したがって、図11に示す割当結果決定装置は、図1に示す割当結果決定装置よりも、割当結果の選択精度を高めることができる。
【0070】
実施の形態3.
実施の形態3では、ペナルティ値算出部11を備える割当結果決定装置について説明する。
【0071】
図15は、実施の形態3に係る割当結果決定装置を示す構成図である。図15において、図1と同一符号は同一又は相当部分を示すので説明を省略する。
図16は、実施の形態3に係る割当結果決定装置のハードウェアを示すハードウェア構成図である。図16において、図2と同一符号は同一又は相当部分を示すので説明を省略する。
図15に示す割当結果決定装置は、第1の割当結果取得部1、第2の割当結果取得部15、変更コスト算出部3、報酬値差分予測部4、割当結果選択部7及びペナルティ値算出部11を備えている。
【0072】
ペナルティ値算出部11は、例えば、図16に示すペナルティ値算出回路31によって実現される。
ペナルティ値算出部11は、ペナルティ値算出処理部12、目的関数値算出部13及び関数値加算部14を備えている。
ペナルティ値算出部11は、割当結果選択部7により選択された割当結果に割当違反があれば、割当違反に対するペナルティ値を算出する。
ペナルティ値算出部11は、ペナルティ値を第2の割当結果取得部15に出力する。
【0073】
ペナルティ値算出処理部12は、割当結果選択部7により選択された割当結果に割当違反があれば、割当違反に対するペナルティ値を算出する。
ペナルティ値算出処理部12は、ペナルティ値を関数値加算部14に出力する。
目的関数値算出部13は、割当結果選択部7により選択された割当結果を目的関数に与えて、目的関数の値である目的関数値を算出する。
目的関数値算出部13は、目的関数値を関数値加算部14に出力する。
関数値加算部14は、ペナルティ値算出処理部12により算出されたペナルティ値に対して、目的関数値算出部13により算出された目的関数値を加算する。
関数値加算部14は、目的関数値加算後のペナルティ値を第2の割当結果取得部15に出力する。
【0074】
図15に示す割当結果決定装置では、ペナルティ値算出部11が、ペナルティ値算出処理部12、目的関数値算出部13及び関数値加算部14を備えている。しかし、これは一例に過ぎず、例えば、ペナルティ値算出部11が、ペナルティ値算出処理部12、又は、目的関数値算出部13のいずれか一方だけを備えるものであってもよい。ペナルティ値算出部11が、ペナルティ値算出処理部12のみを備える場合、ペナルティ値算出処理部12により算出されたペナルティ値を第2の割当結果取得部15に出力する。ペナルティ値算出部11が、目的関数値算出部13のみを備える場合、目的関数値をペナルティ値として第2の割当結果取得部15に出力する。
【0075】
第2の割当結果取得部15は、例えば、図16に示す第2の割当結果取得回路35によって実現される。
第2の割当結果取得部15は、第2の時刻におけるスケジュール情報Sを第2の学習モデル15aに与えて、第2の学習モデル15aから第2の割当結果Xを取得する。
第2の割当結果取得部15は、第2の割当結果Xを変更コスト算出部3、報酬値差分予測部4及び割当結果選択部7のそれぞれに出力する。
また、第2の割当結果取得部15は、ペナルティ値算出部11により算出されたペナルティ値が小さくなるように、第2の学習モデル15aを更新する。
【0076】
第2の学習モデル15aは、学習時において、入力データとして、複数の航空機のスケジュール情報Sが与えられ、教師データとして、複数の航空機の離着陸の割り当て順序を示す割当結果Xが与えられ、割当結果Xを学習している。
第2の学習モデル15aは、推論時において、複数の航空機のスケジュール情報Sが与えられたとき、スケジュール情報Sに対応する第2の割当結果Xを出力する。
ここでは、第2の学習モデル15aが、教師あり学習によって学習している。しかし、これは一例に過ぎず、第2の学習モデル15aは、例えば、教師なし学習、強化学習、又は、数理最適化手法によって学習しているものであってもよい。
【0077】
図15に示す割当結果決定装置は、第2の割当結果取得部15及びペナルティ値算出部11のそれぞれが、図1に示す割当結果決定装置に適用されているものである。しかし、これは一例に過ぎず、第2の割当結果取得部15及びペナルティ値算出部11のそれぞれが、図11に示す割当結果決定装置に適用されているものであってもよい。
【0078】
図15では、割当結果決定装置の構成要素である第1の割当結果取得部1、第2の割当結果取得部15、変更コスト算出部3、報酬値差分予測部4、割当結果選択部7及びペナルティ値算出部11のそれぞれが、図16に示すような専用のハードウェアによって実現されるものを想定している。即ち、割当結果決定装置が、第1の割当結果取得回路21、第2の割当結果取得回路35、変更コスト算出回路23、報酬値差分予測回路24、割当結果選択回路27及びペナルティ値算出回路31によって実現されるものを想定している。
第1の割当結果取得回路21、第2の割当結果取得回路35、変更コスト算出回路23、報酬値差分予測回路24、割当結果選択回路27及びペナルティ値算出回路31のそれぞれは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又は、これらを組み合わせたものが該当する。
【0079】
割当結果決定装置の構成要素は、専用のハードウェアによって実現されるものに限るものではなく、割当結果決定装置が、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現されるものであってもよい。
割当結果決定装置が、ソフトウェア又はファームウェア等によって実現される場合、第1の割当結果取得部1、第2の割当結果取得部15、変更コスト算出部3、報酬値差分予測部4、割当結果選択部7及びペナルティ値算出部11におけるそれぞれの処理手順をコンピュータに実行させるためのプログラムが図3に示すメモリ41に格納される。そして、図3に示すプロセッサ42がメモリ41に格納されているプログラムを実行する。
【0080】
また、図16では、割当結果決定装置の構成要素のそれぞれが専用のハードウェアによって実現される例を示し、図3では、割当結果決定装置がソフトウェア又はファームウェア等によって実現される例を示している。しかし、これは一例に過ぎず、割当結果決定装置における一部の構成要素が専用のハードウェアによって実現され、残りの構成要素がソフトウェア又はファームウェア等によって実現されるものであってもよい。
【0081】
次に、図15に示す割当結果決定装置の動作について説明する。ただし、ペナルティ値算出部11及び第2の割当結果取得部15以外は、図1に示す割当結果決定装置と同様である。このため、ここでは、ペナルティ値算出部11及び第2の割当結果取得部15の動作のみを説明する。
【0082】
ペナルティ値算出部11のペナルティ値算出処理部12は、割当結果選択部7により選択された割当結果Xselとして、第1の割当結果X、又は、第2の割当結果Xを取得する。
ペナルティ値算出処理部12は、割当結果Xselが示すそれぞれの航空機の割当時刻が、割当可能な時刻であるか否かを判定する。
図17Aは、割当可能な時刻と割当不可能な時刻とを示す説明図である。
図17Aにおいて、t,t,・・・・,tは、時刻であり、j,j,・・・・,jは、航空機を識別するIDである。
“0”は、割当不可能な時刻を示し、“1”は、割当可能な時刻を示している。
割当結果Xselが示すそれぞれの航空機の割当時刻が、割当可能な時刻に割り当てられていれば、割当結果に割当違反がなく、割当不可能な時刻に割り当てられていれば、割当結果に割当違反がある。
【0083】
図17Bは、ペナルティ表を示す説明図である。
図17Bに示すペナルティ表は、割当可能な時刻に割り当てられた場合のペナルティ値と、割当不可能な時刻に割り当てられた場合のペナルティ値とを示している。
図17Bの例では、割当可能な時刻に割り当てられた場合のペナルティ値は、“0”であり、割当不可能な時刻に割り当てられた場合のペナルティ値は、マイナスの値である。
例えば、割当可能な時刻よりも早い時刻に割り当てられた場合のペナルティ値は、割当可能な時刻よりも早い時刻の割当ほど、絶対値が大きい。
ペナルティ値算出処理部12は、割当違反があれば、図17Bに示すペナルティ表を参照して、ペナルティ値pを算出する。
例えば、航空機jが時刻tに割り当てられる割当違反と、航空機jが時刻tに割り当てられる割当違反とがあれば、ペナルティ値pは、-510(=-500-10)になる。
例えば、航空機jが時刻tに割り当てられる割当違反のみがあれば、ペナルティ値pは、-5になる。
ペナルティ値算出処理部12は、ペナルティ値pを関数値加算部14に出力する。
【0084】
ここでは、ペナルティ値算出処理部12が、図17Bに示すペナルティ表を参照して、ペナルティ値を算出している。しかし、これは一例に過ぎず、例えば、ペナルティ値算出処理部12は、割当結果Xselを以下の式(9)に示すようなペナルティ関数p(Xsel)に与えて、ペナルティ関数p(Xsel)の値であるペナルティ値pを算出するようにしてもよい。
【0085】


式(9)において、ペナルティ関数p(Xsel)は、減衰関数であり、割当違反がなければ、0である。
γは係数であり、j=j,j,・・・・,Jである。
【0086】
目的関数値算出部13は、割当結果選択部7により選択された割当結果Xselとして、第1の割当結果X、又は、第2の割当結果Xを取得する。
目的関数値算出部13は、割当結果Xselを以下の式(10)に示すような目的関数f(Xsel)に与えて、目的関数f(Xsel)の値である目的関数値fを算出する。
f(Xsel)=fassign+ε・fseparation (10)
式(10)において、fassignは、割当結果Xselによって決まる値である。fassignは、割当結果Xselが示すそれぞれの航空機の割当時刻が、割当可能な時刻の範囲内であれば、割当時刻が割当可能時刻の範囲内で早い時刻であるほど、大きな値になる。割当結果Xselが示すそれぞれの航空機の割当時刻が、割当不可能な時刻であれば、fassignは、-1000等の小さな値になる。
separationは、割当結果Xselによって決まる値である。fseparationは、割当間隔が割当可能な最小間隔よりも大きければ、割当間隔が小さいほど、大きな値になる。割当間隔が割当可能な最小間隔よりも小さければ、fseparationは、-1000等の小さな値になる。
εは、重み係数である。
目的関数値算出部13は、目的関数値fを関数値加算部14に出力する。
【0087】
関数値加算部14は、ペナルティ値算出処理部12からペナルティ値pを取得し、目的関数値算出部13から目的関数値fを取得する。
関数値加算部14は、以下の式(11)に示すように、ペナルティ関数pと目的関数値fとを重み付け加算する。
p’=p+δ・f (11)
式(11)において、δは、重み係数である。
関数値加算部14は、目的関数値加算後のペナルティ値p’を第2の割当結果取得部15に出力する。
【0088】
第2の割当結果取得部15は、ペナルティ値算出部11からペナルティ値p’が与えられると、ペナルティ値p’が小さくなるように、第2の学習モデル15aを更新する。
第2の割当結果取得部15は、第2の時刻におけるスケジュール情報Sが与えられると、スケジュール情報Sを第2の学習モデル15aに与えて、第2の学習モデル15aから第2の割当結果Xを取得する。
第2の割当結果取得部15は、第2の割当結果Xを変更コスト算出部3、報酬値差分予測部4及び割当結果選択部7のそれぞれに出力する。
【0089】
以上の実施の形態3では、割当結果選択部7により選択された割当結果に割当違反があれば、割当違反に対するペナルティ値を算出するペナルティ値算出部11を備えように、図15に示す割当結果決定装置を構成した。また、図15に示す割当結果決定装置は、第2の割当結果取得部15が、ペナルティ値算出部11により算出されたペナルティ値が小さくなるように、第2の学習モデル15aを更新する。したがって、図15に示す割当結果決定装置は、図1に示す割当結果決定装置よりも、割当結果の選択精度を高めることができる。
【0090】
なお、本開示は、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
【産業上の利用可能性】
【0091】
本開示は、割当結果決定装置及び割当結果決定方法に適している。
【符号の説明】
【0092】
1 第1の割当結果取得部、1a 第1の学習モデル、2 第2の割当結果取得部、2a 第2の学習モデル、3 変更コスト算出部、4 報酬値差分予測部、5 割当結果差異検出部、6 差分予測処理部、6a 第1の予測処理部、6b 第2の予測処理部、6c 学習モデル、6d 差分算出処理部、7 割当結果選択部、8 報酬値差分算出部、8a 第1の報酬値算出部、8b 第2の報酬値算出部、8c 差分算出処理部、9 報酬値差分予測部、10 差分予測処理部、10a 第1の予測処理部、10b 第2の予測処理部、10c 学習モデル、10d 差分算出処理部、11 ペナルティ値算出部、12 ペナルティ値算出処理部、13 目的関数値算出部、14 関数値加算部、15 第2の割当結果取得部、15a 第2の学習モデル、21 第1の割当結果取得回路、22 第2の割当結果取得回路、23 変更コスト算出回路、24 報酬値差分予測回路、27 割当結果選択回路、28 報酬値差分算出回路、29 報酬値差分予測回路、31 ペナルティ値算出回路、35 第2の割当結果取得回路、41 メモリ、42 プロセッサ。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17