(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024110798
(43)【公開日】2024-08-16
(54)【発明の名称】情報処理装置、廃棄物の処理システム、探索方法、および探索プログラム
(51)【国際特許分類】
G06N 99/00 20190101AFI20240808BHJP
B65F 5/00 20060101ALI20240808BHJP
【FI】
G06N99/00 180
B65F5/00
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023015615
(22)【出願日】2023-02-03
(71)【出願人】
【識別番号】000005119
【氏名又は名称】日立造船株式会社
(71)【出願人】
【識別番号】504143441
【氏名又は名称】国立大学法人 奈良先端科学技術大学院大学
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】松原 崇充
(72)【発明者】
【氏名】佐々木 光
(72)【発明者】
【氏名】権 裕煥
(72)【発明者】
【氏名】平林 照司
(72)【発明者】
【氏名】川端 馨
(72)【発明者】
【氏名】伊瀬 顕史
【テーマコード(参考)】
3E025
【Fターム(参考)】
3E025AA07
3E025DC06
3E025EA10
3E025EB01
3E025EB10
(57)【要約】
【課題】廃棄物の処理タスクを実行する機器のための適切な制御パラメータの導出。
【解決手段】情報処理装置(4)は、廃棄物の処理タスク用の制御パラメータの最適値の複数の候補のそれぞれを適用して実行されたタスクが実行される様子を観察した評価者が候補を評価した評価結果を取得する評価結果取得部(406)と、該評価結果を用いて評価関数の予測分布を更新する予測分布算出部(402)と、更新された予測分布に基づいて制御パラメータの最適値の候補を探索する探索部(403)と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
廃棄物を処理する所定のタスクを機器に実行させるための制御パラメータについて、当該制御パラメータの最適値の複数の候補のそれぞれを適用して実行された前記タスクが実行される様子を観察した評価者が前記候補を評価した評価結果を取得する評価結果取得部と、
前記評価結果を用いて、前記制御パラメータを評価する評価関数の予測分布を更新する予測分布更新部と、
更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する探索部と、を備える情報処理装置。
【請求項2】
前記探索部により、前記候補を複数探索する処理と、
前記評価結果取得部により、前記探索部が検出した候補のそれぞれを適用して実行された前記タスクが実行される様子を観察した前記評価者が前記候補を評価した評価結果を取得する処理と、
前記予測分布更新部により、前記評価結果を用いて前記予測分布を更新する処理と、
前記探索部により、更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する処理と、を所定の条件が満たされるまで繰り返す、請求項1に記載の情報処理装置。
【請求項3】
複数の前記候補のそれぞれについて、当該候補を適用して実行された前記タスクの様子を撮影した動画像または時系列を構成する複数の静止画像を、前記評価者に同時に提示する表示制御部を備え、
前記評価結果取得部は、前記動画像または前記静止画像を介して前記タスクが実行される様子を観察した前記評価者による前記候補の評価結果を取得する、請求項1または2に記載の情報処理装置。
【請求項4】
前記候補を適用して前記機器に前記タスクを実行させる機器制御部を備え、
前記評価結果取得部は、前記機器制御部の制御により実行された前記タスクの様子を観察した前記評価者による前記候補の評価結果を取得する、請求項1または2に記載の情報処理装置。
【請求項5】
前記評価結果取得部は、それぞれ異なる前記候補を適用して実行された前記タスクの組について、前記評価者が相対的に好ましいと評価した候補を示す前記評価結果を取得し、
前記予測分布更新部は、前記評価結果に示される、前記組に対する選好関係に基づいて前記予測分布を更新する、請求項1または2に記載の情報処理装置。
【請求項6】
前記組に含まれる何れの候補も好ましいと評価されなかった場合に、当該候補に対し、過去に好ましいと評価された候補を対応付けた評価結果を生成する評価結果生成部を備える、請求項5に記載の情報処理装置。
【請求項7】
廃棄物を処理する所定のタスクを実行する機器と、
前記タスクを前記機器に実行させるための制御パラメータの最適値の複数の候補のそれぞれを適用して実行された前記タスクの様子を撮影する撮影装置と、
前記撮影装置が撮影した動画像または時系列を構成する複数の静止画像を表示する表示装置と、
前記表示装置に表示される前記動画像または前記静止画像を介して前記タスクが実行される様子を観察した評価者が前記候補を評価した評価結果の入力を受け付ける入力装置と、
前記評価結果を用いて、前記制御パラメータを評価する評価関数の予測分布を更新し、更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する情報処理装置と、を含む廃棄物の処理システム。
【請求項8】
1または複数の情報処理装置により実行される探索方法であって、
廃棄物を処理する所定のタスクを機器に実行させるための制御パラメータについて、当該制御パラメータの最適値の複数の候補のそれぞれを適用して実行された前記タスクが実行される様子を観察した評価者が前記候補を評価した評価結果を取得する評価結果取得ステップと、
前記評価結果を用いて、前記制御パラメータを評価する評価関数の予測分布を更新する予測分布更新ステップと、
更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する探索ステップと、を含む探索方法。
【請求項9】
請求項1に記載の情報処理装置としてコンピュータを機能させるための探索プログラムであって、前記評価結果取得部、前記予測分布更新部、および前記探索部としてコンピュータを機能させるための探索プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、廃棄物を処理する機器の制御パラメータを算出する情報処理装置等に関する。
【背景技術】
【0002】
廃棄物の処理施設において、廃棄物を処理する機器の制御を自動化する試みが従来からなされている。例えば、下記の特許文献1には、ごみピットに貯留されているごみの撹拌度合いを定量化し、定量化したごみの撹拌度合いに基づいて、ごみピット内のごみを運搬するクレーンを自動制御する技術が開示されている。この文献に記載の技術では、撹拌回数に基づいて撹拌度合いを定量化し、その撹拌度合いに基づいて、ごみをつかむ位置と、つかみあげたごみの投下位置と、を指定したクレーン制御指示を生成する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ごみピットに貯留されるごみは、材質も状態も様々なごみが入り混じった不均質なものであり、その性質が一定しない。このため、特許文献1の技術を実際のごみピットにおけるごみの撹拌に適用した場合、想定していた量のごみをつかみ上げることができなかったり、想定していたよりも大量のごみをつかみ上げてしまったりすることが予想される。
【0005】
つまり、廃棄物を処理する機器の自動制御を高精度化するためには、機器にどのようなタスクを行わせるかだけでなく、当該タスクを機器に実行させる制御パラメータを適切に設定する必要がある。制御パラメータの最適化の手法としては、複数の異なる値の制御パラメータを適用してタスクを実行させ、タスク実行中にセンサ等で測定した測定値から、各制御パラメータの良し悪しを評価するという手法が知られている。
【0006】
しかしながら、クレーンによる廃棄物の運搬に限らず、廃棄物の処理における適切な制御パラメータを導出することは容易ではない。廃棄物処理施設ではセンサの取り付けが難しい場所も多く、また、センサの測定値による評価が難しいタスクも存在するためである。
【0007】
本発明の一態様は、廃棄物を処理する所定のタスクを実行する機器のための適切な制御パラメータを導出することが可能な情報処理装置等を実現することを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、廃棄物を処理する所定のタスクを機器に実行させるための制御パラメータについて、当該制御パラメータの最適値の複数の候補のそれぞれを適用して実行された前記タスクが実行される様子を観察した評価者が前記候補を評価した評価結果を取得する評価結果取得部と、前記評価結果を用いて、前記制御パラメータを評価する評価関数の予測分布を更新する予測分布更新部と、更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する探索部と、を備える。
【0009】
上記の課題を解決するために、本発明の一態様に係る廃棄物の処理システムは、廃棄物を処理する所定のタスクを実行する機器と、前記タスクを前記機器に実行させるための制御パラメータの最適値の複数の候補のそれぞれを適用して実行された前記タスクの様子を撮影する撮影装置と、前記撮影装置が撮影した動画像または時系列を構成する複数の静止画像を表示する表示装置と、前記表示装置に表示される前記動画像または前記静止画像を介して前記タスクが実行される様子を観察した評価者が前記候補を評価した評価結果の入力を受け付ける入力装置と、前記評価結果を用いて、前記制御パラメータを評価する評価関数の予測分布を更新し、更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する情報処理装置と、を含む。
【0010】
上記の課題を解決するために、本発明の一態様に係る探索方法は、1または複数の情報処理装置により実行される探索方法であって、廃棄物を処理する所定のタスクを機器に実行させるための制御パラメータについて、当該制御パラメータの最適値の複数の候補のそれぞれを適用して実行された前記タスクが実行される様子を観察した評価者が前記候補を評価した評価結果を取得する評価結果取得ステップと、前記評価結果を用いて、前記制御パラメータを評価する評価関数の予測分布を更新する予測分布更新ステップと、更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する探索ステップと、を含む。
【発明の効果】
【0011】
本発明の一態様によれば、廃棄物を処理する所定のタスクを実行する機器のための適切な制御パラメータを導出することが可能になる。
【図面の簡単な説明】
【0012】
【
図1】本発明の一実施形態に係る情報処理装置の要部構成を示すブロック図である。
【
図2】本発明の一実施形態に係る廃棄物の処理システムの概要を示す図である。
【
図4】本発明の一実施形態に係る探索方法を示すフローチャートである。
【発明を実施するための形態】
【0013】
〔システム概要〕
本発明の一実施形態に係る廃棄物の処理システム10の概要を
図2に基づいて説明する。
図2は、廃棄物の処理システム10の概要を示す図である。図示のように、処理システム10には、制御装置1、クレーン2、撮影装置3、情報処理装置4、表示装置5、および入力装置6が含まれる。
【0014】
処理システム10は、廃棄物を処理するシステムである。本実施形態では、廃棄物を処理する機器がクレーン2であり、クレーン2の動作を制御装置1によって制御する例を説明する。情報処理装置4は、制御装置1が実行する制御の内容を規定する制御パラメータを算出する。情報処理装置4が適切な制御パラメータを算出することにより、制御装置1によるクレーン2の適切な自動制御が実現される。
【0015】
なお、廃棄物を処理するタスクを実行する機器は任意であり、クレーン2に限られない。例えば、廃棄物を焼却処理する場合には、その燃焼制御に関わる各種機器を制御対象としてもよい。以下の説明における「クレーン」は、廃棄物を処理するタスクを実行する任意の「機器」に読み替えることができる。
【0016】
クレーン2は、廃棄物の運搬に用いられるクレーンである。廃棄物の運搬は例えば廃棄物を貯留するピット等で行われる。クレーン2は、例えば、廃棄物をつかむ複数の爪を備えたバケット、バケットの爪を開閉させる開閉機構、バケットを昇降させる昇降機構、バケットを水平方向に移動させる移動機構等を備えていてもよい。この場合、制御装置1は、開閉機構、昇降機構、および移動機構を制御することにより、クレーン2に廃棄物のピット内での運搬や撹拌、廃棄物のホッパへの投入等のタスクを行わせることができる。
【0017】
クレーン2に所定のタスクを行わせるための制御パラメータは予め設定しておけばよい。例えば、バケットでつかみ上げた廃棄物を、バケットを水平方向に移動させながら開閉させて、バケットの移動経路上に廃棄物をばらまくことにより、当該廃棄物を撹拌するタスクをクレーン2に実行させるとする。この場合、例えば、バケットの開閉制御のタイミングを特定できるような制御パラメータを設定すればよい。
【0018】
詳細は後述するが、情報処理装置4は、制御パラメータの最適値の候補を複数探索する。そして、制御装置1は、探索にて検出された各制御パラメータに従ってクレーン2を制御し、クレーン2にタスクを実行させる。
【0019】
また、撮影装置3は、制御パラメータの最適値の複数の候補のそれぞれを適用して実行されたタスクの様子を撮影する。撮影装置3は、タスクの様子の良し悪しが判別できるような画像を撮影できるものであればよく、動画像または時系列を構成する複数の静止画像を撮影するものであることが好ましい。
【0020】
撮影装置3によって撮影された画像は、表示装置5に表示される。
図2の例では、制御パラメータw
Aを適用して実行されたタスクの様子を示す画像A1と、制御パラメータw
Bを適用して実行されたタスクの様子を示す画像A2が表示装置5に表示されている。また、画像A1、A2のそれぞれには、評価者による評価結果の入力を受け付けるためのオブジェクトA3およびA4が対応付けて表示されている。
【0021】
評価者は、画像A1に示されるタスクの様子と画像A2に示されるタスクの様子の何れが好ましいかを判断し、その判断結果に応じて、オブジェクトA3またはA4を、入力装置6を介してカーソルCUR1により選択する。例えば、評価者は、画像A1に示されるタスクの様子の方が好ましいと判断したときにはオブジェクトA3を選択する。このようなタスクの様子に対する評価は、各タスクにおいて適用された制御パラメータの候補である制御パラメータwAと制御パラメータwBの何れがより好ましいかを評価することに等しい。なお、評価者には、タスクの目的や、どのような制御が好ましい制御であるか等の評価の基準となる情報を予め伝えておく。ただし、評価者は、クレーン2の運転技能を有する者である必要はない。
【0022】
評価者の評価結果は情報処理装置4に出力されて、制御パラメータの最適値の候補の探索に用いられる。具体的には、情報処理装置4は、評価結果を用いて、制御パラメータを評価する評価関数の予測分布を更新し、更新された予測分布に基づいて制御パラメータの最適値の候補を探索する。
【0023】
そして、制御装置1は新たに検出された制御パラメータを用いて再度クレーン2にタスクを実行させる。このような処理を繰り返すことにより、情報処理装置4は、所望の制御結果が期待できる制御パラメータを決定することができる。そして、これにより、制御装置1によるクレーン2の適切な自動制御が実現される。
【0024】
以上のように、処理システム10は、廃棄物を処理する所定のタスクを実行する機器であるクレーン2と、上記タスクをクレーン2に実行させるための制御パラメータの最適値の複数の候補のそれぞれを適用して実行されたタスクの様子を撮影する撮影装置3と、撮影装置3が撮影した動画像または時系列を構成する複数の静止画像を表示する表示装置5と、表示装置5に表示される動画像または静止画像を介してタスクが実行される様子を観察した評価者が候補を評価した評価結果の入力を受け付ける入力装置6と、当該評価結果を用いて、制御パラメータを評価する評価関数の予測分布を更新し、更新された予測分布に基づいて制御パラメータの最適値の候補を探索する情報処理装置4と、を含む。
【0025】
ここで、不均質な廃棄物を処理するタスクに適用する制御パラメータの良し悪しを評価する評価関数を定式化することは難易度が高い。そこで、処理システム10では、評価者による評価結果を用いて評価関数の予測分布を更新し、更新された予測分布に基づいて制御パラメータの最適値の候補を探索するという構成を採用している。これにより、評価関数の定式化が難しいタスクについても制御パラメータの最適値の候補を検出することが可能になる。したがって、処理システム10によれば、廃棄物を処理する所定のタスクを実行する機器のための適切な制御パラメータを導出することが可能になるという効果が得られる。
【0026】
なお、
図2の例では、情報処理装置4の外部の表示装置5に画像を表示させているが、情報処理装置4が表示装置を備えている場合、当該表示装置に動画像または時系列を構成する複数の静止画像を表示させてもよい。また、
図2には入力装置6がマウスである例を示しているが、入力装置6は評価者による評価結果の入力を受け付けるものであればよい。例えば、情報処理装置4がタッチパネルを備えている場合、当該タッチパネルを入力装置として評価結果の入力を受け付けてもよい。
【0027】
〔情報処理装置の構成〕
図1に基づいて情報処理装置4の構成を説明する。
図1は、情報処理装置4の要部構成を示すブロック図である。図示のように、情報処理装置4は、情報処理装置4の各部を統括して制御する制御部40と、情報処理装置4が使用する各種データを記憶する記憶部41を備えている。また、情報処理装置4は、情報処理装置4が他の装置と通信するための通信部42、入力IF(Interface)部43、および出力IF部44を備えている。
【0028】
入力IF部43を介して
図2に示すような入力装置6を情報処理装置4に接続することができ、また、出力IF部44を介して
図2に示すような表示装置5を情報処理装置4に接続することができる。なお、情報処理装置4が、入力を受け付ける入力部と、情報を表示する表示部とを備えていてもよい。
【0029】
また、制御部40には、制御パラメータ決定部401、予測分布算出部(予測分布更新部)402、探索部403、機器制御部404、表示制御部405、評価結果取得部406、および評価結果生成部407が含まれている。そして、記憶部41には、評価結果DB(Data Base)411が記憶されている。
【0030】
制御パラメータ決定部401は、クレーン2にタスクを実行させる際に適用する制御パラメータを決定する。制御パラメータ決定部401が決定する制御パラメータは、予測分布算出部402および探索部403により最適化された制御パラメータである。
【0031】
予測分布算出部402は、評価者による評価結果を用いて、制御パラメータを評価する評価関数の予測分布を算出する。また、予測分布算出部402は、予測分布を算出した後、新たな評価結果を取得したときには、当該評価結果に基づいて予測分布を更新する。なお、評価結果は、評価結果取得部406により取得され、評価結果DB411に記録されるから、予測分布算出部402は評価結果DB411から評価結果を読み出すことができる。
【0032】
探索部403は、予測分布算出部402が算出し、更新する予測分布に基づいて制御パラメータの最適値の候補を探索する。なお、予測分布の算出方法および候補の探索方法の詳細については後述する。
【0033】
機器制御部404は、探索部403が検出する最適な制御パラメータの候補を適用してクレーン2にタスクを実行させる。なお、本実施形態の機器制御部404は、制御装置1を介してクレーン2を制御してタスクを実行させるが、制御装置1を介さずにクレーン2を制御する構成としてもよい。この場合、情報処理装置4がクレーン2の制御装置を兼ねることになる。
【0034】
表示制御部405は、クレーン2により行われるタスクの様子を撮影した動画像または時系列を構成する複数の静止画像を表示装置5に表示させる。これにより、当該動画像または静止画像が評価者に提示される。なお、上述のように、クレーン2によるタスクの実行の際には、制御パラメータの最適値の候補が適用される。
【0035】
また、表示制御部405は、複数の候補のそれぞれについて、当該候補を適用して実行されたタスクの様子を撮影した動画像または時系列を構成する複数の静止画像を評価者に同時に提示してもよい。例えば、表示制御部405は、
図2の例のように、各候補に対応する動画像または静止画像を一画面に表示させることにより、それらを同時に提示することができる。
【0036】
評価結果取得部406は、廃棄物を処理する所定のタスクを機器に実行させるための制御パラメータについて、当該制御パラメータの最適値の複数の候補のそれぞれを適用して実行されたタスクが実行される様子を観察した評価者が上記候補を評価した評価結果を取得する。
【0037】
評価結果DB411には、評価者による候補の評価結果が記憶される。より詳細には、評価結果DB411に記憶される評価結果は、評価の対象となった制御パラメータの候補に対し、評価者の評価結果が対応付けられたものである。
【0038】
以上のように、情報処理装置4は、廃棄物を処理する所定のタスクを機器に実行させるための制御パラメータについて、当該制御パラメータの最適値の複数の候補のそれぞれを適用して実行されたタスクが実行される様子を観察した評価者が上記候補を評価した評価結果を取得する評価結果取得部406と、当該評価結果を用いて、上記制御パラメータを評価する評価関数の予測分布を更新する予測分布算出部402と、更新された予測分布に基づいて制御パラメータの最適値の候補を探索する探索部403と、を備える。よって、廃棄物を処理する所定のタスクを実行するクレーン2のための適切な制御パラメータを導出することが可能になる。
【0039】
また、情報処理装置4は、探索部403により、制御パラメータの最適値の候補を複数探索する処理と、評価結果取得部406により、探索部403が検出した候補のそれぞれを適用して実行されたタスクが実行される様子を観察した評価者が上記候補を評価した評価結果を取得する処理と、予測分布算出部402により、上記評価結果を用いて予測分布を更新する処理と、探索部403により、更新された予測分布に基づいて制御パラメータの最適値の候補を探索する処理と、を所定の条件が満たされるまで繰り返す。
【0040】
上記の構成によれば、評価の対象とする複数の候補を予測分布に基づく探索により検出するから、ランダムに候補を選択する場合等と比べて妥当性の高い候補を適用することができる。そして、これにより、少ない試行回数で効率よく適切な制御パラメータを導出することができる。
【0041】
また、情報処理装置4は、制御パラメータの最適値の複数の候補のそれぞれについて、当該候補を適用して実行されたタスクの様子を撮影した動画像または時系列を構成する複数の静止画像を評価者に同時に提示する表示制御部405を備えていてもよい。そして、評価結果取得部406は、動画像または静止画像を介してタスクが実行される様子を観察した評価者による上記候補の評価結果を取得してもよい。なお、表示制御部405は、時系列を構成する複数の静止画像を表示させる場合、それらの静止画像を時系列順に順次表示させる。
【0042】
上記の構成によれば、各候補を適用して実行されたタスクの様子を撮影した動画像または時系列を構成する複数の静止画像を同時に提示するから、評価者は各タスクの様子における一致点や相違点を認識しやすい。これにより、評価結果の妥当性を高め、検出する候補の妥当性も高めることができる。また、クレーン2にセンサを取り付ける等により測定した測定値を用いた評価が難しいタスクについても、そのタスクの様子を撮影した動画像または静止画像を同時に提示して評価者に評価させることにより、妥当な評価結果を得ることができる。なお、動画像または静止画像を提示して評価させるという方法は一例に過ぎない。例えば、評価者にクレーン2により実行されるタスクの様子を直接見てもらうようにしてもよい。
【0043】
また、情報処理装置4は、制御パラメータの最適値の候補をクレーン2に送信してタスクを実行させる機器制御部404を備え、評価結果取得部406は、機器制御部404の制御により実行されたタスクの様子を観察した評価者による上記候補の評価結果を取得する。これにより、制御パラメータの候補を適用したタスクをクレーン2に自動で行わせることができる。
【0044】
〔予測分布の算出と候補探索の詳細〕
以下では、PBPO(Preferential Bayesian Policy Optimization)により予測分布の算出と制御パラメータの最適値の候補の探索を行う例を説明する。
【0045】
まず、PBPOの説明に先立ってベイズ最適化(BO:Bayesian Optimization)について説明する。BOは、w∈Wの関数f(w)に対し、最適なパラメータw*を求めたいが、f(w)の最適化が解析的に困難である場合に用いられる。BOでは、獲得関数α(w)を代理関数として最適化することにより、最適値の候補w’を求める。これを数式で表すと下記の数式(1)のようになる。
【0046】
【0047】
次に、上記の数式(1)により算出された最適値の候補w’の評価値e=f(w’)を求め、その評価値をもとに獲得関数を更新する。BOでは、これらの処理をパラメータがw*に収束するまで繰り返す。
【0048】
BOにおけるパラメータと評価関数値との関係は、ガウス過程によってen=fn+εnと回帰される。ここで、fn=f(wn)であり、εn~N(0,β)はガウスノイズである。ガウス過程では、評価関数を予測分布の形で回帰する。評価済のパラメータをW:=[w1,…wN]Tとし、その評価値E:=[e1,…,eN]Tとすると、予測分布は下記の数式(2)のように表される。
【0049】
【0050】
ここで、k(・,・)はカーネルパラメータθkをもったデータ間の類似性を計算できるカーネル関数である。また、KWは、[KW]ij=k(wi,wj)としたカーネルグラム行列である。そして、Iは単位行列である。また、上記数式(3)に示される平均関数μ(w)と、上記数式(4)に示される分散関数σ2(w)は、それぞれ予測分布の平均と分散を表す。データが不足している領域ではσ2(w)の値は増加する傾向がある。
【0051】
PBPOでは、上述のBOとは異なり、直接的に評価値eが得られない場合を想定している。その代わりに、2つの制御パラメータを束ねたクエリ(w0,w1)に対する評価者の選好関係、つまり評価者がどちらのパラメータがより好ましいと評価したか、に基づいて予測分布を更新する。
【0052】
例えば、クエリに対する評価者の評価結果が、w0と比較してw1がより好ましいときにy=0、w1と比較してw0がより好ましいときにy=1という形で得られるとする。この場合、評価者による制御パラメータの評価が潜在評価関数f(・)により行われるものとして、yは下記の数式(5)のように表される。
【0053】
【0054】
yを上記のように表す場合、評価結果取得部406は、クエリに対する評価者の評価結果からyの値を決定し、決定したyの値と当該クエリとを対応付けて評価結果DB411に記録する。この評価結果は、評価者がw0とw1の何れをより好ましいと評価したか、という選好関係を示すものである。
【0055】
以下では、上述した問題設定に対するBOをPbBO(Preference based BO)と呼ぶ。また、以下ではf(w0)とf(w1)をそれぞれf0、f1と記載する。PbBOでは、選好関係を確率分布で扱い、クエリに対する評価結果から潜在評価関数の分布を変分推論によって近似的に求める。これについて以下詳細に説明する。
【0056】
まず、カーネルパラメータをθk∈Θとし、事前分布p(f|θk)を平均0、共分散行列Kのガウス過程によって表す。さらに、選好関係がガウスノイズの影響を受けると仮定すると、選好関係の尤度は下記の数式(6)のように定義される。
【0057】
【0058】
また、各クエリWに対する評価結果Yは、下記の数式(7)で表すことができる。
【0059】
【0060】
ここで、f:=f(W)である。ゆえに、ベイズの定理から事後分布は下記の数式(8)のようになる。
【0061】
【0062】
上記の数式(6)に示される尤度は数値的にしか求まらないため、事後分布を解析的に求めることはできない。そこで、変分ベイズ法によりp(f|Y,θk)を近似する。具体的には、変分分布q(f)を下記のようにおく。
【0063】
【0064】
そして、周辺尤度∫p(Y|f)p(f|θk)dfの対数を取ったものを最大化することを考えると、下記の数式(9)に示すように右辺のELBO(Evidence Lower Bound)が得られる。このため、周辺尤度の代わりにELBOを最大化する。
【0065】
【0066】
ここで、q(f)=N(μ,Σ)とするなら、ELBOは下記の数式(10)のように変形することができる。
【0067】
【0068】
そして、例えば自動微分を用いて変分パラメータμおよびΣの最適化と、θの最適化とを交互に実行することにより、これらの値を求めることができる。PbBOではこのようにして予測分布の算出に必要な事後分布を算出することができる。
【0069】
つまり、予測分布算出部402は、数式(10)を用いた演算により、評価結果DB411に記録されている評価結果に応じた予測分布を算出することができる。そして、予測分布算出部402は、評価結果取得部406により新たな評価結果が取得されたときには、その評価結果を用いて予測分布を更新することができる。
【0070】
上述のように、評価対象となるクエリは二択で回答できるものとしてもよい。また、それぞれ異なる3つ以上の候補を一組としてクエリを生成してもよい。この場合、評価者は、各候補を適用して実行された各タスクの様子を観察し、相対的に好ましいと判断した1または複数の候補を示す評価結果を入力すればよい。
【0071】
例えば、制御パラメータの候補である候補w1、候補w2、および候補w3の3つの候補を一組としたクエリを生成した場合、最も好ましいと判断した候補を評価者に選択させてもよい。この場合、候補w1が選択されたとすると、この組に対する選好関係は、候補w1は候補w2よりも好ましく、また、候補w1は候補w3よりも好ましいということになる。
【0072】
また、クエリに対する評価において、好ましいと判断した候補を複数選択することを評価者に許容してもよい。例えば、上記の例において、相対的に好ましいものとして候補w1と候補w2の2つが選択されたとすると、この組に対する選好関係は、候補w1は候補w3よりも好ましく、また、候補w2も候補w3よりも好ましいということになる。
【0073】
さらに、クエリに対する評価において、評価者に候補を順位付けさせてもよい。この場合、順位が連続する候補の組についての選好関係を評価結果とすればよい。例えば、上記の例において、評価者が候補w1、候補w2、候補w3を、この順で好ましいと判断した場合、この組に対する選好関係は、候補w1は候補w2よりも好ましく、候補w2は候補w3よりも好ましいということになる。また、これらの選好関係に加えて、候補w1は候補w3よりも好ましいとの選好関係も評価結果に加えてもよい。
【0074】
以上のように、評価結果取得部406は、それぞれ異なる候補を適用して実行されたタスクの組について、評価者が相対的に好ましいと評価した候補を示す評価結果を取得してもよい。そして、予測分布算出部402は、取得された評価結果に示される、組に対する選好関係に基づいて予測分布を更新してもよい。これにより、評価者は、複数のタスクのうち好ましいと判断したものを選択するだけでよいことになり、評価における評価者の負担を抑えることができる。
【0075】
予測分布算出部402が以上のようにして予測分布を算出した後、探索部403は、算出された予測分布に基づいて制御パラメータの最適値の候補を探索する。ここで、新たな候補w’に対するf’の推論は下記の数式(11)で表される。
【0076】
【0077】
探索部403は、上記数式(11)を用いることにより新たなクエリのための制御パラメータの候補w0’w1’を選定することができる。選定の方法は特に限定されない。例えば、探索部403は、獲得関数としてTS(Thompson Sampling)を用いることにより候補を選定してもよい。TSでは、数式(11)からWにわたって関数をサンプルし、サンプルされた関数において最大となるw’を候補として選択する。探索部403は、この処理を二回繰り返すことにより、新たなクエリのための制御パラメータの候補w0’w1’を選定することができる。また、探索部403は、同様にして3つ以上の制御パラメータの候補を選定することもできる。
【0078】
〔クエリの選択肢が共に好ましくない場合の処理〕
提示されたクエリに含まれる一組の動画像または静止画像について、評価者が何れも好ましくないと判断する場合もあると考えられる。このようなクエリについては、評価者に無理に優劣をつけさせることなく評価をスキップできるようにし、当該クエリに対応する候補については評価結果DB411に記録せず破棄するようにしてもよい。しかし、この場合、生成したクエリが無駄になり、効率が悪い。
【0079】
この点、情報処理装置4は、評価結果生成部407を備えているから、両方の選択肢が共に好ましくないクエリについても有効に活用して予測分布を更新することができる。以下、評価結果生成部407の実行する処理の詳細を
図3に基づいて説明する。
図3は、評価結果の生成例を示す図である。
【0080】
図3の例では、制御パラメータw
Aを適用して実行されたタスクの様子を示す画像B1と、制御パラメータw
Bを適用して実行されたタスクの様子を示す画像B2が評価者に提示されている。また、これらの制御パラメータの評価をスキップするためのオブジェクトB3についても評価者に提示されている。なお、評価者がより好ましいと評価した制御パラメータの候補を選択するためのオブジェクトについては図示を省略している。
【0081】
評価者は、画像B1に示されているタスクの様子とB2に示されているタスクの様子について比較し、それらの何れもが好ましくないと判断した場合にはオブジェクトB3をカーソルCUR1で選択する。
【0082】
このようにして評価がスキップされた場合、つまり、それぞれ異なる候補を適用して実行されたタスクの組における何れのタスクの様子も好ましいと評価されなかった場合に、評価結果生成部407は、当該タスクに対応する最適な制御パラメータの候補に対し、過去に好ましいと評価された候補を対応付けた評価結果を生成する。
【0083】
具体的には、評価結果生成部407は、評価結果DB411に含まれる、過去の評価結果を示す評価結果の中から、過去に好ましいと評価された制御パラメータの候補を選択する。選択方法は任意であり、例えば評価結果生成部407は、過去に好ましいと評価された制御パラメータの候補の中からランダムに1つあるいは2つの候補を選択してもよい。ここでは図示のように選択された制御パラメータをwCとする。
【0084】
次に、評価結果生成部407は、選択した制御パラメータの候補wCを、好ましいと評価されなかった制御パラメータの候補wA、wBのそれぞれに対応付けて評価結果B5およびB6を生成する。例えば、上述した数式(5)の形式で評価結果を表す場合、評価結果B5は(wC,wA)に対してy=0が対応付けられたものとなり、評価結果B6は(wC,wB)に対してy=0が対応付けられたものとなる。
【0085】
このように、評価結果生成部407によれば、好ましいと評価されなかった制御パラメータの候補wA、wBのクエリから、評価結果B5およびB6という2つの評価結果を生成することができる。評価結果B5およびB6は、評価結果DB411に追加され、予測分布の更新に用いられる。
【0086】
なお、評価者が好ましいと評価した候補が存在しない段階では、評価結果生成部407は両方の選択肢が共に好ましくないクエリを蓄積しておく。評価結果生成部407は、評価者が評価のスキップを続ける限りクエリの蓄積も継続し、評価者が優劣をつけたときに、好ましいと評価された候補と、蓄積されたクエリに対応する各候補とを対応付けて評価結果を生成すればよい。
【0087】
また、上述のように、3つ以上の候補を一組としてクエリを生成してもよい。3つ以上の候補に対応するクエリがスキップされた場合も、評価結果生成部407は上記と同様にして評価結果を生成することができる。
【0088】
以上のように、情報処理装置4は、それぞれ異なる候補を適用して実行されたタスクの組に含まれる何れの候補も好ましいと評価されなかった場合に、当該候補に対し、過去に好ましいと評価された候補を対応付けた評価結果を生成する評価結果生成部407を備えている。これにより、選好関係が特定できない評価結果を有効に活用し、予測分布の更新に役立てることができる。
【0089】
なお、詳細は省略するが、本願の発明者らの実験により、評価結果を生成する上記の構成を採用することにより、クレーンを用いたタスクについて、評価関数なしに人の評価に基づいて性能の高い制御パラメータを獲得できることが確認された。また、同実験では、評価者による評価の回数がより少ない段階で、性能の高い制御パラメータが獲得できることも確認された。
【0090】
〔探索方法の流れ〕
図4に基づいて本実施形態にかかる探索方法の流れを説明する。
図4は、当該探索方法を示すフローチャートである。
【0091】
S1では、制御パラメータ決定部401が、クレーン2の制御パラメータを初期値に設定する。初期値の設定方法は任意である。例えば、制御パラメータ決定部401は、制御パラメータの取り得る値の範囲からランダムに選択した値を初期値としてもよいし、ユーザが指定した値を初期値としてもよい。
【0092】
S2では、制御パラメータ決定部401は、後記S12で更新された後の予測分布に基づいて、予め設定された終了条件が満たされているか否かを判定する。ここで満たされている(S2でYES)と判定された場合にはS3に進み、満たされていない(S2でNO)と判定された場合にはS4に進む。なお、S2の初回実行時にはNOと判定される。
【0093】
S3では、制御パラメータ決定部401は、終了条件を満たしたときの制御パラメータを、クレーン2の制御に適用する最適な制御パラメータとして確定する。これにより、
図4の処理は終了する。なお、制御パラメータ決定部401は、決定した制御パラメータを表示装置5等に出力させてもよいし、当該制御パラメータを制御装置1に通知して、当該制御パラメータを適用させてもよい。
【0094】
S4では、探索部403が、制御パラメータの最適値の候補が所定数生成されたか否かを判定する。ここで生成されていない(S4でNO)と判定された場合にはS5に進み、生成されている(S4でYES)と判定された場合にはS7に進む。なお、TSは確率的なサンプリングであるため、同じ候補が選択される可能性がある。このため、S4では、互いに異なる候補が所定数揃ったときにYESと判定される。上述のように、2つの候補を1つのクエリとしてもよいし、3つ以上の候補を1つのクエリとしてもよい。
【0095】
S5(探索ステップ)では、探索部403が、制御パラメータの最適値の候補を探索する。例えば、探索部403は、上述のようにTSにより最適値の候補を探索してもよい。
【0096】
S6では、機器制御部404が、S5で検出された候補を適用してクレーン2にタスクを実行させる。
図2に基づいて説明したように、タスクが実行される様子は撮影装置3により撮影され、撮影により得られた動画像は情報処理装置4に入力される。S6の終了後、処理はS4に戻る。なお、上述のように、動画像の代わりに時系列を構成する複数の静止画像を撮影してもよい。
【0097】
S7では、表示制御部405が、制御パラメータの最適値の候補を適用してクレーン2により行われるタスクの様子を撮影した上記の動画像を表示装置5に表示させる。これにより当該動画像が評価者に提示される。なお、表示制御部405は、複数の候補のそれぞれについて、当該候補を適用して実行されたタスクの様子を撮影した動画像を順次評価者に提示してもよいし、同時に提示してもよい。提示される動画像は評価者に対するクエリである。また、この際、表示制御部405は、より好ましいと評価した候補を評価者に選択させるためのオブジェクトや、評価をスキップするためのオブジェクトを含むUI(User Interface)画面を表示させてもよい。
【0098】
S8(評価結果取得ステップ)では、評価結果取得部406が、S7で提示された動画像に対する評価者の評価結果を取得する。評価者の評価結果は例えば入力装置6を介して入力される。なお、上述のように、評価者は、より好ましい候補を選択できない場合には評価をスキップすることができる。スキップされた場合にはS8では評価結果は取得されない。
【0099】
S9では、評価結果取得部406が、評価がスキップされたか否かを判定する。ここでスキップされた(S9でYES)と判定された場合、すなわち何れの候補も好ましいと評価されなかった場合にはS10に進む。一方、スキップされなかった(S9でNO)と判定された場合にはS11に進む。
【0100】
S10では、評価結果生成部407が、過去の評価結果を基に、評価がスキップされた候補についての評価結果を生成する。より詳細には、評価結果生成部407は、評価結果DB411に含まれる評価結果の中から、好ましいと判定された候補に対応する制御パラメータの候補を選択し、当該候補を直近のS7で提示されたタスクに対応する候補のそれぞれに対応付けて評価結果を生成する。
【0101】
S9から遷移したS11では、評価結果取得部406が、S8で取得した評価結果を評価結果DB411に追加する。一方、S10から遷移したS11では、評価結果生成部407が、S10で生成した評価結果を評価結果DB411に追加する。評価結果DB411に記録される評価結果は、上述のように、1つのクエリに対応する制御パラメータの候補の組に、それらの組に対する評価結果を示す数式(5)におけるyの値を対応付けた形式で表されたデータであってもよい。
【0102】
S12(予測分布更新ステップ)では、予測分布算出部402が、S11で追加された評価結果を用いて、制御パラメータを評価する評価関数(上述の潜在評価関数)の予測分布を更新する。この後、処理はS2に戻る。
【0103】
以上のように、本実施形態に係る探索方法は、廃棄物を処理する所定のタスクをクレーン2に実行させるための制御パラメータについて、当該制御パラメータの最適値の複数の候補のそれぞれを適用して実行されたタスクが実行される様子を観察した評価者が上記候補を評価した評価結果を取得する評価結果取得ステップ(S8)と、当該評価結果を用いて、制御パラメータを評価する評価関数の予測分布を更新する予測分布更新ステップ(S12)と、更新された予測分布に基づいて制御パラメータの最適値の候補を探索する探索ステップ(S5)と、を含む。よって、廃棄物を処理する所定のタスクを実行するクレーン2のための適切な制御パラメータを導出することが可能になる。
【0104】
〔変形例〕
上述の実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の情報処理装置により、情報処理装置4と同様の機能を実現することができる。例えば、
図4に示す各処理を複数の情報装置に分担で実行させてもよい。
【0105】
〔ソフトウェアによる実現例〕
情報処理装置4の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に制御部40に含まれる各部)としてコンピュータを機能させるためのプログラム(探索プログラム)により実現することができる。
【0106】
この場合、情報処理装置4は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記実施形態で説明した各機能が実現される。
【0107】
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、情報処理装置4が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して情報処理装置4に供給されてもよい。
【0108】
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
【0109】
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、実施形態に開示された各技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0110】
〔まとめ〕
本発明の態様1に係る情報処理装置は、廃棄物を処理する所定のタスクを機器に実行させるための制御パラメータについて、当該制御パラメータの最適値の複数の候補のそれぞれを適用して実行された前記タスクが実行される様子を観察した評価者が前記候補を評価した評価結果を取得する評価結果取得部と、前記評価結果を用いて、前記制御パラメータを評価する評価関数の予測分布を更新する予測分布更新部と、更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する探索部と、を備える。
【0111】
本発明の態様2に係る情報処理装置は、上記の態様1において、前記探索部により、前記候補を複数探索する処理と、前記評価結果取得部により、前記探索部が検出した候補のそれぞれを適用して実行された前記タスクが実行される様子を観察した前記評価者が前記候補を評価した評価結果を取得する処理と、前記予測分布更新部により、前記評価結果を用いて前記予測分布を更新する処理と、前記探索部により、更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する処理と、を所定の条件が満たされるまで繰り返す。
【0112】
本発明の態様3に係る情報処理装置は、上記の態様1または2において、複数の前記候補のそれぞれについて、当該候補を適用して実行された前記タスクの様子を撮影した動画像または時系列を構成する複数の静止画像を、前記評価者に同時に提示する表示制御部を備え、前記評価結果取得部は、前記動画像または前記静止画像を介して前記タスクが実行される様子を観察した前記評価者による前記候補の評価結果を取得する。
【0113】
本発明の態様4に係る情報処理装置は、上記の態様1から3の何れかにおいて、前記候補を適用して前記機器に前記タスクを実行させる機器制御部を備え、前記評価結果取得部は、前記機器制御部の制御により実行された前記タスクの様子を観察した前記評価者による前記候補の評価結果を取得する。
【0114】
本発明の態様5に係る情報処理装置は、上記の態様1から4の何れかにおいて、前記評価結果取得部は、それぞれ異なる前記候補を適用して実行された前記タスクの組について、前記評価者が相対的に好ましいと評価した候補を示す前記評価結果を取得し、前記予測分布更新部は、前記評価結果に示される、前記組に対する選好関係に基づいて前記予測分布を更新する。
【0115】
本発明の態様6に係る情報処理装置は、上記の態様5において、前記組に含まれる何れの候補も好ましいと評価されなかった場合に、当該候補に対し、過去に好ましいと評価された候補を対応付けた評価結果を生成する評価結果生成部を備える。
【0116】
本発明の態様7に係る廃棄物の処理システムは、廃棄物を処理する所定のタスクを実行する機器と、前記タスクを前記機器に実行させるための制御パラメータの最適値の複数の候補のそれぞれを適用して実行された前記タスクの様子を撮影する撮影装置と、前記撮影装置が撮影した動画像または時系列を構成する複数の静止画像を表示する表示装置と、前記表示装置に表示される前記動画像または前記静止画像を介して前記タスクが実行される様子を観察した評価者が前記候補を評価した評価結果の入力を受け付ける入力装置と、前記評価結果を用いて、前記制御パラメータを評価する評価関数の予測分布を更新し、更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する情報処理装置と、を含む。
【0117】
本発明の態様8に係る探索方法は、1または複数の情報処理装置により実行される探索方法であって、廃棄物を処理する所定のタスクを機器に実行させるための制御パラメータについて、当該制御パラメータの最適値の複数の候補のそれぞれを適用して実行された前記タスクが実行される様子を観察した評価者が前記候補を評価した評価結果を取得する評価結果取得ステップと、前記評価結果を用いて、前記制御パラメータを評価する評価関数の予測分布を更新する予測分布更新ステップと、更新された前記予測分布に基づいて前記制御パラメータの最適値の候補を探索する探索ステップと、を含む。
【0118】
本発明の態様9に係る探索プログラムは、上記の態様1に記載の情報処理装置としてコンピュータを機能させるための探索プログラムであって、前記評価結果取得部、前記予測分布更新部、および前記探索部としてコンピュータを機能させる。
【符号の説明】
【0119】
1 制御装置
2 クレーン(機器)
3 撮影装置
4 情報処理装置
402 予測分布算出部(予測分布更新部)
403 探索部
404 機器制御部
405 表示制御部
406 評価結果取得部
5 表示装置
10 処理システム