(58)【調査した分野】(Int.Cl.,DB名)
建設機械による転圧エリアの転圧作業における当該建設機械の走行経路を、前記転圧エリアの仮想フィールドで前記建設機械の仮想体を走行させることにより学習する建設機械用機械学習装置であって、
前記仮想フィールドにおいて前記仮想体の進行方向を制御する走行制御手段と、
前記走行制御手段により制御された走行に基づく報酬を当該走行制御手段に対して与える行動評価手段と、を備え、
前記仮想フィールドは、複数の分割領域で構成されており、
前記行動評価手段は、前記仮想体がある分割領域から隣接する分割領域へ移動する行動ごとに前記走行制御手段に報酬を与え、
前記走行制御手段は、前記仮想体の転圧作業を繰り返し行うことで、前記報酬が最大化される前記走行経路を学習する、
ことを特徴とする建設機械用機械学習装置。
建設機械による転圧エリアの転圧作業における当該建設機械の走行経路を、前記転圧エリアの仮想フィールドで前記建設機械の仮想体を走行させることにより学習する建設機械用機械学習装置であって、
前記仮想フィールドにおいて前記仮想体の進行方向を制御する走行制御手段と、
前記走行制御手段により制御された走行に基づく報酬を当該走行制御手段に対して与える行動評価手段と、を備え、
前記仮想フィールドは、複数の分割領域で構成されており、
前記行動評価手段は、前記仮想フィールドの転圧作業の完成により前記走行制御手段に報酬を与え、
前記走行制御手段は、前記仮想体がある分割領域から隣接する分割領域へ移動する行動ごとに次に取るべき行動を選択するための指標となる報酬の期待値を設定し、前記仮想体の転圧作業を繰り返し行うことで、最終的に報酬を得た行動につながる一連の行動に対して報酬の期待値を増加させ、前記報酬の期待値を最適化した前記走行経路を学習する、
ことを特徴とする建設機械用機械学習装置。
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1,2に記載される技術は、人間が考えた自律制御アルゴリズムによって建設機械を自律制御するものであった。その為、想定外な事項が起こらないように、予め全ての事項を予測して完全なアルゴリズムを作成することは困難であった。また、施工完了までの作業工程をすべてプログラムとして作成する必要があり、さらに走行条件や施工の評価に基づいてプログラムの調整や改善を行わなければならなかったので、開発に多大なコストを要するという問題があった。
【0007】
また、近年では様々な機械学習の技術が開発されているが、転圧作業では転圧回数や作業完了までの制限時間など満たさなければならない条件も多くあり、また、制御しなければならない構成要素(例えば、ステアリング角度や速度)も多岐にわたる。そのため、従来からある機械学習(特に、強化学習)の技術を転圧作業に単純に適用するのは難しい。
【0008】
このような観点から、本発明は、建設機械の転圧作業を柔軟かつ簡単に実現できる建設機械用機械学習装置および建設機械を提供する。
【課題を解決するための手段】
【0009】
前記課題を解決するため、本発明に係る建設機械用機械学習装置は、建設機械による転圧エリアの転圧作業における当該建設機械の走行経路を学習する建設機械用機械学習装置である。
この建設機械用機械学習装置は、前記建設機械の進行方向を制御する走行制御手段と、前記走行制御手段により制御された走行に基づく報酬を当該走行制御手段に対して与える行動評価手段と、を備える。
前記転圧エリアは、複数の分割領域で構成されており、前記行動評価手段は、前記建設機械がある分割領域から隣接する分割領域へ移動する行動ごとに前記走行制御手段に報酬を与える。前記走行制御手段は、前記転圧作業を繰り返し行うことで、前記報酬が最大化される前記走行経路を学習する。
【0010】
また、本発明に係る建設機械用機械学習装置は、建設機械による転圧エリアの転圧作業における当該建設機械の走行経路を、前記転圧エリアの仮想フィールドで前記建設機械の仮想体を走行させることにより学習する建設機械用機械学習装置である。
この建設機械用機械学習装置は、前記仮想フィールドにおいて前記仮想体の進行方向を制御する走行制御手段と、前記走行制御手段により制御された走行に基づく報酬を当該走行制御手段に対して与える行動評価手段と、を備える。
前記仮想フィールドは、複数の分割領域で構成されており、前記行動評価手段は、前記仮想体がある分割領域から隣接する分割領域へ移動する行動ごとに前記走行制御手段に報酬を与える。前記走行制御手段は、前記仮想体の転圧作業を繰り返し行うことで、前記報酬が最大化される前記走行経路を学習する。
【0011】
本発明に係る建設機械用機械学習装置においては、転圧エリアを複数の分割領域に分割し、建設機械や建設機械の仮想体がある分割領域から隣接する分割領域へ移動する行動を取った場合に走行制御手段に対して報酬を与える。したがって、転圧作業を繰り返し行うことにより走行経路の学習が可能であり、作業工程のプログラムの作成なしに建設機械の転圧作業を柔軟かつ簡単に実現できる。
【0012】
また、本発明に係る建設機械用機械学習装置は、建設機械による転圧エリアの転圧作業における当該建設機械の走行経路を学習する建設機械用機械学習装置である。
この建設機械用機械学習装置は、前記建設機械の進行方向を制御する走行制御手段と、前記走行制御手段により制御された走行に基づく報酬を当該走行制御手段に対して与える行動評価手段と、を備える。
前記転圧エリアは、複数の分割領域で構成されており、前記行動評価手段は、前記転圧エリアの転圧作業の完成により前記走行制御手段に報酬を与える。
前記走行制御手段は、前記建設機械がある分割領域から隣接する分割領域へ移動する行動ごとに次に取るべき行動を選択するための指標となる報酬の期待値を設定する。また、前記走行制御手段は、前記転圧作業を繰り返し行うことで、最終的に報酬を得た行動につながる一連の行動に対して報酬の期待値を増加させ、前記報酬の期待値を最適化した前記走行経路を学習する。
【0013】
また、本発明に係る建設機械用機械学習装置は、建設機械による転圧エリアの転圧作業における当該建設機械の走行経路を、前記転圧エリアの仮想フィールドで前記建設機械の仮想体を走行させることにより学習する建設機械用機械学習装置である。
この建設機械用機械学習装置は、前記仮想フィールドにおいて前記仮想体の進行方向を制御する走行制御手段と、前記走行制御手段により制御された走行に基づく報酬を当該走行制御手段に対して与える行動評価手段と、を備える。
前記仮想フィールドは、複数の分割領域で構成されており、前記行動評価手段は、前記仮想フィールドの転圧作業の完成により前記走行制御手段に報酬を与える。
前記走行制御手段は、前記仮想体がある分割領域から隣接する分割領域へ移動する行動ごとに次に取るべき行動を選択するための指標となる報酬の期待値を設定する。また、前記走行制御手段は、前記仮想体の転圧作業を繰り返し行うことで、最終的に報酬を得た行動につながる一連の行動に対して報酬の期待値を増加させ、前記報酬の期待値を最適化した前記走行経路を学習する。
【0014】
本発明に係る建設機械用機械学習装置においては、転圧エリアを複数の分割領域に分割し、建設機械や建設機械の仮想体がある分割領域から隣接する分割領域へ移動する行動ごとに次に取るべき行動を選択するための指標となる報酬の期待値を設定する。そして、最終的に報酬を得た行動につながる一連の行動に対して報酬の期待値を増加させる。したがって、転圧作業を繰り返し行うことにより走行経路の学習が可能であり、作業工程のプログラムの作成なしに建設機械の転圧作業を柔軟かつ簡単に実現できる。
【0015】
前記走行制御手段は、前記分割領域のサイズを徐々に細かくしながら前記走行経路を学習するのがよい。
【0016】
このようにすると、分割領域の数が少ない状況で走行経路を学習し、学習した走行経路を分割領域の数が多い状況に引き継ぐことができる。そのため、分割経路の数が多い状況において何も学習していない初期段階を省略することが可能であり、走行経路の学習に費やす時間を短縮できる。
【0017】
また、本発明に係る建設機械は、前記建設機械用機械学習装置を備える建設機械である。
【発明の効果】
【0018】
本発明によれば、建設機械の転圧作業を柔軟かつ簡単に実現できる。
【発明を実施するための形態】
【0020】
以下、本発明の実施をするための形態を、適宜図面を参照しながら詳細に説明する。各図は、本発明を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本発明は、図示例のみに限定されるものではない。なお、各図において、共通する構成要素や同様な構成要素については、同一の符号を付し、それらの重複する説明を省略する。
【0021】
≪本発明の概要≫
作業の進捗状況の把握を目的として、施工現場の施工状況を可視化する様々なツールが開発されており、その一つに建設機械(例えば、振動ローラ)による転圧作業を管理する転圧走行管理システムがある。この転圧走行管理システムは、転圧回数(走行回数)に応じて転圧エリアを色分けして画面表示する。施工管理者は、この画面を見ることで残りの作業量(どのエリアをあと何回転圧すればよいのか)を把握することができる。
【0022】
本発明の発明者は、この転圧走行管理システムに着目し、転圧走行管理システムと強化学習技術とを掛け合わせることを考え出した。具体的には、転圧走行管理システムで用いられる画面表示の考え方を、建設機械を走行させる走行制御プログラムの強化学習に取り入れるというものである。これにより、施工管理者による作業工程のプログラムの作成なしに、建設機械の転圧作業を柔軟かつ簡単に実現できる。
【0023】
≪実施形態に係る次世代無人化施工システムの構成≫
実施形態に係る次世代無人化施工システムMを
図1(a)に示す。次世代無人化施工システムMは、建設機械を施工管理者による操縦なしで走行させて施工現場の地面を締め固めるものである。次世代無人化施工システムMは、施工現場を走行しながら地面を転圧する建設機械としての振動ローラ1と、施工現場に立設されるトータルステーション2と、施工現場から離れた位置にある操作室内に設置されたホストPC(Personal Computer)3とを備えて構成されている。また、次世代無人化施工システムMは、トータルステーション2に代えて測位用衛星4を備える構成であってもよい。
振動ローラ1、トータルステーション2およびホストPC3は、無線通信を用いて通信可能である。また、振動ローラ1は、測位用衛星4から発信される電波(測位用信号)を受信可能である。なお、ホストPC3は、振動ローラ1に搭載することも可能な構造である。
【0024】
本実施形態に係る振動ローラ1は、振動ローラ1を無人で走行させる走行制御プログラムの学習工程と、学習した走行制御プログラムを用いて施工現場を実際に走行させる施工工程とを行う。以下では、学習工程における走行と施工現場における走行とを区別するために、学習工程における走行を「試験走行」と呼ぶ場合がある。なお、振動ローラ1が施工現場を実際に走行しながら走行制御プログラムの学習を行うことも可能である。
【0025】
<トータルステーション>
トータルステーション2は、走行する振動ローラ1を自動追尾して、振動ローラ1の位置情報を周期的(例えば、300ミリ秒)にホストPC3に対して送信する。トータルステーション2は、例えば、振動ローラ1の走行を妨害しない場所であると共に、振動ローラ1の自動追尾が常に可能な位置に設置されている。
【0026】
<測位用衛星>
測位用衛星4は、全球測位衛星システム(GNSS:Global Navigation Satellite System)で使用される衛星であって、自身の位置情報(軌道位置情報)や時刻情報を、走行する振動ローラ1に対して周期的に送信する。測位用衛星4は、例えば、GPS(Global Positioning System)衛星、GLONASS(Global Navigation Satellite System)衛星、Galileo衛星、準天頂衛星などであってよい。
測位用衛星4から送信される情報は、振動ローラ1において、位置(緯度、経度、高度)の計算に使用される。なお、振動ローラ1は、例えばトータルステーション2から送信される位置情報の代用として測位用衛星4から送信される情報に基づいて計算した位置情報を使用する。
【0027】
<ホストPC>
ホストPC3は、施工管理者により操作されるものである。施工管理者は、ホストPC3に施工条件を予め登録する。施工条件には、例えば、(1)転圧を行う転圧エリアに関する転圧エリア情報、(2)転圧エリアを振動ローラ1が転圧する転圧条件に関する転圧条件情報などが含まれる。ここで、転圧エリアは、実際の施工においては施工現場であり、振動ローラ1の走行制御プログラムの学習における試験走行においては任意の試験エリアである。試験エリアは、施工現場と同じ形状や面積等であることが好ましい。
以下では、振動ローラ1が走行することで転圧した領域を「走行軌跡」と称する。そのため、走行軌跡は所定の幅を持つことになり、走行軌跡の幅は振動ローラ1の幅に対応している。走行軌跡は、主に転圧エリア内に形成されるが、振動ローラ1が転圧エリア外に進出した場合には転圧エリア外にも形成されることがある。
【0028】
転圧エリア情報には、転圧エリアを特定するための座標などが含まれる。ここでの転圧エリアは、仮想的な複数の分割領域Kに分割されている。ここでの仮想的とは、転圧エリアが実際に分割されている必要がなく、ホストPC3の処理において分割されていればよいことを意図している。分割領域Kは、振動ローラ1の走行軌跡を画面表示する場合に振動ローラ1が走行したか否かを識別する最小単位として使用される。分割領域Kは、転圧エリアを隙間なく分割できる形であればよく、例えば方形や三角形をなす。ここでは、
図1(b)に示すように、転圧エリアは矩形をなすと共に、m×n個の正方形の分割領域K(s,t)に分割されている場合を想定する。転圧エリア情報としては、例えば分割領域K(s,t)の頂点の座標が与えられる。なお、転圧エリアの分割数を指定することによって、ホストPC3が分割領域K(s,t)の頂点の座標を計算してもよい。
【0029】
転圧条件情報には、転圧エリアの目標転圧回数、無人化施工の制限時間や制限速度などが含まれる。目標転圧回数は振動ローラ1による転圧を行う目標回数である。制限時間は無人化施工の作業を許容する時間であり、制限速度は振動ローラ1の走行を許容する速度である。
【0030】
施工管理者は、ホストPC3に施工条件を登録した後に、施工開始または試験走行開始の指示を入力する。これにより、実際の施工においては振動ローラ1による無人化施工が開始され、また、学習のための試験走行においては試験エリアにおける走行が開始される。
無人化施工および試験走行が行われている期間、ホストPC3は、トータルステーション2から受信した振動ローラ1の位置情報を振動ローラ1に対して送信する。なお、施工管理者は、施工開始または試験走行開始の指示を行った後は、原則として振動ローラ1に対して指示を行わない。
【0031】
また、ホストPC3は、無人化施工および試験走行が行われている期間に振動ローラ1の機体情報を振動ローラ1から周期的に受信し、この機体情報を表示画面に表示する。機体情報は、振動ローラ1の状態が確認できるものであればよく、例えば、振動ローラ1の進行方向(前後左右方向を含む)、速度、ステアリング角度等であってよい。施工管理者は、ホストPC3に表示される振動ローラ1の機体情報を確認することで、振動ローラ1の状況を把握することが可能である。
【0032】
また、ホストPC3は、無人化施工および試験走行において、施工管理者により登録された転圧エリア情報やトータルステーション2から受信した振動ローラ1の位置情報などを用いて、振動ローラ1の走行軌跡情報を作成する。走行軌跡情報を
図2に例示する。ここでの走行軌跡情報は、分割領域識別情報と、座標情報と、転圧回数情報とを含んで構成されている。
【0033】
分割領域識別情報は、分割領域K(s,t)を識別する情報である。座標情報は、分割領域K(s,t)を特定する座標であり、ここでは分割領域K(s,t)の頂点の座標を示している。座標情報は、分割領域K(s,t)の中心点や重心の座標であってもよい。転圧回数情報は、振動ローラ1が分割領域K(s,t)を転圧した回数を示しており、分割領域K(s,t)の転圧を行うごとに加算される。ここで、振動ローラ1が分割領域K(s,t)の転圧を行うとは分割領域K(s,t)の全領域を転圧した場合に限らず、振動ローラ1が分割領域K(s,t)の一部を転圧した場合を含んでよい。例えば、振動ローラ1が分割領域K(s,t)の頂点の少なくとも何れか一つを通過した場合であってもよいし、また、分割領域K(s,t)の所定面積以上(例えば「50%以上」)を転圧した場合であってもよい。
【0034】
また、ホストPC3は、無人化施工および試験走行において、作成した走行軌跡情報から振動ローラ1の走行軌跡を示す走行軌跡画像を作成し、表示装置を介して走行軌跡画像を施工管理者に対して表示する。本実施形態における走行軌跡画像を
図3に例示する。
図3(a)に示す走行軌跡画像は、振動ローラ1が図面下方向に直進した後の状態を示し、
図3(b)に示す走行軌跡画像は、振動ローラ1が図面右方向にさらに旋回した後の状態を示す。
【0035】
図3(a)に示すように、走行軌跡画像では振動ローラ1が通過した分割領域K(s,t)を識別可能(例えば、強調表示や色分け)に表示される。また、
図3(b)に示すように、走行軌跡画像では分割領域K(s,t)ごとに転圧回数を識別可能であることが好ましい。ここでは、転圧回数が増えるごとに斜線数を増やして分割領域K(s,t)を表しており、具体的には一度の転圧が行われた分割領域K(s,t)を一方向の斜線で表し、二度の転圧が行われた分割領域K(s,t)を二方向の斜線で表している。ホストPC3は、例えば転圧回数に対応付けた模様情報や色情報を予め記憶しておき、走行軌跡情報の転圧回数情報を参照して対応する模様や色で分割領域K(s,t)を表示する。これにより、施工管理者は、この走行軌跡画像を見ることで残りの作業量(どのエリアをあと何回走行すればよいのか)を把握することができる。
【0036】
また、ホストPC3は、試験走行において、走行軌跡情報を振動ローラ1に対して随時送信する。走行軌跡情報は、振動ローラ1の走行制御プログラムの学習に用いられる。なお、振動ローラ1が施工現場を実際に走行しながら走行制御プログラムの学習を行うことも可能であり、その場合に、ホストPC3は、施工現場の無人化施工において、走行軌跡情報を振動ローラ1に対して随時送信する。
【0037】
<振動ローラ>
図4を参照して、建設機械の一例である振動ローラ1の構成について説明する。振動ローラ1は、車体10と、車体10の前後に取り付けられた二つの鉄輪11,11と、車体10の下部に配置されたアーティキュレート機構12と、車体10の上部に設置された全周プリズム13および通信アンテナ14と、制御装置15と、測位用アンテナ16と、機体情報取得手段S(
図5参照)とで構成されている。振動ローラ1は、鉄輪11,11の回転方向を変更することで、前進および後進が可能である。
【0038】
車体10は、振動ローラ1の本体となるものである。車体10は、内部に図示しない駆動手段を収容する。以下では、「ローラの方位角G」といった場合には、車体10の方向を意味する。
鉄輪11は、図示しない振動を発生する装置を備え、振動しながら回転することで地面を転圧する。以下では、前側の鉄輪11を前輪11aと呼び、後側の鉄輪11を後輪11bと呼ぶ場合がある。
【0039】
アーティキュレート機構12は、振動ローラ1を旋回させるための機構であり、車体10の下部に設置される。アーティキュレート機構12は、前輪11aを回転自在に保持する前輪保持部12aと、後輪11bを回転自在に保持する後輪保持部12bと、前輪保持部12aおよび後輪保持部12bを連結するセンターピン12cと、前輪保持部12aと後輪保持部12bとの間に介設されるステアリングシリンダ(図示せず)とを備えている。制御装置15から進行方向を修正する制御指令(ステアリング角度θを制御指令角度とする制御指令)を受信すると、ステアリング角度θに応じてステアリングシリンダが伸縮する。そして、ステアリングシリンダが伸縮すると、センターピン12cを中心に前輪保持部12aおよび後輪保持部12bが屈折し、それに伴い前輪11aおよび後輪11bの方向が変化する。
【0040】
全周プリズム13は、トータルステーション2の追尾対象となるものである。ここで、アーティキュレート機構12のステアリング角度θは、センターピン12cの位置を基準とするので、振動ローラ1の走行制御を行う基準点をセンターピン12cの位置またはセンターピン12cを通る鉛直線上に設けることが好ましい。その為、振動ローラ1のようにアーティキュレート機構12が採用されている建設機械の場合、全周プリズム13の位置をセンターピン12cの真上になるように演算により補正を行うのがよい。この補正を行うことにより、トータルステーション2を介して取得する座標が振動ローラ1の基準点(センターピン12cの位置)となるので、角度修正を行う際に誤差が生じない。この補正を行うのは、振動ローラ1、トータルステーション2およびホストPC3の何れであってもよく、何れかの装置で演算により行われる。
【0041】
通信アンテナ14は、ホストPC3との通信を行うものである。具体的には、振動ローラ1の制御装置15は、通信アンテナ14を介してホストPC3から施工条件(転圧エリア情報、転圧条件情報など)、位置情報、走行軌跡情報などを受信する。また、制御装置15は、通信アンテナ14を介してホストPC3に対して振動ローラ1の機体情報を送信する。
【0042】
測位用アンテナ16は、測位用衛星4(
図1参照)から発信される電波(測位用信号)を受信するものである。具体的には、振動ローラ1の制御装置15は、測位用アンテナ16を介して測位用衛星4から軌道位置情報や時刻情報などを受信する。制御装置15は、測位用衛星4から受信した軌道位置情報や時刻情報を用いて振動ローラ1の位置を計算する。
【0043】
図5を参照して、機体情報取得手段Sの構成について説明する。
図5は、振動ローラ1の無人化走行を実現する走行制御システムM1の概略図である。機体情報取得手段Sは、姿勢検出センサS1と、速度検出センサS2と、ステア角度検出センサS3と、前方探査センサS4とで構成されている。
姿勢検出センサS1は、振動ローラ1の方位角G(deg)を検出するものである。姿勢検出センサS1は、例えば、ジャイロであって、車体10の内部に設置される。方位角G(deg)は、制御装置15に受け渡され、慣性航法(INS)を用いた現在位置の算出などに用いられる。なお、トータルステーション2により取得された振動ローラ1の位置情報や測位用衛星4から送信された情報に基づいて計算した位置情報は、姿勢検出センサS1のドリフトの補正に用いられる。
【0044】
速度検出センサS2は、振動ローラ1が前進および後進する速度V(km/h)を検出するものである。速度検出センサS2は、例えば、ロータリーエンコーダであって、後輪11bに設置される。速度V(km/h)は、制御装置15に受け渡され、慣性航法(INS)を用いた現在位置の算出などに用いられる。
【0045】
ステア角度検出センサS3は、アーティキュレート機構12のステアリング角度θ(deg)を検出するものである。ステア角度検出センサS3は、例えば、ポテンショメータであって、アーティキュレート機構12のセンターピン12cに設置される。ステアリング角度θ(deg)は、制御装置15に受け渡され、振動ローラ1の走行方向の修正などに用いられる。なお、ステアリングシリンダのロッドの進退量を検出するセンサをステア角度検出センサS3としてもよい。
【0046】
前方探査センサS4は、振動ローラ1の前方方向の物体情報Q(座標)を検出するものである。前方探査センサS4は、例えば、2Dスキャナやカメラ等であって、車体10の前方上部に設置される。前方探査センサS4は、制御装置15に受け渡され、障害物の検知及び停止制御に用いられる。
【0047】
図5に示す制御装置15は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等により構成される。制御装置15は、建設機械用機械学習装置30を備える。建設機械用機械学習装置30は、振動ローラ1の走行制御プログラムの学習を行うと共に、学習を行った走行制御プログラムを用いて振動ローラ1の無人化走行を制御する。建設機械用機械学習装置30は、走行制御手段31と、行動評価手段32とを備える。
【0048】
走行制御手段31は、図示しない記憶部から振動ローラ1を無人化走行させる走行制御プログラムを取得し、取得した走行制御プログラムをCPUで実行することにより実現される。走行制御手段31は、機体情報取得手段Sが取得した情報やホストPC3から受信した情報を用いて無人化走行の制御を行う。ここで、施工管理者は、振動ローラ1の走行経路を設定することは行わず、走行制御手段31は、試験走行での学習に基づいて走行経路を決定する。具体的には、走行制御手段31は、振動ローラ1を試験走行させる学習工程において、行動評価手段32から報酬を受け取り、受け取った報酬を用いて走行経路を学習する。走行経路の学習は、1回の転圧作業(転圧エリアを目標回数だけ転圧すること)を区切りとし、転圧作業を繰り返し行うことにより進められる。
【0049】
行動評価手段32は、振動ローラ1を試験走行させる学習工程において、ホストPC3から受信した走行軌跡情報に基づいた報酬(正および負のものを含む)を走行制御手段31に対して与える。行動評価手段32による報酬の与え方は種々の方法を用いることが可能であり、例えば実験等によって適切な報酬を事前に導き出しておき、施工管理者により試験走行前に行動評価手段32に設定される。以下では、建設機械用機械学習装置30による走行経路の学習方法を例示する。
【0050】
(1)分割領域K単位で報酬を与える場合
行動評価手段32は、例えば分割領域K(s,t)ごとの転圧回数を手がかりとして報酬を走行制御手段31に与える。具体的には、行動評価手段32は、振動ローラ1が分割領域K(s,t)を新たに転圧した場合(何れかの分割領域K(s,t)の転圧回数を加算した場合)に正の報酬を与える。すなわち、行動評価手段32は、走行制御手段31の制御により、ある分割領域(s,t)から隣接する分割領域(s,t)に振動ローラ1が移動する行動を行った場合に正の報酬を与える。一方、行動評価手段32は、目標転圧回数を超えて分割領域K(s,t)を転圧した場合や、振動ローラ1が転圧エリア外に進出した場合に負の報酬を振動ローラ1に与える。
【0051】
なお、行動評価手段32は、分割領域K(s,t)を転圧した際に、転圧回数に応じた正しい振動があったときにさらに正の報酬を与えてもよい。転圧回数に応じた正しい振動とは、例えば、転圧回数が1回目のときには比較的大きな振動であり、転圧回数が増えるに従って徐々に小さな振動である。また、行動評価手段32は、作業効率のよい順番で分割領域K(s,t)を転圧した場合にさらに正の報酬を与えてもよい。
また、行動評価手段32は、振動ローラ1が障害物に接触した場合や、障害物を検知して停止した場合に負の報酬を与えてもよい。また、行動評価手段32は、振動ローラ1が制限速度をオーバーした場合に負の報酬を与えてもよい。また、行動評価手段32は、転圧回数が少ない領域が点在した場合(ある分割領域K(s,t)の転圧回数に対して周囲の分割領域K(s,t)の転圧回数が多くなった場合)に負の報酬を与えてもよい。
【0052】
走行制御手段31は、振動ローラ1を試験走行させる学習工程において、制限時間内に受信する報酬が最大化されるように行動を選択し、選択した行動に基づき振動ローラ1を制御する。走行制御手段31は、試験走行を繰り返し行うことで、報酬が最大化される走行経路を学習する。なお、ここで導かれる走行経路は、最良のものである必要はなく、最良に近いものも含むものである。
【0053】
以上のように、本実施形態に係る建設機械用機械学習装置30は、転圧エリアを複数の分割領域K(s,t)に分割する。そして、振動ローラ1があるある分割領域K(s,t)から隣接する分割領域K(s,t)へ移動する行動を取った場合に走行制御手段31に対して報酬を与える。したがって、本実施形態に係る建設機械用機械学習装置30は、転圧作業を繰り返し行うことにより走行経路の学習が可能であり、作業工程のプログラムの作成なしに振動ローラ1の転圧作業を柔軟かつ簡単に実現できる。
【0054】
(2)転圧エリア単位で報酬を与える場合
行動評価手段32は、例えば転圧エリアの転圧作業完了の可否を手がかりとして報酬を走行制御手段31に与える。具体的には、行動評価手段32は、制限時間内に転圧エリアのすべての分割領域K(s,t)を振動ローラ1が目標転圧回数だけ走行した場合(すなわち、目標転圧回数に対応付けた模様や色の走行軌跡画像が完成された場合)に正の報酬を走行制御手段31に与える。一方、行動評価手段32は、例えば制限時間内に転圧エリアのすべての分割領域K(s,t)を振動ローラ1が目標転圧回数だけ走行しなかった場合(すなわち、目標転圧回数に対応付けた模様や色の走行軌跡画像が完成しなかった場合)に、未転圧の分割領域K(s,t)の量に基づいた負の報酬を走行制御手段31に与える。
【0055】
この場合に、行動評価手段32は、走行経路を予め設定した通常施工の歩掛時間(例えば、100m
2で60分)を初期値として、実際の歩掛時間との差に基づく報酬を走行制御手段31に与えるようにしてもよい。つまり、転圧エリアの転圧作業完了までの時間が短い程に高い報酬を与えてもよい。
【0056】
また、行動評価手段32は、ある分割領域(s,t)から隣接する分割領域(s,t)に振動ローラ1が移動するごとに次に取るべき行動を選択するための指標となる報酬の期待値を設定する。報酬の期待値は、例えば、Q学習(Q-learning)におけるQ値(Q-value)である。行動評価手段32は、学習工程の開始時においては報酬の期待値を乱数で初期化し、試験走行を繰り返す中で最終的に報酬を得た行動につながる一連の行動に対して報酬の期待値を増加させる。走行制御手段31は、報酬の期待値が大きい行動を優先して次の行動を決定する。また、走行制御手段31は、報酬の期待値とは関係なく、ある割合でランダムに行動を選択するようにしてもよい。このようにすると、報酬の期待値に設定した初期値に依存することなく、さまざまな行動に対する適切な報酬の期待値を算出することができる。
【0057】
なお、学習工程の初期段階においては、振動ローラ1の行動は初期化された乱数により選択されることになるので、行動の結果は当然のことながら目標とする行動系列とはかけ離れたものとなる。学習工程の初期段階においては、例えば振動ローラ1がでたらめに走行して、同じ分割領域K(s,t)を何度も往復したり、転圧エリア外に進出することによりなかなか転圧作業が完了しないことも考えられる。このような初期段階においては、分割領域K(s,t)の数に対応して、目標とする行動系列に近づくまでの時間も増加する。
【0058】
そのため、本実施形態では、
図6に示すように、学習工程が進むにつれて、分割領域K(s,t)の分割数を徐々に増やして学習を行う。ここでは、初期段階、中期段階、後期段階の三つの段階で学習を進める場合を想定して説明するが、学習工程の段階数はここで説明するものに限定されるものではない。例えば、二つの段階や四つ以上の段階で学習が行われてもよい。
【0059】
学習工程の初期段階では、
図6(a)に示すように分割領域K(s,t)の分割数が少ない状態(分割領域K(s,t)のサイズが大きい状態)で学習を行う。そして、分割領域K(s,t)の分割数が少ない状態の学習が完了した場合に、
図6(b)に示すように分割領域K(s,t)の分割数を増やして学習を継続する。なお、分割数が少ない状態で学習が完了しても、分割領域(s,t)の面積が広いので、未転圧領域が多く存在することになるが、この段階ではよしとする。続いて、中期段階の学習が完了した場合に、
図6(c)に示すように分割領域K(s,t)の分割数をさらに増やして学習を継続する。
図6(c)に示す学習工程の後期段階では、分割領域(s,t)の面積が狭いので、未転圧領域はほとんど存在しない。
【0060】
ここで、学習工程が進むにつれて、分割領域K(s,t)の分割数を徐々に増やして学習を行うのに加えて、分割領域K(s,t)の分割数の増加に対応させて報酬を増加させてもよい。これにより、細かい分割領域K(s,t)における試験走行の結果を学習結果により早く反映させることができる。
【0061】
以上のように、本実施形態に係る建設機械用機械学習装置30は、転圧エリアを複数の分割領域K(s,t)に分割する。また、振動ローラ1がある分割領域K(s,t)から隣接する分割領域K(s,t)へ移動する移動する行動ごとに次に取るべき行動を選択するための指標となる報酬の期待値を設定する。そして、最終的に報酬を得た行動につながる一連の行動に対して報酬の期待値を増加させる。したがって、本実施形態に係る建設機械用機械学習装置30は、転圧作業を繰り返し行うことにより走行経路の学習が可能であり、作業工程のプログラムの作成なしに振動ローラ1の転圧作業を柔軟かつ簡単に実現できる。
【0062】
[変形例]
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、特許請求の範囲の趣旨を変えない範囲で実施することができる。実施形態の変形例を以下に例示する。
【0063】
実施形態に係る次世代無人化施工システムM(
図1(a)参照)は、振動ローラ1と、トータルステーション2(または測位用衛星4)と、ホストPC3とを備えて構成されていた。そして、ホストPC3が振動ローラ1に対して走行軌跡情報を送信し、振動ローラ1では行動評価手段32が走行軌跡情報に基づいて走行制御手段31に対して報酬を付与していた。しかしながら、振動ローラ1が有していた行動評価手段32は、ホストPC3が備える構成でもよく、また、図示しない他の装置が行動評価手段32を備える構成でもよい。その場合、行動評価手段32が備える装置から振動ローラ1に対して報酬を送信する。
【0064】
また、実施形態では走行軌跡情報に基づいて報酬を付与していた。しかしながら、行動評価手段32は、走行軌跡画像(
図3参照)に基づいて走行制御手段31に対して報酬を付与してもよい。
図7に走行軌跡画像(
図3参照)に基づいて報酬を付与する場合の構成を示す。
図7に示す次世代無人化施工システムMAは、振動ローラ1Aと、トータルステーション2(または測位用衛星4)と、ホストPC3Aと、行動評価装置5とを備えて構成される。
振動ローラ1Aは、行動評価手段32を有しておらず行動評価手段32に対応する機能を行動評価装置5が備える。そのため、ホストPC3Aは、振動ローラ1Aに対して走行軌跡情報を送信しない。行動評価装置5はカメラ5aを備え、ホストPC3Aに表示される走行軌跡画像(
図3参照)を撮影可能に配置されている。行動評価装置5は、走行軌跡画像の撮影を行い、撮影した走行軌跡画像の画像処理を行うことで走行軌跡情報に対応する情報を算出し、算出した情報に基づいて報酬を振動ローラ1Aに付与する。
【0065】
また、実施形態では学習工程において振動ローラ1を実際に試験走行させていたが、試験走行に代えてシミュレーションを行い、このシミュレーションの結果により走行経路の学習を行ってもよい。ここでのシミュレーションは、例えば、転圧エリアの仮想フィールド(仮想三次元または二次元空間)を振動ローラ1の仮想体が走行するものである。転圧エリアの仮想フィールドは、転圧エリアと同様に複数の分割領域K(s,t)に分割されている。その場合、建設機械用機械学習装置30の走行制御手段31は、仮想フィールド上で振動ローラ1の仮想体の走行を制御する。仮想体は、実際の施工を行う振動ローラ1の走行性能に対応しているのが望ましく、走行性能を簡略化したものであってもよい。仮想体は、走行制御手段31の制御により、例えば前進、後進、最小旋回半径での右旋回および左旋回を仮想フィールド上で行う。行動評価手段32は、仮想体の走行軌跡情報に基づいた報酬(正および負のものを含む)を走行制御手段31に対して与え、走行制御手段31は報酬により仮想体の走行経路を変更する。そして、仮想フィールドで仮想体の転圧作業を繰り返し行うことで走行経路の学習を行い、学習した走行経路を用いて振動ローラ1を実際に走行させる。このようにすれば、振動ローラ1を実際に走行させずに走行経路の学習を行うことができる。そのため、走行経路の学習に費やす労力を抑えることができる。
【解決手段】建設機械による転圧エリアの転圧作業における当該建設機械の走行経路を学習する建設機械用機械学習装置30である。この建設機械用機械学習装置30は、建設機械の進行方向を制御する走行制御手段31と、走行制御手段31により制御された走行に基づく報酬を走行制御手段31に対して与える行動評価手段32と、を備える。前記転圧エリアは、複数の分割領域で構成されており、行動評価手段32は、建設機械がある分割領域から隣接する分割領域へ移動する行動ごとに走行制御手段31に報酬を与える。走行制御手段31は、転圧作業を繰り返し行うことで、報酬が最大化される走行経路を学習する。