(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-02
(45)【発行日】2023-11-13
(54)【発明の名称】作業装置
(51)【国際特許分類】
B25J 9/22 20060101AFI20231106BHJP
G06N 3/02 20060101ALI20231106BHJP
【FI】
B25J9/22 A
G06N3/02
(21)【出願番号】P 2020020271
(22)【出願日】2020-02-10
【審査請求日】2022-08-10
(73)【特許権者】
【識別番号】000002107
【氏名又は名称】住友重機械工業株式会社
(74)【代理人】
【識別番号】100090033
【氏名又は名称】荒船 博司
(74)【代理人】
【識別番号】100093045
【氏名又は名称】荒船 良男
(72)【発明者】
【氏名】原 孝介
【審査官】臼井 卓巳
(56)【参考文献】
【文献】特開2019-155561(JP,A)
【文献】特開2019-214112(JP,A)
【文献】特開2019-181620(JP,A)
【文献】特開2019-042828(JP,A)
【文献】特開平06-019546(JP,A)
【文献】特開平02-285113(JP,A)
【文献】独国特許出願公開第10226140(DE,A1)
(58)【調査した分野】(Int.Cl.,DB名)
B25J 5/00-13/08
G06N 3/02
(57)【特許請求の範囲】
【請求項1】
容器に複数の物体を収容する作業装置であって、
前記複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
を備え
、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記容器内の複数の物体間の隙間と、前記容器内の物体の数とに基づいて前記予測結果を評価する、
作業装置。
【請求項2】
複数の物体として土砂を運搬する作業装置であって、
前記複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
を備え
、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記予測結果の土砂形状と目標の土砂形状との比較に基づいて前記予測結果を評価する、
作業装置。
【請求項3】
複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
前記複数の物体の目標状態のデータを設定可能な設定処理部と、
を備え
、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記目標状態のデータを用いて前記予測結果を評価する作業装置。
【請求項4】
前記可動部はロボットハンドであり、
前記可動部の操作によって容器に複数の物体を収容する、
請求項1から請求項
3のいずれか一項に記載の作業装置。
【請求項5】
前記可動部はショベルであり、
前記
複数の物体は土砂であり、
前記可動部の操作によって土砂を運搬する、
請求項
2又は請求項
3に記載の作業装置。
【請求項6】
前記予測モデルは、多体問題のシミュレーションを扱うニューラルネットワークである、
請求項
1から請求項5のいずれか一項に記載の作業装置。
【請求項7】
前記操作決定部は、
前記複数の物体の一部の配置の変更操作、物体の追加操作、又はこれら両方を含む操作を決定する、
請求項1から請求項
6のいずれか一項に記載の作業装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、作業装置に関する。
【背景技術】
【0002】
特許文献1には、ロボットアームを自動運転するシステムが示されている。このシステムは、オペレータによるロボットアームの操作を機械学習によって模倣した複数の模倣モデルと、周辺環境のデータの分類に基づいて使用する模倣モデルを選択するモデル選択部とを備える。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来、予測モデルを用いて何らかの状態を予測し、この予測結果に基づいて操作を自動化する自動運転システムがある。しかしながら、従来の自動運転システムによる予測は、単体の物体の動作予測など単純な運動の予測が行われるのみであった。そのため、従来の自動運転システムでは、相互作用して互いの配置が変わるような複数の物体を操作対象として扱うことは困難であった。
【0005】
本発明は、複数の物体に対する操作を自動化できる作業装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)
本発明の一態様の作業装置は、
容器に複数の物体を収容する作業装置であって、
前記複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
を備え、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記容器内の複数の物体間の隙間と、前記容器内の物体の数とに基づいて前記予測結果を評価する。
(2)
本発明のもう一つの態様の作業装置は、
複数の物体として土砂を運搬する作業装置であって、
前記複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
を備え、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記予測結果の土砂形状と目標の土砂形状との比較に基づいて前記予測結果を評価する。
(3)
本発明のもう一つの態様の作業装置は、
複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
前記複数の物体の目標状態のデータを設定可能な設定処理部と、
を備え、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記目標状態のデータを用いて前記予測結果を評価する。
【発明の効果】
【0007】
本発明によれば、複数の物体に対する操作を自動化できる作業装置を提供できる。
【図面の簡単な説明】
【0008】
【
図1】本発明の実施形態1に係る作業装置を示すブロック図である。
【
図3】制御部が実行する作業処理の手順を示すフローチャートである。
【
図4】第1の操作と評価の一例を示す説明図である。
【
図5】第2の操作と評価の一例を示す説明図である。
【
図6】本発明の実施形態2に係る作業装置を示すブロック図である。
【
図7】実施形態2の作業装置の自動運転処理を説明する図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について図面を参照して詳細に説明する。
【0010】
(実施形態1)
図1は、本発明の実施形態1に係る作業装置を示すブロック図である。実施形態1において操作対象の物体は射出成形品やグラス等のワークである。実施形態1の作業装置1は、容器(箱)の中に複数のワークを自動的に収容する装置であり、効率的に多くのワークを容器の中に収めることを目的としている。
【0011】
作業装置1は、
図1に示すように、複数のワークの位置を取得するための撮影部3と、ワークの操作が可能なロボットハンドなどの可動部2と、可動部2を動かして操作の自動運転を行う制御部10とを備える。撮影部3は、本発明に係る状態取得部の一例に相当する。
【0012】
可動部2は、ワークを容器に追加する操作、容器内のワークを動かす操作が可能である。
【0013】
制御部10は、制御プログラムを格納した記憶部と、制御プログラムを実行するCPU(Central Processing Unit)と、撮影部3からの撮像画像の入力と可動部2への制御信号の出力とを行うI/Oとを有するコンピュータである。制御部10では、CPUが制御プログラムを実行することで、幾つかの機能モジュールが実現される。機能モジュールには、可動部2の操作を決定する操作決定部11と、可動部2を動かして操作決定部11が決定した操作を実行させる操作制御部12とが含まれる。
【0014】
操作決定部11には、可動部2がワークに操作を加えた場合に複数のワークの状態の変化を予測する機械学習された予測モデル111と、複数のワークの状態の評価を行う評価処理部112とが含まれる。
【0015】
予測モデル111は、相互に影響しあう複数の物体(ワーク等)に対して或る操作を行った後の当該複数の物体の状態を予測する。予測モデル111は、例えば多体問題のシミュレーションを機械学習により近似したニューラルネットワークを適用できる。
【0016】
評価処理部112は、予測モデル111が予測した複数の物体(ワーク等)の状態についての評価を行う。評価処理部112は、複数の物体の状態が望ましい状態であるほど高い評価値を出力するように設計される。望ましい状態は、例えば目標の状態に速く近づく状態であってもよい。評価処理部112は、評価関数を用いて、複数の物体(ワーク等)の状態の評価を行う。評価関数はユーザが設定入力可能に構成されてもよい。
【0017】
操作決定部11は、予測モデル111の予測結果と評価処理部112の評価に基づいて、可動部2の次の操作を決定する。操作決定部11は、例えば、複数の操作ステップ先を予測ホライズンとし、予測ホライズンにおける複数の物体の状態の予測結果と評価に基づいて、次の操作ステップを決定する。操作決定部11は、様々な組み合わせの操作を選択して複数通りの予測ホライズンの状態予測及び評価を、予測モデル111及び評価処理部112を用いて実行させ、その評価を比較する。そして、評価が最も高い予測ホライズンを見つけ、当該予測ホライズンの1つ目の操作ステップの操作を、次の操作として決定する。
【0018】
操作制御部12は、可動部2を動かして操作決定部11が決定した操作を実行させる。
【0019】
続いて、予測モデル111及び評価処理部112の具体的な一例を説明する。本発明に係る予測モデル及び評価処理部は、以下の具体的に限定されるものでない。
【0020】
<予測モデル>
予測モデル111においては、i番目の物体(ワーク等)の状態ベクトルをx
i
kと記述し、その集合をX
k={x
i
k|i=1,…,N
k}と記述する。さらに、物体に加える操作をu
kと記述する。添え字kは、離散時間を表わす。予測モデル111のニューラルネットワークは、次式(1)のように、或る離散時間k-1の物体の状態ベクトル集合X
k-1と操作u
kとを入力とし、次の離散時間kの物体の状態ベクトル集合X
kを出力とする関数fとして表わすことができる。
【数1】
【0021】
予測モデル111には、多体問題に適した具体例として、例えば、Chang, Michael B. et al., "A compositional object-based approach to learning physical dynamic.", arXiv preprint arXiv:1612.00341 (2016). ICLR2017. に記載のニューラルネットワークを適用できる。上記の文献には、多体問題のシミュレーションを扱うニューラルネットワークが示されている。予測モデル111の機械学習を行う場合、複数の物体に対して様々なパターンの操作を試行したシミュレーションデータから、多くの学習データセット{Xk、Xk-1、uk-1}を用意する。シミュレーションには、Distinct Element Methodなどを用いることができる。{Xk-1、uk-1}は訓練用入力データであり、{Xk}は目標値である。ニューラルネットワークに学習データセットを与えて、バックプロパゲーション(誤差逆伝播法)等により、各パラメータを最適化することで、機械学習された予測モデル111が得られる。
【0022】
物体の状態ベクトルxi
kは、複数の要素、例えば、ワークか否か、壁面か否か、ロボットアームか否か、二次元上の位置、二次元方向の速度、基準点からの方位θ、基準点を中心とする角加速度ω、等々を有してもよい。状態ベクトルxi
kが、物体の種類を示す要素を有することで、状態ベクトルxi
kにより、ワークだけでなく、容器の壁面、可動部2(ロボットアーム)など、他の物体の状態を表わすことができる。そして、状態ベクトル集合Xkに、他の物体の状態を含めることができる。
【0023】
物体に加える操作ukは、複数の要素、例えば、可動部2による操作の種類akと、可動部2による操作量vkを有する。操作の種類akには、容器にワークを投入する操作、容器内のワークを動かす操作などが含まれる。操作量vkは、可動部2によりワークを移動する方向と長さの情報である。
【0024】
<評価処理部>
評価処理部112は、評価関数Lを有し、状態ベクトル集合Xkを入力して、評価値を出力する。評価関数Lは、状態ベクトル集合Xkが、目標状態に速やかに近づく状態であれば高い評価値に、その逆であれば低い評価値が得られるように設計される。実施形態1では、容器に多くのワークが詰め込める状態が高い評価値となるように評価関数Lが設計される。評価関数Lは、複数の物体に及ぼす操作の種類が複数あれば、操作の種類ごとの項を有してもよい。
【0025】
<容器内でワークを押して隙間を空ける操作の評価関数L
A>
隙間を空ける操作に関する評価関数L
Aは、大きな隙間が得られた場合に、高い評価値が得られるように設計されればよい。大きな隙間により、ワークの投入が可能となるためである。評価関数L
Aを作成するため、先ず、任意な点pと各部との距離を示すベクトルdを導入する。
図2は、ベクトルdを説明する図である。
【数2】
【0026】
ここで、pは容器内の任意な点の位置ベクトル、D
pは2点間の距離を表わす関数、D
lは1点と直線との距離を表わす関数、y
1~y
Mは容器内の各ワークの位置ベクトル、b
1~b
Lは容器の各壁の位置角度平面長さを特定できる量である。ベクトルdの各要素は、任意な点pと各ワークとの距離、並びに、任意な点pと容器の各壁との距離を示す。
図2に示すように、容器C1内にM=8個のワークWがあり、容器C1の壁がL=4面であれば、集合Yの元はy
1~y
8となり、集合Bの元はb
1~b
4となり、ベクトルdは、M+L=12の要素を有することとなる。
【0027】
ベクトルdの全要素が大きい値であれば、点pの周囲に大きな隙間があることが示される。一方、ベクトルdの要素に大きな値と小さな値とが含まれる場合、大きな値が示す間隔内に、小さな値が示す間隔離れたワークが存在する可能性がある。この場合、大きな値が示す間隔は隙間とはならず、隙間を評価する上で、影響度が低くなる。そこで、このような影響の重みを表わすベクトルηを導入する。
【数3】
【0028】
ここで、[]gは、g個の要素を有するベクトルを示す。gは、1、…、M、M+1、…、M+Lであり、ベクトルηの要素数はベクトルdの要素数と一致する。dhは、ベクトルdのh番目の要素を示す。αとcは調整用の定数であり、実際のワークに合わせて、適宜定められる。ベクトルηの式は、遠方のワーク又は壁までの隙間については、評価の値が割り引かれるような重みを表わす。
【0029】
さらに、上記のベクトルd、ηを用いて、次式(6)のように、関数γを導入する。関数γは、任意な点pにおける隙間の大きさの推測値を与える関数であり、ワーク又は壁までの距離を示すベクトルdと、間隔が隙間に与える影響度の重みを示すベクトルηとで、同一要素同士を掛け合わせて総和をとる。関数γは、任意な点pと、容器内の全ワークの位置ベクトルの集合Bと、容器の全壁を特定する情報の集合Yと、を引数として持つ。
【数4】
【0030】
評価関数L
Aは、関数γを用いて、次式(7)のように、任意な点pの中で最大となるηとして定義される。
【数5】
任意な点pの最適化(γを大きくする点pの算出)は、容器内の点をランダムに探索して、γを大きくする点p’を大まかに算出し、この点p’の近傍で、よりγを大きくする点pを勾配法により計算することで得てもよい。勾配は、関数γの数値微分により求めることができる。
【0031】
<ワークを容器内に投入する操作の評価関数L
B>
ワークを投入する操作に関する評価関数L
Bは、ワークの数が増えれば高い評価値が得られるように設計されればよい。このため、評価関数L
Bは、次式(8)のように、ワークの数(集合Yの元の数)と定義できる。
【数6】
【0032】
<総合の評価関数L>
総合の評価関数Lは、容器内でワークを押して隙間を空ける操作と、ワークを容器内に投入する操作との、どちらを選ぶかの評価が可能なように設計されればよい。総合の評価関数Lは、次式(9)のように、各操作に関する評価関数L
A、L
Bを重み付けして結合することで定義できる。μは、正の重みを示す定数である。
【数7】
【0033】
評価値をコスト値(良くない値)として扱う場合には、上記評価関数Lの符号を反転させればよい。
【0034】
<作業処理>
図3は、制御部が実行する作業処理の手順を示すフローチャートである。
図4は、第1の操作と評価の一例を示す説明図である。
図5は、第2の操作と評価の一例を示す説明図である。
【0035】
例えばユーザからの開始要求があった場合に、制御部10は作業処理を開始する。作業処理が開始されると、制御部10は、先ず、撮影部3の撮影画像を取得して、複数の物体の状態を検出する(ステップS1)。実施形態1では、複数の物体は操作ステップごとに一旦静止するので、ステップS1では、状態として複数の物体の位置が取得される。
【0036】
次に、制御部10では、操作決定部11が、ステップS1で取得された状態から、予測に使用する状態ベクトルxi
k-1の集合Xk-1を、初期化、すなわち、ステップS1で取得された状態の値にセットする(ステップS2)。
【0037】
次に、操作決定部11は、状態ベクトル集合X
k-1に適用できる操作を選択する(ステップS3)。例えば、
図4及び
図5に示すように、離散時間k-1の状態ベクトル集合X
k-1(容器C1の中に複数のワークWが配置された状態)であれば、一定以上の隙間に新たにワークWを投入するという操作と、容器C1内のいずれかのワークWをどれだけどの方向に押すという操作が選択可能であり、これらの操作の中から、いずれかの操作を選択する。選択は、ランダムに行われてもよいし、分散した選択がなされてもよいし、理想の操作の範囲が予め分かっていれば理想の範囲内の操作が多く選択されるようにされてもよい。
図4は、矢印A1の可動部2の動きによって1つのワークW1を押す操作が選択された例を示している。
図5は、新たなワークW2を投入する操作が選択された例を示している。
【0038】
次に操作決定部11は、状態ベクトル集合Xk-1と選択された操作uk-1とから次の離散時間kの状態ベクトル集合Xkを予測する(ステップS4)。予測は、予測モデル111を用いて行われる。
【0039】
次に操作決定部11は、予め定められた最大予測ステップ(予測ホライズン)まで予測が到達したか判別し(ステップS5)、NOであれば、処理をステップS3に戻して、ステップS3~S5の処理を繰り返す。予測ホライズンが大きなステップ数になると、演算負荷が高まるので、予測ホライズンは適宜なステップ数に定められるとよい。例えば3ステップ程度としてもよい。
【0040】
ステップS3~S5の繰り返しにより、ステップS2の初期化された状態から、複数回の操作を加えた予測ホライズン(例えば3操作ステップ先)の状態ベクトル集合X
k+2が推測される。
図4及び
図5は、予測ホライズンを1操作ステップ先とした例を示している。
【0041】
ステップS5でYESと判別されると、操作決定部11は、評価処理部112により予測された状態ベクトル集合X
k+2の評価値を計算させる(ステップS6)。評価処理部112は、評価関数Lに状態ベクトル集合X
k+2を入力して、評価値を計算する。
図4及び
図5は、予測ホライズンが1操作ステップ先なので、評価値を計算する状態ベクトル集合はX
kとなる。
図4の例では、予測された状態ベクトル集合X
kから計算された評価関数L
Aの値が向上し、総合の評価も向上したため、選択された操作u
k-1が良い操作と判定されている。
図5の例では、予測された状態ベクトル集合X
kから計算された評価関数L
Bの値が向上し、隙間に関する評価関数L
Aの増減と合わせて、総合の評価が向上したため、選択された操作u
k-1が良い操作と判定されている。操作の選択により、高低さまざまな評価値が計算される。
【0042】
続いて、操作決定部11は、ステップS6の評価が、予め定められた最大評価回数に達したか判別し、NOであれば、処理をステップS2に戻して、ステップS2からの処理を繰り返す。ステップS2~S7の繰り返しにより、最大評価回数分の様々な操作に対する予測結果とそれに基づく評価値が得られる。
【0043】
ステップS7でYESとなると、操作決定部11は、ステップS2~S7の繰り返しにより得られた最大評価回数分の評価値を比較し、最も評価値が高い予測ホライズンで選択されていた第1操作ステップの操作を、次に実行する操作として選択する(ステップS8)。
【0044】
制御部10では、操作決定部11が次の操作を決定したら、操作制御部12が、可動部2を制御して操作を実行させる(ステップS9)。そして、制御部10は、終了条件に達したか否かを判別し(ステップS10)、達していれば作業処理を終了し、達していなければ、処理をステップS1に戻して、ステップS1からの処理を繰り返す。終了条件は、例えば、操作の実行後に計測された状態ベクトル集合Xkに基づく条件(例えば、容器内のワークの個数が最大詰込み数に達した等)、あるいは、最大繰り返し回数に達した場合等から適宜定められればよい。
【0045】
ステップS1~S9の処理が繰り返されることで、評価関数Lの値を高くする操作が選択されかつ実行されていき、作業の目的を達成する自動運転が実現される。
【0046】
以上のように、実施形態1の作業装置1によれば、複数のワークの操作が可能な可動部2と、複数のワークの位置を取得する撮影部3と、操作後の複数のワークの配置を予測して複数のワークに対する可動部2の操作を決定する操作決定部11と、操作決定部11が決定した操作を可動部2に行わせる操作制御部12とを備える。したがって、相互に作用する複数のワークに対して、目標の作業(容器に多くのワークを詰める動作等)を達成する自動運転を実現できる。
【0047】
さらに、実施形態1の作業装置1によれば、複数のワークの相互作用による配置変化を含めて操作後の複数のワークの状態を予測する機械学習された予測モデル111と、予測された複数のワークの状態を評価する評価処理部112とを備え、予測と評価とに基づき次に実行する操作を決定する。したがって、目的に沿った操作の決定を小さな演算負荷で決定することができる。
【0048】
そして、実施形態1の作業装置1により、容器にワークを詰めて収容する操作を自動化できる。
【0049】
(実施形態2)
図6は、本発明の実施形態2に係る作業装置を示すブロック図である。実施形態2の作業装置1は、土砂を自動的に運搬する装置であり、目標の土砂形状の生成を効率的に行うことを目的としている。実施形態2では操作対象の物体、並びに、状態が予測される物体として、土砂が適用される。
【0050】
作業装置1は、
図6に示すように、可動部2Aがパワーショベル(ショベル、クローラ、旋回装置等)であり、さらに、制御部10には、ユーザが目標状態の設定データを設定できる設定処理部13が追加されている。設定処理部13は、目標状態の設定データを格納する設定部131を有する。その他の構成要素は、実施形態1と同様である。
【0051】
予測モデル111は、複数の物体の状態として土砂の配置や密度が適用され、土砂をすくう、すくった土砂を運搬する、土砂を下す等の各操作を行った場合の土砂の状態を予測する。予測モデル111は、機械学習されたニューラルネットワークを適用できる。土砂の操作に対しては、操作箇所から遠いところにある土砂への相互作用が少ないことから、予測モデル111は、相互作用が非常に少ないエリアの物体に関する計算がスクリーニングにより外されるように、演算量を削減する機能を有していてもよい。また、土砂の一粒一粒を物体の単位とすると、演算量が膨大になるため、予測モデル111は、予め定めた土砂のまとまりを物体の単位として扱うようにしてもよい。
【0052】
評価処理部112は、実施形態1と同様に予め設計された評価関数に基づき、予測された土砂の配置状態について評価値を計算する。評価関数には、設定部131に登録された目標状態データを使用した関数が含まれ、例えば、予測された土砂形状と目標の土砂形状との差が小さいほど高い評価値が得られる関数を含む。
【0053】
図7は、実施形態2の作業装置の自動運転処理を説明する図である。
図7のラインL0は設定部131に登録された目標の土砂形状を示す。実施形態2の作業装置1においても、実施形態1と同様に、制御部10が作業処理の中で、予測モデル111を用いた土砂の配置の予測と、評価処理部112により計算された評価値とに基づいて、操作決定部11が操作を決定し、操作制御部12がその操作を可動部2Aに実行させる。そして、このような操作が繰り返されることで、目標の土砂形状に合わせた土砂の運搬が自動運転により実現される。
【0054】
以上のように、実施形態2の作業装置1によれば、ユーザが目標状態データを設定できる設定処理部13を備え、評価処理部112は目標状態データを用いて評価値を計算する。したがって、目標状態(目標の土砂形状)が変わる現場に対して、目標状態データの設定により、各現場に対応することができる。
【0055】
以上、本発明の各実施形態について説明した。しかし、本発明は上記の実施形態に限られない。例えば、上記実施形態では、操作後に静止する物体を操作対象としたため、状態取得部が取得する物体の状態、並びに、予測モデルが予測する物体の状態として、物体の位置が採用された例を示した。しかし、操作対象の物体は、運動する物体、温度、摩擦抵抗、重量、電流、電圧等の様々な物理量が変化する物体であってもよい。この場合、状態取得部が取得する物体の状態、並びに、予測モデルが予測する物体の状態には、位置の他、速度、各速度、並びに、様々な物理量が含まれてもよい。予測モデルは、物体の状態ベクトルにこれらの物理量を含めて予測を行えばよい。また、状態取得部は、これらの物理量を測定する装置が適用されればよい。その他、実施の形態で示した細部は、発明の趣旨を逸脱しない範囲で適宜変更可能である。
【符号の説明】
【0056】
1 作業装置
2、2A 可動部
3 撮影部
10 制御部
11 操作決定部
12 操作制御部
111 予測モデル
112 評価処理部
C1 容器
W、W1、W2 ワーク