特許7378309 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 住友重機械工業株式会社の特許一覧

特許7378309作業装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-02

(45)【発行日】2023-11-13

(54)【発明の名称】作業装置

(51)【国際特許分類】

B25J 9/22 20060101AFI20231106BHJP

G06N 3/02 20060101ALI20231106BHJP

【ＦＩ】

B25J9/22 A

G06N3/02

【請求項の数】 7

(21)【出願番号】P 2020020271

(22)【出願日】2020-02-10

(65)【公開番号】P2021122924

(43)【公開日】2021-08-30

【審査請求日】2022-08-10

(73)【特許権者】

【識別番号】000002107

【氏名又は名称】住友重機械工業株式会社

(74)【代理人】

【識別番号】100090033

【弁理士】

【氏名又は名称】荒船博司

(74)【代理人】

【識別番号】100093045

【弁理士】

【氏名又は名称】荒船良男

(72)【発明者】

【氏名】原孝介

【審査官】臼井卓巳

(56)【参考文献】

【文献】特開２０１９－１５５５６１（ＪＰ，Ａ）

【文献】特開２０１９－２１４１１２（ＪＰ，Ａ）

【文献】特開２０１９－１８１６２０（ＪＰ，Ａ）

【文献】特開２０１９－０４２８２８（ＪＰ，Ａ）

【文献】特開平０６－０１９５４６（ＪＰ，Ａ）

【文献】特開平０２－２８５１１３（ＪＰ，Ａ）

【文献】独国特許出願公開第１０２２６１４０（ＤＥ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｂ２５Ｊ５／００－１３／０８

Ｇ０６Ｎ３／０２

(57)【特許請求の範囲】

【請求項1】

容器に複数の物体を収容する作業装置であって、
前記複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
を備え、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記容器内の複数の物体間の隙間と、前記容器内の物体の数とに基づいて前記予測結果を評価する、
作業装置。

【請求項2】

複数の物体として土砂を運搬する作業装置であって、
前記複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
を備え、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記予測結果の土砂形状と目標の土砂形状との比較に基づいて前記予測結果を評価する、
作業装置。

【請求項3】

複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
前記複数の物体の目標状態のデータを設定可能な設定処理部と、
を備え、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記目標状態のデータを用いて前記予測結果を評価する作業装置。

【請求項4】

前記可動部はロボットハンドであり、
前記可動部の操作によって容器に複数の物体を収容する、
請求項１から請求項３のいずれか一項に記載の作業装置。

【請求項5】

前記可動部はショベルであり、
前記複数の物体は土砂であり、
前記可動部の操作によって土砂を運搬する、
請求項２又は請求項３に記載の作業装置。

【請求項6】

前記予測モデルは、多体問題のシミュレーションを扱うニューラルネットワークである、
請求項１から請求項５のいずれか一項に記載の作業装置。

【請求項7】

前記操作決定部は、
前記複数の物体の一部の配置の変更操作、物体の追加操作、又はこれら両方を含む操作を決定する、
請求項１から請求項６のいずれか一項に記載の作業装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、作業装置に関する。

【背景技術】

【0002】

特許文献１には、ロボットアームを自動運転するシステムが示されている。このシステムは、オペレータによるロボットアームの操作を機械学習によって模倣した複数の模倣モデルと、周辺環境のデータの分類に基づいて使用する模倣モデルを選択するモデル選択部とを備える。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１８－２０６２８６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

従来、予測モデルを用いて何らかの状態を予測し、この予測結果に基づいて操作を自動化する自動運転システムがある。しかしながら、従来の自動運転システムによる予測は、単体の物体の動作予測など単純な運動の予測が行われるのみであった。そのため、従来の自動運転システムでは、相互作用して互いの配置が変わるような複数の物体を操作対象として扱うことは困難であった。

【0005】

本発明は、複数の物体に対する操作を自動化できる作業装置を提供することを目的とする。

【課題を解決するための手段】

【0006】

（１）
本発明の一態様の作業装置は、
容器に複数の物体を収容する作業装置であって、
前記複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
を備え、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記容器内の複数の物体間の隙間と、前記容器内の物体の数とに基づいて前記予測結果を評価する。
（２）
本発明のもう一つの態様の作業装置は、
複数の物体として土砂を運搬する作業装置であって、
前記複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
を備え、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記予測結果の土砂形状と目標の土砂形状との比較に基づいて前記予測結果を評価する。
（３）
本発明のもう一つの態様の作業装置は、
複数の物体に対する操作が可能な可動部と、
前記複数の物体の状態を取得する状態取得部と、
操作後の前記複数の物体の状態の変化を予測して前記複数の物体に対する操作を決定する操作決定部と、
前記操作決定部が決定した操作を前記可動部に行わせる操作制御部と、
前記複数の物体の目標状態のデータを設定可能な設定処理部と、
を備え、
前記操作決定部は、前記複数の物体の相互作用による状態変化を含めて、前記可動部による操作後の前記複数の物体の状態を予測する機械学習された予測モデルと、前記予測モデルを用いた予測結果を評価する評価処理部と、を有し、かつ、前記予測モデルを用いた予測と前記評価処理部による評価とに基づいて操作を決定し、
前記評価処理部は、前記目標状態のデータを用いて前記予測結果を評価する。

【発明の効果】

【0007】

本発明によれば、複数の物体に対する操作を自動化できる作業装置を提供できる。

【図面の簡単な説明】

【0008】

【図1】本発明の実施形態１に係る作業装置を示すブロック図である。

【図2】評価に使用する変数を説明する図である。

【図3】制御部が実行する作業処理の手順を示すフローチャートである。

【図4】第１の操作と評価の一例を示す説明図である。

【図5】第２の操作と評価の一例を示す説明図である。

【図6】本発明の実施形態２に係る作業装置を示すブロック図である。

【図7】実施形態２の作業装置の自動運転処理を説明する図である。

【発明を実施するための形態】

【0009】

以下、本発明の実施形態について図面を参照して詳細に説明する。

【0010】

（実施形態１）
図１は、本発明の実施形態１に係る作業装置を示すブロック図である。実施形態１において操作対象の物体は射出成形品やグラス等のワークである。実施形態１の作業装置１は、容器（箱）の中に複数のワークを自動的に収容する装置であり、効率的に多くのワークを容器の中に収めることを目的としている。

【0011】

作業装置１は、図１に示すように、複数のワークの位置を取得するための撮影部３と、ワークの操作が可能なロボットハンドなどの可動部２と、可動部２を動かして操作の自動運転を行う制御部１０とを備える。撮影部３は、本発明に係る状態取得部の一例に相当する。

【0012】

可動部２は、ワークを容器に追加する操作、容器内のワークを動かす操作が可能である。

【0013】

制御部１０は、制御プログラムを格納した記憶部と、制御プログラムを実行するＣＰＵ（Central Processing Unit）と、撮影部３からの撮像画像の入力と可動部２への制御信号の出力とを行うＩ／Ｏとを有するコンピュータである。制御部１０では、ＣＰＵが制御プログラムを実行することで、幾つかの機能モジュールが実現される。機能モジュールには、可動部２の操作を決定する操作決定部１１と、可動部２を動かして操作決定部１１が決定した操作を実行させる操作制御部１２とが含まれる。

【0014】

操作決定部１１には、可動部２がワークに操作を加えた場合に複数のワークの状態の変化を予測する機械学習された予測モデル１１１と、複数のワークの状態の評価を行う評価処理部１１２とが含まれる。

【0015】

予測モデル１１１は、相互に影響しあう複数の物体（ワーク等）に対して或る操作を行った後の当該複数の物体の状態を予測する。予測モデル１１１は、例えば多体問題のシミュレーションを機械学習により近似したニューラルネットワークを適用できる。

【0016】

評価処理部１１２は、予測モデル１１１が予測した複数の物体（ワーク等）の状態についての評価を行う。評価処理部１１２は、複数の物体の状態が望ましい状態であるほど高い評価値を出力するように設計される。望ましい状態は、例えば目標の状態に速く近づく状態であってもよい。評価処理部１１２は、評価関数を用いて、複数の物体（ワーク等）の状態の評価を行う。評価関数はユーザが設定入力可能に構成されてもよい。

【0017】

操作決定部１１は、予測モデル１１１の予測結果と評価処理部１１２の評価に基づいて、可動部２の次の操作を決定する。操作決定部１１は、例えば、複数の操作ステップ先を予測ホライズンとし、予測ホライズンにおける複数の物体の状態の予測結果と評価に基づいて、次の操作ステップを決定する。操作決定部１１は、様々な組み合わせの操作を選択して複数通りの予測ホライズンの状態予測及び評価を、予測モデル１１１及び評価処理部１１２を用いて実行させ、その評価を比較する。そして、評価が最も高い予測ホライズンを見つけ、当該予測ホライズンの１つ目の操作ステップの操作を、次の操作として決定する。

【0018】

操作制御部１２は、可動部２を動かして操作決定部１１が決定した操作を実行させる。

【0019】

続いて、予測モデル１１１及び評価処理部１１２の具体的な一例を説明する。本発明に係る予測モデル及び評価処理部は、以下の具体的に限定されるものでない。

【0020】

＜予測モデル＞
予測モデル１１１においては、ｉ番目の物体（ワーク等）の状態ベクトルをｘ_ｉ ^ｋと記述し、その集合をＸ^ｋ＝｛ｘ_ｉ ^ｋ｜ｉ＝１，…，Ｎ^ｋ｝と記述する。さらに、物体に加える操作をｕ^ｋと記述する。添え字ｋは、離散時間を表わす。予測モデル１１１のニューラルネットワークは、次式（１）のように、或る離散時間ｋ－１の物体の状態ベクトル集合Ｘ^ｋ－１と操作ｕ^ｋとを入力とし、次の離散時間ｋの物体の状態ベクトル集合Ｘ^ｋを出力とする関数ｆとして表わすことができる。

【数1】

【0021】

予測モデル１１１には、多体問題に適した具体例として、例えば、Chang, Michael B. et al., "A compositional object-based approach to learning physical dynamic.", arXiv preprint arXiv:1612.00341 (2016). ICLR2017. に記載のニューラルネットワークを適用できる。上記の文献には、多体問題のシミュレーションを扱うニューラルネットワークが示されている。予測モデル１１１の機械学習を行う場合、複数の物体に対して様々なパターンの操作を試行したシミュレーションデータから、多くの学習データセット｛Ｘ^ｋ、Ｘ^ｋ－１、ｕ^ｋ－１｝を用意する。シミュレーションには、Distinct Element Methodなどを用いることができる。｛Ｘ^ｋ－１、ｕ^ｋ－１｝は訓練用入力データであり、｛Ｘ^ｋ｝は目標値である。ニューラルネットワークに学習データセットを与えて、バックプロパゲーション（誤差逆伝播法）等により、各パラメータを最適化することで、機械学習された予測モデル１１１が得られる。

【0022】

物体の状態ベクトルｘ_ｉ ^ｋは、複数の要素、例えば、ワークか否か、壁面か否か、ロボットアームか否か、二次元上の位置、二次元方向の速度、基準点からの方位θ、基準点を中心とする角加速度ω、等々を有してもよい。状態ベクトルｘ_ｉ ^ｋが、物体の種類を示す要素を有することで、状態ベクトルｘ_ｉ ^ｋにより、ワークだけでなく、容器の壁面、可動部２（ロボットアーム）など、他の物体の状態を表わすことができる。そして、状態ベクトル集合Ｘ^ｋに、他の物体の状態を含めることができる。

【0023】

物体に加える操作ｕ^ｋは、複数の要素、例えば、可動部２による操作の種類ａ^ｋと、可動部２による操作量ｖ^ｋを有する。操作の種類ａ^ｋには、容器にワークを投入する操作、容器内のワークを動かす操作などが含まれる。操作量ｖ_ｋは、可動部２によりワークを移動する方向と長さの情報である。

【0024】

＜評価処理部＞
評価処理部１１２は、評価関数Ｌを有し、状態ベクトル集合Ｘ^ｋを入力して、評価値を出力する。評価関数Ｌは、状態ベクトル集合Ｘ^ｋが、目標状態に速やかに近づく状態であれば高い評価値に、その逆であれば低い評価値が得られるように設計される。実施形態１では、容器に多くのワークが詰め込める状態が高い評価値となるように評価関数Ｌが設計される。評価関数Ｌは、複数の物体に及ぼす操作の種類が複数あれば、操作の種類ごとの項を有してもよい。

【0025】

＜容器内でワークを押して隙間を空ける操作の評価関数Ｌ_Ａ＞
隙間を空ける操作に関する評価関数Ｌ_Ａは、大きな隙間が得られた場合に、高い評価値が得られるように設計されればよい。大きな隙間により、ワークの投入が可能となるためである。評価関数Ｌ_Ａを作成するため、先ず、任意な点ｐと各部との距離を示すベクトルｄを導入する。図２は、ベクトルｄを説明する図である。

【数2】

【0026】

ここで、ｐは容器内の任意な点の位置ベクトル、Ｄ_ｐは２点間の距離を表わす関数、Ｄ_ｌは１点と直線との距離を表わす関数、ｙ_１～ｙ_Ｍは容器内の各ワークの位置ベクトル、ｂ_１～ｂ_Ｌは容器の各壁の位置角度平面長さを特定できる量である。ベクトルｄの各要素は、任意な点ｐと各ワークとの距離、並びに、任意な点ｐと容器の各壁との距離を示す。図２に示すように、容器Ｃ１内にＭ＝８個のワークＷがあり、容器Ｃ１の壁がＬ＝４面であれば、集合Ｙの元はｙ_１～ｙ_８となり、集合Ｂの元はｂ_１～ｂ_４となり、ベクトルｄは、Ｍ＋Ｌ＝１２の要素を有することとなる。

【0027】

ベクトルｄの全要素が大きい値であれば、点ｐの周囲に大きな隙間があることが示される。一方、ベクトルｄの要素に大きな値と小さな値とが含まれる場合、大きな値が示す間隔内に、小さな値が示す間隔離れたワークが存在する可能性がある。この場合、大きな値が示す間隔は隙間とはならず、隙間を評価する上で、影響度が低くなる。そこで、このような影響の重みを表わすベクトルηを導入する。

【数3】

【0028】

ここで、［］_ｇは、ｇ個の要素を有するベクトルを示す。ｇは、１、…、Ｍ、Ｍ＋１、…、Ｍ＋Ｌであり、ベクトルηの要素数はベクトルｄの要素数と一致する。ｄ_ｈは、ベクトルｄのｈ番目の要素を示す。αとｃは調整用の定数であり、実際のワークに合わせて、適宜定められる。ベクトルηの式は、遠方のワーク又は壁までの隙間については、評価の値が割り引かれるような重みを表わす。

【0029】

さらに、上記のベクトルｄ、ηを用いて、次式（６）のように、関数γを導入する。関数γは、任意な点ｐにおける隙間の大きさの推測値を与える関数であり、ワーク又は壁までの距離を示すベクトルｄと、間隔が隙間に与える影響度の重みを示すベクトルηとで、同一要素同士を掛け合わせて総和をとる。関数γは、任意な点ｐと、容器内の全ワークの位置ベクトルの集合Ｂと、容器の全壁を特定する情報の集合Ｙと、を引数として持つ。

【数4】

【0030】

評価関数Ｌ_Ａは、関数γを用いて、次式（７）のように、任意な点ｐの中で最大となるηとして定義される。

【数5】

任意な点ｐの最適化（γを大きくする点ｐの算出）は、容器内の点をランダムに探索して、γを大きくする点ｐ’を大まかに算出し、この点ｐ’の近傍で、よりγを大きくする点ｐを勾配法により計算することで得てもよい。勾配は、関数γの数値微分により求めることができる。

【0031】

＜ワークを容器内に投入する操作の評価関数Ｌ_Ｂ＞
ワークを投入する操作に関する評価関数Ｌ_Ｂは、ワークの数が増えれば高い評価値が得られるように設計されればよい。このため、評価関数Ｌ_Ｂは、次式（８）のように、ワークの数（集合Ｙの元の数）と定義できる。

【数6】

【0032】

＜総合の評価関数Ｌ＞
総合の評価関数Ｌは、容器内でワークを押して隙間を空ける操作と、ワークを容器内に投入する操作との、どちらを選ぶかの評価が可能なように設計されればよい。総合の評価関数Ｌは、次式（９）のように、各操作に関する評価関数Ｌ_Ａ、Ｌ_Ｂを重み付けして結合することで定義できる。μは、正の重みを示す定数である。

【数7】

【0033】

評価値をコスト値（良くない値）として扱う場合には、上記評価関数Ｌの符号を反転させればよい。

【0034】

＜作業処理＞
図３は、制御部が実行する作業処理の手順を示すフローチャートである。図４は、第１の操作と評価の一例を示す説明図である。図５は、第２の操作と評価の一例を示す説明図である。

【0035】

例えばユーザからの開始要求があった場合に、制御部１０は作業処理を開始する。作業処理が開始されると、制御部１０は、先ず、撮影部３の撮影画像を取得して、複数の物体の状態を検出する（ステップＳ１）。実施形態１では、複数の物体は操作ステップごとに一旦静止するので、ステップＳ１では、状態として複数の物体の位置が取得される。

【0036】

次に、制御部１０では、操作決定部１１が、ステップＳ１で取得された状態から、予測に使用する状態ベクトルｘ_ｉ ^ｋ－１の集合Ｘ^ｋ－１を、初期化、すなわち、ステップＳ１で取得された状態の値にセットする（ステップＳ２）。

【0037】

次に、操作決定部１１は、状態ベクトル集合Ｘ^ｋ－１に適用できる操作を選択する（ステップＳ３）。例えば、図４及び図５に示すように、離散時間ｋ－１の状態ベクトル集合Ｘ^ｋ－１（容器Ｃ１の中に複数のワークＷが配置された状態）であれば、一定以上の隙間に新たにワークＷを投入するという操作と、容器Ｃ１内のいずれかのワークＷをどれだけどの方向に押すという操作が選択可能であり、これらの操作の中から、いずれかの操作を選択する。選択は、ランダムに行われてもよいし、分散した選択がなされてもよいし、理想の操作の範囲が予め分かっていれば理想の範囲内の操作が多く選択されるようにされてもよい。図４は、矢印Ａ１の可動部２の動きによって１つのワークＷ１を押す操作が選択された例を示している。図５は、新たなワークＷ２を投入する操作が選択された例を示している。

【0038】

次に操作決定部１１は、状態ベクトル集合Ｘ^ｋ－１と選択された操作ｕ^ｋ－１とから次の離散時間ｋの状態ベクトル集合Ｘ^ｋを予測する（ステップＳ４）。予測は、予測モデル１１１を用いて行われる。

【0039】

次に操作決定部１１は、予め定められた最大予測ステップ（予測ホライズン）まで予測が到達したか判別し（ステップＳ５）、ＮＯであれば、処理をステップＳ３に戻して、ステップＳ３～Ｓ５の処理を繰り返す。予測ホライズンが大きなステップ数になると、演算負荷が高まるので、予測ホライズンは適宜なステップ数に定められるとよい。例えば３ステップ程度としてもよい。

【0040】

ステップＳ３～Ｓ５の繰り返しにより、ステップＳ２の初期化された状態から、複数回の操作を加えた予測ホライズン（例えば３操作ステップ先）の状態ベクトル集合Ｘ^ｋ＋２が推測される。図４及び図５は、予測ホライズンを１操作ステップ先とした例を示している。

【0041】

ステップＳ５でＹＥＳと判別されると、操作決定部１１は、評価処理部１１２により予測された状態ベクトル集合Ｘ^ｋ＋２の評価値を計算させる（ステップＳ６）。評価処理部１１２は、評価関数Ｌに状態ベクトル集合Ｘ^ｋ＋２を入力して、評価値を計算する。図４及び図５は、予測ホライズンが１操作ステップ先なので、評価値を計算する状態ベクトル集合はＸ^ｋとなる。図４の例では、予測された状態ベクトル集合Ｘ^ｋから計算された評価関数Ｌ_Ａの値が向上し、総合の評価も向上したため、選択された操作ｕ^ｋ－１が良い操作と判定されている。図５の例では、予測された状態ベクトル集合Ｘ^ｋから計算された評価関数Ｌ_Ｂの値が向上し、隙間に関する評価関数Ｌ_Ａの増減と合わせて、総合の評価が向上したため、選択された操作ｕ^ｋ－１が良い操作と判定されている。操作の選択により、高低さまざまな評価値が計算される。

【0042】

続いて、操作決定部１１は、ステップＳ６の評価が、予め定められた最大評価回数に達したか判別し、ＮＯであれば、処理をステップＳ２に戻して、ステップＳ２からの処理を繰り返す。ステップＳ２～Ｓ７の繰り返しにより、最大評価回数分の様々な操作に対する予測結果とそれに基づく評価値が得られる。

【0043】

ステップＳ７でＹＥＳとなると、操作決定部１１は、ステップＳ２～Ｓ７の繰り返しにより得られた最大評価回数分の評価値を比較し、最も評価値が高い予測ホライズンで選択されていた第１操作ステップの操作を、次に実行する操作として選択する（ステップＳ８）。

【0044】

制御部１０では、操作決定部１１が次の操作を決定したら、操作制御部１２が、可動部２を制御して操作を実行させる（ステップＳ９）。そして、制御部１０は、終了条件に達したか否かを判別し（ステップＳ１０）、達していれば作業処理を終了し、達していなければ、処理をステップＳ１に戻して、ステップＳ１からの処理を繰り返す。終了条件は、例えば、操作の実行後に計測された状態ベクトル集合Ｘ^ｋに基づく条件（例えば、容器内のワークの個数が最大詰込み数に達した等）、あるいは、最大繰り返し回数に達した場合等から適宜定められればよい。

【0045】

ステップＳ１～Ｓ９の処理が繰り返されることで、評価関数Ｌの値を高くする操作が選択されかつ実行されていき、作業の目的を達成する自動運転が実現される。

【0046】

以上のように、実施形態１の作業装置１によれば、複数のワークの操作が可能な可動部２と、複数のワークの位置を取得する撮影部３と、操作後の複数のワークの配置を予測して複数のワークに対する可動部２の操作を決定する操作決定部１１と、操作決定部１１が決定した操作を可動部２に行わせる操作制御部１２とを備える。したがって、相互に作用する複数のワークに対して、目標の作業（容器に多くのワークを詰める動作等）を達成する自動運転を実現できる。

【0047】

さらに、実施形態１の作業装置１によれば、複数のワークの相互作用による配置変化を含めて操作後の複数のワークの状態を予測する機械学習された予測モデル１１１と、予測された複数のワークの状態を評価する評価処理部１１２とを備え、予測と評価とに基づき次に実行する操作を決定する。したがって、目的に沿った操作の決定を小さな演算負荷で決定することができる。

【0048】

そして、実施形態１の作業装置１により、容器にワークを詰めて収容する操作を自動化できる。

【0049】

（実施形態２）
図６は、本発明の実施形態２に係る作業装置を示すブロック図である。実施形態２の作業装置１は、土砂を自動的に運搬する装置であり、目標の土砂形状の生成を効率的に行うことを目的としている。実施形態２では操作対象の物体、並びに、状態が予測される物体として、土砂が適用される。

【0050】

作業装置１は、図６に示すように、可動部２Ａがパワーショベル（ショベル、クローラ、旋回装置等）であり、さらに、制御部１０には、ユーザが目標状態の設定データを設定できる設定処理部１３が追加されている。設定処理部１３は、目標状態の設定データを格納する設定部１３１を有する。その他の構成要素は、実施形態１と同様である。

【0051】

予測モデル１１１は、複数の物体の状態として土砂の配置や密度が適用され、土砂をすくう、すくった土砂を運搬する、土砂を下す等の各操作を行った場合の土砂の状態を予測する。予測モデル１１１は、機械学習されたニューラルネットワークを適用できる。土砂の操作に対しては、操作箇所から遠いところにある土砂への相互作用が少ないことから、予測モデル１１１は、相互作用が非常に少ないエリアの物体に関する計算がスクリーニングにより外されるように、演算量を削減する機能を有していてもよい。また、土砂の一粒一粒を物体の単位とすると、演算量が膨大になるため、予測モデル１１１は、予め定めた土砂のまとまりを物体の単位として扱うようにしてもよい。

【0052】

評価処理部１１２は、実施形態１と同様に予め設計された評価関数に基づき、予測された土砂の配置状態について評価値を計算する。評価関数には、設定部１３１に登録された目標状態データを使用した関数が含まれ、例えば、予測された土砂形状と目標の土砂形状との差が小さいほど高い評価値が得られる関数を含む。

【0053】

図７は、実施形態２の作業装置の自動運転処理を説明する図である。図７のラインＬ０は設定部１３１に登録された目標の土砂形状を示す。実施形態２の作業装置１においても、実施形態１と同様に、制御部１０が作業処理の中で、予測モデル１１１を用いた土砂の配置の予測と、評価処理部１１２により計算された評価値とに基づいて、操作決定部１１が操作を決定し、操作制御部１２がその操作を可動部２Ａに実行させる。そして、このような操作が繰り返されることで、目標の土砂形状に合わせた土砂の運搬が自動運転により実現される。

【0054】

以上のように、実施形態２の作業装置１によれば、ユーザが目標状態データを設定できる設定処理部１３を備え、評価処理部１１２は目標状態データを用いて評価値を計算する。したがって、目標状態（目標の土砂形状）が変わる現場に対して、目標状態データの設定により、各現場に対応することができる。

【0055】

以上、本発明の各実施形態について説明した。しかし、本発明は上記の実施形態に限られない。例えば、上記実施形態では、操作後に静止する物体を操作対象としたため、状態取得部が取得する物体の状態、並びに、予測モデルが予測する物体の状態として、物体の位置が採用された例を示した。しかし、操作対象の物体は、運動する物体、温度、摩擦抵抗、重量、電流、電圧等の様々な物理量が変化する物体であってもよい。この場合、状態取得部が取得する物体の状態、並びに、予測モデルが予測する物体の状態には、位置の他、速度、各速度、並びに、様々な物理量が含まれてもよい。予測モデルは、物体の状態ベクトルにこれらの物理量を含めて予測を行えばよい。また、状態取得部は、これらの物理量を測定する装置が適用されればよい。その他、実施の形態で示した細部は、発明の趣旨を逸脱しない範囲で適宜変更可能である。

【符号の説明】

【0056】

１作業装置
２、２Ａ可動部
３撮影部
１０制御部
１１操作決定部
１２操作制御部
１１１予測モデル
１１２評価処理部
Ｃ１容器
Ｗ、Ｗ１、Ｗ２ワーク

【図1】