特開2024-39086 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社メガチップスの特許一覧

特開2024-39086自動制御システム、行動コード取得装置、学習データ生成方法、プログラム、学習データ、および、自動制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024039086

(43)【公開日】2024-03-22

(54)【発明の名称】自動制御システム、行動コード取得装置、学習データ生成方法、プログラム、学習データ、および、自動制御方法

(51)【国際特許分類】

B25J 13/00 20060101AFI20240314BHJP

G06N 20/00 20190101ALI20240314BHJP

【ＦＩ】

B25J13/00 Z

G06N20/00 130

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2022143371

(22)【出願日】2022-09-09

(71)【出願人】

【識別番号】591128453

【氏名又は名称】株式会社メガチップス

(74)【代理人】

【識別番号】100143498

【弁理士】

【氏名又は名称】中西健

(74)【代理人】

【識別番号】100136319

【弁理士】

【氏名又は名称】北原宏修

(72)【発明者】

【氏名】永田竜仁

(72)【発明者】

【氏名】本村秀人

【テーマコード（参考）】

3C707

【Ｆターム（参考）】

3C707JS02

3C707KS03

3C707KS04

3C707KS17

3C707KT01

3C707KT06

3C707LV07

3C707LW03

3C707LW12

3C707NS02

(57)【要約】

【課題】学習データを生成するのに熟練のオペレータを必要とせず、制御対象が変更、あるいは、制御対象が置かれている環境が変更された場合であっても、効率良く動作予測を行うモデルを学習させることができ、学習済みモデルを用いて高精度に制御対象を制御することができる自動制御システムを実現する。
【解決手段】自動制御システム１０００では、行動コード取得部１により、汎用的なコード（制御対象に特化しないコード）である行動コードが取得され、制御対象駆動処理部２により、当該行動コードから制御対象を制御するための制御情報を取得する。そして、取得した制御情報により、制御対象Ｒｂｔ１に対して所定の動作を実行させる。自動制御システム１０００では、行動コードに基づいて、処理が実行されるため、制御対象Ｒｂｔ１あるいは環境が変化した場合であっても柔軟に対応することができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

所定の環境下に置かれた制御対象を制御する自動制御システムであって、
前記制御対象が置かれている環境下のデータを取得する環境データ取得部と、
前記制御対象の状態を示すデータである状態データと、前記環境データ取得部により取得されたデータである環境データとに基づいて、前記制御対象が備える機能により特定できる行動を規定するコードである行動コードを取得する行動コード取得処理を実行する行動コード取得部と、
前記行動コード取得部により取得された前記行動コードから、前記制御対象を制御する制御情報であって、前記行動コードで規定されている動作を前記制御対象に実行させるための前記制御情報を取得する制御対象駆動処理部と、
を備える自動制御システム。

【請求項2】

前記制御対象に対して所定のタスクを実行させるように制御する自動制御システムであって、
前記行動コード取得部は、
前記状態データと、前記環境データと、前記制御対象に実行させるタスクを示すデータであるタスクデータとに基づいて、前記行動コードを取得する行動コード取得処理を実行する、
請求項１に記載の自動制御システム。

【請求項3】

前記制御対象駆動処理部は、
前記行動コード取得部により取得された前記行動コードに対応する前記制御対象に特化した制御指令列を取得する行動コード解釈処理部と、
前記行動コード解釈処理部が取得した前記制御指令列に基づいて、前記行動コードで規定されている動作を前記制御対象に実行させるための前記制御情報を取得する制御対象駆動部と、
を備える、
請求項１または２に記載の自動制御システム。

【請求項4】

前記行動コード取得部は、
前記行動コードに対応する前記制御対象に特化した制御指令列を取得する行動コード解釈処理部を備え、
前記制御対象駆動処理部は、
前記行動コード解釈処理部が取得した前記制御指令列に基づいて、前記行動コードで規定されている動作を前記制御対象に実行させるための前記制御情報を取得する制御対象駆動部を備える、
請求項１または２に記載の自動制御システム。

【請求項5】

前記行動コード解釈処理部は、
選択信号を入力し、
前記行動コードと、前記行動コードに対応する前記制御対象に特化した制御指令列とを対応付けたルックアップテーブルを複数有しており、前記選択信号に基づいて、複数の前記ルックアップテーブルから、１つの前記ルックアップテーブルを選択し、選択した前記ルックアップテーブルに基づいて、前記行動コードに対応する前記制御対象に特化した制御指令列を取得する、
請求項４に記載の自動制御システム。

【請求項6】

前記タスクは、１または複数の工程からなり、
前記行動コード取得部は、学習可能モデルを備えており、
前記学習可能モデルは、
前記タスクの少なくとも１つ以上の工程において、前記状態データ、および／または、前記環境データから導出されるデータを入力データとし、当該工程において前記制御対象に実行させる動作から特定される前記行動コードを正解データとした学習データを用いて、学習処理が実行される、
請求項２に記載の自動制御システム。

【請求項7】

前記学習可能モデルは、入力されたデータに関する過去の履歴を保持することが可能なモデルである、
請求項６に記載の自動制御システム。

【請求項8】

前記学習可能モデルに対して、前記タスクの少なくとも１つ以上の工程において、前記状態データ、および／または、前記環境データから導出されるデータを入力データとし、当該工程において前記制御対象に実行させる動作から特定される前記行動コードを正解データとした学習データを用いて、学習処理を実行することで、前記学習可能モデルの学習済みモデルを取得し、
前記行動コード取得部は、取得した前記学習済みモデルを用いた処理を行うことで前記行動コード取得処理を実行する、
請求項６または７に記載の自動制御システム。

【請求項9】

前記行動コードは、階層的なコード体系を有しているコードであり、
前記階層的なコード体系を有している所定の行動コードには、前記制御対象に対する制御レベルを指示するデータにより、前記制御対象に対して行う制御内容が異なる複数の行動コードである階層的行動コードが設定されている、
請求項１または２に記載の自動制御システム。

【請求項10】

請求項１または２に記載の自動制御システムに用いられる行動コード取得装置であって、
前記行動コード取得部を備える、
行動コード取得装置。

【請求項11】

請求項６または７に記載の自動制御システムにおいて、前記学習可能モデルを学習させるための学習データを生成する学習データ生成方法であって、
前記タスクの少なくとも１つ以上の工程において、前記状態データ、および／または、前記環境データから導出されるデータを入力データに設定する第１ステップと、
当該工程において前記制御対象に実行させる動作から特定される前記行動コードを正解データに設定する第２ステップと、
前記第１ステップで設定された前記入力データと、前記第２ステップで正解データに設定された前記行動コードとを組みとすることで学習データを取得する学習データ取得ステップと、
を備える学習データ生成方法。

【請求項12】

請求項１１に記載の学習データ生成方法をコンピュータに実行させるためのプログラム。

【請求項13】

請求項６または７に記載の自動制御システムにおいて、前記学習可能モデルに対して学習処理を実行するときに用いられる学習データであって、
前記タスクの少なくとも１つ以上の工程において、前記状態データ、および／または、前記環境データから導出されるデータを入力データとして含み、
当該工程において前記制御対象に実行させる動作から特定される前記行動コードを正解データとして含む、
データ構造を有する学習データ。

【請求項14】

所定の環境下に置かれた制御対象を制御する自動制御方法であって、
前記制御対象が置かれている環境下のデータを取得する環境データ取得ステップと、
前記制御対象の状態を示すデータである状態データと、前記環境データ取得ステップにより取得されたデータである環境データとに基づいて、前記制御対象が備える機能により特定できる行動を規定するコードである行動コードを取得する行動コード取得処理を実行する行動コード取得ステップと、
前記行動コード取得ステップにより取得された前記行動コードから、前記制御対象を制御する制御情報であって、前記行動コードで規定されている動作を前記制御対象に実行させるための前記制御情報を取得する制御対象駆動処理ステップと、
を備える自動制御方法。

【請求項15】

請求項１４に記載の自動制御方法をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ロボット等の制御対象を自動制御（自動運転）し、所定のタスクを実行するための自動制御システムに関する。

【背景技術】

【0002】

近年、ロボット等の制御対象を自動制御（自動運転）し、所定のタスクを実行するための自動制御システムが種々開発されている。

【0003】

例えば、特許文献１には、熟練した人間が行うような操作の自動化を効率的に行う動作予測システムの開示がある。当該システムでは、所定の環境において、オペレータが行ったデータを取得し、取得したデータを学習データとして、動作予測を行うモデルを学習させる。そして、当該システムでは、予測時において、現在の環境が学習時と類似する環境である場合、現在の環境が類似する環境下において構築した（学習させた）学習済みモデルを用いて、予測処理を行い、制御対象（例えば、ロボットアーム）に、所定の動作を実行させる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１８－２０６２８６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記従来の技術では、オペレータが所定の環境下において、実際に、制御対象（例えば、ロボットアーム）を操作し、動作予測を行うモデルの学習処理を行う必要がある。そのため、制御対象の操作を実際に行うことができるオペレータが必要となる。そして、制御対象に対して、複雑な操作を実際に行う必要がある場合、当該操作を実際に行うことができる熟練のオペレータが必要になるという課題がある。

【0006】

また、上記従来の技術では、動作予測を行うモデルの入力が所定の環境下におけるセンサ情報（例えば、制御対象（例えば、ロボットアーム）の所定部位の位置を検出するセンサにより取得される情報や制御対象の姿勢、状態等を検出するセンサにより取得される情報）であり、出力が動作指令（制御対象（例えば、ロボットアーム）に所定の動作をさせるための指令）となる。つまり、入力と出力との対応関係が、動作予測を行うモデルに全面的に依存しており、例えば、制御対象（例えば、ロボットアーム）が変更された場合、変更された制御対象に応じたデータが、動作予測を行うモデルから出力されるように変更する必要がある。つまり、この場合、再度、新たなデータ（変更された制御対象に応じたデータ）により、動作予測を行うモデルを学習させる必要がある。

【0007】

また、例えば、制御対象が置かれている環境が変更された場合、あるいは、制御対象の状態や周辺環境の情報を取得するセンサが変更された場合、当該変更に応じた学習データを生成し、生成した学習データにより、再度、動作予測を行うモデルを学習させる必要がある。

【0008】

そこで、本発明は、上記課題に鑑み、学習データを生成するのに熟練のオペレータを必要とせず、制御対象が変更、あるいは、制御対象が置かれている環境が変更された場合であっても、効率良く動作予測を行うモデルを学習させることができ、学習済みモデルを用いて高精度に制御対象を制御することができる自動制御システムを実現することを目的とする。

【課題を解決するための手段】

【0009】

上記課題を解決するために、第１の発明は、所定の環境下に置かれた制御対象を制御する自動制御システムであって、環境データ取得部と、行動コード取得部と、制御対象駆動処理部と、を備える。

【0010】

環境データ取得部は、制御対象が置かれている環境下のデータを取得する。

【0011】

行動コード取得部は、制御対象の状態を示すデータである状態データと、環境データ取得部により取得されたデータである環境データとに基づいて、制御対象が備える機能により特定できる行動を規定するコードである行動コードを取得する行動コード取得処理を実行する。

【0012】

制御対象駆動処理部は、行動コード取得部により取得された行動コードから、制御対象を制御する制御情報であって、行動コードで規定されている動作を制御対象に実行させるための制御情報を取得する。

【0013】

この自動制御システムでは、行動コード取得部により、汎用的なコード（制御対象に特化しないコード）である行動コードが取得され、制御対象駆動処理部により、当該行動コードから制御対象を制御するための制御情報を取得する。したがって、この自動制御システムでは、（１）置かれている環境が変化した場合、あるいは、制御対象から出力されるデータ、または、制御対象が置かれている環境で取得されるデータが変化した場合、それに合わせて行動コード取得部を変更すればよく、（２）制御対象が変更された場合、それに合わせて、制御対象駆動処理部を変更すればよい。したがって、自動制御システムでは、環境の変化、制御対象の変更等に柔軟に対応することができる。

【0014】

第２の発明は、第１の発明であって、制御対象に対して所定のタスクを実行させるように制御する自動制御システムであり、行動コード取得部は、状態データと、環境データと、制御対象に実行させるタスクを示すデータであるタスクデータとに基づいて、行動コードを取得する行動コード取得処理を実行する。

【0015】

これにより、この自動制御システムでは、制御対象に対して実行させようとしているタスクを特定しつつ、行動コード取得部により、汎用的なコード（制御対象に特化しないコード）である行動コードが取得され、制御対象駆動処理部により、当該行動コードから制御対象を制御するための制御データを取得する。したがって、この自動制御システムでは、（１）置かれている環境が変化した場合、あるいは、制御対象から出力されるデータ、または、制御対象が置かれている環境で取得されるデータが変化した場合、それに合わせて行動コード取得部を変更すればよく、（２）制御対象が変更された場合、それに合わせて、制御対象駆動処理部を変更すればよい。したがって、自動制御システムでは、環境の変化、制御対象の変更等に柔軟に対応することができる。

【0016】

第３の発明は、第１または第２の発明であって、制御対象駆動処理部は、行動コード解釈処理部と、制御対象駆動部と、を備える。

【0017】

行動コード解釈処理部は、行動コード取得部により取得された行動コードに対応する制御対象に特化した制御指令列を取得する。

【0018】

制御対象駆動部は、行動コード解釈処理部が取得した制御指令列に基づいて、行動コードで規定されている動作を制御対象に実行させるための制御情報を取得する。

【0019】

これにより、この自動制御システムでは、制御対象が変更された場合、それに合わせて、制御対象駆動処理部を変更すればよく、特に、制御対象に特化した制御指令列（例えば、コマンド系列）が変更されただけの場合は、行動コード解釈処理部２１のみを変更すればよい。したがって、自動制御システムでは、環境の変化、制御対象の変更等に柔軟に対応することができる。

【0020】

第４の発明は、第１から第３のいずれかの発明であって、行動コード取得部は、行動コードに対応する制御対象に特化した制御指令列を取得する行動コード解釈処理部を備える。

【0021】

制御対象駆動処理部は、行動コード解釈処理部が取得した制御指令列に基づいて、行動コードで規定されている動作を制御対象に実行させるための制御情報を取得する制御対象駆動部を備える。

【0022】

これにより、行動コード解釈処理部を備える行動コード取得部を用いて、自動制御システムを実現することができる。

【0023】

第５の発明は、第４の発明であって、行動コード解釈処理部は、選択信号を入力する。また、行動コード解釈処理部は、行動コードと、行動コードに対応する制御対象に特化した制御指令列とを対応付けたルックアップテーブルを複数有しており、選択信号に基づいて、複数のルックアップテーブルから、１つのルックアップテーブルを選択し、選択したルックアップテーブルに基づいて、行動コードに対応する制御対象に特化した制御指令列を取得する。

【0024】

これにより、この自動制御システムでは、選択信号により、複数のルックアップテーブルから、１つのルックアップテーブルを選択し、選択したルックアップテーブルに基づいて、行動コードに対応する制御対象に特化した制御指令列を取得することができる。

【0025】

第６の発明は、第２から第５のいずれかの発明であって、タスクは、１または複数の工程からなり、行動コード取得部は、学習可能モデルを備えている。

【0026】

そして、学習可能モデルは、タスクの少なくとも１つの工程において、状態データ、および／または、環境データから導出されるデータを入力データとし、当該工程において制御対象に実行させる動作から特定される行動コードを正解データとした学習データを用いて、学習処理が実行される。

【0027】

この自動制御システムでは、行動コードを特定（選択）して正解データを設定するだけで簡単に学習データを生成することができるので、学習データを生成するのに熟練のオペレータを必要とせず、制御対象が変更、あるいは、制御対象が置かれている環境が変更された場合であっても、効率良く動作予測を行うモデル（学習可能モデル）を学習させることができる。

【0028】

第７の発明は、第６の発明であって、学習可能モデルは、入力されたデータに関する過去の履歴を保持することが可能なモデルである。

【0029】

これにより、この自動制御システムでは、入力データと正解データ（行動コード）とが多対１の対応となることが発生する場合であっても、適切に、学習可能モデルに対して、学習処理を行うことができる。

【0030】

第８の発明は、第６または第７の発明であって、学習可能モデルに対して、タスクの少なくとも１つ以上の工程において、状態データ、および／または、環境データから導出されるデータを入力データとし、当該工程において制御対象に実行させる動作から特定される行動コードを正解データとした学習データを用いて、学習処理を実行することで、学習可能モデルの学習済みモデルを取得する。

【0031】

そして、行動コード取得部は、取得した学習済みモデルを用いた処理を行うことで行動コード取得処理を実行する。

【0032】

これにより、この自動制御システムでは、行動コードを用いて生成された学習データにより学習された学習済みモデルを用いた行動コード取得処理（予測処理）を実行することができる。

【0033】

第９の発明は、第１から第８のいずれかの発明であって、行動コードは、階層的なコード体系を有しているコードであり、階層的なコード体系を有している所定の行動コードには、制御対象に対する制御レベルを指示するデータにより、制御対象に対して行う制御内容が異なる複数の行動コードである階層的行動コードが設定されている。

【0034】

これにより、この自動制御システムでは、階層的なコード体系を有する行動コードを用いて、自動制御システムにおける学習処理、行動コード取得処理（予測処理）を実行することができる。

【0035】

なお、「制御レベル」とは、制御対象の制御の内容を特定するための指標を示すデータであり、例えば、要求される条件の厳しさに応じて設定される指標である。制御レベルは、行動コードのコード体系を階層的なものにする指標であればよく、所定の基準に応じて、その程度に応じて規定される指標であればよい。

【0036】

第１０の発明は、第１から第３のいずれかの発明である自動制御システムに用いられる行動コード取得装置であって、行動コード取得部を備える。

【0037】

これにより、第１または第２の発明である自動制御システムの行動コード取得部を備える行動コード取得装置を実現することができる。

【0038】

第１１の発明は、第６または第７の発明である自動制御システムにおいて、学習可能モデルを学習させるための学習データを生成する学習データ生成方法であって、第１ステップと、第２ステップと、学習データ取得ステップと、を備える。

【0039】

第１ステップは、タスクの少なくとも１つ以上の工程において、状態データ、および／または、環境データから導出されるデータを入力データに設定する。

【0040】

第２ステップは、当該工程において制御対象に実行させる動作から特定される行動コードを正解データに設定する。

【0041】

学習データ取得ステップは、第１ステップで設定された入力データと、第２ステップで正解データに設定された行動コードとを組みとすることで学習データを取得する。

【0042】

この学習データ生成方法では、行動コードを特定（選択）して正解データを設定するだけで簡単に学習データを生成することができるので、学習データを生成するのに熟練のオペレータを必要とせず、制御対象が変更、あるいは、制御対象が置かれている環境が変更された場合であっても、効率良く動作予測を行うモデル（学習可能モデル）を学習させることができる。

【0043】

なお、上記の学習データ生成方法の１または複数のステップは、ＲＯＭ、ＲＡＭ等にアクセスできるＣＰＵやプロセッサを用いて、実行されるものであってもよい。

【0044】

第１２の発明は、第１１の発明である学習データ生成方法をコンピュータに実行させるためのプログラムである。

【0045】

これにより、第１１の発明と同様の効果を奏する学習データ生成方法をコンピュータに実行させるためのプログラムを実現することができる。

【0046】

第１３の発明は、第６から第８のいずれかの発明である自動制御システムにおいて、学習可能モデルに対して学習処理を実行するときに用いられる学習データであって、
タスクの少なくとも１つ以上の工程において、状態データ、および／または、環境データから導出されるデータを入力データとして含み、
当該工程において制御対象に実行させる動作から特定される行動コードを正解データとして含む、データ構造を有する学習データである。

【0047】

この学習データを用いることで、自動制御システムにおいて、入力データから行動コードを出力する学習可能モデルの学習処理を効率良く行うことができる。

【0048】

第１４の発明は、所定の環境下に置かれた制御対象を制御する自動制御方法であって、環境データ取得ステップと、行動コード取得ステップと、環境データ取得ステップと、制御対象駆動処理ステップと、を備える。

【0049】

環境データ取得ステップは、制御対象が置かれている環境下のデータを取得する。

【0050】

行動コード取得ステップは、制御対象の状態を示すデータである状態データと、環境データ取得ステップにより取得されたデータである環境データとに基づいて、制御対象が備える機能により特定できる行動を規定するコードである行動コードを取得する行動コード取得処理を実行する。

【0051】

制御対象駆動処理ステップは、行動コード取得ステップにより取得された行動コードから、制御対象を制御する制御情報であって、行動コードで規定されている動作を制御対象に実行させるための制御情報を取得する。

【0052】

これにより、第１の発明と同様の効果を奏する自動制御方法を実現することができる。

【0053】

第１５の発明は、第１４の発明である自動制御方法をコンピュータに実行させるためのプログラムである。

【0054】

これにより、第１４の発明と同様の効果を奏する自動制御方法を実現することができる。

【発明の効果】

【0055】

本発明によれば、学習データを生成するのに熟練のオペレータを必要とせず、制御対象が変更、あるいは、制御対象が置かれている環境が変更された場合であっても、効率良く動作予測を行うモデルを学習させることができ、学習済みモデルを用いて高精度に制御対象を制御することができる自動制御システムを実現することができる。

【図面の簡単な説明】

【0056】

【図1】第１実施形態に係る自動制御システム１０００の概略構成図。

【図2】第１実施形態に係る自動制御システム１０００の行動コード取得部１と制御対象駆動処理部２の概略構成図。

【図3】制御対象Ｒｂｔ１ロボットアームとしたときに第１タスクを実行させるための環境を模式的に示した図。

【図4】制御対象Ｒｂｔ１ロボットアームとした場合の行動コード（一例）を示す図。

【図5】制御対象Ｒｂｔ１ロボットアームとした場合の第１タスクｔｓｋ１を実行させる自動制御システム１０００を構築するための学習データを説明するための図。

【図6】クラス分類および回帰を行うニューラルネットワークモデルを採用した場合の行動コード取得処理部１２の学習可能モデルの概略構成図。

【図7】予測処理を実行する場合（予測処理時）の第１実施形態に係る自動制御システム１０００の行動コード取得部１と制御対象駆動処理部２の概略構成図。

【図8】制御対象Ｒｂｔ１ロボットアームとしたときに第２タスクを実行させるための環境を模式的に示した図。

【図9】制御対象Ｒｂｔ１ロボットアームとした場合の第２タスクｔｓｋ２を実行させる自動制御システム１０００を構築するための学習データを説明するための図。

【図10】第１実施形態の第１変形例における行動コード（制御対象Ｒｂｔ１をロボットアームとした場合の行動コード）（一例）の表を示す図。

【図11】第１実施形態の第１変形例における行動コード（階層データ）（一例）を示す図（行動コードＣ１－３の場合）。

【図12】第１実施形態の第１変形例における行動コード（階層データ）（一例）を示す図（行動コードＣ２－２の場合）。

【図13】第１実施形態の第２変形例の学習データ生成装置３の概略構成図。

【図14】第２実施形態に係る自動制御システム２０００の概略構成図。

【図15】第２実施形態に係る自動制御システム２０００の行動コード取得部１Ａと制御対象駆動処理部２Ａの概略構成図。

【図16】第２実施形態の第１変形例に係る自動制御システム２０００Ａの概略構成図。

【図17】第２実施形態の第１変形例に係る自動制御システム２０００Ａの行動コード取得部１Ｂと制御対象駆動処理部２Ａの概略構成図。

【図18】ＣＰＵバス構成を示す図。

【発明を実施するための形態】

【0057】

［第１実施形態］
第１実施形態について、図面を参照しながら、以下、説明する。

【0058】

＜１．１：自動制御システムの構成＞
図１は、第１実施形態に係る自動制御システム１０００の概略構成図である。

【0059】

図２は、第１実施形態に係る自動制御システム１０００の行動コード取得部１と制御対象駆動処理部２の概略構成図である。

【0060】

自動制御システム１０００は、図１に示すように、行動コード取得部１と、制御対象駆動処理部２と、制御対象Ｒｂｔ１と、環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓとを備える。

【0061】

行動コード取得部１は、制御対象Ｒｂｔ１のセンサ等により取得される計測データであって、制御対象Ｒｂｔ１の状態、姿勢、所定の部位の状態および／または位置等を特定するための計測データであるデータＤ１１＿ｓｅｎｓと、環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓにより取得される、制御対象Ｒｂｔ１が置かれている環境下の計測データ（画像データ、映像データを含みうる）であるデータＤ１２＿ｓｅｎｓとを入力し、行動コードデータＤ＿ａｃｔ＿ｃｏｄｅを出力する機能部である。行動コード取得部１は、図２に示すように、入力データ調整部１１と、行動コード取得処理部１２とを備える。

【0062】

入力データ調整部１１は、制御対象Ｒｂｔ１から出力されるデータＤ１１＿ｓｅｎｓと、環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓから出力されるデータＤ１２＿ｓｅｎｓとを入力する。

【0063】

入力データ調整部１１は、後段の機能部が要求する形式のデータとなるように、データＤ１１＿ｓｅｎｓに含まれる各データ、および、データＤ１２＿ｓｅｎｓに含まれる各データに対して入力データ調整処理を実行し、当該調整処理後のデータを後段の機能部に出力する。具体的には、入力データ調整部１１は、行動コード取得処理部１２が、行動コード取得処理部１２への入力データとして要求する形式のデータとなるように、データＤ１１＿ｓｅｎｓに含まれる各データ、および、データＤ１２＿ｓｅｎｓに含まれる各データに対して入力データ調整処理を行い、当該調整処理後のデータを、データＤ２として、行動コード取得処理部１２に出力する。

【0064】

なお、入力データ調整部１１で実行される入力データ調整処理としては、例えば、以下の処理が挙げられる。当該入力データ調整処理は、下記のいずれかの処理により実現されるものであってもよいし、下記の１または複数の処理の一部または全部を組み合わせることにより実現されるものであってもよい。
（１）データＤ１１＿ｓｅｎｓに含まれる各データ、および、データＤ１２＿ｓｅｎｓに含まれる各データにおいて、映像信号が含まれる場合、後段の機能部が、当該機能部への入力データとして要求する形式のデータとなるように、当該映像信号から、所定のフレーム数のフレーム画像を形成する映像信号（各フレーム画像を構成する画像信号の集合（要求されるフレーム数分の画像信号））を取得（抽出）する処理。
（２）データＤ１１＿ｓｅｎｓに含まれる各データ、および、データＤ１２＿ｓｅｎｓに含まれる各データにおいて、映像信号が含まれる場合、後段の機能部が、当該機能部への入力データとして要求する形式のデータとなるように、当該映像信号から、所定の特徴量を抽出した画像信号または映像信号（フレーム画像を形成する画像信号の集合）を取得する処理。
（３）データＤ１１＿ｓｅｎｓに含まれる各データ、および、データＤ１２＿ｓｅｎｓに含まれる各データにおいて、映像信号が含まれる場合、後段の機能部が、当該機能部への入力データとして要求する形式のデータとなるように、当該映像信号から、所定の画像サイズの画像信号または映像信号（フレーム画像を形成する画像信号の集合）を取得する処理。
（４）データＤ１１＿ｓｅｎｓに含まれる各データ、および、データＤ１２＿ｓｅｎｓに含まれる各データにおいて、映像信号が含まれる場合、後段の機能部が、当該機能部への入力データとして要求する形式のデータとなるように、当該映像信号から、所定の色空間の画像信号または映像信号（フレーム画像を形成する画像信号の集合）を取得する処理（カラー画像の階調を調整した画像信号または映像信号を取得する処理や、グレースケール画像や白黒２値画像に変換した画像信号または映像信号を取得する処理を含む）。
（５）データＤ１１＿ｓｅｎｓに含まれる各データにおいて、制御対象Ｒｂｔ１の位置、姿勢、状態を特定する情報、および／または、制御対象Ｒｂｔ１の所定の部位の位置、姿勢、状態を特定する情報を含む信号（例えば、センサの計測結果（例えば、測定結果に対応する所定の物理量）に対応する信号）である場合、当該信号から、制御対象Ｒｂｔ１の位置、姿勢、状態を特定する情報（データ）、および／または、制御対象Ｒｂｔ１の所定の部位の位置、姿勢、状態を特定する情報（データ）を取得する処理。
（６）データＤ１２＿ｓｅｎｓに含まれる各データにおいて、制御対象Ｒｂｔ１が置かれている環境下の所定の装置、センサ等の位置、姿勢、状態を特定する情報、および／または、制御対象Ｒｂｔ１が置かれている環境下の所定の装置、センサ等の所定の部位の位置、姿勢、状態を特定する情報を含む信号（例えば、センサの計測結果（例えば、測定結果に対応する所定の物理量）に対応する信号）である場合、当該信号から、制御対象Ｒｂｔ１が置かれている環境下の所定の装置、センサ等の位置、姿勢、状態を特定する情報（データ）、および／または、制御対象Ｒｂｔ１が置かれている環境下の所定の装置、センサ等の所定の部位の位置、姿勢、状態を特定する情報（データ）を取得する処理。

【0065】

行動コード取得処理部１２は、入力データ調整部１１から出力されるデータＤ２と、条件ｈとを入力する。行動コード取得処理部１２は、条件ｈに基づいて、データＤ２に対して、行動コード取得処理を実行し、行動コードを取得し、取得した行動コードを含むデータをデータＤ＿ａｃｔ＿ｃｏｄｅとして、制御対象駆動処理部２に出力する。なお、行動コード取得処理部１２は、機械学習を行うことで可能な学習可能モデルを有している。行動コード取得処理部１２は、（１）学習時において、学習データを用いて、当該学習可能モデルに対して、学習処理（教師あり学習）を行うことで、学習済みモデルを取得し、（２）予測時において、データＤ２に対して、学習処理により取得した学習済みモデルによる処理を行うことで、行動コードを取得する。

【0066】

制御対象駆動処理部２は、図２に示すように、行動コード解釈処理部２１と、制御対象駆動部２２とを備える。

【0067】

行動コード解釈処理部２１は、行動コード取得処理部１２から出力されるデータＤ＿ａｃｔ＿ｃｏｄｅを入力し、当該データＤ＿ａｃｔ＿ｃｏｄｅに対して、行動コード解釈処理を実行し、当該処理により取得したデータを、データＤ３として、制御対象駆動部２２に出力する。なお、行動コード解釈処理部２１は、学習時（行動コード取得処理部１２の学習可能モデルの学習処理時）においては、行動コードの正解データ（行動コード取得処理部１２の学習可能モデルから出力すべき正解データ）Ｄ＿ｃｏｒｒｅｃｔを入力し、当該データＤ＿ｃｏｒｒｅｃｔに対して、行動コード解釈処理を実行し、当該処理により取得したデータを、データＤ３として、制御対象駆動部２２に出力する。

【0068】

制御対象駆動部２２は、制御データ生成部２２１と、駆動信号生成部２２２とを備える。

【0069】

制御データ生成部２２１は、行動コード解釈処理部２１から出力されるデータＤ３を入力し、データＤ３から、制御データを生成する処理を実行する。そして、制御データ生成部２２１は、生成した制御データを含むデータを、データＤ４として、駆動信号生成部２２２に出力する。

【0070】

駆動信号生成部２２２は、制御データ生成部２２１から出力されるデータＤ４を入力し、データＤ４に基づいて、駆動信号Ｓｉｇ＿τを生成する。そして、駆動信号生成部２２２は、生成した駆動信号Ｓｉｇ＿τを制御対象Ｒｂｔ１に出力する（例えば、生成した駆動信号Ｓｉｇ＿τにより、制御対象Ｒｂｔ１の所定の部位を動かすモータを駆動する）。

【0071】

制御対象Ｒｂｔ１は、自動制御システム１０００における自動制御の対象であり、自動制御可能な装置である。制御対象Ｒｂｔ１は、例えば、ロボットやロボットアーム等である。制御対象Ｒｂｔ１は、例えば、アクチュエータ等により所定の部位が駆動されることで、所定の動作を行うことができる。制御対象Ｒｂｔ１は、制御対象駆動処理部２から出力される駆動信号Ｓｉｇ＿τにより、所定の部位が駆動されることで、所定の動作を行う。また、制御対象Ｒｂｔ１は、制御対象Ｒｂｔ１に装着されたセンサ等により、制御対象Ｒｂｔ１の位置、姿勢、状態を特定する情報、および／または、制御対象Ｒｂｔ１の所定の部位の位置、姿勢、状態を特定する情報を含む信号（データ）を取得し、取得した当該信号（データ）を、データＤ１１＿ｓｅｎｓとして、行動コード取得部１に出力する。

【0072】

環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓは、制御対象Ｒｂｔ１が置かれている環境下の所定の装置、センサ等の位置、姿勢、状態を特定する情報、および／または、制御対象Ｒｂｔ１が置かれている環境下の所定の装置、センサ等の所定の部位の位置、姿勢、状態を特定する情報を含む信号（例えば、センサの計測結果（例えば、測定結果に対応する所定の物理量）に対応する信号）（データ）を取得し、取得した当該信号（データ）を、データＤ１2＿ｓｅｎｓとして、行動コード取得部１に出力する。なお、環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓは、複数の装置、センサ等から構成されるものであってもよい。

【0073】

＜１．２：自動制御システムの動作＞
以上のように構成された自動制御システム１０００の動作について、以下、説明する。

【0074】

図３は、制御対象Ｒｂｔ１ロボットアームとしたときに第１タスクを実行させるための環境を模式的に示した図である。

【0075】

図４は、制御対象Ｒｂｔ１ロボットアームとした場合の行動コード（一例）を示す図である。

【0076】

図５は、制御対象Ｒｂｔ１ロボットアームとした場合の第１タスクｔｓｋ１を実行させる自動制御システム１０００を構築するための学習データを説明するための図（行動コード取得処理部１２の学習可能モデルのための学習データの入力データと出力データ（正解データ）とを時系列に模式的に示した図）である。

【0077】

以下では、説明便宜のために、制御対象Ｒｂｔ１をロボットアームとし、自動制御システム１０００において、第１タスクｔｓｋ１を実行させる場合（一例）について、説明する。なお、第１タスクｔｓｋ１は、ベルトコンベアの搬送速度の通常速度ｖ１で動作している第１ベルトコンベアＣｖｙ１上の物体（被搬送物）ＯＢＪ_ｉ（ｉ：自然数）を、制御対象Ｒｂｔ１（ロボットアーム）で掴み、別のベルトコンベアである第２ベルトコンベアＣｖｙ２（運搬速度ｖ１）上の所定の位置に置くというタスクとする（図３を参照）。

【0078】

また、以下では、自動制御システム１０００の動作について、（１）学習データ生成方法（行動コード取得処理部１２の学習可能モデルを学習させるための学習データの生成方法）、（２）学習処理、（３）予測処理に分けて説明する。

【0079】

（１．２．１：学習データ生成方法）
学習データ生成方法（行動コード取得処理部１２の学習可能モデルを学習させるための学習データの生成方法）について、説明する。

【0080】

まず、制御対象Ｒｂｔ１をロボットアームとした場合の行動コードを規定する。行動コードは、制御対象Ｒｂｔ１に対して所定のタスクを実行させるときに必要となる１または複数の行動を、制御対象Ｒｂｔ１に実行させるためのコードであり、行動ごとに規定される汎用コードである。つまり、行動コードは、制御対象Ｒｂｔ１に対して所定のタスクを実行させるときに必要となる１または複数の行動を実行させるためのコードであって、制御対象Ｒｂｔ１に特化した制御コード（例えば、制御指令列、制御コマンド列）に依存しない様式で制御対象Ｒｂｔ１を制御するためのコード（制御対象Ｒｂｔ１に特化した制御コードとなることなく、制御対象Ｒｂｔ１に対する制御内容を抽象化した汎用コード）である。

【0081】

図４に、制御対象Ｒｂｔ１をロボットアームとした場合の行動コードの一例を示す。

【0082】

図４に示すように、行動コードは、制御対象Ｒｂｔ１（ロボットアーム）に実行させる行動を上位概念化して規定したコードであり、行動コードを決定することで、制御対象Ｒｂｔ１（ロボットアーム）に実行させる行動を決定することができる。

【0083】

以下では、図４の行動コードが規定された場合について、第１タスクｔｓｋ１を実行するように、行動コード取得処理部１２の学習可能モデルを学習させるための学習データの生成方法について、説明する。

【0084】

自動制御システム１０００において、第１タスクｔｓｋ１を実行するための工程を規定し、規定した各工程において、行動コード取得処理部１２の学習可能モデルに入力するデータと、当該データが行動コード取得処理部１２の学習可能モデルに入力されたときに行動コード取得処理部１２の学習可能モデルが出力されるべき行動コードとを決めることで、行動コード取得処理部１２の学習可能モデルのための学習データ（第１タスクｔｓｋ１を実行する学習済みモデルを実現させるための学習データ）を生成する。

【0085】

具体的には、工程１～工程６を規定し、各工程において、以下のデータを入力データおよび出力データとすることで、行動コード取得処理部１２の学習可能モデルのための学習データ（第１タスクｔｓｋ１を実行する学習済みモデルを実現させるための学習データ）を生成する。以下では、図３～図５を参照しながら説明する。また、自動制御システム１０００が置かれている環境下において、共通の３次元座標空間が規定されており、当該３次元座標空間は、それぞれ直交する３つの軸であるｘ軸、ｙ軸、ｚ軸で規定されており、かつ、所定の位置を原点とする。また、上記３次元座標空間内の点の位置を、３次元座標（ｘ，ｙ，ｚ）として表記する。

【0086】

≪工程１≫
（Ａ）入力データ（状態１で取得されるデータ）：
状態１：第１ベルトコンベアＣｖｙ１の特定の位置（この位置を（ｘ１，ｙ１，ｚ１）とする）に物体（被搬送物）ＯＢＪ_ｉが存在することが検出された状態。なお、上記特定の位置は、ロボットアームが準備を開始するときの位置（これを「ロボットアーム準備開始位置」という）であり、当該位置に物体ＯＢＪ_ｉが存在することが確認された場合、ロボットアームが始動することで、物体ＯＢＪ_ｉを掴むための準備を完了させる時間を確保できる位置である。つまり、当該位置に物体ＯＢＪ_ｉが到達したときに、ロボットアームが準備を開始することで、後続の動作が可能となる。
（入力データ１）：ｐｏｓ（ＯＢＪ_ｉ）＝（ｘ１，ｙ１，ｚ１）
ｐｏｓ（ＯＢＪ_ｉ）：物体ＯＢＪ_ｉの３次元座標を取得する関数
（入力データ２）：ｄｅｔ＿ｐｏｓ＿ｒｅａｄｙ（ｐｏｓ（ＯＢＪ_ｉ））＝１
ｄｅｔ＿ｐｏｓ＿ｒｅａｄｙ（ｐｏｓ（ＯＢＪ_ｉ））：物体ＯＢＪ_ｉが、第１ベルトコンベアの特定の範囲に含まれる位置に存在する場合、「１」を出力し、それ以外の場合、「０」を出力する関数（検出結果を取得する関数）
（Ｂ）出力データ：
行動コードＣ２－１（１００％）（ロボットアームの先端の爪を開く（爪の開度：１００％）ことを示す行動コード）
≪工程２≫
（Ａ）入力データ（状態２で取得されるデータ）：
状態２：制御対象Ｒｂｔ１（ロボットアーム）の先端の爪の位置（この位置を（ｘ２，ｙ２，ｚ２）とする）が検出された状態。
（入力データ１）：ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）＝（ｘ２，ｙ２，ｚ２）
ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）：ロボットアームＲｂｔ１の先端の爪の位置の３次元座標を取得する関数
（Ｂ）出力データ：
行動コードＣ１－２（ｘ３，ｙ３，ｚ３，１０ｓ）（ロボットアームの先端の爪を、物体ＯＢＪ_ｉを掴む位置（ｘ３，ｙ３，ｚ３）に１０秒間で移動させることを示す行動コード）
≪工程３≫
（Ａ）入力データ（状態３で取得されるデータ）：
状態３：物体ＯＢＪ_ｉが制御対象Ｒｂｔ１（ロボットアーム）によるピックアップが可能な位置（この位置を（ｘ４，ｙ４，ｚ４）とする）に存在することが検出された状態。
（入力データ１）：ｐｏｓ（ＯＢＪ_ｉ）＝（ｘ４，ｙ４，ｚ４）
ｐｏｓ（ＯＢＪ_ｉ）：物体ＯＢＪ_ｉの３次元座標を取得する関数
（入力データ２）：ｄｅｔ＿ｐｏｓ＿ｇｒａｓｐ（ｐｏｓ（ＯＢＪ_ｉ））＝１
ｄｅｔ＿ｐｏｓ＿ｇｒａｓｐ（ｐｏｓ（ＯＢＪ_ｉ））：物体ＯＢＪ_ｉが、第１ベルトコンベアの特定の範囲に含まれる位置であって、物体ＯＢＪ_ｉが制御対象Ｒｂｔ１（ロボットアーム）によるピックアップが可能な位置に存在する場合、「１」を出力し、それ以外の場合、「０」を出力する関数（検出結果を取得する関数）
（Ｂ）出力データ：
行動コードＣ２－３（０％）（ロボットアームの先端の爪を閉じる（爪の開度：０％）ことを示す行動コード）
≪工程４≫
（Ａ）入力データ（状態４で取得されるデータ）：
状態４：制御対象Ｒｂｔ１（ロボットアーム）の先端の爪の反力が特定の範囲内の値であることが検出された状態。
（入力データ１）：ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）
ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）：制御対象Ｒｂｔ１（ロボットアーム）の先端の爪の反力を取得する関数
（入力データ２）：ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１））＝１
ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１））：制御対象Ｒｂｔ１（ロボットアーム）の先端の爪の反力が特定の範囲内の値である場合「１」を出力し、それ以外の場合、「０」を出力する関数（検出結果を取得する関数）
（Ｂ）出力データ：
行動コードＣ１－５（ｘ５，ｙ５，ｚ５，１０ｓ）（ロボットアームの先端の爪を、物体ＯＢＪ_ｉを離す位置（ｘ５，ｙ５，ｚ５）に１０秒間で移動させることを示す行動コード）
≪工程５≫
（Ａ）入力データ（状態５で取得されるデータ）：
状態５：制御対象Ｒｂｔ１（ロボットアーム）の先端の爪の位置（この位置を（ｘ６，ｙ６，ｚ６）とする）が物体を離すことが可能な位置であることが検出された状態。
（入力データ１）：ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）＝（ｘ６，ｙ６，ｚ６）
ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）：ロボットアームＲｂｔ１の先端の爪の位置の３次元座標を取得する関数
（入力データ２）：ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｒｅｌｅａｓｅ（ｐｏｓ＿ｔｉｐ（Ｒｂｔ１））＝１
ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｒｅｌｅａｓｅ（ｐｏｓ＿ｔｉｐ（Ｒｂｔ１））：制御対象Ｒｂｔ１（ロボットアーム）の先端の爪の位置がリリース可能位置（把持している物体をリリースする（放す）ことが可能である位置）である場合「１」を出力し、それ以外の場合、「０」を出力する関数（検出結果を取得する関数）
（Ｂ）出力データ：
行動コードＣ２－３（１００％）（ロボットアームの先端の爪を開く（爪の開度：１００％）ことを示す行動コード）
≪工程６≫
（Ａ）入力データ（状態６で取得されるデータ）：
状態６：物体ＯＢＪ_ｉが制御対象Ｒｂｔ１（ロボットアーム）を動かしても物体ＯＢＪ_ｉと干渉しない位置（この位置を（ｘ７，ｙ７，ｚ７）とする）に存在することが検出された状態。
（入力データ１）：ｐｏｓ（ＯＢＪ_ｉ）＝（ｘ７，ｙ７，ｚ７）
ｐｏｓ（ＯＢＪ_ｉ）：物体ＯＢＪ_ｉの３次元座標を取得する関数
（入力データ２）：ｄｅｔ＿ｐｏｓ＿ｉｎｉｔ（ｐｏｓ（ＯＢＪ_ｉ））＝１
ｄｅｔ＿ｐｏｓ＿ｉｎｉｔ（ｐｏｓ（ＯＢＪ_ｉ））：物体ＯＢＪ_ｉが、制御対象Ｒｂｔ１（ロボットアーム）を動かしても物体ＯＢＪ_ｉと干渉しない位置に存在する場合、「１」を出力し、それ以外の場合、「０」を出力する関数（検出結果を取得する関数）
（Ｂ）出力データ：
行動コードＣ３－１（１０ｓ）（ロボットアームを１０秒間で初期状態の位置に移動させることを示す行動コード）
以上のように、所定のタスク（上記では、第１タスクｔｓｋ１）を設定し、工程ごとに、自動制御システム１０００の状態（及び状態遷移）を考慮して入力データ（行動コード取得処理部１２への入力データ）を決定し、当該タスクを実現するための行動コードを選択するだけで学習データ（行動コード取得処理部１２の学習可能モデルの学習データ）を生成することができる。このため、上記の学習データ生成方法では、制御対象Ｒｂｔ１（ロボットアーム）に対して、実際の操作ができる熟練のオペレータを必要としない。

【0087】

（１．２．２：学習処理）
次に、自動制御システム１０００における学習処理について、説明する。以下では、上記の学習データ生成方法により生成した学習データ（第１タスクｔｓｋ１用の学習データ）を用いて学習処理を行う場合（一例）について、説明する。

【0088】

まず、自動制御システム１０００において、制御対象Ｒｂｔ１（ロボットアーム）を起動し、制御可能な状態（初期状態）にする。そして、自動制御システム１０００において、図５および上記で示した工程１～工程６を行うことで、学習処理を行う。具体的な処理について、以下説明する。なお、第１タスクｔｓｋ１についての学習処理を行うので、条件ｈを、第１タスクｔｓｋ１を特定するデータに設定して、当該データ（条件ｈ）が行動コード取得処理部１２に入力される。

【0089】

また、図３に示すように、環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓは、第１ベルトコンベアＣｖｙ１上の物体ＯＢＪ_ｉの位置を検出する位置検出センサＤｅｖ＿ｓｅｎｓｏｒｓ^（１）、Ｄｅｖ＿ｓｅｎｓｏｒｓ^（２）、および、Ｄｅｖ＿ｓｅｎｓｏｒｓ^（３）（例えば、位置検出センサＤｅｖ＿ｓｅｎｓｏｒｓ^（１）Ｄｅｖ＿ｓｅｎｓｏｒｓ^（２）、および、Ｄｅｖ＿ｓｅｎｓｏｒｓ^（３）は、それぞれ、撮像装置により実現され、当該撮像装置の３次元座標空間の位置（既知）と、当該撮像装置の撮影パラメータ（撮像点（カメラの位置（例えば、撮像素子の撮像素子面の中心点））、焦点位置、焦点距離、画角、視野角、カメラ光学系の光軸の情報（光軸の向き等）等）を考慮して、当該撮像装置により取得される撮像画像を解析することで、物体ＯＢＪ_ｉの位置を検出するものであってもよい）を含むものとする。

【0090】

また、第１ベルトコンベアＣｖｙ１および第２ベルトコンベアＣｖｙ２は、搬送速度ｖ１で動作しているものとする。

【0091】

また、制御対象Ｒｂｔ１であるロボットアームは、第１ベルトコンベアＣｖｙ１上の空間ＳＰ１にある物体を掴んで保持し、第２ベルトコンベアＣｖｙ２上の空間ＳＰ２内の位置に移動させることが可能であり、ロボットアームの先端の爪（物体を把持する部分）の可能範囲が上記操作を可能とする範囲であるものとする。そして、ロボットアームは、上記操作が可能となる位置に設置されているものとする。

【0092】

≪工程１≫
位置検出センサＤｅｖ＿ｓｅｎｓｏｒｓ^（１）は、物体（被搬送物）ＯＢＪ_ｉの第１ベルトコンベアＣｖｙ１の位置（この位置をｐｏｓ（ＯＢＪ_ｉ）＝（ｘ１，ｙ１，ｚ１）とする）を取得し、取得した当該位置のデータを、データＤ１２＿ｓｅｎｓに含める。そして、データＤ１２＿ｓｅｎｓは、位置検出センサＤｅｖ＿ｓｅｎｓｏｒｓ^（１）（環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓ）から行動コード取得部１に出力される。

【0093】

行動コード取得部１の入力データ調整部１１は、データＤ１２＿ｓｅｎｓを入力し、当該データから物体（被搬送物）ＯＢＪ_ｉの第１ベルトコンベアＣｖｙ１の位置のデータｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ１，ｙ１，ｚ１））を取得する。そして、入力データ調整部１１は、データｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ１，ｙ１，ｚ１））が、ロボットアーム準備開始位置であるか否かを検出する。つまり、入力データ調整部１１は、関数ｄｅｔ＿ｐｏｓ＿ｒｅａｄｙ（ｐｏｓ（ＯＢＪ_ｉ））に相当する処理を実行する。そして、ｄｅｔ＿ｐｏｓ＿ｒｅａｄｙ（ｐｏｓ（ＯＢＪ_ｉ））＝１である場合（物体ＯＢＪ_ｉがロボットアーム準備開始位置に存在する（到達している）と判定された場合）、下記の入力データを行動コード解釈処理部２１の学習可能モデルに入力する（データＤ２として、入力データ調整部１１から行動コード取得処理部１２へ出力される）。一方、ｄｅｔ＿ｐｏｓ＿ｒｅａｄｙ（ｐｏｓ（ＯＢＪ_ｉ））＝１ではない場合、入力データ調整部１１は、ｄｅｔ＿ｐｏｓ＿ｒｅａｄｙ（ｐｏｓ（ＯＢＪ_ｉ））＝１となるまで、待機する。
入力データ（工程１）：
（１）ｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ１，ｙ１，ｚ１））
（２）ｄｅｔ＿ｐｏｓ＿ｒｅａｄｙ（ｐｏｓ（ＯＢＪ_ｉ））＝１
なお、行動コード解釈処理部２１の学習可能モデルに入力されるデータは、下記であり、下記（１）～（３）のデータについては、取得されていない場合、行動コード解釈処理部２１の学習可能モデルには、無入力あるいは「０」が入力され、下記（４）～（８）のデータについては、検出されていない場合、行動コード解釈処理部２１の学習可能モデルには「０」が入力されるものとする（他の工程においても同様）。
＜行動コード解釈処理部２１の学習可能モデルへの入力データ＞
（１）ｐｏｓ（ＯＢＪ_ｉ）により取得される３次元座標空間座標データ
（２）ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）により取得される３次元座標空間座標データ
（３）ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）により取得される反力のデータ
（４）ｄｅｔ＿ｐｏｓ＿ｒｅａｄｙ（）により取得される検出データ
（５）ｄｅｔ＿ｐｏｓ＿ｇｒａｓｐ（）により取得される検出データ
（６）ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（）により取得される検出データ
（７）ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｒｅｌｅａｓｅ（）により取得される検出データ
（８）ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｉｎｉｔ（）により取得される検出データ
（９）条件ｈ（タスクを特定するデータ）
行動コード取得処理部１２は、入力データ調整部１１から出力されるデータＤ２と、条件ｈとを入力する。行動コード取得処理部１２は、学習可能モデルを有しており、当該学習可能モデルに、データＤ２（工程１で取得されたデータ）が入力される。行動コード取得処理部１２の学習可能モデルは、例えば、クラス分類および回帰を行うニューラルネットワークモデルである。図６に、クラス分類および回帰を行うニューラルネットワークモデルを採用した場合の行動コード取得処理部１２の学習可能モデルの概略構成図を示す。

【0094】

学習可能モデルがクラス分類および回帰を行うニューラルネットワークモデルである場合、当該学習可能モデルの入力層に、データＤ２（工程１で取得されたデータ（上記（１）～（８）のデータ））および条件ｈ（第１タスクｔｓｋ１を特定するデータ）を入力する。また、当該学習可能モデルは、例えば、図６に示すように、１または複数の中間層、全結合層（ＦＣ層）、ソフトマックス層、第１出力層（クラス分類用の出力層）、および、第２出力層（回帰用の出力層）を有している。

【0095】

第１出力層は、設定された行動コードの数のノードを有する層であり、各ノードは、所定の行動コードに１対１で割り当てられている。なお、当該学習可能モデルは、第１出力層の前段にソフトマックス層を有しており、出力層の各ノードの出力値ｘは、０≦ｘ≦１となる。そして、当該学習可能モデルは、第１出力層のノードのうち、最大値を出力するノードを特定し、特定した当該ノードに割り当てられた行動コードを出力とする。

【0096】

第２出力層は、回帰の出力データを取得するための層であり、本実施形態では、（１）ｘ座標値を出力するノード、（２）ｙ座標値を出力するノード、（３）ｚ座標値を出力するノード、（４）時間ｔを出力するノード、および（５）爪の開度Ｈを出力するノードを有しており、各ノードからは、実数値が出力される。

【0097】

また、当該学習可能モデルは、第１出力層の各ノードの値（出力値）を要素とするベクトルと、正解データ（正解の行動コードに相当するノードに対応する要素のみを「１」とし、他のノードに対応するベクトル）との交差エントロピー誤差を取得し、取得した交差エントロピー誤差に基づいて、誤差逆伝播法（バックプロパゲーション）により、当該学習可能モデルのパラメータを更新するものとする。

【0098】

また、当該学習可能モデルは、第２出力層の各ノードの値（出力値）と、正解データ（正解のデータ（行動コードの引数の値））との二乗和誤差を取得し、取得した二乗和誤差に基づいて、誤差逆伝播法（バックプロパゲーション）により、当該学習可能モデルのパラメータを更新するものとする。

【0099】

また、当該学習可能モデルは、クラス分類および回帰を行うニューラルネットワークモデルであるので、誤差関数として、マルチタスク誤差を取得する関数を採用し、当該誤差関数の値により、学習が収束したか否かを判断する。マルチタスク誤差を取得する関数としては、例えば、以下の数式により表現される関数を採用すればよい。
（誤差関数）＝（分類誤差）＋λ×（回帰誤差）
（分類誤差）：第１出力層の出力データと正解データとの誤差であり、交差エントロピー誤差により取得される誤差
（回帰誤差）：第２出力層の出力データと正解データとの誤差であり、二乗和誤差により取得される誤差
λ：係数
以下では、説明便宜のため、行動コード取得処理部１２の学習可能モデルは、上記のクラス分類および回帰を行うニューラルネットワークモデルである図６に示したモデル（一例）であるものとして説明する。

【0100】

行動コード取得処理部１２の学習可能モデルは、入力データ調整部１１から出力されるデータＤ２と、条件ｈとを入力し、入力したデータを用いて、データを順伝播させ、出力データを取得する。そして、行動コード取得処理部１２は、学習可能モデルの出力データと正解データ（工程１では、行動コードＣ２－１（１００％））との誤差を取得し、取得した誤差を誤差関数により評価する。行動コード取得処理部１２は、誤差関数により取得された誤差が所定の範囲内のものである場合、学習が収束したと判定し、誤差関数により取得された誤差が所定の範囲内のものではない場合、学習を継続させる。学習を継続させると判断された場合、行動コード取得処理部１２の学習可能モデルにおいて、取得した誤差を逆伝播させることで、当該学習可能モデルのパラメータを更新する。

【0101】

≪工程２≫
工程２では、まず、工程１の正解データ（行動コードＣ２－１（１００％））を、データＤ＿ｃｏｒｒｅｃｔとして、制御対象駆動処理部２の行動コード解釈処理部２１に入力する。

【0102】

行動コード解釈処理部２１は、入力されたデータＤ＿ｃｏｒｒｅｃｔに対して、行動コード解釈処理を実行する。具体的には、行動コード解釈処理部２１は、入力されたデータＤ＿ｃｏｒｒｅｃｔで規定される行動を実行するための制御指令列であって、制御対象Ｒｂｔ１（ロボットアーム）を駆動するためのコマンド列（制御対象Ｒｂｔ１（ロボットアーム）に特化した制御指令の列）を特定（取得）する処理を行う。例えば、行動コードＣ２－１（１００％）で規定される行動を制御対象Ｒｂｔ１に実行させるための制御対象Ｒｂｔ１（ロボットアーム）のコマンド列（Ｎ１個（Ｎ１：自然数）からなるコマンド）を
Ｄ＿ｃｍｄ_１ ^{（Ｃ２－１（１００％））}、Ｄ＿ｃｍｄ_２ ^{（Ｃ２－１（１００％））}、・・・、Ｄ＿ｃｍｄ_Ｎ１ ^{（Ｃ２－１（１００％））}
とすると、行動コード解釈処理部２１は、行動コード解釈処理を実行することで、上記のコマンド列を取得する。なお、取得したコマンド列は、その順に（添え字の昇順に）、実行されるものとする。

【0103】

そして、行動コード解釈処理部２１は、上記処理により取得したコマンド列を含むデータを、データＤ３として、制御対象駆動部２２の制御データ生成部２２１に出力する。

【0104】

制御データ生成部２２１は、行動コード解釈処理部２１から出力されるデータＤ３から、制御データを生成する処理を実行する。例えば、制御データ生成部２２１は、データＤ３から取得したコマンド列を構成する各コマンドＤ＿ｃｍｄ_ｉ ^{（Ｃ２－１（１００％））}（ｉ：自然数、１≦ｉ≦Ｎ１）を実行するための制御データ列Ｄ＿ｄｒｖ^（Ｍ１）（τ_１）、Ｄ＿ｄｒｖ^（Ｍ２）（τ_２）、・・・、Ｄ＿ｄｒｖ^（Ｍｎ）（τ_ｎ）を取得する。なお、制御データＤ＿ｄｒｖ^（Ｍｊ）（τ_ｊ）は、制御対象Ｒｂｔ１（ロボットアーム）に搭載されているｊ番目（ｊ：自然数、１≦ｊ≦ｎ）（ｎ：自然数、ｎは、制御対象Ｒｂｔ１（ロボットアーム）の回転モータの数）の回転モータにトルクτ_ｊを発生させるための制御データである。つまり、制御データ列Ｄ＿ｄｒｖ^（Ｍ１）（τ_１）、Ｄ＿ｄｒｖ^（Ｍ２）（τ_２）、・・・、Ｄ＿ｄｒｖ^（Ｍｎ）（τ_ｎ）により、制御対象Ｒｂｔ１（ロボットアーム）に搭載されているｎ個の回転モータのそれぞれに発生させるトルクを特定することができる。

【0105】

制御データ生成部２２１は、上記により生成した制御データ（制御データ列）を含むデータを、データＤ４として、駆動信号生成部２２２に出力する。

【0106】

駆動信号生成部２２２は、制御データ生成部２２１から出力されるデータＤ４を入力し、データＤ４に基づいて、駆動信号Ｓｉｇ＿τ（制御対象Ｒｂｔ１（ロボットアーム）の各回転モータを駆動するための駆動信号の集合）を生成する。

【0107】

そして、駆動信号生成部２２２が、生成した駆動信号Ｓｉｇ＿τを制御対象Ｒｂｔ１に出力する（例えば、生成した駆動信号Ｓｉｇ＿τにより、制御対象Ｒｂｔ１の所定の部位を動かすモータを駆動する）ことで、制御対象Ｒｂｔ１（ロボットアーム）の各回転モータが指定されたトルクで駆動され、制御対象Ｒｂｔ１（ロボットアーム）が所定の動作を行う。工程２では、制御対象Ｒｂｔ１（ロボットアーム）の先端の爪が開く（開度：１００％）動作が実行される。

【0108】

制御対象Ｒｂｔ１（ロボットアーム）は、先端の爪の位置（この位置をｐｏｓ＿ｔｉｐ（Ｒｂｔ１）＝（ｘ２，ｙ２，ｚ２）とする）を取得し、取得した当該位置のデータを、データＤ１１＿ｓｅｎｓに含め、当該データＤ１１＿ｓｅｎｓを行動コード取得部１の入力データ調整部１１に出力する。なお、制御対象Ｒｂｔ１（ロボットアーム）は、制御対象Ｒｂｔ１（ロボットアーム）を制御する制御部（不図示）により、ロボットアームを構成する各リンクの位置、姿勢を特定することができ、当該制御部により、先端の爪の位置を特定することができるものとする。

【0109】

行動コード取得部１の入力データ調整部１１は、データＤ１１＿ｓｅｎｓを入力し、当該データから制御対象Ｒｂｔ１（ロボットアーム）の先端の爪の位置ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）（＝（ｘ２，ｙ２，ｚ２））を取得する。そして、入力データ調整部１１は、取得したデータｐｏｓ＿ｔｉｐ（Ｒｂｔ１）（＝（ｘ２，ｙ２，ｚ２））を含めたデータを、データＤ２として、行動コード取得処理部１２に出力する。

【0110】

そして、工程２において、下記の入力データが、行動コード取得処理部１２の学習可能モデルに入力される。
入力データ（工程２）：
（１）ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）（＝（ｘ２，ｙ２，ｚ２））
そして、行動コード取得処理部１２の学習可能モデルは、入力データ調整部１１から出力されるデータＤ２と、条件ｈとを入力し、入力したデータを用いて、データを順伝播させ、出力データを取得する。そして、行動コード取得処理部１２は、学習可能モデルの出力データと正解データ（工程２では、行動コードＣ１－２（ｘ３，ｙ３，ｚ３，１０ｓ）（行動コードＣ１－２は、第１出力層（クラス分類用の出力層）の正解データであり、（ｘ３，ｙ３，ｚ３，１０ｓ）は、第２出力層（回帰用の出力層）の正解データである））との誤差を取得し、取得した誤差を誤差関数により評価する。行動コード取得処理部１２は、誤差関数により取得された誤差が所定の範囲内のものである場合、学習が収束したと判定し、誤差関数により取得された誤差が所定の範囲内のものではない場合、学習を継続させる。学習を継続させると判断された場合、行動コード取得処理部１２の学習可能モデルにおいて、取得した誤差を逆伝播させることで、当該学習可能モデルのパラメータを更新する。

【0111】

≪工程３≫
工程３では、まず、工程２の正解データ（行動コードＣ１－２（ｘ３，ｙ３，ｚ３，１０ｓ））を、データＤ＿ｃｏｒｒｅｃｔとして、制御対象駆動処理部２の行動コード解釈処理部２１に入力する。

【0112】

行動コード解釈処理部２１は、入力されたデータＤ＿ｃｏｒｒｅｃｔに対して、行動コード解釈処理を実行する。具体的には、工程２と同様に、行動コード解釈処理部２１は、入力されたデータＤ＿ｃｏｒｒｅｃｔで規定される行動を実行するための制御指令列であって、制御対象Ｒｂｔ１（ロボットアーム）を駆動するためのコマンド列（制御対象Ｒｂｔ１（ロボットアーム）に特化した制御指令の列）を特定（取得）する処理を行う。

【0113】

【0114】

制御データ生成部２２１は、行動コード解釈処理部２１から出力されるデータＤ３から、制御データを生成する処理を実行する。制御データ生成部２２１は、工程２と同様に、データＤ３から取得したコマンド列を構成する各コマンドＤ＿ｃｍｄ_ｉ ^{（Ｃ２－１（１００％））}（ｉ：自然数、１≦ｉ≦Ｎ１）を実行するための制御データ列Ｄ＿ｄｒｖ^（Ｍ１）（τ_１）、Ｄ＿ｄｒｖ^（Ｍ２）（τ_２）、・・・、Ｄ＿ｄｒｖ^（Ｍｎ）（τ_ｎ）を取得する。

【0115】

そして、制御データ生成部２２１は、上記により生成した制御データ（制御データ列）を含むデータを、データＤ４として、駆動信号生成部２２２に出力する。

【0116】

【0117】

そして、駆動信号生成部２２２が、生成した駆動信号Ｓｉｇ＿τを制御対象Ｒｂｔ１に出力する（例えば、生成した駆動信号Ｓｉｇ＿τにより、制御対象Ｒｂｔ１の所定の部位を動かすモータを駆動する）ことで、制御対象Ｒｂｔ１（ロボットアーム）の各回転モータが指定されたトルクで駆動され、制御対象Ｒｂｔ１（ロボットアーム）が所定の動作を行う。工程３では、制御対象Ｒｂｔ１（ロボットアーム）の先端の爪を、物体ＯＢＪ_ｉを掴む位置（ｘ３，ｙ３，ｚ３）に１０秒間で移動させる動作が実行される。

【0118】

位置検出センサＤｅｖ＿ｓｅｎｓｏｒｓ^（２）は、物体（被搬送物）ＯＢＪ_ｉの第１ベルトコンベアＣｖｙ１の位置（この位置をｐｏｓ（ＯＢＪ_ｉ）＝（ｘ４，ｙ４，ｚ４）とする）を取得し、取得した当該位置のデータを、データＤ１２＿ｓｅｎｓに含める。そして、データＤ１２＿ｓｅｎｓは、位置検出センサＤｅｖ＿ｓｅｎｓｏｒｓ^（２）（環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓ）から行動コード取得部１に出力される。

【0119】

行動コード取得部１の入力データ調整部１１は、データＤ１２＿ｓｅｎｓを入力し、当該データから物体（被搬送物）ＯＢＪ_ｉの第１ベルトコンベアＣｖｙ１の位置のデータｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ４，ｙ４，ｚ４））を取得する。そして、入力データ調整部１１は、データｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ４，ｙ４，ｚ４））が、第１ベルトコンベアの特定の範囲に含まれる位置であって、物体ＯＢＪ_ｉが制御対象Ｒｂｔ１（ロボットアーム）によるピックアップが可能な位置であるか否かを検出する。つまり、入力データ調整部１１は、関数ｄｅｔ＿ｐｏｓ＿ｇｒａｓｐ（ｐｏｓ（ＯＢＪ_ｉ））に相当する処理を実行する。そして、ｄｅｔ＿ｐｏｓ＿ｇｒａｓｐ（ｐｏｓ（ＯＢＪ_ｉ））＝１である場合、下記の入力データを行動コード解釈処理部２１の学習可能モデルに入力する（データＤ２として、入力データ調整部１１から行動コード取得処理部１２へ出力される）。一方、ｄｅｔ＿ｐｏｓ＿ｇｒａｓｐ（ｐｏｓ（ＯＢＪ_ｉ））＝１ではない場合、入力データ調整部１１は、ｄｅｔ＿ｐｏｓ＿ｇｒａｓｐ（ｐｏｓ（ＯＢＪ_ｉ））＝１となるまで、待機する。
入力データ（工程３）：
（１）ｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ４，ｙ４，ｚ４））
（２）ｄｅｔ＿ｐｏｓ＿ｇｒａｓｐ（ｐｏｓ（ＯＢＪ_ｉ））＝１
そして、行動コード取得処理部１２の学習可能モデルは、入力データ調整部１１から出力されるデータＤ２と、条件ｈとを入力し、入力したデータを用いて、データを順伝播させ、出力データを取得する。そして、行動コード取得処理部１２は、学習可能モデルの出力データと正解データ（工程３では、行動コードＣ２－３（０％）（行動コードＣ２－３は、第１出力層（クラス分類用の出力層）の正解データであり、（０％）（開度Ｈ）は、第２出力層（回帰用の出力層）の正解データである））との誤差を取得し、取得した誤差を誤差関数により評価する。行動コード取得処理部１２は、誤差関数により取得された誤差が所定の範囲内のものである場合、学習が収束したと判定し、誤差関数により取得された誤差が所定の範囲内のものではない場合、学習を継続させる。学習を継続させると判断された場合、行動コード取得処理部１２の学習可能モデルにおいて、取得した誤差を逆伝播させることで、当該学習可能モデルのパラメータを更新する。

【0120】

≪工程４≫
工程４では、まず、工程３の正解データ（行動コードＣ２－３（０％））を、データＤ＿ｃｏｒｒｅｃｔとして、制御対象駆動処理部２の行動コード解釈処理部２１に入力する。

【0121】

【0122】

【0123】

【0124】

【0125】

【0126】

そして、駆動信号生成部２２２が、生成した駆動信号Ｓｉｇ＿τを制御対象Ｒｂｔ１に出力する（例えば、生成した駆動信号Ｓｉｇ＿τにより、制御対象Ｒｂｔ１の所定の部位を動かすモータを駆動する）ことで、制御対象Ｒｂｔ１（ロボットアーム）の各回転モータが指定されたトルクで駆動され、制御対象Ｒｂｔ１（ロボットアーム）が所定の動作を行う。工程４では、制御対象Ｒｂｔ１（ロボットアーム）の先端の爪を閉じる動作が実行される。

【0127】

制御対象Ｒｂｔ１（ロボットアーム）は、先端の爪の反力（この反力をｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）とする）を取得し、取得した反力のデータを、データＤ１１＿ｓｅｎｓに含め、当該データＤ１１＿ｓｅｎｓを行動コード取得部１の入力データ調整部１１に出力する。なお、制御対象Ｒｂｔ１（ロボットアーム）は、先端の爪の反力を測定するセンサを有しており、当該センサにより、先端の爪の反力を取得できるものとする。

【0128】

行動コード取得部１の入力データ調整部１１は、データＤ１１＿ｓｅｎｓを入力し、当該データから制御対象Ｒｂｔ１（ロボットアーム）の先端の爪の反力ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）を取得する。

【0129】

そして、入力データ調整部１１は、反力ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）が、特定の範囲内の値（物体ＯＢＪ_ｉを把持し、把持した状態を維持したまま移動させることが可能な反力）であるか否かを検出する。つまり、入力データ調整部１１は、関数ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（ｐｏｓ（ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）））に相当する処理を実行する。そして、ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（ｐｏｓ（ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）））＝１である場合、下記の入力データを行動コード解釈処理部２１の学習可能モデルに入力する（データＤ２として、入力データ調整部１１から行動コード取得処理部１２へ出力される）。一方、ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（ｐｏｓ（ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）））＝１ではない場合、入力データ調整部１１は、ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（ｐｏｓ（ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）））＝１となるまで、待機する。

【0130】

入力データ調整部１１は、取得したデータｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）、ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（ｐｏｓ（ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）））＝１を含めたデータを、データＤ２として、行動コード取得処理部１２に出力する。

【0131】

そして、工程４において、下記の入力データが、行動コード解釈処理部２１の学習可能モデルに入力される。
入力データ（工程４）：
（１）ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）
（２）ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（ｐｏｓ（ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）））＝１
そして、行動コード取得処理部１２の学習可能モデルは、入力データ調整部１１から出力されるデータＤ２と、条件ｈとを入力し、入力したデータを用いて、データを順伝播させ、出力データを取得する。そして、行動コード取得処理部１２は、学習可能モデルの出力データと正解データ（工程４では、行動コードＣ１－５（ｘ５，ｙ５，ｚ５，１０ｓ）（行動コードＣ１－５は、第１出力層（クラス分類用の出力層）の正解データであり、（ｘ５，ｙ５，ｚ５，１０ｓ）は、第２出力層（回帰用の出力層）の正解データである））との誤差を取得し、取得した誤差を誤差関数により評価する。行動コード取得処理部１２は、誤差関数により取得された誤差が所定の範囲内のものである場合、学習が収束したと判定し、誤差関数により取得された誤差が所定の範囲内のものではない場合、学習を継続させる。学習を継続させると判断された場合、行動コード取得処理部１２の学習可能モデルにおいて、取得した誤差を逆伝播させることで、当該学習可能モデルのパラメータを更新する。

【0132】

≪工程５≫
工程５では、まず、工程４の正解データ（行動コードＣ１－５（ｘ５，ｙ５，ｚ５，１０ｓ））を、データＤ＿ｃｏｒｒｅｃｔとして、制御対象駆動処理部２の行動コード解釈処理部２１に入力する。

【0133】

【0134】

【0135】

【0136】

【0137】

【0138】

そして、駆動信号生成部２２２が、生成した駆動信号Ｓｉｇ＿τを制御対象Ｒｂｔ１に出力する（例えば、生成した駆動信号Ｓｉｇ＿τにより、制御対象Ｒｂｔ１の所定の部位を動かすモータを駆動する）ことで、制御対象Ｒｂｔ１（ロボットアーム）の各回転モータが指定されたトルクで駆動され、制御対象Ｒｂｔ１（ロボットアーム）が所定の動作を行う。工程５では、制御対象Ｒｂｔ１（ロボットアーム）の先端の爪を、物体ＯＢＪ_ｉを離す位置（ｘ５，ｙ５，ｚ５）に１０秒間で移動させる動作が実行される。

【0139】

制御対象Ｒｂｔ１（ロボットアーム）は、先端の爪の位置（この位置をｐｏｓ＿ｔｉｐ（Ｒｂｔ１）＝（ｘ６，ｙ６，ｚ６）とする）を取得し、取得した当該位置のデータを、データＤ１１＿ｓｅｎｓに含め、当該データＤ１１＿ｓｅｎｓを行動コード取得部１の入力データ調整部１１に出力する。

【0140】

行動コード取得部１の入力データ調整部１１は、データＤ１１＿ｓｅｎｓを入力し、当該データから制御対象Ｒｂｔ１（ロボットアーム）の先端の爪の位置ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）（＝（ｘ６，ｙ６，ｚ６））を取得する。そして、入力データ調整部１１は、データｐｏｓ＿ｔｉｐ（Ｒｂｔ１）が、制御対象Ｒｂｔ１（ロボットアーム）の先端の爪で把持している物体ＯＢＪ_ｉを離すことが可能な位置であるか否かを検出する。つまり、入力データ調整部１１は、関数ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｒｅｌｅａｓｅ（ｐｏｓ＿ｔｉｐ（Ｒｂｔ１））に相当する処理を実行する。そして、ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｒｅｌｅａｓｅ（ｐｏｓ＿ｔｉｐ（Ｒｂｔ１））＝１である場合、下記の入力データを行動コード解釈処理部２１の学習可能モデルに入力する（データＤ２として、入力データ調整部１１から行動コード取得処理部１２へ出力される）。一方、ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｒｅｌｅａｓｅ（ｐｏｓ＿ｔｉｐ（Ｒｂｔ１））＝１ではない場合、入力データ調整部１１は、ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｒｅｌｅａｓｅ（ｐｏｓ＿ｔｉｐ（Ｒｂｔ１））＝１となるまで、待機する。

【0141】

そして、工程５において、下記の入力データが、行動コード解釈処理部２１の学習可能モデルに入力される。
入力データ（工程５）：
（１）ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）（＝（ｘ６，ｙ６，ｚ６））
（２）ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｒｅｌｅａｓｅ（ｐｏｓ＿ｔｉｐ（Ｒｂｔ１））＝１
そして、行動コード取得処理部１２の学習可能モデルは、入力データ調整部１１から出力されるデータＤ２と、条件ｈとを入力し、入力したデータを用いて、データを順伝播させ、出力データを取得する。そして、行動コード取得処理部１２は、学習可能モデルの出力データと正解データ（工程５では、行動コードＣ２－３（１００％）（行動コードＣ２－３は、第１出力層（クラス分類用の出力層）の正解データであり、（１００％）（開度Ｈ）は、第２出力層（回帰用の出力層）の正解データである））との誤差を取得し、取得した誤差を誤差関数により評価する。行動コード取得処理部１２は、誤差関数により取得された誤差が所定の範囲内のものである場合、学習が収束したと判定し、誤差関数により取得された誤差が所定の範囲内のものではない場合、学習を継続させる。学習を継続させると判断された場合、行動コード取得処理部１２の学習可能モデルにおいて、取得した誤差を逆伝播させることで、当該学習可能モデルのパラメータを更新する。

【0142】

≪工程６≫
工程６では、まず、工程５の正解データ（行動コードＣ２－３（１００％））を、データＤ＿ｃｏｒｒｅｃｔとして、制御対象駆動処理部２の行動コード解釈処理部２１に入力する。

【0143】

【0144】

【0145】

【0146】

【0147】

【0148】

そして、駆動信号生成部２２２が、生成した駆動信号Ｓｉｇ＿τを制御対象Ｒｂｔ１に出力する（例えば、生成した駆動信号Ｓｉｇ＿τにより、制御対象Ｒｂｔ１の所定の部位を動かすモータを駆動する）ことで、制御対象Ｒｂｔ１（ロボットアーム）の各回転モータが指定されたトルクで駆動され、制御対象Ｒｂｔ１（ロボットアーム）が所定の動作を行う。工程６では、制御対象Ｒｂｔ１（ロボットアーム）の先端の爪を開く（開度Ｈ＝１００％）動作が実行される。

【0149】

位置検出センサＤｅｖ＿ｓｅｎｓｏｒｓ^（４）は、物体（被搬送物）ＯＢＪ_ｉの位置（この位置をｐｏｓ（ＯＢＪ_ｉ）＝（ｘ７，ｙ７，ｚ７）とする）を取得し、取得した当該位置のデータを、データＤ１２＿ｓｅｎｓに含める。そして、データＤ１２＿ｓｅｎｓは、位置検出センサＤｅｖ＿ｓｅｎｓｏｒｓ^（２）（環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓ）から行動コード取得部１に出力される。

【0150】

行動コード取得部１の入力データ調整部１１は、データＤ１２＿ｓｅｎｓを入力し、当該データから物体（被搬送物）ＯＢＪ_ｉの位置のデータｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ７，ｙ７，ｚ７））を取得する。そして、入力データ調整部１１は、データｐｏｓ（ＯＢＪ_ｉ）が、物体ＯＢＪ_ｉが、制御対象Ｒｂｔ１（ロボットアーム）を動かしても物体ＯＢＪ_ｉと干渉しない位置に存在するか否かを検出する。つまり、入力データ調整部１１は、関数ｄｅｔ＿ｐｏｓ＿ｉｎｉｔ（ｐｏｓ（ＯＢＪ_ｉ））に相当する処理を実行する。そして、ｄｅｔ＿ｐｏｓ＿ｉｎｉｔ（ｐｏｓ（ＯＢＪ_ｉ））＝１である場合、下記の入力データを行動コード解釈処理部２１の学習可能モデルに入力する（データＤ２として、入力データ調整部１１から行動コード取得処理部１２へ出力される）。一方、ｄｅｔ＿ｐｏｓ＿ｉｎｉｔ（ｐｏｓ（ＯＢＪ_ｉ））＝１ではない場合、入力データ調整部１１は、ｄｅｔ＿ｐｏｓ＿ｉｎｉｔ（ｐｏｓ（ＯＢＪ_ｉ））＝１となるまで、待機する。
入力データ（工程６）：
（１）ｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ７，ｙ７，ｚ７））
（２）ｄｅｔ＿ｐｏｓ＿ｉｎｉｔ（ｐｏｓ（ＯＢＪ_ｉ））＝１
そして、行動コード取得処理部１２の学習可能モデルは、入力データ調整部１１から出力されるデータＤ２と、条件ｈとを入力し、入力したデータを用いて、データを順伝播させ、出力データを取得する。そして、行動コード取得処理部１２は、学習可能モデルの出力データと正解データ（工程６では、行動コードＣ３－１（１０ｓ）（行動コードＣ３－１は、第１出力層（クラス分類用の出力層）の正解データであり、（１０ｓ）（時間ｔ）は、第２出力層（回帰用の出力層）の正解データである））との誤差を取得し、取得した誤差を誤差関数により評価する。行動コード取得処理部１２は、誤差関数により取得された誤差が所定の範囲内のものである場合、学習が収束したと判定し、誤差関数により取得された誤差が所定の範囲内のものではない場合、学習を継続させる。学習を継続させると判断された場合、行動コード取得処理部１２の学習可能モデルにおいて、取得した誤差を逆伝播させることで、当該学習可能モデルのパラメータを更新する。

【0151】

そして、工程６の正解データ（行動コードＣ３－１（１０ｓ））を、データＤ＿ｃｏｒｒｅｃｔとして、制御対象駆動処理部２の行動コード解釈処理部２１に入力し、さらに、制御データ生成部２２１および駆動信号生成部２２２において、工程２と同様の処理を実行し、行動コードＣ３－１（１０ｓ）に対応する行動、すなわち、制御対象Ｒｂｔ１（ロボットアーム）に１０秒間で初期状態の位置に移動させる動作（初期状態に戻る動作）を実行させる。

【0152】

さらに、工程１～工程６を繰り返し実行し、行動コード取得処理部１２の学習可能モデルを学習させる処理を行う。そして、行動コード取得処理部１２が誤差関数により取得された誤差が所定の範囲内のものであると判定し、学習が収束したと判定した場合、そのとき学習可能モデルに設定されているパラメータを最適パラメータとして固定する。これにより、学習処理が完了し、学習済みモデル（最適パラメータが設定されたモデル）を取得することができる。

【0153】

なお、上記では、自動制御システム１０００において、第１タスクｔｓｋ１の場合の学習処理が実行される場合について説明したが、他のタスクを条件ｈで指定し、第１タスクｔｓｋ１以外のタスクを含めて、上記と同様に、学習処理を行うようにしてもよい。これにより、複数のタスクを実行することが可能な学習済みモデル（行動コード取得処理部１２の学習済みモデル）を取得することができる。そして、当該学習済みモデルを用いた処理（予測処理）を行うことで、複数のタスクを実行する自動制御システム１０００を実現できる。

【0154】

以上のように、自動制御システム１０００では、制御対象Ｒｂｔ１が置かれている環境下での状態により取得されるデータを入力データとし、当該入力データが行動コード取得処理部１２の学習可能モデルに入力されたときに出力すべきデータ（正解データ）を行動コードとするので、制御対象Ｒｂｔ１のコマンド系列に特化することなく、汎用的な学習処理を行うことができる。

【0155】

（１．２．３：予測処理）
次に、自動制御システム１０００で実行される予測処理について、説明する。

【0156】

図７は、予測処理を実行する場合（予測処理時）の第１実施形態に係る自動制御システム１０００の行動コード取得部１と制御対象駆動処理部２の概略構成図である。

【0157】

予測処理を実行する場合、自動制御システム１０００では、図７に示すように、行動コード取得処理部１２は、学習処理により取得された学習済みモデルを有している。

【0158】

そして、行動コード取得処理部１２の学習済みモデルの出力データが、データＤ＿ａｃｔ＿ｃｏｄｅとして、制御対象駆動処理部２の行動コード解釈処理部２１に出力される。

【0159】

例えば、条件ｈを第１タスクｔｓｋ１（当該タスクを特定するデータ）とすることで、自動制御システム１０００では、第１タスクｔｓｋ１を自動実行することができる。このとき、自動制御システム１０００では、以下の処理が実行される。

【0160】

≪工程１≫
図５に示す状態１と同じ状態（あるいは類似の状態）のとき、行動コード取得処理部１２の学習済みモデルには、下記入力データが入力される。
入力データ（工程１）：
（１）ｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ１，ｙ１，ｚ１））
（２）ｄｅｔ＿ｐｏｓ＿ｒｅａｄｙ（ｐｏｓ（ＯＢＪ_ｉ））＝１
そして、学習済みモデルは、行動コードＣ２－１（１００％）に相当するデータを出力する。そして、学習済みモデルから出力されたデータは、データＤ＿ａｃｔ＿ｃｏｄｅとして、行動コード解釈処理部２１に出力される。

【0161】

行動コード解釈処理部２１は、行動コード取得処理部１２から出力されるデータＤ＿ａｃｔ＿ｃｏｄｅを入力し、上記学習処理の記載で説明したのと同様に、当該データＤ＿ａｃｔ＿ｃｏｄｅに対応するコマンド列を取得し、当該コマンド列を含むデータを、データＤ３として、制御対象駆動部２２に出力する。

【0162】

そして、制御対象駆動部２２では、上記学習処理の記載で説明したのと同様に、データＤ３のコマンド列に従う動作を制御対象Ｒｂｔ１（ロボットアーム）に実行させるための駆動信号Ｓｉｇ＿τを生成し、当該駆動信号Ｓｉｇ＿τにより、制御対象Ｒｂｔ１（ロボットアーム）に所定の動作（Ｄ＿ａｃｔ＿ｃｏｄｅに対応する動作）を実行させる。

【0163】

≪工程２≫
そして、図５に示す状態２と同じ状態（あるいは類似の状態）のとき、行動コード取得処理部１２の学習済みモデルには、下記入力データが入力される。
入力データ（工程２）：
（１）ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）（＝（ｘ２，ｙ２，ｚ２））
そして、学習済みモデルは、行動コードＣ１－２（ｘ３，ｙ３，ｚ３，１０ｓ）に相当するデータを出力する。そして、学習済みモデルから出力されたデータは、データＤ＿ａｃｔ＿ｃｏｄｅとして、行動コード解釈処理部２１に出力される。

【0164】

【0165】

【0166】

≪工程３≫
そして、図５に示す状態３と同じ状態（あるいは類似の状態）のとき、行動コード取得処理部１２の学習済みモデルには、下記入力データが入力される。
入力データ（工程３）：
（１）ｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ４，ｙ４，ｚ４））
（２）ｄｅｔ＿ｐｏｓ＿ｇｒａｓｐ（ｐｏｓ（ＯＢＪ_ｉ））＝１
そして、学習済みモデルは、行動コードＣ２－３（０％）に相当するデータを出力する。そして、学習済みモデルから出力されたデータは、データＤ＿ａｃｔ＿ｃｏｄｅとして、行動コード解釈処理部２１に出力される。

【0167】

【0168】

【0169】

≪工程４≫
そして、図５に示す状態４と同じ状態（あるいは類似の状態）のとき、行動コード取得処理部１２の学習済みモデルには、下記入力データが入力される。
入力データ（工程４）：
（１）ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）
（２）ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（ｐｏｓ（ｆｏｒｃｅ＿ｔｉｐ（Ｒｂｔ１）））＝１
そして、学習済みモデルは、行動コードＣ１－５（ｘ５，ｙ５，ｚ５，１０ｓ）に相当するデータを出力する。そして、学習済みモデルから出力されたデータは、データＤ＿ａｃｔ＿ｃｏｄｅとして、行動コード解釈処理部２１に出力される。

【0170】

【0171】

【0172】

≪工程５≫
そして、図５に示す状態５と同じ状態（あるいは類似の状態）のとき、行動コード取得処理部１２の学習済みモデルには、下記入力データが入力される。
入力データ（工程５）：
（１）ｐｏｓ＿ｔｉｐ（Ｒｂｔ１）（＝（ｘ６，ｙ６，ｚ６））
（２）ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｒｅｌｅａｓｅ（ｐｏｓ＿ｔｉｐ（Ｒｂｔ１））＝１
そして、学習済みモデルは、行動コードＣ２－３（１００％）に相当するデータを出力する。そして、学習済みモデルから出力されたデータは、データＤ＿ａｃｔ＿ｃｏｄｅとして、行動コード解釈処理部２１に出力される。

【0173】

【0174】

【0175】

≪工程６≫
そして、図５に示す状態６と同じ状態（あるいは類似の状態）のとき、行動コード取得処理部１２の学習済みモデルには、下記入力データが入力される。
入力データ（工程６）：
（１）ｐｏｓ（ＯＢＪ_ｉ）（＝（ｘ７，ｙ７，ｚ７））
（２）ｄｅｔ＿ｐｏｓ＿ｉｎｉｔ（ｐｏｓ（ＯＢＪ_ｉ））＝１
そして、学習済みモデルは、行動コードＣ３－１（１０ｓ）に相当するデータを出力する。そして、学習済みモデルから出力されたデータは、データＤ＿ａｃｔ＿ｃｏｄｅとして、行動コード解釈処理部２１に出力される。

【0176】

【0177】

【0178】

以上により、自動制御システム１０００では、第１タスクｔｓｋ１を実行（自動実行）させることができる。また、自動制御システム１０００では、他のタスクについても、同様に処理することで、自動実行させることができる。

【0179】

（１．２．４：環境が変化した場合の処理）
次に、自動制御システム１０００が置かれている環境が変化した場合の処理について説明する。

【0180】

図８は、制御対象Ｒｂｔ１ロボットアームとしたときに第２タスクｔｓｋ２を実行させるための環境を模式的に示した図である。

【0181】

例えば、図３で示した環境（自動制御システム１０００が置かれている環境）（この環境を「環境１」という）において、第１ベルトコンベアＣｖｙ１の搬送速度ｖ＿ｃｖｙ１が、速度ｖ１から、速度ｖ１よりも速い速度ｖ２（＞ｖ１）に変更された場合（この環境を「環境２」という）、自動制御システム１０００において、図３で示した環境下で学習処理を行ったシステムでは、例えば、第１タスクｔｓｋ１を適切に実行することができない。このような場合、自動制御システム１０００において、行動コード取得処理部１２の学習可能モデルを再学習し、変化した環境に対応させることができる。これについて、以下、説明する。

【0182】

なお、説明便宜のため、図３で示した環境（自動制御システム１０００が置かれている環境）において、第１ベルトコンベアＣｖｙ１の搬送速度ｖ＿ｃｖｙ１が、速度ｖ１から、速度ｖ１よりも速い速度ｖ２（＞ｖ１）に変更された場合（一例）（環境１から環境２に変化した場合）について、以下、説明する。

【0183】

環境１では、図５に示した学習データ（第１タスクｔｓｋ１用学習データ）により、第１タスクｔｓｋ１を実行する学習可能モデル（行動コード取得処理部１２の学習可能モデル）を取得することができたが、環境２では、第１ベルトコンベアＣｖｙ１の搬送速度ｖ＿ｃｖｙ１が速くなっているので、第１タスクｔｓｋ１用学習データの代わりに、第２タスクｔｓｋ２用学習データを用いて学習処理を行う。

【0184】

図９は、制御対象Ｒｂｔ１ロボットアームとした場合の第２タスクｔｓｋ２を実行させる自動制御システム１０００を構築するための学習データを説明するための図（行動コード取得処理部１２の学習可能モデルのための学習データ（第２タスクｔｓｋ２用学習データ）の入力データと出力データ（正解データ）とを時系列に模式的に示した図）である。

【0185】

第２タスクｔｓｋ２用学習データは、図９に示すように、第１タスクｔｓｋ１用学習データにおいて、以下の部分を追加、変更したものである。
（１）工程２の状態２において、第１ベルトコンベアＣｖｙ１の速度（搬送速度）ｖ＿ｃｖｙ１を取得する処理を追加し、当該処理により取得したデータを、行動コード取得処理部１２の学習可能モデルへの入力データに追加。
（２）工程２の正解データ（行動コード取得処理部１２の学習可能モデルの出力データの正解データ）を、環境１のときの行動コードＣ１－２（ｘ３，ｙ３，ｚ３，１０ｓ）から行動コードＣ１－３（ｘ３，ｙ３，ｚ３，５ｓ）に変更。

【0186】

なお、行動コードＣ１－３は、所定の軌道により位置（ｘ３，ｙ３，ｚ３）に指定された時間（５ｓ）で、制御対象Ｒｂｔ１（ロボットアーム）の先端の爪を移動させる行動コードである。
（３）工程４の正解データ（行動コード取得処理部１２の学習可能モデルの出力データの正解データ）を、環境１のときの行動コードＣ１－５（ｘ５，ｙ５，ｚ５，１０ｓ）から行動コードＣ１－５（ｘ５，ｙ５，ｚ５，５ｓ）に変更。
（４）工程６の正解データ（行動コード取得処理部１２の学習可能モデルの出力データの正解データ）を、環境１のときの行動コードＣ３－１（１０ｓ）から行動コードＣ３－１（５ｓ）に変更。

【0187】

自動制御システム１０００では、上記のように第１タスクｔｓｋ１用学習データの一部を追加、変更することで生成された第２タスクｔｓｋ２用学習データを用いて、第１タスクｔｓｋ１用学習データを用いた学習処理と同様の処理を行うことで、第２タスクｔｓｋ２を実行することができるように行動コード取得処理部１２の学習可能モデルを学習させる（条件ｈを、第２タスクｔｓｋ２を特定するデータに設定して、学習処理を行う）。なお、自動制御システム１０００において、従来対応できていたタスク（第１タスクｔｓｋ１等）についても行動コード取得処理部１２の学習可能モデルが正解データを出力できるようにしつつ、第２タスクｔｓｋ２用学習データを用いて、行動コード取得処理部１２の学習可能モデルを学習させる。

【0188】

上記学習処理により取得した学習済みモデルを行動コード取得処理部１２に搭載し、当該学習済みモデルにより処理（予測処理）を行うことで、自動制御システム１０００において、従来対応できていたタスク（第１タスクｔｓｋ１等）、および、第２タスクｔｓｋ２を適切に自動実行することができる。

【0189】

このように、自動制御システム１０００では、環境が変化した場合であっても、環境の変化に応じて、行動コード取得処理部１２の学習可能モデルへの入力データを追加、変更し、かつ、正解データとなる行動コードを変更（引数の変更を含む）するだけで、行動コード取得処理部１２の学習可能モデルの学習データを簡単に生成することができる。

【0190】

≪まとめ≫
以上のように、自動制御システム１０００では、学習可能モデルを備える行動コード取得部１が汎用コードである行動コード（制御対象Ｒｂｔ１が備える機能により特定できる動作（行動）を規定するコード）をデータＤ＿ａｃｔ＿ｃｏｄｅとして出力し、制御対象駆動処理部２が当該データＤ＿ａｃｔ＿ｃｏｄｅを制御対象Ｒｂｔ１に特化したコマンド列に変換し、変換したコマンド列に従い、制御対象Ｒｂｔ１に所定の動作を実行させる。したがって、自動制御システム１０００では、所定の環境において、制御対象Ｒｂｔ１に所定の動作させるときに、行動コード取得部１の学習処理を、当該所定の環境下で取得されるデータ（制御対象Ｒｂｔ１のデータ、および／または、制御対象Ｒｂｔ１が置かれている環境下のデータ）を入力とし、正解データを所定の行動コードとした学習データを用いて行うことができる。

【0191】

そして、自動制御システム１０００では、上記学習データを、行動コードを用いて生成できるので、所定の環境下（状態）で、制御対象Ｒｂｔ１に所定の動作をオペレータが操作して実行させる必要がなく、その結果、学習データを生成するのに熟練のオペレータを必要としない。つまり、自動制御システム１０００では、所定の環境下（状態）で、制御対象Ｒｂｔ１に所定の動作を実現させるための学習処理を行う場合、実際に制御対象Ｒｂｔ１を操作する必要はなく、所定の環境下（状態）で制御対象Ｒｂｔ１に所定の動作を実行させるための行動コード（および／または、行動コードの組み合わせ（行動コード列））を特定できればよい。

【0192】

また、自動制御システム１０００では、制御対象駆動処理部２が当該データＤ＿ａｃｔ＿ｃｏｄｅを制御対象Ｒｂｔ１に特化したコマンド列に変換し、変換したコマンド列に従い、制御対象Ｒｂｔ１に所定の動作を実行させるので、制御対象Ｒｂｔ１が変更され、制御対象Ｒｂｔ１に特化したコマンド系列が変更された場合であっても、制御対象駆動処理部２の行動コード解釈処理部２１での処理（行動コードから、制御対象Ｒｂｔ１に特化したコマンド列を取得する処理）を変更するだけで対応することができる。

【0193】

つまり、自動制御システム１０００では、（１）置かれている環境が変化した場合、あるいは、制御対象Ｒｂｔ１から出力されるデータ、または、制御対象Ｒｂｔ１が置かれている環境で取得されるデータが変化した場合、それに合わせて行動コード取得部１を変更すればよく、（２）制御対象Ｒｂｔ１が変更された場合、それに合わせて、制御対象駆動処理部２（コマンド系列が変更されただけの場合は、行動コード解釈処理部２１のみ）を変更すればよい。したがって、自動制御システム１０００では、環境の変化、制御対象Ｒｂｔ１の変更等に柔軟に対応することができる。

【0194】

さらに、自動制御システム１０００では、実現したいタスクについて行動コード取得部の学習可能モデルを学習させ取得した学習済みモデルを用いて処理（予測処理）を行うので、高精度に制御対象Ｒｂｔ１を制御し、所定のタスクを精度良く実現させることができる。その結果、自動制御システム１０００では、制御対象Ｒｂｔ１に所望の動作を高精度に実行させることができる。

【0195】

≪第１変形例≫
次に、第１実施形態の第１変形例について、説明する。なお、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。

【0196】

本変形例では、階層的なデータ構造を有する行動コードを用いる点が第１実施形態と異なる。

【0197】

図１０は、第１変形例における行動コード（制御対象Ｒｂｔ１をロボットアームとした場合の行動コード）（一例）の表を示す図である。

【0198】

図１１は、第１変形例における行動コード（階層データ）（一例）を示す図である（行動コードＣ１－３の場合）。

【0199】

図１２は、第１変形例における行動コード（階層データ）（一例）を示す図である（行動コードＣ２－２の場合）。

【0200】

本変形例の行動コード（行動コード体系）は、各行動コードに、階層データの有無を示す情報が付与されている。この点が、第１実施形態の行動コード（行動コード体系）（図４を参照）と異なる。

【0201】

図１０の表において、「階層データの有無」の欄に丸印が付与されている行動コードは、階層データを有している。なお、「階層データの有無」の欄に丸印が付与されていない行動コードは、階層データを有していない。

【0202】

図１０の表から、行動コードＣ１－３およびＣ２－２に階層データが存在することが分かる。

【0203】

そして、行動コードＣ１－３の階層データの詳細を図１１に、行動コードＣ２－２の階層データの詳細を図１２に、それぞれ、示す。

【0204】

以下では、説明便宜のため、行動コード体系が図１０～図１２の場合（一例）について、説明する。

【0205】

図１１に示すように、階層データを有する行動コードＣ１－３は、行動コードＣ１－３（ｘ，ｙ，ｚ，ｔ）において、引数として、制御レベルを規定する値（引数）ＬｅｖＸが追加されている。なお、制御レベルを規定する値（引数）ＬｅｖＸは、図１１の場合、３段階のレベルを規定しており、ＬｅｖＨ（高レベル制御）、ＬｅｖＭ（中レベル制御）、ＬｅｖＬ（低レベル制御）のいずれかをとる。なお、自動制御システム１０００において、行動コード（第１実施形態の行動コード体系の行動コード）に追加された引数がある場合、当該行動コードが階層的行動コードであると判定するようにしてもよい。

【0206】

また、制御レベルは、制御対象Ｒｂｔ１の制御の内容を特定するための指標を示すデータであり、例えば、要求される条件の厳しさに応じて設定される指標である。制御レベルは、行動コードのコード体系を階層的なものにする指標であればよく、所定の基準に応じて、その程度に応じて規定される指標であればよい。以下では、説明便宜のため、制御レベルＬｅｖＸは、要求される条件の厳しさに応じて設定される指標であり、（１）ＬｅｖＨ（高レベル制御）が厳しい条件が課される場合を示しており、（２）ＬｅｖＭ（中レベル制御）が中程度（普通）の条件が課される場合を示しており、（３）ＬｅｖＬ（低レベル制御）が緩い条件が課される場合を示しているものとして、説明する。

【0207】

まず、図１１の階層的行動コードＣ１－３について、説明する。

【0208】

階層的行動コードＣ１－３（ｘ，ｙ，ｚ，ｔ，ＬｅｖＨ）は、図１１から分かるように、制御対象Ｒｂｔ１（ロボットアーム）を位置（ｘ，ｙ，ｚ）にｔ秒間で移動させる行動を規定するコードであり、さらに、制御対象Ｒｂｔ１に対して高レベル制御を実行させることを規定するコードである。この高レベル制御の内容は、例えば、ベルトコンベアの搬送速度のゆらぎや、ベルトコンベアに対象物が置かれる間隔のゆらぎが大きい場合、ロボットアームを速く動かし（移動させ）、移動完了後の時間マージンを多く確保するようにする制御を行うことである。

【0209】

階層的行動コードＣ１－３（ｘ，ｙ，ｚ，ｔ，ＬｅｖＨ）が指定された場合、制御対象Ｒｂｔ１に対して高レベル制御を実行させることで、制御対象Ｒｂｔ１が置かれている環境下で要求される条件が厳しい場合（例えば、ベルトコンベアの搬送速度のゆらぎや、ベルトコンベアに対象物が置かれる間隔のゆらぎが大きく、ロボットアームを素早く移動させないと所定の動作を行うことができない条件（厳しい条件）である場合）であっても、適切に、制御対象Ｒｂｔ１を制御することができる（制御対象Ｒｂｔ１に所定の動作を実行させることができる）。

【0210】

階層的行動コードＣ１－３（ｘ，ｙ，ｚ，ｔ，ＬｅｖＭ）は、図１１から分かるように、制御対象Ｒｂｔ１（ロボットアーム）を位置（ｘ，ｙ，ｚ）にｔ秒間で移動させる行動を規定するコードであり、さらに、制御対象Ｒｂｔ１に対して中レベル制御を実行させることを規定するコードである。この中レベル制御の内容は、例えば、ベルトコンベアの搬送速度のゆらぎや、ベルトコンベアに対象物が置かれる間隔のゆらぎが中程度（通常）の場合、ロボットアームを速く動かし（移動させ）、移動完了後の時間マージンを中程度（通常）に確保するようにする制御を行うことである。

【0211】

階層的行動コードＣ１－３（ｘ，ｙ，ｚ，ｔ，ＬｅｖＭ）が指定された場合、制御対象Ｒｂｔ１に対して中レベル制御を実行させることで、制御対象Ｒｂｔ１が置かれている環境下で要求される条件が中程度（通常）の場合（例えば、ベルトコンベアの搬送速度のゆらぎや、ベルトコンベアに対象物が置かれる間隔のゆらぎが中程度（通常）であり、ロボットアームを通常に移動させれば所定の動作を行うことができる条件（中程度の条件）である場合）においても、適切に、制御対象Ｒｂｔ１を制御することができる（制御対象Ｒｂｔ１に所定の動作を実行させることができる）。

【0212】

階層的行動コードＣ１－３（ｘ，ｙ，ｚ，ｔ，ＬｅｖＬ）は、図１１から分かるように、制御対象Ｒｂｔ１（ロボットアーム）を位置（ｘ，ｙ，ｚ）にｔ秒間で移動させる行動を規定するコードであり、さらに、制御対象Ｒｂｔ１に対して低レベル制御を実行させることを規定するコードである。この低レベル制御の内容は、例えば、ベルトコンベアの搬送速度のゆらぎや、ベルトコンベアに対象物が置かれる間隔のゆらぎが小さい場合、ロボットアームをゆっくり動かし（移動させ）、移動完了後の時間マージンを少なくするようにする制御を行うことである。

【0213】

階層的行動コードＣ１－３（ｘ，ｙ，ｚ，ｔ，ＬｅｖＬ）が指定された場合、制御対象Ｒｂｔ１に対して低レベル制御を実行させることで、制御対象Ｒｂｔ１が置かれている環境下で要求される条件が緩い場合（例えば、ベルトコンベアの搬送速度のゆらぎや、ベルトコンベアに対象物が置かれる間隔のゆらぎが小さく、ロボットアームをゆっくり移動させても所定の動作を行うことができる条件（緩い条件）である場合）においても、適切に、制御対象Ｒｂｔ１を制御することができる（制御対象Ｒｂｔ１に所定の動作を実行させることができる）。

【0214】

次に、図１２の階層的行動コードＣ２－２について、説明する。

【0215】

階層的行動コードＣ２－２（Ｈ，ＬｅｖＨ）は、図１２から分かるように、制御対象Ｒｂｔ１（ロボットアーム）の先端の爪（把持部）の開度をＨ％とする行動を規定するコードであり、さらに、制御対象Ｒｂｔ１に対して高レベル制御を実行させることを規定するコードである。この高レベル制御の内容は、厳しい条件が課された場合において、当該条件を満たす動作が実行されるように制御することであり、例えば、ロボットアームの先端で把持している物体が容易に破損する性質の物体である場合に、当該物体を破損しないように把持するために、ロボットアームの先端の爪（把持部）の加速度が所定の第１範囲に収まるような値となるように制御することである。これにより、例えば、制御対象Ｒｂｔ１（ロボットアーム）が物体を強く握りすぎて、当該物体を破損することがなくなり、その結果、ロボットアームが把持している物体を破損する可能性を極めて低くすることができる。なお、上記の所定の第１範囲は、ロボットアームが把持している物体（あるいは、把持しようとしている物体）を破損する可能性を極めて低くする加速度の範囲である。

【0216】

階層的行動コードＣ２－２（Ｈ，ＬｅｖＭ）は、図１２から分かるように、制御対象Ｒｂｔ１（ロボットアーム）の先端の爪（把持部）の開度をＨ％とする行動を規定するコードであり、さらに、制御対象Ｒｂｔ１に対して中レベル制御を実行させることを規定するコードである。この中レベル制御の内容は、中程度（通常）の条件が課された場合において、当該条件を満たす動作が実行されるように制御することであり、例えば、ロボットアームの先端で把持している物体が中程度に破損する性質の物体である場合に、当該物体を破損しないように把持するために、ロボットアームの先端の爪（把持部）の加速度が所定の第２範囲に収まるような値となるように制御することである。これにより、例えば、制御対象Ｒｂｔ１（ロボットアーム）が物体を破損する可能性を低くすることができる。なお、上記の所定の第２範囲は、ロボットアームが把持している物体（あるいは、把持しようとしている物体）を破損する可能性を低くする加速度の範囲であり、第１範囲よりも緩い条件を満たす範囲である。

【0217】

階層的行動コードＣ２－２（Ｈ，ＬｅｖＬ）は、図１２から分かるように、制御対象Ｒｂｔ１（ロボットアーム）の先端の爪（把持部）の開度をＨ％とする行動を規定するコードであり、さらに、制御対象Ｒｂｔ１に対して低レベル制御を実行させることを規定するコードである。この低レベル制御の内容は、緩い条件が課された場合において、当該条件を満たす動作が実行されるように制御することであり、例えば、ロボットアームの先端で把持している物体が強く握っても破損しにくい性質の物体である場合に、当該物体を把持するために、ロボットアームの先端の爪（把持部）の加速度が所定の第３範囲に収まるような値となるように制御することである。これにより、例えば、制御対象Ｒｂｔ１（ロボットアーム）が物体を破損する可能性を中程度にすることができる。なお、上記の所定の第３範囲は、ロボットアームが把持している物体（あるいは、把持しようとしている物体）を破損する可能性を中程度にする加速度の範囲であり、第２範囲よりも緩い条件を満たす範囲である。

【0218】

以上のように、本変形例の行動コード体系は、一部の行動コードにおいて、階層的行動コードを有するコード体系である。したがって、本変形例の行動コード体系を用いることで、例えば、要求される制御の精度に応じて、行動コード、または、階層的行動コードを選択することができる。

【0219】

例えば、自動制御システム１０００において、所定のタスクを実行しようとしている場合、所定の工程において、高精度の制御が求められる場合、当該工程において、行動コード取得処理部１２の学習可能モデルの学習処理の正解データの行動コードが階層的行動コードを有しているか否かを判定し、正解データの行動コードが階層的行動コードを有している場合、高精度制御を実現する階層的行動コード（例えば、行動コードＣ１－３ならば、階層的行動コードＣ１－３（ｘ，ｙ，ｚ，ｔ，ＬｅｖＨ）、行動コードＣ２－２ならば、階層的行動コードＣ２－２（Ｈ，ＬｅｖＨ））を選択すればよい（選択して、学習用データを生成すればよい）。

【0220】

一方、自動制御システム１０００において、所定のタスクを実行しようとしている場合、所定の工程において、低精度の制御が求められる場合（あまり高い精度を求められていない場合）、当該工程において、行動コード取得処理部１２の学習可能モデルの学習処理の正解データの行動コードが階層的行動コードを有しているか否かを判定し、正解データの行動コードが階層的行動コードを有している場合、低精度制御を実現する階層的行動コード（例えば、行動コードＣ１－３ならば、階層的行動コードＣ１－３（ｘ，ｙ，ｚ，ｔ，ＬｅｖＬ）、行動コードＣ２－２ならば、階層的行動コードＣ２－２（Ｈ，ＬｅｖＬ））を選択すればよい（選択して、学習用データを生成すればよい）。

【0221】

このように、本変形例の行動コード体系（階層的なデータ構造の行動コード体系）の行動コードを用いて、行動コード取得処理部１２の学習可能モデルの学習処理のための学習データを生成し、生成した当該学習データにより行動コード取得処理部１２の学習可能モデルを学習させて学習済みモデルを取得し、取得した当該学習済みモデルにより、自動制御システム１０００において、予測処理を行うことで、要求される制御精度に応じた処理（制御対象Ｒｂｔ１を自動制御（自動運転）し所定のタスクを実現する処理）を行うことができる。

【0222】

≪第２変形例≫
次に、第１実施形態の第２変形例について、説明する。なお、上記実施形態、変形例と同様の部分については、同一符号を付し、詳細な説明を省略する。
本変形例では、階層的なデータ構造を有する行動コードを用いた学習データ生成装置、学習データ生成方法について、説明する。

【0223】

図１３は、第１実施形態の第２変形例の学習データ生成装置３の概略構成図である。

【0224】

本変形例の学習データ生成装置３は、図１３に示すように、例えば、手動により生成した、正解データとして行動データを含む学習データである入力学習データＤｉｎ＿ｔｒａｉｎ＿ｓｅｔと、行動データ、階層的行動コードを格納したデータ格納部ＤＢ１から読み出される、行動データ、階層的行動コードを含むデータＤ＿ａｃｔ＿ｃｏｄｅ＿ｓｅｔｓと、要求する制御精度（制御対象Ｒｂｔ１の制御の精度）を示すデータであるデータＤ＿ａｃｃｒｃｙと、を入力する。また、学習データ生成装置３は、図１３に示すように、階層データ有無検出部３１と、学習データ生成処理部３２とを備える。

【0225】

階層データ有無検出部３１は、正解データとして行動データを含む入力学習データＤｉｎ＿ｔｒａｉｎ＿ｓｅｔと、行動データ、階層的行動コードを格納したデータ格納部ＤＢ１から読み出される、行動データ、階層的行動コードを含むデータＤ＿ａｃｔ＿ｃｏｄｅ＿ｓｅｔｓとを入力する。そして、入力学習データＤｉｎ＿ｔｒａｉｎ＿ｓｅｔに含まれる行動データを取得（抽出）し、取得した当該行動データに、階層的行動コードがあるか否かを、データ格納部ＤＢ１から読み出したデータＤ＿ａｃｔ＿ｃｏｄｅ＿ｓｅｔｓを参照することで、判定する。なお、データ格納部ＤＢ１は、第１変形例の行動コード体系の行動コードのデータを記憶保持しており、各行動コードが階層的行動コードを有しているか否かのデータ（情報）も記憶保持しているものとする。

【0226】

そして、階層データ有無検出部３１は、入力学習データＤｉｎ＿ｔｒａｉｎ＿ｓｅｔに含まれる各行動データの階層的行動コードの有無を示す情報（データ）を、データＤｅｔ１として、学習データ生成処理部３２に出力する。

【0227】

学習データ生成処理部３２は、入力学習データＤｉｎ＿ｔｒａｉｎ＿ｓｅｔと、データＤ＿ａｃｃｒｃｙと、階層データ有無検出部３１から出力されるデータＤｅｔ１と、データ格納部ＤＢ１から出力されるデータＤ＿ａｃｔ＿ｓｅｔｓとを入力する。学習データ生成処理部３２は、データＤｅｔ１を参照し、入力学習データＤｉｎ＿ｔｒａｉｎ＿ｓｅｔに含まれる行動コードのうち、階層的行動コードを有する行動コードを特定する。また、学習データ生成処理部３２は、データＤ＿ａｃｃｒｃｙを参照し、要求している制御精度を特定する。そして、学習データ生成処理部３２は、入力学習データＤｉｎ＿ｔｒａｉｎ＿ｓｅｔに含まれる行動コードのうち、階層的行動コードを有する行動コードについて、データＤ＿ａｃｃｒｃｙを参照し、特定した制御精度（要求している制御精度）を満たす階層的行動コードを特定し、上記行動コードを、特定した階層的行動コードに置換する処理を行う。これにより、入力学習データＤｉｎ＿ｔｒａｉｎ＿ｓｅｔに含まれる行動コードのうち、階層的行動コードを有する行動コードについては、要求している制御精度を満たす階層的行動コードに置換されたデータを生成することができる。そして、学習データ生成処理部３２は、上記処理により取得したデータを、学習データＤｏｕｔ＿ｔｒａｉｎ＿ｓｅｔとして取得（出力）する。

【0228】

以上のように、本変形例の学習データ生成装置３では、上記のように処理することで、例えば、手動により生成した、正解データとして行動データを含む学習データである入力学習データＤｉｎ＿ｔｒａｉｎ＿ｓｅｔから、要求している制御精度を満たす学習データＤｏｕｔ＿ｒａｉｎ＿ｓｅｔを取得することができる。そして、学習データ生成装置３により取得した学習データＤｏｕｔ＿ｒａｉｎ＿ｓｅｔを用いて、自動制御システム１０００において、行動コード取得処理部１２の学習可能モデルの学習処理を行うことで、要求した制御精度を満たす処理を実行する行動コード取得処理部１２の学習済みモデルを取得することができる。そして、自動制御システム１０００において、取得した行動コード取得処理部１２の学習済みモデルを用いて処理を行うことで、要求した制御精度を満たす処理（制御対象Ｒｂｔ１に対して所定のタスクを実行させる処理）を実現することができる。

【0229】

なお、学習データ生成装置３に入力される要求される制御精度を示すデータＤ＿ａｃｃｒｃｙは、例えば、自動制御システム１０００の制御対象Ｒｂｔ１から出力されるデータＤ１１＿ｓｅｎｓ、および／または、環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓから出力されるデータＤ１２＿ｓｅｎｓの取得精度（計測精度）を取得できる場合、当該取得精度（計測精度）に基づいて、設定されるものであってもよい。例えば、データＤ１１＿ｓｅｎｓ、および／または、データＤ１２＿ｓｅｎｓの取得精度（計測精度）が高い場合であって、制御対象Ｒｂｔ１に対する制御の精度は低くしても良い場合、学習データ生成装置３に入力される要求される制御精度を示すデータＤ＿ａｃｃｒｃｙを、制御精度として低精度を要求するデータとしてもよい。

【0230】

［第２実施形態］
次に、第２実施形態について、説明する。なお、上述の実施形態（変形例を含む）と同様の部分については、同一符号を付し、詳細な説明を省略する。

【0231】

図１４は、第２実施形態に係る自動制御システム２０００の概略構成図である。

【0232】

図１５は、第２実施形態に係る自動制御システム２０００の行動コード取得部１Ａと制御対象駆動処理部２Ａの概略構成図である。

【0233】

第２実施形態の自動制御システム２０００は、第１実施形態の自動制御システム１０００において、行動コード取得部１を行動コード取得部１Ａに置換し、制御対象駆動処理部２を制御対象駆動処理部２Ａに置換した構成を有している（図１４を参照）。

【0234】

また、第２実施形態の行動コード取得部１Ａは、第１実施形態の行動コード取得部１において、行動コード解釈処理部１３を追加した構成を有している（図１５を参照）。

【0235】

また、第２実施形態の制御対象駆動処理部２Ａは、第１実施形態の制御対象駆動処理部２において、行動コード解釈処理部２１を削除した構成を有している（図１５を参照）。

【0236】

つまり、第２実施形態の自動制御システム２０００では、第１実施形態の自動制御システム１０００において、制御対象駆動処理部２に設置されていた行動コード解釈処理部２１を、行動コード取得部１Ａに移動させた構成を有している。なお、第２実施形態の自動制御システム２０００の行動コード取得部１Ａの行動コード解釈処理部１３は、第１実施形態の自動制御システム１０００の制御対象駆動処理部２の行動コード解釈処理部２１と同様の構成、機能を有している。

【0237】

自動制御システム２０００は上記構成を有しているので、自動制御システム２０００では、行動コード取得部１Ａの行動コード解釈処理部１３からデータＤ３が、制御対象駆動処理部２Ａの制御対象駆動部２２に入力される。なお、第２実施形態の自動制御システム２０００の動作については、第１実施形態の自動制御システム１０００と同様であり、第２実施形態の自動制御システム２０００は、第１実施形態の自動制御システム１０００と同様の機能を有している。

【0238】

第２実施形態の自動制御システム２０００では、上記構成を有しているので、例えば、行動コード取得部１Ａを単独の装置、半導体装置（例えば、ＬＳＩ）として実現することができる。

【0239】

≪第１変形例≫
次に、第２実施形態について、説明する。なお、上述の実施形態（変形例を含む）と同様の部分については、同一符号を付し、詳細な説明を省略する。

【0240】

図１６は、第２実施形態の第１変形例に係る自動制御システム２０００Ａの概略構成図である。

【0241】

図１７は、第２実施形態の第１変形例に係る自動制御システム２０００Ａの行動コード取得部１Ｂと制御対象駆動処理部２Ａの概略構成図である。

【0242】

第２実施形態の第１変形例の自動制御システム２０００Ａは、第２実施形態の自動制御システム２０００において、行動コード取得部１Ａを行動コード取得部１Ｂに置換した構成を有している（図１６を参照）。

【0243】

また、第２実施形態の第１変形例の行動コード取得部１Ｂは、第２実施形態の行動コード取得部１Ａにおいて、行動コード解釈処理部１３を行動コード解釈処理部１３Ａに置換した構成を有している（図１７を参照）。

【0244】

行動コード解釈処理部１３Ａは、図１７に示すように、行動コード解釈処理部１３と同様の機能を有し、さらに、選択信号Ｄ＿ｓｅｌｅｃｔを入力する構成を有している。また、行動コード解釈処理部１３Ａは、行動コード列と、制御対象Ｒｂｔ１に特化したコマンド列との対応関係を示すルックアップテーブル（ＬＵＴ）を複数有しており、選択信号Ｄ＿ｓｅｌｅｃｔで指示されたルックアップテーブルを選択することができる。選択信号Ｄ＿ｓｅｌｅｃｔは、外部から（例えば、ユーザにより、ユーザインターフェース（不図示）を介して）、あるいは、行動コード取得部１Ｂの各機能部を制御する制御部（不図示）から入力される信号であり、その信号値に従い、行動コード解釈処理部１３Ａが、行動コード解釈処理部１３Ａで記憶保持されている複数のルックアップテーブルのうち１つのルックアップテーブルを選択する。

【0245】

例えば、選択信号Ｄ＿ｓｅｌｅｃｔを８ビットデータの信号値（値「０」～「２５５」）をとる信号であり、行動コード解釈処理部１３Ａが２５６個のルックアップテーブル（ＬＵＴ_０～ＬＵＴ_２５５）を記憶保持している場合、信号値がｉ（ｉ：整数、０≦ｉ≦２５５）である選択信号Ｄ＿ｓｅｌｅｃｔが行動コード解釈処理部１３Ａに入力されると、行動コード解釈処理部１３Ａは、ルックアップテーブルＬＵＴ_ｉを選択し、当該ルックアップテーブルＬＵＴ_ｉで規定されている行動コード列と、制御対象Ｒｂｔ１に特化したコマンド列との対応関係に基づいて入力されたデータＤ＿ａｃｔ＿ｃｏｄｅに対応するコマンド列（制御対象Ｒｂｔ１に特化したコマンド列）を取得し、取得したコマンド列を含むデータを、データＤ３として、制御対象駆動処理部２Ａに出力する。

【0246】

これにより、行動コード取得部１Ｂでは、選択信号Ｄ＿ｓｅｌｅｃｔにより、制御対象Ｒｂｔ１に対応したコマンド列を出力させることができる。例えば、行動コード解釈処理部１３Ａで記憶保持するルックアップテーブルを、制御対象Ｒｂｔ１の種類やメーカー（製造者）に特化したコマンド列に対応させたデータ（ルックアップテーブル）とすることで、制御対象Ｒｂｔ１の種類やメーカーが変更された場合（異なる種類、あるいは、異なるメーカーの制御対象Ｒｂｔ１に変更された場合）に対応することができる。つまり、変更後の制御対象Ｒｂｔ１に対応する信号値の選択信号Ｄ＿ｓｅｌｅｃｔを行動コード解釈処理部１３Ａに入力することで、変更後の制御対象Ｒｂｔ１に対応するコマンド列を含むデータＤ３を、行動コード解釈処理部１３Ａから出力することができ、その結果、自動制御システム２０００Ａでは、変更後の制御対象Ｒｂｔ１に対する制御を行うことが可能となる。

【0247】

なお、上記では、行動コード解釈処理部１３Ａが、ルックアップテーブルを記憶保持する場合について説明したが、これに限定されることはなく、例えば、ルックアップテーブルを記憶保持する記憶部（不図示）を、行動コード取得部１Ｂの内部または外部に設け、行動コード解釈処理部１３Ａが当該記憶部からルックアップテーブルを読み出す構成としてもよい。

【0248】

［他の実施形態］
上記実施形態（変形例を含む）では、自動制御システムにおいて、行動コード取得部に条件ｈ（タスクを特定するための条件ｈ）が入力される構成を採用する場合について説明したが、これに限定されることはなく、行動コード取得部に条件ｈが入力されない構成としてもよい。例えば、実行しようとしているタスクが限定されている場合、あるいは、変更があったとしても微小な変更である場合、制御対象Ｒｂｔ１の状況、および／または、制御対象Ｒｂｔ１が置かれている環境下の状況を把握して、自動制御システムにおいて、上記実施形態（変形例を含む）で説明した処理を実行させるようにすればよい。

【0249】

上記実施形態（変形例を含む）では、制御対象Ｒｂｔ１がロボットアームである場合について説明したが、これに限定されることはなく、制御対象Ｒｂｔ１は、ロボットアーム以外のものであってもよい。制御対象Ｒｂｔ１としては、制御可能な装置であればよく、例えば、ロボットや、物体を運搬する装置（例えば、クレーン、コンテナ運搬装置）や、飛行体（例えば、ドローン）等であってもよい。

【0250】

また、自動制御システム１０００において実現させる処理、タスクも、上記実施形態（変形例を含む）に限定されることはなく、他の処理、タスクであってもよい。例えば、自動制御システム１０００において、制御対象Ｒｂｔ１に応じて要求する処理、タスクであってもよく、行動コードを規定できる処理（制御対象Ｒｂｔ１が備える機能により特定できる動作（行動）を規定するコード（行動コード）により規定できる処理）、タスクであれば、任意の処理、タスクであってもよい。

【0251】

また、上記実施形態（変形例を含む）では、自動制御システム１０００において、行動コード解釈処理部２１は、制御対象駆動処理部２に含まれる場合について説明したが、これに限定されることはなく、行動コード解釈処理部２１は、制御対象駆動処理部２の外部に設置されるものであってもよい。

【0252】

また、上記実施形態（変形例を含む）では、自動制御システム１０００において、入力データ調整部１１において、各種の検出処理（ｄｅｔ＿ｐｏｓ＿ｒｅａｄｙ（）に相当する処理、ｄｅｔ＿ｐｏｓ＿ｇｒａｓｐ（）に相当する処理、ｄｅｔ＿ｆｏｒｃｅ＿ｔｉｐ（）に相当する処理、ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｒｅｌｅａｓｅ（）に相当する処理、ｄｅｔ＿ｐｏｓ＿ｔｉｐ＿ｉｎｉｔ（）に相当する処理等）が実行され、その検出結果を行動コード取得処理部１２に出力する場合について、説明したが、これに限定されることはなく、上記の検出処理を、例えば、制御対象Ｒｂｔ１に搭載されたセンサや制御部、環境データ取得部Ｄｅｖ＿ｓｅｎｓｏｒｓのセンサや装置により実行するようにしてもよい。この場合、検出結果データが入力データ調整部１１に入力され、入力データ調整部１１は、入力した検出結果データを、データＤ２に含めて、データＤ２を行動コード取得処理部１２に出力するようにすればよい。

【0253】

また、自動制御システム１０００の入力データ調整部１１において、入力されるデータから所定の特徴量を取得し、取得した特徴量を行動コード取得処理部１２に出力するようにしてもよい（当該特徴量を行動コード取得処理部１２の入力データとしてもよい）。

【0254】

また、上記実施形態（変形例を含む）では、自動制御システム１０００において、学習データ（第１タスクｔｓｋ１用学習データ、第２タスクｔｓｋ２用学習データ）は、入力データと、正解データ（行動コード、階層的行動コード）とが１対１に対応している場合について、説明したが、これに限定されることはなく、例えば、異なる入力データ（異なる状態から取得された入力データ）に対して、同一の正解データ（行動コード、階層的行動コード）を対応させるようにしてもよい。この場合、行動コード取得処理部１２の学習可能モデルは、過去の履歴を保持することができるモデル（例えば、アテンション機構を備えるニューラルネットワークモデル（例えば、トランスフォーマーモデル）や、ＲＮＮモデル（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）や、自己回帰モデル）とすればよい。これにより、状態遷移が異なれば、入力データと、正解データ（行動コード、階層的行動コード）とが１対１に対応している場合であっても、正しい行動コード（あるいは、階層的行動コード）を出力するモデルを構築できる（学習処理により取得できる）。

【0255】

また、上記実施形態（変形例を含む）で説明した自動制御システム１０００の各ブロック（各機能部）は、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部又は全部を含むように１チップ化されても良い。また、上記実施形態で説明した自動制御システム１０００の各ブロック（各機能部）は、複数のＬＳＩなどの半導体装置により実現されるものであってもよい。

【0256】

なお、ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

【0257】

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

【0258】

また、上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

【0259】

また、上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらに、ソフトウェアおよびハードウェアの混在処理により実現しても良い。

【0260】

例えば、上記実施形態の各機能部を、ソフトウェアにより実現する場合、図１８に示したハードウェア構成（例えば、ＣＰＵ、ＧＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部等をバスＢｕｓにより接続したハードウェア構成）を用いて、各機能部をソフトウェア処理により実現するようにしてもよい。

【0261】

また、上記実施形態における処理方法の実行順序は、必ずしも、上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。また、上記実施形態（変形例を含む）における処理方法において、発明の要旨を逸脱しない範囲で、一部のステップが、他のステップと並列に実行されるものであってもよい。

【0262】

前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

【0263】

上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

【0264】

また、本明細書内の記載、特許請求の範囲の記載において、「最適化」とは、最も良い状態にすることをいい、システム（モデル）を「最適化」するパラメータとは、当該システムの目的関数の値が最適値となるときのパラメータのことをいう。「最適値」は、システムの目的関数の値が大きくなるほど、システムが良い状態となる場合は、最大値であり、システムの目的関数の値が小さくなるほど、システムが良い状態となる場合は、最小値である。また、「最適値」は、極値であってもよい。また、「最適値」は、所定の誤差（測定誤差、量子化誤差等）を許容するものであってもよく、所定の範囲（十分収束したとみなすことができる範囲）に含まれる値であってもよい。

【0265】

また、文言「部」は、「サーキトリー（ｃｉｒｃｕｉｔｒｙ）」を含む概念であってもよい。サーキトリーは、ハードウェア、ソフトウェア、あるいは、ハードウェアおよびソフトウェアの混在により、その全部または一部が、実現されるものであってもよい。

【0266】

ここに開示される要素の機能は、当該開示される要素を実行するように構成された、あるいは当該開示される機能を実行するようにプログラミングされた汎用プロセッサ、専用プロセッサ、集積回路、ＡＳＩＣ（「特定用途向け集積回路」）、従来の回路構成及び／またはそれらの組み合わせを含む回路構成あるいは処理回路構成が用いられて実装されてもよい。プロセッサは、それが、その中にトランジスタ及び他の回路構成を含むとき、処理回路構成あるいは回路構成として見なされる。本開示において、回路構成、ユニットあるいは手段は、挙げられた機能を実行するハードウェア、あるいは当該機能を実行するようにプログラミングされたハードウェアである。ハードウェアは、挙げられた機能を実行するようにプログラミングされた、あるいは当該機能を実行するように構成された、ここで開示されるいかなるハードウェアあるいは既知の他のものであってもよい。ハードウェアが、あるタイプの回路構成として見なされるかもしれないプロセッサであるとき、回路構成、手段あるいはユニットは、ハードウェアとソフトウェアの組み合わせ、ハードウェアを構成するために用いられるソフトウェア及び／またはプロセッサである。

【0267】

なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

【符号の説明】

【0268】

１０００、２０００、２０００Ａ自動制御システム
１、１Ａ、１Ｂ行動コード取得部
１３、１３Ａ行動コード解釈処理部
２、２Ａ制御対象駆動処理部
２１行動コード解釈処理部
２２制御対象駆動部
Ｄｅｖ＿ｓｅｎｓｏｒｓ環境データ取得部
Ｒｂｔ１制御対象

【図1】