2023-112308 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-112308システム同定処理方法、システム制御装置、および、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023112308

(43)【公開日】2023-08-14

(54)【発明の名称】システム同定処理方法、システム制御装置、および、プログラム

(51)【国際特許分類】

B25J 13/08 20060101AFI20230804BHJP

G05B 13/02 20060101ALI20230804BHJP

B25J 9/16 20060101ALN20230804BHJP

【ＦＩ】

B25J13/08 Z

G05B13/02 L

B25J9/16

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022014011

(22)【出願日】2022-02-01

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＭＡＴＬＡＢ

【国等の委託研究の成果に係る記載事項】（出願人による申告）２０２０－２０２１年度国立研究開発法人新エネルギー・産業技術総合開発機構「人と共に進化する次世代人工知能に関する技術開発事業／人と共に進化するＡＩシステムのフレームワーク開発／サイボーグＡＩに関する研究開発」、令和２年度総務省戦略的情報通信研究開発推進事業（ＳＣＯＰＥ）「ロボットの運動と知能の融合に向けた、ビッグデータを用いたヒトの運動能力の抽出と運動生成への利用」委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(71)【出願人】

【識別番号】393031586

【氏名又は名称】株式会社国際電気通信基礎技術研究所

(74)【代理人】

【識別番号】100143498

【弁理士】

【氏名又は名称】中西健

(74)【代理人】

【識別番号】100136319

【弁理士】

【氏名又は名称】北原宏修

(72)【発明者】

【氏名】姜淳熙

(72)【発明者】

【氏名】石原弘二

(72)【発明者】

【氏名】杉本徳和

(72)【発明者】

【氏名】森本淳

【テーマコード（参考）】

3C707

5H004

【Ｆターム（参考）】

3C707BS27

3C707CS08

3C707KS21

3C707KS24

3C707KS35

3C707LS15

3C707LU07

3C707LV14

3C707LV19

3C707LW12

3C707WA03

3C707WA12

3C707WK00

5H004GA04

5H004GB16

5H004HA07

5H004HA10

5H004HB07

5H004HB10

5H004KB02

5H004KB06

5H004KD61

(57)【要約】（修正有）

【課題】システム同定が困難な制御対象に対しても、正確なモデルの同定ができるシステム同定処理方法を実現する。
【解決手段】システム制御処理システム１０００では、制約条件を満たす運動データを複数個の運動データから選択し、選択した運動データによる運動を制御対象に実行させ、計測データを取得し、計測データに基づいて、モデルのパラメータの更新を行い、更新したパラメータにより、制約条件を更新させる。システム制御処理システム１０００では、パラメータの精度が徐々に向上するため、制約条件を適切に緩和できる。これにより、どのような運動データにより、学習処理を進めればよいかのカリキュラム（運動データ系列）を取得できるので、制約条件を満たしつつ、制御対象に徐々に複雑な運動を実行させることができる。また、より高精度な学習処理を行うことができ、システム同定が困難な制御対象に対しても、正確なモデルの同定が可能となる。
【選択図】図１

【特許請求の範囲】

【請求項1】

制御対象と当該制御対象を制御するためのシステム制御装置とを含むシステム制御処理システムにおいて用いられるシステム同定処理方法であって、
前記制御対象に所定の運動をさせるための運動データを複数含む運動データセットから、所定の条件を満たす運動データを選択する目標運動選択ステップと、
前記目標運動選択ステップにより選択された運動データを用いて、前記制御対象に当該運動データに対応する運動をさせるための運動生成データを生成する目標運動生成ステップと、
前記目標運動生成ステップにより生成された前記運動生成データにより前記制御対象を動作させたときの計測データを取得し、取得した当該計測データに基づいて、前記制御対象についてのモデルのパラメータを推定するモデル学習ステップと、
前記モデル学習ステップにより推定された前記パラメータに基づいて、前記目標運動選択ステップで運動データを選択する基準となる前記条件を更新する選択基準更新ステップと、
を備えるシステム同定処理方法。

【請求項2】

前記運動選択ステップは、
前記制御対象の回転駆動機構部位の角度データ、および／または、前記制御対象の状態データ、前記角度データおよび／または前記状態データの１次微分データ、並びに、前記角度データおよび／または前記状態データの２次微分データによるリグレッサ行列φと、複数次元のパラメータｗとの積演算により、前記制御対象の回転駆動機構部位に付与するトルク系列τを取得する、前記制御対象についての運動方程式を導出した場合において、前記リグレッサ行列を特異値分解することで取得される最大の特異値と最小の特異値とにより取得される条件数に基づいて、前記条件を満たすか否かを判定することで、前記運動データを選択する、
請求項１に記載のシステム同定処理方法。

【請求項3】

前記計測データは、前記目標運動生成ステップにより生成された前記運動生成データにより前記制御対象を動作させたときに、前記制御対象において計測されるトルク系列のデータを含み、
前記学習ステップは、前記リグレッサ行列と前記パラメータｗとの積演算で取得されるデータと、前記計測データに含まれる前記トルク系列との差が小さくなるパラメータを取得し、取得した当該パラメータを更新処理後のパラメータｗとする、
請求項２に記載のシステム同定処理方法。

【請求項4】

前記運動選択ステップは、
前記学習ステップにより、前記パラメータが更新されたときの計測データに基づいて取得されたリグレッサ行列を、条件数を取得するときに使用したリグレッサ行列に追加した行列を、更新後のリグレッサ行列とし、当該更新後のリグレッサ行列を用いて、前記条件数を取得する、
請求項３に記載のシステム同定処理方法。

【請求項5】

前記目標運動選択ステップで運動データを選択するときに用いられる前記条件は、前記学習ステップにより、前記パラメータが更新されたときの計測データに基づいて取得されたリグレッサ行列、および／または、前記学習ステップにより更新されたパラメータに基づいて、更新される、
請求項３または４に記載のシステム同定処理方法。

【請求項6】

第１データセットに含まれる運動データセットを、前記制御対象用の運動データである第２運動データセットに変換する運動データ変換ステップを
さらに備え、
前記目標運動選択ステップは、
前記制御対象に所定の運動をさせるための運動データを、前記第２運動データセットから選択する、
請求項１から５のいずれかに記載のシステム同定処理方法。

【請求項7】

請求項１から６のいずれかに記載のシステム同定処理方法により取得されたパラメータを用いてモデル制御を行うことで、前記制御対象を制御するシステム制御装置。

【請求項8】

請求項１から６のいずれかに記載のシステム同定処理方法をコンピュータに実行させるためのプログラム。

【請求項9】

制御対象と当該制御対象を制御するためのシステム制御装置であって、
前記制御対象に所定の運動をさせるための運動データを複数含む運動データセットから、所定の条件を満たす運動データを選択する目標運動選択処理部と、
前記目標運動選択処理部により選択された運動データを用いて、前記制御対象に当該運動データに対応する運動をさせるための運動生成データを生成する目標運動生成部と、
前記目標運動生成部により生成された前記運動生成データにより前記制御対象を動作させたときの計測データを取得し、取得した当該計測データに基づいて、前記制御対象についてのモデルのパラメータを推定するモデル学習部と、
前記モデル学習部により推定された前記パラメータに基づいて、前記目標運動選択処理部で運動データを選択する基準となる前記条件を更新する選択基準更新部と、
を備えるシステム制御装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ヒト型ロボット等の多種多様な動作を行うシステムを制御対象とするシステム同定のための技術に関する。

【背景技術】

【0002】

近年、姿勢を維持しつつ歩行等を行うロボット（例えば、ヒト型ロボット（ヒューマノイドロボット）等）が開発されている。このようなロボットに多様な動作をさせるためには、ロボット（制御対象）に対して、高速で正確な運動制御を行うことができるロボット制御システムが必要となる。このようなロボット制御システムでは、非線形制御を行う必要があり、ロボット（制御対象）に対して、高速で正確な運動制御を行うためには、正確なダイナミクスモデルを活用することが重要である。

【0003】

ダイナミカルシステムのモデルを推定する方法として、システム同定がある。ロボット制御システムにおけるシステム同定では、ロボット（制御対象）の各リンクの慣性パラメータ（質量、重心、慣性モーメント等）を運動軌道の計測データ（例えば、関節角度軌道、関節角速度軌道やトルク軌道）から推定する。

【0004】

ロボットマニピュレータに対する同定手法の開発は長年にわたり行われており、ヒト型ロボットのようなより複雑な多自由度ロボットへの同定手法の適用も行われている（例えば、非特許文献１を参照）

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Ko Ayusawa, Gentiane Venture, and Yoshihiko Nakamura, "Identificationof humanoid robots dynamics using floating-base motion dynamics," in 2008 IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 2854-2859. IEEE, 2008.

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、ヒト型ロボットのシステム同定は未だに困難である。正確な慣性パラメータを推定するには、ロボットのダイナミクスを励起するための様々な計測データが必要である。ロボットマニピュレータでは、そのような計測データは、まず適切な参照軌道を最適化によって設計し、その参照軌道をロボットを用いて生成することで収集することができる。しかし、ヒト型ロボットでは、参照軌道を設計することは難しい。なぜならば、参照軌道の設計には、ダイナミクスの良い初期モデルが必要であるとともに、最適化がより複雑になるからである。良い初期モデルは、ヒト型ロボットが倒れることなく参照軌道を生成できるよう、バランスの制約を考慮するために必要である。バランス制約は非線形不等式制約として課せられるため、最適化問題が扱いにくいものになる。つまり、ヒト型ロボットのような複雑な動作を行う制御対象に対して、システム同定を行う場合、良い初期モデルを必要とし、かつ、非線形不等式制約として課せられるバランス制約を考慮しつつ、最適化問題を解く必要があるため、高精度なシステム同定を行うのは非常に困難である。

【0007】

そこで、本発明は、上記課題に鑑み、システム同定が困難な制御対象に対しても、良い初期モデルを必要とせず、正確なモデルの同定が可能なシステム同定処理方法、システム制御装置、および、プログラムを実現することを目的とする。

【課題を解決するための手段】

【0008】

上記課題を解決するために、第１の発明は、制御対象と当該制御対象を制御するためのシステム制御装置とを含むシステム制御処理システムにおいて用いられるシステム同定処理方法であって、目標運動選択ステップと、目標運動生成ステップと、モデル学習ステップと、選択基準更新ステップと、を備える。

【0009】

目標運動選択ステップは、制御対象に所定の運動をさせるための運動データを複数含む運動データセットから、所定の条件を満たす運動データを選択する。

【0010】

目標運動生成ステップは、目標運動選択ステップにより選択された運動データを用いて、制御対象に当該運動データに対応する運動をさせるための運動生成データを生成する。

【0011】

モデル学習ステップは、目標運動生成ステップにより生成された運動生成データにより制御対象を動作させたときの計測データを取得し、取得した当該計測データに基づいて、制御対象についてのモデルのパラメータを推定する。

【0012】

選択基準更新ステップは、モデル学習ステップにより推定されたパラメータに基づいて、目標運動選択ステップで運動データを選択する基準となる条件を更新する。

【0013】

このシステム同定処理方法では、条件（制約条件）を満たす運動データを複数個の運動データから選択し、選択した運動データにより運動生成し、当該運動データによる運動を制御対象に実行させたときにおいて、制御対象から計測データを取得する。そして、このシステム同定処理方法では、取得した計測データに基づいて、学習処理を行い（モデル（制御対象のモデル）のパラメータの更新を行い）、さらに、更新したパラメータにより、制約条件を更新させる。そのため、このシステム同定処理方法では、パラメータの精度が徐々に向上するため、制約条件を適切に緩和することができる。

【0014】

これにより、このシステム同定処理方法では、どのような運動データにより、学習処理を進めればよいかのカリキュラム（運動データ系列）を取得できる。

【0015】

そして、このシステム同定処理方法では、上記により取得されるカリキュラム（運動データ系列）により、制約条件を満たしつつ、制御対象に徐々に複雑な運動を実行させることができ、より高精度な学習処理（パラメータ更新処理）を行うことができる。

【0016】

その結果、このシステム同定処理方法では、システム同定が困難な制御対象に対しても、良い初期モデルを必要とせず、正確なモデルの同定（制御対象に対するシステム同定）が可能となる。

【0017】

第２の発明は、第１の発明であって、運動選択ステップは、制御対象の回転駆動機構部位の角度データ、および／または、前記制御対象の状態データ、角度データおよび／または状態データの１次微分データ、並びに、角度データおよび／または状態データの２次微分データによるリグレッサ行列φと、複数次元のパラメータｗとの積演算により、制御対象の回転駆動機構部位に付与するトルク系列τを取得する、制御対象についての運動方程式を導出した場合において、リグレッサ行列を特異値分解することで取得される最大の特異値と最小の特異値とにより取得される条件数に基づいて、条件を満たすか否かを判定することで、運動データを選択する。

【0018】

これにより、このシステム同定処理方法では、リグレッサ行列に基づいて導出された条件数により、条件（制約条件）を満たすか否かの判定を行うことができる。

【0019】

第３の発明は、第２の発明であって、計測データは、目標運動生成ステップにより生成された運動生成データにより制御対象を動作させたときに、制御対象において計測されるトルク系列のデータを含む。

【0020】

学習ステップは、リグレッサ行列とパラメータｗとの積演算で取得されるデータと、計測データに含まれるトルク系列との差が小さくなるパラメータを取得し、取得した当該パラメータを更新処理後のパラメータｗとする。

【0021】

これにより、このシステム同定処理方法では、リグレッサ行列とパラメータｗとの積演算で取得されるデータと、計測データに含まれるトルク系列との差が小さくなるパラメータを取得するので、更新後のパラメータを、制御対象のモデルの最適パラメータに近づけることができ、システム同定処理を効率良く行うことができる。

【0022】

第４の発明は、第３の発明であって、運動選択ステップは、学習ステップにより、パラメータが更新されたときの計測データに基づいて取得されたリグレッサ行列を、条件数を取得するときに使用したリグレッサ行列に追加した行列を、更新後のリグレッサ行列とし、当該更新後のリグレッサ行列を用いて、条件数を取得する。

【0023】

これにより、このシステム同定処理方法では、実際に計測したデータで更新したリグレッサ行列により、条件数を取得することができるので、制約条件を適切に緩和することができ、その結果、学習が進むにつれ、多様な運動データが選択されるようになり、高精度なカリキュラムを構築できる。したがって、このシステム同定処理方法では、高精度なシステム同定処理を実現できる。

【0024】

第５の発明は、第３または第４の発明であって、目標運動選択ステップで運動データを選択するときに用いられる条件は、学習ステップにより、パラメータが更新されたときの計測データに基づいて取得されたリグレッサ行列、および／または、学習ステップにより更新されたパラメータに基づいて、更新される。

【0025】

このシステム同定処理方法では、パラメータが更新されたときの計測データに基づいて取得されたリグレッサ行列、および／または、学習ステップにより更新されたパラメータに基づいて、条件（制約条件）を更新できるので、学習が進むにつれ、多様な運動データが選択されるようになり、高精度なカリキュラムを構築できる。したがって、このシステム同定処理方法では、高精度なシステム同定処理を実現できる。

【0026】

第６の発明は、第１から第５のいずれかの発明であって、第１データセットに含まれる運動データセットを、制御対象用の運動データである第２運動データセットに変換する運動データ変換ステップをさらに備える。

【0027】

そして、目標運動選択ステップは、制御対象に所定の運動をさせるための運動データを、第２運動データセットから選択する。

【0028】

これにより、このシステム同定処理方法では、例えば、多量な運動データを含む第１データセットを変換した第２運動データを用いてシステム同定処理を行うことができる。制御対象についての運動データが存在しないとき、この方法により、多量の運動データが取得できるので、高精度なシステム同定処理方法を実現することが可能となる。

【0029】

第７の発明は、第１から第６のいずれかの発明であるシステム同定処理方法により取得されたパラメータを用いてモデル制御を行うことで、制御対象を制御するシステム制御装置である。

【0030】

これにより、高精度なパラメータである、第１から第６のいずれかの発明であるシステム同定処理方法により取得されたパラメータを用いて、高精度なモデル制御を行うことができ、その結果、高精度に制御対象を制御することができるシステム制御装置を実現できる。

【0031】

第８の発明は、第１から第６のいずれかの発明であるシステム同定処理方法をコンピュータに実行させるためのプログラムである。

【0032】

これにより、第１から第６のいずれかの発明であるシステム同定処理方法と同様の効果を奏するコンピュータに実行させるためのプログラムを実現できる。

【0033】

第９の発明は、制御対象と当該制御対象を制御するためのシステム制御装置であって、目標運動選択処理部と、目標運動生成部と、モデル学習部と、選択基準更新部と、を備える。

【0034】

目標運動選択処理部は、制御対象に所定の運動をさせるための運動データを複数含む運動データセットから、所定の条件を満たす運動データを選択する。

【0035】

目標運動生成部は、目標運動選択処理部により選択された運動データを用いて、制御対象に当該運動データに対応する運動をさせるための運動生成データを生成する。

【0036】

モデル学習部は、目標運動生成部により生成された運動生成データにより制御対象を動作させたときの計測データを取得し、取得した当該計測データに基づいて、制御対象についてのモデルのパラメータを推定する。

【0037】

選択基準更新部は、モデル学習部により推定されたパラメータに基づいて、目標運動選択処理部で運動データを選択する基準となる条件を更新する。

【0038】

これにより、第１の発明と同様の効果を奏するシステム制御装置を実現できる。

【発明の効果】

【0039】

本発明によれば、システム同定が困難な制御対象に対しても、良い初期モデルを必要とせず、正確なモデルの同定が可能なシステム同定処理方法、システム制御装置、および、プログラムを実現することができる。

【図面の簡単な説明】

【0040】

【図1】第１実施形態に係るシステム制御処理システム１０００の概略構成図。

【図2】システム制御処理システム１０００で実行される処理のフローチャート。

【図3】運動の名前、データ数、継続時間の表。

【図4】ロボット運動データセットを示す図。

【図5】カリキュラム（上半身ヒト型ロボットの同定カリキュラム）を説明するための図。

【図6】制御対象（上半身ヒト型ロボット）の各反復試行でのバランス制約の緩和を説明するための図。

【図7】各反復試行回数における基底パラメータのＲＭＳＥを示す図。

【図8】各反復試行回数における関節トルクに対するＲＭＳＥを示す図。

【図9】各反復試行回数における条件数のデータを示す図。

【図10】システム制御処理システム１０００Ａの概略構成図。

【図11】ＣＰＵバス構成を示す図。

【発明を実施するための形態】

【0041】

［第１実施形態］
第１実施形態について、図面を参照しながら、以下、説明する。

【0042】

＜１．１：システム制御処理システムの構成＞
図１は、第１実施形態に係るシステム制御処理システム１０００の概略構成図である。

【0043】

システム制御処理システム１０００は、図１に示すように、データ格納部ＤＢ１と、運動データ変換処理部ＰＰ１と、変換データ格納部ＤＢ２と、システム制御処理装置１００と、制御対象Ｒｂｔ１（例えば、ヒト型ロボット）とを備える。

【0044】

データ格納部ＤＢ１は、所定のデータを記憶することができる機能部であり、例えば、データベースにより実現される。データ格納部ＤＢ１は、例えば、ヒト（人間）の動作データ（例えば、多量のヒトの動作データ（多様なヒトの運動軌道を含むデータ））を格納しており、運動データ変換処理部ＰＰ１からの読み出し指令に基づいて、所定のデータを読み出し、読み出したデータを、データＤｓｅｔ＿ｈｍｎとして、運動データ変換処理部ＰＰ１に出力する。

【0045】

運動データ変換処理部ＰＰ１は、データ格納部ＤＢ１に対して、読み出し指令を出力することで、データ格納部ＤＢ１から所定のデータを読み出すことができる機能部である。運動データ変換処理部ＰＰ１は、データ格納部ＤＢ１からヒトの動作データを、データＤｓｅｔ＿ｈｍｎとして読み出し、読み出したデータＤｓｅｔ＿ｈｍｎに対して、運動データ変換処理を実行することで、ヒトの運動データを、制御対象Ｒｂｔ（例えば、ヒト型ロボット）の運動データに変換する。そして、運動データ変換処理部ＰＰ１は、上記の運動データ変換処理により取得したデータ（ヒトの運動データを制御対象Ｒｂｔ（例えば、ヒト型ロボット）の運動データに変換したデータ）を、データＤｓｅｔ＿ｔｒａｎｓとして、変換データ格納部ＤＢ２に記憶する（データ書き込みする）。

【0046】

変換データ格納部ＤＢ２は、所定のデータを記憶することができる機能部であり、例えば、データベースにより実現される。変換データ格納部ＤＢ２は、運動データ変換処理部ＰＰ１から出力されるデータＤｓｅｔ＿ｔｒａｎｓを入力し、当該データＤｓｅｔ＿ｔｒａｎｓを記憶保持する。また、変換データ格納部ＤＢ２は、システム制御処理装置１００の目標運動選択処理部１からの読み出し指令に基づいて、記憶保持しているデータであって、当該読み出し指令で指定されているデータを読み出し、読み出したデータを、データＤｓｅｔ＿ｒｂｔとして、システム制御処理装置１００の目標運動選択処理部１に出力する。

【0047】

システム制御処理装置１００は、制御対象Ｒｂｔ１（例えば、ヒト型ロボット）を制御するための装置であって、図１に示すように、目標運動選択処理部１と、目標運動生成部２と、モデル学習処理部３と、記憶部４と、選択基準更新処理部５と、第１リグレッサ行列取得部６とを備える。

【0048】

目標運動選択処理部１は、変換データ格納部ＤＢ２に対して、読み出し指令を出力することで、変換データ格納部ＤＢ２から所定のデータを読み出すことができる機能部である。目標運動選択処理部１は、変換データ格納部ＤＢ２に対して、読み出し指令を出力し、変換データ格納部ＤＢ２から、運動データ変換処理部ＰＰ１による変換処理後の運動データ（例えば、制御対象Ｒｂｔ（例えば、ヒト型ロボット）用の運動データ）を、データＤｓｅｔ＿ｒｂｔとして、読み出す。また、目標運動選択処理部１は、記憶部４からデータＤｓ＿Φ（リグレッサ行列のデータ）を読み出す。また、目標運動選択処理部１は、選択基準更新処理部５から出力される不等式制約データを含むデータＤ＿ｈを入力する。目標運動選択処理部１は、運動データＤｓｅｔ＿ｒｂｔと、データＤｓ＿Φ（リグレッサ行列のデータ）と、データＤ＿ｈに含まれる不等式制約データとを用いて、目標運動選択処理を行う。そして、目標運動選択処理部１は、目標運動選択処理により選択した目標運動データＱ^＊（参照軌道Ｑ^＊）を含むデータを、データＤｔ１として、目標運動生成部２の第２リグレッサ行列取得部２１に出力する。また、目標運動選択処理部１は、ＰＤ制御用の目標運動データＱ_ＰＤ ^＊（参照軌道Ｑ_ＰＤ ^＊）を含むデータを、データＤｔ２として、目標運動生成部２のＰＤ制御部２２に出力する。

【0049】

目標運動生成部２は、図１に示すように、第２リグレッサ行列取得部２１と、ＰＤ制御部２２と、目標運動生成処理部２３と、を備える。

【0050】

第２リグレッサ行列取得部２１は、目標運動選択処理部１から出力されるデータＤｔ１を入力し、データＤｔ１から、リグレッサ行列を取得する処理を行う。そして、リグレッサ行列は、取得したリグレッサ行列を含むデータを、データＤ１として、目標運動生成処理部２３に出力する。

【0051】

ＰＤ制御部２２は、目標運動選択処理部１から出力されるデータＤｔ２と、制御対象Ｒｂｔ１から出力される計測データＤ４＿ｍｓｒとを入力する。ＰＤ制御部２２は、データＤｔ２、および、計測データＤ４＿ｍｓｒに基づいて、ＰＤ制御データＤ２を生成し、生成したＰＤ制御データＤ２を目標運動生成処理部２３に出力する。

【0052】

目標運動生成処理部２３は、第２リグレッサ行列取得部２１から出力されるデータＤ１と、ＰＤ制御部２２から出力されるＰＤ制御データＤ２と、モデル学習処理部３から出力されるデータＤ＿ｐｒｍと、を入力する。目標運動生成処理部２３は、データＤ１、ＰＤ制御データＤ２、および、データＤ＿ｐｒｍを用いて目標運動生成処理を実行する。そして、目標運動生成処理部２３は、目標運動生成処理により取得した、制御対象Ｒｂｔ１に所定の運動を実行させるためのデータ（例えば、制御対象Ｒｂｔ１を動かすための複数のアクチュエータに付与するトルクのデータ（トルクベクトル））を、データＤ３として、制御対象Ｒｂｔ１に出力する。

【0053】

モデル学習処理部３は、制御対象Ｒｂｔ１から出力される計測データＤ５＿ｍｓｒと、制御対象Ｒｂｔ１から出力される計測データＤ６＿ｍｓｒを第１リグレッサ行列取得部６に出力して得られた出力データ（リグレッサ行列のデータ）とを入力する。また、モデル学習処理部３は、記憶部４からモデル学習処理に必要なデータ（例えば、過去のリグレッサ行列のデータ、および、過去のトルクのデータ）を読み出す。

【0054】

モデル学習処理部３は、計測データＤ５＿ｍｓｒと、第１リグレッサ行列取得部６の出力データ（リグレッサ行列のデータ）と、記憶部４から読み出したデータ（例えば、過去のリグレッサ行列のデータ、および、過去のトルクのデータ）とを用いて、モデル学習処理を行い、モデルのパラメータｗ（モデルの推定パラメータｗ）を取得する。そして、モデル学習処理部３は、取得した、モデルのパラメータｗを含むデータを、データＤ＿ｐｒｍとして、目標運動生成処理部２３および選択基準更新処理部５に出力する。また、モデル学習処理部３は、計測データＤ５＿ｍｓｒに含まれるデータ（例えば、計測したトルクのデータ）と、取得したパラメータｗと、モデル学習処理に使用したリグレッサ行列のデータとを、記憶部４に記憶させる。

【0055】

記憶部４は、所定のデータを記憶保持する機能部であり、モデル学習処理部３、選択基準更新処理部５および目標運動選択処理部１からの指令に基づいて、データ読み出し処理／書き込み処理を行う。

【0056】

選択基準更新処理部５は、モデル学習処理部３から出力されるデータＤ＿ｐｒｍと、記憶部４から読みだしたデータＤｓ＿Φとを入力する。選択基準更新処理部５は、データＤ＿ｐｒｍと、データＤｓ＿Φとを用いて、選択基準更新処理を行い、更新処理後の選択基準データを取得する。そして、選択基準更新処理部５は、取得した更新処理後の選択基準データを含むデータを、データＤ＿ｈとして、目標運動選択処理部１に出力する。なお、選択基準更新処理部５は、取得した選択基準データを記憶保持できる機能部であるものとする。
第１リグレッサ行列６は、制御対象Ｒｂｔ１から出力される計測データＤ６＿ｍｓｒを入力し、当該計測データから、リグレッサ行列のデータを取得し、取得した当該リグレッサ行列のデータをモデル学習処理部３に出力する。

【0057】

制御対象Ｒｂｔ１（例えば、ヒト型ロボット）は、例えば、１または複数のアクチュエータを備えており、当該アクチュエータに所定のトルクが付与されることで、所定の動作を行うことができる。また、制御対象Ｒｂｔは、例えば、１または複数のセンサを備えており、当該センサにより、制御対象Ｒｂｔの各部位（例えば、各関節）の状態データ（例えば、関節角度）、状態（状態データ）の１次微分データ、状態（状態データ）の２次微分データを取得することができる。制御対象Ｒｂｔ１は、システム制御処理装置１００から出力されるデータＤ３（例えば、トルクのデータ）により駆動制御されることで、所定の運動を行う。また、制御対象Ｒｂｔ１は、システム制御処理装置１００により駆動制御（運動生成）されているときにおける制御対象Ｒｂｔの各部位（例えば、各関節）の状態データ（例えば、関節角度）、状態（状態データ）の１次微分データ、状態（状態データ）の２次微分データ（センサにより取得されるデータ）を、データＤ４＿ｍｓｒ、データＤ５＿ｍｓｒ、および、データＤ６＿ｍｓｒとして、システム制御処理装置１００に出力する。

【0058】

＜１．２：システム制御処理システムの動作＞
以上のように構成されたシステム制御処理システム１０００の動作について、以下、説明する。

【0059】

図２は、システム制御処理システム１０００で実行される処理のフローチャートである。

【0060】

以下では、図２のフローチャートを参照しながら、システム制御処理システム１０００の動作について、説明する。なお、システム制御処理システム１０００の動作について、（１）モーションリターゲティング処理と、（２）システム同定処理とに分けて説明する。

【0061】

（１．２．１：モーションリターゲティング処理）
まず、モーションリターゲティング処理について、説明する。モーションリターゲティング処理とは、制御対象とは異なる生命体や物体の運動データを、制御対象の運動データに変換する処理のことをいう。本実施形態では、説明便宜のため、ヒトの運動データをロボット（ヒト型ロボット）の運動データに変換する場合（一例）のモーションリターゲティング処理について説明する。

【0062】

（ステップＳ１１）：
ステップＳ１１において、ループ処理（ループ１）に用いる変数ｋ（ループ処理の実行数をカウントするための変数）（ｋ：自然数）の初期化処理を行う。具体的には、運動データ変換処理部ＰＰ１は、ｋ＝１に設定する。

【0063】

（ステップＳ１２）：
ステップＳ１２において、ループ処理（ループ１）が開始される。

【0064】

（ステップＳ１３）：
ステップＳ１３において、運動データ変換処理が実行される。具体的には、以下の処理が実行される。

【0065】

運動データ変換処理部ＰＰ１は、データ格納部ＤＢ１から、所定の時間（時間ステップＴ個分（Ｔ：自然数）の時間（１時間ステップは、例えば、１秒に設定される））のヒトの運動データＰ^ｈを読み出す。なお、Ｔ時間ステップ分の時間（期間）のヒトの運動データＰ^ｍは、モーションキャプチャシステムを用いて計測したマーカの３次元位置の系列をｐ^ｍとし、下記数式にように表すものとする。

【数1】

ｐ_ｊ ^ｍ：Ｔ時間ステップの期間における第ｊ番目の時間ステップ（ｊ：自然数、１≦ｊ≦Ｔ）に対応する時刻に取得されたマーカの３次元位置の系列
データ格納部ＤＢ１には、ヒトの運動データが複数個格納されているものとする。モーションリターゲティング処理では、それぞれのヒトの運動データＰ^ｍを、ロボットの運動データＱ^ｒに変換する（Ｑ^ｒについて下記数式を参照）。このために、まず、ヒトの運動データを表現するためのモデル（幾何学モデル）を定義し、次に運動データ変換処理部ＰＰ１は、ヒトのモデルにおけるマーカ位置の系列Ｐ^ｈ（下記数式を参照）が、計測したヒトのマーカ位置系列に近づくような、ヒトのモデル（幾何学モデル）を構成する各リンクの長さξ^ｈと、関節角度軌道θ^ｈ _１→Ｔ（下記数式を参照）と、ロボットのモデルにおけるマーカ位置の系列Ｐ^ｒ（下記数式を参照）が、ヒトのモデルにおけるマーカ位置に近づくような、ロボットの関節角度軌道θ^ｒ _１→Ｔ（下記数式を参照）を計算する。

【数2】

θ_ｊ ^ｒ：時間ステップｊ（ｊ：自然数、１≦ｊ≦Ｔ）におけるロボット（制御対象）の関節角度の系列
θ_ｊ ^ｈ：時間ステップｊ（ｊ：自然数、１≦ｊ≦Ｔ）におけるヒトのモデルの関節角度の系列
多くの運動データ（ヒトの運動データ）に対して、モーションリターゲティング処理を実行する場合、膨大な計算コストがかかる。この問題を解決するため、運動データ変換処理部ＰＰ１では、Ｂ－スプライン関数を使い、最適化問題のサイズを削減して処理を行う。具体的には、以下のように処理が実行される。

【0066】

時刻（時間ステップ）ｔ＝１からＴまでを均等に区切ったＮ個の制御点と、Ｂ－スプラインの基底関数をそれぞれ以下のように表す。

【数3】

θ_ｎ ^ｓ,ｒ：制御点ｎ（ｎ：自然数、１≦ｎ≦Ｎ）に対応するロボットの関節角度の系列
θ_ｎ ^ｓ,ｈ：制御点ｎ（ｎ：自然数、１≦ｎ≦Ｎ）に対応するヒトのモデルの関節角度の系列
ｂ_ｎ ^ｓ：制御点ｎ（ｎ：自然数、１≦ｎ≦Ｎ）に対応するＢ－スプラインの基底関数
関節角度軌道θ_１→Ｔ ^ｒ,θ_１→Ｔ ^ｈは、それぞれ以下のように計算される。

【数4】

上記数式を用いて、モーションリターゲティング処理を以下のような最適化問題として定式化する。

【数5】

ｅ（）：ペナルティ関数
ｗ_ｇ：ヒトとロボットのマーカ位置の系列に関する重み係数
ｗ_ｅ：ペナルティ関数ｅの重み係数
なお、上記損失関数（ａｒｇｍｉｎの対象としている評価関数）の値を最小とするθ_１→Ｎ ^ｓ,r、θ_１→Ｎ ^ｓ,ｈ、ξ^ｈを、それぞれ、ｏｐｔ＿θ_１→Ｎ ^ｓ,ｒ、ｏｐｔ＿θ_１→Ｎ ^ｓ,h、ｏｐｔ＿ξ^ｈと表記する。

【0067】

また、ペナルティ関数ｅは、関節角度限界を考慮した関数であり、関節が規定した角度を超える場合、関数ｅの値が大きくなる関数である。

【0068】

また、角度軌道の時間微分は、下記数式のように、有限差分法を用いて計算される。

【数6】

Δｔ：モーションリターゲティングの時間ステップ幅
ステップＳ１３において、運動データ変換処理部ＰＰ１は、上記（数式５）に相当する処理を実行し、最適解ｏｐｔ＿θ_１→Ｎ ^ｓ,ｒを取得する。そして、運動データ変換処理部ＰＰ１は、上記（数式４）に相当する処理を実行し、制御対象Ｒｂｔ１の関節角度軌道θ_１→Ｔ ^ｒを取得し、さらに、上記（数式６）に相当する処理を実行し、制御対象Ｒｂｔ１の関節角度軌道θ_１→Ｔ ^ｒの１次微分データ、および、２次微分データを取得する。これにより、ヒトの運動データＰ^ｈをロボットの運動データＱ^ｒに変換することができる。

【0069】

運動データ変換処理部ＰＰ１は、ヒトの運動データＰ^ｈから上記処理により取得したロボットの運動データＱ^ｒを変換データ格納部ＤＢ２に記憶する（データ書き込みする）。

【0070】

（ステップＳ１４）：
ステップＳ１４において、運動データ変換処理部ＰＰ１は、変数ｋを＋１インクリメントし、処理をステップＳ１５に進める。

【0071】

（ステップＳ１５）：
ステップＳ１５において、ループ処理（ループ１）の終了条件（ｋ＞Ｋ）を満たしているか否かを判定する。ループ処理（ループ１）の終了条件を満たしていない場合（ｋ≦Ｋの場合）、処理をステップＳ１２に戻し、ループ処理（ステップＳ１３、Ｓ１４の処理）を繰り返し実行する。一方、ループ処理（ループ１）の終了条件を満たしている場合（ｋ＞Ｋの場合）、モーションリターゲティング処理を終了し、処理をステップＳ２１に進める。

【0072】

このように処理することで、システム制御処理システム１０００では、運動データ変換処理がＫ回実行され、Ｋ個のロボットの運動データＱ^ｒ（ヒトの運動データＰ^ｈから変換処理により取得されたロボットの運動データ）を取得することができる。

【0073】

（１．２．２：システム同定処理）
次に、システム同定処理について、説明する。

【0074】

システム同定処理の説明のために、まず、システム同定における事前知識について説明する。

【0075】

≪システム同定における事前知識≫
本実施形態では、システム制御処理システム１０００の制御対象Ｒｂｔ１をヒト型ロボット（一例）とし、制御対象Ｒｂｔ１（ヒト型ロボット）のダイナミクスモデルが以下の運動方程式で表すことができるものとする。

【数7】

Ｍ：慣性行列
上記数式において、θ、θの１次微分（１つのドットを付したθ）、θの２次微分（２つのドットを付したθ）、および、τは、それぞれ、制御対象Ｒｂｔ１（ヒト型ロボット）の各部位（例えば、各リンク）の関節角度（系列）、関節角速度（系列）、関節角加速度（系列）、および、関節トルク（系列）である。また、ｃは、遠心力、コリオリ力、重力や摩擦力などを含むベクトルである。

【0076】

システム同定では、基底パラメータと呼ばれる、ロボット（非制御対象Ｒｂｔ）の慣性パラメータのうち同定可能な最小集合のパラメータを推定する。基底パラメータには、ロボット（非制御対象Ｒｂｔ）の各リンクの質量、重心位置、慣性テンソルの係数が含まれる。基底パラメータは、（数式７）で示される運動方程式がパラメータｗ∈Ｒ^Ｄ（Ｄ次元の実数）に関して線形に（線形結合で）書き直せることを利用して推定される。つまり、（数式７）で示される運動方程式は、下記数式のように表現できる。

【数8】

φ：リグレッサ行列
Ｔ時間ステップ分（時間ステップ１からＴまでのＴ個）のロボット（非制御対象Ｒｂｔ）の各部位（各リンク）の角度、角速度、角加速度の軌道データＱと、トルクのデータｆとが得られたとする。なお、Ｑ、ｆは、以下の通りである。

【数9】

このとき、リグレッサ行列は、以下のようになる。

【数10】

そして、上記（数式８）は、以下のようになる。

【数11】

したがって、基底パラメータは、下記数式のように、最小二乗解ｗ^＊として同定できる。

【数12】

なお、行列について「^Ｔ」は転置行列を表し、「^－１」は逆行列を表している。

【0077】

実際には、パラメータの推定値ｗ^＊の正確さは、計測データのノイズによる影響を受ける。例えば、パラメータの正確さは、関節トルクのノイズδfに影響される。

【0078】

パラメータの推定値ｗ^＊（解ｗ^＊）の感度は、リグレッサ行列の条件数を用いて測定でき、条件数は、以下のように定義される。

【数13】

σ_ｍａｘ（Φ）：リグレッサ行列の最大の特異値
σ_ｍｉｎ（Φ）：リグレッサ行列の最小の特異値
もし条件数が小さければ、解はノイズに対して敏感ではない。そのため、正確な基底パラメータを推定するには、条件数が小さくなるような様々な計測データを集めることが重要になる。そのような計測データは、従来の方法では、まず、ロボットの参照軌道Ｑ^ｒを、非線形最適化問題を解いて設計し、参照軌道をロボットにおいて生成することで集められる。最適化問題は以下のように定式化される。

【数14】

最適な参照軌道Ｑ^＊（下記数式参照）は、最適ロボット励起軌道（optimal robot excitation trajectory）と呼ばれる。

【数15】

ヒト型ロボットの最適ロボット励起軌道（optimal robot excitation trajectory）を求める際には、ヒト型ロボットが参照軌道を転倒することなく生成できるように、バランスの制約を考慮しなければならない。上半身人型ロボットにおいても、実際の使用では支持ベースが地面に固定されておらず、転倒のリスクがあるため、バランス制約を考慮することは重要である。バランス制約は、非線形不等式制約として、下記数式のように課せられる。

【数16】

バランス制約の計算には、基底パラメータｗが必要になる。例えば、ロボットのバランスを保証するために、ＺＭＰ（ＺｅｒｏＭｏｍｅｎｔＰｏｉｎｔ）の制約が課せられる。ＺＭＰは以下のように表される。

【数17】

ここで、（ｘ，ｙ，ｚ）はロボットの重心位置であり、ｌ_ｚは床面の高さであり、ｇは重力加速度である。もしＺＭＰが、床面の接触点から構成される凸包である支持多角形の中にあれば、ロボットは安定である。つまり、下記を満たす場合、ロボットは安定である。

【数18】

ｐ_ＺＭＰ ^－：ＺＭＰの下限
ｐ_ＺＭＰ ^＋：ＺＭＰの上限
したがって、上記（数式１６）（不等式制約）の左辺は、以下のように定式化できる。

【数19】

しかし、もし初期モデルが信頼できない場合、ZMPを正確に計算できない。この不正確さを考慮するために、上記の（数式１８）の代わりに、下記数式のように、減少させた支持多角形の上限と下限が用いられる。

【数20】

α：支持多角形の減少係数（０≦α≦１）
もし、減少係数が大きければ、支持多角形のサイズは小さくなる（より減少される）。この制約が、参照軌道の多様性を制限し、ダイナミクスが十分に励起されない原因と成り得る。したがって、正確なダイナミクスモデルを推定するには、良い初期モデルが必要になる。

【0079】

さらに、非線形不等式制約（数式１６）が課せられることで、最適化（数式（１４））はより複雑になる。多くの被最適化変数や非線形のバランス制約によって、参照軌道を求める最適化問題は、扱いにくいものとなる。

【0080】

本実施形態のシステム制御処理システム１０００では、上記のようなロボット（制御対象Ｒｂｔ１）の参照軌道を求めるための複雑な最適化問題を解く必要はなく、また、良い初期モデルも不要なシステム同定処理を行うことができる。

【0081】

以下、システム制御処理システム１０００におけるシステム同定処理について、図２のフローチャートを参照しながら説明する。

【0082】

（ステップＳ２１）：
ステップＳ２１において、ループ処理（ループ２）に用いる変数ｉ（ループ処理の実行数をカウントするための変数）（ｉ：自然数）の初期化処理を行う。具体的には、変数ｉは、ｉ＝１に設定される。

【0083】

（ステップＳ２２）：
ステップＳ２２において、ループ処理（ループ２）が開始される。

【0084】

（ステップＳ２３）：
ステップＳ２３において、目標運動選択処理が実行される。具体的には、以下の処理が実行される。

【0085】

目標運動選択処理部１は、変換データ格納部ＤＢ２に対して、読み出し指令を出力し、変換データ格納部ＤＢ２から、運動データ変換処理部ＰＰ１による変換処理後の運動データ（例えば、制御対象Ｒｂｔ（例えば、ヒト型ロボット）用の運動データ）を、データＤｓｅｔ＿ｒｂｔとして、読み出す。ここでは、目標運動選択処理部１は、変換データ格納部ＤＢ２に記憶されているＫ個のロボットの運動データＱ^ｒ（ヒトの運動データＰ^ｈから変換処理により取得されたロボットの運動データ）を読み出す。このＫ個のロボットの運動データＱ^ｒを、Ｑ_１ ^ｒ、Ｑ_２ ^ｒ、・・・、Ｑ_Ｋ ^ｒとし、ｋ番目のロボットの運動データＱ^ｒをＱ_ｋ ^ｒ（ｋ：自然数、１≦ｋ≦Ｋ）と表記する。

【0086】

目標運動選択処理部１は、下記処理を行うことで、目標運動Ｑ^＊を選択する。
（１）目標運動選択処理部１は、運動データＱ_ｋ ^ｒ（ｋ：自然数、１≦ｋ≦Ｋ）から、リグレッサ行列φを求める。（（数式７）の左辺を変形することで求める。）
（２）目標運動選択処理部１は、時間ステップ１からＴまでのリグレッサ行列Φを求める（（数式１０）のリグレッサ行列Φ（Ｑ_ｋ ^ｒ）を求める）。
（３）目標運動選択処理部１は、リグレッサ行列Φについて特異値分解を行い、リグレッサ行列Φの最大の特異値σ_ｍａｘ（Φ）、および、リグレッサ行列Φの最小の特異値σ_ｍｉｎ（Φ）を求め、さらに、下記数式に相当する処理を行うことで、リグレッサ行列Φの条件数ｃｏｎｄ（Φ）を取得する。

【数21】

σ_ｍａｘ（Φ）：リグレッサ行列の最大の特異値
σ_ｍｉｎ（Φ）：リグレッサ行列の最小の特異値
（４）目標運動選択処理部１は、運動データＱ_ｋ ^ｒについて、下記数式に相当する処理を行い、制約データｈを求める（下記数式において、Ｑ^ｒをＱ_ｋ ^ｒとして制約データｈを求める）。

【数22】

α：支持多角形の減少係数（０≦α≦１）
なお、支持多角形の減少係数αは、下記数式により取得される。なお、αの初期値は、目標運動選択処理部１により、α_ｍａｘ（０≦α_ｍａｘ≦１）に設定されるものとする。

【数23】

α_ｍａｘ：最大減少係数
ａ：スケーリング係数
ｂ：バイアス係数
（５）目標運動選択処理部１は、上記（１）～（４）の処理を、Ｋ個のＱ_ｋ ^ｒについて行い、Ｋ個のＱ_ｋ ^ｒについて、条件数ｃｏｎｄ（Φ）を取得する。
（６）目標運動選択処理部１は、下記数式に相当する処理を行い、目標運動データＱ^＊を決定する。つまり、目標運動選択処理部１は、Ｋ個のロボット（制御対象Ｒｂｔ１）の運動データＱ_ｋ ^ｒ（∈｛Ｑ_１ ^ｒ，Ｑ_２ ^ｒ，・・・，Ｑ_２ ^ｒ｝）の中から、下記数式の制約条件を満たし、かつ、条件数ｃｏｎｄ（Φ）を最小とする運動データを選択し、選択した運動データを目標運動データＱ^＊とする。

【数24】

なお、上式のｈ^ｉ（Ｑ^ｒ，ｗ^ｉ）は、ループ２のループ処理のｉ番目の処理において使用される制約データｈであることを示しており（ｈ^ｉ（Ｑ^ｒ，ｗ^ｉ）をｈ^ｉと簡略表記することもある）、上式のパラメータｗ^ｉは、ループ２のループ処理のｉ番目の処理において使用されるパラメータｗであることを示している。

【0087】

学習初期（ループ１のループ処理においてｉ＝１の場合）では、パラメータｗ^１により規定される初期モデルは不正確である。そのため、初期の制約データｈ^１（不等式制約ｈ^１）は、不正確なダイナミクスモデルでも生成できるよう、参照軌道を制限することが好ましい。したがって、システム制御処理システム１０００において、例えば、学習初期では、準静的な運動軌道を選択するようにすることが好ましい。

【0088】

目標運動選択処理部１は、上記の目標運動選択処理により選択した目標運動データＱ^＊（参照軌道Ｑ^＊）を含むデータを、データＤｔ１として、目標運動生成部の第２リグレッサ行列取得部２１に出力する。また、目標運動選択処理部１は、ＰＤ制御用の目標運動データＱ_ＰＤ ^＊（参照軌道Ｑ_ＰＤ ^＊）（ＰＤ制御用の目標運動データＱ_ＰＤ ^＊は、目標運動データＱ^＊から、ＰＤ制御に必要なデータを抽出したデータである）を含むデータを、データＤｔ２として、目標運動生成部２のＰＤ制御部２２に出力する。

【0089】

（ステップＳ２４）：
ステップＳ２４において、目標運動生成処理が実行される。具体的には、以下の処理が実行される。

【0090】

第２リグレッサ行列取得部２１は、目標運動選択処理部１から出力されるデータＤｔ１（目標運動データＱ^＊（参照軌道Ｑ^＊）を含むデータ）を入力し、データＤｔ１から、リグレッサ行列φを取得する処理を行う。具体的には、リグレッサ行列は、制御対象Ｒｂｔ１の目標運動データＱ^＊（参照軌道Ｑ^＊）から、時間ステップｔ（時刻ｔ）（ｔ：自然数、１≦ｔ≦Ｔ）におけるリグレッサ行列φ（θ^＊ _ｔ，ｄｏｔ＿θ^＊ _ｔ，ｄｄｏｔ＿θ^＊ _ｔ）（ｄｏｔ＿θ^＊ _ｔ：θ^＊ _ｔの１次微分、ｄｄｏｔ＿θ_ｔ：θ^＊ _ｔの２次微分）を取得する。また、第２リグレッサ行列取得部２１は、ループ２のループ処理の初回（ｉ＝１の場合）は、事前に得られた制御対象Ｒｂｔ１のモデルに関する情報（例えば、製造時の図面データ等）に基づいて、パラメータｗ^１（ｉ＝１のときのパラメータｗ）を取得する。そして、第２リグレッサ行列取得部２１は、上記により取得したリグレッサ行列φ（θ^＊ _ｔ，ｄｏｔ＿θ^＊ _ｔ，ｄｄｏｔ＿θ^＊ _ｔ）およびパラメータｗ^１を含むデータを、データＤ１として、目標運動生成処理部２３に出力する。

【0091】

目標運動生成処理部２３は、第２リグレッサ行列取得部２１から出力されるデータＤ１を用いて目標運動生成処理を実行する。具体的には、目標運動生成処理部２３は、下記数式に相当する処理を実行することで、時刻ｔ（時間ステップｔ）におけるトルクτ_ｔ（トルク系列（トルクベクトル））を取得する。なお、ｉ＝１の場合、ｗ＝ｗ^１であり、目標運動生成処理部２３は、ｔ＝１においては、下記数式の右辺の第２項、第３項（ＰＤ制御部２２により取得されるデータ）をゼロ（なし）として処理する。

【数25】

目標運動生成処理部２３は、上記処理（目標運動生成処理）により取得した、制御対象Ｒｂｔ１に、所定の運動（目標運動データＱ^＊（参照軌道Ｑ^＊）で規定される運動）を実行させるためのデータ（例えば、制御対象Ｒｂｔ１を動かすための複数のアクチュエータに付与するトルクのデータ（トルクベクトル）τ_ｔ）を、データＤ３として、制御対象Ｒｂｔ１に出力する。

【0092】

そして、制御対象Ｒｂｔ１（ヒト型ロボット）は、システム制御処理装置１００（目標運動生成処理部２３）から出力されるデータＤ３（トルクのデータ）により駆動制御されることで、所定の運動を行う。

【0093】

そして、制御対象Ｒｂｔ１は、システム制御処理装置１００により駆動制御（運動生成）されているときにおける制御対象Ｒｂｔの各部位（例えば、各リンク）の質量、重心位置、慣性テンソル等のデータ（センサにより取得されるデータ）を、データＤ４＿ｍｓｒとして、ＰＤ制御部２２に出力し、また、データＤ５＿ｍｓｒ、データＤ６＿ｍｓｒとして、それぞれモデル学習処理部３、第１リグレッサ行列取得部６に出力する。

【0094】

ＰＤ制御部２２は、ｔ＝２以降において、目標運動選択処理部１から出力されるデータＤｔ２（目標運動データＱ_ＰＤ ^＊（参照軌道Ｑ_ＰＤ ^＊）を含むデータ）と、制御対象Ｒｂｔ１から出力される計測データＤ４＿ｍｓｒとを入力し、データＤｔ２、および、計測データＤ４＿ｍｓｒに基づいて、ＰＤ制御データＤ２を生成する。具体的には、ＰＤ制御部２２は、下記数式に相当するデータを取得する。

【数26】

θ^＊ _ｔ：目標運動データＱ_ＰＤ ^＊から取得される時刻ｔにおける制御対象Ｒｂｔ１の関節角度（系列）
θ^＊ _ｔにドットを付したデータ：θ^＊ _ｔを時間で微分したデータ
θ_ｔ：時刻ｔにおける制御対象Ｒｂｔ１の関節角度（系列）の計測データ（計測データＤ４＿ｍｓｒに含まれるデータ）
θ_ｔにドットを付したデータ：時刻ｔにおける制御対象Ｒｂｔ１の関節角速度（系列）の計測データ（計測データＤ４＿ｍｓｒに含まれるデータ）
Ｋ_ｐ：比例ゲイン
Ｋ_ｄ：微分ゲイン
そして、ＰＤ制御部２２は、上記により取得したデータを含むデータを、データＤ２として、目標運動生成処理部２３に出力する。

【0095】

目標運動生成処理部２３は、ｔ＝２以降において、（数式２５）に相当する処理を実行することで、時刻ｔ（時間ステップｔ）におけるトルクτ_ｔ（トルク系列（トルクベクトル））を取得する。なお、（数式２５）の右辺の第２項、第３項は、ＰＤ制御部２２から出力されるデータＤ２に含まれるデータを使用する。

【0096】

そして、目標運動生成処理部２３は、目標運動生成処理（（数式２５）による処理）により取得した、制御対象Ｒｂｔ１に、所定の運動（目標運動データＱ^＊（参照軌道Ｑ^＊）で規定される運動）を実行させるためのデータ（例えば、制御対象Ｒｂｔ１を動かすための複数のアクチュエータに付与するトルクのデータ（トルクベクトル）τ_ｔ）を、データＤ３として、制御対象Ｒｂｔ１に出力する。

【0097】

そして、制御対象Ｒｂｔ１（ヒト型ロボット）は、システム制御処理装置１００（目標運動生成処理部２３）から出力されるデータＤ３（トルクのデータ）により駆動制御されることで、所定の運動を行い、制御対象Ｒｂｔ１は、計測データＤ４＿ｍｓｒをＰＤ制御部２２に出力し、計測データＤ５＿ｍｓｒ、計測データＤ６＿ｍｓｒをそれぞれモデル学習処理部３、第１リグレッサ行列取得部６に出力する。

【0098】

システム制御処理システム１０００において、上記処理が、ｔ＝３からｔ＝Ｔまで、順次、繰り返し実行される。これにより、システム制御処理システム１０００において、ループ１のループ処理のｉ＝１において、時間ステップｔ＝１からｔ＝Ｔまでの制御対象Ｒｂｔ１の計測データが取得される。

【0099】

（ステップＳ２５）：
ステップＳ２５において、モデル学習処理が実行される。具体的には、以下の処理が実行される。

【0100】

モデル学習処理部３は、計測データＤ５＿ｍｓｒと、記憶部４から読み出したデータ（例えば、過去のリグレッサ行列のデータ、および、過去のトルクのデータ）と、第１リグレッサ行列取得部６の出力データを用いて、モデル学習処理を行い、モデルのパラメータｗ（モデルの推定パラメータｗ）を取得（更新）する。具体的には、モデル学習処理部３は、下記数式に相当する処理を実行することで、モデルのパラメータｗ（モデルの推定パラメータｗ）を取得（更新）する。

【数27】

なお、時刻（時間ステップ）ｔ＝１からｔ＝Ｔまでのリグレッサ行列φは、第１リグレッサ行列取得部６の出力データに含まれており、モデル学習処理部３が当該リグレッサ行列φのデータを、記憶部４に記憶させているものとする。そして、モデル学習処理部３は、記憶部４から時刻（時間ステップ）ｔ＝１からｔ＝Ｔまでのリグレッサ行列φのデータを読み出し、上記処理を行う。

【0101】

また、時刻（時間ステップ）ｔ＝１からｔ＝Ｔまでのトルクのデータ（制御対象Ｒｂｔ１により実際に観測されたトルクのデータ）（上記数式のｆに相当）は、データＤ５＿ｍｓｒに含まれており、モデル学習処理部３が当該トルクのデータを、記憶部４に記憶させているものとする。そして、モデル学習処理部３は、記憶部４から時刻（時間ステップ）ｔ＝１からｔ＝Ｔまでのトルクのデータ（制御対象Ｒｂｔ１により実際に観測されたトルクのデータ）を読み出し、上記処理を行う。

【0102】

また、上記処理により取得されたパラメータ（更新後のパラメータｗ^＊）をパラメータｗに代入（更新）し（ｗ←ｗ^＊）、当該更新後のパラメータｗは、ループ２のループ処理のｉ＝２の処理に使用される。

【0103】

また、モデル学習処理部３は、上記処理により取得したパラメータｗ（＝更新後のパラメータｗ^＊）を含むデータをデータＤ＿ｐｒｍとして、目標運動生成処理部２３および選択基準更新処理部５に出力する。

【0104】

（ステップＳ２６）：
ステップＳ２６において、選択基準更新処理が実行される。具体的には、以下の処理が実行される。

【0105】

選択基準更新処理部５は、モデル学習処理部３から出力されるデータＤ＿ｐｒｍと、記憶部4から読みだしたデータＤｓ＿Φを入力する。選択基準更新処理部５は、データＤ＿ｐｒｍと、データＤｓ＿Φを用いて、選択基準更新処理を行い、更新処理後の選択基準データを取得する。具体的には、選択基準更新処理部５は、（数式２２）において、パラメータｗを、モデル学習処理部３により更新されたパラメータｗ（＝ｗ^＊）（データＤ＿ｐｒｍに含まれるパラメータｗ）とし、（数式２２）、（数式２３）に相当する処理を行うことで、制約データｈを取得する。なお、この取得した制約データｈは、ループ２のループ処理のｉ＝２で使用される制約データであるので、制約データｈ^２と表記する（ループ２のループ処理のｉ番目の処理で使用される制約データｈをｈ^ｉと表記する）。

【0106】

（ステップＳ２７）：
ステップＳ２７において、変数ｉが＋１インクリメントされ、処理をステップＳ２８に進める。

【0107】

（ステップＳ２８）：
ステップＳ２８において、ループ処理（ループ２）の終了条件（ｉ＞Ｉ）を満たしているか否かを判定する。ループ処理（ループ２）の終了条件を満たしていない場合（ｉ≦Ｉの場合）、処理をステップＳ２２に戻し、ループ処理（ステップＳ２３～Ｓ２７の処理）を繰り返し実行する。一方、ループ処理（ループ２）の終了条件を満たしている場合（ｉ＞Ｉの場合）、システム同定処理を終了する。

【0108】

ループ処理（ループ２）のｉ番目（ｉ≧２）の処理において、ｉ＝１のときの処理と異なる部分を重点的に以下説明する。

【0109】

ステップＳ２３において、（数式２１）、（数式２３）、（数式２４）において使用するリグレッサ行列Φを、下記数式のリグレッサ行列Φに置き換える。つまり、ｉ番目（ｉ≧２）の処理において、最適化処理（（数式２４）の処理）の対象としている制御対象Ｒｂｔ１の運動データＱ^ｒのリグレッサ行列Φ（Ｑ^ｒ）と、ｉ－１番目の処理（ループ処理（ループ２））までに得られた計測データについてのリグレッサ行列［Φ（Ｑ^１），・・・，Φ（Ｑ^ｉ－１）］^Ｔ（この過去の計測データのリグレッサ行列は、記憶部４に記憶されており、目標運動選択処理部１が、記憶部からデータＤｓ＿Φとして取得できるものとする）とを結合した行列Φ（Ｑ）（下記数式）を、（数式２１）、（数式２３）、（数式２４）において使用するリグレッサ行列Φとする。そして、目標運動選択処理部１は、新たに設定したリグレッサ行列Φ（下記数式のリグレッサ行列）を用いて、ｉ＝１のときと同様の処理を行うことで、目標運動データＱ^＊（参照軌道Ｑ^＊）を選択（決定）する。

【数28】

上記のようにすることで、以前に得られた計測データでは励起されなかった不正確な基底パラメータを励起するような、有効な参照軌道（制御対象Ｒｂｔ１の参照軌道）を見つけることができる。

【0110】

そして、ステップＳ２４において、システム制御処理システム１０００では、上記により取得した目標運動データＱ^＊（参照軌道Ｑ^＊）を用いて、目標運動生成処理が実行され、制御対象Ｒｂｔ１から計測データＱ^ｉ、ｆ^ｉが取得される。

【0111】

そして、ステップＳ２５において、モデル学習処理部３は、制御対象Ｒｂｔ１から新しく取得した計測データを用いてリグレッサ行列とトルク系列を作成し、それらを以前に取得されたリグレッサ行列とトルク系列と統合する。つまり、モデル学習処理部３は、下記数式に相当する処理を行うことで、リグレッサ行列Φ、および、トルク系列ｆを取得する。

【数29】

Ｑ^ｉ：ループ２のループ処理のｉ番目の処理において、制御対象Ｒｂｔ１で計測されたデータ（新たに取得された計測データ）
ｆ^ｉ：ループ２のループ処理のｉ番目の処理において、制御対象Ｒｂｔ１で計測されたトルク系列（新たに取得された計測データ）
なお、過去の計測データ［Φ（Ｑ^１），・・・，Φ（Ｑ^ｉ－１）］^Ｔ、および、［ｆ^１，・・・，ｆ^ｉ－１］^Ｔは、記憶部４に記憶されているものとする。

【0112】

そして、モデル学習処理部３は、上記で設定したリグレッサ行列Φ、および、トルク系列ｆを用いて、下記数式に相当する処理を実行することで、新たなパラメータｗ（＝更新後のパラメータｗ^＊＝ｗ^ｉ）を取得する。

【数30】

そして、ステップＳ２６において、上記で取得されたパラメータｗ（＝更新後のパラメータｗ^＊＝ｗ^ｉ）を用いて、選択基準更新処理部が実行され、新たな制約データｈ（＝ｈ^ｉ）が取得される。

【0113】

そして、上記処理がｉ＝Ｉとなるまで、繰り返し実行され、ｉ＞Ｉとなると、システム同定処理が終了する。

【0114】

そして、システム制御処理システム１０００は、上記のシステム同定処理が終了したときのパラメータｗを、制御対象Ｒｂｔ１の推定パラメータ（システム同定処理後の推定パラメータ）として取得する。

【0115】

≪まとめ≫
以上のように、システム制御処理システム１０００では、従来法のように、良い初期モデルを用いて、複雑な最適化問題を解くことなく、正確なモデルの同定が可能である。つまり、システム制御処理システム１０００では、多量にある運動データ（例えば、ヒトの運動データ）を、制御対象Ｒｂｔ１用に変換した運動データ（複数個の運動データ）を用意し、制約条件を満たす運動データを複数個の運動データから選択し、選択した運動データにより運動生成し、当該運動データによる運動を実行させたときにおいて、制御対象Ｒｂｔ１から計測データを取得する。そして、システム制御処理システム１０００では、取得した計測データに基づいて、学習処理を行い（モデル（制御対象Ｒｂｔ１のモデル）のパラメータの更新を行い）、さらに、更新したパラメータにより、制約条件を更新させる。システム制御処理システム１０００では、パラメータの精度が徐々に向上するため、制約条件を適切に緩和することができる。

【0116】

これにより、システム制御処理システム１０００では、どのような運動データにより、学習処理を進めればよいかのカリキュラム（運動データ系列）を取得できる。

【0117】

そして、システム制御処理システム１０００では、上記により取得されるカリキュラム（運動データ系列）により、制約条件を満たしつつ、制御対象Ｒｂｔ１に徐々に複雑な運動を実行させることができ、より高精度な学習処理（パラメータ更新処理）を行うことができる。

【0118】

その結果、システム制御処理システム１０００では、システム同定が困難な制御対象に対しても、良い初期モデルを必要とせず、正確なモデルの同定（制御対象Ｒｂｔ１に対するシステム同定）が可能となる。

【0119】

つまり、システム制御処理システム１０００では、初期状態においては、制約条件が厳しい状態（例えば、制御対象Ｒｂｔ１に準静的な運動軌道による運動を実行させる状態）で学習処理（パラメータ更新処理）を行い、計測データに基づいて、推定されるパラメータを更新することで、推定パラメータの精度を向上させることができる。そして、システム制御処理システム１０００では、精度向上した推定パラメータにより、制約条件を緩和することができるため、学習が進むにつれて、制約条件を満たしつつ、複雑な運動データにより制御対象Ｒｂｔ１に運動させる（運動生成できる）ことができる。

【0120】

したがって、システム制御処理システム１０００では、良い初期モデルを必要とせず、システム同定が困難な制御対象（システム同定が困難な複雑な構成（構造）を有する制御対象）に対しても、正確なモデルの同定が可能となる。

【0121】

（１．３：実験）
本実施形態のカリキュラムを用いたシステム同定処理（システム制御処理システム１０００により実行される処理）について、その有効性を評価するためにシミュレーション環境において実験を行ったので、それについて、以下説明する。

【0122】

（１．３．１：評価方法）
システム同定実験を２００回行った。各実験において、同定結果に誤差が生じるように、異なるガウスノイズδfの系列を計算トルク（制御対象Ｒｂｔ１を駆動するためのトルク）に付加した。ノイズの標準偏差は、トルク制限の５％になるように設定した。本発明のカリキュラムを用いたシステム同定処理（システム制御処理システム１０００により実行される処理）における最大反復回数（システム同定手法の繰り返し回数）は、Ｉ＝５とした。不正確な初期モデルを用意し、学習が進むにつれ、基底パラメータの推定誤差が徐々に減るかどうかを検証した。推定誤差は以下のように計算された。

【数31】

ｗ^ｔｒｕｅ：真の基底パラメータ（ＣＡＤパラメータを使用）
Ｄ：基底パラメータの次元（パラメータの数）
パラメータの信頼性は、各推定パラメータの相対標準偏差を用いて評価された（下記数式）。

【数32】

ここで、上式のｗ_ｊにハットを付した変数は２００個の推定パラメータの平均値のｊ番目の要素であり、ｄ_ｅ，ｊは、推定誤差の標準偏差である。もし、ｄ_ｗｊ％が１０％以下、もしくは、上式のｗ_ｊにハットを付した変数が小さい（＜０．０２）場合、パラメータは信頼性が高く推定できたとみなした。さらに、交差検証を用いたパラメータの信頼性の評価も行った。交差検証のための参照軌道を用意し、（数式２５）において、その参照軌道と真の基底パラメータを使い、計測データｄｃ（下記数式）を集めた。

【数33】

初期基底パラメータと、推定された基底パラメータｗそれぞれに対する平均平方二乗誤差（ＲＭＳＥ）を以下のように計算した。

【数34】

さらに、本発明の最適化処理（（数式２４）の処理）に対する評価を行った。本発明の手法（システム同定処理方法）では、ロボット運動データセットから適切な参照軌道が選ばれることで、カリキュラムが構築された。本発明の手法（システム同定処理方法）を、カリキュラムを構築しない（最適化問題（数式２４）を解かない）方法と比較した。この方法では、制約（ｈ^ｉ（Ｑ^ｒ，ｗ^ｉ）＜０）を満たす参照軌道を、ランダムに選ぶこととした。カリキュラムによってデータ収集プロセスがガイドされることで、基底パラメータを効率よく学習できることを検証した。

【0123】

（１．３．２：実験設定）
≪ロボットモデル≫
本実験では、上半身ヒト型ロボットのモデルを用いたシミュレーション実験を行った。ロボットが転倒するリスクがあると仮定し、ＺＭＰを用いたバランス制約を考慮した。ロボットは、片腕に７自由度、胴体に２自由度、頭部に２自由度の計１８自由度を持つ。ダイナミクスシミュレーションは、物理エンジンＭｕＪｏＣｏを用いて行った。センサ信号（各関節角度、関節角速度、トルク）は、１０ミリ秒間隔で計測された。（数式２５）の比例・微分（ＰＤ）制御器のゲインＫｐとＫｄは、手動で設定された。このとき、ゲインを小さな値に設定したため、ＰＤ制御器だけでは、ロボットは参照軌道を追従できなかった。

【0124】

ロボットは、Ｄ＝１３２個の基底パラメータを持つ。実験では、真の基底パラメータｗ^ｔｒｕｅを算出するための慣性パラメータｗ’^ｔｒｕｅとして、ＣＡＤパラメータを用いた。初期パラメータｗ^１を算出するための慣性パラメータｗ’^１は、一様分布からランダムに生成した。もし、ｗ’^ｔｒｕｅのｊ番目の値が０より大きければ、一様分布の区間は［０，２ｗ’^ｔｒｕｅ _ｊ］とし、そうでなければ、区間は［２ｗ’^ｔｒｕｅ _ｊ，０］とした。

【0125】

≪不等式制約の緩和≫
本発明の手法では、各反復試行において、不等式制約（ｈ^ｉ（Ｑ^ｒ，ｗ^ｉ）＜０）が緩和された。具体的には、各反復試行において、支持多角形の減少係数が（数式２３）のように計算された。なお、減少係数αは、（数式２３）の基準によって決定された。

【0126】

初期反復において、ロボット運動データセットから5%の参照軌道が選択可能になるように、α_ｍａｘ＝０．７４と設定した。スケーリング係数ａ、バイアス係数ｂは、それぞれ、
ａ＝２．５×１０^－４
ｂ＝１．０
とした。

【0127】

条件数ｃｏｎｄ（Φ）は、反復回数が増えるごとに、小さくなると考えられるため、減少係数も小さくなる。したがって、支持多角形の大きさは徐々に広がっていき、本発明の手法では、学習が進むにつれ、よりダイナミックな運動を選択可能になる。

【0128】

≪ヒトの運動データベースとリターゲティングの設定≫
モーションリターゲティング処理において、ｔｈｅＫＩＴＢｉｍａｎｕａｌＭａｎｉｐｕｌａｔｉｏｎＤａｔａｓｅｔを用いた。データセットには、蓋の開閉や皿を拭くなどの、ヒトの両手で行う日常の家事動作に関する多くの計測データが含まれている。各計測データは、身体の各パーツに対する三次元座標が、Δｔ＝１０ミリ秒の時間間隔で保存されたものであり、ｃ３ｄフォーマットにエンコードされた。データセットから、１１０個の運動を選び、そのうち９８個をヒトの運動軌道データベースとして利用し、残りの１２個を交差検証のための参照軌道として用いた。

【0129】

モーションリターゲティング処理は、計算機環境を用いて行われ、ＭＡＴＬＡＢ環境において準ニュートン法によって実行された。ペナルティ関数の重みはｗ_ｇ＝１００とｗ_ｃ＝５０に設定された（（数式５）を参照）。関節角度軌道は、２００ミリ秒の間隔の制御点を持つＢ－スプライン曲線を用いて表された。モーションリターゲティング処理の後、それぞれの運動データは、図３に示す運動の名前に応じてラベル付けされた。

【0130】

≪実験結果≫
本発明の手法では、カリキュラムを作るために、ロボット運動データセットから、一連の参照軌道が選ばれた。ロボット運動データセットを、図４に示す。本発明の手法では、ロボット運動データセットをヒトの大規模運動データベースを用いて構築したため、データセットは、様々な運動軌道を含んでいる。いくつかの運動の例が図４に示されている（図４において、太線の矩形内に示した各矩形は、運動データを示している（１つの矩形が１つの運動データを示している））。システム同定実験は様々なノイズ設定を用いて２００回行われたため、運動データセットから適切な参照軌道を選ぶことで、２００個のカリキュラムが構築された。

【0131】

図５は、代表的なカリキュラム（上半身ヒト型ロボットの同定カリキュラム）を示す図である（図５において、太線の矩形内に示した各矩形は、運動データを示している（１つの矩形が１つの運動データを示している））。図５において、太い線で囲まれた長方形の中の各ブロックは、各反復試行において、生成可能な参照軌道を表している。各ブロックの濃淡は、各反復試行における相対的な条件数の大きさを表している。濃い色のブロックは、薄い色のブロックよりも、より小さい条件数を有している。各反復試行において最も条件数の小さい（図５中に点で示された）ブロックをつないだ矢印が、カリキュラムを示している。

【0132】

図５に示すように、本発明の手法では、各反復試行において、全体のデータセットの中から最も条件数が小さくなる参照軌道が選ばれており、適切なカリキュラムを構築できていることが分かる。

【0133】

図６は、本発明の手法において、各反復試行でのバランス制約の緩和を示す図である。図６において、ロボットの胴体の略下にある円は、参照軌道を用いて計算したＺＭＰを示しており、ロボットの胴体の略下の大きい方（外側）の多角形は、支持多角形の上限、下限を表しており、ロボットの胴体の略下の小さい方（内側）の多角形は、支持多角形の減少係数α（（数式２３）を参照）により減少させた支持多角形の上限、下限を表している。

【0134】

図６に示すように、本発明の手法では、ＺＭＰの上限と下限は（数式２３）の処理により徐々に広げられたため、参照軌道の多様性は、反復回数が増えるにつれて増加している。例えば、第一、第二試行目において、Ｓｗｅｅｐの中の運動は利用できなかったが、それらの運動は、第三試行目には生成可能になり、最も小さい条件数を示した。図６に示すように、本発明の手法では、支持多角形が、試行回数が増えるにつれ拡大するので、試行回数が増えるにつれ、ロボットに多様な運動（より複雑な運動）を実行させることが可能になることが分かる。
図７に、各反復試行における、真のパラメータと推定パラメータのＲＭＳＥ（（数式３１））を示す。また、初期モデルの誤差を、青い実線で表す。図７に示されているように、反復が進むにつれ推定誤差が徐々に下がった。最終的に、第五試行目において、誤差の中央値は０．２４３になった。さらに、パラメータの信頼性を、相対標準偏差(（数式３２）)を用いて評価した。本発明の手法では、第五試行目において、７５．８％のパラメータ（１３２個中１００個のパラメータ）を高い信頼性を持って推定することができた。初期モデルでは、５７．６％のパラメータ（１３２個中７６個のパラメータ）のみ信頼性が高かった。したがって本発明の手法は、良い初期モデルが利用できなくても、正確なモデルを学習することが可能だった。

【0135】

図８は、関節トルクに対するＲＭＳＥ（（数式３４））を表している。ＲＭＳＥは交差検証のためのデータセットを用いて計算されており、それらのデータセットは学習には使われていない。図８に示されているように、交差検証のためのデータセットにおいて誤差は小さくなった。したがって、本発明の手法では、基底パラメータを高い信頼性をもって推定することができた。本発明のカリキュラムを用いた同定手法と、カリキュラムを用いない方法を比較した結果を、図９に示す。図９において、各試行回数の左側のデータがカリキュラムを用いない方法による条件数のデータであり、右側のデータが本発明のカリキュラムを用いた同定手法による条件数のデータである。図９に示すように、参照軌道がロボット運動データセットからランダムに選ばれた場合、各反復試行において、条件数はかなり大きな値となった。一方で、本発明のカリキュラムを用いた同定手法では、正確な基底パラメータを効率よく学習することが可能であり、カリキュラムを用いてデータ収集プロセスをガイドすることが重要だったことが分かる。

【0136】

以上の通り、上記実験からも、本発明の手法（システム制御処理システム１０００によるシステム制御処理システム１０００）の顕著な有効性が分かる。

【0137】

［他の実施形態］
上記実施形態では、システム制御処理システム１０００（あるいは、システム制御処理装置１００）の制御対象Ｒｂｔ１がヒト型ロボット、あるいは、上半身ヒト型ロボットであることを想定しているが、これに限定されることはなく、システム制御処理システム１０００（あるいは、システム制御処理装置１００）の制御対象Ｒｂｔは、ヒト型ロボット、上半身ヒト型ロボットに限定されることはない。例えば、システム制御処理システム１０００（あるいは、システム制御処理装置１００）の制御対象Ｒｂｔは、従来手法では、高精度なシステム同定が困難なシステム、装置等（例えば、ロボット（例えば、ヒト型ロボット以外のロボット）、多足歩行ロボット、複雑な構造を有する機械等）であってもよい。

【0138】

また、上記実施形態のシステム制御処理システム１０００（あるいは、システム制御処理装置１００）により、システム同定処理後のパラメータで固定したシステム制御処理システム、あるいは、システム制御処理装置を実現するようにしてもよい。この場合、例えば、図１０に示すように、システム制御処理システム１０００において、システム制御処理装置１００を、システム制御処理装置１００Ａに置換した構成により実現できる。つまり、図１０に示すように、目標運動データ（目標運動データＱ^＊）を外部からシステム制御処理装置１００Ａの目標運動生成部２の第２リグレッサ行列取得部２１およびＰＤ制御部２２に入力するようにし、目標運動生成処理部２３のパラメータｗを、システム同定処理により取得されたパラメータｗ（最適パラメータｗ）に固定して、システム制御処理装置１００と同様に運動生成処理を行うようにすればよい。これにより、システム制御処理装置１００Ａにより、システム同定処理後のパラメータ（最適パラメータ）ｗを用いたモデル予測制御が可能となるため、制御対象Ｒｂｔ１を高精度に制御することが可能となる。

【0139】

また、上記実施形態で説明したシステム制御処理システム１０００、システム制御処理装置１００において、各ブロックは、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部又は全部を含むように１チップ化されても良い。

【0140】

なお、ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

【0141】

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

【0142】

また、上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

【0143】

また、上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらに、ソフトウェアおよびハードウェアの混在処理により実現しても良い。

【0144】

例えば、上記実施形態の各機能部を、ソフトウェアにより実現する場合、図１１に示したハードウェア構成（例えば、ＣＰＵ（ＧＰＵを含む）、ＲＯＭ、ＲＡＭ、入力部、出力部等をバスＢｕｓにより接続したハードウェア構成）を用いて、各機能部をソフトウェア処理により実現するようにしてもよい。

【0145】

また、上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図１１に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。

【0146】

また、本明細書内の記載、特許請求の範囲の記載において、「最適化」（あるいは「最適」）とは、最も良い状態にすることをいい、システム（モデル）を「最適化」するパラメータとは、当該システムの目的関数の値が最適値となるときのパラメータのことをいう。「最適値」は、システムの目的関数の値が大きくなるほど、システムが良い状態となる場合は、最大値であり、システムの目的関数の値が小さくなるほど、システムが良い状態となる場合は、最小値である。また、「最適値」は、極値であってもよい。また、「最適値」は、所定の誤差（測定誤差、量子化誤差等）を許容するものであってもよく、所定の範囲（十分収束したとみなすことができる範囲）に含まれる値であってもよい。

【0147】

また、上記実施形態における処理方法の実行順序は、必ずしも、上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。また、上記実施形態における処理方法において、発明の要旨を逸脱しない範囲で、一部のステップが、他のステップと並列に実行されるものであってもよい。

【0148】

前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

【0149】

上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

【0150】

なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

【符号の説明】

【0151】

１０００、１０００Ａシステム制御処理システム
１００、１００Ａシステム制御処理装置
１目標運動選択処理部
２目標運動生成部
３モデル学習処理部
５選択基準更新処理部
６第１リグレッサ行列取得部
Ｒｂｔ１制御対象
ＰＰ１運動データ変換処理部

【図1】