特許7638146 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許7638146計算機システム及び計算機システムの制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-02-20

(45)【発行日】2025-03-03

(54)【発明の名称】計算機システム及び計算機システムの制御方法

(51)【国際特許分類】

G05B 23/02 20060101AFI20250221BHJP

B25J 13/00 20060101ALI20250221BHJP

【ＦＩ】

G05B23/02 Z

B25J13/00 Z

【請求項の数】 12

(21)【出願番号】P 2021077181

(22)【出願日】2021-04-30

(65)【公開番号】P2022170898

(43)【公開日】2022-11-11

【審査請求日】2024-01-30

(73)【特許権者】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】吉武宏

【審査官】岩▲崎▼ 優

(56)【参考文献】

【文献】特許第６６３２０９５（ＪＰ，Ｂ１）

【文献】特開２０２０－０８７２０６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ２３／００－２３／０２

Ｇ０５Ｄ１／００－１／８７

Ｂ２５Ｊ１／００－２１／０２

(57)【特許請求の範囲】

【請求項1】

制御系を構成する、自律的に動作する複数のオブジェクトと、前記複数のオブジェクトと通信可能に接続する制御システムとを備える計算機システムであって、
前記制御システムは、
少なくとも一つの計算機を含み、
前記制御系の一部であって、前記オブジェクトを含む部分系の定義及び前記部分系において遂行されるタスクの定義を含む初期情報と、前記制御系において遂行されるタスクの計画と、を保持し、
前記制御系全体の状態を把握するための監視データを取得し、
前記監視データから時系列データを生成し、前記初期情報及び前記計画を用いて、前記部分系及び前記部分系において遂行するタスクの識別情報を決定し、前記部分系の識別情報、前記タスクの識別情報、及び前記時系列データを対応づけた監視履歴を生成し、第１データベースに保存し、
前記タスクの遂行のために実行する行動を決定するための方策を新たに生成する必要があるターゲットオブジェクトが存在する場合、前記計画を参照して、前記ターゲットオブジェクトを含む前記部分系と、当該部分系において遂行される前記タスクとを特定し、
前記第１データベースから、特定された前記部分系及び特定された前記タスクの組合せに一致する前記監視履歴を取得し、
前記ターゲットオブジェクトに、取得した前記監視履歴を送信し、
前記オブジェクトは、
前記部分系の状態及び前記方策に基づいて実行する行動を決定し、
決定された前記行動を実行し、
実行した前記行動に関する行動履歴を第２データベースに保存し、
前記計算機から前記監視履歴を受信した場合、前記行動履歴及び受信した前記監視履歴を用いて前記新たな方策を生成することを特徴とする計算機システム。

【請求項2】

請求項１に記載の計算機システムであって、
前記制御システムは、
前記第１データベースから取得した前記監視履歴を、当該監視履歴に対応する前記タスクを構成するサブタスク単位に分割することによって、部分監視履歴を生成し、
前記ターゲットオブジェクトに、前記部分監視履歴を送信することを特徴とする計算機システム。

【請求項3】

請求項２に記載の計算機システムであって、
前記制御システムは、
前記サブタスク間の因果関係を解析し、
因果関係によって関連づけられる前記部分監視履歴を送信することを特徴とする計算機システム。

【請求項4】

請求項１に記載の計算機システムであって、
前記監視履歴は、時間情報を含み、
前記制御システムは、
前記監視履歴に含まれる前記時間情報及び前記計画に基づいて、前記第１データベースから取得した前記監視履歴を、当該監視履歴に対応する前記タスクを構成するサブタスク単位に分割することによって、部分監視履歴を生成し、
前記ターゲットオブジェクトに、前記部分監視履歴を送信することを特徴とする計算機システム。

【請求項5】

請求項１に記載の計算機システムであって、
前記オブジェクトは、前記方策を用いた前記タスクの遂行中に、前記新たな方策を生成することを特徴とする計算機システム。

【請求項6】

請求項５に記載の計算機システムであって、
前記オブジェクトは、前記新たな方策を保存し、又は、現在使用している前記方策を前記新たな方策に更新することを特徴とする計算機システム。

【請求項7】

制御系を構成する、自律的に動作する複数のオブジェクトと、前記複数のオブジェクトと通信可能に接続する制御システムとを含む計算機システムの制御方法であって、
前記制御システムは、
少なくとも一つの計算機を含み、
前記制御系の一部であって、前記オブジェクトを含む部分系の定義及び前記部分系において遂行されるタスクの定義を含む初期情報と、前記制御系において遂行されるタスクの計画と、を保持し、
前記計算機システムの制御方法は、
前記制御システムが、前記制御系全体の状態を把握するための監視データを取得する第１のステップと、
前記制御システムが、前記監視データから時系列データを生成し、前記初期情報及び前記計画を用いて、前記部分系及び前記部分系において遂行するタスクの識別情報を決定し、前記部分系の識別情報、前記タスクの識別情報、及び前記時系列データを対応づけた監視履歴を生成し、第１データベースに保存する第２のステップと、
前記制御システムが、前記タスクの遂行のために実行する行動を決定するための方策を新たに生成する必要があるターゲットオブジェクトが存在する場合、前記計画を参照して、前記ターゲットオブジェクトを含む前記部分系と、当該部分系において遂行されるタスクとを特定する第３のステップと、
前記第１データベースから、特定された前記部分系及び特定された前記タスクの組合せに一致する前記監視履歴を取得する第４のステップと、
前記制御システムが、前記ターゲットオブジェクトに、取得した前記監視履歴を送信する第５のステップと、
前記オブジェクトが、前記部分系の状態及び前記方策に基づいて実行する行動を決定する第６のステップと、
前記オブジェクトが、決定された前記行動を実行する第７のステップと、
前記オブジェクトが、実行した前記行動に関する行動履歴を第２データベースに保存する第８のステップと、
前記オブジェクトが、前記計算機から前記監視履歴を受信した場合、前記行動履歴及び受信した前記監視履歴を用いて前記新たな方策を生成する第９のステップと、を含むことを特徴とする計算機システムの制御方法。

【請求項8】

請求項７に記載の計算機システムの制御方法であって、
前記第５のステップは、
前記制御システムが、前記第１データベースから取得した前記監視履歴を、当該監視履歴に対応する前記タスクを構成するサブタスク単位に分割することによって、部分監視履歴を生成する第１０のステップと、
前記制御システムが、前記ターゲットオブジェクトに、前記部分監視履歴を送信する第１１のステップと、を含むことを特徴とする計算機システムの制御方法。

【請求項9】

請求項８に記載の計算機システムの制御方法であって、
前記第１０のステップは、前記制御システムが、前記サブタスク間の因果関係を解析するステップを含み、
前記第１１のステップは、前記制御システムが、因果関係によって関連づけられる前記部分監視履歴を送信するステップを含むことを特徴とする計算機システムの制御方法。

【請求項10】

請求項７に記載の計算機システムの制御方法であって、
前記監視履歴は、時間情報を含み、
前記第５のステップは、
前記制御システムが、前記監視履歴に含まれる前記時間情報及び前記計画に基づいて、前記第１データベースから取得した前記監視履歴を、当該監視履歴に対応する前記タスクを構成するサブタスク単位に分割することによって、部分監視履歴を生成するステップと、
前記制御システムが、前記ターゲットオブジェクトに、前記部分監視履歴を送信するステップと、を含むことを特徴とする計算機システムの制御方法。

【請求項11】

請求項７に記載の計算機システムの制御方法であって、
前記第７のステップは、前記オブジェクトが、前記方策を用いた前記タスクの遂行中に、前記新たな方策を生成するステップを含むことを特徴とする計算機システムの制御方法。

【請求項12】

請求項１１に記載の計算機システムの制御方法であって、
前記第８のステップは、前記オブジェクトが、前記新たな方策を保存し、又は、現在使用している前記方策を前記新たな方策に更新するステップを含むことを特徴とする計算機システムの制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、自律体として機能するオブジェクトが協調して動作するシステムに関する。

【背景技術】

【0002】

自律体として機能するオブジェクトが協調して動作するシステムに関する技術として特許文献１に記載の技術が知られている。

【0003】

特許文献１には、「複数の自律体を有する自律体システムであって、複数の自律体の各々は、状況を把握する状況把握部と、把握された状況に基づいて動作を決定する動作決定部と、決定した動作を実行する動作実行部と、を有し、前記自律体システムが有する前記複数の自律体は、一つ以上の第１の自律体と、二つ以上の第２の自律体とを含み、第１の自律体の状況把握部が把握する状況は、第２の自律体の状況を含み、第２の自律体の状況把握部が把握する状況は、第１の自律体の動作実行部によって実行された動作の結果を含み、第２の自律体の動作決定部は、第１の自律体の動作実行部によって実行された動作の結果に基づいて動作を決定する。」と記載されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０２０－８７２０６号公報

【非特許文献】

【0005】

【文献】Alexander Sasha Vezhnevets, Simon Osindero, Tom Schaul, Nicolas Heess, Max Jaderberg, David Silver, Koray Kavukcuoglu、"FeUdal Networks for Hierarchical Reinforcement Learning"、［online］、２０１７年３月３日、［令和３年４月１６日検索］、インターネット<https://arxiv.org/abs/1703.01161>

【発明の概要】

【発明が解決しようとする課題】

【0006】

自律体として機能するオブジェクトは、タスク遂行のために実行する行動を決定するための方策（モデル）を保持する。タスク及びタスクを遂行する系（環境）等に応じて方策は異なる。方策は、一般的に、学習処理によって生成され、また、更新される。

【0007】

タスク及び系の少なくともいずれかが変化した場合に、新たな方策を獲得する方法として以下の二つが考えられる。

【0008】

一つの方法は、現在の方策に基づいて行動を試行錯誤することによって、新たな方策を獲得する方法である。この方法の場合、タスクを遂行に必要な行動が行わない可能性がある。

【0009】

もう一つの方法は、現在の方策を初期化し、行動を試行錯誤することによって、新たな方策を獲得する方法である。この方法の場合、学習コストが大きくなるという問題がある。

【0010】

本発明は、自律体として機能するオブジェクトの方策の効率的な獲得を支援する方法及びシステムを提供することを目的とする。

【課題を解決するための手段】

【0011】

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、制御系を構成する、自律的に動作する複数のオブジェクトと、前記複数のオブジェクトと通信可能に接続する制御システムとを備える計算機システムであって、前記制御システムは、少なくとも一つの計算機を含み、前記制御系の一部であって、前記オブジェクトを含む部分系の定義及び前記部分系において遂行されるタスクの定義を含む初期情報と、前記制御系において遂行されるタスクの計画と、を保持し、前記制御系全体の状態を把握するための監視データを取得し、前記監視データから時系列データを生成し、前記初期情報及び前記計画を用いて、前記部分系及び前記部分系において遂行するタスクの識別情報を決定し、前記部分系の識別情報、前記タスクの識別情報、及び前記時系列データを対応づけた監視履歴を生成し、第１データベースに保存し、前記タスクの遂行のために実行する行動を決定するための方策を新たに生成する必要があるターゲットオブジェクトが存在する場合、前記計画を参照して、前記ターゲットオブジェクトを含む前記部分系と、当該部分系において遂行される前記タスクとを特定し、前記第１データベースから、特定された前記部分系及び特定された前記タスクの組合せに一致する前記監視履歴を取得し、前記ターゲットオブジェクトに、取得した前記監視履歴を送信し、前記オブジェクトは、前記部分系の状態及び前記方策に基づいて実行する行動を決定し、決定された前記行動を実行し、実行した前記行動に関する行動履歴を第２データベースに保存し、前記計算機から前記監視履歴を受信した場合、前記行動履歴及び受信した前記監視履歴を用いて前記新たな方策を生成する。

【発明の効果】

【0012】

本発明によれば、制御システムは、有用な監視履歴を送信することによって、自律体として機能するオブジェクトの方策の効率的な獲得を支援できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

【図面の簡単な説明】

【0013】

【図1】実施例１の計算機システムの構成例を示す図である。

【図2】実施例１の制御システムに含まれる計算機の構成の一例を示す図である。

【図3】実施例１の装置の構成の一例を示す図である。

【図4】実施例１の監視履歴のデータ構造の一例を示す図である。

【図5】実施例１の行動履歴のデータ構造の一例を示す図である。

【図6】実施例１の制御システムが実行する制御処理の一例を説明するフローチャートである。

【図7】実施例１の制御システムによって提示される画面の一例を示す図である。

【図8】実施例１の制御システムが実行する監視履歴送信処理を説明するフローチャートである。

【図9】実施例１の装置が実行する行動決定処理を説明するフローチャートである。

【図10】実施例１の装置が実行する行動方策生成処理を説明するフローチャートである。

【図11】実施例２の制御システムが実行する監視履歴送信処理を説明するフローチャートである。

【図12】実施例３の制御システムが実行する監視履歴送信処理を説明するフローチャートである。

【発明を実施するための形態】

【0014】

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

【0015】

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。

【0016】

本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。

【0017】

図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。

【実施例1】

【0018】

図１は、実施例１の計算機システムの構成例を示す図である。

【0019】

計算機システムは、制御システム１００及び複数の装置１０１を含む。制御システム１００及び複数の装置１０１によって一つの系（制御系）が構成される。制御システム１００及び装置１０１は、ネットワークを介して接続される。ネットワークは、例えば、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）及びＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等であり、接続方式は有線及び無線のいずれでもよい。

【0020】

制御システム１００及び装置１０１は自律体として機能する。ここで、自律体とは、自身を含む系の状態を把握し、状態に応じて行動を選択し、選択した行動を実行するオブジェクトを表す。なお、人間が状態を判断し、判断結果に基づいて行動を選択し、装置１０１に対して行動を実行するための操作を行うオブジェクトも自律体として扱うことができる。また、人間そのものを自律体として扱うこともできる。

【0021】

制御システム１００は、制御系の状態を監視し、制御系全体を最適化するために装置１０１に協調を促す出力を送信する。出力は、例えば、制御情報及び制御指示等である。制御システム１００は、装置１０１の状態及び実行した行動等の情報を取得せずに、制御系を俯瞰的に監視する。例えば、物流倉庫が制御系である場合、制御システム１００は、物流倉庫内の物品の位置、装置の位置、及び装置の稼働状態等を監視する。

【0022】

なお、制御システム１００は、制御系全体を最適化する自律体であり、全体知と呼んでもよい。

【0023】

制御システム１００は、制御部１１０及び監視部１１１を有し、また、監視履歴データベース１２０を保持する。監視部１１１は、制御系の状態を把握するための監視データを取得し、監視履歴４００（図４参照）として監視履歴データベース１２０に格納する。制御部１１０は、監視履歴４００に基づいて、制御系全体を最適化するための出力を決定し、対象の装置１０１に出力を送信する。例えば、制御部１１０は、制御系全体に対して設定されたＫＰＩ（ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｉｃａｔｏｒ）を改善する出力を送信する。

【0024】

装置１０１が存在する空間には、監視データを取得するカメラ、センサ等が設置されている。装置１０１の状態を特定するための情報として、画像、動画、並びに、温度及び湿度等の計測値等の監視データが取得される。なお、センサは装置１０１に設置されてもよい。装置１０１に設置されるセンサは、装置１０１の通信手段とは異なる通信手段を用いて、制御システム１００に監視データを送信する。

【0025】

装置１０１は、所定の目的を達成するためのタスクを遂行する。具体的には、装置１０１は、センサ等を用いて、自身を含む系の状態を把握し、状態及び制御システム１００からの出力に基づいて、タスク遂行のための行動を選択し、行動を実行する。装置１０１は、制御系の一部であって、装置１０１の周囲の系（部分系）の下で、自律的に行動を選択する。

【0026】

装置１０１は、例えば、ピッキングロボット、搬送車、及びフォークリフト等である。装置１０１がピッキングロボットである場合、ピッキングロボットは、「物品Ａの把持及び移動」というタスクを遂行するために、物品Ａの収容状態等に応じて、アームを所定の角度に伸ばし、物品Ａの所定の位置で物品Ａを把持し、物品Ａを配置エリアの所定の位置に置く、という行動を実行する。

【0027】

なお、装置１０１は、部分系を最適化する自律体であり、自律個と呼んでもよい。

【0028】

装置１０１は、行動決定部１３０、実行部１３１、及び学習部１３２を有し、また、行動履歴データベース１４０を保持する。行動決定部１３０は、行動を決定するための行動方策１５０、部分系の状態、及び制御システム１００の出力に基づいて、行動を選択する。例えば、行動決定部１３０は、部分系に対して設定されたＫＰＩを改善する行動を決定する。なお、行動方策１５０では部分系が環境として扱われる。実行部１３１は、選択された行動を実行し、実行した行動に関する行動履歴５００（図５参照）を行動履歴データベース１４０に格納する。学習部１３２は、行動履歴５００を用いて、行動方策１５０を生成するための学習処理を実行する。学習処理は、例えば、強化学習である。

【0029】

図２は、実施例１の制御システム１００に含まれる計算機２００の構成の一例を示す図である。

【0030】

制御システム１００は、少なくとも一つの計算機２００を含む。計算機２００は、プロセッサ２０１、メモリ２０２、及びネットワークインタフェース２０３を有する。なお、計算機２００は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置を有してもよい。また、計算機２００は、キーボード、マウス、及びタッチパネル等の入力装置、並びに、ディスプレイ等の出力装置を有してもよい。

【0031】

プロセッサ２０１は、メモリ２０２に格納されるプログラムを実行する。プロセッサ２０１がプログラムにしたがって処理を実行することによって、特定の機能部（モジュール）として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ２０１が当該機能部を実現するプログラムを実行していることを示す。

【0032】

メモリ２０２は、プロセッサ２０１が実行するプログラム及びプログラムが使用する情報を格納する。本実施例のメモリ２０２は、制御部１１０及び監視部１１１を実現するプログラムを格納し、また、監視履歴データベース１２０を格納する。

【0033】

ネットワークインタフェース２０３は、ネットワークを介して外部装置と通信するためのインタフェースである。

【0034】

なお、計算機２００が有する各機能部は、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。

【0035】

なお、制御システム１００は、監視履歴データベース１２０を管理するストレージシステムを含んでもよい。

【0036】

図３は、実施例１の装置１０１の構成の一例を示す図である。

【0037】

装置１０１は、プロセッサ３０１、メモリ３０２、ネットワークインタフェース３０３、及び駆動装置３０４を有する。なお、装置１０１は、記憶装置、入力装置、及び出力装置を有してもよい。

【0038】

プロセッサ３０１、メモリ３０２、及びネットワークインタフェース３０３は、プロセッサ２０１、メモリ２０２、及びネットワークインタフェース２０３と同じハードウェア要素である。駆動装置３０４は、行動に応じた動作を実現する装置であり、ローラ、ベルト、センサ、モータ、リフト、アーム、及びタイヤ等である。

【0039】

本実施例のメモリ３０２は、行動決定部１３０、実行部１３１、及び学習部１３２を実現するプログラムを格納し、また、行動履歴データベース１４０を格納する。

【0040】

なお、装置１０１が有する各機能部は、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。

【0041】

図４は、実施例１の監視履歴４００のデータ構造の一例を示す図である。

【0042】

監視履歴４００は、部分系ＩＤ４０１、タスクＩＤ４０２、期間４０３、及び時系列データ４０４を含む。

【0043】

部分系ＩＤ４０１は、部分系を識別するための環境ＩＤを格納するフィールドである。タスクＩＤ４０２は、部分系において遂行されるタスクを識別するためのタスクＩＤを格納するフィールドである。

【0044】

なお、部分系及びタスクを一つの識別情報で識別するようにしてもよい。例えば、上位ビットが部分系を表し、下位ビットがタスクを表すビット列が考えられる。

【0045】

時系列データ４０４は、監視データから生成される時系列データを格納するフィールドである。監視データが画像又は計測値の場合、時間が連続する、複数の画像及び計測値から生成された時系列データが時系列データ４０４に格納される。監視データが動画の場合、一つの動画が時系列データ４０４に格納される。期間４０３は、時系列データの期間を格納するフィールドである。例えば、「２０２０／０４／０１０９：３０－２０２０／０４／０１０９：４０」等が格納される。

【0046】

図５は、実施例１の行動履歴５００のデータ構造の一例を示す図である。

【0047】

行動履歴５００は、タスクＩＤ５０１、時間５０２、状態５０３、行動５０４、及び遷移状態５０５を含む。

【0048】

タスクＩＤ５０１は、装置１０１が遂行するタスクを識別するためのタスクＩＤを格納するフィールドである。時間５０２は、選択された行動が実行された時刻を格納するフィールドである。状態５０３は、行動実行前の部分系の状態に関するデータを格納するフィールドである。行動５０４は、選択した行動に関するデータを格納するフィールドである。遷移状態５０５は、行動実行後の部分系の状態に関するデータを格納するフィールドである。

【0049】

図６は、実施例１の制御システム１００が実行する制御処理の一例を説明するフローチャートである。図７は、実施例１の制御システム１００によって提示される画面の一例を示す図である。

【0050】

監視部１１１は、制御系から監視データを取得する（ステップＳ１０１）。

【0051】

このとき、監視部１１１は、監視履歴４００として管理するために必要な時間幅（例えば、１０分等）の監視データが取得されるまで、監視データを一時的に蓄積する。なお、監視部１１１は、制御系において遂行するタスクの計画を保持し、当該計画に基づいて、時系列データを生成するための時間幅を決定してもよい。

【0052】

次に、監視部１１１は、監視データから監視履歴４００を生成し（ステップＳ１０２）、監視履歴データベース１２０に監視履歴４００を保存する（ステップＳ１０３）。

【0053】

具体的には、監視部１１１は、監視データから時系列データを生成し、付与する部分系ＩＤ及びタスクＩＤを決定する。また、監視部１１１は、部分系ＩＤ、タスクＩＤ、時系列データ、及び時系列データの期間を含む監視履歴４００を生成する。

【0054】

ここで、部分系ＩＤ及びタスクＩＤの付与方法として以下のような方法が考えられる。

【0055】

（方法１）制御システム１００に部分系の定義及び部分系ＩＤの対応付け、並びに、タスクの定義及びタスクＩＤの対応付けを初期情報として設定する。また、制御システム１００にタスクの計画を設定する。監視部１１１は、監視データの取得位置、タスクの計画、及び初期情報に基づいて、部分系ＩＤ及びタスクＩＤを決定する。

【0056】

（方法２）監視部１１１は、ユーザに対して、部分系ＩＤ及びタスクＩＤを入力するための画面７００を提示する。画面７００は、時系列データ表示欄７０１、部分系ＩＤ入力欄７０２、タスクＩＤ入力欄７０３、及び登録ボタン７０４を含む。時系列データ表示欄７０１には、監視履歴４００に含まれる時系列データが表示される。なお、ユーザが監視履歴４００に含める時系列データを選択できるようにしてもよい。部分系ＩＤ入力欄７０２及びタスクＩＤ入力欄７０３は、部分系ＩＤ及びタスクＩＤを入力するための欄である。ユーザは、時系列データを参照して、部分系ＩＤ入力欄７０２及びタスクＩＤ入力欄７０３に値を入力する。登録ボタン７０４は、部分系ＩＤ入力欄７０２及びタスクＩＤ入力欄７０３に入力した値を登録するための操作ボタンである。

【0057】

図６の説明に戻る。

【0058】

制御部１１０は、監視履歴４００に基づいて、制御系全体の状態を把握し、制御系全体を最適化するための出力を決定し、決定した出力を装置１０１に送信する（ステップＳ１０４）。例えば、制御部１１０は、図示しない方策及び監視履歴４００を用いて出力を決定する。制御部１１０の方策では制御系が環境として扱われる。なお、制御部１１０は、監視データに基づいて、制御系全体の状態を把握してもよい。

【0059】

このように、制御システム１００は、部分系のＫＰＩ等、各装置１０１の特性を把握することなく、制御系全体の最適化を促す出力を装置１０１に送信する。

【0060】

なお、制御システム１００は、監視履歴データベース１２０とは別に行動履歴データベースを保持してもよい。この場合、制御部１１０は、出力を送信した時刻、出力送信前の制御系の状態、決定した出力、及び出力送信後の制御系の状態を含む行動履歴を生成し、行動履歴データベースに格納する。制御システム１００は、行動履歴データベースを用いて、方策を生成又は更新するための学習処理を実行してもよい。

【0061】

図８は、実施例１の制御システム１００が実行する監視履歴送信処理を説明するフローチャートである。

【0062】

制御システム１００の制御部１１０は、ある装置１０１について、部分系及びタスクのいずれかの変化に伴って、新たな行動方策１５０が必要と判定した場合、監視履歴送信処理を実行する。例えば、ユーザからの入力に基づいて新たな行動方策１５０の要否を判定できる。

【0063】

以下の説明では、新たな行動方策１５０が必要となった装置１０１をターゲット装置１０１と記載する。

【0064】

制御部１１０は、新たな行動方策１５０を適用する部分系及びタスクを確認する（ステップＳ２０１）。例えば、制御部１１０は、タスクの計画、又は、ユーザ入力に基づいて、新たな行動方策１５０を適用する部分系及びタスクを確認する。

【0065】

次に、制御部１１０は、監視履歴データベース１２０から、確認した部分系及びタスクに対応する監視履歴４００を選択する（ステップＳ２０２）。具体的には、制御部１１０は、部分系ＩＤ４０１及びタスクＩＤ４０２の値が、確認した部分系及びタスクの識別情報に一致する監視履歴４００を選択する。

【0066】

次に、制御部１１０は、ターゲット装置１０１に、選択した監視履歴４００を含む学習指示を送信する（ステップＳ２０３）。

【0067】

図９は、実施例１の装置１０１が実行する行動決定処理を説明するフローチャートである。

【0068】

装置１０１は、センサ等を用いて、部分系の状態を把握するための状態データを取得する（ステップＳ３０１）。

【0069】

装置１０１の行動決定部１３０は、状態データ及び行動方策１５０に基づいて、行動を決定し、装置１０１の実行部１３１は、決定した行動を実行する（ステップＳ３０２）。制御システム１００から出力を受信している場合、実行部１３１は、状態データ、行動方策１５０、及び当該出力に基づいて、行動を決定する。実行部１３１は、制御システム１００から受信した出力をそのまま使用するわけではなく、部分系のＫＰＩ等を改善するように、自律的に行動を決定する。

【0070】

装置１０１の実行部１３１は、実行した行動に関する行動履歴５００を生成し、行動履歴データベース１４０に行動履歴５００を格納する（ステップＳ３０３）。

【0071】

このように、装置１０１は、他の装置１０１の特性等を把握することなく、部分系を最適化するように行動を実行する。

【0072】

図１０は、実施例１の装置１０１が実行する行動方策生成処理を説明するフローチャートである。

【0073】

装置１０１の学習部１３２は、実行契機が発生した場合、行動方策生成処理を実行する。例えば、一定時間の経過、行動履歴５００が一定数蓄積された場合、又は、制御システム１００からの学習指示の受信等が実行契機となる。ここでは、制御システム１００から学習指示を受信した場合に実行される行動方策生成処理を説明する。

【0074】

なお、行動方策生成処理は、タスクの開始前に実行されてもよいし、また、タスクの遂行中に実行されてもよい。タスクの遂行中に新たな行動方策１５０を生成することによって、タスクの切り替えに迅速に対応することができる。

【0075】

学習部１３２は、行動履歴データベース１４０に格納される行動履歴５００、及び制御システム１００から受信した監視履歴４００を読み出す（ステップＳ４０１）。

【0076】

次に、学習部１３２は、監視履歴４００及び行動履歴５００を用いて、学習処理を実行する（ステップＳ４０２）。本実施例では、強化学習が実行されるものとする。強化学習は公知の技術であるため詳細な説明は省略する。

【0077】

次に、学習部１３２は、学習処理によって生成された新たな行動方策１５０を保存する（ステップＳ４０３）。

【0078】

学習部１３２は、現在の行動方策１５０を新たな行動方策１５０に更新してもよいし、現在の行動方策１５０を更新せずに、新たな行動方策１５０をストックとして保存してもよい。

【0079】

具体例を用いて、実施例１に係る発明の効果を説明する。ここでは、装置１０１としてピッキングロボットを考える。ピッキングロボットは、「単独で、搬送レーン上の物品Ａを把持し、所定の位置に移動させる」タスクＡを遂行しているものとする。また、当該ピッキングロボットに、「二つのピッキングロボットが協働して物品Ａを把持し、所定の位置に移動させる」タスクＢが新たに割り当てられるものとする。ただし、部分系は同一であるものとする。

【0080】

現在の行動方策１５０を用いて行動の試行錯誤を行う場合、ピッキングロボット同士が衝突を回避しようとして物品の把持が成功しない可能性がある。この場合、新たな方策を生成できない。ピッキングロボットが、行動方策１５０を初期化し、行動の試行錯誤を行って、行動方策１５０を更新する方法が考えられる。しかし、この方法の場合、学習処理のコストが高いという問題がある。

【0081】

実施例１の制御システム１００は、部分系が同一で、かつ、タスクＢを遂行していたピッキングロボットに関する監視履歴４００を送信することによって試行錯誤する行動を絞り込むことができる。したがって、学習処理のコストを削減することができる。

【0082】

以上で説明したように、実施例１によれば、制御システム１００は、装置１０１に新たな行動方策１５０の生成に有用な監視履歴４００を送信できる。装置１０１は、行動履歴５００及び監視履歴４００を用いることによって、効率的に行動方策１５０を生成することができる。

【実施例2】

【0083】

実施例２では、制御システム１００は、サブタスク単位に監視履歴４００を分割し、分割された監視履歴４００を装置１０１に送信する。以下、実施例１との差異を中心に実施例２について説明する。

【0084】

実施例２の計算機システムの構成は実施例１と同一である。実施例２の制御システム１００及び装置１０１のハードウェア構成及びソフトウェア構成は実施例１と同一である。実施例２の制御処理、行動決定処理、及び行動方策生成処理は、実施例１と同一である。

【0085】

実施例２では、監視履歴送信処理が一部異なる。図１１は、実施例２の制御システム１００が実行する監視履歴送信処理を説明するフローチャートである。

【0086】

制御部１１０は、新たな行動方策１５０を適用する部分系及びタスクを確認する（ステップＳ２０１）。

【0087】

次に、制御部１１０は、監視履歴データベース１２０から、確認した部分系及びタスクの識別情報（部分系ＩＤ及びタスクＩＤ）に対応する監視履歴４００を選択する（ステップＳ２０２）。

【0088】

次に、制御部１１０は、選択された監視履歴４００をサブタスク単位に分割することによって、部分監視履歴を生成する（ステップＳ２１１）。分割方法としては、以下のような方法が考えられる。

【0089】

（方法１）制御部１１０は、非特許文献１に記載の手法を用いて監視履歴４００をサブタスク単位に分割する。なお、非特許文献１に記載の手法を用いれば、サブタスク間の遷移順番等、サブタスク間の因果関係も取得できる。

【0090】

（方法２）制御部１１０は、タスクの計画に基づいて、各サブタスクが遂行される時間範囲を特定し、特定された時間範囲に基づいて、監視履歴４００をサブタスク単位に分割する。

【0091】

次に、制御部１１０は、ターゲット装置１０１に、部分監視履歴を含む学習指示を送信する（ステップＳ２１２）。このとき、制御部１１０は、重要なサブタスクの部分監視履歴のみを学習指示に含めてもよい。また、制御部１１０は、サブタスク間の因果関係に基づいて、関連性を有するサブタスクの部分監視履歴のみを学習指示に含めてもよい。

【0092】

実施例２によれば、監視履歴４００をサブタスク単位に分割した部分監視履歴を送信することによって、サブタスク単位で試行錯誤する行動を絞り込むことができる。したがって、学習部１３２は、行動方策１５０をより効率的に生成することができる。

【0093】

なお、監視部１１１が、非特許文献１に記載の手法を用いて、監視履歴４００から部分監視履歴を生成し、監視履歴データベース１２０に保存してもよい。この場合、監視部１１１は、部分監視履歴にサブタスクの識別情報を含める。制御部１１０は、監視部１１１によって生成された部分監視履歴を選択し、ターゲット装置１０１に送信する。

【実施例3】

【0094】

実施例３では、制御システム１００は、新たな行動方策１５０を適用する部分系と同一の部分系であって、新たな行動方策１５０を適用するタスクと同一のタスクを遂行する装置１０１から行動履歴５００を取得し、ターゲット装置１０１に送信する。以下、実施例１との差異を中心に実施例３について説明する。

【0095】

実施例３の計算機システムの構成は実施例１と同一である。実施例３の制御システム１００及び装置１０１のハードウェア構成及びソフトウェア構成は実施例１と同一である。実施例３の制御処理、行動決定処理、及び行動方策生成処理は、実施例１と同一である。

【0096】

実施例３では、監視履歴送信処理が一部異なる。図１２は、実施例３の制御システム１００が実行する監視履歴送信処理を説明するフローチャートである。

【0097】

制御部１１０は、新たな行動方策１５０を適用する部分系及びタスクを確認する（ステップＳ２０１）。

【0098】

次に、制御部１１０は、確認した部分系及びタスクに対応する行動履歴５００を保持するソース装置１０１を特定する（ステップＳ２２１）。例えば、制御部１１０は、タスクの計画に基づいてソース装置１０１を特定する。

【0099】

次に、制御部１１０は、ソース装置１０１から行動履歴５００を取得する（ステップＳ２２２）。

【0100】

次に、制御部１１０は、ターゲット装置１０１に、行動履歴５００を含む学習指示を送信する（ステップＳ２２３）。

【0101】

なお、制御部１１０は、実施例１と同様に、監視履歴データベース１２０から監視履歴４００を取得してもよい。

【0102】

実施例３によれば、他の装置１０１の行動履歴５００をターゲット装置１０１に送信することによって、学習部１３２は、行動方策１５０をより効率的に生成することができる。

【0103】

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

【0104】

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

【0105】

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

【0106】

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

【0107】

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

【符号の説明】

【0108】

１００制御システム
１０１装置
１１０制御部
１１１監視部
１２０監視履歴データベース
１３０行動決定部
１３１実行部
１３２学習部
１４０行動履歴データベース
１５０行動方策
２００計算機
２０１、３０１プロセッサ
２０２、３０２メモリ
２０３、３０３ネットワークインタフェース
３０４駆動装置
４００監視履歴
５００行動履歴
７００画面
７０１時系列データ表示欄
７０２部分系ＩＤ入力欄
７０３タスクＩＤ入力欄
７０４登録ボタン

【図1】