特許7405272 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電信電話株式会社の特許一覧

特許7405272制御対象デバイス選択装置、制御対象デバイス選択方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-18

(45)【発行日】2023-12-26

(54)【発明の名称】制御対象デバイス選択装置、制御対象デバイス選択方法およびプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20231219BHJP

【ＦＩ】

G06N20/00

【請求項の数】 4

(21)【出願番号】P 2022548298

(86)(22)【出願日】2020-09-09

(86)【国際出願番号】 JP2020034153

(87)【国際公開番号】W WO2022054176

(87)【国際公開日】2022-03-17

【審査請求日】2023-02-17

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】中里彦俊

(72)【発明者】

【氏名】阿部健二

【審査官】小太刀慶明

(56)【参考文献】

【文献】特開２０２０－１２５１０２（ＪＰ，Ａ）

【文献】特開２０１８－１３６７６７（ＪＰ，Ａ）

【文献】国際公開第２０２０／０２２１２３（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

制御対象デバイスを選択する制御対象デバイス選択装置であって、
各ＩｏＴデバイスから取得したデータで示される外界因子について、各外界因子の不純度を計算することにより、報酬に影響を与える前記外界因子を構成要素として抽出し、抽出した外界因子の値を所定のレンジ幅に分割して、前記制御対象デバイスを制御する状況を、分割したレンジごとに分類として定義する状況分類部と、
各ＩｏＴデバイスから取得した外界因子について、前記分類ごとに、複数の制御対象デバイスのデバイス制御値を生成する制御値生成部と、
各制御対象デバイスの制御結果から得られる報酬を示すスコアを計算するスコア計算部と、
同一の前記分類に含まれるデバイス制御値を示すデバイス制御因子パターンごとに、前記デバイス制御値と前記スコアとで示される各学習データを、学習データＤＢに記憶する学習データ管理部と、
前記学習データを用いて、所定の報酬を満たすように強化学習することにより、前記分類ごとの学習モデルを生成する学習モデル管理部と、
前記分類それぞれのデバイス制御因子パターンにおいて、特定の制御対象デバイスの制御値のみを変更し、変更後の制御結果であるスコアが、前記スコアの上限値および下限値を所定のレンジ幅に分割したレンジのうちの所定のレンジ内に収まる場合に、当該特定の制御対象デバイスを、非関与デバイス候補として特定するとともに、前記非関与デバイス候補における非関与の分類の範囲を特定する非関与デバイス候補特定処理を実行し、前記制御対象デバイスそれぞれにおいて前記非関与デバイス候補特定処理を実行し、非関与の分類ごとに、前記デバイス制御因子パターンの中からデバイス制御値を選択し、特定した前記非関与デバイス候補を除いた制御対象デバイスの制御を行い、所定の報酬を満たす場合に、当該非関与デバイス候補を非関与デバイスとして確定するとともに、前記非関与の分類の範囲を確定する非関与デバイス特定部と、
前記非関与の分類の範囲においては、前記非関与デバイスを除いた各制御対象デバイスに前記デバイス制御値を送信するデバイス制御部と、
を備えることを特徴とする制御対象デバイス選択装置。

【請求項2】

同一の前記分類における学習データのスコアが、所定期間以上継続して前記所定の報酬を満たさない場合に、前記外界因子以外の未知若しくは未計測の前記報酬に影響を与える要因を示すロケーション特性が変化したと判定する持続的外乱判定部をさらに備え、
前記持続的外乱判定部が、前記所定期間以上継続して前記スコアが前記所定の報酬を満たさず、前記ロケーション特性が変化したと判定したことにより、前記学習データ管理部が、前記所定期間より以前の学習データを削除し、前記学習モデル管理部が、前記分類ごとの学習モデルを更新した場合、
前記状況分類部が、所定の時間間隔で分類の定義を再度行った結果、前記分類の定義におけるレンジに変更があった際に、前記学習データ管理部が前記学習データの再分類を行い、前記学習モデル管理部が、変更後の分類において学習データを更新した場合、
前記状況分類部が、所定の時間間隔で報酬に影響を与える前記外界因子の構成要素の抽出を行った結果、前記構成要素が変化した際に、前記学習データ管理部が、それ以前の学習データを削除し、前記学習モデル管理部が、変化した前記構成要素を用いた分類ごとに学習モデルを更新した場合、
のいずれかの場合を検出すると、前記非関与デバイスの確定と、前記非関与の分類の範囲の確定とを再度実行させる非関与デバイス更新指示を、前記非関与デバイス特定部に出力する非関与デバイス更新部を備えること
を特徴とする請求項１に記載の制御対象デバイス選択装置。

【請求項3】

制御対象デバイスを選択する制御対象デバイス選択装置の制御対象デバイス選択方法であって、
前記制御対象デバイス選択装置は、
各ＩｏＴデバイスから取得したデータで示される外界因子について、各外界因子の不純度を計算することにより、報酬に影響を与える前記外界因子を構成要素として抽出し、抽出した外界因子の値を所定のレンジ幅に分割して、前記制御対象デバイスを制御する状況を、分割したレンジごとに分類として定義するステップと、
各ＩｏＴデバイスから取得した外界因子について、前記分類ごとに、複数の制御対象デバイスのデバイス制御値を生成するステップと、
各制御対象デバイスの制御結果から得られる報酬を示すスコアを計算するステップと、
同一の前記分類に含まれるデバイス制御値を示すデバイス制御因子パターンごとに、前記デバイス制御値と前記スコアとで示される各学習データを、学習データＤＢに記憶するステップと、
前記学習データを用いて、所定の報酬を満たすように強化学習することにより、前記分類ごとの学習モデルを生成するステップと、
前記分類それぞれのデバイス制御因子パターンにおいて、特定の制御対象デバイスの制御値のみを変更し、変更後の制御結果であるスコアが、前記スコアの上限値および下限値を所定のレンジ幅に分割したレンジのうちの所定のレンジ内に収まる場合に、当該特定の制御対象デバイスを、非関与デバイス候補として特定するとともに、前記非関与デバイス候補における非関与の分類の範囲を特定する非関与デバイス候補特定処理を実行し、前記制御対象デバイスそれぞれにおいて前記非関与デバイス候補特定処理を実行し、非関与の分類ごとに、前記デバイス制御因子パターンの中からデバイス制御値を選択し、特定した前記非関与デバイス候補を除いた制御対象デバイスの制御を行い、所定の報酬を満たす場合に、当該非関与デバイス候補を非関与デバイスとして確定するとともに、前記非関与の分類の範囲を確定するステップと、
前記非関与の分類の範囲においては、前記非関与デバイスを除いた各制御対象デバイスに前記デバイス制御値を送信するステップと、
を実行することを特徴とする制御対象デバイス選択方法。

【請求項4】

コンピュータを、請求項１または請求項２に記載の制御対象デバイス選択装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、強化学習を用いて生成された制御値を用いて制御される制御対象デバイスを選択する、制御対象デバイス選択装置、制御対象デバイス選択方法およびプログラムに関する。

【背景技術】

【0002】

システムの異常状態の検知に、正常状態の学習データのみを用いてＤＮＮ（Deep Neural Network）により、異常状態を分類する技術が公開されている（例えば、特許文献１参照）。
特許文献１の技術によれば、正常状態の傾向が時系列に変化する場合、直近から一定期間分の学習データのみで、学習モデルを再構築する。さらに、一時的な高負荷等の「正常な外れ値」の傾向変化に対応させるように、直近一定期間のデータの中から特異データの種別に限定して正常な外れ値を学習モデルの再構築に利用することができる。

【先行技術文献】

【特許文献】

【0003】

【文献】国際公開第２０１９／１３８６５５号

【発明の概要】

【発明が解決しようとする課題】

【0004】

一方、強化学習における報酬（スコア）は、環境として計測される外界の状況の変化（以下、「外乱」と称する。）によって大きく変動することがある。特許文献１に記載の技術は、システム状態値そのものの時系列的な変化を想定して学習モデルの再構築をしているが、システム状態値の変動に影響する要因による外乱については、考慮していない。
また、従来強化学習における報酬（スコア）に変動を与える因子（後記する「外界因子」）は、人手により特定する必要があり、その特定因子のレンジをクラスごとに「状況」（Situation）として定義することも、人手により行う必要があった。

【0005】

この問題については、強化学習における報酬（スコア）に変動を与える外乱構成要因（外界因子）を、自動的に抽出するとともに、その外乱構成要因に基づき「状況」（Situation）を自動的に定義して、学習モデルを更新することで、制御対象となるデバイス（制御対象デバイス）の適切な制御値を生成し、そのデバイスを制御することができる。

【0006】

ところで、強化学習を活用した個別環境でのデバイス間協調制御を行うシステムでは、個別環境内で各制御対象デバイスが連携しながら、所定報酬（目標報酬）を満たすように徐々に制御を最適化していく。その際、報酬達成に関与しないデバイス、つまり、当該デバイスが稼働しなくても報酬達成の状況が変わらないデバイスが存在し、このようなデバイスを他のタスクに回したり、非稼働にしたりすることにより、デバイスの稼働効率を向上させることができる。
この報酬達成に関与しないデバイス（以下「非関与デバイス」と称することがある。）は、（１）環境の状況に関わらず報酬達成に非関与のデバイス、（２）環境の特定状況において報酬達成に非関与のデバイス、の２種類が存在する。

【0007】

強化学習を活用した個別環境でのデバイス間協調制御を行うシステムとして、図１に示すような、対象車両追跡システムを例に説明する。このシステムでは、あるコース（始点から終点）において、移動対象である車両を、制御対象デバイスである首振りカメラ５ａにより追跡する。車両追跡のための各首振りカメラ５ａの制御値は、固定カメラ３ａから得られた「状況」（Situation）（ここでは、後記する外界因子である「車両の速度」）の情報に基づき、強化学習された学習モデルにより生成される。

【0008】

ここで、強化学習において設定される報酬（スコア）は、追跡区間のコースを対象車両が通過するのに要した時間のうちの、いずれかの首振りカメラ５ａにおいて車両を捕捉できた時間の合計である。つまり、追跡区間のコース全体を通して、いずれかの首振りカメラ５ａが対象車両を捕捉している時間が長い程、高いスコアとなる。

【0009】

この環境において、制御対象デバイスである首振りカメラ５ａのうち、首振りカメラ５ａ_１は、コースの近傍に位置するものの、コースが撮影範囲に含まれないため、「状況」（Situation）（「車両の速度」）に関わらず報酬達成に非関与のデバイスとなる。
また、首振りカメラ５ａ_２は、車両の速度が５０ｋｍ以上の「状況」（Situation）の場合に、首振りカメラ５ａ_２の左右に位置する首振りカメラ５ａが同時に車両を捕捉することできる状態のため、車両の速度が５０ｋｍ以上の「状況」（Situation）では報酬達成に非関与のデバイスとなる。
このような報酬達成に非関与のデバイスをそのまま稼働し続けることはデバイスの稼働効率の低下をまねくものとなる。

【0010】

このような点に鑑みて本発明がなされたのであり、本発明は、強化学習における報酬達成に非関与のデバイスとそのデバイスが非関与である「状況」（Situation）の範囲を特定して、その非関与のデバイス以外の制御対象デバイスを選択し、デバイス稼働効率を向上させることを課題とする。

【課題を解決するための手段】

【0011】

本発明に係る制御デバイス選択装置は、制御対象デバイスを選択する制御対象デバイス選択装置であって、各ＩｏＴデバイスから取得したデータで示される外界因子について、各外界因子の不純度を計算することにより、報酬に影響を与える前記外界因子を構成要素として抽出し、抽出した外界因子の値を所定のレンジ幅に分割して、前記制御対象デバイスを制御する状況を、分割したレンジごとに分類として定義する状況分類部と、各ＩｏＴデバイスから取得した外界因子について、前記分類ごとに、複数の制御対象デバイスのデバイス制御値を生成する制御値生成部と、各制御対象デバイスの制御結果から得られる報酬を示すスコアを計算するスコア計算部と、同一の前記分類に含まれるデバイス制御値を示すデバイス制御因子パターンごとに、前記デバイス制御値と前記スコアとで示される各学習データを、学習データＤＢに記憶する学習データ管理部と、前記学習データを用いて、所定の報酬を満たすように強化学習することにより、前記分類ごとの学習モデルを生成する学習モデル管理部と、前記分類それぞれのデバイス制御因子パターンにおいて、特定の制御対象デバイスの制御値のみを変更し、変更後の制御結果であるスコアが、前記スコアの上限値および下限値を所定のレンジ幅に分割したレンジのうちの所定のレンジ内に収まる場合に、当該特定の制御対象デバイスを、非関与デバイス候補として特定するとともに、前記非関与デバイス候補における非関与の分類の範囲を特定する非関与デバイス候補特定処理を実行し、前記制御対象デバイスそれぞれにおいて前記非関与デバイス候補特定処理を実行し、非関与の分類ごとに、前記デバイス制御因子パターンの中からデバイス制御値を選択し、特定した前記非関与デバイス候補を除いた制御対象デバイスの制御を行い、所定の報酬を満たす場合に、当該非関与デバイス候補を非関与デバイスとして確定するとともに、前記非関与の分類の範囲を確定する非関与デバイス特定部と、前記非関与の分類の範囲においては、前記非関与デバイスを除いた各制御対象デバイスに前記デバイス制御値を送信するデバイス制御部と、を備えることを特徴とする。

【発明の効果】

【0012】

本発明によれば、強化学習における報酬達成に非関与のデバイスとそのデバイスが非関与である「状況」（Situation）の範囲を特定して、その非関与のデバイス以外の制御対象デバイスを選択し、デバイス稼働効率を向上させることができる。

【図面の簡単な説明】

【0013】

【図1】本実施形態の一事例として対象車両追跡システムを説明する図である。

【図2】報酬（スコア）変動を左右する要因として、「状況」（Situation）と「デバイス制御因子」を説明するための図である。

【図3】本実施形態に係る制御対象デバイス選択装置の構成を示すブロック図である。

【図4】本実施形態に係る非関与デバイス特定処理を説明するための図である。

【図5】本実施形態に係る制御対象デバイス選択装置が実行する非関与デバイス特定処理の流れを示すフローチャートである。

【図6】本実施形態に係る制御対象デバイス選択装置が実行する非関与デバイス更新処理の流れを示すフローチャートである。

【図7】本実施形態に係る制御対象デバイス選択装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【発明を実施するための形態】

【0014】

次に、本発明を実施するための形態（以下、「本実施形態」と称する。）について説明する。まず、本発明において前提となる、強化学習を活用した個別環境でのデバイス間協調制御システムにおいて、当該強化学習を行う際の報酬（スコア）の変動を左右する要因について定義する。
本実施形態では、報酬（スコア）変動を左右する要因として、「状況」（Situation）と「デバイス制御因子」の２つを定義する。
「状況」（Situation）は、さらに「外界因子」と「ロケーション特性」の２つに分類する。

【0015】

「外界因子」とは、報酬の変動に影響を与える可能性のあることが既知であり、かつ、計測器などにより値を計測可能な因子を指す。報酬の変動に影響を与えるものと与えないものが存在し、「状況」（Situation）定義時には、影響を与える外界因子を取り扱う。

【0016】

「ロケーション特性」とは、外界因子以外の未知若しくは未計測（計測不可能）な報酬変動に影響を与える因子である。特定環境（ロケーション）ごとにそれぞれ特定のロケーション特性パターンが存在する。ただし、個別環境下での強化学習により最適なデバイス制御値を決定する際には、隠蔽され考慮されなくてもよい因子でもある。

【0017】

「デバイス制御因子」は、制御対象となるデバイス群（後記する「制御対象デバイス群」）の各デバイスにおける制御値（例えば、Ｌｉｓｔ型）を示す情報である。各デバイスにおける制御値（以下、「デバイス制御値」と称する。）は、所定のレンジ幅ごとに同一のカテゴリとみなし、デバイス制御因子を構成してもよい。

【0018】

図１で示した、対象車両追跡システムの例で説明すると、制御対象デバイスは首振りカメラ５ａであり、強化学習により算出される「デバイス制御因子」（デバイス制御値）は、首振りカメラ５ａの回転方向、指定角度（対象車両を追跡するための回転を開始するときに指定される角度）、回転開始時間（指定角度に設定されてから、その後に回転を開始するまでの時間）などとなる。

【0019】

また、「外界因子」は、例えば、車両の速度である。そして、「状況」（Situation）の外界因子（構成要素）が車両の速度である場合、所定のレンジ幅ごとに「状況」（Situation）を分類する。例えば、Situation「Ａ」として速度０～１５ｋｍ、Situation「Ｂ」として速度１６～３０ｋｍ、Situation「Ｃ」として速度３１～４５ｋｍのように設定する。
図１に示す例では、固定カメラ３ａにより車両の速度を計測し、その速度の情報を用いて、該当する「状況」（Situation）を特定し、その「状況」（Situation）（例えば、車両の速度が２０ｋｍであれば、Situation「Ｂ」の速度１６～３０ｋｍ）に応じたデバイス制御値（ここでは、回転方向、指定角度、回転開始時刻など）を設定して各カメラデバイス（首振りカメラ５ａ）を制御する。そして、その制御結果（ここでは、車両がコースを通過する時間のうち、各カメラデバイスが補足した時間の割合）を報酬（スコア）として算出する。

【0020】

図１で説明した例では、外界因子は、車両の速度のみで説明した。しかしながら、実際に、報酬変動に影響を与える因子は、車両の速度以外にも、図２に示すように、例えば、道路上の霧の発生を検知するための温度や湿度、風速、夜間撮影時に影響がある照度など、既知である計測可能な因子がある。また、未知であり未計測なロケーション特性として、例えば、走行車両の速度を低下させるための「ハンプ」（段差・コブ）の道路への設置や、道路幅を狭くする狭さくの設置、道路周辺における樹木の成長に伴う運転への影響が挙げられる。
これらのスコア変動に影響する外界因子とロケーション特性により定まる「状況」（Situation）ごとに、各デバイスのデバイス制御因子を設定して、報酬（スコア）を計算する。

【0021】

なお、本発明は、図１および図２で示した対象車両追跡システムに限定されず、強化学習を活用した個別環境でのデバイス間協調制御を行うシステムであればよい。
例えば、データセンタの冷却システム、工場内のロボット自動運搬システム、農家における灌漑水量調整システムなど、様々なシステムに適用することができる。

【0022】

データセンタの冷却システムでは、外界因子として、各サーバ周辺の温度、外気温、サーバの消費電力、サーバの稼働効率などの情報を取得し、消費電力総量が所定値以下であり、該当エリアで時間ｔ以内に温度Ｘ度以上下げることなどを目標報酬とする。このときの制御対象デバイスは、空調機であり、デバイス制御因子（デバイス制御値）は、風量、目標温度、風向などである。この場合、報酬達成に非関与な空調機を特定し、その特定した空調機を除いた他の空調機を制御対象デバイスとする。

【0023】

工場内のロボット自動運搬システムでは、外界因子として、各ロボットのカメラ映像などの情報を取得し、全荷物をより短時間で正確にラインに運搬することなどを目標報酬とする。このときの制御対象デバイスは、運搬用ロボットであり、デバイス制御因子（デバイス制御値）は、ロボットの速度、モータ回転数、ブレーキ強度などである。この場合、報酬達成に非関与な運搬用ロボットを特定し、その特定した運搬用ロボットを除いた他の運搬用ロボットを制御対象デバイスとする。

【0024】

農家における灌漑水量調整システムでは、外界因子として、農地に設定されたセンサから、温度、湿度、日照量、土壌含水量、土壌品質、降雨量、画像から識別する植物の生長具合などの情報を取得し、土壌含水量が所定値以上であり最終収穫量が所定値以上となることを目標報酬とする。このとき制御対象デバイスは、堆肥ロボットであり、デバイス制御因子（デバイス制御値）は、水量、堆肥量などである。この場合、報酬達成に非関与な堆肥ロボットを特定し、その特定した堆肥ロボットを除いた他の堆肥ロボットを制御対象ロボットとする。
このように、本発明は、強化学習を活用した個別環境でのデバイス間協調制御を行うシステムであれば、適用可能であるが、以下においては、対象車両追跡システムを一例として説明する。

【0025】

本実施形態に係る制御対象デバイス選択装置１は、強化学習における報酬達成に非関与のデバイスを特定し、その特定したデバイスが非関与である「状況」（Situation）の範囲を特定する。そして、制御対象デバイス選択装置１は、その特定した「状況」（Situation）において、非関与のデバイスを除いて制御対象デバイスを選択し、デバイス制御を実行する。これにより、非関与のデバイスを他のタスクに回したり、非稼働にしたりすることにより、デバイスの稼働効率を向上させることができる。
また、制御対象デバイス選択装置１は、非関与デバイスとその「状況」（Situation）の範囲を、運用履歴（学習データ）の蓄積による、「状況」（Situation）の定義の見直しや、ロケーション特性の変化に応じて、適宜更新する。
以下、制御対象デバイス選択装置１の具体的な構成について説明する。

【0026】

図３は、本実施形態に係る制御対象デバイス選択装置１の構成を示すブロック図である。
制御対象デバイス選択装置１は、カメラデバイス（固定カメラ３ａ）、各種のセンサデバイス（例えば、温度センサ３ｂ、湿度センサ３ｃ、照度センサ３ｄ、風速計３ｅ）などのＩｏＴデバイス３に通信接続される。そして、制御対象デバイス選択装置１は、これらのＩｏＴデバイス３からの情報を用いて、報酬（スコア）が所定値（目標報酬）以上となるように、デバイス制御値を強化学習により生成し、通信接続された制御対象デバイス５の制御を行う。制御対象デバイス５は、対象車両追跡システムの例であれば、首振りカメラ５ａである。このとき、制御対象デバイス選択装置１は、非関与デバイスを除いた制御対象デバイス５（首振りカメラ５ａ）を選択してデバイス制御値による制御を行う。
この制御対象デバイス選択装置１は、制御部１０と、入出力部１１と、記憶部１２とを備える。

【0027】

入出力部１１は、ＩｏＴデバイス群３０の各ＩｏＴデバイス３や、制御対象デバイス群５０の各制御対象デバイス５等との間の情報について入出力を行う。この入出力部１１は、通信回線を介して情報の送受信を行う通信インタフェースと、不図示のキーボード等の入力装置やモニタ等の出力装置との間で情報の入出力を行う入出力インタフェースとから構成される。

【0028】

記憶部１２は、ハードディスクやフラッシュメモリ、ＲＡＭ（Random Access Memory）等により構成される。
この記憶部１２には、図３に示すように、ＩｏＴデバイス情報ＤＢ２００、制御対象デバイス情報ＤＢ３００および学習データＤＢ４００が格納される。また、記憶部１２には、制御部１０の各機能部を実行させるためのプログラムや、制御部１０の処理に必要な情報が一時的に記憶される。

【0029】

このＩｏＴデバイス情報ＤＢ２００には、各ＩｏＴデバイス３の識別情報に対応付けて、そのＩｏＴデバイスの種別の情報、設置位置の情報が格納される。
また、このＩｏＴデバイス情報ＤＢ２００に、ＩｏＴデバイス３の種別ごとに、そのＩｏＴデバイス３から取得できる情報である外界因子の上限値／下限値、およびこの上限値／下限値で示されるレンジをＮ分割した分割レンジであるクラスが予め格納される。この分割レンジは、学習データを取得するための初期学習段階（詳細は後記）において仮に設定されるものである。

【0030】

制御対象デバイス情報ＤＢ３００には、各制御対象デバイス５の識別情報に対応付けて、その制御対象デバイス５の種別の情報と、配置位置の情報とが格納される。
この制御対象デバイス情報ＤＢ３００は、報酬（スコア）の算出に関連する一まとまりの制御対象デバイス群５０をスポットとして管理する。複数のスポットが制御対象デバイス情報ＤＢ３００に格納されていてもよい。

【0031】

学習データＤＢ４００は、制御対象デバイス選択装置１が生成した、各制御対象デバイス５についてのデバイス制御値と、そのデバイス制御値で制御対象デバイス５を制御した際の報酬（スコア）とが学習データとして格納される。この学習データは、制御対象デバイス選択装置１が設定した「状況」（Situation）のクラスごとに、各制御対象デバイス５のデバイス制御値が、デバイス制御因子パターンとして格納される。

【0032】

制御部１０は、制御対象デバイス選択装置１が実行する処理の全般を司り、状況認識部１１０と、強化学習部１２０と、デバイス制御部１３０と、スコア計算部１４０とを含んで構成される。

【0033】

状況認識部１１０は、ＩｏＴデバイス群３０の各ＩｏＴデバイス３からデータを取得する。このデータには、各ＩｏＴデバイス３が測定した外界因子（例えば、車両の速度や、気温、湿度等）の測定値とともに、各ＩｏＴデバイス３の識別情報が付されている。そして、状況認識部１１０は、各データの値に基づき、その外界因子ごとのレンジを決定し、「状況」（Situation）を判定する。
具体的には、状況認識部１１０は、初期学習段階においては、各ＩｏＴデバイス３から取得したデータの値に基づき、ＩｏＴデバイス情報ＤＢ２００に格納された、その外界因子の分割レンジにおけるクラスを特定する。なお、「初期学習段階」とは、後記する強化学習部１２０（状況分類部１２２）による「状況」（Situation）の定義（構成要素の抽出と分類）が行われる前の段階をいう。また、単に「学習段階」と記載するときは、「状況」（Situation）の定義が行われ、学習データによる強化学習が行われている段階をいう。

【0034】

状況認識部１１０は、学習段階と、所定の報酬（スコア）を満たした後の運用段階においては、各ＩｏＴデバイス３から取得したデータの値に基づき、強化学習部１２０（状況分類部１２２）が定義した「状況」（Situation）において、分類されたどの「状況」（後記する「状況」（１Situation））に当該データが属するかを判定する。

【0035】

強化学習部１２０は、報酬（スコア）の増減に与える影響の大きい外界因子を、「状況」（Situation）の影響因子（構成要素）として抽出する。そして、強化学習部１２０は、「状況」（Situation）の各外界因子に対して、所定のレンジ幅ごとにクラス分類を行い、各制御対象デバイス５のデバイス制御値を生成する。
そして、強化学習部１２０は、所定の報酬（目標報酬）に達することにより、学習段階を終了した際に、強化学習における報酬達成に非関与のデバイスを特定し、その特定したデバイスが非関与である「状況」（Situation）の範囲を特定する。そして、強化学習部１２０は、その特定した「状況」（Situation）において、非関与のデバイスを除いて制御対象デバイスを選択し、運用段階としてのデバイス制御を実行する。

【0036】

この強化学習部１２０は、「状況」（Situation）の構成要素である外界因子について、所定期間ごとに更新を行い、「状況」（Situation）ごとの学習モデルの更新と学習データの再保管を行う。
また、強化学習部１２０は、所定期間継続して報酬（スコア）が過去と比べて大きく変動する持続的外乱発生を、ロケーション特性の変化とみなし、新たなロケーション特性の学習データを保管して、「状況」（Situation）ごとの学習モデルを再生成する。
強化学習部１２０は、このように「状況」（Situation）の外界因子やレンジの更新があったときや、ロケーション特性が変化したときに、非関与デバイス、および、その非関与の「状況」（Situation）の範囲を再度特定して更新する。
この強化学習部１２０は、図３に示すように、制御値生成部１２１と、状況分類部１２２と、学習データ管理部１２３と、学習モデル管理部１２４と、持続的外乱判定部１２５と、制御値呼出部１２６と、制御対象デバイス選択部１２７とを備える。

【0037】

制御値生成部１２１は、学習データが少ない初期学習段階においては、状況認識部１１０が特定した、各外界因子の分割レンジ毎に、外界因子（例えば、車両の速度や、気温、湿度等）の測定値に対応付けた、デバイス制御値を生成する。この際、制御値生成部１２１は、例えばランダムに各制御対象デバイス５の制御値を生成する。
なお、初期学習段階においては、制御値生成部１２１が生成したデバイス制御値を、デバイス制御部１３０を介して各制御対象デバイス５に送信することにより、その結果である報酬（スコア）をスコア計算部１４０が計算する。これにより、学習データ管理部１２３が学習データを記憶部１２内の学習データＤＢ４００に保管していく。

【0038】

状況分類部１２２は、個別環境（特定のロケーション特性）下で、同一のデバイス制御因子のパターン（以下、「デバイス制御因子パターン」と称する。）を用いて、特定の外界因子を変化させることにより、報酬（スコア）に与える影響の大きい外界因子を抽出する。そして、状況分類部１２２は、複数のデバイス制御因子パターンに共通して出現する外界因子を「状況」（Situation）の構成要素として抽出し、各構成要素に対して、所定のレンジ幅ごとのクラス分類を行う。

【0039】

状況分類部１２２は、例えば、以下のようにして、報酬（スコア）に与える影響の大きい外界因子を「状況」（Situation）の構成要素として抽出する。
状況分類部１２２は、複数の外界因子の中から一つの外界因子を特定する。そして、状況分類部１２２は、特定した外界因子を除く他の外界因子およびデバイス制御因子パターンを固定した上で、特定した外界因子のみの値を変化させた学習データを、学習データＤＢ４００から抽出する。ここで、外界因子の値の「変化」とは、外界因子の上限値と下限値との間をＮ分割した分割レンジのうち、異なるレンジへ移行させることを示す。
状況分類部１２２は、同じデバイス制御因子パターンにおいて、特定した外界因子それぞれの値を変化させた学習データの報酬（スコア）を抽出する。
そして、状況分類部１２２は、各外界因子の報酬（スコア）の不純度（例えば、エントロピー）を計算し、不純度が大きい上位Ｎ個の外界因子を抽出する。

【0040】

状況分類部１２２は、所定のＭ個以上のデバイス制御因子パターン（α，β，…，γ）について、各デバイス制御因子パターン（α，β，…，γ）における不純度が大きい上位Ｎ個の外界因子を抽出する。そして、状況分類部１２２は、抽出した各デバイス制御因子パターンの上位Ｎ個の外界因子を参照し、抽出した全デバイス制御因子パターンにおいて出現する外界因子の出現回数の総和が大きい順にＰ個抽出し、「状況」（Situation）の構成要素とする。

【0041】

状況分類部１２２は、抽出したＰ個の外界因子に対し、頻出順に各外界因子に対しＱ個のレンジ幅に分割してクラスを形成し、決定木を構成する。そして、状況分類部１２２は、構成した決定木における最終分岐点を１つの「状況」（Situation）、つまり１Situationとして定義する。以降の記載において、特に分岐（分類）したそれぞれの「状況」を意図する場合に「状況」（１Situation）と記載する。なお、「状況」（１Situation）は請求項に記載の「分類」に相当する。

【0042】

状況分類部１２２は、運用開始時等において外界因子のバリエーションが少ない時期である学習データ不足時や、運用段階における所定の時間間隔で、報酬（スコア）に与える影響の大きい外界因子の抽出と「状況」（Situation）の再定義を繰り返す。そして、「状況」（Situation）の構成要素に変更がある場合には、１つの「状況」（１Situation）ごとの学習データの再分類と学習モデルの再生成が、学習データ管理部１２３および学習モデル管理部１２４により行われる。
また、学習モデル更新後、目標報酬（スコア）に対し予測されたデバイス制御値が目標を満たさない「状況」（１Situation）については、目標報酬（スコア）を満たすデバイス制御値の発見まで、予測制御値の生成と学習モデルの更新を実行する。

【0043】

学習データ管理部１２３は、制御値生成部１２１が生成したデバイス制御値と、そのデバイス制御の結果に基づきスコア計算部１４０が算出したスコアとを、学習データとして「状況」（１Situation）ごとに学習データＤＢ４００に記憶する。

【0044】

学習モデル管理部１２４は、学習データを用いて強化学習される、「状況」（１Situation）ごとの学習モデル１００（１００Ａ，１００Ｂ，１００Ｃ、…）を管理する。学習モデル管理部１２４は、状況分類部１２２において、「状況」（Situation）の構成要素が変更された場合には、その「状況」（１Situation）ごとの学習モデルを再生成する。
また、学習モデル管理部１２４は、強化学習による学習モデルの生成において、所定の目標報酬（スコア）を満たすことにより、学習段階を終了し運用段階に移行した後においても、各状況（１Situation）ごとに（非関与デバイスを除いた）制御対象デバイス５のデバイス制御値をまとめたデバイス制御情報（デバイス制御因子パターン）とそのスコアとを取得して、学習データＤＢ４００に保管していく。

【0045】

持続的外乱判定部１２５は、運用段階での、同一「状況」（１Situation）におけるデバイス制御因子パターンにおいて、所定の目標報酬を満たさない期間が所定期間Ｔ以上継続した場合に、持続的外乱が発生し、ロケーション特性が変化していると判定する。そして、持続的外乱判定部１２５は、所定期間Ｔより前の該当ロケーションにおける全「状況」（１Situation）の学習データを、学習データ管理部１２３を介して削除し、学習モデルの更新を実行させる。
学習モデルの更新後に、目標報酬（スコア）に対し、予測されたデバイス制御値の目標を満たさない「状況」（１Situation）については、目標報酬（スコア）を満たすデバイス制御値が発見されるまで、デバイス制御値の生成と、学習モデルの更新を実行させる。

【0046】

制御値呼出部１２６は、学習段階および運用段階において、状況認識部１１０が判定した「状況」（１Situation）に基づき、記憶部１２内の学習データＤＢ４００を参照し、その「状況」（１Situation）に対応した、デバイス制御値（デバイス制御因子パターン）を抽出して、デバイス制御部１３０に出力する。その際、制御値呼出部１２６は、その「状況」（１Situation）に含まれるデバイス制御値（デバイス制御因子パターン）のうち、報酬（スコア）が最も高いデバイス制御値を抽出して各制御対象デバイス５に送信する。これにより、学習モデルについて、強化学習により、より報酬（スコア）が高くなるようにパラメータを調整することができる。

【0047】

制御対象デバイス選択部１２７は、所定の報酬（目標報酬）に達することにより、学習段階を終了した際に、強化学習における報酬達成に非関与のデバイスを特定し、その特定したデバイスが非関与である「状況」（Situation）の範囲を特定する。そして、制御対象デバイス選択部１２７は、その特定した「状況」（Situation）において、非関与のデバイスを除いて制御対象デバイス５を選択し、運用段階としてのデバイス制御を実行させる。
また、制御対象デバイス選択部１２７は、非関与デバイスとその非関与となる「状況」（Situation）の範囲とについて、運用段階において、「状況」（Situation）として定義された外界因子やレンジの更新があったときや、ロケーション特性が変化したとき等を契機に、再度特定して更新する。
この制御対象デバイス選択部１２７は、非関与デバイス特定部１２７１と非関与デバイス更新部１２７２とを備える。

【0048】

非関与デバイス特定部１２７１は、特定環境（ロケーション）において、強化学習における報酬達成に非関与のデバイス（非関与デバイス）を特定し、その非関与デバイスが非関与である「状況」（Situation）の範囲を特定する。具体的には、非関与デバイス特定部１２７１は、以下の機能を備える。

【0049】

非関与デバイス特定部１２７１は、所定の報酬（目標報酬）に達することにより、強化学習による学習モデルの学習段階が終了したことを契機として以下の処理を実行する。
非関与デバイス特定部１２７１は、学習データＤＢ４００に格納された、各「状況」（１Situation）ごとのデバイス制御因子パターン（デバイス制御値）について、ある特定デバイスＸの制御値のみを、変更させた場合に、報酬（スコア）が所定のレンジ内に収まるか否かを判定する。ここでの「変更」は、元の制御値に近い値となるのを避けるため、変更後の制御値を乱数により発生させたり、該当の「状況」（１Situation）のレンジでは用いられていない範囲の制御値を設定する。
そして、非関与デバイス特定部１２７１は、そのデバイスＸの制御値のみを変更して、各制御対象デバイス５を制御した際の報酬（スコア）を取得し、その報酬（スコア）が変更前と同じ所定のレンジ内に収まる場合に、そのデバイスＸを非関与デバイス候補とする。そして、非関与デバイス特定部１２７１は、デバイスＸに対し、各「状況」（１Situation）において、同様の処理を行い、非関与の「状況」（１Situation）の範囲を特定する。

【0050】

図４に示す例で説明する。非関与デバイス特定部１２７１は、ある「状況」（Situation「Ａ」）における同一分割レンジ内のデバイス制御因子パターン「α」を抽出し、デバイスＸの制御値のみを変更する。ここでは、デバイスＹについては、制御値の因子＜Y1, Y2,…，Yn＞の値を＜y12, y2n，…，yn2＞に固定し、デバイスＸについては、制御値の因子＜X1, X2,…，Xn＞の値のうち、＜x11, x22,…，xn1＞の値を変更する。この時、報酬Ｒ（スコア）の値がどのクラス（Ｒ１～Ｒｎ）に属するのかを決定する。例えば、報酬Ｒのレンジにおいて、Ｒ１の範囲が、所定のレンジ内（例えば、目標報酬以上の範囲）であるとすると、デバイスＸの値を変更した場合の報酬Ｒの値が、同じくクラスＲ１に収まる場合に、そのデバイスＸは、報酬達成に非関与のデバイスの可能性があるため、非関与デバイス候補とする。以下、この処理を、「非関与デバイス候補特定処理」と称する。
この処理を、他のすべての「状況」（Situation）（Situation「Ｂ」…）のデバイス制御因子パターンについてデバイスＸの制御値のみを変更することにより、非関与である「状況」（Situation）の範囲を特定する。ここで、例えば、すべての「状況」（Situation）について非関与の範囲として特定される場合あるし、特定の「状況」（１Situation）、例えば、Situation「Ａ」とSituation「Ｂ」のみが非関与の範囲として特定される場合もある。

【0051】

次に、非関与デバイス特定部１２７１は、非関与として特定された「状況」（１Situation）ごとに、所定の報酬（目標報酬）を満たすデバイス制御因子パターンの中から１つのデバイス制御値を選択し、非関与デバイス候補（ここでは、デバイスＸ）を除いた制御対象デバイス５の制御を行い、引き続き所定の報酬（目標報酬）を満たすか否かを判定する。そして、非関与デバイス特定部１２７１は、判定の結果、所定の報酬（目標報酬）を満たす場合、その非関与デバイス候補（デバイスＸ）を非関与デバイスとして確定し、該当「状況」（Situation）の範囲を非関与の「状況」（Situation）の範囲として確定する。
なお、非関与デバイス特定部１２７１は、所定の報酬（目標報酬）を満たすデバイス制御因子パターンの中から１つのデバイス制御値のみを選択し、非関与デバイス候補を除いて所定の報酬（目標報酬）を満たすか否かの判定をすればよく、すべてのデバイス制御値について判定する必要はない。所定の報酬（目標報酬）を満たすデバイス制御値が１つでも判明すればよいため、運用履歴が少ない段階においても、非関与デバイスを削減できるメリットがある。

【0052】

非関与デバイス特定部１２７１は、他のデバイス（例えば、デバイスＹ）に対して、同様に、非関与デバイス候補とその非関与の「状況」（Situation）の範囲を特定する。そして、非関与デバイス特定部１２７１は、確定した非関与デバイス（ここでは、デバイスＸ）と非関与デバイス候補（ここではデバイスＹ）とを除いた制御対象デバイス５の制御を行い、引き続き所定の報酬（目標報酬）を満たすかを否かを判定する。ここで、所定の報酬（目標報酬）を満たす場合には、デバイスＸとその非関与の「状況」（Situation）の範囲に加えて、デバイスＹを非関与デバイスとして確定し、その非関与の「状況」（Situation）の範囲を確定する。この処理をすべての制御対象デバイス５に対して繰り返し、最終的な非関与デバイスとその非関与の「状況」（Situation）の範囲を確定する。

【0053】

非関与デバイス特定部１２７１は、確定した非関与デバイスとその非関与の「状況」（Situation）の範囲の情報を、学習データ管理部１２３に出力することにより、運用段階において、制御値呼出部１２６が、学習データＤＢ４００からデバイス制御値（デバイス制御因子パターン）を抽出する際に、非関与の「状況」（Situation）の範囲においては、非関与デバイスとして確定したデバイス制御値の情報を抽出しないようにする。よって、デバイス制御部１３０は、非関与の「状況」（Situation）の範囲においては、非関与デバイスを除いた各制御対象デバイス５にデバイス制御値を送信する。
これにより、特定の「状況」（Situation）の範囲において報酬（スコア）に対し非関与とされた制御対象デバイス５については、電源や制御を停止したり、他のタスクへ割り当てたりすることができ、デバイス稼働効率を向上させることができる。

【0054】

図３に戻り、非関与デバイス更新部１２７２は、運用段階において、学習データ管理部１２３が管理する学習データのデータ構成の変更を契機に、非関与デバイス特定部１２７１が特定した、非関与デバイスとその非関与の「状況」（Situation）の範囲の情報を更新させる。
具体的には、非関与デバイス更新部１２７２は、学習データに関する以下の３ケースとなる状態を検出し、非関与デバイスとその非関与の「状況」（Situation）の範囲とを更新する。

【0055】

（ケース１）「状況」（Situation）の分岐（分類）のレンジの変更があった場合
外界因子＜F1, F2,…,Fn＞の各因子に対して、Ｑ個のレンジ幅に分割していたものを、Ｑ＋１のレンジ幅に分割するように変更された場合や、ある外界因子において設定されていた外界因子の上限値や下限値が変更された場合である。
この（ケース１）は、例えば、状況分類部１２２が運用段階において、所定の時間間隔で、「状況」（Situation）の分類の見直しを行い、学習データの再分類や学習モデルの再生成が行われたことが契機となる。

【0056】

例えば、対象車両追跡システムにおいて、外界因子が車両の速度であった場合に、それまでの外界因子（構成要素）が時速１０～１００ｋｍとして学習していたところ、新たな上限値が１２０ｋｍとなり、時刻１０～１２０ｋｍとして「状況」（Situation）が再定義された場合である。

【0057】

（ケース１）の場合、非関与デバイス更新部１２７２は、新たに定義された「状況」（Situation）の学習データが蓄積され、所定の報酬（目標報酬）を満たすようになったときに、非関与デバイス特定部１２７１に、非関与デバイスの特定とその非関与の「状況」（Situation）の範囲の特定を再度実行させる指示情報（以下、「非関与デバイス更新指示」と称する。）を出力する。

【0058】

（ケース２）外界因子の構成要素が変化した場合
外界因子＜F1, F2,…,Fn＞の構成要素自体が変化し、新規の外界因子＜F1’, F2’,…,Fn’＞で構成された新たな「状況」（Situation）として定義された場合である。
この（ケース２）は、例えば、状況分類部１２２が運用段階において、所定の時間間隔で、「状況」（Situation）における報酬（スコア）に与える影響の大きい外界因子の見直しを行った結果、外界因子の構成要素が変化したことにより、所定の報酬（目標報酬）を満たすまでの学習データの収集と学習モデルの再生成とが行われたことが契機となる。

【0059】

例えば、対象車両追跡システムにおいて、それまで外界因子が、車両の速度、気温、湿度、照度であったものに、風速が外界因子として加わり、「状況」（Situation）の分割レンジも風速０～４０ｍを分割したレンジを含む新たな「状況」（Situation）として再定義された場合である。

【0060】

（ケース２）の場合、学習データ管理部１２３は、それまでの学習データを破棄する。そして、非関与デバイス更新部１２７２は、新たに定義された「状況」（Situation）の学習データが学習データＤＢ４００に蓄積され、所定の報酬（目標報酬）を満たすようになったときに、非関与デバイス特定部１２７１に、非関与デバイスの特定とその非関与の「状況」（Situation）の範囲の特定を再度実行させる指示情報（非関与デバイス更新指示）を出力する。

【0061】

（ケース３）ロケーション特性が変化した場合
持続的外乱判定部１２５が、運用段階において、所定の目標報酬を満たさない期間が所定期間Ｔ以上継続したことにより、持続的外乱が発生し、ロケーション特性が変化していると判定した場合、所定期間Ｔより前の該当ロケーションにおける全「状況」（１Situation）の学習データが、学習データ管理部１２３を介して削除され、学習モデルの更新が実行される。

【0062】

例えば、対象車両追跡システムの運用段階において、コース上のある場所で、走行車両の速度を低下させるための「ハンプ」（段差・コブ）が道路に設置されたり、コース脇に建設されたビルにより、制御対象デバイス５である首振りカメラ５ａのコース上の撮影範囲が制限されたりした場合である。このとき、外界因子からの情報では、環境の変化を計測できないが、持続的外乱判定部１２５は、報酬（スコア）が継続して低下していることから、ロケーション特性の変化があると判定する。

【0063】

（ケース３）の場合、持続的外乱判定部１２５は、所定期間Ｔより前の該当ロケーションにおける全「状況」（１Situation）の学習データを、学習データ管理部１２３を介して削除し、学習モデルの更新を実行させる。そして、持続的外乱判定部１２５は、学習モデルの更新後に、目標報酬（スコア）に対し、予測されたデバイス制御値の目標を満たさない「状況」（１Situation）については、目標報酬（スコア）を満たすデバイス制御値が発見されるまで、デバイス制御値の生成と、学習モデルの更新を実行させる。
非関与デバイス更新部１２７２は、新たな学習データが学習データＤＢ４００に蓄積され、所定の報酬（目標報酬）を満たすようになったときに、非関与デバイス特定部１２７１に、非関与デバイスの特定とその非関与の「状況」（Situation）の範囲の特定を再度実行させる指示情報（非関与デバイス更新指示）を出力する。

【0064】

このようにすることにより、非関与デバイス更新部１２７２は、運用段階における、新規な「状況」（Situation）の設定、外界因子の構成要素の変化、ロケーション特性の変化等の環境変化に対応して、報酬（スコア）変動に非関与なデバイスとその非関与の「状況」（Situation）の範囲を見直すことができる。よって、環境変化に伴う本来関与すべきデバイスの非関与による所定報酬の未達成や所定報酬達成までの試行回数の増加を未然に防いだ上で、デバイス効率を継続して向上させることが可能となる。

【0065】

図３に戻り、デバイス制御部１３０は、強化学習部１２０が決定したデバイス制御値を、各制御対象デバイス５に制御情報として送信する。これにより、各制御対象デバイス５は、デバイス制御値に基づき制御を実行する。

【0066】

スコア計算部１４０は、各制御対象デバイス５の制御結果に基づき、所定の報酬（スコア）を計算する。スコア計算部１４０は、報酬（スコア）を計算するために必要となる情報を、各制御対象デバイス５や、外部の管理装置等から取得する。

【0067】

＜処理の流れ＞
次に、制御対象デバイス選択装置１が実行する処理の流れについて説明する。

【0068】

≪非関与デバイス特定処理≫
まず、制御対象デバイス選択装置１の制御対象デバイス選択部１２７（非関与デバイス特定部１２７１）が実行する非関与デバイス特定処理について説明する。
図５は、本実施形態に係る制御対象デバイス選択装置１が実行する非関与デバイス特定処理の流れを示すフローチャートである。
この非関与デバイス特定処理は、所定の報酬（目標報酬）に達することにより、学習段階が終了した際、つまり、運用段階に移行する際に実行される。なお、制御対象デバイス選択部１２７（非関与デバイス特定部１２７１）は、学習段階が終了したことを、学習データ管理部１２３からの通知で受け取ったり、デバイス間協調制御を行うシステムの管理装置等からの通知で受け取ったりすることにより、認識することができる。

【0069】

まず、制御対象デバイス選択部１２７の非関与デバイス特定部１２７１は、一つの制御対象デバイス５（例えば、デバイスＸ）を特定し、学習データＤＢ４００に格納された、各「状況」（１Situation）ごとのデバイス制御因子パターン（デバイス制御値）について、その特定した制御対象デバイス５（デバイスＸ）の制御値のみを変更し、報酬（スコア）が所定のレンジ内に収まるか否かを判定する（ステップＳ１）。
ここで、報酬（スコア）が、すべての「状況」（１Situation）において所定のレンジ内に収まらない場合（ステップＳ１→Ｎｏ）、その特定した制御対象デバイス（デバイスＸ）は、報酬達成に関与するデバイスであると判定して、次の制御対象デバイス５を選択するため、ステップＳ１に戻る。
なお、非関与デバイス特定部１２７１は、すべての制御対象デバイス５の判定を実行し、そのすべてが報酬達成に関与するデバイスであると判定した場合には処理を終了する。

【0070】

一方、報酬（スコア）が、いずれかの「状況」（１Situation）において所定のレンジ内に収まる場合（ステップＳ１→Ｙｅｓ）、つまり、一つの「状況」（１Situation）でも所定のレンジ内に収まる場合には、非関与デバイス特定部１２７１は、その制御対象デバイス５（デバイスＸ）を非関与デバイス候補とし、その非関与の「状況」（１Situation）の範囲を特定する（ステップＳ２）。
なお、ステップＳ１～Ｓ２までの処理を、「非関与デバイス候補特定処理」と称する。

【0071】

次に、非関与デバイス特定部１２７１は、非関与として特定された「状況」（１Situation）ごとに、所定の報酬（目標報酬）を満たすデバイス制御因子パターンの中から１つのデバイス制御因子パターンを選択し、非関与デバイス候補（ここでは、デバイスＸ）を除いた各制御対象デバイス５の制御を行い、引き続き所定の報酬（目標報酬）を満たすか否かを判定する（ステップＳ３）。
ここで、判定の結果、特定した各「状況」（１Situation）のすべてにおいて、報酬（スコア）が所定の報酬（目標報酬）を満たさない場合（ステップＳ３→Ｎｏ）、その特定した非関与デバイス候補（デバイスＸ）は、報酬達成に関与するデバイスであると判断して、次の制御対象デバイス５を選択するため、ステップＳ１に戻る。

【0072】

一方、報酬（スコア）が、いずれかの「状況」（１Situation）において所定の報酬（目標報酬）を満たす場合（ステップＳ３→Ｙｅｓ）、つまり、一つの「状況」（１Situation）でも所定の報酬（目標報酬）を満たした場合には、非関与デバイス特定部１２７１は、その非関与デバイス候補（デバイスＸ）を非関与デバイスとして確定し、その所定の報酬（目標報酬）を満たした「状況」（１Situation）を、非関与の「状況」（１Situation）の範囲として確定する（ステップＳ４）。

【0073】

次に、非関与デバイス特定部１２７１は、まだ、非関与デバイス候補確定処理を実行していない、他の制御対象デバイス５の一つ（例えば、デバイスＹ）を特定する。そして、ステップＳ１～Ｓ２と同様に、非関与デバイス候補特定処理を実行する（ステップＳ５）。
これにより、他の制御対象デバイス５（デバイスＹ）を非関与デバイス候補として特定し、その非関与の「状況」（１Situation）の範囲を特定したものとする。

【0074】

続いて、非関与デバイス特定部１２７１は、ステップＳ５において非関与として特定された「状況」（１Situation）ごとに、所定の報酬（目標報酬）を満たすデバイス制御因子パターンの中から１つのデバイス制御値を選択する。そして、非関与デバイス特定部１２７１は、ステップＳ４において確定済みの非関与デバイス（デバイスＸ）と、ステップＳ５で特定した非関与デバイス候補（デバイスＹ）を除いて、各制御対象デバイス５の制御を行い、引き続き所定の報酬（目標報酬）を満たすか否かを判定する（ステップＳ６）。
ここで、判定の結果、特定した各「状況」（１Situation）のすべてにおいて、報酬（スコア）が所定の報酬（目標報酬）を満たさない場合（ステップＳ６→Ｎｏ）、その特定した非関与デバイス候補（デバイスＹ）は、報酬達成に関与するデバイスであると判断して、次の制御対象デバイス５を選択するため、ステップＳ５に戻る。

【0075】

一方、報酬（スコア）が、いずれかの「状況」（１Situation）において所定の報酬（目標報酬）を満たす場合（ステップＳ６→Ｙｅｓ）、つまり、一つの「状況」（１Situation）でも所定の報酬（目標報酬）を満たした場合には、非関与デバイス特定部１２７１は、その非関与デバイス候補（デバイスＹ）を非関与デバイスとして確定し、その所定の報酬（目標報酬）を満たした「状況」（１Situation）を、非関与の「状況」（１Situation）の範囲として確定する（ステップＳ７）。

【0076】

次に、非関与デバイス特定部１２７１は、すべての制御対象デバイス５について処理を行ったか否かを判定する（ステップＳ８）、そして、まだ処理を行っていない制御対象デバイス５がある場合には（ステップＳ８→Ｎｏ）、ステップＳ５に戻り処理を続ける。
一方、非関与デバイス特定部１２７１は、すべての制御対象デバイス５について処理を行った場合には（ステップＳ８→Ｙｅｓ）、処理を終了する。

【0077】

≪非関与デバイス更新処理≫
次に、運用段階において、非関与デバイス更新部１２７２が、非関与デバイス特定部１２７１が特定した、非関与デバイスとその非関与の「状況」（Situation）の範囲の情報を、学習データ管理部１２３が管理する学習データのデータ構成の変更を契機に更新する処理について説明する。
図６は、本実施形態に係る制御対象デバイス選択装置１が実行する非関与デバイス更新処理の流れを示すフローチャートである。

【0078】

まず、非関与デバイス更新部１２７２は、運用段階において、「状況」（Situation）として定義された外界因子やレンジの更新、ロケーション特性の変化があったことにより、学習データの「状況」（Situation）の変更や学習モデルの再生成（再構築）があったか否かを判定する（ステップＳ１１）。
具体的には、非関与デバイス更新部１２７２は、上記した、（ケース１）「状況」（Situation）の分岐（分類）のレンジの変更、（ケース２）外界因子の構成要素の変化、（ケース３）ロケーション特性の変化、のうちのいずれか１つがあったか否かを判定する。

【0079】

ステップＳ１１において、（ケース１）～（ケース３）のいずれにも該当しない場合には（ステップＳ１１→Ｎｏ）、運用段階における、（ケース１）～（ケース３）の事象が発生しているか否かの監視を続ける。

【0080】

一方、非関与デバイス更新部１２７２は、（ケース１）～（ケース３）のいずれかの事象が発生したことにより、学習データの「状況」（Situation）の変更や学習モデルの再生成（再構築）があったと判定した場合には（ステップＳ１１→Ｙｅｓ）、ステップＳ１２へ進む。

【0081】

ステップＳ１２において、非関与デバイス更新部１２７２は、（ケース１）～（ケース３）のいずれかに制御対象デバイス選択装置１が対応した結果、所定の報酬（目標報酬）を満たす学習データが蓄積され、学習モデルの更新が完了したか否かを判定する。
そして、非関与デバイス更新部１２７２は、学習データの蓄積と学習モデルの更新が完了していない場合には（ステップＳ１２→Ｎｏ）、完了するまで待つ。

【0082】

一方、非関与デバイス更新部１２７２は、学習データの蓄積と学習モデルの更新が完了したと判定した場合には（ステップＳ１２→Ｙｅｓ）、非関与デバイス特定処理（図５参照）の再実行指示（非関与デバイス更新指示）を、非関与デバイス特定部１２７１に出力する（ステップＳ１３）。
非関与デバイス特定部１２７１は、この非関与デバイス更新指示を受信したことを契機として、非関与デバイス特定処理（図５）を実行し、非関与デバイスとその非関与の「状況」（Situation）の範囲を更新する（ステップＳ１４）。

【0083】

このようにすることにより、運用段階における、新規な「状況」（Situation）の定義、「状況」（Situation）の構成要素の変化、ロケーション特性の変化等の環境変化に対応して、報酬変動に非関与なデバイスとその非関与の「状況」（Situation）の範囲を見直すことができる。

【0084】

＜ハードウェア構成＞
本実施形態に係る制御対象デバイス選択装置１は、例えば図７に示すような構成のコンピュータ９００によって実現される。
図７は、本実施形態に係る制御対象デバイス選択装置１の機能を実現するコンピュータ９００の一例を示すハードウェア構成図である。コンピュータ９００は、ＣＰＵ９０１、ＲＯＭ（Read Only Memory）９０２、ＲＡＭ９０３、ＨＤＤ（Hard Disk Drive）９０４、入出力Ｉ／Ｆ（Interface）９０５、通信Ｉ／Ｆ９０６およびメディアＩ／Ｆ９０７を有する。

【0085】

ＣＰＵ９０１は、ＲＯＭ９０２またはＨＤＤ９０４に記憶されたプログラムに基づき作動し、図３に示す制御対象デバイス選択装置１の制御部１０による制御を行う。ＲＯＭ９０２は、コンピュータ９００の起動時にＣＰＵ９０１により実行されるブートプログラムや、コンピュータ９００のハードウェアに係るプログラム等を記憶する。

【0086】

ＣＰＵ９０１は、入出力Ｉ／Ｆ９０５を介して、マウスやキーボード等の入力装置９１０、および、ディスプレイやプリンタ等の出力装置９１１を制御する。ＣＰＵ９０１は、入出力Ｉ／Ｆ９０５を介して、入力装置９１０からデータを取得するともに、生成したデータを出力装置９１１へ出力する。なお、プロセッサとしてＣＰＵ９０１とともに、ＧＰＵ（Graphics Processing Unit）等を用いても良い。

【0087】

ＨＤＤ９０４は、ＣＰＵ９０１により実行されるプログラムおよび当該プログラムによって使用されるデータ等を記憶する。通信Ｉ／Ｆ９０６は、通信網（例えば、ＮＷ（Network）９２０）を介して他の装置からデータを受信してＣＰＵ９０１へ出力し、また、ＣＰＵ９０１が生成したデータを、通信網を介して他の装置へ送信する。

【0088】

メディアＩ／Ｆ９０７は、記録媒体９１２に格納されたプログラムまたはデータを読み取り、ＲＡＭ９０３を介してＣＰＵ９０１へ出力する。ＣＰＵ９０１は、目的の処理に係るプログラムを、メディアＩ／Ｆ９０７を介して記録媒体９１２からＲＡＭ９０３上にロードし、ロードしたプログラムを実行する。記録媒体９１２は、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto Optical disk）等の光磁気記録媒体、磁気記録媒体、導体メモリテープ媒体又は半導体メモリ等である。

【0089】

例えば、コンピュータ９００が本実施形態に係る制御対象デバイス選択装置１として機能する場合、コンピュータ９００のＣＰＵ９０１は、ＲＡＭ９０３上にロードされたプログラムを実行することにより制御対象デバイス選択装置１の機能を実現する。また、ＨＤＤ９０４には、ＲＡＭ９０３内のデータが記憶される。ＣＰＵ９０１は、目的の処理に係るプログラムを記録媒体９１２から読み取って実行する。この他、ＣＰＵ９０１は、他の装置から通信網（ＮＷ９２０）を介して目的の処理に係るプログラムを読み込んでもよい。

【0090】

＜効果＞
以下、本発明に係る制御対象デバイス選択装置等の効果について説明する。
本発明に係る制御対象デバイス選択装置は、制御対象デバイス５を選択する制御対象デバイス選択装置１であって、各ＩｏＴデバイス３から取得したデータで示される外界因子について、各外界因子の不純度を計算することにより、報酬に影響を与える外界因子を構成要素として抽出し、抽出した外界因子の値を所定のレンジ幅に分割して、制御対象デバイス５を制御する状況を、分割したレンジごとに分類として定義する状況分類部１２２と、各ＩｏＴデバイス３から取得した外界因子について、分類ごとに、複数の制御対象デバイス５のデバイス制御値を生成する制御値生成部１２１と、各制御対象デバイス５の制御結果から得られる報酬を示すスコアを計算するスコア計算部１４０と、同一の分類に含まれるデバイス制御値を示すデバイス制御因子パターンごとに、デバイス制御値とスコアとで示される各学習データを、学習データＤＢ４００に記憶する学習データ管理部１２３と、学習データを用いて、所定の報酬を満たすように強化学習することにより、分類ごとの学習モデルを生成する学習モデル管理部１２４と、分類それぞれのデバイス制御因子パターンにおいて、特定の制御対象デバイス５の制御値のみを変更し、変更後の制御結果であるスコアが、スコアの上限値および下限値を所定のレンジ幅に分割したレンジのうちの所定のレンジ内に収まる場合に、当該特定の制御対象デバイス５を、非関与デバイス候補として特定するとともに、非関与デバイス候補における非関与の分類の範囲を特定する非関与デバイス候補特定処理を実行し、制御対象デバイス５それぞれにおいて非関与デバイス候補特定処理を実行し、非関与の分類ごとに、デバイス制御因子パターンの中からデバイス制御値を選択し、特定した非関与デバイス候補を除いた制御対象デバイス５の制御を行い、所定の報酬を満たす場合に、当該非関与デバイス候補を非関与デバイスとして確定するとともに、非関与の分類の範囲を確定する非関与デバイス特定部１２７１と、非関与の分類の範囲においては、非関与デバイスを除いた各制御対象デバイス５にデバイス制御値を送信するデバイス制御部１３０と、を備えることを特徴とする。

【0091】

このようにすることにより、制御対象デバイス選択装置１は、強化学習における報酬達成に非関与のデバイスとそのデバイスが非関与である「状況」（Situation）の範囲（分類の範囲）を特定して、その非関与のデバイス以外の制御対象デバイスを選択し、デバイス稼働効率を向上させることができる。

【0092】

また、制御対象デバイス選択装置１において、同一の分類における学習データのスコアが、所定期間以上継続して所定の報酬を満たさない場合に、外界因子以外の未知若しくは未計測の報酬に影響を与える要因を示すロケーション特性が変化したと判定する持続的外乱判定部１２５をさらに備え、持続的外乱判定部１２５が、所定期間以上継続してスコアが所定の報酬を満たさず、ロケーション特性が変化したと判定したことにより、学習データ管理部１２３が、所定期間より以前の学習データを削除し、学習モデル管理部１２４が、分類ごとの学習モデルを更新した場合、状況分類部１２２が、所定の時間間隔で分類の定義を再度行った結果、分類の定義におけるレンジに変更があった際に、学習データ管理部１２３が学習データの再分類を行い、学習モデル管理部１２４が、変更後の分類において学習データを更新した場合、状況分類部１２２が、所定の時間間隔で報酬に影響を与える外界因子の構成要素の抽出を行った結果、構成要素が変化した際に、学習データ管理部１２３が、それ以前の学習データを削除し、学習モデル管理部１２４が、変化した構成要素を用いた分類ごとに学習モデルを更新した場合、のいずれかの場合を検出すると、非関与デバイスの確定と、非関与の分類の範囲の確定とを再度実行させる非関与デバイス更新指示を、非関与デバイス特定部１２７１に出力する非関与デバイス更新部１２７２を備えることを特徴とする。

【0093】

このようにすることにより、制御対象デバイス選択装置１は、運用段階における環境変化（ロケーション特性の変化、分類のレンジの変化、構成要素の変化）に対応して、報酬変動に非関与なデバイスとその非関与の分類の範囲を見直すことができる。よって、環境変化に伴う本来関与すべき制御対象デバイス５の非関与による所定報酬の未達成や、所定報酬達成までの学習データ生成の試行回数の増加を未然に防ぎ、かつ、デバイス稼働効率を継続して向上させることができる。

【0094】

なお、本発明は、以上説明した実施形態に限定されるものではなく、多くの変形が本発明の技術的思想内で当分野において通常の知識を有する者により可能である。

【符号の説明】

【0095】

１制御対象デバイス装置
３ＩｏＴデバイス
５制御対象デバイス
１０制御部
１１入出力部
１２記憶部
１００学習モデル
１１０状況認識部
１２０強化学習部
１２１制御値生成部
１２２状況分類部
１２３学習データ管理部
１２４学習モデル管理部
１２５持続的外乱判定部
１２６制御値呼出部
１２７制御対象デバイス選択部
１３０デバイス制御部
１４０スコア計算部
２００ＩｏＴデバイス情報ＤＢ
３００制御対象デバイス情報ＤＢ
４００学習データＤＢ
１２７１非関与デバイス特定部
１２７２非関与デバイス更新部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版