特許7342491 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オムロン株式会社の特許一覧

特許7342491推論装置、推論方法、及び推論プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5A
5B
6
7A
7B
7C
8
9A
9B
10A
10B
10C
10D
11A
11B
12A
12B
13A
13B
13C
14
15
16A
16B
17
18
19A
19B
20
21
22A
22B
23
24
25A
25B
26A
26B
27
28
29
30A
30B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-09-04

(45)【発行日】2023-09-12

(54)【発明の名称】推論装置、推論方法、及び推論プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20230905BHJP

【ＦＩ】

G06N20/00

【請求項の数】 12

(21)【出願番号】P 2019137318

(22)【出願日】2019-07-25

(65)【公開番号】P2021022079

(43)【公開日】2021-02-18

【審査請求日】2022-05-13

(73)【特許権者】

【識別番号】000002945

【氏名又は名称】オムロン株式会社

(74)【代理人】

【識別番号】100124039

【弁理士】

【氏名又は名称】立花顕治

(74)【代理人】

【識別番号】100179213

【弁理士】

【氏名又は名称】山下未知子

(74)【代理人】

【識別番号】100170542

【弁理士】

【氏名又は名称】桝田剛

(72)【発明者】

【氏名】米谷竜

(72)【発明者】

【氏名】諏訪正樹

(72)【発明者】

【氏名】バレカテインモハマダミン

(72)【発明者】

【氏名】井尻善久

(72)【発明者】

【氏名】宮浦宏之

【審査官】佐藤実

(56)【参考文献】

【文献】特開２０１９－０９５９６８（ＪＰ，Ａ）

【文献】特開２０１８－０７２８７６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

所定の推論の対象となる所定の対象データを取得する第１データ取得部と、
前記所定の推論を実行する対象の環境に関する環境データを取得する第２データ取得部と、
異なる環境下で得られたローカル学習データから前記所定の推論を実行するように導出された複数の推論モデルそれぞれに前記対象データを与えて、当該各推論モデルに前記所定の推論を前記対象データに対して実行させることで、取得された前記対象データに対する当該各推論モデルの推論結果を取得する結果取得部と、
統合規則に従って、前記各推論モデルの推論結果を統合することで、前記対象の環境下での前記対象データに対する推論結果を生成する統合部であって、
前記統合規則は、前記対象の環境下において、前記各推論モデルの推論結果を重視する程度をそれぞれ規定する複数の統合パラメータにより構成され、
前記統合規則に従って、前記各推論モデルの推論結果を統合することは、
取得された前記環境データに応じて、前記各統合パラメータの値を決定すること、
決定された前記各統合パラメータの値を使用して、前記各推論モデルの前記推論結果を重み付けすること、及び
前記各推論モデルの重み付けされた前記推論結果を統合すること、を備える、
統合部と、
生成された前記推論結果に関する情報を出力する出力部と、
を備え、
前記各推論モデルは、前記ローカル学習データを利用した機械学習により前記所定の推論を実行する能力を獲得した学習済み機械学習モデルにより構成され、
前記環境データおよび対象データから前記各統合パラメータの値を算出するための演算モデルの機械学習を実行する学習処理部であって、前記機械学習は、算出される前記各統合パラメータの値が前記対象の環境下における前記所定の推論に適合するように前記演算モデルを訓練することにより構成される、学習処理部を更に備え、
前記統合規則は、前記機械学習により構築された学習済み演算モデルを更に備え、
前記前記環境データおよび対象データに応じて、前記各統合パラメータの値を決定することは、前記学習済み演算モデルに前記環境データおよび対象データを与えて、前記学習済み演算モデルの演算処理を実行することで、前記学習済み演算モデルの出力として前記各統合パラメータの値を取得することにより構成され、
前記演算モデルの機械学習は、前記環境データと同種のデータである訓練用環境データ、前記対象データと同種のデータである訓練用対象データ、及び、前記訓練用対象データに対して所定の推論を実行した結果を示す正解データの組み合わせをそれぞれ含む複数の学習データセットを利用する機械学習であって、
前記各学習データセットの入力を受け付けた前記演算モデルが出力する前記各統合パラメータの値を使用して、前記各学習データセットに含まれる前記訓練用対象データに対する前記各推論モデルの推論結果を重み付けし、
重み付けされた前記推論結果を統合することにより、前記各学習データセットに含まれる前記訓練用環境データおよび前記訓練用対象データに対する前記推論結果を生成し、
生成された前記推論結果が、前記各学習データセットに含まれる前記正解データに適合するように、前記演算モデルを訓練することにより構成され、
前記学習済み機械学習モデルについては、前記対象の環境に適合するための学習を行わず、
前記所定の推論は、回帰又は識別であり、
前記各推論モデルの重み付けされた前記推論結果を統合することは、
前記各推論モデルの前記推論結果を示す値の重み付け平均を算出すること、
または、
前記各推論モデルの前記推論結果を重み付けした上で多数決することにより、前記各推論モデルの前記推論結果のうちのいずれかを選択すること、
である、
推論装置。

【請求項2】

前記複数の統合パラメータのうちの少なくとも１つの統合パラメータの値の指定を受け付け、かつ前記少なくとも１つの統合パラメータの値を指定された値に設定するパラメータ設定部を更に備え、
前記各推論モデルの前記推論結果を重み付けすることは、設定された前記値を使用して、前記少なくとも１つの統合パラメータに対応する推論モデルの推論結果を重み付けすることを含む、
請求項１に記載の推論装置。

【請求項3】

前記所定の推論は、センサにより対象物の属性を観測する現在の観測状態から、所定の条件に適合した観測データをセンサにより得るための適正な観測状態への変更方法を推定することであり、
前記対象データは、対象センサの現在の観測状態に関し、
前記環境データは、前記対象センサが前記対象物の属性を観測する対象の観測環境に関する、
請求項１または２に記載の推論装置。

【請求項4】

前記環境データは、前記対象センサとは異なる他のセンサであって、前記対象の観測環境を観測する他のセンサにより得られる、
請求項３に記載の推論装置。

【請求項5】

前記推論装置は、前記対象センサの観測状態を変更させる介入装置に接続され、
前記推論結果に関する情報は、推定された前記変更方法に従って前記対象センサの観測状態を変更させる動作を前記介入装置に実行させるための指令情報を含み、
前記出力部は、前記介入装置に前記指令情報を送信することで、推定された前記変更方法に従って前記対象センサの観測状態を変更するための前記動作を前記介入装置に実行させる、
請求項３又は４に記載の推論装置。

【請求項6】

前記推論結果に関する情報は、前記変更方法に従って前記対象センサの観測状態を変更することをユーザに指示するための指示情報を含み、
前記出力部は、前記指示情報を出力装置に出力する、
請求項３又は４に記載の推論装置。

【請求項7】

前記センサは、カメラであり、
前記観測データは、画像データであり、
前記所定の条件は、前記対象物の属性を検査するのに適するように前記対象物が前記画像データに写ることに関する、
請求項３から６のいずれか１項に記載の推論装置。

【請求項8】

前記所定の推論は、移動体の移動する経路を移動体の状態から予測することであり、
前記対象データは、センサにより観測される対象の移動体の状態に関し、
前記環境データは、前記対象の移動体の移動を前記センサが観測する対象の観測環境に関する、
請求項１または２に記載の推論装置。

【請求項9】

前記所定の推論は、ユーザに適合する会話の戦略をユーザの会話行動から推定することであり、
前記対象データは、対象のユーザの会話行動に関し、
前記環境データは、前記対象のユーザが会話行動を行う対象の会話環境に関する、
請求項１または２に記載の推論装置。

【請求項10】

前記所定の推論は、タスクに適合するロボット装置の動作指令をロボット装置の状態から推定することであり、
前記対象データは、対象のロボット装置の状態に関し、
前記環境データは、前記対象のロボット装置が前記タスクを遂行する対象のタスク環境に関する、
請求項１または２に記載の推論装置。

【請求項11】

コンピュータが、
所定の推論の対象となる所定の対象データを取得するステップと、
前記所定の推論を実行する対象の環境に関する環境データを取得するステップと、
異なる環境下で得られたローカル学習データから前記所定の推論を実行するように導出された複数の推論モデルそれぞれに前記対象データを与えて、当該各推論モデルに前記所定の推論を前記対象データに対して実行させることで、取得された前記対象データに対する当該各推論モデルの推論結果を取得するステップと、
統合規則に従って、前記各推論モデルの推論結果を統合することで、前記対象の環境下での前記対象データに対する推論結果を生成するステップであって、
前記統合規則は、前記対象の環境下において、前記各推論モデルの推論結果を重視する程度をそれぞれ規定する複数の統合パラメータにより構成され、
前記統合規則に従って、前記各推論モデルの推論結果を統合することは、
取得された前記環境データに応じて、前記各統合パラメータの値を決定すること、
決定された前記各統合パラメータの値を使用して、前記各推論モデルの前記推論結果を重み付けすること、及び
前記各推論モデルの重み付けされた前記推論結果を統合すること、を備える、
ステップと、
生成された前記推論結果に関する情報を出力するステップと、
を実行し、
前記各推論モデルは、前記ローカル学習データを利用した機械学習により前記所定の推論を実行する能力を獲得した学習済み機械学習モデルにより構成され、
前記環境データおよび対象データから前記各統合パラメータの値を算出するための演算モデルの機械学習を実行するステップであって、前記機械学習は、算出される前記各統合パラメータの値が前記対象の環境下における前記所定の推論に適合するように前記演算モデルを訓練することにより構成される、ステップを更に実行し、
前記統合規則は、前記機械学習により構築された学習済み演算モデルを更に備え、
前記前記環境データおよび対象データに応じて、前記各統合パラメータの値を決定することは、前記学習済み演算モデルに前記環境データおよび対象データを与えて、前記学習済み演算モデルの演算処理を実行することで、前記学習済み演算モデルの出力として前記各統合パラメータの値を取得することにより構成され、
前記演算モデルの機械学習は、前記環境データと同種のデータである訓練用環境データ、前記対象データと同種のデータである訓練用対象データ、及び、前記訓練用対象データに対して所定の推論を実行した結果を示す正解データの組み合わせをそれぞれ含む複数の学習データセットを利用する機械学習であって、
前記各学習データセットの入力を受け付けた前記演算モデルが出力する前記各統合パラメータの値を使用して、前記各学習データセットに含まれる前記訓練用対象データに対する前記各推論モデルの推論結果を重み付けし、
重み付けされた前記推論結果を統合することにより、前記各学習データセットに含まれる前記訓練用環境データおよび前記訓練用対象データに対する前記推論結果を生成し、
生成された前記推論結果が、前記各学習データセットに含まれる前記正解データに適合するように、前記演算モデルを訓練することにより構成され、
前記学習済み機械学習モデルについては、前記対象の環境に適合するための学習を行わず、
前記所定の推論は、回帰又は識別であり、
前記各推論モデルの重み付けされた前記推論結果を統合することは、
前記各推論モデルの前記推論結果を示す値の重み付け平均を算出すること、
または、
前記各推論モデルの前記推論結果を重み付けした上で多数決することにより、前記各推論モデルの前記推論結果のうちのいずれかを選択すること、
である、
推論方法。

【請求項12】

コンピュータに、
所定の推論の対象となる所定の対象データを取得するステップと、
前記所定の推論を実行する対象の環境に関する環境データを取得するステップと、
異なる環境下で得られたローカル学習データから前記所定の推論を実行するように導出された複数の推論モデルそれぞれに前記対象データを与えて、当該各推論モデルに前記所定の推論を前記対象データに対して実行させることで、取得された前記対象データに対する当該各推論モデルの推論結果を取得するステップと、
統合規則に従って、前記各推論モデルの推論結果を統合することで、前記対象の環境下での前記対象データに対する推論結果を生成するステップであって、
前記統合規則は、前記対象の環境下において、前記各推論モデルの推論結果を重視する程度をそれぞれ規定する複数の統合パラメータにより構成され、
前記統合規則に従って、前記各推論モデルの推論結果を統合することは、
取得された前記環境データに応じて、前記各統合パラメータの値を決定すること、
決定された前記各統合パラメータの値を使用して、前記各推論モデルの前記推論結果を重み付けすること、及び
前記各推論モデルの重み付けされた前記推論結果を統合すること、を備える、
ステップと、
生成された前記推論結果に関する情報を出力するステップと、
を実行させ、
前記各推論モデルは、前記ローカル学習データを利用した機械学習により前記所定の推論を実行する能力を獲得した学習済み機械学習モデルにより構成され、
前記環境データおよび対象データから前記各統合パラメータの値を算出するための演算モデルの機械学習を実行するステップであって、前記機械学習は、算出される前記各統合パラメータの値が前記対象の環境下における前記所定の推論に適合するように前記演算モデルを訓練することにより構成される、ステップを更に実行させ、
前記統合規則は、前記機械学習により構築された学習済み演算モデルを更に備え、
前記前記環境データおよび対象データに応じて、前記各統合パラメータの値を決定することは、前記学習済み演算モデルに前記環境データおよび対象データを与えて、前記学習済み演算モデルの演算処理を実行することで、前記学習済み演算モデルの出力として前記各統合パラメータの値を取得することにより構成され、
前記演算モデルの機械学習は、前記環境データと同種のデータである訓練用環境データ、前記対象データと同種のデータである訓練用対象データ、及び、前記訓練用対象データに対して所定の推論を実行した結果を示す正解データの組み合わせをそれぞれ含む複数の学習データセットを利用する機械学習であって、
前記各学習データセットの入力を受け付けた前記演算モデルが出力する前記各統合パラメータの値を使用して、前記各学習データセットに含まれる前記訓練用対象データに対する前記各推論モデルの推論結果を重み付けし、
重み付けされた前記推論結果を統合することにより、前記各学習データセットに含まれる前記訓練用環境データおよび前記訓練用対象データに対する前記推論結果を生成し、
生成された前記推論結果が、前記各学習データセットに含まれる前記正解データに適合するように、前記演算モデルを訓練することにより構成され、
前記学習済み機械学習モデルについては、前記対象の環境に適合するための学習を行わず、
前記所定の推論は、回帰又は識別であり、
前記各推論モデルの重み付けされた前記推論結果を統合することは、
前記各推論モデルの前記推論結果を示す値の重み付け平均を算出すること、
または、
前記各推論モデルの前記推論結果を重み付けした上で多数決することにより、前記各推論モデルの前記推論結果のうちのいずれかを選択すること、
である、
推論プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、推論装置、推論方法、及び推論プログラムに関する。

【背景技術】

【0002】

近年、何らかの対象を観測するために、カメラ（撮影装置）、マイクロフォン、温度センサ、照度センサ等のセンサが様々な場面で用いられている。例えば、製造ライン等の製品を製造する場面では、製造される製品を撮影装置により撮影し、得られた画像データに基づいて製品の良否を検査する技術が利用されている。

【0003】

対象を観測する場所が異なれば、センサによる最適な観測方法は異なり得る。例えば、明るい場所で製品の状態を検査する場合には、撮影装置のシャッタースピードは速い方がよく、暗い場所で製品の状態を検査する場合には、撮影装置のシャッタースピードは遅い方がよい。また、同一の場所であっても、時間帯によってセンサによる最適な観測方法は異なり得る。例えば、時間帯によって、対象の場所における明るさは相違し得る。また、例えば、異なる季節では、同一の時間帯でも対象の場所における明るさは相違し得る。すなわち、観測の環境が異なれば、センサによる最適な観測方法が異なり得る。

【0004】

対象を適切に観察するためには、異なる環境であっても、センサによる観測が系統的に実施されるのが望ましい。センサによる観測を系統的に実施する方法の一例として、センサによる観測方法を人手により標準化することが考えられる。しかしながら、観測の環境が多様である場合、観測方法を一律に標準化することは困難である。また、センサを取り付ける際に、人の主観が入ってしまい、標準化された観測方法を実現できない可能性がある。つまり、人為的な要因により、標準化された観測方法を各環境で実現できない可能性がある。

【0005】

そのため、人手による標準化に依らずに、各環境においてセンサによる観測方法を体系的に最適化することが望まれる。例えば、特許文献１では、基板上に形成された位置合わせ用のマークの検出条件を最適化する方法が提案されている。具体的に、基板上に形成された複数のマークを、複数の照明条件及び結像条件の下でマーク検出系を用いて検出する。次に、マーク検出系からの検出信号を所定の信号処理アルゴリズムにより解析し、検出信号の波形形状に関する判定量を算出する。そして、得られた判定量に基づいて複数のマークの検出結果の再現性を評価し、評価結果に基づいて複数の照明条件及び結像条件を最適化する。特許文献１の方法によれば、各環境において、所定の信号処理アルゴリズムによるマークの検出に適合するように照明条件及び結像条件を最適化することができる。

【0006】

また、近年、機械学習を用いて、センサによる観測方法を最適化する方法も提案されている。例えば、特許文献２では、物体の観測行動を繰り返しながら、観測行動により得られた観測データに基づいて物体をクラスに分類する分類システムが、対象物体の分類確率により導出されるエントロピーの減少量に応じて設定された報酬に基づいて観測行動の強化学習を実行することが提案されている。特許文献２の方法によれば、分類システムは、各環境において、物体のクラス識別に適合した観測行動を強化学習により習得することができる。また、例えば、非特許文献１では、強化学習を用いて、超音波アレーセンサの指向性を最適化する方法が提案されている。

【先行技術文献】

【特許文献】

【0007】

【文献】特開２０１２－０３８７９４号公報

【文献】特開２０１２－２１６１５８号公報

【文献】特開２０１１－０５９９２４号公報

【文献】特開２０１７－１７３８７４号公報

【文献】特開２０１８－０５１６６４号公報

【文献】特開２０１９－０６７２３８号公報

【文献】特開２０１９－０８７０９６号公報

【非特許文献】

【0008】

【文献】小谷直樹、谷口研二、「強化学習を用いた超音波アレーセンサの指向性の最適設計法」、システム制御情報学会論文誌、２０１０年、２３巻、１２号、ｐ．２９１－２９３

【発明の概要】

【発明が解決しようとする課題】

【0009】

本件発明者らは、上記のような従来の最適化方法には、次のような問題点があることを見出した。

【0010】

すなわち、従来の方法では、個々の環境で、センサの観測方法を最適化している。特に、教師あり学習、教師なし学習、強化学習等の機械学習により、センサの観測方法を最適化する場合、各環境において学習データを収集し、収集された学習データを利用した機械学習により学習済み機械学習モデルを構築している。学習済み機械学習モデルは、学習データを収集した環境と同じ環境で運用された場合には、所定の推論（この場合は、センサの最適な観測方法を推定する）を適切に実行することができる。

【0011】

しかしながら、学習データを収集した環境と異なる環境で運用された場合、学習済み機械学習モデルは、当該所定の推論を適切に実行できるとは限らない。そのため、基本的には、新たな環境でセンサの観測方法を最適化する場合には、対象の新たな環境で学習データを収集し、収集された学習データを利用して、新たな学習済み機械学習モデルを構築するための機械学習を実施することになる。したがって、従来の方法では、新たな環境でセンサの観測方法を最適化するのにはコストがかかるという問題点があった。

【0012】

なお、この問題点は、センサの観測方法を最適化する場面に特有のものではない。学習済み機械学習モデルにより所定の推論を実行するあらゆる場面で同様の問題点が生じる。学習済み機械学習モデルにより所定の推論を実行する場面とは、上記センサの最適な観測方法を推定する場面の他、例えば、移動体の移動する経路を予測する場面、ユーザに適合する会話戦略を推定する場面、タスクに適合するロボット装置の動作指令を推定する場面等である。

【0013】

具体例として、引用文献３では、ユーザの移動経路を予測する能力を隠れマルコフモデルに習得させることが提案されている。引用文献４では、深層強化学習により、後続の発言が会議の目的に近付くような応答を決定する能力を学習器に習得させることが提案されている。引用文献５では、ロボット装置としてハンドを備える産業用ロボットの稼働条件であって、物品の位置姿勢、サイクルタイム、トルク及び振動に関する稼働条件を決定する能力を強化学習により学習モデルに習得させることが提案されている。引用文献６では、ロボット装置として制御対象設備の制御内容を決定する能力を強化学習により学習モデルに習得させることが提案されている。引用文献７では、ロボット装置として自動運転車両の行動を決定する能力を強化学習により学習モデルに習得させることが提案されている。

【0014】

これらの場面でも、学習データを収集した環境と異なる環境で運用された場合に、学習済み機械学習モデルは、所定の推論を適切に実行できるとは限らない。そのため、新たな環境で所定の推論を適切に実行可能な学習済み機械学習モデルを構築するのにはコストがかかるという問題点が生じ得る。

【0015】

更には、上記の問題点は、機械学習により学習済み機械学習モデルを構築する場面に特有のものではない。例えば、人手によるルール化等、機械学習以外の方法により、所定の推論を実行するように構成された推論モデルを学習データから導出するあらゆる場面で生じ得る。例えば、人手によりルール化により推論モデルを生成する場面を想定する。この場面でも、学習データを収集した環境と異なる環境で推論モデルが運用された場合、生成の際に考慮されていない入力が与えられる可能性があり、推論モデルは、所定の推論を適切に実行できるとは限らない。そのため、新たな環境で所定の推論を適切に実行可能な推論モデルを構築するにはコストがかかるという問題点が生じ得る。

【0016】

本発明は、一側面では、このような実情を鑑みてなされたものであり、その目的は、新たな環境で所定の推論を適切に実行可能な推論モデルを構築するのにかかるコストを低減するための技術を提供することである。

【課題を解決するための手段】

【0017】

本発明は、上述した課題を解決するために、以下の構成を採用する。

【0018】

すなわち、本発明の一側面に係る推論装置は、所定の推論の対象となる所定の対象データを取得する第１データ取得部と、前記所定の推論を実行する対象の環境に関する環境データを取得する第２データ取得部と、異なる環境下で得られたローカル学習データから前記所定の推論を実行するように導出された複数の推論モデルそれぞれに前記対象データを与えて、当該各推論モデルに前記所定の推論を前記対象データに対して実行させることで、取得された前記対象データに対する当該各推論モデルの推論結果を取得する結果取得部と、統合規則に従って、前記各推論モデルの推論結果を統合することで、前記対象の環境下での前記対象データに対する推論結果を生成する統合部であって、前記統合規則は、前記対象の環境下において、前記各推論モデルの推論結果を重視する程度をそれぞれ規定する複数の統合パラメータにより構成され、前記統合規則に従って、前記各推論モデルの推論結果を統合することは、取得された前記環境データに応じて、前記各統合パラメータの値を決定すること、決定された前記各統合パラメータの値を使用して、前記各推論モデルの前記推論結果を重み付けすること、及び前記各推論モデルの重み付けされた前記推論結果を統合すること、を備える、統合部と、生成された前記推論結果に関する情報を出力する出力部と、を備える。

【0019】

当該構成に係る推論装置は、異なる環境下で得られたローカル学習データから導出された複数の推論モデルを利用して、対象の環境下で所定の推論を実行する。具体的には、当該構成に係る推論装置は、所定の推論の対象となる対象データを各推論モデルに与えて、対象データに対する所定の推論を各推論モデルに実行させることで、対象データに対する各推論モデルの推論結果を取得する。そして、当該構成に係る推論装置は、統合規則に従って、各推論モデルの推論結果を統合することで、対象の環境下での対象データに対する推論結果を生成する。このように、当該構成に係る推論装置は、対象の環境下で所定の推論を実行するために、新たな推論モデルを構築するのではなく、既に構築された複数の推論モデルを活用する。

【0020】

統合規則は、対象の環境下において、各推論モデルの推論結果を重視する程度をそれぞれ規定する複数の統合パラメータにより構成される。一般的には、対象の環境に類似する学習環境で得られたローカル学習データから導出された推論モデルほど、対象の環境下で得られた対象データに対する推論精度が高いと想定される。他方、対象の環境に類似しない学習環境で得られたローカル学習データから導出された推論モデルほど、対象の環境下で得られた対象データに対する推論精度が低いと想定される。また、複数の推論モデルには、対象の環境下で優先的に利用することが推奨される推論モデルが含まれる場合がある。

【0021】

そこで、当該構成に係る推論装置は、所定の推論を実行する対象の環境に関する環境データに応じて、統合規則の各統合パラメータの値を決定する。例えば、対象の環境に類似する学習環境の推論モデル及び優先度の高い推論モデルの少なくともいずれかの推論結果が重視されるように各統合パラメータの値が決定されてよい。そして、当該構成に係る推論装置は、決定された各統合パラメータの値を使用して、各推論モデルの推論結果を重み付けし、重み付けされた各推論モデルの推論結果を統合する。当該構成では、このように対象の環境に応じて各推論モデルの推論を重視する程度を調整することで、様々な環境で得られた知見（推論モデル）を新たな環境に適合するようにカスタマイズすることができる。その結果、対象の環境下で所定の推論を適切に実行することができる。

【0022】

したがって、当該構成によれば、異なる環境下で得られたローカル学習データから導出された複数の推論モデルを利用して、対象の環境下で所定の推論を適切に実行することができる。すなわち、既に構築された複数の推論モデルを活用することで、対象の環境下で所定の推論を適切に実行可能な新たな推論モデルを構築することができる。そのため、対象の環境下で新たな学習データを収集し、収集された新たな学習データから新たな推論モデルを導出する作業の手間を省略することができる。よって、当該構成によれば、新たな環境で所定の推論を適切に実行可能な推論モデルを構築するのにかかるコストを低減することができる。

【0023】

なお、「所定の推論」を実行することは、未知の対象データに基づいて何らかの推定処理を実行することである。推論の内容は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。推論は、回帰又は識別であってもよい。所定の推論は、例えば、センサの最適な観測方法を推定すること、移動体の移動する経路を予測すること、ユーザに適合する会話戦略を推定すること、タスクに適合するロボット装置の動作指令を推定すること等であってよい。推論結果の表現は、推論の内容に応じて適宜決定されてよい。推論結果は、例えば、回帰による連続値、クラスに属する確率等により表現されてよい。また、推論結果は、例えば、１つ以上の数値又は１つ以上のクラスにより表現されてもよい。

【0024】

「対象データ」は、所定の推論の際に使用されるものであれば、その種類は、特に限定されなくてもよく、推論の内容に応じて適宜選択されてよい。対象データは、例えば、画像データ、音データ、数値データ、テキストデータ、その他センサにより得られる観測データ等であってよい。対象データは、「入力データ」と読み替えられてもよい。

【0025】

「環境データ」は、所定の推論を実行する対象の環境に関するものであれば、その種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。所定の推論を実行する環境は、例えば、対象データの得られる環境である。対象データの得られる環境に関する属性は、所定の推論に直接的又は間接的に関連する対象物又はユーザの属性等の推論に関連し得るあらゆる事象を含んでよい。環境データは、対象データと同様に、例えば、画像データ、音データ、数値データ、テキストデータ、その他センサにより得られる観測データ等であってよい。

【0026】

対象データ及び環境データそれぞれを取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。対象データ及び環境データがセンサにより得られる観測データに由来する場合、対象データ及び環境データは、同一のセンサにより得られた同一の観測データに由来してもよいし、異なるセンサにより得られた異なる観測データに由来してもよい。対象データ及び環境データは、少なくとも部分的に共通のデータを含んでもよい。

【0027】

各推論モデルは、所定の推論を実行可能であれば、その構成は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。各推論モデルは、例えば、データテーブル、関数式、ルール等により構成されてよい。推論に利用される各推論モデルの出力（推論結果）の形式及び内容は、必ずしも完全に一致していなければならない訳ではない。各推論モデルの出力の形式及び内容の少なくとも一方は、各推論モデルの推論結果を統合可能な範囲で異なっていてもよい。例えば、関節数の異なるロボット装置の動作指令を推定する複数の推論モデルが、対象の環境下におけるロボット装置の動作指令を推定するのに利用されてよい。各推論モデルの推論結果を統合する方法は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、各推論モデルの推論結果を統合することは、平均化又は多数決により構成されてよい。

【0028】

ローカル学習データを得る環境が異なっていることとは、例えば、時間、場所、対象物、ユーザ等の所定の推論に影響を及ぼし得る事象が少なくとも部分的に相違していることである。一例として、異なる場所で取得されたローカル学習データは、異なる環境下で得られたローカル学習データとして取り扱われてよい。また、その他の例として、同一の場所で異なる時刻に取得されたローカル学習データは、異なる環境下で得られたローカル学習データとして取り扱われてよい。各推論モデルの導出に利用されたローカル学習データには、少なくとも部分的に同一のデータが含まれてもよい。

【0029】

各推論モデルを導出する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。各推論モデルの導出は、人手により行われてもよいし、或いは機械学習により行われてもよい。機械学習の方法には、例えば、教師あり学習、教師なし学習、強化学習等が用いられてよい。ローカル学習データの形式及び種類は、特に限定されなくてもよく、例えば、各推論モデルを導出する方法、所定の推論の内容等に応じて適宜決定されてよい。

【0030】

上記一側面に係る推論装置において、前記各推論モデルは、前記ローカル学習データを利用した機械学習により前記所定の推論を実行する能力を獲得した学習済み機械学習モデルにより構成されてよい。当該構成によれば、新たな環境で所定の推論を適切に実行可能な学習済み機械学習モデルを構築するのにかかるコストを低減することができる。

【0031】

上記一側面に係る推論装置は、前記環境データから前記各統合パラメータの値を算出するための演算モデルの機械学習を実行する学習処理部であって、前記機械学習は、算出される前記各統合パラメータの値が前記対象の環境下における前記所定の推論に適合するように前記演算モデルを訓練することにより構成される、学習処理部を更に備えてもよい。これに応じて、前記統合規則は、前記機械学習により構築された学習済み演算モデルを更に備えてよい。そして、前記前記環境データに応じて、前記各統合パラメータの値を決定することは、前記学習済み演算モデルに前記環境データを与えて、前記学習済み演算モデルの演算処理を実行することで、前記学習済み演算モデルの出力として前記各統合パラメータの値を取得することにより構成されてよい。当該構成によれば、機械学習により構築された学習済み演算モデルを含む統合規則により、対象の環境で所定の推論を更に適切に実行することができる。

【0032】

推論モデルのパラメータ数は、対象データの次元数及び推論結果の表現形式に依存する。これに対して、演算モデルのパラメータ数は、環境データの次元数及び対象の環境下での所定の推論に利用する推論モデルの数に依存する。そのため、対象データ及び推論内容の少なくとも一方が複雑になればなるほど、推論モデルのパラメータの数は大きく増加するのに対して、演算モデルのパラメータ数の増加は抑えることができる。

【0033】

例えば、対象の環境として明るさを考慮して、カメラの最適な観測方法を当該カメラにより得られる画像データから推定する場面を想定する。この場合、推論モデルのパラメータ数は、画像データの画素数及びカメラの取り得る状態数に依存し、千を超えるオーダーと成り得る。一方、演算モデルのパラメータ数は、明るさの次元数及び推論モデルの数に依存するが、最適な観測方法の推定に数十の推論モデルを利用するとしても、多くて数十～数百程度のオーダーである。

【0034】

したがって、一般的に、演算モデルのパラメータ数は、推論モデルのパラメータ数よりも少なくて済む。機械学習のコストはパラメータ数に依存するため、機械学習により学習済み演算モデルを構築するコストは、新たな推論モデルとして学習済み機械学習モデルを構築するコストよりも低く抑えることができる。よって、当該構成においても、新たな環境で所定の推論を適切に実行可能な学習済み機械学習モデルを構築するのにかかるコストを低減することができる。

【0035】

なお、演算モデルの機械学習は、推論装置以外の情報処理装置（コンピュータ）により実行されてよい。演算モデルは、各統合パラメータの値を算出するための複数の演算パラメータを含む。演算モデルの機械学習は、対象の環境に適合する所望の出力を得るように演算パラメータの値を調整することであってよい。すなわち、算出される各統合パラメータの値が対象の環境下における所定の推論に適合するように演算モデルを訓練することとは、算出された各統合パラメータの値を用いて各推論モデルの推論結果を統合した結果が対象の環境下における推論結果として適合するような各統合パラメータの値を環境データから算出するように演算モデルの演算パラメータの値を調整することであってよい。

【0036】

上記一側面に係る推論装置において、前記演算モデルの前記機械学習は、前記統合により生成される推論結果の適正度に応じて報酬が設定された強化学習により構成されてよく、前記演算モデルを訓練することは、前記報酬が多く得られるように前記演算モデルを構成する演算パラメータの値の修正を繰り返すことを含んでよい。演算パラメータの値の修正は、例えば、演算パラメータの値を修正する量が閾値以下になる等の所定の条件を満たすまで繰り返されてよい。当該構成によれば、強化学習により構築された学習済み演算モデルを含む統合規則により、対象の環境で所定の推論を更に適切に実行することができる。

【0037】

なお、適正度は、統合により生成される推論結果が適正である程度を示す。例えば、センサの最適な観測方法を推定する場面では、統合により得られた観測方法に従ってセンサの観測状態を変更した結果、所定の条件に適合した観測データ（例えば、製品の外観検査に適合した画像データ）をセンサにより取得することが可能であるほど、その観測方法の推定結果は適正であると評価されてよい。また、例えば、移動体の移動する経路を予測する場面では、統合により得られた予測経路が正確であるほど、その経路の予測結果は適正であると評価されてよい。また、例えば、ユーザに適合する会話戦略を推定する場面では、統合により得られた会話戦略がユーザに適合しているほど、その会話戦略の推定結果は適正であると評価されてよい。また、例えば、タスクに適合するロボット装置の動作指令を推定する場面では、統合により得られた動作指令がタスクに適合しているほど、その動作指令の推定結果は適正であると評価されてよい。適正度は、所定の指標に基づいてコンピュータにより自動的に算出されてもよいし、或いはオペレータの入力により指定されてもよい。すなわち、適正度の評価は、コンピュータにより行われてもよいし、或いはオペレータにより行われてもよい。

【0038】

上記一側面に係る推論装置において、前記環境データに応じて、前記各統合パラメータの値を決定することは、前記各推論モデルの導出に利用された前記ローカル学習データの得られた環境に関する学習環境データを取得すること、取得された学習環境データ及び前記環境データの適合度を算出すること、及び算出された適合度に応じて、前記各推論モデルに対する前記各統合パラメータの値を決定すること、により構成されてよい。当該構成によれば、環境データ及び学習環境データの比較の結果（すなわち、適合度）に基づいて、対象の環境に学習環境が類似するほど、その推論モデルの推論結果が重視されるように、各統合パラメータの値を決定することができる。したがって、当該構成によれば、簡易な方法により、新たな環境で所定の推論を適切に実行可能な推論モデルを構築するのにかかるコストを低減することができる。

【0039】

上記一側面に係る推論装置は、前記複数の統合パラメータのうちの少なくとも１つの統合パラメータの値の指定を受け付け、かつ前記少なくとも１つの統合パラメータの値を指定された値に設定するパラメータ設定部を更に備えてもよい。これに応じて、前記各推論モデルの前記推論結果を重み付けすることは、設定された前記値を使用して、前記少なくとも１つの統合パラメータに対応する推論モデルの推論結果を重み付けすることを含んでもよい。当該構成によれば、各推論モデルの推論結果に適用する各統合パラメータの値の少なくとも一部をオペレータの指定により決定することができる。これにより、対象の環境下における所定の推論にオペレータの意図（例えば、特定の推論モデルの推論結果を重視する）を反映することができる。

【0040】

上記各側面に係る推論装置は、推論モデルにより何らかの推論を実行するあらゆる場面に適用されてよい。何らかの推論を実行する場面とは、例えば、センサの最適な観測方法を推定する場面、移動体の移動する経路を予測する場面、ユーザに適合する会話戦略を推定する場面、タスクに適合するロボット装置の動作指令を推定する場面等である。或いは、何らかの推論を実行する場面とは、例えば、カメラにより得られた画像データに写る被写体の属性を推定する場面等、センサにより得られた観測データに表れる特徴を推定する場面であってもよい。或いは、何らかの推論を実行する場面とは、センサにより得られた観測データからセンサの観測条件に関する特徴を推定する場面であってもよい。観測条件に関する特徴は、観測条件に関連し得るあらゆる事象を含んでよく、例えば、センサと観測対象との間の距離、観測対象の周囲の明るさ等を含んでよい。

【0041】

例えば、上記一側面に係る推論装置において、前記所定の推論は、センサにより得られた観測データに表れる特徴を当該観測データから推定することであってよい。前記対象データは、前記センサにより得られた観測データであってよい。前記環境データは、前記観測データを取得する環境に関するものであってよい。センサにより得られた観測データに表れる特徴を推定することは、カメラにより得られた画像データに写る被写体の属性を推定するであってよい。当該構成によれば、センサにより得られた観測データに表れる特徴を推定する場面において、新たな環境で所定の推論を適切に実行可能な推論モデルを構築するのにかかるコストを低減することができる。推論装置は、例えば、検査装置、予測装置、会話装置、制御装置等と、推論内容に適合するように適宜読み替えられてよい。

【0042】

例えば、上記一側面に係る推論装置において、前記所定の推論は、センサにより対象物の属性を観測する現在の観測状態から、所定の条件に適合した観測データをセンサにより得るための適正な観測状態への変更方法を推定することであってよい。前記対象データは、対象センサの現在の観測状態に関するものであってよい。前記環境データは、前記対象センサが前記対象物の属性を観測する対象の観測環境に関するものであってよい。当該構成によれば、対象物の属性をセンサにより観測する場面において、新たな環境でセンサの最適な観測方法を適切に推定可能な推論モデルを構築するのにかかるコストを低減することができる。

【0043】

なお、所定の条件に適合した観測データが得られることは、センサの観測状態が適正であることに対応する。「所定の条件」は、センサの観測目的に応じて適宜規定されてよい。例えば、製品の欠陥検出のために観測データを得る場合、所定の条件は、センサにより得られた観測データに基づいて、欠陥検出が可能であるか否か、欠陥検出の精度が基準を満たすか否か等の、センサにより得られた観測データに対する他の推論の性能に応じて規定されてよい。製品の欠陥検出は、被写体の品質評価（例えば、農作物の生育状態の評価）に置き換えられてよい。「適正な観測状態への変更方法」を推定することは、当該変更方法を直接的に推定すること、及び適正な観測状態を推定し、推定された適正な観測状態と現在の観測状態との差分を算出することで、適正な観測状態に導くための変更方法を間接的に推定することを含んでよい。

【0044】

上記一側面に係る推論装置において、前記環境データは、前記対象センサとは異なる他のセンサであって、前記対象の観測環境を観測する他のセンサにより得られてよい。当該構成によれば、環境データを簡易に取得することができるため、各推論モデルの推論結果を統合する一連の処理の簡略化を図ることができる。また、当該構成によれば、観測データを適切に取得することができるため、統合により生成される推論結果の精度の向上を図ることができる。

【0045】

上記一側面に係る推論装置は、前記対象センサの観測状態に介入することで、当該観測状態を変更させる介入装置に接続されてよい。前記推論結果に関する情報は、推定された前記変更方法に従って前記対象センサの観測状態を変更させる動作を前記介入装置に実行させるための指令情報を含んでもよい。前記出力部は、前記介入装置に前記指令情報を送信することで、推定された前記変更方法に従って前記対象センサの観測状態を変更するための前記動作を前記介入装置に実行させてもよい。当該構成によれば、センサの観測状態を自動的に最適化することができる。

【0046】

なお、介入装置は、センサの観測状態に介入可能であれば、その種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。具体例として、介入装置は、例えば、パンチルト雲台、照明装置等であってよい。パンチルト雲台は、センサの位置及び向きの少なくともいずれかを変更するのに利用されてよい。照明装置は、センサの観測対象周囲の明るさを変更するのに利用されてよい。介入装置は、当該介入装置の動作を制御する制御装置を備えてよい。この場合、推論装置は、制御装置に指令情報を送信することで、対象センサの観測状態を変更するための動作の制御を当該制御装置に実行させてもよい。

【0047】

上記一側面に係る推論装置において、前記推論結果に関する情報は、前記変更方法に従って前記対象センサの観測状態を変更することをユーザに指示するための指示情報を含んでもよい。前記出力部は、前記指示情報を出力装置に出力してもよい。当該構成によれば、センサの観測状態を最適化するための変更方法をユーザに提示することができる。これによって、専門知識を有さないユーザでも、対象の環境に応じてセンサの観測状態を最適化することができる。

【0048】

上記一側面に係る推論装置において、前記センサは、カメラであってよい。前記観測データは、画像データであってよい。前記所定の条件は、前記対象物の属性を検査するのに適するように前記対象物が前記画像データに写ることに関するものであってよい。当該構成によれば、カメラにより得られる画像データに基づいて対象物の属性を検査する場面において、新たな環境でカメラの最適な観測方法を適切に推定可能な推論モデルを構築するのにかかるコストを低減することができる。

【0049】

また、例えば、上記一側面に係る推論装置において、前記所定の推論は、移動体の移動する経路を移動体の状態から予測することであってよい。前記対象データは、センサにより観測される対象の移動体の状態に関するものであってよい。前記環境データは、前記対象の移動体の移動を前記センサが観測する対象の観測環境に関するものであってよい。当該構成によれば、移動体の移動を監視する場面において、新たな環境で移動体の移動する経路を適切に予測可能な推論モデルを構築するのにかかるコストを低減することができる。なお、移動体は、例えば、生物（人間等）、機械（車両等）等であってよい。

【0050】

また、例えば、上記一側面に係る推論装置において、前記所定の推論は、ユーザに適合する会話の戦略をユーザの会話行動から推定することであってよい。前記対象データは、対象のユーザの会話行動に関するものであってよい。前記環境データは、前記対象のユーザが会話行動を行う対象の会話環境に関するものであってよい。当該構成によれば、ユーザに対する会話を生成する場面において、新たな環境でユーザに適合する会話戦略を適切に推定可能な推論モデルを構築するのにかかるコストを低減することができる。なお、会話戦略は、ユーザに対する会話行動の決定に関するものであれば、その規定内容は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。会話戦略は、例えば、会話の内容、発話タイミング、会話の頻度、口調等を規定してもよい。

【0051】

また、例えば、上記一側面に係る推論装置において、前記所定の推論は、タスクに適合するロボット装置の動作指令をロボット装置の状態から推定することであってよい。前記対象データは、対象のロボット装置の状態に関するものであってよい。前記環境データは、前記対象のロボット装置が前記タスクを遂行する対象のタスク環境に関するものであってよい。当該構成によれば、ロボット装置の動作を制御する場面において、新たな環境でタスクに適合するロボット装置の動作指令を適切に推定可能な推論モデルを構築するのにかかるコストを低減することができる。

【0052】

なお、ロボット装置及びタスクはそれぞれ、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。ロボット装置は、例えば、産業用ロボット、設備装置、自動運転可能な車両等であってよい。設備装置は、例えば、空調設備（エアコンディショナ）、照明装置等であってよい。ロボット装置が産業用ロボットである場合、タスクは、例えば、ワークを目的位置に配置すること等であってよい。ロボット装置が空調設備等の設備装置である場合、タスクは、例えば、所定の温度に保つ等、設備装置の種類に応じて決定されてよい。ロボット装置が自動運転可能な車両である場合、タスクは、例えば、現在位置から目的位置まで自動運転により移動すること等であってよい。

【0053】

また、本発明の一側面に係る演算モデル生成装置は、演算モデルの機械学習に利用するための学習データを取得するデータ取得部であって、演算モデルは、対象の環境下において、各推論モデルの推論結果を重視する程度をそれぞれ規定する複数の統合パラメータそれぞれの値を環境データから算出するのに利用されるものであり、各推論モデルは、異なる環境下で得られたローカル学習データから所定の推論を実行するように導出されたものである、データ取得部と、取得された学習データを利用して、上記演算モデルの機械学習を実行する学習処理部であって、機械学習は、算出される各統合パラメータの値が対象の環境下における所定の推論に適合するように演算モデルを訓練することにより構成される、学習処理部と、演算モデルの機械学習の結果を所定の記憶領域に保存する保存処理部と、を備える。演算モデル生成装置は、モデル生成装置、学習装置等と読み替えられてよい。各モデル（例えば、機械学習モデル）の学習方法は、学習済みモデル（例えば、学習済み機械学習モデル）の生成方法に相当する。

【0054】

上記各形態に係る推論装置の別の態様として、本発明の一側面は、以上の推論装置又はモデル生成装置の各構成を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記憶した、コンピュータ等が読み取り可能な記憶媒体であってもよい。コンピュータ等が読み取り可能な記憶媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。また、本発明の一側面に係る推論システムは、上記いずれかの形態に係る推論装置、及びローカル学習データから推論モデルを導出する１つ以上の推論モデル生成装置により構成されてよい。推論モデル生成装置は、モデル生成装置、ローカル学習装置等と読み替えられてよい。推論システムは、上記演算モデル生成装置を更に備えてよい。

【0055】

例えば、本発明の一側面に係る推論方法は、コンピュータが、所定の推論の対象となる所定の対象データを取得するステップと、前記所定の推論を実行する対象の環境に関する環境データを取得するステップと、異なる環境下で得られたローカル学習データから前記所定の推論を実行するように導出された複数の推論モデルそれぞれに前記対象データを与えて、当該各推論モデルに前記所定の推論を前記対象データに対して実行させることで、取得された前記対象データに対する当該各推論モデルの推論結果を取得するステップと、統合規則に従って、前記各推論モデルの推論結果を統合することで、前記対象の環境下での前記対象データに対する推論結果を生成するステップであって、前記統合規則は、前記対象の環境下において、前記各推論モデルの推論結果を重視する程度をそれぞれ規定する複数の統合パラメータにより構成され、前記統合規則に従って、前記各推論モデルの推論結果を統合することは、取得された前記環境データに応じて、前記各統合パラメータの値を決定すること、決定された前記各統合パラメータの値を使用して、前記各推論モデルの前記推論結果を重み付けすること、及び前記各推論モデルの重み付けされた前記推論結果を統合すること、を備える、ステップと、生成された前記推論結果に関する情報を出力するステップと、を実行する、情報処理方法である。

【0056】

また、例えば、本発明の一側面に係る推論プログラムは、コンピュータに、所定の推論の対象となる所定の対象データを取得するステップと、前記所定の推論を実行する対象の環境に関する環境データを取得するステップと、異なる環境下で得られたローカル学習データから前記所定の推論を実行するように導出された複数の推論モデルそれぞれに前記対象データを与えて、当該各推論モデルに前記所定の推論を前記対象データに対して実行させることで、取得された前記対象データに対する当該各推論モデルの推論結果を取得するステップと、統合規則に従って、前記各推論モデルの推論結果を統合することで、前記対象の環境下での前記対象データに対する推論結果を生成するステップであって、前記統合規則は、前記対象の環境下において、前記各推論モデルの推論結果を重視する程度をそれぞれ規定する複数の統合パラメータにより構成され、前記統合規則に従って、前記各推論モデルの推論結果を統合することは、取得された前記環境データに応じて、前記各統合パラメータの値を決定すること、決定された前記各統合パラメータの値を使用して、前記各推論モデルの前記推論結果を重み付けすること、及び前記各推論モデルの重み付けされた前記推論結果を統合すること、を備える、ステップと、生成された前記推論結果に関する情報を出力するステップと、を実行させるための、プログラムである。

【発明の効果】

【0057】

本発明によれば、新たな環境で所定の推論を適切に実行可能な学習済み機械学習モデルを構築するのにかかるコストを低減することができる。

【図面の簡単な説明】

【0058】

【図1A】図１Ａは、本発明が適用される場面の一例を模式的に例示する。

【図1B】図１Ｂは、本発明が適用される場面の一例を模式的に例示する。

【図2】図２は、実施の形態に係る推論装置のハードウェア構成の一例を模式的に例示する。

【図3】図３は、実施の形態に係るローカル学習装置のハードウェア構成の一例を模式的に例示する。

【図4】図４は、実施の形態に係る推論装置のソフトウェア構成の一例を模式的に例示する。

【図5A】図５Ａは、実施の形態に係るローカル学習装置の機械学習に関するソフトウェア構成の一例を模式的に例示する。

【図5B】図５Ｂは、実施の形態に係るローカル学習装置の推論装置に関するソフトウェア構成の一例を模式的に例示する。

【図6】図６は、実施の形態に係るローカル学習装置の学習済み機械学習モデル生成に関する処理手順の一例を例示する。

【図7A】図７Ａは、実施の形態に係る機械学習モデル及び機械学習方法の一例を例示する。

【図7B】図７Ｂは、実施の形態に係る機械学習モデル及び機械学習方法の一例を例示する。

【図7C】図７Ｃは、実施の形態に係る機械学習モデル及び機械学習方法の一例を例示する。

【図8】図８は、実施の形態に係るローカル学習装置による推論処理の処理手順の一例を例示する。

【図9A】図９Ａは、実施の形態に係る推論装置の推論処理に関する処理手順の一例を例示する。

【図9B】図９Ｂは、実施の形態に係る推論装置による統合処理に関するサブルーチンの処理手順の一例を例示する。

【図10A】図１０Ａは、実施の形態に係る統合パラメータの値を決定する方法の一例を例示する。

【図10B】図１０Ｂは、実施の形態に係る統合パラメータの値の決定に利用される演算モデルの機械学習の処理手順の一例を例示する。

【図10C】図１０Ｃは、実施の形態に係る演算モデル及び機械学習方法の一例を例示する。

【図10D】図１０Ｄは、実施の形態に係る演算モデル及び機械学習方法の一例を例示する。

【図11A】図１１Ａは、実施の形態に係る統合パラメータの値を決定する方法の一例を例示する。

【図11B】図１１Ｂは、図１１Ａの方法により統合パラメータの値を決定する処理手順の一例を例示する。

【図12A】図１２Ａは、実施の形態に係る統合パラメータの値を決定する方法の一例を例示する。

【図12B】図１２Ｂは、図１２Ａの方法により統合パラメータの値を決定する処理手順の一例を例示する。

【図13A】図１３Ａは、実施の形態に係る学習済み機械学習モデルのグルーピング処理を模式的に例示する。

【図13B】図１３Ｂは、実施の形態に係る推論装置によるグルーピングの処理手順の一例を例示する。

【図13C】図１３Ｃは、実施の形態に係る推論装置によるグルーピングの処理手順の一例を例示する。

【図14】図１４は、本発明が適用される他の場面の一例を模式的に例示する。

【図15】図１５は、他の形態に係る検査装置のハードウェア構成の一例を模式的に例示する。

【図16A】図１６Ａは、他の形態に係る検査装置のソフトウェア構成の一例を模式的に例示する。

【図16B】図１６Ｂは、他の形態に係る検査装置のソフトウェア構成の一例を模式的に例示する。

【図17】図１７は、本発明が適用される他の場面の一例を模式的に例示する。

【図18】図１８は、他の形態に係る予測装置のハードウェア構成の一例を模式的に例示する。

【図19A】図１９Ａは、他の形態に係る予測装置のソフトウェア構成の一例を模式的に例示する。

【図19B】図１９Ｂは、他の形態に係る予測装置のソフトウェア構成の一例を模式的に例示する。

【図20】図２０は、本発明が適用される他の場面の一例を模式的に例示する。

【図21】図２１は、他の形態に係る会話装置のハードウェア構成の一例を模式的に例示する。

【図22A】図２２Ａは、他の形態に係る会話装置のソフトウェア構成の一例を模式的に例示する。

【図22B】図２２Ｂは、他の形態に係る会話装置のソフトウェア構成の一例を模式的に例示する。

【図23】図２３は、本発明が適用される他の場面の一例を模式的に例示する。

【図24】図２４は、他の形態に係る制御装置のハードウェア構成の一例を模式的に例示する。

【図25A】図２５Ａは、他の形態に係る制御装置のソフトウェア構成の一例を模式的に例示する。

【図25B】図２５Ｂは、他の形態に係る制御装置のソフトウェア構成の一例を模式的に例示する。

【図26A】図２６Ａは、他の形態に係るモデル生成装置のハードウェア構成の一例を模式的に例示する。

【図26B】図２６Ｂは、他の形態に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。

【図27】図２７は、他の形態に係るローカル学習装置の構成の一例を模式的に例示する。

【図28】図２８は、本発明が適用される他の場面の一例を模式的に例示する。

【図29】図２９は、実施例及び比較例のシミュレーションで利用したロボット装置の概要を模式的に示す。

【図30A】図３０Ａは、内挿条件のダイナミクスを有するロボット装置の運動を実施例及び比較例で強化学習により訓練した結果を示す。

【図30B】図３０Ｂは、外挿条件のダイナミクスを有するロボット装置の運動を実施例及び比較例で強化学習により訓練した結果を示す。

【発明を実施するための形態】

【0059】

以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

【0060】

§１適用例
まず、図１Ａ及び図１Ｂを用いて、本発明が適用される場面の一例について説明する。図１Ａ及び図１Ｂは、本発明を適用した場面の一例を模式的に例示する。図１Ａ及び図１Ｂに示されるとおり、本実施形態に係る推論システム１００は、推論装置１及び複数のローカル学習装置２を備えている。推論装置１及び各ローカル学習装置２は、ネットワークを介して互いに接続されてよい。ネットワークの種類は、例えば、インターネット、無線通信網、移動通信網、電話網、専用網等から適宜選択されてよい。

【0061】

本実施形態に係る各ローカル学習装置２は、ローカル学習データ３０を利用して、機械学習モデル４０の機械学習を実行するように構成されたコンピュータである。図１Ａに示されるとおり、各ローカル学習装置２は、異なる環境下でローカル学習データ３０を収集し、得られたローカル学習データ３０を利用して、機械学習モデル４０の機械学習を実行する。この機械学習により、各ローカル学習装置２は、所定の推論を実行する能力を獲得した学習済み機械学習モデル４５を構築する。

【0062】

構築された各学習済み機械学習モデル４５は、本発明の「異なる環境下で得られたローカル学習データから所定の推論を実行するように導出された各推論モデル」の一例である。すなわち、本実施形態では、各推論モデルは、学習済み機械学習モデル４５により構成される。以下の説明において、学習済み機械学習モデル４５は、「推論モデル」と読み替えられてよい。

【0063】

機械学習の方法には、例えば、教師あり学習、教師なし学習、強化学習等が用いられてよい。ローカル学習データ３０の形式及び種類は、特に限定されなくてもよく、例えば、機械学習の方法、所定の推論の内容等に応じて適宜決定されてよい。各ローカル学習装置２は、推論モデル生成装置、モデル生成装置等と読み替えられてよい。

【0064】

所定の推論を実行することは、未知の対象データに基づいて何らかの推定処理を実行することである。推論の内容は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。推論は、回帰又は識別であってもよい。所定の推論は、例えば、センサの最適な観測方法を推定すること、移動体の移動する経路を予測すること、ユーザに適合する会話戦略を推定すること、タスクに適合するロボット装置の動作指令を推定すること等であってよい。或いは、所定の推論は、例えば、カメラ（撮影装置）により得られた画像データに写る被写体の属性を推定する等、センサにより得られた観測データに表れる特徴を推定することであってよい。或いは、所定の推論は、センサにより得られた観測データからセンサの観測条件に関する特徴を推定することであってもよい。観測条件に関する特徴は、観測条件に関連し得るあらゆる事象を含んでよく、例えば、センサと観測対象との間の距離、観測対象の周囲の明るさ等を含んでよい。推論結果の表現は、推論の内容に応じて適宜決定されてよい。推論結果は、例えば、回帰による連続値、クラスに属する確率等により表現されてよい。また、推論結果は、例えば、１つ以上の数値又は１つ以上のクラスにより表現されてもよい。

【0065】

ローカル学習データ３０を得る環境が異なっていることは、例えば、時間、場所、対象物、ユーザ等の、所定の推論に影響を及ぼし得る事象が少なくとも部分的に相違していることである。一例として、異なる場所で得られたローカル学習データ３０は、異なる環境下で得られたローカル学習データとして取り扱われてよい。また、その他の例として、同一の場所で異なる時刻に得られたローカル学習データ３０は、異なる環境下で得られたローカル学習データとして取り扱われてよい。各学習済み機械学習モデル４５の構築に利用されたローカル学習データ３０には、少なくとも部分的に同一のデータが含まれてよい。

【0066】

ローカル学習データ３０を得る環境及び推論装置１が所定の推論を実行する対象の環境はそれぞれ、１つ以上のクラス又は１つ以上の数値により表現されてよい。各環境が数値により表現される場合、各環境は、数値範囲で表現されてもよい。このとき、第１環境と第２環境とが異なっていることは、第１環境を表現する第１数値範囲と第２環境を表現する第２数値範囲とが重複していないことの他、第１数値範囲と第２数値範囲とが部分的に重複していることを含んでもよい。

【0067】

なお、図１Ａ及び図１Ｂの例では、推論システム１００は、ｎ個のローカル学習装置２_１～２_ｎを備える。以下、説明の便宜のため、それぞれを区別する場合に、_１、_２、_ｎ等の更なる符号を付し、そうではない場合には、「ローカル学習装置２」等のようにそれらの符号を省略する。各ローカル学習装置２_１～２_ｎは、各ローカル学習データ３０_１～３０_ｎを収集し、収集された各ローカル学習データ３０_１～３０_ｎを利用して、各機械学習モデル４０_１～４０_ｎの機械学習を実行する。これにより、各ローカル学習装置２_１～２_ｎは、各学習済み機械学習モデル４５_１～４５_ｎを構築する。すなわち、ｎ個の学習済み機械学習モデル４５_１～４５_ｎが生成される。ただし、ローカル学習装置２及び生成される学習済み機械学習モデル４５それぞれの数（ｎ）は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。また、各ローカル学習装置２により生成される学習済み機械学習モデル４５の数は、１つに限られなくてもよく、２つ以上であってもよい。

【0068】

一方、本実施形態に係る推論装置１は、異なる環境下で得られたローカル学習データ３０から導出された各学習済み機械学習モデル４５を利用して、対象の環境下で所定の推論を実行するように構成されたコンピュータである。図１Ｂに示されるとおり、本実施形態に係る推論装置１は、所定の推論の対象となる所定の対象データ６１を取得する。また、本実施形態に係る推論装置１は、所定の推論を実行する対象の環境に関する環境データ６３を取得する。

【0069】

対象データ６１は、所定の推論の際に使用されるものであれば、その種類は、特に限定されなくてもよく、推論の内容に応じて適宜選択されてよい。対象データ６１は、例えば、画像データ、音データ、数値データ、テキストデータ、その他センサにより得られる観測データ等であってよい。また、対象データ６１は、未加工のデータ、又は加工済みのデータ（例えば、未加工のデータから算出された特徴量）であってよい。対象データ６１は、「入力データ」と読み替えられてよい。

【0070】

環境データ６３は、所定の推論を実行する対象の環境に関するものであれば、その種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。所定の推論を実行する環境は、例えば、対象データ６１の得られる環境である。対象データ６１の得られる環境に関する属性は、所定の推論に直接的又は間接的に関連する対象物又はユーザの属性等の推論に関連し得るあらゆる事象を含んでよい。環境データ６３は、対象データ６１と同様に、例えば、画像データ、音データ、数値データ、テキストデータ、その他センサにより得られる観測データ等であってよい。また、環境データ６３は、未加工のデータ、又は加工済みのデータであってもよい。

【0071】

対象データ６１及び環境データ６３それぞれを取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。対象データ６１及び環境データ６３の取得にセンサを利用する場合、対象データ６１及び環境データ６３は、同一のセンサにより得られた同一の観測データに由来してもよいし、或いは異なるセンサにより得られた異なる観測データに由来してもよい。また、対象データ６１及び環境データ６３は、少なくとも部分的に共通のデータを含んでもよい。

【0072】

本実施形態に係る推論装置１は、取得された対象データ６１を各学習済み機械学習モデル４５（４５_１～４５_ｎ）に与えて、各学習済み機械学習モデル４５（４５_１～４５_ｎ）に所定の推論を対象データ６１に対して実行させる。これにより、本実施形態に係る推論装置１は、取得された対象データ６１に対する各学習済み機械学習モデル４５（４５_１～４５_ｎ）の推論結果を取得する。そして、本実施形態に係る推論装置１は、統合規則５に従って、各学習済み機械学習モデル４５（４５_１～４５_ｎ）の推論結果を統合することで、対象の環境下での対象データ６１に対する推論結果を生成する。

【0073】

具体的には、統合規則５は、対象の環境下において、各学習済み機械学習モデル４５（４５_１～４５_ｎ）の推論結果を重視する程度をそれぞれ規定する複数の統合パラメータＰ（Ｐ１～Ｐｎ）により構成されている。統合パラメータの数は、推論モデル（学習済み機械学習モデル４５）の数に応じて適宜決定されてよい。各学習済み機械学習モデル４５には、１つ以上の統合パラメータが設定されてよい。

【0074】

本実施形態に係る推論装置１は、取得された環境データ６３に応じて、各統合パラメータＰ（Ｐ１～Ｐｎ）の値を決定する。なお、各統合パラメータＰ（Ｐ１～Ｐｎ）の値の決定には、環境データ６３の他に、対象データ６１が更に考慮されてよい。すなわち、本実施形態に係る推論装置１は、対象データ６１及び環境データ６３に応じて、各統合パラメータＰ（Ｐ１～Ｐｎ）の値を決定してもよい。

【0075】

次に、本実施形態に係る推論装置１は、決定された各統合パラメータＰ（Ｐ１～Ｐｎ）の値を使用して、対応する各学習済み機械学習モデル４５（４５_１～４５_ｎ）の推論結果を重み付けする。そして、本実施形態に係る推論装置１は、各学習済み機械学習モデル４５（４５_１～４５_ｎ）の重み付けされた推論結果を統合する。これにより、本実施形態に係る推論装置１は、統合規則５に従って、各学習済み機械学習モデル４５（４５_１～４５_ｎ）の推論結果を統合する。

【0076】

推論結果の統合方法は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、各学習済み機械学習モデル４５の推論結果を統合することは、平均化又は多数決により構成されてよい。所定の推論が回帰である場合に、推論結果の統合は、主に平均化により行われてよい。また、所定の推論が識別である場合に、推論結果の統合は、主に多数決により行われてよい。当該統合処理により、対象の環境下での対象データ６１に対する推論結果が生成される。本実施形態に係る推論装置１は、生成された推論結果に関する情報を出力する。

【0077】

以上のとおり、本実施形態に係る推論装置１は、対象の環境下で所定の推論を実行するために、新たな推論モデルを構築するのではなく、既に構築された複数の推論モデル（学習済み機械学習モデル４５_１～４５_ｎ）を活用する。一般的には、対象の環境に類似する学習環境で得られたローカル学習データから導出された推論モデルほど、対象の環境下で得られた対象データに対する推論精度が高いと想定される。他方、対象の環境に類似しない学習環境で得られたローカル学習データから導出された推論モデルほど、対象の環境下で得られた対象データに対する推論精度が低いと想定される。また、複数の推論モデルには、対象の環境下で優先的に利用することが推奨される推論モデルが含まれる場合がある。

【0078】

そこで、上記統合処理では、本実施形態に係る推論装置１は、所定の推論を実行する対象の環境に関する環境データ６３に応じて、統合規則５の各統合パラメータＰ（Ｐ１～Ｐｎ）の値を決定する。例えば、対象の環境に類似する学習環境の学習済み機械学習モデル４５及び優先度の高い学習済み機械学習モデル４５の少なくともいずれかの推論結果が重視されるように各統合パラメータＰ（Ｐ１～Ｐｎ）の値が決定されてもよい。本実施形態では、このように対象の環境に応じて各学習済み機械学習モデル４５の推論を重視する程度を調整することで、様々な環境で得られた知見（学習済み機械学習モデル４５）を新たな環境に適合するようにカスタマイズすることができる。その結果、カスタマイズされた知見、換言すると、各学習済み機械学習モデル４５の重み付けされた推論結果の統合結果に基づいて、対象の環境下で所定の推論を適切に実行することができる。

【0079】

したがって、本実施形態によれば、異なる環境下で得られたローカル学習データ３０から導出された複数の学習済み機械学習モデル４５を利用して、対象の環境下で所定の推論を適切に実行することができる。すなわち、既に構築された複数の学習済み機械学習モデル４５を活用することで、対象の環境下で所定の推論を適切に実行可能な新たな推論モデルを構築することができる。そのため、対象の環境下で新たな学習データを収集し、収集された新たな学習データから新たな推論モデル（本実施形態では、学習済み機械学習モデル）を導出する作業の手間を省略することができる。よって、当該構成によれば、新たな環境で所定の推論を適切に実行可能な推論モデルを構築するのにかかるコストを低減することができる。

【0080】

§２構成例
［ハードウェア構成］
＜推論装置＞
次に、図２を用いて、本実施形態に係る推論装置１のハードウェア構成の一例について説明する。図２は、本実施形態に係る推論装置１のハードウェア構成の一例を模式的に例示する。

【0081】

図２に示されるとおり、本実施形態に係る推論装置１は、制御部１１、記憶部１２、通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６、及びドライブ１７が電気的に接続されたコンピュータである。なお、図２では、通信インタフェース及び外部インタフェースを「通信Ｉ／Ｆ」及び「外部Ｉ／Ｆ」と記載している。

【0082】

制御部１１は、ハードウェアプロセッサであるＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を含み、プログラム及び各種データに基づいて情報処理を実行するように構成される。記憶部１２は、メモリの一例であり、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部１２は、推論プログラム８１、統合規則データ５７、学習結果データ４７、学習データ５９、学習環境データ３５等の各種情報を記憶する。

【0083】

推論プログラム８１は、対象の環境下において所定の推論に関する後述の情報処理（図９Ａ及び図９Ｂ）を推論装置１に実行させるためのプログラムである。推論プログラム８１は、当該情報処理の一連の命令を含む。統合規則データ５７は、統合規則５に関する情報を示す。各件の学習結果データ４７は、機械学習により構築された各学習済み機械学習モデル４５に関する情報を示す。後述するとおり、環境データ６３から各統合パラメータＰ（Ｐ１～Ｐｎ）の値を算出するのに演算モデルが利用されてよい。統合規則５は、機械学習により構築された学習済み演算モデルを更に備えてよい。学習データ５９は、機械学習により学習済み演算モデルを構築するのに利用される。各件の学習環境データ３５は、各推論モデルの導出（本実施形態では、各学習済み機械学習モデル４５の機械学習）に利用されたローカル学習データ３０の得られた環境に関する情報を示す。詳細は後述する。

【0084】

通信インタフェース１３は、例えば、有線ＬＡＮ（Local Area Network）モジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。推論装置１は、この通信インタフェース１３を利用することで、ネットワークを介したデータ通信を他の情報処理装置（例えば、ローカル学習装置２）と行うことができる。

【0085】

外部インタフェース１４は、例えば、ＵＳＢ（Universal Serial Bus）ポート、専用ポート等であり、外部装置と接続するためのインタフェースである。外部インタフェース１４の種類及び数は、接続される外部装置の種類及び数に応じて適宜選択されてよい。推論装置１は、外部インタフェース１４を介して、対象データ６１、環境データ６３及びこれらに関連し得るデータの少なくともいずれかを取得するためのセンサに接続されてよい。また、推論装置１は、外部インタフェース１４を介して、推論結果に基づいて制御する対象の装置（例えば、後述する介入装置、ロボット装置等）に接続されてよい。

【0086】

入力装置１５は、例えば、マウス、キーボード等の入力を行うための装置である。また、出力装置１６は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。オペレータは、入力装置１５及び出力装置１６を利用することで、推論装置１を操作することができる。

【0087】

ドライブ１７は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９１に記憶されたプログラムを読み込むためのドライブ装置である。ドライブ１７の種類は、記憶媒体９１の種類に応じて適宜選択されてよい。上記推論プログラム８１、統合規則データ５７、学習結果データ４７、学習データ５９、及び学習環境データ３５の少なくともいずれかは、この記憶媒体９１に記憶されていてもよい。

【0088】

記憶媒体９１は、コンピュータその他装置、機械等が、記録されたプログラム等の情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。推論装置１は、この記憶媒体９１から、上記推論プログラム８１、統合規則データ５７、学習結果データ４７、学習データ５９、及び学習環境データ３５の少なくともいずれかを取得してもよい。

【0089】

ここで、図２では、記憶媒体９１の一例として、ＣＤ、ＤＶＤ等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体９１の種類は、ディスク型に限定される訳ではなく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。

【0090】

なお、推論装置１の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部１１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ（field-programmable gate array）、ＤＳＰ（digital signal processor）等で構成されてよい。記憶部１２は、制御部１１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６及びドライブ１７の少なくともいずれかは省略されてもよい。推論装置１は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、推論装置１は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、ＰＣ（Personal Computer）等であってもよい。

【0091】

＜ローカル学習装置＞
次に、図３を用いて、本実施形態に係る各ローカル学習装置２のハードウェア構成の一例について説明する。図３は、本実施形態に係る各ローカル学習装置２のハードウェア構成の一例を模式的に例示する。

【0092】

図３に示されるとおり、本実施形態に係る各ローカル学習装置２は、制御部２１、記憶部２２、通信インタフェース２３、外部インタフェース２４、入力装置２５、出力装置２６、及びドライブ２７が電気的に接続されたコンピュータである。なお、図３では、図２と同様に、通信インタフェース及び外部インタフェースを「通信Ｉ／Ｆ」及び「外部Ｉ／Ｆ」と記載している。

【0093】

各ローカル学習装置２の制御部２１～ドライブ２７はそれぞれ、上記推論装置１の制御部１１～ドライブ１７それぞれと同様に構成されてよい。すなわち、制御部２１は、ハードウェアプロセッサであるＣＰＵ、ＲＡＭ、ＲＯＭ等を含み、プログラム及びデータに基づいて各種情報処理を実行するように構成される。記憶部２２は、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。記憶部２２は、学習プログラム８２１、推論プログラム８２２、ローカル学習データ３０、学習結果データ４７、学習環境データ３５等の各種情報を記憶する。

【0094】

学習プログラム８２１は、機械学習モデル４０の機械学習に関する後述の情報処理（図６）をローカル学習装置２に実行させるためのプログラムである。学習プログラム８２１は、この情報処理の一連の命令を含む。推論プログラム８２２は、学習済み機械学習モデル４５を利用した所定の推論に関する後述の情報処理（図８）をローカル学習装置２に実行させるためのプログラムである。推論プログラム８２２は、この情報処理の一連の命令を含む。ローカル学習データ３０は、個々の環境で収集され、所定の推論を実行する能力を機械学習モデル４０に獲得させるための機械学習に利用される。詳細は後述する。

【0095】

通信インタフェース２３は、例えば、有線ＬＡＮモジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。各ローカル学習装置２は、この通信インタフェース２３を利用することで、ネットワークを介したデータ通信を他の情報処理装置（例えば、推論装置１）と行うことができる。

【0096】

外部インタフェース２４は、例えば、ＵＳＢポート、専用ポート等であり、外部装置と接続するためのインタフェースである。外部インタフェース２４の種類及び数は、接続される外部装置の種類及び数に応じて適宜選択されてよい。各ローカル学習装置２は、外部インタフェース２４を介して、ローカル学習データ３０、学習環境データ３５、後述する対象データ及びこれらに関連し得るデータの少なくともいずれかを取得するためのセンサに接続されてよい。また、各ローカル学習装置２は、外部インタフェース２４を介して、推論結果に基づいて制御する対象の装置（例えば、後述する介入装置、ロボット装置等）に接続されてよい。

【0097】

入力装置２５は、例えば、マウス、キーボード等の入力を行うための装置である。また、出力装置２６は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。オペレータは、入力装置２５及び出力装置２６を利用することで、各ローカル学習装置２を操作することができる。

【0098】

ドライブ２７は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９２に記憶されたプログラムを読み込むためのドライブ装置である。上記学習プログラム８２１、推論プログラム８２２、及びローカル学習データ３０のうちの少なくともいずれかは、記憶媒体９２に記憶されていてもよい。また、各ローカル学習装置２は、記憶媒体９２から、上記学習プログラム８２１、推論プログラム８２２、及びローカル学習データ３０のうちの少なくともいずれかを取得してもよい。

【0099】

なお、各ローカル学習装置２の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部２１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ、ＤＳＰ等で構成されてよい。記憶部２２は、制御部２１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース２３、外部インタフェース２４、入力装置２５、出力装置２６、及びドライブ２７の少なくともいずれかは省略されてもよい。各ローカル学習装置２は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。本実施形態では、各ローカル学習装置２のハードウェア構成は共通している。しかしながら、各ローカル学習装置２のハードウェア構成の関係は、このような例に限定されなくてもよい。一のローカル学習装置２と他のローカル学習装置２との間で、ハードウェア構成は異なっていてもよい。また、各ローカル学習装置２は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ等であってもよい。

【0100】

［ソフトウェア構成］
＜推論装置＞
次に、図４を用いて、本実施形態に係る推論装置１のソフトウェア構成の一例について説明する。図４は、本実施形態に係る推論装置１のソフトウェア構成の一例を模式的に例示する。

【0101】

推論装置１の制御部１１は、記憶部１２に記憶された推論プログラム８１をＲＡＭに展開する。そして、制御部１１は、ＲＡＭに展開された推論プログラム８１に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これによって、図４に示されるとおり、本実施形態に係る推論装置１は、第１データ取得部１１１、第２データ取得部１１２、結果取得部１１３、統合部１１４、出力部１１５、学習データ取得部１１６、学習処理部１１７、保存処理部１１８、パラメータ設定部１１９、及びグルーピング部１１１０をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、推論装置１の各ソフトウェアモジュールは、制御部１１（ＣＰＵ）により実現される。

【0102】

第１データ取得部１１１は、所定の推論の対象となる所定の対象データ６１を取得する。第２データ取得部１１２は、所定の推論を実行する対象の環境に関する環境データ６３を取得する。結果取得部１１３は、異なる環境下で得られたローカル学習データ３０から所定の推論を実行するように導出された複数の推論モデルそれぞれに対象データ６１を与えて、対象データ６１に対する所定の推論を各推論モデルに実行させることで、取得された対象データ６１に対する各推論モデルの推論結果を取得する。

【0103】

本実施形態では、各推論モデルは、異なる環境下で得られたローカル学習データ３０を利用した機械学習により所定の推論を実行する能力を獲得した学習済み機械学習モデル４５により構成される。更に、本実施形態では、結果取得部１１３は、各件の学習結果データ４７を保持することで、各学習済み機械学習モデル４５を備えている。結果取得部１１３は、各件の学習結果データ４７を参照して、各学習済み機械学習モデル４５の設定を行う。そして、結果取得部１１３は、対象データ６１を各学習済み機械学習モデル４５に与えて、各学習済み機械学習モデル４５に所定の推論を対象データ６１に対して実行させることで、取得された対象データ６１に対する各学習済み機械学習モデル４５の推論結果を取得する。

【0104】

統合部１１４は、統合規則５に従って、各推論モデルの推論結果を統合する。統合規則５は、対象の環境下において、各推論モデルの推論結果を重視する程度をそれぞれ規定する複数の統合パラメータＰにより構成される。本実施形態では、各統合パラメータＰ（Ｐ１～Ｐｎ）は、各学習済み機械学習モデル４５（４５_１～４５_ｎ）の推論結果を重視する程度を規定する。統合部１１４は、統合規則データ５７を保持することで、統合規則５に関する情報を有する。統合部１１４は、統合規則データ５７を参照し、統合規則５の設定を行う。統合部１１４は、統合規則５に従って、各学習済み機械学習モデル４５（４５_１～４５_ｎ）の推論結果を統合する。

【0105】

具体的には、統合部１１４は、取得された環境データ６３に応じて、各統合パラメータＰ（Ｐ１～Ｐｎ）の値を決定する。なお、各統合パラメータＰ（Ｐ１～Ｐｎ）の値の決定には、環境データ６３の他に、対象データ６１が更に考慮されてよい。次に、統合部１１４は、決定された各統合パラメータＰの値を使用して、対応する各推論モデルの推論結果を重み付けする。そして、統合部１１４は、各推論モデルの重み付けされた推論結果を統合する。

【0106】

本実施形態では、統合部１１４は、決定された各統合パラメータＰ（Ｐ１～Ｐｎ）の値を使用して、対応する各学習済み機械学習モデル４５（４５_１～４５_ｎ）の推論結果を重み付けする。そして、統合部１１４は、各学習済み機械学習モデル４５（４５_１～４５_ｎ）の重み付けされた推論結果を統合する。これにより、統合部１１４は、統合規則５に従って、各学習済み機械学習モデル４５（４５_１～４５_ｎ）の推論結果を統合する。

【0107】

以上の統合処理により、統合部１１４は、対象の環境下での対象データ６１に対する推論結果を生成する。出力部１１５は、生成された推論結果に関する情報を出力する。

【0108】

本実施形態では、環境データ６３から各統合パラメータＰ（Ｐ１～Ｐｎ）の値を決定するのに演算モデルが利用されてよい。学習データ取得部１１６、学習処理部１１７、及び保存処理部１１８は、学習済み演算モデルの生成に関する情報処理を実行する。具体的には、学習データ取得部１１６は、環境データ６３から各統合パラメータＰ（Ｐ１～Ｐｎ）の値を算出するための演算モデル５１の機械学習に利用する学習データ５９を取得する。学習処理部１１７は、取得された学習データ５９を利用して、演算モデル５１の機械学習を実行する。機械学習は、算出される各統合パラメータＰ（Ｐ１～Ｐｎ）の値が対象の環境下における所定の推論に適合するように演算モデル５１を訓練することにより構成される。これにより、学習済み演算モデル５２が生成される。保存処理部１１８は、演算モデル５１の機械学習の結果（すなわち、学習済み演算モデル５２）に関する情報を生成し、生成した情報を所定の記憶領域に保存する。生成された学習済み演算モデル５２に関する情報は統合規則データ５７に含まれてよい。

【0109】

この場合、統合部１１４は、学習済み演算モデル５２に環境データ６３（及び対象データ６１）を与えて、学習済み演算モデル５２の演算処理を実行することで、学習済み演算モデル５２の出力として各統合パラメータＰ（Ｐ１～Ｐｎ）の値を取得してもよい。これにより、統合部１１４は、環境データ６３（及び対象データ６１）に応じて、各統合パラメータＰ（Ｐ１～Ｐｎ）の値を決定してもよい。

【0110】

また、本実施形態では、複数の統合パラメータＰ（Ｐ１～Ｐｎ）の少なくとも一部の値は、ユーザ等のオペレータにより指定されてよい。パラメータ設定部１１９は、統合パラメータの値の指定に関する情報処理を実行する。具体的には、パラメータ設定部１１９は、複数の統合パラメータＰ（Ｐ１～Ｐｎ）のうちの少なくとも１つの統合パラメータの値の指定を受け付ける。そして、パラメータ設定部１１９は、少なくとも１つの統合パラメータの値を指定された値に設定する。指定された設定内容に関する情報は、統合規則データ５７に含まれてよい。この場合、上記各推論モデル（学習済み機械学習モデル４５）の推論結果を重み付けすることは、少なくとも１つの統合パラメータに対応する推論モデル（学習済み機械学習モデル４５）の推論結果を重み付けすることを含んでよい。

【0111】

また、本実施形態では、各推論モデル（学習済み機械学習モデル４５）は、グループ分けされてもよい。グループは、推論の種類、目的、対象の環境等に応じて適宜設定されてよい。グルーピング部１１１０は、推論モデル（学習済み機械学習モデル４５）のグルーピングに関する情報処理を実行する。具体的には、グルーピング部１１１０は、各推論モデル（学習済み機械学習モデル４５）を複数のグループのうちの少なくともいずれかに割り当てる。これに応じて、結果取得部１１３は、設定された複数のグループのうち対象の環境で利用するグループを特定し、特定されたグループに属する推論モデル（学習済み機械学習モデル４５）について、上記推論結果を取得する処理を実行してもよい。同様に、統合部１１４は、特定されたグループに属する推論モデル（学習済み機械学習モデル４５）の推論結果について、上記統合処理を実行してもよい。各推論モデル（学習済み機械学習モデル４５）に対するグループの割り当て結果に関する情報は所定の記憶領域に適宜保存されてよい。

【0112】

＜ローカル学習装置＞
（Ａ）学習処理
次に、図５Ａを用いて、本実施形態に係る各ローカル学習装置２の学習処理に関するソフトウェア構成の一例について説明する。図５Ａは、本実施形態に係る各ローカル学習装置２の学習処理に関するソフトウェア構成の一例を模式的に例示する。

【0113】

各ローカル学習装置２の制御部２１は、記憶部２２に記憶された学習プログラム８２１をＲＡＭに展開する。そして、制御部２１は、ＲＡＭに展開された学習プログラム８２１に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これによって、図５Ａに示されるとおり、本実施形態に係る各ローカル学習装置２は、学習データ取得部２１１、環境データ取得部２１２、学習処理部２１３、及び保存処理部２１４をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、学習処理に関する各ローカル学習装置２の各ソフトウェアモジュールは、制御部２１（ＣＰＵ）により実現される。

【0114】

学習データ取得部２１１は、推論モデルの導出に利用するローカル学習データ３０を取得する。本実施形態では、学習データ取得部２１１は、機械学習モデル４０の機械学習に利用するローカル学習データ３０を取得する。環境データ取得部２１２は、ローカル学習データ３０の得られた環境（以下、「学習環境」とも記載する）に関する学習環境データ３５を取得する。学習環境データ３５は、環境データ６３と同種のデータである。

【0115】

学習処理部２１３は、取得されたローカル学習データ３０を利用して、機械学習モデル４０の機械学習を実行する。この機械学習により、所定の推論を実行する能力を獲得した学習済み機械学習モデル４５が構築（生成）される。保存処理部２１４は、構築された学習済み機械学習モデル４５に関する情報を学習結果データ４７として生成し、生成した学習結果データ４７を所定の記憶領域に保存する。

【0116】

本実施形態では、各ローカル学習装置２の間において、ローカル学習データ３０の収集が異なる環境下で実行され得る。そして、得られたローカル学習データ３０から学習済み機械学習モデル４５が生成される。その結果、異なる環境下で得られたローカル学習データ３０から所定の推論を実行するように導出された複数の学習済み機械学習モデル４５を得ることができる。

【0117】

（Ｂ）推論処理
次に、図５Ｂを用いて、本実施形態に係る各ローカル学習装置２の推論処理に関するソフトウェア構成の一例について説明する。図５Ｂは、本実施形態に係る各ローカル学習装置２の推論処理に関するソフトウェア構成の一例を模式的に例示する。

【0118】

各ローカル学習装置２の制御部２１は、記憶部２２に記憶された推論プログラム８２２をＲＡＭに展開する。そして、制御部２１は、ＲＡＭに展開された推論プログラム８２２に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これによって、図５Ｂに示されるとおり、本実施形態に係る各ローカル学習装置２は、対象データ取得部２１６、推論部２１７、及び出力部２１８をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、推論処理に関する各ローカル学習装置２の各ソフトウェアモジュールも、制御部２１（ＣＰＵ）により実現される。

【0119】

対象データ取得部２１６は、所定の推論の対象となる対象データ２２５を取得する。対象データ２２５は、推論装置１で得られる対象データ６１と同種のデータである。推論部２１７は、ローカル学習データ３０から導出された推論モデルを含んでいる。推論部２１７は、推論モデルを利用して、対象データ２２５に対して所定の推論を実行する。本実施形態では、推論部２１７は、学習結果データ４７を保持することで、学習済み機械学習モデル４５を含んでいる。推論部２１７は、学習結果データ４７を参照して、学習済み機械学習モデル４５の設定を行う。次に、推論部２１７は、学習済み機械学習モデル４５に対象データ２２５を与えて、学習済み機械学習モデル４５の演算処理を実行する。これにより、推論部２１７は、学習済み機械学習モデル４５の出力として、対象データ２２５に対して所定の推論を実行した結果を取得する。出力部２１８は、対象データ２２５に対する推論結果に関する情報を出力する。

【0120】

＜その他＞
推論装置１及び各ローカル学習装置２の各ソフトウェアモジュールに関しては後述する動作例で詳細に説明する。なお、本実施形態では、推論装置１及び各ローカル学習装置２の各ソフトウェアモジュールがいずれも汎用のＣＰＵによって実現される例について説明している。しかしながら、以上のソフトウェアモジュールの一部又は全部が、１又は複数の専用のプロセッサにより実現されてもよい。また、推論装置１及び各ローカル学習装置２それぞれのソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。

【0121】

§３動作例
［ローカル学習装置］
（Ａ）学習処理
次に、図６を用いて、推論モデルの生成に関する各ローカル学習装置２の動作例について説明する。図６は、各ローカル学習装置２による学習済み機械学習モデル４５の生成に関する処理手順の一例を示すフローチャートである。ただし、以下で説明する各処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する各処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0122】

（ステップＳ１０１及びステップＳ１０２）
ステップＳ１０１では、制御部２１は、学習データ取得部２１１として動作し、推論モデルの導出に利用するローカル学習データ３０を取得する。本実施形態では、制御部２１は、機械学習モデル４０の機械学習に利用するローカル学習データ３０を取得する。

【0123】

ステップＳ１０２では、制御部２１は、学習処理部２１３として動作し、取得されたローカル学習データ３０を利用して、機械学習モデル４０の機械学習を実行する。この機械学習により、制御部２１は、所定の推論を実行する能力を獲得した学習済み機械学習モデル４５を生成することができる。

【0124】

機械学習モデル４０の構成及び機械学習の方法の構成はそれぞれ、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。機械学習の方法には、例えば、教師あり学習、教師なし学習、強化学習等が用いられてよい。機械学習モデル４０は、例えば、データテーブル、関数式等により表現されてよい。機械学習モデル４０が関数式で表現される場合、機械学習モデル４０は、例えば、ニューラルネットワーク、線形関数、決定木等により構成されてよい。ニューラルネットワークの種類は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。機械学習モデル４０を構成するニューラルネットワークには、例えば、全結合型ニューラルネットワーク、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、これらの組み合わせ等が用いられてよい。以下、機械学習モデル４０の構成及び機械学習の方法それぞれの３つの例について説明する。

【0125】

１．第１の例
図７Ａは、機械学習モデル４０の構成及び機械学習の方法の第１の例を模式的に示す。第１の例では、機械学習モデル４０にニューラルネットワーク、機械学習方法に教師あり学習を採用する。なお、図７Ａでは、説明の便宜上、ローカル学習データ３０、機械学習モデル４０、及び学習済み機械学習モデル４５それぞれの一例を、ローカル学習データ３０１、機械学習モデル４０１、及び学習済み機械学習モデル４５１と表記する。

【0126】

１－１．機械学習モデルの構成例
第１の例では、機械学習モデル４０１は、４層構造の全結合型ニューラルネットワークにより構成されている。具体的に、機械学習モデル４０１は、入力側から順に、入力層４０１１、中間（隠れ）層（４０１２、４０１３）、及び出力層４０１４を備えている。ただし、機械学習モデル４０１の構造は、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、機械学習モデル４０１の備える中間層の数は、２つに限定されなくてもよく、１つ以下であってもよいし、３つ以上であってもよい。中間層は、省略されてもよい。また、機械学習モデル４０１は、畳み込み層、プーリング層、再帰層等の他の種類の層を備えてもよい。再帰層には、例えば、長・短期記憶（Long short-term memory）等が用いられてよい。

【0127】

各層４０１１～４０１４に含まれるニューロン（ノード）の数は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。隣接する層のニューロン同士は適宜結合され、各結合には重み（結合荷重）が設定されている。図７Ａの例では、各層４０１１～４０１４に含まれるニューロンは、隣接する層の全てのニューロンと結合されている。しかしながら、ニューロンの結合関係は、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。各ニューロンには閾値が設定されており、基本的には、各入力と各重みとの積の和が閾値を超えているか否かによって各ニューロンの出力が決定される。各層４０１１～４０１４に含まれる各ニューロン間の結合の重み及び各ニューロンの閾値は、機械学習により調整の対象となる演算パラメータの一例である。

【0128】

１－２．ローカル学習データの構成例
この機械学習モデル４０１の教師あり学習に利用されるローカル学習データ３０１は、訓練データ３１１（入力データ）及び正解データ３１２（教師信号）の組み合わせをそれぞれ含む複数の学習データセット３１０により構成される。訓練データ３１１は、所定の推論を実行する対象となるデータであり、対象データ（６１、２２５）と同種のデータである。正解データ３１２は、訓練データ３１１に対して所定の推論を実行した結果（正解）を示すデータである。正解データ３１２は、ラベルと称されてもよい。

【0129】

訓練データ３１１及び正解データ３１２の内容は、機械学習モデル４０１に習得させる推論の内容に応じて適宜選択されてよい。例えば、センサの最適な観測方法を推定する能力を機械学習モデル４０１に習得させるケースでは、訓練データ３１１は、センサの現在の観測状態に関するデータにより構成されてよく、正解データ３１２は、その現在の観測状態から適正な観測状態への変更方法を示すデータにより構成されてよい。また、例えば、移動体の移動する経路を予測する能力を機械学習モデル４０１に習得させるケースでは、訓練データ３１１は、移動体の状態に関するデータにより構成されてよく、正解データ３１２は、その状態の移動体が実際に又は仮想的に移動した経路を示すデータにより構成されてよい。また、例えば、ユーザに適合する会話戦略を推定する能力を機械学習モデル４０１に習得させるケースでは、訓練データ３１１は、ユーザの会話行動に関するデータにより構成されてよく、正解データ３１２は、そのユーザに適合する会話戦略を示すデータにより構成されてよい。また、例えば、タスクに適合するロボット装置の動作指令を推定する能力を機械学習モデル４０１に習得させるケースでは、訓練データ３１１は、ロボット装置の状態に関するデータにより構成されてよく、正解データ３１２は、そのタスクの遂行に適合する動作指令を示すデータにより構成されてよい。また、例えば、センサにより得られた観測データに表れる特徴を推定する能力を機械学習モデル４０１に習得させるケースでは、訓練データ３１１は、センサにより得られた観測データにより構成されてよく、正解データ３１２は、その観測データに表れる特徴を示すデータにより構成されてよい。

【0130】

１－３．ステップＳ１０１について
上記ステップＳ１０１では、制御部２１は、複数の学習データセット３１０により構成されるローカル学習データ３０１を取得する。各学習データセット３１０を生成する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、所定の推論を実行する様々な状況を実際に又は仮想的に作成することで、作成された様々な状況において対象データ（６１、２２５）と同種のデータを訓練データ３１１として取得してもよい。具体例として、対象データ（６１、２２５）の取得にセンサを利用する場合、利用するセンサと同種のセンサを用意し、用意したセンサにより、所定の推論を実行する様々な状況を観測することにより、訓練データ３１１を取得することができる。次に、取得された訓練データ３１１に対して所定の推論を実行する。この場面では、所定の推論は、オペレータ等により手動的に行われてよい。そして、訓練データ３１１に対して所定の推論を実行した結果（正解）を当該訓練データ３１１に関連付ける。これにより、各学習データセット３１０を生成することができる。

【0131】

各学習データセット３１０は、コンピュータの動作により自動的に生成されてもよいし、オペレータの操作により手動的に生成されてもよい。また、各学習データセット３１０の生成は、各ローカル学習装置２により行われてもよいし、各ローカル学習装置２以外の他のコンピュータにより行われてもよい。各学習データセット３１０を各ローカル学習装置２が生成する場合、制御部２１は、自動的に又は入力装置２５を介したオペレータの操作により手動的に上記一連の生成処理を実行することで、複数の学習データセット３１０により構成されるローカル学習データ３０１を取得する。一方、各学習データセット３１０を他のコンピュータが生成する場合、制御部２１は、例えば、ネットワーク、記憶媒体９２等を介して、他のコンピュータにより生成された複数の学習データセット３１０により構成されるローカル学習データ３０１を取得する。一部の学習データセット３１０が各ローカル学習装置２により生成され、その他の学習データセット３１０が１又は複数の他のコンピュータにより生成されてもよい。取得される学習データセット３１０の件数は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。

【0132】

１－４．ステップＳ１０２について
上記ステップＳ１０２では、制御部２１は、取得されたローカル学習データ３０１を利用して、機械学習モデル４０１の機械学習（教師あり学習）を実行する。第１の例では、制御部２１は、機械学習により、各学習データセット３１０について、訓練データ３１１を入力層４０１１に入力すると、正解データ３１２に適合する出力値を出力層４０１４から出力するように機械学習モデル４０１を訓練する。これにより、制御部２１は、所定の推論を実行する能力を獲得した学習済み機械学習モデル４５１を生成する。

【0133】

教師あり学習の具体的な処理手順の一例として、制御部２１は、まず、機械学習の処理対象となる機械学習モデル４０１を用意する。用意する機械学習モデル４０１の構造（例えば、層の数、各層に含まれるニューロンの数、隣接する層のニューロン同士の結合関係等）、及び各演算パラメータの初期値（例えば、各ニューロン間の結合の重みの初期値、各ニューロンの閾値の初期値等）は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。また、再学習を行う場合には、制御部２１は、過去の教師あり学習により得られた学習結果データに基づいて、機械学習モデル４０１を用意してもよい。

【0134】

次に、制御部２１は、各学習データセット３１０に含まれる訓練データ３１１を入力データとして利用し、正解データ３１２を教師信号として利用して、機械学習モデル４０１を構成するニューラルネットワークの学習処理を実行する。この学習処理には、バッチ勾配降下法、確率的勾配降下法、ミニバッチ勾配降下法等が用いられてよい。

【0135】

例えば、第１のステップでは、制御部２１は、各学習データセット３１０について、訓練データ３１１を機械学習モデル４０１に入力し、機械学習モデル４０１の演算処理を実行する。すなわち、制御部２１は、入力層４０１１に訓練データ３１１を入力し、入力側から順に各層４０１１～４０１４に含まれる各ニューロンの発火判定を行う。この演算処理により、制御部２１は、訓練中の機械学習モデル４０１が訓練データ３１１に対して所定の推論を実行した結果に対応する出力値を出力層４０１４から取得する。

【0136】

第２のステップでは、制御部２１は、出力層４０１４から取得された出力値と正解データ３１２との誤差を損失関数に基づいて算出する。損失関数は、機械学習モデル４０１の出力と正解との差分を評価する関数であり、出力層４０１４から取得された出力値と正解データ３１２との差分値が大きいほど、損失関数により算出される誤差の値は大きくなる。この誤差の算出に利用される損失関数の種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。

【0137】

第３のステップでは、制御部２１は、誤差逆伝播（Back propagation）法により、算出された出力値の誤差の勾配を用いて、各ニューロン間の結合の重み、各ニューロンの閾値等の機械学習モデル４０１の各演算パラメータの値の誤差を算出する。第４のステップでは、制御部２１は、算出された各誤差に基づいて、機械学習モデル４０１の各演算パラメータの値の更新を行う。演算パラメータの値を更新する程度は、学習率により調節されてよい。

【0138】

制御部２１は、上記第１～第４のステップを繰り返すことで、各学習データセット３１０について、訓練データ３１１を入力層４０１１に入力すると、対応する正解データ３１２に適合する出力値が出力層４０１４から出力されるように、機械学習モデル４０１の各演算パラメータの値を調整する。例えば、制御部２１は、各学習データセット３１０について、出力層４０１４から得られる出力値と正解データ３１２との誤差の和が閾値以下になるまで、上記第１～第４のステップを繰り返してもよい。正解データ３１２の値と出力層４０１４の出力値とが適合することは、このような閾値による誤差が正解データ３１２の値と出力層４０１４の出力値との間に生じることを含んでもよい。閾値は、実施の形態に応じて適宜設定されてよい。或いは、制御部２１は、上記第１～第４のステップを所定回数繰り返してもよい。調整を繰り返す回数は、例えば、学習プログラム８２１内の設定値で指定されてもよいし、オペレータの入力により指定されてもよい。

【0139】

これにより、制御部２１は、訓練データ３１１の入力に対して、対応する正解データ３１２に適合する出力値を出力するように訓練された学習済み機械学習モデル４５１を生成することができる。例えば、上記センサの最適な観測方法を推定するケースでは、センサの現在の観測状態から適正な観測状態への変更方法を推定する能力を獲得した学習済み機械学習モデル４５１を生成することができる。

【0140】

１－５．その他
なお、機械学習の方法に教師あり学習を採用する場合に、機械学習モデル４０の構成は、ニューラルネットワークに限られなくてもよく、ニューラルネットワーク以外のモデルを機械学習モデル４０として採用してもよい。機械学習モデル４０は、例えば、回帰モデル、サポートベクタマシン、決定木等により構成されてよい。教師あり学習の方法は、上記のような例に限定されなくてもよく、機械学習モデル４０の構成に応じて適宜選択されてよい。

【0141】

２．第２の例
図７Ｂは、機械学習モデル４０の構成及び機械学習の方法の第２の例を模式的に示す。第２の例では、機械学習モデル４０に生成モデル、機械学習方法に教師なし学習を採用する。なお、図７Ｂでは、説明の便宜上、ローカル学習データ３０、機械学習モデル４０、及び学習済み機械学習モデル４５それぞれの一例を、ローカル学習データ３０２、機械学習モデル４０２、及び学習済み機械学習モデル４５２と表記する。

【0142】

２－１．機械学習モデルの構成例
第２の例では、機械学習モデル４０２は、ノイズ３２３から疑似データ３２５を生成するように構成される。機械学習モデル４０２は、生成モデルとして利用される。機械学習モデル４０２の機械学習は、他の機械学習モデル４１２と共に実行される。他の機械学習モデル４１２は、与えられた入力データの由来を識別する、すなわち、与えられた入力データがローカル学習データ３０２に含まれる訓練データ３２１か機械学習モデル４０２により生成された疑似データ３２５かを識別するように構成される。他の機械学習モデル４１２は、識別モデルとして利用される。

【0143】

第２の例では、機械学習モデル４０２と他の機械学習モデル４１２との間で敵対的学習が実施される。機械学習モデル４０２及び他の機械学習モデル４１２はそれぞれ、機械学習モデル４０１と同様に、演算パラメータを備える。それぞれの情報処理が実行可能であれば、機械学習モデル４０２及び他の機械学習モデル４１２それぞれの構成は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。機械学習モデル４０２及び他の機械学習モデル４１２それぞれは、ニューラルネットワークにより構成されてよい。また、機械学習モデル４０２及び他の機械学習モデル４１２はそれぞれ、条件を示すデータ（ラベルと称されてよい）の入力を更に受け付けるように構成されてよい。これにより、条件を限定して、データの生成及び識別を行うことができる。

【0144】

２－２．ローカル学習データの構成例
敵対的学習に利用されるローカル学習データ３０２は、複数件の訓練データ３２１により構成される。敵対的学習により、機械学習モデル４０２は、ローカル学習データ３０２に含まれる訓練データ３２１に適合（例えば、類似）する疑似データ３２５を生成する能力を獲得する。そのため、訓練データ３２１は、敵対的学習で習得させる能力により機械学習モデル４０２に生成させることを所望するデータにより構成される。

【0145】

例えば、移動体の移動する経路を予測する（すなわち、移動体の予測される移動の経路を生成する）能力を機械学習モデル４０２に習得させるケースでは、訓練データ３２１は、移動体が実際に又は仮想的に移動した経路を示すデータにより構成されてよい。また、例えば、ユーザに適合する会話戦略を推定する能力を機械学習モデル４０２に習得させるケースでは、訓練データ３２１は、任意のユーザ間で実際に又は仮想的に採用された会話戦略を示すデータにより構成されてよい。機械学習モデル４０２及び他の機械学習モデル４１２がそれぞれ条件を示すデータの入力を更に受け付けるように構成されている場合、訓練データ３２１には、条件を示すデータが関連付けられていてもよい。

【0146】

２－３．ステップＳ１０１について
上記ステップ１０１では、制御部２１は、複数件の訓練データ３２１により構成されるローカル学習データ３０２を取得する。訓練データ３２１を生成する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、上記第１の例と同様に、データの生成を所望する様々な状況を実際に又は仮想的に作成することで、作成された様々な状況の表れたデータを訓練データ３２１として取得することができる。取得された訓練データ３２１には、その状況を識別するための条件（例えば、カテゴリ）を示すデータが関連付けられてもよい。

【0147】

訓練データ３２１は、コンピュータの動作により自動的に生成されてもよいし、オペレータの操作により手動的に生成されてもよい。また、訓練データ３２１の生成は、各ローカル学習装置２により行われてもよいし、各ローカル学習装置２以外の他のコンピュータにより行われてもよい。訓練データ３２１を各ローカル学習装置２が生成する場合、制御部２１は、自動的に又は入力装置２５を介したオペレータの操作により手動的に上記一連の生成処理を実行することで、複数件の訓練データ３２１により構成されるローカル学習データ３０２を取得する。一方、訓練データ３２１を他のコンピュータが生成する場合、制御部２１は、例えば、ネットワーク、記憶媒体９２等を介して、他のコンピュータにより生成された複数件の訓練データ３２１により構成されるローカル学習データ３０２を取得する。一部の訓練データ３２１が各ローカル学習装置２により生成され、その他の訓練データ３２１が１又は複数の他のコンピュータにより生成されてもよい。取得される訓練データ３２１の件数は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。

【0148】

２－４．ステップＳ１０２について
上記ステップＳ１０２では、制御部２１は、取得されたローカル学習データ３０２を利用して、機械学習モデル４０２及び他の機械学習モデル４１２の敵対的学習を実行する。以下、敵対的学習の処理手順の一例について説明する。以下の処理手順では、説明の便宜上、機械学習モデル４０２及び他の機械学習モデル４１２それぞれはニューラルネットワークにより構成されていると想定する。ただし、機械学習モデル４０２及び他の機械学習モデル４１２の構成は、このような例に限定されなくてもよい。機械学習モデル４０２及び他の機械学習モデル４１２の少なくとも一方は、ニューラルネットワーク以外のモデルにより構成されてよい。

【0149】

・前処理
前処理として、制御部２１は、処理対象となる機械学習モデル４０２及び他の機械学習モデル４１２を用意する。用意する機械学習モデル４０２及び他の機械学習モデル４１２それぞれの構造、及び各演算パラメータの初期値は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。また、再学習を行う場合には、制御部２１は、過去の教師あり学習により得られた学習結果データに基づいて、機械学習モデル４０２及び他の機械学習モデル４１２を用意してもよい。

【0150】

・識別モデルの機械学習
まず、制御部２１は、機械学習モデル４０２の演算パラメータを固定した上で、他の機械学習モデル４１２の機械学習を実行する。すなわち、制御部２１は、所定の確率分布（例えば、ガウス分布）から複数のノイズ３２３を抽出する。続いて、制御部２１は、抽出された各ノイズ３２３を機械学習モデル４０２に与えて、機械学習モデル４０２の演算処理を実行する。換言すると、制御部２１は、機械学習モデル４０２の入力層に各ノイズを入力し、入力側から順に各層に含まれる各ニューロンの発火判定を行う。これにより、制御部２１は、機械学習モデル４０２の出力層からの出力として、ノイズ３２３から生成された疑似データ３２５を取得する。生成する疑似データ３２５の件数は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。

【0151】

そして、制御部２１は、ローカル学習データ３０２に含まれる複数件の訓練データ３２１及び生成された複数件の疑似データ３２５を利用して、他の機械学習モデル４１２の学習処理を実行する。この学習処理では、与えられた入力データの由来を識別する、換言すると、与えられた入力データが訓練データ３２１であるか疑似データ３２５であるかを識別する能力を獲得するように他の機械学習モデル４１２を訓練する。この学習処理には、例えば、確率的勾配降下法、ミニバッチ勾配降下法等が用いられてよい。

【0152】

具体的には、制御部２１は、機械学習モデル４０２により生成された疑似データ３２５を他の機械学習モデル４１２に入力し、他の機械学習モデル４１２の演算処理を実行する。すなわち、制御部２１は、他の機械学習モデル４１２の入力層に疑似データ３２５を入力し、入力側から順に各層に含まれる各ニューロンの発火判定を行う。これにより、制御部２１は、他の機械学習モデル４１２の出力層からの出力として、与えられた疑似データ３２５の由来を他の機械学習モデル４１２が識別した結果に対応する出力値を取得する。

【0153】

この場面では、入力データは疑似データ３２５であるため、他の機械学習モデル４１２は、「疑似」であると識別するのが正解である。制御部２１は、機械学習モデル４０２により生成された各件の疑似データ３２５について、出力層から得られる出力値とこの正解との誤差を算出する。上記第１の例と同様に、誤差の算出には、損失関数が用いられてよい。

【0154】

また、制御部２１は、ローカル学習データ３０２に含まれる訓練データ３２１を他の機械学習モデル４１２に入力し、他の機械学習モデル４１２の演算処理を実行する。すなわち、制御部２１は、他の機械学習モデル４１２の入力層に訓練データ３２１を入力し、入力側から順に各層に含まれる各ニューロンの発火判定を行う。これにより、制御部２１は、他の機械学習モデル４１２の出力層からの出力として、与えられた訓練データ３２１の由来を他の機械学習モデル４１２が識別した結果に対応する出力値を取得する。

【0155】

この場面では、入力データは訓練データ３２１であるため、他の機械学習モデル４１２は、「真」であると識別するのが正解である。制御部２１は、ローカル学習データ３０２に含まれる各件の訓練データ３２１について、出力層から得られる出力値とこの正解との誤差を算出する。上記と同様に、誤差の算出には、損失関数が用いられてよい。

【0156】

制御部２１は、上記第１の例と同様に、誤差逆伝播法により、算出した出力値の誤差の勾配を用いて、他の機械学習モデル４１２の演算パラメータの値の誤差を算出する。制御部２１は、算出された誤差に基づいて、他の機械学習モデル４１２の演算パラメータの値の更新を行う。演算パラメータの値を更新する程度は、学習率により調節されてよい。

【0157】

制御部２１は、ローカル学習データ３０２に含まれる複数件の訓練データ３２１及び機械学習モデル４０２により生成された複数件の疑似データ３２５それぞれからサンプルを抽出し、抽出されたサンプルを使用して、上記の一連の学習処理を実行する。これにより、制御部２１は、他の機械学習モデル４１２の演算パラメータの値を調整する。この調整を繰り返す回数は適宜設定されてよい。

【0158】

例えば、制御部２１は、上記第１の例と同様に、算出される出力値の誤差の和が閾値以下になるまで、一連の学習処理を繰り返し実行してもよい。或いは、制御部２１は、上記の一連の学習処理による演算パラメータの値の調整を所定回数繰り返してもよい。この場合、調整を繰り返す回数は、例えば、学習プログラム８２１内の設定値で指定されてもよいし、オペレータの入力により指定されてもよい。

【0159】

これにより、制御部２１は、ローカル学習データ３０２に含まれる複数件の訓練データ３２１及び機械学習モデル４０２により生成された複数件の疑似データ３２５について、与えられた入力データの由来を識別する能力を獲得した他の機械学習モデル４１２を構築することができる。

【0160】

・生成モデルの機械学習
次に、制御部２１は、他の機械学習モデル４１２の演算パラメータの値を固定した上で、機械学習モデル４０２の機械学習を実行する。すなわち、制御部２１は、上記訓練済みの他の機械学習モデル４１２を利用して、機械学習モデル４０２の学習処理を実行する。この学習処理では、制御部２１は、他の機械学習モデル４１２の識別性能を低下させるようなデータ（疑似データ３２５）を生成するように機械学習モデル４０２を訓練する。つまり、制御部２１は、他の機械学習モデル４１２が「真」である（すなわち、ローカル学習データ３０２由来である）と誤った識別をするようなデータを生成するように機械学習モデル４０２を訓練する。

【0161】

具体的には、まず、上記と同様に、制御部２１は、所定の確率分布から複数のノイズ３２３を抽出する。続いて、制御部２１は、抽出された各ノイズ３２３を機械学習モデル４０２に与えて、機械学習モデル４０２の演算処理を実行する。換言すると、制御部２１は、機械学習モデル４０２の入力層に各ノイズを入力し、入力側から順に各層に含まれる各ニューロンの発火判定を行う。これにより、制御部２１は、機械学習モデル４０２の出力層からの出力として、ノイズ３２３から生成された疑似データ３２５を取得する。生成する疑似データ３２５の件数は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。なお、機械学習モデル４０２の学習処理でも、他の機械学習モデル４１２の機械学習の際に生成した疑似データ３２５が利用されてよい。この場合、機械学習モデル４０２の学習処理において、疑似データ３２５を生成する一連の処理は省略されてよい。

【0162】

次に、制御部２１は、生成された各疑似データ３２５を他の機械学習モデル４１２に与えて、他の機械学習モデル４１２の演算処理を実行する。換言すると、制御部２１は、他の機械学習モデル４１２の入力層に各疑似データ３２５を入力し、入力側から順に各層に含まれる各ニューロンの発火判定を行う。これにより、制御部２１は、他の機械学習モデル４１２の出力層からの出力として、与えられた疑似データ３２５の由来を他の機械学習モデル４１２が識別した結果に対応する出力値を取得する。

【0163】

この場面では、他の機械学習モデル４１２が入力データは「真」であると誤った識別をすることが正解である。制御部２１は、機械学習モデル４０２により生成された各件の疑似データ３２５について、他の機械学習モデル４１２の出力層から得られる出力値とこの正解との誤差を算出する。これにより、制御部２１は、他の機械学習モデル４１２の識別性能を低下させるように当該出力値の誤差を算出する。上記と同様に、誤差の算出には、損失関数が用いられてよい。

【0164】

制御部２１は、誤差逆伝播法により、算出した出力値の誤差の勾配を、他の機械学習モデル４１２を介して機械学習モデル４０２の演算パラメータに逆伝播して、機械学習モデル４０２の演算パラメータの値の誤差を算出する。制御部２１は、算出された誤差に基づいて、機械学習モデル４０２の演算パラメータの値の更新を行う。上記と同様に、演算パラメータの値を更新する程度は、学習率により調節されてよい。

【0165】

制御部２１は、上記一連の学習処理を繰り返し実行することで、機械学習モデル４０２の演算パラメータの値を調整する。この調整を繰り返す回数は適宜設定されてよい。上記と同様に、制御部２１は、算出される出力値の誤差の和が閾値以下になるまで、上記一連の学習処理を繰り返し実行してもよいし、或いは上記一連の学習処理による演算パラメータの値の調整を所定回数繰り返してもよい。これにより、制御部２１は、上記訓練済みの他の機械学習モデル４１２の識別性能を低下させるようなデータを生成するように機械学習モデル４０２を訓練することができる。

【0166】

・各学習処理の繰り返し実行
制御部２１は、上記他の機械学習モデル４１２の学習処理及び機械学習モデル４０２の学習処理を交互に繰り返し実行する。交互に繰り返し実行する回数は適宜設定されてよい。交互に繰り返し実行する回数は、例えば、学習プログラム８２１内の設定値で指定されてもよいし、オペレータの入力により指定されてもよい。なお、条件を示すデータが訓練データ３２１に関連付けられている場合、上記各学習処理において、機械学習モデル４０２及び他の機械学習モデル４１２それぞれに、条件を示すデータが更に入力されてよい。

【0167】

これにより、他の機械学習モデル４１２及び機械学習モデル４０２の精度を交互に高めていくことができる。その結果、機械学習モデル４０２は、ローカル学習データ３０２に含まれる訓練データ３２１に適合する疑似データ３２５を生成する能力を獲得する。換言すると、制御部２１は、ローカル学習データ３０２に含まれる訓練データ３２１に適合する疑似データ３２５を生成する能力を獲得した学習済み機械学習モデル４５２を生成することができる。例えば、移動体の移動する経路を予測するケースでは、移動体の予測される移動の経路を示すデータを生成する能力を獲得した学習済み機械学習モデル４５２を生成することができる。

【0168】

２－５．その他
なお、機械学習の方法に教師なし学習を採用する場合に、機械学習モデル４０の構成は、上記生成モデルに限られなくてもよく、生成モデル以外のモデルを機械学習モデル４０として採用してもよい。機械学習の方法には、クラスタリング等が採用されてよい。また、機械学習モデル４０は、１クラスサポートベクタマシン、自己組織化マップ、その他識別モデル等により構成されてよい。

【0169】

３．第３の例
図７Ｃは、機械学習モデル４０の構成及び機械学習の方法の第３の例を模式的に示す。第３の例では、機械学習方法に強化学習を採用する。なお、図７Ｃでは、説明の便宜上、ローカル学習データ３０、機械学習モデル４０、及び学習済み機械学習モデル４５それぞれの一例を、ローカル学習データ３０３、機械学習モデル４０３、及び学習済み機械学習モデル４５３と表記する。

【0170】

３－１．機械学習モデルの構成例
第３の例では、機械学習モデル４０３には、価値ベース、方策ベース、又はその両方が採用されてよい。価値ベースを採用する場合、機械学習モデル４０３は、例えば、状態価値関数、行動価値関数（Ｑ関数）等の価値関数により構成されてよい。状態価値関数は、与えられた状態の価値を出力するように構成される。行動価値関数は、与えられた状態に対して各行動の価値を出力するように構成される。方策ベースを採用する場合、機械学習モデル４０３は、例えば、方策関数により構成されてよい。方策関数は、与えられた状態に対して各行動を選択する確率を出力するように構成される。両方を採用する場合、機械学習モデル４０３は、例えば、価値関数（Critic）及び方策関数（Actor）により構成されてよい。各関数は、例えば、データテーブル、関数式等により表現されてよい。関数式により表現する場合、各関数は、ニューラルネットワーク、線形関数、決定木等により構成されてよい。

【0171】

３－２．ローカル学習データの構成例
強化学習では、基本的に、方策に従って行動することで、学習の環境と相互作用するエージェントが仮定される。エージェントの実体は、例えば、ＣＰＵである。機械学習モデル４０３は、上記の構成により、行動を決定する方策として動作する。エージェントは、与えられた学習の環境内で、強化する行動に関する状態を観測する。

【0172】

観測対象となる状態及び実行される行動は、機械学習モデル４０３に習得させる推論の内容に応じて適宜設定されてよい。例えば、センサの最適な観測方法を推定するケースでは、観測対象となる状態は、センサの観測状態であってよく、実行される行動は、センサの観測状態の変更であってよい。また、例えば、移動体の移動する経路を予測するケースでは、観測対象となる状態は、移動体の移動する経路に関するものであってよく、実行される行動は、移動体の移動であってよい。また、例えば、ユーザに適合する会話戦略を推定するケースでは、観測対象となる状態は、ユーザの会話行動に関するものであってよく、実行される行動は、ユーザとの会話であってよい。また、例えば、タスクに適合するロボット装置の動作指令を推定するケースでは、観測対象となる状態は、ロボット装置の内部及び外部の少なくとも一方の状況に関するものであってよく、実行される行動は、動作指令に基づく動作であってよい。学習の環境は、手動的に又は自動的に適宜作成されてよい。

【0173】

エージェントは、機械学習モデル４０３により、観測された現在の状態（入力データ）に対して所定の推論を実行し、得られた推論の結果に基づいて採用する行動を決定する。或いは、採用する行動は、ランダムに決定されてもよい。決定された行動を実行すると、観測される状態は次の状態に遷移する。場合によって、エージェントは、学習の環境から即時報酬を得ることができる。

【0174】

この行動の決定及び実行の試行錯誤を繰り返しながら、エージェントは、即時報酬の総和（すなわち、価値）を最大化するように、機械学習モデル４０３を更新する。これにより、最適な行動、すなわち、高い価値の取得を期待可能な行動が強化され、そのような行動の選択を可能にする方策（学習済み機械学習モデル４５３）を得ることができる。

【0175】

したがって、強化学習では、ローカル学習データ３０３は、この試行錯誤により得られる状態遷移データであって、実行された行動により現在の状態から次の状態に遷移し、場合によって即時報酬が得られるという状態遷移を示す状態遷移データにより構成される。１件の状態遷移データは、１エピソード全ての状態遷移の軌跡を示すデータにより構成されてもよいし、或いは、所定回数（１回以上）分の状態遷移を示すデータにより構成されてもよい。

【0176】

また、状態遷移に応じて即時報酬を算出するのには報酬関数が用いられてよい。報酬関数は、データテーブル、関数式、又はルールにより表現されてよい。関数式により表現する場合、報酬関数は、ニューラルネットワーク、線形関数、決定木等により構成されてよい。報酬関数は、機械学習モデル４０３に習得させる推論の内容に応じて、オペレータ等により、手動的に設定されてもよい。

【0177】

或いは、報酬関数は、機械学習モデル４０３の推論結果（すなわち、決定された行動）の適正度に応じて即時報酬を与えるように設定されてよい。推論結果の適正度は、５段階、１０段階等のように所定数のグレードで表現されてもよい。或いは、推論結果の適正度は、連続値により表現されてもよい。また、推論結果の適正度は、オペレータ等により手動的に与えられてもよい。若しくは、推論結果の適正度は、判定器４８を用いて所定の基準に従って評価されてよい。所定の基準は、推論の内容に応じて適宜設定されてよい。判定器４８は、所定の基準に従って推論結果の適正度を評価するように適宜構成されてよい。

【0178】

具体例として、製品の画像検査を実施するケースで、強化学習により、製品の欠陥の検出に最適なカメラの観測方法を推定する能力を機械学習モデル４０３に習得させる場面を想定する。このカメラの最適な観測方法を推定する場面は、センサの最適な観測方法を推定する場面の一例である。強化学習の環境として、それぞれ異なる欠陥を含む複数の製品を用意し、用意された各製品をカメラにより撮影する環境が作成されてよい。

【0179】

この場合に、所定の基準は、カメラにより得られた画像データから製品の欠陥を検出可能か否かに関するものであってよい。これに応じて、判定器４８は、画像データから製品の欠陥を検出するように構成された検出器により構成されてよい。検出器は、エッジ検出等の画像処理により欠陥を検出するように構成されてもよいし、ニューラルネットワーク等の学習済み機械学習モデルにより構成されてもよい。

【0180】

このとき、報酬関数は、検出器による欠陥の検出精度に応じて即時報酬を算出するように設定されてよい。一例として、カメラにより得られた画像データに対する検出器による欠陥の検出が複数回試行されてもよい。報酬関数は、この複数回の欠陥検出の試行の結果に基づいて、欠陥検出の成功確率が閾値以上であればプラスの即時報酬を与え、欠陥検出不能であればマイナスの即時報酬（罰）を与えるように設定されてよい。なお、試行回数及びプラスの即時報酬を与える基準となる閾値はそれぞれ、プログラム内の設定値により与えられてもよいし、オペレータ等により手動的に与えられてもよい。

【0181】

その他のケースでも同様に、推論結果の適正度に応じて報酬が設定されてよい。例えば、移動体の移動する経路を予測するケースでは、移動体の移動する経路の予測が複数回試行されてもよい。報酬関数は、その複数回の予測の試行結果に基づいて、予測の精度が閾値以上であればプラスの即時報酬を与え、予測精度が許容値以下であればマイナスの即時報酬（罰）を与えるように設定されてよい。同様に、ユーザに適合する会話戦略を推定するケースでは、ユーザに適合する会話戦略の推定が複数回試行されてよい。報酬関数は、その複数回の推定の試行結果に基づいて、推定の精度が閾値以上であればプラスの即時報酬を与え、推定精度が許容値以下であればマイナスの即時報酬（罰）を与えるように設定されてもよい。タスクに適合するロボット装置の動作指令を推定するケースでも同様に報酬関数が設定されてよい。なお、適正度を評価する方法は、上記推論結果の精度に基づく方法に限られなくてもよい。例えば、センサの最適な観測方法を推定する場面では、同一の対象を観測するのにセンサの計測にかかる時間が短い方が好ましいと想定される。これに応じて、報酬関数は、センサの計測にかかる時間が長いほどマイナスの即時報酬を与え、センサの計測にかかる時間が短いほどプラスの即時報酬を与えるように設定されてもよい。このように、報酬関数は、所望の結果が得られるほど高い即時報酬を与え、そうではないほど低い即時報酬又はマイナスの即時報酬を与えるように設定されてよい。

【0182】

或いは、報酬関数は、エキスパートにより得られた事例データから逆強化学習により推定されてよい。事例データは、エキスパートによる実演（の軌跡）を示すデータにより構成される。センサの最適な観測方法を推定する場面では、事例データは、例えば、熟練者の操作により得られたセンサの変更方法を示すデータにより構成されてよい。移動体の移動する経路を予測する場面では、事例データは、例えば、移動体が実際に移動した経路を示すデータにより構成されてよい。ユーザに適合する会話戦略を推定する場面では、事例データは、例えば、熟練者により指定された会話戦略を示すデータにより構成されてよい。タスクに適合するロボット装置の動作指令を推定する場面では、熟練者によるロボット装置の操作軌跡を示すデータにより構成されてよい。事例データを生成する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。事例データは、例えば、エキスパートによる実演の軌跡をセンサ等により記録することにより生成されてよい。

【0183】

逆強化学習の方法は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。逆強化学習には、例えば、最大エントロピー原理による方法、相対エントロピーの最小化による方法、敵対的生成ネットワークを利用した方法（例えば、Justin Fu, et al., "Learning Robust Rewards with Adversarial Inverse Reinforcement Learning", arXiv:1710.11248, 2018）等が用いられてよい。逆強化学習により報酬関数を得る場合、ローカル学習データ３０３は、逆強化学習に利用する事例データを更に備えてよい。

【0184】

３－３．ステップＳ１０１及びステップＳ１０２について
上記ステップＳ１０１では、制御部２１は、訓練中の学習済み機械学習モデル４０３を利用して、上記試行錯誤を実行することで、上記状態遷移データを取得してもよい。或いは、状態遷移データは、他のコンピュータにより生成されてもよい。この場合、上記ステップＳ１０１では、制御部２１は、ネットワーク、記憶媒体９２等を介して、他のコンピュータにより生成された状態遷移データを取得してもよい。

【0185】

上記ステップＳ１０２では、制御部２１は、得られた状態遷移データに基づいて、価値を最大化するように機械学習モデル４０３の演算パラメータの値を更新する。機械学習モデル４０３の演算パラメータの値を調整する方法は、機械学習モデル４０３の構成に応じて適宜選択されてよい。例えば、機械学習モデル４０３がニューラルネットワークにより構成される場合、機械学習モデル４０３の演算パラメータの値は、誤差逆伝播法等により、上記第１の例及び第２の例と同様の方法で調整されてよい。

【0186】

制御部２１は、ステップＳ１０１及びステップＳ１０２の処理を繰り返し、得られる価値（の期待値）が最大化されるように（例えば、更新量が閾値以下になるまで）、機械学習モデル４０３の演算パラメータの値を調整する。すなわち、機械学習モデル４０３を訓練することは、所定の条件を満たすまで報酬が多く得られるように機械学習モデル４０３を構成する演算パラメータの値の修正を繰り返すことを含む。これにより、制御部２１は、所定の推論を実行する（第３の例では、高い価値の取得を期待可能な行動を決定する）能力を獲得した学習済み機械学習モデル４５３を生成することができる。例えば、上記センサの最適な観測方法を推定するケースでは、センサの現在の観測状態から適正な観測状態への変更方法を推定する能力を獲得した学習済み機械学習モデル４５３を生成することができる。

【0187】

機械学習モデル４０３が価値ベースで構成される場合、上記強化学習の方法には、ＴＤ（temporal difference）法、ＴＤ（λ）法、モンテカルロ法、動的計画法、等が用いられてよい。試行錯誤における行動の決定は、オンポリシであってもよいし、オフポリシであってもよい。具体例として、強化学習の方法には、Ｑ学習、Ｓａｒｓａ等が用いられてよい。試行錯誤の際には、確率εでランダムな行動を採用してもよい（ε－グリーディ法）。

【0188】

また、機械学習モデル４０３が方策ベースで構成される場合、上記強化学習の方法には、方策勾配法等が用いられてよい。この場合、制御部２１は、得られる価値が増加する方向に方策関数の演算パラメータの勾配を算出し、算出された勾配に基づいて、方策関数の演算パラメータの値を更新する。方策関数の勾配の算出には、例えば、ＲＥＩＮＦＯＲＣＥアルゴリズム等が用いられてよい。

【0189】

また、機械学習モデル４０３が両方で構成される場合、上記強化学習の方法には、Actor Critic法等が用いられてよい。

【0190】

更に、逆強化学習を実施する場合には、上記強化学習の処理を実行する前に、制御部２１は、上記ステップＳ１０１において、事例データを更に取得する。事例データは、各ローカル学習装置２により生成されてもよいし、他のコンピュータにより生成されてもよい。他のコンピュータにより生成される場合、制御部２１は、ネットワーク、記憶媒体９２等を介して、他のコンピュータにより生成された事例データを取得してもよい。次に、制御部２１は、取得された事例データを利用して、逆強化学習を実行することで、報酬関数を設定する。そして、制御部２１は、逆強化学習により設定された報酬関数を利用して、上記強化学習の処理を実行する。これにより、制御部２１は、逆強化学習により設定された報酬関数を利用して、所定の推論を実行する能力を獲得した学習済み機械学習モデル４５３を生成することができる。

【0191】

４．小括
本実施形態では、機械学習モデル４０の構成には、上記３つの構成の少なくともいずれかが採用されてよい。制御部２１は、上記３つの機械学習の方法の少なくともいずれかを採用することで、所定の推論を実行する能力を獲得した（所定の推論を実行可能に訓練された）学習済み機械学習モデル４５を生成することができる。学習済み機械学習モデル４５を生成すると、制御部２１は、次のステップＳ１０３に処理を進める。

【0192】

（ステップＳ１０３）
ステップＳ１０３では、制御部２１は、環境データ取得部２１２として動作し、ローカル学習データ３０の得られた環境に関する学習環境データ３５を取得する。ローカル学習データ３０の得られた環境に関する属性は、所定の推論に直接的又は間接的に関連する対象物又はユーザの属性等の推論に関連し得るあらゆる事象を含んでよい。学習環境データ３５は、推論装置１で得られる環境データ６３と同種のデータである。

【0193】

学習環境データ３５の内容は、特に限定されなくてもよく、推論装置１の統合処理に考慮する環境の内容に応じて適宜選択されてよい。例えば、センサの最適な観測方法を推定するケースでは、学習環境データ３５には、センサによる観測に影響を及ぼす環境属性（例えば、明るさ、温度等）に関する情報が含まれてよい。また、例えば、ユーザに適合する会話戦略を推定するケースでは、学習環境データ３５には、ユーザの属性（例えば、年齢、性別、職業、出身地、性格タイプ等）に関する情報が含まれてよい。

【0194】

また、学習環境データ３５を取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、学習環境データ３５は、入力装置２５を介して、ユーザ等のオペレータの入力により取得されてもよい。また、例えば、学習環境データ３５の取得には、センサが利用されてもよい。

【0195】

学習環境データ３５の取得にセンサを利用する場合、学習環境データ３５は、センサにより得られる観測データそのものであってもよいし、観測データに対して何らかの情報処理（例えば、特徴抽出）を実行することで得られたデータであってもよい。観測データに対して情報処理を実行する場面の一例として、ユーザに適合する会話戦略を推定するケースにおいて、学習環境データ３５としてユーザの性別に関する情報を取得する場面を想定する。この場合に、制御部２１は、学習環境データ３５を取得するためのセンサとしてカメラを利用し、ユーザの顔の写る画像データを取得してもよい。そして、制御部２１は、得られた画像データに対して、顔から性別を推定する画像処理を実行してもよい。制御部２１は、この推定処理の結果に基づいて、ユーザの性別に関する情報を取得してもよい。

【0196】

また、学習環境データ３５を取得する経路も、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。制御部２１は、外部インタフェース２４、入力装置２５等を介して、学習環境データ３５を直接的に取得してもよい。或いは、制御部２１は、ネットワーク、記憶媒体９２等を介して、学習環境データ３５を間接的に取得してもよい。

【0197】

学習環境データ３５を取得すると、制御部２１は、次のステップＳ１０４に処理を進める。なお、ステップＳ１０３の処理を実行するタイミングは、このような例に限定されなくてもよい。ステップＳ１０３の処理は、次のステップＳ１０４の処理を実行する前の任意のタイミングに実行されてよい。

【0198】

（ステップＳ１０４）
制御部２１は、保存処理部２１４として動作し、生成された学習済み機械学習モデル４５に関する情報を学習結果データ４７として生成する。図７Ａ～図７Ｃの例では、制御部２１は、生成された学習済み機械学習モデル４５１～４５３に関する情報を学習結果データ４７として生成する。学習済み機械学習モデル４５に関する情報には、例えば、学習済み機械学習モデル４５の構造を示す情報、及び機械学習により調整された演算パラメータの値を示す情報が含まれてよい。そして、制御部２１は、生成された学習結果データ４７を学習環境データ３５に関連付けて所定の記憶領域に保存する。

【0199】

所定の記憶領域は、例えば、制御部２１内のＲＡＭ、記憶部２２、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。記憶メディアは、例えば、ＣＤ、ＤＶＤ等であってよく、制御部２１は、ドライブ２７を介して記憶メディアに学習結果データ４７を格納してもよい。外部記憶装置は、例えば、ＮＡＳ（Network Attached Storage）等のデータサーバであってよい。この場合、制御部２１は、通信インタフェース２３を利用して、ネットワークを介してデータサーバに学習結果データ４７を格納してもよい。また、外部記憶装置は、例えば、各ローカル学習装置２に接続される外付けの記憶装置であってもよい。

【0200】

これにより、学習結果データ４７の保存が完了すると、制御部２１は、学習済み機械学習モデル４５の生成に関する一連の情報処理を終了する。

【0201】

なお、学習結果データ４７及び学習環境データ３５は、任意のタイミングで推論装置１に提供されてよい。例えば、制御部２１は、ステップＳ１０４の処理として又はステップＳ１０４の処理とは別に、学習結果データ４７及び学習環境データ３５を推論装置１に転送してもよい。推論装置１の制御部１１は、この転送を受信することで、学習結果データ４７及び学習環境データ３５を取得してもよい。また、例えば、制御部１１は、通信インタフェース１３を利用して、各ローカル学習装置２又はデータサーバにネットワークを介してアクセスすることで、学習結果データ４７及び学習環境データ３５を取得してもよい。また、例えば、制御部１１は、記憶媒体９１を介して、学習結果データ４７及び学習環境データ３５を取得してもよい。また、例えば、学習結果データ４７及び学習環境データ３５は、推論装置１に予め組み込まれてもよい。

【0202】

更に、制御部２１は、上記ステップＳ１０１～ステップＳ１０４の処理を定期的に繰り返すことで、学習結果データ４７及び学習環境データ３５を定期的に更新又は新たに生成してもよい。この繰り返す際には、ローカル学習データ３０に含まれるデータの変更、修正、追加、削除等が適宜実行されてよい。そして、制御部２１は、更新した又は新たに生成した学習結果データ４７及び学習環境データ３５を学習処理の実行毎に推論装置１に提供することで、推論装置１の保持する学習結果データ４７及び学習環境データ３５を定期的に更新してもよい。

【0203】

（Ｂ）推論処理
次に、図８を用いて、各ローカル学習装置２の所定の推論に関する動作例について説明する。図８は、各ローカル学習装置２の所定の推論に関する処理手順の一例を示すフローチャートである。ただし、以下で説明する各処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する各処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0204】

（ステップＳ１１１）
ステップＳ１１１では、制御部２１は、対象データ取得部２１６として動作し、所定の推論の対象となる対象データ２２５を取得する。対象データ２２５は、推論装置１で得られる対象データ６１と同種のデータである。

【0205】

対象データ２２５の内容は、特に限定されなくてもよく、所定の推論の内容に応じて適宜選択されてよい。例えば、センサの最適な観測方法を推定するケースでは、対象データ２２５には、センサの現在の観測状態に関する情報として、センサの設置状況に関する属性（例えば、センサの設置角度、センサと観測対象との間の距離等）を示す情報が含まれてよい。また、例えば、ユーザに適合する会話戦略を推定するケースでは、対象データ２２５には、入力デバイス（例えば、キーボード、タッチパネル）、カメラ、マイクロフォン等により得られるユーザの会話行動に関するデータが含まれてよい。学習済み機械学習モデル４５が生成モデルにより構成される場合、対象データ２２５には、所定の確率分布から抽出されたノイズが含まれてよい。

【0206】

また、対象データ２２５を取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、対象データ２２５は、入力装置２５を介して、ユーザ等のオペレータの入力により取得されてもよい。また、例えば、対象データ２２５の取得には、センサが利用されてもよい。

【0207】

対象データ２２５の取得にセンサを利用する場合、対象データ２２５は、学習環境データ３５と同様に、センサにより得られる観測データそのものであってもよいし、観測データに対して何らかの情報処理を実行することで得られたデータであってもよい。観測データに対して情報処理を実行する場面の一例として、ユーザに適合する会話戦略を推定するケースにおいて、対象データ２２５としてユーザの発話内容の文字列を取得する場面を想定する。この場合に、制御部２１は、対象データ２２５を取得するためのセンサとしてマイクロフォンを利用し、ユーザの発話音声を含む音データを取得してもよい。そして、制御部２１は、得られた音データに対して音声解析を実行してもよい。制御部２１は、この音声解析処理の結果に基づいて、ユーザの発話内容の文字列を取得してもよい。

【0208】

更に、学習環境データ３５及び対象データ２２５それぞれの取得にセンサを利用する場合に、学習環境データ３５及び対象データ２２５は、同一のセンサにより得られた同一の観測データに由来してもよいし、異なるセンサにより得られた異なる観測データに由来してもよい。同一の観測データに由来する場面の一例として、上記ユーザに適合する会話戦略を推定するケースにおいて、ビデオカメラを利用する場面を想定する。この場合に、制御部２１は、ビデオカメラにより得られた画像データからユーザの性別を推定することで、推定されたユーザの性別に関する情報を学習環境データ３５として取得してもよい。また、制御部２１は、ビデオカメラにより得られた音データからユーザの発話内容の文字列を解析することで、得られたユーザの発話内容の文字列を対象データ２２５として取得してもよい。

【0209】

また、対象データ２２５を取得する経路も、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。制御部２１は、外部インタフェース２４、入力装置２５等を介して、対象データ２２５を直接的に取得してもよい。或いは、制御部２１は、ネットワーク、記憶媒体９２等を介して、対象データ２２５を間接的に取得してもよい。

【0210】

対象データ２２５を取得すると、制御部２１は、次のステップＳ１１２に処理を進める。

【0211】

（ステップＳ１１２）
ステップＳ１１２では、制御部２１は、推論部２１７として動作し、ローカル学習データ３０から導出された推論モデルを利用して、取得された対象データ２２５に対して所定の推論を実行する。本実施形態では、制御部２１は、学習結果データ４７を保持することで、学習済み機械学習モデル４５を推論モデルとして備えている。制御部２１は、学習結果データ４７を参照して、学習済み機械学習モデル４５の設定を行う。次に、制御部２１は、学習済み機械学習モデル４５に対象データ２２５を与えて、学習済み機械学習モデル４５の演算処理を実行する。

【0212】

演算処理は、学習済み機械学習モデル４５の構成に応じて適宜実行されてよい。学習済み機械学習モデル４５が関数式により構成される場合、制御部２１は、対象データ２２５を関数式に代入し、当該関数式の演算処理を実行する。学習済み機械学習モデル４５がニューラルネットワークにより構成される場合、制御部２１は、対象データ２２５を入力層に入力し、入力側から順に各層に含まれる各ニューロンの発火判定を行う。学習済み機械学習モデル４５がデータテーブルにより構成される場合、制御部２１は、対象データ２２５をデータテーブルに照合する。

【0213】

これにより、制御部２１は、学習済み機械学習モデル４５の出力（すなわち、演算処理の実行結果）として、対象データ２２５に対して所定の推論を実行した結果を取得する。得られる推論結果は、学習済み機械学習モデル４５に習得させた能力に依存する。例えば、センサの最適な観測方法を推定する能力を学習済み機械学習モデル４５に習得させたケースでは、制御部２１は、推定処理の結果として、センサの現在の観測状態から推定された、センサの適正な観測状態への変更方法に関する情報を取得することができる。推論結果を取得すると、制御部２１は、次のステップＳ１１３に処理を進める。

【0214】

（ステップＳ１１３）
ステップＳ１１３では、制御部２１は、出力部２１８として動作し、対象データ２２５に対する推論結果に関する情報を出力する。

【0215】

出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。例えば、制御部２１は、ステップＳ１１２により対象データ２２５に対して所定の推論を実行した結果をそのまま出力装置２６に出力してもよい。また、例えば、制御部２１は、所定の推論を実行した結果に基づいて、何らかの情報処理を実行してもよい。そして、制御部２１は、その情報処理を実行した結果を推論結果に関する情報として出力してもよい。この情報処理を実行した結果の出力には、推論結果に応じて特定のメッセージを出力すること、推論結果に応じて制御対象装置の動作を制御すること等が含まれてよい。出力先は、例えば、出力装置２６、他のコンピュータの出力装置、制御対象装置等であってよい。

【0216】

推論結果に関する情報の出力が完了すると、制御部２１は、所定の推論に関する一連の情報処理を終了する。なお、所定の期間の間、制御部２１は、ステップＳ１１１～ステップＳ１１３の一連の情報処理を継続的に繰り返し実行してもよい。繰り返すタイミングは、任意であってよい。これにより、各ローカル学習装置２は、所定の推論を継続的に実施してもよい。

【0217】

［推論装置］
次に、図９Ａを用いて、推論装置１の所定の推論に関する動作例について説明する。図９Ａは、推論装置１の所定の推論に関する処理手順の一例を示すフローチャートである。以下で説明する処理手順は、本発明の「推論方法」の一例である。ただし、以下で説明する各処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する各処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0218】

（ステップＳ２０１及びステップＳ２０２）
ステップＳ２０１では、制御部１１は、第１データ取得部１１１として動作し、所定の推論の対象となる所定の対象データ６１を取得する。処理環境が異なる点を除き、ステップＳ２０１の対象データ６１を取得する処理は、上記ステップＳ１１１の対象データ２２５を取得する処理と同様であってよい。

【0219】

すなわち、対象データ６１の内容は、所定の推論の内容に応じて適宜選択されてよい。対象データ６１を取得する方法及び経路はそれぞれ、実施の形態に応じて適宜選択されてよい。対象データ６１は、入力装置１５を介したオペレータの入力により取得されてもよい。対象データ６１の取得には、対象データ２２５の取得に利用されるセンサと同種のセンサが利用されてもよい。対象データ６１の取得にセンサを利用する場合、対象データ６１は、センサにより得られる観測データそのものであってもよいし、観測データに対して何らかの情報処理を実行することで得られたデータであってもよい。制御部１１は、外部インタフェース１４、入力装置１５等を介して、対象データ６１を直接的に取得してもよいし、或いは、ネットワーク、記憶媒体９１等を介して、対象データ６１を間接的に取得してもよい。

【0220】

ステップＳ２０２では、制御部１１は、第２データ取得部１１２として動作し、所定の推論を実行する対象の環境に関する環境データ６３を取得する。処理環境が異なる点を除き、ステップＳ２０２の環境データ６３を取得する処理は、上記ステップＳ１０３の学習環境データ３５を取得する処理と同様であってよい。

【0221】

すなわち、環境データ６３の内容は、統合処理に考慮する環境の内容に応じて適宜選択されてよい。環境データ６３を取得する方法及び経路はそれぞれ、実施の形態に応じて適宜選択されてよい。環境データ６３は、入力装置１５を介したオペレータの入力により取得されてもよい。環境データ６３の取得には、学習環境データ３５の取得に利用されるセンサと同種のセンサが利用されてもよい。環境データ６３の取得にセンサを利用する場合、環境データ６３は、センサにより得られる観測データそのものであってもよいし、観測データに対して何らかの情報処理を実行することで得られたデータであってもよい。対象データ６１及び環境データ６３の取得にセンサを利用する場合に、対象データ６１及び環境データ６３は、同一のセンサにより得られた同一の観測データに由来してもよいし、異なるセンサにより得られた異なる観測データに由来してもよい。制御部１１は、外部インタフェース１４、入力装置１５等を介して、環境データ６３を直接的に取得してもよいし、或いは、ネットワーク、記憶媒体９１等を介して、環境データ６３を間接的に取得してもよい。

【0222】

なお、環境データ６３は、対象データ６１の取得される対象の環境に関して取得されるのに対して、学習環境データ３５は、ローカル学習データ３０の得られた環境に関して取得される。ローカル学習データ３０には、対象データ６１と同種のデータ（例えば、上記訓練データ３１１）が蓄積されている。そのため、学習環境データ３５は、環境データ６３と比べて、例えば、時間、場所、対象物、ユーザ等の環境の属性に関して広がりを有してもよい。これに応じて、環境データ６３のデータ形式と学習環境データ３５のデータ形式とは、それぞれの環境を比較可能な態様で異なっていてもよい。

【0223】

以上により、制御部１１は、対象データ６１及び環境データ６３を取得する。なお、ステップＳ２０１及びステップＳ２０２の処理順序は任意であってよい。ステップＳ２０１及びステップＳ２０２のいずれかが先に実行されてもよいし、ステップＳ２０１及びステップＳ２０２の処理は並列に実行されてもよい。対象データ６１及び環境データ６３を取得すると、制御部１１は、次のステップＳ２０３に処理を進める。

【0224】

（ステップＳ２０３）
ステップＳ２０３では、制御部１１は、結果取得部１１３として動作し、異なる環境下で得られたローカル学習データ３０から所定の推論を実行するように導出された複数の推論モデルそれぞれに対象データ６１を与えて、対象データ６１に対する所定の推論を各推論モデルに実行させる。これにより、制御部１１は、取得された対象データ６１に対する各推論モデルの推論結果を取得する。

【0225】

本実施形態では、各推論モデルは、上記各ローカル学習装置２により生成された各学習済み機械学習モデル４５により構成される。また、本実施形態では、推論装置１は、各ローカル学習装置２により生成された各件の学習結果データ４７を保持することで、各学習済み機械学習モデル４５を備えている。そこで、制御部１１は、各件の学習結果データ４７を参照することで、各学習済み機械学習モデル４５の設定を行う。次に、制御部１１は、各学習済み機械学習モデル４５に対象データ６１を与えて、各学習済み機械学習モデル４５の演算処理を実行する。各学習済み機械学習モデル４５の演算処理は、上記ステップＳ１１２における学習済み機械学習モデル４５の演算処理と同様であってよい。これにより、制御部１１は、各学習済み機械学習モデル４５の出力として、対象データ６１に対する各学習済み機械学習モデル４５の推論結果を取得することができる。なお、推論処理に使用する学習済み機械学習モデル４５は、オペレータの指定等により適宜選択されてよい。対象データ６１に対する各学習済み機械学習モデル４５の推論結果を取得すると、制御部１１は、次のステップＳ２０４に処理を進める。

【0226】

（ステップＳ２０４）
ステップＳ２０４では、制御部１１は、統合部１１４として動作し、統合規則５に従って、ステップＳ２０３で得られた各推論モデルの推論結果を統合する。本実施形態では、制御部１１は、統合規則５に従って、各学習済み機械学習モデル４５の推論結果を統合する。これにより、制御部１１は、対象の環境下での対象データ６１に対する推論結果を生成する。

【0227】

本実施形態では、制御部１１は、統合規則データ５７を保持することで、統合規則５に関する情報を有している。統合規則５は、対象の環境下において、各学習済み機械学習モデル４５の推論結果を重視する程度をそれぞれ規定する複数の統合パラメータＰを備えている。制御部１１は、統合規則データ５７を参照することで、統合規則５の設定を行う。そして、制御部１１は、以下の処理により、統合規則５に従って、各学習済み機械学習モデル４５の推論結果を統合する。

【0228】

図９Ｂは、ステップＳ２０４の統合処理に関するサブルーチンの処理手順の一例を示すフローチャートである。本実施形態に係るステップＳ２０４の処理は、以下のステップＳ２１１～ステップＳ２１３の処理を含む。ただし、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0229】

ステップＳ２１１では、制御部１１は、取得された環境データ６３に応じて、各統合パラメータＰの値を決定する。各統合パラメータＰの値を決定する方法の詳細は後述する。なお、各統合パラメータＰの値の決定には、環境データ６３の他に、対象データ６１が更に考慮されてよい。すなわち、制御部１１は、対象データ６１及び環境データ６３に応じて、各統合パラメータＰの値を決定してもよい。

【0230】

ステップＳ２１２では、制御部１１は、決定された各統合パラメータＰの値を使用して、対応する各推論モデルの推論結果を重み付けする。ステップＳ２１３では、制御部１１は、各推論モデルの重み付けされた推論結果を統合する。本実施形態では、制御部１１は、決定された各統合パラメータＰの値を使用して、対応する各学習済み機械学習モデル４５の推論結果を重み付けする。そして、制御部１１は、各学習済み機械学習モデル４５の重み付けされた推論結果を統合する。

【0231】

重み付け及び統合の方法は、重み付けに応じて推論結果を優先する形態であれば、特に限定されなくてもよく、実施の形態に応じて適宜設定されてよい。例えば、各学習済み機械学習モデル４５の推論結果の重み付けされた推論結果を統合することは、各学習済み機械学習モデル４５の推論結果を示す値の重み付け平均を算出することであってよい。また、例えば、各学習済み機械学習モデル４５の推論結果の重み付けされた推論結果を統合することは、重み付けした上で多数決することにより、各学習済み機械学習モデル４５の推論結果のうちのいずれかを選択することであってよい。所定の推論が回帰である場合に、推論結果の統合は、主に上記重み付け平均により行われてよい。また、所定の推論が識別である場合に、推論結果の統合は、主に上記重み付き多数決により行われてよい。

【0232】

ステップＳ２１３による統合が完了すると、制御部１１は、ステップＳ２０４の統合処理に関するサブルーチンの処理を終了する。これにより、制御部１１は、対象の環境下での対象データ６１に対する推論結果を生成することができる。当該統合処理により推論結果を生成すると、制御部１１は、次のステップＳ２０５に処理を進める。

【0233】

（ステップＳ２０５）
図９Ａに戻り、ステップＳ２０５では、制御部１１は、出力部１１５として動作し、生成された推論結果に関する情報を出力する。処理環境が異なる点を除き、ステップＳ２０５の出力処理は、上記ステップＳ１１３の出力処理と同様であってよい。

【0234】

すなわち、出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。例えば、制御部１１は、ステップＳ２０４により生成された推論結果をそのまま出力装置１６に出力してもよい。また、例えば、制御部１１は、生成された推論結果に基づいて、何らかの情報処理を実行してもよい。そして、制御部１１は、その情報処理を実行した結果を推論結果に関する情報として出力してもよい。この情報処理を実行した結果の出力には、推論結果に応じて特定のメッセージを出力すること、推論結果に応じて制御対象装置の動作を制御すること等が含まれてよい。出力先は、例えば、出力装置１６、他のコンピュータの出力装置、制御対象装置等であってよい。

【0235】

推論結果に関する情報の出力が完了すると、制御部１１は、所定の推論に関する一連の情報処理を終了する。なお、所定の期間の間、制御部１１は、ステップＳ２０１～ステップＳ２０５の一連の情報処理を継続的に繰り返し実行してもよい。繰り返すタイミングは、任意であってよい。これにより、推論装置１は、所定の推論を継続的に実施してもよい。

【0236】

＜統合パラメータの値の決定方法＞
次に、上記ステップＳ２１１における各統合パラメータＰの値を決定する方法の具体例について説明する。本実施形態では、制御部１１は、以下の３つの方法のうちの少なくともいずれかの方法により、各統合パラメータＰの値を決定することができる。

【0237】

（１）第１の方法
図１０Ａは、第１の方法により各統合パラメータＰの値を決定する場面の一例を模式的に例示する。第１の方法では、制御部１１は、環境データ６３（及び対象データ６１）から各統合パラメータＰの値を算出するための演算モデルを利用する。

【0238】

（１－１）統合パラメータの値を決定する処理
本実施形態では、制御部１１は、学習データ５９を利用して、演算モデル５１の機械学習を実行する。演算モデル５１は、上記機械学習モデル４０と同様に、例えば、データテーブル、関数式等により表現されてよい。機械学習により、制御部１１は、算出される各統合パラメータＰの値が対象の環境下における所定の推論に適合するように訓練された学習済み演算モデル５２を構築（生成）する。第１の方法では、統合規則５は、当該機械学習により構築された学習済み演算モデル５２を更に備える。構築された学習済み演算モデル５２に関する情報は、統合規則データ５７の少なくとも一部として保存されてもよいし、統合規則データ５７とは別に保存されてもよい。

【0239】

上記ステップＳ２１１では、制御部１１は、当該情報を適宜参照することで、学習済み演算モデル５２の設定を行う。そして、制御部１１は、学習済み演算モデル５２に環境データ６３を与えて、学習済み演算モデル５２の演算処理を実行する。対象データ６１を更に考慮する場合には、制御部１１は、学習済み演算モデル５２に対象データ６１を更に与えて、学習済み演算モデル５２の演算処理を実行する。学習済み演算モデル５２の演算処理は、上記学習済み機械学習モデル４５の演算処理と同様であってよい。これにより、制御部１１は、学習済み演算モデル５２の出力として、各推論モデルに対する各統合パラメータＰの値を取得することができる。本実施形態では、各統合パラメータＰの値を取得した後、制御部１１は、ステップＳ２１２以降の処理を実行することで、各学習済み機械学習モデル４５の推論結果を統合する。

【0240】

（１－２）演算モデルの機械学習
次に、図１０Ｂを更に用いて、学習済み演算モデル５２の生成に関する推論装置１の動作例について説明する。図１０Ｂは、推論装置１による学習済み演算モデル５２の生成に関する処理手順の一例を示すフローチャートである。ただし、以下で説明する各処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する各処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0241】

（ステップＳ３０１及びステップＳ３０２）
ステップＳ３０１では、制御部１１は、学習データ取得部１１６として動作し、演算モデル５１の機械学習に利用する学習データ５９を取得する。ステップＳ３０２では、制御部１１は、学習処理部１１７として動作し、取得された学習データ５９を利用して、演算モデル５１の機械学習を実行する。

【0242】

ステップＳ３０２における機械学習は、算出される各統合パラメータＰの値が対象の環境下における所定の推論に適合するように演算モデル５１を訓練することにより構成される。この演算モデル５１の機械学習は、対象の環境に適合する所望の出力を得るように演算モデル５１の演算パラメータの値を調整することであってよい。すなわち、算出される各統合パラメータＰの値が対象の環境下における所定の推論に適合するように演算モデル５１を訓練することは、上記ステップＳ２１２及びステップＳ２１３の処理により、算出された各統合パラメータＰの値を用いて、各推論モデル（各機械学習モデル４５）の推論結果を統合した結果が対象の環境下における推論結果に適合するような各統合パラメータＰの値を環境データ（及び対象データ）から算出するように演算モデル５１の演算パラメータの値を調整することであってよい。この機械学習により、制御部１１は、環境データ（及び対象データ）から対象の環境下における所定の推論に適合する各統合パラメータＰの値を推定する能力を獲得した学習済み演算モデル５２を生成することができる。

【0243】

演算モデル５１の構成及び機械学習の方法はそれぞれ、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。学習済み演算モデル５２は、各統合パラメータＰの値を算出するために利用される。算出された各統合パラメータＰの値は、上記統合処理の際に、各推論モデルの推論結果を重み付けするのに利用される。推論装置１では、上記統合処理により、推論結果が生成される。一方、学習済み機械学習モデル４５は、対象データに対する推論結果を直接的に導出する。そのため、演算モデル５１（学習済み演算モデル５２）は、取り扱うデータ及び推論結果を得る過程の点で、上記機械学習モデル４０（学習済み機械学習モデル４５）と相違する。ただし、それら以外の点については、演算モデル５１の構成及び機械学習の方法は、上記機械学習モデル４０と同様であってよい。

【0244】

演算モデル５１は、例えば、データテーブル、関数式等により表現されてよい。演算モデル５１が関数式で表現される場合、演算モデル５１は、例えば、ニューラルネットワーク、線形関数、決定木等により構成されてよい。ニューラルネットワークの種類は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。演算モデル５１を構成するニューラルネットワークには、例えば、全結合型ニューラルネットワーク、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、これらの組み合わせ等が用いられてよい。以下、演算モデル５１の構成及び機械学習の方法それぞれの２つの例について説明する。

【0245】

Ｉ．第１の例
図１０Ｃは、演算モデル５１の構成及び機械学習の方法の第１の例を模式的に示す。第１の例では、上記機械学習モデル４０の第１の例と同様に、演算モデル５１にニューラルネットワーク、機械学習方法に教師あり学習を採用する。なお、図１０Ｃでは、説明の便宜上、学習データ５９、演算モデル５１、及び学習済み演算モデル５２それぞれの一例を、学習データ５９１、演算モデル５１１、及び学習済み演算モデル５２１と表記する。

【0246】

Ｉ－１．演算モデルの構成例
第１の例では、演算モデル５１１は、３層構造の全結合型ニューラルネットワークにより構成されている。具体的には、演算モデル５１１は、入力側から順に、入力層５１１１、中間（隠れ）層５１１２、及び出力層５１１３を備えている。ただし、演算モデル５１１の構成は、上記機械学習モデル４０１と同様に、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、演算モデル５１１の備える中間層の数は、２つ以上であってもよい。或いは、中間層５１１２は省略されてもよい。また、演算モデル５１１は、畳み込み層、プーリング層、再帰層等の他の種類の層を備えてもよい。その他の点については、演算モデル５１１は、上記機械学習モデル４０１と同様であってよい。演算モデル５１１は、各層５１１１～５１１３に含まれる各ニューロン間の結合の重み、各ニューロンの閾値等の演算パラメータを備える。

【0247】

Ｉ－２．学習データの構成例
この演算モデル５１１の教師あり学習に利用される学習データ５９１は、訓練用環境データ５９１１、訓練用対象データ５９１２、及び正解データ５９１３（教師信号）の組み合わせをそれぞれ含む複数の学習データセット５９１０により構成される。訓練用環境データ５９１１は、環境データ６３と同種のデータであり、訓練データ（入力データ）として利用される。訓練用対象データ５９１２は、対象データ６１と同種のデータである。対象データ６１を更に考慮する場合には、訓練用対象データ５９１２は、訓練用環境データ５９１１と共に、訓練データ（入力データ）として利用されてよい。正解データ５９１３は、対象の環境下において訓練用対象データ５９１２に対して所定の推論を実行した結果（正解）を示すデータである。正解データ５９１３は、ラベルと称されてもよい。

【0248】

訓練用環境データ５９１１の内容は、統合処理に考慮する環境の内容に応じて適宜選択されてよい。訓練用に取得される点を除き、訓練用環境データ５９１１は、上記環境データ６３と同様であってよい。訓練用対象データ５９１２及び正解データ５９１３の内容は、各推論モデル（学習済み機械学習モデル４５）に習得させた推論の内容に応じて適宜選択されてよい。訓練用に取得される点を除き、訓練用対象データ５９１２は、上記対象データ６１と同様であってよい。また、推論装置１が所定の推論を実行する対象の環境を考慮して取得される点を除き、訓練用対象データ５９１２及び正解データ５９１３は、上記訓練データ３１１及び正解データ３１２と同様であってよい。

【0249】

Ｉ－３．ステップＳ３０１について
上記ステップＳ３０１では、制御部１１は、複数の学習データセット５９１０により構成される学習データ５９１を取得する。各学習データセット５９１０を生成する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、対象の環境下において所定の推論を実行する様々な状況を実際に又は仮想的に作成することで、作成された様々な状況において環境データ６３と同種のデータを訓練用環境データ５９１１として取得してもよい。また、訓練用環境データ５９１１と共に、対象データ６１と同種のデータを訓練用対象データ５９１２として取得してもよい。そして、対象の環境下において、取得された訓練用対象データ５９１２に対して所定の推論を実行する。この場面では、所定の推論は、オペレータ等により手動的に行われてよい。そして、訓練用対象データ５９１２に対して所定の推論を実行した結果（正解）を訓練用環境データ５９１１及び訓練用対象データ５９１２に関連付ける。これにより、各学習データセット５９１０を生成することができる。

【0250】

Ｉ－４．ステップＳ３０２について
上記ステップＳ３０２では、制御部１１は、取得された学習データ５９１を利用して、演算モデル５１１の機械学習（教師あり学習）を実行する。第１の例では、制御部１１は、機械学習により、各学習データ５９１について、訓練用環境データ５９１１（及び訓練用対象データ５９１２）を入力層５１１１に入力することで、出力される各統合パラメータＰの値を用いて、訓練用対象データ５９１２に対する各推論モデル（学習済み機械学習モデル４５）の推論結果を統合した結果が正解データ５９１３に適合するような各統合パラメータＰの値を出力層５１１３から出力するように演算モデル５１１を訓練する。これにより、制御部１１は、対象の環境下における所定の推論に適合する各統合パラメータＰの値を環境データ（及び対象データ）から推定する能力を獲得した学習済み演算モデル５２１を生成する。

【0251】

教師あり学習の具体的な処理手順は、上記機械学習モデル４０１と同様であってよい。制御部１１は、まず、機械学習の処理対象となる演算モデル５１１を用意する。用意する演算モデル５１１の構造、及び各演算パラメータの初期値は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。また、再学習を行う場合には、制御部１１は、過去の教師あり学習により得られた学習結果データに基づいて、演算モデル５１１を用意してもよい。

【0252】

次に、制御部１１は、各学習データセット５９１０に含まれる訓練用環境データ５９１１を入力データとして利用し、正解データ５９１３を教師信号として利用し、演算モデル５１１を構成するニューラルネットワークの学習処理を実行する。この学習処理では、訓練用対象データ５９１２が更に入力データとして利用されてよい。基本的には、演算モデル５１１の学習処理は、上記機械学習モデル４０１と同様であってよい。

【0253】

第１のステップでは、制御部１１は、各学習データセット５９１０について、訓練用環境データ５９１１を演算モデル５１１の入力層５１１１に入力する。対象データ６１を更に考慮する場合には、制御部１１は、訓練用対象データ５９１２を演算モデル５１１の入力層５１１１に更に入力してもよい。続いて、制御部１１は、入力側から順に各層５１１１～５１１３に含まれる各ニューロンの発火判定を行う。この演算処理により、制御部１１は、訓練中の演算モデル５１１が、訓練用環境データ５９１１（及び訓練用対象データ５９１２）に応じて、各統合パラメータＰの値を算出した結果に対応する出力値を出力層５１１３から取得する。

【0254】

第２のステップでは、制御部１１は、対応する訓練用対象データ５９１２に対して、上記ステップＳ２０３の処理を実行する。すなわち、制御部１１は、対応する訓練用対象データ５９１２を各推論モデルに与えて、訓練用対象データ５９１２に対する所定の推論を各推論モデルに実行させる。これにより、制御部１１は、訓練用対象データ５９１２に対する各推論モデルの推論結果を取得する。本実施形態では、制御部１１は、訓練用対象データ５９１２に対する各学習済み機械学習モデル４５の推論結果を取得する。

【0255】

次に、制御部１１は、第１のステップで得られた各統合パラメータＰの値を利用して、得られた各学習済み機械学習モデル４５の推論結果に対して上記ステップＳ２０４の処理を実行する。すなわち、制御部１１は、第１のステップで得られた各統合パラメータＰの値を使用して、各学習済み機械学習モデル４５の推論結果を重み付けする。そして、制御部１１は、各学習済み機械学習モデル４５の重み付けされた推論結果を統合する。これにより、制御部１１は、対象の環境下における推論結果を生成する。そして、制御部１１は、生成された推論結果と正解データ５９１３との誤差を算出する。誤差の算出には、損失関数が適宜用いられてよい。

【0256】

第３のステップでは、制御部１１は、誤差逆伝播法により、算出された誤差の勾配を演算モデル５１１に逆伝播させることで、各ニューロン間の結合の重み、各ニューロンの閾値等の演算モデル５１１の各演算パラメータの値の誤差を算出する。第４のステップでは、制御部１１は、算出された各誤差に基づいて、演算モデル５１１の各演算パラメータの値の更新を行う。演算パラメータの値を更新する程度は、学習率により調節されてよい。

【0257】

制御部１１は、上記第１～第４のステップを繰り返すことで、各学習データセット５９１０について、訓練用環境データ５９１１（及び訓練用対象データ５９１２）を入力層５１１１に入力することで、出力される各統合パラメータＰの値を用いて、訓練用対象データ５９１２に対する各推論モデル（学習済み機械学習モデル４５）の推論結果を統合した結果が正解データ５９１３に適合するような各統合パラメータＰの値を出力層５１１３から出力するように、演算モデル５１１の各演算パラメータの値を調整する。例えば、制御部１１は、各学習データセット５９１０について、生成される推論結果の誤差の和が閾値以下になるまで、上記第１～第４のステップを繰り返してもよい。或いは、制御部１１は、上記第１～第４のステップを所定回数繰り返し実行してもよい。これにより、制御部１１は、対象の環境下における所定の推論に適合する各統合パラメータＰの値を環境データ（及び対象データ）から推定する能力を獲得した学習済み演算モデル５２１を生成することができる。

【0258】

Ｉ－５．その他
なお、機械学習の方法に教師あり学習を採用する場合に、演算モデル５１１の構成は、ニューラルネットワークに限られなくてもよく、ニューラルネットワーク以外のモデルを演算モデル５１１として採用してもよい。演算モデル５１１は、例えば、回帰モデル、サポートベクタマシン、決定木等により構成されてよい。教師あり学習の方法は、上記のような例に限定されなくてもよく、演算モデル５１１の構成に応じて適宜選択されてよい。

【0259】

ＩＩ．第２の例
図１０Ｄは、演算モデル５１の構成及び機械学習の方法の第３の例を模式的に示す。第２の例では、上記機械学習モデル４０の第３の例と同様に、機械学習方法に強化学習を採用する。なお、図１０Ｄでは、説明の便宜上、学習データ５９、演算モデル５１、及び学習済み演算モデル５２それぞれの一例を、学習データ５９２、演算モデル５１２、及び学習済み演算モデル５２２と表記する。

【0260】

ＩＩ－１．演算モデルの構成例
演算モデル５１２は、上記機械学習モデル４０３と同様に構成されてよい。すなわち、演算モデル５１２には、価値ベース、方策ベース、及びその両方が採用されてよい。各関数は、例えば、データテーブル、関数式等により表現されてよい。関数式により表現する場合、各関数は、ニューラルネットワーク、線形関数、決定木等により構成されてよい。

【0261】

ＩＩ－２．学習データの構成例
取り扱うデータ及び対象の環境下における推論結果を導出する過程が相違する点を除き、演算モデル５１２の強化学習の方法は、上記機械学習モデル４０３と同様であってよい。学習の環境は、手動的に又は自動的に適宜作成されてよい。演算モデル５１２の強化学習では、エージェントの観測する状態は、環境データ６３及び対象データ６１に対応する。

【0262】

エージェントは、演算モデル５１２を利用して、観測された現在の状態（入力データ）から各統合パラメータＰの値を算出する。また、エージェントは、上記ステップＳ２０３と同様に、観測された現在の状態に含まれる対象データを各推論モデルに与えて、対象データに対する所定の推論を各推論モデルに実行させる。これにより、エージェントは、対象データに対する各推論モデルの推論結果を取得する。本実施形態では、エージェントは、対象データに対する各学習済み機械学習モデル４５の推論結果を取得する。次に、エージェントは、演算モデル５１２により得られた各統合パラメータＰの値を使用して、各学習済み機械学習モデル４５の推論結果を重み付けする。そして、エージェントは、各学習済み機械学習モデル４５の重み付けされた推論結果を統合する。これにより、エージェントは、対象の環境下における推論結果を生成する。

【0263】

エージェントは、生成された推論結果に基づいて採用する行動を決定する。或いは、採用する行動は、ランダムに決定されてもよい。決定された行動を実行すると、観測される状態は次の状態に遷移する。場合によって、エージェントは、学習の環境から即時報酬を得ることができる。この行動の決定及び実行の試行錯誤を繰り返しながら、エージェントは、即時報酬の総和を最大化するように、演算モデル５１２を更新する。これにより、最適な行動が強化され、そのような行動の選択を可能にする各統合パラメータＰの値を算出する方策（学習済み演算モデル５２２）を得ることができる。

【0264】

したがって、第２の例では、学習データ５９２は、この試行錯誤により得られる状態遷移データであって、実行された行動により現在の状態から次の状態に遷移し、場合によって即時報酬が得られるという状態遷移を示す状態遷移データにより構成される。上記ローカル学習データ３０３と同様に、１件の状態遷移データは、１エピソード全ての状態遷移の軌跡を示すデータにより構成されてもよいし、或いは、所定回数（１回以上）分の状態遷移を示すデータにより構成されてもよい。

【0265】

なお、上記機械学習モデル４０３の強化学習と同様に、演算モデル５１２の強化学習において、即時報酬を算出するための報酬関数が用いられてよい。報酬関数は、データテーブル、関数式、又はルールにより表現されてよい。関数式により表現する場合、報酬関数は、ニューラルネットワーク、線形関数、決定木等により構成されてよい。報酬関数は、上記一連の処理で実行される所定の推論の内容に応じて、オペレータ等により、手動的に設定されてもよい。

【0266】

或いは、報酬関数は、上記一連の処理で生成される推論結果の適正度に応じて即時報酬を与えるように設定されてもよい。推論結果の適正度は、５段階、１０段階等のように所定数のグレードで表現されてもよい。或いは、推論結果の適正度は、連続値により表現されてもよい。また、推論結果の適正度は、オペレータ等により手動的に与えられてもよい。若しくは、推論結果の適正度は、判定器４９を用いて所定の基準に従って評価されてよい。所定の基準は、上記機械学習モデル４０３と同様であってよい。また、判定器４９は、上記機械学習モデル４０３の強化学習における判定器４８と同様であってよい。

【0267】

或いは、報酬関数は、エキスパートにより得られた事例データから逆強化学習により推定されてよい。事例データの内容、事例データを生成する方法、及び逆強化学習の方法はそれぞれ、特に限定されなくてもよく、上記機械学習モデル４０３の強化学習における報酬関数の設定に利用される事例データと同様であってよい。逆強化学習により報酬関数を得る場合、学習データ５９２は、逆強化学習に利用する事例データを更に備えてよい。

【0268】

ＩＩ－３．ステップＳ３０１及びステップＳ３０２
上記ステップＳ３０１では、制御部１１は、訓練中の演算モデル５１２を利用して、上記試行錯誤を実行することで、上記状態遷移データを取得してもよい。或いは、状態遷移データは、他のコンピュータにより生成されてもよい。この場合、上記ステップＳ３０１では、制御部１１は、ネットワーク、記憶媒体９１等を介して、他のコンピュータにより生成された状態遷移データを取得してもよい。

【0269】

上記ステップＳ３０２では、制御部１１は、得られた状態遷移データに基づいて、価値を最大化するように演算モデル５１２の演算パラメータの値を更新する。演算モデル５１２の演算パラメータの値を調整する方法は、演算モデル５１２の構成に応じて適宜選択されてよい。例えば、演算モデル５１２がニューラルネットワークにより構成される場合、演算モデル５１２の演算パラメータの値は、誤差逆伝播法等により、上記第１の例と同様の方法で調整されてよい。

【0270】

制御部１１は、ステップＳ３０１及びステップＳ３０２の処理を繰り返し、得られる価値（の期待値）が最大化されるように（例えば、更新量が閾値以下になるまで）、演算モデル５１２の演算パラメータの値を調整する。すなわち、演算モデル５１２を訓練することは、所定の条件を満たすまで報酬が多く得られるように演算モデル５１２を構成する演算パラメータの値の修正を繰り返すことを含む。これにより、制御部１１は、対象の環境下における所定の推論に適合する各統合パラメータＰの値を環境データ（及び対象データ）から推定する能力を獲得した学習済み演算モデル５２２を生成することができる。なお、強化学習の方法は、上記機械学習モデル４０３と同様であってよい。

【0271】

更に、逆強化学習を実施する場合には、上記強化学習の処理を実行する前に、制御部１１は、上記ステップＳ３０１において、事例データを更に取得する。事例データは、推論装置１により生成されてもよいし、他のコンピュータにより生成されてもよい。他のコンピュータにより生成される場合、制御部１１は、ネットワーク、記憶媒体９１等を介して、他のコンピュータにより生成された事例データを取得してもよい。次に、制御部１１は、取得された事例データを利用して、逆強化学習を実行することで、報酬関数を設定する。そして、制御部１１は、逆強化学習により設定された報酬関数を利用して、上記強化学習の処理を実行する。これにより、制御部１１は、逆強化学習により設定された報酬関数を利用して、対象の環境下における所定の推論に適合する各統合パラメータＰの値を環境データ（及び対象データ）から推定する能力を獲得した学習済み演算モデル５２２を生成することができる。

【0272】

ＩＩＩ．小括
本実施形態では、演算モデル５１の構成には、上記２つの構成の少なくともいずれかが採用されてよい。制御部１１は、上記２つの機械学習の方法の少なくともいずれかを採用することで、学習済み演算モデル５２を生成することができる。演算モデル５１の機械学習が完了し、学習済み演算モデル５２を生成すると、制御部１１は、次のステップＳ３０３に処理を進める。

【0273】

（ステップＳ３０３）
図１０Ｂに戻り、ステップＳ３０３では、制御部１１は、保存処理部１１８として動作し、演算モデル５１の機械学習の結果、すなわち、学習済み演算モデル５２に関する情報を生成する。図１０Ｃ及び図１０Ｄの例では、制御部１１は、学習済み演算モデル（５２１、５２２）に関する情報を生成する。制御部１１は、生成された学習済み演算モデル５２に関する情報を所定の記憶領域に保存する。

【0274】

所定の記憶領域は、例えば、制御部１１内のＲＡＭ、記憶部１２、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。記憶メディアは、例えば、ＣＤ、ＤＶＤ等であってよく、制御部１１は、ドライブ１７を介して記憶メディアに学習済み演算モデル５２に関する情報を格納してもよい。外部記憶装置は、例えば、ＮＡＳ等のデータサーバであってよい。この場合、制御部１１は、通信インタフェース１３を利用して、ネットワークを介してデータサーバに学習済み演算モデル５２に関する情報を格納してもよい。また、外部記憶装置は、例えば、推論装置１に接続される外付けの記憶装置であってもよい。

【0275】

生成された学習済み演算モデル５２に関する情報は、統合規則データ５７の少なくとも一部として保存されてもよいし、統合規則データ５７とは別に保存されてもよい。これにより、学習済み演算モデル５２に関する情報の保存が完了すると、制御部１１は、学習済み演算モデル５２の生成に関する一連の情報処理を終了する。

【0276】

なお、制御部１１は、上記ステップＳ３０１～ステップＳ３０３の処理を定期的に繰り返すことで、学習済み演算モデル５２を定期的に更新又は新たに生成してもよい。この繰り返す際には、学習データ５９に含まれるデータの変更、修正、追加、削除等が適宜実行されてよい。そして、制御部１１は、更新した又は新たに生成した学習済み演算モデル５２を以降の推論処理に利用してもよい。

【0277】

第１の方法では、機械学習により、算出される各統合パラメータＰの値が対象の環境下における所定の推論に適合するように訓練された学習済み演算モデル５２が構築される。
そのため、構築された学習済み演算モデル５２により算出される各統合パラメータＰの値を使用することで、各学習済み機械学習モデル４５の推論結果を対象の環境に適合するように適切に統合することができる。したがって、第１の方法によれば、対象の環境下で所定の推論を更に適切に実行することができるようになる。

【0278】

なお、機械学習モデル４０（学習済み機械学習モデル４５）のパラメータ数は、対象データ（６１、２２５）の次元数及び推論結果の表現形式に依存する。そのため、対象データ（６１、２２５）及び推論内容の少なくとも一方が複雑になればなるほど、機械学習モデル４０のパラメータ数は大きく増加する。これに対して、演算モデル５１（学習済み演算モデル５２）のパラメータ数は、環境データ６３の次元数及び対象の環境下で所定の推論に利用する学習済み機械学習モデル４５の数に依存する。演算モデル５１の情報処理は各統合パラメータＰの値を決定することに過ぎないため、対象データ（６１、２２５）及び推論内容が複雑になっても、演算モデル５１のパラメータ数の増加は抑えることができる。

【0279】

例えば、対象の環境として明るさを考慮して、カメラの最適な観測方法を当該カメラにより得られる画像データから推定する場面を想定する。この場合、対象データ（６１、２２５）は、画像データである。機械学習モデル４０のパラメータ数は、画像データの画素数及びカメラの取り得る状態数に依存し、千を超えるオーダーと成り得る。一方、演算モデル５１のパラメータ数は、明るさの次元数及び学習済み機械学習モデル４５の数に依存するが、最適な観測方法の推定に数十の学習済み機械学習モデル４５を利用するとしても、多くて数十～数百程度のオーダーである。

【0280】

したがって、一般的には、統合パラメータＰの値を決定する演算モデル５１のパラメータ数は、所定の推論を直接的に実行する機械学習モデル４０のパラメータ数よりも少なくて済む。例えば、演算モデル５１及び機械学習モデル４０それぞれにニューラルネットワークを採用し、機械学習の方法として教師あり学習を採用する場合、演算モデル５１のニューラルネットワークの規模は、機械学習モデル４０のニューラルネットワークよりも小さくてよい。また、例えば、機械学習の方法として強化学習を採用する場合には、機械学習モデル４０を訓練する場面より、演算モデル５１を訓練する場面の方が、学習の環境を規定するパラメータの数が少なくて済む。機械学習のコストはパラメータ数に依存するため、機械学習により学習済み演算モデル５２を構築するコストは、対象の環境に適合する新たな学習済み機械学習モデル４５を構築するコストよりも低く抑えることができる。よって、第１の方法によれば、新たな環境で所定の推論を適切に実行可能な推論モデルを構築するのにかかるコストを抑えたまま、所定の推論の精度の向上を図ることができる。

【0281】

（２）第２の方法
図１１Ａは、第２の方法により各統合パラメータＰの値を決定する場面の一例を模式的に例示する。第２の方法では、制御部１１は、所定の推論を実行する対象の環境と各推論モデルの導出に利用されたローカル学習データ３０の得られた学習環境との比較に基づいて、各統合パラメータＰの値を決定する。具体的には、制御部１１は、環境データ６３と各件の学習環境データ３５との適合度を算出し、算出された適合度に応じて、対応する各推論モデルに対する統合パラメータＰの値を決定する。

【0282】

図１１Ｂは、第２の方法により各統合パラメータＰの値を決定するサブルーチンの処理手順の一例を示すフローチャートである。第２の方法を採用する場合、上記ステップＳ２１１は、以下のステップＳ３１１～ステップＳ３１３の処理を含む。ただし、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0283】

ステップＳ３１１では、制御部１１は、各推論モデルの導出に利用されたローカル学習データ３０の得られた環境に関する学習環境データ３５を取得する。上記のとおり、本実施形態では、各学習済み機械学習モデル４５の学習環境データ３５は、各ローカル学習装置２から推論装置１に任意のタイミングで提供されてよい。制御部１１は、各件の学習環境データ３５を適宜取得してよい。各件の学習環境データ３５を取得すると、制御部１１は、次のステップＳ３１２に処理を進める。

【0284】

ステップＳ３１２では、制御部１１は、各件の学習環境データ３５及び環境データ６３の適合度を算出する。算出された適合度により対象の環境と学習環境とが類似しているか否かを評価可能であれば、適合度の形式は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、制御部１１は、学習環境データ３５及び環境データ６３の一致度を適合度として算出してもよい。また、例えば、制御部１１は、学習環境データ３５及び環境データ６３の間の距離（ノルム）を算出し、算出された距離に応じて適合度を算出してもよい。この場合、制御部１１は、算出された距離が大きいほど適合度を小さな値に算出し、算出された距離が小さいほど適合度を大きな値に算出してもよい。距離と適合度との間の対応関係は、データテーブル、関数式、又はルール等により表現されてよい。この対応関係は、オペレータ等により手動的に設定されてよいし、或いは、例えば、フィッティング等の公知の方法により自動的に導出されてもよい。若しくは、制御部１１は、算出された距離の逆数を適合度として算出してもよい。適合度は、所定数のグレードで表現されてもよいし、或いは、連続値により表現されてもよい。各適合度を算出すると、制御部１１は、次のステップＳ３１３に処理を進める。

【0285】

ステップＳ３１３では、制御部１１は、算出された各適合度に応じて、対応する各推論モデルに対する各統合パラメータＰの値を決定する。対象の環境に類似する学習環境から得られたローカル学習データ３０から導出された推論モデルの推論結果は、当該対象の環境でも信頼性が高いと想定される。反対に、対象の環境と大きく相違する学習環境から得られたローカル学習データ３０から導出された推論モデルの推論結果は、当該対象の環境においては信頼性が低いと想定される。そのため、制御部１１は、適合度が大きいほど統合パラメータＰの値を大きな値に算出し、適合度が小さいほど統合パラメータＰの値を小さな値に算出してもよい。適合度と統合パラメータＰの値との対応関係は、データテーブル、関数式、又はルール等により表現されてよい。この対応関係は、オペレータ等により手動的に設定されてよいし、或いは、例えば、フィッティング等の公知の方法により自動的に導出されてもよい。若しくは、制御部１１は、算出された各適合度をそのまま各統合パラメータＰの値として採用してもよい。

【0286】

これにより、制御部１１は、算出された適合度に応じて、各推論モデルに対する各統合パラメータＰの値を決定することができる。制御部１１は、各統合パラメータＰの値を決定した結果を示す情報を、統合規則データ５７の少なくとも一部として保存してもよいし、統合規則データ５７とは別に保存してもよい。各統合パラメータＰの値を決定すると、制御部１１は、ステップＳ２１１に関するサブルーチンの処理を終了する。本実施形態では、各統合パラメータＰの値を決定した後、制御部１１は、ステップＳ２１２以降の処理を実行することで、各学習済み機械学習モデル４５の推論結果を統合する。

【0287】

第１の方法とは異なり、第２の方法では、学習済み演算モデル５２を生成する手間を省略することができる。また、対象の環境と学習環境との比較という簡易な処理により、各統合パラメータＰの値を適切に決定することができる。そのため、第２の方法によれば、簡易な方法により、新たな環境で所定の推論を適切に実行可能な推論モデルを構築するのにかかるコストを低減することができる。

【0288】

（３）第３の方法
図１２Ａは、第３の方法により各統合パラメータＰの値を決定する場面の一例を模式的に例示する。第３の方法では、制御部１１は、入力装置１５を介したオペレータによる統合パラメータＰの値の指定を受け付けて、対象の統合パラメータＰの値を指定された値に設定する。図１２Ａは、この統合パラメータＰの値の指定を受け付けるための受付画面の一例を模式的に例示する。

【0289】

図１２Ｂは、第３の方法により統合パラメータＰの値を設定するサブルーチンの処理手順の一例を示すフローチャートである。制御部１１は、パラメータ設定部１１９として動作し、以下のステップＳ３２１～ステップＳ３２３の処理を実行する。ただし、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0290】

ステップＳ３２１では、制御部１１は、推論モデルに対する統合パラメータＰの値の入力を受け付けるための受付画面を出力する。ステップＳ３２２では、制御部１１は、受付画面を介して、複数の統合パラメータＰのうちの少なくとも１つの統合パラメータＰの値の指定を受け付ける。

【0291】

本実施形態では、制御部１１は、図１２Ａに例示される受付画面を出力装置１６に出力する。受付画面の出力先は、出力装置１６に限定されなくてもよい。受付画面は、例えば、他のコンピュータの出力装置に出力されてよい。図１２Ａに例示される受付画面は、表示欄１６１、選択欄１６２、入力欄１６３、及び決定ボタン１６５を備えている。

【0292】

表示欄１６１には、各推論モデルの情報が表示される。例えば、表示欄１６１には、学習環境データ３５の内容が表示されてもよい。また、例えば、上記適合度が算出されている場合、表示欄１６１には、算出された適合度が表示されてもよい。選択欄１６２では、推論処理に使用するか否かの選択が受け付けられる。本実施形態では、制御部１１は、選択欄１６２の選択に応じて、推論処理に使用する学習済み機械学習モデル４５を決定する。

【0293】

入力欄１６３では、対象の推論モデルに対する統合パラメータＰの値の指定が受け付けられる。オペレータは、入力装置１５を操作して、対象の推論モデルの入力欄１６３に所望の値を入力することにより、対応する統合パラメータＰの値を指定することができる。統合パラメータＰの値は、所定数のグレードから指定されてもよいし、連続値により指定されてもよい。なお、入力欄１６３に無効値（例えば、０）を入力することで、対象の推論モデルを使用しないことが指定されてよい。この場合に、選択欄１６２は省略されてよい。

【0294】

決定ボタン１６５は、統合パラメータＰの値の指定を終了するために利用される。統合パラメータＰの値の指定が完了した後、オペレータは、入力装置１５を操作して、決定ボタン１６５を操作する。制御部１１は、この決定ボタン１６５の操作に応じて、ステップＳ３２２の処理を終了し、次のステップＳ３２３に処理を進める。

【0295】

ステップＳ３２３では、制御部１１は、対象の統合パラメータＰの値を指定された値に設定する。制御部１１は、指定された設定内容に関する情報を、統合規則データ５７の少なくとも一部として保存してもよいし、統合規則データ５７とは別に保存してもよい。対象の統合パラメータＰの値の設定が完了すると、制御部１１は、統合パラメータＰの値の設定に関するサブルーチンの処理を終了する。本実施形態では、統合パラメータＰの値を設定した後、制御部１１は、ステップＳ２１２以降の処理を実行することで、各学習済み機械学習モデル４５の推論結果を統合する。上記ステップＳ２１２では、制御部１１は、上記により設定された値を使用して、対象の統合パラメータＰに対応する学習済み機械学習モデル４５の推論結果を重み付けする。

【0296】

第３の方法によれば、各学習済み機械学習モデル４５の推論結果に適用する各統合パラメータＰの値の少なくとも一部をオペレータの指定により決定することができる。そのため、対象の環境下で実行される所定の推論にオペレータの意図（例えば、特定の学習済み機械学習モデル４５の推論結果を重視する）を反映することができる。

【0297】

（４）小括
本実施形態では、制御部１１は、上記３つの方法の少なくともいずれかを採用することで、ステップＳ２１１において、各統合パラメータＰの値を決定することができる。上記３つの方法は、適宜採用されてよい。例えば、制御部１１は、第１の方法又は第２の方法で、各統合パラメータＰの値を決定した後、第３の方法により、複数の統合パラメータＰのうちの少なくともいずれかの値を修正してもよい。

【0298】

＜推論モデルのグルーピング＞
次に、図１３Ａを用いて、各推論モデルのグルーピングについて説明する。図１３Ａは、各推論モデルをグルーピングする場面の一例を模式的に例示する。本実施形態では、推論モデルの一例である学習済み機械学習モデル４５は、個々のローカル学習装置２により生成される。そのため、複数の学習済み機械学習モデル４５のうちの一の学習済み機械学習モデル４５と他の学習済み機械学習モデル４５とが、全く異なる目的により、異なる推論を実施するために生成される可能性がある。この場合、一の学習済み機械学習モデル４５の推論結果と他の学習済み機械学習モデル４５の推論結果とを統合するのは困難である。

【0299】

そこで、本実施形態では、制御部１１は、グルーピング部１１１０として動作し、各推論モデル（本実施形態では、各学習済み機械学習モデル４５）を複数のグループのうちの少なくともいずれかに割り当ててもよい。各グループは、推論の種類、目的、対象の環境等に応じて適宜設定されてよい。図１３Ａは、グループＡ及びグループＢの２つのグループに各学習済み機械学習モデル４５を割り当てる場面の一例を模式的に例示する。制御部１１は、この各学習済み機械学習モデル４５に対するグループの割り当て結果を割当情報１２５に格納する。割当情報１２５は、例えば、所定の記憶領域に保存されてよい。所定の記憶領域は、制御部１１内のＲＡＭ、記憶部１２、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。

【0300】

これに応じて、統合規則５はグループ毎に用意される。上記ステップＳ２０３では、制御部１１は、設定された複数のグループのうち対象の環境で利用するグループを特定し、特定されたグループに属する学習済み機械学習モデル４５について、上記推論結果を取得する処理を実行してもよい。そして、上記ステップＳ２０４では、制御部１１は、対応する統合規則５に従って、特定されたグループに属する学習済み機械学習モデル４５の推論結果を統合してもよい。これにより、目的に応じてグループ毎に統合処理を実行することができる。

【0301】

なお、グルーピングの方法は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。本実施形態では、制御部１１は、以下の２つの方法のうちのいずれかの方法により、各推論モデルを複数のグループのうちの少なくともいずれかに割り当てることができる。

【0302】

（１）第１のグルーピング方法
まず、図１３Ｂを用いて、第１のグルーピング方法の一例について説明する。図１３Ｂは、第１のグルーピング方法による各推論モデルに対するグループの割り当てに関する処理手順のいちれいを示すフローチャートである。第１のグルーピング方法では、制御部１１は、グループのリストから所望のグループを選択することで、各推論モデルを複数のグループのうちの少なくともいずれかに割り当てる。

【0303】

なお、各推論モデルをグループに割り当てる方法として第１のグルーピング方法が採用された場合、各推論モデルを複数のグループのうちの少なくともいずれかに割り当てることは、以下のステップＳ４１１及びステップＳ４１２の処理により構成される。ただし、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0304】

ステップＳ４１１では、制御部１１は、複数のグループを示すリストから、各推論モデルに対して割り当てる１つ以上のグループの選択を受け付ける。例えば、制御部１１は、複数のグループを示すリストを出力装置１６に出力してもよい。これに応じて、オペレータは、入力装置１５を操作して、各推論モデルに対して割り当てる１つ以上のグループをリストの中から選択してもよい。これにより、複数のグループを示すリストから、各推論モデルに対して割り当てる１つ以上のグループの選択を受け付けることができる。

【0305】

なお、グループの選択は、推論装置１で実施されなくてもよい。例えば、グループの選択は、各ローカル学習装置２により実施されてもよい。具体例として、制御部１１は、複数のグループを示すリストを各ローカル学習装置２に配信してもよい。これにより、制御部１１は、各ローカル学習装置２に対して、リストに示される複数のグループの中から１つ以上のグループを選択させてよい。

【0306】

また、リストに含まれる各グループは、ローカル学習データ３０、ローカル学習装置２、ローカル学習装置２の利用者等の属性に応じて設定されてよい。例えば、センサの最適な観測方法を推定するケースで、工場の製造ラインの状態を監視するためにセンサが利用されている場面を想定する。この場合、ライン番号、工場名、企業名等の属性に応じてグループが設定されていてもよい。オペレータの操作又は各ローカル学習装置２からの要求により、新たなグループがリストに追加されてよい。

【0307】

ステップＳ４１２では、制御部１１は、ステップＳ４１１の回答に基づいて、選択された１つ以上のグループに各推論モデルを割り当てる。１つ以上のグループの割り当てが完了すると、制御部１１は、第１のグルーピング方法によるグループの割り当てに関する一連の処理を終了する。この第１のグルーピング方法によれば、制御部１１は、簡易な方法により各推論モデルをグループ分けすることができる。

【0308】

（２）第２のグルーピング方法
次に、図１３Ｃを用いて、第２のグルーピング方法の一例について説明する。図１３Ｃは、第２のグルーピング方法による各推論モデルに対するグループの割り当てに関する処理手順の一例を示すフローチャートである。第２のグルーピング方法では、制御部１１は、ローカル学習データ３０の属性に応じて、各推論モデルを適切なグループに割り当てる。

【0309】

なお、各推論モデルをグループに割り当てる方法として第２のグルーピング方法が採用された場合、各推論モデルを複数のグループのうちの少なくともいずれかに割り当てることは、以下のステップＳ４２１～ステップＳ４２３の処理により構成される。ただし、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0310】

（ステップＳ４２１）
ステップＳ４２１では、制御部１１は、ローカル学習データ３０に関する属性データを各ローカル学習装置２から取得する。属性データを取得する方法は、上記学習環境データ３５を取得する方法と同様であってよい。制御部１１は、各ローカル学習装置２から属性データを適宜取得してよい。

【0311】

属性データは、ローカル学習データ３０に関するあらゆる情報を含んでもよい。属性データは、例えば、ローカル学習データ３０に含まれるデータの種別を示す情報、データに表れる特徴を示す情報、データの利用目的を示す情報等を含んでもよい。また、属性データは、学習環境データ３５を含んでもよい。属性データは、上記ステップＳ１０１によりローカル学習データ３０を取得する際、及びステップＳ１０３により学習環境データ３５を取得する際の少なくともいずれかで生成されてよい。属性データを取得すると、制御部１１は、次のステップＳ４２２に処理を進める。

【0312】

（ステップＳ４２２及びステップＳ４２３）
ステップＳ４２２では、制御部１１は、各ローカル学習装置２から取得された属性データをクラスタリングする。クラスタリングの方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。クラスタリングには、k平均法（k-meansクラスタリング）等の公知の方法が採用されてよい。

【0313】

ステップＳ４２３では、制御部１１は、クラスタリングの結果に基づいて、各推論モデルを複数のグループのうちの少なくともいずれかに割り当てる。一例として、制御部１１は、取得した属性データが同一のクラスに割り当てられた推論モデルを同一のグループに割り当てる。この場合、各グループは、属性データのクラスに応じて設定されてよい。また、制御部１１は、クラスタリングの結果に基づいて、各推論モデルを２つ以上のグループに割り当ててもよい。

【0314】

クラスタリングの結果に基づくグループの割り当てが完了すると、制御部１１は、第２のグルーピング方法によるグループの割り当てに関する一連の処理を終了する。この第２のグルーピング方法によれば、制御部１１は、ローカル学習データ３０の属性に応じて、各推論モデルを適切なグループに割り当てることができる。

【0315】

以上の２つの方法の少なくともいずれかの方法を採用することで、制御部１１は、各推論モデルを適切にグループ分けすることができる。ただし、グルーピングの方法は、これらの例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。

【0316】

［特徴］
以上のとおり、本実施形態に係る推論装置１は、対象の環境下で所定の推論を実行するために、新たな推論モデルを構築するのではなく、上記ステップＳ２０３及びステップＳ２０４の処理では、既に構築された複数の学習済み機械学習モデル４５を活用する。上記ステップＳ２１１～ステップＳ２１３の統合処理では、本実施形態に係る推論装置１は、環境データ６３に示される対象の環境に応じて、各学習済み機械学習モデル４５の推論を重視する程度を調整する。これにより、本実施形態に係る推論装置１は、様々な環境で得られた所定の推論に関する知見を新たな環境に適合するようにカスタマイズすることができる。その結果、カスタマイズされた知見、換言すると、各学習済み機械学習モデル４５の重み付けされた推論結果を統合した結果に基づいて、対象の環境下で所定の推論を適切に実行することができる。

【0317】

したがって、本実施形態によれば、異なる環境下で得られたローカル学習データ３０からそれぞれ導出された複数の学習済み機械学習モデル４５を活用することで、対象の環境下で所定の推論を適切に実行可能な新たな推論モデルを構築することができる。そのため、対象の環境下で新たな学習データを収集し、収集された新たな学習データから新たな推論モデルを導出する、特に、新たな学習済み機械学習モデルを生成する作業の手間を省略することができる。よって、本実施形態によれば、新たな環境で所定の推論を適切に実行可能な推論モデルを構築するのにかかるコストを低減することができる。

【0318】

§４変形例
以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良又は変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。

【0319】

＜４．１＞
上記実施形態に係る推論装置１及び各ローカル学習装置２は、推論モデルにより何らかの推論を実行するあらゆる場面に適用されてよい。何らかの推論を実行する場面とは、例えば、センサの最適な観測方法を推定する場面、移動体の移動する経路を予測する場面、ユーザに適合する会話戦略を推定する場面、タスクに適合するロボット装置の動作指令を推定する場面等である。以下、適用場面を限定した４つの変形例を例示する。

【0320】

（Ａ）センサの最適な観測方法を推定する場面
図１４は、第１変形例に係る検査システム１００Ａの適用場面の一例を模式的に例示する。本変形例は、センサの最適な観測方法を推測する場面に上記実施形態を適用した例である。図１４に示されるとおり、本変形例に係る検査システム１００Ａは、検査装置１Ａ及び複数のローカル学習装置２Ａを備えている。上記実施形態と同様に、検査装置１Ａ及び各ローカル学習装置２Ａは、ネットワークを介して互いに接続されてよい。

【0321】

検査装置１Ａは、上記推論装置１に対応する。各ローカル学習装置２Ａは、上記各ローカル学習装置２に対応する。取り扱うデータ及び推論の内容が限定されている点を除き、検査装置１Ａは、上記推論装置１と同様に構成されてよく、各ローカル学習装置２Ａは、上記各ローカル学習装置２と同様に構成されてよい。検査装置１Ａのハードウェア構成及びソフトウェア構成は、上記推論装置１と同様であってよい。各ローカル学習装置２Ａのハードウェア構成及びソフトウェア構成は、上記各ローカル学習装置２と同様であってよい。

【0322】

本変形例では、検査装置１Ａ及び各ローカル学習装置２Ａには、センサＳＡ１が接続されている。本変形例に係る所定の推論は、センサＳＡ１により対象物ＲＡの属性を観測する現在の観測状態から、所定の条件に適合した観測データをセンサＳＡ１により得るための適正な観測状態への変更方法を推定することである。センサＳＡ１は、例えば、カメラ、マイクロフォン、バイタルセンサ等であってよい。カメラは、例えば、ＲＧＢ画像を取得するよう構成された一般的なデジタルカメラ、深度画像を取得するように構成された深度カメラ、赤外線量を画像化するように構成された赤外線カメラ等であってよい。対象物ＲＡは、例えば、製品、植物、人物等であってよい。

【0323】

所定の条件は、センサＳＡ１の観測目的に応じて適宜規定されてよい。例えば、対象物ＲＡの品質評価のためにセンサＳＡ１により観測データを得る場合を想定する。この場合、所定の条件は、センサＳＡ１により得られる観測データに対する品質評価に関する推論の性能に応じて規定されてよい。対象物ＲＡの品質評価は、例えば、製品の検査（例えば、欠陥検出）、植物（例えば、農作物）の生育状態の検査、人物の健康状態の検査等であってよい。具体例として、製品の検査の場合、所定の条件は、センサＳＡ１により得られた観測データに基づいて、欠陥検出が可能であるか否か、欠陥検出の精度が基準を満たすか否か等の、センサにより得られる観測データに対する目的の検査の性能に応じて規定されてよい。

【0324】

本変形例に係る各ローカル学習装置２Ａは、センサＳＡ１の適正な観測状態への変更方法を推定する能力を獲得した学習済み機械学習モデル４５Ａを生成する。これに対して、本変形例に係る検査装置１Ａは、各ローカル学習装置２Ａにより異なる環境下で得られたローカル学習データ３０Ａから導出された各学習済み機械学習モデル４５Ａを利用して、対象の環境下において対象のセンサＳＡ１の最適な観測方法を推定する。本変形例では、最適な観測方法を推定する対象のセンサＳＡ１は、検査装置１Ａに接続されたセンサＳＡ１である。ただし、対象のセンサＳＡ１は、これに限られなくてもよく、検査装置１Ａは、他のコンピュータに接続されたセンサＳＡ１の最適な観測方法を推定してもよい。

【0325】

本変形例に係る検査装置１Ａは、所定の推論の対象となる対象データ６１Ａ、及び所定の推論を実行する対象の環境に関する環境データ６３Ａを取得する。本変形例に係る所定の推論の対象となる対象データ６１Ａは、対象のセンサＳＡ１の現在の観測状態に関するものである。一方、本変形例に係る所定の推論を実行する対象の環境に関する環境データ６３Ａは、対象のセンサＳＡ１が対象物ＲＡの属性を観測する対象の観測環境に関するものである。

【0326】

本変形例では、検査装置１Ａは、他のセンサＳＡ２に更に接続されている。他のセンサＳＡ２は、最適な観測方法を推定する対象のセンサＳＡ１とは異なり、対象の観測環境を観測するのに利用される。そのため、検査装置１Ａは、他のセンサＳＡ２から環境データ６３Ａを取得することができる。対象の観測環境として、明るさ、温度、湿度等を考慮する場合、他のセンサＳＡ２は、例えば、カメラ、光度計、照度計、温度計、湿度計等であってよい。

【0327】

本変形例に係る検査装置１Ａは、取得された対象データ６１Ａを各学習済み機械学習モデル４５Ａに与えて、センサＳＡ１の適正な観測状態への変更方法を各学習済み機械学習モデル４５Ａに推定させる。これにより、本変形例に係る検査装置１Ａは、センサＳＡ１の適正な観測状態への変更方法ついての各学習済み機械学習モデル４５Ａの推定結果を取得する。そして、本変形例に係る検査装置１Ａは、統合規則５Ａに従って、各学習済み機械学習モデル４５Ａの推定結果を統合する。

【0328】

上記実施形態と同様に、統合規則５Ａは、対象の環境下において、各学習済み機械学習モデル４５Ａの推定結果を重視する程度をそれぞれ規定する複数の統合パラメータＰＡを備えている。本変形例に係る検査装置１Ａは、環境データ６３Ａに応じて、各統合パラメータＰＡの値を決定する。このとき、環境データ６３Ａの他に、対象データ６１Ａが更に考慮されてもよい。次に、本変形例に係る検査装置１Ａは、決定された各統合パラメータＰＡの値を使用して、対応する各学習済み機械学習モデル４５Ａの推定結果を重み付けする。そして、本変形例に係る検査装置１Ａは、各学習済み機械学習モデル４５Ａの重み付けされた推定結果を統合する。

【0329】

これにより、本変形例に係る検査装置１Ａは、対象の環境下において、対象のセンサＳＡ１の現在の観測状態から適正な観測状態への変更方法を推定した結果を生成することができる。適正な観測状態への変更方法を推定することは、当該変更方法を直接的に推定すること、及び適正な観測状態を推定し、推定された適正な観測状態と現在の観測状態との差分を算出することで、適正な観測状態に導くための変更方法を間接的に推定することを含んでよい。

【0330】

なお、図１４の各シンボルは、製品の画像検査の場面を模式的に例示している。対象物ＲＡは、製造ラインで製造される製品であってよく、センサＳＡ１は、カメラであってよい。センサＳＡ１により得られる観測データは、画像データであってよい。画像検査の場面で明るさを考慮する場合、他のセンサＳＡ２は、光度計又は照度計であってもよい。所定の条件は、対象物ＲＡ（製品）の属性（例えば、欠陥の有無、欠陥の種別）を検査するのに適するように対象物ＲＡが画像データに写ることに関するものであってよい。

【0331】

また、本変形例では、検査装置１Ａは、雲台装置ＩＮ１及び照明装置ＩＮ２に更に接続されている。センサＳ１は、雲台装置ＩＮ１に取り付けられている。雲台装置ＩＮ１は、台座部Ｉｎ１１、第１関節部Ｉｎ１２、及び第２関節部Ｉｎ１３を備えている。各関節部（Ｉｎ１２、Ｉｎ１３）は、サーボモータ等の駆動装置を備えてよい。第１関節部Ｉｎ１２は、台座部Ｉｎ１１に接続されており、先端側の部分を台座の軸周りに回転させる。第２関節部Ｉｎ１３は、第１関節部Ｉｎ１２に接続されており、先端側の部分を前後方向に回転させる。雲台装置ＩＮ１は、これらを備えていることで、コンピュータ制御によりセンサＳ１の向き及び配置を変更可能に構成されている。また、照明装置ＩＮ２は、コンピュータ制御により出力する光の量を調節することで、観測環境の明るさを変更可能に構成されてよい。

【0332】

雲台装置ＩＮ１及び照明装置ＩＮ２によれば、センサＳＡ１の観測状態のうち、センサＳＡ１の設置角度及び対象物ＲＡ周囲の明るさを変更させることができる。雲台装置ＩＮ１及び照明装置ＩＮ２はそれぞれ、本発明の「介入装置」の一例である。ただし、介入装置は、対象のセンサＳＡ１の観測状態に介入することで、観測状態を変更可能に構成されていれば、このような例に限定されなくてもよい。温度、湿度に介入する場合、空調装置、加湿器、ヒータ等が介入装置として利用されてよい。また、対象物ＲＡ及びセンサＳＡ１の少なくとも一方の位置又は姿勢に介入する場合、コンベア装置、ロボットアーム等が介入装置として利用されてよい。

【0333】

＜学習済み機械学習モデルの生成＞
本変形例に係る各ローカル学習装置２Ａは、上記各ローカル学習装置２と同様に、ステップＳ１０１～ステップＳ１０４の処理を実行することで、学習済み機械学習モデル４５Ａを生成する。すなわち、ステップＳ１０１では、各ローカル学習装置２Ａは、ローカル学習データ３０Ａを取得する。そして、ステップＳ１０２では、各ローカル学習装置２Ａは、取得されたローカル学習データ３０Ａを利用して、機械学習モデル４０Ａの機械学習を実行する。機械学習モデル４０Ａの構成及び機械学習の方法は、上記機械学習モデル４０と同様であってよい。

【0334】

一例として、機械学習の方法には、上記教師あり学習（第１の例）又は強化学習（第３の例）が用いられてよい。教師あり学習を採用する場合、ローカル学習データ３０Ａは、訓練データ及び正解データの組み合わせをそれぞれ含む複数の学習データセットにより構成される。訓練データは、上記対象データ６１Ａと同種であり、センサＳＡ１の現在の観測状態に関するデータにより構成されてよい。正解データは、訓練データに対する推論の結果（正解）、すなわち、現在の観測状態から適正な観測状態への変更方法を示すデータにより構成されてよい。各学習データセットは、上記実施形態と同様の方法により生成されてよい。各ローカル学習装置２Ａは、取得されたローカル学習データ３０Ａを利用して、機械学習モデル４０Ａの教師あり学習を実行する。教師あり学習の方法は、上記実施形態と同様であってよい。

【0335】

また、強化学習を採用する場合、機械学習モデル４０Ａには、価値ベース、方策ベース、又はその両方が採用されてよい。観測対象となる状態は、センサＳＡ１の観測状態であってよく、エージェントにより実行される行動は、センサＳＡ１の観測状態の変更であってよい。報酬関数は、オペレータ等により手動的に設定されてもよい。或いは、報酬関数は、機械学習モデル４０Ａの推定結果の適正度に応じて即時報酬を与えるように設定されてもよい。この場合、上記実施形態と同様に、適正度は、オペレータ等により手動的に与えられてもよい。若しくは、適正度は、判定器を用いて所定の基準に従って評価されてもよい。判定器は、センサＳＡ１により得られる観測データに対して目的の推定処理を実行するように構成されてよい。例えば、製品の画像検査の場面では、判定器は、画像データから製品の欠陥を検出するように構成されてよい。これに応じて、報酬関数は、複数回の推定処理の試行の結果に基づいて、推定処理の精度が閾値以上であればプラスの即時報酬を与え、推定処理の精度が許容値以下（例えば、欠陥検出不能）であればマイナスの即時報酬を与えるように設定されてよい。或いは、報酬関数は、エキスパートの実演を示す事例データから逆強化学習により推定されてもよい。本変形例では、事例データは、例えば、熟練者の操作により得られたセンサＳＡ１の変更方法を示すデータにより構成されてよい。各ローカル学習装置２Ａは、適宜設定された学習の環境において、得られる価値（の期待値）が最大化されるように、機械学習モデル４０Ａの演算パラメータの値を調整する。強化学習の方法は、上記実施形態と同様であってよい。

【0336】

各ローカル学習装置２Ａは、上記いずれかの方法により、機械学習モデル４０Ａの機械学習を実行することができる。これにより、各ローカル学習装置２Ａは、センサＳＡ１により対象物ＲＡの属性を観測する現在の観測状態から、所定の条件に適合した観測データをセンサＳＡ１により得るための適正な観測状態への変更方法を推定する能力を獲得した学習済み機械学習モデル４５Ａを生成することができる。

【0337】

ステップＳ１０３では、各ローカル学習装置２Ａは、ローカル学習データ３０Ａの得られた環境に関する学習環境データ３５Ａを取得する。学習環境データ３５Ａは、検査装置１Ａで得られる環境データ６３Ａと同種のデータである。学習環境データ３５Ａを取得する方法は、環境データ６３Ａを取得する方法と同様であってよい。例えば、各ローカル学習装置２Ａは、他のセンサＳＡ２と同種のセンサに更に接続されてよく、学習環境データ３５Ａを当該センサから取得してもよい。ステップＳ１０４では、各ローカル学習装置２Ａは、生成された学習済み機械学習モデル４５Ａに関する情報を学習結果データ４７Ａとして生成する。そして、各ローカル学習装置２Ａは、学習結果データ４７Ａを学習環境データ３５Ａに関連付けて所定の記憶領域に保存する。

【0338】

本変形例では、各ローカル学習装置２Ａの間において、ローカル学習データ３０Ａが異なる環境下で取得されてよい。そして、得られたローカル学習データ３０Ａから学習済み機械学習モデル４５Ａが生成されてよい。その結果、センサＳＡ１の最適な観測方法を推定可能に、異なる環境下で得られたローカル学習データ３０Ａから導出された複数の学習済み機械学習モデル４５Ａを得ることができる。

【0339】

＜検査装置のハードウェア構成＞
図１５は、本変形例に係る検査装置１Ａのハードウェア構成の一例を模式的に例示する。図１５に示されるとおり、本変形例に係る検査装置１Ａは、上記推論装置１と同様に、制御部１１、記憶部１２、通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６、及びドライブ１７が電気的に接続されたコンピュータである。検査装置１Ａは、外部インタフェース１４を介して、センサＳＡ１、他のセンサＳＡ２、雲台装置ＩＮ１及び照明装置ＩＮ２に接続される。ただし、検査装置１Ａのハードウェア構成は、このような例に限定されなくてもよい。検査装置１Ａの具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。検査装置１Ａは、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ、ＰＬＣ（programmable logic controller）等であってもよい。

【0340】

本変形例に係る検査装置１Ａの記憶部１２は、検査プログラム８１Ａ、統合規則データ５７Ａ、学習結果データ４７Ａ、学習データ５９Ａ、学習環境データ３５Ａ等の各種情報を記憶する。検査プログラム８１Ａ、統合規則データ５７Ａ、学習結果データ４７Ａ、学習データ５９Ａ、及び学習環境データ３５Ａは、上記実施形態に係る推論プログラム８１、統合規則データ５７、学習結果データ４７、学習データ５９、及び学習環境データ３５に対応する。検査プログラム８１Ａ、統合規則データ５７Ａ、学習結果データ４７Ａ、学習データ５９Ａ、及び学習環境データ３５Ａの少なくともいずれかは記憶媒体９１に記憶されていてもよい。また、検査装置１Ａは、記憶媒体９１から、検査プログラム８１Ａ、統合規則データ５７Ａ、学習結果データ４７Ａ、学習データ５９Ａ、及び学習環境データ３５Ａの少なくともいずれかを取得してもよい。

【0341】

＜検査装置のソフトウェア構成＞
図１６Ａ及び図１６Ｂは、本変形例に係る検査装置１Ａのソフトウェア構成の一例を模式的に例示する。上記実施形態と同様に、検査装置１Ａのソフトウェア構成は、制御部１１による検査プログラム８１Ａの実行により実現される。図１６Ａ及び図１６Ｂに示されるとおり、取り扱うデータ及び推論の内容が限定されている点を除き、検査装置１Ａのソフトウェア構成は、上記推論装置１のソフトウェア構成と同様である。これにより、検査装置１Ａは、上記推論装置１と同様に、上記推論に関する一連の処理を実行する。

【0342】

（ステップＳ２０１）
すなわち、図１６Ａに示されるとおり、ステップＳ２０１では、検査装置１Ａの制御部１１は、対象データ６１Ａを取得する。対象データ６１Ａは、対象のセンサＳＡ１の現在の観測状態に関するものであれば、その内容は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。対象データ６１Ａには、例えば、対象センサＳＡ１の設置状況に関する属性を示すデータ、対象センサＳＡ１の動作設定に関する属性を示すデータ、対象センサＳＡ１により得られる観測データ等が含まれてよい。対象センサＳＡ１の設置状況に関する属性には、例えば、センサＳＡ１の設置角度、センサＳＡ１と観測対象（対象物ＲＡ）との間の距離、センサＳＡ１による観測に影響を及ぼす観測属性（例えば、明るさ、温度、湿度等）等が含まれてよい。対象センサＳＡ１の動作設定に関する属性には、例えば、センサＳＡ１の計測範囲の設定値、計測範囲の分解能の設定値、サンプリング周波数の設定値等が含まれてよい。具体例として、センサＳＡ１がカメラの場合、動作設定に関する属性には、絞り値、シャッタースピード、ズーム倍率等が含まれてよい。

【0343】

対象データ６１Ａを取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、対象センサＳＡ１自身から対象データ６１Ａが取得されてもよい。また、例えば、環境属性を観測する他のセンサ（例えば、他のセンサＳＡ２）から対象データ６１Ａが取得されてもよい。また、本変形例では、介入装置として、雲台装置ＩＮ１及び照明装置ＩＮ２が検査装置１Ａに接続されている。各介入装置自身及び各介入装置の状態を観測するセンサ（不図示）の少なくともいずれかから対象データ６１Ａが取得されてもよい。また、例えば、オペレータ等の入力により、対象データ６１Ａは取得されてもよい。制御部１１は、各装置から直接的に対象データ６１Ａを取得してもよいし、他のコンピュータを介して間接的に対象データ６１Ａを取得してもよい。

【0344】

（ステップＳ２０２）
ステップＳ２０２では、制御部１１は、環境データ６３Ａを取得する。環境データ６３Ａは、対象のセンサＳＡ１が対象物ＲＡの属性を観測する対象の観測環境に関するものであれば、その内容は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。環境データ６３Ａには、例えば、対象センサＳＡ１の仕様（又は性能）に関する属性を示すデータ、観測対象（対象物ＲＡ）の属性を示すデータ、対象センサＳＡ１による観測に影響を及ぼす環境属性等が含まれてよい。対象センサＳＡ１の仕様（又は性能）に関する属性には、例えば、センサＳＡ１の感度限界、ダイナミックレンジ、空間分解能の設定可能範囲、サンプリング周波数の設定可能範囲等が含まれてよい。観測対象（対象物ＲＡ）の属性には、例えば、観測対象の種別、観測目的等が含まれてよい。観測対象の種別は、例えば、製品・ワークの種別、植物の種別等であってよい。観測目的は、例えば、欠陥検出、品質検査等である。

【0345】

環境データ６３Ａを取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、オペレータ等の入力により、環境データ６３Ａは取得されてもよい。また、例えば、対象センサＳＡ１自身から環境データ６３Ａが取得されてもよい。また、例えば、対象センサＳＡ１により得られる観測データから環境データ６３Ａが取得されてもよい。また、例えば、環境属性を観測する他のセンサ（例えば、他のセンサＳＡ２）から環境データ６３Ａが取得されてもよい。制御部１１は、各装置から直接的に環境データ６３Ａを取得してもよいし、他のコンピュータを介して間接的に環境データ６３Ａを取得してもよい。

【0346】

（ステップＳ２０３）
ステップＳ２０３では、制御部１１は、各件の学習結果データ４７Ａを参照することで、各学習済み機械学習モデル４５Ａの設定を行う。次に、制御部１１は、各学習済み機械学習モデル４５Ａに対象データ６１Ａを与えて、各学習済み機械学習モデル４５Ａの演算処理を実行する。これにより、制御部１１は、各学習済み機械学習モデル４５Ａの出力として、対象センサＳＡ１の適正な観測状態への変更方法についての各学習済み機械学習モデル４５Ａの推定結果を取得する。

【0347】

（ステップＳ２０４）
ステップＳ２０４では、制御部１１は、統合規則データ５７Ａを参照して、統合規則５Ａの設定を行う。そして、制御部１１は、統合規則５Ａに従って、各学習済み機械学習モデル４５Ａの推定結果を統合する。具体的には、ステップＳ２１１では、制御部１１は、環境データ６３Ａに応じて、各統合パラメータＰＡの値を決定する。このとき、環境データ６３Ａの他に、対象データ６１Ａが更に考慮されてもよい。各統合パラメータＰＡの値を決定する方法には、上記第１～第３の方法のいずれかが採用されてよい。

【0348】

（１）第１の方法
図１６Ｂに示されるとおり、第１の方法を採用する場合、制御部１１は、学習データ５９Ａを取得する。そして、制御部１１は、学習データ５９Ａを利用して、演算モデル５１Ａの機械学習を実行する。演算モデル５１Ａの構成及び機械学習の方法は、上記演算モデル５１と同様であってよい。演算モデル５１Ａの構成及び機械学習の方法には、上記２つの例のうちのいずれかが採用されてよい。

【0349】

第１の例を採用する場合、学習データ５９Ａは、上記学習データ５９と同様に、訓練用環境データ、訓練用対象データ、及び正解データの組み合わせをそれぞれ含む複数の学習データセットにより構成されてよい。訓練用環境データは、環境データ６３Ａと同種のデータである。訓練用対象データは、対象データ６１Ａと同種のデータである。正解データは、訓練用対象データに対する推論の結果（正解）、すなわち、対象の環境下において、現在の観測状態から適正な観測状態への変更方法を示すデータにより構成されてよい。各学習データセットは、上記実施形態と同様の方法により生成されてよい。制御部１１は、取得された学習データ５９Ａを利用して、演算モデル５１Ａの機械学習を実行する。機械学習の方法は、上記第１の例と同様であってよい。

【0350】

第２の例を採用する場合、演算モデル５１Ａには、価値ベース、方策ベース、又はその両方が採用されてよい。上記実施形態と同様に、観測対象となる状態は、環境データ６３Ａ及び対象データ６１Ａに対応する。エージェントにより実行される行動は、センサＳＡ１の観測状態の変更であってよい。エージェントは、上記一連の処理により、各学習済み機械学習モデル４５Ａの推定結果を取得して、取得された推定結果を統合することで、対象の環境下における推定結果を生成することができる。エージェントは、生成された推定結果に基づいて採用する行動を決定してもよい。

【0351】

報酬関数は、オペレータ等により手動的に設定されてもよい。或いは、報酬関数は、上記一連の処理で生成される推定結果の適正度に応じて即時報酬を与えるように設定されてよい。適正度は、オペレータ等により手動的に与えられてもよい。若しくは、適正度は、判定器を用いて所定の基準に従って評価されてもよい。判定器は、上記機械学習モデル４０Ａの強化学習における判定器と同様であってよい。或いは、報酬関数は、エキスパートの実演を示す事例データから逆強化学習により推定されてもよい。この事例データは、上記機械学習モデル４０Ａの強化学習における報酬関数の設定に利用される事例データと同様であってよい。制御部１１は、適宜設定された学習の環境において、得られる価値（の期待値）が最大化されるように、演算モデル５１Ａの演算パラメータの値を調整する。強化学習の方法は、上記実施形態と同様であってよい。

【0352】

制御部１１は、上記いずれかの方法により、演算モデル５１Ａの機械学習を実行することができる。これにより、制御部１１は、対象の観測環境下におけるセンサＳＡ１の最適な観測方法の推定に適合する各統合パラメータＰＡの値を環境データ６３Ａ（及び対象データ６１Ａ）から推定する能力を獲得した学習済み演算モデル５２Ａを生成することができる。制御部１１は、生成された学習済み演算モデル５２Ａに関する情報を所定の記憶領域に保存してもよい。学習済み演算モデル５２Ａに関する情報は、統合規則データ５７Ａの少なくとも一部として保存されてもよいし、統合規則データ５７Ａとは別に保存されてもよい。

【0353】

第１の方法では、制御部１１は、上記により生成された学習済み演算モデル５２Ａを利用して、各統合パラメータＰＡの値を決定する。すなわち、ステップＳ２１１では、制御部１１は、学習済み演算モデル５２Ａに環境データ６３Ａを与える。このとき、制御部１１は、学習済み演算モデル５２Ａに対象データ６１Ａを更に与えてよい。そして、制御部１１は、学習済み演算モデル５２Ａの演算処理を実行する。これにより、制御部１１は、学習済み演算モデル５２Ａの出力として、各学習済み機械学習モデル４５Ａに対する各統合パラメータＰＡの値を取得することができる。

【0354】

（２）第２の方法
第２の方法では、制御部１１は、対象の環境と各学習環境との比較に基づいて、各統合パラメータＰＡの値を決定する。すなわち、制御部１１は、各学習済み機械学習モデル４５Ａの学習環境データ３５Ａを取得する。次に、制御部１１は、各件の学習環境データ３５Ａ及び環境データ６３Ａの適合度を算出する。適合度の形式及び表現は、上記実施形態と同様であってよい。上記ステップＳ２１１では、制御部１１は、算出された各適合度に応じて、対応する各学習済み機械学習モデル４５Ａに対する各統合パラメータＰＡの値を決定してもよい。適合度に応じて統合パラメータＰＡの値を決定する方法は、上記実施形態と同様であってよい。

【0355】

（３）第３の方法
第３の方法では、制御部１１は、オペレータによる統合パラメータＰＡの値の指定を受け付けて、対象の統合パラメータＰＡの値を指定された値に設定する。受付画面は、上記実施形態と同様であってよい（図１２Ａ）。

【0356】

図１６Ａに戻り、ステップＳ２１１では、制御部１１は、上記３つの方法の少なくともいずれかを採用することで、各統合パラメータＰＡの値を決定することができる。ステップＳ２１２では、制御部１１は、決定された各統合パラメータＰＡの値を使用して、対応する各学習済み機械学習モデル４５Ａの推定結果を重み付けする。上記第３の方法により複数の統合パラメータＰＡのうちの少なくともいずれかの値を設定した場合、ステップＳ２１２では、制御部１１は、上記により設定された値を使用して、対象の統合パラメータＰＡに対応する学習済み機械学習モデル４５Ａの推定結果を重み付けする。ステップＳ２１３では、制御部１１は、各学習済み機械学習モデル４５Ａの重み付けされた推定結果を統合する。推定結果の統合は、上記実施形態と同様に、重み付け平均又は重み付き多数決により行われてよい。これにより、対象の環境下において、対象センサＳＡ１の現在の観測状態から適正な観測状態への変更方法を推定した結果を生成することができる。

【0357】

（ステップＳ２０５）
ステップＳ２０５では、制御部１１は、生成された推定結果に関する情報を出力する。上記実施形態と同様に、出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。制御部１１は、ステップＳ２０４により生成された推定結果をそのまま出力装置１６に出力してもよいし、生成された推定結果に基づいて、何らかの情報処理を実行してもよい。

【0358】

例えば、制御部１１は、ステップＳ２０４により生成された推定結果に基づいて、推定された適正な観測状態への変更方法に従って、対象センサＳＡ１の観測状態を変更することをユーザに指示するための指示情報を推定結果に関する情報として生成してもよい。そして、制御部１１は、生成された指示情報を出力装置に出力してもよい。出力先の出力装置は、検査装置１Ａの出力装置１６であってもよいし、他のコンピュータの出力装置であってよい。他のコンピュータは、ユーザの近傍に配置されたコンピュータであってもよいし、ユーザの所持する端末装置であってもよい。この出力方法によれば、専門知識を有さないユーザでも、対象の環境に応じてセンサＳＡ１の観測状態を最適化することができる。

【0359】

また、検査装置１Ａが、対象センサＳＡ１の観測状態を変更させる介入装置に接続されている場合を想定する。この場合、制御部１１は、生成された推定結果に基づいて、推定された適正な観測状態への変更方法に従って対象センサＳＡ１の観測状態を変更させる動作を介入装置に実行させるための指令情報を推定結果に関する情報として生成してもよい。そして、制御部１１は、介入装置に指令情報を送信することで、推定された変更方法に従って対象センサＳＡ１の観測状態を変更するための動作を介入装置に実行させてもよい。このとき、制御部１１は、介入装置の動作を直接的に制御してもよい。或いは、介入装置が制御装置を備えている場合、制御部１１は、制御装置に指令情報を送信し、介入装置の動作の制御を制御装置に実行させることで、介入装置の動作を間接的に制御してもよい。この出力方法によれば、センサＳＡ１の観測状態を自動的に最適化することができる。

【0360】

本変形例では、検査装置１Ａは、介入装置の一例として雲台装置ＩＮ１及び照明装置ＩＮ２に接続されている。制御部１１は、ステップＳ２０４において生成された推定結果に基づいて、雲台装置ＩＮ１及び照明装置ＩＮ２の少なくとも一方の動作を制御することで、対象センサＳＡ１の観測状態を変更してもよい。これにより、対象センサＳＡ１の設置角度及び対象物ＲＡ周囲の明るさの少なくとも一方を最適化することができる。

【0361】

なお、上記実施形態と同様に、検査装置１Ａの制御部１１は、各学習済み機械学習モデル４５Ａを複数のグループのうちの少なくともいずれかに割り当ててよい。これにより、制御部１１は、目的に応じてグループ毎に統合処理を実行してもよい。グルーピングの方法には、上記２つの方法のうちのいずれかが採用されてよい。

【0362】

＜ローカル学習装置の推論処理＞
また、本変形例に係る各ローカル学習装置２Ａは、上記各ローカル学習装置２と同様に、ステップＳ１１１～ステップＳ１１３の処理を実行することで、学習済み機械学習モデル４５Ａを利用して、センサＳＡ１の最適な観測方法を推定することができる。各ローカル学習装置２Ａにより最適な観測方法を推定する対象のセンサＳＡ１は、典型的には、各ローカル学習装置２Ａ自身に接続されたセンサＳＡ１である。ただし、対象のセンサＳＡ１は、これに限られなくてもよく、各ローカル学習装置２Ａは、他のコンピュータに接続されたセンサＳＡ１の最適な観測方法を推定してもよい。

【0363】

ステップＳ１１１では、各ローカル学習装置２Ａは、推定に利用する対象データを取得する。対象データの取得方法は、上記検査装置１ＡのステップＳ２０１と同様であってよい。ステップＳ１１２では、各ローカル学習装置２Ａは、学習済み機械学習モデル４５Ａに対象データを与えて、学習済み機械学習モデル４５Ａの演算処理を実行する。これにより、各ローカル学習装置２Ａは、学習済み機械学習モデル４５Ａの出力として、センサＳＡ１の現在の観測状態から適正な観測状態への変更方法を推定した結果を取得することができる。

【0364】

ステップＳ１１３では、各ローカル学習装置２Ａは、推定結果に関する情報を出力する。出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。各ローカル学習装置２Ａは、ステップＳ１１２により得られた推定結果をそのまま出力装置に出力してもよいし、得られた推定結果に基づいて、何らかの情報処理を実行してもよい。

【0365】

また、ステップＳ１１３の処理は、上記検査装置１ＡのステップＳ２０５と同様に実行されてよい。例えば、各ローカル学習装置２Ａは、推定された適正な観測状態への変更方法に従って、センサＳＡ１の観測状態を変更することをユーザに指示するための指示情報を生成し、生成された指示情報を出力装置に出力してもよい。また、各ローカル学習装置２Ａは、例えば、雲台装置ＩＮ１、照明装置ＩＮ２等の介入装置に更に接続されていてもよい。この場合、各ローカル学習装置２Ａは、推定された適正な観測状態への変更方法に従ってセンサＳＡ１の観測状態を変更させる動作を介入装置に実行させるための指令情報を生成してもよい。そして、各ローカル学習装置２Ａは、介入装置に指令情報を送信することで、推定された変更方法に従ってセンサＳＡ１の観測状態を変更するための動作を介入装置に実行させてもよい。

【0366】

＜特徴＞
本変形例によれば、センサＳＡ１で対象物ＲＡの属性を観測する場面において、新たな環境でセンサＳＡ１の最適な観測方法を適切に推定可能な推論モデルを構築するのにかかるコストを低減することができる。また、センサＳＡ１の観測状態の観測に他のセンサＳＡ２を利用することで、センサＳＡ１の観測状態が十分に反映された環境データ６３Ａを取得することができる。これにより、検査装置１Ａによる対象センサＳＡ１の最適な観測方法の推定精度の向上を図ることができる。

【0367】

更に、検査装置１Ａの出力処理により、対象センサＳＡ１の観測状態を自動的に又はユーザにより手動的に最適化することができる。これにより、人手による標準化に依らず、各環境においてセンサＳＡ１の観測状態を体系的に最適化することができる。したがって、本変形例によれば、様々な環境において低コストで、製品の欠陥検出、植物の品質検査等のために対象物ＲＡの属性を観察する方法を適正化することができる。よって、様々な環境において、ばらつきを抑えた高品質な検査を実施することができるようになる。

【0368】

なお、本変形例は適宜変更されてよい。例えば、他のセンサＳＡ２以外から環境データ６３Ａを取得する場合、他のセンサＳＡ２は省略されてよい。介入装置による観測状態の変更を実施しない場合、雲台装置ＩＮ１及び照明装置ＩＮ２は省略されてよい。検査装置１Ａと各装置（センサＳＡ１、他のセンサＳＡ２、雲台装置ＩＮ１及び照明装置ＩＮ２）とは、通信インタフェースを介して接続されてよい。検査装置１Ａは、上記ステップＳ２０５において、指示情報及び指令情報の両方を出力可能に構成されてもよい。或いは、指示情報及び指令情報のいずれか一方は省略されてもよい。

【0369】

（Ｂ）移動体の移動経路を予測する場面
図１７は、第２変形例に係る予測システム１００Ｂの適用場面の一例を模式的に例示する。本変形例は、移動体の移動する経路を予測する場面に上記実施形態を適用した例である。図１７に示されるとおり、本変形例に係る予測システム１００Ｂは、予測装置１Ｂ及び複数のローカル学習装置２Ｂを備えている。上記実施形態と同様に、予測装置１Ｂ及び各ローカル学習装置２Ｂは、ネットワークを介して互いに接続されてよい。

【0370】

予測装置１Ｂは、上記推論装置１に対応する。各ローカル学習装置２Ｂは、上記各ローカル学習装置２に対応する。取り扱うデータ及び推論の内容が限定されている点を除き、予測装置１Ｂは、上記推論装置１と同様に構成されてよく、各ローカル学習装置２Ｂは、上記各ローカル学習装置２と同様に構成されてよい。予測装置１Ｂのハードウェア構成及びソフトウェア構成は、上記推論装置１と同様であってよい。各ローカル学習装置２Ｂのハードウェア構成及びソフトウェア構成は、上記各ローカル学習装置２と同様であってよい。

【0371】

本変形例に係る所定の推論は、移動体ＲＢの移動する経路を移動体ＲＢの状態から予測することである。移動体ＲＢは、移動する対象物であれば、その種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。移動体ＲＢは、例えば、生物（人間等）、機械（車両等）等であってよい。本変形例では、予測装置１Ｂ及び各ローカル学習装置２Ｂには、センサＳＢ１が接続されている。移動体ＲＢの状態は、センサＳＢ１により観測される。センサＳＢ１は、例えば、カメラ、ビーコン等であってよい。カメラは、例えば、ＲＧＢ画像を取得するよう構成された一般的なデジタルカメラ、深度画像を取得するように構成された深度カメラ、赤外線量を画像化するように構成された赤外線カメラ等であってよい。

【0372】

本変形例に係る各ローカル学習装置２Ｂは、移動体ＲＢの移動する経路を移動体ＲＢの状態から予測する能力を獲得した学習済み機械学習モデル４５Ｂを生成する。これに対して、本変形例に係る予測装置１Ｂは、各ローカル学習装置２Ｂにより異なる環境下で得られたローカル学習データ３０Ｂから導出された各学習済み機械学習モデル４５Ｂを利用して、対象の環境下において移動体ＲＢの移動する経路を予測する。

【0373】

本変形例に係る予測装置１Ｂは、所定の推論の対象となる対象データ６１Ｂ、及び所定の推論を実行する対象の環境に関する環境データ６３Ｂを取得する。本変形例に係る所定の推論の対象となる対象データ６１Ｂは、センサＳＢ１により観測される対象の移動体ＲＢの状態に関するものである。一方、本変形例に係る所定の推論を実行する対象の環境に関する環境データ６３Ｂは、対象の移動体ＲＢをセンサＳＢ１が観測する対象の観測環境に関するものである。

【0374】

本変形例では、予測装置１Ｂは、他のセンサＳＢ２に更に接続されている。他のセンサＳＢ２は、移動体ＲＢの状態を観測するセンサＳＢ１とは異なり、対象の移動体ＲＢをセンサＳＢ１が観測する対象の観測環境を観測するのに利用される。そのため、予測装置１Ｂは、他のセンサＳＢ２から環境データ６３Ｂを取得することができる。対象の観測環境として、天気、気圧などを考慮する場合、他のセンサＳＢ２は、例えば、気象センサ、気圧計等であってよい。

【0375】

本変形例に係る予測装置１Ｂは、取得された対象データ６１Ｂを各学習済み機械学習モデル４５Ｂに与えて、移動体ＲＢの移動する経路を各学習済み機械学習モデル４５Ｂに予測させる。これにより、本変形例に係る予測装置１Ｂは、移動体ＲＢの移動する経路についての各学習済み機械学習モデル４５Ｂの予測結果を取得する。そして、本変形例に係る予測装置１Ｂは、統合規則５Ｂに従って、各学習済み機械学習モデル４５Ｂの予測結果を統合する。

【0376】

上記実施形態と同様に、統合規則５Ｂは、対象の環境下において、各学習済み機械学習モデル４５Ｂの予測結果を重視する程度をそれぞれ規定する複数の統合パラメータＰＢを備えている。本変形例に係る予測装置１Ｂは、環境データ６３Ｂに応じて、各統合パラメータＰＢの値を決定する。このとき、環境データ６３Ｂの他に、対象データ６１Ｂが更に考慮されてもよい。次に、本変形例に係る予測装置１Ｂは、決定された各統合パラメータＰＢの値を使用して、対応する各学習済み機械学習モデル４５Ｂの予測結果を重み付けする。そして、本変形例に係る予測装置１Ｂは、各学習済み機械学習モデル４５Ｂの重み付けされた予測結果を統合する。

【0377】

これにより、本変形例に係る予測装置１Ｂは、対象の環境下において、移動体ＲＢの移動する経路を移動体ＲＢの状態から予測した結果を生成することができる。

【0378】

＜学習済み機械学習モデルの生成＞
本変形例に係る各ローカル学習装置２Ｂは、上記各ローカル学習装置２と同様に、ステップＳ１０１～ステップＳ１０４の処理を実行することで、学習済み機械学習モデル４５Ｂを生成する。すなわち、ステップＳ１０１では、各ローカル学習装置２Ｂは、ローカル学習データ３０Ｂを取得する。そして、ステップＳ１０２では、各ローカル学習装置２Ｂは、取得されたローカル学習データ３０Ｂを利用して、機械学習モデル４０Ｂの機械学習を実行する。機械学習モデル４０Ｂの構成及び機械学習の方法は、上記機械学習モデル４０と同様であってよい。

【0379】

本変形例では、機械学習の方法には、上記第１の例～第３の例のいずれかが採用されてよい。第１の例を採用する場合、ローカル学習データ３０Ｂは、訓練データ及び正解データの組み合わせをそれぞれ含む複数の学習データセットにより構成される。訓練データは、上記対象データ６１Ｂと同種であり、センサＳＢ１により観測される移動体ＲＢの状態に関するデータにより構成されてよい。正解データは、訓練データに対する推論の結果（正解）、すなわち、その状態の移動体ＲＢが実際に又は仮想的に移動した経路を示すデータにより構成されてよい。各学習データセットは、上記実施形態と同様の方法により生成されてよい。各ローカル学習装置２Ｂは、取得されたローカル学習データ３０Ｂを利用して、機械学習モデル４０Ｂの教師あり学習を実行する。教師あり学習の方法は、上記実施形態と同様であってよい。

【0380】

第２の例を採用する場合、ローカル学習データ３０Ｂは、複数件の訓練データにより構成される。訓練データは、機械学習モデル４０Ｂに生成させることを所望するデータにより構成される。訓練データは、例えば、移動体ＲＢが実際に又は仮想的に移動した経路を示すデータにより構成される。各件の訓練データは、上記実施形態と同様の方法により生成されてよい。各ローカル学習装置２Ｂは、取得されたローカル学習データ３０Ｂを利用して、機械学習モデル４０Ｂ及び他の機械学習モデルの敵対的学習を実行する。敵対的学習の方法は、上記実施形態と同様であってよい。

【0381】

第３の例を採用する場合、機械学習モデル４０Ｂには、価値ベース、方策ベース、又はその両方が採用されてよい。観測対象となる状態は、移動体ＲＢの移動する経路に関するものであってよく、エージェントにより実行される行動は、移動体ＲＢの移動であってよい。報酬関数は、オペレータ等により手動的に設定されてもよい。或いは、報酬関数は、機械学習モデル４０Ｂの予測結果の適正度に応じて即時報酬を与えるように設定されてもよい。この場合、上記実施形態と同様に、適正度は、オペレータ等により手動的に与えられてもよい。若しくは、適正度は、判定器を用いて所定の基準に従って評価されてもよい。判定器は、移動体ＲＢの移動する経路を予測した結果の精度を評価するように構成されてよい。これに応じて、報酬関数は、複数回の予測処理の試行の結果に基づいて、経路予測の精度が閾値以上であればプラスの即時報酬を与え、経路予測の精度が許容値以下であればマイナスの即時報酬を与えるように設定されてよい。或いは、報酬関数は、エキスパートの実演を示す事例データから逆強化学習により推定されてもよい。本変形例では、事例データは、例えば、移動体ＲＢが実際に移動した経路を示すデータにより構成されてよい。各ローカル学習装置２Ｂは、適宜設定された学習の環境において、得られる価値（の期待値）が最大化されるように、機械学習モデル４０Ｂの演算パラメータの値を調整する。強化学習の方法は、上記実施形態と同様であってよい。

【0382】

各ローカル学習装置２Ｂは、上記いずれかの方法により、機械学習モデル４０Ｂの機械学習を実行することができる。これにより、各ローカル学習装置２Ｂは、移動体ＲＢの状態から、移動体ＲＢの移動する経路を予測する能力を獲得した学習済み機械学習モデル４５Ｂを生成することができる。

【0383】

ステップＳ１０３では、各ローカル学習装置２Ｂは、ローカル学習データ３０Ｂの得られた環境に関する学習環境データ３５Ｂを取得する。学習環境データ３５Ｂは、予測装置１Ｂで得られる環境データ６３Ｂと同種のデータである。学習環境データ３５Ｂを取得する方法は、環境データ６３Ｂを取得する方法と同様であってよい。例えば、各ローカル学習装置２Ｂは、他のセンサＳＢ２と同種のセンサに更に接続されてよく、学習環境データ３５Ｂを当該センサから取得してもよい。ステップＳ１０４では、各ローカル学習装置２Ｂは、生成された学習済み機械学習モデル４５Ｂに関する情報を学習結果データ４７Ｂとして生成する。そして、各ローカル学習装置２Ｂは、学習結果データ４７Ｂを学習環境データ３５Ｂに関連付けて所定の記憶領域に保存する。

【0384】

本変形例では、各ローカル学習装置２Ｂの間において、ローカル学習データ３０Ｂが異なる環境下で取得されてよい。そして、得られたローカル学習データ３０Ｂから学習済み機械学習モデル４５Ｂが生成されてよい。その結果、移動体ＲＢの移動する経路を予測可能に、異なる環境下で得られたローカル学習データ３０Ｂから導出された複数の学習済み機械学習モデル４５Ｂを得ることができる。

【0385】

＜予測装置のハードウェア構成＞
図１８は、本変形例に係る予測装置１Ｂのハードウェア構成の一例を模式的に例示する。図１８に示されるとおり、本変形例に係る予測装置１Ｂは、上記推論装置１と同様に、制御部１１、記憶部１２、通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６、及びドライブ１７が電気的に接続されたコンピュータである。予測装置１Ｂは、外部インタフェース１４を介して、センサＳＢ１及び他のセンサＳＢ２に接続される。ただし、予測装置１Ｂのハードウェア構成は、このような例に限定されなくてもよい。予測装置１Ｂの具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。予測装置１Ｂは、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ等であってよい。

【0386】

本変形例に係る予測装置１Ｂの記憶部１２は、予測プログラム８１Ｂ、統合規則データ５７Ｂ、学習結果データ４７Ｂ、学習データ５９Ｂ、学習環境データ３５Ｂ等の各種情報を記憶する。予測プログラム８１Ｂ、統合規則データ５７Ｂ、学習結果データ４７Ｂ、学習データ５９Ｂ、及び学習環境データ３５Ｂは、上記実施形態に係る推論プログラム８１、統合規則データ５７、学習結果データ４７、学習データ５９、及び学習環境データ３５に対応する。予測プログラム８１Ｂ、統合規則データ５７Ｂ、学習結果データ４７Ｂ、学習データ５９Ｂ、及び学習環境データ３５Ｂの少なくともいずれかは記憶媒体９１に記憶されていてもよい。また、予測装置１Ｂは、記憶媒体９１から、予測プログラム８１Ｂ、統合規則データ５７Ｂ、学習結果データ４７Ｂ、学習データ５９Ｂ、及び学習環境データ３５Ｂの少なくともいずれかを取得してもよい。

【0387】

＜予測装置のソフトウェア構成＞
図１９Ａ及び図１９Ｂは、本変形例に係る予測装置１Ｂのソフトウェア構成の一例を模式的に例示する。上記実施形態と同様に、予測装置１Ｂのソフトウェア構成は、制御部１１による予測プログラム８１Ｂの実行により実現される。図１９Ａ及び図１９Ｂに示されるとおり、取り扱うデータ及び推論の内容が限定されている点を除き、予測装置１Ｂのソフトウェア構成は、上記推論装置１のソフトウェア構成と同様である。これにより、予測装置１Ｂは、上記推論装置１と同様に、上記推論に関する一連の処理を実行する。

【0388】

（ステップＳ２０１）
すなわち、図１９Ａに示されるとおり、ステップＳ２０１では、予測装置１Ｂの制御部１１は、対象データ６１Ｂを取得する。対象データ６１Ｂは、センサＳＢ１により観測される対象の移動体ＲＢの状態に関するものであれば、その内容は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。対象データ６１Ｂには、例えば、移動体ＲＢの状態を観測するセンサＳＢ１により得られる観測データ、当該観測データから解析される移動範囲の状態（例えば、混雑具合等）を示すデータ、移動体ＲＢの現在位置を示すデータ、移動体ＲＢの現在までの移動経路を示すデータ等が含まれてよい。

【0389】

対象データ６１Ｂを取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、センサＳＢ１の観測データが対象データ６１Ｂとして取得されてもよい。また、例えば、センサＳＢ１により得られる観測データに何らかの解析処理を実行することで、対象データ６１Ｂが取得されてもよい。また、例えば、オペレータ等の入力により、対象データ６１Ｂは取得されてもよい。制御部１１は、各装置から直接的に対象データ６１Ｂを取得してもよいし、他のコンピュータを介して間接的に対象データ６１Ｂを取得してもよい。

【0390】

（ステップＳ２０２）
ステップＳ２０２では、制御部１１は、環境データ６３Ｂを取得する。環境データ６３Ｂは、対象の移動体ＲＢをセンサＳＢ１が観測する対象の観測環境に関するものであれば、その内容は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。環境データ６３Ｂには、例えば、移動体ＲＢの属性を示すデータ、移動範囲の属性を示すデータ、移動に影響を及ぼす環境属性を示すデータ、センサＳＢ１の仕様（又は性能）に関する属性を示すデータ、センサＳＢ１の観測条件に関する属性を示すデータ等が含まれてよい。移動体ＲＢの属性には、例えば、移動体ＲＢの種別（人物又は車両の別、車種等）、移動体ＲＢの移動能力に関する情報が含まれてよい。移動体ＲＢが人物である場合、移動能力は、人物の性別、年齢、身長、体重等により評価されてもよい。また、移動体ＲＢが車両である場合、移動能力は、車両の性能で評価されてよい。移動範囲の属性には、例えば、移動する場所、移動する通路（道路）の種別等が含まれてよい。移動する通路（道路）の種別には、例えば、歩行者専用、高速道路、一般道等が含まれてよい。移動に影響を及ぼす環境属性には、例えば、天候、混雑具合、曜日、休日／平日の種別等が含まれてよい。センサＳＢ１の仕様に関する属性は、例えば、センサＳＢ１の感度限界、ダイナミックレンジ、空間分解能の設定可能範囲、サンプリング周波数の設定可能範囲等が含まれてよい。センサＳＢ１の観測条件に関する属性には、例えば、センサＳＢ１の設置角度、センサＳＢ１の動作設定に関する属性等が含まれてよい。センサＳＢ１の動作設定に関する属性には、例えば、センサＳＢ１の計測範囲の設定値、計測範囲の分解能の設定値、サンプリング周波数の設定値等が含まれてよい。具体例として、センサＳＢ１がカメラの場合、動作設定に関する属性には、絞り値、シャッタースピード、ズーム倍率等が含まれてよい。

【0391】

環境データ６３Ｂを取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、オペレータ等の入力により、環境データ６３Ｂは取得されてもよい。また、例えば、環境データ６３Ｂは、センサＳＢ１により得られる観測データに何らかの解析処理を実行することにより取得されてもよい。また、例えば、対象の観測環境を観測する他のセンサ（例えば、他のセンサＳＢ２）から環境データ６３Ｂが取得されてもよい。また、例えば、気象データ等の情報を配信する他の情報処理装置（サーバ）から環境データ６３Ｂが取得されてもよい。制御部１１は、各装置から直接的に環境データ６３Ｂを取得してもよいし、他のコンピュータを介して間接的に環境データ６３Ｂを取得してもよい。

【0392】

（ステップＳ２０３）
ステップＳ２０３では、制御部１１は、各件の学習結果データ４７Ｂを参照することで、各学習済み機械学習モデル４５Ｂの設定を行う。次に、制御部１１は、各学習済み機械学習モデル４５Ｂに対象データ６１Ｂを与えて、各学習済み機械学習モデル４５Ｂの演算処理を実行する。これにより、制御部１１は、各学習済み機械学習モデル４５Ｂの出力として、移動体ＲＢの移動する経路についての各学習済み機械学習モデル４５Ｂの予測結果を取得する。

【0393】

（ステップＳ２０４）
ステップＳ２０４では、制御部１１は、統合規則データ５７Ｂを参照して、統合規則５Ｂの設定を行う。そして、制御部１１は、統合規則５Ｂに従って、各学習済み機械学習モデル４５Ｂの予測結果を統合する。具体的には、ステップＳ２１１では、制御部１１は、環境データ６３Ｂに応じて、各統合パラメータＰＢの値を決定する。このとき、環境データ６３Ｂの他に、対象データ６１Ｂが更に考慮されてもよい。各統合パラメータＰＢの値を決定する方法には、上記第１～第３の方法のいずれかが採用されてよい。

【0394】

（１）第１の方法
図１９Ｂに示されるとおり、第１の方法を採用する場合、制御部１１は、学習データ５９Ｂを取得する。そして、制御部１１は、学習データ５９Ｂを利用して、演算モデル５１Ｂの機械学習を実行する。演算モデル５１Ｂの構成及び機械学習の方法は、上記演算モデル５１と同様であってよい。演算モデル５１Ｂの構成及び機械学習の方法には、上記２つの例のうちのいずれかが採用されてよい。

【0395】

第１の例を採用する場合、学習データ５９Ｂは、上記学習データ５９と同様に、訓練用環境データ、訓練用対象データ、及び正解データの組み合わせをそれぞれ含む複数の学習データセットにより構成されてよい。訓練用環境データは、環境データ６３Ｂと同種のデータである。訓練用対象データは、対象データ６１Ｂと同種のデータである。正解データは、訓練用対象データに対する推論の結果（正解）、すなわち、対象の環境下において、任意の状態の移動体ＲＢが実際に又は仮想的に移動した経路を示すデータにより構成されてよい。各学習データセットは、上記実施形態と同様の方法により生成されてよい。制御部１１は、取得された学習データ５９Ｂを利用して、演算モデル５１Ｂの機械学習を実行する。機械学習の方法は、上記第１の例と同様であってよい。

【0396】

第２の例を採用する場合、演算モデル５１Ｂには、価値ベース、方策ベース、又はその両方が採用されてよい。上記実施形態と同様に、観測対象となる状態は、環境データ６３Ｂ及び対象データ６１Ｂに対応する。エージェントにより実行される行動は、移動体ＲＢの移動であってよい。エージェントは、上記一連の処理により、各学習済み機械学習モデル４５Ｂの予測結果を取得して、取得された予測結果を統合することで、対象の環境下における移動体ＲＢの移動経路の予測結果を生成することができる。エージェントは、生成された予測結果に基づいて採用する行動を決定してもよい。

【0397】

報酬関数は、オペレータ等により手動的に設定されてもよい。或いは、報酬関数は、上記一連の処理で生成される予測結果の適正度に応じて即時報酬を与えるように設定されてよい。適正度は、オペレータ等により手動的に与えられてもよい。若しくは、適正度は、判定器を用いて所定の基準に従って評価されてもよい。判定器は、上記機械学習モデル４０Ｂの強化学習における判定器と同様であってよい。或いは、報酬関数は、エキスパートの実演を示す事例データから逆強化学習により推定されてもよい。この事例データは、上記機械学習モデル４０Ｂの強化学習における報酬関数の設定に利用される事例データと同様であってよい。制御部１１は、適宜設定された学習の環境において、得られる価値（の期待値）が最大化されるように、演算モデル５１Ｂの演算パラメータの値を調整する。強化学習の方法は、上記実施形態と同様であってよい。

【0398】

制御部１１は、上記いずれかの方法により、演算モデル５１Ｂの機械学習を実行することができる。これにより、制御部１１は、対象の観測環境下における移動体ＲＢの移動する経路の予測に適合する各統合パラメータＰＢの値を環境データ６３Ｂ（及び対象データ６１Ｂ）から推定する能力を獲得した学習済み演算モデル５２Ｂを生成することができる。制御部１１は、生成された学習済み演算モデル５２Ｂに関する情報を所定の記憶領域に保存してもよい。学習済み演算モデル５２Ｂに関する情報は、統合規則データ５７Ｂの少なくとも一部として保存されてもよいし、統合規則データ５７Ｂとは別に保存されてもよい。

【0399】

第１の方法では、制御部１１は、上記により生成された学習済み演算モデル５２Ｂを利用して、各統合パラメータＰＢの値を決定する。すなわち、ステップＳ２１１では、制御部１１は、学習済み演算モデル５２Ｂに環境データ６３Ｂを与える。このとき、制御部１１は、学習済み演算モデル５２Ｂに対象データ６１Ｂを更に与えてよい。そして、制御部１１は、学習済み演算モデル５２Ｂの演算処理を実行する。これにより、制御部１１は、学習済み演算モデル５２Ｂの出力として、各学習済み機械学習モデル４５Ｂに対する各統合パラメータＰＢの値を取得することができる。

【0400】

（２）第２の方法
第２の方法では、制御部１１は、対象の環境と各学習環境との比較に基づいて、各統合パラメータＰＢの値を決定する。すなわち、制御部１１は、各学習済み機械学習モデル４５Ｂの学習環境データ３５Ｂを取得する。次に、制御部１１は、各件の学習環境データ３５Ｂ及び環境データ６３Ｂの適合度を算出する。適合度の形式及び表現は、上記実施形態と同様であってよい。上記ステップＳ２１１では、制御部１１は、算出された各適合度に応じて、対応する各学習済み機械学習モデル４５Ｂに対する各統合パラメータＰＢの値を決定してもよい。適合度に応じて統合パラメータＰＢの値を決定する方法は、上記実施形態と同様であってよい。

【0401】

（３）第３の方法
第３の方法では、制御部１１は、オペレータによる統合パラメータＰＢの値の指定を受け付けて、対象の統合パラメータＰＢの値を指定された値に設定する。受付画面は、上記実施形態と同様であってよい（図１２Ａ）。

【0402】

図１９Ａに戻り、ステップＳ２１１では、制御部１１は、上記３つの方法の少なくともいずれかを採用することで、各統合パラメータＰＢの値を決定することができる。ステップＳ２１２では、制御部１１は、決定された各統合パラメータＰＢの値を使用して、対応する各学習済み機械学習モデル４５Ｂの予測結果を重み付けする。上記第３の方法により複数の統合パラメータＰＢのうちの少なくともいずれかの値を設定した場合、ステップＳ２１２では、制御部１１は、上記により設定された値を使用して、対象の統合パラメータＰＢに対応する学習済み機械学習モデル４５Ｂの予測結果を重み付けする。ステップＳ２１３では、制御部１１は、各学習済み機械学習モデル４５Ｂの重み付けされた予測結果を統合する。予測結果の統合は、上記実施形態と同様に、重み付け平均又は重み付き多数決により行われてよい。これにより、対象の環境下において、移動体ＲＢの状態から移動体ＲＢの移動する経路を予測した結果を生成することができる。

【0403】

（ステップＳ２０５）
ステップＳ２０５では、制御部１１は、生成された予測結果に関する情報を出力する。上記実施形態と同様に、出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。制御部１１は、ステップＳ２０４により生成された予測結果をそのまま出力装置１６に出力してもよいし、生成された予測結果に基づいて、何らかの情報処理を実行してもよい。

【0404】

例えば、制御部１１は、ステップＳ２０４により生成された予測結果に基づいて、例えば、混雑していない経路等の推奨される移動経路を示す情報を予測結果に関する情報として生成してもよい。そして、制御部１１は、生成された推奨経路を示す情報を他の移動体に向けて出力してもよい。

【0405】

なお、上記実施形態と同様に、予測装置１Ｂの制御部１１は、各学習済み機械学習モデル４５Ｂを複数のグループのうちの少なくともいずれかに割り当ててよい。これにより、制御部１１は、目的に応じてグループ毎に統合処理を実行してもよい。グルーピングの方法には、上記２つの方法のうちのいずれかが採用されてよい。

【0406】

＜ローカル学習装置の推論処理＞
また、本変形例に係る各ローカル学習装置２Ｂは、上記各ローカル学習装置２と同様に、ステップＳ１１１～ステップＳ１１３の処理を実行することで、学習済み機械学習モデル４５Ｂを利用して、移動体ＲＢの移動する経路を予測することができる。

【0407】

ステップＳ１１１では、各ローカル学習装置２Ｂは、予測に利用する対象データを取得する。対象データの取得方法は、上記予測装置１ＢのステップＳ２０１と同様であってよい。ステップＳ１１２では、各ローカル学習装置２Ｂは、学習済み機械学習モデル４５Ｂに対象データを与えて、学習済み機械学習モデル４５Ｂの演算処理を実行する。これにより、各ローカル学習装置２Ｂは、学習済み機械学習モデル４５Ｂの出力として、移動体ＲＢの移動する経路を予測した結果を取得する。

【0408】

ステップＳ１１３では、各ローカル学習装置２Ｂは、予測結果に関する情報を出力する。出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。各ローカル学習装置２Ｂは、ステップＳ１１２により得られた推定結果をそのまま出力装置に出力してもよいし、得られた推定結果に基づいて、何らかの情報処理を実行してもよい。また、ステップＳ１１３の処理は、上記予測装置１ＢのステップＳ２０５と同様に実行されてよい。

【0409】

＜特徴＞
本変形例によれば、センサＳＢ１で移動体ＲＢの移動を観測する場面において、新たな環境で移動体ＲＢの移動を適切に予測可能な推論モデルを構築するのにかかるコストを低減することができる。また、センサＳＢ１の観測環境の観測に他のセンサＳＢ２を利用することで、センサＳＢ２の観測環境が十分に反映された環境データ６３Ｂを取得することができる。これにより、予測装置１Ｂによる移動体ＲＢの移動する経路の予測精度の向上を図ることができる。

【0410】

なお、本変形例は適宜変更されてよい。例えば、他のセンサＳＢ２以外から環境データ６３Ｂを取得する場合、他のセンサＳＢ２は省略されてよい。予測装置１Ｂと各センサ（センサＳＡ１、他のセンサＳＡ２）とは、通信インタフェースを介して接続されてよい。

【0411】

（Ｃ）ユーザに適合する会話戦略を推定する場面
図２０は、第３変形例に係る会話システム１００Ｃの適用場面の一例を模式的に例示する。本変形例は、ユーザの適合する会話戦略を推定する場面に上記実施形態を適用した例である。図２０に示されるとおり、本変形例に係る会話システム１００Ｃは、会話装置１Ｃ及び複数のローカル学習装置２Ｃを備えている。上記実施形態と同様に、会話装置１Ｃ及び各ローカル学習装置２Ｃは、ネットワークを介して互いに接続されてよい。

【0412】

会話装置１Ｃは、上記推論装置１に対応する。各ローカル学習装置２Ｃは、上記各ローカル学習装置２に対応する。取り扱うデータ及び推論の内容が限定されている点を除き、会話装置１Ｃは、上記推論装置１と同様に構成されてよく、各ローカル学習装置２Ｃは、上記各ローカル学習装置２と同様に構成されてよい。会話装置１Ｃのハードウェア構成及びソフトウェア構成は、上記推論装置１と同様であってよい。各ローカル学習装置２Ｃのハードウェア構成及びソフトウェア構成は、上記各ローカル学習装置２と同様であってよい。

【0413】

本変形例に係る所定の推論は、ユーザＲＣに適合する会話の戦略をユーザＲＣの会話行動から推定することである。会話戦略は、会話を生成する規則を与える。会話戦略は、例えば、発話する会話の内容、発話タイミング、会話の頻度、口調等を規定してもよい。ユーザの会話行動には、ユーザの会話に関するあらゆる行動が含まれてよい。ユーザの会話行動には、例えば、会話の内容、会話の頻度等が含まれてよい。会話の頻度は、例えば、前回に会話してからの経過時間、次に会話するまでの平均時間、一定時間内における会話の回数等により表現されてよい。本変形例では、会話装置１Ｃ及び各ローカル学習装置２Ｃには、マイクロフォンＳＣ１が接続されている。ユーザＲＣの会話行動は、マイクロフォンＳＣ１により観測される。

【0414】

なお、マイクロフォンＳＣ１は、ユーザＲＣの会話行動を観測するセンサの一例である。ユーザＲＣの会話行動を観測する方法は、このような例に限定されなくてもよく、マイクロフォン以外の方法が採用されてもよい。例えば、ユーザＲＣの会話行動は、ビデオカメラにより観測されてもよい。また、例えば、ユーザＲＣの会話行動は、キーボード等の入力装置を介して取得されてもよい。

【0415】

本変形例に係る各ローカル学習装置２Ｃは、ユーザＲＣに適合する会話の戦略をユーザＲＣの会話行動から推定する能力を獲得した学習済み機械学習モデル４５Ｃを生成する。これに対して、本変形例に係る会話装置１Ｃは、各ローカル学習装置２Ｃにより異なる環境下で得られたローカル学習データ３０Ｃから導出された各学習済み機械学習モデル４５Ｃを利用して、対象の環境下において対象ユーザＲＣに適合する会話の戦略を推定する。

【0416】

本変形例に係る会話装置１Ｃは、所定の推論の対象となる対象データ６１Ｃ、及び所定の推論を実行する対象の環境に関する環境データ６３Ｃを取得する。本変形例に係る所定の推論の対象となる対象データ６１Ｃは、対象のユーザＲＣの会話行動に関するものである。一方、本変形例に係る所定の推論を実行する対象の環境に関する環境データ６３Ｃは、対象のユーザＲＣが会話行動を行う対象の会話環境に関するものである。

【0417】

本変形例では、マイクロフォンＳＣ１とは別の他のセンサとしてカメラＳＣ２が会話装置１Ｃに更に接続されている。カメラＳＣ２は、対象のユーザＲＣが会話行動を行う対象の会話環境を観測するのに利用される。そのため、本変形例に係る会話装置１Ｃは、カメラＳＣ２から環境データ６３Ｃを取得することができる。なお、対象の会話環境を観測するセンサは、カメラに限られなくてもよく、実施の形態に応じて適宜選択されてよい。対象の会話環境として、気温、天気等を考慮する場合、対象の会話環境を観測するセンサには、例えば、気温計、気象センサ等が用いられてよい。

【0418】

本変形例に係る会話装置１Ｃは、取得された対象データ６１Ｃを各学習済み機械学習モデル４５Ｃに与えて、ユーザＲＣに適合する会話の戦略を各学習済み機械学習モデル４５Ｃに推定させる。これにより、本変形例に係る会話装置１Ｃは、ユーザＲＣに適合する会話戦略についての各学習済み機械学習モデル４５Ｃの推定結果を取得する。そして、本変形例に係る会話装置１Ｃは、統合規則５Ｃに従って、各学習済み機械学習モデル４５Ｃの推定結果を統合する。

【0419】

上記実施形態と同様に、統合規則５Ｃは、対象の環境下において、各学習済み機械学習モデル４５Ｃの推定結果を重視する程度をそれぞれ規定する複数の統合パラメータＰｃを備えている。本変形例に係る会話装置１Ｃは、環境データ６３Ｃに応じて、各統合パラメータＰｃの値を決定する。このとき、環境データ６３Ｃの他に、対象データ６１Ｃが更に考慮されてもよい。次に、本変形例に係る会話装置１Ｃは、決定された各統合パラメータＰｃの値を使用して、対応する各学習済み機械学習モデル４５Ｃの推定結果を重み付けする。そして、本変形例に係る会話装置１Ｃは、各学習済み機械学習モデル４５Ｃの重み付けされた推定結果を統合する。

【0420】

これにより、本変形例に係る会話装置１Ｃは、対象の環境下において、対象のユーザＲＣに適合する会話の戦略を対象のユーザＲＣの会話行動から推定した結果を生成することができる。

【0421】

＜学習済み機械学習モデルの生成＞
本変形例に係る各ローカル学習装置２Ｃは、上記各ローカル学習装置２と同様に、ステップＳ１０１～ステップＳ１０４の処理を実行することで、学習済み機械学習モデル４５Ｃを生成する。すなわち、ステップＳ１０１では、各ローカル学習装置２Ｃは、ローカル学習データ３０Ｃを取得する。そして、ステップＳ１０２では、各ローカル学習装置２Ｃは、取得されたローカル学習データ３０Ｃを利用して、機械学習モデル４０Ｃの機械学習を実行する。機械学習モデル４０Ｃの構成及び機械学習の方法は、上記機械学習モデル４０と同様であってよい。

【0422】

本変形例では、機械学習の方法には、上記第１の例～第３の例のいずれかが採用されてよい。第１の例を採用する場合、ローカル学習データ３０Ｃは、訓練データ及び正解データの組み合わせをそれぞれ含む複数の学習データセットにより構成される。訓練データは、上記対象データ６１Ｃと同種であり、ユーザＲＣ（被験者）の会話行動に関するデータにより構成されてよい。正解データは、訓練データに対する推論の結果（正解）、すなわち、そのユーザＲＣ（被験者）に適合する会話戦略を示すデータにより構成されてよい。各学習データセットは、上記実施形態と同様の方法により生成されてよい。各ローカル学習装置２Ｃは、取得されたローカル学習データ３０Ｃを利用して、機械学習モデル４０Ｃの教師あり学習を実行する。教師あり学習の方法は、上記実施形態と同様であってよい。

【0423】

第２の例を採用する場合、ローカル学習データ３０Ｃは、複数件の訓練データにより構成される。訓練データは、機械学習モデル４０Ｃに生成させることを所望するデータにより構成される。訓練データは、例えば、ユーザＲＣ（被験者）に適合する会話戦略を示すデータにより構成される。各件の訓練データは、上記実施形態と同様の方法により生成されてよい。各ローカル学習装置２Ｃは、取得されたローカル学習データ３０Ｃを利用して、機械学習モデル４０Ｃ及び他の機械学習モデルの敵対的学習を実行する。敵対的学習の方法は、上記実施形態と同様であってよい。

【0424】

第３の例を採用する場合、機械学習モデル４０Ｃには、価値ベース、方策ベース、又はその両方が採用されてよい。観測対象となる状態は、ユーザＲＣの会話行動に関するものであってよく、エージェントにより実行される行動は、ユーザＲＣとの会話であってよい。報酬関数は、オペレータ等により手動的に設定されてもよい。或いは、報酬関数は、機械学習モデル４０Ｃの推定結果の適正度に応じて即時報酬を与えるように設定されてもよい。この場合、上記実施形態と同様に、適正度は、オペレータ等により手動的に与えられてもよい。若しくは、適正度は、判定器を用いて所定の基準に従って評価されてもよい。判定器は、ユーザＲＣに適合する会話戦略を推定した結果の精度を評価するように構成されてよい。これに応じて、報酬関数は、複数回の推定処理の試行の結果に基づいて、会話戦略の推定の精度が閾値以上であればプラスの即時報酬を与え、会話戦略の推定の精度が許容値以下であればマイナスの即時報酬を与えるように設定されてよい。なお、会話戦略の推定精度は、例えば、ユーザＲＣの会話頻度が向上した等、エージェントとユーザＲＣとの会話が公的な方向に改善したことに基づいて評価されてよい。或いは、報酬関数は、エキスパートの実演を示す事例データから逆強化学習により推定されてもよい。本変形例では、事例データは、例えば、熟練者により指定された会話戦略を示すデータにより構成されてよい。各ローカル学習装置２Ｃは、適宜設定された学習の環境において、得られる価値（の期待値）が最大化されるように、機械学習モデル４０Ｃの演算パラメータの値を調整する。強化学習の方法は、上記実施形態と同様であってよい。

【0425】

各ローカル学習装置２Ｃは、上記いずれかの方法により、機械学習モデル４０Ｃの機械学習を実行することができる。これにより、各ローカル学習装置２Ｃは、ユーザＲＣに適合する会話の戦略をユーザＲＣの会話行動から推定する能力を獲得した学習済み機械学習モデル４５Ｃを生成することができる。

【0426】

ステップＳ１０３では、各ローカル学習装置２Ｃは、ローカル学習データ３０Ｃの得られた環境に関する学習環境データ３５Ｃを取得する。学習環境データ３５Ｃは、会話装置１Ｃで得られる環境データ６３Ｃと同種のデータである。学習環境データ３５Ｃを取得する方法は、環境データ６３Ｃを取得する方法と同様であってよい。例えば、各ローカル学習装置２Ｃは、カメラＳＣ２と同種のカメラに更に接続されてよく、学習環境データ３５Ｃを当該カメラから取得してもよい。ステップＳ１０４では、各ローカル学習装置２Ｃは、生成された学習済み機械学習モデル４５Ｃに関する情報を学習結果データ４７Ｃとして生成する。そして、各ローカル学習装置２Ｃは、学習結果データ４７Ｃを学習環境データ３５Ｃに関連付けて所定の記憶領域に保存する。

【0427】

本変形例では、各ローカル学習装置２Ｃの間において、ローカル学習データ３０Ｃが異なる環境下で取得されてよい。そして、得られたローカル学習データ３０Ｃから学習済み機械学習モデル４５Ｃが生成されてよい。その結果、ユーザＲＣに適合する会話戦略を推定可能に、異なる環境下で得られたローカル学習データ３０Ｃから導出された複数の学習済み機械学習モデル４５Ｃを得ることができる。

【0428】

＜会話装置のハードウェア構成＞
図２１は、本変形例に係る会話装置１Ｃのハードウェア構成の一例を模式的に例示する。図２１に示されるとおり、本変形例に係る会話装置１Ｃは、上記推論装置１と同様に、制御部１１、記憶部１２、通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６、及びドライブ１７が電気的に接続されたコンピュータである。会話装置１Ｃは、外部インタフェース１４を介して、マイクロフォンＳＣ１及びカメラＳＣ２に接続される。ただし、会話装置１Ｃのハードウェア構成は、このような例に限定されなくてもよい。会話装置１Ｃの具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。会話装置１Ｃは、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ、携帯電話、スマートフォン、モバイルＰＣ等であってよい。

【0429】

本変形例に係る会話装置１Ｃの記憶部１２は、会話プログラム８１Ｃ、統合規則データ５７Ｃ、学習結果データ４７Ｃ、学習データ５９Ｃ、学習環境データ３５Ｃ等の各種情報を記憶する。会話プログラム８１Ｃ、統合規則データ５７Ｃ、学習結果データ４７Ｃ、学習データ５９Ｃ、及び学習環境データ３５Ｃは、上記実施形態に係る推論プログラム８１、統合規則データ５７、学習結果データ４７、学習データ５９、及び学習環境データ３５に対応する。会話プログラム８１Ｃ、統合規則データ５７Ｃ、学習結果データ４７Ｃ、学習データ５９Ｃ、及び学習環境データ３５Ｃの少なくともいずれかは記憶媒体９１に記憶されていてもよい。また、会話装置１Ｃは、記憶媒体９１から、会話プログラム８１Ｃ、統合規則データ５７Ｃ、学習結果データ４７Ｃ、学習データ５９Ｃ、及び学習環境データ３５Ｃの少なくともいずれかを取得してもよい。

【0430】

＜会話装置のソフトウェア構成＞
図２２Ａ及び図２２Ｂは、本変形例に係る会話装置１Ｃのソフトウェア構成の一例を模式的に例示する。上記実施形態と同様に、会話装置１Ｃのソフトウェア構成は、制御部１１による会話プログラム８１Ｃの実行により実現される。図２２Ａ及び図２２Ｂに示されるとおり、取り扱うデータ及び推論の内容が限定されている点を除き、会話装置１Ｃのソフトウェア構成は、上記推論装置１のソフトウェア構成と同様である。これにより、会話装置１Ｃは、上記推論装置１と同様に、上記推論に関する一連の処理を実行する。

【0431】

（ステップＳ２０１）
すなわち、図２２Ａに示されるとおり、ステップＳ２０１では、会話装置１Ｃの制御部１１は、対象データ６１Ｃを取得する。対象データ６１Ｃは、対象のユーザＲＣの会話行動に関するものであれば、その内容は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。対象データ６１Ｃには、例えば、対象のユーザＲＣの会話行動を観測するセンサにより得られる観測データ、観測データから解析される会話情報を示すデータ等が含まれてよい。会話行動を観測するセンサは、例えば、マイクロフォン、カメラ、ビデオカメラ等であってよい。また、観測データから解析される会話情報は、例えば、会話の内容、会話の頻度、会話装置１ＣとユーザＲＣとの間の距離等が含まれてよい。会話情報の解析には、公知の方法が採用されてよい。また、会話の内容、会話の頻度等の会話情報は、入力装置１５を介したユーザＲＣの入力行動から特定されてもよい。

【0432】

対象データ６１Ｃを取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、会話行動を観測するセンサにより得られる観測データが対象データ６１Ｃとして取得されてよい。本変形例では、会話装置１ＣにはマイクロフォンＳＣ１が接続されているため、制御部１１は、マイクロフォンＳＣ１により得られる音データを対象データ６１Ｃとして取得することができる。また、例えば、センサにより得られる観測データに何らかの解析処理を実行することで、対象データ６１Ｃが取得されてもよい。本変形例では、マイクロフォンＳＣ１により得られる音データに何らかの解析処理（例えば、音声解析）を実行し、これにより得られる解析結果（例えば、会話の文字列）を対象データ６１Ｃとして取得してもよい。また、例えば、入力装置１５を介したユーザＲＣの入力行動に基づいて対象データ６１Ｃが取得されてもよい。制御部１１は、各装置から直接的に対象データ６１Ｃを取得してもよいし、他のコンピュータを介して間接的に対象データ６１Ｃを取得してもよい。

【0433】

（ステップＳ２０２）
ステップＳ２０２では、制御部１１は、環境データ６３Ｃを取得する。環境データ６３Ｃは、対象のユーザＲＣが会話行動を行う対象の会話環境に関するものであれば、その内容は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。環境データ６３Ｃには、例えば、ユーザＲＣの属性を示すデータ、会話行動に影響を与える環境属性を示すデータ、会話行動を観測するセンサの仕様（又は性能）に関する属性を示すデータ等が含まれてよい。ユーザＲＣの属性には、例えば、ユーザＲＣの年齢、性別、職業、出身地、性格タイプ等が含まれてよい。会話行動に異教を与える環境属性には、例えば、気温、天候、曜日、休日／平日の種別等が含まれてよい。センサの仕様に関する属性は、例えば、センサの感度限界、ダイナミックレンジ、空間分解能の設定可能範囲、サンプリング周波数の設定可能範囲等が含まれてよい。

【0434】

環境データ６３Ｃを取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、環境データ６３Ｃは、ユーザ等の入力により取得されてもよい。また、例えば、環境データ６３Ｃは、会話行動を観測するセンサから取得されてもよい。本変形例では、マイクロフォンＳＣ１から得られる仕様に関する情報が環境データ６３Ｃとして取得されてもよい。また、例えば、環境データ６３Ｃは、会話行動を観測するセンサにより得られる観測データに何らかの解析処理を実行することで取得されてもよい。本変形例では、マイクロフォンＳＣ１により得られる音データに何らかの解析処理（例えば、音声解析）を実行し、これにより得られる解析結果（例えば、ユーザの性別を識別した結果）が環境データ６３Ｃとして取得されてもよい。また、例えば、環境データ６３Ｃは、対象の会話環境を観測する他のセンサから取得されてもよい。本変形例では、他のセンサとしてカメラＳＣ２が会話装置１Ｃに接続されている。そのため、カメラＳＣ２により得られる画像データが環境データ６３Ｃとして取得されてもよい。また、例えば、環境データ６３Ｃは、他のセンサにより得られる観測データに何らかの解析処理を実行することで取得されてもよい。本変形例では、カメラＳＣ２により得られる画像データに何らかの解析処理（例えば、ユーザの属性を識別する画像解析）を実行し、これにより得られる解析結果（ユーザの属性の識別結果）が環境データ６３Ｃとして取得されてもよい。また、例えば、気象データ等の情報を配信する他の情報処理装置（サーバ）から環境データ６３Ｃが取得されてもよい。制御部１１は、各装置から直接的に環境データ６３Ｃを取得してもよいし、他のコンピュータを介して間接的に環境データ６３Ｃを取得してもよい。

【0435】

（ステップＳ２０３）
ステップＳ２０３では、制御部１１は、各件の学習結果データ４７Ｃを参照することで、各学習済み機械学習モデル４５Ｃの設定を行う。次に、制御部１１は、各学習済み機械学習モデル４５Ｃに対象データ６１Ｃを与えて、各学習済み機械学習モデル４５Ｃの演算処理を実行する。これにより、制御部１１は、各学習済み機械学習モデル４５Ｃの出力として、ユーザＲＣに適合する会話戦略についての各学習済み機械学習モデル４５Ｃの推定結果を取得する。

【0436】

（ステップＳ２０４）
ステップＳ２０４では、制御部１１は、統合規則データ５７Ｃを参照して、統合規則５Ｃの設定を行う。そして、制御部１１は、統合規則５Ｃに従って、各学習済み機械学習モデル４５Ｃの推定結果を統合する。具体的には、ステップＳ２１１では、制御部１１は、環境データ６３Ｃに応じて、各統合パラメータＰｃの値を決定する。このとき、環境データ６３Ｃの他に、対象データ６１Ｃが更に考慮されてもよい。各統合パラメータＰｃの値を決定する方法には、上記第１～第３の方法のいずれかが採用されてよい。

【0437】

（１）第１の方法
図２２Ｂに示されるとおり、第１の方法を採用する場合、制御部１１は、学習データ５９Ｃを取得する。そして、制御部１１は、学習データ５９Ｃを利用して、演算モデル５１Ｃの機械学習を実行する。演算モデル５１Ｃの構成及び機械学習の方法は、上記演算モデル５１と同様であってよい。演算モデル５１Ｃの構成及び機械学習の方法には、上記２つの例のうちのいずれかが採用されてよい。

【0438】

第１の例を採用する場合、学習データ５９Ｃは、上記学習データ５９と同様に、訓練用環境データ、訓練用対象データ、及び正解データの組み合わせをそれぞれ含む複数の学習データセットにより構成されてよい。訓練用環境データは、環境データ６３Ｃと同種のデータである。訓練用対象データは、対象データ６１Ｃと同種のデータである。正解データは、訓練用対象データに対する推論の結果（正解）、すなわち、対象の環境下において、ユーザＲＣに適合する会話戦略を示すデータにより構成されてよい。各学習データセットは、上記実施形態と同様の方法により生成されてよい。制御部１１は、取得された学習データ５９Ｃを利用して、演算モデル５１Ｃの機械学習を実行する。機械学習の方法は、上記第１の例と同様であってよい。

【0439】

第２の例を採用する場合、演算モデル５１Ｃには、価値ベース、方策ベース、又はその両方が採用されてよい。上記実施形態と同様に、観測対象となる状態は、環境データ６３Ｃ及び対象データ６１Ｃに対応する。エージェントにより実行される行動は、ユーザＲＣとの会話であってよい。エージェントは、上記一連の処理により、各学習済み機械学習モデル４５Ｃの推定結果を取得して、取得された推定結果を統合することで、対象の環境下においてユーザＲＣに適合する会話戦略の推定結果を生成することができる。エージェントは、生成された推定結果（すなわち、推定された最適な会話戦略）に基づいて採用する会話行動を決定してもよい。

【0440】

報酬関数は、オペレータ等により手動的に設定されてもよい。或いは、報酬関数は、上記一連の処理で生成される推定結果の適正度に応じて即時報酬を与えるように設定されてよい。適正度は、オペレータ等により手動的に与えられてもよい。若しくは、適正度は、判定器を用いて所定の基準に従って評価されてもよい。判定器は、上記機械学習モデル４０Ｃの強化学習における判定器と同様であってよい。或いは、報酬関数は、エキスパートの実演を示す事例データから逆強化学習により推定されてもよい。この事例データは、上記機械学習モデル４０Ｃの強化学習における報酬関数の設定に利用される事例データと同様であってよい。制御部１１は、適宜設定された学習の環境において、得られる価値（の期待値）が最大化されるように、演算モデル５１Ｃの演算パラメータの値を調整する。強化学習の方法は、上記実施形態と同様であってよい。

【0441】

制御部１１は、上記いずれかの方法により、演算モデル５１Ｃの機械学習を実行することができる。これにより、制御部１１は、対象の会話環境下におけるユーザＲＣに適合する会話戦略の推定に適合する各統合パラメータＰｃの値を環境データ６３Ｃ（及び対象データ６１Ｃ）から推定する能力を獲得した学習済み演算モデル５２Ｃを生成することができる。制御部１１は、生成された学習済み演算モデル５２Ｃに関する情報を所定の記憶領域に保存してもよい。学習済み演算モデル５２Ｃに関する情報は、統合規則データ５７Ｃの少なくとも一部として保存されてもよいし、統合規則データ５７Ｃとは別に保存されてもよい。

【0442】

第１の方法では、制御部１１は、上記により生成された学習済み演算モデル５２Ｃを利用して、各統合パラメータＰｃの値を決定する。すなわち、ステップＳ２１１では、制御部１１は、学習済み演算モデル５２Ｃに環境データ６３Ｃを与える。このとき、制御部１１は、学習済み演算モデル５２Ｃに対象データ６１Ｃを更に与えてよい。そして、制御部１１は、学習済み演算モデル５２Ｃの演算処理を実行する。これにより、制御部１１は、学習済み演算モデル５２Ｃの出力として、各学習済み機械学習モデル４５Ｃに対する各統合パラメータＰｃの値を取得することができる。

【0443】

（２）第２の方法
第２の方法では、制御部１１は、対象の環境と各学習環境との比較に基づいて、各統合パラメータＰｃの値を決定する。すなわち、制御部１１は、各学習済み機械学習モデル４５Ｃの学習環境データ３５Ｃを取得する。次に、制御部１１は、各件の学習環境データ３５Ｃ及び環境データ６３Ｃの適合度を算出する。適合度の形式及び表現は、上記実施形態と同様であってよい。上記ステップＳ２１１では、制御部１１は、算出された各適合度に応じて、対応する各学習済み機械学習モデル４５Ｃに対する各統合パラメータＰｃの値を決定してもよい。適合度に応じて統合パラメータＰｃの値を決定する方法は、上記実施形態と同様であってよい。

【0444】

（３）第３の方法
第３の方法では、制御部１１は、オペレータによる統合パラメータＰｃの値の指定を受け付けて、対象の統合パラメータＰｃの値を指定された値に設定する。受付画面は、上記実施形態と同様であってよい（図１２Ａ）。

【0445】

図２２Ａに戻り、ステップＳ２１１では、制御部１１は、上記３つの方法の少なくともいずれかを採用することで、各統合パラメータＰｃの値を決定することができる。ステップＳ２１２では、制御部１１は、決定された各統合パラメータＰｃの値を使用して、対応する各学習済み機械学習モデル４５Ｃの推定結果を重み付けする。上記第３の方法により複数の統合パラメータＰｃのうちの少なくともいずれかの値を設定した場合、ステップＳ２１２では、制御部１１は、上記により設定された値を使用して、対象の統合パラメータＰｃに対応する学習済み機械学習モデル４５Ｃの推定結果を重み付けする。ステップＳ２１３では、制御部１１は、各学習済み機械学習モデル４５Ｃの重み付けされた推定結果を統合する。推定結果の統合は、上記実施形態と同様に、重み付け平均又は重み付き多数決により行われてよい。これにより、対象の環境下において、対象のユーザＲＣに適合する会話戦略を推定した結果を生成することができる。

【0446】

【0447】

例えば、制御部１１は、生成された推定結果、すなわち、推定されたユーザＲＣ適合の会話戦略に基づいて、ユーザＲＣと会話を行ってもよい。制御部１１は、スピーカ、ディスプレイ等の出力装置１６を介して会話内容を出力してもよい。会話の出力は、音声出力であってもよいし、画像出力であってもよい。また、会話の出力先は、出力装置１６に限られなくてもよい。制御部１１は、他のコンピュータを介してユーザＲＣと会話を行ってもよい。

【0448】

なお、上記実施形態と同様に、会話装置１Ｃの制御部１１は、各学習済み機械学習モデル４５Ｃを複数のグループのうちの少なくともいずれかに割り当ててよい。これにより、制御部１１は、目的に応じてグループ毎に統合処理を実行してもよい。グルーピングの方法には、上記２つの方法のうちのいずれかが採用されてよい。

【0449】

＜ローカル学習装置の推論処理＞
また、本変形例に係る各ローカル学習装置２Ｃは、上記各ローカル学習装置２と同様に、ステップＳ１１１～ステップＳ１１３の処理を実行することで、学習済み機械学習モデル４５Ｃを利用して、ユーザＲＣに適合する会話戦略を推定することができる。

【0450】

ステップＳ１１１では、各ローカル学習装置２Ｃは、推定に利用する対象データを取得する。対象データの取得方法は、上記会話装置１ＣのステップＳ２０１と同様であってよい。ステップＳ１１２では、各ローカル学習装置２Ｃは、学習済み機械学習モデル４５Ｃに対象データを与えて、学習済み機械学習モデル４５Ｃの演算処理を実行する。これにより、各ローカル学習装置２Ｃは、学習済み機械学習モデル４５Ｃの出力として、ユーザＲＣに適合する会話戦略を推定した結果を取得する。

【0451】

ステップＳ１１３では、各ローカル学習装置２Ｃは、推定結果に関する情報を出力する。出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。各ローカル学習装置２Ｃは、ステップＳ１１２により得られた推定結果をそのまま出力装置に出力してもよいし、得られた推定結果に基づいて、何らかの情報処理を実行してもよい。また、上記会話装置１ＣのステップＳ２０５と同様に、各ローカル学習装置２Ｃは、出力処理として、推定されたユーザＲＣ適合の会話戦略に基づいて、ユーザＲＣと会話を行ってもよい。

【0452】

＜特徴＞
本変形例によれば、ユーザＲＣとの間で会話を行う場面において、新たな環境で対象のユーザＲＣに適合する会話戦略を適切に推定可能な推論モデルを構築するのにかかるコストを低減することができる。また、これに応じて、そのような推論モデルを構築するまでにかかる時間を短縮することが可能である。

【0453】

ユーザＲＣに適合する会話戦略を適切に推定可能な推論モデルを構築するのに時間がかかる場合、その構築の間に、ユーザＲＣに適合しない会話戦略に基づく会話が繰り返される可能性がある。これにより、ユーザＲＣは、会話装置との会話を煩わしく感じ、会話装置の利用を止めてしまう可能性がある。これに対して、本変形例によれば、ユーザＲＣに適合する会話戦略を適切に推定可能な推論モデルを構築するまでにかかる時間を短縮することができるため、会話装置１Ｃの利用性を高めることができる。

【0454】

なお、本変形例は適宜変更されてよい。例えば、マイクロフォンＳＣ１以外から対象データ６１Ｃを取得する場合、マイクロフォンＳＣ１は省略されてよい。カメラＳＣ２以外から環境データ６３Ｃを取得する場合、カメラＳＣ２は省略されてよい。会話装置１Ｃと各センサ（マイクロフォンＳＣ１、カメラＳＣ２）とは、通信インタフェースを介して接続されてもよい。

【0455】

（Ｄ）タスクに適合する動作指令を推定する場面
図２３は、第４変形例に係る制御システム１００Ｄの適用場面の一例を模式的に例示する。本変形例は、タスクに適合する動作指令を推定する場面に上記実施形態を適用した例である。図２３に示されるとおり、本変形例に係る制御システム１００Ｄは、制御装置１Ｄ及び複数のローカル学習装置２Ｄを備えている。上記実施形態と同様に、制御装置１Ｄ及び各ローカル学習装置２Ｄは、ネットワークを介して互いに接続されてよい。

【0456】

制御装置１Ｄは、上記推論装置１に対応する。各ローカル学習装置２Ｄは、上記各ローカル学習装置２に対応する。取り扱うデータ及び推論の内容が限定されている点を除き、制御装置１Ｄは、上記推論装置１と同様に構成されてよく、各ローカル学習装置２Ｄは、上記各ローカル学習装置２と同様に構成されてよい。制御装置１Ｄのハードウェア構成及びソフトウェア構成は、上記推論装置１と同様であってよい。各ローカル学習装置２Ｄのハードウェア構成及びソフトウェア構成は、上記各ローカル学習装置２と同様であってよい。

【0457】

本変形例に係る所定の推論は、タスクに適合するロボット装置ＲＤの動作指令をロボット装置ＲＤの状態から推定することである。ロボット装置ＲＤ及びタスクそれぞれの種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。ロボット装置ＲＤは、例えば、産業用ロボット、設備装置、自動運転可能な車両等であってよい。設備装置は、例えば、エアコンディショナ、照明装置等であってよい。ロボット装置ＲＤが産業用ロボットである場合、タスクは、例えば、ワークを目的位置に配置することなどであってよい。ロボット装置ＲＤがエアコンディショナ等の設備装置である場合、タスクは、例えば、所定の温度に保つ等、設備装置の種類に応じて適宜決定されてよい。ロボット装置ＲＤが自動運転可能な車両である場合、タスクは、例えば、現在位置から目的位置まで自動運転により移動すること等であってよい。本変形例では、制御装置１Ｄ及び各ローカル学習装置２Ｄそれぞれには、ロボット装置ＲＤが接続されている。これにより、制御装置１Ｄ及び各ローカル学習装置２Ｄはそれぞれ、推定した動作指令に基づいてロボット装置ＲＤの動作を制御することができる。

【0458】

本変形例に係る各ローカル学習装置２Ｄは、タスクに適合するロボット装置ＲＤの動作指令をロボット装置ＲＤの状態から推定する能力を獲得した学習済み機械学習モデル４５Ｄを生成する。これに対して、本変形例に係る制御装置１Ｄは、各ローカル学習装置２Ｄにより異なる環境下で得られたローカル学習データ３０Ｄから導出された各学習済み機械学習モデル４５Ｄを利用して、対象の環境下において、対象のロボット装置ＲＤのタスクに適合する動作指令を推定する。

【0459】

本変形例に係る制御装置１Ｄは、所定の推論の対象となる対象データ６１Ｄ、及び所定の推論を実行する対象の環境に関する環境データ６３Ｄを取得する。本変形例に係る所定の推論の対象となる対象データ６１Ｄは、対象のロボット装置ＲＤの状態に関するものである。一方、本変形例に係る所定の推論を実行する対象の環境に関する環境データ６３Ｄは、対象のロボット装置ＲＤがタスクを遂行する対象のタスク環境に関するものである。

【0460】

本変形例では、センサＳＤが制御装置１Ｄに更に接続されている。センサＳＤは、例えば、カメラ等であり、対象のロボット装置ＲＤの状態を観測するのに利用される。そのため、本変形例に係る制御装置１Ｄは、センサＳＤから対象データ６１Ｄを取得することができる。なお、センサＳＤ又は他のセンサにより、対象のタスク環境が観測されてよい。この場合、本変形例に係る制御装置１Ｄは、センサＳＤ又は他のセンサから環境データ６３Ｄを取得してもよい。

【0461】

本変形例に係る制御装置１Ｄは、取得された対象データ６１Ｄを各学習済み機械学習モデル４５Ｄに与えて、タスクに適合するロボット装置ＲＤの動作指令を各学習済み機械学習モデル４５Ｄに推定させる。これにより、本変形例に係る制御装置１Ｄは、タスクに適合するロボット装置ＲＤの動作指令についての各学習済み機械学習モデル４５Ｄの推定結果を取得する。そして、本変形例に係る制御装置１Ｄは、統合規則５Ｄに従って、各学習済み機械学習モデル４５Ｄの推定結果を統合する。

【0462】

上記実施形態と同様に、統合規則５Ｄは、対象の環境下において、各学習済み機械学習モデル４５Ｄの推定結果を重視する程度をそれぞれ規定する複数の統合パラメータＰＤを備えている。本変形例に係る制御装置１Ｄは、環境データ６３Ｄに応じて、各統合パラメータＰＤの値を決定する。このとき、環境データ６３Ｄの他に、対象データ６１Ｄが更に考慮されてもよい。次に、本変形例に係る制御装置１Ｄは、決定された各統合パラメータＰＤの値を使用して、対応する各学習済み機械学習モデル４５Ｄの推定結果を重み付けする。そして、本変形例に係る制御装置１Ｄは、各学習済み機械学習モデル４５Ｄの重み付けされた推定結果を統合する。

【0463】

これにより、本変形例に係る制御装置１Ｄは、対象の環境下において、対象のロボット装置ＲＤのタスクに適合する動作指令を推定することができる。

【0464】

＜学習済み機械学習モデルの生成＞
本変形例に係る各ローカル学習装置２Ｄは、上記各ローカル学習装置２と同様に、ステップＳ１０１～ステップＳ１０４の処理を実行することで、学習済み機械学習モデル４５Ｄを生成する。すなわち、ステップＳ１０１では、各ローカル学習装置２Ｄは、ローカル学習データ３０Ｄを取得する。そして、ステップＳ１０２では、各ローカル学習装置２Ｄは、取得されたローカル学習データ３０Ｄを利用して、機械学習モデル４０Ｄの機械学習を実行する。機械学習モデル４０Ｄの構成及び機械学習の方法は、上記機械学習モデル４０と同様であってよい。

【0465】

本変形例では、機械学習の方法には、上記第１の例～第３の例のいずれかが採用されてよい。第１の例を採用する場合、ローカル学習データ３０Ｄは、訓練データ及び正解データの組み合わせをそれぞれ含む複数の学習データセットにより構成される。訓練データは、上記対象データ６１Ｄと同種であり、ロボット装置ＲＤの状態に関するデータにより構成されてよい。正解データは、訓練データに対する推論の結果（正解）、すなわち、そのタスクの遂行に適合するロボット装置ＲＤの動作指令を示すデータにより構成されてよい。各学習データセットは、上記実施形態と同様の方法により生成されてよい。各ローカル学習装置２Ｄは、取得されたローカル学習データ３０Ｄを利用して、機械学習モデル４０Ｄの教師あり学習を実行する。教師あり学習の方法は、上記実施形態と同様であってよい。

【0466】

第２の例を採用する場合、ローカル学習データ３０Ｄは、複数件の訓練データにより構成される。訓練データは、機械学習モデル４０Ｄに生成させることを所望するデータにより構成される。訓練データは、例えば、タスクの遂行に適合するロボット装置ＲＤの動作指令を示すデータにより構成される。各ローカル学習装置２Ｄは、取得されたローカル学習データ３０Ｄを利用して、機械学習モデル４０Ｄ及び他の機械学習モデルの敵対的学習を実行する。敵対的学習の方法は、上記実施形態と同様であってよい。

【0467】

第３の例を採用する場合、機械学習モデル４０Ｄには、価値ベース、方策ベース、又はその両方が採用されてよい。観測対象となる状態は、ロボット装置ＲＤの内部及び外部の少なくとも一方の状況に関するものであってよい。エージェントにより実行される行動は、動作指令に基づく動作であってよい。報酬関数は、オペレータ等により手動的に設定されてもよい。或いは、報酬関数は、機械学習モデル４０Ｄの推定結果の適正度に応じて即時報酬を与えるように設定されてもよい。この場合、上記実施形態と同様に、適正度は、オペレータ等により手動的に与えられてもよい。若しくは、適正度は、判定器を用いて所定の基準に従って評価されてもよい。判定器は、タスクに適合する動作指令を推定した結果の精度を評価するように構成されてよい。これに応じて、報酬関数は、複数回の推定処理の試行の結果に基づいて、動作指令の推定の精度が閾値以上であればプラスの即時報酬を与え、動作指令の推定の精度が許容値以下であればマイナスの即時報酬を与えるように設定されてよい。なお、動作指令の推定精度は、例えば、対象のタスクが適正に遂行されたか否か等、タスクの遂行状況に基づいて評価されてよい。或いは、報酬関数は、エキスパートの実演を示す事例データから逆強化学習により推定されてもよい。本変形例では、事例データは、例えば、熟練者によるロボット装置ＲＤの操作軌跡を示すデータにより構成されてよい。各ローカル学習装置２Ｄは、適宜設定された学習の環境において、得られる価値（の期待値）が最大化されるように、機械学習モデル４０Ｄの演算パラメータの値を調整する。強化学習の方法は、上記実施形態と同様であってよい。

【0468】

各ローカル学習装置２Ｄは、上記いずれかの方法により、機械学習モデル４０Ｄの機械学習を実行することができる。これにより、各ローカル学習装置２Ｄは、タスクに適合するロボット装置ＲＤの動作指令をロボット装置ＲＤの状態から推定する能力を獲得した学習済み機械学習モデル４５Ｄを生成することができる。

【0469】

ステップＳ１０３では、各ローカル学習装置２Ｄは、ローカル学習データ３０Ｄの得られた環境に関する学習環境データ３５Ｄを取得する。学習環境データ３５Ｄは、制御装置１Ｄで得られる環境データ６３Ｄと同種のデータである。学習環境データ３５Ｄを取得する方法は、環境データ６３Ｄを取得する方法と同様であってよい。ステップＳ１０４では、各ローカル学習装置２Ｄは、生成された学習済み機械学習モデル４５Ｄに関する情報を学習結果データ４７Ｄとして生成する。そして、各ローカル学習装置２Ｄは、学習結果データ４７Ｄを学習環境データ３５Ｄに関連付けて所定の記憶領域に保存する。

【0470】

本変形例では、各ローカル学習装置２Ｄの間において、ローカル学習データ３０Ｄが異なる環境下で取得されてよい。そして、得られたローカル学習データ３０Ｄから学習済み機械学習モデル４５Ｄが生成されてよい。その結果、タスクに適合するロボット装置ＲＤの動作指令を推定可能に、異なる環境下で得られたローカル学習データ３０Ｄから導出された複数の学習済み機械学習モデル４５Ｄを得ることができる。

【0471】

図２４は、本変形例に係る制御装置１Ｄのハードウェア構成の一例を模式的に例示する。図２４に示されるとおり、本変形例に係る制御装置１Ｄは、上記推論装置１と同様に、制御部１１、記憶部１２、通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６、及びドライブ１７が電気的に接続されたコンピュータである。制御装置１Ｄは、外部インタフェース１４を介して、ロボット装置ＲＤ及びセンサＳＤに接続される。ただし、制御装置１Ｄのハードウェア構成は、このような例に限定されなくてもよい。制御装置１Ｄの具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。制御装置１Ｄは、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ、ＰＬＣ等であってよい。

【0472】

本変形例に係る制御装置１Ｄの記憶部１２は、制御プログラム８１Ｄ、統合規則データ５７Ｄ、学習結果データ４７Ｄ、学習データ５９Ｄ、学習環境データ３５Ｄ等の各種情報を記憶する。制御プログラム８１Ｄ、統合規則データ５７Ｄ、学習結果データ４７Ｄ、学習データ５９Ｄ、及び学習環境データ３５Ｄは、上記実施形態に係る推論プログラム８１、統合規則データ５７、学習結果データ４７、学習データ５９、及び学習環境データ３５に対応する。制御プログラム８１Ｄ、統合規則データ５７Ｄ、学習結果データ４７Ｄ、学習データ５９Ｄ、及び学習環境データ３５Ｄの少なくともいずれかは記憶媒体９１に記憶されていてもよい。また、制御装置１Ｄは、記憶媒体９１から、制御プログラム８１Ｄ、統合規則データ５７Ｄ、学習結果データ４７Ｄ、学習データ５９Ｄ、及び学習環境データ３５Ｄの少なくともいずれかを取得してもよい。

【0473】

＜制御装置のソフトウェア構成＞
図２５Ａ及び図２５Ｂは、本変形例に係る制御装置１Ｄのソフトウェア構成の一例を模式的に例示する。上記実施形態と同様に、制御装置１Ｄのソフトウェア構成は、制御部１１による制御プログラム８１Ｄの実行により実現される。図２５Ａ及び図２５Ｂに示されるとおり、取り扱うデータ及び推論の内容が限定されている点を除き、制御装置１Ｄのソフトウェア構成は、上記推論装置１のソフトウェア構成と同様である。これにより、制御装置１Ｄは、上記推論装置１と同様に、上記推論に関する一連の処理を実行する。

【0474】

（ステップＳ２０１）
すなわち、図２５Ａに示されるとおり、ステップＳ２０１では、制御装置１Ｄの制御部１１は、対象データ６１Ｄを取得する。対象データ６１Ｄは、対象のロボット装置ＲＤの状態に関するものであれば、その内容は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。対象データ６１Ｄには、例えば、ロボット装置ＲＤの内部状況を示すデータ、ロボット装置ＲＤの外部状況を示すデータ等が含まれてよい。

【0475】

ロボット装置ＲＤが産業用ロボットである場合、ロボット装置ＲＤの内部状況には、例えば、エンコーダにより計測される各関節の角度、力センサにより計測されるエンドエフェクタに作用する力等が含まれてよく、ロボット装置ＲＤの外部状況には、例えば、ワークの状態、作業範囲の状態等が含まれてよい。ワークの状態及び作業範囲の状態は、例えば、カメラ等のセンサにより観測されてよい。

【0476】

また、ロボット装置ＲＤが設備装置である場合、ロボット装置ＲＤの内部状況には、例えば、設備装置の動作設定（例えば、空調温度）等が含まれてよく、ロボット装置ＲＤの外部状況には、例えば、設備装置の動作範囲の状態等が含まれてよい。設備装置が空調装置である場合、設備装置の動作範囲の状態には、例えば、温度センサにより得られる室内温度が含まれてよい。

【0477】

ロボット装置ＲＤが自動運転可能な車両である場合、ロボット装置ＲＤの内部状況には、例えば、ハンドルの操舵角、アクセル量、ブレーキ量、クラクションの操作の有無等が含まれてよく、ロボット装置ＲＤの外部状況には、例えば、障害物の有無、走行道路の状態等の車両外部の状況が含まれてよい。車両外部の状況は、例えば、カメラ、Ｌｉｄａｒセンサ等により観測されてよい。

【0478】

対象データ６１Ｄを取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、ロボット装置ＲＤ自身から内部状況を示すデータが対象データ６１Ｄとして取得されてもよい。また、例えば、対象データ６１Ｄは、ロボット装置ＲＤの内部状況を観測するセンサから取得されてもよい。ロボット装置ＲＤの内部状況を観測するセンサには、例えば、エンコーダ、力センサ等が用いられてよい。また、例えば、対象データ６１Ｄは、ロボット装置ＲＤの外部状況を観測するセンサから取得されてもよい。ロボット装置ＲＤの外部状況を観測するセンサには、例えば、カメラ、Ｌｉｄａｒセンサ、赤外線センサ等が用いられてよい。また、例えば、オペレータ等の入力により、対象データ６１Ｄは取得されてもよい。制御部１１は、各装置から直接的に対象データ６１Ｄを取得してもよいし、他のコンピュータを介して間接的に対象データ６１Ｄを取得してもよい。本変形例では、制御装置１Ｄには、ロボット装置ＲＤの外部状況を観測するセンサＳＤが接続されている。そのため、制御部１１は、センサＳＤから対象データ６１Ｄを取得することができる。

【0479】

（ステップＳ２０２）
ステップＳ２０２では、制御部１１は、環境データ６３Ｄを取得する。環境データ６３Ｄは、対象のロボット装置ＲＤがタスクを遂行する対象のタスク環境に関するものであれば、その内容は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。環境データ６３Ｄには、例えば、ロボット装置ＲＤの属性を示すデータ、ロボット装置ＲＤの状態を観測するセンサの仕様（又は性能）に関する属性を示すデータ、センサの観測条件に関する属性を示すデータ等が含まれてもよい。

【0480】

ロボット装置ＲＤの属性には、例えば、ロボット装置ＲＤの種別、ロボット装置ＲＤの性能等が含まれてよい。ロボット装置ＲＤが産業用ロボットである場合、ロボット装置ＲＤの性能は、例えば、駆動範囲、可搬重量等により表現されてよい。ロボット装置ＲＤが空調装置である場合、ロボット装置ＲＤの性能は、例えば、温度制御範囲等により表現されてよい。ロボット装置ＲＤが自動運転可能な車両である場合、ロボット装置ＲＤの性能は、例えば、限界走行速度等により表現されてよい。

【0481】

センサの仕様に関する属性は、例えば、センサの感度限界、ダイナミックレンジ、空間分解能の設定可能範囲、サンプリング周波数の設定可能範囲等が含まれてよい。センサの観測条件に関する属性には、例えば、センサの設置角度、センサの動作設定に関する属性等が含まれてよい。センサの動作設定に関する属性には、例えば、センサの計測範囲の設定値、計測範囲の分解能の設定値、サンプリング周波数の設定値等が含まれてよい。具体例として、センサがカメラの場合、動作設定に関する属性には、絞り値、シャッタースピード、ズーム倍率等が含まれてよい。

【0482】

環境データＤを取得する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、環境データ６３Ｄは、オペレータ等の入力により取得されてもよい。また、例えば、環境データ６３Ｄは、ロボット装置ＲＤ自身又はロボット装置ＲＤの情報を提供する他の情報処理装置（サーバ）から取得されてもよい。また、例えば、環境データ６３Ｄは、ロボット装置ＲＤの状態を観測するセンサ自身又はセンサの情報を提供する他の情報処理装置（サーバ）から取得されてもよい。制御部１１は、各装置から直接的に環境データ６３Ｄを取得してもよいし、他のコンピュータを介して間接的に環境データ６３Ｄを取得してもよい。

【0483】

（ステップＳ２０３）
ステップＳ２０３では、制御部１１は、各件の学習結果データ４７Ｄを参照することで、各学習済み機械学習モデル４５Ｄの設定を行う。次に、制御部１１は、各学習済み機械学習モデル４５Ｄに対象データ６１Ｄを与えて、各学習済み機械学習モデル４５Ｄの演算処理を実行する。これにより、制御部１１は、各学習済み機械学習モデル４５Ｄの出力として、タスクに適合するロボット装置ＲＤの動作指令についての各学習済み機械学習モデル４５Ｄの推定結果を取得する。

【0484】

（ステップＳ２０４）
ステップＳ２０４では、制御部１１は、統合規則データ５７Ｄを参照して、統合規則５Ｄの設定を行う。そして、制御部１１は、統合規則５Ｄに従って、各学習済み機械学習モデル４５Ｄの推定結果を統合する。具体的には、ステップＳ２１１では、制御部１１は、環境データ６３Ｄに応じて、各統合パラメータＰＤの値を決定する。このとき、環境データ６３Ｄの他に、対象データ６１Ｄが更に考慮されてもよい。各統合パラメータＰＤの値を決定する方法には、上記第１～第３の方法のいずれかが採用されてよい。

【0485】

（１）第１の方法
図２５Ｂに示されるとおり、第１の方法を採用する場合、制御部１１は、学習データ５９Ｄを取得する。そして、制御部１１は、学習データ５９Ｄを利用して、演算モデル５１Ｄの機械学習を実行する。演算モデル５１Ｄの構成及び機械学習の方法は、上記演算モデル５１と同様であってよい。演算モデル５１Ｄの構成及び機械学習の方法には、上記２つの例のうちのいずれかが採用されてよい。

【0486】

第１の例を採用する場合、学習データ５９Ｄは、上記学習データ５９と同様に、訓練用環境データ、訓練用対象データ、及び正解データの組み合わせをそれぞれ含む複数の学習データセットにより構成されてよい。訓練用環境データは、環境データ６３Ｄと同種のデータである。訓練用対象データは、対象データ６１Ｄと同種のデータである。正解データは、訓練用対象データに対する推論の結果（正解）、すなわち、対象の環境下において、タスクの遂行に適合するロボット装置ＲＤの動作指令を示すデータにより構成されてよい。各学習データセットは、上記実施形態と同様の方法により生成されてよい。制御部１１は、取得された学習データ５９Ｄを利用して、演算モデル５１Ｄの機械学習を実行する。機械学習の方法は、上記第１の例と同様であってよい。

【0487】

第２の例を採用する場合、演算モデル５１Ｄには、価値ベース、方策ベース、又はその両方が採用されてよい。上記実施形態と同様に、観測対象となる状態は、環境データ６３Ｄ及び対象データ６１Ｄに対応する。エージェントにより実行される行動は、動作指令に基づく動作であってよい。エージェントは、上記一連の処理により、各学習済み機械学習モデル４５Ｄの推定結果を取得し、取得された推定結果を統合することで、対象の環境下においてタスクに適合するロボット装置ＲＤの動作指令の推定結果を生成することができる。エージェントは、生成された推定結果（すなわち、推定された最適な動作指令）に基づいて採用する動作を決定してもよい。

【0488】

報酬関数は、オペレータ等により手動的に設定されてもよい。或いは、報酬関数は、上記一連の処理で生成される推定結果の適正度に応じて即時報酬を与えるように設定されてよい。適正度は、オペレータ等により手動的に与えられてもよい。若しくは、適正度は、判定器を用いて所定の基準に従って評価されてもよい。判定器は、上記機械学習モデル４０Ｄの強化学習における判定器と同様であってよい。或いは、報酬関数は、エキスパートの実演を示す事例データから逆強化学習により推定されてもよい。この事例データは、上記機械学習モデル４０Ｄの強化学習における報酬関数の設定に利用される事例データと同様であってよい。制御部１１は、適宜設定された学習の環境において、得られる価値（の期待値）が最大化されるように、演算モデル５１Ｄの演算パラメータの値を調整する。強化学習の方法は、上記実施形態と同様であってよい。

【0489】

制御部１１は、上記いずれかの方法により、演算モデル５１Ｄの機械学習を実行することができる。これにより、制御部１１は、対象のタスク環境下において対象のロボット装置ＲＤのタスクに適合する動作指令の推定に適合する各統合パラメータＰＤの値を環境データ６３Ｄ（及び対象データ６１Ｄ）から推定する能力を獲得した学習済み演算モデル５２Ｄを生成することができる。制御部１１は、生成された学習済み演算モデル５２Ｄに関する情報を所定の記憶領域に保存してもよい。学習済み演算モデル５２Ｄに関する情報は、統合規則データ５７Ｄの少なくとも一部として保存されてもよいし、統合規則データ５７Ｄとは別に保存されてもよい。

【0490】

第１の方法では、制御部１１は、上記により生成された学習済み演算モデル５２Ｄを利用して、各統合パラメータＰＤの値を決定する。すなわち、ステップＳ２１１では、制御部１１は、学習済み演算モデル５２Ｄに環境データ６３Ｄを与える。このとき、制御部１１は、学習済み演算モデル５２Ｄに対象データ６１Ｄを更に与えてよい。そして、制御部１１は、学習済み演算モデル５２Ｄの演算処理を実行する。これにより、制御部１１は、学習済み演算モデル５２Ｄの出力として、各学習済み機械学習モデル４５Ｄに対する各統合パラメータＰＤの値を取得することができる。

【0491】

（２）第２の方法
第２の方法では、制御部１１は、対象の環境と各学習環境との比較に基づいて、各統合パラメータＰＤの値を決定する。すなわち、制御部１１は、各学習済み機械学習モデル４５Ｄの学習環境データ３５Ｄを取得する。次に、制御部１１は、各件の学習環境データ３５Ｄ及び環境データ６３Ｄの適合度を算出する。適合度の形式及び表現は、上記実施形態と同様であってよい。上記ステップＳ２１１では、制御部１１は、算出された各適合度に応じて、対応する各学習済み機械学習モデル４５Ｄに対する各統合パラメータＰＤの値を決定してもよい。適合度に応じて統合パラメータＰＤの値を決定する方法は、上記実施形態と同様であってよい。

【0492】

（３）第３の方法
第３の方法では、制御部１１は、オペレータによる統合パラメータＰＤの値の指定を受け付けて、対象の統合パラメータＰＤの値を指定された値に設定する。受付画面は、上記実施形態と同様であってよい（図１２Ａ）。

【0493】

図２５Ａに戻り、ステップＳ２１１では、制御部１１は、上記３つの方法の少なくともいずれかを採用することで、各統合パラメータＰＤの値を決定することができる。ステップＳ２１２では、制御部１１は、決定された各統合パラメータＰＤの値を使用して、対応する各学習済み機械学習モデル４５Ｄの推定結果を重み付けする。上記第３の方法により複数の統合パラメータＰＤのうちの少なくともいずれかの値を設定した場合、ステップＳ２１２では、制御部１１は、上記により設定された値を使用して、対象の統合パラメータＰＤに対応する学習済み機械学習モデル４５Ｄの推定結果を重み付けする。ステップＳ２１３では、制御部１１は、各学習済み機械学習モデル４５Ｄの重み付けされた推定結果を統合する。推定結果の統合は、上記実施形態と同様に、重み付け平均又は重み付き多数決により行われてよい。これにより、対象の環境下において、対象のロボット装置ＲＤのタスクに適合する動作指令を推定した結果を生成することができる。

【0494】

【0495】

例えば、制御部１１は、生成された推定結果、すなわち、推定されたタスク適合の動作指令を推定結果に関する情報としてロボット装置ＲＤに送信することで、推定された動作指令に従ってロボット装置ＲＤの動作を制御してもよい。このとき、制御部１１は、ロボット装置ＲＤを直接的に制御してもよい。或いは、ロボット装置ＲＤは、コントローラを備えてもよい。この場合、制御部１１は、動作指令をコントローラに送信することで、ロボット装置ＲＤを間接的に制御してもよい。

【0496】

また、例えば、制御部１１は、推定されたタスク適合の動作指令に従ってロボット装置ＲＤを操作するようにユーザに指示するための指示情報を推定結果に関する情報として生成してもよい。そして、制御部１１は、生成された指示情報を出力装置に出力してもよい。出力先の出力装置は、検査装置１Ａの出力装置１６であってもよいし、他のコンピュータの出力装置であってよい。他のコンピュータは、ユーザの近傍に配置されたコンピュータであってもよいし、ユーザの所持する端末装置であってもよい。

【0497】

なお、上記実施形態と同様に、制御装置１Ｄの制御部１１は、各学習済み機械学習モデル４５Ｄを複数のグループのうちの少なくともいずれかに割り当ててよい。これにより、制御部１１は、目的に応じてグループ毎に統合処理を実行してもよい。グルーピングの方法には、上記２つの方法のうちのいずれかが採用されてよい。

【0498】

＜ローカル学習装置の推論処理＞
また、本変形例に係る各ローカル学習装置２Ｄは、上記各ローカル学習装置２と同様に、ステップＳ１１１～ステップＳ１１３の処理を実行することで、学習済み機械学習モデル４５Ｄを利用して、タスクに適合するロボット装置ＲＤの動作指令を推定することができる。

【0499】

ステップＳ１１１では、各ローカル学習装置２Ｄは、推定に利用する対象データを取得する。対象データの取得方法は、上記制御装置１ＤのステップＳ２０１と同様であってよい。ステップＳ１１２では、各ローカル学習装置２Ｄは、学習済み機械学習モデル４５Ｄに対象データを与えて、学習済み機械学習モデル４５Ｄの演算処理を実行する。これにより、各ローカル学習装置２Ｄは、学習済み機械学習モデル４５Ｄの出力として、タスクに適合するロボット装置ＲＤの動作指令を推定した結果を取得する。

【0500】

ステップＳ１１３では、各ローカル学習装置２Ｄは、推定結果に関する情報を出力する。出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。各ローカル学習装置２Ｄは、ステップＳ１１２により得られた推定結果をそのまま出力装置に出力してもよいし、得られた推定結果に基づいて、何らかの情報処理を実行してもよい。例えば、各ローカル学習装置２Ｄは、推定されたタスク適合の動作指令をロボット装置ＲＤに送信することで、推定された動作指令に従ってロボット装置ＲＤの動作を制御してもよい。また、例えば、各ローカル学習装置２Ｄは、推定されたタスク適合の動作指令に従ってロボット装置ＲＤを操作するようにユーザに指示するための指示情報を生成し、生成された指示情報を出力装置に出力してもよい。

【0501】

＜特徴＞
本変形例によれば、ロボット装置ＲＤの動作を制御する場面において、新たな環境で対象のロボット装置ＲＤのタスクに適合する動作指令を適切に推定可能な推論モデルを構築するのにかかるコストを低減することができる。これにより、タスクを適切に遂行するための動作系列を生成するのにかかるコストを抑えることができる。

【0502】

なお、本変形例は適宜変更されてよい。例えば、センサＳＤ以外から対象データ６１Ｄを取得する場合、センサＳＤは省略されてよい。制御装置１Ｄと各装置（ロボット装置ＲＤ、センサＳＤ）とは、通信インタフェースを介して接続されてもよい。

【0503】

＜４．２＞
上記実施形態では、推論装置１が、演算モデル５１の機械学習を実施することで、学習済み演算モデル５２を生成している。しかしながら、学習済み演算モデル５２を生成する主体は、推論装置１に限られなくてもよい。推論装置１以外の他のコンピュータが、演算モデル５１の機械学習を実施することで、学習済み演算モデル５２を生成してもよい。

【0504】

図２６Ａは、本変形例に係るモデル生成装置７のハードウェア構成の一例を模式的に例示する。モデル生成装置７は、学習済み演算モデル５２を生成する他のコンピュータの一例である。図２６Ａに示されるとおり、本変形例に係るモデル生成装置７は、制御部７１、記憶部７２、通信インタフェース７３、外部インタフェース７４、入力装置７５、出力装置７６、及びドライブ７７が電気的に接続されたコンピュータである。モデル生成装置７の制御部７１～ドライブ７７は、上記推論装置１の制御部１１～ドライブ７７と同様であってよい。ただし、モデル生成装置７のハードウェア構成は、このような例に限定されなくてもよい。モデル生成装置７の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。モデル生成装置７は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ等であってよい。

【0505】

本変形例に係るモデル生成装置７の記憶部７２は、生成プログラム８７、統合規則データ５７、学習結果データ４７、学習データ５９等の各種情報を記憶する。生成プログラム８７は、演算モデル５１の機械学習に関する情報処理をモデル生成装置７に実行させるためのプログラムである。生成プログラム８７は、この情報処理の一連の命令を含む。生成プログラム８７、統合規則データ５７、学習結果データ４７、及び学習データ５９の少なくともいずれかは記憶媒体９７に記憶されていてもよい。記憶媒体９７は、上記記憶媒体９１と同様であってよい。また、モデル生成装置７は、記憶媒体９７から、生成プログラム８７、統合規則データ５７、学習結果データ４７、及び学習データ５９の少なくともいずれかを取得してもよい。

【0506】

図２６Ｂは、本変形例に係るモデル生成装置７のソフトウェア構成の一例を模式的に例示する。上記実施形態と同様に、モデル生成装置７の制御部７１は、記憶部７２に記憶された生成プログラム８７を実行する。これにより、モデル生成装置７は、学習データ取得部１１６、学習処理部１１７、及び保存処理部１１８をソフトウェアモジュールとして備えるコンピュータとして動作する。なお、モデル生成装置７のソフトウェアモジュールの一部又は全部が、１又は複数の専用のプロセッサにより実現されてもよい。また、モデル生成装置７のソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。

【0507】

モデル生成装置７は、学習データ取得部１１６、学習処理部１１７、及び保存処理部１１８をソフトウェアモジュールとして備えていることで、上記ステップＳ３０１～ステップＳ３０３の処理を実行する。すなわち、ステップＳ３０１では、制御部７１は、学習データ取得部１１６として動作し、学習データ５９を取得する。ステップＳ３０２では、制御部７１は、学習処理部１１７として動作し、学習データ５９を利用して、演算モデル５１の機械学習を実行する。ステップＳ３０３では、制御部７１は、保存処理部１１８として動作し、演算モデル５１の機械学習の結果、すなわち、学習済み演算モデル５２に関する情報を所定の記憶領域に保存する。学習済み演算モデル５２に関する情報は、統合規則データ５７の少なくとも一部として保存されてよい。これにより、制御部７１は、上記実施形態と同様に、学習済み演算モデル５２を生成することができる。

【0508】

生成された学習済み演算モデル５２に関する情報は、任意のタイミングで推論装置１に提供されてよい。推論装置１が学習済み演算モデル５２を生成しない場合、学習データ取得部１１６、学習処理部１１７、及び保存処理部１１８は、推論装置１のソフトウェア構成から省略されてもよい。また、推論装置１の記憶部１２等に保持される情報から学習データ５９が省略されてもよい。

【0509】

なお、上記変形例に係る検査装置１Ａ、予測装置１Ｂ、会話装置１Ｃ、及び制御装置１Ｄについても同様であってよい。上記変形例に係る検査装置１Ａ、予測装置１Ｂ、会話装置１Ｃ、及び制御装置１Ｄの少なくともいずれかにおいて、学習済み演算モデル５２Ａ～５２Ｄは他のコンピュータにより生成されてよい。この場合、学習データ取得部１１６、学習処理部１１７、及び保存処理部１１８は、ソフトウェア構成から省略されてよい。

【0510】

＜４．３＞
上記実施形態では、各ローカル学習装置２は、学習済み機械学習モデル４５の生成処理、及び生成された学習済み機械学習モデル４５を利用する推論処理の両方を実行するように構成される。しかしながら、各ローカル学習装置２の構成は、このような例に限定されなくてもよい。複数のローカル学習装置２の少なくともいずれかは、複数台のコンピュータにより構成されてよい。この場合、ローカル学習装置２は、生成処理及び推論処理が別々のコンピュータで実行されるように構成されてよい。

【0511】

図２７は、本変形例に係るローカル学習装置２Ｆの構成の一例を模式的に例示する。本変形例では、ローカル学習装置２Ｆは、上記生成処理を実行するように構成されるモデル生成装置２００、及び上記推論処理を実行するように構成されるモデル利用装置２０１を備える。モデル生成装置２００及びモデル利用装置２０１それぞれのハードウェア構成は、上記実施形態に係る各ローカル学習装置２のハードウェア構成と同様であってよい。

【0512】

モデル生成装置２００は、学習プログラム８２１を実行することで、学習データ取得部２１１、環境データ取得部２１２、学習処理部２１３、及び保存処理部２１４をソフトウェアモジュールとして備えるコンピュータとして動作する。これにより、モデル生成装置２００は、機械学習モデル４０の機械学習を実行し、学習済み機械学習モデル４５を生成する。

【0513】

一方、モデル利用装置２０１は、推論プログラム８２２を実行することで、対象データ取得部２１６、推論部２１７、及び出力部２１８をソフトウェアモジュールとして備えるコンピュータとして動作する。これにより、モデル利用装置２０１は、学習済み機械学習モデル４５を利用して、所定の推論を実行する。

【0514】

なお、上記変形例に係る各ローカル学習装置２Ａ～２Ｄの少なくともいずれかも、本変形例と同様に、生成処理及び推論処理が別々のコンピュータで実行されるように構成されてよい。

【0515】

＜４．４＞
上記実施形態において、各ローカル学習装置２の生成する学習済み機械学習モデル４５の数は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。複数のローカル学習装置２のうちの少なくともいずれかは、複数件の異なるローカル学習データ３０を収集し、得られた各件のローカル学習データ３０を使用して、複数の学習済み機械学習モデル４５を生成してもよい。また、１つのローカル学習装置２が複数の学習済み機械学習モデル４５を生成する場合、推論装置１で利用される複数の学習済み機械学習モデル４５は、１つのローカル学習装置２により生成されたものであってもよい。

【0516】

また、上記実施形態では、各ローカル学習装置２が、機械学習モデル４０の機械学習を実行し、学習済み機械学習モデル４５を生成している。しかしながら、機械学習モデル４０の機械学習（すなわち、学習済み機械学習モデル４５の生成）は、必ずしも各ローカル学習装置２で実行されなくてもよい。機械学習モデル４０の機械学習は、推論装置１、他の情報処理装置等の各ローカル学習装置２以外の他のコンピュータにより実行されてもよい。

【0517】

また、上記実施形態では、所定の推論を実行する推論モデルの一例として、学習済み機械学習モデル４５が採用されている。しかしながら、推論モデルは、所定の推論を実行可能であれば、その構成は、学習済み機械学習モデルに限られなくてもよく、実施の形態に応じて適宜選択されてよい。推論モデルを導出する方法は、機械学習に限られなくてもよい。推論モデルは、例えば、人手により導出されてもよい。すなわち、ローカル学習データ３０を参考にして、人間によりヒューリスティックに決定されたモデルが推論モデルとして採用されてもよい。

【0518】

なお、推論に利用される各推論モデルの出力（推論結果）の形式及び内容は、必ずしも完全に一致していなければならない訳ではない。各推論モデルの出力の形式及び内容の少なくとも一方は、各推論モデルの推論結果を統合可能な範囲で異なっていてもよい。例えば、関節数の異なるロボット装置の動作指令を推定する複数の推論モデルが、対象の環境下におけるロボット装置の動作指令を推定するのに利用されてよい。

【0519】

図２８は、本変形例に係る推論システム１００Ｇの適用場面の一例を模式的に例示する。学習済み機械学習モデル４５が推論モデル４５Ｇに置き換わる点を除き、本変形例に係る推論システム１００Ｇは、上記推論システム１００と同様に構成されてよい。推論モデル４５Ｇは、例えば、データテーブル、関数式、ルール等により構成されてよい。

【0520】

ローカル学習データ３０から推論モデル４５Ｇを導出する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。推論モデル４５Ｇは、ローカル学習装置２を操作するオペレータにより導出されてよい。推論モデル４５Ｇが人手により導出される場合、各ローカル学習装置２のソフトウェア構成から学習処理部１１７は省略されてよい。保存処理部１１８は、人手により導出された推論モデル４５Ｇに関する情報を所定の記憶領域に保存してもよい。この変形例によれば、新たな環境で推論モデルを人手で作成する手間を削減することができる。

【0521】

なお、上記変形例に係る検査システム１００Ａ、予測システム１００Ｂ、会話システム１００Ｃ、及び制御システム１００Ｄにおいても同様であってよい。上記検査システム１００Ａ、予測システム１００Ｂ、会話システム１００Ｃ、及び制御システム１００Ｄの少なくともいずれかにおいて、機械学習以外の方法で導出された推論モデルが利用されてもよい。例えば、各学習済み機械学習モデル４５Ａ～４５Ｄは、ローカル学習データ３０Ａ～３０Ｄを参考にして人間によりヒューリスティック決定されたモデルに置き換えられてもよい。

【0522】

＜４．５＞
上記実施形態では、推論装置１は、各推論モデル（各学習済み機械学習モデル４５）を保持しており、ステップＳ２０３では、制御部１１は、各推論モデルの演算処理を実行することで、各推論モデルの推論結果を取得している。しかしながら、各推論モデルの推論結果を取得する方法は、このような例に限定されなくてもよい。所定の推論に利用される複数の推論モデルのうちの少なくともいずれかは、推論装置１に保持されていなくてもよく、ローカル学習装置２、ローカル学習装置２以外の情報処理装置等の他のコンピュータに保持されていてもよい。

【0523】

この場合、上記ステップＳ２０３では、制御部１１は、対象データ６１を他のコンピュータに送信し、他のコンピュータに推論モデルの演算処理を実行させてもよい。そして、制御部１１は、他のコンピュータから演算結果を受信することで、推論モデルの推論結果を取得してもよい。これに応じて、推論装置１の記憶部１２等に保持される情報から対応する学習結果データ４７は省略されてよい。上記変形例に係る検査システム１００Ａ、予測システム１００Ｂ、会話システム１００Ｃ、及び制御システム１００Ｄにおいても同様であってよい。

【0524】

また、上記実施形態では、各統合パラメータＰの値を決定する方法として、上記第１～第３の方法を採用することができる。しかしながら、上記第１～第３の方法のうちのいずれかは省略されてよい。適合度に基づく第２の方法が省略される場合、推論装置１の記憶部１２等に保持される情報から学習環境データ３５が省略されてよい。各ローカル学習装置２のソフトウェア構成から環境データ取得部２１２が省略されてよい。更に、学習済み機械学習モデル４５の生成に関する処理手順からステップＳ１０３の処理は省略されてよく、ステップＳ１０４の処理において、学習環境データ３５を関連付ける処理が省略されてよい。また、オペレータの指定に基づく第３の方法が省略される場合、推論装置１のソフトウェア構成からパラメータ設定部１１９が省略されてもよい。上記変形例に係る検査システム１００Ａ、予測システム１００Ｂ、会話システム１００Ｃ、及び制御システム１００Ｄにおいても同様であってよい。

【0525】

また、上記実施形態において、各推論モデルのグルーピングの処理は省略されてもよい。この場合、推論装置１のソフトウェア構成からグルーピング部１１１０が省略されてもよい。上記変形例に係る検査装置１Ａ、予測装置１Ｂ、会話装置１Ｃ、及び制御装置１Ｄにおいても同様であってよい。

【0526】

§５実施例
上記演算モデル５１の機械学習を実施する形態の有効性を検証するために、OpenAIの提供する強化学習のシミュレーション環境で、以下の実施例及び比較例に係る学習済みモデルを生成した。ただし、本発明は、以下の実施例に限定されるものではない。

【0527】

まず、図２９を用いて、実施例及び比較例のシミュレーション環境で利用したロボット装置（Hopper）について説明する。図２９は、実施例及び比較例のシミュレーション環境で利用したロボット装置９００の概要を模式的に示す。ロボット装置９００は、複数のリンクが関節で連結された構成を有している。複数のリンクのうち地面に接する下端のリンクが足（foot）９０１であり、足９０１に連結するリンクが脚部（leg）９０２である。脚部９０２に連結するリンクが大腿部（thigh）９０３であり、大腿部９０３に連結するリンクが胴部（torso）９０４である。ロボット装置９００は、各リンクを動かして前進する運動を行う。実施例及び比較例では、以下の基本条件を採用し、一定時間により多く進むことを報酬として強化学習を行った。

【0528】

＜基本条件＞
・強化学習の方法：ＰＰＯ（Proximal Policy Optimization）、方策ベース
・環境の並行数：８
・エピソードの最大タイムステップ数：２０４８
・学習率：０．０００２５
・方策関数の構成：４層の全結合型ニューラルネットワーク、第２層及び第３層が中間（隠れ）層
・方策関数の中間層：第２層及び第３層共に６４チャンネル
・価値関数の構成：４層の全結合型ニューラルネットワーク、第２層及び第３層が中間（隠れ）層
・価値関数の中間層：第２層及び第３層共に６４チャンネル
・活性化関数：tanh関数
・割引率：０．９９
・ＧＡＥ（Generated Advantage Estimation）パラメータ：０．９５
・クリッピング幅：０．２
・バッチサイズ：１２８
・各ロールアウト後のトレーニングのエポック数：１０
・エントロピー係数：０
・最適化アルゴリズム：Ａｄａｍ

【0529】

実施例では、まず、上記基本条件の構成をそれぞれ有する４つのエージェントを用意し、以下の表１に示される第１～第４条件それぞれのダイナミクスを有するロボット装置９００の運動を強化学習により最大の報酬が得られるまで、用意した４つのエージェントそれぞれを訓練した。これにより、４つの学習済みモデルを生成した。

【0530】

【表1】

【0531】

続いて、上記基本条件の構成を有し、上記実施形態の統合規則５として動作するエージェントを用意した。これにより、４つの学習済みモデルの推論結果を統合することで、ロボット装置９００の動作を決定する実施例に係るモデルを構成した。

【0532】

一方、上記基本条件の構成を有するエージェントを用意し、これにより、ロボット装置９００の動作を決定する比較例に係るモデルを構成した。

【0533】

そして、以下の表２に示される内挿条件及び外挿条件のダイナミクスを有するロボット装置９００をそれぞれ用意し、用意した各ロボット装置９００の動作を実施例及び比較例それぞれのモデルにより３回ずつ強化学習により訓練した。そして、各試行の平均を算出した。内挿条件は、上記第１～第４条件の範囲内の実験サンプルに相当し、外挿条件は、上記第１～第４条件の範囲外の実験サンプルに相当する。

【0534】

【表2】

【0535】

図３０Ａは、内挿条件のダイナミクスを有するロボット装置９００の運動を実施例及び比較例で強化学習により訓練した結果を示す。図３０Ｂは、外挿条件のダイナミクスを有するロボット装置９００の運動を実施例及び比較例で強化学習により訓練した結果を示す。縦軸は、各エピソードで得られる報酬を示し、縦軸は、エピソード数を示す。

【0536】

図３０Ａ及び図３０Ｂに示されるとおり、内挿条件及び外挿条件共に、実施例のモデルの方が比較例よりも極めて短時間で最大報酬が得られるように学習が収束した。この結果から、上記実施形態において、演算モデル５１の機械学習を実施する構成を採用した場合でも、新たな環境で新たな学習済み機械学習モデルを生成するのに比べて、短時間でかつ低コストで、適切な推論を実行可能な推論モデルを構築できることが分かった。

【符号の説明】

【0537】

１…推論装置、
１１…制御部、１２…記憶部、１３…通信インタフェース、
１４…外部インタフェース、
１５…入力装置、１６…出力装置、
１７…ドライブ、９１…記憶媒体、
８１…推論プログラム、
２…ローカル学習装置、
２１…制御部、２２…記憶部、２３…通信インタフェース、
２４…外部インタフェース、
２５…入力装置、２６…出力装置、
２７…ドライブ、９２…記憶媒体、
８２１…学習プログラム、８２２…推論プログラム、
２２５…対象データ、
３０…ローカル学習データ、３５…学習環境データ、
４０…機械学習モデル、４５…学習済み機械学習モデル、
４７…学習結果データ、
５…統合規則、Ｐ１～Ｐｎ…統合パラメータ、
５１…演算モデル、５２…学習済み演算モデル、
５７…統合規則データ、５９…学習データ、
６１…対象データ、６３…環境データ

【図1A】