特開2024-46708 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士重工業株式会社の特許一覧

特開2024-46708航空機制御システム、航空機制御方法、航空機制御プログラム及び航空機

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024046708

(43)【公開日】2024-04-04

(54)【発明の名称】航空機制御システム、航空機制御方法、航空機制御プログラム及び航空機

(51)【国際特許分類】

B64C 13/18 20060101AFI20240328BHJP

B64C 39/02 20060101ALI20240328BHJP

G06N 20/00 20190101ALI20240328BHJP

【ＦＩ】

B64C13/18 C

B64C39/02

G06N20/00

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022152020

(22)【出願日】2022-09-23

(71)【出願人】

【識別番号】000005348

【氏名又は名称】株式会社ＳＵＢＡＲＵ

(74)【代理人】

【識別番号】100136504

【弁理士】

【氏名又は名称】山田毅彦

(72)【発明者】

【氏名】芝尾裕規

(72)【発明者】

【氏名】大木巧

(57)【要約】

【課題】ＡＩを搭載した制御システムで航空機の操縦を支援する場合において、意思決定に必要な事項をより短時間でＡＩに強化学習させられるようにすることである。
【解決手段】実施形態に係る航空機制御システムは、第１の意思決定の結果に基づいて第２の意思決定を行うためのルールを設定するルール設定部と、第１の強化学習によって第１の意思決定のための第１の学習結果を習得する一方、第２の強化学習によって第２の意思決定のための第２の学習結果を習得する強化学習部と、意思決定の結果を評価する評価部と、学習結果に基づいて航空機の操縦支援情報を生成する操縦情報生成部とを有し、評価部は、第１の強化学習中において過去の第２の学習結果が得られていない場合には第１の強化学習中における第１の意思決定の結果と、ルールに基づく第２の意思決定の結果を評価するように構成される。
【選択図】図４

【特許請求の範囲】

【請求項1】

航空機を飛行させるために先に行われる第１の意思決定の結果に基づいて後に行われる第２の意思決定を行うためのルールを設定するルール設定部と、
第１の学習ケースを対象とする第１の強化学習を行うことによって前記第１の意思決定を行うための第１の学習結果を習得する一方、前記第１の学習ケースとは別の第２の学習ケースを対象とする第２の強化学習を行うことによって前記第２の意思決定を行うための第２の学習結果を習得する強化学習部と、
前記第１の意思決定の結果及び前記第２の意思決定の結果を評価する評価部と、
前記第１の学習結果及び前記第２の学習結果に基づいて前記航空機の操縦を支援するための情報を生成する操縦情報生成部と、
を有し、
前記評価部は、前記第１の強化学習中において過去の前記第２の学習結果が得られていない場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記ルールに基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させる一方、前記第１の強化学習中において過去の前記第２の学習結果が得られている場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記過去の第２の学習結果に基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させるように構成される航空機制御システム。

【請求項2】

前記第１の意思決定を前記航空機の目標地点の決定とする一方、前記第２の意思決定を前記目標地点までの前記航空機の飛行経路とした請求項１記載の航空機制御システム。

【請求項3】

請求項１又は２記載の航空機制御システムを備えた航空機。

【請求項4】

航空機を飛行させるために先に行われる第１の意思決定の結果に基づいて後に行われる第２の意思決定を行うためのルールを設定するステップと、
第１の学習ケースを対象とする第１の強化学習を行うことによって前記第１の意思決定を行うための第１の学習結果を習得する一方、前記第１の学習ケースとは別の第２の学習ケースを対象とする第２の強化学習を行うことによって前記第２の意思決定を行うための第２の学習結果を習得するステップと、
前記第１の意思決定の結果及び前記第２の意思決定の結果を評価するステップと、
前記第１の学習結果及び前記第２の学習結果に基づいて前記航空機の操縦を支援するための情報を生成するステップと、
を有し、
前記第１の強化学習中において過去の前記第２の学習結果が得られていない場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記ルールに基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させる一方、前記第１の強化学習中において過去の前記第２の学習結果が得られている場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記過去の第２の学習結果に基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させる航空機制御方法。

【請求項5】

コンピュータに、
航空機を飛行させるために先に行われる第１の意思決定の結果に基づいて後に行われる第２の意思決定を行うためのルールを設定するステップ、
第１の学習ケースを対象とする第１の強化学習を行うことによって前記第１の意思決定を行うための第１の学習結果を習得する一方、前記第１の学習ケースとは別の第２の学習ケースを対象とする第２の強化学習を行うことによって前記第２の意思決定を行うための第２の学習結果を習得するステップ、
前記第１の意思決定の結果及び前記第２の意思決定の結果を評価するステップ、及び
前記第１の学習結果及び前記第２の学習結果に基づいて前記航空機の操縦を支援するための情報を生成するステップ、
を実行させる航空機制御プログラムであって、
前記第１の強化学習中において過去の前記第２の学習結果が得られていない場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記ルールに基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させる一方、前記第１の強化学習中において過去の前記第２の学習結果が得られている場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記過去の第２の学習結果に基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させる航空機制御プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、航空機制御システム、航空機制御方法、航空機制御プログラム及び航空機に関する。

【背景技術】

【0002】

近年、強化学習を行う人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）が様々な技術分野で利用されている（例えば特許文献１及び特許文献２参照）。強化学習は、ＡＩを搭載したコンピュータが自ら試行錯誤を繰返して最適制御を行う機械学習の一種であり、自動運転車の自動運転や無人航空機（ＵＡＶ：ＵｎｍａｎｎｅｄＡｅｒｉａｌＶｅｈｉｃｌｅ）の自動操縦を行う制御システムにも応用されている（例えば特許文献３参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開平１１－０１５８０７号公報

【特許文献2】特開平１１－３０６２１６号公報

【特許文献3】特開２０１９－１０５８９１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ＡＩを搭載した制御システムでＵＡＶ等の航空機を自動操縦させようとする場合、制御システムには複雑な行動判断を行わせることが必要となる。すなわち、複数の判断を行って全体的な行動判断を完了させることが必要となる場合がある。具体例として、ＵＡＶに任務を達成するという課題が与えられた場合、ＡＩは目的地を決定した後でなければ飛行経路を決定することができず、飛行経路を決定した後でなければ回転翼の回転数等の機体制御量を決定することができない。

【0005】

このため、ＵＡＶ等の自動操縦をＡＩに実行させようとする場合には、全体的な行動判断を複数の部分的な行動判断に分けて段階的に学習させるカリキュラム強化学習によってＡＩを学習させる試みが検討されている。

【0006】

しかしながら、ＡＩがカリキュラム強化学習を行う場合、学習中は部分的な行動判断について学習を行うため、学習結果も部分的なものとなる。このため、全ての学習が完了しなければ全体の評価を行うことができない。その結果、下流の学習が進んだ後で、再び上流の学習に戻って学習を再開することが必要になる可能性が高い。つまり、カリキュラム強化学習の場合には、手戻りが大きくなる可能性がある。具体例として、ＡＩが目的地までのＵＡＶの飛行経路を決定した後、回転翼の回転数等の機体制御量が実現不可能な条件となってしまった場合には、再び目的地の決定から行動判断を行わなければならない。

【0007】

加えて、ＡＩがカリキュラム強化学習を行う場合、学習の段階に応じて条件を与えたり、達成基準を作成したりすることが必要となるため、ＡＩの開発規模が大きくなる懸念がある。

【0008】

そこで、本発明は、ＡＩを搭載した制御システムでＵＡＶ等の航空機の操縦を支援する場合において、意思決定に必要な事項をより短時間でＡＩに強化学習させることができるようにすることを目的とする。

【課題を解決するための手段】

【0009】

本発明の実施形態に係る航空機制御システムは、航空機を飛行させるために先に行われる第１の意思決定の結果に基づいて後に行われる第２の意思決定を行うためのルールを設定するルール設定部と、第１の学習ケースを対象とする第１の強化学習を行うことによって前記第１の意思決定を行うための第１の学習結果を習得する一方、前記第１の学習ケースとは別の第２の学習ケースを対象とする第２の強化学習を行うことによって前記第２の意思決定を行うための第２の学習結果を習得する強化学習部と、前記第１の意思決定の結果及び前記第２の意思決定の結果を評価する評価部と、前記第１の学習結果及び前記第２の学習結果に基づいて前記航空機の操縦を支援するための情報を生成する操縦情報生成部とを有し、前記評価部は、前記第１の強化学習中において過去の前記第２の学習結果が得られていない場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記ルールに基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させる一方、前記第１の強化学習中において過去の前記第２の学習結果が得られている場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記過去の第２の学習結果に基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させるように構成されるものである。

【0010】

また、本発明の実施形態に係る航空機は、上述した航空機制御システムを備えたものである。

【0011】

また、本発明の実施形態に係る航空機制御方法は、航空機を飛行させるために先に行われる第１の意思決定の結果に基づいて後に行われる第２の意思決定を行うためのルールを設定するステップと、第１の学習ケースを対象とする第１の強化学習を行うことによって前記第１の意思決定を行うための第１の学習結果を習得する一方、前記第１の学習ケースとは別の第２の学習ケースを対象とする第２の強化学習を行うことによって前記第２の意思決定を行うための第２の学習結果を習得するステップと、前記第１の意思決定の結果及び前記第２の意思決定の結果を評価するステップと、前記第１の学習結果及び前記第２の学習結果に基づいて前記航空機の操縦を支援するための情報を生成するステップとを有し、前記第１の強化学習中において過去の前記第２の学習結果が得られていない場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記ルールに基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させる一方、前記第１の強化学習中において過去の前記第２の学習結果が得られている場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記過去の第２の学習結果に基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させるものである。

【0012】

また、本発明の実施形態に係る航空機制御プログラムは、コンピュータに、航空機を飛行させるために先に行われる第１の意思決定の結果に基づいて後に行われる第２の意思決定を行うためのルールを設定するステップ、第１の学習ケースを対象とする第１の強化学習を行うことによって前記第１の意思決定を行うための第１の学習結果を習得する一方、前記第１の学習ケースとは別の第２の学習ケースを対象とする第２の強化学習を行うことによって前記第２の意思決定を行うための第２の学習結果を習得するステップ、前記第１の意思決定の結果及び前記第２の意思決定の結果を評価するステップ、及び前記第１の学習結果及び前記第２の学習結果に基づいて前記航空機の操縦を支援するための情報を生成するステップを実行させるプログラムであって、前記第１の強化学習中において過去の前記第２の学習結果が得られていない場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記ルールに基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させる一方、前記第１の強化学習中において過去の前記第２の学習結果が得られている場合には前記第１の強化学習中における前記第１の意思決定の結果と、前記過去の第２の学習結果に基づく前記第２の意思決定の結果を評価することによって前記第１の学習結果を確定させるものである。

【図面の簡単な説明】

【0013】

【図1】本発明の実施形態に係る航空機制御システムを搭載した航空機の構成図。

【図2】図１に示す航空機の外観の一例を示す斜視図。

【図3】図１に示す航空機制御システムの詳細構成例を示す機能ブロック図。

【図4】図３に示す航空機制御システムにおけるＡＩの強化学習方法を説明する図。

【図5】図３に示す航空機制御システムにより航空機を制御する場合の流れの一例を示すフローチャート。

【図6】図５に示す航空機の制御を行うためのＡＩへの入力情報と出力情報を示す図。

【図7】図６に示すＡＩの強化学習を開始する際の学習方法を説明する図。

【図8】図７に示すＡＩの強化学習に続いて実施される強化学習の例を説明する図。

【発明を実施するための形態】

【0014】

本発明の実施形態に係る航空機制御システム、航空機制御方法、航空機制御プログラム及び航空機について添付図面を参照して説明する。

【0015】

図１は本発明の実施形態に係る航空機制御システムを搭載した航空機の構成図であり、図２は図１に示す航空機の外観の一例を示す斜視図である。

【0016】

航空機制御システム１は、航空機２の飛行ケースを学習ケースとしてＡＩに強化学習させることによって、航空機２の自動操縦プログラム等の航空機２の操縦を支援するための情報を生成するシステムである。このため、航空機制御システム１は、航空機２に搭載することができる。

【0017】

典型的な航空機２には、航空機２の機体を制御するためのフライトコントローラ（飛行制御装置）３が備えられる。従って、航空機制御システム１で生成された自動操縦プログラム等の情報は、フライトコントローラ３に出力することができる。このため、航空機制御システム１をフライトコントローラ３に内蔵しても良い。

【0018】

航空機制御システム１の搭載対象となる航空機２の代表例は、人が搭乗しないＵＡＶであるが、人が搭乗する有人航空機やＯＰＶ（ＯｐｔｉｏｎａｌｌｙＰｉｌｏｔｅｄＶｅｈｉｃｌｅ）であっても良い。ＯＰＶはパイロットが搭乗して操縦することも可能な無人航空機であり、有人航空機と無人航空機のハイブリッド航空機である。小型のＵＡＶは広義のドローンとも呼ばれ、無人のマルチコプタやヘリコプタが代表的である。また、航空機２は、マルチコプタやヘリコプタ等の回転翼機に限らず固定翼機であっても良い。

【0019】

航空機２がＵＡＶやＯＰＶである場合には、図１に例示されるように、航空機２の位置、高度及び姿勢等を測定するためのセンサ４に加えて、航空機２を遠隔操縦できるように、アンテナ５を備えた送受信器６がフライトコントローラ３に接続される。また、ヘリコプタやマルチコプタ等の回転翼機であれば、図１に例示されるように、複数のロータ７、ロータ７を回転させるためのモータ８、モータ８の回転数を制御するＥＳＣ（ＥｌｅｃｔｒｉｃＳｐｅｅｄＣｏｎｔｒｏｌｌｅｒ）９及びロータ７のピッチ角を調整するためのアクチュエータ１０が航空機２に備えられ、フライトコントローラ３から出力される制御信号によってＥＳＣ９とアクチュエータ１０が制御される。

【0020】

尚、小型のクワッドコプターやヘキサコプター等のマルチコプタには、ロータ７のピッチ角を調整できないものもあり、ロータ７のピッチ角が固定の小型のマルチコプタは狭義のドローンと呼ばれる。その場合には、アクチュエータ１０が省略され、ロータ７の回転数の制御のみによって航空機２の上昇と下降が行われる。また、ロータ７のピッチ角が可変であるマルチコプタであっても小型であれば広義のドローンと呼ばれる。

【0021】

航空機２がＵＡＶやＯＰＶである場合には、無線通信によって航空機２を遠隔制御できる。このため、航空機制御システム１を航空機２に搭載せずに地上に設置するか携帯式のコントローラに内蔵し、航空機２の自動操縦プログラム等の航空機２の制御情報を無線で航空機２に送信するようにしても良い。

【0022】

航空機制御システム１を航空機２に搭載しない場合には、航空機２の飛行を模擬したシミュレーションによってＡＩの強化学習を行うことができるが、航空機２との無線通信によって航空機２の現実の飛行ケースを学習ケースとしてＡＩの強化学習を行うようにしても良い。一方、図１に例示されるように航空機制御システム１を航空機２に搭載すれば、シミュレーションのみならず、航空機２の現実の飛行ケースを学習ケースとして無線通信を行わずにＡＩに強化学習させることができる。尚、シミュレーションでＡＩの強化学習を行う場合にはシミュレータを航空機制御システム１の入出力（Ｉ／Ｏ：Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インターフェースと接続し、必要な情報を航空機制御システム１に入出力することができる。

【0023】

航空機制御システム１のＡＩによって生成される情報は、航空機２の操縦を支援するための情報であれば任意の情報とすることができる。具体例として、航空機２の目標地点又は目標物、飛行経路及び機体制御量のうち、ユーザが指定しない少なくとも１つを航空機制御システム１において自動的に決定することができる。尚、航空機２の目標物は、位置座標として特定せずに、指定した空域内に存在する他の航空機や積乱雲のように観測して発見される対象や移動体としても良い。

【0024】

加えて、航空機２に搭載されるペイロード（搭載物）１１の操作を行うための情報を航空機制御システム１において生成することもできる。ペイロード１１の具体例としては、レーダ、カメラ、照明、スピーカ、マイク、農薬等の散布装置、荷下ろし等が可能な駆動式のアームが挙げられる。

【0025】

航空機２を飛行させるために決定することが必要な事項のうち、ユーザが指定する事項を少なくし、航空機制御システム１で決定する事項を多くする程、ＡＩが判断する事項は複雑となる。ＡＩが判断できるようにするためには、事前にＡＩの強化学習を行っておくことが必要となることから、ＡＩが判断する事項が複雑になれば、強化学習の内容も複雑となる。

【0026】

具体例として、航空機２の目的地と飛行経路をユーザが指定し、航空機制御システム１が航空機２の機体姿勢を適切な姿勢とするための機体制御量のみを決定する場合であればＡＩが判断する事項と判断のために強化学習する内容は単純である。これに対して、航空機２の目的地をユーザが指定し、航空機２の飛行経路と飛行経路に応じた機体制御量を航空機制御システム１が決定する場合にはＡＩが判断する事項と判断のために強化学習する内容は複雑となり、航空機２の任務（ミッション）のみをユーザが指定し、航空機２の目的地も航空機制御システム１が決定する場合にはＡＩが判断する事項と判断のために強化学習する内容は一層複雑となる。

【0027】

すなわち、ユーザが指定する事項が詳細である程、航空機制御システム１が判断及び決定する事項は単純となり、ユーザが指定する事項が概略的な事項である程、航空機制御システム１が判断及び決定する事項は複雑となる。また、ユーザが指定する事項が概略的な事項である場合、航空機制御システム１は複数の種類の意思決定を階層的に逐次実施することになる。

【0028】

具体例として、航空機２の任務のみをユーザが指定する場合であれば、航空機制御システム１は、航空機２の目標地点又は目標物を決定した後に、航空機２の目標地点又は目標物に応じた航空機２の飛行経路を決定し、航空機２の飛行経路を決定した後に航空機２の飛行経路に応じた航空機２の機体制御量を決定することになる。つまり、先に意思決定する事項と、後に意思決定する事項があり、後に行われる意思決定は、先に行われる意思決定が完了しないと開始することができない。

【0029】

以降では、主に、航空機２の任務をユーザが指定し、少なくとも航空機２の目標地点又は目標物、飛行経路及び機体制御量を航空機制御システム１による意思決定の対象とする場合を想定して複雑なケースについて説明する。航空機制御システム１における各意思決定はＡＩによって行われることから、各意思決定の結果はＡＩの出力情報となり、ＡＩへの入力情報は、各意思決定に必要な情報となる。航空機２の位置、高度及び姿勢等のセンサ４で測定される測定データがＡＩへの入力情報となる場合には、センサ４からフライトコントローラ３を通じて航空機制御システム１に測定データを入力することができる。

【0030】

図３は図１に示す航空機制御システム１の詳細構成例を示す機能ブロック図である。

【0031】

航空機制御システム１は、Ｉ／Ｏインターフェース２０、記憶装置２１及び演算装置２２を備えたコンピュータ２３に航空機制プログラムを読込ませることによって構築することができる。具体的には航空機制御システム１の演算装置２２は、航空機制プログラムによってルール設定部２４、強化学習部２５、評価部２６及び操縦情報生成部２７として機能する一方、記憶装置２１は学習結果保存部２８として機能する。そして、ルール設定部２４、強化学習部２５、評価部２６、操縦情報生成部２７及び学習結果保存部２８によってＡＩとしての機能が航空機制御システム１に備えられる。

【0032】

航空機制御システム１では、上述したように複数の意思決定が階層的に逐次行われる。換言すれば、複数の部分的なプロセスからなる全体のプロセスの意思決定が行われ、先に実行される上位の部分的なプロセスが完了しなければ後に実行される下位の部分的なプロセスを開始できないような全体プロセスが航空機制御システム１のＡＩによって実行される。

【0033】

ＡＩで意思決定できるようにするためには、事前にＡＩの強化学習を行うことが必要となる。強化学習は、ＡＩの意思決定に対する評価が大きくなるようにＡＩに意思決定方法を学習させていく機械学習方法である。複数の意思決定を階層的に行うプロセスをＡＩに強化学習させる場合には、意思決定の対象となる事項ごとに強化学習させるカリキュラム強化学習を行うことが現実的である。そこで、航空機制御システム１には、ＡＩのカリキュラム強化学習を行う機能が備えられる。

【0034】

但し、上位の意思決定が完了しないと下位の意思決定を行えない複雑な全体プロセスを対象として従来の方法でＡＩのカリキュラム強化学習を行おうとすると、上位の意思決定についての学習が完了した後、下位の意思決定についての学習を行うために、再び上位の意思決定もやり直すことが必要となる。また、上位の意思決定についての評価が基準を満たしていても、下位の意思決定について評価が基準を満たす解が存在しない場合には上位の意思決定からやり直すことが必要となるか、全体的な最適解を得ること自体が困難となる可能性がある。つまり、強化学習に要する時間が膨大となるのみならず、いずれかの意思決定についてのみ解が最適となる局所解しか得られない可能性がある。

【0035】

そこで、航空機制御システム１には、複数の階層的な意思決定を含む全体プロセスを対象として、部分的な個別の意思決定ごとにＡＩを強化学習させる機能が備えられる。具体的には、学習対象とならない部分的な意思決定については、ユーザが意思決定方法をルールとして指定する機能が航空機制御システム１に備えられる。

【0036】

図４は図３に示す航空機制御システム１におけるＡＩの強化学習方法を説明する図である。

【0037】

上述したように航空機２を飛行させるためには、航空機２の目標地点の決定や飛行経路の決定のように、複数の意思決定を階層的に逐次行うことが必要となる場合が多い。すなわち、上位の意思決定と、上位の意思決定が完了しないと開始できない下位の意思決定を順番に行うことが必要となる。

【0038】

図４は、意思決定すべき事項の数が３つの場合、すなわちＡＩの出力情報が３種類である場合におけるＡＩの強化学習の流れを示している。より具体的には、図４は、航空機２を飛行させるために先に行われる最も上位の第１の意思決定、第１の意思決定の結果に基づいて第１の意思決定よりも後に行われる、第１の意思決定よりも下位の第２の意思決定、第２の意思決定の結果に基づいて第２の意思決定よりも更に後に行われる最も下位の第３の意思決定をＡＩが行う場合におけるＡＩの強化学習方法を表している。もちろん、第４以降の下位の意思決定を追加することもできる。

【0039】

図４において、縦軸方向は下方ほど意思決定が下位であることを表し、横軸方向は学習ケースの時間、換言すれば学習ケースの識別番号方向を表している。ＡＩに学習ケースが与えられる前の強化学習の開始時には、まだ学習結果が得られていない。すなわち、第１の意思決定を行うための過去の第１の学習結果、第２の意思決定を行うための過去の第２の学習結果及び、第３の意思決定を行うための過去の第３の学習結果の全てが存在しない。この状態で、第１から第３までの学習結果を一度に強化学習によってＡＩに学習させようとすると、上述したように膨大な時間を要するか、局所解が得られる恐れがある。

【0040】

そこで、航空機制御システム１のルール設定部２４において、上位の意思決定の結果に基づいて下位の意思決定を行うためのルールを強化学習に先立って意思決定の対象ごとに設定することができる。具体的には、図４に示す例であれば、ユーザから与えられた情報に基づいて第１の意思決定を行うための第１のルール、第１の意思決定の結果に基づいて第２の意思決定を行うための第２のルール、第２の意思決定の結果に基づいて第３の意思決定を行うための第３のルールを基本ルールとして強化学習に先立って設定しておくことができる。ルールの設定に必要な情報は、Ｉ／Ｏインターフェース２０に接続した別のコンピュータから入力することができる。

【0041】

具体例として、第１の意思決定が航空機２の目標地点や目標物の決定であれば、航空機２に与えられた任務を特定するための情報と、目標地点の座標との関係を表すテーブルや関数等の情報を第１のルールとして設定しておくことができる。一方、第２の意思決定が目標地点までの航空機２の飛行経路の決定であれば、目標地点までの最短経路を飛行経路とするルール、燃料消費量を最小とする経路を飛行経路とするルール或いは最も安全な経路を飛行経路とするルールなど、様々なルールを第２のルールとして設定しておくことができる。また、第３の意思決定が航空機２の機体制御量の決定であれば、航空機２が飛行経路に沿って飛行する場合に最も短時間で目標地点に到着する機体制御量、最も少ない燃料消費量で目標地点に到着する機体制御量或いは最も安定した飛行で目標地点に到着する機体制御量を決定するルールなど、様々なルールを第３のルールとして設定しておくことができる。

【0042】

ルール設定部２４において、意思決定の対象ごとにルールが設定されると、ＡＩの判断によらずにルールに基づいて各意思決定を行うことが可能となる。逆に、ルール設定部２４において設定されるルールは、全ての意思決定をルールのみに基づいて行った場合に、必要な評価が得られるように設定される。具体的には図４に示す例であれば、ＡＩの判断に依らずに第１から第３のルールに基づいてそれぞれ第１から第３の意思決定を行った結果の評価が許容範囲となるように第１から第３のルールが設定される。

【0043】

各意思決定を対応するルールで行えるようにすると、選択した意思決定のみを対象としてＡＩを強化学習させることが可能となる。ＡＩの強化学習は、強化学習部２５において行われる。但し、ＡＩの強化学習は、複数の意思決定の中から選択した１つの意思決定ごとに、選択される意思決定を変更しながら別々の学習ケースに基づいて実行される。

【0044】

具体的には、図４に示す例であれば、強化学習部２５が第１の学習ケースを対象として第１の意思決定を行うための第１の強化学習を行う。第１の学習ケースを対象として、第２及び第３の意思決定を行うための強化学習は行われず、第２及び第３の意思決定はそれぞれ第２及び第３のルールに基づいて行われる。つまり、第２及び第３の意思決定を暫定的にルールベースで行うことによって確定させ、第１の学習ケースに基づく強化学習の対象を第１の意思決定に限定することができる。

【0045】

第１の学習ケースを対象とするＡＩによる第１の意思決定の結果を含む第１から第３までの意思決定の結果は、評価部２６において評価される。そして、評価部２６における第１の意思決定の結果の評価が許容範囲となり、かつより高くなるように強化学習部２５における第１の意思決定が所定回数だけ繰返される。これにより、強化学習部２５は、第１の意思決定を行うための第１の学習結果（ＡＩ１－１）を習得することができる。習得した第１の学習結果（ＡＩ１－１）は学習結果保存部２８に保存することができる。

【0046】

尚、評価部２６における第１から第３までの意思決定の結果に対する評価基準、すなわちＡＩへの報酬の与え方のルールは、予めユーザが任意に決定し、Ｉ／Ｏインターフェース２０に接続した別のコンピュータから評価部２６に入力しておくことができる。具体例として、航空機２の飛行距離が短くなる程、ＡＩに与える報酬を高くするルール、航空機２の燃料消費量が少なくなる程、ＡＩに与える報酬を高くするルール或いは航空機２の安定性が向上する程、ＡＩに与える報酬を高くするルールなど、様々な評価方法を決定して評価部２６に入力することができる。

【0047】

第１の強化学習が完了して第１の学習結果（ＡＩ１－１）が得られると、強化学習部２５は、第１の学習ケースとは別の第２の学習ケースを対象として第２の意思決定を行うための第２の強化学習を行う。第２の学習ケースを対象として、第１及び第３の意思決定を行うための強化学習は行われない。

【0048】

第１の意思決定については、過去の第１の学習ケースに基づいて既に第１の学習結果（ＡＩ１－１）が得られており、ＡＩの強化学習によって習得した第１の学習結果（ＡＩ１－１）は、ユーザが暫定的に設定した第１のルールよりも好ましい第１の意思決定方法であると考えられる。そこで、第２の学習ケースでは、学習結果保存部２８に保存されている第１の学習結果（ＡＩ１－１）に基づいて第１の意思決定が行われる。一方、第３の意思決定については、まだ学習結果が存在しないことから第３のルールに基づいて行われる。これにより、第２の学習ケースに基づく強化学習の対象を第２の意思決定に限定することができる。

【0049】

第２の学習ケースを対象とするＡＩによる第２の意思決定の結果を含む第１から第３までの意思決定の結果は、評価部２６において評価される。そして、評価部２６における第２の意思決定の結果の評価が許容範囲となり、かつより高くなるように強化学習部２５における第２の意思決定が所定回数だけ繰返される。これにより、強化学習部２５は、第２の意思決定を行うための第２の学習結果（ＡＩ２－１）を習得することができる。習得した第２の学習結果（ＡＩ２－１）は学習結果保存部２８に保存することができる。

【0050】

続いて、強化学習部２５は、第１の学習ケース及び第２の学習ケースのいずれとも別の第３の学習ケースを対象として第３の意思決定を行うための第３の強化学習を行う。第３の学習ケースを対象として、第１及び第２の意思決定を行うための強化学習は行われない。

【0051】

第１の意思決定及び第２の意思決定については、それぞれ過去の第１の学習ケース及び第２の学習ケースに基づいて既に第１の学習結果（ＡＩ１－１）及び第２の学習結果（ＡＩ２－１）が得られており、ＡＩの強化学習によって習得した第１の学習結果（ＡＩ１－１）及び第２の学習結果（ＡＩ２－１）は、それぞれユーザが暫定的に設定した第１のルール及び第２のルールよりもよりも好ましい第１の意思決定方法及び第２の意思決定方法であると考えられる。そこで、第３の学習ケースでは、学習結果保存部２８に保存されている第１の学習結果（ＡＩ１－１）及び第２の学習結果（ＡＩ２－１）に基づいて、それぞれ第１の意思決定及び第２の意思決定が行われる。これにより、第３の学習ケースに基づく強化学習の対象を第３の意思決定に限定することができる。

【0052】

第３の学習ケースを対象とするＡＩによる第３の意思決定の結果を含む第１から第３までの意思決定の結果は、評価部２６において評価される。そして、評価部２６における第３の意思決定の結果の評価が許容範囲となり、かつより高くなるように強化学習部２５における第３の意思決定が所定回数だけ繰返される。これにより、強化学習部２５は、第３の意思決定を行うための第３の学習結果（ＡＩ３－１）を習得することができる。習得した第３の学習結果（ＡＩ３－１）は学習結果保存部２８に保存することができる。

【0053】

第１の学習結果（ＡＩ１－１）、第２の学習結果（ＡＩ２－１）及び第３の学習結果（ＡＩ３－１）の全てが学習結果保存部２８に保存されると、強化学習部２５は、第１乃至第３のルールを用いずに、第１乃至第３の強化学習を、それぞれ異なる学習ケースを対象として繰返すことが可能となる。

【0054】

具体的には、第４の学習ケースを対象として第１の意思決定を行うための第１の強化学習を再開する場合であれば、第２の意思決定及び第３の意思決定を行うための強化学習は行わずに、それぞれ第２の学習結果（ＡＩ２－１）及び第３の学習結果（ＡＩ３－１）に基づいて第２の意思決定及び第３の意思決定を行うことができる。第１の強化学習を繰返すと、強化学習部２５は、より適切な結果に更新された第１の学習結果（ＡＩ１－２）を習得することができる。

【0055】

第５の学習ケースを対象として第２の意思決定を行うための第２の強化学習を再開する場合や第６の学習ケースを対象として第３の意思決定を行うための第３の強化学習を再開する場合においても同様である。第２の強化学習を繰返すと、強化学習部２５は、より適切な結果に更新された第２の学習結果（ＡＩ２－２）を習得することができる。第３の強化学習を繰返した場合も同様である。

【0056】

このように、第１の強化学習中において過去の第２及び第３の学習結果が得られていない場合には第１の強化学習中における第１の意思決定の結果と、第２及び第３のルールに基づく第２及び第３の意思決定の結果を評価部２６で評価することによって第１の学習結果を確定させる一方、第１の強化学習中において過去の第２及び第３の学習結果が得られている場合には第１の強化学習中における第１の意思決定の結果と、過去の第２及び第３の学習結果に基づく第２及び第３の意思決定の結果を評価部２６で評価することによって第１の学習結果を確定させることができる。

【0057】

また、過去に複数の第２及び第３の学習結果が得られている場合には、最も新しい第２及び第３の学習結果が最も高い評価が得られた学習結果となることから、第１の強化学習中における第１の意思決定の結果と、最も新しい第２及び第３の学習結果に基づく第２及び第３の意思決定の結果を評価部２６で評価することによって第１の学習結果を確定させることができる。逆に、第２及び第３の学習結果を更新しながら第１の強化学習を繰返すことによって、第２及び第３の学習結果に応じた第１の学習結果の好適化を進めることができる。

【0058】

これは、第２の強化学習及び第３の強化学習についても同様である。また、図４には、最も上位の第１の意思決定を行うための第１の強化学習から開始する場合の例を示したが、第２の意思決定又は第３の意思決定を行うための最上位ではない強化学習から開始するようにしても良い。第１の意思決定の強化学習を最初に行わない場合には、最初の強化学習において第１のルールに基づいて第１の意思決定が行われることになる。もちろん、４つ以上の部分的な意思決定を階層的に行う場合においても同様である。

【0059】

カリキュラム強化学習に用いられる学習ケースは、上述したように航空機２の飛行を模擬したシミュレーションによって準備しても良いし、航空機２の現実の飛行ケースを学習ケースとしても良い。尚、機械学習前のＡＩに意思決定を行わせることは通常困難であるが、ルール設定部２４において、評価基準を満たす意思決定の結果が得られるようにルールが設定されているため、原理的には強化学習の開始当初から航空機２の現実の飛行ケースを学習ケースとすることができる。

【0060】

シミュレーションを学習ケースとする場合には、図３に例示されるように航空機２の位置、高度及び姿勢等を模擬するシミュレータ２９をＩ／Ｏインターフェース２０に接続して必要な情報を航空機制御システム１の演算装置２２に入出力することができる。ＡＩからの出力情報は、航空機２の目標地点、飛行経路及び機体制御量等の意思決定の結果であり、ＡＩへの入力情報は、意思決定に必要な航空機２の現在の位置、高度及び姿勢等の情報である。

【0061】

このため、シミュレータ２９から入力した航空機２の位置、高度及び姿勢等の状態を特定する情報に基づいてＡＩが航空機２の目標地点、飛行経路及び機体制御量等を決定し、決定した航空機２の機体制御量に基づいてシミュレータ２９が航空機２の位置、高度及び姿勢等の状態を特定する情報を更新することができる。その後、シミュレータ２９が更新した情報を再びＡＩへの入力情報とすることができる。

【0062】

尚、シミュレータ２９において航空機２の位置、高度及び姿勢等の状態を高精度に模擬するために、航空機２が飛行する空域における風向きや風速等の風況、気温等の飛行環境についても模擬することが望ましい。

【0063】

一方、航空機２の現実の飛行ケースを学習ケースとする場合には、航空機２の現在の位置、高度及び姿勢等の状態を、航空機２に備えられる各センサ４からフライトコントローラ３を通じて航空機制御システム１の演算装置２２に入力することができる。すなわち、航空機２に備えられる各センサ４から航空機２の現在の位置、高度及び姿勢等のＡＩへの入力情報を取得することができる。

【0064】

そして、航空機２の現在の位置、高度及び姿勢等に基づいてＡＩが決定した航空機２の機体制御量をフライトコントローラ３に出力することができる。これにより、航空機２が制御され、航空機２の位置、高度及び姿勢等の状態が変化する。その後、最新の航空機２の位置、高度及び姿勢等の状態を航空機２に備えられる各センサ４で測定し、再びＡＩへの入力情報とすることができる。

【0065】

このように、航空機２を制御するＡＩをエージェントとして強化学習する際に変化する状態は、主に、航空機２の位置、高度及び姿勢となり、ＡＩの行動は航空機２の機体制御量の決定と、決定した機体制御量のシミュレータ２９又はフライトコントローラ３への出力による航空機２の制御となる。そして、ＡＩへの報酬は、目標地点までの距離が短くなる程高くなる報酬、燃料消費量が少なくなる程高くなる報酬或いは航空機２の安定性が向上する程高くなる報酬等とすることができる。

【0066】

操縦情報生成部２７は、航空機２のフライトコントローラ３に制御情報を出力する機能と、フライトコントローラ３に出力すべき制御情報を生成する機能を有している。フライトコントローラ３に出力される制御情報は、ＡＩからの出力情報として確定した航空機２の機体制御量を含む情報、具体的には、航空機２の現在の位置、高度及び姿勢等のＡＩへの入力情報と、ルール設定部２４において設定されたルール又は学習結果保存部２８に保存された意思決定対象ごとの学習結果に基づいて生成された自動操縦プログラム等の航空機２の操縦を支援するための情報となる。

【0067】

このため、航空機２の現実の飛行ケースを強化学習の学習ケースとする場合には、強化学習部２５が学習結果を取得するために最終的に意思決定した結果のうち、フライトコントローラ３に出力するべき情報を制御信号で表した情報が操縦情報生成部２７において生成される制御情報となる。

【0068】

次に航空機制御システム１のＡＩによる意思決定と強化学習によって航空機２を制御する場合の具体的な例について説明する。

【0069】

図５は、図３に示す航空機制御システム１により航空機２を制御する場合の流れの一例を示すフローチャートであり、図６は図５に示す航空機２の制御を行うためのＡＩへの入力情報と出力情報を示す図である。

【0070】

図５は、ステップＳ１において、航空機２に備えられる各センサ４から取得した航空機２の位置、高度及び姿勢とともに任務を入力情報としてＡＩに入力し、ＡＩを構成する強化学習部２５がステップＳ２からステップＳ４までの航空機２の目標地点又は目標物の決定、飛行経路の決定及び機体制御量の決定に加えて、ステップＳ５及びステップＳ６のペイロード１１の使用有無の決定と使用方法の決定も行う場合の流れを示している。

【0071】

但し、図４を用いて説明したように強化学習部２５による強化学習の対象はいずれか１つの決定に限定される。このため、強化学習部２５によるステップＳ２からステップＳ６までの各決定が完了すると、ステップＳ７において各決定のうち強化学習の対象となっている決定に対する結果が評価部２６において評価され、最終的に確定した各決定に基づいて操縦情報生成部２７が航空機２の制御情報を生成する。そして、操縦情報生成部２７から制御情報を航空機２のフライトコントローラ３に出力することによって航空機２を制御することができる。すなわち、ＡＩが行動を実行することができる。

【0072】

航空機２に与えられる任務が、特定の空域を飛行する他の航空機や飛翔体等の目標物を航空機２にペイロード１１として搭載されるレーダやカメラで探知することである場合には、ＡＩへの入力情報と出力情報は例えば図６に示す情報となる。すなわち、ＡＩには、少なくとも航空機２の位置、高度及び姿勢が入力される。加えて、目標物が航空機２に搭載されるレーダやカメラで捕捉されるまでは、目標物が飛行する空域の位置を航空機２の任務を特定するための入力情報としてユーザがＡＩに与えることができる。

【0073】

このため、目標物がレーダやカメラで捕捉されるまでは、目標物の位置等が不明であっても、目標物が飛行する空域や当該空域に向けてレーダやカメラの動作状態をＯＮ状態に切換えるべき地点を、ＡＩが任務を達成するために適切な目標地点として決定することができる。航空機２の目標地点が決定されると、航空機２の現在の位置、高度及び姿勢に基づいて目標地点へ移動するための航空機２の飛行経路及び機体制御量を決定することが可能となる。

【0074】

航空機２の飛行経路は最短経路等に限らず、大きく迂回する経路など、評価部２６における評価方法に応じて決定することができる。一方、航空機２の機体制御量の具体例としては、航空機２が図１に例示されるような回転翼機であれば、ロータ７の回転速度やピッチの制御量が挙げられる。また、航空機２が回転翼機であるか固定翼機であるかを問わず、航空機２のバンク角、推力及び角速度等の機体の姿勢を特定するためのパラメータに対する制御量を、ＡＩが決定する航空機２の機体制御量としても良い。

【0075】

航空機２が目標空域に進入した場合や目標空域に近づいた場合には、ペイロード１１の使用を開始する判断と意思決定を行い、かつレーダの指向方向やカメラの向きなどペイロード１１の使用方法についても判断と意思決定を行うことができる。そして、レーダやカメラ等のペイロード１１で目標物又は目標物の候補が観測されると、フライトコントローラ３を通じて観測データを航空機制御システム１に入力し、ペイロード１１で観測された目標物又は目標物の候補の位置、高度及び姿勢をＡＩの入力情報に加えることができる。そうすると、ＡＩは、航空機２を目標物又は目標物の候補に一定の距離まで接近させたり、追従させたりすることを新たな目標とすることも可能となる。

【0076】

このようなステップＳ２からステップＳ６までの全てのプロセスについて予め強化学習によってそれぞれ学習結果が得られている場合には、学習結果に従ってＡＩが判断及び意思決定することによって任務を達成することができる。すなわち、評価部２６における評価によって、ＡＩは報酬を得ることができる。

【0077】

尚、強化学習を行うことが可能なＡＩは、深層ニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）で構成することが現実的である。ニューラルネットワークは、入力層、隠れ層及び出力層で構成され、隠れ層が２層以上のニューラルネットワークが深層ニューラルネットワークと定義されることが多い。深層ニューラルネットワークの学習は、隠れ層におけるフィルタ係数等のパラメータの最適化に該当するため、ＡＩによる学習結果は、深層ニューラルネットワークにおけるパラメータの値の組合せとなる。

【0078】

ＡＩにおいて少なくとも１つの判断及び意思決定を行うための学習結果が得られていない場合には、強化学習を行って学習結果、具体的には深層ニューラルネットワークにおけるパラメータの値の組合せを取得することが必要となる。ＡＩの強化学習は上述したように強化学習部２５において実行され、強化学習のための学習ケースは航空機２の実際の飛行ケースとしても良いし、シミュレーションで飛行ケースを模擬しても良い。尚、図５及び図６に示すＡＩのプロセスは、シミュレーション環境でＡＩを強化学習させる場合においても同様となる。

【0079】

図４を用いて説明したように、強化学習は部分的な意思決定ごとに別々に行われ、強化学習の対象とならない意思決定について過去の学習結果が得られていない場合には、ＡＩによる判断、つまり深層ニューラルネットワークにおけるパラメータの値の組合せに基づいて導き出された判断ではなく、ルール設定部２４において設定されたルールに従って意思決定される。

【0080】

図７は図６に示すＡＩの強化学習を開始する際の学習方法を説明する図であり、図８は図７に示すＡＩの強化学習に続いて実施される強化学習の例を説明する図である。

【0081】

図４を用いて説明したように、ＡＩによる意思決定の対象ごとにルール設定部２４においてルールが作成される。従って、図６に示すように航空機２の目標地点又は目標物の決定、飛行経路の決定、機体制御量の決定、ペイロード１１の使用有無の決定及びペイロード１１の使用方法の決定からなる５つの項目についてＡＩが判断及び意思決定する場合には、第１から第５までの５つのルールがルール設定部２４において作成される。この５つのルールは、全ての判断と意思決定をルールのみに基づいて行った場合に全ての判断と意思決定の結果が、評価部２６において適切と評価されるように決定される。

【0082】

ＡＩの強化学習の開始時には、いずれの判断及び意思決定に対する学習結果も得られていない。そこで、最も上位の航空機２の目標地点又は目標物の決定方法に限定してＡＩの強化学習を行う場合には、図７に示すように、航空機２の目標地点又は目標物を決定するための第１のルールを用いずに、ＡＩが航空機２の位置、高度及び姿勢等の入力情報に基づく判断及び意思決定を行って航空機２の目標地点又は目標物を決定し、決定した結果を出力情報として出力する。

【0083】

これに対して、下位の４つの項目については、航空機２の位置、高度及び姿勢等の情報を入力値として、対応する第２から第５のルールを用いてそれぞれ決定される。第２から第５のルールに基づいてそれぞれ決定された各結果は必ず評価部２６において適切と評価される。このため、ＡＩは与えられた任務を達成するために適切な結果を出力できるように航空機２の目標地点又は目標物の決定方法について集中して学習することが可能になる。

【0084】

航空機２の目標地点又は目標物の決定方法について強化学習が行われ、一定の学習結果が得られると、ＡＩは学習結果に基づいて適切な航空機２の目標地点又は目標物を決定できるようになる。そうすると、次の任意の判断項目を学習対象としてＡＩの強化学習を開始することができる。

【0085】

例えば、ペイロード１１の使用有無の決定方法に着目してＡＩの強化学習を行う場合であれば、図８に示すようにペイロード１１の使用有無を決定するための第４のルールと、既に学習結果が得られている航空機２の目標地点又は目標物を決定するための第１のルールを用いずに、ＡＩが航空機２の位置、高度及び姿勢等の入力情報に基づく判断及び意思決定を行ってペイロード１１の使用有無を決定し、決定した結果を出力情報として出力する。

【0086】

これに対して、航空機２の目標地点又は目標物については、航空機２の位置、高度及び姿勢等の入力情報と、過去の学習結果に基づいてＡＩが決定する。すなわち、航空機２の位置、高度及び姿勢等の入力情報は変化し得るが、航空機２の目標地点又は目標物を決定するための、深層ニューラルネットワークにおいて対応する最新のパラメータの値の組合せについては変化させずに航空機２の目標地点又は目標物がＡＩによって決定される。また、学習結果がまだ得られていない他の３つの項目については、航空機２の位置、高度及び姿勢等の情報を入力値として、対応する第２、第３及び第５のルールを用いてそれぞれ決定される。

【0087】

評価部２６において既に適切と評価された過去の学習結果に基づいて決定された航空機２の目標地点又は目標物は、再び評価部２６において適切と評価される。また、第２、第３及び第５のルールに基づいてそれぞれ決定された各結果は必ず評価部２６において適切と評価される。このため、ＡＩは与えられた任務を達成するために適切な結果を出力できるようにペイロード１１の使用有無の決定方法について集中して学習することが可能になる。

【0088】

このようにして、ルールで判断及び意思決定していた事項を徐々に学習結果に基づくＡＩの判断に置換えていくことにより、カリキュラム強化学習を断片的に進めることができる。

【0089】

以上のような航空機制御システム１、航空機制御方法、航空機制御プログラム及び航空機は、複数の意思決定を伴う複雑なプロセスをＡＩが実行できるようにするために、各意思決定を行うためのルールを設定しておくことによって、選択した意思決定の項目に限定して部分的にＡＩの強化学習を行えるようにしたものである。

【0090】

（効果）
このため、航空機制御システム１、航空機制御方法、航空機制御プログラム及び航空機２によれば、航空機２の飛行を支援するために複数の意思決定を伴う複雑なプロセスをＡＩに実行させることが必要となる場合において、意思決定に必要な事項をより短時間でＡＩに強化学習させることができる。

【0091】

具体的には、複数の意思決定の全体に亘って強化学習の対象とすると、膨大な学習時間を要したり、一部の意思決定の結果のみが極端に適切となる局所解が得られたりする恐れがあるところ、意思決定の対象となる項目ごとに順番に強化学習を行えるので、短時間で最適解を探索することが可能となる。

【0092】

また、個別の学習規模が小さくなるため、学習時間の低減のみならず、報酬の設計を簡素にすることができる。設定すべきルールについても、ＡＩの学習が進めば学習結果に置換されることから、少なくともＡＩが目標を達成することが可能な簡素なルールとすることができる。その結果、ＡＩの開発規模を低減することができる。

【0093】

加えて、意思決定の項目ごとに強化学習による学習方法が適切であるか容易に判断でき、意思決定の項目ごとに最適なＡＩの判断を適用することも可能となる。このため、航空機２の自動操縦についても一層の好適化を図ることができる。

【0094】

（他の実施形態）
以上、特定の実施形態について記載したが、記載された実施形態は一例に過ぎず、発明の範囲を限定するものではない。ここに記載された新規な方法及び装置は、様々な他の様式で具現化することができる。また、ここに記載された方法及び装置の様式において、発明の要旨から逸脱しない範囲で、種々の省略、置換及び変更を行うことができる。添付された請求の範囲及びその均等物は、発明の範囲及び要旨に包含されているものとして、そのような種々の様式及び変形例を含んでいる。

【符号の説明】

【0095】

１航空機制御システム
２航空機
３フライトコントローラ
４センサ
５アンテナ
６送受信器
７ロータ
８モータ
９ＥＳＣ
１０アクチュエータ
１１ペイロード
２０入力装置
２１記憶装置
２２演算装置
２３コンピュータ
２４ルール設定部
２５強化学習部
２６評価部
２７操縦情報生成部
２８学習結果保存部
２９シミュレータ

【図1】