(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024046708
(43)【公開日】2024-04-04
(54)【発明の名称】航空機制御システム、航空機制御方法、航空機制御プログラム及び航空機
(51)【国際特許分類】
B64C 13/18 20060101AFI20240328BHJP
B64C 39/02 20060101ALI20240328BHJP
G06N 20/00 20190101ALI20240328BHJP
【FI】
B64C13/18 C
B64C39/02
G06N20/00
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022152020
(22)【出願日】2022-09-23
(71)【出願人】
【識別番号】000005348
【氏名又は名称】株式会社SUBARU
(74)【代理人】
【識別番号】100136504
【弁理士】
【氏名又は名称】山田 毅彦
(72)【発明者】
【氏名】芝尾 裕規
(72)【発明者】
【氏名】大木 巧
(57)【要約】
【課題】AIを搭載した制御システムで航空機の操縦を支援する場合において、意思決定に必要な事項をより短時間でAIに強化学習させられるようにすることである。
【解決手段】実施形態に係る航空機制御システムは、第1の意思決定の結果に基づいて第2の意思決定を行うためのルールを設定するルール設定部と、第1の強化学習によって第1の意思決定のための第1の学習結果を習得する一方、第2の強化学習によって第2の意思決定のための第2の学習結果を習得する強化学習部と、意思決定の結果を評価する評価部と、学習結果に基づいて航空機の操縦支援情報を生成する操縦情報生成部とを有し、評価部は、第1の強化学習中において過去の第2の学習結果が得られていない場合には第1の強化学習中における第1の意思決定の結果と、ルールに基づく第2の意思決定の結果を評価するように構成される。
【選択図】
図4
【特許請求の範囲】
【請求項1】
航空機を飛行させるために先に行われる第1の意思決定の結果に基づいて後に行われる第2の意思決定を行うためのルールを設定するルール設定部と、
第1の学習ケースを対象とする第1の強化学習を行うことによって前記第1の意思決定を行うための第1の学習結果を習得する一方、前記第1の学習ケースとは別の第2の学習ケースを対象とする第2の強化学習を行うことによって前記第2の意思決定を行うための第2の学習結果を習得する強化学習部と、
前記第1の意思決定の結果及び前記第2の意思決定の結果を評価する評価部と、
前記第1の学習結果及び前記第2の学習結果に基づいて前記航空機の操縦を支援するための情報を生成する操縦情報生成部と、
を有し、
前記評価部は、前記第1の強化学習中において過去の前記第2の学習結果が得られていない場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記ルールに基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させる一方、前記第1の強化学習中において過去の前記第2の学習結果が得られている場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記過去の第2の学習結果に基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させるように構成される航空機制御システム。
【請求項2】
前記第1の意思決定を前記航空機の目標地点の決定とする一方、前記第2の意思決定を前記目標地点までの前記航空機の飛行経路とした請求項1記載の航空機制御システム。
【請求項3】
請求項1又は2記載の航空機制御システムを備えた航空機。
【請求項4】
航空機を飛行させるために先に行われる第1の意思決定の結果に基づいて後に行われる第2の意思決定を行うためのルールを設定するステップと、
第1の学習ケースを対象とする第1の強化学習を行うことによって前記第1の意思決定を行うための第1の学習結果を習得する一方、前記第1の学習ケースとは別の第2の学習ケースを対象とする第2の強化学習を行うことによって前記第2の意思決定を行うための第2の学習結果を習得するステップと、
前記第1の意思決定の結果及び前記第2の意思決定の結果を評価するステップと、
前記第1の学習結果及び前記第2の学習結果に基づいて前記航空機の操縦を支援するための情報を生成するステップと、
を有し、
前記第1の強化学習中において過去の前記第2の学習結果が得られていない場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記ルールに基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させる一方、前記第1の強化学習中において過去の前記第2の学習結果が得られている場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記過去の第2の学習結果に基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させる航空機制御方法。
【請求項5】
コンピュータに、
航空機を飛行させるために先に行われる第1の意思決定の結果に基づいて後に行われる第2の意思決定を行うためのルールを設定するステップ、
第1の学習ケースを対象とする第1の強化学習を行うことによって前記第1の意思決定を行うための第1の学習結果を習得する一方、前記第1の学習ケースとは別の第2の学習ケースを対象とする第2の強化学習を行うことによって前記第2の意思決定を行うための第2の学習結果を習得するステップ、
前記第1の意思決定の結果及び前記第2の意思決定の結果を評価するステップ、及び
前記第1の学習結果及び前記第2の学習結果に基づいて前記航空機の操縦を支援するための情報を生成するステップ、
を実行させる航空機制御プログラムであって、
前記第1の強化学習中において過去の前記第2の学習結果が得られていない場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記ルールに基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させる一方、前記第1の強化学習中において過去の前記第2の学習結果が得られている場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記過去の第2の学習結果に基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させる航空機制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、航空機制御システム、航空機制御方法、航空機制御プログラム及び航空機に関する。
【背景技術】
【0002】
近年、強化学習を行う人工知能(AI:Artificial Intelligence)が様々な技術分野で利用されている(例えば特許文献1及び特許文献2参照)。強化学習は、AIを搭載したコンピュータが自ら試行錯誤を繰返して最適制御を行う機械学習の一種であり、自動運転車の自動運転や無人航空機(UAV:Unmanned Aerial Vehicle)の自動操縦を行う制御システムにも応用されている(例えば特許文献3参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平11-015807号公報
【特許文献2】特開平11-306216号公報
【特許文献3】特開2019-105891号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
AIを搭載した制御システムでUAV等の航空機を自動操縦させようとする場合、制御システムには複雑な行動判断を行わせることが必要となる。すなわち、複数の判断を行って全体的な行動判断を完了させることが必要となる場合がある。具体例として、UAVに任務を達成するという課題が与えられた場合、AIは目的地を決定した後でなければ飛行経路を決定することができず、飛行経路を決定した後でなければ回転翼の回転数等の機体制御量を決定することができない。
【0005】
このため、UAV等の自動操縦をAIに実行させようとする場合には、全体的な行動判断を複数の部分的な行動判断に分けて段階的に学習させるカリキュラム強化学習によってAIを学習させる試みが検討されている。
【0006】
しかしながら、AIがカリキュラム強化学習を行う場合、学習中は部分的な行動判断について学習を行うため、学習結果も部分的なものとなる。このため、全ての学習が完了しなければ全体の評価を行うことができない。その結果、下流の学習が進んだ後で、再び上流の学習に戻って学習を再開することが必要になる可能性が高い。つまり、カリキュラム強化学習の場合には、手戻りが大きくなる可能性がある。具体例として、AIが目的地までのUAVの飛行経路を決定した後、回転翼の回転数等の機体制御量が実現不可能な条件となってしまった場合には、再び目的地の決定から行動判断を行わなければならない。
【0007】
加えて、AIがカリキュラム強化学習を行う場合、学習の段階に応じて条件を与えたり、達成基準を作成したりすることが必要となるため、AIの開発規模が大きくなる懸念がある。
【0008】
そこで、本発明は、AIを搭載した制御システムでUAV等の航空機の操縦を支援する場合において、意思決定に必要な事項をより短時間でAIに強化学習させることができるようにすることを目的とする。
【課題を解決するための手段】
【0009】
本発明の実施形態に係る航空機制御システムは、航空機を飛行させるために先に行われる第1の意思決定の結果に基づいて後に行われる第2の意思決定を行うためのルールを設定するルール設定部と、第1の学習ケースを対象とする第1の強化学習を行うことによって前記第1の意思決定を行うための第1の学習結果を習得する一方、前記第1の学習ケースとは別の第2の学習ケースを対象とする第2の強化学習を行うことによって前記第2の意思決定を行うための第2の学習結果を習得する強化学習部と、前記第1の意思決定の結果及び前記第2の意思決定の結果を評価する評価部と、前記第1の学習結果及び前記第2の学習結果に基づいて前記航空機の操縦を支援するための情報を生成する操縦情報生成部とを有し、前記評価部は、前記第1の強化学習中において過去の前記第2の学習結果が得られていない場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記ルールに基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させる一方、前記第1の強化学習中において過去の前記第2の学習結果が得られている場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記過去の第2の学習結果に基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させるように構成されるものである。
【0010】
また、本発明の実施形態に係る航空機は、上述した航空機制御システムを備えたものである。
【0011】
また、本発明の実施形態に係る航空機制御方法は、航空機を飛行させるために先に行われる第1の意思決定の結果に基づいて後に行われる第2の意思決定を行うためのルールを設定するステップと、第1の学習ケースを対象とする第1の強化学習を行うことによって前記第1の意思決定を行うための第1の学習結果を習得する一方、前記第1の学習ケースとは別の第2の学習ケースを対象とする第2の強化学習を行うことによって前記第2の意思決定を行うための第2の学習結果を習得するステップと、前記第1の意思決定の結果及び前記第2の意思決定の結果を評価するステップと、前記第1の学習結果及び前記第2の学習結果に基づいて前記航空機の操縦を支援するための情報を生成するステップとを有し、前記第1の強化学習中において過去の前記第2の学習結果が得られていない場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記ルールに基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させる一方、前記第1の強化学習中において過去の前記第2の学習結果が得られている場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記過去の第2の学習結果に基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させるものである。
【0012】
また、本発明の実施形態に係る航空機制御プログラムは、コンピュータに、航空機を飛行させるために先に行われる第1の意思決定の結果に基づいて後に行われる第2の意思決定を行うためのルールを設定するステップ、第1の学習ケースを対象とする第1の強化学習を行うことによって前記第1の意思決定を行うための第1の学習結果を習得する一方、前記第1の学習ケースとは別の第2の学習ケースを対象とする第2の強化学習を行うことによって前記第2の意思決定を行うための第2の学習結果を習得するステップ、前記第1の意思決定の結果及び前記第2の意思決定の結果を評価するステップ、及び前記第1の学習結果及び前記第2の学習結果に基づいて前記航空機の操縦を支援するための情報を生成するステップを実行させるプログラムであって、前記第1の強化学習中において過去の前記第2の学習結果が得られていない場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記ルールに基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させる一方、前記第1の強化学習中において過去の前記第2の学習結果が得られている場合には前記第1の強化学習中における前記第1の意思決定の結果と、前記過去の第2の学習結果に基づく前記第2の意思決定の結果を評価することによって前記第1の学習結果を確定させるものである。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施形態に係る航空機制御システムを搭載した航空機の構成図。
【
図2】
図1に示す航空機の外観の一例を示す斜視図。
【
図3】
図1に示す航空機制御システムの詳細構成例を示す機能ブロック図。
【
図4】
図3に示す航空機制御システムにおけるAIの強化学習方法を説明する図。
【
図5】
図3に示す航空機制御システムにより航空機を制御する場合の流れの一例を示すフローチャート。
【
図6】
図5に示す航空機の制御を行うためのAIへの入力情報と出力情報を示す図。
【
図7】
図6に示すAIの強化学習を開始する際の学習方法を説明する図。
【
図8】
図7に示すAIの強化学習に続いて実施される強化学習の例を説明する図。
【発明を実施するための形態】
【0014】
本発明の実施形態に係る航空機制御システム、航空機制御方法、航空機制御プログラム及び航空機について添付図面を参照して説明する。
【0015】
図1は本発明の実施形態に係る航空機制御システムを搭載した航空機の構成図であり、
図2は
図1に示す航空機の外観の一例を示す斜視図である。
【0016】
航空機制御システム1は、航空機2の飛行ケースを学習ケースとしてAIに強化学習させることによって、航空機2の自動操縦プログラム等の航空機2の操縦を支援するための情報を生成するシステムである。このため、航空機制御システム1は、航空機2に搭載することができる。
【0017】
典型的な航空機2には、航空機2の機体を制御するためのフライトコントローラ(飛行制御装置)3が備えられる。従って、航空機制御システム1で生成された自動操縦プログラム等の情報は、フライトコントローラ3に出力することができる。このため、航空機制御システム1をフライトコントローラ3に内蔵しても良い。
【0018】
航空機制御システム1の搭載対象となる航空機2の代表例は、人が搭乗しないUAVであるが、人が搭乗する有人航空機やOPV(Optionally Piloted Vehicle)であっても良い。OPVはパイロットが搭乗して操縦することも可能な無人航空機であり、有人航空機と無人航空機のハイブリッド航空機である。小型のUAVは広義のドローンとも呼ばれ、無人のマルチコプタやヘリコプタが代表的である。また、航空機2は、マルチコプタやヘリコプタ等の回転翼機に限らず固定翼機であっても良い。
【0019】
航空機2がUAVやOPVである場合には、
図1に例示されるように、航空機2の位置、高度及び姿勢等を測定するためのセンサ4に加えて、航空機2を遠隔操縦できるように、アンテナ5を備えた送受信器6がフライトコントローラ3に接続される。また、ヘリコプタやマルチコプタ等の回転翼機であれば、
図1に例示されるように、複数のロータ7、ロータ7を回転させるためのモータ8、モータ8の回転数を制御するESC(Electric Speed Controller)9及びロータ7のピッチ角を調整するためのアクチュエータ10が航空機2に備えられ、フライトコントローラ3から出力される制御信号によってESC9とアクチュエータ10が制御される。
【0020】
尚、小型のクワッドコプターやヘキサコプター等のマルチコプタには、ロータ7のピッチ角を調整できないものもあり、ロータ7のピッチ角が固定の小型のマルチコプタは狭義のドローンと呼ばれる。その場合には、アクチュエータ10が省略され、ロータ7の回転数の制御のみによって航空機2の上昇と下降が行われる。また、ロータ7のピッチ角が可変であるマルチコプタであっても小型であれば広義のドローンと呼ばれる。
【0021】
航空機2がUAVやOPVである場合には、無線通信によって航空機2を遠隔制御できる。このため、航空機制御システム1を航空機2に搭載せずに地上に設置するか携帯式のコントローラに内蔵し、航空機2の自動操縦プログラム等の航空機2の制御情報を無線で航空機2に送信するようにしても良い。
【0022】
航空機制御システム1を航空機2に搭載しない場合には、航空機2の飛行を模擬したシミュレーションによってAIの強化学習を行うことができるが、航空機2との無線通信によって航空機2の現実の飛行ケースを学習ケースとしてAIの強化学習を行うようにしても良い。一方、
図1に例示されるように航空機制御システム1を航空機2に搭載すれば、シミュレーションのみならず、航空機2の現実の飛行ケースを学習ケースとして無線通信を行わずにAIに強化学習させることができる。尚、シミュレーションでAIの強化学習を行う場合にはシミュレータを航空機制御システム1の入出力(I/O:Input/Output)インターフェースと接続し、必要な情報を航空機制御システム1に入出力することができる。
【0023】
航空機制御システム1のAIによって生成される情報は、航空機2の操縦を支援するための情報であれば任意の情報とすることができる。具体例として、航空機2の目標地点又は目標物、飛行経路及び機体制御量のうち、ユーザが指定しない少なくとも1つを航空機制御システム1において自動的に決定することができる。尚、航空機2の目標物は、位置座標として特定せずに、指定した空域内に存在する他の航空機や積乱雲のように観測して発見される対象や移動体としても良い。
【0024】
加えて、航空機2に搭載されるペイロード(搭載物)11の操作を行うための情報を航空機制御システム1において生成することもできる。ペイロード11の具体例としては、レーダ、カメラ、照明、スピーカ、マイク、農薬等の散布装置、荷下ろし等が可能な駆動式のアームが挙げられる。
【0025】
航空機2を飛行させるために決定することが必要な事項のうち、ユーザが指定する事項を少なくし、航空機制御システム1で決定する事項を多くする程、AIが判断する事項は複雑となる。AIが判断できるようにするためには、事前にAIの強化学習を行っておくことが必要となることから、AIが判断する事項が複雑になれば、強化学習の内容も複雑となる。
【0026】
具体例として、航空機2の目的地と飛行経路をユーザが指定し、航空機制御システム1が航空機2の機体姿勢を適切な姿勢とするための機体制御量のみを決定する場合であればAIが判断する事項と判断のために強化学習する内容は単純である。これに対して、航空機2の目的地をユーザが指定し、航空機2の飛行経路と飛行経路に応じた機体制御量を航空機制御システム1が決定する場合にはAIが判断する事項と判断のために強化学習する内容は複雑となり、航空機2の任務(ミッション)のみをユーザが指定し、航空機2の目的地も航空機制御システム1が決定する場合にはAIが判断する事項と判断のために強化学習する内容は一層複雑となる。
【0027】
すなわち、ユーザが指定する事項が詳細である程、航空機制御システム1が判断及び決定する事項は単純となり、ユーザが指定する事項が概略的な事項である程、航空機制御システム1が判断及び決定する事項は複雑となる。また、ユーザが指定する事項が概略的な事項である場合、航空機制御システム1は複数の種類の意思決定を階層的に逐次実施することになる。
【0028】
具体例として、航空機2の任務のみをユーザが指定する場合であれば、航空機制御システム1は、航空機2の目標地点又は目標物を決定した後に、航空機2の目標地点又は目標物に応じた航空機2の飛行経路を決定し、航空機2の飛行経路を決定した後に航空機2の飛行経路に応じた航空機2の機体制御量を決定することになる。つまり、先に意思決定する事項と、後に意思決定する事項があり、後に行われる意思決定は、先に行われる意思決定が完了しないと開始することができない。
【0029】
以降では、主に、航空機2の任務をユーザが指定し、少なくとも航空機2の目標地点又は目標物、飛行経路及び機体制御量を航空機制御システム1による意思決定の対象とする場合を想定して複雑なケースについて説明する。航空機制御システム1における各意思決定はAIによって行われることから、各意思決定の結果はAIの出力情報となり、AIへの入力情報は、各意思決定に必要な情報となる。航空機2の位置、高度及び姿勢等のセンサ4で測定される測定データがAIへの入力情報となる場合には、センサ4からフライトコントローラ3を通じて航空機制御システム1に測定データを入力することができる。
【0030】
図3は
図1に示す航空機制御システム1の詳細構成例を示す機能ブロック図である。
【0031】
航空機制御システム1は、I/Oインターフェース20、記憶装置21及び演算装置22を備えたコンピュータ23に航空機制プログラムを読込ませることによって構築することができる。具体的には航空機制御システム1の演算装置22は、航空機制プログラムによってルール設定部24、強化学習部25、評価部26及び操縦情報生成部27として機能する一方、記憶装置21は学習結果保存部28として機能する。そして、ルール設定部24、強化学習部25、評価部26、操縦情報生成部27及び学習結果保存部28によってAIとしての機能が航空機制御システム1に備えられる。
【0032】
航空機制御システム1では、上述したように複数の意思決定が階層的に逐次行われる。換言すれば、複数の部分的なプロセスからなる全体のプロセスの意思決定が行われ、先に実行される上位の部分的なプロセスが完了しなければ後に実行される下位の部分的なプロセスを開始できないような全体プロセスが航空機制御システム1のAIによって実行される。
【0033】
AIで意思決定できるようにするためには、事前にAIの強化学習を行うことが必要となる。強化学習は、AIの意思決定に対する評価が大きくなるようにAIに意思決定方法を学習させていく機械学習方法である。複数の意思決定を階層的に行うプロセスをAIに強化学習させる場合には、意思決定の対象となる事項ごとに強化学習させるカリキュラム強化学習を行うことが現実的である。そこで、航空機制御システム1には、AIのカリキュラム強化学習を行う機能が備えられる。
【0034】
但し、上位の意思決定が完了しないと下位の意思決定を行えない複雑な全体プロセスを対象として従来の方法でAIのカリキュラム強化学習を行おうとすると、上位の意思決定についての学習が完了した後、下位の意思決定についての学習を行うために、再び上位の意思決定もやり直すことが必要となる。また、上位の意思決定についての評価が基準を満たしていても、下位の意思決定について評価が基準を満たす解が存在しない場合には上位の意思決定からやり直すことが必要となるか、全体的な最適解を得ること自体が困難となる可能性がある。つまり、強化学習に要する時間が膨大となるのみならず、いずれかの意思決定についてのみ解が最適となる局所解しか得られない可能性がある。
【0035】
そこで、航空機制御システム1には、複数の階層的な意思決定を含む全体プロセスを対象として、部分的な個別の意思決定ごとにAIを強化学習させる機能が備えられる。具体的には、学習対象とならない部分的な意思決定については、ユーザが意思決定方法をルールとして指定する機能が航空機制御システム1に備えられる。
【0036】
図4は
図3に示す航空機制御システム1におけるAIの強化学習方法を説明する図である。
【0037】
上述したように航空機2を飛行させるためには、航空機2の目標地点の決定や飛行経路の決定のように、複数の意思決定を階層的に逐次行うことが必要となる場合が多い。すなわち、上位の意思決定と、上位の意思決定が完了しないと開始できない下位の意思決定を順番に行うことが必要となる。
【0038】
図4は、意思決定すべき事項の数が3つの場合、すなわちAIの出力情報が3種類である場合におけるAIの強化学習の流れを示している。より具体的には、
図4は、航空機2を飛行させるために先に行われる最も上位の第1の意思決定、第1の意思決定の結果に基づいて第1の意思決定よりも後に行われる、第1の意思決定よりも下位の第2の意思決定、第2の意思決定の結果に基づいて第2の意思決定よりも更に後に行われる最も下位の第3の意思決定をAIが行う場合におけるAIの強化学習方法を表している。もちろん、第4以降の下位の意思決定を追加することもできる。
【0039】
図4において、縦軸方向は下方ほど意思決定が下位であることを表し、横軸方向は学習ケースの時間、換言すれば学習ケースの識別番号方向を表している。AIに学習ケースが与えられる前の強化学習の開始時には、まだ学習結果が得られていない。すなわち、第1の意思決定を行うための過去の第1の学習結果、第2の意思決定を行うための過去の第2の学習結果及び、第3の意思決定を行うための過去の第3の学習結果の全てが存在しない。この状態で、第1から第3までの学習結果を一度に強化学習によってAIに学習させようとすると、上述したように膨大な時間を要するか、局所解が得られる恐れがある。
【0040】
そこで、航空機制御システム1のルール設定部24において、上位の意思決定の結果に基づいて下位の意思決定を行うためのルールを強化学習に先立って意思決定の対象ごとに設定することができる。具体的には、
図4に示す例であれば、ユーザから与えられた情報に基づいて第1の意思決定を行うための第1のルール、第1の意思決定の結果に基づいて第2の意思決定を行うための第2のルール、第2の意思決定の結果に基づいて第3の意思決定を行うための第3のルールを基本ルールとして強化学習に先立って設定しておくことができる。ルールの設定に必要な情報は、I/Oインターフェース20に接続した別のコンピュータから入力することができる。
【0041】
具体例として、第1の意思決定が航空機2の目標地点や目標物の決定であれば、航空機2に与えられた任務を特定するための情報と、目標地点の座標との関係を表すテーブルや関数等の情報を第1のルールとして設定しておくことができる。一方、第2の意思決定が目標地点までの航空機2の飛行経路の決定であれば、目標地点までの最短経路を飛行経路とするルール、燃料消費量を最小とする経路を飛行経路とするルール或いは最も安全な経路を飛行経路とするルールなど、様々なルールを第2のルールとして設定しておくことができる。また、第3の意思決定が航空機2の機体制御量の決定であれば、航空機2が飛行経路に沿って飛行する場合に最も短時間で目標地点に到着する機体制御量、最も少ない燃料消費量で目標地点に到着する機体制御量或いは最も安定した飛行で目標地点に到着する機体制御量を決定するルールなど、様々なルールを第3のルールとして設定しておくことができる。
【0042】
ルール設定部24において、意思決定の対象ごとにルールが設定されると、AIの判断によらずにルールに基づいて各意思決定を行うことが可能となる。逆に、ルール設定部24において設定されるルールは、全ての意思決定をルールのみに基づいて行った場合に、必要な評価が得られるように設定される。具体的には
図4に示す例であれば、AIの判断に依らずに第1から第3のルールに基づいてそれぞれ第1から第3の意思決定を行った結果の評価が許容範囲となるように第1から第3のルールが設定される。
【0043】
各意思決定を対応するルールで行えるようにすると、選択した意思決定のみを対象としてAIを強化学習させることが可能となる。AIの強化学習は、強化学習部25において行われる。但し、AIの強化学習は、複数の意思決定の中から選択した1つの意思決定ごとに、選択される意思決定を変更しながら別々の学習ケースに基づいて実行される。
【0044】
具体的には、
図4に示す例であれば、強化学習部25が第1の学習ケースを対象として第1の意思決定を行うための第1の強化学習を行う。第1の学習ケースを対象として、第2及び第3の意思決定を行うための強化学習は行われず、第2及び第3の意思決定はそれぞれ第2及び第3のルールに基づいて行われる。つまり、第2及び第3の意思決定を暫定的にルールベースで行うことによって確定させ、第1の学習ケースに基づく強化学習の対象を第1の意思決定に限定することができる。
【0045】
第1の学習ケースを対象とするAIによる第1の意思決定の結果を含む第1から第3までの意思決定の結果は、評価部26において評価される。そして、評価部26における第1の意思決定の結果の評価が許容範囲となり、かつより高くなるように強化学習部25における第1の意思決定が所定回数だけ繰返される。これにより、強化学習部25は、第1の意思決定を行うための第1の学習結果(AI1-1)を習得することができる。習得した第1の学習結果(AI1-1)は学習結果保存部28に保存することができる。
【0046】
尚、評価部26における第1から第3までの意思決定の結果に対する評価基準、すなわちAIへの報酬の与え方のルールは、予めユーザが任意に決定し、I/Oインターフェース20に接続した別のコンピュータから評価部26に入力しておくことができる。具体例として、航空機2の飛行距離が短くなる程、AIに与える報酬を高くするルール、航空機2の燃料消費量が少なくなる程、AIに与える報酬を高くするルール或いは航空機2の安定性が向上する程、AIに与える報酬を高くするルールなど、様々な評価方法を決定して評価部26に入力することができる。
【0047】
第1の強化学習が完了して第1の学習結果(AI1-1)が得られると、強化学習部25は、第1の学習ケースとは別の第2の学習ケースを対象として第2の意思決定を行うための第2の強化学習を行う。第2の学習ケースを対象として、第1及び第3の意思決定を行うための強化学習は行われない。
【0048】
第1の意思決定については、過去の第1の学習ケースに基づいて既に第1の学習結果(AI1-1)が得られており、AIの強化学習によって習得した第1の学習結果(AI1-1)は、ユーザが暫定的に設定した第1のルールよりも好ましい第1の意思決定方法であると考えられる。そこで、第2の学習ケースでは、学習結果保存部28に保存されている第1の学習結果(AI1-1)に基づいて第1の意思決定が行われる。一方、第3の意思決定については、まだ学習結果が存在しないことから第3のルールに基づいて行われる。これにより、第2の学習ケースに基づく強化学習の対象を第2の意思決定に限定することができる。
【0049】
第2の学習ケースを対象とするAIによる第2の意思決定の結果を含む第1から第3までの意思決定の結果は、評価部26において評価される。そして、評価部26における第2の意思決定の結果の評価が許容範囲となり、かつより高くなるように強化学習部25における第2の意思決定が所定回数だけ繰返される。これにより、強化学習部25は、第2の意思決定を行うための第2の学習結果(AI2-1)を習得することができる。習得した第2の学習結果(AI2-1)は学習結果保存部28に保存することができる。
【0050】
続いて、強化学習部25は、第1の学習ケース及び第2の学習ケースのいずれとも別の第3の学習ケースを対象として第3の意思決定を行うための第3の強化学習を行う。第3の学習ケースを対象として、第1及び第2の意思決定を行うための強化学習は行われない。
【0051】
第1の意思決定及び第2の意思決定については、それぞれ過去の第1の学習ケース及び第2の学習ケースに基づいて既に第1の学習結果(AI1-1)及び第2の学習結果(AI2-1)が得られており、AIの強化学習によって習得した第1の学習結果(AI1-1)及び第2の学習結果(AI2-1)は、それぞれユーザが暫定的に設定した第1のルール及び第2のルールよりもよりも好ましい第1の意思決定方法及び第2の意思決定方法であると考えられる。そこで、第3の学習ケースでは、学習結果保存部28に保存されている第1の学習結果(AI1-1)及び第2の学習結果(AI2-1)に基づいて、それぞれ第1の意思決定及び第2の意思決定が行われる。これにより、第3の学習ケースに基づく強化学習の対象を第3の意思決定に限定することができる。
【0052】
第3の学習ケースを対象とするAIによる第3の意思決定の結果を含む第1から第3までの意思決定の結果は、評価部26において評価される。そして、評価部26における第3の意思決定の結果の評価が許容範囲となり、かつより高くなるように強化学習部25における第3の意思決定が所定回数だけ繰返される。これにより、強化学習部25は、第3の意思決定を行うための第3の学習結果(AI3-1)を習得することができる。習得した第3の学習結果(AI3-1)は学習結果保存部28に保存することができる。
【0053】
第1の学習結果(AI1-1)、第2の学習結果(AI2-1)及び第3の学習結果(AI3-1)の全てが学習結果保存部28に保存されると、強化学習部25は、第1乃至第3のルールを用いずに、第1乃至第3の強化学習を、それぞれ異なる学習ケースを対象として繰返すことが可能となる。
【0054】
具体的には、第4の学習ケースを対象として第1の意思決定を行うための第1の強化学習を再開する場合であれば、第2の意思決定及び第3の意思決定を行うための強化学習は行わずに、それぞれ第2の学習結果(AI2-1)及び第3の学習結果(AI3-1)に基づいて第2の意思決定及び第3の意思決定を行うことができる。第1の強化学習を繰返すと、強化学習部25は、より適切な結果に更新された第1の学習結果(AI1-2)を習得することができる。
【0055】
第5の学習ケースを対象として第2の意思決定を行うための第2の強化学習を再開する場合や第6の学習ケースを対象として第3の意思決定を行うための第3の強化学習を再開する場合においても同様である。第2の強化学習を繰返すと、強化学習部25は、より適切な結果に更新された第2の学習結果(AI2-2)を習得することができる。第3の強化学習を繰返した場合も同様である。
【0056】
このように、第1の強化学習中において過去の第2及び第3の学習結果が得られていない場合には第1の強化学習中における第1の意思決定の結果と、第2及び第3のルールに基づく第2及び第3の意思決定の結果を評価部26で評価することによって第1の学習結果を確定させる一方、第1の強化学習中において過去の第2及び第3の学習結果が得られている場合には第1の強化学習中における第1の意思決定の結果と、過去の第2及び第3の学習結果に基づく第2及び第3の意思決定の結果を評価部26で評価することによって第1の学習結果を確定させることができる。
【0057】
また、過去に複数の第2及び第3の学習結果が得られている場合には、最も新しい第2及び第3の学習結果が最も高い評価が得られた学習結果となることから、第1の強化学習中における第1の意思決定の結果と、最も新しい第2及び第3の学習結果に基づく第2及び第3の意思決定の結果を評価部26で評価することによって第1の学習結果を確定させることができる。逆に、第2及び第3の学習結果を更新しながら第1の強化学習を繰返すことによって、第2及び第3の学習結果に応じた第1の学習結果の好適化を進めることができる。
【0058】
これは、第2の強化学習及び第3の強化学習についても同様である。また、
図4には、最も上位の第1の意思決定を行うための第1の強化学習から開始する場合の例を示したが、第2の意思決定又は第3の意思決定を行うための最上位ではない強化学習から開始するようにしても良い。第1の意思決定の強化学習を最初に行わない場合には、最初の強化学習において第1のルールに基づいて第1の意思決定が行われることになる。もちろん、4つ以上の部分的な意思決定を階層的に行う場合においても同様である。
【0059】
カリキュラム強化学習に用いられる学習ケースは、上述したように航空機2の飛行を模擬したシミュレーションによって準備しても良いし、航空機2の現実の飛行ケースを学習ケースとしても良い。尚、機械学習前のAIに意思決定を行わせることは通常困難であるが、ルール設定部24において、評価基準を満たす意思決定の結果が得られるようにルールが設定されているため、原理的には強化学習の開始当初から航空機2の現実の飛行ケースを学習ケースとすることができる。
【0060】
シミュレーションを学習ケースとする場合には、
図3に例示されるように航空機2の位置、高度及び姿勢等を模擬するシミュレータ29をI/Oインターフェース20に接続して必要な情報を航空機制御システム1の演算装置22に入出力することができる。AIからの出力情報は、航空機2の目標地点、飛行経路及び機体制御量等の意思決定の結果であり、AIへの入力情報は、意思決定に必要な航空機2の現在の位置、高度及び姿勢等の情報である。
【0061】
このため、シミュレータ29から入力した航空機2の位置、高度及び姿勢等の状態を特定する情報に基づいてAIが航空機2の目標地点、飛行経路及び機体制御量等を決定し、決定した航空機2の機体制御量に基づいてシミュレータ29が航空機2の位置、高度及び姿勢等の状態を特定する情報を更新することができる。その後、シミュレータ29が更新した情報を再びAIへの入力情報とすることができる。
【0062】
尚、シミュレータ29において航空機2の位置、高度及び姿勢等の状態を高精度に模擬するために、航空機2が飛行する空域における風向きや風速等の風況、気温等の飛行環境についても模擬することが望ましい。
【0063】
一方、航空機2の現実の飛行ケースを学習ケースとする場合には、航空機2の現在の位置、高度及び姿勢等の状態を、航空機2に備えられる各センサ4からフライトコントローラ3を通じて航空機制御システム1の演算装置22に入力することができる。すなわち、航空機2に備えられる各センサ4から航空機2の現在の位置、高度及び姿勢等のAIへの入力情報を取得することができる。
【0064】
そして、航空機2の現在の位置、高度及び姿勢等に基づいてAIが決定した航空機2の機体制御量をフライトコントローラ3に出力することができる。これにより、航空機2が制御され、航空機2の位置、高度及び姿勢等の状態が変化する。その後、最新の航空機2の位置、高度及び姿勢等の状態を航空機2に備えられる各センサ4で測定し、再びAIへの入力情報とすることができる。
【0065】
このように、航空機2を制御するAIをエージェントとして強化学習する際に変化する状態は、主に、航空機2の位置、高度及び姿勢となり、AIの行動は航空機2の機体制御量の決定と、決定した機体制御量のシミュレータ29又はフライトコントローラ3への出力による航空機2の制御となる。そして、AIへの報酬は、目標地点までの距離が短くなる程高くなる報酬、燃料消費量が少なくなる程高くなる報酬或いは航空機2の安定性が向上する程高くなる報酬等とすることができる。
【0066】
操縦情報生成部27は、航空機2のフライトコントローラ3に制御情報を出力する機能と、フライトコントローラ3に出力すべき制御情報を生成する機能を有している。フライトコントローラ3に出力される制御情報は、AIからの出力情報として確定した航空機2の機体制御量を含む情報、具体的には、航空機2の現在の位置、高度及び姿勢等のAIへの入力情報と、ルール設定部24において設定されたルール又は学習結果保存部28に保存された意思決定対象ごとの学習結果に基づいて生成された自動操縦プログラム等の航空機2の操縦を支援するための情報となる。
【0067】
このため、航空機2の現実の飛行ケースを強化学習の学習ケースとする場合には、強化学習部25が学習結果を取得するために最終的に意思決定した結果のうち、フライトコントローラ3に出力するべき情報を制御信号で表した情報が操縦情報生成部27において生成される制御情報となる。
【0068】
次に航空機制御システム1のAIによる意思決定と強化学習によって航空機2を制御する場合の具体的な例について説明する。
【0069】
図5は、
図3に示す航空機制御システム1により航空機2を制御する場合の流れの一例を示すフローチャートであり、
図6は
図5に示す航空機2の制御を行うためのAIへの入力情報と出力情報を示す図である。
【0070】
図5は、ステップS1において、航空機2に備えられる各センサ4から取得した航空機2の位置、高度及び姿勢とともに任務を入力情報としてAIに入力し、AIを構成する強化学習部25がステップS2からステップS4までの航空機2の目標地点又は目標物の決定、飛行経路の決定及び機体制御量の決定に加えて、ステップS5及びステップS6のペイロード11の使用有無の決定と使用方法の決定も行う場合の流れを示している。
【0071】
但し、
図4を用いて説明したように強化学習部25による強化学習の対象はいずれか1つの決定に限定される。このため、強化学習部25によるステップS2からステップS6までの各決定が完了すると、ステップS7において各決定のうち強化学習の対象となっている決定に対する結果が評価部26において評価され、最終的に確定した各決定に基づいて操縦情報生成部27が航空機2の制御情報を生成する。そして、操縦情報生成部27から制御情報を航空機2のフライトコントローラ3に出力することによって航空機2を制御することができる。すなわち、AIが行動を実行することができる。
【0072】
航空機2に与えられる任務が、特定の空域を飛行する他の航空機や飛翔体等の目標物を航空機2にペイロード11として搭載されるレーダやカメラで探知することである場合には、AIへの入力情報と出力情報は例えば
図6に示す情報となる。すなわち、AIには、少なくとも航空機2の位置、高度及び姿勢が入力される。加えて、目標物が航空機2に搭載されるレーダやカメラで捕捉されるまでは、目標物が飛行する空域の位置を航空機2の任務を特定するための入力情報としてユーザがAIに与えることができる。
【0073】
このため、目標物がレーダやカメラで捕捉されるまでは、目標物の位置等が不明であっても、目標物が飛行する空域や当該空域に向けてレーダやカメラの動作状態をON状態に切換えるべき地点を、AIが任務を達成するために適切な目標地点として決定することができる。航空機2の目標地点が決定されると、航空機2の現在の位置、高度及び姿勢に基づいて目標地点へ移動するための航空機2の飛行経路及び機体制御量を決定することが可能となる。
【0074】
航空機2の飛行経路は最短経路等に限らず、大きく迂回する経路など、評価部26における評価方法に応じて決定することができる。一方、航空機2の機体制御量の具体例としては、航空機2が
図1に例示されるような回転翼機であれば、ロータ7の回転速度やピッチの制御量が挙げられる。また、航空機2が回転翼機であるか固定翼機であるかを問わず、航空機2のバンク角、推力及び角速度等の機体の姿勢を特定するためのパラメータに対する制御量を、AIが決定する航空機2の機体制御量としても良い。
【0075】
航空機2が目標空域に進入した場合や目標空域に近づいた場合には、ペイロード11の使用を開始する判断と意思決定を行い、かつレーダの指向方向やカメラの向きなどペイロード11の使用方法についても判断と意思決定を行うことができる。そして、レーダやカメラ等のペイロード11で目標物又は目標物の候補が観測されると、フライトコントローラ3を通じて観測データを航空機制御システム1に入力し、ペイロード11で観測された目標物又は目標物の候補の位置、高度及び姿勢をAIの入力情報に加えることができる。そうすると、AIは、航空機2を目標物又は目標物の候補に一定の距離まで接近させたり、追従させたりすることを新たな目標とすることも可能となる。
【0076】
このようなステップS2からステップS6までの全てのプロセスについて予め強化学習によってそれぞれ学習結果が得られている場合には、学習結果に従ってAIが判断及び意思決定することによって任務を達成することができる。すなわち、評価部26における評価によって、AIは報酬を得ることができる。
【0077】
尚、強化学習を行うことが可能なAIは、深層ニューラルネットワーク(DNN:Deep Neural Network)で構成することが現実的である。ニューラルネットワークは、入力層、隠れ層及び出力層で構成され、隠れ層が2層以上のニューラルネットワークが深層ニューラルネットワークと定義されることが多い。深層ニューラルネットワークの学習は、隠れ層におけるフィルタ係数等のパラメータの最適化に該当するため、AIによる学習結果は、深層ニューラルネットワークにおけるパラメータの値の組合せとなる。
【0078】
AIにおいて少なくとも1つの判断及び意思決定を行うための学習結果が得られていない場合には、強化学習を行って学習結果、具体的には深層ニューラルネットワークにおけるパラメータの値の組合せを取得することが必要となる。AIの強化学習は上述したように強化学習部25において実行され、強化学習のための学習ケースは航空機2の実際の飛行ケースとしても良いし、シミュレーションで飛行ケースを模擬しても良い。尚、
図5及び
図6に示すAIのプロセスは、シミュレーション環境でAIを強化学習させる場合においても同様となる。
【0079】
図4を用いて説明したように、強化学習は部分的な意思決定ごとに別々に行われ、強化学習の対象とならない意思決定について過去の学習結果が得られていない場合には、AIによる判断、つまり深層ニューラルネットワークにおけるパラメータの値の組合せに基づいて導き出された判断ではなく、ルール設定部24において設定されたルールに従って意思決定される。
【0080】
図7は
図6に示すAIの強化学習を開始する際の学習方法を説明する図であり、
図8は
図7に示すAIの強化学習に続いて実施される強化学習の例を説明する図である。
【0081】
図4を用いて説明したように、AIによる意思決定の対象ごとにルール設定部24においてルールが作成される。従って、
図6に示すように航空機2の目標地点又は目標物の決定、飛行経路の決定、機体制御量の決定、ペイロード11の使用有無の決定及びペイロード11の使用方法の決定からなる5つの項目についてAIが判断及び意思決定する場合には、第1から第5までの5つのルールがルール設定部24において作成される。この5つのルールは、全ての判断と意思決定をルールのみに基づいて行った場合に全ての判断と意思決定の結果が、評価部26において適切と評価されるように決定される。
【0082】
AIの強化学習の開始時には、いずれの判断及び意思決定に対する学習結果も得られていない。そこで、最も上位の航空機2の目標地点又は目標物の決定方法に限定してAIの強化学習を行う場合には、
図7に示すように、航空機2の目標地点又は目標物を決定するための第1のルールを用いずに、AIが航空機2の位置、高度及び姿勢等の入力情報に基づく判断及び意思決定を行って航空機2の目標地点又は目標物を決定し、決定した結果を出力情報として出力する。
【0083】
これに対して、下位の4つの項目については、航空機2の位置、高度及び姿勢等の情報を入力値として、対応する第2から第5のルールを用いてそれぞれ決定される。第2から第5のルールに基づいてそれぞれ決定された各結果は必ず評価部26において適切と評価される。このため、AIは与えられた任務を達成するために適切な結果を出力できるように航空機2の目標地点又は目標物の決定方法について集中して学習することが可能になる。
【0084】
航空機2の目標地点又は目標物の決定方法について強化学習が行われ、一定の学習結果が得られると、AIは学習結果に基づいて適切な航空機2の目標地点又は目標物を決定できるようになる。そうすると、次の任意の判断項目を学習対象としてAIの強化学習を開始することができる。
【0085】
例えば、ペイロード11の使用有無の決定方法に着目してAIの強化学習を行う場合であれば、
図8に示すようにペイロード11の使用有無を決定するための第4のルールと、既に学習結果が得られている航空機2の目標地点又は目標物を決定するための第1のルールを用いずに、AIが航空機2の位置、高度及び姿勢等の入力情報に基づく判断及び意思決定を行ってペイロード11の使用有無を決定し、決定した結果を出力情報として出力する。
【0086】
これに対して、航空機2の目標地点又は目標物については、航空機2の位置、高度及び姿勢等の入力情報と、過去の学習結果に基づいてAIが決定する。すなわち、航空機2の位置、高度及び姿勢等の入力情報は変化し得るが、航空機2の目標地点又は目標物を決定するための、深層ニューラルネットワークにおいて対応する最新のパラメータの値の組合せについては変化させずに航空機2の目標地点又は目標物がAIによって決定される。また、学習結果がまだ得られていない他の3つの項目については、航空機2の位置、高度及び姿勢等の情報を入力値として、対応する第2、第3及び第5のルールを用いてそれぞれ決定される。
【0087】
評価部26において既に適切と評価された過去の学習結果に基づいて決定された航空機2の目標地点又は目標物は、再び評価部26において適切と評価される。また、第2、第3及び第5のルールに基づいてそれぞれ決定された各結果は必ず評価部26において適切と評価される。このため、AIは与えられた任務を達成するために適切な結果を出力できるようにペイロード11の使用有無の決定方法について集中して学習することが可能になる。
【0088】
このようにして、ルールで判断及び意思決定していた事項を徐々に学習結果に基づくAIの判断に置換えていくことにより、カリキュラム強化学習を断片的に進めることができる。
【0089】
以上のような航空機制御システム1、航空機制御方法、航空機制御プログラム及び航空機は、複数の意思決定を伴う複雑なプロセスをAIが実行できるようにするために、各意思決定を行うためのルールを設定しておくことによって、選択した意思決定の項目に限定して部分的にAIの強化学習を行えるようにしたものである。
【0090】
(効果)
このため、航空機制御システム1、航空機制御方法、航空機制御プログラム及び航空機2によれば、航空機2の飛行を支援するために複数の意思決定を伴う複雑なプロセスをAIに実行させることが必要となる場合において、意思決定に必要な事項をより短時間でAIに強化学習させることができる。
【0091】
具体的には、複数の意思決定の全体に亘って強化学習の対象とすると、膨大な学習時間を要したり、一部の意思決定の結果のみが極端に適切となる局所解が得られたりする恐れがあるところ、意思決定の対象となる項目ごとに順番に強化学習を行えるので、短時間で最適解を探索することが可能となる。
【0092】
また、個別の学習規模が小さくなるため、学習時間の低減のみならず、報酬の設計を簡素にすることができる。設定すべきルールについても、AIの学習が進めば学習結果に置換されることから、少なくともAIが目標を達成することが可能な簡素なルールとすることができる。その結果、AIの開発規模を低減することができる。
【0093】
加えて、意思決定の項目ごとに強化学習による学習方法が適切であるか容易に判断でき、意思決定の項目ごとに最適なAIの判断を適用することも可能となる。このため、航空機2の自動操縦についても一層の好適化を図ることができる。
【0094】
(他の実施形態)
以上、特定の実施形態について記載したが、記載された実施形態は一例に過ぎず、発明の範囲を限定するものではない。ここに記載された新規な方法及び装置は、様々な他の様式で具現化することができる。また、ここに記載された方法及び装置の様式において、発明の要旨から逸脱しない範囲で、種々の省略、置換及び変更を行うことができる。添付された請求の範囲及びその均等物は、発明の範囲及び要旨に包含されているものとして、そのような種々の様式及び変形例を含んでいる。
【符号の説明】
【0095】
1 航空機制御システム
2 航空機
3 フライトコントローラ
4 センサ
5 アンテナ
6 送受信器
7 ロータ
8 モータ
9 ESC
10 アクチュエータ
11 ペイロード
20 入力装置
21 記憶装置
22 演算装置
23 コンピュータ
24 ルール設定部
25 強化学習部
26 評価部
27 操縦情報生成部
28 学習結果保存部
29 シミュレータ