【新規性喪失の例外の表示】特許法第30条第2項適用 掲載年月日/平成29年11月10日 掲載アドレス/ http://techon.nikkeibp.co.jp/atcl/mag/15/00140/00027/ 掲載年月日/平成29年11月20日 掲載アドレス/ https://r.nikkei.com/article/DGXMZO23626530X11C17A1XY0000 https://www.ascent.ai/wp−content/uploads/2017/11/AR_release_fin_171120.pdf http://thebridge.jp/2017/11/ascent−robotics−atlas−beta−launch 掲載年月日/平成29年11月21日 掲載アドレス/ https://www.projectdesign.jp/199902/news/004294.php 掲載年月日/平成29年12月1日 掲載アドレス/ https://www.nikkan.co.jp/articles/view/00452815
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、機械学習によって自動運転制御を実現しようとする場合、教師なし学習の一種である強化学習(reinforcement learning)を使用する方法がある。
【0006】
強化学習は、教師なし学習であるため、個別の局面ごとに制御対象(例えば、自動車など)がどう行動すべきかという指示は一切与えられず、エージェント自身が環境の中で試行錯誤を繰り返し、よりよい動作を自ら獲得していく手法である。
【0007】
詳しくは、強化学習においては、何らかの手掛かりがない場合には、何がいい行動なのかエージェントは判断することができないため、見本となる行動に関する価値基準(報酬関数)を与えることが必要となる。エージェントは学習中において当該報酬を得ながら期待値を向上させるための行動を探索し獲得する。
【0008】
しかしながら、このような強化学習は、例えば、自動車の運転制御のように複雑な環境の中ではどのような行動が「良い行動」かという数値基準を定義することが困難である。
【0009】
そこで、本発明は、制御対象を自動で制御するためのエージェントの学習方法として新たな技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
上述した強化学習のみによっては効果的な学習方法を得ることができないことから、本発明の発明者らは、強化学習に加えて、エージェントに見本となる行動を模倣させる模倣学習(imitation
learning)により学習させる方法を検討した。
【0011】
これにより、例えば、交差点のような複雑な曲面において、自動運転制御をどのように行わせるのか、その動作パターンを人間が局面ごとにプログラムするのではなく、見本行動としてエージェントに学習させることが可能となる。
【0012】
更に、発明者は、模倣学習にGAN(generative adversarial networks)を利用することにより、更に学習の効率を向上させることができることを見出し本発明に至った(詳しい構成は後述する)。
【0013】
本発明はかかる知見に基づくものである。即ち、本発明によれば、
制御対象を自動で制御するためのエージェントの学習方法であって、
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得するステップと、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成するステップと、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させるステップとを含む、
学習方法が得られる。
【発明の効果】
【0014】
本発明によれば、人間が日々行っている動作を手本とするため、少なくとも人間が実施できる(即ち、見本行動として実施できる)動作であれば、報酬関数が設計できなくとも利用が可能となり、効果的な学習を行うことができる。
【0015】
また、本発明によれば、実データ(実際の運転画像等)が少なくともGANによって生成することができるため、より精度の高い学習を行うことができる。
【0016】
更に、本発明によれば、GANを利用することにより見本行動が行われる仮想環境をより実際の環境に近いものに転化して模倣学習させることが可能となる。
【発明を実施するための形態】
【0018】
本発明の実施形態の内容を列記して説明する。本発明の実施の形態による学習方法、学習装置は、以下のような構成を備える。
[項目1]
制御対象を自動で制御するためのエージェントの学習方法であって、
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得するステップと、
実画像と、仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成するステップと、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させるステップとを含む、
学習方法。
[項目2]
項目1に記載の学習方法であって、
前記シミュレータは、仮想空間を生成する仮想空間生成部と、当該仮想空間内に表示された制御対象の制御を受け付ける入力部と、当該制御を前記見本行動情報として記録する
記録部と、前記仮想空間及び前記制御対象を表示するヘッドマウントディスプレイ部とを少なくとも備えている、
学習方法。
[項目3]
項目1又は項目2に記載の学習方法であって、
前記所定の生成モデルは、Generative Adversarial
Networks(GAN)を利用した生成モデルである、
学習方法。
[項目4]
項目1乃至項目3のいずれかに記載の学習方法であって、
前記第2仮想環境は、前記実画像と、前記仮想画像と、前記疑似実画像とを所定の比率において利用して構築されたものである、
学習方法。
[項目5]
項目1乃至項目4のいずれかに記載の学習方法であって、
前記制御対象のダイナミクスモデルを考慮して前記模倣学習を補正するステップを更に含む、
学習方法。
[項目6]
項目1乃至項目5のいずれかに記載の学習方法であって、
前記模倣学習を検証するためのステップであって、シナリオベースシミュレーション、マルチエージェントシミュレーション又は敵対的エージェントシミュレーションの少なくともいずれかを利用するステップを更に含む、
学習方法。
[項目7]
項目1乃至項目6のいずれかに記載の学習方法であって、
前記制御対象は自動車であり、
前記第1仮想環境は前記自動車の走行環境であり、
前記見本行動は、前記走行環境内における前記自動車の運転操作である、
学習方法。
[項目8]
制御対象を自動で制御するためのエージェントの学習装置であって、
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得する手段と、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成する手段と、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる手段とを備える、
学習装置。
[項目9]
コンピュータ端末を利用して、制御対象を自動で制御するためのエージェントの学習プログラムであって、
前記コンピュータ端末を
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得する手段、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成する手段、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる手段として機能させる、
学習プログラム。
[項目10]
制御対象を自動で制御するためのエージェントの学習システムであって、
見本行動取得装置が、第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得し、
疑似実画像生成装置が、実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成し、
学習装置が、少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる、
学習システム。
【0019】
<概要>
以下、本発明による学習方法を自動車の自動運転制御の学習に関するものとして説明する。学習方法は、基本的には従来り深層強化学習によってエージェントに自律的に運転動作を探索させる。
【0020】
このような強化学習としては、Actor−Critic法などが例示できる。その上で、本実施の形態にお手は、報酬関数が得にくい場合については人間の教示による模倣学習を組み合わせることとしている。
【0021】
このように、深層強化学習と模倣学習との組み合わせによって、適切な振る舞い行う制御器(policy)が得られたら、学習の効果を確かめるための検証(varidation)を行う。検証は、シナリオベースシミュレーション、マルチエージェントシミュレーション又は敵対的エージェントシミュレーションの少なくともいずれかを利用することができる。
【0022】
検証が終わると、学習済みの制御器を実環境に移し、運用を行う。
【0023】
<構成>
図1は、学習システムの処理の流れを模式的に示すブロック図である。なお、図の構成は一例であり、これら以外の要素が含まれていてもよい。
【0024】
本発明による情報提供システムは、学習装置と、入力装置とを含んでいる。これらの装置は、物理的又は論理的に(例えば、ネットワークを介して)互いに通信可能に接続されている。
【0025】
<ハードウェア構成>
情報提供システムのハードウェア構成について、
図2及び
図3を参照して説明する。本実施の形態による学習装置及び入力装置は、次のようなハードウェア構成を有している。
【0026】
なお、以下の構成は一例であり、これ以外の構成を有していてもよい。また、単一の装置で構成されていてもよいし、複数の装置によって構成されていてもよい。さらには、同等の機能を有する他の手段を適宜採用することも可能である。
【0027】
<学習装置>
図2は学習装置の機能ブロック図を示す図である。なお、図示される構成は一例であり、これら以外の機能が付加されていてもよい。
【0028】
学習装置は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。
【0029】
学習装置は、自動運転制御に関するエージェントの学習(強化学習、模倣学習等)や、GANによる疑似実画像の生成をも行うことにより、学習システムの一部を構成する。
【0030】
学習装置は、少なくとも、プロセッサ10、メモリ11、ストレージ12、送受信部13、入出力部14等を備え、これらはバス15を通じて相互に電気的に接続される。
【0031】
プロセッサ10は、学習装置全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行に必要な情報処理等を行う演算装置である。例えばプロセッサ10はCPU(Central Processing Unit)及び/又はGPU(Graphics Processing Unit)を含み、ストレージ12に格納されメモリ11に展開されたプログラム等を実行して各情報処理を実施する。
【0032】
メモリ11は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ11は、プロセッサ10のワークエリア等として使用され、また、管理サーバ1の起動時に実行されるBIOS(Basic Input / Output System)、及び各種設定情報等を格納する。
【0033】
ストレージ12は、アプリケーション・プログラムや、学習に用いる画像データ、見本行動情報等の各種データを格納する。各処理に用いられるデータはデータベースとしてストレージ22に構築されていてもよい。
【0034】
送受信部13は、学習装置をネットワークに接続する。なお、送受信部13は、Bluetooth(登録商標)及びBLE(Bluetooth Low Energy)の近距離通信インタフェースを備えていてもよい。送受信部13は、企業端末より依頼を受けて、生成されたミッション情報をユーザ端末に送信する。
【0035】
入出力部14は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。
【0036】
バス15は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
【0038】
図3は、入力装置の機能ブロック図の例を示す図である。なお、図示される構成は一例であり、これら以外の機能が付加されていてもよい。
【0039】
入力装置は、学習装置と同時にまたは時を異にして情報処理を実行することにより学習システムの一部を構成する。
【0040】
入力装置は、専用のシミュレータであってもよいし、パーソナルコンピュータのような汎用コンピュータであってもよい。
【0041】
図示されるように、入力装置は、少なくとも、プロセッサ20、メモリ21、ストレージ22、送受信部23、入出力部24等を備え、これらはバス25を通じて相互に電気的に接続される。これらの機能は上述した学習装置と同様の構成を採用できるため、ここでは詳細な説明は省略する。
【0042】
本実施の形態による入出力部24は、運転操作部241と、HMD(Head Mount Display)242とを備えている。
【0043】
運転操作部241は、アクセルペダル、ブレーキペダル、ハンドル等の自動車運転に必要な入力機器であり、操作者からの運転操作を受け付ける。
【0044】
HMD242は、更に、図示しないディスプレイおよびセンサを具備する。ディスプレイは、操作者の視界を完全に覆うよう構成された非透過型の表示装置であり、操作者はディスプレイに表示される画面のみを観察することができる。非透過型のHMD242を装着した操作者は、外界の視界を全て失うため、仮想空間に完全に没入する表示態様となる。
【0045】
仮想空間内には、都市の3Dモデルが再現されており、実際の世界の道路が再現されている。
【0046】
<データ>
図1に示されるように、本実施の形態においては、道路等を実際に撮影した実画像と、CGで再現した仮想画像と、生成モデル(後述する)を利用して得られる疑似実画像とをそれぞれ所定の比率で利用してエージェントの学習を行う。
【0047】
<処理の流れ>
続いて、
図1を参照して本実施の形態による学習システムの処理の流れを説明する。
【0048】
本実施の形態による学習システムにおいては、より現実の世界に近い環境で学習を行うべく、疑似実画像を利用することとしている。疑似実画像は、実画像と仮想画像とから生成モデルによって生成される。なお、入力装置において利用される仮想空間を構成するCGを仮想画像として利用してもよい。
【0049】
本発明による生成モデルは、訓練データを学習し、それらのデータと似たような新しいデータを生成するモデルである。換言すれば、訓練データの分布と生成データの分布が一致するように学習していくようなモデルである。
【0050】
このような生成モデルとしては、Generative Adversarial
Networks(GAN)や、Variational Autoencoder(VAE)などがある。本実施の形態においては、比較的精度の高い画像を生成することを得意とするGANを用いることとしている。
【0051】
GANは、generatorとdiscriminatorという2つのネットワークを使用する。Generatorは訓練データと同じようなデータを生成しようと試みるものであり、一方、discriminatorはデータが訓練データから来たものか、それとも生成モデルから来たものかの識別を試みるものである。
【0052】
最終的には、generatorは訓練データと同じようなデータを生成できるようになることが期待される。このような状態では、訓練データと生成データを見分けることができなくなる。
【0053】
Gはgenerator、Dはdiscriminator、xは訓練データ、zはノイズを表すこととした場合、Gはノイズzを入力としてデータを生成する。D(x)は、そのデータが訓練データである確率を表すスカラー量である。Dは訓練データと生成データに対して正しくラベル付けを行う確率を最大化しようと試みる。一方、Gはlog(1−D(G(z)))を最小化しようとする。これらをまとめると数式1のように表すことができる。
【0055】
Dがうまく分類できるようになると、D(x)が大きくなり、logD(x)が大きくなる。また、偽物と識別されるとD(G(z))は小さくなるため、log(1−D(G(z)))は大きくなる。一方、GGが訓練データに似ているものを生成できるようになると、DDがうまく分類できなくなるためD(G(z))は大きくなり、log(1−D(G(z)))は小さくなる。
【0056】
本実施の形態においては、このような生成モデルを(1)模倣学習の実現、(2)深層強化学習におけるシミュレータの画像改善、(3)深層強化学習における環境モデルの作成に利用する。
【0057】
動作を教示する操作者は、上述した入力装置を利用して仮想環境内で自動者を運転してそれを見本行動情報として記録する。見本行動情報をGANに与え、それを模倣する制御器を学習によって生成する。
【0058】
なお、このような、模倣学習の他の方法としては、操作者の動作軌跡の教師あり学習(behavior cloning)、逆強化学習(IRL:inverse reinforcement learning)物などがある。
【0059】
しかしながら、これらの模倣学習と比較手、GANによる手法は教示のための学習データ量(サンプル数)が非常に少なくて済むことに加え、軌道データだけでなく生画像の入力による教示も可能である。また、複雑で高次元のタスクでも覚えやすく、動作の背景にある何らかの意味を持ったパラメータ(潜在変数)も獲得できる。
【0060】
本実施の形態においては、操作者による操作(人間にの軌道データ)と近い偽のデータを生成する。一方、識別器は軌道データが生成器からのものなのか、本物の人間の軌道データかを見分ける。
【0061】
このような生成器と識別器とを競い合わせて学習させると、いずれは、生成器は人間に近い軌道データを生成できるようになる。
【0062】
本実施の形態においては、強化学習を行う際のシミュレータを実環境に極力近づけるために生成モデルを適用する。即ち、シミュレータが出力する仮想環境のCG画像をGANによって詳細化し現実の画像に見えるように変換したり、ダイナミクスモデルを特定の生成モデルで表現する。
【0063】
これにより、シミュレータ上であっても、強化学習の試行を行った場合、エージェントはあたかも現実世界にいるかのように試行錯誤できる。
【0064】
上述した実施の形態は、本発明の理解を容易にするための例示に過ぎず、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良することができると共に、本発明にはその均等物が含まれることは言うまでもない。