(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-13
(45)【発行日】2022-04-21
(54)【発明の名称】分散型ニューラルネットワークを用いた物体認識システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20220414BHJP
G06N 3/04 20060101ALI20220414BHJP
【FI】
G06T7/00 350C
G06N3/04 154
(21)【出願番号】P 2020541954
(86)(22)【出願日】2019-03-14
(86)【国際出願番号】 EP2019056418
(87)【国際公開番号】W WO2019175309
(87)【国際公開日】2019-09-19
【審査請求日】2020-08-21
(31)【優先権主張番号】102018106222.2
(32)【優先日】2018-03-16
(33)【優先権主張国・地域又は機関】DE
(31)【優先権主張番号】102018110828.1
(32)【優先日】2018-05-04
(33)【優先権主張国・地域又は機関】DE
(73)【特許権者】
【識別番号】518065223
【氏名又は名称】ロックウェル コリンズ ドイチェラント ゲーエムベーハー
(74)【代理人】
【識別番号】100121441
【氏名又は名称】西村 竜平
(74)【代理人】
【識別番号】100154704
【氏名又は名称】齊藤 真大
(74)【代理人】
【識別番号】100129702
【氏名又は名称】上村 喜永
(74)【代理人】
【識別番号】100206151
【氏名又は名称】中村 惇志
(74)【代理人】
【識別番号】100218187
【氏名又は名称】前田 治子
(72)【発明者】
【氏名】フェイゲンブッツ マイケル
【審査官】千葉 久博
(56)【参考文献】
【文献】特表2009-505288(JP,A)
【文献】米国特許出願公開第2017/0076195(US,A1)
【文献】国際公開第2017/200622(WO,A2)
【文献】Surat Teerapittayanon, 外2名,"Distributed Deep Neural Networks over the Cloud, the Edge and End Devices",2017 IEEE 37th International Conference on Distributed Computing Systems(ICDCS),2017年06月08日,p.328-339
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 3/04
(57)【特許請求の範囲】
【請求項1】
分散型ニューラルネットワークを用いた物体認識システムであって、
第1のニューラルネットワークが基地局に設けられており、
前記第1のニューラルネットワークより性能
が低い
第2のニューラルネットワークが、フロントエンド側に設けられており、
前記
第2のニューラルネットワークが、前記
第1のニューラルネットワークよりも深さが小さく、そのため前記
第1のニューラルネットワークよりも
処理能力が低く、
映像を生成するため
のカメラ装置が前記フロントエンド側に設けられ、
前記フロントエンド側の
第2のニューラルネットワークが、前記映像内の関心ある画像領域を特定してマークする
とともに、関連付けられた重みづけを評価して、予測の確率を評価するように設計されており、
前記関心ある画像領域が、物体認識ミッションの範囲内で物体を認識できる特有の特徴を含む画像領域であり
、前記フロントエンド側の
第2のニューラルネットワークの
処理能力が低いため
に物体の認識及び特性評価が可能
なものではなく、
予め特定した前記関心ある画像領域
及び確率に基づいて、ROI(関心領域)を選択及び規定し、前記ROIを前記映像にエンコードするための映像処理手段が設けられており、
前記映像処理手段
と前記基地局
とが無線により接続され、前記映像処理手段から前記基地局に前記映像を送信
するように構成されており、
前記基地局に送信される前記ROIがエンコードされた映像が、前記ROIを含む所定の解像度の領域と、これよりも解像度が低い領域とを有し、
前記基地局側の
第1のニューラルネットワークが、受信した前記映像から抽出した前記ROIを評価し、前記ROI内に存在する物体を認識するように設計されている物体認識システム。
【請求項2】
前記基地局側の
第1のニューラルネットワークによって認識された前記物体を表示する表示手段が設けられている請求項1に記載の物体認識システム。
【請求項3】
前記システムのパラメータを変更するための操作手段が設けられており、
前記パラメータのうちの少なくとも1つが、
ROIの位置、
ROIのサイズ、
ROIの評価、
ROIの表示、
新しいROIの定義、及び
カラー表示か白黒表示かの決定
から選択される、請求項1又は2に記載の物体認識システム。
【請求項4】
第1のニューラルネットワークを基地局に設け、
前記第1のニューラルネットワークより性能
が低い
第2のニューラルネットワークをフロントエンド側に設け、当該
第2のニューラルネットワークが、前記
第1のニューラルネットワークよりも深さが小さく、そのため前記
第1のニューラルネットワークよりも
処理能力が低いものであり、
前記フロントエンド側
で映像を生成し、
前記フロントエンド側の
第2のニューラルネットワークによって、前記映像における関心がある画像領域を特定し、これらの画像領域にマークを付ける
とともに、関連付けられた重みづけを評価して予測の確率を評価し、当該関心がある画像領域が、物体認識ミッションの範囲内で物体を認識できる特有の特徴を含む画像領域であり、前記フロントエンド側の
第2のニューラルネットワークの
処理能力が低いために
物体の認識及び特性評価が可能
なものではなく、
予め特定した前記関心ある画像領域
及び確率に基づいて、ROI(関心領域)を選択及び規定し、前記ROIを前記映像にエンコードし、
前記フロントエンド側から前記基地局に
、前記ROIがエンコードされた映像であって、前記ROIを含む所定の解像度の領域と、これよりも解像度が低い領域とを有する前記映像を送信し、
受信した前記映像からROIを抽出し、
前記基地局側の
第1のニューラルネットワークによって、前記抽出したROIを評価し、前記ROI内に存在する物体を認識する物体認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
分散型ニューラルネットワークを用いた物体認識システムに関する。
【背景技術】
【0002】
基本的に、古典的な畳み込みニューラルネットワーク(CNN)の構造は、1つ以上の畳み込み層と、それに続くプーリング層とから構成されている。このユニットは基本的に何度でも繰り返すことができ、十分な数の繰り返しの場合には、深層学習の範囲内に入る深層畳み込みニューラルネットワークと呼ばれることになる。
【0003】
高解像度映像におけるリアルタイムでの物体認識のための畳み込みニューラルネットワークは、適切なコンピュータ性能、メモリ容量及び特定の複雑なグラフィックスモジュールによるサポートを必要とする。前述のコンピュータリソースは、通常、膨大な電力及び容量の要件を有し、それに応じて重い。
【0004】
小型や中型の遠隔操作車両(この場合、特に無人航空機)では、サイズ、重量及び電力要件の要件を満たすことができない。
【0005】
もう一つの問題は、車両上のこのような解決策のコストである。これは、中型や小型の車両の場合、単価と将来の機能強化のためのコストの両方に適用される。
【0006】
さらに、そのようなネットワークは、例を介して学習されなければならず、学習段階の後に(フィードバックなしで)独立して学習を継続することができない。
【発明の概要】
【0007】
本発明は、限られたコンピュータリソース及び限られたリンク帯域幅を有する遠隔操作車両に対して、ニューラルネットワーク技術を用いてリアルタイムの物体認識を提供することを目的とする。したがって、分散ネットワークによるニューラルネットワーク技術によるリアルタイム物体認識の向上が達成される。さらに、特定の状況下では、既に訓練(学習)されたニューラルネットワークの継続的な自動訓練(学習)を可能にする。
【0008】
この目的は、請求項1の特徴を有するシステムによって解決される。有利な実施形態は、従属請求項に記載されている。
【0009】
分散型ニューラルネットワークによる物体認識システムでは、ニューラルネットワークのリソース集中部分が基地局(地上)に移動され、そこではサイズ、重量及び消費電力に関する大きな制限が存在しない。一方、フロントエンド(例えば、遠隔操作された車両)では、特徴マップ又はキャラクタリゼーション(又は特徴付け、特性評価、特性化、characterization)のみが処理される。
【0010】
1つの変形実施形態では、高性能なニューラルネットワークを基地局(地上)に設けることができ、一方で、性能が劣るニューラルネットワークをフロントエンド側、特に航空機等の車両に設けることができる。
【0011】
この処理では、フロントエンド側に高解像度のカメラ装置を設けて、高解像度の映像(又は動画、video)を生成することができる。フロントエンド側のニューラルネットワークは、映像内の「関心のある(of interest)」画像領域を認識し、マーキングするように設計することができる。この処理では、「関心のある」画像領域とは、物体認識ミッションのタスクに応じて、認識すべき物体を示す可能性のある特有の特徴を含むが、最終的な評価(final evaluation)及び特性評価(characterization)がまだ可能ではない画像領域と理解される。
【0012】
映像処理手段は、以前に認識された関心のある画像領域に基づいてROI(ROI―「関心領域」)を選択して定義するため、及びROIを映像にエンコードするために提供されてもよい。この点において、ROIは、以前に「関心のある」画像領域として特徴付けられた領域の続きである。
【0013】
さらに、映像処理手段から基地局に映像を送信するために、データ無線接続が設けられてもよい。
【0014】
基地局側ニューラルネットワークは、受信した映像から抽出されたROIを評価し、ROI内に存在する物体を認識するように設計することができる。ROIは、基地局内で受信された映像から抽出され、ニューラルネットワークに利用可能になる。
【0015】
基地局側ニューラルネットワークは、フロントエンド側ニューラルネットワークよりもかなり深く設計されている。そのため、基地局側ニューラルネットワークは、解析や物体認識を自由にするためのリソースを実質的に無制限に有することができる。そこに委ねられたAI(人工知能)コンピュータは、最終的に映像全体を再コンパイルし、特に基地局側ニューラルネットワークによって認識された物体を補完する。映像は、新たな境界ボックスを有するROIと、認識された物体の分類と、ROIとしてコード化されていない更なる領域のシンボルとを含んでもよい。
【0016】
また、基地局側ニューラルネットワークによって認識された物体、又はそれによって生成された映像を表示するための表示手段が設けられてもよい。
【0017】
システムのパラメータを変更するための操作手段が設けられてもよい。このパラメータのうちの少なくとも1つは、以下のグループから選択される。
+ ROIの位置
+ ROIのサイズ
+ ROIの評価
+ ROIの表示
+ 新しいROIの定義
+ カラー表示又は白黒表示の決定
【0018】
この操作手段を用いて、地上にいるオペレータは表示を動的に変更することができる。
【0019】
さらに本明細書では物体認識方法が規定されており、この物体認識方法は以下のステップを含む。
- 高性能ニューラルネットワークを基地局に設けるステップ
- 性能が劣るニューラルネットワークをフロントエンド側に設けるステップ
- フロントエンド側で高解像度の映像の生成するステップ
- フロントエンド側ニューラルネットワークにより、映像内の関心ある画像領域を認識し(検出し)、これらの画像領域をマーキングするステップ
- 以前に認識された関心ある画像領域に基づいてROI(「関心領域」)を選択して定義し、そのROIを映像にエンコードするステップ
- フロントエンド側から基地局へ映像を送信するステップ
- 受信した映像からROIを抽出するステップ
- 抽出したROIを評価し、基地局側ニューラルネットワークにより、ROI内に存在する物体を認識するステップ。
【0020】
これにより、フロントエンド側の技術的な複雑さ、及び基地局とフロントエンドとの間のデータ伝送のための技術的な複雑さを低減することができる。
【0021】
提案された解決手段は、映像処理(例えば遠隔操作用途のための)による物体認識に対処する全てのシステムの改善に貢献する。
【0022】
このようなシステムは、例えば、無人航空機(例えばドローン等)に使用することができる。アプリケーションの1つの分野は、自然災害における犠牲者のためのドローンによる捜索であってよい。それからドローンは、ドローン自身と基地局の両方に分散したニューラルネットワークの形での人工知能を利用して、助けを必要としている犠牲者を探索し、認識することができる。このようにして、救助活動の作業を大幅に簡素化し、迅速化することができる。
【図面の簡単な説明】
【0023】
【
図1】特徴マップ層と全結合層とを分けた物体認識システムを示す概略図である。
【
図3】特徴マップ層と全結合層における学習パラメータの部分の概要を示す表である。
【
図4】他の表現で示す物体認識システムを示す図である。
【
図5】他の表現で示す物体認識システムを示す図である。
【発明を実施するための形態】
【0024】
本発明は、添付の図面を用いて、実施例に基づいて説明される:
【0025】
提案された解決手段は、ニューラルネットワークのリソース集中部分を、サイズ、重量及び消費電力に関する大きな制限が存在しない(地上の)基地局に移動させることを可能にする。
【0026】
しかしながら、フロントエンド(例えば、遠隔操作されている車両)では、特徴マップ又は特徴付け(キャラクタリゼーション、characterization)のみが処理される(
図1及び
図2を参照)。
【0027】
図3の表に示すように、ネットワークの後続の「全結合」部分における学習パラメータの量は著しく増加し、一方で、特徴マップ層におけるパラメータの量は非常に少ない(畳み込み層及びプーリング層)。
【0028】
これと並行して、ピクセル/データの数は、オリジナル(映像)画像の最小分数(minimum fraction)にまで低減される。
【0029】
情報は、特徴マップ層と「全結合層」との間でシリアル化される。すなわち、高さ及び幅=1であり、深さは、前のレベルからのフィールド/ピクセルの最大数に対応する。
【0030】
この解決手段では、車両内に残る部分と基地局内に残る部分とへのネットワークの分割は、例えば「畳み込み層」と「全結合層」との間で、「転送パラメータ」の数を最小化したサイトで行われる。それから膨大な数の全結合層とそれに関連するパラメータは基地局のコンピュータによって計算される。一方で、畳み込み層とプーリング層は、少数の学習パラメータのみで車両上で計算される。
【0031】
データリンクの帯域幅の変動により、一定の画質を提供しないことが多い圧縮映像ストリームのための数メガバイト/秒の伝送の代わりに、開示されたアプローチは、高解像度映像において物体を認識する場合でも、キロバイト/秒の範囲の伝送のみを必要とする。
【0032】
2つの部分(例えば、基地、車両)へ分割(分散)することによって物体を認識する上記手法の原理は、物体認識の質を継続的に向上させるのに使用することができる(
図4を参照)。またコンピュータリソースの利用可能性が制限された環境において、この技術の使用を可能にする。
【0033】
複数の車両又は追加の複数の固定センサーを使用することにより、様々なソースの特徴量(feature characterizations)をシリアル化された表現として基地(ベース)で結合し、共通の全結合ネットワークを介して処理することができる。画像ソースの同期化が推定される。これにより、特に物体認識に関して、予測の質が向上する。
【0034】
また、複数の並列ネットワークの実施が可能であり、これらは同じ物体を異なる視点から分析したり、異なるネットワークアーキテクチャで分析したりすることができる。あるいは、これらが異なる学習画像のセットを用いて学習されており、出力ノードに対して、結果を比較しながら、互いにフィードバックを与えることができ、そして自動的に学習し続けることができる。
【0035】
既知のシステムと比べて、開示された解決手段は、小型や中型の遠隔操作車両又は自律型車両にも使用することができる。
【0036】
また、このシステムは、車両を改造等することなく、車両の適格性が確認された後も、学習を継続させることができる。その改良(強化、向上)は、基地局で行うことができる(
図5も参照)。
【0037】
既知のシステムと比べて、開示された解決手段は、異なる視点から物体を自動的に分析し、共通の分類層を通してその結果を向上させることができる(
図5も参照)。
【0038】
図6は、本実施形態の機能及び応用原理の変形例を示す。以下における番号付けされた段落は、
図6に記載された位置番号(丸で囲まれた数字)を指している。
【0039】
(1)例えば地震後の被災地等、大面積を分析する状況では、例として、既存の昼光センサーと赤外線センサーに加えて、クラスタカメラが搭載されたドローンが使用される。このクラスタカメラは複数の個別のカメラ(カメラ1~3)で構成されており、個々のカメラを組み合わせることで非常に広い視野角を確保できる。このようにして、より大きなエリアや風景も完全にカバーすることができる。
【0040】
(2)クラスタカメラの個々の映像は、ドローンに搭載された映像処理ユニットにおいて、4K解像度の単一の映像(例えば、UHD映像)に結合される(所謂「スティッチング」)。この映像の正規化された(スケーリングされた)バージョンは、解析と物体認識のための埋め込み型(embedded)ニューラルネットワークに供給される。一方でフル解像度を有する完全な映像は、映像処理ユニットに並列に渡される。このように、埋め込み型ニューラルネットワークはフロントエンド側であり、すなわち、航空機(例えばドローン等)内に存在する。
【0041】
(3)埋め込み型ニューラルネットワークは、「関心のある」画像領域又は物体(例えば、自然災害の被害者、破壊された家等)を認識し、所謂「境界ボックス」の座標を出力として供給する。この「境界ボックス」は、検出した物体をマークし、予測の確立を評価する対応する重みづけ(スコア)を評価する。
【0042】
このようにして、埋め込み型ニューラルネットワークは、計算された映像データのある予備的な評価を既に実行し、既存の人工知能の助けを借りて、関心があると思われる画像領域や物体を特徴づけることができる。
【0043】
この処理では、埋め込み型ニューラルネットワークの処理性能は、通常、「関心がある」と認識された画像領域又はそこで見つかった物体を、十分な安全性と精度で認識(又は特定)するのには十分ではない。
【0044】
(4)ニューラルネットワークによって認識された座標と確率は、映像処理ユニットによって、所謂ROI(「関心領域」)を規定(又は定義)するのに使用される。ROIは、以前に規定された境界ボックスよりも大きな面積を有することができ、またこれらの複数のマーキングを含むこともできる。例えば、複数の密集した「関心がある」物体がニューラルネットワークによって認識された場合、それらは単一のROIにまとめることができる。
【0045】
確率パラメータに基づいて、最も重要なROIは映像に直接エンコードされ、一方で確率の低い領域はシンボルを介してカラーコードでマークすることができる。
【0046】
圧縮率をさらに高めるために、
図6に示すように、ROIの外側の領域は、白黒フォーマットで任意に送信されることができる。当然ながら、対応する無線帯域幅があれば、完全にカラーで伝送することができる。
【0047】
(5)エンコードされた映像は、シンボル座標及びROIと共に、ドローンのデータ無線接続を介して地上管制局に送信され、そこで再びデコードされる。このようにして映像は、高解像度の領域(ROIを含む)と、ドローンと地上管制局との間の接続の帯域幅に応じて、低解像度の領域(必要に応じて、白黒のみで)とを有することになる。
【0048】
(6)ROIの詳細な分析のために、映像から自動的にROIが切り取られ、地上におけるニューラルネットワークに供給される。このネットワークは、高性能なプロセッサと複数のGPUを搭載した専用のAIコンピュータ上で動作します。
【0049】
地上での処理は、無線帯域が変動しても安定した高品質の映像素材をこれらの領域に供給するROIの仕組みによって最終的に可能となる。
【0050】
(7)地上に配置されたAIコンピュータは、航空機に搭載されている空中コンポーネントよりもかなり深いニューラルネットワークを使用しており、分析及び物体認識のためのリソースを実質的に無限に提供する。
【0051】
AIコンピュータは最終的に、地上のディスプレイユニット上に完全な映像を表示する。
これは、新しい境界ボックス付きのROI、認識された物体の分類(8)及びROIとしてエンコードされていない更なる領域のためのシンボルが含まれている。
【0052】
地上のオペレータは、以下に例示するように、表示を動的に変更することができる。
・表示されているROIを動的(同時に、ダイナミックに)に移動させる。
・ROIのサイズを変更する。
・記号を選択し、ROIとして表示させる(スコアが最も低いROIは消えて記号になる)。
・ROIを自身で定義する。
・カラー表示又は白黒表示を選択する。