(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-28
(45)【発行日】2023-12-06
(54)【発明の名称】ニューラルネットワークの分散学習および重み分配のためのシステム、および方法
(51)【国際特許分類】
G06T 7/215 20170101AFI20231129BHJP
G06T 7/00 20170101ALI20231129BHJP
G06N 3/098 20230101ALI20231129BHJP
G06N 3/0464 20230101ALI20231129BHJP
G06N 3/044 20230101ALI20231129BHJP
【FI】
G06T7/215
G06T7/00 350C
G06N3/098
G06N3/0464
G06N3/044
【外国語出願】
(21)【出願番号】P 2022202375
(22)【出願日】2022-12-19
(62)【分割の表示】P 2020511523の分割
【原出願日】2018-07-20
【審査請求日】2022-12-26
(32)【優先日】2017-08-22
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520128820
【氏名又は名称】ノースロップ グラマン システムズ コーポレーション
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(72)【発明者】
【氏名】ワン,ビクター・ワイ
(72)【発明者】
【氏名】カルコート,ケビン・エイ
【審査官】佐田 宏史
(56)【参考文献】
【文献】米国特許出願公開第2017/0169358(US,A1)
【文献】特開2012-022558(JP,A)
【文献】特開2010-020445(JP,A)
【文献】特開2018-041319(JP,A)
【文献】Joonas Haapala,"Recurrent neural networks for object detection in video sequences",Thesis submitted in partial fulllment of the requirements for the degree of Master of Science (Technology),フィンランド,Aalto University,2017年05月08日,pp.1-59,https://aaltodoc.aalto.fi/handle/123456789/26137
【文献】黎 明曦、外2名,“パラメータサーバを用いた並列機械学習システムにおける耐故障性のシミュレーション”,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2016年08月01日,Vol.116, No.177,pp.125-130
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00-7/90
G06V 10/00-10/98
G06N 3/02-3/98
(57)【特許請求の範囲】
【請求項1】
ニューラルネットワークの分散学習および複数のノードの重みの分配を行うためのシステムであって、
学習用画像と前記学習用画像に含まれる物体の物体ラベルとを提供するツールスイートと、少なくとも一つの学習ニューラルネットワークにおいて複数のノードの重みを学習するために、前記学習用画像に含まれる前記物体を検出および分類する前記少なくとも一つの学習ニューラルネットワークと、学習済みニューラルネットワークの重みを分配し、かつ、画像を受信するための学習機能トランシーバーと、を具備する学習機能と、
ピクセル化された画像フレームを提供する画像ソースと、前記画像フレームに含まれる物体を特定し、分類し、かつ、前記物体の相対速度を示す少なくとも一つの分類予測ニューラルネットワークと、前記画像フレームを前記学習機能に送信し、かつ、前記学習済みニューラルネットワークの重みを前記学習機能から受信するためのユニットトランシーバーと、を各々が具備する複数の物体検出分類ユニットであって、前記複数の物体検出分類ユニットの各々は、前記学習用画像を用いて学習を行った前記学習機能からの前記学習済みニューラルネットワークの重みに応答的である、複数の物体検出分類ユニットと、を備え、
前記複数の物体検出分類ユニットは、ネットワークを介して、前記学習機能とは分離して設けられ、
前記複数の物体検出分類ユニットの各々は、前記学習機能に前記画像フレームを送信して、前記少なくとも一つの学習ニューラルネットワークに対して、前記少なくとも一つの学習ニューラルネットワークに含まれる前記複数のノードの重みをさらに学習させ、
前記学習済みニューラルネットワークの重みが、前記学習機能トランシーバーによって前記学習機能から前記複数の物体検出分類ユニットの各々に分配される結果、他の複数の物体検出分類ユニットからの画像フレームに含まれる物体を用いて、前記複数の物体検出分類ユニットの各々における前記少なくとも一つの分類予測ニューラルネットワークの複数のノードの重みが前記学習機能において学習され
、
前記複数の物体検出分類ユニットの各々が有する前記少なくとも一つの分類予測ニューラルネットワークは、多層順伝播型畳み込みニューラルネットワーク(CNN)と、再帰型ニューラルネットワーク(RNN)とを含み、
前記CNNが分類エンジンに設けられ、前記CNNが入力層および出力層を含み、
前記CNNが、前記入力層において前記画像フレームに対して応答的とされ、前記画像フレームに含まれる物体の特定および分類を行い、物体分類データを前記出力層に渡し、
前記画像ソースがさらに前記画像ソースの位置情報を含むメタデータを提供し、前記RNNが予測エンジンに設けられ、
前記予測エンジンでは、前記メタデータのうちから、前記画像フレームにおいて、特定の位置にある前記物体の位置の予測処理に適したメタデータが選択され、
前記RNNが、前記出力層の前記物体分類データと、前記選択されたメタデータとに対して応答的とされ、
前記RNNが、前記画像フレームに含まれる、分類された前記物体の運動と相対速度とを特定して物体運動データを供給し、
前記予測エンジンが、前記CNNからの前記物体分類データと前記RNNからの前記物体運動データとを結合する物体分類-運動ベクトルプロセッサを更に有する
ことを特徴とするシステム。
【請求項2】
請求項1に記載のシステムにおいて、前記少なくとも一つの学習ニューラルネットワークは、多層順伝播型畳み込みニューラルネットワーク(CNN)と、再帰型ニューラルネットワーク(RNN)とを含む
ことを特徴とするシステム。
ことを特徴とするシステム。
【請求項3】
請求項
1に記載のシステムにおいて、前記CNNには、確実に全結合層が存在しない
ことを特徴とするシステム。
【請求項4】
請求項
1に記載のシステムにおいて、前記RNNは、長期短期記憶を含む
ことを特徴とするシステム。
【請求項5】
請求項
1に記載のシステムにおいて、
前記複数の物体検出分類ユニットの各々は、前記画像フレームと、前記予測エンジンにより結合された前記物体分類データおよび前記物体運動データと、に対して応答的な視覚化エンジンをさらに有し、
前記視覚化エンジンは、結合された前記物体分類データおよび前記物体運動データと、
前記画像フレームとを関係付けて、分類された物体の各々の周囲の境界枠と、前記分類された物体の相対速度および移動方向を示す表示とを含む、関係付けられた画像を供給し、
前記複数の物体検出分類ユニットの各々は、さらに、前記関係付けられた画像を表示させる表示装置を有する
ことを特徴とするシステム。
【請求項6】
請求項
5に記載のシステムにおいて、前記表示装置は、モニタ、ヘッドアップディスプレイ(HUD)装置、ゴーグル、プロジェクタ、スマートフォン、およびコンピュータからなる群より選択される
ことを特徴とするシステム。
【請求項7】
請求項1に記載のシステムにおいて、前記少なくとも一つの分類予測ニューラルネットワークは、回転する物体の将来の位置を予測する
ことを特徴とするシステム。
【請求項8】
請求項1に記載のシステムにおいて、画像ソースは、カメラ、電気光学赤外線センサ、LIDARセンサ、X線装置、磁気共鳴画像(MRI)装置、および合成開口レーダ(SAR)装置からなる群より選択される
ことを特徴とするシステム。
【請求項9】
ニューラルネットワークの分散学習および複数のノードの重みの分配を行うためのシステムであって、
少なくとも一つの学習ニューラルネットワークにおいて複数のノードの重みを学習するために、学習用画像に含まれる物体を検出および分類する前記少なくとも一つの学習ニューラルネットワークを具備する学習機能と、
ピクセル化された画像フレームを提供する画像ソースと、画像フレームに含まれる物体を特定し、分類し、および前記物体の相対速度を示す、少なくとも一つの分類予測ニューラルネットワーク
と、を各々が具備する複数の物体検出分類ユニットと
を備え、
前記複数の物体検出分類ユニットは、ネットワークを介して、前記学習機能とは分離して設けられ、
前記学習機能は、前記学習用画像により学習した
学習済み重みを前記複数の物体検出分類ユニットに送信し、
前記複数の物体検出分類ユニットの各々は、前記学習機能から
の学習済みニューラルネットワーク
の重みに応答的であり、
前記複数の物体検出分類ユニットの各々は、前記学習機能に対して前記画像フレームを送信して、前記少なくとも一つの学習ニューラルネットワークに対して、前記少なくとも一つの学習ニューラルネットワークに含まれる前記複数のノードの重みをさらに学習させ、
前記学習済みニューラルネットワークの重みが、前記学習機能から前記複数の物体検出分類ユニットの各々に分配される結果、前記学習機能において、他の複数の物体検出分類ユニットからの画像の物体を用いて、前記複数の物体検出分類ユニットの各々が有する前記少なくとも一つの分類予測ニューラルネットワークの複数のノードの重みが学習され
、
前記複数の物体検出分類ユニットの各々が有する前記少なくとも一つの分類予測ニューラルネットワークは、多層順伝播型畳み込みニューラルネットワーク(CNN)と、再帰型ニューラルネットワーク(RNN)とを含み、
前記CNNが分類エンジンに設けられ、前記CNNが入力層および出力層を含み、
前記CNNが、前記入力層において前記画像フレームに対して応答的とされ、前記画像フレームに含まれる物体の特定および分類を行い、物体分類データを前記出力層に渡し、
前記画像ソースがさらに前記画像ソースの位置情報を含むメタデータを提供し、前記RNNが予測エンジンに設けられ、
前記予測エンジンでは、前記メタデータのうちから、前記画像フレームにおいて、特定の位置にある前記物体の位置の予測処理に適したメタデータが選択され、
前記RNNが、前記出力層の前記物体分類データと、前記選択されたメタデータとに対して応答的とされ、
前記RNNが、前記画像フレームに含まれる、分類された前記物体の運動と相対速度とを特定して物体運動データを供給し、
前記予測エンジンが、前記CNNからの前記物体分類データと前記RNNからの前記物体運動データとを結合する物体分類-運動ベクトルプロセッサを更に有する
ことを特徴とするシステム。
【請求項10】
請求項
9に記載のシステムにおいて、前記少なくとも一つの学習ニューラルネットワークは、多層順伝播型畳み込みニューラルネットワーク(CNN)と、再帰型ニューラルネットワーク(RNN)とを含む
ことを特徴とするシステム。
【請求項11】
請求項
9に記載のシステムにおいて、前記CNNには、確実に全結合層が存在しない
ことを特徴とするシステム。
【請求項12】
請求項
9に記載のシステムにおいて、前記RNNは、長期短期記憶を含む
ことを特徴とするシステム。
【請求項13】
ニューラルネットワークの分散学習および複数のノードの重みの分配を行うための方法であって、
学習機能が具備するツールスイートが、学習用画像を与えるステップと、
前記学習機能が、前記学習用画像を用いて、学習ニューラルネットワークの複数のノードの重みを学習するステップと、
学習機能トランシーバーが、学習済み重みを、前記学習機能とは分離してネットワーク上の複数の位置に設けられている複数の物体検出分類ユニットに送信するステップと、
前記複数の物体検出分類ユニットの各々が各位置にある少なくとも一つの分類予測ニューラルネットワークを用いて、前記複数の位置での、
画像ソースにより提供されるピクセル化された画像フレームに含まれる物体を特定し、分類し、および前記物体の相対速度を示すステップであって、前記学習機能からの前記学習済み重みは、各位置にある前記少なくとも一つの分類予測ニューラルネットワークの複数のノードの重みを学習するために用いられるものである、ステップと、
前記学習ニューラルネットワークの前記複数のノードの重みをさらに学習させるために、前記複数の物体検出分類ユニットの各々が、各位置からの前記画像フレームを、前記学習機能の前記学習ニューラルネットワークに送信するステップと、
前記学習済
み重みが、前記学習機能から前記複数の位置における前記複数の物体検出分類ユニットの各々にさらに分配される結果、他の位置における他の複数の物体検出分類ユニットからの画像フレームに含まれる物体を用いて、前記複数の物体検出分類ユニットの各位置における前記少なくとも一つの分類予測ニューラルネットワークの複数のノードの重みが前記学習機能により学習され
、
前記複数の物体検出分類ユニットの各々が有する前記少なくとも一つの分類予測ニューラルネットワークは、多層順伝播型畳み込みニューラルネットワーク(CNN)と、再帰型ニューラルネットワーク(RNN)とを含み、
前記CNNが分類エンジンに設けられ、前記CNNが入力層および出力層を含み、
前記CNNが、前記入力層において前記画像フレームに対して応答的とされ、前記画像フレームに含まれる物体の特定および分類を行い、物体分類データを前記出力層に渡し、
前記画像ソースがさらに前記画像ソースの位置情報を含むメタデータを提供し、前記RNNが予測エンジンに設けられ、
前記予測エンジンでは、前記メタデータのうちから、前記画像フレームにおいて、特定の位置にある前記物体の位置の予測処理に適したメタデータが選択され、
前記RNNが、前記出力層の前記物体分類データと、前記選択されたメタデータとに対して応答的とされ、
前記RNNが、前記画像フレームに含まれる、分類された前記物体の運動と相対速度とを特定して物体運動データを供給し、
前記予測エンジンが、前記CNNからの前記物体分類データと前記RNNからの前記物体運動データとを結合する物体分類-運動ベクトルプロセッサを更に有する
ことを特徴とする方法。
【請求項14】
請求項1
3に記載の方法において、前記学習ニューラルネットワークは、多層順伝播型畳み込みニューラルネットワーク(CNN)と、再帰型ニューラルネットワーク(RNN)とを含む
ことを特徴とする方法。
【請求項15】
請求項
13に記載の方法において、前記CNNには、確実に全結合層が存在しない
ことを特徴とする方法。
【発明の詳細な説明】
【技術分野】
【0001】
技術分野
[0001]本発明は、ニューラルネットワークの分散学習のためのネットワークシステム、および方法に関し、ネットワークシステムの構造として、順方向ノードがラベル付き演算(observations)を行うことができ、合計された学習済みの重みを順方向ノード間に再分配するバックエンドエンジンの学習演算の連携および負荷を低減する点において、一つの物理的な位置での演算結果(observations)が、別のネットワーク・ノードによって行われた推論および分類に対して影響を与えて、支援できるようにすることである。
【背景技術】
【0002】
考察
[0002]人工知能(AI)は、コンピュータサイエンスの一つであり、ソフトウェア・アプリケーションがそれ自体の置かれた環境を学習し、学習された環境よりある一定の結論を得ることを可能とするアルゴリズムが採用される。機械学習は、AIの一つであり、ソフトウェア・アプリケーション自体が大量の未処理の入力データを反復的に分析し、これらのデータのパターンを抽出し、そのソフトウェア・アプリケーションにおいてタスクを実行するための特定のプログラムが組まれていなくてもタスクを実行することを学習できるように、自らの知識を獲得するソフトウェア・アプリケーションを採用する。深層学習は、特定種類の機械学習であり、現実世界の環境を、段々と複雑化していく階層概念として表すことで、より大規模な学習性能を提供する。
【0003】
[0003]深層学習では、一般的に、多層のニューラルネットワークにおいて、前の層からの出力を後続の層が受け取り、非線形処理を行うソフトウェア構造が採用される。一般に、複数の層には、センサからの未処理のデータを受信する入力層、データから抽象化された特徴量を抽出する何層かの隠れ層、および隠れ層で抽出された特徴量に基づいて一定のものを特定する出力層が含まれる。ニューラルネットワークは、複数のニューロンあるいは複数のノードを有し、各々の“重み”に対してノードに与えられた入力を掛けて、何かの正解の確率を求める。より詳細には、複数のノードの各々は、浮動小数点数の重みを有し、その重みとノードに与えられた入力とを掛けて、ある割合の入力が出力として生成される。ネットワークが正解の出力を最も高い確率で求められるように、ニューラルネットワークに既知のデータセットの分析をさせて、教師あり処理、更には、目的関数の最小化を行うことで、これらの重みは、初期的に“学習”、あるいは、設定される。
【0004】
[0004]深層学習ニューラルネットワークは、動画やストリーム画像が、ネットワークにより分析され、物体の特定および分類、および、そのプロセスより学習して、物体をより良く認識するという点から、通常、画像に含まれる物体のビジュアル検出および分類のための、画像の特徴抽出、および変換を行うために利用される。そのため、この種のネットワークにおいては、同じ処理設定をシステムに用いることができ、アルゴリズムがどのように物体認識を行うことを学習したかに基づいて、所定の物体が検出され、検出された物体のそれぞれが分類される。
【0005】
[0005]深層学習アルゴリズムおよびネットワークは、データ処理性能の向上に伴い発展を続けている。特定の分野でみられる発展としては、物体認識および分類を行う際の、画像の検出精度および速度を向上させる識別器が挙げられる。
【発明の概要】
【課題を解決するための手段】
【0006】
[0006]本発明は、ニューラルネットワークの分散学習および重みの分配のためのシステム、および方法を開示し説明するものであり、ネットワーク化した演算ノードを利用して、学習処理のために、すべてのネットワーク・ノードが演算結果および入力を分散的に供給する発明に係る。システムは、ツールスイートを有する学習機能を備え、学習用画像および学習用画像に含まれる物体の物体ラベルを提供し、少なくとも一つの学習ニューラルネットワークが、学習用画像に含まれる物体の検出および分類を行うことで、少なくとも一つの学習ニューラルネットワークのノードの重みを学習させ、学習機能は、学習済みのニューラルネットワークの重みを分配し、画像を受信するトランシーバーを有する。システムは、さらに、複数の物体検出分類ユニットを備え、各ユニットは、ピクセル化された画像フレームを供給する画像ソースを有し、少なくとも一つの分類予測ニューラルネットワークは画像フレーム内の複数の物体を特定し、分類し、相対速度を示し、さらに、画像フレームを送信し、学習済みニューラルネットワークの重みを受信するためのトランシーバーを備える。各物体検出分類ユニットは、少なくとも一つの学習ニューラルネットワークに対して、少なくとも一つの学習ニューラルネットワークの複数のノードの重みをさらに学習させるために、画像フレームを学習機能に送信し、学習済みニューラルネットワークの重みは、学習機能から物体検出分類ユニットの各々に分配されて、他の物体検出分類ユニットからの画像フレームに含まれる物体とともに、物体検出分類ユニットの各々における少なくとも一つの分類予測ニューラルネットワークのノードの重みが学習される。
【0007】
[0007]本発明における追加の構成は、添付図面とともに以下の説明および添付の特許請求の範囲により明らかにされる。
【図面の簡単な説明】
【0008】
【
図2】
図2は、
図1に示す画像に含まれる物体の検出および分類を行うシステムの模式ブロック図である。
【
図3】
図3は、入力層、隠れ層、および出力層を有するニューラルネットワークの一例を示す図である。
【
図4】
図4は、
図2に示すシステムで処理された
図1に示す画像にバウンディングボックスが含まれ、さらに、画像において分類された物体の周囲にラベルが付与されており、逆V字は動いている各物体に関連付けられ、逆V字の数は、物体の相対速度を示している図である。
【
図5】
図5は、
図2で示すシステムで処理された
図1に示す画像において、バウンディングボックスが含まれ、さらに、画像において分類された物体の周囲にラベルが付与されており、矢印は動いている物体に関連付けられ、矢印の長さが、物体の相対速度を示している図である。
【
図6】
図6は、
図2に示すシステムの一部である、機械学習およびニューラルネットワークの学習を行うためのシステムの模式ブロック図である。
【発明を実施するための形態】
【0009】
[0014]以下、本発明の実施の形態に係る、ニューラルネットワークのノードにおける分散学習および重み分配のためのシステムおよび方法について説明するが、以下は代表的な例を示しており、本発明を限定するものでも、その適用や実施を限定するものでもない。
【0010】
[0015]
図1は、ピクセル化された二次元のデジタル画像10の一例を示し、街の交差点12は交差する車道14、16で規定され、歩道18は車道14、16に隣接して
設けられている。トラック、車等を含む、何台もの車両20が、車道14、16に沿って異なる速度で移動している。さらに、何人もの歩行者22が、歩道18および横断歩道24の上を歩いている。本明細書では、デジタル画像10は一枚の静止画像または動画ストリーミング画像の一つのフレームであるものとして説明する。
【0011】
[0016]以下詳細に説明するように、本発明では、例えば、画像10に含まれる車両20および歩行者22など、二次元デジタル画像に含まれる物体の検出および分類を行う深層学習および学習済みニューラルネットワークを採用する適応型リアルタイム検出検査ネットワーク(adaptive real-time detection and
examination network:ARDEN)を提案する。ネットワークは、デジタル画像10内の物体を特定し、画像10におけるピクセルベースの位置を求め、かつ、リアルタイム動画に用いることができるように、例えば、物体検出の確率を常に30ms未満という非常に低遅延で実現する。また、ネットワークは、一つ前の画像フレームでの位置に基づいて、画像10内で動いている物体の相対速度を予測する。
【0012】
[0017]
図2は、上述のARDENを具体化した物体検出分類システム30のブロック図を示している。システム30は動画ソース32を有し、動画ソース32としては、画像10のようにピクセル化された動画ストリーム画像またはピクセル化された静止画像を生成することが可能であれば、いかなる適したデバイスをも用いることができる。非限定的な適した動画ソースの例としては、カメラ、電気光学赤外線センサ、ライダー(LIDAR)センサ、X線装置、MRI(磁気共鳴画像)装置、合成開口レーダ(SAR)装置等が挙げられる。動画ソース32は、例えば、1秒間に30フレームなど、所定のサンプルレートでピクセルデータとして規定された動画データ、または、静止画像のデジタル画像フレーム34のシーケンスを供給する。システム30は、動画フレーム34を受信して、フレーム34に含まれる物体を分類する分類エンジン36を有する。各画像フレーム34は、分類エンジン36の多層順伝播畳み込みニューラルネットワーク(CNN)38に、つまり、画像フレーム34から割り出されたCNN38の入力層に与えられる。当業者によく知られているように、CNNは、一般的な行列の積の代わりに、畳み込み演算を利用するニューラルネットワークであり、画像等の格子状の値の処理を特定の適用先とする。より詳細には、CNN38は、互いにオーバーラップした入力の領域を有し、かつ、学習および重み付けされた各層のノードを含む多層の受容野を有する、多層ニューラルネットワークであり、CNN38は、特に、全結合層を有さないことで、システム30における適応的な側面に寄与し、最初の入力層でのより柔軟なリサイズが可能とされる。より低い解像度の画像を含む学習用データセットに基づく学習済みCNNの重みは、推論を開始する時点、あるいは、より高解像度の他の画像の学習の際に用いることができる。CNN38の各ノードには、後段のノードに対してどのようにデータを出力するかを規定する重みとバイアスとが設定される。CNN38の出力層40は、画像10において検出および分類された物体を特定する未処理のデジタルデータ(ローデータ)、およびそれぞれの物体の画像10における位置を出力する。詳細は後述するが、画像10において検出および分類された物体は、バウンディングボックスとラベルとで特定される。
【0013】
[0018]
図3は、複数のノード122を有するニューラルネットワーク120の一例を示した図であり、複数のノード122の各々が調整可能な重みWを有し、ネットワーク120は、本明細書で説明したニューラルネットワークを一般に代表するものが用いられている。ニューラルネットワーク120は、画像フレーム34からの各ピクセルデータを受信する入力層124と、ピクセルデータの特徴を特定する2つの隠れ層126、128と、出力層130とを備え、出力層130の各ノードは、複数の物体のうちの何れの物体であるかを特定する。
【0014】
[0019]画像10の中の多くの物体は動いている。そのため、動いている物体の相
対速度、および動いている物体の方向を特定することが望まれ、また、過去の画像フレームにおけるそれぞれの相対速度および方向に基づいて、動いている複数の物体が後続の画像フレームにおいてどこへ行くのかを予測すること、およびニューラルネットワークの学習により得られたパターンを予測することが望まれる。動いている物体の位置を予測する場合、車両が方向を変えて回転するように、動きが線形的でない物体の位置を予測することが含まれる。
【0015】
[0020]システム30は、上記の機能を実現する予測エンジン44を備える。動画ソース32は、予測エンジン44で受信された、枠で示されているメタデータ46を出力し、このメタデータ46には、具体的な適用に応じた各種特定の情報が含まれており、例えば、動画ソース32の位置情報、すなわち、GPSの座標情報、時刻、天気、電池の寿命等が含まれる。メタデータ46は、予測エンジン44が備えるメタデータ抽出データベース48に渡され、予測エンジン44では、特定の位置にある物体位置を予測する処理に適したメタデータ46の1個1個が選択される。本実施の形態では、メタデータ抽出データベース48では、CNN38の入力層として設定される、画像フレーム34をもとに得られた入力層と同じ入力層が用いられる。
【0016】
[0021]出力層40からの未処理の分類データ、およびデータベース48からの抽出済みメタデータは、予測エンジン44が備える再帰型ニューラルネットワーク(Recurrent neural network:RNN)50に渡され、一つ前の画像フレーム34において物体がどこに存在しているのかに基づいて、画像フレーム34に含まれる物体の相対速度および方向が求められる。当業者によく知られているように、再帰型ニューラルネットワークは人工ニューラルネットワークの一つであり、学習および重み付けされたノードを有する多層からなり、適用先としては、特に、シーケンシャルなデータの処理が挙げられ、ノード間の結合は有向グラフである。RNN50の構成では、動的な時間的挙動が可能とされるようなネットワークの内部状態を有し、RNNは、順伝播型ニューラルネットワークとは異なり、内部メモリを用いて任意のシーケンシャルな入力を処理することができる。本実施の形態では、RNN50は、当業者によく知られている長期短期記憶(long short-term memory:LSTM)構造を用いて設計される。RNN50は、メタデータを生成するために、メタデータ抽出データベース48とCNNの出力層40とからの内容を合わせたものを求め、メタデータには、物体の分類、分類された物体の予測角度(方向)、線形的に動くとは限らない物体の予測位置、および、分類された物体の予測される相対速度が含まれ、また、これらの単位は入力層に有意義なものとされ、例えば、メートル系単位時間ごとのピクセル値、および、メートル系単位時間ごとのピクセル値をGPS座標に翻訳した値、あるいは、メタデータの利用状況に応じて、他の座標系に基づく運動の単位が用いられる。
【0017】
[0022]前述したように、特に、RNN50には、内部のメモリ状態が含まれており、現在の画像フレーム34に組み合わせて過去の画像フレーム34を利用することで、分類された物体の相対速度が求められる。仮にシステム30が動画ソース32からの一枚の静止画像を処理する場合には、過去の画像フレームは存在しないので、このような場合では、RNN50は、物体の相対速度を示すことができない。
【0018】
[0023]分類エンジン36によって特定された画像フレーム34に含まれている物体の運動を特定してRNN50が生成したデータは、次に、予測エンジン44が備える、物体分類-運動ベクトルメタデータプロセッサ52に渡され、CNN38が画像フレーム34から検出した物体と、RNN50が求めたそれらの物体の運動とが一緒にされる。一緒にされ結合されたデータには、物体の位置と、物体の相対速度とが含まれ、画像フレーム34とともに、視覚化エンジン58が備えている、物体分類-運動ベクトルメタデータプロセッサ56のビジュアル・オーバーレイに与えられ、検出された物体の各々の周囲に
バウンディングボックスと、物体の相対速度および予測される将来の位置の表示とが付与される。この関係付けは、画像10に含まれる物体の位置と相対速度とを示す画像を生成する視覚化エンジン58が備える、画像フレームおよび分類オーバーレイ並びに運動ベクトル物体予測プロセッサ60に与えられる。画像および、プロセッサ52により得られた物体の位置と相対速度とを含む、合わせられたデータは、画像を表示するための表示装置62に送出される。表示装置62は、本明細書における目的に適した表示装置であればどのようなものでもよく、例えば、モニタ、ヘッドアップディスプレイ(Head-up display:HUD)、ゴーグル型、プロジェクタ、スマートフォン、コンピュータなどを用いることができる。
【0019】
[0024]
図4は、上述したようにシステム30で画像10が処理されることで、表示装置62に表示される画像70の一例である。画像70においては、特定され分類された物体の各々の周囲をバウンディングボックス72が囲い、その物体が特定済みかつ分類済みであることが示され、さらに、車両、人などの分類が特定されるラベル74が含まれている。運動している分類済みの物体の各々は、その逆V字76の数が、バウンディングボックス72と関連付けて付与され、逆V字76の方向は、物体が移動する方向を示し、逆V字76の数で、物体の相対速度が示されている。
【0020】
[0025]
図5は、システム30で画像10が処理されることで表示装置62に表示される別の画像80の例を示し、各物体の周りに与えられたバウンディングボックス72と、物体を特定するラベル74とが含まれている。しかし、画像80は、逆V字76の代わりに、物体の動く方向と、物体の相対速度とを表す矢印82を含み、矢印82の長さにより相対速度が表される。
【0021】
[0026]当業者によく知られているように、本明細書で説明した目的のためには、ニューラルネットワークを学習させて、適切な重みをCNN38およびRNN50の各ノードに設定することが必要となる。このような学習は、教師あり学習であり、典型的には、技術者が画像に含まれる物体を初期的に特定し、ノードに初期的に重みを設定し、さらにすべてオフラインでネットワークの出力の評価および修正を行い、その適用分野で使用されることができるように重みを適切に学習させる。詳細は後述するが、本発明はシステムをも備えることで、
図2に示した種類の物体検出分類システムは、CNN38およびRNN50が学習済みノードを備え、これらの学習済みノードの調整および更新は、他の物体検出分類システムからの画像を受信する学習システムによって行われ、学習システムは、受信した画像を用いて代表のニューラルネットワークをさらに学習させる。
【0022】
[0027]
図6は、物体検出ネットワーク90の模式ブロック図であり、ニューラルネットワークの複数のノードでの分散学習および重みの分配を行う、つまり、重みがノード間で分配される本発明に係る構成例を示している。ネットワーク90は、学習機能に設置されている学習システム92と、学習システム92とは分離して設けて現場で用いられる複数の物体検出分類システム94とを備え、システム94はシステム30と同様の構成を有する。ここで、システム94の数は、2個以上の適した数とすることができる。学習システム92は、学習ツールスイート96を有し、これは、適したアルゴリズムの演算を行うコンピュータシステムと、必要なアクセサリとで構成され、これらの構成すべては当業者によく知られているものである。技術者は、システム94で分類されることになる物体を含む学習用画像のセットについて、ツールスイート96を用いて検査し、学習用画像の周囲にバウンディングボックスを描いて分類を行うところ、より具体的には、技術者は、分類された物体に対してその物体を表すラベルを付与することで物体の特定を行う。枠98で表されたラベルおよび画像は、分類予測エンジン100に送出され、この分類予測エンジン100には、システム94で用いられたものと同様の学習CNNおよびRNNが備えられており、その後に、これらの学習が行われる。分類予測エンジン100は、評価
機能および誤差逆伝播機能を有し、CNNおよびRNNのノードの重みの値の調整に用いられ、別の画像に含まれる物体の分類をより精度よく行うようにする。より詳細には、重みに対しては、制御された方法での評価が行われ、学習CNNおよびRNNが物体を正確に分類できるように重みが調整されるところ、重みは静的なデータであり、評価機能により抽出、保存、転送、および精製(refine)されることが可能な性質を有し、学習過程の伝播により再帰的に更新される。分類予測エンジン100は、データのスループットを増やすために並列演算処理を実行する、当業者に動作がよく知られているグラフィックプロセッサユニット(GPU)クラスター102にデータを出力し、また、データを受信する。いったん評価処理が完了して、学習された重みの値で物体の特定および分類について正確性の高い予測が実現できることを分類予測エンジン100が判断すると、重みは、分類予測エンジン100から学習済み重み104として出力される。学習システム92は、学習済み重み104を送信し、画像を受信するために適切なトランシーバー、または、ネットワークルータ106も備えている。
【0023】
[0029]本明細書においては、本発明を説明するための複数かつ各種のステップおよび処理は、電気的な現象を用いてデータを処理および/または変換するコンピュータ、プロセッサ、または、他の電子計算機によって実行される演算である場合が含まれる。このようなコンピュータや電子デバイスには、各種揮発性および/または非揮発性メモリが利用され、実行可能なプログラムが格納された非一時的コンピュータ読取可能媒体を含み、プログラムには、コンピュータまたはプロセッサが実行可能な各種コード、または、指令が含まれ、メモリおよび/またはコンピュータ読取可能媒体には、あらゆる形態のメモリおよびその他のコンピュータ読取可能メディアが含まれる。
【0024】
[0030]以上、本発明の例としての実施の形態について説明した。本発明は説明した実施の形態に限定されるものではなく、添付図面および請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。