特表2017-538999(P2017-538999A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ノキア テクノロジーズ オーユーの特許一覧

特表2017-538999ニューラルネットワークによるオブジェクト検出
<>
  • 特表2017538999-ニューラルネットワークによるオブジェクト検出 図000004
  • 特表2017538999-ニューラルネットワークによるオブジェクト検出 図000005
  • 特表2017538999-ニューラルネットワークによるオブジェクト検出 図000006
  • 特表2017538999-ニューラルネットワークによるオブジェクト検出 図000007
  • 特表2017538999-ニューラルネットワークによるオブジェクト検出 図000008
  • 特表2017538999-ニューラルネットワークによるオブジェクト検出 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2017-538999(P2017-538999A)
(43)【公表日】2017年12月28日
(54)【発明の名称】ニューラルネットワークによるオブジェクト検出
(51)【国際特許分類】
   G06N 3/04 20060101AFI20171201BHJP
   G06T 7/00 20170101ALI20171201BHJP
【FI】
   G06N3/04
   G06T7/00 350C
   G06T7/00 300C
【審査請求】有
【予備審査請求】未請求
【全頁数】19
(21)【出願番号】特願2017-523866(P2017-523866)
(86)(22)【出願日】2014年12月17日
(85)【翻訳文提出日】2017年5月1日
(86)【国際出願番号】CN2014094033
(87)【国際公開番号】WO2016095117
(87)【国際公開日】20160623
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US
(71)【出願人】
【識別番号】315002955
【氏名又は名称】ノキア テクノロジーズ オーユー
(74)【代理人】
【識別番号】100127188
【弁理士】
【氏名又は名称】川守田 光紀
(72)【発明者】
【氏名】ジャン シャオヘン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA04
5L096CA04
5L096DA02
5L096DA03
5L096HA11
5L096JA25
5L096KA04
(57)【要約】
本発明の例示の態様では装置が提供され、当該装置は、少なくとも1つのプロセッサコアと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備え、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサコアとともに、前記装置が少なくとも、第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させ、第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させ、前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定する、ように構成される。【選択図】図6
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサコアと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサコアとともに、前記装置が少なくとも、
第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させ、
第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させ、
前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定する、
ように構成された装置。
【請求項2】
前記畳み込みニューラルネットワークは、前記第1の畳み込みレイヤーと前記最後の畳み込みレイヤーとの間に設けられた第2の畳み込みレイヤーと、前記第2の畳み込みレイヤーの特徴マップのセットで動作する第2の中間分類器とを備え、
前記装置は、前記第2の中間分類器による判定に基づいて前記信号セットの処理を中止するか継続するかを判定するように構成された、
請求項1に記載の装置。
【請求項3】
前記畳み込みニューラルネットワークは、前記第2の畳み込みレイヤーと前記最後の畳み込みレイヤーとの間に設けられた第3の畳み込みレイヤーと、前記第3の畳み込みレイヤーの特徴マップのセットで動作する第3の中間分類器とを備え、
前記装置は、前記第3の中間分類器による判定に基づいて前記信号セットの処理を中止するか継続するかを判定するように構成された、
請求項1に記載の装置。
【請求項4】
前記第1の畳み込みレイヤーの特徴マップの前記セットは、前記第1の畳み込みレイヤーの全特徴マップのサブセットを含む、請求項1から3のいずれかに記載の装置。
【請求項5】
前記第2の畳み込みレイヤーの特徴マップの前記セットは、前記第2の畳み込みレイヤーの全特徴マップのサブセットを含む、請求項1から4のいずれかに記載の装置。
【請求項6】
前記第3の畳み込みレイヤーの特徴マップの前記セットは、前記第3の畳み込みレイヤーの全特徴マップのサブセットを含む、請求項1から5のいずれかに記載の装置。
【請求項7】
前記信号セットは、前記入力レイヤーからの画像の部分像が処理されたものを含む、請求項1から6のいずれかに記載の装置。
【請求項8】
前記信号セットは、前記入力レイヤーからの画像が処理されたものを含む、請求項1から6のいずれかに記載の装置。
【請求項9】
前記畳み込みニューラルネットワークは、人物の画像を検出するように構成された、請求項1から8のいずれかに記載の装置。
【請求項10】
前記畳み込みニューラルネットワークは、歩行者の画像を検出するように構成された、請求項9に記載の装置。
【請求項11】
少なくとも1つの基準に基づき、前記第1の畳み込みレイヤーの特徴マップの前記セットと、前記第2の畳み込みレイヤーの特徴マップの前記セットと、前記第3の畳み込みレイヤーの特徴マップの前記セットとの少なくとも1つを選択するように構成された、請求項4から10のいずれかに記載の装置。
【請求項12】
第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させることと、
第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させることと、
前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定することと、
を含む方法。
【請求項13】
請求項12に記載の方法であって、
前記畳み込みニューラルネットワークは、前記第1の畳み込みレイヤーと前記最後の畳み込みレイヤーとの間に設けられた第2の畳み込みレイヤーと、前記第2の畳み込みレイヤーの特徴マップのセットで動作する第2の中間分類器とを備え、
前記方法は、前記第2の中間分類器による判定に基づいて前記信号セットの処理を中止するか継続するかを判定することを含む、
方法。
【請求項14】
請求項13に記載の方法であって、
前記畳み込みニューラルネットワークは、前記第2の畳み込みレイヤーと前記最後の畳み込みレイヤーとの間に設けられた第3の畳み込みレイヤーと、前記第3の畳み込みレイヤーの特徴マップのセットで動作する第3の中間分類器とを備え、
前記方法は、前記第3の中間分類器による判定に基づいて前記信号セットの処理を中止するか継続するかを判定することを含む、
方法。
【請求項15】
前記第1の畳み込みレイヤーの特徴マップの前記セットは、前記第1の畳み込みレイヤーの全特徴マップのサブセットを含む、請求項11から14のいずれかに記載の方法。
【請求項16】
前記第2の畳み込みレイヤーの特徴マップの前記セットは、前記第2の畳み込みレイヤーの全特徴マップのサブセットを含む、請求項11から15のいずれかに記載の方法。
【請求項17】
前記第3の畳み込みレイヤーの特徴マップの前記セットは、前記第3の畳み込みレイヤーの全特徴マップのサブセットを含む、請求項11から16のいずれかに記載の方法。
【請求項18】
前記信号セットは、前記入力レイヤーからの画像の部分像が処理されたものを含む、請求項11から17のいずれかに記載の方法。
【請求項19】
前記信号セットは、前記入力レイヤーからの画像が処理されたものを含む、請求項11から17のいずれかに記載の方法。
【請求項20】
前記畳み込みニューラルネットワークは、人物の画像を検出するように構成された、請求項11から19のいずれかに記載の方法。
【請求項21】
前記畳み込みニューラルネットワークは、歩行者の画像を検出するように構成された、請求項20に記載の方法。
【請求項22】
少なくとも1つの基準に基づき、前記第1の畳み込みレイヤーの特徴マップの前記セットと、前記第2の畳み込みレイヤーの特徴マップの前記セットと、前記第3の畳み込みレイヤーの特徴マップの前記セットとの少なくとも1つを選択することを含む、請求項15から21のいずれかに記載の方法。
【請求項23】
第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させる手段と、
第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させる手段と、
前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定する手段と、
を備える装置。
【請求項24】
一連のコンピュータ可読命令が記憶される非一時的コンピュータ可読媒体であって、当該命令は少なくとも1つのプロセッサによって実行されると、装置に少なくとも、
第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させ、
第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させ、
前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定させる、
非一時的コンピュータ可読媒体。
【請求項25】
請求項11から22の少なくとも1つに記載の方法を実施させるように構成されたコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、演算ネットワークを用いたオブジェクトの検出に関する。
【背景】
【0002】
機械学習では、データを基にした学習を通じてアルゴリズムの設計を求める。機械学習アルゴリズムでは、入力によりモデルが構築され、新たなデータに対する予測に使用できる。機械学習は、統計、人工知能、最適化に関連し、明確な規則に基づくアルゴリズムを構築できないようなタスクに利用される。そのようなタスクの例としては、光学画像認識、文字認識、電子メール用スパムフィルタリングが挙げられる。
【0003】
人工ニューラルネットワーク(Artificial Neural Network)は、機械学習が可能な演算ツールである。人工ニューラルネットワーク(以下ニューラルネットワークと称する)では、「ニューロン」と呼ばれる相互結合された演算部が、トレーニングデータに適応でき、その後協働してモデルにおける予測を行う。これは、生物学的ニューラルネットワークにおける処理にある程度似通っている。
【0004】
ニューラルネットワークは、いくつかのレイヤーを有してもよい。このうち、第1のレイヤーは入力を受け付けるように構成された入力レイヤーである。入力レイヤーは、隠れレイヤーとも称される第2のレイヤーのニューロンに接続されたニューロンを有する。隠れレイヤーのニューロンは、別の隠れレイヤーまたは出力レイヤーに接続されていてもよい。
【0005】
ニューラルネットワークによっては、レイヤーの各ニューロンが後続のレイヤーの各ニューロンに接続されるものもある。そのようなニューラルネットワークは、全結合ネットワークと呼ばれる。トレーニングデータは、各接続について当該接続の強度を特徴付ける重みを推定可能とするために使用される。全結合レイヤーおよび全結合ではないレイヤーを有するニューラルネットワークも存在する。畳み込みニューラルネットワークにおける全結合レイヤーは、密結合レイヤーとも称される。
【0006】
ニューラルネットワークによっては、信号が入力レイヤーから出力レイヤーへと一方向にのみ伝搬するものもある。この場合、入力レイヤーに戻るように伝搬するための接続は存在しない。このようなニューラルネットワークは、フィードフォワードニューラルネットワークと呼ばれる。入力レイヤーに戻るように伝搬するための接続が存在するようなニューラルネットワークは、リカレント(再帰型)ニューラルネットワークと呼ばれる。
【0007】
畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)は、フィードフォワードニューラルネットワークであり、全結合レイヤーではないレイヤーを有する。CNNでは、畳み込みレイヤーのニューロンは前段のレイヤーのサブセットまたは近傍のニューロンに接続される。これにより、少なくともいくつかのCNNでは、入力の空間特徴が保たれる。
【摘要】
【0008】
本発明は、独立クレームの特徴によって定められている。いくつかの特定の実施形態は、従属クレームに定められている。
【0009】
本発明の第1の態様では装置が提供され、当該装置は、少なくとも1つのプロセッサコアと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備え、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサコアとともに、前記装置が少なくとも、第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させ、第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させ、前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定する、ように構成される。
【0010】
第1の態様の様々な実施形態は、以下に挙げる少なくとも1つの特性を備えてもよい。
・ 前記畳み込みニューラルネットワークは、前記第1の畳み込みレイヤーと前記最後の畳み込みレイヤーとの間に設けられた第2の畳み込みレイヤーと、前記第2の畳み込みレイヤーの特徴マップのセットで動作する第2の中間分類器とを備え、前記装置は、前記第2の中間分類器による判定に基づいて前記信号セットの処理を中止するか継続するかを判定するように構成される。
・ 前記畳み込みニューラルネットワークは、前記第2の畳み込みレイヤーと前記最後の畳み込みレイヤーとの間に設けられた第3の畳み込みレイヤーと、前記第3の畳み込みレイヤーの特徴マップのセットで動作する第3の中間分類器とを備え、前記装置は、前記第3の中間分類器による判定に基づいて前記信号セットの処理を中止するか継続するかを判定するように構成される。
・ 前記第1の畳み込みレイヤーの特徴マップの前記セットは、前記第1の畳み込みレイヤーの全特徴マップのサブセットを含む。
・ 前記第2の畳み込みレイヤーの特徴マップの前記セットは、前記第2の畳み込みレイヤーの全特徴マップのサブセットを含む。
・ 前記第3の畳み込みレイヤーの特徴マップの前記セットは、前記第3の畳み込みレイヤーの全特徴マップのサブセットを含む。
・ 前記信号セットは、前記入力レイヤーからの画像の部分像が処理されたものを含む。
・ 前記信号セットは、前記入力レイヤーからの画像が処理されたものを含む。
・ 前記畳み込みニューラルネットワークは、人物の画像を検出するように構成される。
・ 前記畳み込みニューラルネットワークは、歩行者の画像を検出するように構成される。
・ 前記装置は、少なくとも1つの基準に基づき、前記第1の畳み込みレイヤーの特徴マップの前記セットと、前記第2の畳み込みレイヤーの特徴マップの前記セットと、前記第3の畳み込みレイヤーの特徴マップの前記セットとの少なくとも1つを選択するように構成される。
【0011】
本発明の第2の態様では方法が提供され、当該方法は、第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させることと、第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させることと、前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定することと、を含む。
【0012】
第2の態様の様々な実施形態は、第1の態様に関連して挙げられた上述の項目における特性に対応する少なくとも1つの特性を含んでもよい。
【0013】
本発明の第3の態様では装置が提供され、当該装置は、第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させる手段と、第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させる手段と、前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定する手段とを備える。
【0014】
本発明の第4の態様では非一時的コンピュータ可読媒体が提供され、当該媒体には一連のコンピュータ可読命令が記憶され、当該命令は少なくとも1つのプロセッサによって実行されると、装置に少なくとも、第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させ、第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させ、前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定させる。
【0015】
本発明の第5の態様では、第2の態様による方法を実施させるように構成されたコンピュータプログラムが提供される。
【産業上の利用可能性】
【0016】
本発明の少なくともいくつかの実施形態は、機械ベースのパターン認識を向上させる点において産業上の利用ができる。
【図面の簡単な説明】
【0017】
図1図1は、本発明の少なくともいくつかの実施形態をサポートしうる例示のシステムを示す。
【0018】
図2図2は、本発明の少なくともいくつかの実施形態による例示のCNNを示す。
【0019】
図3図3は、本発明の少なくともいくつかの実施形態をサポートしうる例示の装置を示す。
【0020】
図4図4は、本発明の少なくともいくつかの実施形態による例示の中間分類器を示す。
【0021】
図5図5は、本発明の少なくともいくつかの実施形態によるCNNにおけるレイヤーごとの判定を示す。
【0022】
図6図6は、本発明の少なくともいくつかの実施形態による方法のフローチャートである。
【例示的実施形態の詳細説明】
【0023】
画像データが畳み込みニューラルネットワークでさらに処理される前に、中間分離器がこの画像データの処理を中止することができれば、パターンデータ分析の処理負荷を低減できる。中間分類器は、直前の畳み込みレイヤーの特徴マップで動作できる。それぞれ直前のレイヤーの特徴マップで動作する複数の中間分類器を使用してもよく、その場合、各中間分類器は異なる畳み込みレイヤーの特徴マップで動作する。
【0024】
図1は、本発明の少なくともいくつかの実施形態をサポートしうる例示のシステムを示す。図1は、歩行者120が歩く道路101の画像110を示す。ここでは歩行者検出について説明するが、本発明はこれに限定されるものではなく、当業者であれば理解できるように、本発明は視覚的、聴覚的、またはその他の種類のデータについてのパターン認識に幅広く適用可能である。例えば、本発明は該当する実施形態に応じて、手書き文字認識、顔認識、交通標識認識、音声認識、言語認識、手話認識、および/またはスパムメール認識に対して有効に適用である。
【0025】
図1において、道路101はカメラ130により撮影される。カメラ130は道路の少なくとも一部を含む画像110を撮影するように構成される。カメラ130は、カメラ130に含まれる電荷結合素子(Charge-Coupled Device:CCD)等の撮像装置から得られた画像データに対して前処理を実行するように構成されてもよい。前処理の例としては、モノクロ変換、コントラスト調整、および撮像画像内のダイナミックレンジを広げるための輝度調整を含む。いくつかの実施形態では、画像データはさらに、画像認識アルゴリズム供給に適したビット深度となるよう縮小される。前処理は、例えば画像認識アルゴリズムへ供給される領域125のような関心領域を選択することを含んでもよい。ただし、CNNは、通常入力データはCNNに供給される前に過度に前処理される必要がないという利点を持つため、前処理は実質的に不要または限定的であってもよい。例えば、カメラ130は自動運転車両に備えられてもよい。あるいは、カメラ130は人間の運転手が運転する車に、歩行者や動物をはねそうになったら警告および/または自動ブレーキを作用させるために設けられてもよい。
【0026】
データは、カメラ130からフェーズ140、150、160、170を有する畳み込みニューラルネットワークに供給される。フェーズ140は、カメラ130から受信した画像を処理するように構成された第1の畳み込みレイヤーを有する。第1の畳み込みレイヤー140は、それぞれカメラ130から受信した画像の一部からのデータを処理するように配置された複数のカーネルを有してもよい。カーネルに供給される当該画像の一部は、カーネルの受信野と称してもよい。カーネルはフィルターとも称される。隣接するカーネルの受信野同士は、ある程度重複してもよく、それにより畳み込みニューラルネットワークは画像内で移動するオブジェクトに対応可能となる。いくつかの実施形態では、第1の畳み込みレイヤー140の各カーネルは同じ重みを利用してもよい。つまり、カーネルのニューロン間で重みが異なっていても、第1の畳み込みレイヤー140の各カーネルの重み表は同じとなる。これにより独自の重みの数を低減でき、畳み込みニューラルネットワークが画像の様々な部位を同様に処理可能となる。例えば歩行者検出では、歩行者は画像のあらゆる部位に存在しうるため、このことが有効となりうる。独立した重みの数を制御することはさらに、畳み込みニューラルネットワークのトレーニングが容易となるという利点をもたらしうる。
【0027】
第1の畳み込みレイヤー140は、複数の特徴マップを有する。中間分類器150は、第1の畳み込みレイヤー140から特徴マップを受信または読み出し可能であってもよい。中間分類器150は、第1の畳み込みレイヤー140の特徴マップの全てまたはそのサブセットを使用してもよい。ここでのサブセットとは、第1の畳み込みレイヤー140の特徴マップの少なくとも1つであって、全体を含まないセットを意味する。中間分類器150は、画像または部分画像に歩行者が存在しないと判定し、第2の畳み込みレイヤー160において画像データがさらに処理されないように構成されてもよい。これにより、省演算資源効果が得られる。
【0028】
いくつかの実施形態では、中間分類器150は第1の畳み込みレイヤー140のカーネルのサブセットに対応する画像データがさらに処理されないよう判定するように構成される。例えば、画像110内に歩行者が存在したとしても、歩行者が存在する部位は例えば領域125のように画像110のほんの一部に過ぎない可能性がある。その他の部位は背景と称されてもよい。この場合、画像110に歩行者が存在するかという最終的判定に対して、領域125から信号を受信しないカーネルからのさらなるデータの処理が寄与することはない。当該判定に寄与するのは、領域125から信号を受信する1つまたは複数のカーネルのみである。このことから、領域125を、それぞれカーネルの受信野に対応する、画像110の複数の部分画像の1つと捉えることができる。あるいは、またはさらに、あるカーネルが信号を受信する画像の領域を部分画像と捉えることもできる。中間分類器150は、背景部分画像のさらなる処理を防止するように構成されたものであってもよい。
【0029】
中間分類器150は、画像データに対するさらなる処理について判定するように構成されてもよい。例えば、第1の畳み込みレイヤー140の特徴マップの特徴で動作するように構成されてもよい。上述のように、第1の畳み込みレイヤー140の特徴マップのサブセットのみを使用することで、省演算資源となる。中間分類器を構成する際、第1の畳み込みレイヤー140における最も識別能力の高い特徴マップが認識され、これが中間分類器150の動作のために選択されてもよい。
【0030】
中間分類器150において、選択された第1の畳み込みレイヤー140の特徴マップは、決定木となるように配置されてもよい。これは、中間分類器生成のために、マップをカスケード接続して退化型(degenerate)決定木を形成することを含む。
【0031】
中間分類器150によりさらなる処理が防止されない画像データは、第2の畳み込みレイヤー160に供給される。第2の畳み込みレイヤー160は、第1の畳み込みレイヤー140の出力を受信し、画像データをさらに処理するように構成された複数のカーネルを有してもよい。より具体的には、各カーネルは第1の畳み込みレイヤー140の1つ以上のカーネルからのデータを処理するように構成されてもよい。第2の畳み込みレイヤー160のカーネルに信号を供給する第1の畳み込みレイヤー140の一部は、第2の畳み込みレイヤー160の当該カーネルの受信野とも称される。第2の畳み込みレイヤー160の隣接するカーネルの受信野同士は、ある程度重複してもよく、それにより畳み込みニューラルネットワークは画像内で移動するオブジェクトに対応可能となる。いくつかの実施形態では、第2の畳み込みレイヤー160の各カーネルは同じ重みを利用してもよい。つまり、カーネルのニューロン間で重みが異なっていても、第2の畳み込みレイヤー160の各カーネルの重み表は同じとなる。これにより独自の重みの数を低減でき、畳み込みニューラルネットワークが画像の様々な部位を同様に処理可能となる。
【0032】
第1の畳み込みレイヤー140および第2の畳み込みレイヤー160は、それぞれ異なるレベルの表現を学習するものであってもよい。これにより、異なるレイヤー同士で上位、下位概念が扱われることになる。したがって、第1の畳み込みレイヤー140および第2の畳み込みレイヤー160は、オブジェクトを異なる観点、態様で表現可能となる。この構成によると、いくつかの実施形態では、異なる概念レイヤーで部分画像を評価し、最終的判定の前段階で区別できるようになる。すなわち、前段における分類器または判定レイヤーは、後段のレイヤーが扱うデータ量を低減するために、ターゲットパターンを含まない部分画像を排除してもよい。
【0033】
図1のCNNのフェーズ170は、例えば全結合レイヤーを含む判定レイヤーである。図1の例では、判定レイヤーの出力は、画像110が歩行者を含むかの判定に相当する。
【0034】
第1の畳み込みレイヤー140および第2の畳み込みレイヤー160について説明したが、本発明の別の実施形態では、さらに少なくとも第3の畳み込みレイヤーが存在してもよい。そのような構成では、第2の畳み込みレイヤー160の特徴マップで動作するように配置された第2の中間分類器がさらに存在してもよい。第2の中間分類器は、中間分類器150が通過させて第2の畳み込みレイヤー160に送られたいくつかの背景部分画像のさらなる処理を防止するようにしてもよい。このような構成によると、中間分類器が1つの場合と比較して、判定レイヤー170が受信する背景部分画像がさらに低減できるという利点がある。
【0035】
例えば、図1のカメラ130およびCNNは、携帯電話、スマートフォン、その他の同様の機器のような携帯機器に備えられてもよい。携帯機器を車に設置して、前方に歩行者がいる可能性がある場合に車の運転手に警告を発することを可能としてもよい。
【0036】
いくつかの実施形態では、カメラ130およびCNNが同じ装置に備えられていない。例えば、カメラ130は、車や携帯機器に備えられ、撮影した映像を少なくとも部分的におよび/または処理しておよび/または圧縮して、バックエンドサーバ装置または車のコンピュータで動作するCNNに供給するように構成されてもよい。例えば、サーバが車または携帯機器に対して戻される判定の指示を供給してもよい。
【0037】
いくつかの実施形態では、例えば第1の畳み込みレイヤー140および第2の畳み込みレイヤー160のようなCNNレイヤーがそれぞれ異なる装置に含まれる。例えば、第1の装置がカメラ130および第1の畳み込みレイヤー140を有し、第2の装置が第2の畳み込みレイヤー160を動作するように構成されてもよい。原則として第3の装置が中間分類器150を動作しうる。第1の装置、第2の装置および/または第3の装置は携帯機器であってもよく、あるいはその内の少なくとも1つが、例えばバックエンドサーバであってもよい。第1、第2、第3の装置の少なくとも2つが携帯機器である場合、例えばNFCまたはBluetooth(登録商標)のような近距離無線通信インターフェースにより通信するように構成されてもよい。
【0038】
図2は、本発明の少なくともいくつかの実施形態による例示的CNNを示す。この例示的CNNは、図2でC、C、C、C、F、Fが付された6層を有する。「C」が付されたレイヤーは畳み込みレイヤーであり、「F」が付されたレイヤーは全結合レイヤーである。すなわち、最後の2層が全結合レイヤーであり、最初の4層が畳み込みレイヤーである。最終レイヤーの出力は、歩行者、背景それぞれに対する信頼度を提供する二元判定となる。
【0039】
図示の例では、最初の3つの畳み込みレイヤーの後に、局地コントラスト正規化動作が実行される。さらに当該局地正規化動作に続いて、サブサンプリング動作が実行される。
【0040】
図示の例では、入力レイヤーである第1の畳み込みレイヤーは、1画素のストライドで、7×7×1サイズの16個のカーネルにより134×70×1の入力画像をフィルタリングする。第1の畳み込みレイヤーの出力は第2の畳み込みレイヤーに入力され、例えば正規化、サブサンプリングされてもよい。レイヤー1である第2の畳み込みレイヤーは、入力されたものを5×5×16サイズの32個のカーネルによりフィルタリングする。レイヤー2である第3の畳み込みレイヤーは、第2の畳み込みレイヤーの、例えば正規化およびサブサンプリングされていてもよい出力に接続される5×5×32サイズの32個のカーネルを有する。レイヤー3である第4の畳み込みレイヤーは、5×5×32サイズのカーネルを有する。全結合レイヤーは、256個のニューロンを有する。図2のCNNでは、サブサンプリングにより、判定段に向かってレイヤーのサイズが低減していく。
【0041】
図3は、例えば少なくとも1つの中間分類器を有するCNNを動作させることで、本発明の少なくともいくつかの実施形態に対応できる例示的装置を示す。図示の装置300は、例えばコンピュータまたは演算装置であってもよい。装置300は、例えばシングルコアまたはマルチコアプロセッサであってもよいプロセッサ310を有する。シングルコアプロセッサは、単一のプロセッサコアを有し、マルチコアプロセッサは2つ以上のプロセッサコアを有するものである。プロセッサ310は、例えばクアルコム社製、スナップドラゴン800プロセッサであってもよい。プロセッサ310は、2つ以上のプロセッサであってもよい。プロセッサコアは、例えばARMホールディングス製のCortex−A8プロセッサコアまたは、アドバンスト・マイクロ・デバイセズ製Brisbaneプロセッサコアであってもよい。プロセッサ310は、クアルコム社製、スナップドラゴンおよび/またはインテル社製、Atomプロセッサの少なくとも1つであってもよい。プロセッサ310は、少なくとも1つの特定用途向け集積回路(Application-Specific Integrated Circuit:ASIC)を含んでもよい。プロセッサ310は、少なくとも1つのフィールドプログラマブルゲートアレイ(Field-Programmable Gate Array:FPGA)を含んでもよい。プロセッサ310は、装置300における方法ステップを実現する手段であってもよい。プロセッサ310は、少なくとも一部がコンピュータ命令により動作を実行するように構成されてもよい。
【0042】
装置300は、メモリ320を有してもよい。メモリ320は、ランダムアクセスメモリおよび/または固定メモリを含んでもよい。メモリ320は、少なくとも1つのRAMチップを含んでもよい。例えばメモリ320は、磁気、光学および/またはホログラフィックメモリを含んでもよい。メモリ320の少なくとも一部は、プロセッサ310にアクセス可能であってもよい。メモリ320は、情報を記憶する手段であってもよい。メモリ320は、プロセッサ310が実行するように構成されたコンピュータ命令を含んでもよい。プロセッサ310に所定の動作を実行させるように構成されたコンピュータ命令がメモリ320に記憶され、装置300全体がメモリ320からのコンピュータ命令を使用したプロセッサ310の命令に基づいて動作するように構成されている場合、プロセッサ310および/またはその少なくとも1つのプロセッサコアが当該所定の動作を実行するように構成されているとみなすことができる。メモリ320は、少なくとも部分的にプロセッサ310内に構成されてもよい。
【0043】
装置300は、送信部330を有してもよい。装置300は、受信部340を有してもよい。送信部33および受信部340は、少なくとも1つのセルラーまたはノンセルラー通信規格に従って互いに情報を送受信するように構成されてもよい。送信部330は、2つ以上の送信部であってもよい。受信部340は、2つ以上の受信部であってもよい。例えば、送信部330および/または受信部340は、WLAN、イーサネット(登録商標))、WCDMA(登録商標)、および/またはWiMAX(登録商標)の規格に従って動作するように構成されてもよい。
【0044】
装置300は、ユーザインターフェース(UI)360を有してもよい。UI360は、ディスプレイ、キーボード、タッチスクリーンの少なくとも1つであってもよい。例えば、ユーザは人工ニューラルネットワークを構成するように、UI360を介して装置300を操作可能であってもよい。
【0045】
プロセッサ310には、プロセッサ310から情報を、装置300内に設けられた別装置に、装置300内の電線を介して出力するように構成された送信部が設けられてもよい。例えば、当該送信部は、メモリ320への少なくとも1つの電線を介して、メモリ320への記録用に情報を出力するように構成された、シリアルバス送信部であってもよい。当該送信部は、シリアルバスではなく、並列バス送信部であってもよい。同様に、プロセッサ310は、装置300内の別装置から、装置300内の電線を介して、プロセッサ310内に情報を受信するように構成された受信部を有してもよい。例えば、当該受信部は、受信部340からの少なくとも1つの電線を介して、プロセッサ310内での処理用に情報を受信するように構成されたシリアルバス受信部であってもよい。当該受信部は、シリアルバスではなく、並列バス受信部であってもよい。
【0046】
装置300はさらに、図3に図示されていない装置をさらに有してもよい。装置300は、装置300のユーザを少なくとも部分的に認証するように構成された指紋センサを有してもよい。いくつかの実施形態では、装置300は上述の装置の内、少なくとも1つを含まない。
【0047】
プロセッサ310、メモリ320、送信部330、受信部340、および/またはUI360は、様々な形式で、装置300内の電線により相互接続されていてもよい。例えば、上述の装置はそれぞれ、独立して装置300内のマスターバスに接続されて、情報のやり取りが可能であってもよい。ただし、当業者に理解されるように、これは単に一例であって、実施形態によっては、本発明の範囲から逸脱することなく、上述の装置の少なくとも2つを様々な方法で内部接続してもよい。
【0048】
図4は、本発明の少なくともいくつかの実施形態による例示的な中間分類器を示す。例示的中間分類器は、図2の例におけるレイヤー1に基づく。当該レイヤーは64×32サイズの16個の特徴マップを有する。各特徴マップは入力画像の一形態を表すものであって、分類器のトレーニングに各特徴マップを供することが可能である。例えば、単一の特徴マップの64×32=2048個の要素を1つのベクトルに集約してもよい。例えば、サポートベクターマシーン(SVM)または多レイヤーパーセプトロン(MLP)分類器をトレーニングしてもよい。図4の例では、SVM分類器について説明する。この例では、それぞれの分類誤差でランク付けされた、合計16個の線形SVMが得られる。省演算資源のため、識別能力の高い順に5つのSVMを選択して中間レイヤー分類器1を構成してもよい。
【0049】
次に、トレーニングされたSVMのランキングについて簡潔に説明する。サンプルxとして、特徴f(x)に対するSVM分類器h(x,w)(第i特徴マップから得られるベクトル)は以下のとおりとなる。
【0050】

[式1]
【0051】
式中、thiはトレーニング処理中に得られる閾値である。さらに、各SVM分類器の重み付け分類誤差を計算してもよい。分類誤差が最小である最も高性能のものを最初に選択し、次の反復において、トレーニングサンプルの重みを再計算する。選択処理は、全てのSVM分類器が選択されるまで繰り返されてもよい。
【0052】
レイヤー分類器を構成するSVMの数は以下のとおりに決定できる。例えばレイヤー分類器は、直前のレイヤーからの背景画像ウィンドウの60〜70%をフィルタリングし、歩行者、またはより一般的には対象パターンを含む入力画像ウィンドウをすべて通過可能ものとする。この要件を満たすまで、ランキングされたSVMを1つずつつなげて退化型決定木を形成すると、SVMの数が求められる。同様に、図2の中間レイヤー分類器2、3、4が、それぞれレイヤー2、レイヤー3、レイヤー4の特徴マップに基づいて得られる。最終的に、元は単一判定のCNNが、図5に示すようなレイヤーごとに判定を行うCNNとなる。
【0053】
すなわち、複数の中間分類器を構成し、それぞれが直前の畳み込みレイヤーの特徴マップで動作するようにしてもよい。各中間分類器は、CNNが対象とするパターンを含まないデータがさらに処理されないように構成されることで、省演算資源効果が得られる。それぞれ直前の畳み込みレイヤーの特徴マップのサブセットで動作するようにすることにより、さらなる省演算資源効果が得られる。CNN構造によっては、畳み込みニューラルネットワーク内のレイヤーは、数十さらには数百もの特徴マップを有してもよい。この構成で最も識別能力が高いものを選択することで、構造にもよるが、適度または超高度な省演算資源効果が得られる。
【0054】
図5は、本発明の少なくともいくつかの実施形態によるCNNにおけるレイヤーごとの判定を示す。図5に示すシステムでは、図2と同様のCNNに4つの中間分類器が設けられている。レイヤー1の特徴マップで動作するレイヤー分類器1の構成は、図4に示したとおりである。
【0055】
図示のシステムでは、中間分類器は、レイヤー分類器1、レイヤー分類器2、レイヤー分類器3、レイヤー分類器4を含み、それぞれ背景部分、すなわち入力画像の内の歩行者を含まない部分の70%が後段で処理されないようにする。その結果、出力レイヤーで評価されるのは、元の背景部分画像の(1−0.7)=0.8%にすぎない。INRIA(歩行者)データセットを使用したテストでは、中間判定を用いない同様のCNNと比較して、処理速度が5.2倍向上した。
【0056】
ここでは、各隣接する畳み込みレイヤー間に中間分類器が設けられるが、いくつかの実施形態では中間分類器はより少なくともよい。例えば、図5のシステムにおいて、第1の中間分類器すなわちレイヤー1分類器のみが設けられている場合でも、中間判定のないCNNよりは十分に計算的に有利である。単一の中間分類器でも、CNNの後段での背景部分量を低減できるのである。あるいは図5のシステムにおいて、レイヤー分類器1およびレイヤー分類器2のみが使用されていてもよい。
【0057】
図6は、本発明の少なくともいくつかの実施形態による方法のフローチャートを示す。図示の方法におけるフェーズは、例えば図3に示す装置300のような装置で実行できる。
【0058】
フェーズ610では、第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させる。フェーズ620では、第1の中間分類器を第1の畳み込みレイヤーの特徴マップのセットで動作させる。第1の中間分類器は、例えば第1の畳み込みレイヤーと最後の畳み込みレイヤーとの間で動作してもよい。最後に、フェーズ630では、第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定する。信号セットは、部分画像、より広い概念としては、畳み込みニューラルネットワークへの入力の例えばフィルタリング済みサブセットのようなサブセットであってもよい。
【0059】
開示された本発明の実施形態は、本明細書に開示された特定の構造、プロセスステップ、または材料に限定されるものではなく、当該技術分野の当業者によって認識されるであろう均等物にまで拡張されることは理解されるであろう。また、本明細書に使用されている用語は、特定の実施形態を記載する目的のみに用いられているものであり、限定する意図はないことも理解されるであろう。
【0060】
本明細書の全体を通じて、「1つの実施形態」または「ある実施形態」との言及は、当該実施形態に関連して記載されている特定の特性、構造、または特徴が本発明の少なくとも1つの実施形態に含まれていることを示している。したがって、本明細書の各所に述べられた「1つの実施形態では」または「ある実施形態では」という表現が、すべて同一の実施形態に言及しているとは限らない。
【0061】
本明細書で使用されている複数の品目、構造的要素、組成要素、および/または材料は、便宜上、共通のリストとして提示されていてもよい。しかし、これらのリストは、それぞれの部材が別個で特異な部材であると個別に識別されるものであると解されるべきである。したがって、別途反対の記載がない限り、共通の群として示されているということのみを理由に、これらのリストの個別の部材が、同じリストの任意の他の部材の事実上の均等物であると解されるべきではない。さらに、本発明の各種実施形態および例は、本明細書においてその様々な構成要素に対する代替物と併せて言及されていてもよい。このような実施形態、例、および代替物は、互いの事実上の均等物であると解されるものではなく、本発明の別個の自律的な描写であると考えられることが理解されるであろう。
【0062】
さらに、記載された特性、構造、または特徴は、1または複数の実施形態において任意の方法で組み合わされてもよい。以下の説明では、長さ、幅、形状等の例といった数々の特定の詳細を挙げて本発明の実施形態の完全な理解を促している。しかし、当該技術分野の当業者は、本発明が1または複数の特定の詳細を除いても、または他の方法、構成要素、材料等によっても実施しうることを認識するであろう。その他の例として、公知の構造、材料、または動作は、本発明の態様が不明瞭となるのを避けるため、詳細に図示または記載されていない。
【0063】
上述の例は、1または複数の適用例における本発明の原則を例示するものであり、発明の才能を発揮することなく、また、本発明の原則および概念から逸脱することなく、形式、使用、および実施の詳細において様々な変更をなしうることは当業者には明らかであろう。したがって、以下に定められている請求項を除いては、本発明の限定を意図するものではない。
図1
図2
図3
図4
図5
図6
【手続補正書】
【提出日】2017年5月1日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させることと、
第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させることと、
前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定することと、
を含む方法。
【請求項2】
請求項に記載の方法であって、
前記畳み込みニューラルネットワークは、前記第1の畳み込みレイヤーと前記最後の畳み込みレイヤーとの間に設けられた第2の畳み込みレイヤーと、前記第2の畳み込みレイヤーの特徴マップのセットで動作する第2の中間分類器とを備え、
前記方法は、前記第2の中間分類器による判定に基づいて前記信号セットの処理を中止するか継続するかを判定することを含む、
方法。
【請求項3】
請求項に記載の方法であって、
前記畳み込みニューラルネットワークは、前記第2の畳み込みレイヤーと前記最後の畳み込みレイヤーとの間に設けられた第3の畳み込みレイヤーと、前記第3の畳み込みレイヤーの特徴マップのセットで動作する第3の中間分類器とを備え、
前記方法は、前記第3の中間分類器による判定に基づいて前記信号セットの処理を中止するか継続するかを判定することを含む、
方法。
【請求項4】
前記第1の畳み込みレイヤーの特徴マップの前記セットは、前記第1の畳み込みレイヤーの全特徴マップのサブセットを含む、請求項からのいずれかに記載の方法。
【請求項5】
前記第2の畳み込みレイヤーの特徴マップの前記セットは、前記第2の畳み込みレイヤーの全特徴マップのサブセットを含む、請求項からのいずれかに記載の方法。
【請求項6】
前記第3の畳み込みレイヤーの特徴マップの前記セットは、前記第3の畳み込みレイヤーの全特徴マップのサブセットを含む、請求項からのいずれかに記載の方法。
【請求項7】
前記信号セットは、前記入力レイヤーからの画像の部分像が処理されたものを含む、請求項からのいずれかに記載の方法。
【請求項8】
前記信号セットは、前記入力レイヤーからの画像が処理されたものを含む、請求項からのいずれかに記載の方法。
【請求項9】
前記畳み込みニューラルネットワークは、人物の画像を検出するように構成された、請求項からのいずれかに記載の方法。
【請求項10】
前記畳み込みニューラルネットワークは、歩行者の画像を検出するように構成された、請求項に記載の方法。
【請求項11】
少なくとも1つの基準に基づき、前記第1の畳み込みレイヤーの特徴マップの前記セットと、前記第2の畳み込みレイヤーの特徴マップの前記セットと、前記第3の畳み込みレイヤーの特徴マップの前記セットとの少なくとも1つを選択することを含む、請求項から10のいずれかに記載の方法。
【請求項12】
処理手段及び記憶手段を備える装置であって、前記記憶手段はプログラム命令を格納し、前記プログラム命令は、前記処理手段に実行されると、前記装置に、請求項1から11のいずれかに記載の方法を遂行させるように構成される、装置。
【請求項13】
装置の処理手段に実行されると、前記装置に、請求項1から11のいずれかに記載の方法を遂行させるように構成されるプログラム命令を備える、コンピュータプログラム。
【請求項14】
第1の畳み込みレイヤーおよび最後の畳み込みレイヤーに信号を供給するように構成された入力レイヤーを備える畳み込みニューラルネットワークを動作させる手段と、
第1の中間分類器を前記第1の畳み込みレイヤーの特徴マップのセットで動作させる手段と、
前記第1の中間分類器による判定に基づいて信号セットの処理を中止するか継続するかを判定する手段と、
を備える装置。
【国際調査報告】