IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アクシス アーベーの特許一覧

特許7553424シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム
<>
  • 特許-シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム 図1
  • 特許-シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム 図2
  • 特許-シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム 図3
  • 特許-シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム 図4a
  • 特許-シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム 図4b
  • 特許-シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム 図5
  • 特許-シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム 図6
  • 特許-シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム 図7
  • 特許-シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム 図8
  • 特許-シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】シーンを表す画像データを、特徴を抽出するために処理するための方法、デバイス、及びシステム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240910BHJP
【FI】
G06T7/00 350C
【請求項の数】 15
【外国語出願】
(21)【出願番号】P 2021189322
(22)【出願日】2021-11-22
(65)【公開番号】P2022085875
(43)【公開日】2022-06-08
【審査請求日】2024-06-26
(31)【優先権主張番号】20210295
(32)【優先日】2020-11-27
(33)【優先権主張国・地域又は機関】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208205
【氏名又は名称】アクシス アーベー
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】アルデ, ビョルン
(72)【発明者】
【氏名】ヤコブソン, アントン
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2020-27659(JP,A)
【文献】特表2019-530926(JP,A)
【文献】Julius Surya Sumantri, ET AL,360 Panorama Synthesis from a Sparse Set of Images on a Low-Power Device,IEEE TRANSACTIONS ON COMPUT ATIONAL IMAGING,vol. 6,米国,IEEE,2020年,p.1179-1193
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
シーンを表す画像データを、前記シーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理する方法(100)であって、
2つ又はそれ以上の回路のそれぞれ1つを用いて、前記シーンの2つ又はそれ以上の部位のそれぞれ1つを表す前記画像データの2つ又はそれ以上の部位を、前記畳み込みニューラルネットワークの第1の数のレイヤを通して処理し(S110)、2つ又はそれ以上の出力を形成することであって、前記シーンの前記2つ又はそれ以上の部位が、部分的に重複し、前記画像データの前記2つ又はそれ以上の部位のそれぞれが、前記シーンの前記2つ又はそれ以上の部位の隣り合う部位がそれぞれ重複する部位を表す画像データを含む、2つ又はそれ以上の出力を形成することと、
前記2つ又はそれ以上の出力をつなぎ合わせ且つそれぞれ重複する部位に関連する画像データを作り出すことによって前記2つ又はそれ以上の出力を組み合わせ(S120)、組み合わせ出力を形成することと、
記シーンにおける物体に関する特徴を抽出するために、前記2つ又はそれ以上の回路のうちの1つを用いて、前記畳み込みニューラルネットワークの第2の数のレイヤを通して前記組み合わせ出力を処理すること(S130)と、
を含む、方法。
【請求項2】
前記画像データの前記2つ又はそれ以上の部位を処理することは、
第1の回路を用いて、前記シーンの第1の部位を表す前記画像データの第1の部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し(S210)、第1の出力を形成することと、
第2の回路を用いて、前記シーンの第2の部位を表す前記画像データの第2の部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し(S215)、第2の出力を形成することであって、前記シーンの前記第1及び第2の部位は、部分的に重複し、前記画像データの前記第2の部位が、前記画像データの前記第1の部位の重複する部位を表す画像データを含む、第2の出力を形成することと
を含み、
前記2つ又はそれ以上の出力を組み合わせることは、前記第1及び第2の出力をつなぎ合わせ且つ前記重複する部位に関連する画像データを作り出すことによって前記第1及び第2の出力を組み合わせ(S220)、前記組み合わせ出力を形成することを含み、
前記組み合わせ出力を処理することは、前記シーンにおける物体に関する特徴を抽出するために、前記第1及び第2の回路のうちの1つを用いて、前記畳み込みニューラルネットワークの前記第2の数のレイヤを通して前記組み合わせ出力を処理すること(S230)を含む、請求項1に記載の方法。
【請求項3】
前記画像データの前記第1の部位は、第1のイメージセンサにより撮像された画像データであり、前記画像データの前記第2の部位は、第2のイメージセンサにより撮像された画像データである、請求項2に記載の方法。
【請求項4】
前記画像データの前記2つ又はそれ以上の部位を処理することは、
第1の回路を用いて、前記シーンの第1の部位を表す前記画像データの第1の部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し(S310)、第1の出力を形成することと、
第2の回路を用いて、前記シーンの第2の部位を表す前記画像データの第2の部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し(S312)、第2の出力を形成することであって、前記シーンの前記第1及び第2の部位は、部分的に重複し、前記画像データの前記第2の部位が、前記画像データの前記第1の部位の重複する部位を表す画像データを含む、第2の出力を形成することと、
第3の回路を用いて、前記シーンの第3の部位を表す前記画像データの第3の部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し(S314)、第3の出力を形成することであって、前記シーンの前記第2及び第3の部位は、部分的に重複し、前記画像データの前記第3の部位が、前記画像データの前記第2の部位の重複する部位を表す画像データを含む、第3の出力を形成することと、
第4の回路を用いて、前記シーンの第4の部位を表す前記画像データの第4の部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し(S316)、第4の出力を形成することであって、前記シーンの前記第3及び第4の部位は、部分的に重複し、前記画像データの前記第4の部位が、前記画像データの前記第3の部位の重複する部位を表す画像データを含む、第4の出力を形成することと
を含み、
前記2つ又はそれ以上の出力を組み合わせることは、前記第1、第2、第3、及び第4の出力をつなぎ合わせ且つそれぞれ重複する部位に関連する画像データを作り出すことによって、前記画像データの前記第1及び第2の部位を処理することからの前記第1、第2、第3、及び第4の出力を組み合わせ(S320)、前記組み合わせ出力を形成することを含み、
前記組み合わせ出力を処理することは、前記シーンにおける物体に関する特徴を抽出するために、前記第1、第2、第3、及び第4の回路のうちの1つを用いて、前記畳み込みニューラルネットワークの前記第2の数のレイヤを通して前記組み合わせ出力を処理すること(S330)を含む、
請求項1に記載の方法。
【請求項5】
前記画像データの前記2つ又はそれ以上の部位を処理することは、
第1の回路を用いて、前記シーンの第1の部位を表す前記画像データの第1の部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し(S410)、第1の中間出力を形成することと、
第2の回路を用いて、前記シーンの第2の部位を表す前記画像データの第2の部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し(S411)、第2の中間出力を形成することであって、前記シーンの前記第1及び第2の部位は、部分的に重複し、前記画像データの前記第2の部位が、前記画像データの前記第1の部位の重複する部位を表す画像データを含む、第2の中間出力を形成することと、
前記第1及び第2の中間出力をつなぎ合わせ且つ前記画像データの前記第1の部位の重複する部位に関連する画像データを作り出すことによって、前記画像データの前記第1及び第2の部位を処理することからの前記第1及び第2の中間出力を組み合わせ(S412)、第1の中間組み合わせ出力を形成することと、
第3の回路を用いて、前記シーンの第3の部位を表す前記画像データの第3の部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し(S413)、第3の中間出力を形成することであって、前記シーンの前記第2及び第3の部位は、部分的に重複し、前記画像データの前記第3の部位が、前記画像データの前記第2の部位の重複する部位を表す画像データを含む、第3の中間出力を形成することと、
第4の回路を用いて、前記シーンの第4の部位を表す前記画像データの第4の部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し(S414)、第4の中間出力を形成することであって、前記シーンの前記第3及び第4の部位は、部分的に重複し、前記画像データの前記第4の部位が、前記画像データの前記第3の部位の重複する部位を表す画像データを含む、第4の中間出力を形成することと、
前記第3及び第4の中間出力をつなぎ合わせ且つ前記画像データの前記第3の部位の重複する部位に関連する画像データを作り出すことによって、前記画像データの前記第3及び第4の部位を処理することからの前記第3及び第4の中間出力を組み合わせ(S415)、第2の中間組み合わせ出力を形成することと、
前記第1、第2、第3、及び第4の回路のうちの1つを用いて、前記第1の中間組み合わせ出力を、前記畳み込みニューラルネットワークの第3の数のレイヤを通して処理し(S416)、第1の出力を形成することと、
前記第1、第2、第3、及び第4の回路のうちの異なる1つを用いて、前記第2の中間組み合わせ出力を、前記畳み込みニューラルネットワークの前記第3の数のレイヤを通して処理し(S417)、第2の出力を形成することであって、前記第2の中間組み合わせ出力が、前記第1の中間組み合わせ出力の重複する部位を表す画像データを含む、第2の出力を形成することと、
を含み、
前記2つ又はそれ以上の出力を組み合わせることは、前記第1及び第2の中間出力をつなぎ合わせ且つ前記第1及び第2の中間出力の重複する部位に関連する画像データを作り出すことによって前記第1及び第2の出力を組み合わせ(S420)、前記組み合わせ出力を形成することを含み、
前記組み合わせ出力を処理することは、前記シーンにおける物体に関する特徴を抽出するために、前記第1、第2、第3、及び第4の回路のうちの1つを用いて、前記畳み込みニューラルネットワークの前記第2の数のレイヤを通して前記組み合わせ出力を処理すること(S430)を含む、請求項1に記載の方法。
【請求項6】
前記画像データの前記第1の部位は、第1のイメージセンサにより撮像された画像データであり、
前記画像データの前記第2の部位は、第2のイメージセンサにより撮像された画像データであり、
前記画像データの前記第3の部位は、第3のイメージセンサにより撮像された画像データであり、
前記画像データの前記第4の部位は、第4のイメージセンサにより撮像された画像データであり、
前記シーンの前記第2及び第3の部位は、前記第1及び第2の部位よりも多く重複しており、前記第3及び第4の部位よりも多く重複している、請求項5に記載の方法。
【請求項7】
前記画像データは、1つのイメージセンサにより撮像された画像データである、請求項1、2、4、又は5に記載の方法。
【請求項8】
前記画像データは、少なくとも2つのイメージセンサにより撮像された画像データである、請求項1、2、4、又は5に記載の方法。
【請求項9】
前記画像データの各部位は、前記少なくとも2つのイメージセンサの別個の1つのイメージセンサにより撮像されており、
前記少なくとも2つのイメージセンサは、部分的に重複する、前記シーンの部位のそれぞれを表す画像データが撮像されるように配置されている、請求項8に記載の方法。
【請求項10】
前記第1の数のレイヤと、各重複のフィルタサイズとは、前記第1の数のレイヤを処理することが含まれるように選択されている、請求項1から9のいずれか一項に記載の方法。
【請求項11】
処理能力を有するデバイスにより実行されると、請求項1から9のいずれか一項に記載の方法を実施する命令が保存されている、非一時的コンピュータ可読記憶媒体。
【請求項12】
シーンを表す画像データを、前記シーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理するためのデバイスであって、前記デバイスは、2つ又はそれ以上の回路(610;710,720,730,740)を含み、前記2つ又はそれ以上の回路は、
前記2つ又はそれ以上の回路のそれぞれ1つを用いて、前記シーンの2つ又はそれ以上の部位のそれぞれ1つを表す前記画像データの2つ又はそれ以上の部位を、前記畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、2つ又はそれ以上の出力を形成するよう構成されている第1の処理機能(661;761)であって、前記シーンの前記2つ又はそれ以上の部位は、部分的に重複し、前記画像データの前記2つ又はそれ以上の部位のそれぞれが、前記シーンの前記2つ又はそれ以上の部位の隣り合う部位がそれぞれ重複する部位を表す画像データを含む、第1の処理機能と、
前記2つ又はそれ以上の出力をつなぎ合わせ且つそれぞれ重複する部位に関連する画像データを作り出すことによって前記2つ又はそれ以上の出力を組み合わせ、組み合わせ出力を形成するよう構成されている組み合わせ機能(663;763)と、
記シーンにおける物体に関する特徴を抽出するために、前記2つ又はそれ以上の回路のうちの1つを用いて、前記畳み込みニューラルネットワークの第2の数のレイヤを通して前記組み合わせ出力を処理するよう構成されている第2の処理機能(665;765)と、
を実行するよう構成されている、デバイス(600;700)
【請求項13】
請求項12に記載のデバイスであって、前記画像データは、1つのイメージセンサにより、又は、少なくとも2つのイメージセンサにより撮像された画像データである、デバイス。
【請求項14】
前記デバイスは、4つ又はそれ以上の回路(710,720,730,740)を含み、
前記第1の処理機能(761)はさらに、
前記4つ又はそれ以上の回路のそれぞれ1つを用いて、4つのイメージセンサのそれぞれ1つにより撮像され、前記シーンの4つの部位のそれぞれ1つを表す前記画像データの4つの部位を、前記畳み込みニューラルネットワークの前記第1の数のレイヤを通して処理し、4つの中間出力を形成するように構成され、前記シーンの前記4つの部位は、部分的に重複し、前記画像データの前記4つ又はそれ以上の部位のそれぞれが、前記シーンの前記4つ又はそれ以上の部位の隣り合う部位がそれぞれ重複する部位を表す画像データを含み
前記4つ又はそれ以上の出力をつなぎ合わせ且つそれぞれ重複する部位に関連する画像データを作り出すことによって、前記4つの中間出力の2つを、第1の中間組み合わせ出力に組み合わせ、前記4つの中間出力の残りの2つを、第2の中間組み合わせ出力に組み合わせるよう構成され、
前記デバイスはさらに、第3の処理機能(764)を実行するよう構成されており、
前記第3の処理機能は、前記4つ又はそれ以上の回路のうちの2つを用いて、前記第1の中間組み合わせ出力と、前記第2の中間組み合わせ出力と、のそれぞれ1つを、前記畳み込みニューラルネットワークの第3の数のレイヤを通して処理し、第1の出力と、第2の出力と、をそれぞれ形成するよう構成されている、請求項12に記載のデバイス(700)
【請求項15】
シーンを表す画像データを撮像し、前記シーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して前記画像データを処理するためのシステムであって、
請求項14に記載のデバイス(700)と、
前記シーンを表す前記画像データを撮像するためのカメラと、
を含み、
前記カメラは、
前記シーンの第1の部位を表す前記画像データの第1の部位を撮像するために配置された第1のイメージセンサ(821)と、
前記シーンの第2の部位を表す前記画像データの第2の部位を撮像するために配置された第2のイメージセンサ(823)と、
前記シーンの第3の部位を表す前記画像データの第3の部位を撮像するために配置された第3のイメージセンサ(825)と、
前記シーンの第4の部位を表す前記画像データの第4の部位を撮像するために配置された第4のイメージセンサ(826)と、
を含み、
前記第1、第2、第3、及び第4のイメージセンサは、前記シーンの前記第2及び第3の部位が、前記第1及び第2の部位(950)よりも多く重複しており、前記第3及び第4の部位(970)よりも多く重複している(960)ように配置されている、システム(800)
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理、具体的には、シーンを表す画像データを撮像し、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用してその画像データを処理することに関する。
【背景技術】
【0002】
畳み込みニューラルネットワークは、シーンの画像を、そのシーンにおける物体に関する特徴を抽出するために処理する際に使用され得る。そのように処理することにおいて、必要とされる計算数は実質的に、画像のサイズ、つまり、ピクセルの数が増えると共に増える。したがって、処理時間は実質的に、画像のサイズが増えると共に増えることとなる。そのような大きな画像の例としては、高解像度画像や、ワイドシーンを表すパノラマ画像が挙げられる。計算数を減らす1つの方法は、処理される画像の解像度を減らすことである。しかしこれは、そのシーンにおける物体に関する小さな特徴を抽出する可能性が減ることとなる。
【発明の概要】
【0003】
本発明の目的は、シーンを表す画像データの、そのシーンにおける物体に関する特徴を抽出するための、時間効率のよい処理を促進しつつ、そのシーンにおける物体に関する小さな特徴を抽出する可能性を維持することである。
【0004】
第1の態様によると、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理する方法が提供される。この方法は、2つ又はそれ以上の回路のそれぞれ1つを用いて、シーンの2つ又はそれ以上の部位のそれぞれ1つを表す画像データの2つ又はそれ以上の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、2つ又はそれ以上の出力を形成することを含む。ここでは、シーンの2つ又はそれ以上の部位は、部分的に重複する。この方法はさらに、2つ又はそれ以上の出力を組み合わせ、組み合わせ出力を形成することと、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して、2つ又はそれ以上の回路のうちの1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理することと、を含む。
【0005】
したがって、画像データを第1の数のレイヤを通して処理することは、2つ又はそれ以上の異なる回路において分割される。具体的には、画像データの2つ又はそれ以上の異なる部位が、第1の数のレイヤを通して、2つ又はそれ以上の回路の異なるものをそれぞれ用いて処理される。2つ又はそれ以上の異なる部位は、それらが表すシーンの対応する2つ又はそれ以上の部位が部分的に重複するように配置されている。換言すると、画像データの2つ又はそれ以上の部位の画像データの各部位は、画像データの部位の別の1つにより表されるシーンの一部位と部分的に重複するシーンの一部位を表す。
【0006】
画像データの2つ又はそれ以上の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して、2つ又はそれ以上の回路のそれぞれ1つにおいて処理することは、処理の一部位を並行して行うことを可能にする。これは、合計処理時間を減らす。
【0007】
2つ又はそれ以上の回路は、画像データの2つ又はそれ以上の部位と等しい数であってよい。そのような場合では、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して処理することは、画像データの2つ又はそれ以上の部位の1つを、畳み込みニューラルネットワークの第1の数のレイヤを通して処理した、2つ又はそれ以上の回路のうちの1つを用いてのこととなる。
【0008】
2つ又はそれ以上の回路は、画像データの2つ又はそれ以上の部位よりも多い数であってよい。そのような場合では、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して処理することは、画像データの2つ又はそれ以上の部位のいずれかのうちの1つを、畳み込みニューラルネットワークの第1の数のレイヤを通して処理していない、2つ又はそれ以上の回路のうちの1つを用いてのこととなってよい。
【0009】
シーンの2つ又はそれ以上の部位を部分的に重複させることにより、画像データの2つ又はそれ以上の部位のそれぞれが、シーンの部分的に重複する部位を表す画像データを含むこととなる。これは、画像データの2つ又はそれ以上の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して、2つ又はそれ以上の回路のそれぞれ1つにおいて独立して処理することを可能にする。
【0010】
所与の第1の数のレイヤについて、シーンの2つ又はそれ以上の部位が部分的に重複するサイズは、第1の数のレイヤを処理することが含まれるように選択されてよい。シーンの2つ又はそれ以上の部位が部分的に重複するサイズはさらに、畳み込みニューラルネットワークの第1の数のレイヤの各レイヤにおける畳み込みのフィルタ(カーネル)サイズとストライドとに基づいてよい。代替的に、シーンの2つ又はそれ以上の部位が部分的に重複する所与のサイズについて、第1の数のレイヤは、第1の数のレイヤを処理することが含まれるように選択されてよい。第1の数のレイヤはさらに、畳み込みニューラルネットワークの第1の数のレイヤの各レイヤにおける畳み込みのフィルタサイズとストライドとに基づいてよい。
【0011】
さらに、第1の数のレイヤと、シーンの2つ又はそれ以上の部位が部分的に重複するサイズとは、畳み込みニューラルネットワークの第1の数のレイヤの各畳み込みのフィルタサイズとストライドとに基づいてよい。
【0012】
2つ又はそれ以上の回路は、第1の回路と、第2の回路と、からなってよい。画像データの2つ又はそれ以上の部位を処理することはさらに、第1の回路を用いて、シーンの第1の部位を表す画像データの第1の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、第1の出力を形成することと、第2の回路を用いて、シーンの第2の部位を表す画像データの第2の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、第2の出力を形成することと、を含んでよい。ここでは、シーンの第1及び第2の部位は、部分的に重複する。2つ又はそれ以上の出力を組み合わせることは続いて、第1及び第2の出力を組み合わせ、組み合わせ出力を形成することを含む。組み合わせ出力を処理することは、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して、第1及び第2の回路のうちの1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理することを含む。
【0013】
したがって、画像データを第1の数のレイヤを通して処理することは、第1の回路と第2の回路とにおいて分割される。具体的には、画像データの第1の部位と画像データの第2の部位とが、第1の数のレイヤを通して、第1の回路と第2の回路とをそれぞれ用いて処理される。画像データの第1の部位と画像データの第2の部位とは、それらが表すシーンの対応する第1の部位とシーンの対応する第2の部位とが部分的に重複するように配置されている。換言すると、画像データの第1の部位は、シーンの第1の部位を表す。これは、画像データの第2の部位により表されるシーンの第2の部位と部分的に重複する。
【0014】
画像データの第1の部位は、第1のイメージセンサにより撮像された画像データであってよい。画像データの第2の部位は、第2のイメージセンサにより撮像された画像データであってよい。換言すると、第1のイメージセンサは、シーンの第1の部位を撮像する。第2のイメージセンサは、シーンの第2の部位を撮像する。シーンの第1及び第2の部位は、部分的に重複する。
【0015】
これは、例えば、2つのセンサが、シーンの2つの部位を表す画像データを撮像し、そのシーンの2つの部位を表す画像データを組み合わせることによりパノラマ画像を形成する際に好適である。シーンの2つの部位は、そのような場合では、典型的には、部分的に重複している。シーンの2つの部位の間の重複は、例えば、2つのセンサの双方からの画像データを混ぜ合わせることを用いて、そのシーンにおける、2つのセンサにより撮像されたものの間の境界線に対応する、パノラマ画像のエリアにおける接合線などのリスクを減らすために使用される。第1のイメージセンサと第2のイメージセンサとからの画像データは、直接的に、第1の数のレイヤを通して、第1の回路と第2の回路とをそれぞれ用いて、それらをまず、例えば、2つのセンサの双方からの画像データを混ぜ合わせることにより組み合わせて1つの画像を形成することなく、処理されてよい。
【0016】
2つ又はそれ以上の回路は、4つの回路からなってよい。画像データの2つ又はそれ以上の部位を処理することはさらに、
第1の回路を用いて、シーンの第1の部位を表す画像データの第1の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、第1の出力を形成することと、
第2の回路を用いて、シーンの第2の部位を表す画像データの第2の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、第2の出力を形成することと、ここでは、シーンの第1及び第2の部位は、部分的に重複し、
第3の回路を用いて、シーンの第3の部位を表す画像データの第3の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、第3の出力を形成することと、ここでは、シーンの第2及び第3の部位は、部分的に重複し、
第4の回路を用いて、シーンの第4の部位を表す画像データの第4の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、第4の出力を形成することと、ここでは、シーンの第3及び第4の部位は、部分的に重複する、
を含んでよい。
【0017】
2つ又はそれ以上の出力を組み合わせることは続いて、画像データの第1及び第2の部位を処理することからの第1、第2、第3、及び第4の出力を組み合わせ、組み合わせ出力を形成することを含む。組み合わせ出力を処理することは、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して、第1、第2、第3、及び第4の回路のうちの1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理することを含む。
【0018】
4つの回路を使用して、4つの部位に分割された画像データを処理することにより、各回路に対する計算数が、2つの回路を使用して、2つの部位に分割された画像データを処理することに関して、減らされる。しかし、画像データの4つの部位は、部分的に重複する、シーンの4つの部位を表すため、4つの回路を使用することを通しての画像データの4つの部位を処理するための計算数は、2つの回路を使用しての画像データの2つの部位を処理するための計算数の半分ではない。
【0019】
代替的に、2つ又はそれ以上の回路が4つの回路からなる場合、画像データの2つ又はそれ以上の部位を処理することは、
第1の回路を用いて、シーンの第1の部位を表す画像データの第1の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、第1の中間出力を形成することと、
第2の回路を用いて、シーンの第2の部位を表す画像データの第2の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、第2の中間出力を形成することと、ここでは、シーンの第1及び第2の部位は、部分的に重複し、
画像データの第1及び第2の部位を処理することからの第1及び第2の中間出力を組み合わせ、第1の中間組み合わせ出力を形成することと、
第3の回路を用いて、シーンの第3の部位を表す画像データの第3の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、第3の中間出力を形成することと、ここでは、シーンの第2及び第3の部位は、部分的に重複し、
第4の回路を用いて、シーンの第4の部位を表す画像データの第4の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、第4の中間出力を形成することと、ここでは、シーンの第3及び第4の部位は、部分的に重複し、
画像データの第3及び第4の部位を処理することからの第3及び第4の中間出力を組み合わせ、第2の中間組み合わせ出力を形成することと、
第1、第2、第3、及び第4の回路のうちの1つを用いて、第1の中間組み合わせ出力を、畳み込みニューラルネットワークの第3の数のレイヤを通して処理し、第1の出力を形成することと、
第1、第2、第3、及び第4の回路のうちの異なる1つを用いて、第2の中間組み合わせ出力を、畳み込みニューラルネットワークの第3の数のレイヤを通して処理し、第2の出力を形成することと、
を含んでよい。
【0020】
2つ又はそれ以上の出力を組み合わせることは続いて、第1及び第2の出力を組み合わせ、組み合わせ出力を形成することを含む。組み合わせ出力を処理することは、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して、第1、第2、第3、及び第4の回路のうちの1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理することを含む。
【0021】
所与の第1の数のレイヤについて、シーンの第1及び第2の部位と、シーンの第2及び第3の部位と、シーンの第3及び第4の部位と、が部分的に重複するサイズは、第1の数のレイヤを処理することが含まれるように選択されてよい。追加的に、所与の第3の数のレイヤについて、シーンの第2及び第3の部位が部分的に重複するサイズは、第1の数のレイヤを処理することが含まれることに加えて、第3の数のレイヤを処理することも含まれるように選択されてよい。シーンの第1及び第2の部位と、シーンの第2及び第3の部位と、シーンの第3及び第4の部位と、が部分的に重複するサイズはさらに、畳み込みニューラルネットワークの第1の数のレイヤと、畳み込みニューラルネットワークの第3の数のレイヤと、における各畳み込みのフィルタサイズとストライドとに基づいてよい。
【0022】
代替的に、シーンの第1及び第2の部位と、シーンの第2及び第3の部位と、シーンの第3及び第4の部位と、が部分的に重複する所与のサイズについて、第1の数のレイヤは、第1の数のレイヤを処理することが含まれ、第3の数のレイヤを処理することが含まれるように選択されてよい。第1の数のレイヤと第3の数のレイヤとはさらに、畳み込みニューラルネットワークの第1の数のレイヤと、畳み込みニューラルネットワークの第3の数のレイヤと、の各畳み込みのフィルタサイズとストライドとに基づいてよい。
【0023】
画像データの第1の部位は、第1のイメージセンサにより撮像された画像データであってよい。画像の第2の部位は、第2のイメージセンサにより撮像された画像データであってよい。画像データの第3の部位は、第3のイメージセンサにより撮像された画像データであってよい。画像データの第4の部位は、第4のイメージセンサにより撮像された画像データであってよい。シーンの第2及び第3の部位は、第1及び第2の部位よりも多く重複しており、第3及び第4の部位よりも多く重複している。
【0024】
これは、例えば、4つのセンサが、シーンの4つの部位を表す画像データを撮像し、そのシーンの4つの部位を表す画像データを組み合わせることによりパノラマ画像を形成する場合に好適である。シーンの4つの部位は、そのような場合では、典型的には、部分的に重複している。シーンの4つの部位の間の重複は、例えば、2つのセンサの双方からの画像データを混ぜ合わせることを用いて、そのシーンにおける、4つのセンサにより撮像されたものの間の境界線に対応する、パノラマ画像のエリアにおける接合線などのリスクを減らすために使用される。第1のイメージセンサと、第2のイメージセンサと、第3のイメージセンサと、第4のイメージセンサと、からの画像データは、直接的に、第1の数のレイヤを通して、第1の回路と、第2の回路と、第3の回路と、第4の回路と、をそれぞれ用いて、それらをまず、例えば、4つのセンサからの画像データを混ぜ合わせることにより組み合わせて1つの画像を形成することなく、処理されてよい。
【0025】
第1及び第2の部位よりも多く重複し、第3及び第4の部位よりも多く重複するシーンの第2及び第3の部位は、第1及び第2の中間組み合わせ出力を、畳み込みニューラルネットワークの第3の数のレイヤを通して処理することを可能にする。
【0026】
画像データは、1つのイメージセンサにより撮像された画像データであってよい。
【0027】
代替的に、画像データは、少なくとも2つのイメージセンサにより撮像された画像データであってよい。画像データの各部位は続いて、少なくとも2つのイメージセンサの別個の1つのイメージセンサにより撮像されてよい。少なくとも2つのイメージセンサは、部分的に重複する、シーンの部位のそれぞれを表す画像データが、イメージセンサのそれぞれにより撮像されるように配置されてよい。
【0028】
画像データはまた、画像データの2つ又はそれ以上の部位が、同じイメージセンサにより撮像され、画像データの2つ又はそれ以上の部位が、別個のイメージセンサにより撮像されるように組み合わされてよい。
【0029】
第1の数のレイヤと、シーンの2つ又はそれ以上の部位が部分的に重複するサイズとは、第1の数のレイヤを処理することが含まれるように選択されてよい。
【0030】
第2の態様によると、処理能力を有するデバイスにより実行されると、第1の態様に係る方法を実施する命令が保存されている非一時的コンピュータ可読記憶媒体が提供される。
【0031】
第3の態様によると、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理するためのデバイスが提供される。このデバイスは、2つ又はそれ以上の回路を含む。2つ又はそれ以上の回路は、第1の処理機能を実行するよう構成されている。第1の処理機能は、2つ又はそれ以上の回路のそれぞれ1つを用いて、シーンの2つ又はそれ以上の部位のそれぞれ1つを表す画像データの2つ又はそれ以上の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、2つ又はそれ以上の出力を形成するよう構成されている。ここでは、シーンの2つ又はそれ以上の部位は、部分的に重複する。2つ又はそれ以上の回路はさらに、組み合わせ機能と、第2の処理機能と、を実行するよう構成されている。組み合わせ機能は、2つ又はそれ以上の出力を組み合わせ、組み合わせ出力を形成するよう構成されている。第2の処理機能は、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して、2つ又はそれ以上の回路のうちの1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理するよう構成されている。
【0032】
画像データは、1つのイメージセンサにより撮像された画像データであってよい。
【0033】
代替的に、画像データは、少なくとも2つのイメージセンサにより撮像された画像データであってよい。
【0034】
デバイスは、4つ又はそれ以上の回路を含んでよい。第1の処理機能は続いて、さらに、4つ又はそれ以上の回路のそれぞれ1つを用いて、4つのイメージセンサのそれぞれ1つにより撮像され、シーンの4つの部位のそれぞれ1つを表す画像データの4つの部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、4つの中間出力を形成し、ここでは、シーンの4つの部位は、部分的に重複し、4つの中間出力の2つを第1の中間組み合わせ出力に組み合わせ、4つの中間出力の残りの2つを第2の中間組み合わせ出力に組み合わせるよう構成されている。デバイスはさらに、第3の処理機能を実行するよう構成されている。第3の処理機能は、4つ又はそれ以上の回路のうちの2つを用いて、第1の中間組み合わせ出力と、第2の中間組み合わせ出力と、のそれぞれ1つを、畳み込みニューラルネットワークの第3の数のレイヤを通して処理し、第1の出力と、第2の出力と、をそれぞれ形成するよう構成されている。
【0035】
第1の態様に係る方法上記の作用は、適用可能であれば、第3の態様に係るデバイスにも同様に適用される。
【0036】
第4の態様によると、シーンを表す画像データを撮像し、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理するためのシステムが提供される。このシステムは、第3の態様に係るデバイスを含む。このデバイスは、4つ又はそれ以上の回路を含む。システムはさらに、シーンを表す画像データを撮像するためのカメラを含む。このカメラは、シーンの第1の部位を表す画像データの第1の部位を撮像するために配置された第1のイメージセンサと、シーンの第2の部位を表す画像データの第2の部位を撮像するために配置された第2のイメージセンサと、シーンの第3の部位を表す画像データの第3の部位を撮像するために配置された第3のイメージセンサと、シーンの第4の部位を表す画像データの第4の部位を撮像するために配置された第4のイメージセンサと、を含む。第1、第2、第3、及び第4のイメージセンサは、シーンの第2及び第3の部位が、第1及び第2の部位よりも多く重複しており、第3及び第4の部位よりも多く重複しているように配置されている。
【0037】
第1の態様に係る方法上記の作用は、適用可能であれば、第4の態様に係るシステムにも同様に適用される。
【0038】
本発明の適用性のさらなる範囲が、以下の詳細説明より明らかとなるであろう。しかし、本発明の好適な実施形態を示す一方で、詳細説明及び具体例は、説明のみの目的に提供されていることが理解されるべきである。なぜなら、本発明の範囲内での種々の変更及び改修が、本詳細説明から当業者に明らかとなるからである。
【0039】
したがって、本発明は、記載するデバイスの特定の構成部品、又は、記載する方法の特定の作動に限定されず、そのようなデバイス及び方法は異なる場合があることが理解されよう。ここに使用する用語は、特定の実施形態を説明することのみを目的としており、限定を意図していないこともまた理解されよう。なお、本明細書及び添付の特許請求の範囲に使用されるように、冠詞「a」、「an」、「the」、及び「said」は、他の例が文脈により明確に決定づけられない限り、要素が1つ又はそれ以上あることを意味するよう意図していることに注意されたい。したがって、例えば、「1つのユニット(a unit)」又は「当該ユニット(the unit)」という引用は、いくつかのデバイスなどを含む場合がある。さらに、「含む(comprising)」、「含む(including)」、「含む(containing)」などという語は、他の要素又はステップを排除しない。
【0040】
以下、添付の図面を参照して、本発明の上記態様及び他の態様をより詳細に説明する。これらの図面は、限定するものとみなすべきではない。これらはその代わりに、説明及び理解のために使用される。類似の参照記号は、これらの図面を通して、同様の要素を示す。
【図面の簡単な説明】
【0041】
図1図1は、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理する方法の、実施形態のフローチャートである。
図2図2は、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理する方法の、さらなる実施形態のフローチャートである。
図3図3は、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理する方法の、さらに別の実施形態のフローチャートである。
図4a-4b】図4a及び図4bは、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理する方法の、さらに別の実施形態のフローチャートである。
図5図5は、畳み込みニューラルネットワークのレイヤの処理に関する画像の複数のピクセルの模式図である。
図6図6は、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理するためのデバイスの、実施形態の模式的なブロック図である。
図7図7は、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理するためのデバイスの、実施形態の模式的なブロック図である。
図8図8は、シーンを表す画像データを撮像し、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理するためのシステムの、実施形態の模式的なブロック図である。
図9図9は、シーンを表す画像データを撮像して処理するためのシステムの、実施形態の模式的なブロック図である。
【発明を実施するための形態】
【0042】
本発明を、添付図面を参照して以下に更に詳細に説明する。ここでは、本発明の現在の好適な実施形態を示す。この発明はしかし、多くの異なる形態で具現化することができ、本明細書で述べられる実施形態に限定されるものと解釈されるべきではない。それどころか、これらの実施形態は、完璧性及び完全性のために提供され、本発明の範囲を当業者に届ける。
【0043】
図1は、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理する方法100の、実施形態のフローチャートである。例えば、シーンを表す画像データが、高解像度画像又はパノラマ画像に関するのであれば、大量のデータを、畳み込みニューラルネットワークのレイヤを通して処理する必要がある。したがって、計算量が大きくなることとなる。画像データはしたがって、シーンの2つ又はそれ以上の部位のそれぞれ1つを表す2つ又はそれ以上の部位に分割されてよい。これらは、2つ又はそれ以上の回路のそれぞれ1つを用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、2つ又はそれ以上の出力を形成するS110。したがって、画像データのこれらの2つ又はそれ以上の部位は、畳み込みニューラルネットワークの第1の数のレイヤを通して並行して処理されてよい。したがって、処理するための合計時間が減ることとなる。回路は、回路の配列、又は、回路のシステムである。これは例えば、チップ上に配置されてよい。これらはさらに、処理することを行うためのソフトウェアを含んでよい。又は、これらはさもなければ、処理することを行うためのソフトウェアと共に配置されてよい。
【0044】
しかし、画像データが、シーンの2つ又はそれ以上の部位を表す画像データの2つ又はそれ以上の部位に分割されると、いくつかの物体が、そのシーンにおいて、そのシーンの2つ又はそれ以上の部位のそのシーンの2つの部位の間の境界線に生じることとなる。これらがしたがって、画像データにおいて、画像データの2つ又はそれ以上の部位の画像データの2つの部位の間の境界線にて表されることとなる。したがって、畳み込みニューラルネットワークの内在するプロパティにより、画像データの2つ又はそれ以上の部位のそれぞれは、シーンの2つ又はそれ以上の部位の、シーンの隣り合う部位のそれぞれの重複する部分を表す画像データを含み、そのシーンの2つ又はそれ以上の部位のそのシーンの2つの部位の間の境界線に生じる、そのシーンにおける物体に関する特徴もまた識別可能とする必要がある。したがって、シーンの2つ又はそれ以上の部位は、それらが部分的に重複するように配置されている。シーンの2つ又はそれ以上の部位が部分的に重複するサイズと、畳み込みニューラルネットワークの第1の数のレイヤとは、相互に依存する。重複のサイズが大きければ大きいほど、第1の数のレイヤは増えてよい。処理される第1の数のレイヤが増えれば増えるほど、重複のサイズを大きくする必要がある。したがって、所与の第1の数のレイヤを通して処理することが可能でなければならない場合、シーンの2つ又はそれ以上の部位が部分的に重複するサイズは、そのように処理することを含むために十分大きく選択される必要がある。シーンの2つ又はそれ以上の部位が部分的に重複するサイズは典型的には、画像データの2つ又はそれ以上の部位が部分的に重複するために必要な、必要とされる複数のピクセルを、畳み込みニューラルネットワークの第1の数のレイヤを通して処理することを含むために、もたらすよう決定される。シーンの2つ又はそれ以上の部位が部分的に重複する必要があるサイズに影響する、畳み込みニューラルネットワークの第1の数のレイヤのプロパティは、畳み込みニューラルネットワークの第1の数のレイヤの各レイヤにおける畳み込みのフィルタサイズとストライドである。反対に、シーンの2つ又はそれ以上の部位が部分的に重複する所与のサイズについて、畳み込みニューラルネットワークの各レイヤにおける畳み込みのフィルタサイズとストライドとは、処理されてよい第1の数のレイヤを規定することとなる。
【0045】
シーンの部位の間の部分的な重複は、画像データの部位の間のピクセルの重複に対応することとなる。画像データの2つの部位のために単一のイメージセンサが使用される場合、画像データの2つの部位の間の重複するピクセルは、同じピクセルであってよい。代替的に、重複するピクセルは、2つの異なるイメージセンサから撮像され、それらの重複するピクセルが、画像データの2つの部位に対して同じではないが、シーンの同じ部分を表すようになっていてよい。1つのレイヤにおける畳み込みのフィルタサイズが、畳み込みニューラルネットワークの複数のレイヤの処理に必要な複数のピクセルの重複にどのように影響するかを示すために、図5を参照する。これは、第1のレイヤ510と、第2のレイヤ520と、第3のレイヤ530と、の模式図である。これらはそれぞれ、畳み込みニューラルネットワークの複数のレイヤの処理に関する、1つの画像の5×5ピクセルのサブセットに関する。第2のレイヤ520と第3のレイヤ530とのそれぞれにおける畳み込みは、3×3である。これは、これらのレイヤにおける特徴が、3×3ピクセルのデータを局所的に有することを意味する。1つのレイヤにおいて1つの「ピクセル」を作成するために、前のレイヤでは、3×3のピクセルが必要とされる。図5では、これは、グリッドパターンを用いて示す、第1のレイヤ510において3×3のピクセルを必要とする、グリッドパターンを用いて示す、第2のレイヤ520における1つのピクセルにより示される。同様に、ストライプ状のパターンを用いて示す、第3のレイヤ530における1つのピクセルは、ストライプ状のパターンとグリッドパターンとを持つ、第2のレイヤ520における3×3のピクセルを必要とする。また、図5に示すように、ストライプ状のパターンを用いて示す、第3のレイヤ530におけるピクセルは、ストライプ状のパターンとグリッドパターンとを用いて示す、第1のレイヤ510における5×5のピクセルを必要とする。したがって、画像が2つ又はそれ以上の部位に分割され、2つ又はそれ以上の部位の2つの隣り合う部位の間の境界線が、第1のレイヤ510と、第2のレイヤ520と、第3のレイヤ530と、におけるピクセルの第2及び第3のカラムの間の垂直線540に対応する画像において垂直であれば、ピクセルの1つの追加的なカラムは、2つの隣り合う部位のそれぞれに対して、第2のレイヤ520を通して、第3のレイヤ530のピクセルを、垂直線540に対応する境界線にて作成するために、処理されなければならない。さらに、ピクセルの2つの追加的なカラムは、2つの隣り合う部位のそれぞれに対して、第2のレイヤ520を通して、第3のレイヤ530のピクセルを、垂直線540に対応する境界線にて作成するために、処理されなければならない。第1のレイヤ510において必要とされるピクセルの追加的なカラムの数は、第2のレイヤ520と第3のレイヤ530とにおける畳み込みのフィルタサイズに基づく。この場合、追加的なカラムの数は、(3-1)/2+(3-1)/2である。1つのレイヤにおけるN×Nの畳み込みのために、前のレイヤから必要とされる追加的なカラムの数は、ピクセルを、そのレイヤにおける境界線にて作成するために、(N-1)/2となる。さらに、1つのレイヤのストライド、つまり、次のレイヤに対するピクセルを生成する際にN×Nのフィルタがそのレイヤにおいて移動するピクセルの数がまた、そのレイヤにおいて、ピクセルを、その次のレイヤにおける境界線にて作成するために必要とされる追加的なカラムの数に影響する。図5では、ストライドは、第1のレイヤ510と第2のレイヤ520との双方に対して1である。N×Nの畳み込みを持つ1つのレイヤにおいてストライドが2であれば、そのレイヤに関して、ピクセルを、次のレイヤにおける境界線にて作成するために必要とされる追加的なカラムの数は、((N-1)/2)×2となる。
【0046】
画像データの一部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理するために、画像データの隣り合う部位に必要な重複がまた、画像データの隣り合う部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理するために、画像データのその部位に必要とされることに留意されたい。したがって、画像データの2つ又はそれ以上の部位の2つの隣り合う部位の間の追加的なピクセルの数は、1つの部位に対する追加的なピクセルの数の2倍である。さらに、画像データのそこにある部位数が多ければ多いほど、そこにある部位の間の境界線数が増える。したがって、より多くの追加的なピクセルが必要とされる。しかし、必要とされる追加的なピクセルの数は、境界線の長さに依存する。したがって、分割は好ましくは、境界線ができるだけ短くなるように行われるべきである。例えば、パノラマ画像などの、その高さよりも横に広い画像は好ましくは、部位の間の垂直な境界線の幅で分割される。
【0047】
画像データを、畳み込みニューラルネットワークの第1の数のレイヤを通して処理することを、画像データの2つ又はそれ以上の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して、2つ又はそれ以上の回路のそれぞれ1つにおいて、別々に処理することに分割することは、処理の一部位を並行して行うことを可能にする。これは、合計処理時間を減らす。一般的に、画像データが分割され、畳み込みニューラルネットワークの第1の数のレイヤを通して、各別個の回路において処理される部位が多ければ多いほど、合計処理時間は多く減る。しかし、重複を必要とする部位のサイズは、畳み込みニューラルネットワークの第1の数のレイヤのプロパティに依存するため、このサイズは、画像データが分割される部位の数に関わらず、同じとなる。したがって、2つの異なる回路において処理されることとなる画像データの部位は、画像データが分割される部位の数と共に増えることとなる。したがって、画像データが分割される部位の数が増えれば増えるほど、処理時間の減少は、顕著ではなくなることとなる。
【0048】
2つの異なる回路により、畳み込みニューラルネットワークの第1の数のレイヤを通して処理される必要がある画像データの量は、重複のサイズ(幅)と重複の長さにより決定され、必要とされる重複のサイズ(幅)は、第1の数のレイヤにより与えられるため、画像データの2つ又はそれ以上の部位への画像データの分割は好ましくは、重複ができるだけ短くなるように行われる。例えば、パノラマ画像などの、その高さよりも横に広い画像について、分割は好ましくは、画像データの2つ又はそれ以上の部位が、シーンの2つ又はそれ以上の垂直部位のそれぞれ1つを表すように垂直に行われる。ここでは、垂直部位は、隣り合う垂直部位の間の垂直な境界線にて重複する。
【0049】
シーンを表す1つの画像が、第1の数のレイヤを通して処理される場合、シーンの2つ又はそれ以上の部位の間の部分的な重複は、画像の画像データの2つ又はそれ以上の部位の間の部分的な重複に対応する。シーンの2つ又はそれ以上の部位を表す画像データの2つ又はそれ以上の部位の間に必要とされる部分的な重複のサイズは、各レイヤのフィルタサイズとストライドと共に、レイヤの数に依存する。したがって、各レイヤのフィルタサイズとストライドとを考えると、必要とされる部分的な重複のサイズは、レイヤの数に依存することとなる。したがって、重複が大きく行われると、並行して処理することができるレイヤの数、つまり、第1の数のレイヤを、多くすることができる。これに対し、画像データの2つ又はそれ以上の部位の間の重複が大きいと、これは、2つの回路による、同じ画像データの処理量が大きくなることとなる。画像データの2つ又はそれ以上の部位を、第1の数のレイヤのすべてを通して、2つ又はそれ以上の回路において別々に処理することの代わりに、代替的なアプローチを使用できる。代替的なアプローチでは、画像データの2つ又はそれ以上の部位は、部分的な重複が減らされた状態で、第1の数のレイヤのサブセットを通して、2つ又はそれ以上の回路のそれぞれ1つにおいて処理される。この後、2つ又はそれ以上の回路のそれぞれにおいて処理することからもたらされたデータであって、第1の数のレイヤの続くサブセットを通して、2つ又はそれ以上の回路の他のものにおいて処理するために必要とされるデータが、2つ又はそれ以上の回路のその他のものに提供される。つまり、必要な重複画像データが、回路の間でコピーされる。これは、第1の数のレイヤのすべてを通して処理することが行われるまで繰り返される。このアプローチでは、冗長に処理することが減る。なぜなら、初期の重複を、画像データの2つ又はそれ以上の部位を、第1の数のレイヤのすべてを通して、2つ又はそれ以上の回路において別々に処理するために必要とされるものよりも小さくできるからである。しかし、初期の重複が小さければ小さいほど、第1の数のレイヤのたくさんのサブセットが、2つ又はそれ以上の回路の間のデータの中間交換をもって処理される必要がある。
【0050】
画像データの2つ又はそれ以上の部位は、シーンの1つの画像の画像データに関連してよい。この画像は、1つのイメージセンサにより撮像されてよい。又は、この画像は、1つを超えるイメージセンサにより撮像された画像を組み合わせることにより作成されてよい。その場合には、画像データは、2つ又はそれ以上の部位に分割されてよい。ここでは、画像データの2つ又はそれ以上の部位のそれぞれは、画像データの隣り合う部位と部分的に重複する。つまり、これらは、重複に対応する画像データの隣り合う部位と同じ画像データの一部位を含む。この重複は続いて、画像データの2つ又はそれ以上の部位が表す、シーンの2つ又はそれ以上の部位の間の重複に対応する。
【0051】
代替的に、画像データの2つ又はそれ以上の部位は、2つ又はそれ以上のイメージセンサにより撮像された2つ又はそれ以上の画像のそれぞれ1つからの画像データに関連してよい。ここでは、2つ又はそれ以上のイメージセンサは、シーンの2つ又はそれ以上の部位のそれぞれ1つを撮像する。ここでは、シーンの2つ又はそれ以上の部位は、部分的に重複する。そのような場合では、画像データの2つ又はそれ以上の部位は、重複に対応する画像データの隣り合う部位と同じ画像データの一部位を含まないこととなる。なぜなら、その重複に対する画像データは、画像データの異なる部位に対して、異なるイメージセンサにより撮像されているからである。しかし、イメージセンサが較正されていれば、重複に対応する画像データの部位は、ノイズを除いて同様となる。第1の数のレイヤを通して処理するための2つ又はそれ以上のイメージセンサからの直接的な画像データを使用することにより、2つ又はそれ以上のイメージセンサにより撮像された画像データを、2つ又はそれ以上の回路の間にて、第1の数のレイヤを通して処理することの前に交換することに対する必要性はなくなる。
【0052】
さらに、組み合わせもまた実現可能である。そのような場合では、画像データの2つ又はそれ以上の部位の少なくとも2つは、少なくとも2つのイメージセンサのそれぞれ1つにより撮像された画像データに関連する。画像データの2つ又はそれ以上の部位の少なくとも2つは、1つのイメージセンサにより撮像された画像データに関連する。例えば、画像データの3つの部位について、それらの部位の1つは、1つのイメージセンサに関連してよく、それらの部位の2つは、異なるイメージセンサに関連してよい。
【0053】
画像データの2つ又はそれ以上の部位が、2つ又はそれ以上の回路のそれぞれ1つを通して、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、2つ又はそれ以上の出力を形成する場合S130、2つ又はそれ以上の出力は組み合わせられ、組み合わせ出力を形成するS120。2つ又はそれ以上の出力の組み合わせは、2つの出力を共につなぎ合わせ、重複に関するデータを作り出すことにより行われてよい。組み合わせ出力は続いて、畳み込みニューラルネットワークの第2の数のレイヤを通して、2つ又はそれ以上の回路のうちの1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理されるS130。画像データの2つ又はそれ以上の部位の1つを、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、また、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して処理するために使用された2つ又はそれ以上の回路のうちの1つを使用することは、必要な回路の合計数が、画像データの部位の数と同じであることを意味する。2つ又はそれ以上の回路のうちの1つは続いて、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して処理する時間の間使用中である一方で、2つ又はそれ以上の回路の他の回路は、そうではない。その時間の間、1つ又はそれ以上のさらなる画像に関する画像データの2つ又はそれ以上の部位のそれぞれ1つ、例えば、ビデオストリームの次の1つ又はそれ以上の画像フレームを新たに処理することは、組み合わせ出力を処理していない、2つ又はそれ以上の回路の回路により開始されてよい。組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して処理することに使用される2つ又はそれ以上の回路の回路は、異なる画像フレームの間、例えば、ビデオストリームの異なる画像フレームの間で交互となり、2つ又はそれ以上の回路の間の、バランスのとれた負荷を達成してよい。その代わりに、回路の合計数が、画像データの部位の数よりも大きいのであれば、画像データの2つ又はそれ以上の部位のそれぞれ1つを、畳み込みニューラルネットワークの第1の数のレイヤを通して処理するために使用された、2つ又はそれ以上の回路の回路以外の回路が使用され、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して処理してよい。その場合には、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して処理するために使用された回路以外の回路は、直接的に使用され、別の画像に関する画像データの2つ又はそれ以上の部位、例えば、ビデオストリームの次の画像フレームを処理することを開始してよい。これは、2つ又はそれ以上の回路の間のバランスのとれた負荷に対する必要性を減らすこととなるが、その一方で、少なくとも1つのさらなる回路が必要とされる。
【0054】
図2は、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理する方法200の、さらなる実施形態のフローチャートである。具体的には、図2は、画像データの2つの部位があり、処理することは、2つの回路のそれぞれ1つにおいて行われる実施形態に関する。シーンの第1の部位を表す画像データの第1の部位が、第1の回路を用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、第1の出力を形成するS210。シーンの第2の部位を表す画像データの第2の部位が、第2の回路を用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、第2の出力を形成するS215。シーンの第1及び第2の部位は、部分的に重複する。第1及び第2の出力が続いて組み合わせられ、組み合わせ出力を形成するS220。2つ又はそれ以上の出力の組み合わせは、2つの出力を共につなぎ合わせ、重複に関するデータを作り出すことにより行われてよい。組み合わせ出力は、畳み込みニューラルネットワークの第2の数のレイヤを通して、第1の回路と第2の回路とのうちの1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理されるS230。組み合わせ出力は代替的に、畳み込みニューラルネットワークの第2の数のレイヤを通して、第1の回路及び第2の回路とは異なるさらなる回路を用いて処理されてよいS230。
【0055】
例えば、ビデオストリームの画像フレームが、第1の回路と第2の回路とにより、畳み込みニューラルネットワークの第1及び第2の数のレイヤを通して処理されるのであれば、第1の回路は、第1の画像フレームに関する画像データの第1の部位を、第1の数のレイヤを通して処理してよく、第2の回路は、第1の画像フレームに関する画像データの第2の部位を、第1の数のレイヤを通して処理してよい。第1の回路は続いて、組み合わせ出力を第2の数のレイヤを通して処理するために使用されてよい。第1の回路が、第1のフレームに関する組み合わせ出力を、第2の数のレイヤを通して処理することを完了すると、これは、第2の画像フレームに関する画像データの第1の部位を、第1の数のレイヤを通して処理することを開始してよい。第1の回路を用いて、組み合わせ出力を、第2の数のレイヤを通して処理することと、第2の画像フレームに関する画像データの第1の部位を、画像データの第1の部位を通して処理することと、に並行して、第2の回路は、第2の画像フレームに関する画像データの第2の部位を、第1の数のレイヤを通して処理することに使用されてよい。第1の回路に対する、組み合わせ出力を、第2の数のレイヤを通して処理する処理時間と、第2の画像フレームに関する画像データの第1の部位を処理することと、に依存して、第2の回路は、第3の画像フレームなどに関する画像データの第1の部位を処理することに、並行して続けて使用されてよい。第1の回路が、第1の画像フレームに関する組み合わせ出力を、第2の数のレイヤを通して処理することと、第2の画像フレームに関する画像データの第1の部位を処理することと、を完了すると、第2の回路は、第2の画像フレームに関する組み合わせ出力を、第2の数のレイヤを通して処理することを開始してよい。第2の回路が、第2のフレームに関する組み合わせ出力を、第2の数のレイヤを通して処理することを完了すると、これは、第3の画像フレームに関する画像データの第2の部位を、第1の数のレイヤを通して処理することを開始してよい。第1の回路と第2の回路との回路は続いて、画像フレームの間で交互となり、バランスのとれた負荷を達成してよい。
【0056】
各画像フレームに関する画像データの第1の部位と第2の部位とのサイズはまた、異なってよい。例えば、第1のフレームに関する画像データの第1の部位は、第1のフレームに関する画像データの第2の部位よりも小さくともよい。例えばこれは、第1の部位を第1の数のレイヤを通して処理する第1の回路がまた、第1の画像フレームに関する組み合わせ出力を第2の数のレイヤを通して処理する場合、そのサイズの半分であってよい。第2のフレームに関する画像データの第1の部位は続いて、第2のフレームに関する画像データの第2の部位よりも大きくともよい。例えばこれは、第2の部位を第1の数のレイヤを通して処理する第2の回路がまた、第2の画像フレームに関する組み合わせ出力を第2の数のレイヤを通して処理する場合、そのサイズの2倍であってよい。これは、並行して処理される必要がある画像フレームの数を減らし得る。
【0057】
その代わりに、第1の回路及び第2の回路に加えて、1つ又はそれ以上のさらなる回路がある場合、1つ又はそれ以上のさらなる回路のうちの1つを、組み合わせ出力を畳み込みニューラルネットワークの第2の数のレイヤを通して処理するために使用できる。その場合には、第1の回路と第2の回路とは、第2の画像フレームに関する画像データの第1の部位と、第2の画像フレームに関する画像データの第2の部位と、をそれぞれ処理するために直接的に使用されてよい。これは、画像フレームにわたる、2つ又はそれ以上の回路の間のバランスのとれた負荷に対する必要性を減らすこととなるが、その一方で、少なくとも1つ又はそれ以上のさらなる回路が必要とされる。1つ又はそれ以上のさらなる回路の数は、画像データの一部位を、第1の数のレイヤを通して処理するための処理時間と、組み合わせ出力を、第2の数のレイヤを通して処理するための処理時間と、に依存して選択されてよい。例えば、第1の数のレイヤに対する処理時間が、第2の数のレイヤに対する処理時間の半分であれば、2つのさらなる回路を、組み合わせ出力を第2の数のレイヤを通して処理することのために交互に使用することは、第1の回路と第2の回路に関して、負荷のバランスをとることとなる。
【0058】
画像データの第1の部位と画像データの第2の部位とは、シーンの1つの画像の画像データに関連してよい。この画像は、1つのイメージセンサにより撮像されてよい。又は、この画像は、1つを超えるイメージセンサにより撮像された画像を組み合わせることにより作成されてよい。その場合には、画像データの第1の部位の画像データのいくつかは、画像データの第2の部位の画像データのいくつかと同じになることとなる。つまりこれは、シーンの第1の部位とシーンの第2の部位との間の部分的な重複を表す画像データとなる。
【0059】
代替的に、画像データの第1の部位は、第1のイメージセンサにより撮像された画像データであってよい。画像データの第2の部位は、第2のイメージセンサにより撮像された画像データであってよい。換言すると、第1のイメージセンサは、シーンの第1の部位を撮像する。第2のイメージセンサは、シーンの第2の部位を撮像する。シーンの第1の部位とシーンの第2の部位とは、部分的に重複する。そのような場合では、画像データの第1の部位と画像データの第2の部位とは、シーンの第1の部位とシーンの第2の部位との間の部分的な重複を表す画像データと同一のいくつかのデータを含まないこととなる。なぜなら、この重複を表す画像データは、画像データの第1の部位と画像データの第2の部位とに対して異なるセンサにより撮像されているからである。しかし、第1のイメージセンサと第2のイメージセンサとが較正されていれば、重複に対応する画像データは、画像データの第1の部位と画像データの第2の部位とに対して、ノイズを除いて同様となる。第1のイメージセンサと第2のイメージセンサとからの画像データは、画像データの第1の部位と画像データの第2の部位とのそれぞれとして使用されてよく、直接的に、第1の数のレイヤを通して、第1の回路と第2の回路とをそれぞれ用いて、それらをまず組み合わせて1つの画像を形成することなく、処理されてよい。第1のイメージセンサと第2のイメージセンサからの直接的な画像データを、時間画像データの第1の部位と画像データの第2の部位としてそれぞれ使用することにより、第1のイメージセンサと第2のイメージセンサとにより撮像された画像データを、第1の回路と第2の回路との間で、第1の数のレイヤを通して処理することの前に交換することに対する必要性はなくなる。
【0060】
例えば、シーンを表す元の画像が、8192×2048ピクセルのサイズ(解像度)を有し、2048×512ピクセルのサイズ(解像度)の、シーンを表す画像が、MobileNet-SSDなどの、畳み込みニューラルネットワークの複数のレイヤを通して処理されるべきなのであれば、元の画像はまず、ファクター4を用いてダウンスケールされなければならない。さらに、処理される画像の画像データの2つの部位が、第1の数のレイヤを通して処理されるべきであり、第1の数のレイヤが48であれば、画像データの2つの部位のそれぞれは、148ピクセル(元の画像の解像度に関して592ピクセル)にて、他の部位に重複する必要がある。したがって、画像の幅による、2つの同じサイズの部位への分割のために、画像データの各部位の重複を含む合計サイズが続いて、1172×512ピクセルとならなければならない。この重複により、48のレイヤを通して、画像データの2つの部位を、2つの回路のそれぞれ1つにおいて処理することは、完全な画像が、48のレイヤを通して、1つの回路において処理されるであろう場合に必要とされるものよりも多くの計算を必要とする。しかし、処理することを並行して2つの回路において行うことができるため、合計時間が依然として減少する。
【0061】
図3は、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理する方法300の、さらに別の実施形態のフローチャートである。具体的には、図3は、画像データの4つの部位があり、処理することは、4つの回路のそれぞれ1つにおいて行われる実施形態に関する。シーンの第1の部位を表す画像データの第1の部位が、第1の回路を用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、第1の出力を形成するS310。シーンの第2の部位を表す画像データの第2の部位が、第2の回路を用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、第2の出力を形成するS312。ここでは、シーンの第1及び第2の部位は、部分的に重複する。シーンの第3の部位を表す画像データの第3の部位が、第3の回路を用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、第3の出力を形成するS314。ここでは、シーンの第2及び第3の部位は、部分的に重複する。シーンの第4の部位を表す画像データの第4の部位が、第4の回路を用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、第4の出力を形成するS316。ここでは、シーンの第3及び第4の部位は、部分的に重複する。画像データの第1及び第2の部位を処理することからの第1、第2、第3、及び第4の出力が組み合わせられ、組み合わせ出力を形成するS320。組み合わせ出力は、畳み込みニューラルネットワークの第2の数のレイヤを通して、第1、第2、第3、及び第4の回路のうちの1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理されるS330。
【0062】
4つの回路を使用して、4つの部位に分割された画像データを処理することにより、各回路に対する計算数が、2つの回路を使用して、2つの部位に分割された画像データを処理することに関して、減らされる。しかし、画像データの4つの部位は、部分的に重複する、シーンの4つの部位を表すため、4つの回路を使用することを通しての画像データの4つの部位を処理するための計算数は、2つの回路を使用しての画像データの2つの部位を処理するための計算数の半分ではない。
【0063】
画像データの第1、第2、第3、及び第4の部位は、シーンの1つの画像の画像データに関連してよい。この画像は、画像データの2つの部位に関して、図2に関して説明したものと類似して、1つのイメージセンサにより撮像されてよい、又は、1つを超えるイメージセンサにより撮像された画像を1つの画像に組み合わせることにより作成されてよい。
【0064】
代替的に、画像データの2つの部位に関して、図2に関して説明したものと類似して説明したように、画像データの第1、第2、第3、及び第4の部位は、第1、第2、第3、及び第4のイメージセンサのそれぞれ1つにより撮像された画像データであってよい。この代替例では、第1、第2、第3、及び第4のイメージセンサのそれぞれ1つにより撮像された画像データは、1つの画像にまず組み合わせられ、続いて、画像データの複数の部位に分割される必要はないが、画像データの第1、第2、第3、及び第4の部位のそれぞれ1つとして直接的に使用されてよい。したがって、第1、第2、第3、及び第4のイメージセンサにより撮像された画像データを、第1、第2、第3、及び第4の回路の間で、第1の数のレイヤを通して処理することの前に交換することに対する必要性はなくなる。
【0065】
図4a及び図4bは、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理する方法400の、さらに別の実施形態のフローチャートである。具体的には、図4a及び図4bは、画像データの4つの部位があり、処理することはまず4つの回路のそれぞれ1つを用いて、続いて4つの回路のうちの2つのそれぞれ1つにおいて行われる実施形態に関連する。シーンの第1の部位を表す画像データの第1の部位が、第1の回路を用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、第1の中間出力を形成するS410。シーンの第2の部位を表す画像データの第2の部位が、第2の回路を用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、第2の中間出力を形成するS411。ここでは、シーンの第1及び第2の部位は、部分的に重複する。画像データの第1及び第2の部位を処理することからの第1及び第2の中間出力が組み合わせられ、第1の中間組み合わせ出力を形成するS412。シーンの第3の部位を表す画像データの第3の部位が、第3の回路を用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、第3の中間出力を形成するS413。ここでは、シーンの第2及び第3の部位は、部分的に重複する。シーンの第4の部位を表す画像データの第4の部位が、第4の回路を用いて、畳み込みニューラルネットワークの第1の数のレイヤを通して処理され、第4の中間出力を形成するS413。ここでは、シーンの第3及び第4の部位は、部分的に重複する。画像データの第3及び第4の部位を処理することからの第3及び第4の中間出力が組み合わせられ、第2の中間組み合わせ出力を形成するS415。第1の中間組み合わせ出力が、第1、第2、第3、及び第4の回路のうちの1つを用いて、畳み込みニューラルネットワークの第3の数のレイヤ(図4a及び図4bに関して「中間の数のレイヤ」と呼ぶ)を通して処理され、第1の出力を形成するS416。第2の中間組み合わせ出力が、第1、第2、第3、及び第4の回路のうちの異なる1つを用いて、畳み込みニューラルネットワークの中間の数のレイヤを通して処理され、第2の出力を形成するS417。第1及び第2の出力が組み合わせられ、組み合わせ出力を形成するS420。組み合わせ出力は、畳み込みニューラルネットワークの第2の数のレイヤ(図4a及び図4bに関して「最後の数のレイヤ」と呼ぶ)を通して、第1、第2、第3、及び第4の回路のうちの1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理されるS430。
【0066】
畳み込みニューラルネットワークの所与の第1の数のレイヤと、中間の数のレイヤと、について、シーンの第1及び第2の部位と、シーンの第3及び第4の部位とは、サイズ毎に部分的に重複し、第1の数のレイヤを処理することが含まれるようにする必要がある。シーンの第2及び第3の部位は、サイズ毎に部分的に重複し、第1の数のレイヤを処理することと、中間の数のレイヤを処理することと、が含まれるようにする必要がある。具体的には、シーンの第1及び第2の部位と、シーンの第3及び第4の部位と、が部分的に重複する必要があるサイズは、畳み込みニューラルネットワークの第1の数のレイヤにおける各畳み込みのフィルタサイズとストライドとに基づく。シーンの第2及び第3の部位が部分的に重複する必要があるサイズは、畳み込みニューラルネットワークの第1の数のレイヤにおける各畳み込みのフィルタサイズとストライドと、畳み込みニューラルネットワークの中間の数のレイヤにおける各畳み込みのフィルタサイズとストライドと、に基づく。
【0067】
代替的に、シーンの第1及び第2の部位と、シーンの第2及び第3の部位と、シーンの第3及び第4の部位と、が部分的に重複する所与のサイズについて、第1の数のレイヤを処理することが含まれ、中間の数のレイヤを処理することが含まれる。具体的には、含まれる第1の数のレイヤと中間の数のレイヤとは、畳み込みニューラルネットワークの第1の数のレイヤと、畳み込みニューラルネットワークの中間の数のレイヤと、の各畳み込みのフィルタサイズとストライドとに基づく。
【0068】
画像データの第1、第2、第3、及び第4の部位は、シーンの1つの画像の画像データに関連してよい。この画像は、画像データの2つの部位に関して、図2に関して説明したものと類似して、1つのイメージセンサにより撮像されてよい、又は、1つを超えるイメージセンサにより撮像された画像を1つの画像に組み合わせることにより作成されてよい。
【0069】
代替的に、画像データの2つの部位に関して、図2に関して説明したものと類似して説明したように、画像データの第1、第2、第3、及び第4の部位は、第1、第2、第3、及び第4のイメージセンサのそれぞれ1つにより撮像された画像データであってよい。この代替例では、第1、第2、第3、及び第4のイメージセンサのそれぞれ1つにより撮像された画像データは、1つの画像にまず組み合わせられ、続いて、画像データの複数の部位に分割される必要はないが、画像データの第1、第2、第3、及び第4の部位のそれぞれ1つとして直接的に使用されてよい。したがって、第1、第2、第3、及び第4のイメージセンサにより撮像された画像データを、第1、第2、第3、及び第4の回路の間で、第1の数のレイヤを通して処理することの前に交換することに対する必要性はなくなる。追加的に、2つの組み合わせられた中間出力が、4つの回路のそれぞれを用いて、畳み込みニューラルネットワークの中間の数のレイヤを通して処理されるため、シーンの第2及び第3の部位は、第1及び第2の部位よりも多く重複しており、第3及び第4の部位よりも多く重複している。
【0070】
図6は、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理するためのデバイス500の実施形態の模式的なブロック図である。デバイス600は、2つ又はそれ以上の回路610を含む。2つ又はそれ以上の回路610は、第1の処理機能661を実行するよう構成されている。第1の処理機能661は、2つ又はそれ以上の回路610のそれぞれ1つを用いて、シーンの2つ又はそれ以上の部位のそれぞれ1つを表す画像データの2つ又はそれ以上の部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、2つ又はそれ以上の出力を形成するよう構成されている。ここでは、シーンの2つ又はそれ以上の部位は、部分的に重複する。2つ又はそれ以上の回路610はさらに、組み合わせ機能663と、第2の処理機能665と、を実行するよう構成されている。組み合わせ機能663は、2つ又はそれ以上の出力を組み合わせ、組み合わせ出力を形成するよう構成されている。第2の処理機能665は、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して、2つ又はそれ以上の回路610の1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理するよう構成されている。それを用いて、組み合わせ出力が、畳み込みニューラルネットワークの第2の数のレイヤを通して処理される、2つ又はそれ以上の回路610の1つの回路は、それを用いて、表している画像データの2つ又はそれ以上の部位の1つが、畳み込みニューラルネットワークの第1の数のレイヤを通して処理される、2つ又はそれ以上の回路の回路であってよいし、又は、そうでなくともよい。前者の場合では、回路の数が、畳み込みニューラルネットワークの第1の数のレイヤを通して処理されるべき画像データの部位の数と同数である必要があるのみである。なぜなら、ニューラルネットワークの第2の数のレイヤは、第1の数のレイヤを処理することのために使用される回路のうちの1つを用いて処理されるからである。後者の場合では、第1の数のレイヤを通して処理されるべき画像データの部位の数よりもさらに1つ多い回路が必要とされる。なぜなら、第2の数のレイヤは、画像データの部位の1つを、第1の数のレイヤを通して処理していない回路により処理されるべきだからである。
【0071】
画像データは、1つのイメージセンサにより撮像された画像データであってよい。代替的に、画像データは、少なくとも2つのイメージセンサにより撮像された画像データであってよい。
【0072】
2つ又はそれ以上の回路610は、デバイス600の機能を実施するよう構成されている。2つ又はそれ以上の回路610はそれぞれ、中央処理ユニット(CPU)、マイクロコントローラ、又はマイクロプロセッサなどのプロセッサ(図示せず)を含んでよい。プロセッサは、プログラムコード、例えば、デバイス600の機能を実施するよう構成されているプログラムコードを実行するよう構成されている。
【0073】
デバイス600はさらに、メモリ650を含んでよい。メモリ650は、バッファ、フラッシュメモリ、ハードドライブ、リムーバブルメディア、揮発性のメモリ、不揮発性のメモリ、ランダムアクセスメモリ(RAM)、又は別の適したデバイスの1つ又はそれ以上であってよい。典型的な配置では、メモリ650は、データを長期間にわたって保存するための不揮発性のメモリと、2つ又はそれ以上の回路610のためのシステムメモリとして機能する揮発性のメモリと、を含んでよい。メモリ650は、2つ又はそれ以上の回路610と、データバスを介してデータを交換してよい。メモリ650と2つ又はそれ以上の回路610との間にはまた、付随する制御ラインと、アドレスバスと、があってよい。
【0074】
デバイス600の機能は、デバイス600の非一時的コンピュータ可読媒体(例えば、メモリ650)上に保存されており、2つ又はそれ以上の回路610により(例えば、プロセッサを使用して)実行される、実行可能なロジックルーチン(例えば、コードの各行や、ソフトウェアプログラム)の形態にて具現化されてよい。さらに、デバイス600の機能は、スタンドアローン型のソフトウェアアプリケーションであってよい、又は、デバイス600に関連する追加的タスクを実施するソフトウェアアプリケーションの一部を形成してよい。説明した機能は、2つ又はそれ以上の回路610のプロセッサなどの処理ユニットがそれらを実施するよう構成されている方法とみなしてよい。また、説明した機能がソフトウェアにて実装されてよい一方で、そのような機能は、同様に、専用ハードウェア又はファームウェア、若しくは、ハードウェア、ファームウェア及び/又はソフトウェアのいくつかの組み合わせを介して実施されてよい。
【0075】
デバイス600と回路610とにより実施される機能は、図1に関して説明した方法100と、図2に関して説明した方法200と、図3に関して説明した方法300と、図4a及び図4bに関して説明した方法400と、の対応するステップとしてさらに適合されてよい。
【0076】
図7は、シーンを表す画像データを、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理するためのデバイス700のさらなる実施形態の模式的なブロック図である。具体的には、図6は、4つの回路710、720、730、740がある実施形態に関する。デバイス700は、第1の処理機能761を実行するよう構成されている。第1の処理機能761は、4つの回路710、720、730、740のそれぞれ1つを用いて、4つのイメージセンサのそれぞれ1つにより撮像された、シーンの4つの部位のそれぞれ1つを表す画像データの4つの部位を、畳み込みニューラルネットワークの第1の数のレイヤを通して処理し、4つの中間出力を形成するよう構成されている。ここでは、シーンの4つの部位は、部分的に重複する。第1の処理機能761はさらに、4つの中間出力の2つを、第1の中間組み合わせ出力に組み合わせ、4つの中間出力の残りの2つを、第2の中間組み合わせ出力に組み合わせるよう構成されている。デバイス700はさらに、第3の処理機能764を実行するよう構成されている。第3の処理機能764は、4つの回路710、720、730、740の2つを用いて、第1の中間組み合わせ出力と、第2の中間組み合わせ出力と、のそれぞれ1つを、畳み込みニューラルネットワークの第3の数のレイヤ(図7に関して「中間の数のレイヤ」と呼ぶ)を通して処理し、第1の出力と、第2の出力と、をそれぞれ形成するよう構成されている。デバイス700はさらに、第1の出力と第2の出力とを組み合わせ出力に組み合わせるよう構成されている組み合わせ機能763を実行するよう構成されている。デバイス700はさらに、第2の処理機能665を実行するよう構成されている。第2の処理機能665は、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤ(図7に関して「最後の数のレイヤ」と呼ぶ)を通して、4つの回路710、720、730、740の1つを用いて、そのシーンにおける物体に関する特徴を抽出するために処理するよう構成されている。デバイス700は、4つの回路710、720、730、740に加えて、さらなる回路(図示せず)を含んでよい。第2の処理機能765は続いて、組み合わせ出力を、畳み込みニューラルネットワークの第2の数のレイヤを通して、さらなる回路(図示せず)を用いて、そのシーンにおける物体に関する特徴を抽出するために処理するよう構成されていてよい。
【0077】
画像データの4つの部位は、シーンの1つの画像の画像データに関連してよい。この画像は、画像データの2つの部位に関して、図2に関して説明したものと類似して、1つのイメージセンサにより撮像されてよい、又は、1つを超えるイメージセンサにより撮像された画像を1つの画像に組み合わせることにより作成されてよい。
【0078】
代替的に、画像データの4つの部位は、画像データの2つの部位に関して、図2に関して説明したものと類似して説明したように、4つのイメージセンサのそれぞれ1つにより撮像された画像データであってよい。この代替例では、第1、第2、第3、及び第4のイメージセンサのそれぞれ1つにより撮像された画像データは、1つの画像にまず組み合わせられ、続いて、画像データの複数の部位に分割される必要はないが、画像データの第1、第2、第3、及び第4の部位のそれぞれ1つとして直接的に使用されてよい。したがって、第1、第2、第3、及び第4のイメージセンサにより撮像された画像データを、第1、第2、第3、及び第4の回路の間で、第1の数のレイヤを通して処理することの前に交換することに対する必要性はなくなる。追加的に、2つの組み合わせられた中間出力が、4つの回路のそれぞれを用いて、畳み込みニューラルネットワークの中間の数のレイヤを通して処理されるため、シーンの4つの部位の2つの間の重複は、シーンの4つの部位の部位間の他の重複よりも大きい。
【0079】
シーンの4つの部位はそれぞれ、ワイドシーンの幅の一部位に関連してよい。そのような場合では、シーンの2つの周辺部位と、シーンの2つの中央部位と、が存在することとなる。例えば、図4a及び図4bに関して開示されるように、画像データを、畳み込みニューラルネットワークの第1の数のレイヤを通して、4つの回路710、720、730、740において、続いて、畳み込みニューラルネットワークの第3の数のレイヤを通して、4つの回路710、720、730、740の2つの回路において処理することを可能にするために、シーンの中央部位は、シーンの中央部位のそれぞれ1つと重複するシーンの周辺部位のそれぞれよりも多く重複している。
【0080】
4つの回路710、720、730、740は、デバイス700の機能を実施するよう構成されている。4つの回路710、720、730、740はそれぞれ、中央処理ユニット(CPU)、マイクロコントローラ、又はマイクロプロセッサなどのプロセッサ715、725、735、745を含んでよい。プロセッサは、プログラムコード、例えば、デバイス700の機能を実施するよう構成されているプログラムコードを実行するよう構成されている。
【0081】
デバイス700はさらに、メモリ750を含んでよい。メモリ750は、バッファ、フラッシュメモリ、ハードドライブ、リムーバブルメディア、揮発性のメモリ、不揮発性のメモリ、ランダムアクセスメモリ(RAM)、又は別の適したデバイスの1つ又はそれ以上であってよい。典型的な配置では、メモリ750は、データを長期間にわたって保存するための不揮発性のメモリと、4つの回路710、720、730、740のためのシステムメモリとして機能する揮発性のメモリと、を含んでよい。メモリ750は、4つの回路710、720、730、740と、データバスを介してデータを交換してよい。メモリ750と4つの回路710、720、730、740との間にはまた、付随する制御ラインと、アドレスバスと、があってよい。
【0082】
デバイス700の機能は、デバイス600の非一時的コンピュータ可読媒体(例えば、メモリ750)上に保存されており、4つの回路710、720、730、740により(例えば、プロセッサ715、725、735、745を使用して)実行される、実行可能なロジックルーチン(例えば、コードの各行や、ソフトウェアプログラム)の形態にて具現化されてよい。さらに、デバイス700の機能は、スタンドアローン型のソフトウェアアプリケーションであってよい、又は、デバイス700に関連する追加的タスクを実施するソフトウェアアプリケーションの一部を形成してよい。説明した機能は、4つの回路710、720、730、740のプロセッサ715、725、735、745などの処理ユニットが実施するよう構成されている方法とみなしてよい。また、説明した機能がソフトウェアにて実装されてよい一方で、そのような機能は、同様に、専用ハードウェア又はファームウェア、若しくは、ハードウェア、ファームウェア及び/又はソフトウェアのいくつかの組み合わせを介して実施されてよい。
【0083】
デバイス700と4つの回路710、720、730、740とにより実施される機能は、図3に関して説明した方法300と、図4a及び図4bに関して説明した方法400と、の対応するステップとしてさらに適合されてよい。
【0084】
図8は、シーンを表す画像データを撮像し、そのシーンにおける物体に関する特徴を抽出するために、畳み込みニューラルネットワークを使用して処理するためのシステム800の実施形態の模式的なブロック図である。システム800は、図7に関して説明するようなデバイス700を含む。システムはさらに、シーンを表す画像データを撮像するためのカメラ810を含む。カメラ810は、シーンの第1の部位を表す画像データの第1の部位を撮像するために配置された第1のイメージセンサ821と、シーンの第2の部位を表す画像データの第2の部位を撮像するために配置された第2のイメージセンサ822と、シーンの第3の部位を表す画像データの第3の部位を撮像するために配置された第3のイメージセンサ823と、シーンの第4の部位を表す画像データの第4の部位を撮像するために配置された第4のイメージセンサ824と、を含む。4つのイメージセンサ821、822、823、824は、シーンの第2及び第3の部位が、第1及び第2の部位よりも多く重複しており、第3及び第4の部位よりも多く重複しているように配置されている。例えば、4つのイメージセンサ821、822、823、824は、ワイドシーンの幅の一部位をそれぞれが撮像し、続いて、4つのイメージセンサ821、822、823、824の撮像された画像データを共につなぎ合わせ、パノラマ画像を形成するようそれらを配置することにより、ワイドシーンを撮像するために配置されてよい。そのような配列が、図9に開示される。第1のイメージセンサ821と第4のイメージセンサ827とは、シーンの2つの周辺部位を表す画像データを撮像する。第2のイメージセンサ823と第3のイメージセンサ825とは、シーンの2つの中央部位を表す画像データを撮像する。この配列では、イメージセンサは、各センサからパノラマ画像への、画像データのよりシームレスな組み合わせを可能とするために、イメージセンサにより撮像されたシーンの部位が部分的に重複するように配置されている。例えば、図4a及び図4bに関して開示されるように、画像データを、畳み込みニューラルネットワークの第1の数のレイヤを通して、4つの回路において、続いて、畳み込みニューラルネットワークの第3の数のレイヤを通して、2つの回路において処理することを可能とするために、4つのイメージセンサ821、822、823、824は、シーンの中央部位が、シーンの中央部位のそれぞれ1つと重複するシーンの周辺部位のそれぞれよりも多く重複するように配置されている。換言すると、第2のイメージセンサ823により撮像されたシーンの第2の部位と、第3のイメージセンサ825により撮像されたシーンの第3の部位と、の間の部分的な重複960は、第1のイメージセンサ821により撮像されたシーンの第1の部位と、第2のイメージセンサ823により撮像されたシーンの第2の部位と、の間の部分的な重複950よりも大きく、第3のイメージセンサ825により撮像されたシーンの第3の部位と、第4のイメージセンサ827により撮像されたシーンの第4の部位と、の間の部分的な重複970よりも大きい。第1、第2、第3、及び第4のイメージセンサ821、823、825、827のそれぞれ1つにより撮像された画像データは、1つの画像にまず組み合わせられ、続いて、画像データの複数の部位に分割される必要はないが、画像データの第1、第2、第3、及び第4の部位のそれぞれ1つとして直接的に使用されてよい。したがって、第1、第2、第3、及び第4のイメージセンサにより撮像された画像データを、第1、第2、第3、及び第4の回路の間で、第1の数のレイヤを通して処理することの前に交換することに対する必要性はなくなる。
【0085】
本発明は、上記の実施形態に限定されないことを当業者は理解する。それどころか、特許請求の範囲内での多くの変形及びバリエーションが可能である。そのような変更例及びバリエーションが、特許権を主張する本発明の実施において、本図面、本開示、及び添付の本特許請求の範囲の検討により、当業者により理解され、達成され得る。
図1
図2
図3
図4a
図4b
図5
図6
図7
図8
図9