(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023103355
(43)【公開日】2023-07-26
(54)【発明の名称】情報処理装置、プログラム、及び撮像システム
(51)【国際特許分類】
G06T 7/60 20170101AFI20230719BHJP
G06T 7/00 20170101ALI20230719BHJP
G06V 10/82 20220101ALI20230719BHJP
G06M 7/00 20060101ALI20230719BHJP
【FI】
G06T7/60 110
G06T7/00 350C
G06V10/82
G06M7/00 301Q
【審査請求】有
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2023078274
(22)【出願日】2023-05-11
(62)【分割の表示】P 2019143340の分割
【原出願日】2019-08-02
(71)【出願人】
【識別番号】518445702
【氏名又は名称】FPTジャパンホールディングス株式会社
(71)【出願人】
【識別番号】519283820
【氏名又は名称】ダオ・フウフング
(74)【代理人】
【識別番号】110002789
【氏名又は名称】弁理士法人IPX
(72)【発明者】
【氏名】ダオ・フウフング
(72)【発明者】
【氏名】ファン・チャウフクティン
(57)【要約】 (修正有)
【課題】対象物が任意かつ多数であっても高い認識力を有し、対象物の個数又は画像中における占める割合(密度)を推定可能な情報処理装置等を提供する。
【解決手段】情報処理装置3は、通信部31と、セル分割部、セル群抽出部及び推定部を備える制御部と、を有する。通信部は、複数の対象物を含む画像データを受付け、セル分割部は、画像データを複数のセルに分割し、セル群抽出部は、分割された複数のセルから所望セルと周囲セルとを含むセル群を抽出し、推定部は、セル群に含まれる各セルを、記憶部32に記憶された機械学習アーキテクチャに入力することで、画像データに含まれる対象物の数又は密度を推定する。機械学習アーキテクチャは、セル群に含まれる各セルに対して同一の重み付け行列を畳み込むCNN層と、そこから出力された複数の特徴中間値を順次系列的に処理可能なLSTM(Long short-term memory)層と、を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
情報処理装置であって、受付部と、セル分割部と、セル群抽出部と、推定部とを備え、
前記受付部は、複数の対象物を含む画像データを受付可能に構成され、
前記セル分割部は、前記画像データを複数のセルに分割可能に構成され、
前記セル群抽出部は、当該複数のセルから所望セルと周囲セルとを含むセル群を抽出可能に構成され、ここで、前記所望セルは前記複数のセルのうちの1つで、前記周囲セルは前記所望セルの周囲に位置するセルで、
前記推定部は、前記セル群に含まれる各セルを機械学習アーキテクチャに入力することで、前記画像データに含まれる対象物の数又は密度を推定可能に構成され、
ここで、前記機械学習アーキテクチャは、前記セル群に含まれる各セルに対して同一の重み付け行列を畳み込むCNN層と、当該CNN層から出力された複数の特徴中間値を順次系列的に処理可能なLSTM層とを含むもの。
【請求項2】
請求項1に記載の情報処理装置において、
前記CNN層が畳み込み層と、プーリング層と、結合層とを有するもの。
【請求項3】
請求項1又は請求項2に記載の情報処理装置において、
前記セル群が1つの前記所望セルと8つの前記周囲セルとの計9つのセルからなるもの。
【請求項4】
請求項1~請求項3の何れか1つに情報処理装置において、
前記対象物がヒトであるもの。
【請求項5】
請求項1~請求項4の何れか1つに記載の情報処理装置において、
前記LSTM層のうち系列順に最後のLSTM層が、前記所望セルにおける前記対象物の数又は密度を出力するもの。
【請求項6】
プログラムであって、
コンピュータを請求項1~請求項5の何れか1つに記載の情報処理装置として機能させるもの。
【請求項7】
撮像システムであって、カメラと、情報処理装置とを備え、これらがネットワークを介して互いに通信可能に構成され、
前記カメラは、複数の対象物を含む画像データを撮像可能に構成され、
前記情報処理装置は、
請求項1~請求項5の何れか1つに記載の情報処理装置であり、
これに具備される受付部が、前記カメラによって撮像された前記画像データを受付可能に構成されるもの。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、プログラム、及び撮像システムに関する。
【背景技術】
【0002】
様々な分野において、カメラで撮影された画像から所望の対象物の個数や、画像中における占める割合(密度)を計測するという需要がある。例えば、監視カメラ等、カメラを含む撮像システムでは、人物や自動車等が所望の対象物として扱われる。例えば、特許文献1には、所定の物体を検出する物体認識装置が開示されている。かかる物体認識装置は、所定の物体(ここでは道路標識)が検出された場合に、カメラ制御値を調整することで、認識率の向上を図っている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1に開示される物体認識装置は、そもそも物体をどのように検出するかについては言及されていない。道路標識であれば、そもそも形態が定まっており、一度の撮影に際してその個数は限定的であると推定される。すなわち、このような条件下であれば、既存のアルゴリズムでもある程度の成果は期待されるものの、対象物を任意の物体であって多数ある場合にまで拡張させるのであれば、より優れたアルゴリズムが必要と考えられる。
【0005】
本発明は、かかる事情を鑑みてなされたものであり、対象物が任意かつ多数であっても、高い認識力を有し、かかる対象物の個数又は画像中における占める割合(密度)を推定可能な情報処理装置、プログラム、及び撮像システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様によれば、情報処理装置であって、受付部と、セル分割部と、セル群抽出部と、推定部とを備え、前記受付部は、複数の対象物を含む画像データを受付可能に構成され、前記セル分割部は、前記画像データを複数のセルに分割可能に構成され、前記セル群抽出部は、当該複数のセルから所望セルと周囲セルとを含むセル群を抽出可能に構成され、ここで、前記所望セルは前記複数のセルのうちの1つで、前記周囲セルは前記所望セルの周囲に位置するセルで、前記推定部は、前記セル群に含まれる各セルを機械学習アーキテクチャに入力することで、前記画像データに含まれる対象物の数又は密度を推定可能に構成され、ここで、前記機械学習アーキテクチャは、前記セル群に含まれる各セルに対して同一の重み付け行列を畳み込むCNN層と、当該CNN層から出力された複数の特徴中間値を順次系列的に処理可能なLSTM層とを含むものが提供される。
【0007】
本発明の一態様に係る情報処理装置によれば、対象物が任意かつ多数であっても、高い認識力を有しつつ、かかる対象物の個数又は画像中における占める割合(密度)を推定することができる、という有利な効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】撮像システムのハードウェア構成概要を示すブロック図。
【
図2】[
図2A]情報処理装置のハードウェア構成概要を示すブロック図、[
図2B]制御部の機能を示す機能ブロック図。
【
図3】カメラによって撮像された画像の一例を示す図。
【
図4】
図3に示された画像を複数のセルに分割した一例を示す図。
【
図5】[
図5A]
図4に示された複数のセルから任意のセル群を抽出した一例を示す図、[
図5B]
図5Aに示されたセル群を構成する所望セルと周囲セルとを示す図。
【
図6】撮像システムの動作の流れを示すアクティビティ図。
【
図7】モールデータセット(http://personal.ie.cuhk.edu.hk/~ccloy/downloads_mall_dataset.htmlから取得可能)の1つを本特許出願にあたってグレースケール化した画像。
【発明を実施するための形態】
【0009】
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。特に、本明細書において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、0又は1で構成される2進数のビット集合体として信号値の高低によって表され、広義の回路上で通信・演算が実行されうる。
【0010】
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
【0011】
1.全体構成
第1節では、本実施形態に含まれる構成要素について、順次説明する。
【0012】
1.1 撮像システム1
図1は、本実施形態に係る撮像システム1のハードウェア構成概要を示すブロック図である。撮像システム1は、カメラ2と、情報処理装置3とを備える。本実施形態では、カメラ2と、情報処理装置3とはネットワークNを介して接続されている。かかる接続は有線であっても無線であってもよい。
【0013】
1.2 カメラ2
カメラ2は、例えば、外界の情報を光学的に撮像するものであり、動画として撮像されるものが好ましい。カメラ2の解像度やフレームレートは、用途(撮像する対象物O)に応じて適宜選択すればよく、本実施形態においては特に限定されるものではない。例えば、解像度は、フルHD、WQHD、4k等でよく、フレームレートは、30fps、60fps、120fps、250fps等でよい。カメラ2が撮像した画像IMが、後述の情報処理装置3に送信される。
図3は、カメラ2によって撮像された画像IMの一例を示しているので参照されたい。ここでは、対象物Oがヒトである場合を例示している。
【0014】
1.3 情報処理装置3
情報処理装置3は、ハードウェアであるコンピュータと、ソフトウェアであるプログラムとによって実現されるものである。なお、コンピュータのユーザUが、インターネット等を介してプログラムをコンピュータにインストールさせることによって情報処理装置3が実現されてもよいし(ダウンロード)、予めコンピュータにプログラムがインストールされていることによって情報処理装置3が実現されてもよい。
【0015】
図2Aは、情報処理装置3のハードウェア構成概要を示し、
図2Bは、制御部33の機能を示す機能ブロック図である。情報処理装置3は、通信部31と、記憶部32と、制御部33と、表示部34と、入力部35とを有し、これらの構成要素が情報処理装置3の内部において通信バス30を介して電気的に接続されている。以下、各構成要素についてさらに説明する。
【0016】
<通信部31>
通信部31は、USB、IEEE1394、Thunderbolt(登録商標)、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、LTE/3G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。これらは一例であり、専用の通信規格を採用してもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。
【0017】
特に、通信部31によって、
図1に示されるように、情報処理装置3はネットワークNを介してカメラ2と情報通信可能に構成される。例えば、通信部31は、カメラ2が撮像した画像IMをネットワークN経由で受信する。換言すると、通信部31(「受付部」の一例)は、複数の対象物Oを含む画像IMのデータを受付可能に構成される。
【0018】
<記憶部32>
記憶部32は、様々な情報を記憶する揮発性又は不揮発性の記憶媒体である。これは、例えばソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。また、これらの組合せであってもよい。
【0019】
特に、記憶部32は、コンピュータを情報処理装置3と機能させるプログラムを記憶している。また、記憶部32は、後述の機械学習(特に深層学習)アーキテクチャを記憶していることにも留意されたい。
【0020】
<制御部33>
制御部33は、情報処理装置3に関連する全体動作の処理・制御を行う。制御部33は、例えば不図示の中央処理装置(Central Processing Unit:CPU)として実現される。制御部33は、記憶部32に記憶された所定のプログラムを読み出すことによって、情報処理装置3に係る種々の機能を実現する。具体的には、通信部31が受信した画像IMのデータを複数のセルCに分割するセル分割機能、当該複数のセルCから所望セルC0と周囲セルC1~C8とを含むセル群CGを抽出するセル群抽出機能、セル群CGに含まれる各セルCを機械学習アーキテクチャに入力することで、画像IMに含まれる対象物Oの数又は密度を推定する推定機能等が該当する。
【0021】
すなわち、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、セル分割部331、セル群抽出部332、及び推定部333として実行されうる。なお、
図2Aにおいては、単一の制御部33として表記されているが、実際はこれに限るものではなく、機能ごとに複数の制御部33を有するように実施してもよい。またそれらの組合せであってもよい。以下、セル分割部331、セル群抽出部332、及び推定部333についてさらに詳述する。
【0022】
[セル分割部331]
セル分割部331は、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されているものである。セル分割部331は、カメラ2が撮像し、通信部31を介して受信した画像IMを、複数のセルCに分割する。
図4は、
図3に示された画像IMを複数のセルC(ここでは、8×8=64)に分割した一例を示しているので参照されたい。
【0023】
[セル群抽出部332]
セル群抽出部332は、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されているものである。セル群抽出部332は、セル分割部331によって分割された複数のセルCから所望セルC0と周囲セルC1~C8とを含むセル群CGを抽出する。
図5Aは、
図4に示された複数のセルCから任意のセル群CGを抽出した一例を示し、
図5Bは、
図5Aに示されたセル群CG(ここでは、3×3=9)を構成する所望セルC0と周囲セルC1~C8とを示しているので参照されたい。ここで、所望セルC0とは、複数のセルCのうちの1つで、周囲セルC1~C8とは、所望セルC0の周囲に位置するセルCである。換言すると、セル群CGが1つの所望セルC0と8つの周囲セルC1~C8との計9つのセルからなるものである。
【0024】
[推定部333]
推定部333は、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されているものである。推定部333は、セル群CGに含まれる各セルCを記憶部32に記憶された機械学習アーキテクチャに入力することで、画像IMに含まれる対象物Oの数又は密度を推定する。ここで、本実施形態において採用している機械学習アーキテクチャは、セル群CGに含まれる各セルCに対して同一の重み付け行列を畳み込むCNN(Convolutional Neural Network)層と、当該CNN層から出力された複数の特徴マップを順次系列的に処理可能なLSTM(Long short-term memory)層とを含むものであることに留意されたい。
【0025】
CNN層は、複数の層を有するニューラルネットワークである。具体的には、CNN層は、画像IM(正確にはセルC)からエッジ抽出といった特徴量を抽出する畳み込み層と、平行移動等のロバスト性を担保するプーリング層と、出力値(「特徴中間値」の一例)を与える結合層とを備える。すなわち、
図5Bに示される、セル群CGを構成する所望セルC0及び周囲セルC1~C8をCNN層にそれぞれ入力し、複数の特徴中間値をそれぞれ得る。なお得られる複数の特徴中間値は、セル群CGに含まれるセルCの個数と同一に限定されるものではない。また、畳み込み層において畳み込む行列は、特に限定されるものではないが、各セルCに対して同一の重み付け行列を畳み込むShared weight CNNであることに留意されたい。
【0026】
LSTM層は、系列データ(特に時系列データ)に基づく分類、処理、予測に適した機械学習モデルである。例えば、
図4を参照すると、画像IMにおける複数のセルCにまたがって、対象物Oが占めていることが確認できる。このような特徴から、発明者らは、所望セルC0と周囲セルC1~C8を系列データとして取り扱って機械学習させることで、対象物Oに対して優れた認識性を発揮するものと着想した。また、
図4に示されるように、対象物Oが互いに重なっていても優れた認識性を発揮することにも留意されたい。
【0027】
LSTM層では、あるセルCの出力値を次のセルCの入力値にフィードバックさせるように構成される。そして、所望セルC0に対応する特徴中間値を入力として、複数あるLSTM層のうち系列順に最後のLSTM層が、所望セルC0における対象物Oの数又は密度を出力する。
【0028】
<表示部34>
表示部34は、例えば、情報処理装置3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部34は、ユーザUが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。これは例えば、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ及びプラズマディスプレイ等の表示デバイスを、情報処理装置3の種類に応じて使い分けて実施することが好ましい。当該表示デバイスは、制御部33による所定の制御信号に応答して、GUIの画面を選択的に表示しうる。なお、GUIについて補足すると、例えば、入力フォームやラジオボタン等といった具体的なインターフェースが表示されうる。
【0029】
表示部34は、通信部31がカメラ2より受信した画像IMを表示する。また、表示部34は、制御部33における推定部333が推定した対象物Oの数又は密度を表示する。
【0030】
<入力部35>
入力部35は、情報処理装置3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部35は、表示部34と一体となってタッチパネルとして実施されうる。タッチパネルであれば、ユーザUは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。すなわち、入力部35がユーザUによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス30を介して制御部33に転送され、制御部33が必要に応じて所定の制御や演算を実行しうる。
【0031】
2.各機能の説明
第2節では、本実施形態に係る撮像システム1の動作の流れについて説明する。
図6は、撮像システム1の動作の流れを示すアクティビティ図である。以下、
図6に示されるアクティビティ図の各アクティビティに沿って説明をする。
【0032】
[ここから]
(アクティビティA01)
撮像システム1におけるカメラ2が、対象物Oを含む画像IMとして撮像する。かかる撮像は、フレームレートに基づいて連続的に行われるものである。各フレームは、ネットワークNを介して、順次情報処理装置3に送信される。
【0033】
(アクティビティA11)
情報処理装置3における通信部31が、アクティビティA1において撮像された画像IMを受信する(画像IMが情報処理装置3に受付される)。
【0034】
(アクティビティA12)
アクティビティA11の完了後、情報処理装置3におけるセル分割部331が、アクティビティA11において受信した画像IMを複数のセルCに分割する。
【0035】
(アクティビティA13)
アクティビティA12の完了後、情報処理装置3におけるセル群抽出部332が、アクティビティA12において分割された複数のセルCのうち、その一部をセル群CG(所望セルC0及び周囲セルC1~C8)として抽出する。
【0036】
(アクティビティA14)
アクティビティA13の完了後、情報処理装置3における推定部333が、所望セルC0及び周囲セルC1~C8を入力として、記憶部32に記憶された機械学習アーキテクチャに基づいて、対象物Oの数又は密度の推定を開始する。ここでは、所望セルC0及び周囲セルC1~C8を入力として、畳み込み行列をそれぞれ共有したCNN層を導入することで、複数の特徴中間値が出力される。
【0037】
(アクティビティA15)
アクティビティA14の完了後、アクティビティA14において得られた複数の特徴中間値を系列的な入力として、LSTM層を導入することで、所望セルC0における対象物Oの密度が推定的に出力される。
【0038】
(アクティビティA16)
アクティビティA15の結果得られた所望セルC0における対象物Oの密度推定を、画像IMに対して全体的に実施することによって、画像IMにおける対象物Oの数又は密度を推定することができる。
[ここまで]
【0039】
3.実施例
第3節では、第1節で説明した情報処理装置3の実施例について説明する。あくまでも評価実験であるため、カメラ2で撮像する画像IMに代えて、当業者によって幅広くベンチマークとして用いられているモールデータセット(Mall Dataset)を採用した(
図7参照)。モールデータセットには、対象物Oであるヒトが画像IMに大量に含まれている。
【0040】
モールデータセットの各ヘッド位置のアノテーションは一般に公開されている。最初の800フレームをトレーニング用に使用し、残りの1200フレームをテスト用に保持するものとした。各フレーム全体を32×32サイズの画像のグリッドに分割することで、800フレームのデータセットからより多くのトレーニングデータを増やすことができる。全体で、800×20×15のトレーニング画像が生成され、モデルのトレーニングに使用した。そして、Adamオプティマイザを使用してモデルを訓練した。
【0041】
真値とのずれを評価する上で、[数1]に規定されるMAE(平均絶対値誤差)と、[数2]に規定されるMSE(平均2乗誤差)とを測定した。
【数1】
【数2】
【0042】
より詳細には、MAEは推定の精度を示し、MSEは推定の頑健性を示す指標である。式中における、Nはテストサンプルの数、y_iは真値カウント、y_i'はi番目のサンプルに対応する推定カウントである。MAE及びMSEの値が低いほど、精度が高くなり、推定値が良いものといえる。
【0043】
さらに、[表1]に評価実験の結果を示す。比較例として、従来技術に係る対象物Oの数又は密度推定手法を記載している。従来手法に比べて、精度及び推定の頑健性が高いことが示されている。
【表1】
【0044】
4.結言
以上のように、本実施形態によれば、対象物Oが任意かつ多数であっても、高い認識力を有し、かかる対象物Oの個数又は画像IM中における占める割合(密度)を推定可能な情報処理装置3を提供することができる。
【0045】
すなわち、情報処理装置であって、受付部と、セル分割部と、セル群抽出部と、推定部とを備え、前記受付部は、複数の対象物を含む画像データを受付可能に構成され、前記セル分割部は、前記画像データを複数のセルに分割可能に構成され、前記セル群抽出部は、当該複数のセルから所望セルと周囲セルとを含むセル群を抽出可能に構成され、ここで、前記所望セルは前記複数のセルのうちの1つで、前記周囲セルは前記所望セルの周囲に位置するセルで、前記推定部は、前記セル群に含まれる各セルを機械学習アーキテクチャに入力することで、前記画像データに含まれる対象物の数又は密度を推定可能に構成され、ここで、前記機械学習アーキテクチャは、前記セル群に含まれる各セルに対して同一の重み付け行列を畳み込むCNN層と、当該CNN層から出力された複数の特徴中間値を順次系列的に処理可能なLSTM層とを含むものが提供される。
【0046】
また、本実施形態によれば、対象物Oが任意かつ多数であっても、高い認識力を有し、かかる対象物Oの個数又は画像IM中における占める割合(密度)を推定可能なプログラムを提供することができる。このようなプログラムを、コンピュータ(情報処理装置3)が読み取り可能な非一時的な記録媒体として提供してもよいし、外部のサーバからダウンロード可能に提供してもよいし、外部のコンピュータで当該プログラムを起動させて、クライアント端末で各機能を実施可能な、いわゆるクラウド・コンピューティングを実施してもよい。
【0047】
すなわち、プログラムであって、コンピュータを前記情報処理装置として機能させるものが提供される。
【0048】
また、本実施形態によれば、対象物Oが任意かつ多数であっても、高い認識力を有し、かかる対象物Oの個数又は画像IM中における占める割合(密度)を推定可能な撮像システム1を提供することができる。
【0049】
すなわち、撮像システムであって、カメラと、情報処理装置とを備え、これらがネットワークを介して互いに通信可能に構成され、前記カメラは、複数の対象物を含む画像データを撮像可能に構成され、前記情報処理装置は、前記情報処理装置であり、これに具備される受付部が、前記カメラによって撮像された前記画像データを受付可能に構成されるものが提供される。
【0050】
本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0051】
1 :撮像システム
2 :カメラ
3 :情報処理装置
30 :通信バス
31 :通信部
32 :記憶部
33 :制御部
331 :セル分割部
332 :セル群抽出部
333 :推定部
34 :表示部
35 :入力部
C :セル
C0 :所望セル
C1 :周囲セル
C2 :周囲セル
C3 :周囲セル
C4 :周囲セル
C5 :周囲セル
C6 :周囲セル
C7 :周囲セル
C8 :周囲セル
CG :セル群
IM :画像
N :ネットワーク
O :対象物
【手続補正書】
【提出日】2023-05-19
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
撮像システムであって、
次の各ステップがなされるようにプログラムを実行可能なプロセッサを備え、
受付ステップでは、複数の対象物を含む画像データを受け付け、
分割ステップでは、前記画像データを複数のセルに分割し、
処理ステップでは、前記複数のセルのうちの少なくとも一部からなるセル群を機械学習アーキテクチャに入力することで、前記画像データに含まれる対象物に関する処理を実行
する、システム。
【請求項2】
請求項1に記載の撮像システムにおいて、
前記処理ステップでは、前記画像データに含まれる対象物の数又は密度を推定する、シ
ステム。
【請求項3】
請求項1又は請求項2に記載の撮像システムにおいて、
前記セル群は、所望セルと、前記所望セルの周囲に位置する周囲セルとを含む、システ
ム。
【請求項4】
請求項3に記載の撮像システムにおいて、
前記機械学習アーキテクチャは、前記セル群に含まれる各セルに対して同一の重み付け
行列を畳み込むCNN層と、前記CNN層から出力された複数の特徴中間値を順次系列的
に処理可能なLSTM層とを含む、システム。