特開2024-30443 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セーフィー株式会社の特許一覧

特開2024-30443情報処理システム、情報処理方法、及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024030443

(43)【公開日】2024-03-07

(54)【発明の名称】情報処理システム、情報処理方法、及び情報処理プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240229BHJP

G06T 7/70 20170101ALI20240229BHJP

【ＦＩ】

G06T7/00 350B

G06T7/70 Z

【審査請求】有

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2022133355

(22)【出願日】2022-08-24

(11)【特許番号】

(45)【特許公報発行日】2022-10-24

(71)【出願人】

【識別番号】515029558

【氏名又は名称】セーフィー株式会社

(74)【代理人】

【識別番号】100114557

【弁理士】

【氏名又は名称】河野英仁

(74)【代理人】

【識別番号】100078868

【弁理士】

【氏名又は名称】河野登夫

(72)【発明者】

【氏名】菅原宏明

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA02

5L096DA02

5L096FA67

5L096KA04

5L096KA13

5L096KA15

(57)【要約】

【課題】撮像装置の設置環境が変わってしまった場合であっても、適切な検知モデルを用いてサービスを提供すること。
【解決手段】撮像装置により撮影された映像を用いてサービスを提供する情報処理システムであって、前記撮像装置から映像データを取得し、前記映像データに基づき、前記撮像装置の設置角度を推定し、前記設置角度に基づき、前記映像から所定の対象を検出するための検出モデルを生成し、前記検出モデルに前記映像データを入力することにより、前記サービスを提供する。
【選択図】図８

【特許請求の範囲】

【請求項1】

撮像装置により撮影された映像を用いてサービスを提供する情報処理システムであって、
前記撮像装置から映像データを取得し、
前記映像データに基づき、前記撮像装置の設置角度を推定し、
前記設置角度に基づき、前記映像から所定の対象を検出するための検出モデルを生成し、
前記検出モデルに前記映像データを入力することにより、前記サービスを提供する
情報処理システム。

【請求項2】

前記設置角度の推定において、第１推定モデルに前記映像データを入力することにより、前記映像に含まれる地表面の座標データを出力する
請求項１に記載の情報処理システム。

【請求項3】

前記設置角度の推定において、第２推定モデルに前記映像データ及び前記映像に含まれる地表面の座標データを入力することにより、前記撮像装置の座標データを出力する
請求項１に記載の情報処理システム。

【請求項4】

前記設置角度の推定において、第３推定モデルに前記撮像装置の座標データ及び前記映像に含まれる基準点の座標データを入力することにより、前記撮像装置の設置角度を出力する
請求項１に記載の情報処理システム。

【請求項5】

前記検出モデルの生成において、前記撮像装置により撮影された映像の中から、前記設置角度が等しいとみなせるものを読み出す
請求項１に記載の情報処理システム。

【請求項6】

前記検出モデルの生成において、前記撮像装置以外も含む複数の撮像装置により撮影された映像の中から、前記設置角度が等しいとみなせるものを読み出す
請求項１に記載の情報処理システム。

【請求項7】

前記撮像装置の識別子、前記設置角度、及び前記映像データを、対応付けて記憶する
請求項１に記載の情報処理システム。

【請求項8】

前記サービスの提供において、複数の検出モデルの中から、前記撮像装置及び前記サービスに対応するものを選択する
請求項１に記載の情報処理システム。

【請求項9】

前記撮像装置の識別子、前記サービスの識別子、及び前記検出モデルを、対応付けて記憶する
請求項１に記載の情報処理システム。

【請求項10】

前記情報処理システムは、撮像装置とサーバ装置を含む、
請求項１に記載の情報処理システム。

【請求項11】

前記設置角度の推定及び前記検出モデルの生成は、サーバ装置側で行う
請求項１０に記載の情報処理システム。

【請求項12】

前記検出モデルを用いたサービスの提供は、サーバ装置側で行う
請求項１０に記載の情報処理システム。

【請求項13】

前記検出モデルを用いたサービスの提供は、撮像装置側で行う
請求項１０に記載の情報処理システム。

【請求項14】

撮像装置により撮影された映像を用いてサービスを提供するための情報処理方法であって、
前記撮像装置から映像データを取得し、
前記映像データに基づき、前記撮像装置の設置角度を推定し、
前記設置角度に基づき、前記映像から所定の対象を検出するための検出モデルを生成し、
前記検出モデルに前記映像データを入力することにより、前記サービスを提供する
情報処理方法。

【請求項15】

撮像装置により撮影された映像を用いてサービスを提供するための情報処理プログラムであって、
前記撮像装置から映像データを取得し、
前記映像データに基づき、前記撮像装置の設置角度を推定し、
前記設置角度に基づき、前記映像から所定の対象を検出するための検出モデルを生成し、
前記検出モデルに前記映像データを入力することにより、前記サービスを提供する
情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、情報処理方法、及び情報処理プログラムに関する。

【背景技術】

【0002】

従来、監視カメラの映像によって、人や車両の入退場を検知する技術が知られている（例えば、特許文献１を参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－１１３９６４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

この様な技術では、ＡＩ等の検知モデルを用いて、ユーザにサービスを提供することがある。
しかしながら、例えば台風や地震などの自然災害によって監視カメラの向きが変わってしまう等、撮像装置の設置環境が変わってしまった場合、それ以前に生成した検知モデルでは、正確な検知ができなくなってしまう可能性がある。

【0005】

本発明は、斯かる事情に鑑みてなされたものであり、撮像装置の設置環境が変わってしまった場合であっても、適切な検知モデルを用いてサービスを提供することを目的とする。

【課題を解決するための手段】

【0006】

本開示の情報処理システムは、撮像装置により撮影された映像を用いてサービスを提供する情報処理システムであって、前記撮像装置から映像データを取得し、前記映像データに基づき、前記撮像装置の設置角度を推定し、前記設置角度に基づき、前記映像から所定の対象を検出するための検出モデルを生成し、前記検出モデルに前記映像データを入力することにより、前記サービスを提供する。

【発明の効果】

【0007】

本開示によれば、撮像装置の設置環境が変わってしまった場合であっても、適切な検知モデルを用いてサービスを提供することが可能となる。

【図面の簡単な説明】

【0008】

【図1】実施の形態に係る情報処理システムの構成を示す模式図である。

【図2】サーバ装置の内部構成を示すブロック図である。

【図3】撮像装置の設置角度を推定する学習モデルの構成例を示す模式図である。

【図4】検出モデルの構成例を示す模式図である。

【図5】映像データベースの構成例を示す概念図である。

【図6】ユーザデータベースの構成例を示す概念図である。

【図7】撮像装置の内部構成を示すブロック図である。

【図8】処理の全体像を示すフローチャートである。

【図9】設置角度を推定する処理の詳細を示すフローチャートである。

【図10】検出モデルを生成する処理の詳細を示すフローチャートである。

【図11】サービスを提供する処理の詳細を示すフローチャートである。

【発明を実施するための形態】

【0009】

以下、本発明をその実施の形態を示す図面に基づいて具体的に説明する。
図１は実施の形態に係る情報処理システムの構成を示す模式図である。本実施の形態に係る情報処理システムは、サーバ装置１００と、複数の撮像装置２００Ａ，２００Ｂ，２００Ｃとを備える。これらのサーバ装置１００及び撮像装置２００Ａ～２００Ｃは、通信ネットワークＮＷを介して互いに通信可能に接続される。図１の例では、３台の撮像装置２００Ａ～２００Ｃを示しているが、撮像装置の台数には限定はなく、１台又は２台の撮像装置が接続されてもよく、４台以上の撮像装置が接続されてもよい。以下の説明において、個々の撮像装置２００Ａ～２００Ｃを区別して記載する必要がない場合、単に撮像装置２００とも記載する。サーバ装置１００の内部構成については図２を用いて説明し、撮像装置２００の内部構成については図７を用いて説明する。

【0010】

サーバ装置１００は、撮像装置２００から出力される映像データを蓄積・管理する機能、撮像装置２００のユーザに対して所定のサービスを提供する機能等を備えたサーバ装置である。サーバ装置１００は、撮像装置２００から映像データを取得し、取得した映像データを基に撮像装置２００の設置角度を推定し、推定した設置角度に関連付けて映像データを蓄積・管理する。撮像装置２００の設置角度は、撮像方向（カメラの光軸）を一意に定めるためのパラメータであり、０度～３６０度の方位角、－９０度～９０度の俯仰角により表される。また、サーバ装置１００は、多数の撮像装置２００から映像データを取得することにより、設置角度が実質的に同一となる複数の撮像装置２００からの映像データを収集することができる。

【0011】

サーバ装置１００は、収集した映像データを訓練データに用いて、撮像装置２００のユーザによって利用される学習モデルを生成する。例えば、サーバ装置１００は、駐車場に入場又は退場する車両、屋外を歩行する人物、建築現場に搬入又は搬出される建築資材等を映像データから検出するための学習モデルを生成することができる。検出対象は上記に限らず、任意に設定することが可能である。サーバ装置１００は、撮像装置２００より取得した映像データを学習モデルに入力し、学習モデルによる演算を実行することによって検出した検出対象の情報を、撮像装置２００のユーザに提供する。

【0012】

図２はサーバ装置１００の内部構成を示すブロック図である。サーバ装置１００は、例えば、汎用又は専用のサーバコンピュータであり、制御部１０１、記憶部１０２、通信部１０３、操作部１０４、表示部１０５などを備える。

【0013】

制御部１０１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等を備える。制御部１０１のＣＰＵは、ＲＯＭ又は記憶部１０２に記憶された各種プログラムをＲＡＭに展開して実行することにより、上述した各種ハードウェアの動作を制御し、装置全体を本願の情報処理装置（コンピュータ）として機能させる。

【0014】

制御部１０１は、上記の構成に限定されるものではなく、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）、揮発性又は不揮発性のメモリ等を１又は複数備えた演算回路や制御回路であってもよい。また、制御部１０１は、日時情報を出力するクロック、計測開始指示を与えてから計測終了指示を与えるまでの経過時間を計測するタイマ、数をカウントするカウンタ等の機能を備えていてもよい。

【0015】

記憶部１０２は、ハードディスク、フラッシュメモリなどを用いた記憶装置を備える。記憶部１０２は、制御部１０１により実行されるコンピュータプログラム、外部から取得した各種のデータ、装置内部で生成した各種のデータ等を記憶する。

【0016】

記憶部１０２に記憶されるコンピュータプログラムは、撮像装置２００から取得した映像データに基づいて、撮像装置２００の設置角度を推定する推定処理プログラムＰＧ１、後述の学習モデルを生成する学習プログラムＰＧ２等を含む。これらのコンピュータプログラムは、それぞれ単一のコンピュータプログラムであってもよく、複数のコンピュータプログラムにより構成される一のコンピュータプログラムであってもよい。また、これらのコンピュータプログラムは、既存のライブラリを部分的に用いるものであってもよい。

【0017】

推定処理プログラムＰＧ１及び学習プログラムＰＧ２を含む各種コンピュータプログラムは、当該コンピュータプログラムを読み取り可能に記録した非一時的な記録媒体（プログラム製品）ＲＭにより提供される。記録媒体ＲＭは、例えば、ＣＤ－ＲＯＭ、ＵＳＢ（Universal Serial Bus）メモリ、ＳＤ（Secure Digital）カード、マイクロＳＤカード、コンパクトフラッシュ（登録商標）などの可搬型メモリである。制御部１０１は、不図示の読取装置を用いて記録媒体ＲＭから各種コンピュータプログラムを読み取り、読み取ったコンピュータプログラムを記憶部１０２にインストールする。代替的に、推定処理プログラムＰＧ１及び学習プログラムＰＧ２を含む各種コンピュータプログラムは、通信により提供されてもよい。この場合、制御部１０１は、通信部１０３を介した通信により、各種コンピュータプログラムを取得し、取得したコンピュータプログラムを記憶部１０２にインストールすればよい。

【0018】

記憶部１０２は、各種の学習モデルを備える。本実施の形態では、学習モデルとして、例えば、地表面推定モデルＭＤ１、座標推定モデルＭＤ２、設置角度推定モデルＭＤ３、及び検出モデルＭＤ４Ａ～ＭＤ４Ｃを備える。記憶部１０２には、各学習モデルの層の構成情報、各層に含まれるノードの情報、ノード間の重み付けやバイアス等のモデルパラメータが記憶される。

【0019】

記憶部１０２は、各撮像装置２００から取得した映像データを蓄積する映像データベースＤＢ１、及び各撮像装置２００のユーザに関する情報を記憶するユーザデータベースＤＢ２を備える。

【0020】

通信部１０３は、通信ネットワークＮＷに接続するための通信インタフェースを備える。通信部１０３が備えるインタフェースは、例えば、ＷｉＦｉ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＬＴＥ（Long Term Evolution）等の無線通信規格に準じた通信インタフェースである。通信部１０３は、外部へ通知すべき各種情報を送信すると共に、外部から自装置宛に送信される各種情報を受信する。

【0021】

操作部１０４は、キーボードやマウスなどの入力デバイスを備えており、各種情報の入力を受付ける。制御部１０１は、操作部１０４から入力される情報に基づき適宜の制御を行い、必要に応じて入力された情報を記憶部１０２に記憶させる。

【0022】

表示部１０５は、液晶表示パネル、有機ＥＬ表示パネル等の表示デバイスを備えており、制御部１０１から出力される制御信号に基づいて、管理者等に通知すべき情報を表示する。

【0023】

サーバ装置１００は、単一のコンピュータである必要はなく、複数のコンピュータや周辺機器からなるコンピュータシステムであってもよい。例えば、コンピュータシステムは、撮像装置２００からの映像データを蓄積・管理する第１サーバと、映像データから設置角度を推定する第２サーバと、撮像装置２００のユーザに対してサービスを提供する第３サーバとを備える構成であってもよい。また、サーバ装置１００は、ソフトウェアによって仮想的に構築される仮想マシンであってもよい。

【0024】

本実施の形態では、サーバ装置１００が検出モデルＭＤ４Ａ～ＭＤ４Ｃを備える構成としたが、外部のサーバ装置に学習済みの検出モデルＭＤ４Ａ～ＭＤ４Ｃをインストールする構成としてもよい。また、学習済みの検出モデルＭＤ４Ａ～ＭＤ４Ｃを対応する撮像装置２００Ａ～２００Ｃにインストールする構成としてもよく、ユーザが使用する端末装置に提供する構成としてもよい。

【0025】

また、本実施の形態では、サーバ装置１００が映像データベースＤＢ１及びユーザデータベースＤＢ２を備える構成としたが、サーバ装置１００からアクセス可能であれば、サーバ装置１００の外部に設けられてもよい。

【0026】

以下、サーバ装置１００が備える各種学習モデルの構成について説明する。
図３は撮像装置２００の設置角度を推定する学習モデルの構成例を示す模式図である。撮像装置２００の設置角度を推定する学習モデルは、地表面推定モデルＭＤ１、座標推定モデルＭＤ２、設置角度推定モデルＭＤ３により構成される。

【0027】

地表面推定モデルＭＤ１は、映像データから地表面の座標を推定するための学習モデルであり、撮像装置２００からの映像データを入力した場合、地表面の座標データを出力するよう学習される。学習モデルとして、ＣＮＮ（Convolutional Neural Networks）、Ｒ－ＣＮＮ（Region-based CNN）などにより構成される学習モデルを用いることができる。代替的に、学習モデルは、ＳｅｇＮｅｔ、ＦＣＮ（Fully Convolutional Network）、Ｕ－Ｎｅｔ（U-Shaped Network）、ＰＳＰＮｅｔ（Pyramid Scene Parsing Network）など、画像セグメンテーションが行える任意のニューラルネットワークを用いて構築されてもよい。また、学習モデルは、ＹＯＬＯ（You Only Look Once）、ＳＳＤ（Single Shot Multi-Box Detector）など物体検出用のニューラルネットワークを用いて構築されてもよい。

【0028】

地表面推定モデルＭＤ１は、多数の映像データと、各映像データに映る地表面について作業者により指定された地表面の座標のデータ（正解データ）とを訓練データに用いて、所定の学習アルゴリズムにより学習を行うことで生成される。ここで、正解データに用いる地表面の座標のデータとして、例えば、図１に示すような駐車枠のように、既知の矩形領域の四隅の座標を用いることができる。本実施の形態では、学習済みの学習モデルが地表面推定モデルＭＤ１として記憶部１０２に記憶される。

【0029】

座標推定モデルＭＤ２は、撮像装置２００の位置座標を推定するための学習モデルであり、撮像装置２００からの映像データ及び地表面推定モデルＭＤ１により推定された地表面の座標データを入力した場合、撮像装置２００の位置（特に、撮像装置２００の設置高さ）を示す座標データを出力するよう学習される。学習モデルとして、例えば、ＣＮＮ、Ｒ－ＣＮＮなどにより構成される学習モデルを用いることができる。座標推定モデルＭＤ２は、多数の映像データ、地表面の座標データと、作業者により指定された撮像装置２００の位置座標（３次元座標）とを訓練データに用いて、所定の学習アルゴリズムにより学習を行うことで生成される。本実施の形態では、学習済みの学習モデルが座標推定モデルＭＤ２として記憶部１０２に記憶される。

【0030】

設置角度推定モデルＭＤ３は、撮像装置２００の設置角度を推定するための学習モデルであり、映像データに映る基準点となる物体の座標データ及び座標推定モデルＭＤ２により推定された撮像装置２００の位置を示す座標データを入力した場合、撮像装置２００の設置角度の情報を出力するよう学習される。本実施の形態では、設置角度推定モデルＭＤ３は、所定の方向（例えば真南の方向）を基準とした０度から３６０度の方位角、水平面を基準とした－９０度から９０度の俯仰角の情報を出力するよう学習される。学習モデルとして、例えば、ＣＮＮ、Ｒ－ＣＮＮなどにより構成される学習モデルを用いることができる。設置角度推定モデルＭＤ３は、基準となる物体の座標データ、座標推定モデルＭＤ２により推定された撮像装置２００の位置を示す座標データ、及び作業者により与えられた設置角度のデータとを訓練データに用いて、所定の学習アルゴリズムにより学習を行うことで生成される。ここで、基準点（基準となる物体）とは、撮像画像の範囲内で３次元座標が既知である物体を表す。本実施の形態では、学習済みの学習モデルが設置角度推定モデルＭＤ３として記憶部１０２に記憶される。

【0031】

図４は検出モデルＭＤ４Ａの構成例を示す模式図である。検出モデルＭＤ４Ａ～ＭＤ４Ｃは、例えば、映像データから検出対象を検出するための学習モデルである。検出対象は、各撮像装置２００の設置目的に応じて設定されるとよい。例えば、撮像装置２００Ａが駐車場に出入りする車両を監視するために設置されている場合、検出モデルＭＤ４Ａは、撮像装置２００Ａによる映像データを入力した場合、映像データに映る車両に関する情報を出力するよう学習される。また、撮像装置２００Ａが屋外を歩行する人物を監視するために設置されている場合、検出モデルＭＤ４Ａは、撮像装置２００Ａによる映像データを入力した場合、映像データに映る人物に関する情報を出力するよう学習される。検出モデルＭＤ４Ｂ，ＭＤ４Ｃについても同様であり、それぞれ撮像装置２００Ｂ，２００Ｃからの映像データを入力した場合、検出対象に関する情報を出力するよう学習される。検出モデルＭＤ４Ａ～ＭＤ４Ｃは、各撮像装置２００Ａ～２００Ｃに対応して個別に生成される。記憶部１０２は、各撮像装置２００Ａ～２００Ｃのユーザが利用するサービスのサービスＩＤに関連付けて、対応する検出モデルＭＤ４Ａ～ＭＤ４Ｃを記憶する。

【0032】

以下、サーバ装置１００が備える各種データベースの構成について説明する。
図５は映像データベースＤＢ１の構成例を示す概念図である。本実施の形態では、各撮像装置２００から取得した映像データは、撮像装置２００の識別子（デバイスＩＤ）、撮像装置２００の設置角度と共に、映像データベースＤＢ１に記憶される。また、後述する正解データも、映像データと対応付けて記憶される。なお、映像データと正解データとのセットを、訓練データともいう。映像データベースＤＢ１には、撮像装置２００の設置角度の他、地表面の座標データ、撮像装置２００の設置高さ（座標データ）、基準点の座標データ等が含まれてもよい。更に、映像データベースＤＢ１には、撮像装置２００のユーザ、設置場所、設置目的、通信アドレス等の撮像装置２００の属性情報や撮像日時の情報が含まれてもよい。

【0033】

図６はユーザデータベースＤＢ２の構成例を示す概念図である。ユーザＤＢ２は、例えば、ユーザを識別するためのユーザＩＤ、撮像装置２００を識別するためのデバイスＩＤ、ユーザが利用するサービスを識別するサービスＩＤ、サービスを利用する際に用いる検出モデルＩＤ等を関連付けて記憶する。

【0034】

次に、撮像装置２００の構成について説明する。
図７は撮像装置２００の内部構成を示すブロック図である。撮像装置２００は、通信ネットワークＮＷを介して制御可能なネットワークカメラであり、制御部２０１、記憶部２０２、撮像部２０３、通信部２０４等を備える。

【0035】

制御部２０１は、ＣＰＵやＲＯＭなどを備え、上述した各種ハードウェアの動作を制御し、装置全体を本願の撮像装置として機能させる。記憶部２０２は、フラッシュメモリなどを用いた記憶装置を備える。記憶部２０２には、サーバ装置１００により推定される自装置の設置角度の情報が記憶される。記憶部２０２には、設置角度の情報の他、撮像装置２００の識別子、ユーザ、設置場所、設置目的、通信アドレス等の撮像装置２００の属性情報が記憶されてもよい。

【0036】

撮像部２０３は、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）やＣＣＤ（Charge-Coupled Device）などの撮像素子を備え、撮像対象を撮像して得られる映像データを出力する。通信部２０４は、通信ネットワークＮＷに接続するための通信インタフェースを備える。通信部２０４が備える通信インタフェースは、例えば、ＷｉＦｉ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＬＴＥ等の無線通信規格に準じた通信インタフェースである。通信部２０４は、外部へ通知すべき各種情報を送信すると共に、外部から自装置宛に送信される各種情報を受信する。

【0037】

以下、本実施の形態に係る情報処理システムの動作について説明する。
図８は処理の全体像を示すフローチャートである。本処理のうち、ステップＳ１０１～Ｓ１０３は、撮像装置２００が通常動作しているときに所定の時間間隔で繰り返し実行する処理である。また、ステップＳ１０４～Ｓ１０６は、自然災害等によって撮像装置２００の設置角度が変わってしまった場合等に必要に応じて実行する処理であるが、その他に撮像装置２００を設置したときに初期設定として実行してもよい。また、ステップＳ１０７～Ｓ１０８は、ユーザからサービス提供の要求があったときに何れかを実行する処理である。なお、映像データに対してアノテーションが自動的に行える場合には、撮像装置２００が通常動作しているときにステップＳ１０１～Ｓ１０６までを通しで実行してもよい。撮像装置２００は、撮像対象を撮像して得られる映像データを通信部２０４よりサーバ装置１００へ送信する（ステップＳ１０１）。撮像装置２００は、所定の時間単位で映像データをファイルに保存し、保存したファイルをサーバ装置１００へ送信する。映像データのファイル形式は任意であり、ＡＶＩ，ＭＰＥＧ２，ＭＰＥＧ４，ＭＯＶ，ＦＬＶ，ＳＦＳ等を用いることができる。また、撮像装置２００は、ストリーミング形式の映像データをサーバ装置１００へ送信し、サーバ装置１００の内部でファイルとして保存してもよい。更に、撮像装置２００は、時系列的な静止画の画像データを映像データとしてサーバ装置１００へ送信してもよい。

【0038】

サーバ装置１００は、通信部１０３を通じて、撮像装置２００より送信される映像データを受信する（ステップＳ１０２）。サーバ装置１００の制御部１０１は、受信した映像データに基づき、撮像装置２００の設置角度を推定する（ステップＳ１０３）。設置角度の推定処理については、図９を用いて後に詳述する。そして、制御部１０１は、図５で示したように、デバイスＩＤに対応付けて、ステップＳ１０２で受信した映像データと、ステップＳ１０３で推定した設置角度の情報を、映像データベースＤＢ１に記憶させる。

【0039】

次いで、制御部１０１は、ステップＳ１０２で受信した映像データと、ステップＳ１０３で推定した設置角度に基づき、検出モデルを生成する。（ステップＳ１０４）。検出モデルの生成処理については、図１０を用いて後に詳述する。その後の処理は、システムの構成によって２通りに分かれる。１つ目は、撮像装置２００側でサービスを提供する場合であり、その場合はステップＳ１０５～Ｓ１０７を実行し、ステップＳ１０８を省略する。２つ目は、サーバ装置１００側でサービスを提供する場合であり、その場合はステップＳ１０５～Ｓ１０７を省略し、ステップＳ１０８を実行する。

【0040】

撮像装置２００側でサービスを提供する場合、制御部１０１は、ステップＳ１０４で生成した検出モデルを通信部１０３より撮像装置２００へ送信する（ステップＳ１０５）。通信部１０３より送信される検出モデルは、通信ネットワークＮＷを介して、撮像装置２００に到達する。

【0041】

撮像装置２００は、通信部２０４を通じて、サーバ装置１００より送信される検出モデルを受信する（ステップＳ１０６）。撮像装置２００の制御部２０１は、受信した検出モデルを用いて、サービスを提供する（ステップＳ１０７）。一方、サーバ装置１００側でサービスを提供する場合、制御部１０１は、生成した検出モデルを用いて、サービスを提供する（ステップＳ１０８）。サービスの提供処理については、図１１を用いて後に詳述する。

【0042】

図９は、設置角度を推定する処理（Ｓ１０３）の詳細を示すフローチャートである。サーバ装置１００の制御部１０１は、記憶部１０２から推定処理プログラムＰＧ１を読み出して実行することにより、以下の処理を実行する。制御部１０１は、撮像装置２００から取得した映像データを地表面推定モデルＭＤ１に入力し、地表面推定モデルＭＤ１による演算を実行する（ステップＳ１２１）。このとき、制御部１０１は、映像データから抽出した特定のフレーム（静止画）を地表面推定モデルＭＤ１に入力してもよく、明度や画質などの調整を行った後の映像データを地表面推定モデルＭＤ１に入力してもよい。制御部１０１は、地表面推定モデルＭＤ１による演算結果として、地表面の座標データを取得する（ステップＳ１２２）。

【0043】

次いで、制御部１０１は、撮像装置２００から取得した映像データと、地表面の座標データとを座標推定モデルＭＤ２に入力し、座標推定モデルＭＤ２による演算を実行する（ステップＳ１２３）。前述と同様、制御部１０１は、映像データから抽出した特定のフレーム（静止画）を座標推定モデルＭＤ２に入力してもよく、明度や画質などの調整を行った後の映像データを座標推定モデルＭＤ２に入力してもよい。制御部１０１は、座標推定モデルＭＤ２による演算結果として、撮像装置２００の位置（設置高さ）を示す座標データを取得する（ステップＳ１２４）。

【0044】

次いで、制御部１０１は、撮像装置２００の座標データと、映像データに映る基準点の座標データとを設置角度推定モデルＭＤ３に入力し、設置角度推定モデルＭＤ３による演算を実行する（ステップＳ１２５）。制御部１０１は、設置角度推定モデルＭＤ３による演算結果として、撮像装置２００の設置角度のデータを取得する（ステップＳ１２６）。

【0045】

以上の手順により、サーバ装置１００の制御部１０１は、撮像装置２００の設置角度を推定することができる。制御部１０１は、図５で示したように、デバイスＩＤ、撮像装置２００の設置角度のデータ（ステップＳ１２６で取得）、及び撮像装置２００から取得した映像データを関連付けて映像データベースＤＢ１に記憶させる。既にデータが存在する場合は、データを上書きしてもよいし、データが生成された日時の情報とともに記憶して最新のデータを利用するようにしてもよい。なお、地表面の座標データ（ステップＳ１２２で取得）、撮像装置２００の座標データ（ステップＳ１２４で取得）を更に関連付けて記憶させてもよい。

【0046】

本実施の形態では、地表面推定モデルＭＤ１、座標推定モデルＭＤ２、設置角度推定モデルＭＤ３の３種類のモデルを用いて、撮像装置２００の設置角度を推定する構成としたが、これらを統合した統合モデルを用いて、撮像画像から撮像装置２００の設置角度を推定する構成としてもよい。すなわち、統合モデルは、映像データを入力した場合、撮像装置２００の設置角度を出力するよう学習されるとよい。

【0047】

制御部１０１は、映像データベースＤＢ１に記憶された映像データに基づき、検出モデルＭＤ４Ａ等を生成する。

【0048】

図１０は、検出モデルを生成する処理（Ｓ１０４）の詳細を示すフローチャートである。本処理では、撮像装置２００の設置角度に応じて、サービスごとに検出モデルを生成する。なお、更にユーザごとにカスタマイズした検出モデルを生成してもよい。事前の準備として、各映像データについて、対応する正解データを生成する。具体的には、映像データベースＤＢ１に記憶された映像データについて、検出対象の領域を指定するアノテーションが実施される。指定された領域のデータは、図５に示したように、映像データに対する正解データとして記憶部１０２に記憶される。学習が開始される前の初期段階では、作業者の手によりアノテーションが実施される。学習が進めば、検出モデルＭＤ４Ａによる検出結果を流用して自動でアノテーションを実施し正解データを生成してもよい。

【0049】

撮像装置２００Ａ用の検出モデルＭＤ４Ａを生成する場合、制御部１０１は、撮像装置２００ＡのデバイスＩＤおよび設置角度を基に映像データベースＤＢ１から映像データを読み出す（ステップＳ１４０）。すなわち、制御部１０１は、撮像装置２００ＡのデバイスＩＤおよび設置角度（方位角と俯仰角）を検索キーに用いて映像データベースＤＢ１を検索し、両者が一致した映像データを映像データベースＤＢ１から読み出せばよい。なお、設置角度は完全に一致している必要はなく、方位角と俯仰角の何れか一方または両方に所定の誤差（例えば５度以内）を許容してもよい。なお、検索キーに用いるのは設置角度のみ（デバイスＩＤは用いない）としてもよい。この場合、映像データベースＤＢ１から読み出される映像データは、撮像装置２００Ａによって撮像された映像データに限らず、他の撮像装置２００によって撮像された映像データも含まれ得る。また、検索キーに撮像装置の座標データ（高さのみならずＧＰＳ等による位置座標を含めてもよい）を更なるand条件として用いてもよい。そもそも、ステップＳ１４０の意図は、過去に同じ条件（カメラの設置角度／設置位置／性能特性／環境特性等）のときのデータを可能な限り多く利用することにより、生成される検出モデルの精度を上げようというものである。このため、検索キーが減ればその分対象となるデータは増えるが各データの質は低くなる可能性があり、検索キーが増えればその逆になる可能性がある。したがって、検索キーとしては適切なものを過不足なく用いるという考え方が重要である。

【0050】

制御部１０１は、ステップＳ１４０で読み出した各映像データについて、対応する正解データを特定し、その映像データと正解データとをセットにした訓練データを生成する（ステップＳ１４１）。制御部１０１は、選択した訓練データに含まれる映像データを検出モデルＭＤ４Ａに入力し、検出モデルＭＤ４Ａによる演算を実行する（ステップＳ１４２）。なお、学習が開始される前の段階において、検出モデルＭＤ４Ａのモデルパラメータには、初期値が設定されているものとする。

【0051】

制御部１０１は、検出モデルＭＤ４Ａによる演算結果を評価し（ステップＳ１４３）、学習が完了したか否かを判断する（ステップＳ１４４）。制御部１０１は、検出モデルＭＤ４Ａによる演算結果と、訓練データに含まれる正解データとに基づいて設定した誤差関数（目的関数、損失関数、コスト関数ともいう）を用いて、演算結果を評価することができる。制御部１０１は、例えば、最急降下法などの勾配降下法により誤差関数を最適化（最小化又は最大化）する課程で、誤差関数が閾値以下（又は閾値以上）となった場合、学習が完了したと判断する。

【0052】

学習が完了していないと判断した場合（Ｓ１４４：ＮＯ）、制御部１０１は、検出モデルＭＤ４Ａのパラメータ（ノード間の重み及びバイアス等）を更新し（ステップＳ１４５）、処理をステップＳ１４１へ戻す。制御部１０１は、検出モデルＭＤ４Ａの出力層から入力層に向かって、ノード間の重み及びバイアスを順次更新する誤差逆伝搬法を用いて、検出モデルＭＤ４Ａにおけるパラメータを更新することができる。

【0053】

学習が完了したと判断した場合（Ｓ１４４：ＹＥＳ）、学習済みの検出モデルＭＤ４Ａが得られるので、制御部１０１は、学習済みの検出モデルＭＤ４Ａを記憶部１０２に記憶させる（ステップＳ１４６）。このとき、制御部１０１は、図６で示したように、デバイスＩＤ、サービスＩＤに関連付けて、検出モデルＭＤ４Ａを記憶部１０２に記憶させる。なお、前述したようにユーザごとにカスタマイズした検出モデルを生成する場合には、更にユーザＩＤにも関連付けて記憶させる。

【0054】

図１０のフローチャートでは撮像装置２００Ａ用の検出モデルＭＤ４Ａの生成手順について説明したが、他の検出モデルＭＤ４Ｂ，ＭＤ４Ｃについても同様の手順にて生成することが可能である。

【0055】

また、撮像装置２００Ａ，２００Ｂの設置角度が実質的に同一であれば、それぞれの検出モデルＭＤ４Ａ，ＭＤ４Ｂを個別に生成する必要はなく、例えば、検出モデルＭＤ４Ａを生成した後、生成した検出モデルＭＤ４Ａをファインチューニングして検出モデルＭＤ４Ｂを生成してもよい。

【0056】

本実施の形態では、サーバ装置１００において検出モデルＭＤ４Ａを生成する構成したが、外部サーバで検出モデルＭＤ４Ａを生成する構成としてもよい。この場合、サーバ装置１００は、通信又は記録媒体を介して、外部で生成された学習済みの検出モデルＭＤ４Ａを取得し、取得した検出モデルＭＤ４Ａを記憶部１０２に記憶すればよい。

【0057】

図１１はサービスを提供する処理（ステップＳ１０７またはＳ１０８）の詳細を示すフローチャートである。なお、以下ではサーバ装置１００側で処理を実行（ステップＳ１０８）する場合について説明するが、撮像装置２００側で処理を実行（ステップＳ１０７）してもよい。その場合、撮像装置２００とユーザ端末との間のデータのやりとりは、サーバ装置１００を介して行う。サーバ装置１００の制御部１０１は、撮像装置２００のユーザからサービス要求を受付けたか否かを判断する（ステップＳ１６１）。制御部１０１は、通信部１０３を通じて、図に示していないユーザの端末装置からサービス要求を受付けることが可能である。なお、ここでいうサービスとは、例えば「人を検知する」という単純なものから、「人が何かにぶつかったことを検知する」というような複合的なものまで、様々な種類の機能を意味する。また、サービス要求には、ユーザＩＤ、デバイスＩＤ、サービスＩＤが含まれるものとする。例えば、ユーザ端末からシステムへログインしたことに応じて、そのユーザに対応するユーザＩＤがセットされる。また、ユーザがＵＩを介して撮像装置２００を選択したことに応じて、その撮像装置２００に対応するデバイスＩＤがセットされる。また、ユーザがＵＩを介してサービスを選択したことに応じて、そのサービスに対応するサービスＩＤがセットされる。サービス要求を受け付けていないと判断した場合（Ｓ１６１：ＮＯ）、制御部１０１は、サービス要求を受付けるまで待機する。

【0058】

サービス要求を受付けた場合（Ｓ１６１：ＹＥＳ）、制御部１０１は、デバイスＩＤ、サービスＩＤを特定する（ステップＳ１６２）。なお、前述したようにユーザごとにカスタマイズした検出モデルを生成する場合には、更にユーザＩＤも特定する。制御部１０１は、デバイスＩＤ、サービスＩＤに基づきユーザデータベースＤＢ２を検索することにより、用いるべき検出モデルを選択する（ステップＳ１６３）。具体的には、図６に示した中から、デバイスＩＤとサービスＩＤが一致する検出モデルを選択する。なお、前述したようにユーザごとにカスタマイズした検出モデルを生成する場合には、更にユーザＩＤも一致する検出モデルを選択する。ここでは、検出モデルＭＤ４Ａを選択したとする。

【0059】

制御部１０１は、通信部１０３を通じて、デバイスＩＤに対応する撮像装置２００から送信されてくる映像データを取得する（ステップＳ１６４）。制御部１０１は、ステップＳ１６４で取得した映像データをステップＳ１６３で選択した検出モデルＭＤ４Ａに入力し、検出モデルＭＤ４Ａによる演算を実行する（ステップＳ１６５）。

【0060】

制御部１０１は、検出モデルＭＤ４Ａによる演算結果に係る情報を検出結果として出力する（ステップＳ１６６）。制御部１０１は、通信部１０３を通じて、図に示していないユーザの端末装置へ検出結果を送信すればよい。

【0061】

以上のように、本実施の形態では、ユーザが選択した撮像装置２００の映像を用いて、ユーザが所望のサービスを、撮像装置２００の設置角度に応じた適切な検出モデルを用いて提供することが可能となる。また、サーバ装置１００は、設置角度に関連付けて映像データを収集するので、設置角度を検索キーとして検索することにより、実質的に同一の設定角度で撮像された映像データを映像データベースＤＢ１から抽出することができる。また、これらの映像データを用いて学習を行うことにより、検出モデルＭＤ４Ａ等の精度向上を図ることができる。

【0062】

今回開示された実施形態は、全ての点において例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。

【符号の説明】

【0063】

１００サーバ装置
１０１制御部
１０２記憶部
１０３通信部
１０４操作部
１０５表示部
２００撮像装置
２０１制御部
２０２記憶部
２０３撮像部
２０４通信部
ＤＢ１映像データベース
ＤＢ２ユーザデータベース

【図1】