IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立国際電気の特許一覧

<>
  • 特許-撮像装置及び映像処理システム 図1
  • 特許-撮像装置及び映像処理システム 図2
  • 特許-撮像装置及び映像処理システム 図3
  • 特許-撮像装置及び映像処理システム 図4
  • 特許-撮像装置及び映像処理システム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-04
(45)【発行日】2024-03-12
(54)【発明の名称】撮像装置及び映像処理システム
(51)【国際特許分類】
   H04N 7/18 20060101AFI20240305BHJP
   G06T 7/00 20170101ALI20240305BHJP
【FI】
H04N7/18 D
H04N7/18 K
G06T7/00 350C
【請求項の数】 7
(21)【出願番号】P 2023504880
(86)(22)【出願日】2021-03-08
(86)【国際出願番号】 JP2021008913
(87)【国際公開番号】W WO2022190157
(87)【国際公開日】2022-09-15
【審査請求日】2023-03-24
(73)【特許権者】
【識別番号】000001122
【氏名又は名称】株式会社日立国際電気
(74)【代理人】
【識別番号】110000062
【氏名又は名称】弁理士法人第一国際特許事務所
(72)【発明者】
【氏名】神田 嵩臣
【審査官】鈴木 隆夫
(56)【参考文献】
【文献】特開2016-162099(JP,A)
【文献】特開2019-185548(JP,A)
【文献】特開2017-033529(JP,A)
【文献】特開2009-033738(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/18
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
映像を撮影して画像を取得し、前記画像内から所定の領域を検出し、検出した検出領域をリサイズして検出領域の特徴量を抽出し、前記抽出した特徴量を二次元に配列したマスク画像として前記取得した画像の検出領域に配置した画像を出力し、
前記特徴量の抽出は、CNN(Convolution Neural Networks)又はDNN(Deep Neural Networks)の手法を用いて行うことを特徴とする撮像装置。
【請求項2】
請求項1に記載の撮像装置において、
前記所定の領域は、人の顔の領域であることを特徴とする撮像装置。
【請求項3】
映像を撮影して画像を取得し、前記画像内から所定の領域を検出し、検出した検出領域をリサイズして検出領域の特徴量を抽出し、前記抽出した特徴量を二次元に配列したマスク画像として前記取得した画像の検出領域に配置した画像を出力し、
出力する前記画像には、当該画像内における前記マスク画像の範囲を特定する情報を付与することを特徴とする撮像装置。
【請求項4】
撮像装置と、映像処理装置とを備え、
前記撮像装置は、映像を撮影して画像を取得し、前記画像内から所定の領域を検出し、検出した検出領域をリサイズして検出領域の特徴量を抽出し、前記抽出した特徴量を二次元に配列したマスク画像として前記取得した画像の検出領域に配置した画像を出力し、
前記映像処理装置は、前記撮像装置が出力した画像を入力して、前記マスク画像から特徴量を取得し、この特徴量に基づく推論処理を行うことを特徴とする映像処理システム
【請求項5】
請求項4に記載の映像処理システムにおいて、
前記特徴量の抽出及び前記推論処理は、CNN(Convolution Neural Networks)又はDNN(Deep Neural Networks)の手法を用いて行うことを特徴とする映像処理システム。
【請求項6】
請求項に記載の映像処理システムにおいて、
前記所定の領域は人の顔の領域であり、前記推論処理は人を識別する処理であることを特徴とする映像処理システム。
【請求項7】
請求項に記載の映像処理システムにおいて、
前記映像処理装置から前記撮像装置での特徴量の抽出に用いられるパラメータを設定する機能を有することを特徴とする映像処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、撮像装置及び映像処理システムに関し、特に、機械学習で推論処理可能でプライバシー保護のための映像加工処理機能を有する撮像装置及び映像処理システムに関する。
【背景技術】
【0002】
近年、監視カメラなどで多数の人物を撮影するカメラの需要が増えている。これらのカメラはLAN(Local Area Network)に接続され、遠隔から映像監視ができるというメリットがある。一方で、セキュリティを突破された場合は、撮影された情報が流出する等して、プライバシー保護の観点で問題となることもある。
【0003】
そこで、特許文献1では撮影画像に対して、可逆型のモザイク処理やマスク処理などの加工処理を行うことによって、プライバシー保護を行う手法が開示されている。加工処理された画像は、対応する復元処理を行うことによって、元画像を復元することができる。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2009-33738号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1では、仮に復元処理を行うための復元情報も含めて外部に流失した場合、悪意のある第三者が復元処理を行い元の画像を入手することが可能となる。これを防ぐためには非可逆の画像をLAN上に配信する必要があるが、その場合は、元画像を復元することができない。このため、画像認識技術などによる顔認識や行動認識を行うことができなくなる。
【0006】
本発明は、上記課題に鑑みて、画像情報のより高い保護を行いながら画像に関する所定の情報を伝えることができる撮像装置及び映像処理システムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するため、代表的な本発明の撮像装置の一つは、映像を撮影して画像を取得し、前記画像内から所定の領域を検出し、検出した検出領域をリサイズして検出領域の特徴量を抽出し、前記抽出した特徴量を二次元に配列したマスク画像として前記取得した画像の検出領域に配置した画像を出力することを特徴とする。
【0008】
さらに本発明の映像処理システムの一つは、撮像装置と、映像処理装置とを備え、前記撮像装置は、映像を撮影して画像を取得し、前記画像内から所定の領域を検出し、検出した検出領域をリサイズして検出領域の特徴量を抽出し、前記抽出した特徴量を二次元に配列したマスク画像として前記取得した画像の検出領域に配置した画像を出力し、前記映像処理装置は、前記撮像装置が出力した画像を入力して、前記マスク画像から特徴量を取得し、この特徴量に基づく推論処理を行うことを特徴とする。
【発明の効果】
【0009】
本発明によれば、撮像装置及び映像処理システムにおいて、画像情報のより高い保護を行いながら画像に関する所定の情報を伝えることができる。
上記以外の課題、構成及び効果は、以下の実施形態により明らかにされる。
【図面の簡単な説明】
【0010】
図1図1は、本発明の映像処理システムの一実施形態を示すブロック図である。
図2図2は、図1の処理システム部の一例を示すブロック図である。
図3図3は、本発明の映像処理システムで適用する特徴量を算出する処理の一例を示す図である。
図4図4は、本発明の映像処理システムにおける撮像装置の処理の一例を示す図である。
図5図5は、本発明の映像処理システムにおける映像処理装置の処理の一例を示す図である。
【発明を実施するための形態】
【0011】
本発明を実施するための形態を説明する。
【0012】
図1は、本発明の映像処理システムの一実施形態を示すブロック図である。図1の映像処理システムは、撮像装置1と映像処理装置5を備えている。そして、撮像装置1は、撮像部2と、処理システム部3を備えている。また、映像処理装置5は、処理システム部6と、表示出力部7を備えている。なお、表示出力部7は、映像処理装置5に備えず映像処理装置5とは別体で構成してもよい。映像処理装置5はパソコン、タブレット型コンピュータ、サーバなどを適用可能である。
【0013】
撮像装置1は、1個以上のカメラの構成を備えており、様々な場所に配置可能である。例えば、監視カメラとして監視箇所に配置するなどである。
【0014】
撮像部2は、レンズや絞りを介して撮像素子に入射光を結像して情報を得るカメラの構成である。ここでの撮像素子の例としては、CCD(Charge-Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等があげられる。得られた情報は処理システム部3へ送られる。また、撮像部2は、FPGA(Field Programmable Gate Array)などの映像処理用IC(Integrated Circuit)を用い撮影処理を行うことができる。一方この映像処理用ICは、処理システム部3と一体化してもよい。
【0015】
処理システム部3は、撮像部2で撮影した情報を取得して後述する図4の処理を行う。具体的な構成例については図2で後述し、具体的な処理の内容は図4で後述する。処理した情報は、処理システム部6へ送られる。
【0016】
処理システム部6は、処理システム部3からの情報を取得して後述する図5の処理を行う。具体的な構成例については図2で後述し、具体的な処理の内容は図5で後述する。
【0017】
表示出力部7は、処理システム部6で処理した内容を表示できる装置である。例えば液晶ディスプレイ(LCD)、有機EL(OEL)ディスプレイ、タッチパネル等の構成により表示させる。
【0018】
撮像装置1と映像処理装置5の間は、インターネット網などを介して情報のやりとりを行える。例えばLAN等に接続する。この他、専用の通信回線を介して情報をやりとりしてもよい。すなわち、遠隔地にある撮像装置1の処理内容を映像処理装置5で確認できる。また、撮像装置1と映像処理装置5は1対1でなくともよく、1つの撮像装置1に対して複数の映像処理装置5が対応してもよく、複数の撮像装置1に対して1つの映像処理装置5が対応してもよい。また、映像処理装置5は、撮像装置1の設定や操作を可能に構成してもよい。
【0019】
図2は、図1の処理システム部の一例を示すブロック図である。処理システム部3、6の具体例として図2のコンピュータシステム300として説明する。
【0020】
コンピュータシステム300の主要コンポーネントは、1つ以上のプロセッサ302、メモリ304、端末インターフェース312、ストレージインターフェース314、I/O(入出力)デバイスインターフェース316、及びネットワークインターフェース318を含む。これらのコンポーネントは、メモリバス306、I/Oバス308、バスインターフェース309、及びI/Oバスインターフェース310を介して、相互的に接続されてもよい。
【0021】
コンピュータシステム300は、プロセッサ302と総称される1つ又は複数の処理装置302A及び302Bを含んでもよい。各プロセッサ302は、メモリ304に格納された命令を実行し、オンボードキャッシュを含んでもよい。処理装置としては、CPU(Central Processing Unit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processong Unit)等を適用できる。
【0022】
メモリ304は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。また、メモリ304は、コンピュータシステム300の仮想メモリ全体を表しており、ネットワークを介してコンピュータシステム300に接続された他のコンピュータシステムの仮想メモリを含んでもよい。メモリ304は、概念的には単一のものとみなされてもよいが、キャッシュおよび他のメモリデバイスの階層など、より複雑な構成となる場合もある。
【0023】
メモリ304は、本実施形態で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ304は、アプリケーション350を格納していてもよい。アプリケーション350は、後述する機能をプロセッサ302上で実行する命令又は記述を含んでもよく、あるいは別の命令又は記述によって解釈される命令又は記述を含んでもよい。アプリケーション350は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。アプリケーション350は、命令又は記述以外のデータを含んでもよい。また、カメラやセンサ等の他のデータ入力デバイスが、バスインターフェース309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するように提供されてもよい。
【0024】
コンピュータシステム300は、プロセッサ302、メモリ304、表示システム324、及びI/Oバスインターフェース310間の通信を行うバスインターフェース309を含んでもよい。I/Oバスインターフェース310は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス308と連結していてもよい。I/Oバスインターフェース310は、I/Oバス308を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインターフェース312、314、316、及び318と通信してもよい。表示システム324は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置326に提供することができる。また、コンピュータシステム300は、データを収集し、プロセッサ302に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。表示システム324は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置326に接続されてもよい。表示装置326は、オーディオをレンダリングするためスピーカを含んでもよい。あるいは、オーディオをレンダリングするためのスピーカは、I/Oインターフェースと接続されてもよい。これ以外に、表示システム324が提供する機能は、プロセッサ302を含む集積回路によって実現されてもよい。同様に、バスインターフェース309が提供する機能は、プロセッサ302を含む集積回路によって実現されてもよい。
【0025】
I/Oインターフェースは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インターフェース312は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス320の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス320及びコンピュータシステム300に対して入力データや指示を入力し、コンピュータシステム300からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス320を介して、表示装置に表示されたり、スピーカによって再生されたりしてもよい。
【0026】
ストレージインターフェース314は、1つ又は複数のディスクドライブや直接アクセス記憶装置322の取り付けが可能である。記憶装置322は、任意の二次記憶装置として実装されてもよい。メモリ304の内容は、記憶装置322に記憶され、必要に応じて記憶装置322から読み出されてもよい。I/Oデバイスインターフェース316は、他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース318は、コンピュータシステム300と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク330であってもよい。
【0027】
コンピュータシステム300は、プロセッサ302、メモリ304、バスインターフェース309、表示システム324、及びI/Oバスインターフェース310の間の直接通信経路を提供するバス構造を備えているが、コンピュータシステム300は、階層構成、スター構成、又はウェブ構成のポイントツーポイントリンク、複数の階層バス、平行又は冗長の通信経路を含んでもよい。さらに、I/Oバスインターフェース310及びI/Oバス308が単一のユニットとして示されているが、実際には、コンピュータシステム300は複数のI/Oバスインターフェース310又は複数のI/Oバス308を備えてもよい。また、I/Oバス308を様々なI/Oデバイスに繋がる各種通信経路から分離するための複数のI/Oインターフェースが示されているが、I/Oデバイスの一部または全部が、1つのシステムI/Oバスに直接接続されてもよい。
【0028】
コンピュータシステム300は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。
【0029】
図2のコンピュータシステム300を図1の処理システム部3に適用する場合は、表示装置326は任意の構成であり、備えていてもいなくてもよい。また、撮像部2はユーザI/Oデバイス320として適用可能である。また、図2のコンピュータシステム300を図1の処理システム部6として適用した場合は、表示装置326は表示出力部7として適用可能である。また、ネットワーク330は、処理システム部3と処理システム部6との間に介在するネットワークとして適用可能である。
【0030】
図3は、本発明の映像処理システムで適用する特徴量を算出する処理の一例を示す図である。図3は、顔の画像から人物を推定するCNN(Convolution Neural Networks)による機械学習の構成例を示す。各層の上部に記載した数はその層のニューロンの数であるが、これらは一例を示している。
【0031】
入力層11から特定の画像の一部分が入力され、それが1層目の畳込み層12、プーリング層13と伝達され、後段の層である畳込み層12、プーリング層13とつながっている。これらの処理の後には全結合層があり、入力層16、中間層17、出力層18が存在する。出力層18のニューロンの数はクラスの数と等価である。顔認識を行う場合は特定できる人の数とほぼ等価となる。尚、入力層11から特定の画像の一部分が入力される場合、例として200×200の画像が64×64にリサイズされたのちに入力されている。
【0032】
入力層11では、特定の大きさの画像情報(図3では64×64ピクセル)を取得する。図3の例では、顔検出により取り込んだ人の顔の画像である。
【0033】
次に、畳込み層12では畳み込み処理を行う。入力層11で取得した画像に対してフィルタをかけていく。フィルタをかけることにより、サイズは小さくなる(図3では60×60)。そして、用意したフィルタの数(図3では8個)分だけ出力される。
【0034】
次に、プーリング層13ではプーリング処理を行う。畳込み層12で出力した情報に対して圧縮をかけていく。これにより、サイズは半分となる(図3では30×30)。
【0035】
次に、畳込み層14では畳み込み処理を行う。プーリング層13で圧縮した情報に対して、さらにフィルタをかけて、サイズを小さくする(図3では26×26)。そして、用意したフィルタの数(図3では16個)分だけ出力される。
【0036】
次に、プーリング層15ではプーリング処理を行う。畳込み層14で出力した情報に対して圧縮をかけていく。これにより、サイズは半分となる(図3では13×13)。
【0037】
次に、全結合層の入力層16では、プーリング層15で三次元の情報(13×13×16)を一次元の情報(2704)に並べなおしたものである。ここでの情報は特徴量を示している。なお、図3では、畳込み層とプーリング層の繰り返しは、2回(2層)での繰り返しで示したが、これに限ることはなく、さらに多くの繰り返しとしてもよい。
【0038】
全結合層の入力層16から、マスク画像を形成することができる。マスク画像は、ここでは元の画像が特定できない(顔であれば画像のみから誰かを特定できない)画像を意味する。この処理は、非可逆な映像加工処理であり、一度マスク画像を形成すると元の画像を復元することはできなくなる。
【0039】
具体的には、図3に示すように全結合層の入力層16の情報である一次元の情報16-1(図3では2704)を二次元の画像情報16-2(図3では52×52)に並べなおす。このときの情報は、画像の情報として、白黒画像であれば色の濃さの情報として、カラー画像であれば、色の種類と濃さの情報として、保持することができる。例えば、白黒の画像であれば1ピクセルが8ビットの情報として、RGBのカラー画像であれば1ピクセルが24ビットの情報として変換可能である。その52×52ピクセルの画像情報を200×200ピクセルのマスク画像16-3に引き延ばす。これは、もともと取り込んだ顔の画像の大きさに合わせるための変換処理である。
【0040】
そして、作成されたマスク画像16-3は推論処理のため元の一次元の情報に戻す。具体的には、マスク画像16-3(図3では200×200)を、引き延ばす前の二次元の画像情報16-4(図3では52×52)をリサイズにより戻して、さらに、一次元の情報16-1(図3では2704)に並べなおす。このことにより、全結合層の入力層16の情報を、一旦マスク画像16-3に変換して、画像に載せることが可能となる。
【0041】
次に、全結合層の中間層17では、図3では1000個のニューロン数を適用している。これは、一例であり、必要に応じてふさわしい数が適用できる。また、中間層17の数を増やして、複数の層で構成してもよい。
【0042】
次の、全結合層の出力層18では、100個のニューロン数を適用している。ここでは、このニューロン数はクラス数となり、分類可能な数に相当する。例えば、顔の認識であれば、Aさん、Bさん、Cさんというようにして、一番発火したニューロンから誰であるかを推定する。このような推論処理により、100人の人の分類が可能である。もしくは、99人の分類として、残りの1つはその他とすることも可能である。
【0043】
図4は、本発明の映像処理システムにおける撮像装置の処理の一例を示す図である。ここでの処理は、撮像装置1側で行い、特に記載がない場合は撮像装置1の処理システム部3で行われる。ここでは、非可逆な映像加工処理が行われる。
【0044】
撮像装置1ではまず初めに映像撮影21を行う。これは撮像部2により行い、撮像素子とFPGAなどの映像処理用ICなどで実現できる。撮影は映像で撮影される。例えば、1秒間に30フレーム(30fps)以上等の撮影とする等である。撮像部2で撮影された映像は1フレームの画像ごとに処理システム部3へ送られそれぞれ処理を行うことができる。
【0045】
次に、処理システム部3では、この入力された映像に対して顔検出22を行う。顔検出22は、人間の顔の形を識別し、顔を含む範囲を検出する処理である。これは既存の手法を用いて自動で行われる。人間の顔と識別した場合はその領域を検出する。また、後述する処理を行うため、顔と識別した範囲が、ある程度の画素数以上の場合に検出する処理とすることができる。入力層16の1つのニューロンが扱うビット数が、1ピクセルのビット数と同じ場合、図4の例では、最小の範囲が52×52ピクセルに設定されている。
【0046】
次に、検出領域のリサイズ部で検出領域のリサイズ23を行う。これは、顔検出22で検出された領域をあらかじめ決めたサイズにリサイズする。このリサイズは、顔検出22で検出される領域は一定でないため次の特徴量の計算に適した所定のサイズへの変換を行うものである。図4の例では、200×200ピクセルを64×64ピクセルへ変換する処理を行う。
【0047】
次に、特徴量計算部で検出領域の特徴量計算24を行う。ここでは、CNNなどを用いて顔認識に必要な特徴量を求める。この特徴量の計算は、図3で説明した入力層11~全結合層の入力層16までの処理と同様である。
【0048】
次に、特徴量の再配列/リサイズ25を行う。ここでは、顔検出を行った領域に適用できる大きさのフォーマットにデータを変換する処理を行う。全結合層の入力層16で算出された特徴量のニューロンの数は2704であり、これを二次元に変換すると52×52の領域となる。一方、顔検出22で検出した領域は200×200である。特徴量のニューロンの数から算出される二次元の領域52×52のデータを、顔検出22の領域200×200に当てはめるため、1ニューロンのデータがおおよそ4画素に拡大して割り当てる。これにより、領域52×52のデータを領域200×200のデータに変換する。なお、ここでの特徴量の再配列/リサイズ25の処理は、図3で説明した一次元の情報16-1から、マスク画像16-3までの処理と同様である。
【0049】
ここで、上述した拡大率が大きいほどマスクの領域の画素間やフレーム間の変化が少なくなる。これにより、画素間やフレーム間の急激な変化が緩和されて非可逆コーデックによる処理が行いやすくなる。また、この特徴量は顔検出が行われる最小の画像サイズのデータ領域に収まる必要があるが、この最小サイズによっては例えばCNNの途中のプーリング層の出力を特徴量として扱うことも可能である。
【0050】
次に、再配列された特徴量は顔検出22で検出された元画像へのマスク処理26が行われる。これは、顔検出22で検出した領域に再配列された特徴量(200×200)をマスク画像16-3として当てはめることにより元画像上に配置される。マスク画像16-3は、特徴量に基づく色の種類や濃さの画像のため、顔検出22で検出した領域の元画像とは異なり、人の顔とは異なる情報となっている。
【0051】
次に、マスク処理26が行われた画像に対して、マスク処理メタデータ付与27が行われる。ここでは、マスク処理が行われた画像のインデックス番号や画像上の始点の座標、その一辺の長さなどが付与される。これにより、マスク処理が行われている領域を特定するために情報やマスク処理が行われた画像を特定するための情報が付与される。
【0052】
次に、外部出力28される。ここで、外部出力する際には伝送容量を圧縮するためにコーデックによる処理が行われる。映像の場合では一般に非可逆コーデックが用いられるが、アプリケーションによっては画像の間欠伝送のみでよく、その場合は可逆コーデックを用いてもよい。ここでの外部出力された情報は、インターネット網等を介して映像処理装置5へ送られる。
【0053】
図5は、本発明の映像処理システムにおける映像処理装置の処理の一例を示す図である。ここでの処理は、映像処理装置5側で行い、特に記載がない場合は映像処理装置5の処理システム部6で行われる。ここでは、機械学習による推論処理を行い、人を特定する。
【0054】
まず、図4の外部出力28において撮像装置1から出力された画像を有する映像データを映像処理装置5の映像入力部に映像入力31を行う。
【0055】
次に、その映像データのメタデータから特徴量の抽出/リサイズ・再配列部で、特徴量の抽出、リサイズ、再配列32の処理を行う。この処理は、まず初めに映像データから、マスク画像16-3の抽出を行う。これは、付与されているメタデータから範囲を特定することができる。次に、二次元の画像情報16-4(図5では52×52)に戻して、さらに、一次元の情報16-5(図5では2704)に並べなおす。これは、図3と同様である。これにより特徴量の値が得られる。なお、この値は、途中でリサイズやコーデック等の処理を行っているため、データの値がわずかにずれて、完全に一致しない場合もある。しかし、このずれは次の特徴量から推論結果を取得する処理に影響がない程度であり、元の特徴量(一次元の情報16-1)と同じか近しい値が得られる。
【0056】
次に、特徴量から推論結果の取得33を行う。これは、図3の全結合層16~18の処理と同様である。ここでは、特徴量から推論結果取得部によってそのクラスを特定する。図5の例の場合では、推論処理により、顔から個人を特定することができる。
【0057】
なお、個人の顔に関する情報は、映像処理装置5に記憶しておくことで、上記の処理を行える。例えば、100人分のクラスを出力する場合は、100人分の情報を保持しておき、特徴量から個人を特定することが可能となる。また、予め記録した人に該当しない場合は、その他の人であることを出力するクラスを1つ用意しておくことも可能である。
【0058】
また、特徴量のデータ構造やニューラルネットワークのパラメータ等の特徴量の抽出のためのパラメータ等の取り決めは、事前に撮像装置1と映像処理装置5の間で共有しておく。このことで、マスク画像16-3が映像処理装置5に送られた場合、一次元の情報16-5に戻して特徴量からクラスを出力することが可能となる。このパラメータの設定について、映像処理装置5から撮像装置1の設定も行える機能を有しておいてもよい。
【0059】
上記の実施形態は、顔検出により人を特定する処理の例について示したが、人の行動についても特定できる。例えば、撮像装置1では、人検出機能を備え、人全体を検出すると共に特徴量が含まれる二次元画像により人全体をマスクする。そして、映像処理装置5では、その特徴量からマスクした人の行動が何であるかを推論するものである。この場合、クラスは人の行動の種類ごとに出力する。
【0060】
(効果)
上記の実施形態では、プライバシー保護が重要となる人物領域(顔や人全体)の非可逆なマスク処理が実現できる。それと同時に、その伝送先では人や行動の特定に必要なデータも含めて受信でき、必要に応じて後処理の推論を実行する。このことによってマスクされた領域でも、その人が誰であるかや行動が何であるかを判別することができる。
【0061】
従来の可逆なマスク処理を用いる場合、マスクされていた部分を復号すると例えば元の人の画像が復元され、それが流出すると画像に含まれるあらゆる個人情報が流出することとなる。その一方で、本実施形態による手法では万が一情報が流出し悪意のある第三者に復号されたとしても、顔認識であればそれに対応付けられる名前などのラベル情報のみ、行動認識であればその行動のラベル情報のみの最小限の情報に抑えられる。
【0062】
さらに、撮像装置側で人認識や行動認識結果まで推論を行う場合、そのデータを伝送して、その通信を傍受されてしまうとラベル情報が流出してしまう。一方で、本実施形態では受信した映像処理装置5側で特徴量から推論を行う。このため、撮像装置1からのデータが流出したとしても、特徴量のデータ構造や、ニューラルネットワークのパラメータの構造等の取り決めが分からない限り、推論を行うことができない。このため、撮像装置1からの情報は、通信の暗号化に加えて二重に保護されており、より復号が難しいデータとすることができる。また、特徴量をマスク画像16-3に埋め込むことで伝送容量の削減をすることができる。
【0063】
以上の様に、本発明の実施形態について説明してきたが、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0064】
例えば、上記の実施形態では、伝送容量の削減のために特徴量をマスク画像16-3に埋め込む処理を行っている。しかし、画像には特徴量の情報を埋め込まない適当なマスク処理(例えば、同一の色と濃さでのマスク)を行い、特徴量の情報と画像とを分けて伝送する構成も適用できる。
【0065】
また、上記の実施形態では、CNNによる例を示したが、機械学習としては、DNN(Deep Neural Networks)の手法を用いても、本発明を適用することができる。
【符号の説明】
【0066】
1…撮像装置、2…撮像部、3…処理システム部、5…映像処理装置、6…処理システム部、7…表示出力部、11…入力層、12…畳込み層、13…プーリング層、14…畳込み層、15…プーリング層、16…全結合層の入力層、17…全結合層の中間層、18…全結合層の出力層、21…映像撮影、22…顔検出、23…検出領域のリサイズ、24…検出領域の特徴量計算、25…特徴量の再配列/リサイズ、26…元画像へのマスク処理、27…マスク処理メタデータ付与、28…外部出力、31…映像入力、32…特徴量の抽出/リサイズ・再配列、33…特徴量から推論結果の取得、300…コンピュータシステム、302…プロセッサ、302A、302B…処理装置、304…メモリ、306…メモリバス、308…I/Oバス、309…バスインターフェース、310…I/Oバスインターフェース、312…端末インターフェース、314…ストレージインターフェース、316…I/Oデバイスインターフェース、318…ネットワークインターフェース、320…ユーザI/Oデバイス、322…記憶装置、324…表示システム、326…表示装置、330…ネットワーク、350…アプリケーション
図1
図2
図3
図4
図5