(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024021410
(43)【公開日】2024-02-16
(54)【発明の名称】画像認識システムおよびプログラムセット
(51)【国際特許分類】
G06V 10/70 20220101AFI20240208BHJP
G06T 7/00 20170101ALI20240208BHJP
【FI】
G06V10/70
G06T7/00 350B
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022124221
(22)【出願日】2022-08-03
(71)【出願人】
【識別番号】000233538
【氏名又は名称】株式会社日立ソリューションズ東日本
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】高橋 光市
(72)【発明者】
【氏名】佐藤 健
(72)【発明者】
【氏名】高山 恒一
(72)【発明者】
【氏名】田村 栞里
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA35
5L096FA02
5L096HA11
5L096JA14
5L096KA04
(57)【要約】
【課題】分析サーバの性能要件を緩和し、プライバシー保護をより高めることができる、画像認識システムおよびプログラムセットを提供する。
【解決手段】画像認識システムは、人物が表れる画像に表れる物品を識別する。前記画像認識システムは、第1コンピュータおよび第2コンピュータを備え、前記第1コンピュータは、前記画像から、前記物品を表す画像である物品画像として、前記人物の顔が表れない領域を抽出して出力し、前記第2コンピュータは、前記物品画像に基づき、当該物品画像に表れる物品を識別し、識別された前記物品を表す情報を出力する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
人物が表れる画像に表れる物品を識別する、画像認識システムであって、
前記画像認識システムは、第1コンピュータおよび第2コンピュータを備え、
前記第1コンピュータは、前記画像から、前記物品を表す画像である物品画像として、前記人物の顔が表れない領域を抽出して出力し、
前記第2コンピュータは、前記物品画像に基づき、当該物品画像に表れる物品を識別し、識別された前記物品を表す情報を出力する、
画像認識システム。
【請求項2】
前記第1コンピュータおよび前記第2コンピュータは学習済みモデルを備える、請求項1に記載の画像認識システム。
【請求項3】
人物が表れる前記画像は、カメラによって撮像された画像である、請求項1に記載の画像認識システム。
【請求項4】
前記第1コンピュータは、インターネットを介して前記物品画像を前記第2コンピュータに送信する、請求項1に記載の画像認識システム。
【請求項5】
コンピュータシステムを、請求項1~4のいずれか一項に記載の画像認識システムとして機能させるプログラムセットであって、
前記プログラムセットは、
コンピュータを前記第1コンピュータとして機能させる第1プログラムと、
別のコンピュータを前記第2コンピュータとして機能させる第2プログラムと、
を含む、プログラムセット。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は画像認識システムおよびプログラムセットに関する。
【背景技術】
【0002】
大規模商業施設等で、服装の種類と割合および所持品の種類と割合を表す統計情報を推定し、ユーザに提供する画像認識システムを考える。統計情報は、施設内外に設置したカメラによるカメラ画像に基づき、画像認識により生成することができる。
【0003】
図11に、従来の画像認識システムの概要を示す。従来のシステムでは、統計情報を推定するための分析サーバを準備しておき、カメラ画像をネットワークを介して分析サーバに収集し、分析サーバにおいて画像処理を行う。なお、画像認識システムは学習サーバおよびクライアントを備える場合がある。
【0004】
特許文献1~3には、カメラで撮像された画像をサーバに送信して処理するシステムの構成例が記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2014-192631号公報
【特許文献2】特開2014-192632号公報
【特許文献3】特開2014-192633号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来の技術では、分析サーバに高い処理能力が要求される点およびプライバシー保護の点に関して課題があった。
【0007】
分析サーバは、大容量のカメラ画像データを処理し続け、しかも学習済みモデル等を用いて高精度にリアルタイムで処理を行わなければならず、高い処理能力が要求される。
【0008】
また、カメラ画像には、個人情報である人物の顔が含まれる場合があり、この情報をサーバに収集するのはプライバシー保護の観点から好ましくない。なお、服装や所持品等に関する統計情報の推定処理を行うためには、人物の顔の画像は不要である。
【0009】
本発明はこのような課題を解決するためになされたものであり、分析サーバの性能要件を緩和し、プライバシー保護をより高めることができる、画像認識システムおよびプログラムセットを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明に係る画像認識システムの一例は、
人物が表れる画像に表れる物品を識別する、画像認識システムであって、
前記画像認識システムは、第1コンピュータおよび第2コンピュータを備え、
前記第1コンピュータは、前記画像から、前記物品を表す画像である物品画像として、前記人物の顔が表れない領域を抽出して出力し、
前記第2コンピュータは、前記物品画像に基づき、当該物品画像に表れる物品を識別し、識別された前記物品を表す情報を出力する。
【0011】
一例において、前記第1コンピュータおよび前記第2コンピュータは学習済みモデルを備える。
一例において、人物が表れる前記画像は、カメラによって撮像された画像である。
一例において、前記第1コンピュータは、インターネットを介して前記物品画像を前記第2コンピュータに送信する。
【0012】
本発明に係るプログラムセットの一例は、
コンピュータシステムを、上述の画像認識システムとして機能させるプログラムセットであって、
前記プログラムセットは、
コンピュータを前記第1コンピュータとして機能させる第1プログラムと、
別のコンピュータを前記第2コンピュータとして機能させる第2プログラムと、
を含む。
【発明の効果】
【0013】
本発明によれば、分析サーバの性能要件を緩和し、プライバシー保護をより高めることができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施例1に係る画像認識システム100の概要。
【
図2】
図1の画像認識システム100の機能ブロック図。
【
図3】
図1のカメラ内蔵コンピュータ10が撮像する画像の例。
【
図4】物品画像G2を抽出するためのより具体的な処理の例。
【
図8】
図5に示す画像G1でもより完全にプライバシー保護を実現できる処理の例。
【
図10】
図1の分析サーバ20が取得する物品画像の例。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態を添付図面に基づいて説明する。
[実施例1]
図1に、本発明の実施例1に係る画像認識システム100の概要を示す。画像認識システム100は、人物が表れる画像に表れる物品を識別するシステムである。画像認識システム100は、カメラ内蔵コンピュータ10(第1コンピュータ)と、分析サーバ20(第2コンピュータ)とを備える。また、本実施例では、画像認識システム100は、さらに学習サーバ30と、クライアント40とを備える。
【0016】
カメラ内蔵コンピュータ10、分析サーバ20、学習サーバ30、およびクライアント40は、通信ネットワークNを介して相互に通信可能となるよう接続される。
【0017】
カメラ内蔵コンピュータ10にはカメラ11が内蔵されており、撮像により画像を取得することができる。多数のカメラ内蔵コンピュータ10をそれぞれ異なる場所に設置することができる。
【0018】
本実施例のカメラ内蔵コンピュータ10はカメラ11を内蔵したものであるが、変形例として、カメラ内蔵コンピュータ10に代えて、カメラを内蔵せず外部のカメラに接続されたコンピュータを用いてもよい。また、カメラ内蔵コンピュータ10に代えて、カメラによって撮像された画像を取得するコンピュータを用いてもよい。
【0019】
カメラ内蔵コンピュータ10、分析サーバ20、学習サーバ30、およびクライアント40は、公知のコンピュータとしてのハードウェア構成を有し、たとえば演算手段および記憶手段を備える。演算手段はたとえばプロセッサを含み、記憶手段はたとえば半導体メモリ装置および磁気ディスク装置等の記憶媒体を含む。記憶媒体の一部または全部が、過渡的でない(non-transitory)記憶媒体であってもよい。
【0020】
また、各コンピュータは入出力手段を備えてもよい。入出力手段は、たとえばキーボードおよびマウス等の入力装置と、ディスプレイおよびプリンタ等の出力装置と、ネットワークインタフェース等の通信装置とを含む。
【0021】
記憶手段はプログラムを記憶してもよい。プロセッサがこのプログラムを実行することにより、コンピュータは本実施例において説明される機能を実行してもよい。たとえば、カメラ内蔵コンピュータ10は第1プログラムを記憶し、この第1プログラムは、カメラを内蔵したコンピュータを、本明細書に記載されるカメラ内蔵コンピュータ10として機能させる。同様に、分析サーバ20は第2プログラムを記憶し、この第2プログラムは、コンピュータを、本明細書に記載される分析サーバ20として機能させる。学習サーバ30は第3プログラムを記憶し、この第3プログラムは、コンピュータを、本明細書に記載される学習サーバ30として機能させる。クライアント40は第4プログラムを記憶し、この第4プログラムは、コンピュータを、本明細書に記載されるクライアント40として機能させる。
【0022】
このように、本実施例に係る複数のプログラムからなる組(プログラムセット)が、複数のコンピュータを備えるコンピュータシステムを、本明細書に記載される画像認識システム100として機能させる。プログラムセットは、とくに第1プログラムおよび第2プログラムを含む。また、本実施例では、プログラムセットは第3プログラムおよび第4プログラムを含むが、第3プログラムおよび第4プログラムは公知のプログラムを用いることができる。
【0023】
カメラ内蔵コンピュータ10は1台以上であり、
図1の例では3台であるが、より多数のカメラ内蔵コンピュータ10を設けてもよい。分析サーバ20、学習サーバ30およびクライアント40は、たとえばそれぞれ1台であるが、これらのいずれかまたはすべてが複数設けられてもよい。または、分析サーバ20、学習サーバ30およびクライアント40のいずれかまたはすべてが、それぞれ複数のコンピュータによって構成されてもよい。
【0024】
通信ネットワークNはたとえばインターネットであり、有線接続ネットワーク、無線接続ネットワークまたはこれらの組み合わせからなるネットワークを含む。インターネット以外のネットワークを含んでもよい。また、変形例において、通信ネットワークNはインターネットを含まない通信ネットワークであってもよい。通信ネットワークNは、画像認識システム100の一部であってもよいが、画像認識システム100の一部としては提供されないもの(インターネットはこれに該当する)であってもよい。
【0025】
図2に、画像認識システム100の機能ブロック図を示す。以下、
図2を用いて画像認識システム100の処理の流れを説明する。
【0026】
カメラ内蔵コンピュータ10は、上述のカメラ11を備える。また、カメラ内蔵コンピュータ10の演算手段は、AI画像切出部12、情報管理部13および出力部14として機能する。さらに、カメラ内蔵コンピュータ10の記憶手段は、記憶部15として機能する。
【0027】
カメラ11は、人物が表れる画像G1を撮像により取得する。AI画像切出部12は、機械学習による学習済みモデル(切出学習モデル)を備えており、これを用いて、画像G1から、物品を表す画像として物品画像G2を切り出して抽出する。切出学習モデルは、上述の第1プログラムに含まれるものであってもよい。
【0028】
図3は、カメラ内蔵コンピュータ10が撮像する画像G1の例を示す。画像G1は、人物が表れる画像であり、たとえばカメラ11によって撮像された画像である。カメラ11によって撮像された画像に基づき、何らかの前処理(ノイズ除去等)が行われた画像であってもよい。
【0029】
画像G1には、人物の他に、物品画像G2が含まれる。物品画像G2は、人物の顔G3が表れない領域(またはそのような領域の一部)に対応する画像である。とくに、物品画像G2は、それぞれ特定の物品に対応する領域として抽出すると好適である。1枚の画像G1に、複数の物品画像G2が含まれる場合もある。
図3の例では、物品画像G2として、コートを表す画像と、使用中の傘を表す画像と、携帯されている状態の傘(すなわち折りたたまれた傘)を表す画像との、合計3枚の物品画像G2が含まれている。
【0030】
AI画像切出部12は、画像G1から、物品画像G2として、人物の顔G3が表れない領域を抽出する。たとえば、物品画像G2(とくに顔G3が表れない領域)として、人物の胴体が表れる領域を抽出してもよい。なお、ここで「胴体」とは、胴のみならず四肢を含むものであってもよい。
【0031】
画像G1から物品画像G2を抽出するための方法は、当業者が公知技術等に基づいて適宜設計することができる。たとえば、まずCNN(畳み込みニューラルネットワーク)などの機械学習技術を用いて画像G1から人物全体(たとえば顔およびコートを含む全体)の領域を特定する。次に、SVM(サポートベクターマシン)などの機械学習技術を用いて、またはCNNなどの機械学習技術を用いて、画像G1のうち顔G3の領域を特定する。さらに、人物全体の領域から顔G3の領域を除去する。具体例として、人物全体の領域のうち、顔G3を含まない矩形領域を特定し、その矩形領域を抽出することにより顔G3の領域を除去することができる。このようにして物品画像G2が抽出される。
【0032】
図4を用いて、物品画像G2を抽出するためのより具体的な処理の例を説明する。
図4(a)は処理前の画像G1を表す。画像G1において、まず人物Hの領域を特定する。次に、
図4(b)に示すように人物Hの領域を抽出し、さらに顔G3の領域を特定する(顔G3の特定は人物Hの領域の抽出前に行ってもよい)。
【0033】
そして、人物Hの領域から顔G3の高さ範囲およびこれより上の範囲を削除する。言い換えると、人物Hの領域において、顔G3の領域の下限およびこれより上の範囲を削除する。結果は
図4(c)のようになり、物品画像G2が抽出される。なお、画像に関する「高さ」「上」「下」等の用語は、たとえば画像のY座標を基準として表される。
【0034】
図4の例は、1枚の画像G1に人物が1人しか表れないか、または、少なくとも複数の人物の領域が互いに重ならないことを想定した処理例であるが、複数の人物の領域が互いに重複する場合にも対応可能な処理を実行してもよい。
【0035】
図5~9を用いて、このような処理の例を説明する。
図5に示すように、画像G1に2人の人物が表れており、一部の領域が互いに前後に重複している。背景側の人物Haの一部が、前景側の人物Hbによって隠されている。
【0036】
まず
図6に前景側の人物Hbに対する処理の例を示す。
図6(a)は処理前の人物Hbの領域を表す。この場合の処理は、
図4の例と同様に実行することができる(後述する人物Haに対する処理を用いることも可能である)。人物Hbの領域から顔G3bの高さ範囲およびこれより上の範囲を削除することにより、
図6(b)に示す物品画像G2bが得られる。
【0037】
図7に、背景側の人物Haに対してこのような処理を行った場合の例を示す。
図7(a)は処理前の人物Haの領域を表す。人物Haの領域には2人の顔G3aおよびG3bが表れており、人物Haの顔G3a(上側の顔)のみ除去したのでは人物Hbの顔G3b(下側の顔)が除去されずに残ってしまい、プライバシー保護は完全ではない。このため、人物Haの領域に含まれる最も下の位置の顔(この例では人物Hbの顔G3b)の高さ範囲およびこれより上の範囲を削除する。結果は
図7(b)に示すようになり、物品画像G2aが抽出される。
図7(b)の物品画像G2aは、物品についての情報を一部含んではいるが、人物Haの領域に含まれる情報が一部失われている。
【0038】
そこで、
図8を用いて、
図5に示す画像G1でもより完全にプライバシー保護を実現できる処理の例を説明する。画像G1において特定された顔(顔G3aおよび顔G3b)の領域に対してモザイク化処理を実行し、これらの領域をモザイク画像MaおよびMbで置き換える。
【0039】
図9は、背景側の人物Haに対する処理を行った場合の例を示す。
図9(a)は、置き換えた後の人物Haの領域を示す。その後、人物Haの領域から人物Haの顔G3aの高さ範囲およびこれより上の範囲を削除することにより、
図9(b)に示す物品画像G2aが得られる(なお顔G3a等の位置はモザイク化処理の前に取得しておくことができる)。
【0040】
図9(b)の物品画像G2aは、前景側の人物Hbのモザイク化処理された顔(モザイク画像Mb)を含んでいるが、モザイク化処理を適切に設計しておければ、プライバシーを十分に保護することができる。また、
図7(b)の例と比較すると、背景側の人物Haに対応する物品画像G2aにおいて、物品についての情報をより多く残存させることができる。
【0041】
図8~
図9の例では、プライバシー保護のためにモザイク化処理を用いたが、モザイク化処理に限らず、プライバシーを保護するための改変処理であれば任意の処理を用いることができる。たとえば顔の領域を特定の色(所定のカラーコードを有する緑色等)で塗りつぶす処理を用いてもよく、顔の領域を特定の画像に置き換える処理を用いてもよい。当業者は、顔の認識または個人の特定が不可能または困難になるような改変を、公知技術等に基づいて適宜設計することができる。
【0042】
このようにして、物品画像G2が抽出される。AI画像切出部12は、抽出した物品画像G2を記憶部15に保存する。また、情報管理部13は、画像G1および物品画像G2に付随する付随情報(たとえば撮像日時、物品画像G2の抽出に用いた学習済みモデルに関する情報、等)を記憶部15に保存する。なお変形例において付随情報を扱わない構成とすることも可能である。
【0043】
出力部14は、物品画像G2および付随情報を記憶部15から取得し、通信ネットワークNを介して分析サーバ20に対して送信(アップロード)する。ここで、とくに通信ネットワークNがインターネットである場合には、カメラ内蔵コンピュータ10および分析サーバ20を広い地理的範囲で分散させることができるので、地理的に自由度の高いシステムを構成することができる。
【0044】
分析サーバ20の演算手段は、入力部21、情報管理部22、AI推定部23、および統計情報出力部24として機能する。さらに、分析サーバ20の記憶手段は、記憶部25として機能する。
【0045】
入力部21は、カメラ内蔵コンピュータ10から送信される物品画像G2および付随情報を受信して取得する。
【0046】
図10は、分析サーバ20の入力部21が取得する物品画像G2の例を示す。画像G1はカメラ内蔵コンピュータ10から送信されないので、人物の顔G3も送信されず、入力部21は顔G3を取得しない。このように、分析サーバ20には個人情報に相当する顔G3の画像は入力されないので、プライバシー保護をより高めることができる。
【0047】
入力部21は、受信した物品画像G2および付随情報を情報管理部22に受け渡す。情報管理部22は、物品画像G2および付随情報を記憶部25に保存する。
【0048】
AI推定部23は、機械学習による学習済みモデル(推定学習モデル)を備えており、これを用いて、物品画像G2に基づき、当該物品画像G2に表れる物品を推定して識別し、識別された物品を表す情報を出力する。推定学習モデルは、上述の第2プログラムに含まれるものであってもよい。
【0049】
図10の例では、物品を表す情報として、コートを表す情報と、使用中の傘を表す情報と、携帯されている状態の傘を表す情報とが出力される。具体例として、AI推定部23は、人物の胴体部分を表す物品画像G2から服装を推定してもよく、また、所持品部分を表す物品画像G2から所持品を推定してもよい。このようにして、人物の服装、所持品、等に関する推定が行われる。
【0050】
AI推定部23は、識別された物品を表す情報を、たとえば記憶部25に保存する。
【0051】
統計情報出力部24は、記憶部25に保存された情報に関する統計情報を生成し、外部のコンピュータに送信する。たとえば、クライアント40からの要求に応じて統計情報をクライアント40に送信する。具体例として、人物の累積識別数、コートの累積識別数、傘(使用中の傘および携帯されている状態の傘を含む)の累積識別数、使用中の傘の累積識別数、携帯されている状態の傘の累積識別数、人物のうちコートを着用していた人物の割合、人物のうち傘を所持していた人物の割合、等が送信される。
【0052】
クライアント40は、分析サーバ20から受信した統計情報を出力する。クライアント40のユーザは、出力された統計情報を閲覧し、情報を得ることができる。たとえば、クライアント40において統計情報を出力することにより、イベント等において必要な所持品に関する情報をリアルタイムに提供することができる。
【0053】
具体例として、人物の服装の割合(Tシャツ、半袖シャツ、長袖シャツ、上着、コート、手袋およびマフラー、等をそれぞれ着用している人物の割合)を出力することにより、イベント会場の気温に関する情報を提供することができる。また、人物の所持品のうちとくに傘の割合(雨傘を使用している、日傘を使用している、雨傘を携帯しているが使用していない、日傘を携帯しているが使用していない、等の割合)を出力することにより、イベント会場の天気に関する情報を提供することができる。
【0054】
また、たとえば、企業のオフィス、公共施設、等のフロアにおけるマスクの着用率を提供することができる。より詳細には、カメラ内蔵コンピュータ10を各フロアに設置しておく。そして、各フロアにおいて検出された人物の数と、そのうちマスクを着用している人物の割合とを出力することにより、フロアの混雑状況およびマスク着用率を提供することができる。この場合には、顔(とくにマスクによって覆われない部分)とは独立してマスクを検出することができる学習済みモデルを用いると好適である。
【0055】
また、特定種類の物品画像G2に関する情報を提供することにより、所持品監視を行うことができる。たとえば、試験会場、新幹線、美術館、映画館、等において、特定の場所に滞在する特定の人物が、所持すべきでない物品(たとえば試験会場におけるスマートフォン、新幹線におけるハンマー、等)を所持しているという情報を提供すれば、公平性または安全性をより高めることができる。
【0056】
さらに、その際に、分析サーバ20が当該人物の胴体を表す物品画像に基づいて服装を推定し、クライアント40が当該人物の服装を表す情報を出力すれば、顔画像が提供されない場合であっても、容易に人物を特定することができる。また、カメラ内蔵コンピュータ10において、画像G1に基づいて当該人物の位置(たとえば「前からm列目、右からn席目の座席」等)を推定できる場合には、クライアント40が人物の位置を出力すれば、さらに容易に人物を特定することができる。加えて、複数のカメラ11が同一の人物を含む領域を撮像するようにすれば、より確実に人物を特定することができる。
【0057】
上述の切出学習モデルおよび推定学習モデルは、任意の方法で生成することができるが、一例を以下に説明する。
【0058】
図2に示すように、学習サーバ30の演算手段は、切出学習モデル生成部31および推定学習モデル生成部32として機能する。また、学習サーバ30の記憶手段は、記憶部33として機能する。切出学習モデル生成部31は、機械学習処理を実行することにより、上述の切出学習モデルを生成する。推定学習モデル生成部32は、機械学習処理を実行することにより、上述の推定学習モデルを生成する。生成された各モデルは、記憶部33に保存される。機械学習に用いるモデルの構成および教師データ等は、当業者が公知技術等に基づいて適宜準備することができる。
【0059】
学習サーバ30は、学習済みモデルである切出学習モデル(またはそのパラメータ)を、カメラ内蔵コンピュータ10に送信する。カメラ内蔵コンピュータ10はこれを受信してインストールし、これによってAI画像切出部12を構築する。同様に、学習サーバ30は、学習済みモデルである推定学習モデル(またはそのパラメータ)を、分析サーバ20に送信する。分析サーバ20はこれを受信してインストールし、これによってAI推定部23を構築する。
【0060】
以上説明するように、実施例1に係る画像認識システム100によれば、物品を識別する処理の前に、カメラ内蔵コンピュータ10が、画像G1から分析に必要な部分のみを切り出す。このため、分析サーバの性能要件が緩和される。また、従来と同じ性能の分析サーバを用いる場合には、リアルタイム処理の性能を高めることができる。
【0061】
また、分析サーバ20では顔G3を含む画像を受信しないので、プライバシーに配慮したシステム構成が実現可能となる。また、カメラ内蔵コンピュータ10において、物品画像G2を抽出した後に画像G1を破棄するように構成すれば、プライバシーへの配慮をより高めることができる。
【符号の説明】
【0062】
10…カメラ内蔵コンピュータ(第1コンピュータ)
11…カメラ
12…AI画像切出部
13…情報管理部
14…出力部
15…記憶部
20…分析サーバ(第2コンピュータ)
21…入力部
22…情報管理部
23…AI推定部
24…統計情報出力部
25…記憶部
30…学習サーバ
31…切出学習モデル生成部
32…推定学習モデル生成部
33…記憶部
40…クライアント
100…画像認識システム
N…通信ネットワーク(インターネット)
G1…画像(人物が表れる画像)
G2、G2a、G2b…物品画像
G3、G3a、G3b…顔
Ha、Hb…人物
Ma、Mb…モザイク画像