(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023098770
(43)【公開日】2023-07-11
(54)【発明の名称】入退記録装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20230704BHJP
G06T 7/90 20170101ALI20230704BHJP
G07C 9/37 20200101ALI20230704BHJP
H04N 7/18 20060101ALI20230704BHJP
【FI】
G06T7/00 660B
G06T7/90 D
G07C9/37
H04N7/18 D
【審査請求】未請求
【請求項の数】1
【出願形態】OL
(21)【出願番号】P 2021215433
(22)【出願日】2021-12-29
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】715008403
【氏名又は名称】茨木 宏治
(72)【発明者】
【氏名】茨木 宏治
【テーマコード(参考)】
3E138
5C054
5L096
【Fターム(参考)】
3E138AA01
3E138JA03
3E138JB16
3E138JC19
5C054CA04
5C054CC02
5C054CE04
5C054DA07
5C054GB02
5C054HA19
5L096AA02
5L096AA06
5L096BA02
5L096BA08
5L096CA02
5L096DA02
5L096FA32
5L096FA64
5L096FA66
5L096GA34
5L096HA11
(57)【要約】 (修正有)
【課題】出入口の入退出管理をカメラの画像認識により行う、顔の向きや人の重なりの影響を受けにくい、入退記録装置を提供する。
【解決手段】入退記録装置は、画像より人の部位および骨格を表示するアルゴリズムを使用し、その部位の座標から服装の各部分の色を取得し,身長と体の太さと推定髪型を通行人の特長要素とする。特長要素を一定間隔で複数回取得する事により人の重なりによる情報の欠落を低減し、移動方向により入場か退出かを判断する。退出者の特長要素リストを入場者のリストと比較し、退出者の入場場所と時刻を記録する。退出者の要素の数値が入場者と近接していれば、その要素は一致とする。一定間隔で取得した複数個の要素の中で一つでも一致があればその要素は一致とする。一致と判断した特長要素の数が一番多い入場者を退出者と同一人物とする。
【選択図】
図4
【特許請求の範囲】
【請求項1】
一つまたは複数の出入口を持つ建物、部屋、車両等の出入口に設置するカメラの映像により、映像内の人を検知し、概人の骨格を表示する手段と、骨格における頭、腕、腰、膝、足先等の部位のカメラ映像上の座標を取得し、概座標周辺の一定領域の色差データ平均値を各部位ごとに取得する事により入退者の服装の特長とする第1の手段と、概関節の座標とカメラの設置の高さから身長を推定する第2の手段と、頭周辺の髪の毛を想定した位置の色差データの平均値を取得する事により髪型を推定する第3の手段と、腰周辺の幅を推定する第4のの手段により、入退者の特長要素のリストを作成する手段を有し、概リストは入退者がカメラフレームに入った時から出る直前までの複数の時点の情報から作成し、退出者の特長要素リストとそれ以前に入場した人の特長要素のリストを照合し、一番数値の近い人を同一人物として、概人物の入場時刻と場所、退出時刻と場所および人数を記録することを特徴とする入退記録装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、建物、部屋、車両等へ入退する人の特長を認識する事により、退出者の、退出時刻と場所及びその退出者の入場時刻と入場場所を記録する装置に関する。
【背景技術】
【0002】
近年、単眼のビデオカメラによる画像認識技術は飛躍的な性能の向上が見られるようになった。畳み込みニューラルネットワークの手法によるディープラーニング(深層学習)によりカメラ映像から物体認識が可能となり、「人」の認識が実用レベルとなっている。
さらに、人を認識した上でその人の姿勢を推定するアルゴリズムが開発されている。
【0003】
このアルゴリズムはカメラ画像の中の人間の関節点を抽出し、人のポーズを解析するものであり骨格認識、骨格検知とも呼ばれる。
【0004】
この姿勢推定アルゴリズムで代表的なものは、後述非特許文献1に示すカーネギーメロン大学の教授による論文であり、このアルゴリズムをライブラリとして入手可能なものにしたOpenPoseが有名である。
【0005】
OpenPoseはディープラーニングのフレームワークであるCaffeで動くことを想定して開発されたものである。従って、人体部分のモデルはcaffemodelという記述になる。Caffeは現在Pytorchに統合されているのでPytorch版も存在する。
【0006】
近年ではフレームワークであるTensorflowをベースにしたもの等、Google社を始め数社から同様のアルゴリズムを用いたものが多数公開されている
【0007】
一方、画像認識技術において、顔認識技術も飛躍的な精度の向上が見られ、顔の中の目、鼻、口などの特徴点の位置や大きさを元に照合をおこなう顔認証は実用技術となり、
各社が販売するソフトウェアは様々な特徴を加え、精度を競っている。
【0008】
顔認証は画像が正面にちかい顔画像であれば精度が高くなる。横からの顔画像であったり、上からの画像であったりすると精度が悪くなる。又、メガネの有無やマスクをしている場合の対処等、精度を高めるための工夫が各社ソフトウェアの特長となる。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2020-042374 入退室管理システム
【非特許文献】
【0010】
【非特許文献1】Realtime Multi-Person 2D Pose Estimation using Affinity Field The Robotics Institute, Carnegie Mellon University
【発明の概要】
【発明が解決しようとする課題】
【0011】
先行技術文献
【特許文献1】入退室管理システムのように、出入口のゲートを開けさせるための手段としての顔認証装置のように、カメラに人を正対させることが可能な場合は顔認証が強力な手段となる。しかし、複数人が自由に出入りする出入口において、しかもカメラが1台とすると入場者と退出者は移動方向が真逆であるので顔を同時にとらえることは不可能である。カメラを2台使い、入場用と退出用の方向に向ければかなり改善されるが、入退者が必ずカメラの方向に向いてくれるとは限らず、顔を上からではなく正面からとらえようとカメラの位置を下げれば下げるほど人の重なりが発生し、精度が上がらなくなる。従って、ある時刻に、ある出入口から入った入場者が、何時にどこの出口から退出したというのを記録する入退記録装置においては顔認証のみでは十分な性能を発揮することが出来ない。
【0012】
本提案は、建物、部屋、車両等への入退出において、入場した人は必ず閉館、閉場、運行の終了までに退出するという案件において、1個の出入口に対して1台の監視カメラのみで、高度な認証技術をもつサーバーへの通信を必要とすることなく、現場に設置する機器だけで精度の高い入退記録を実現する事を目的とする。
【課題を解決するための手段】
【0013】
複数個の出入口にそれぞれビデオカメラを設置し入退出者を監視する。
入退出者が混在する出入口であれば入退出者の動きで入場か退出かを区別し、入場者と退出者の特長を比較して同一人物を特定し、入場と退出の時刻と出入口名を記録する。
【0014】
比較する為の第1の特長を入退者の身長及び足の長さとする。
手の長さも対象となり得るが、手はカメラ方向前後に向く可能性があるため手の角度によるカメラ補正が複雑になるので除外する。
【0015】
身長及び足の長さの計測には
前記(0004)~(0006)に示した姿勢推定アルゴリズムを利用する。実際に使用したライブラリはOpenPoseであるので、以下OpenPoseと記述する。
OpenPoseにおいては、画像の中から「人」を検知し、
図1に示すようなその人の骨格を表示する。検知した入退出者は最終的にリスト化するため識別子を付けてラベリングする。
ラベリングした入退出者の移動方向の判別は足先の部分の座標を利用する。ビデオ信号におけるフレームレート間で最も近い足先の座標をもつ入退出者を前のフレームにおける入退出者と同一人物としてラベルを引き継ぐ。
【0016】
カメラの画像の中で、入場者が通過する最初の領域(フレームイン領域)と、画角から消える最後の領域(フレームアウト領域)を決めておく。退場者も同様にフレームイン領域とフレームアウト領域を決めておき、入場者の足先の座標が入場時のフレームアウト領域に達したとき、同じラベルの入場者がフレームイン領域に一定時間内にいたことがある場合は入場者とカウントする。同様に退場者が退場時のフレームアウト領域に達したとき、同じラベルの退場者が、退場時のフレームイン領域に一定時間内にいたことがあれば退場者とカウントする。
【0017】
一度入場者とカウントされた人が一定時間以内に退場者とカウントされた場合は入場と退場のカウントは削除する。同様に一度退場者とカウントされた人が一定時間以内に入場者とカウントされた場合は入場と退場のカウントは削除する。
【0018】
本提案の求めるのは絶対的な身長の数値ではなく、入場と退場時の相対的な数値であるが、出入口が複数ある場合はカメラを設置できる場所の制限を受けるので、身長と足の長さの数値にカメラの高さの補正を加える。
また、入退者とカメラの距離も関係するが、画角の中の奥行方向のどこを歩くか不明であるため、距離が既知である範囲でのみ計測を行うこととする。
【0019】
図2にカメラ補正の原理をしめす。人は垂直に立っているのでカメラ補正の要素はカメラとの距離とカメラの高さである。OpenPose画面上での関節間のユークリッド距離の和で求められるが、頭部の長さはOpenPoseからは出力しないので足先から首までの長さで代用する。
【0020】
比較する第2の特長として服装の色を対象とする。
OpenPoseでは体の関節の他、首、手、足、胸、足先等の画面上の座標を取得することが可能である。これらの画面上の座標近傍の色を取得することが、入退出者の比較のための要素となる。
【0021】
図3に特長比較要素を示す。
例えば、上腕、腰の部分、足の大腿部(膝上)、下腿部(脛)、足先(踵)つまり靴の部分の一定範囲の画素における色差データ(R-Y,B-Y)を画素毎に平均化し、データをラベリングした人に関連付ける。
【0022】
比較する第3の特長として顔周辺の特徴点を探す。耳から目に向かっている直線部分の検出により眼鏡の検出が可能である。直線の検出についてはOpenCVの関数が利用できる。
又、髪型は人の特長を表す重要な要素である。髪型の検出として、耳の下の一定範囲の色差データが耳の上とほぼ同じかどうか、また首の後ろの部分に頭の部分と同じ色のかたまりがあるかどうか等を判断する。
【0023】
本提案では顔認証の要素は考慮していないが、
図3の例で入場者が斜め後ろからのアングルでも目及び眉毛をとらえているのがわかる。特徴比較の要素として眉毛の位置から前髪までの距離を加える。眉毛の上の一定領域が耳の上の一定領域の色差信号に近くなるまでの距離を特徴要素とする。
【0024】
比較する第4の特長として
腹周辺及び腰周辺の輪郭抽出を行い背骨と直交線上での幅を計算する。
【0025】
以上の様な入退者の特徴は
図5に示す様なリストにする。ここでは表で示すが、実際の機械は組込み用のデバイスであるのでcsvファイルの形態をとる。
図5では横方向に入退者の特徴要素を並べ、その特徴の時間経過のデータを縦に並べている。
ただし、前述(0018)に記した様に身長、足の長さ、眉毛の位置から前髪までの距離等、長さに関連するものについては特定の時刻(特定の場所)の1項目で有効である。
【0026】
本提案ではこの場所の画像を入場者と退出者の見出し画像(サムネイル)として入退記録で利用する。
【0027】
時間経過のデータとは入退出者が前述フレームイン領域からフレームレートより長い一定時間毎のデータであり、フレームアウト領域に達するまで続く。この間、入退出者は体を移動/回転させて色々なデータがとれるかも知れない。また他の入退出者と重なって一部のデータが取れないかもしれない。特長要素を一定間隔で複数回取得する事により人の重なりが解消する可能性がある。
【0028】
入場者と退出者の比較は特長要素を並べた横方向の「行」同士で比較する。
図5、および
図6に特長要素リストの例を示す。
図7には比較方法の例を示す。この例では時間経過の要素を4秒間隔の3回とする。
【0029】
退出者の、ある要素の数値が入場者の同じ要素における数値と一定範囲内で近接していれば、その要素は一致とする。その要素が不一致でも時間経過の複数個の要素の中で一つでも一致があればその特長要素は一致とする。
図7には一致した特長要素の数を時間経過のタイミングごとに記述している。一致と判断した特長要素の数が一番多い入場者を退出者と同一人物とする。この方法により人の重なりや姿勢による特長要素の欠落が起こった場合でも精度の悪化を防止することが可能となる。
【発明の効果】
【0030】
本提案によれば、入退出者が混在する出入口毎に監視カメラ1台を配置してその映像を解析する事により入退者の利用した出入口と通過人数及び入退時刻を取得することが出来る。
【図面の簡単な説明】
【0031】
【発明を実施するための形態】
【実施例0032】
本実施例においては出入口が3か所ある建物について記述する。
図4にシステムを示す。
出入口1は入場者と退出者が同じドアから出入りする。この出入り口をカメラ4により監視し、カメラ画像が入退記録装置5内の画像処理部6に送られる。画像処理部6は画像処理に特化した組み込み型のコンピュータの構成と同じものである。
【0033】
一つの出入口に対して入退記録装置一つが対応する。従って、出入口が一つしかない部屋、建物、乗り物であれば出入口1のみの構成となる。本例では出入口が3ケ所であるので出入口1と同じ構成の出入口2,出入口3が存在する。
【0034】
一つの入退記録装置にカメラを複数個接続する方法も考えられるが、深層学習の処理は膨大な計算能力が必要であるため複数の画像を画像処理部で同時に処理するのは負担がかかりすぎる。さらには情報量が大きい映像をネットワークに複数個流すのはデメリットが多い。
【0035】
無線通信部8は出入口1,出入口2、出入口3が入退記録のデータの通信を行うためのものである。通常は無線LANもしくはLTE通信となる。
メディア記録部7はSDカードやUSBメモリ等である。入退出記録データを読み書きしてもよいが、入退記録装置のメンテナンスに使用する。
【0036】
無線通信部により入退記録装置は他の2つの入退記録装置のデータにアクセスできるため、その会場の入退記録はどの入退記録装置が行ってもよい。また、3つの入記録装置とは別に計算専用のパーソナルコンピュータがデータを集めて集計しても良い。
【0037】
本例では、それぞれの入退記録装置がその時点までの他2つの入退記録装置の入場者のデータを常時集めており、退出者が出た時点で(0028)に示した方法により入場者を推定する。入場者の入場場所と時刻、およびその入場者の退出場所と時刻の入退記録は
会場が閉館、閉室、車両の場合は運行終了になった時点で各入退記録装置の記録を集計して作成する。