IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セコム株式会社の特許一覧

<>
  • 特許-画像処理システム及び制御プログラム 図1
  • 特許-画像処理システム及び制御プログラム 図2
  • 特許-画像処理システム及び制御プログラム 図3
  • 特許-画像処理システム及び制御プログラム 図4
  • 特許-画像処理システム及び制御プログラム 図5
  • 特許-画像処理システム及び制御プログラム 図6
  • 特許-画像処理システム及び制御プログラム 図7
  • 特許-画像処理システム及び制御プログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-25
(45)【発行日】2024-10-03
(54)【発明の名称】画像処理システム及び制御プログラム
(51)【国際特許分類】
   G06T 7/20 20170101AFI20240926BHJP
   G06T 7/194 20170101ALI20240926BHJP
   G06V 40/20 20220101ALI20240926BHJP
【FI】
G06T7/20 300A
G06T7/194
G06V40/20
【請求項の数】 9
(21)【出願番号】P 2020050251
(22)【出願日】2020-03-19
(65)【公開番号】P2021149691
(43)【公開日】2021-09-27
【審査請求日】2023-03-17
(73)【特許権者】
【識別番号】000108085
【氏名又は名称】セコム株式会社
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100114018
【弁理士】
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100180806
【弁理士】
【氏名又は名称】三浦 剛
(72)【発明者】
【氏名】今田 翔平
(72)【発明者】
【氏名】青木 秀行
【審査官】菊池 伸郎
(56)【参考文献】
【文献】特開2019-200522(JP,A)
【文献】国際公開第2018/189880(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00-7/90
G06V 10/00-40/70
(57)【特許請求の範囲】
【請求項1】
監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得する距離画像取得手段と、
前記順次取得される距離画像に対応した、前記監視空間内の濃淡に関する情報を階調値とする2次元画像を順次取得する2次元画像取得手段と、
前記距離画像取得手段により所定期間に取得された複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、前記グループの中で階調値が相対的に小さい画素又は領域を特定し、前記グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、前記特定された画素又は領域に対応する画素又は領域を用いて、所定期間に取得された複数の2次元画像が合成された処理画像を生成する合成手段と、
を有することを特徴とする画像処理システム。
【請求項2】
前記合成手段は、前記グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、前記特定された画素又は領域に対応する画素又は領域の階調値を、当該グループに対応する画素又は領域の階調値として処理画像を生成する、請求項1に記載の画像処理システム。
【請求項3】
前記合成手段は、前記グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、前記特定された画素又は領域に対応する画素又は領域の階調値を、当該グループに対応する画素又は領域の第1成分の階調値とし、前記距離画像内で当該グループ毎に特定された画素又は領域の階調値を、当該グループに対応する画素又は領域の第2成分の階調値とするように前記処理画像を生成する、請求項1または2に記載の画像処理システム。
【請求項4】
入力された学習用処理画像に含まれる人物のジェスチャ動作に関する情報を出力するように学習されたモデルに前記処理画像を入力し、前記モデルから出力された情報に基づいて、前記監視空間内の人物のジェスチャ動作を検出する検出手段をさらに有する、請求項1~3の何れか一項に記載の画像処理システム。
【請求項5】
前記距離画像又は前記2次元画像内で人物を含む人物領域を検出する人物領域検出手段をさらに有し、
前記合成手段は、前記検出された人物領域に対応するグループに限り、当該グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、前記特定された画素又は領域に対応する画素又は領域を用いて、前記処理画像を生成する、請求項1~4の何れか一項に記載の画像処理システム。
【請求項6】
前記処理画像に基づいて、前記監視空間内に存在する人物の前方でなされた所定のジェスチャ動作を検出する検出手段をさらに有する、請求項1~3の何れか一項に記載の画像処理システム。
【請求項7】
監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得する距離画像取得手段と、
前記距離画像取得手段により所定期間に取得された複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、前記グループの中で相対的に短い距離を示す階調値の画素又は領域を特定し、
前記グループ毎に特定された画素又は領域の階調値を用いて、所定期間に取得された複数の距離画像を合成して処理画像を生成する処理画像生成手段と、
を有することを特徴とする画像処理システム。
【請求項8】
監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得し、
前記順次取得した距離画像に対応して、前記監視空間内の濃淡に関する情報を階調値とする2次元画像を順次取得し、
所定期間に取得した複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、前記グループの中で階調値が相対的に小さい画素又は領域を特定し、
前記グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、前記特定された画素又は領域に対応する画素又は領域を用いて、所定期間に取得した複数の2次元画像を合成して処理画像を生成する、
ことをコンピュータに実行させることを特徴とする制御プログラム。
【請求項9】
監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得し、
所定期間に取得した複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、前記グループの中で相対的に短い距離を示す階調値の画素又は領域を特定し、
前記グループ毎に特定された画素又は領域の階調値を用いて、所定期間に取得した複数の距離画像を合成して処理画像を生成する、
ことをコンピュータに実行させることを特徴とする制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人物のジェスチャを検出する画像処理システム及び制御プログラムに関する。
【背景技術】
【0002】
近年、監視空間を撮像した画像に基づいて、人物のジェスチャを検出する画像処理システムが開発されている。
【0003】
特許文献1には、強度変化する光を物体に発し、その光の物体による反射光を外光から分離して検出し、光の物体による反射光画像を検出する情報入力装置が開示されている。
【0004】
特許文献2には、物体の所定の周期による往復動作を認識する携帯式コンピュータが開示されている。この携帯式コンピュータは、物体を撮影したイメージ・センサから連続する複数のフレームを受け取る。次にこの携帯式コンピュータは、背景画像と各フレームが含むブラー画像を比較し、対応する画素の階調値の差を計算して2値化した差分画像から物体の動作を認識する。
【先行技術文献】
【特許文献】
【0005】
【文献】特開平10-177449号公報
【文献】特許第5782061号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
画像処理システムでは、監視空間内の人物のジェスチャを精度良く検出することが望まれている。
【0007】
本発明が解決しようとする課題は、撮影画像において動いた物体の動作を認識し易い画像を生成する画像処理システム及び制御プログラムを提供することである。また、監視空間内の人物が手を前に出して行うジェスチャを精度良く認識することができる画像処理システム及び制御プログラムを提供することである。
【課題を解決するための手段】
【0008】
上述の課題を解決するため、本発明は、その一態様として、監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得する距離画像取得手段と、順次取得される距離画像に対応した、監視空間内の濃淡に関する情報を階調値とする2次元画像を順次取得する2次元画像取得手段と、距離画像取得手段により所定期間に取得された複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、グループの中で階調値が相対的に小さい画素又は領域を特定し、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域を用いて、所定期間に取得された複数の2次元画像が合成された処理画像を生成する合成手段と、を有することを特徴とする画像処理システムを提供する。
【0009】
上記の画像処理システムにおいて、合成手段は、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域の階調値を、そのグループに対応する画素又は領域の階調値として処理画像を生成することが好ましい。
【0010】
上記の画像処理システムにおいて、合成手段は、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域の階調値を、そのグループに対応する画素又は領域の第1成分の階調値とし、距離画像内でそのグループ毎に特定された画素又は領域の階調値を、そのグループに対応する画素又は領域の第2成分の階調値とするように処理画像を生成することが好ましい。
【0011】
上記の画像処理システムにおいて、入力された学習用処理画像に含まれる人物のジェスチャ動作に関する情報を出力するように学習されたモデルに処理画像を入力し、モデルから出力された情報に基づいて、監視空間内の人物のジェスチャ動作を検出する検出手段をさらに有することが好ましい。
【0012】
上記の画像処理システムにおいて、距離画像又は2次元画像内で人物を含む人物領域を検出する人物領域検出手段をさらに有し、合成手段は、検出された人物領域に対応するグループに限り、そのグループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域を用いて、処理画像を生成することが好ましい。
【0013】
上記の画像処理システムにおいて、処理画像に基づいて、監視空間内に存在する人物の前方でなされた所定のジェスチャ動作を検出する検出手段をさらに有することが好ましい。
【0014】
また、上述の課題を解決するため、本発明は、他の一態様として、監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得する距離画像取得手段と、距離画像取得手段により所定期間に取得された複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、グループの中で階調値が相対的に小さい画素又は領域を特定し、グループ毎に特定された画素又は領域を用いて、所定期間に取得された複数の距離画像を合成して処理画像を生成する処理画像生成手段と、を有することを特徴とする画像処理システムを提供する。
【0015】
また、上述の課題を解決するため、本発明は、他の一態様として、監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得し、順次取得した距離画像に対応して、監視空間内の濃淡に関する情報を階調値とする2次元画像を順次取得し、所定期間に取得した複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、グループの中で階調値が相対的に小さい画素又は領域を特定し、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域を用いて、所定期間に取得した複数の2次元画像を合成して処理画像を生成する、ことをコンピュータに実行させることを特徴とする制御プログラムを提供する。
【0016】
また、上述の課題を解決するため、本発明は、他の一態様として、監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得し、所定期間に取得した複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、グループの中で階調値が相対的に小さい画素又は領域を特定し、グループ毎に特定された画素又は領域を用いて、所定期間に取得した複数の距離画像を合成して処理画像を生成する、ことをコンピュータに実行させることを特徴とする制御プログラムを提供する。
【発明の効果】
【0017】
本発明によれば、撮影画像において動いた物体の動作を認識し易い画像を生成する画像処理システム及び制御プログラムを提供することができる。また、監視空間内の人物が手を前に出して行うジェスチャを精度良く認識することができる画像処理システム及び制御プログラムを提供することができる。
【図面の簡単な説明】
【0018】
図1】画像処理システムのブロック図である。
図2】画像処理システムの動作を示すフローチャートである。
図3】各処理画像内の画素間の対応関係について説明するための図である。
図4】処理画像について説明するための概念図である。
図5】処理画像について説明するための概念図である。
図6】処理画像の一例である。
図7】処理画像の一例である。
図8】処理画像の一例である。
【発明を実施するための形態】
【0019】
以下、図面を参照しつつ、本発明の様々な実施形態について説明する。ただし、本発明の技術的範囲は、それらの実施形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。また、各図において同一、又は相当する機能を有するものは、同一符号を付し、その説明を省略又は簡潔にすることもある。
【0020】
(画像処理システム1の概要)
図1は、画像処理システム1のブロック図である。画像処理システム1は、監視空間内の人物、例えば入院患者又は被介護者の見守り等に用いられ、見守り対象者による手を振る動作等をジェスチャとして検出して、見守り者が使用する外部装置に通知する。画像処理システム1は、撮像装置2、距離センサ3、画像処理装置4等を有する。
【0021】
撮像装置2は、画像生成手段の一例であり、監視空間を撮像した2次元画像を順次生成する。2次元画像は、監視空間内の濃淡に関する情報(輝度値または色値等)を階調値とする複数の画素が2次元に配置された画像である。撮像装置2は、発光器、2次元検出器、結像光学系及びA/D変換器等を有する。発光器は、例えば約890nmの波長を持つ近赤外光を監視空間に向けて照射する。2次元検出器は、CCD(Charge-Coupled Device)素子、C-MOS(Complementary MOS)など、近赤外光に感度を有する光電変換器を有する。結像光学系は、2次元検出器上に監視場所の像を結像する。A/D変換器は、2次元検出器から出力された電気信号を増幅し、アナログ/デジタル(A/D)変換する。
【0022】
撮像装置2は、一定の時間間隔(例えば1/30秒)毎に発光器に近赤外光を照射させながら監視空間を撮像し、各画素が近赤外光の強度を表す輝度値を階調値として有する近赤外光画像を2次元画像として生成し、画像処理装置4へ出力する。人間は近赤外光を直接視認することができないので、撮像装置2は、監視空間内の人物の視覚に影響を与えない。このため、画像処理システム1は、例えば入院患者または被介護者の見守りを行う場合に、入院患者または被介護者の就寝を妨げることなく、見守りを行うことができる。
【0023】
尚、2次元検出器は、可視光に感度を有する光電変換器を有し、各画素が可視光の輝度値、RGB値又はCMY値を階調値として有する可視光画像を2次元画像として生成してもよい。この場合、発光器は省略されてもよい。
【0024】
距離センサ3は、距離画像生成手段の一例であり、距離画像を順次生成する。距離画像は、監視空間内の基準位置から物体の対応する位置までの距離に関する情報を階調値とする複数の画素が2次元に配置された画像である。基準位置は、距離センサ3の配置位置である。距離センサ3は、撮像装置2が撮影を行う毎に、撮像装置2の発光器が近赤外線を照射するタイミングとずらしたタイミングで、撮像装置2の撮影範囲に向けて近赤外線を照射する。距離センサ3は、2次元画像内の各画素に対応する監視空間内の各位置に探査信号を順次照射する。例えば、距離センサ3は、撮像装置2の撮影範囲を水平方向及び垂直方向に2次元画像の水平方向及び垂直方向の画素数で等間隔に分割し、分割した各領域内の位置を2次元画像内の各画素に対応する位置として設定する。距離センサ3は、探査信号が照射された走査方位に沿って到来する反射信号を受光し、反射信号の強度に応じた値を持つ受光信号を生成する。
【0025】
距離センサ3は、探査信号の位相情報と、現時点で探査信号が照射されている方向を表す角度情報と、受光信号とに基づいて、走査方位ごとに、距離センサ3から反射信号を反射した物体までの距離を測定し、走査方位とその距離との関係を示す測距データを生成する。例えば、距離センサ3は、Time Of Flight法に従って、受光信号から求めた反射信号の位相と探査信号の位相との差を求め、その差に基づいて距離を測定する。距離センサ3は、測距データに示される各走査方位に対応する距離に応じた値を、各走査方位に対応する画素の階調値とした距離画像を生成し、画像処理装置4へ出力する。例えば、距離センサ3は、予め定められた距離範囲(例えば0.5m~7m)を256段階に等間隔に区分して0から255までの各値を割り当てる。距離センサ3は、測距データに示される各走査方位に対応する距離が属する区分に割り当てられた値を、各走査方位に対応する画素の階調値として設定する。対応する物体までの距離が短いほど階調値が小さくなり、対応する物体までの距離が長いほど階調値が大きくなるように、各階調値は設定される。
【0026】
尚、距離センサ3は、近赤外光やミリ波・レーザーなどを照射して物体に反射して返ってくる時間を計測するTOF・LiDAR方式、ステレオカメラなどを用いて三角測量を行う方式等の他の公知の方式に従って距離を測定してもよい。
【0027】
このように、距離センサ3は、順次生成される2次元画像に対応して、距離画像を順次生成する。即ち、撮像装置2は、順次生成される距離画像に対応して、2次元画像を順次生成する。
【0028】
尚、撮像装置2と距離センサ3は、離間して配置し、撮影及び測定してもよい。その場合、処理部12が、監視空間内の同一位置に対応する画素が2次元画像及び距離画像内で同一位置に配置されるように、2次元画像又は距離画像を補正する。画像処理装置4は、2次元画像及び距離画像の各画素の関係が示されるテーブルを記憶部9に予め記憶しておき、処理部12は、記憶部9に記憶されたテーブルを参照して画像を補正する。
【0029】
また、撮像装置2と距離センサ3の一部または全部が共通に用いられてもよい。例えば、撮像装置2及び距離センサ3は、共通の発光器及び/又は受光器を用いて2次元画像及び距離画像を生成してもよい。
【0030】
画像処理装置4は、デスクトップコンピュータ、ワークステーション、ノートパソコン等の一般的なコンピュータである。画像処理装置4は、インタフェース部5、入力部6、表示部7、通信部8、記憶部9、処理部12、データバスBを有する。
【0031】
インタフェース部5は、撮像装置2及び距離センサ3とデータ通信を行うためのインタフェース回路を有し、撮像装置2及び距離センサ3と電気的に接続して、各種の制御信号又は画像信号を送受信する。なお、画像処理装置4が撮像装置2及び距離センサ3を有していてもよい。
【0032】
入力部6は、(キーボード、マウス等の)入力装置、及び、入力装置から信号を取得するインタフェース回路を有し、画像処理装置4を操作するオペレータからの入力操作を受け付ける。
【0033】
表示部7は、液晶、有機EL(Electro-Luminescence)等のディスプレイ及びディスプレイに画像データを出力するインタフェース回路を有し、各種の情報をディスプレイに表示する。
【0034】
通信部8は、出力手段の一例であり、例えばTCP/IP等に準拠した通信インタフェース回路を有し、インターネット等の通信ネットワークに接続する。通信部8は、通信ネットワークから受信したデータを処理部12へ出力し、処理部12から入力されたデータを通信ネットワークに送信する。
【0035】
記憶部9は、ROM、RAM等の半導体メモリ、磁気ディスク又はCD-ROM、DVD-ROM等の光ディスクドライブ及びその記録媒体を有する。また、記憶部9は、画像処理装置4を制御するための制御プログラム及び各種データを記憶し、処理部12との間でこれらの情報を入出力する。コンピュータプログラムは、CD-ROM、DVD-ROM等のコンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて記憶部9にインストールされてもよい。また、記憶部9は、データとして、モデル10、背景画像11を記憶する。
【0036】
モデル10は、入力された画像に対して、その画像に検出対象となるジェスチャが含まれている確からしさを示す評価値を出力するように事前学習された判定モデルである。評価値は、その画像に検出対象となるジェスチャが含まれている可能性が高いほど高くなるように定められる。
【0037】
背景画像11は、無人状態の監視空間が撮影されて生成された2次元画像である。背景画像11は、定期的に、または、監視空間内に人物が存在しないと判定されたタイミングで、適宜更新されてもよい。
【0038】
処理部12は、CPU、MPU等のプロセッサと、ROM、RAM等のメモリと、その周辺回路とを有し、画像処理装置4の各種信号処理を実行する。なお、処理部12として、DSP、LSI、ASIC、FPGA等が用いられてもよい。処理部12は、距離画像取得手段13、2次元画像取得手段14、人物領域検出手段15、抽出手段16、処理画像生成手段17、検出手段18、出力制御手段19、学習手段20等を有する。
【0039】
(画像処理システム1のジェスチャ検出動作)
図2は、画像処理システム1の動作シーケンスを示すフローチャートである。この動作シーケンスは、記憶部9に記憶されている制御プログラムに基づいて、主に処理部12により、画像処理装置4の各要素と協働して実行される。この動作シーケンスは、距離画像及び2次元画像が生成される時間間隔ごとに実行される。
【0040】
まず、距離画像取得手段13は、距離センサ3が生成した最新の距離画像を取得する(ステップS1)。距離画像取得手段13は、監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得する。距離画像取得手段13は、取得した距離画像を、取得した時刻と関連付けて記憶部9に記憶させる。
【0041】
次に、2次元画像取得手段14は、撮像装置2が生成した最新の2次元画像を取得する(ステップS2)。2次元画像取得手段14は、順次取得される距離画像に対応した、監視空間内の濃淡に関する情報を階調値とする2次元画像を順次取得する。2次元画像取得手段14は、取得した2次元画像を、取得した時刻と関連付けて記憶部9に記憶させる。このように、距離画像取得手段13は、距離センサ3が順次生成した距離画像を順次取得し、2次元画像取得手段14は、距離センサ3が順次生成した距離画像に対応して撮像装置2が順次生成した2次元画像を順次取得する。
【0042】
次に、人物領域検出手段15は、2次元画像内で人物を含む人物領域を検出する(ステップS3)。
【0043】
人物領域検出手段15は、2次元画像内の各画素の階調値と、記憶部9に記憶されている背景画像11内の対応する各画素の階調値との差の絶対値を算出し、算出した差の絶対値が所定閾値以上となる画素の領域を差分領域として抽出する。人物領域検出手段15は、同一物体による差分領域をラベリングによりグループ化し、変化領域として検出する。即ち、人物領域検出手段15は、一枚の2次元画像から抽出した差分領域の内、相互に隣接(8連結)する画素をグループ化し、相互に近接する(所定範囲内に位置する)グループを、大きさ又は位置関係に基づいて結合し、結合した領域を変化領域として結合する。
【0044】
尚、人物領域検出手段15は、フレーム間差分を用いて変化領域を検出してもよい。その場合、人物領域検出手段15は、最新の2次元画像内の各画素の輝度値と、直前の2次元画像内の対応する各画素の輝度値との差の絶対値を算出し、算出した差の絶対値が所定閾値以上となる画素の領域を差分領域として抽出する。
【0045】
次に、人物領域検出手段15は、変化領域の大きさ、縦横比等の特徴量に基づいて、その変化領域に写っている物体が人物らしいか否かを判定する。人物領域検出手段15は、変化領域の大きさが人物の大きさに相当する所定範囲内であり、且つ、変化領域の縦横比が人物の縦横比に相当する所定範囲内であるか否かにより、その変化領域に写っている物体が人物らしいか否かを判定する。なお、各変化領域の大きさは、2次元画像内の位置、及び、記憶部9に記憶されている撮像装置2の設置情報等を用いて実際の大きさに変換される。人物領域検出手段15は、変化領域が人物らしい場合、その変化領域を人物領域として検出する。
【0046】
尚、人物領域検出手段15は、2次元画像内で人物領域を検出する場合と同様にして、距離画像内で人物領域を検出してもよい。また、人物領域検出手段15は、判定モデルに従って、画像内に含まれる人物領域を検出してもよい。その場合、画像処理装置4は、例えばディープラーニング等の公知の機械学習技術により、人物が含まれる複数の学習用画像を用いて学習された判定モデルを記憶部9に記憶しておく。判定モデルは、学習用画像が入力された場合に、学習用画像に含まれる人物領域の位置が出力されるように事前学習される。機械学習技術として、例えば、入力層、複数の中間層及び出力層から構成される多層構造のニューラルネットワーク等を用いる。入力層には、学習用画像が入力される。中間層の各ノードは、入力層の各ノードから出力された画像から特徴ベクトルを抽出し、抽出した各特徴ベクトルに重みを乗算した値の総和を出力する。出力層は、中間層の各ノードから出力された各特徴ベクトルに重みを乗算した値の総和を出力する。判定モデルは、各重みを調整しながら、出力層からの出力値と学習用画像に含まれる人物領域の位置との差分が小さくなるように学習する。人物領域検出手段15は、2次元画像又は距離画像を判定モデルに入力し、判定モデルから出力された出力値から2次元画像又は距離画像内の人物領域を検出する。
【0047】
次に、抽出手段16は、所定期間に生成された所定数の距離画像内で同一位置に配置された画素のグループ毎に、グループの中で階調値が最小である画素を抽出する(ステップS4)。所定数は2以上であり、例えば10である。
【0048】
抽出手段16は、記憶部9に記憶されている距離画像の中から、直近の所定数の距離画像を読み出す。抽出手段16は、読み出した各距離画像の、人物領域検出手段15により検出された人物領域に対応する領域内で、同一位置に配置された画素をグループ化する。即ち、各グループには、所定数(読み出した距離画像と同数)の画素が含まれる。なお、抽出手段16は、読み出した各距離画像の全領域内で、同一位置に配置された画素をグループ化してもよい。抽出手段16は、各グループの中で階調値が最小である画素、即ち対応する物体までの距離が最も短い画素を抽出する。
【0049】
尚、抽出手段16は、階調値が閾値以下である画素に限り、各グループの中で階調値が最小である画素を抽出してもよい。また、抽出手段16は、背景及び人物よりも手前に位置する物体が撮像された画素に限り、各グループの中で階調値が最小である画素を抽出してもよい。その場合、画像処理装置4は、無人状態の監視空間内で距離を測定して生成された背景距離画像を予め記憶部9に記憶しておく。抽出手段16は、距離画像内の各画素の内、背景距離画像内の対応する画素の階調値より小さい階調値を有する画素に限り、各グループの中で階調値が最小である画素を抽出する。さらに、抽出手段16は、距離画像内の各画素の内、所定時間前(例えば、抽出手段16により読み出された直近の所定数の距離画像の直前の距離画像)に人物領域検出手段15により検出された人物領域に対応する距離画像内の領域内の各画素の階調値の平均値より小さい階調値を有する画素に限り、各グループの中で階調値が最小である画素を抽出する。各グループの中で階調値が閾値以下である画素がなかった場合、抽出手段16は、階調値が最小である画素の代わりに、予め定められた画素(例えば最新の距離画像内の画素)を抽出する。これらにより、抽出手段16は、動きがあった背景(例えば風で揺らいだ植物等)が撮影された画素を抽出対象から除外することができる。その結果、画像処理システム1は、人物のジェスチャをより精度良く検出することができる。尚、人物領域に対応する距離画像内の各画素の階調値の平均値は、人物領域全体の階調値の平均値ではなく、人物領域の上半身(上半分)や頭部領域の階調値の平均値としてもよい。
【0050】
尚、抽出手段16は、グループ毎に抽出する画素は階調値が最小の画素でなくてもよい。例えば、抽出手段16は、画素を抽出する際、グループの中で階調値が相対的に小さい画素を抽出してもよい。例えば、抽出手段16は、グループの中で最小の階調値ではなく、所定番目(2番目または3番目等)に小さい階調値等、相対的に小さい階調値を有する画素を抽出する。例えば、抽出対象の画素の周囲の画素(例えば、上下左右の4近傍)との差分が所定以上である画素が所定数以上(例えば、上下左右の画素うち3つの画素との差分が所定以上)である場合、抽出対象の画素は2番目または3番目や、周囲の階調値同士で近い値の画素の中央値や平均値等、相対的に小さい階調値を有する画素を抽出する。このようにすれば、例えば、基準位置から同じ距離に位置する物体を測定しているはずが、距離センサ3のノイズ等の理由により、一時的に周囲領域の階調値とは異なる最小の階調値を有することになった画素を抽出対象から除外することができる。また、抽出手段16は、グループ毎に画素を抽出する際、その画素の階調値に加えて、その画素に隣接する他の画素の階調値を参照して、その画素の抽出の要否を判定してもよい。この場合、抽出手段16は、グループ毎に画素を抽出する際の指標として、その画素そのものの階調値に加えて、その画素に隣接する画素の階調値を参照する。例えば、抽出手段16は、ある画素についての指標として、その画素の階調値と、その画素の上下左右に隣接する4つの画素の階調値から代表値(平均値、中央値、最頻値等)を算出する。更に、抽出手段16は、距離画像取得手段により所定期間に取得された複数の距離画像内で同一位置に配置された画素に代わって、複数の画素からなる領域をグループ化してもよい。この場合、抽出手段16は、領域毎に、その領域に属する画素の階調値の代表値を算出する。抽出手段16は、領域に属する画素に関する抽出を行う際、その画素そのものの階調値の代わりに、その画素が属する領域の代表値を用いて、抽出する画素を選択する。
【0051】
次に、処理画像生成手段17は、撮像装置2により所定期間に生成された2次元画像、及び/又は、距離センサ3により所定期間に生成された距離画像から処理画像を生成する(ステップS5)。処理画像生成手段17は、抽出手段16により抽出された階調値が最小の画素を含む距離画像に対応する2次元画像(グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像)の抽出された画素に対応する画素、及び/又は、距離画像にて抽出された階調値が最小の画素を用いて、所定期間に取得された複数の2次元画像、及び/又は、距離画像が合成された処理画像を生成する。
【0052】
例えば、処理画像生成手段17は、撮像装置2により所定期間に生成された2次元画像から処理画像を生成する。その場合、処理画像生成手段17は、抽出手段16によりグループ毎に抽出された各画素を含む各距離画像を抽出する。処理画像生成手段17は、抽出した距離画像に対応する2次元画像について、抽出手段16により抽出された画素に対応する画素の階調値を特定する。処理画像生成手段17は、2次元画像内で特定した階調値を処理画像内のそのグループに対応する画素の階調値として設定することにより処理画像を生成する。
【0053】
なお、抽出手段16が領域のグループ毎に領域を抽出した場合、処理画像生成手段17は、抽出手段16によりグループ毎に特定された各領域を含む各距離画像を抽出する。処理画像生成手段17は、抽出した距離画像に対応する2次元画像について、抽出手段16により抽出された領域に対応する各画素の階調値を処理画像内のそのグループに対応する領域内の各画素の階調値として設定することにより処理画像を生成する。
【0054】
また、処理画像生成手段17は、距離センサ3により所定期間に生成された距離画像から処理画像を生成してもよい。その場合、処理画像生成手段17は、抽出手段16によりグループ毎に抽出された距離画像内の各画素の階調値を特定する。処理画像生成手段17は、距離画像内で特定した階調値を処理画像内のそのグループに対応する画素の階調値として設定することにより処理画像を生成する。
【0055】
また、抽出手段16が領域のグループ毎に領域を抽出した場合、処理画像生成手段17は、抽出手段16によりグループ毎に特定された距離画像内の各領域に対応する各画素の階調値を処理画像内のそのグループに対応する領域内の各画素の階調値として設定することにより処理画像を生成する。
【0056】
また、処理画像生成手段17は、撮像装置2により所定期間に生成された2次元画像及び距離センサ3により所定期間に生成された距離画像から処理画像を生成してもよい。その場合、処理画像生成手段17は、抽出手段16によりグループ毎に抽出された各画素を含む各距離画像を抽出する。処理画像生成手段17は、抽出した距離画像に対応する2次元画像について、抽出手段16により抽出された画素に対応する画素の階調値を特定する。また、処理画像生成手段17は、抽出手段16によりグループ毎に抽出された距離画像内の各画素の階調値を特定する。処理画像生成手段17は、2次元画像内で特定した階調値を処理画像内のそのグループに対応する画素の第1成分の階調値として設定し、2次元画像内で特定した階調値を処理画像内のそのグループに対応する画素の第2成分の階調値として設定することにより処理画像を生成する。処理画像は、例えばRGB各色の成分を有する画像であり、第1成分は例えばG成分であり、第2成分は例えばR成分である。尚、第1成分、第2成分はRGB各色の成分の内の他の成分でもよい。また、第1成分、第2成分はCMYの各成分の内の何れかの成分でもよい。また、第1成分、第2成分は人間の視覚に関連して定められない成分でもよい。
【0057】
上述したように、抽出手段16は、人物領域検出手段15により検出された人物領域に対応するグループに限り、グループの中で階調値が最小である画素を抽出している。即ち、処理画像生成手段17は、検出された人物領域に対応するグループに限り、グループ毎に抽出された画素及び/又はその画素に対応する2次元画像内の画素の階調値を、そのグループに対応する画素の階調値とするように処理画像を生成する。処理画像生成手段17は、検出された人物領域に対応しない画素については、予め定められた画像(例えば最新の2次元画像及び/又は距離画像)内の画素の階調値を、そのグループに対応する画素の階調値とする。これにより、処理画像生成手段17は、処理画像を生成する処理の負荷を軽減させるとともに、人物に対応する領域に限定して複数の画像を合成した処理画像を生成することができる。なお、抽出手段16及び処理画像生成手段17の両方を含むものを合成手段と呼ぶ。合成手段は、グループ毎に特定された画素又は領域を含む距離画像に対応する二次元画像内の、特定された画素又は領域に対応する画素又は領域を用いて、所定期間に取得された複数の二次元画像が合成された処理画像を生成する。特に、合成手段は、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域の階調値を、そのグループに対応する画素又は領域の階調値として処理画像を生成する。または、合成手段は、グループ毎に特定された画素又は領域を用いて、所定期間に取得された複数の距離画像を合成して処理画像を生成する。また、合成手段は、グループ毎に特定された画素又は領域の階調値を、そのグループに対応する画素又は領域の階調値として処理画像を生成する。または、合成手段は、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域の階調値を、そのグループに対応する画素又は領域の第1成分の階調値とし、距離画像内でそのグループ毎に特定された画素又は領域の階調値を、そのグループに対応する画素又は領域の第2成分の階調値とするように処理画像を生成する。合成手段は、検出された人物領域に対応するグループに限り、そのグループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域を用いて、処理画像を生成する。
【0058】
図3は、距離画像、2次元画像及び処理画像の対応関係について説明するための図である。図3には、時刻T1、T2、T3にそれぞれ生成された距離画像D1~D3及び2次元画像E1~E3と、距離画像D1~D3及び2次元画像E1~E3から生成された処理画像F3が示されている。
【0059】
図3に示した例において、距離画像D1~D3の各画素P1及び各画素P2はそれぞれ同一位置に配置されており、同一グループに分類される。仮に、距離画像D1~D3の各画素P1の中で階調値が最小である画素が距離画像D1の画素P1であり、距離画像D1~D3の各画素P2の中で階調値が最小である画素が距離画像D3の画素P2であるものとする。その場合、距離画像D1に対応する2次元画像E1の画素P1の階調値が処理画像F3の画素P1の第1成分(G成分)の階調値として設定され、距離画像D1の画素P1の階調値が処理画像F3の画素P1の第2成分(R成分)の階調値として設定される。また、距離画像D3に対応する2次元画像E3の画素P2の階調値が処理画像F3の画素P2の第1成分(G成分)の階調値として設定され、距離画像D3の画素P2の階調値が処理画像F3の画素P2の第2成分(R成分)の階調値として設定される。
【0060】
図4は、2次元画像から生成される処理画像の一例を示す。2次元画像21~23は、時刻T1、T2、T3の各時刻において、監視空間内で人物が撮像装置2に向けて手を振っている状況を撮像した画像である。一般に、人物が所定位置に向けて手を振る場合、その人物は手を所定位置側に押し出して手を振る。そのため、手は背景又は人物より所定位置に近い側に配置される。したがって、処理画像24は、2次元画像21~23内でそれぞれ手が写っている領域25~27が含まれるように生成される。
【0061】
図5は、距離画像から生成される処理画像の一例を示す。距離画像31~33は、時刻T1、T2、T3の各時刻において、監視空間内で人物が距離センサ3に向けて手を振っている状況が測定されて生成された距離画像である。一般に、人物が所定位置に向けて手を振る場合、その人物は手を所定位置側に押し出して手を振る。そのため、手は背景又は人物より所定位置に近い側に配置される(図5において、色が濃くなるほど近い)。したがって、処理画像24は、距離画像31~33内でそれぞれ手が写っている領域35~37が背景や人物とは異なる階調値で生成される。
【0062】
図6は、2次元画像及び距離画像から生成された処理画像の一例である。この処理画像では、距離画像から抽出した階調値がR成分の階調値として設定され、2次元画像から抽出した階調値がG成分の階調値として設定されている。一般に、撮像装置から物体までの距離が短いほど、その物体が写っている画像は明瞭になり、撮像装置から物体までの距離が長いほどその物体が写っている画像がぼやけて、物体のエッジが不明瞭になる。そのため、この処理画像では、撮像装置から離れた背景について、2次元画像から抽出されたG成分はぼやけてしまっている。しかしながら、この背景のエッジは、距離画像から抽出されたR成分によって明瞭となっている。一方、この処理画像では、撮像装置の近傍に存在する人物について、2次元画像から抽出されたG成分により、人物の服装の質感等のテクスチャが明瞭となり、人物が手を振っている様子、及び、肘を支点として少しずつ動いている腕の姿勢が明瞭に表現されている。このように、画像処理システム1は、2次元画像及び距離画像から処理画像を生成することにより、2次元画像において失われやすい遠方の細部に関する情報を、距離情報によって補完して、背景のエッジを明瞭化することができる。
【0063】
図7は、2次元画像から生成された処理画像の一例である。図6に示すように、このように生成された処理画像には、濃淡に関する情報によって、人物のテクスチャが明瞭となり、人物が手を振っている様子、及び、肘を支点として少しずつ動いている腕の姿勢が明瞭に表現されている。
【0064】
図8は、距離画像から生成された処理画像の一例である。図7に示すように、このように生成された処理画像には、距離に関する情報が含まれるため、背景と人物とのエッジが明瞭に表現され、さらに背景及び人物と手のエッジも明瞭に表現されている。
【0065】
次に、検出手段18は、処理画像生成手段17により生成された処理画像についての評価値を取得する(ステップS6)。検出手段18は、入力された学習用処理画像に含まれる人物のジェスチャ動作に関する情報を出力するように学習されたモデル10に処理画像を入力し、モデル10から出力された情報に基づいて、監視空間内の人物のジェスチャ動作を検出する。
【0066】
例えば、検出手段18は、記憶部9に記憶されたモデル10を用いて、処理画像についての評価値を取得する。モデル10は、学習手段20により生成される。学習手段20は、例えばディープラーニング等の公知の機械学習技術を用いて、複数の学習用処理画像と、各学習用処理画像に検出対象のジェスチャが含まれている確からしさを示す評価値及び検出対象のジェスチャ動作が含まれる領域の位置との関係性を学習する。検出対象のジェスチャは、例えば手を振る動作である。特に、検出手段18は、人の手など人体の一部を用いて行われるジェスチャ動作のうち人体の身体の前方(距離画像の階調値が人体の階調値よりも小さい領域)でなされた所定のジェスチャ動作を検出する。なお、検出対象のジェスチャは、手招き等の周期的な動作でもよい。また、検出対象のジェスチャは、複数でもよく、例えば手を振る動作及び手招きする動作の両方でもよい。各学習用処理画像は、様々な状態(立ち上がった状態、座った状態又は横たわった状態等)の物体による様々な大きさのジェスチャが含まれる画像又はジェスチャが含まれない画像から、処理画像と同様にして生成された画像である。学習手段20は、学習した関係性をモデル10として記憶部9に記憶する。
【0067】
入力層には、学習用処理画像が入力される。中間層の各ノードは、入力層の各ノードから出力された画像から特徴ベクトルを抽出し、抽出した各特徴ベクトルに重みを乗算した値の総和を出力する。出力層は、中間層の各ノードから出力された各特徴ベクトルに重みを乗算した値の総和を出力する。学習手段20は、各重みを調整しながら、出力層からの出力値と、正解値、及び、検出対象のジェスチャが含まれる領域の位置との差分が小さくなるように学習する。正解値は、例えばその学習用処理画像に検出対象のジェスチャが含まれる場合は1に設定され、検出対象のジェスチャが含まれない場合は0に設定される。尚、なお、モデル10は、DPM(Deformable Part Model)、R-CNN(Regions with Convolutional Neural Networks)、YOLO等の他の機械学習技術により学習されてもよい。また、モデル10は、画像処理装置4とは別の外部のコンピュータで生成され、画像処理装置4に送信されてもよい。その場合、学習手段20を省略されてもよい。
【0068】
検出手段18は、記憶部9に記憶されたモデル10に、処理画像を入力し、モデル10から出力された出力値を処理画像についての評価値及びジェスチャが検出された領域の位置として取得する。
【0069】
尚、検出手段18は、処理画像内で動きがある領域を切り出し、切り出した画像をモデル10に入力して評価値を算出してもよい。静止している物体では、距離センサ3からの距離が変化しないため、その物体内の位置毎に抽出手段16によって階調値が最小である画素が抽出される距離画像に、ばらつきが発生する可能性がある。一方、動いている物体では、物体内の全領域について、階調値が最小である画素は一つの距離画像からまとめて抽出される可能性が高い。そこで、検出手段18は、所定期間に生成された複数の距離画像毎に、各距離画像からステップS4で抽出手段16により抽出された画素を特定する。検出手段18は、各距離画像内で特定した画素の内、相互に密に隣接しながら連結し且つ所定サイズ以上である画素の領域に対応する処理画像内の領域を動きがある領域として検出する。これにより、検出手段18は、動きがある領域に限定してジェスチャを検出することができ、ジェスチャをより精度良く検出することができる。
【0070】
また、検出手段18は、パターンマッチング技術を用いて評価値を算出してもよい。その場合、画像処理装置4は、サンプル用の処理画像内で検出対象のジェスチャが写っている複数の画像のパターンを予め記憶部9に記憶しておく。検出手段18は、ステップS5で生成された処理画像内の所定の大きさの領域を、その位置をずらしながら切り出して、記憶部9に記憶しておいた画像のパターンとの類似の程度を評価値として取得する。類似の程度は、例えば正規化相互相関値である。
【0071】
次に、検出手段18は、取得した評価値に基づいて、人物の検出対象のジェスチャを検出する(ステップS7)。検出手段18は、評価値が予め定められた閾値以上である場合、処理画像に検出対象のジェスチャが含まれると判定し、評価値が閾値未満である場合、処理画像に検出対象のジェスチャが含まれないと判定する。このように、検出手段18は、処理画像に基づいて、監視空間内の人物のジェスチャを検出する。特に、検出手段18は、学習用処理画像が入力された場合に学習用処理画像に含まれる人物のジェスチャに関する情報を出力するように学習されたモデル10に処理画像を入力し、モデル10から出力された情報に基づいて、監視空間内の人物のジェスチャを検出する。
【0072】
次に、検出手段18は、検出対象のジェスチャを検出したか否かを判定する(ステップS8)。検出対象のジェスチャを検出しなかった場合、検出手段18は、特に処理を実行せずに、一連のステップを終了する。
【0073】
一方、検出対象のジェスチャを検出した場合、検出手段18は、ジェスチャが検出された領域の近傍に人物が存在するか否かを判定する(ステップS9)。検出手段18は、ステップS6で取得したジェスチャが検出された領域の位置と、ステップS3で検出された人物領域に対応する処理画像内の領域との間の距離を算出する。検出手段18は、算出した距離が予め定められた距離閾値未満である場合、ジェスチャが検出された領域の近傍に人物が存在すると判定し、検出されたジェスチャは人物によって行われたジェスチャであると判定する。一方、検出手段18は、算出した距離が距離閾値以上である場合、ジェスチャが検出された領域の近傍に人物が存在しないと判定し、検出されたジェスチャは人物によって行われたジェスチャでないと判定し、一連のステップを終了する。これにより、検出手段18は、監視空間内の人物以外の物体の動きを、検出対象のジェスチャとして誤って検出することを防止できる。
【0074】
ジェスチャが検出された領域の近傍に人物が存在すると判定された場合、出力制御手段19は、検出されたジェスチャに関する情報を、通信部8を介して出力して外部装置に通知し(ステップS10)、一連のステップを終了する。ジェスチャに関する情報は、人物による検出対象のジェスチャが検出されたこと、ジェスチャの種類、ジェスチャが検出された時刻、ジェスチャの継続時間、ジェスチャが検出された領域等を含む。なお、出力制御手段19は、検出されたジェスチャに関する情報を、表示部7に表示し又は不図示の音出力装置から出力してもよい。
【0075】
尚、ステップS3の処理は、省略されてもよい。この場合、抽出手段16は、距離画像及び2次元画像内の全画素を対象としてステップS4の処理を実行する。
【0076】
また、ステップS9の処理は、省略されてもよい。この場合、モデル10が、各学習用処理画像に人物による検出対象となるジェスチャが含まれている確からしさを示す評価値を出力するように事前学習され、検出手段18は、判定モデル10により、人物によって行われたジェスチャを検出してもよい。
【0077】
(画像処理システム1の効果)
以上説明してきたように、画像処理システム1は、所定期間内で、監視空間内の物体が最も手前側に存在していた時に撮像又は測定された画素を用いて生成した処理画像に基づいて検出対象ジェスチャを検出する。これにより、画像処理システム1は、手前側で動きが発生した領域に着目して、手前側で動きが発生するジェスチャを精度良く検出することができる。したがって、画像処理システム1は、監視空間内の人物のジェスチャを精度良く検出することが可能となる。特に、画像処理システム1は、ナースコールの手段として、見守り対象者に身体の前に手を出して手を振る動作等をしてもらう場合、その動作等を精度良く検出することができ、見守り者に通知することが可能となる。
【0078】
また、画像処理システム1は、距離画像及び2次元画像に基づいて処理画像を生成する。画像処理システム1は、2次元画像に基づいて処理画像を生成することにより、物体の形状及びテクスチャについての情報を処理画像に含ませることができる。また、距離センサ3は近赤外光の反射率が低い物体までの距離を測定できない可能性があるが、画像処理システム1は、2次元画像に基づいて処理画像を生成することにより、信頼性の高い処理画像を生成することができる。一方、画像処理システム1は、距離画像に基づいて処理画像を生成することにより、背景と人物の輝度が近似している場合でも、背景と人物とが明瞭に区別された処理画像を生成することができる。このように、輝度と距離とは処理画像を生成する際に補完的な役割を果たすので、画像処理システム1は、距離画像及び2次元画像に基づいて生成された処理画像を用いることにより、ジェスチャをより精度良く検出することができる。また、距離画像を用いることで、人物と手が重なって動いていていたとしても、人物と手が明瞭に区分された処理画像を生成することができ、ジェスチャをより精度良く検出することができる。
【符号の説明】
【0079】
1 画像処理システム、2 撮像装置、3 距離センサ、4 画像処理装置、8 通信部、9 記憶部、12 処理部
図1
図2
図3
図4
図5
図6
図7
図8