IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7566548画像処理装置、画像処理方法、およびプログラム
<>
  • 特許-画像処理装置、画像処理方法、およびプログラム 図1
  • 特許-画像処理装置、画像処理方法、およびプログラム 図2
  • 特許-画像処理装置、画像処理方法、およびプログラム 図3
  • 特許-画像処理装置、画像処理方法、およびプログラム 図4
  • 特許-画像処理装置、画像処理方法、およびプログラム 図5
  • 特許-画像処理装置、画像処理方法、およびプログラム 図6
  • 特許-画像処理装置、画像処理方法、およびプログラム 図7
  • 特許-画像処理装置、画像処理方法、およびプログラム 図8
  • 特許-画像処理装置、画像処理方法、およびプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-04
(45)【発行日】2024-10-15
(54)【発明の名称】画像処理装置、画像処理方法、およびプログラム
(51)【国際特許分類】
   G06V 20/52 20220101AFI20241007BHJP
   G06Q 30/0601 20230101ALI20241007BHJP
   G08B 13/196 20060101ALI20241007BHJP
   G08B 25/00 20060101ALI20241007BHJP
【FI】
G06V20/52
G06Q30/0601 308
G08B13/196
G08B25/00 510M
【請求項の数】 12
(21)【出願番号】P 2020158977
(22)【出願日】2020-09-23
(65)【公開番号】P2022052538
(43)【公開日】2022-04-04
【審査請求日】2023-09-22
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100090273
【弁理士】
【氏名又は名称】國分 孝悦
(72)【発明者】
【氏名】川野 敦史
(72)【発明者】
【氏名】齊藤 翔
(72)【発明者】
【氏名】田中 章文
【審査官】岡本 俊威
(56)【参考文献】
【文献】特開2020-140520(JP,A)
【文献】特開2020-091812(JP,A)
【文献】特開2006-113711(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/292
G08B 25/00
G08B 13/194-13/196
G06V 20/50 -20/52
(57)【特許請求の範囲】
【請求項1】
画像から検出される人物の行動履歴を取得する取得手段と、
前記取得手段により取得された行動履歴に基づいて、前記人物に関連する音声を作成する作成手段と、
前記作成手段により作成された音声を出力装置に出力する出力手段と、
を有し、
前記人物の周辺に他の人物が存在する場合に、前記作成手段は、前記取得手段により取得された前記人物の行動履歴と前記他の人物の行動履歴との違いに基づいて、前記人物に関連する音声を作成することを特徴とする画像処理装置。
【請求項2】
画像から検出される人物の行動履歴を取得する取得手段と、
前記取得手段により取得された行動履歴に基づいて、前記人物に関連する音声を作成する作成手段と、
前記作成手段により作成された音声を出力装置に出力する出力手段と、
を有し、
前記取得手段において取得する人物の行動履歴は、人物を撮影した場所を含み、
前記人物の周辺に他の人物が存在する場合に、前記作成手段は、前記人物を撮影した場所と前記他の人物を撮影した場所との違いに基づいて、前記人物に関連する音声を作成することを特徴とする画像処理装置。
【請求項3】
前記取得手段により取得された行動履歴に基づいて、音声を出力する対象人物がいるかを判定する判定手段を有し、
前記作成手段は、前記判定手段により前記対象人物がいると判定された場合、前記取得手段により取得された前記対象人物の行動履歴に基づいて、前記対象人物に関連する音声を作成すること、
を特徴とする請求項1または2に記載の画像処理装置。
【請求項4】
前記判定手段は、前記取得手段により取得された行動履歴に基づいて前記人物が所定の行動を行ったかを判定することにより、前記対象人物がいると判定すること、
を特徴とする請求項に記載の画像処理装置。
【請求項5】
前記判定手段は、前記人物が所定の属性の人物であるかを判定することにより、前記対象人物がいると判定すること、
を特徴とする請求項3または4に記載の画像処理装置。
【請求項6】
前記取得手段において取得する行動履歴は、人物の挙動および前記挙動の信頼度を含み、
前記作成手段は、前記挙動の信頼度に基づいて音声を作成すること、
を特徴とする請求項1~のいずれか1項に記載の画像処理装置。
【請求項7】
前記作成手段によって作成された音声に対する前記人物の反応を検知する検知手段をさらに有し、
前記作成手段は、前記検知手段によって検知された前記人物の反応に基づいて音声を作成すること、
を特徴とする請求項1~のいずれか1項に記載の画像処理装置。
【請求項8】
前記取得手段に取得された行動履歴に基づいて、前記人物に関連する商品を推定する推定手段をさらに有し、
前記作成手段は、前記推定手段によって推定された商品に関連した音声を作成すること、
を特徴とする請求項1~のいずれか1項に記載の画像処理装置。
【請求項9】
前記取得手段により取得された行動履歴を記憶する記憶手段を有し、
前記作成手段は、前記記憶手段に記憶された前記人物の行動履歴に基づいて、前記人物に関連する音声を作成すること、
を特徴とする請求項1~のいずれか1項に記載の画像処理装置。
【請求項10】
画像から検出される人物の行動履歴を取得する取得工程と、
前記取得工程により取得された行動履歴に基づいて、前記人物に関連する音声を作成する作成工程と、
前記作成工程により作成された音声を出力装置に出力する出力工程と、
を有し、
前記人物の周辺に他の人物が存在する場合に、前記作成工程においては、前記取得工程により取得された前記人物の行動履歴と前記他の人物の行動履歴との違いに基づいて、前記人物に関連する音声を作成するすることを特徴とする画像処理方法。
【請求項11】
画像から検出される人物の行動履歴を取得する取得工程と、
前記取得工程により取得された行動履歴に基づいて、前記人物に関連する音声を作成する作成工程と、
前記作成工程により作成された音声を出力装置に出力する出力工程と、
を有し、
前記取得工程において取得する人物の行動履歴は、人物を撮影した場所を含み、
前記人物の周辺に他の人物が存在する場合に、前記作成工程においては、前記人物を撮影した場所と前記他の人物を撮影した場所との違いに基づいて、前記人物に関連する音声を作成することを特徴とする画像処理方法。
【請求項12】
コンピュータを、請求項1~のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、およびプログラムに関する。
【背景技術】
【0002】
万引き等の犯罪行為を抑止する方法として、監視カメラの画像を解析して人物の所定の行動を検知した時、同人物の近傍に配置されたスピーカーから音声を出力することで同人物に対して監視中であることを知覚させる方法がある。特許文献1では、人物の所定行動を検知した時、同人物の外見的特徴を参照して、対象の外見的特徴に関連する音声を選択して再生する監視システムが提案されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2018-196060号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、通常、人物は行動する際に自身の外見的特徴に強い意識を持っていないため、外見的特徴に関連付く音声を出力しても対象人物が自身であると認知することは難しい。例えば、万引き等の犯罪行為を行う人物は外見的特徴が少なく目立たない服装をしている場合が多いため、外見的特徴で同人物に対象人物が自身であることを認知させることは難しい。また、対象人物の周囲に類似の外観的特徴を持つ人物がいる場合、自身に対する音声の再生であると認知することがより難しい。このため、外見的特徴に関連する音声では、対象人物に対して、監視中であることを知覚させる効果を十分に得られない。
【0005】
本発明は上述した問題を解決するためになされたものであり、対象人物に対して、監視中であることを適切に知覚させることができるようにすることを目的としている。
【課題を解決するための手段】
【0006】
本発明に係る画像処理装置は、画像から検出される人物の行動履歴を取得する取得手段と、前記取得手段により取得された行動履歴に基づいて、前記人物に関連する音声を作成する作成手段と、前記作成手段により作成された音声を出力装置に出力する出力手段と、を有し、前記人物の周辺に他の人物が存在する場合に、前記作成手段は、前記取得手段により取得された前記人物の行動履歴と前記他の人物の行動履歴との違いに基づいて、前記人物に関連する音声を作成することを特徴とする。
【発明の効果】
【0007】
本発明によれば、対象人物に対して、監視中であることを適切に知覚させることができる。
【図面の簡単な説明】
【0008】
図1】第1の実施形態における店舗の構成の一例を示す図である。
図2】第1の実施形態に係る監視システムの構成の一例を示すブロック図である。
図3】行動記憶部が記憶する情報のデータ構造を説明するための図である。
図4】音声記憶部が記憶する情報のデータ構造を説明するための図である。
図5】第1の実施形態に係る監視システムの処理手順の一例を示すフローチャートである。
図6】第2の実施形態に係る監視システムの機能構成の一例を示すブロック図である。
図7】第2の実施形態の画像処理装置の処理手順の一例を示すフローチャートである。
図8】第3の実施形態に係る監視システムの機能構成の一例を示すブロック図である。
図9】第3の実施形態の画像処理装置の処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
(第1の実施形態)
以下、添付の図面を参照して、本発明の第1の実施形態について詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
第1の実施形態に係る監視システムは、人物の特定の行動を検知した時、当該人物の行動履歴と当該人物の周辺にいる人物の行動履歴とに基づいて、音声を選択して再生するシステムである。図1は、第1の実施形態で想定する店舗の構成の一例を示す図であり、店舗とは、例えば家電等を販売する量販店である。後ほど、図1を参照して、本実施形態に係る監視システムの動作について説明する。
【0010】
次に、図2を参照して、本実施形態に係る監視システムの構成について説明する。
図2(a)は、本実施形態に係る監視システムの機能構成の一例を示すブロック図である。本システムは、撮像装置100、画像処理装置200、および出力装置300から構成される。撮像装置100は、図1のカメラ1やカメラ21であり、店内に設置され、従業員や客を撮影する。出力装置300は、図1のスピーカー2やスピーカー22であり、店舗内の商品棚に設置される。なお、図2(a)においては、2つの撮像装置100および2つの出力装置300を示しているが、撮像装置100および出力装置300の数は1つでもよく、3つ以上でもよい。撮像装置100、画像処理装置200、および出力装置300は、通信ネットワークを介して接続される。具体的には、有線LAN(Local Area Network)、無線LANなどの通信ネットワークで接続される。
【0011】
まず、図2(b)を参照して、画像処理装置200のハードウェア構成について説明する。図2(b)は、本実施形態に係る画像処理装置200のハードウェア構成の一例を示すブロック図である。
画像処理装置200は、CPU11と、ROM12と、RAM13と、HDD14と、表示部15と、入力I/F16と、通信部17とを有している。CPU11は、ROM12に記憶された制御プログラムを読み出して各種処理を実行する。RAM13は、CPU11の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD14は、各種データや各種プログラム等を記憶する。表示部15は、各種情報を表示する。なお、表示部15はタッチパネルと一体型の表示装置であってもよい。入力I/F16は、操作情報を入力するためのインターフェースである。通信部17は、有線または無線によりネットワークを介して撮像装置100や出力装置300等の外部装置との通信処理を行う。
【0012】
なお、後述する画像処理装置200の機能や処理は、CPU11がROM12またはHDD14に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。また、他の例としては、CPU11は、ROM12等に替えて、SDカード等の記録媒体に格納されているプログラムを読み出してもよい。
【0013】
なお、本実施形態では、画像処理装置200は、1つのプロセッサ(CPU11)が1つのメモリ(ROM12)を用いて後述するフローチャートに示す各処理を実行するものとするが、他の様態であっても構わない。例えば複数のプロセッサーや複数のRAM、ROMおよびストレージを協働させて後述するフローチャートに示す各処理を実行することもできる。また、ハードウェア回路を用いて一部の処理を実行するようにしても良い。また、CPU以外のプロセッサーを用いて後述する画像処理装置200の機能や処理を実現することとしてもよい(例えば、CPUに替えてGPU(Graphics Processing Unit)を用いることとしてもよい。)。
【0014】
次に、撮像装置100、画像処理装置200および出力装置300の機能構成について説明する。
【0015】
撮像装置100は、撮像部101と画像送信部102とを有する。
撮像部101は、撮像レンズや、CCDやCMOSなどの撮像センサや、A/D変換および所定の信号処理を行う信号処理部などから構成される。また、撮像部101は、撮像して得られた画像を所定の時間間隔で画像送信部102に送信する。
画像送信部102は、撮像部101から受信した画像に撮像装置情報、時刻などの付加情報を付与して、ネットワーク上に送信可能なデータに変換して、画像処理装置200に送信する。
【0016】
画像処理装置200は、画像受信部201と人物検出追尾部202と顔特徴DB203とカメラ間人物照合部204と挙動抽出部205と行動記憶部206と行動検知部207と音声記憶部208と音声選択作成部209と音声送信部210とを有する。
画像受信部201は、通信部17を介して撮像装置100からデータ受信し、受信したデータから画像を取り出して画像を人物検出追尾部202に送信する。
人物検出追尾部202は、画像受信部201が受信した画像に写る人物の検出処理と、検出した人物を画像間で対応付ける追尾処理とを行う。人物の検出処理は、例えば、機械学習を用いて人物の画像上の位置を抽出することにより行う。位置は、画像の左上を原点として、人物を囲む矩形の中心座標、矩形の幅および矩形の高さで表現することができる。
また、追尾処理は、検出した人物を連続する画像間で対応付ける処理である。人物検出追尾部202は、例えば、連続する画像それぞれにおける人物を囲む矩形の中心座標を結ぶ線分の長さ、矩形の幅および矩形の高さの変化量と、過去の追尾処理により得られた人物の予測位置とに基づいて、各画像から検出した人物の対応付けを行う。そして、各人物に追尾IDを付与する。なお、追尾IDは、撮像装置の画像列を問わず重複しない一意な識別子となるようにする。具体的には、人物検出追尾部202は、ある撮像装置の画像列中の人物に追尾IDとして「10」を付与したら、その他の撮像装置の画像列中の人物には追尾IDとして「10」は付与しないよう制御する。
人物検出追尾部202は、検出処理および追尾処理が完了すると、検出した人物の画像、追尾ID、および人物を囲む矩形の中心座標、幅、高さなどの人物の情報をカメラ間人物照合部204と、挙動抽出部205とに送信する。
【0017】
顔特徴DB203は、後述する顔認証処理で用いる人物の顔特徴に関する情報を記憶する。具体的には、顔特徴DB203内のテーブルは、顔特徴インデックス番号と、人物IDと、顔特徴データとを対応付けて記憶している。顔特徴インデックス番号とはレコードの識別子、人物IDとは人物の識別子、顔特徴データとは人物の顔画像から抽出した同人物の特徴を示すデータである。
カメラ間人物照合部204は、異なる時刻、異なる撮像装置の画像に写る同一人物を照合して、一意な人物IDを付与する。人物の照合においては、顔特徴DB203に記憶されている顔特徴データを参照して、顔認証処理を行う。なお、カメラ間人物照合部204は、人物検出追尾部202から人物の情報を受信する度に、人物の画像中のすべての人物に関して顔認証処理を実施する。
以下、顔認証処理の一例について説明する。カメラ間人物照合部204は、まず、画像上の人物の位置を示す人物の矩形領域の内部に限定して顔検出処理を行う。カメラ間人物照合部204は、顔領域を検出した場合は、同顔領域から顔特徴データ(以下、照合データとする。)を抽出する。次に、カメラ間人物照合部204は、照合データを顔特徴DB203のすべての顔特徴データ(以下、非照合データとする。)と比較する。カメラ間人物照合部204は、比較の結果、顔特徴データ間の一致度合いを示す尤度を出力する。カメラ間人物照合部204は、尤度が閾値を超えた場合は、最も高い尤度の非照合データを照合データの示す人物と同一人物の顔特徴データとみなす。この場合、カメラ間人物照合部204は、非照合データと対応する人物IDを取得して、人物IDと人物検出追尾部202から受け取った追尾IDとを行動記憶部206に対応付けて記録する。
一方で、尤度が閾値を超えない場合、カメラ間人物照合部204は、非照合データの示す人物は新規人物であるとみなす。この場合、カメラ間人物照合部204は、顔特徴DB203にレコードを新規作成して、顔特徴インデックス番号と、人物IDとを発行し、顔特徴インデックス番号、人物ID、および抽出した顔特徴データを記録する。また、カメラ間人物照合部204は、行動記憶部206に人物IDと追尾IDとを対応付けて記録する。
一方で、顔検出処理により顔領域を検出できない場合、カメラ間人物照合部204は、行動記憶部206に記憶している人物IDと追尾IDとの対応付けを参照して、処理対象の追尾IDが存在する場合、追尾IDと対応する人物IDを同人物に付与する。
このように顔認証処理を行うことで、異なる撮像装置に映る人物の照合を行う。また、カメラ間人物照合部204は、人物IDと追尾IDとの対応関係のほかに、人物検出追尾部202から受信した人物の情報も行動記憶部206に記録する。
【0018】
挙動抽出部205は、人物検出追尾部202で検出、追尾した人物の挙動を抽出する。挙動とは、例えば、周囲を見る、商品を持つ、商品を戻す、商品をかばんに入れる、などの行動である。挙動抽出部205は、具体的には、各人物に対して機械学習を用いた姿勢推定処理を行い、姿勢の時系列変化に基づいて挙動の有無を判定することにより挙動を抽出する。
姿勢推定処理において、挙動抽出部205は、人物の矩形領域の内側から目、鼻、首、肩、肘、手、腰、膝および足の位置を推定して、挙動抽出部205内の姿勢DBに追尾IDと対応付けて記録する。各挙動の判定は、姿勢DBが記憶している情報を用いて行う。
周囲を見る行動について、挙動抽出部205は、例えば過去2秒間の顔の向きの変化量を算出して閾値を超える場合は周囲を見ると判定する。顔の向きは、目、鼻の位置関係から推定する。例えば、右目から鼻の距離と左目から鼻の距離とが等しい場合は正面向き、右目から鼻の距離が左目から鼻の距離より小さい場合は右向き、逆の場合は左向きと推定する。
商品を持つ行動について、挙動抽出部205は、体の向きが商品棚を向き、手が商品棚と接触したことで判定する。体の向きは、肩、腰、膝および足の位置関係から推定する。商品棚の位置は事前に座標列で設定し、商品棚の座標列から成る領域の内部に手の座標が存在する場合に商品棚に接触したと判定する。さらに、挙動抽出部205は、商品棚に接触した後の画像の手領域に対して物体検出処理を行い、物体を検出した場合は商品を持ったと判定する。
商品を戻す行動について、挙動抽出部205は、商品を持つ行動の後に、手が商品棚と接触した際、商品棚に接触する前の画像の手領域で物体を検出し、商品棚に接触した後の画像の手領域で物体を検出しない場合は商品を戻したと判定する。
商品をかばんに入れる行動について、挙動抽出部205は、商品を持つ行動後に手がかばんと接触した際、かばんに接触する前の画像の手領域から物体を検出し、かばんに接触した後の画像の手領域から物体を検出しない場合に商品をかばんに入れたと判定する。なお、かばんの有無および位置は、検出追尾した人物の矩形領域に機械学習を用いたかばん検出処理を行うことで判定する。なお、人物の挙動は上述の種類に限定されず、画像列を解析することで判定可能な挙動であればよく、例えば、しゃがむ、買い物かごに商品を入れるなどが挙げられる。
挙動抽出部205は、上述したような挙動を抽出した場合、人物の追尾IDと挙動の種類の情報とを行動記憶部206に記録する。
【0019】
行動記憶部206は、カメラ間人物照合部204および挙動抽出部205から受信した情報を記憶する。図3は、行動記憶部206が記憶する情報のデータ構造の一例を示す図である。図3(a)は人物リスト、図3(b)は登録リスト、図3(c)は行動リスト、図4(d)は非照合人物の行動リストの例を示す図である。
人物リストとは、カメラ間人物照合部204で人物IDを付与した人物のリストである。人物リストにおいては、人物IDごとに属性、出現時刻、最終検出時刻、登録IDおよび顔特徴量インデックス番号が対応付けられている。人物リストの更新は、カメラ間人物照合部204から情報を取得した時に行われる。カメラ間人物照合部204は、カメラ間人物照合部204が取得した情報に含まれる人物IDと人物リストとを比較して、人物リストにその人物IDが存在する場合は、人物リストの最終検出時刻を現在時刻に更新する。一方、人物リストにその人物IDが存在しない場合には、カメラ間人物照合部204は、人物リストにレコードを新規作成して、情報を記憶する。次に、カメラ間人物照合部204は、顔特徴インデックス番号を参照して顔特徴データを取得して、後述する登録リストに登録された人物であるか否かを、顔認証を用いて判定する。登録リストに登録された人物であると判定した場合、登録リストに記載の属性および登録IDを、それぞれ人物リストの属性および登録IDに設定する。一方で、登録リストに登録されていない人物であると判定した場合は、人物リストの属性を客と設定する。また、カメラ間人物照合部204が取得した情報のうち人物IDが付与されていない人物に関しては、人物リストへの登録は行わない。
登録リストは、店長や従業員や、要注意人物などの既知の人物を管理するためのリストである。登録リストは、識別子となる登録ID、店長や従業員などの属性、および顔特徴DB203が記憶している同人物の顔特徴を示す顔特徴インデックス番号が対応付けられている。登録リストは、事前に作成されるものであるが、従業員の変化があったり、新たな要注意人物を記録する要望が発生したりするタイミングで適宜記録や削除が行われる。
【0020】
行動リストとは、人物の行動履歴を記憶したリストである。行動リストの更新は、カメラ間人物照合部204から情報を取得した時、または、挙動抽出部205から情報を取得した時に実施される。カメラ間人物照合部204が情報を取得した時に、人物IDが付与された人物に対しては、図3(c)に例示する行動リストに人物ID単位で、検出追尾した時刻、カメラID、追尾IDおよび位置が行動リストに記憶される。位置は人物の矩形の中心座標である。一方で、人物IDが付与されていない人物に対しては、図3(d)に例示する非照合人物の行動リストに検出追尾した時刻、カメラID、追尾IDおよび位置が時系列順に記憶される。また、挙動抽出部205が情報を取得した時に、挙動抽出部205は追尾IDを参照して該当する人物の挙動を更新する。行動リストのエリアは、事前にカメラIDとエリア名とのルックアップテーブルを作成しておき、人物が映るカメラIDからエリア名を取得することにより設定される。また、行動検知部207は、行動記憶部206に記憶された行動リストが更新される度に更新情報を取得する。
【0021】
行動検知部207は、行動記憶部206から更新情報を受信する度に、行動記憶部206の情報を参照して音声再生すべき対象人物の有無を判定する。行動検知部207は、具体的には、行動記憶部206の行動リストを参照して、事前設定したルールに該当する人物がいるか否かを判定する。ルールは、例えば、条件1「最新レコードの挙動が周辺確認」、条件2「過去10秒間での位置から移動距離を算出して移動距離が500未満」の2条件を満たす人物であることである。または、ルールは、例えば、条件1「最新レコードの挙動が商品をカバンに入れる」、条件2「過去5秒間のレコードの挙動において1回以上の周辺確認がある」、の2条件を満たす人物であることである。行動検知部207は、上記いずれかのルールに該当する人物がいると判定した場合は、当該人物を音声再生すべき人物とみなす。なお、ルールは上述したものに限定されず、人物リストの情報を用いてもよい。例えば、上記ルールに、条件3「人物リストの属性が従業員でない」を更に組み合わせることができる。また、ルールによる対象判定方法を記載したが、他の判定方法を用いてもよい。例えば、音声再生の対象としたい行動を行った人物の映像を集め、機械学習により判定器を作成して判定する方法を用いてもよい。
【0022】
行動検知部207は、音声再生すべき対象人物がいると判定した場合、対象人物の人物ID、もしくは、人物IDが付与されていない人物の場合は追尾IDを音声選択作成部209に送信する。
音声記憶部208は、音声ファイルを種類に分けて記憶する。図4は、音声記憶部208が記憶する情報のデータ構造の一例を示す図である。図4(a)は挨拶音声リスト、図4(b)は呼掛け音声リスト、図4(c)は案内音声リストの例を示す図である。
挨拶音声リストにおいては、音声IDと時間帯と音声とが対応付けられている。呼掛け音声リストにおいては、音声IDと分類と音声とが対応付けられている。分類とは、確認、滞在、出現など人物行動の種類を示す。案内音声リストにおいては、音声IDと強度と音声とが対応付けられている。強度とは、音声の内容が持つ聞き手への指示の強さ度合いを示す値であり、数値が上がるごとに強い指示の言葉になるよう設定される。なお、図4に示した音声は一例であり、挨拶、呼掛け、および案内の意図を持つ他の言葉を予め設定してもよい。例えば、呼掛け音声リストに、分類を確認、音声を「お探しの商品はございますか?」として設定することができる。
【0023】
音声選択作成部209は、行動検知部207から音声再生すべき対象人物の人物IDまたは追尾IDを受信すると、行動記憶部206を参照して対象人物に再生する音声を選択して音声ファイルを作成する。音声選択作成部209は、具体的には、挨拶音声、呼掛け音声および案内音声を選択して、それらを連結することにより音声ファイルを作成する。
以下、音声の選択処理について説明する。音声選択作成部209は、まず、現在時刻と音声記憶部208の挨拶音声リストの時間帯とを比較して挨拶音声を選択する。
次に、音声選択作成部209は、対象人物の行動履歴に基づき呼掛け音声を選択する。音声選択作成部209は、例えば、行動検知部207から受信した対象人物の人物IDまたは追尾IDと、行動記憶部206の行動リストとに基づいて、対象人物の行動リストを抽出する。対象人物の行動リストの最新のレコードの挙動が「周辺確認」である場合は、音声選択作成部209は、音声記憶部208の呼掛け音声リストから分類が「確認」である呼掛け音声を選択する。呼掛け音声リストに同一分類の音声が複数存在する場合は、例えば、音声IDの数字が小さな方の音声を選択する。
なお、呼掛け音声は、最新レコードの挙動だけでなく、過去のレコードを参照して決定する方法や挙動の組み合わせに基づいて選択してもよい。例えば、最新レコードの位置と過去3分間のレコードの位置とを比較して位置が所定範囲内にある場合は、その場に留まっているとみなして、呼掛け音声リストから分類が「滞在」である音声を選択してもよい。また、過去1分間のレコードの挙動を参照して周辺確認を行っており、最新レコードの挙動が「商品をかばんに入れる」である場合、呼掛け音声リストから分類が「注意」である音声を選択してもよい。
【0024】
また、呼掛け音声の選択方法として、対象人物の行動履歴に基づき呼掛け音声を選択する方法を記載したが、対象人物と周辺人物との行動履歴を比較して、対象人物のみが多く行う挙動や、滞在したエリアに基づき呼掛け音声を選択する方法を使用してもよい。具体的には、音声選択作成部209は、対象人物の人物IDを参照して行動リストの最新レコードからカメラIDを取得し、同じ時間帯に同一のカメラIDに映る人物を抽出する。次に、対象人物と抽出した周辺人物との過去1分間の挙動を比較して、対象人物が周辺人物に比べて多く行った挙動に基づき呼掛け音声を選択する。例えば、対象人物の「周辺確認」の挙動が周辺人物の「周辺確認」の挙動より多い場合は、呼掛け音声リストから分類が「確認」である呼掛け音声を選択する。前記の例では挙動の回数を比較して多い挙動に基づき音声を選択したが、ある時間当たりの挙動の発生密度が最も高い挙動や挙動の回数に重み付けして比較する方法でもよい。また、行動リストのエリアを比較して、対象人物が最も長く滞在したエリアに基づき呼掛け音声を選択してもよい。例えば、対象人物のみが時計売り場に訪れた場合、挙動を「出現」として音声「時計売り場にお立ち寄りのお客様」を選択する。さらに、呼掛け音声の選択は、挙動に従い音声を選択したが、挙動抽出部205で挙動に加え、挙動判定の信頼度を出力し、信頼度に従い呼掛け音声を選択してもよい。信頼度を使用することで、より確からしい挙動に基づき音声を選択することができる。
【0025】
次に、音声選択作成部209は、対象人物への音声出力回数に基づき案内音声を選択する。音声選択作成部209は、具体的には、人物IDごとに音声出力回数を記憶しており、音声出力回数に従い強度を決定する。次に、音声記憶部208の案内音声リストから、決定した強度に対応付けられた音声を選択する。例えば、音声選択作成部209は、音声出力回数を3分の1にして小数点以下切り捨てた整数を強度として決定し、その強度に基づいて音声を選択する。
そして、音声選択作成部209は、選択した挨拶音声、呼掛け音声および案内音声を連結して音声ファイルを作成する。なお、案内音声の選択時に強度が2以上の人物の場合は挨拶音声を含まない音声ファイルを作成するなど、呼掛け音声や案内音声の選択処理に基づいて、挨拶音声の有無を決定してもよい。また、案内音声の強度の決定は、呼掛け音声の選択時の分類に従って決定してもよく、例えば、分類が「注意」の場合は強度を3に決定してもよい。
【0026】
さらに、音声選択作成部209は、案内音声の選択時に行動記憶部206が記憶している人物リストおよび行動リストを参照して、人物の属性を用いて音声に情報を付け加えることができる。例えば、音声選択作成部209は、人物リストから属性が「従業員」の人物を抽出して、抽出した人物の行動リストの最新レコードの位置と対象人物の位置とを比較することで、対象人物から最も近い位置にいる従業員を特定する。次に、音声選択作成部209は、行動リストの最新レコードから特定した従業員のエリアを抽出して、「従業員は時計売り場にいます。」という音声を作成する。そして、音声選択作成部209は、従業員に関する案内音声が選択された場合には、前記音声と組み合わせ、「従業員は時計売り場にいます。従業員までお気軽にご相談ください。」という音声を作成することができる。
上述したように音声ファイルの作成が完了すると、音声選択作成部209は、行動リストから対象人物の最新レコードを参照して対象人物の位置を特定し、近傍の出力装置への送信指示を作成する。音声選択作成部209は、作成した音声ファイルと出力装置への送信指示とを音声送信部210に送信する。
音声送信部210は、音声選択作成部209から受信した音声ファイルを、通信部17を介して音声選択作成部209に指示された出力装置300に送信する。
出力装置300は、音声受信部301と出力部302とを有する。
音声受信部301は、画像処理装置200の音声送信部210から音声ファイルを受信し、音声ファイルを出力部302に送信する。
出力部302は、音声受信部301から受信した音声ファイルを再生して音声を出力する。
【0027】
次に、図5のフローチャートを参照して、本実施形態に係る監視システムの処理について説明する。
図5(a)は撮像装置100の処理手順の一例を示すフローチャートである。
ステップS101において、撮像部101は、被写体を撮像して画像を取得する。
ステップS102において、画像送信部102は、撮像部101により取得した画像を画像処理装置200に送信する。
ステップS103において、画像送信部102は画像送信の終了要求があるか否かを判定する。画像送信部102は、画像送信の終了要求があると判定した場合は、処理を終了する。一方、画像送信部102は、画像送信の終了要求がないと判定した場合は、処理をステップS101に戻す。
【0028】
図5(b)は画像処理装置200の処理手順の一例を示すフローチャートである。
ステップS201において、画像受信部201は、撮像装置100から送信された画像を受信する。ステップS202において、人物検出追尾部202は、画像受信部201が受信した画像に基づいて人物の検出処理および追尾処理を行う。
次に、ステップS203において、カメラ間人物照合部204は、人物検出追尾部202により検出および追尾した人物同士の照合処理を行う。次に、ステップS204において、挙動抽出部205は、人物検出追尾部202により検出および追尾した人物の挙動の抽出を行う。
ステップS205において、挙動抽出部205は、ステップS204において抽出した挙動に関する情報を行動記憶部206に記録する。
次に、ステップS206において、行動検知部207は、行動記憶部206から更新情報を取得し、事前設定したルールと比較する。そして、ステップS207において、行動検知部207は、音声再生の対象人物がいるか否かを判定する。行動検知部207は、音声再生の対象人物がいると判定した場合は、ステップS208へ処理を進める。一方、行動検知部207は、音声再生の対象人物がいないと判定した場合は、ステップS201へ処理を戻す。
次に、ステップS208において、音声選択作成部209は、音声の選択および音声ファイルの作成を行う。ステップ209において、音声送信部210は、音声選択作成部209により作成した音声ファイルを出力装置300に送信する。
ステップS210において、音声送信部210は終了要求があるか否かを判定する。音声送信部210は、終了要求があると判定した場合は、処理を終了する。一方、音声送信部210は、終了要求がないと判定した場合は、ステップS201へ処理を戻す。
【0029】
図5(c)は出力装置300の処理手順の一例を示すフローチャートである。ステップS301において、音声受信部301は、画像処理装置200から送信された音声ファイルを受信する。ステップS302において、出力部302は、音声受信部301が受信した音声ファイルを再生して音声を出力する。ステップ303において、出力部302は、停止の要求があるか否かを判定する。出力部302は、停止の要求があると判定した場合は、処理を終了する。一方、出力部302は、停止の要求がないと判定した場合は、ステップS301へ処理を戻す。
【0030】
次に、図1に示す店舗の構成例を参照して、本実施形態の動作例を説明する。例えば、人物23は入店し、時計売り場6に長時間滞在する。その後、人物23は家電売り場7に移動して、図1に示す位置に登場し、カメラ21で周辺確認の挙動を複数回判定され、人物23に対して音声を出力する状況である。カメラ21の画角内には人物23と人物24とが写るため、人物23と人物24との行動履歴を比較して、音声を選択する。人物24から周辺確認の挙動が確認されていない場合、周辺確認の回数の違いから、「商品をお探しのお客様、従業員までお気軽にお声掛けください。」の音声ファイルを再生してスピーカー22からその音声を出力する。更に、別のカメラでレジにいる従業員3を検出している場合、「商品をお探しのお客様、レジの従業員までお気軽にお声掛けください。」の音声ファイルを再生してスピーカー22からその音声を出力することもできる。また、人物24が入店後に時計売り場6を経由せず家電売り場7に訪れていた場合、立ち寄った場所の違いから「時計売り場にお立ち寄りのお客様、従業員までお気軽にご相談ください。」の音声ファイルを再生してスピーカー22からその音声を出力することもできる。このように、人物の行動履歴と、周辺人物の行動履歴との違いに着目して音声を出力することで、対象人物が自身に対する音声であると認知しやすくなる。
【0031】
以上のように、本実施形態に係る監視システムでは、人物の行動履歴に基づいて音声ファイルを選択および作成することで、自身に対する音声であることを認知することができる。なお、上述したような画像処理装置200の構成に限らず、より単純に画像受信部201と挙動抽出部205と行動検知部207と音声記憶部208と音声選択作成部209と音声送信部210とから画像処理装置200を構成することもできる。同構成では、挙動抽出部205は画像受信部201から画像を取得して挙動の抽出を行い、前記抽出した挙動を行動検知部207で判定して音声出力の対象人物を特定する。そして、音声選択作成部209で前記挙動に従い音声を選択することで、第1の実施形態に記載した監視システムと同様の効果を得ることができる。
【0032】
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。第2の実施形態では、音声を出力した時の対象人物の反応を利用して効果を計測することで、音声の再選択をすべきか否かを判定するシステムの一例を示す。
図6は、第2の実施形態に係る監視システムの機能構成の一例を示すブロック図である。本実施形態に係る監視システムは、第1の実施形態に係る監視システムに、反応検知部401と反応記憶部402とを加えた構成である。以下、第1の実施形態と比べて異なる部分を中心に説明する。
反応検知部401は、音声を出力した時の対象人物の反応を検知する。検知処理について説明すると、まず、反応検知部401は、音声送信部210が音声ファイルを出力装置300に送信すると同時に、音声送信部210から対象人物が写る撮像装置のカメラIDと追尾IDを取得する。次に、反応検知部401は、その取得したカメラIDの画像中の追尾IDを持つ人物が音声への反応を示すかどうかを判定する。音声への反応とは、音声出力後、例えば2秒以内に、音源である出力装置300の方向を向く・見る、動きが止まる、急速な動きをする、などの動作である。これらの動作は、反応検知部401が、挙動抽出部205の姿勢DBを参照して、各部位の動きから反応の有無と度合いとを判定する。そして、反応検知部401は、追尾ID、反応の有無と度合いとの情報を反応記憶部402に記録する。
【0033】
反応検知部401により音声選択作成部209が選択した音声と反応検知部401から受信した情報とが音声の再生回数、反応回数、平均反応度合い、反応率に変換され、反応記憶部402に記憶される。
音声選択作成部209は、第1の実施形態において記載した方法で音声ファイルを選択した後、反応記憶部402に記憶された、選択した音声ファイルの再生回数、反応回数、反応率を参照する。再生回数が閾値を超え、かつ、反応率が所定値未満である場合は、音声選択作成部209は、選択した音声ファイルとは別の音声ファイルを再選択する。なお、平均反応度合いを参照して、閾値を下回る場合は、別の音声ファイルを再選択するとしてもよい。再選択を行うことにより、反応の得られない音声に関しては別の音声に変更する。結果として、より効果的な音声を出力することができる。
【0034】
次に、図7のフローチャートを参照して、本実施形態の画像処理装置200の処理について説明する。
ステップS201~ステップS204において、第1の実施形態で説明した図5(b)と同様の処理を行う。
ステップS401において、反応検知部401は、音声を出力してから所定の時間内であるか否かを判定する。反応検知部401は、例えば、音声の出力から2秒以内であれば所定の時間内であると判定して、ステップS402に処理を進める。一方で、反応検知部401は、所定の時間内でないと判定した場合は、ステップS205に処理を進める。
ステップS402において、反応検知部401は、音声出力の対象人物の反応を検知する。次に、ステップS403において、反応検知部401は、対象人物の追尾ID、反応の有無と度合いとの情報を反応記憶部402に記録する。
ステップS205~ステップS208において、第1の実施形態と同様の処理を行う。ステップS404において、音声選択作成部209は、反応記憶部402に記憶された情報を参照して、音声の再選択を行うか否かを判定する。音声選択作成部209は、再選択を行うと判定した場合は、処理をステップS208に戻し、再び音声選択処理を行う。一方、音声選択作成部209は、再選択をしないと判定した場合は、処理をステップS209に進める。
以上のように、本実施形態に係る監視システムでは、音声を出力した時の対象人物の反応を記録して、その反応に基づき音声を変更することで、対象人物が自身に対する音声であることをより効果的に認知することができる。
【0035】
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。第3の実施形態では、人物の行動履歴と商品情報とを利用して対象人物に対して販売促進用の音声を出力するシステムの一例を示す。
図8は、第3の実施形態に係る監視システムの機能構成の一例を示すブロック図である。本実施形態に係る監視システムは、第1の実施形態に係る監視システムに、商品推定部501と商品情報記憶部502とを加えた構成である。以下、第1の実施形態と比べて異なる部分を中心に説明する。
【0036】
商品推定部501は、対象人物が興味を示す商品を推定する。商品推定部501は、例えば、挙動抽出部205が商品を持つ挙動を抽出した時に、同人物は同商品に興味があると判定する。なお、興味があるか否かの判定は商品を持つ挙動に限定されず、挙動抽出部205において人物が興味を持つ商品を推定する方法であればよく、目、鼻の位置関係から人物の視線を推定して視線が長く向けられた商品を興味がある商品と判定してもよい。
また、商品推定部501は、人物が興味を持つ商品に関して、商品情報記憶部502に記憶された情報を参照して、画像中の同商品の外観、もしくは、人物が商品棚に手を伸ばした位置から商品のカテゴリおよび商品コードを取得する。ここで、商品のカテゴリとは、家電量販店であれば、ポータブルオーディオやパソコン、プリンタなどであり、化粧品店であれば、マスカラやファンデーションなどである。
さらに、商品推定部501は、人物が興味を示す商品のカテゴリ、商品コードの情報を行動記憶部206に記憶する。なお、行動記憶部206は、第1の実施形態で説明した情報に加えて、人物が興味を示す商品の情報を行動リストの挙動を追加する。例えば、興味(ポータブルオーディオ)といった情報も併せて記憶する。また、本実施形態では、例えば、条件1「最新レコードの挙動が興味」、条件2「過去10秒間での位置から移動距離を算出して移動距離が500未満」の2条件を満たす人物を判定するルールを設定するものとする。
【0037】
商品情報記憶部502は、商品の画像、カテゴリ、商品名、コード、売上および売上ランキングに関する情報を記憶する。
音声記憶部208には、第1の実施形態で説明した音声に加えて、挙動が興味である場合の音声を追加する。例えば、呼掛け音声リストには、「ポータブルオーディオをお探しのお客様」など、商品のカテゴリを持つ音声を含むようにする。また、案内音声リストには、商品情報記憶部502に記憶されている商品名、売上ランキングに基づき、「ABCDEオーディオは売上2位です」など商品の紹介音声を追加する。
【0038】
音声選択作成部209は、第1の実施形態と同様の音声選択方法に加えて、対象人物の挙動が興味である場合には、販売促進用の音声ファイルを作成する。例えば、対象人物の挙動が興味(ポータブルオーディオ)である場合、「ポータブルオーディオをお探しのお客様、ABCDEオーディオは売上2位です。」などの音声ファイルを作成する。なお、商品紹介音声を事前に音声記憶部208に記憶するのでなく、音声選択作成部209の処理時に、人物の挙動を利用して商品情報記憶部502に記憶された情報を参照して音声を合成し、音声ファイルを作成してもよい。
【0039】
次に、図9のフローチャートを参照して、本実施形態の画像処理装置200の処理について説明する。
ステップS201~ステップS204において、第1の実施形態と同様の処理を行う。次に、ステップS501において、商品推定部501は、人物が興味を持つ商品の推定を行う。ステップS205~ステップS210において、第1の実施形態と同様の処理を行う。
以上のように、本実施形態に係る監視システムでは、人物の行動履歴と商品情報とに基づいて、対象人物に対して販売促進用の音声を出力することができる。
【0040】
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【符号の説明】
【0041】
202 人物検出追尾部、205 挙動抽出部、206 行動記憶部、207 行動検知部、208 音声記憶部、209 音声選択作成部
図1
図2
図3
図4
図5
図6
図7
図8
図9