(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、動画中のある対象物(第1対象物)に付随する別の対象物(第2対象物)の物体認識を行う場合に、第2対象物を動画から直接的に精度良く認識することが容易ではないケースがある。なお本願における「対象物」は、機械学習や物体認識等でのアノテーションデータに相当する概念である。例えば、車両(第1対象物の一例)を監視するカメラの撮影動画からそのナンバープレートに表されたナンバー(第2対象物の一例)を認識しようとする場合、ナンバーを認識するためには車両の物体認識に比べて精密な認識処理が要求される。そのため動画から直接的にナンバーを認識しようとすると、認識精度の低下等を生じる虞がある。
【0007】
この問題を解消させるため、動画から静止画を抜き出しておき、抜き出した静止画からの物体認識によってナンバーを認識する手法が考えられる。しかしながら、例えば動画から各フレームの静止画を一律に抜き出すようにすると、車両が含まれない不要な静止画も抜き出しの対象となり、システムの動作負担が過大となる虞がある。また、抜き出す静止画にこのような不要な静止画が多く含まれると、物体認識の速度や精度が低下する虞もある。
【0008】
本発明は上述した問題点に鑑み、動画中の第1対象物に付随する第2対象物を、システムの動作負担を抑えながら精度良く認識することが容易となる物体認識システム、および物体認識方法の提供を目的とする。
【課題を解決するための手段】
【0009】
本発明に係る物体認識システムは、動画から第1対象物を物体認識する動画物体認識部と、前記動画から第1対象物を含む複数のフレームの静止画を抜き出す静止画抜出部と、前記静止画から第1対象物に付随する第2対象物を物体認識する静止画物体認識部と、を備えた構成とする。本構成によれば、動画中の第1対象物に付随する第2対象物を、システムの動作負担を抑えながら精度良く認識することが容易となる。なおここでの「付随する」とは、第1対象物に第2対象物が含まれる形態に限られず、動画中に表れる時期が密接に関連する他の形態も含まれる。
【0010】
また上記構成としてより具体的には、前記抜き出された各静止画のうち、第1対象物および第2対象物の少なくとも一方の露出度の高さに関する所定条件を満たすものを抽出する抽出部を備え、前記静止画物体認識部は、前記抽出された静止画から、第1対象物に含まれる第2対象物を認識する構成としてもよい。本構成によれば、第1対象物に含まれる第2対象物を、静止画からより効率良く認識することが可能となる。
【0011】
また上記構成としてより具体的には、前記抜き出された各静止画のうち、第2対象物である特定対象物の露出度が最も高いものを抽出する第1処理と、抽出された前記静止画から第2対象物内の表示情報の認識を行う第2処理と、当該認識が成功するまで、前記各静止画のうち前記特定対象物の露出度がその次に高いものを抽出して第2処理を繰返し行う第3処理と、を実行する構成としてもよい。なおここでの「表示情報」とは、文字、図形、記号、或いはこれらの組合わせであって、例えば本願でのナンバー(自動車登録番号)等が該当し得る。
【0012】
また上記構成としてより具体的には、前記繰返しの回数が所定回数に達しても第2処理における前記認識が成功しない場合に、前記特定対象物を第1対象物として第1処理から第3処理を実行する構成としてもよい。
【0013】
また上記構成としてより具体的には、前記静止画抜出部は、前記動画における第1対象物の露出度に応じて、前記抜き出す静止画の解像度および前記静止画を抜き出す時間間隔の少なくとも一方を調節する構成としてもよい。
【0014】
本構成によれば、システムの負担を極力抑えながら、重要度の高い静止画を効率良く抜き出すことが可能となる。また上記構成としてより具体的には、抜き出された複数の前記静止画の中で第2対象物の露出度が最も大きいものに対し、深層学習に適した補正処理を施す構成としてもよい。
【0015】
また上記構成としてより具体的には、前記動画はカメラを用いて撮影された映像であって、前記カメラと第1対象物の距離を検知する距離検知部を備え、前記静止画抜出部は、前記距離が所定値以下となったときに、前記静止画の抜き出しを開始する構成としてもよい。本構成によれば、第1対象物の映りが小さい不明瞭な静止画の抜き出しを極力抑えることが可能となる。
【0016】
また上記構成としてより具体的には、第1対象物の向きを検知する方向検知部を備え、前記静止画抜出部は、前記向きが所定条件を満たしたときに、前記静止画の抜き出しを開始する構成としてもよい。本構成によれば、第1対象物の向きに問題がある静止画の抜き出しを極力抑えることが可能である。
【0017】
また上記構成としてより具体的には、第1対象物の情報と第2対象物の情報を関連させて保持する構成としてもよい。本構成によれば、第1対象物と第2対象物を一括して管理することが可能となる。また更に上記構成において、前記動画物体認識部と前記静止画物体認識部において、異なる物体認識の手法を用いる構成としてもよい。本構成によれば、動画からの物体認識と静止画からの物体認識のそれぞれに最適な手法を用い、物体認識を効率良く行うことが可能となる。
【0018】
また本発明に係る物体認識方法は、動画から第1対象物を物体認識する動画物体認識工程と、前記動画から第1対象物を含む静止画を抜き出す静止画抜出工程と、前記静止画から第1対象物に付随する第2対象物を物体認識する静止画物体認識工程と、を含む方法とする。
【発明の効果】
【0019】
本発明に係る物体認識システムおよび物体認識方法によれば、動画中の第1対象物に付随する第2対象物を、システムの動作負担を抑えながら精度良く認識することが容易となる。
【発明を実施するための形態】
【0021】
本発明の実施形態に係る車両管理システム(本発明に係る物体認識システムの一形態)について、各図面を参照しながら以下に説明する。
【0022】
1.車両管理システムの構成
図1は、本実施形態に係る車両管理システム1の概略構成を示すブロック図である。本図に示すように車両管理システム1は、進入路前側撮影用スマートフォン11a、進入路後側撮影用スマートフォン11b、退出路前側撮影用スマートフォン11c、退出路後側撮影用スマートフォン11d、通信ネットワーク12、エッジサーバー13、情報処理装置14、および管理サーバー15を備えている。なお以下の説明では、上記の各スマートフォン11a〜11dを「スマートフォン11」と総称することがある。また各図面においては、スマートフォン(SmartPhone)を「SP」と略記することがある。
【0023】
本実施形態では一例として、スマートフォン11は複数の敷地(
図1に示す例では敷地1〜3)内それぞれに複数個が設置されている。本実施形態における「敷地」は、当該敷地を管理する事業者等(以下、「管理者」と称する)の許可を得た車両が出入りできる場所であり、例えば、管理者が所有する駐車場等が該当する。敷地に車両の出入口が複数箇所ある場合、全ての出入口の付近にスマートフォン11を設置することにより、その敷地に進入或いは退出する車両を漏れなく監視することが可能である。なお、本実施形態における「車両」はナンバープレートを備えた自動車のことであり、「ナンバー」は当該ナンバープレートに表された自動車登録番号のことである。一般的にナンバープレートは、車両の前側と後側の両方に設けられている。
【0024】
一方で、エッジサーバー13、情報処理装置14、および管理サーバー15は、管理センターに纏めて設置されている。本実施形態における「管理センター」は、敷地に出入りする車両の管理が行われる場所であり、例えば、管理者が所有する建物内の一室が該当する。車両管理システム1は、各敷地に進入する車両を自動的に監視するとともに、一括して管理する役割を果たす。
【0025】
管理サーバー15は、各敷地に進入する車両等の管理に用いられるサーバーである。管理サーバー15には、敷地内への進入を許可された全ての車両(以下、便宜的に「許可車両」と称する)のナンバーが、データベースとして登録されている。管理サーバー15は、管理者等によって新たな許可車両のナンバーが入力される度に、この情報をデータベースに蓄積する。なお、管理サーバー15は、インターネット網を介してデータセンタ上に設けられてもよい。
【0026】
スマートフォン11は、被写体を撮影して動画(映像)を得るカメラの機能を有するとともに、自機から被写体までの距離を測る機能(測距機能)を有する。この測距機能は、スマートフォン11に複数のレンズを搭載した「ステレオカメラ」により実現される。測距機能は、ステレオカメラに替えて測距センサー等を設けることにより実現してもよい。また、進入路前側撮影用スマートフォン11aは敷地へ進入する車両の前側を撮影する役割を、進入路後側撮影用スマートフォン11bは敷地へ進入する車両の後側を撮影する役割を、退出路前側撮影用スマートフォン11cは敷地から退出する車両の前側を撮影する役割を、退出路後側撮影用スマートフォン11dは敷地から退出する車両の後側を撮影する役割を、それぞれ担っている。なお、カメラ単体或いはその他のカメラを有した機器が、スマートフォン11の代わりに適用されても良い。
【0027】
図2は、敷地内においてスマートフォン11が設置された様子を例示している。本図に示すように、スマートフォン11は、敷地に進入および退出する車両の通行路が被写体となるように設置されている。これにより、車両が進入路(敷地へ進入するための通行路)および退出路(敷地から退出するための通行路)を通行する際、その車両の前側および後側の外観をスマートフォン11の被写体に収めることが可能である。スマートフォン11は、車両のナンバープレート(或いは、これに表されたナンバーの情報)、運転者、運転者が装着したシートベルト、車両の汚れや傷(凹み等含む)、および所定の装備品(以下、これらを「ナンバープレート等」と総称することがある)を被写体へ収めることができるように、適切な位置に設置されることが望ましい。なお、ここでの「装備品」は、例えば許可車両に装備が義務付けられたものであり、スマートフォン11の被写体となり得るものである。
【0028】
例えば
図2に示すように、各スマートフォン11は守衛室の近傍に設けられ、車両の全体を斜め上方から撮影できる位置(本図の例では支柱)に設置されることが望ましい。本図の例では、進入路前側撮影用スマートフォン11aおよび進入路後側撮影用スマートフォン11bは、進入路のほぼ真上において後部同士が対向するように設置され、進入路前側撮影用スマートフォン11aは進入路を進む車両の前側全体を斜め上前方から撮影するように、進入路後側撮影用スマートフォン11bは進入路を進む車両の後側全体を斜め上後方から撮影するように、それぞれ適切に配置されている。
【0029】
一方、退出路前側撮影用スマートフォン11cおよび退出路後側撮影用スマートフォン11dは、退出路のほぼ真上において後部同士が対向するように設置され、退出路前側撮影用スマートフォン11cは退出路を進む車両の前側全体を斜め上前方から撮影するように、退出路後側撮影用スマートフォン11dは退出路を進む車両の後側全体を斜め上後方から撮影するように、それぞれ適切に配置されている。
【0030】
このように、各スマートフォン11は上方視において車両と重なる位置に配されることが望ましく、これによりスマートフォン11により得られた画像データについて、車幅方向の各種補正の簡略化あるいは省略が可能となる。なお以下の説明では、同じ車両を前側と後側から撮影するスマートフォン11の組合せ、すなわち、進入路前側撮影用スマートフォン11aとこれに対応する進入路後側撮影用スマートフォン11bの組合せ、および、退出路前側撮影用スマートフォン11cとこれに対応する退出路後側撮影用スマートフォン11dの組合せそれぞれを、「一対のスマートフォン11」と表現することがある。
【0031】
例えば退出路前側撮影用スマートフォン11cの映像には、
図4に例示するように、車両C1の前側のナンバープレートが直接映るとともに、運転者と運転者が装着したシートベルトがフロントガラス越しに映ることになる。上記のナンバープレート等は、車両が映っている動画および静止画において、何れも当該車両に含まれているものであり、当該車両に付随しているものである。また、スマートフォン11は測距機能を有しているため、被写体中の車両の位置が特定されれば、当該スマートフォン11から当該車両までの距離Dの情報を得ることが可能である。この距離Dは、後述する距離検知部43によって検知される。また、スマートフォン11の温度上昇、低下や経年劣化を抑え、車両の側面をより正確に撮影するために、守衛室にスマートフォン11を設けてもよい。進入車両を撮影するスマートフォン(11a、11b)と、退出車両を撮影するスマートフォン(11c、11d)とから得られるデータを照合することにより、入退出の管理が可能になる。
【0032】
通信ネットワーク12は、各スマートフォン11と情報処理装置14の間の通信に用いられるネットワークである。通信ネットワーク12の具体的形態としては、有線と無線の何れのネットワークが適用されても良い。また、通信ネットワーク12にインターネット等を利用することも可能である。
【0033】
エッジサーバー13は、通信ネットワーク12と情報処理装置14の間に介在し、例えばディープラーニングを実行可能な環境やディープラーニングで使用される各種値(人工知能の学習済のハイパーパラメータ、モデルの構造情報となるハイパーパラメータ、学習データを学習させた際に与えられるウエイトデータ、強化学習モデルにおける報酬関数)を記憶している。エッジサーバー13にはディープラーニングを実行できる環境のソフトウエア(Python,anaconda,jupyter,opencv,TENSORFLOW,YOLO等)がインストールされている。
【0034】
情報処理装置14は、エッジサーバー13よりも高性能なサーバーにより構成され、動画および静止画からの物体認識の他、車両の監視および管理に関わるディープラーニングの新規学習(強化学習、追加学習)の関連処理等を実行する装置である。また情報処理装置14は、動画に対する画像認識等の処理を行う動画処理エンジン14aと、静止画に対する画像認識等の処理を行う静止画処理エンジン14bを有する。
【0035】
動画処理エンジン14aは、YOLO(You Only Look Once)やOPEN CV(Open Source Computer Vision Library)等のアルゴリズムが採用されており、リアルタイムで動画から物体認識を行う機能に優れている。動画処理エンジン14aは、機械学習により、外観(傾き、大きさ、向き)が異なる車両を何れも「車両」を正確かつ迅速に物体認識することが可能となっている。これにより、動画中の車両の認識漏れを極力抑えることが可能である。なお「機械学習」は、与えられた情報に基づいて反復的に学習を行うことにより、法則やルールを自律的に見つけ出す手法である。但し、動画処理エンジン14aの具体的構成は上記の例に限定されるものではなく、YOLO等の代わりに、動画からの物体認識に適した他の手段が採用されても良い。
【0036】
一方で静止画処理エンジン14bは、機械学習ライブラリであるTENSORFLOWが採用されており、静止画から素早く精度良く物体認識を行う機能に優れている。特にTENSORFLOWは、深層学習(ディープラーニング)が可能であるライブラリとなっており、多次元のデータ構造を円滑に処理することができる。なお「深層学習」は、多層構造のニューラルネットワーク(人間の脳神経系の仕組みを模した情報処理モデル)を用いた機械学習である。
【0037】
静止画処理エンジン14bによれば、車両を含む静止画からナンバープレート等を高精度に物体認識することが出来るとともに、当該ナンバープレートに表されたナンバーを認識することも可能である。但し、静止画処理エンジン14bの具体的構成は上記の例に限定されるものではなく、TENSORFLOWの代わりに、静止画からの物体認識に適した他の手段が採用されても良い。また、エッジサーバー13と情報処理装置14とを同じサーバーで実現してもよい。
【0038】
ここで、情報処理装置14の主な機能的構成のブロック図を
図3に示す。本図に示すように情報処理装置14は、制御部40、通信部41、動画物体認識部42、距離検知部43、速度検知部44、静止画抜出部45、露出度検出部46、抽出部47、画像処理部48、静止画物体認識部49、チェック実行部50、および異常信号出力部51を有する。
【0039】
制御部40は、情報処理装置14が正常に動作するように、各機能部41〜51を適切に制御する。なお情報処理装置14の主な動作については、改めて詳細に説明する。通信部41は、各スマートフォン11および管理サーバー15を含む外部装置との通信を実行する。
【0040】
動画物体認識部42は、動画処理エンジン14aによる動画からの物体認識機能を用いて、動画から車両を物体認識する。なお、複数の車両が同時に表れている動画に対しては、動画物体認識部42はこれらを別々に物体認識することが可能である。例えば一のスマートフォン11の被写体に2台の車両が入ったときには、これら2台の車両を別々に物体認識することが可能であり、情報処理装置14は、それぞれに着目した処理を並行して進めることが可能である。当該物体認識は、主に後述するステップS10の処理において実施される。
【0041】
距離検知部43は、スマートフォン11に設けられた測距機能を利用して、物体認識された車両とスマートフォン11との距離D(
図2を参照)を検知する。当該距離の検知は、主に後述するステップS12の処理において実施される。
【0042】
速度検知部44は、物体認識された車両の速度を検知する。速度を検知する手法としては、スマートフォン11の近傍に設置された速度センサーを利用する手法や、動画における車両の動きから速度を検知する手法等が採用され得る。当該速度の検知は、主に後述するステップS11の処理において実施される。
【0043】
静止画抜出部45は、動画から複数の静止画(各フレームの画像、例えば0.1秒間隔に30枚)を抜き出して、記憶領域に一時的に保持する。なお静止画抜出部45は、動画から抜き出す静止画の解像度、および動画から静止画を抜き出す時間間隔を、適宜変更することが可能である。当該静止画の抜出しは、主に後述するステップS13の処理において実施される。
【0044】
露出度検出部46は、動画の1フレーム(一の静止画に相当する)における物体認識された車両の露出度(以下、「第1露出度」と称する)を検出する。第1露出度は、動画の1フレームにおける車両の大きさ(面積)とフレームの大きさとの比率(フレームに対する露出割合)としてもよく、車両の大きさ自体としてもよい。また車両の大きさの情報としては、車両の輪郭内部の面積を採用しても良く、当該大きさの指標となる他の情報(例えば、
図4に破線で示す矩形(四辺が車両に接する矩形)の内部の面積)を採用しても良い。その他、フレーム同士における車両の露出度の高さを比較可能とする別の値を、第1露出度とみなしても良い。第1露出度の検出は、主に後述するステップS14の処理において実施される。さらに露出度検出部46は、動画の1フレーム(一の静止画に相当する)における物体認識されたナンバープレートの露出度(以下、「第2露出度」と称する)を検出する。第2露出度は、動画の1フレームにおけるナンバープレートの大きさと車両の大きさとの比率(車両に対する露出割合)としても良く、ナンバープレートの大きさとフレームの大きさとの比率(フレームに対する露出割合)としても良く、ナンバープレートの大きさ自体としてもよい。また第1露出度の場合と同様に、フレーム同士におけるナンバープレートの露出度の高さを比較可能とする各種の値を、第2露出度とみなすことが可能である。第2露出度の検出は、主に後述するステップS20の処理において実施される。
【0045】
抽出部47は、静止画抜出部45によって抜き出された複数の静止画のうち、第1露出度および第2露出度の少なくとも一方に関する所定条件(以下、便宜的に「露出度条件」と称する)を満たすものを抽出する。露出度条件は、例えば、当該露出度の値が所定値以上であることとしても良く、当該露出度が最も高いこととしても良く、当該露出度の高い方から数えて所定数以内に該当することとしても良い。本実施形態に係る露出度条件の具体的内容については、改めて詳細に説明する。露出度が高いほど、静止画物体認識部49によるナンバーの物体認識が行い易くなる可能性が高まるため、露出度条件を満たす静止画を用いれば当該物体認識をより有利に行うことが可能となる。その他、露出度条件の代わりに、静止画物体認識部49による物体認識の行い易さに関する別の条件が設定されても良い。当該抽出は、主に後述するステップS20の処理において実施される。
【0046】
画像処理部48は、静止画に対して閾値処理、エッジ処理(エッジ検出処理)、および傾き補正処理の各画像処理を順に実施する。なお画像処理部48は、これらの画像処理のうち、何れか一つまたは二つのみを実施するようにしても良く、静止画からの物体認識をより有利にするための他の画像処理を更に実施するようにしても良い。当該画像処理は、主に後述するステップS21の処理において実施される。なおこれらの画像処理は、深層学習に適した補正処理とみることも出来る。
【0047】
ここで「閾値処理」は、画像を2値画像(シングルチャンネル画像)に変換する処理である。閾値処理によれば、例えば、白黒の2値画像に変換する場合には、チャンネル値が所定の閾値を超えた画素については白の画素に、チャンネル値が当該閾値を超えなかった画素については黒の画素に、それぞれ変換されることになる。閾値処理が施された画像は、画像中の明度の異なる部分を選ぶことが容易となる。
【0048】
また「エッジ処理」は、画像中の明るさ(濃淡)あるいは色が急に変化している箇所(エッジ)を検出する処理である。画像中の物体の輪郭や線では、一般的に濃淡等が急激に変化しているため、エッジ処理によってこの輪郭や線を検出することが可能である。エッジは物体の構造を反映している重要な情報であり、静止画からの物体認識を実施する際にエッジ処理は極めて有用である。なおエッジ処理をより効果的に行うため、通常、予めその画像に閾値処理を実施しておくことは有用である。
【0049】
エッジ処理を実施するためのアルゴリズムとしては、キャニー(Canny)エッジ検出器が採用されても良い。このアルゴリズムが採用された場合のエッジ処理(キャニー処理)によれば、他のアルゴリズム(ソーベルフィルタやラプラシアンフィルタ等)が採用された場合に比べ、輪郭の検出漏れや誤検出が少なく、各点に一本の輪郭を検出し、真にエッジである部分を検出し易いといった特徴がある。なおキャニー処理は、Gaussianフィルタで画像を平滑化し、この平滑化された画像の微分の計算結果から勾配の大きさと方向の計算して、Non maximum Suppression処理およびHysteresis Threshold処理を行うことにより達成される。
【0050】
また「傾き補正処理」は、画像中に検出された直線等が水平方向(或いは垂直方向)から傾斜している場合に、この傾斜を解消させるように画像を回転させる処理である。例えば、画像中のナンバープレートの横方向に伸びる縁が水平方向に一致するように傾き補正処理を施すことにより、ナンバーの文字列が水平方向へ並ぶようにし、ナンバーの認識をより容易なものとすることが可能となる。なお画像中の直線等を検出容易とするため、通常、予めエッジ処理を実施しておくことは有用である。
【0051】
静止画物体認識部49は、静止画処理エンジン14bによる静止画からの物体認識機能を用いて、静止画から車両のナンバープレート、ナンバー(ナンバープレートに表された情報)、運転者が装着したシートベルト、車両の汚れ・傷、および装備品を物体認識する。静止画からの物体認識は、車両のナンバーを認識する場合のように、静止画に表された表示情報を認識することも含む概念である。当該物体認識は、主に後述するステップS22の処理において実施されるが、先述した第2露出度を検出するため、ナンバープレートについての物体認識はステップS20の処理において実施される。なお上述したように本実施形態では、動画物体認識部42と静止画物体認識部49において、異なる物体認識の手法が用いられている。そのため、双方において同じ物体認識の手法が用いられる場合に比べ、動画からの物体認識と静止画からの物体認識のそれぞれに最適な手法を用い、物体認識を効率良く行うことが可能となっている。
【0052】
なお、静止画物体認識部49は、図柄の無い一般的なナンバープレートだけでなく、いわゆるご当地ナンバーが表されたナンバープレートからもナンバーを認識することが可能である。
図5は、認識され得るナンバープレートのうち、ご当地ナンバーが表されたもの(ご当地ナンバープレート)の一例を示している。当該ナンバープレートには、車両を識別する数字や記号以外に図柄(ここでは波の図柄)が描写されている。静止画物体認識部49は、このようなナンバープレートに対しても、プリミティブ形状判断によりナンバーとして登録される文字や記号だけを抽出し、それを車両の識別番号として利用することができる。そのため
図5に示す例では、「墨田区 s1234」のナンバーが抽出される。
【0053】
チェック実行部50は、物体認識されたナンバー等について予め決められた内容のチェックを実施する。当該チェックは、後述するステップS24の処理で実施されるものであり、その内容については改めて詳細に説明する。
【0054】
異常信号出力部51は、チェック結果の異常を管理者等に知らせるための異常信号を出力する。この異常信号は、管理担当者等にチェック結果の異常を知らせるものであり、アラート音(聴覚信号)や警告ランプ(視覚信号)等とすることが可能である。当該異常信号の出力は、主に後述するステップS26の処理において実施される。
【0055】
2.車両管理システムの動作
次に、車両管理システム1の動作概要について説明する。まず車両管理システム1は、主に動画から静止画を抜出すための一連の処理(以下、便宜的に「前段処理」と称する)を実行する。以下、この前段処理の流れについて、
図6に示すフローチャートを参照しながら説明する。
【0056】
(1)前段処理
敷地内に設置された各スマートフォン11は継続的に被写体の撮影を行い、その動画はリアルタイムに情報処理装置14へ送られる。一方で情報処理装置14は、この動画に対して車両の物体認識の処理を継続的に実施する。これにより、何れかのスマートフォン11の被写体に車両が表れたとき、換言すれば、車両が敷地内に進入して被写体内の通行路を通過するときに、情報処理装置14は当該車両を物体認識することができる(ステップS10)。このようにして情報処理装置14は、敷地内に進入する車両を監視する。
【0057】
各スマートフォン11における被写体の撮影モードは、天候、時間、および季節などの状況に応じて可変としてもよい。例えば、逆光や暗い場所の場合には、各スマートフォン11におけるHDR(High Dynamic Range)の機能が自動的に有効となるようにしてもよい。これにより、そのときの状況に応じて極力鮮明な動画を取得することができる。
【0058】
車両が物体認識されると(ステップS10のYes)、情報処理装置14は、当該車両に対して以降の処理(ステップS11〜S18)を実施する。なお情報処理装置14は、複数の車両が同時に物体認識された場合、すなわち、同じスマートフォン11の被写体に同時に複数の車両が表れた場合や、複数のスマートフォン11の被写体に同時に車両が表れた場合には、これらの車両が全て物体認識され、車両1台ごとに以降の処理が個別に行われる。
【0059】
まず情報処理装置14は、物体認識された車両の速度を検出する(ステップS11)。この検出された車両速度の情報は、後述するステップS24の処理により、管理サーバー15に記録される。また更に情報処理装置14は、当該車両とスマートフォン11との距離Dが所定の閾値以下となるタイミングを監視する(ステップS12)。
【0060】
ここで
図7は、車両の動きに伴って距離Dが変化する様子を例示している。本図に示すように、車両がスマートフォン11に映り始めたときに比べ、車両がより大きく明瞭に映る位置まで進んだときには、距離Dは小さくなっている。なお距離に関する閾値は、車両が適度に大きく映ると見込まれるときの距離Dに合わせて設定されている。そのため情報処理装置14は、ステップS12の処理を行うことにより、車両が適度に大きく映り始めたタイミングを検知することが可能である。
【0061】
距離Dが閾値以下となると(ステップS12のYes)、情報処理装置14は、静止画抜出処理を開始する(ステップS13)。以降、情報処理装置14は、静止画抜出処理を終了するまで、動画から静止画を逐次抜き出すようにする。なお、距離Dが閾値以下となるまで静止画抜出処理の実施が保留されることにより、車両の映りが小さい不明瞭な静止画の抜き出しを極力抑えることが可能である。
【0062】
なお、静止画抜出処理を開始する条件は、本実施形態のように距離Dが閾値以下になったときとする代わりに、例えば、車両の向きが所定条件を満たしたときとしても良い。このようにする場合、情報処理装置14に車両の向きを検知する機能部(方向検知部)を設けておき、検知された方向が所定条件を満たしたときに静止画抜出処理が開始されるようにすれば良い。車両の向きは、動画中の車両の状態から認識することができる。車両の向きに関する所定条件は、例えば、スマートフォン11に対して車両が真正面を向いている状態、つまり車両前側のナンバープレート前面がスマートフォン11に真直ぐ向いている状態を基準方向として、車両の向きと基準方向との差が所定値以下(例えば30°以下)であることとすれば良い。このようにすれば、車両の向きが所定条件を満たすまで静止画抜出処理の実施が保留されることにより、車両の向きに問題がある(ナンバーの認識に支障が出易い)静止画の抜き出しを極力抑えることが可能である。
【0063】
静止画抜き出し処理が開始された後、情報処理装置14は、動画の最新の1フレームについて当該車両の第1露出度を検出する(ステップS14)。第1露出度が高いほど、その静止画において当該車両がより鮮明に表れている可能性が高く、当該車両に含まれるナンバープレート等の認識に役立つ可能性が高いため、その静止画はより重要度が高いと言える。なお第1露出度の検出は、動画から直接行うようにしても良く、抜き出された最新の静止画から行うようにしても良い。
【0064】
その後に情報処理装置14は、検出された第1露出度に応じて、抜き出す静止画の解像度を調節する(ステップS15)。より具体的に説明すると、情報処理装置14は、第1露出度が高いほど、抜き出す静止画の解像度を上げるようにする。これにより、重要度の高い静止画を優先的に得ることができ、静止画からのナンバープレート等の認識をより行い易くすることが可能である。なお、高い解像度の静止画を常時得ようとすると、データサイズの大きい静止画を多量に扱う必要があるためシステムの負担が大きくなり易いが、本実施形態のように車両の露出度に応じて解像度を調節することにより、このような問題を極力解消することが可能である。
【0065】
更に情報処理装置14は、検出された第1露出度に応じて、静止画を抜き出す時間間隔を調節する(ステップS16)。より具体的に説明すると、情報処理装置14は、第1露出度が高いほど静止画を抜き出す時間間隔を短くし、単位時間当たりに抜き出す静止画の数を増やすようにする。これにより、重要度の高い静止画を優先的に得ることができ、静止画からのナンバープレート等の認識をより行い易くすることが可能である。なお、静止画を抜き出す時間間隔を常時短くしておくと、非常に多くの静止画を扱う必要があるためシステムの負担が大きくなり易いが、本実施形態のように車両の露出度に応じて時間間隔を調節することにより、このような問題を極力解消することが可能である。
【0066】
上述したステップS14〜S16の一連の処理は、車両が認識されなくなるまで(すなわち、車両がスマートフォン11に映る範囲を通り過ぎるまで)、繰り返し実施される(ステップS17)。このようにして、静止画の解像度および静止画を抜き出す時間間隔は第1露出度に応じてフィードバック制御され、重要度の高い静止画を効率良く抜き出すことが可能である。
【0067】
図8に示すタイミングチャートは、一対のスマートフォン11(同じ車両の前側と後側を撮影する各スマートフォン)により得られた動画から静止画が抜き出されるタイミングを例示している。本図における着色箇所が、静止画の抜き出しが行われるタイミングを示している。本図に示すように、車両が前側撮影用スマートフォン(11aまたは11c)の被写体内に存在する期間では、当該車両の前側の静止画が取得される。その後に当該車両が移動し、当該車両が後側撮影用スマートフォン(11bまたは11d)の被写体内に存在する期間では、当該車両の後側の静止画が取得される。また
図8に示すように、第1露出度が高いときほど、解像度の高い静止画が多く取得される。
【0068】
なお本実施形態において、ステップS14およびS15の処理の一方を省略しても良く、ステップS14〜S16の処理を省略しても良い。一方、車両が認識されなくなると(ステップS17のYes)、その車両に関しての静止画抜出処理は終了する(ステップS18)。一対のスマートフォン11それぞれに対応した前段処理が実行されると、車両1台分についての複数のフレームの静止画が得られることになる。このようにして得られた静止画群は、後述するステップS20〜S26の一連の処理(以下、便宜的に「後段処理」と称する)に用いられる。
【0069】
(2)後段処理
次に、
図9に示すフローチャートを参照しながら、後段処理の流れについて説明する。この後段処理は、車両1台分の前段処理が終了する度に実行される。情報処理装置14は、ナンバーの認識等に用いる静止画を得るため、前段処理によって得られた複数の静止画のうち先述した露出度条件を満たすものを抽出する(ステップS20)。
【0070】
ここで本実施形態では露出度条件として、優先度の高い方から順に、第1条件、第2条件、第3条件、第4条件、および第5条件が次の通り設定される。
第1条件:第2露出度が最も高いこと
第2条件:第2露出度が2番目に高いこと
第3条件:第2露出度が3番目に高いこと
第4条件:第1露出度が最も高いこと
第5条件:第1露出度が2番目に高いこと
但し、第4条件および第5条件については、第1〜第3条件の何れかを満たす静止画は対象外とされる。また、第5条件以降の各条件が適宜設定されるようにしても良い。
【0071】
すなわち、ステップS20の処理が最初に行われる際には、露出度条件として第1条件が有効とされる。しかし、その後のステップS23の処理においてナンバーの認識が成功せず、次にステップS20の処理が行われる際には、露出度条件として第2条件が有効とされる。以下同様に、その次にステップS20の処理が行われる際には第3条件が有効とされ、更にその次にステップS20の処理が行われる際には第4条件が有効とされ、更にその次にステップS20の処理が行われる際には第5条件が有効とされる。
【0072】
このように本実施形態では、まず第2露出度の高い方から所定数(本実施形態の例では3個)の静止画が最優先で抽出されるようにし、その次に第1露出度の高い方から所定数(本実施形態の例では2個)の静止画が優先的に抽出されるようにしている。なお、これらの所定数の値は一例であり、他の値を採用しても構わない。本実施形態では特に移動中の車を撮影するため、車両を映した撮影動画においてナンバープレートが欠けていたり、適切に見えなかったりする事態が生じ得る。このような事態はナンバーの認識に致命的な悪影響を及ぼす可能性が高いが、本実施形態のように第2露出度の高い静止画を最優先に抽出することにより、このような事態を極力抑えることが可能である。また本実施形態では、第1露出度の高さもナンバーの認識の成功率に大きく影響することから、第2露出度に次いで第1露出度の高さも重視して、抽出する静止画を決めるようにしている。なお、仮に車両を一方向のみから撮影すると、逆光でナンバープレートが適切に映らない虞があるが、本実施形態では一対のスマートフォンを用いて前側および後側から車両を撮影し、前側のナンバープレートが映った動画と後側のナンバープレートが映った動画の両方を得ることが出来るため、このような不具合は回避される。
【0073】
ステップS20の処理を行った後、情報処理装置14は、抽出された静止画に対して先述した画像処理を実施し(ステップS21)、画像処理済みの静止画に対してナンバープレート等の物体認識を実行する(ステップS22)。なおナンバープレートに関しては、これに表されたナンバー(表示情報)の認識が実行される。ここで、ナンバーの認識に成功した場合には(ステップS23のYes)、次のステップS24の処理が行われるが、ナンバーの認識に成功しなかった場合には(ステップS23のNo)、ステップS20の処理が再度行われる。
【0074】
なお、ステップS20の処理が再度行われる際には、先述したとおり、第1条件の代わりに第2条件が適用され、更にステップS20の処理が再度行われる際には第3条件が適用される。このように本実施形態では、抜き出された各静止画のうち第2露出度が最も高いものを抽出する第1処理と、抽出された前記静止画からナンバーの認識を行う第2処理と、当該認識が成功しない場合に、前記各静止画のうち第2露出度がその次に高いものを抽出してナンバーの認識を再度行う第3処理と、が実行され、当該認識が成功するまで第3処理が繰返されるようになっている。
【0075】
また更に本実施形態では、第3処理を所定回数繰返しても前記認識が成功しない場合に、前記抜き出された各静止画のうち第1露出度が最も高いものを抽出する第4処理と、抽出された前記静止画からナンバーの認識を行う第5処理と、当該認識が成功しない場合に、前記各静止画のうち第1露出度がその次に高いものを抽出してナンバーの認識を再度行う第6処理と、が実行され、当該認識が成功するまで第6処理が繰り返されるようになっている。
【0076】
次に情報処理装置14は、当該物体認識の結果に基づいてナンバー等のチェックを実施し、その結果を管理サーバー15に記録する(ステップS24)。より具体的に説明すると、情報処理装置14は、物体認識されたナンバーについては、管理サーバー15に格納されているデータベース(全ての許可車両のナンバー)との照合を実行する。その結果、何れかの許可車両のナンバーに一致していれば正常、そうでなければ異常と判別する。また情報処理装置14は、運転者が装着したシートベルトおよび装備品については、正しく物体認識された場合(つまり、正しく装着或いは装備されている場合)には正常、そうでなければ異常と判別する。また情報処理装置14は、ステップS11の処理にて検出済みである車両速度については、所定の許容上限速度(例えば30km/h)を超えていなければ正常、そうでなければ異常と判別する。また情報処理装置14は、車両の汚れや傷に関して、所定基準を上回る汚れや傷が物体認識された場合には異常、そうでなければ正常と判別する。
【0077】
更に情報処理装置14は、これらのチェック結果(判別の結果)、認識されたナンバー、撮影日時(現在の日時)、撮影に用いられたスマートフォン11の識別番号、および車両速度を、車両ごとに関連付けて管理サーバー15に記録される。
図10は、管理サーバー15に記録されたチェック結果等の情報を例示している。本図に示す例では、車両ごとに管理番号が割り振られ、各項目の情報が記録されている。なお管理サーバー15には、物体認識に利用された動画や静止画も保存され、車両の情報とその車両に関するナンバープレート等(ナンバーの他、運転者や装備品なども含む)の情報を関連させて保持するようになっている。これにより、車両とナンバープレート等を一括して管理することが可能である。また運転者(人物)については、その表情等も紐付けて保持されるようになっている。
【0078】
その後、情報処理装置14は、上記の何れのチェック結果にも異常が無かった場合には(ステップS25のNo)、後段処理は終了する。しかし何れかのチェック結果に異常が有った場合には(ステップS25のYes)、情報処理装置14は異常信号を出力し(ステップS26)、その後に後段処理は終了する。
図10に示す例では、管理番号No.00001についてはシートベルトのチェック結果に異常があり、管理番号No.00002については車両速度のチェック結果に異常があるため、これらの結果に対して異常信号が出力されることになる。
【0079】
異常信号が出力されると、これに気付いた管理担当者は、チェック結果を確認した上で然るべき措置をとることが可能となる。チェック結果に異常が有ったことは、その車両のユーザーに報知されるようにしても良い。また、異常信号は、管理担当者が所定操作を行うまで継続して出力されるようにしても良い。更にこの場合、異常信号の出力が一定時間以上続けば、管理担当者やユーザーが所持する端末等に異常を知らせるメッセージ(例えば電子メール)が送信されるようにしても良い。
【0080】
3.その他
以上に説明した通り車両管理システム1は、動画から車両(第1対象物の一例)を物体認識する動画物体認識部42と、この動画から当該車両を含む静止画を抜き出す静止画抜出部45と、当該静止画から車両に付随するナンバープレート等(第2対象物の一例)を物体認識する静止画物体認識部49と、を備える。
【0081】
そのため車両管理システム1によれば、システムの動作負担を抑えながらもナンバープレート等を精度良く認識することが容易となっている。すなわち、動画からナンバープレート等を直接的に認識しようとすると認識精度の低下等が懸念されるが、静止画から認識することにより精度の高い物体認識が容易である。また更に、動画に車両が含まれないときには静止画抜出処理が行われないようにし、無駄な処理を省いてシステムの動作負担を抑えることが可能である。
【0082】
更に車両管理システム1は、前記抜き出された複数の静止画のうち露出度条件を満たすものを抽出する抽出部47を備え、静止画物体認識部49は、抽出された静止画から、車両に含まれるナンバープレート等を物体認識する。そのため、車両に含まれるナンバープレート等を静止画からより効率良く認識することが可能である。
【0083】
以上、本発明の実施形態について説明したが、本発明の構成は上記実施形態に限られず、発明の主旨を逸脱しない範囲で種々の変更を加えることが可能である。本発明の技術的範囲は、上記実施形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲と均等の意味及び範囲内に属する全ての変更が含まれると理解されるべきである。