IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社シンギュラリティテックの特許一覧

特開2022-49568人工知能による歩容認証のためのデータ前処理システム、方法、および、プログラム
<>
  • 特開-人工知能による歩容認証のためのデータ前処理システム、方法、および、プログラム 図1
  • 特開-人工知能による歩容認証のためのデータ前処理システム、方法、および、プログラム 図2
  • 特開-人工知能による歩容認証のためのデータ前処理システム、方法、および、プログラム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022049568
(43)【公開日】2022-03-29
(54)【発明の名称】人工知能による歩容認証のためのデータ前処理システム、方法、および、プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220322BHJP
   G06T 7/20 20170101ALI20220322BHJP
【FI】
G06T7/00 350C
G06T7/20 300Z
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2020155828
(22)【出願日】2020-09-16
(71)【出願人】
【識別番号】520360475
【氏名又は名称】株式会社シンギュラリティテック
(74)【代理人】
【識別番号】100139778
【弁理士】
【氏名又は名称】栗原 潔
(72)【発明者】
【氏名】上村 学
(72)【発明者】
【氏名】高田 尚武
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA04
5L096CA05
5L096EA39
5L096FA06
5L096FA66
5L096FA69
5L096HA11
5L096JA11
(57)【要約】      (修正有)
【課題】ディープニューラルネットワークによる歩容認証を効率的に行なうためのデータ前処理方法、システム及びプログラムを提供する。
【解決手段】コンピューターにより実行される、歩容認証のための動画データの前処理を行なうデータ前処理プログラムは、一つの歩行サイクルの動画像データから、四肢の一つの振り始めの時点を含む第1の画像フレームを識別するステップと、一つの歩行サイクルの動画像データから、四肢の一つの振り終りの時点を含む第2の画像フレームを識別するステップと、一つの歩行サイクルの動画像データから、第1の画像フレームの時点と第2の画像フレームの時点の中間の時点を含む第3の画像フレームを識別するステップとを含む。
【選択図】図3
【特許請求の範囲】
【請求項1】
コンピューターにより実行される、歩容認証のための動画データの前処理を行なう方法であって、
対象者を撮影した動画像中の一つの歩行サイクル分の動画像データから、四肢の一つの振り始めの時点を含む第1の画像フレームを識別するステップと、
前記一つの歩行サイクル分の動画像データから、前記四肢の一つの振り終りの時点を含む第2の画像フレームを識別するステップと、
前記一つの歩行サイクル分の動画像データから、前記第1の画像フレームの時点と第2の画像フレームの時点の中間の時点に相当する第3の画像フレームを識別するステップとを含む方法。
【請求項2】
前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最小となる画像フレームである、請求項1に記載の方法。
【請求項3】
前記第1の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームより時間的に後のフレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最小である画像フレームである、請求項1または請求項2に記載の方法。
【請求項4】
前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームより時間的に後のフレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最大である画像フレームである、請求項1、請求項2、または、請求項3に記載の方法。
【請求項5】
請求項1、請求項2、請求項3、または、請求項4に記載の方法によって求められた前記第1の画像フレームと前記第2の画像フレームと前記第3の画像フレームとをディープニューラルネットワークの入力とする歩容認証方法。
【請求項6】
歩容認証のための動画データの前処理を行なうプログラムであって、
対象者を撮影した動画像中の一つの歩行サイクル分の動画像データから、四肢の一つの振り始めの時点を含む第1の画像フレームを識別する命令群と、
前記一つの歩行サイクル分の動画像データから、前記四肢の一つの振り終りの時点を含む第2の画像フレームを識別する命令群と、
前記一つの歩行サイクル分の動画像データから、前記第一の画像フレームの時点と第二の画像フレームの時点の中間の時点に相当する第3の画像フレームを識別する命令群とをコンピューターに実行させるプログラム。
【請求項7】
前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最小となる画像フレームである、請求項6に記載のプログラム。
【請求項8】
前記第1の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームから時間的に後のフレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最小である画像フレームである、請求項6または請求項7に記載のプログラム。
【請求項9】
前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームから時間的に後のフレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最大である画像フレームである、請求項6、請求項7、または、請求項8に記載のプログラム。
【請求項10】
請求項6、請求項7、請求項8、または、請求項9に記載の方法プログラムによって求められた前記第1の画像フレームと前記第2の画像フレームと前記第3の画像フレームとをディープニューラルネットワークの入力とする命令を含む、歩容認証プログラム。
【請求項11】
対象者の歩行を撮影する撮影手段と、
撮影された前記対象者の歩行動画データに前処理を行なう前処理手段と、
前処理を適用された前記歩行動画データを入力として歩容認証を行なう判定手段とを含む歩容認証システムであって、
前記前処理手段は、前記歩行動画データから、四肢の一つの振り始めの時点を含む第1の画像フレームを識別し、
前記歩行動画データから、前記四肢の一つの振り終りの時点を含む第2の画像フレームを識別し、
前記歩行動画データから、前記第1の画像フレームの時点と第2の画像フレームの時点の中間の時点を含む第3の画像フレームを識別し、
前記第1のフレームと前記第2の画像フレームと前記第3の画像フレームとを前記判定手段に渡す処理を行なう歩容認証システム。
【請求項12】
前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最小となる画像フレームである、請求項11に記載のシステム。
【請求項13】
前記第1の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームより時間的に後の画像フレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最小である画像フレームである、請求項11または請求項12に記載のシステム。
【請求項14】
前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームより時間的に後の画像フレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最大である画像フレームである、請求項11、請求項12、または、請求項13に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本願発明は、人工知能による歩容認証の効率性を向上するための、画像データの前処理を行なうシステム、方法、および、プログラムに関する。
【背景技術】
【0002】
人物の歩き方(歩容)に基づいた生体認証方法が知られている(たとえば、特許文献1、特許文献2)。歩容認証は、個人ごとに歩行パターンが異なることに着目した認証技術であり、顔がはっきり映らないような遠方からの映像でも高速に多数の人物を認証可能である点やなりすましが困難という点に優位性があり、犯罪捜査等の分野を中心に応用が進みつつある。
【0003】
しかし、従来の歩容認証方式は、歩行の動画情報を扱うことから処理の対象となる画像データ量が大きくなりがちであり、特にエッジ側にある機器で認証処理を行なう場合の負担が大きいという課題があった。
【0004】
本願発明は上記課題に対応するものであり、従来と比較して小容量の画像データを使用して、人工知能による高精度の歩容認証を可能とすることを目的とする。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】公表特許公報 特表2010-517430
【特許文献2】公開特許公報 特開2010-239992
【発明の概要】
【発明が解決しようとする課題】
【0006】
人工知能による歩容認証に必要な画像データ量を削減するシステム、方法、および、プログラムを提供する。
【課題を解決するための手段】
【0007】
本願発明は、コンピューターにより実行される、歩容認証のための動画データの前処理を行なう方法であって、対象者を撮影した動画像中の一つの歩行サイクル分の動画像データから、四肢の一つの振り始めの時点を含む第1の画像フレームを識別するステップと、前記一つの歩行サイクル分の動画像データから、前記四肢の一つの振り終りの時点を含む第2の画像フレームを識別するステップと、前記一つの歩行サイクル分の動画像データから、前記第1の画像フレームの時点と第2の画像フレームの時点の中間の時点に相当する第3の画像フレームを識別するステップとを含む方法を提供することで上記課題を解決する。
【0008】
また、本願発明は、前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最小となる画像フレームである、段落0007に記載の方法を提供することで上記課題を解決する。
【0009】
また、本願発明は、前記第1の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームより時間的に後のフレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最小である画像フレームである、段落0007または段落0008に記載の方法を提供することで上記課題を解決する。
【0010】
また、本願発明は、前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームより時間的に後のフレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最大である画像フレームである、段落0007、段落0008、または、段落0009に記載の方法を提供することで上記課題を解決する。
【0011】
また、本願発明は、段落0007、段落0008、段落0009、または、段落0010に記載の方法によって求められた前記第1の画像フレームと前記第2の画像フレームと前記第3の画像フレームとをディープニューラルネットワークの入力とする歩容認証方法を提供することで上記課題を解決する。
【0012】
また、本願発明は、歩容認証のための動画データの前処理を行なうプログラムであって、対象者を撮影した動画像中の一つの歩行サイクル分の動画像データから、四肢の一つの振り始めの時点を含む第1の画像フレームを識別する命令群と、前記一つの歩行サイクル分の動画像データから、前記四肢の一つの振り終りの時点を含む第2の画像フレームを識別する命令群と、前記一つの歩行サイクル分の動画像データから、前記第一の画像フレームの時点と第二の画像フレームの時点の中間の時点に相当する第3の画像フレームを識別する命令群とをコンピューターに実行させるプログラムを提供することで上記課題を解決する。
【0013】
また、本願発明は、前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最小となる画像フレームである、段落0012に記載のプログラムを提供することで上記課題を解決する。
【0014】
また、本願発明は、前記第1の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームから時間的に後のフレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最小である画像フレームである、段落0012または段落0013に記載のプログラムを提供することで上記課題を解決する。
【0015】
また、本願発明は、前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームから時間的に後のフレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最大である画像フレームである、段落0012、段落0013、または、段落0014に記載のプログラムを提供することで上記課題を解決する。
【0016】
また、本願発明は、段落0012、段落0013、段落0014、または、段落0015に記載の方法プログラムによって求められた前記第1の画像フレームと前記第2の画像フレームと前記第3の画像フレームとをディープニューラルネットワークの入力とする命令を含む、歩容認証プログラムを提供することで上記課題を解決する。
【0017】
また、本願発明は、対象者の歩行を撮影する撮影手段と、撮影された前記対象者の歩行動画データに前処理を行なう前処理手段と、前処理を適用された前記歩行動画データを入力として歩容認証を行なう判定手段とを含む歩容認証システムであって、前記前処理手段は、前記歩行動画データから、四肢の一つの振り始めの時点を含む第1の画像フレームを識別し、前記歩行動画データから、前記四肢の一つの振り終りの時点を含む第2の画像フレームを識別し、前記歩行動画データから、前記第1の画像フレームの時点と第2の画像フレームの時点の中間の時点を含む第3の画像フレームを識別し、前記第1のフレームと前記第2の画像フレームと前記第3の画像フレームとを前記判定手段に渡す処理を行なう歩容認証システムを提供することで上記課題を解決する。
【0018】
また、本願発明は、前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最小となる画像フレームである、段落0017に記載のシステムを提供することで上記課題を解決する。
【0019】
また、本願発明は、前記第1の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームより時間的に後の画像フレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最小である画像フレームである、段落0017または段落0018に記載のシステムを提供することで上記課題を解決する。
【0020】
また、本願発明は、前記第3の画像フレームは、前記四肢の一つの付け根と前記四肢の一つの先端部の水平方向の距離が最大となる画像フレームより時間的に後の画像フレームの中で、前記四肢の一つの先端部の水平方向の座標値が歩行方向に対して最大である画像フレームである、段落0017、段落0018、または、段落0019に記載のシステムを提供することで上記課題を解決する。
【発明の効果】
【0021】
人工知能による歩容認証に必要な画像データ量を削減するシステム、方法、および、プログラムが提供される。
【図面の簡単な説明】
【0022】
図1】本願発明に係る方法またはプログラムが実行されるシステムの実施例である。
図2】本願発明に係るデータ前処理プログラムのフローチャートの実施例である。
図3】本願発明に係るデータ前処理方法の実施例を示す図である。
【発明を実施するための形態】
【0023】
以下に図を参照しながら本願発明の実施例について説明する。図はすべて例示である。
【0024】
図1に本願発明に係る方法またはプログラムが実行されるシステム(100)の実施例を示す。カメラ(101)は認証対象者(102)の歩行の動画を撮影する手段である。複数のカメラ(101)が使用されていてもよい。データ前処理プログラム(104)は、認証対象者(102)の歩行動画から特徴量を維持しながらデータ量を削減するコンピューター・プログラムであり、コンピューター(103)上で稼働する。コンピューター(103)は、カメラ(101)による撮影場所とは別の場所にあるサーバー・コンピューターであっても、クラウド上で稼働するコンピューターであっても、カメラ(101)に内蔵されたコンピューター等であってもよい。データ前処理プログラム(104)のアルゴリズムについては後述する。
【0025】
歩容情報データベース(105)は、歩容情報の特徴量を保存する手段であり、事前に複数人の歩容情報の特徴が保存されていることが望ましい。歩容情報データベース(105)は、ディープニューラルネットワークの重み付けパラメーターを保存する手段であってよい。歩容情報データベース(105)は、データ前処理プログラム (104)と同じコンピューター(103)上で管理されていてもよいが、別のコンピューター、クラウド上で稼働するコンピューター、カメラ(101)に内蔵されたコンピューター等、任意のコンピューターによって管理されていてよい。歩容情報データベース(105)の実現技術は、RDBMS(関係データベース管理システム)に限定されず、任意のデータ保存テクノロジーが使用されてよい。
【0026】
判定プログラム(106)は、データ前処理プログラム(104)により抽出された認証対象者(102)の歩容の画像と、歩容情報データベース(105)に保存された歩容情報に基づき、認証対象者(102)が、既に歩容情報データベース(104)に登録済の者であるか否か、あるいは、歩容情報データベース(104)に登録済の者の誰に一番近いか等を判定するためのプログラムであり、学習済のディープニューラルネットワークにより実現されていることが望ましい。判定プログラム(106)は、データ前処理プログラム (104)と同じコンピューター(103)上で管理されていてもよいが、別のコンピューター、クラウド上で稼働するコンピューター、カメラ(101)に内蔵されたコンピューター等、任意のコンピューターで管理されていてよい。また、データ前処理プログラム(104)と判定プログラム(106)が、独立したプログラムである必要はなく、同一のモジュールであってもよい。
【0027】
図2に本願発明に係るデータ前処理プログラム(104)の実施例を表すフローチャートを示す。まず、カメラ(101)により人物(認証対象者(102))が映されていることを確認する(S201)。人物が、映っていない場合には特に処理を行なわず終了する。次に、カメラ(101)の映像により人物(認証対象者(102))が移動しているかを判断する(S202)。移動していない場合には移動するまで待機状態とする。移動している場合には動画の各フレームの画像にエッジ処理等を適用し、人物の骨格データを検出し、一時的な記憶域に記録する(S203)。(複数の歩行サイクルを含む)十分なフレーム数を記録したならば(S204)、四肢の動きから、判定プログラム(106)の入力データとなる複数のフレーム(本願においては、「SME」と呼ぶ)を識別する(具体的な識別方法の実施例については後述する)。SMEフレームが識別されたならば、当該フレームの画像データを判定プログラム(106)に渡す。このデータ渡しは典型的にはリアルタイムで行なわれるが、いったんデータを蓄積した後に、判定プログラム(106)にバッチ処理させるようにしてもよい。SMEフレームが適切に識別できなかった場合は、別の歩行サイクルの動画像を使用してSMEフレームの識別処理を再試行することが望ましい。
【0028】
判定プログラム(106)の入力データとなる複数フレーム(SME)の識別方法の例を以下に示す。ここでは、認証対象者(102)が左から右に向かって歩行した場合に右腕の画像を使用してSMEの各フレームを識別する例を示す。本願発明では、歩行サイクルのうち、始点(動き始める箇所)、中間点(始点と終点の中間点)、終点(動き終わる箇所)、の3点(SME(Start、Middle、End))に相当する画像のフレームを選択して、判定プログラムに渡す。ここでは、首(より正確には、首の付け根)と右手(より正確には、右手首)の動きに基づく例を示すが、左肩、左手、右ヒップ、右足首、左ヒップ、左足首等、任意の四肢の振れを使用してもよい。
【0029】
1)首と右手のx軸の座標距離を周期的に採取する(毎秒10フレームで映像を取得する場合、20フレーム前後の動画を取得すれば周期が判別できる)。周期を計算し、当該四肢の歩行サイクルとする。
2)一つの歩行サイクルに属する動画の複数フレームから、以下のようにSMEフレームを求める。
2-a)首と右手のx軸(前後方向)の座標距離が最も小さくなるフレームをMフレームとする。
2-b)首と右手のx軸(前後方向)の座標距離が最も大きくなるフレームから時間軸順にサーチし、最も右手のx軸の値が小さい(進行方向に対して後ろに位置する)フレームをSフレームとする。
2-c)首と右手のx軸(前後方向)の座標距離が最も大きくなるフレームから時間軸順にサーチし、最も右手のx軸の値が(進行方向に対して前に位置する)フレームをEフレームとする。
【0030】
個人の歩き方の癖により、腕が後ろにあまり振られず、前に大きく振られる場合、あるいは、その逆の場合があるため、首と右手のx軸(前後方向)の座標距離が最も大きくなるフレームを単純にSまたはEと設定できるわけではないので、上記のような処理が必要となる。
【0031】
図3に上記のSMEの各フレームの特定方法の具体例を示す。一歩行サイクルの動画中、首と右手のx軸の座標距離が最も小さくなるフレームである(4)をMとする。首と右手のx軸の座標距離が最も大きくなるフレームである(1)から時間軸に沿ってサーチし、最も右手のx軸の値が小さいフレームである(3)をSとする。首と右手のx軸の座標距離が最大きくなるフレームである(1)から時間軸に沿ってサーチし、最も右手のx軸の値が大きいフレームである(5)をEとする。
【0032】
データ前処理プログラム(104)からSMEの各フレームを取得した判定プログラム(106)は、所定の判定処理を行なう。判定プログラム(106)は任意の画像認識プログラムであってよいが、事前に学習済のディープニューラルネットワークであることが望ましい。ディープニューラルネットワークが使用されている場合には、歩容情報データベース(105)に、ノード間の重み付けパラメーターのセットが保存されていることが望ましい。一般的な生体認証のシナリオでは、判定処理は、認証対象者(102)のSMEデータと所定の閾値以上の合致度で合致するデータが存在するかが判定される。犯罪捜査のシナリオでは、1人(あるいは少数)の人物の歩容情報が、認証対象者(102)とどの程度の合致度となるかが計算されることが望ましい。発明者による実験では、SMEフレームへのデータ削減が行なわれた後でも十分な制度の歩容認証が実現できている。
【0033】
本願発明は従来技術と比較して、判定プログラムの入力となるデータ量が小さくてすむことから、特徴量抽出、機械学習、および、判定(推論)のための計算資源が少なくて済む。特に、判定プログラムとしてディープニューラルネットワークが使用されている際に有利である。また、特にこれらの処理をエッジ機器(たとえば、現場にある小型のコンピューターやカメラに内蔵されたコンピューター)で行なう場合には有利である。
図1
図2
図3