(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-10
(54)【発明の名称】データ検出方法、装置、コンピュータ機器及び記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20220203BHJP
G06T 7/70 20170101ALI20220203BHJP
【FI】
G06T7/00 250
G06T7/00 350C
G06T7/70 Z
G06T7/00 660A
G06T7/00 510F
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021513443
(86)(22)【出願日】2020-06-29
(85)【翻訳文提出日】2021-03-10
(86)【国際出願番号】 CN2020098819
(87)【国際公開番号】W WO2021073150
(87)【国際公開日】2021-04-22
(31)【優先権主張番号】201910984349.6
(32)【優先日】2019-10-16
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】100119585
【氏名又は名称】東田 潔
(74)【代理人】
【識別番号】100131576
【氏名又は名称】小金澤 有希
(72)【発明者】
【氏名】黄 錦倫
【テーマコード(参考)】
5B043
5L096
【Fターム(参考)】
5B043AA09
5B043BA04
5B043EA12
5B043EA13
5B043EA15
5B043GA02
5L096BA18
5L096EA03
5L096EA15
5L096EA16
5L096FA06
5L096FA59
5L096FA67
5L096FA69
5L096HA11
5L096JA11
5L096KA04
5L096KA15
5L096MA05
5L096MA07
(57)【要約】
本願は、人工知能の技術分野に関し、データ検出方法、装置、コンピュータ機器及び記憶媒体が開示されている。前記方法は、顔画像を含む指定の証明書画像部を取得するステップと、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、中間画像部を予め設定された顔特徴点検出モデルに入力して、複数の顔特徴点を算出するステップと、複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点の最小外接矩形を生成するステップと、予め設定されたデータベースから標準証明書画像部を呼び出すステップと、標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とを重ねて、前記中間画像部における重なり部分を取得するステップと、前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む。それにより、データの検出精度を向上させる。
【特許請求の範囲】
【請求項1】
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む、データ検出方法。
【請求項2】
前記予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップは、
予め設定された画像エッジ検出方法を用いて、前記指定の証明書図面における複数のエッジを検出し、前記複数のエッジから、互いに平行でかつ等しい二本の指定のエッジ線分からなる指定のエッジペアを取得するステップと、
前記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)(ここで、Mは前記指定のエッジ線分の長さであり、M1、M2、...Mnは前記複数のエッジにおける全てのエッジ線分の長さであり、前記複数のエッジには合計でn個のエッジ線分がある)を満たすか否かを判断するステップと、
前記指定のエッジ線分の長さが、M=max(M1,M2,...,Mn)を満せば、前記指定のエッジペアが予め設定された基準直線に平行である指定姿勢で、前記指定の証明書画像部を配置して、第1の画像部を得るステップと、
前記第1の画像部を予め設定された画像姿勢分類モデルに入力して、前記画像姿勢分類モデルが出力する、前記標準姿勢、前記標準姿勢に対して反時計回りに90度回転すること、前記標準姿勢に対して反時計回りに180度回転すること、又は前記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出するステップと、
前記分類結果が前記標準姿勢であるか否かを判断するステップと、
前記分類結果が前記標準姿勢でなければ、前記分類結果に基づいて前記第1の画像部を回転させて、予め設定された標準姿勢で配置された中間画像部を取得するステップとを含む、請求項1に記載のデータ検出方法。
【請求項3】
前記画像姿勢分類モデルは、inception-v3分類モデルに基づいてトレーニングされたものであり、前記第1の画像部を予め設定された画像姿勢分類モデルに入力して、前記画像姿勢分類モデルが出力する、前記標準姿勢、前記標準姿勢に対して反時計回りに90度回転すること、前記標準姿勢に対して反時計回りに180度回転すること、又は前記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出するステップの前に、
それぞれが標準姿勢で配置されるように予め設定された証明書画像部からなる所定数のトレーニングサンプルを含む第1のトレーニングセットを取得するステップと、
前記第1のトレーニングセットの全ての証明書画像部を反時計回りに90度、反時計回りに180度、及び反時計回りに270度回転させて、対応する第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットを得るステップと、
同じラウンドでトレーニングするときに、第1のトレーニングセット、第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットからそれぞれ同じ数の証明書画像部をトレーニングデータとして抽出するラウンドトレーニングの方式を採用して、予め設定されたinception-v3分類モデルをトレーニングして、前記画像姿勢分類モデルを取得するステップとを含む、請求項2に記載のデータ検出方法。
【請求項4】
前記顔特徴点検出モデルは、ニューラルネットワークモデルに基づいてトレーニングされたものであり、前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップの前に、
標準姿勢で配置された証明書画像部と前記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、前記サンプルデータをトレーニングデータとテストデータとに分割するステップと、
前記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るステップと、
前記テストデータを用いて前記一時的モデルを検証し、検証が通過したか否かを判断するステップと、
検証が通過すれば、前記一時的モデルを前記顔特徴点検出モデルとして表記するステップとを含む、請求項1に記載のデータ検出方法。
【請求項5】
前記予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出するステップは、
予め設定された対称点分類方法によって、前記複数の顔特徴点を、それぞれが前記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するステップと、
前記第1のクラスタサブ中心と前記第2のクラスタサブ中心とを結ぶ線の中点位置を前記複数の顔特徴点のクラスタ中心位置として表記するステップとを含む、請求項1に記載のデータ検出方法。
【請求項6】
前記予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされた標準証明書画像部を呼び出すステップの前に、
タイプが前記指定の証明書タイプである、予め収集された前記標準姿勢で配置された基準証明書画像部を取得するステップと、
前記基準証明書画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の基準顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の基準顔特徴点のクラスタ中心位置を算出し、基準中心位置として表記するステップと、
前記複数の基準顔特徴点の最小外接矩形を生成し、前記複数の基準顔特徴点がいずれも内部にある基準矩形として表記するステップと、
前記基準矩形と前記基準中心位置がマークされた前記基準証明書画像部を前記標準証明書画像部として表記するステップとを含む、請求項1に記載のデータ検出方法。
【請求項7】
前記予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得するステップは、
予め設定された文字認識技術により、前記指定の証明書画像部を認識して、文字テキストを得るステップと、
前記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは前記文字テキストの用語頻度ベクトルであり、Kは前記基準テキストの用語頻度ベクトルであり、Piは前記文字テキストにおけるi番目の単語が現れる回数であり、Kiは前記基準テキストにおけるi番目の単語が現れる回数である)により算出するステップと、
対応する類似度の値が他の基準テキストに対応する類似度の値よりも大きい指定の基準テキストを取得するステップと、
予め設定された指定の証明書画像部文字テキスト-指定の基準テキスト-証明書タイプの対応関係に基づいて、前記指定の証明書画像部に対応する指定の証明書タイプを取得するステップとを含む、請求項1に記載のデータ検出方法。
【請求項8】
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得する指定の証明書画像部取得ユニットと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得する姿勢修正ユニットと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出する顔特徴点取得ユニットと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するクラスタ中心位置算出ユニットと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出す標準証明書画像部呼出ユニットと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するスケールアップ・スケールダウン後の画像部取得ユニットと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得する重なり部分取得ユニットと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記する証明書本体表記ユニットとを含む、データ検出装置。
【請求項9】
前記顔特徴点検出モデルは、ニューラルネットワークモデルに基づいてトレーニングされたものであり、前記装置は、
標準姿勢で配置された証明書画像部と前記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、前記サンプルデータをトレーニングデータとテストデータとに分割するサンプルデータ取得ユニットと、
前記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るランダム勾配降下トレーニングユニットと、
前記テストデータを用いて前記一時的モデルを検証し、検証が通過したか否かを判断する一時的モデル検証ユニットと、
検証が通過すれば、前記一時的モデルを前記顔特徴点検出モデルとして表記する顔特徴点検出モデル表記ユニットとを含む、請求項8に記載のデータ検出装置。
【請求項10】
前記クラスタ中心位置算出ユニットは、
予め設定された対称点分類方法によって、前記複数の顔特徴点を、それぞれが前記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割する特徴点分割サブユニットと、
予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するクラスタ算出サブユニットと、
前記第1のクラスタサブ中心と前記第2のクラスタサブ中心とを結ぶ線の中点位置を前記複数の顔特徴点のクラスタ中心位置として表記するクラスタ中心位置取得サブユニットとを含む、請求項8に記載のデータ検出装置。
【請求項11】
コンピュータ読み取り可能な命令が記憶されているメモリと、前記コンピュータ読み取り可能な命令を実行すると、データ検出方法を実現するプロセッサとを含むコンピュータ機器であって、
前記データ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む、コンピュータ機器。
【請求項12】
前記顔特徴点検出モデルは、ニューラルネットワークモデルに基づいてトレーニングされたものであり、前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップの前に、
標準姿勢で配置された証明書画像部と前記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、前記サンプルデータをトレーニングデータとテストデータとに分割するステップと、
前記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るステップと、
前記テストデータを用いて前記一時的モデルを検証し、検証が通過したか否かを判断するステップと、
検証が通過すれば、前記一時的モデルを前記顔特徴点検出モデルとして表記するステップとを含む、請求項11に記載のコンピュータ機器。
【請求項13】
前記予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出するステップは、
予め設定された対称点分類方法によって、前記複数の顔特徴点を、それぞれが前記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するステップと、
前記第1のクラスタサブ中心と前記第2のクラスタサブ中心とを結ぶ線の中点位置を前記複数の顔特徴点のクラスタ中心位置として表記するステップとを含む、請求項11に記載のコンピュータ機器。
【請求項14】
前記予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされた標準証明書画像部を呼び出すステップの前に、
タイプが前記指定の証明書タイプである、予め収集された前記標準姿勢で配置された基準証明書画像部を取得するステップと、
前記基準証明書画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の基準顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の基準顔特徴点のクラスタ中心位置を算出し、基準中心位置として表記するステップと、
前記複数の基準顔特徴点の最小外接矩形を生成し、前記複数の基準顔特徴点がいずれも内部にある基準矩形として表記するステップと、
前記基準矩形と前記基準中心位置がマークされた前記基準証明書画像部を前記標準証明書画像部として表記するステップとを含む、請求項11に記載のコンピュータ機器。
【請求項15】
前記予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得するステップは、
予め設定された文字認識技術により、前記指定の証明書画像部を認識して、文字テキストを得るステップと、
前記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは前記文字テキストの用語頻度ベクトルであり、Kは前記基準テキストの用語頻度ベクトルであり、Piは前記文字テキストにおけるi番目の単語が現れる回数であり、Kiは前記基準テキストにおけるi番目の単語が現れる回数である)により算出するステップと、
対応する類似度の値が他の基準テキストに対応する類似度の値よりも大きい指定の基準テキストを取得するステップと、
予め設定された指定の証明書画像部文字テキスト-指定の基準テキスト-証明書タイプの対応関係に基づいて、前記指定の証明書画像部に対応する指定の証明書タイプを取得するステップとを含む、請求項11に記載のコンピュータ機器。
【請求項16】
プロセッサによって実行されると、データ検出方法を実現するコンピュータ読み取り可能な命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記データ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む、コンピュータ読み取り可能な記憶媒体。
【請求項17】
前記顔特徴点検出モデルは、ニューラルネットワークモデルに基づいてトレーニングされたものであり、前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップの前に、
標準姿勢で配置された証明書画像部と前記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、前記サンプルデータをトレーニングデータとテストデータとに分割するステップと、
前記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るステップと、
前記テストデータを用いて前記一時的モデルを検証し、検証が通過したか否かを判断するステップと、
検証が通過すれば、前記一時的モデルを前記顔特徴点検出モデルとして表記するステップとを含む、請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項18】
前記予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出するステップは、
予め設定された対称点分類方法によって、前記複数の顔特徴点を、それぞれが前記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するステップと、
前記第1のクラスタサブ中心と前記第2のクラスタサブ中心とを結ぶ線の中点位置を前記複数の顔特徴点のクラスタ中心位置として表記するステップとを含む、請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項19】
前記予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされた標準証明書画像部を呼び出すステップの前に、
タイプが前記指定の証明書タイプである、予め収集された前記標準姿勢で配置された基準証明書画像部を取得するステップと、
前記基準証明書画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の基準顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の基準顔特徴点のクラスタ中心位置を算出し、基準中心位置として表記するステップと、
前記複数の基準顔特徴点の最小外接矩形を生成し、前記複数の基準顔特徴点がいずれも内部にある基準矩形として表記するステップと、
前記基準矩形と前記基準中心位置がマークされた前記基準証明書画像部を前記標準証明書画像部として表記するステップとを含む、請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項20】
前記予め設定された証明書タイプ取得方法によって、前記証明書画像部の指定の証明書タイプを取得するステップは、
予め設定された文字認識技術により、前記指定の証明書画像部を認識して、文字テキストを得るステップと、
前記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは前記文字テキストの用語頻度ベクトルであり、Kは前記基準テキストの用語頻度ベクトルであり、Piは前記文字テキストにおけるi番目の単語が現れる回数であり、Kiは前記基準テキストにおけるi番目の単語が現れる回数である)により算出するステップと、
対応する類似度の値が他の基準テキストに対応する類似度の値よりも大きい指定の基準テキストを取得するステップと、
予め設定された指定の証明書画像部文字テキスト-指定の基準テキスト-証明書タイプの対応関係に基づいて、前記指定の証明書画像部に対応する指定の証明書タイプを取得するステップとを含む、請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2019年10月16日に提出された、出願番号が201910984349.6号で、発明の名称が「データ検出方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願の優先権を主張するものであり、その全ての内容は、参照により本願に組み込まれるものとする。
【0002】
本願は、人工知能の技術分野に関し、特にデータの検出方法、装置、コンピュータ機器及び記憶媒体に関する。
【背景技術】
【0003】
証明書画像部に対する分析は、現在の社会の生産と生活において非常に一般的であり、例えば、ある業務を取り扱う際には、証明書画像部を撮影してアップロードする必要がある。証明書画像部(一般的に撮影された証明書画像部では、光景の範囲が証明書本体よりも広いため、証明書本体は一般的に証明書画像部全体で埋めることはない)中の証明書本体を正確に検出することができれば、後続の証明書画像部に対する分析を向上させることができる。従来の証明書本体検出方法は、一般的に、ピクセルに基づいて検出して証明書本体の座標(例えば、マトリクス証明書本体の4つの頂点座標)を得るものであり、このような方式は、計算資源が多く消費されるとともに、ぼけた証明書に対する認識精度が低い(証明書がぼけて、その証明書本体の境界が不明瞭であるため、従来の方法で認識された証明書本体は大きくばらつく)という欠点があることを発明者は見出した。
【発明の概要】
【0004】
本発明は、データの検出精度を向上させるために、データ検出方法、装置、コンピュータ機器及び記憶媒体を提供することを目的とする。
【0005】
上記目的を達成するために、第1態様によれば、本願に係るデータ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む。
【0006】
第2様態によれば、本願に係るデータ検出装置は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得する指定の証明書画像部取得ユニットと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得する姿勢修正ユニットと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出する顔特徴点取得ユニットと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するクラスタ中心位置算出ユニットと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出す標準証明書画像部呼出ユニットと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するスケールアップ・スケールダウン後の画像部取得ユニットと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得する重なり部分取得ユニットと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記する証明書本体表記ユニットとを含む。
【0007】
第3態様によれば、本願に係るコンピュータ機器は、コンピュータ読み取り可能な命令が記憶されているメモリと、前記コンピュータ読み取り可能な命令を実行すると、データ検出方法を実現するプロセッサとを含み、前記データ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む。
【0008】
第4様態によれば、本願に係るコンピュータ読み取り可能な記憶媒体は、プロセッサによって実行されると、データ検出方法を実現するコンピュータ読み取り可能な命令が記憶されており、前記データ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む。
【0009】
本願に係るデータ検出方法、装置、コンピュータ機器及び記憶媒体は、データの検出精度を向上させる。
【図面の簡単な説明】
【0010】
【
図1】本願の一実施例に係るデータ検出方法を模式的に示すフローチャートである。
【
図2】本願の一実施例に係るデータ検出装置の構成を模式的に示すブロック図である。
【
図3】本願の一実施例に係るコンピュータ機器の構成を模式的に示すブロック図である。
【発明を実施するための形態】
【0011】
図1を参照すると、本願実施例に係るデータ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップS1と、
予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップS2と、
上記中間画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップS3と、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の顔特徴点のクラスタ中心位置を算出し、上記複数の顔特徴点がいずれも内部にある、上記複数の顔特徴点の最小外接矩形を生成するステップS4と、
予め設定された証明書タイプ取得方法によって、上記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが上記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップS5と、
上記基準矩形の面積が上記最小外接矩形の面積と等しくなるように上記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップS6と、
上記スケールアップ・スケールダウン後の画像部における基準中心位置と上記中間画像部におけるクラスタ中心位置とが重なるように上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とをパンによって重ねて、上記中間画像部における重なり部分を取得するステップS7と、
上記中間画像部における上記重なり部分を上記指定の証明書画像部の証明書本体として表記するステップS8とを含む。
【0012】
上記ステップS1で説明したように、顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得する。一般的な証明書画像部は基本的に顔を含み、本願に係るデータ検出方法は顔検出に基づいて実現されるものであるため、顔を含む証明書画像部に用いることができ、適用性が広い。
【0013】
上記ステップS2で説明したように、予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得する。指定の証明書画像部は任意の姿勢で配置される可能性があるため、それを標準姿勢で配置されるように調整しないと、後続の計算に悪影響を及ぼす。したがって、予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得する。上記標準姿勢は、任意の形式で配置された姿勢であってもよく、好ましくは、観察又は処理に最適な姿勢である(すなわち、画面内に表示される場合には、上記中間画像部の正面が画面に面している閲覧者に向く)。なお、姿勢修正方法は、例えば、予め設定された画像エッジ検出方法を用いて、上記指定の証明書画像部における複数のエッジを検出し、上記複数のエッジから、互いに平行でかつ等しい二本の指定のエッジ線分からなる指定のエッジペアを取得するステップと、上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)(ここで、Mは上記指定のエッジ線分の長さであり、M1、M2、…Mnは上記複数のエッジにおける全てのエッジ線分の長さであり、上記複数のエッジには合計でn個のエッジ線分がある)を満たすか否かを判断するステップと、上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)を満たせば、上記指定のエッジペアが予め設定された基準直線に平行である指定姿勢で、上記指定の証明書画像部を配置して、第1の画像部を得るステップと、上記第1の画像部を予め設定された画像姿勢分類モデルに入力して、上記画像姿勢分類モデルが出力する、上記標準姿勢、上記標準姿勢に対して反時計回りに90度回転すること、上記標準姿勢に対して反時計回りに180度回転すること、又は上記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出するステップと、上記分類結果が上記標準姿勢であるか否かを判断するステップと、上記分類結果が上記標準姿勢でなければ、上記分類結果に基づいて上記第1の画像部を回転させて、予め設定された標準姿勢で配置された中間画像部を取得するステップとを含む。
【0014】
上記ステップS3で説明したように、上記中間画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の顔特徴点を算出する。上記顔特徴点検出モデルは、顔における特別な位置、例えば、対称な瞳等を検出するために用いられる。上記顔特徴点検出モデルの取得方法は、例えば、標準姿勢で配置された証明書画像部と上記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、上記サンプルデータをトレーニングデータとテストデータとに分割するステップと、上記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るステップと、上記テストデータを用いて上記一時的モデルを検証し、検証が通過したか否かを判断するステップと、検証が通過すれば、上記一時的モデルを上記顔特徴点検出モデルとして表記するステップとを含む。
【0015】
上記ステップS4で説明したように、予め設定されたクラスタリングアルゴリズムを用いて、上記複数の顔特徴点のクラスタ中心位置を算出し、上記複数の顔特徴点がいずれも内部にある、上記複数の顔特徴点の最小外接矩形を生成する。なお、上記クラスタリングアルゴリズムは、任意の実行可能なアルゴリズムであってもよく、例えば、knnクラスタリングアルゴリズム等である。さらに、上記複数の顔特徴点のクラスタ中心位置を算出する方法は、例えば、予め設定された対称点分類方法によって、上記複数の顔特徴点を、それぞれが上記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割するステップと、予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するステップと、上記第1のクラスタサブ中心と上記第2のクラスタサブ中心とを結ぶ線の中点位置を上記複数の顔特徴点のクラスタ中心位置として表記するステップとを含む。それによりクラスタ中心位置を取得する効率を向上させる。
【0016】
上記ステップS5で説明したように、予め設定された証明書タイプ取得方法によって、上記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが上記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出す。上記基準矩形と基準中心位置は、それぞれ上記最小外接矩形と上記クラスタ中心位置に対応し、最終的な証明書本体を確定するための根拠とする。なお、上記証明書タイプ取得方法は、例えば、予め設定された文字認識技術により、上記指定の証明書画像部を認識して、文字テキストを得るステップと、
上記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは上記文字テキストの用語頻度ベクトルであり、Kは上記基準テキストの用語頻度ベクトルであり、Piは上記文字テキストにおけるi番目の単語が現われる回数であり、Kiは上記基準テキストにおけるi番目の単語が現われる回数である)により算出するステップと、上記類似度の値Simが予め設定された類似度の閾値よりも大きいか否かを判断するステップと、上記類似度の値Simが予め設定された類似度の閾値よりも大きければ、予め設定された指定の証明書画像部文字テキスト-基準テキスト-証明書タイプの対応関係に基づいて、上記指定の証明書画像部に対応する指定の証明書タイプを取得するステップとを含む。
【0017】
上記ステップS6で説明したように、上記基準矩形の面積が上記最小外接矩形の面積と等しくなるように上記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得する。なお、上記標準証明書画像部をスケールアップ・スケールダウンする方式を採用することにより、上記標準証明書画像部の基準中心位置、基準矩形と証明書画像部の相対的比例関係をそのまま維持することができる。さらに、上記基準矩形の面積を上記最小外接矩形の面積と等しくして、スケールアップ・スケールダウン後の画像部を得ることにより、リアルな証明書画像部に対するスケールアップ・スケールダウン後の画像部の比例関係が、リアルな証明書画像部に対する上記中間画像部の比例関係と等しくなるようにする。これにより、上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とを重ねて、証明書本体を検出することができる。
【0018】
上記ステップS7で説明したように、上記スケールアップ・スケールダウン後の画像部における基準中心位置と上記中間画像部におけるクラスタ中心位置とが重なるように上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とをパンによって重ねて、上記中間画像部における重なり部分を取得する。なお、パンを用いる目的は、比例関係が再び変化して後続の検出結果に影響を与えることを防止するためである。前述した内容から分かるように、リアルな証明書画像部に対するスケールアップ・スケールダウン後の画像部の比例関係は、リアルな証明書画像部に対する上記中間画像部の比例関係と等しい。また、上記標準証明書画像部は上記標準証明書画像部における証明書画像で埋めている。したがって、上記中間画像部における重なり部分は、証明書本体である。
【0019】
上記ステップS8で説明したように、上記中間画像部における上記重なり部分を上記指定の証明書画像部の証明書本体として表記する。さらに、上記中間画像部における、上記証明書本体以外の領域を除去するための切り取り操作を行うことで、後続の画像部処理動作における、上記他の領域に対する無意味な処理が省略され、計算力の無駄を回避することができる。
【0020】
一実施形態において、上記ステップS2は、
予め設定された画像エッジ検出方法を用いて、上記指定の証明書画像部における複数のエッジを検出し、上記複数のエッジから、互いに平行でかつ等しい二本の指定のエッジ線分からなる指定のエッジペアを取得するステップS201と、
上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)(ここで、Mは上記指定のエッジ線分の長さであり、M1、M2、…Mnは上記複数のエッジにおける全てのエッジ線分の長さであり、上記複数のエッジには合計でn個のエッジ線分がある)を満たすか否かを判断するステップS202と、
上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)を満たせば、上記指定のエッジペアが予め設定された基準直線に平行である指定姿勢で、上記指定の証明書画像部を配置して、第1の画像部を得るステップS203と、
上記第1の画像部を予め設定された画像姿勢分類モデルに入力して、上記画像姿勢分類モデルが出力する、上記標準姿勢、上記標準姿勢に対して反時計回りに90度回転すること、上記標準姿勢に対して反時計回りに180度回転すること、又は上記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出するステップS204と、
上記分類結果が上記標準姿勢であるか否かを判断するステップS205と、
上記分類結果が上記標準姿勢でなければ、上記分類結果に基づいて上記第1の画像部を回転させて、予め設定された標準姿勢で配置された中間画像部を取得するステップS206とを含む。
【0021】
上述したように、予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得することが実現される。上記画像エッジ検出方法は、例えば、上記指定の証明書画像部に対して輪郭認識を行うことにより輪郭を得て、輪郭線を上記エッジとする。上記指定の証明書画像部における最大の輪郭が矩形の証明書画像であるため、上記指定のエッジペアは、上記証明書画像の一対の平行辺である可能性があり、上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)を満たせば、上記指定のエッジペアが上記証明書画像の最も長い一対の平行辺であると特定できるため、上記指定のエッジペアが予め設定された基準直線に平行である指定姿勢で、上記指定の証明書画像部を配置して、第1の画像部を得る。上記第1の画像部を予め設定された画像姿勢分類モデルに入力して、上記画像姿勢分類モデルが出力する、上記標準姿勢、上記標準姿勢に対して反時計回りに90度回転すること、上記標準姿勢に対して反時計回りに180度回転すること、又は上記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出する。上記分類結果が上記標準姿勢でなければ、上記分類結果に基づいて上記第1の画像部を回転させて、予め設定された標準姿勢で配置された中間画像部を取得することにより、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正する。上記画像姿勢分類モデルは、任意の実行可能なモデルであってもよく、例えば、ニューラルネットワークモデル、inception-v3(オープンエンドモデル-V3型とも訳される)分類モデル等である。本願では、指定のエッジ線分が認識され、画像姿勢分類モデルを用いて姿勢認識が行われるので、姿勢修正の精度を確保することができ、取得された中間画像部を標準姿勢で確実に配置することを確保することができる。
【0022】
一実施形態において、上記画像姿勢分類モデルは、inception-v3分類モデルに基づいてトレーニングされたものであり、上記ステップS204の前に、
それぞれが標準姿勢で配置されるように予め設定された証明書画像部からなる所定数のトレーニングサンプルを含む第1のトレーニングセットを取得するステップS2031と、
上記第1のトレーニングセットの全ての証明書画像部を反時計回りに90度、反時計回りに180度、および反時計回りに270度回転させることにより、対応する第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットを得るステップS2032と、
同じラウンドでトレーニングするときに、第1のトレーニングセット、第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットからそれぞれ同じ数の証明書画像部をトレーニングデータとして抽出するラウンドトレーニングの方式を採用して、予め設定されたinception-v3分類モデルをトレーニングして、上記画像姿勢分類モデルを取得するステップS2033とを含む。
【0023】
上述したように、画像姿勢分類モデルを取得することが実現される。上記inception-v3分類モデルは、Inception分類モデルの1種であり、ディープニューラルネットワークモデルであり、特に画像分類に適したものであり、成熟した分類モデルであるため、ここでは説明を省略する。本願は、隣接するトレーニングセット間の画像部の角度差が90である第1のトレーニングセット、第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットを構築する方式を採用して、4つのトレーニングセットを形成し、かつラウンドトレーニングの方式を採用してトレーニングすることで、均一なトレーニングを確保することができ、得られた画像姿勢分類モデルが特定の姿勢の分類のみに適用されることを回避し、画像姿勢分類モデルのロバスト性を向上させることができる。
【0024】
一実施形態において、上記顔特徴点検出モデルは、ニューラルネットワークモデルに基づいてトレーニングされたものであり、上記ステップS3の前に、
標準姿勢で配置された証明書画像部と上記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、上記サンプルデータをトレーニングデータとテストデータとに分割するステップS21と、
上記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るステップS22と、
上記テストデータを用いて上記一時的モデルを検証し、検証が通過したか否かを判断するステップS23と、
検証が通過すれば、上記一時的モデルを上記顔特徴点検出モデルとして表記するステップS24とを含む。
【0025】
上述したように、顔特徴点検出モデルを取得することが実現される。本願は、特別なトレーニングデータを利用してトレーニングを行い、上記特別なトレーニングデータは、標準姿勢で配置された証明書画像部と上記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなるデータである。1つの姿勢をとる証明書画像部のみを採用するので、そのトレーニングデータとトレーニング効率の両方が改善されるとともに、前述したように、上記中間画像部が標準姿勢で配置されるので、その認識結果の精度が確保される(トレーニングした顔特徴点検出モデルは、標準姿勢で配置された証明書画像部をちょうど認識することができるためである)。なお、ニューラルネットワークモデルは、例えば、VGG-Fモデル、DPN131モデルなどである。ランダム勾配降下法は、全てのトレーニングデータに代えて、いくつかのトレーニングデータをランダムにサンプリングすることにより、トレーニング効率をより一層向上させる。そして、上記一時的モデルを検証し、検証が通過すれば、上記一時的モデルを上記顔特徴点検出モデルとして表記する。これにより、認識精度を低下させることなく、トレーニング効率を向上させることができる。
【0026】
一実施形態において、上記ステップS4は、
予め設定された対称点分類方法によって、上記複数の顔特徴点を、それぞれが上記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割するステップS401と、
予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するステップS402と、
上記第1のクラスタサブ中心と上記第2のクラスタサブ中心とを結ぶ線の中点位置を上記複数の顔特徴点のクラスタ中心位置として表記するステップS403とを含む。
【0027】
上述したように、予め設定されたクラスタリングアルゴリズムを用いて、上記複数の基準顔特徴点のクラスタ中心位置を算出することが実現される。顔は対称であるため、顔特徴点も対称である場合が多い。これにより、予め設定された対称点分類方法によって、上記複数の顔特徴点を、それぞれが上記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割する。上記対称軸は、実際に顔の対称軸であり、すなわち人の両眼、両鼻孔、口、耳の対称軸である。上記クラスタリングアルゴリズムは、任意の実行可能なアルゴリズムであってもよく、例えば、KNNクラスタリングアルゴリズムである。複数の顔特徴点を2つの種類に分割するため、種類ごとにクラスタ計算を行うことで、計算時間を短縮することができる。また、対称点のクラスタ計算により、最終的な第1のクラスタサブ中心が対称軸に位置するため、計算がより容易となり、計算時間がより短縮される。上記第1のクラスタサブ中心と上記第2のクラスタサブ中心とを結ぶ線の中点位置を上記複数の顔特徴点のクラスタ中心位置として表記する。それにより計算の速度が速くなる。
【0028】
一実施形態において、上記ステップS5の前に、
タイプが上記指定の証明書タイプである、予め収集された上記標準姿勢で配置された基準証明書画像部を取得するステップS41と、
上記基準証明書画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の基準顔特徴点を算出するステップS42と、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の基準顔特徴点のクラスタ中心位置を算出し、基準中心位置として表記するステップS43と、
上記複数の基準顔特徴点の最小外接矩形を生成し、上記複数の基準顔特徴点がいずれも内部にある基準矩形として表記するステップS44と、
上記基準矩形と上記基準中心位置がマークされた上記基準証明書画像部を上記標準証明書画像部として表記するステップS45とを含む。
【0029】
上述したように、標準証明書画像部を取得することが実現される。標準証明書画像部は、中間画像部と比較するためのものであるため、標準証明書画像部の取得方法は、できるだけ上記中間画像部の取得方法と同じである必要がある。これにより、タイプが上記指定の証明書タイプである、予め収集された上記標準姿勢で配置された基準証明書画像部を取得し、上記基準証明書画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の基準顔特徴点を算出し、予め設定されたクラスタリングアルゴリズムを用いて、上記複数の基準顔特徴点のクラスタ中心位置を算出し、基準中心位置として表記し、上記複数の基準顔特徴点の最小外接矩形を生成し、上記複数の基準顔特徴点がいずれも内部にある基準矩形として表記する。それにより、得られた標準証明書画像部は上記中間画像部と比較するために用いることができる。取得された標準証明書画像部のタイプ、基準中心位置及び基準矩形が、いずれも上記中間画像部のタイプ、クラスタ中心位置及び最小外接矩形にそれぞれ対応するため、後続の証明書本体の検出精度を確保することができる。
【0030】
一実施形態において、上記ステップS5は、
予め設定された文字認識技術により、上記指定の証明書画像部を認識して、文字テキストを得るステップS501と、
上記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは上記文字テキストの用語頻度ベクトルであり、Kは上記基準テキストの用語頻度ベクトルであり、Piは上記文字テキストにおけるi番目の単語が現われる回数であり、Kiは上記基準テキストにおけるi番目の単語が現われる回数である)により算出するステップS502と、
対応する類似度の値が他の基準テキストに対応する類似度の値よりも大きい指定の基準テキストを取得するステップS503と、
予め設定された指定の証明書画像部文字テキスト-指定の基準テキスト-証明書タイプの対応関係に基づいて、上記指定の証明書画像部に対応する指定の証明書タイプを取得するステップS504とを含む。
【0031】
上述したように、予め設定された証明書タイプ取得方法によって、上記証明書画像部の指定の証明書タイプを取得することが実現される。例えば、運転免許証には運転という語句があり、身分証には身分証番号という語句があるなど、異なるタイプの証明書によって、その上の規格文字が異なり、異なるタイプの証明書に全く同じ規格文字がある可能性はないため、証明書タイプの判断根拠とすることができる。これにより、本願は、予め設定された文字認識技術により、上記指定の証明書画像部を認識して、文字テキストを得る。
【0032】
上記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは上記文字テキストの用語頻度ベクトルであり、Kは上記基準テキストの用語頻度ベクトルであり、Piは上記文字テキストにおけるi番目の単語が現われる回数であり、Kiは上記基準テキストにおけるi番目の単語が現われる回数である)により算出する。対応する類似度の値が他の基準テキストに対応する類似度の値よりも大きい指定の基準テキストを取得する。予め設定された指定の証明書画像部文字テキスト-指定の基準テキスト-証明書タイプの対応関係に基づいて、上記指定の証明書画像部に対応する指定の証明書タイプを取得する。なお、上記複数の基準テキストは、異なるタイプの空白証明書を認識することにより対応して取得される。なお、上記文字テキストには必然的に全ての規格文字が含まれており、特定のタイプの証明書画像部にも同じ規格文字が含まれており、類似度の値Simに反映すると、上記指定の基準テキスト(すなわち、同じタイプの証明書画像部に対応する基準テキスト)に対応する類似度の値は、他の基準テキストに対応する類似度の値よりも大きい。なお、上記用語頻度ベクトルは、単語が現われる回数を成分ベクトルとして構成される。用語頻度ベクトルに基づく類似度計算方法は、対応する単語ベクトルを取得するために単語ベクトルライブラリを呼び出す必要がないため、計算速度が向上し、上記指定の証明書のタイプを迅速に取得することができる。
【0033】
図2を参照すると、本願実施例に係るデータ検出装置は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得する指定の証明書画像部取得ユニット10と、
予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得する姿勢修正ユニット20と、
上記中間画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の顔特徴点を算出する顔特徴点取得ユニット30と、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の顔特徴点のクラスタ中心位置を算出し、上記複数の顔特徴点がいずれも内部にある、上記複数の顔特徴点の最小外接矩形を生成するクラスタ中心位置算出ユニット40と、
予め設定された証明書タイプ取得方法によって、上記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが上記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出す標準証明書画像部呼出ユニット50と、
上記基準矩形の面積が上記最小外接矩形の面積と等しくなるように上記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するスケールアップ・スケールダウン後の画像部取得ユニット60と、
上記スケールアップ・スケールダウン後の画像部における基準中心位置と上記中間画像部におけるクラスタ中心位置とが重なるように上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とをパンによって重ねて、上記中間画像部における重なり部分を取得する重なり部分取得ユニット70と、
上記中間画像部における上記重なり部分を上記指定の証明書画像部の証明書本体として表記する証明書本体表記ユニット80とを含む。
【0034】
上記ユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0035】
一実施形態において、上記姿勢修正ユニット20は、
予め設定された画像エッジ検出方法を用いて、上記指定の証明書画像部における複数のエッジを検出し、上記複数のエッジから、互いに平行でかつ等しい二本の指定のエッジ線分からなる指定のエッジペアを取得するエッジ検出サブユニットと、
上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)(ここで、Mは上記指定のエッジ線分の長さであり、M1、M2、…Mnは上記複数のエッジにおける全てのエッジ線分の長さであり、上記複数のエッジには合計でn個のエッジ線分がある)を満たすか否かを判断する指定のエッジ線分判断サブユニットと、
上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)を満たせば、上記指定のエッジペアが予め設定された基準直線に平行である指定姿勢で、上記指定の証明書画像部を配置して、第1の画像部を得る第1の画像部配置サブユニットと、
上記第1の画像部を予め設定された画像姿勢分類モデルに入力して、上記画像姿勢分類モデルが出力する、上記標準姿勢、上記標準姿勢に対して反時計回りに90度回転すること、上記標準姿勢に対して反時計回りに180度回転すること、又は上記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出する分類結果取得サブユニットと、
上記分類結果が上記標準姿勢であるか否かを判断する標準姿勢判断サブユニットと、
上記分類結果が上記標準姿勢でなければ、上記分類結果に基づいて上記第1の画像部を回転させて、予め設定された標準姿勢で配置された中間画像部を取得する第1の画像部回転サブユニットとを含む。
【0036】
上記サブユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0037】
一実施形態において、上記画像姿勢分類モデルは、inception-v3分類モデルに基づいてトレーニングされたものであり、上記装置は、
それぞれが標準姿勢で配置されるように予め設定された証明書画像部からなる所定数のトレーニングサンプルを含む第1のトレーニングセットを取得する第1のトレーニングセット取得ユニットと、
上記第1のトレーニングセットの全ての証明書画像部を反時計回りに90度、反時計回りに180度、および反時計回りに270度回転させて、対応する第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットを得る第1のトレーニングセット回転ユニットと、
同じラウンドでトレーニングするときに、第1のトレーニングセット、第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットからそれぞれ同じ数の証明書画像部をトレーニングデータとして抽出するラウンドトレーニングの方式を採用して、予め設定されたinception-v3分類モデルをトレーニングして、上記画像姿勢分類モデルを取得するラウンドトレーニングユニットとを含む。
【0038】
上記ユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0039】
一実施形態において、上記顔特徴点検出モデルは、ニューラルネットワークモデルに基づいてトレーニングされたものであり、上記装置は、
標準姿勢で配置された証明書画像部と上記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、上記サンプルデータをトレーニングデータとテストデータとに分割するサンプルデータ取得ユニットと、
上記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るランダム勾配降下トレーニングユニットと、
上記テストデータを用いて上記一時的モデルを検証し、検証が通過したか否かを判断する一時的モデル検証ユニットと、
検証が通過すれば、上記一時的モデルを上記顔特徴点検出モデルとして表記する顔特徴点検出モデル表記ユニットとを含む。
【0040】
上記ユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0041】
一実施形態において、上記クラスタ中心位置算出ユニット40は、
予め設定された対称点分類方法によって、上記複数の顔特徴点を、それぞれが上記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割する特徴点分割サブユニットと、
予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するクラスタ算出サブユニットと、
上記第1のクラスタサブ中心と上記第2のクラスタサブ中心とを結ぶ線の中点位置を上記複数の顔特徴点のクラスタ中心位置として表記するクラスタ中心位置取得サブユニットとを含む。
【0042】
上記サブユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0043】
一実施形態において、上記装置は、
タイプが上記指定の証明書タイプである、予め収集された上記標準姿勢で配置された基準証明書画像部を取得する基準証明書画像部取得ユニットと、
上記基準証明書画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の基準顔特徴点を算出する基準顔特徴点取得ユニットと、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の基準顔特徴点のクラスタ中心位置を算出し、基準中心位置として表記する基準中心位置取得ユニットと、
上記複数の基準顔特徴点の最小外接矩形を生成し、上記複数の基準顔特徴点がいずれも内部にある基準矩形として表記する基準矩形取得ユニットと、
上記基準矩形及び上記基準中心位置がマークされた上記基準証明書画像部を上記標準証明書画像部として表記する標準証明書画像部表記ユニットとを含む。
【0044】
上記ユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0045】
一実施形態において、上記標準証明書画像部呼出ユニット50は、
予め設定された文字認識技術により、上記指定の証明書画像部を認識して、文字テキストを得る指定の証明書画像部認識サブユニットと、
上記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは上記文字テキストの用語頻度ベクトルであり、Kは上記基準テキストの用語頻度ベクトルであり、Piは上記文字テキストにおけるi番目の単語が現われる回数であり、Kiは上記基準テキストにおけるi番目の単語が現われる回数である)により算出する類似度の値Sim算出サブユニットと、
対応する類似度の値が他の基準テキストに対応する類似度の値よりも大きい指定の基準テキストを取得する指定の基準テキスト取得サブユニットと、
予め設定された指定の証明書画像部文字テキスト-指定の基準テキスト-証明書タイプの対応関係に基づいて、上記指定の証明書画像部に対応する指定の証明書タイプを取得する指定の証明書タイプ取得サブユニットとを含む。
【0046】
上記サブユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0047】
図3を参照すると、本願実施例に係るコンピュータ機器は、サーバであってもよく、その内部構成は図示のとおりであってもよい。該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリ、ネットワークインタフェース及びデータベースを含む。該コンピュータ機器のプロセッサは、計算及び制御能力を提供するために用いられる。該コンピュータ機器のメモリは、不揮発性記憶媒体、内部メモリを含む。該不揮発性記憶媒体には、オペレーティングシステムと、コンピュータ読み取り可能な命令と、データベースとが記憶されている。該内部メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ読み取り可能な命令の実行に環境を提供する。該コンピュータ機器のデータベースは、データ検出方法に用いられるデータを記憶するために用いられる。該コンピュータ機器のネットワークインタフェースは、ネットワークを介して外部の端末と通信するために用いられる。該コンピュータ読み取り可能な命令は、プロセッサによって実行されると、上述したいずれかの実施例に示されたデータ検出方法を実現する。上記プロセッサが上記データ検出方法を実行するステップは、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
上記中間画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の顔特徴点のクラスタ中心位置を算出し、上記複数の顔特徴点がいずれも内部にある、上記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、上記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが上記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
上記基準矩形の面積が上記最小外接矩形の面積と等しくなるように上記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
上記スケールアップ・スケールダウン後の画像部における基準中心位置と上記中間画像部におけるクラスタ中心位置とが重なるように上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とをパンによって重ねて、上記中間画像部における重なり部分を取得するステップと、
上記中間画像部における上記重なり部分を上記指定の証明書画像部の証明書本体として表記するステップとを含む。
【0048】
当業者であれば理解できるように、図に示した構成は、本願の解決手段に関連する部分的な構成のブロック図に過ぎず、本願の解決手段が適用されるコンピュータ機器の限定を構成するものではない。
【0049】
本願の一実施例に係るコンピュータ読み取り可能な記憶媒体は、不揮発性であってもよく、揮発性であってもよく、コンピュータ読み取り可能な命令が記憶されており、コンピュータ読み取り可能な命令は、プロセッサによって実行されると、上述したいずれかの実施例に示されたデータ検出方法を実現し、上記データ検出方法は、顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
上記中間画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の顔特徴点のクラスタ中心位置を算出し、上記複数の顔特徴点がいずれも内部にある、上記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、上記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが上記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
上記基準矩形の面積が上記最小外接矩形の面積と等しくなるように上記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
上記スケールアップ・スケールダウン後の画像部における基準中心位置と上記中間画像部におけるクラスタ中心位置とが重なるように上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とをパンによって重ねて、上記中間画像部における重なり部分を取得するステップと、
上記中間画像部における上記重なり部分を上記指定の証明書画像部の証明書本体として表記するステップとを含む。
【0050】
当業者であれば理解できるように、上述した方法実施例の全て又は一部のフローは、コンピュータ読み取り可能な命令によって関連するハードウェアを命令することにより達成でき、上記コンピュータ読み取り可能な命令は、不揮発性のコンピュータ読み取り可能な記憶媒体に記憶されてもよく、該コンピュータ読み取り可能な命令が実行されるとき、上記各方法実施例のフローを含んでもよい。本願において提供される、及び、実施例において使用されるメモリ、記憶、データベース又は他の媒体に対するいかなる引用は、いずれも不揮発性及び/又は揮発性メモリを含むことができる。不揮発性メモリは、読み出し専用メモリ(ROM)、プログラマブルROM(PROM)、電子的プログラマブルROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)又はフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含んでもよい。限定されるものではなく例示として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、二重データレートSDRAM(SSRSDRAM)、強化型SDRAM(ESDRAM)、同期チェーン(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)等の様々な形態で可能である。
【手続補正書】
【提出日】2021-03-10
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2019年10月16日に提出された、出願番号が201910984349.6号で、発明の名称が「データ検出方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願の優先権を主張するものであり、その全ての内容は、参照により本願に組み込まれるものとする。
【0002】
本願は、人工知能の技術分野に関し、特にデータの検出方法、装置、コンピュータ機器及び記憶媒体に関する。
【背景技術】
【0003】
証明書画像部に対する分析は、現在の社会の生産と生活において非常に一般的であり、例えば、ある業務を取り扱う際には、証明書画像部を撮影してアップロードする必要がある。証明書画像部(一般的に撮影された証明書画像部では、光景の範囲が証明書本体よりも広いため、証明書本体は一般的に証明書画像部全体で埋め埋めることはない)中の証明書本体を正確に検出することができれば、後続の証明書画像部に対する分析を向上させることができる。従来の証明書本体検出方法は、一般的に、ピクセルに基づいて検出して証明書本体の座標(例えば、マトリクス証明書本体の4つの頂点座標)を得るものであり、このような方式は、計算資源が多く消費されるとともに、ぼけた証明書に対する認識精度が低い(証明書がぼけて、その証明書本体の境界が不明瞭であるため、従来の方法で認識された証明書本体は大きくばらつく)という欠点があることを発明者は見出した。
【発明の概要】
【0004】
本発明は、データの検出精度を向上させるために、データ検出方法、装置、コンピュータ機器及び記憶媒体を提供することを目的とする。
【0005】
上記目的を達成するために、第1態様によれば、本願に係るデータ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む。
【0006】
第2様態によれば、本願に係るデータ検出装置は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得する指定の証明書画像部取得ユニットと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得する姿勢修正ユニットと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出する顔特徴点取得ユニットと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するクラスタ中心位置算出ユニットと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出す標準証明書画像部呼出ユニットと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するスケールアップ・スケールダウン後の画像部取得ユニットと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得する重なり部分取得ユニットと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記する証明書本体表記ユニットとを含む。
【0007】
第3態様によれば、本願に係るコンピュータ機器は、コンピュータ読み取り可能な命令が記憶されているメモリと、前記コンピュータ読み取り可能な命令を実行すると、データ検出方法を実現するプロセッサとを含み、前記データ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む。
【0008】
第4様態によれば、本願に係るコンピュータ読み取り可能な記憶媒体は、プロセッサによって実行されると、データ検出方法を実現するコンピュータ読み取り可能な命令が記憶されており、前記データ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む。
【0009】
本願に係るデータ検出方法、装置、コンピュータ機器及び記憶媒体は、データの検出精度を向上させる。
【図面の簡単な説明】
【0010】
【
図1】本願の一実施例に係るデータ検出方法を模式的に示すフローチャートである。
【
図2】本願の一実施例に係るデータ検出装置の構成を模式的に示すブロック図である。
【
図3】本願の一実施例に係るコンピュータ機器の構成を模式的に示すブロック図である。
【発明を実施するための形態】
【0011】
図1を参照すると、本願実施例に係るデータ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップS1と、
予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップS2と、
上記中間画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップS3と、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の顔特徴点のクラスタ中心位置を算出し、上記複数の顔特徴点がいずれも内部にある、上記複数の顔特徴点の最小外接矩形を生成するステップS4と、
予め設定された証明書タイプ取得方法によって、上記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが上記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップS5と、
上記基準矩形の面積が上記最小外接矩形の面積と等しくなるように上記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップS6と、
上記スケールアップ・スケールダウン後の画像部における基準中心位置と上記中間画像部におけるクラスタ中心位置とが重なるように上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とをパンによって重ねて、上記中間画像部における重なり部分を取得するステップS7と、
上記中間画像部における上記重なり部分を上記指定の証明書画像部の証明書本体として表記するステップS8とを含む。
【0012】
上記ステップS1で説明したように、顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得する。一般的な証明書画像部は基本的に顔を含み、本願に係るデータ検出方法は顔検出に基づいて実現されるものであるため、顔を含む証明書画像部に用いることができ、適用性が広い。
【0013】
上記ステップS2で説明したように、予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得する。指定の証明書画像部は任意の姿勢で配置される可能性があるため、それを標準姿勢で配置されるように調整しないと、後続の計算に悪影響を及ぼす。したがって、予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得する。上記標準姿勢は、任意の形式で配置された姿勢であってもよく、好ましくは、観察又は処理に最適な姿勢である(すなわち、画面内に表示される場合には、上記中間画像部の正面が画面に面している閲覧者に向く)。なお、姿勢修正方法は、例えば、予め設定された画像エッジ検出方法を用いて、上記指定の証明書画像部における複数のエッジを検出し、上記複数のエッジから、互いに平行でかつ等しい二本の指定のエッジ線分からなる指定のエッジペアを取得するステップと、上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)(ここで、Mは上記指定のエッジ線分の長さであり、M1、M2、…Mnは上記複数のエッジにおける全てのエッジ線分の長さであり、上記複数のエッジには合計でn個のエッジ線分がある)を満たすか否かを判断するステップと、上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)を満たせば、上記指定のエッジペアが予め設定された基準直線に平行である指定姿勢で、上記指定の証明書画像部を配置して、第1の画像部を得るステップと、上記第1の画像部を予め設定された画像姿勢分類モデルに入力して、上記画像姿勢分類モデルが出力する、上記標準姿勢、上記標準姿勢に対して反時計回りに90度回転すること、上記標準姿勢に対して反時計回りに180度回転すること、又は上記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出するステップと、上記分類結果が上記標準姿勢であるか否かを判断するステップと、上記分類結果が上記標準姿勢でなければ、上記分類結果に基づいて上記第1の画像部を回転させて、予め設定された標準姿勢で配置された中間画像部を取得するステップとを含む。
【0014】
上記ステップS3で説明したように、上記中間画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の顔特徴点を算出する。上記顔特徴点検出モデルは、顔における特別な位置、例えば、対称な瞳等を検出するために用いられる。上記顔特徴点検出モデルの取得方法は、例えば、標準姿勢で配置された証明書画像部と上記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、上記サンプルデータをトレーニングデータとテストデータとに分割するステップと、上記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るステップと、上記テストデータを用いて上記一時的モデルを検証し、検証が通過したか否かを判断するステップと、検証が通過すれば、上記一時的モデルを上記顔特徴点検出モデルとして表記するステップとを含む。
【0015】
上記ステップS4で説明したように、予め設定されたクラスタリングアルゴリズムを用いて、上記複数の顔特徴点のクラスタ中心位置を算出し、上記複数の顔特徴点がいずれも内部にある、上記複数の顔特徴点の最小外接矩形を生成する。なお、上記クラスタリングアルゴリズムは、任意の実行可能なアルゴリズムであってもよく、例えば、knnクラスタリングアルゴリズム等である。さらに、上記複数の顔特徴点のクラスタ中心位置を算出する方法は、例えば、予め設定された対称点分類方法によって、上記複数の顔特徴点を、それぞれが上記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割するステップと、予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するステップと、上記第1のクラスタサブ中心と上記第2のクラスタサブ中心とを結ぶ線の中点位置を上記複数の顔特徴点のクラスタ中心位置として表記するステップとを含む。それによりクラスタ中心位置を取得する効率を向上させる。
【0016】
上記ステップS5で説明したように、予め設定された証明書タイプ取得方法によって、上記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが上記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出す。上記基準矩形と基準中心位置は、それぞれ上記最小外接矩形と上記クラスタ中心位置に対応し、最終的な証明書本体を確定するための根拠とする。なお、上記証明書タイプ取得方法は、例えば、予め設定された文字認識技術により、上記指定の証明書画像部を認識して、文字テキストを得るステップと、
上記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは上記文字テキストの用語頻度ベクトルであり、Kは上記基準テキストの用語頻度ベクトルであり、Piは上記文字テキストにおけるi番目の単語が現われる回数であり、Kiは上記基準テキストにおけるi番目の単語が現われる回数である)により算出するステップと、上記類似度の値Simが予め設定された類似度の閾値よりも大きいか否かを判断するステップと、上記類似度の値Simが予め設定された類似度の閾値よりも大きければ、予め設定された指定の証明書画像部文字テキスト-基準テキスト-証明書タイプの対応関係に基づいて、上記指定の証明書画像部に対応する指定の証明書タイプを取得するステップとを含む。
【0017】
上記ステップS6で説明したように、上記基準矩形の面積が上記最小外接矩形の面積と等しくなるように上記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得する。なお、上記標準証明書画像部をスケールアップ・スケールダウンする方式を採用することにより、上記標準証明書画像部の基準中心位置、基準矩形と証明書画像部の相対的比例関係をそのまま維持することができる。さらに、上記基準矩形の面積を上記最小外接矩形の面積と等しくして、スケールアップ・スケールダウン後の画像部を得ることにより、リアルな証明書画像部に対するスケールアップ・スケールダウン後の画像部の比例関係が、リアルな証明書画像部に対する上記中間画像部の比例関係と等しくなるようにする。これにより、上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とを重ねて、証明書本体を検出することができる。
【0018】
上記ステップS7で説明したように、上記スケールアップ・スケールダウン後の画像部における基準中心位置と上記中間画像部におけるクラスタ中心位置とが重なるように上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とをパンによって重ねて、上記中間画像部における重なり部分を取得する。なお、パンを用いる目的は、比例関係が再び変化して後続の検出結果に影響を与えることを防止するためである。前述した内容から分かるように、リアルな証明書画像部に対するスケールアップ・スケールダウン後の画像部の比例関係は、リアルな証明書画像部に対する上記中間画像部の比例関係と等しい。また、上記標準証明書画像部は上記標準証明書画像部における証明書画像で埋めている。したがって、上記中間画像部における重なり部分は、証明書本体である。
【0019】
上記ステップS8で説明したように、上記中間画像部における上記重なり部分を上記指定の証明書画像部の証明書本体として表記する。さらに、上記中間画像部における、上記証明書本体以外の領域を除去するための切り取り操作を行うことで、後続の画像部処理動作における、上記他の領域に対する無意味な処理が省略され、計算力の無駄を回避することができる。
【0020】
一実施形態において、上記ステップS2は、
予め設定された画像エッジ検出方法を用いて、上記指定の証明書画像部における複数のエッジを検出し、上記複数のエッジから、互いに平行でかつ等しい二本の指定のエッジ線分からなる指定のエッジペアを取得するステップS201と、
上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)(ここで、Mは上記指定のエッジ線分の長さであり、M1、M2、…Mnは上記複数のエッジにおける全てのエッジ線分の長さであり、上記複数のエッジには合計でn個のエッジ線分がある)を満たすか否かを判断するステップS202と、
上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)を満たせば、上記指定のエッジペアが予め設定された基準直線に平行である指定姿勢で、上記指定の証明書画像部を配置して、第1の画像部を得るステップS203と、
上記第1の画像部を予め設定された画像姿勢分類モデルに入力して、上記画像姿勢分類モデルが出力する、上記標準姿勢、上記標準姿勢に対して反時計回りに90度回転すること、上記標準姿勢に対して反時計回りに180度回転すること、又は上記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出するステップS204と、
上記分類結果が上記標準姿勢であるか否かを判断するステップS205と、
上記分類結果が上記標準姿勢でなければ、上記分類結果に基づいて上記第1の画像部を回転させて、予め設定された標準姿勢で配置された中間画像部を取得するステップS206とを含む。
【0021】
上述したように、予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得することが実現される。上記画像エッジ検出方法は、例えば、上記指定の証明書画像部に対して輪郭認識を行うことにより輪郭を得て、輪郭線を上記エッジとする。上記指定の証明書画像部における最大の輪郭が矩形の証明書画像であるため、上記指定のエッジペアは、上記証明書画像の一対の平行辺である可能性があり、上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)を満たせば、上記指定のエッジペアが上記証明書画像の最も長い一対の平行辺であると特定できるため、上記指定のエッジペアが予め設定された基準直線に平行である指定姿勢で、上記指定の証明書画像部を配置して、第1の画像部を得る。上記第1の画像部を予め設定された画像姿勢分類モデルに入力して、上記画像姿勢分類モデルが出力する、上記標準姿勢、上記標準姿勢に対して反時計回りに90度回転すること、上記標準姿勢に対して反時計回りに180度回転すること、又は上記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出する。上記分類結果が上記標準姿勢でなければ、上記分類結果に基づいて上記第1の画像部を回転させて、予め設定された標準姿勢で配置された中間画像部を取得することにより、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正する。上記画像姿勢分類モデルは、任意の実行可能なモデルであってもよく、例えば、ニューラルネットワークモデル、inception-v3(オープンエンドモデル-V3型とも訳される)分類モデル等である。本願では、指定のエッジ線分が認識され、画像姿勢分類モデルを用いて姿勢認識が行われるので、姿勢修正の精度を確保することができ、取得された中間画像部を標準姿勢で確実に配置することを確保することができる。
【0022】
一実施形態において、上記画像姿勢分類モデルは、inception-v3分類モデルに基づいてトレーニングされたものであり、上記ステップS204の前に、
それぞれが標準姿勢で配置されるように予め設定された証明書画像部からなる所定数のトレーニングサンプルを含む第1のトレーニングセットを取得するステップS2031と、
上記第1のトレーニングセットの全ての証明書画像部を反時計回りに90度、反時計回りに180度、および反時計回りに270度回転させることにより、対応する第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットを得るステップS2032と、
同じラウンドでトレーニングするときに、第1のトレーニングセット、第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットからそれぞれ同じ数の証明書画像部をトレーニングデータとして抽出するラウンドトレーニングの方式を採用して、予め設定されたinception-v3分類モデルをトレーニングして、上記画像姿勢分類モデルを取得するステップS2033とを含む。
【0023】
上述したように、画像姿勢分類モデルを取得することが実現される。上記inception-v3分類モデルは、Inception分類モデルの1種であり、ディープニューラルネットワークモデルであり、特に画像分類に適したものであり、成熟した分類モデルであるため、ここでは説明を省略する。本願は、隣接するトレーニングセット間の画像部の角度差が90である第1のトレーニングセット、第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットを構築する方式を採用して、4つのトレーニングセットを形成し、かつラウンドトレーニングの方式を採用してトレーニングすることで、均一なトレーニングを確保することができ、得られた画像姿勢分類モデルが特定の姿勢の分類のみに適用されることを回避し、画像姿勢分類モデルのロバスト性を向上させることができる。
【0024】
一実施形態において、上記顔特徴点検出モデルは、ニューラルネットワークモデルに基づいてトレーニングされたものであり、上記ステップS3の前に、
標準姿勢で配置された証明書画像部と上記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、上記サンプルデータをトレーニングデータとテストデータとに分割するステップS21と、
上記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るステップS22と、
上記テストデータを用いて上記一時的モデルを検証し、検証が通過したか否かを判断するステップS23と、
検証が通過すれば、上記一時的モデルを上記顔特徴点検出モデルとして表記するステップS24とを含む。
【0025】
上述したように、顔特徴点検出モデルを取得することが実現される。本願は、特別なトレーニングデータを利用してトレーニングを行い、上記特別なトレーニングデータは、標準姿勢で配置された証明書画像部と上記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなるデータである。1つの姿勢をとる証明書画像部のみを採用するので、そのトレーニングデータとトレーニング効率の両方が改善されるとともに、前述したように、上記中間画像部が標準姿勢で配置されるので、その認識結果の精度が確保される(トレーニングした顔特徴点検出モデルは、標準姿勢で配置された証明書画像部をちょうど認識することができるためである)。なお、ニューラルネットワークモデルは、例えば、VGG-Fモデル、DPN131モデルなどである。ランダム勾配降下法は、全てのトレーニングデータに代えて、いくつかのトレーニングデータをランダムにサンプリングすることにより、トレーニング効率をより一層向上させる。そして、上記一時的モデルを検証し、検証が通過すれば、上記一時的モデルを上記顔特徴点検出モデルとして表記する。これにより、認識精度を低下させることなく、トレーニング効率を向上させることができる。
【0026】
一実施形態において、上記ステップS4は、
予め設定された対称点分類方法によって、上記複数の顔特徴点を、それぞれが上記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割するステップS401と、
予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するステップS402と、
上記第1のクラスタサブ中心と上記第2のクラスタサブ中心とを結ぶ線の中点位置を上記複数の顔特徴点のクラスタ中心位置として表記するステップS403とを含む。
【0027】
上述したように、予め設定されたクラスタリングアルゴリズムを用いて、上記複数の基準顔特徴点のクラスタ中心位置を算出することが実現される。顔は対称であるため、顔特徴点も対称である場合が多い。これにより、予め設定された対称点分類方法によって、上記複数の顔特徴点を、それぞれが上記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割する。上記対称軸は、実際に顔の対称軸であり、すなわち人の両眼、両鼻孔、口、耳の対称軸である。上記クラスタリングアルゴリズムは、任意の実行可能なアルゴリズムであってもよく、例えば、KNNクラスタリングアルゴリズムである。複数の顔特徴点を2つの種類に分割するため、種類ごとにクラスタ計算を行うことで、計算時間を短縮することができる。また、対称点のクラスタ計算により、最終的な第1のクラスタサブ中心が対称軸に位置するため、計算がより容易となり、計算時間がより短縮される。上記第1のクラスタサブ中心と上記第2のクラスタサブ中心とを結ぶ線の中点位置を上記複数の顔特徴点のクラスタ中心位置として表記する。それにより計算の速度が速くなる。
【0028】
一実施形態において、上記ステップS5の前に、
タイプが上記指定の証明書タイプである、予め収集された上記標準姿勢で配置された基準証明書画像部を取得するステップS41と、
上記基準証明書画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の基準顔特徴点を算出するステップS42と、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の基準顔特徴点のクラスタ中心位置を算出し、基準中心位置として表記するステップS43と、
上記複数の基準顔特徴点の最小外接矩形を生成し、上記複数の基準顔特徴点がいずれも内部にある基準矩形として表記するステップS44と、
上記基準矩形と上記基準中心位置がマークされた上記基準証明書画像部を上記標準証明書画像部として表記するステップS45とを含む。
【0029】
上述したように、標準証明書画像部を取得することが実現される。標準証明書画像部は、中間画像部と比較するためのものであるため、標準証明書画像部の取得方法は、できるだけ上記中間画像部の取得方法と同じである必要がある。これにより、タイプが上記指定の証明書タイプである、予め収集された上記標準姿勢で配置された基準証明書画像部を取得し、上記基準証明書画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の基準顔特徴点を算出し、予め設定されたクラスタリングアルゴリズムを用いて、上記複数の基準顔特徴点のクラスタ中心位置を算出し、基準中心位置として表記し、上記複数の基準顔特徴点の最小外接矩形を生成し、上記複数の基準顔特徴点がいずれも内部にある基準矩形として表記する。それにより、得られた標準証明書画像部は上記中間画像部と比較するために用いることができる。取得された標準証明書画像部のタイプ、基準中心位置及び基準矩形が、いずれも上記中間画像部のタイプ、クラスタ中心位置及び最小外接矩形にそれぞれ対応するため、後続の証明書本体の検出精度を確保することができる。
【0030】
一実施形態において、上記ステップS5は、
予め設定された文字認識技術により、上記指定の証明書画像部を認識して、文字テキストを得るステップS501と、
上記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは上記文字テキストの用語頻度ベクトルであり、Kは上記基準テキストの用語頻度ベクトルであり、Piは上記文字テキストにおけるi番目の単語が現われる回数であり、Kiは上記基準テキストにおけるi番目の単語が現われる回数である)により算出するステップS502と、
対応する類似度の値が他の基準テキストに対応する類似度の値よりも大きい指定の基準テキストを取得するステップS503と、
予め設定された指定の証明書画像部文字テキスト-指定の基準テキスト-証明書タイプの対応関係に基づいて、上記指定の証明書画像部に対応する指定の証明書タイプを取得するステップS504とを含む。
【0031】
上述したように、予め設定された証明書タイプ取得方法によって、上記証明書画像部の指定の証明書タイプを取得することが実現される。例えば、運転免許証には運転という語句があり、身分証には身分証番号という語句があるなど、異なるタイプの証明書によって、その上の規格文字が異なり、異なるタイプの証明書に全く同じ規格文字がある可能性はないため、証明書タイプの判断根拠とすることができる。これにより、本願は、予め設定された文字認識技術により、上記指定の証明書画像部を認識して、文字テキストを得る。
【0032】
上記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは上記文字テキストの用語頻度ベクトルであり、Kは上記基準テキストの用語頻度ベクトルであり、Piは上記文字テキストにおけるi番目の単語が現われる回数であり、Kiは上記基準テキストにおけるi番目の単語が現われる回数である)により算出する。対応する類似度の値が他の基準テキストに対応する類似度の値よりも大きい指定の基準テキストを取得する。予め設定された指定の証明書画像部文字テキスト-指定の基準テキスト-証明書タイプの対応関係に基づいて、上記指定の証明書画像部に対応する指定の証明書タイプを取得する。なお、上記複数の基準テキストは、異なるタイプの空白証明書を認識することにより対応して取得される。なお、上記文字テキストには必然的に全ての規格文字が含まれており、特定のタイプの証明書画像部にも同じ規格文字が含まれており、類似度の値Simに反映すると、上記指定の基準テキスト(すなわち、同じタイプの証明書画像部に対応する基準テキスト)に対応する類似度の値は、他の基準テキストに対応する類似度の値よりも大きい。なお、上記用語頻度ベクトルは、単語が現われる回数を成分ベクトルとして構成される。用語頻度ベクトルに基づく類似度計算方法は、対応する単語ベクトルを取得するために単語ベクトルライブラリを呼び出す必要がないため、計算速度が向上し、上記指定の証明書のタイプを迅速に取得することができる。
【0033】
図2を参照すると、本願実施例に係るデータ検出装置は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得する指定の証明書画像部取得ユニット10と、
予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得する姿勢修正ユニット20と、
上記中間画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の顔特徴点を算出する顔特徴点取得ユニット30と、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の顔特徴点のクラスタ中心位置を算出し、上記複数の顔特徴点がいずれも内部にある、上記複数の顔特徴点の最小外接矩形を生成するクラスタ中心位置算出ユニット40と、
予め設定された証明書タイプ取得方法によって、上記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが上記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出す標準証明書画像部呼出ユニット50と、
上記基準矩形の面積が上記最小外接矩形の面積と等しくなるように上記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するスケールアップ・スケールダウン後の画像部取得ユニット60と、
上記スケールアップ・スケールダウン後の画像部における基準中心位置と上記中間画像部におけるクラスタ中心位置とが重なるように上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とをパンによって重ねて、上記中間画像部における重なり部分を取得する重なり部分取得ユニット70と、
上記中間画像部における上記重なり部分を上記指定の証明書画像部の証明書本体として表記する証明書本体表記ユニット80とを含む。
【0034】
上記ユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0035】
一実施形態において、上記姿勢修正ユニット20は、
予め設定された画像エッジ検出方法を用いて、上記指定の証明書画像部における複数のエッジを検出し、上記複数のエッジから、互いに平行でかつ等しい二本の指定のエッジ線分からなる指定のエッジペアを取得するエッジ検出サブユニットと、
上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)(ここで、Mは上記指定のエッジ線分の長さであり、M1、M2、…Mnは上記複数のエッジにおける全てのエッジ線分の長さであり、上記複数のエッジには合計でn個のエッジ線分がある)を満たすか否かを判断する指定のエッジ線分判断サブユニットと、
上記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)を満たせば、上記指定のエッジペアが予め設定された基準直線に平行である指定姿勢で、上記指定の証明書画像部を配置して、第1の画像部を得る第1の画像部配置サブユニットと、
上記第1の画像部を予め設定された画像姿勢分類モデルに入力して、上記画像姿勢分類モデルが出力する、上記標準姿勢、上記標準姿勢に対して反時計回りに90度回転すること、上記標準姿勢に対して反時計回りに180度回転すること、又は上記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出する分類結果取得サブユニットと、
上記分類結果が上記標準姿勢であるか否かを判断する標準姿勢判断サブユニットと、
上記分類結果が上記標準姿勢でなければ、上記分類結果に基づいて上記第1の画像部を回転させて、予め設定された標準姿勢で配置された中間画像部を取得する第1の画像部回転サブユニットとを含む。
【0036】
上記サブユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0037】
一実施形態において、上記画像姿勢分類モデルは、inception-v3分類モデルに基づいてトレーニングされたものであり、上記装置は、
それぞれが標準姿勢で配置されるように予め設定された証明書画像部からなる所定数のトレーニングサンプルを含む第1のトレーニングセットを取得する第1のトレーニングセット取得ユニットと、
上記第1のトレーニングセットの全ての証明書画像部を反時計回りに90度、反時計回りに180度、および反時計回りに270度回転させて、対応する第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットを得る第1のトレーニングセット回転ユニットと、
同じラウンドでトレーニングするときに、第1のトレーニングセット、第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットからそれぞれ同じ数の証明書画像部をトレーニングデータとして抽出するラウンドトレーニングの方式を採用して、予め設定されたinception-v3分類モデルをトレーニングして、上記画像姿勢分類モデルを取得するラウンドトレーニングユニットとを含む。
【0038】
上記ユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0039】
一実施形態において、上記顔特徴点検出モデルは、ニューラルネットワークモデルに基づいてトレーニングされたものであり、上記装置は、
標準姿勢で配置された証明書画像部と上記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、上記サンプルデータをトレーニングデータとテストデータとに分割するサンプルデータ取得ユニットと、
上記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るランダム勾配降下トレーニングユニットと、
上記テストデータを用いて上記一時的モデルを検証し、検証が通過したか否かを判断する一時的モデル検証ユニットと、
検証が通過すれば、上記一時的モデルを上記顔特徴点検出モデルとして表記する顔特徴点検出モデル表記ユニットとを含む。
【0040】
上記ユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0041】
一実施形態において、上記クラスタ中心位置算出ユニット40は、
予め設定された対称点分類方法によって、上記複数の顔特徴点を、それぞれが上記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割する特徴点分割サブユニットと、
予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するクラスタ算出サブユニットと、
上記第1のクラスタサブ中心と上記第2のクラスタサブ中心とを結ぶ線の中点位置を上記複数の顔特徴点のクラスタ中心位置として表記するクラスタ中心位置取得サブユニットとを含む。
【0042】
上記サブユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0043】
一実施形態において、上記装置は、
タイプが上記指定の証明書タイプである、予め収集された上記標準姿勢で配置された基準証明書画像部を取得する基準証明書画像部取得ユニットと、
上記基準証明書画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の基準顔特徴点を算出する基準顔特徴点取得ユニットと、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の基準顔特徴点のクラスタ中心位置を算出し、基準中心位置として表記する基準中心位置取得ユニットと、
上記複数の基準顔特徴点の最小外接矩形を生成し、上記複数の基準顔特徴点がいずれも内部にある基準矩形として表記する基準矩形取得ユニットと、
上記基準矩形及び上記基準中心位置がマークされた上記基準証明書画像部を上記標準証明書画像部として表記する標準証明書画像部表記ユニットとを含む。
【0044】
上記ユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0045】
一実施形態において、上記標準証明書画像部呼出ユニット50は、
予め設定された文字認識技術により、上記指定の証明書画像部を認識して、文字テキストを得る指定の証明書画像部認識サブユニットと、
上記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、式
(ここで、Pは上記文字テキストの用語頻度ベクトルであり、Kは上記基準テキストの用語頻度ベクトルであり、Piは上記文字テキストにおけるi番目の単語が現われる回数であり、Kiは上記基準テキストにおけるi番目の単語が現われる回数である)により算出する類似度の値Sim算出サブユニットと、
対応する類似度の値が他の基準テキストに対応する類似度の値よりも大きい指定の基準テキストを取得する指定の基準テキスト取得サブユニットと、
予め設定された指定の証明書画像部文字テキスト-指定の基準テキスト-証明書タイプの対応関係に基づいて、上記指定の証明書画像部に対応する指定の証明書タイプを取得する指定の証明書タイプ取得サブユニットとを含む。
【0046】
上記サブユニットがそれぞれ実行する操作は前述の実施形態のデータ検出方法のステップと一対一に対応するため、ここでは説明を省略する。
【0047】
図3を参照すると、本願実施例に係るコンピュータ機器は、サーバであってもよく、その内部構成は図示のとおりであってもよい。該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリ、ネットワークインタフェース及びデータベースを含む。該コンピュータ機器のプロセッサは、計算及び制御能力を提供するために用いられる。該コンピュータ機器のメモリは、不揮発性記憶媒体、内部メモリを含む。該不揮発性記憶媒体には、オペレーティングシステムと、コンピュータ読み取り可能な命令と、データベースとが記憶されている。該内部メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ読み取り可能な命令の実行に環境を提供する。該コンピュータ機器のデータベースは、データ検出方法に用いられるデータを記憶するために用いられる。該コンピュータ機器のネットワークインタフェースは、ネットワークを介して外部の端末と通信するために用いられる。該コンピュータ読み取り可能な命令は、プロセッサによって実行されると、上述したいずれかの実施例に示されたデータ検出方法を実現する。上記プロセッサが上記データ検出方法を実行するステップは、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
上記中間画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の顔特徴点のクラスタ中心位置を算出し、上記複数の顔特徴点がいずれも内部にある、上記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、上記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが上記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
上記基準矩形の面積が上記最小外接矩形の面積と等しくなるように上記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
上記スケールアップ・スケールダウン後の画像部における基準中心位置と上記中間画像部におけるクラスタ中心位置とが重なるように上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とをパンによって重ねて、上記中間画像部における重なり部分を取得するステップと、
上記中間画像部における上記重なり部分を上記指定の証明書画像部の証明書本体として表記するステップとを含む。
【0048】
当業者であれば理解できるように、図に示した構成は、本願の解決手段に関連する部分的な構成のブロック図に過ぎず、本願の解決手段が適用されるコンピュータ機器の限定を構成するものではない。
【0049】
本願の一実施例に係るコンピュータ読み取り可能な記憶媒体は、不揮発性であってもよく、揮発性であってもよく、コンピュータ読み取り可能な命令が記憶されており、コンピュータ読み取り可能な命令は、プロセッサによって実行されると、上述したいずれかの実施例に示されたデータ検出方法を実現し、上記データ検出方法は、顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、上記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
上記中間画像部を予め設定された顔特徴点検出モデルに入力して、上記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、上記複数の顔特徴点のクラスタ中心位置を算出し、上記複数の顔特徴点がいずれも内部にある、上記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、上記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが上記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
上記基準矩形の面積が上記最小外接矩形の面積と等しくなるように上記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
上記スケールアップ・スケールダウン後の画像部における基準中心位置と上記中間画像部におけるクラスタ中心位置とが重なるように上記スケールアップ・スケールダウン後の画像部と上記標準証明書画像部とをパンによって重ねて、上記中間画像部における重なり部分を取得するステップと、
上記中間画像部における上記重なり部分を上記指定の証明書画像部の証明書本体として表記するステップとを含む。
【0050】
当業者であれば理解できるように、上述した方法実施例の全て又は一部のフローは、コンピュータ読み取り可能な命令によって関連するハードウェアを命令することにより達成でき、上記コンピュータ読み取り可能な命令は、不揮発性のコンピュータ読み取り可能な記憶媒体に記憶されてもよく、該コンピュータ読み取り可能な命令が実行されるとき、上記各方法実施例のフローを含んでもよい。本願において提供される、及び、実施例において使用されるメモリ、記憶、データベース又は他の媒体に対するいかなる引用は、いずれも不揮発性及び/又は揮発性メモリを含むことができる。不揮発性メモリは、読み出し専用メモリ(ROM)、プログラマブルROM(PROM)、電子的プログラマブルROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)又はフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含んでもよい。限定されるものではなく例示として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、二重データレートSDRAM(SSRSDRAM)、強化型SDRAM(ESDRAM)、同期チェーン(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)等の様々な形態で可能である。
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む、データ検出方法。
【請求項2】
前記予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、前記中間画像部を取得するステップは、
予め設定された画像エッジ検出方法を用いて、前記指定の証明書図面における複数のエッジを検出し、前記複数のエッジから、互いに平行でかつ等しい二本の指定のエッジ線分からなる指定のエッジペアを取得するステップと、
前記指定のエッジ線分の長さが、M=max(M1,M2,…,Mn)(ここで、Mは前記指定のエッジ線分の長さであり、M1、M2、...Mnは前記複数のエッジにおける全てのエッジ線分の長さであり、前記複数のエッジには合計でn個のエッジ線分がある)を満たすか否かを判断するステップと、
前記指定のエッジ線分の長さが、M=max(M1,M2,...,Mn)を満せば、前記指定のエッジペアが予め設定された基準直線に平行である指定姿勢で、前記指定の証明書画像部を配置して、第1の画像部を得るステップと、
前記第1の画像部を予め設定された画像姿勢分類モデルに入力して、前記画像姿勢分類モデルが出力する、前記標準姿勢、前記標準姿勢に対して反時計回りに90度回転すること、前記標準姿勢に対して反時計回りに180度回転すること、又は前記標準姿勢に対して反時計回りに270度回転することを含む分類結果を算出するステップと、
前記分類結果が前記標準姿勢であるか否かを判断するステップと、
前記分類結果が前記標準姿勢でなければ、前記分類結果に基づいて前記第1の画像部を回転させて、予め設定された前記標準姿勢で配置された中間画像部を取得するステップとを含む、請求項1に記載のデータ検出方法。
【請求項3】
前記画像姿勢分類モデルは、inception-v3分類モデルに基づいてトレーニングされたものであり、前記第1の画像部を予め設定された画像姿勢分類モデルに入力して、前記画像姿勢分類モデルが出力する、前記標準姿勢、前記標準姿勢に対して反時計回りに90度回転すること、前記標準姿勢に対して反時計回りに180度回転すること、又は前記標準姿勢に対して反時計回りに270度回転することを含む前記分類結果を算出するステップの前に、
それぞれが前記標準姿勢で配置されるように予め設定された証明書画像部からなる所定数のトレーニングサンプルを含む第1のトレーニングセットを取得するステップと、
前記第1のトレーニングセットの全ての証明書画像部を反時計回りに90度、反時計回りに180度、及び反時計回りに270度回転させて、対応する第2のトレーニングセット、第3のトレーニングセット及び第4のトレーニングセットを得るステップと、
同じラウンドでトレーニングするときに、前記第1のトレーニングセット、前記第2のトレーニングセット、前記第3のトレーニングセット及び前記第4のトレーニングセットからそれぞれ同じ数の証明書画像部をトレーニングデータとして抽出するラウンドトレーニングの方式を採用して、予め設定されたinception-v3分類モデルをトレーニングして、前記画像姿勢分類モデルを取得するステップとを含む、請求項2に記載のデータ検出方法。
【請求項4】
前記顔特徴点検出モデルは、ニューラルネットワークモデルに基づいてトレーニングされたものであり、前記中間画像部を予め設定された前記顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する前記複数の顔特徴点を算出するステップの前に、
標準姿勢で配置された証明書画像部と前記標準姿勢で配置された証明書画像部にマークされた顔特徴点とのみからなる、予め収集されたサンプルデータを取得し、前記サンプルデータをトレーニングデータとテストデータとに分割するステップと、
前記トレーニングデータを用いてランダム勾配降下法を用いて予め設定されたニューラルネットワークモデルをトレーニングして、一時的モデルを得るステップと、
前記テストデータを用いて前記一時的モデルを検証し、検証が通過したか否かを判断するステップと、
検証が通過すれば、前記一時的モデルを前記顔特徴点検出モデルとして表記するステップとを含む、請求項1に記載のデータ検出方法。
【請求項5】
前記予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出するステップは、
予め設定された対称点分類方法によって、前記複数の顔特徴点を、それぞれが前記証明書画像の一辺と平行な同一の対称軸に対して対称である対称特徴点と、非対称特徴点とに分割するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、全ての対称特徴点の中心である第1のクラスタサブ中心と、全ての非対称特徴点の中心である第2のクラスタサブ中心とをそれぞれ算出するステップと、
前記第1のクラスタサブ中心と前記第2のクラスタサブ中心とを結ぶ線の中点位置を前記複数の顔特徴点のクラスタ中心位置として表記するステップとを含む、請求項1に記載のデータ検出方法。
【請求項6】
前記予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の前記指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、前記基準矩形と基準中心位置がマークされた標準証明書画像部を呼び出すステップの前に、
タイプが前記指定の証明書タイプである、予め収集された前記標準姿勢で配置された基準証明書画像部を取得するステップと、
前記基準証明書画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の基準顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の基準顔特徴点のクラスタ中心位置を算出し、基準中心位置として表記するステップと、
前記複数の基準顔特徴点の最小外接矩形を生成し、前記複数の基準顔特徴点がいずれも内部にある基準矩形として表記するステップと、
前記基準矩形と前記基準中心位置がマークされた前記基準証明書画像部を前記標準証明書画像部として表記するステップとを含む、請求項1に記載のデータ検出方法。
【請求項7】
前記予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の前記指定の証明書タイプを取得するステップは、
予め設定された文字認識技術により、前記指定の証明書画像部を認識して、文字テキストを得るステップと、
前記文字テキストと予め記憶された複数の基準テキストとの類似度の値Simを、以下の式により算出するステップと、
<数式>
(ここで、Pは前記文字テキストの用語頻度ベクトルであり、Kは前記基準テキストの用語頻度ベクトルであり、Piは前記文字テキストにおけるi番目の単語が現れる回数であり、Kiは前記基準テキストにおけるi番目の単語が現れる回数である)
対応する類似度の値が他の基準テキストに対応する類似度の値よりも大きい指定の基準テキストを取得するステップと、
予め設定された指定の証明書画像部文字テキスト-指定の基準テキスト-証明書タイプの対応関係に基づいて、前記指定の証明書画像部に対応する前記指定の証明書タイプを取得するステップとを含む、請求項1に記載のデータ検出方法。
【請求項8】
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得する指定の証明書画像部取得ユニットと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得する姿勢修正ユニットと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出する顔特徴点取得ユニットと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するクラスタ中心位置算出ユニットと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の前記指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出す標準証明書画像部呼出ユニットと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するスケールアップ・スケールダウン後の画像部取得ユニットと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得する重なり部分取得ユニットと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記する証明書本体表記ユニットとを含む、データ検出装置。
画像部画像部
【請求項9】
コンピュータ読み取り可能な命令が記憶されているメモリと、前記コンピュータ読み取り可能な命令を実行すると、データ検出方法を実現するプロセッサとを含むコンピュータ機器であって、
前記データ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の前記指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む、コンピュータ機器。
画像部画像部画像部画像部画像部画像部画像部画像部画像部画像部画像部画像部画像部
【請求項10】
プロセッサによって実行されると、データ検出方法を実現するコンピュータ読み取り可能な命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記データ検出方法は、
顔画像を含み、証明書画像が矩形状を呈する指定の証明書画像部を取得するステップと、
予め設定された姿勢修正方法によって、前記指定の証明書画像部を予め設定された標準姿勢で配置されるように修正して、中間画像部を取得するステップと、
前記中間画像部を予め設定された顔特徴点検出モデルに入力して、前記顔特徴点検出モデルが出力する複数の顔特徴点を算出するステップと、
予め設定されたクラスタリングアルゴリズムを用いて、前記複数の顔特徴点のクラスタ中心位置を算出し、前記複数の顔特徴点がいずれも内部にある、前記複数の顔特徴点の最小外接矩形を生成するステップと、
予め設定された証明書タイプ取得方法によって、前記指定の証明書画像部の前記指定の証明書タイプを取得し、かつ予め設定されたデータベースから、タイプが前記指定の証明書タイプであり、基準矩形と基準中心位置がマークされ、証明書画像で埋めている標準証明書画像部を呼び出すステップと、
前記基準矩形の面積が前記最小外接矩形の面積と等しくなるように前記標準証明書画像部をスケールアップ・スケールダウンして、スケールアップ・スケールダウン後の画像部を取得するステップと、
前記スケールアップ・スケールダウン後の画像部における基準中心位置と前記中間画像部におけるクラスタ中心位置とが重なるように前記スケールアップ・スケールダウン後の画像部と前記標準証明書画像部とをパンによって重ねて、前記中間画像部における重なり部分を取得するステップと、
前記中間画像部における前記重なり部分を前記指定の証明書画像部の証明書本体として表記するステップとを含む、コンピュータ読み取り可能な記憶媒体。
【国際調査報告】