(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-21
(54)【発明の名称】画像認識方法、装置及び機器
(51)【国際特許分類】
G06T 7/00 20170101AFI20240614BHJP
【FI】
G06T7/00 Q
G06T7/00 350B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023577248
(86)(22)【出願日】2022-03-28
(85)【翻訳文提出日】2023-12-13
(86)【国際出願番号】 CN2022083509
(87)【国際公開番号】W WO2023123714
(87)【国際公開日】2023-07-06
(31)【優先権主張番号】202111625658.8
(32)【優先日】2021-12-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】523461335
【氏名又は名称】モメンタ(スージョウ)テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】MOMENTA (SUZHOU) TECHNOLOGY CO., LTD.
【住所又は居所原語表記】23rd Floor, Tiancheng Times Business Square, 58 Qinglonggang Rd, High Speed Railway New Town, Xiangcheng District Suzhou, Jiangsu
(74)【代理人】
【識別番号】110000648
【氏名又は名称】弁理士法人あいち国際特許事務所
(72)【発明者】
【氏名】王 晋▲ウェイ▼
(72)【発明者】
【氏名】李 源
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA08
5L096BA18
5L096CA01
5L096FA32
5L096FA66
5L096HA13
5L096JA28
5L096KA04
5L096KA15
(57)【要約】
【課題】本発明は、画像認識方法、装置及び機器を提供する。
【解決手段】当該方法では、所定目標の複数の認識すべき画像を取得した後、当該複数の認識すべき画像に対して第1回の画像認識を行うことで、複数の認識結果ベクトルを取得し、更に、当該複数の認識結果ベクトルを、上記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて上記複数の認識すべき画像の品質を特定するための所定の画像品質判断モデルに入力し、それによって当該品質に基づいて第2回の画像認識を行う。即ち、画像認識を行う際に、認識すべき画像の品質を考慮し、画像認識に検出漏れが存在して認識結果の正確率が低いという従来の問題を解決する。また、本発明の実施例では、画像認識の正確率が向上したため、関係者が認識結果に基づいて正しい処理をタイムリーに行い、実際の応用ニーズを満たすことができる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
画像認識方法であって、
所定目標の複数の認識すべき画像を取得するステップと、
前記複数の認識すべき画像に基づいて第1回の画像認識を行い、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得するステップと、
前記複数の認識結果ベクトルを、前記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて前記複数の認識すべき画像の品質を特定するための所定の画像品質判断モデルに入力するステップと、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うステップと、を含むことを特徴とする画像認識方法。
【請求項2】
前記複数の認識結果ベクトルを所定の画像品質判断モデルに入力する前に、
複数の参照画像を取得し、前記複数の参照画像に対して第1回の画像認識を行い、前記複数の参照画像に対応する複数の認識結果ベクトルを取得するステップと、
前記複数の参照画像に対応する複数の認識結果ベクトルのうちの何れか1つの認識結果ベクトルである認識結果ベクトルF
i(ここで、i=1,...,Nであり、且つNは前記複数の参照画像に対応する複数の認識結果ベクトルの数を表す)と、前記複数の参照画像に対応する複数の認識結果ベクトルのうちの前記認識結果ベクトルF
i以外の各認識結果ベクトルとのベクトル距離を特定するステップと、
トレーニング済の初期画像品質判断モデルの損失関数の値が所定要求を満たすように、前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングするステップと、
トレーニング済の初期画像品質判断モデルに基づいて、前記所定の画像品質判断モデルを取得するステップと、を更に含み、
前記損失関数の値は、前記複数の参照画像の予測品質と前記複数の参照画像の実際品質とに基づいて特定されたものであり、前記複数の参照画像の予測品質は、前記ベクトル距離に基づいて特定されたものであることを特徴とする請求項1に記載の画像認識方法。
【請求項3】
前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングする前に、
前記ベクトル距離のうちの最小距離を取得するステップと、
前記最小距離が所定距離閾値よりも大きいか否かを判断するステップと、を更に含み、
前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングするステップは、
前記最小距離が前記所定距離閾値以下である場合に、前記ベクトル距離に基づいて前記初期画像品質判断モデルをトレーニングすることを含むことを特徴とする請求項2に記載の画像認識方法。
【請求項4】
前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングするステップは、
前記ベクトル距離のうちの最小距離を取得し、予め格納されたネガティブサンプルペア距離の平均値と前記認識結果ベクトルF
iに対応するベクトル距離との第1差分、及び、前記距離の平均値と前記最小距離との第2差分を算出することと、
前記第1差分及び前記第2差分に基づいて、前記初期画像品質判断モデルをトレーニングすることと、を含み、
前記複数の参照画像の予測品質は、前記第1差分及び前記第2差分に基づいて特定されたものであることを特徴とする請求項2に記載の画像認識方法。
【請求項5】
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行う前に、
前記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行うステップを更に含み、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うステップは、
評価が通った場合に、前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うことを含むことを特徴とする請求項1~4の何れか一項に記載の画像認識方法。
【請求項6】
前記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行うステップは、
前記複数の認識すべき画像の品質に基づいて、前記複数の認識すべき画像のうちのフィルタリングすべき画像を特定することと、
前記複数の認識すべき画像のうちのポジティブサンプル画像に基づいて、フィルタリング前のポジティブサンプルの割合を特定し、前記フィルタリングすべき画像に基づいてフィルタリング割合を特定することと、
前記フィルタリング前のポジティブサンプルの割合に基づいて、フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線を特定することと、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線に基づいて、前記画像品質判断の評価を行うことと、を含むことを特徴とする請求項5に記載の画像認識方法。
【請求項7】
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線に基づいて、前記画像品質判断の評価を行うことは、
予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線を取得することと、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線、並びに、前記予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線に基づいて、評価指標値を特定することと、
前記評価指標値が所定評価閾値よりも大きい場合に、評価が通ったと特定することと、を含むことを特徴とする請求項6に記載の画像認識方法。
【請求項8】
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うステップは、
前記複数の認識すべき画像の品質及び所定品質要求に基づいて、前記複数の認識すべき画像から目標画像を取得することと、
前記目標画像に基づいて第2回の画像認識を行うことと、を含むことを特徴とする請求項1~4の何れか一項に記載の画像認識方法。
【請求項9】
画像認識装置であって、
所定目標の複数の認識すべき画像を取得するための画像取得モジュールと、
前記複数の認識すべき画像に基づいて第1回の画像認識を行い、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得するための第1画像認識モジュールと、
前記複数の認識結果ベクトルを、前記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて前記複数の認識すべき画像の品質を特定するための所定の画像品質判断モデルに入力するための品質特定モジュールと、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うための第2画像認識モジュールと、を備えることを特徴とする画像認識装置。
【請求項10】
前記品質特定モジュールは、更に、
複数の参照画像を取得し、前記複数の参照画像に対して第1回の画像認識を行い、前記複数の参照画像に対応する複数の認識結果ベクトルを取得し、
前記複数の参照画像に対応する複数の認識結果ベクトルのうちの何れか1つの認識結果ベクトルである認識結果ベクトルF
i(ここで、i=1,...,Nであり、且つNは前記複数の参照画像に対応する複数の認識結果ベクトルの数を表す)と、前記複数の参照画像に対応する複数の認識結果ベクトルのうちの前記認識結果ベクトルF
i以外の各認識結果ベクトルとのベクトル距離を特定し、
トレーニング済の初期画像品質判断モデルの損失関数の値が所定要求を満たすように、前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングし、
トレーニング済の初期画像品質判断モデルに基づいて、前記所定の画像品質判断モデルを取得し、
前記損失関数の値は、前記複数の参照画像の予測品質と前記複数の参照画像の実際品質とに基づいて特定されたものであり、前記複数の参照画像の予測品質は、前記ベクトル距離に基づいて特定されたものであることを特徴とする請求項9に記載の画像認識装置。
【請求項11】
前記品質特定モジュールは、更に、
前記ベクトル距離のうちの最小距離を取得し、
前記最小距離が所定距離閾値よりも大きいか否かを判断し、
前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングすることは、
前記最小距離が前記所定距離閾値以下である場合に、前記ベクトル距離に基づいて前記初期画像品質判断モデルをトレーニングすることを含むことを特徴とする請求項10に記載の画像認識装置。
【請求項12】
前記品質特定モジュールは、
前記ベクトル距離のうちの最小距離を取得し、予め格納されたネガティブサンプルペア距離の平均値と前記認識結果ベクトルF
iに対応するベクトル距離との第1差分、及び、前記距離の平均値と前記最小距離との第2差分を算出し、
前記第1差分及び前記第2差分に基づいて、前記初期画像品質判断モデルをトレーニングし、
前記複数の参照画像の予測品質は、前記第1差分及び前記第2差分に基づいて特定されたものであることを特徴とする請求項10に記載の画像認識装置。
【請求項13】
前記第2画像認識モジュールは、更に、
前記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行い、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うことは、
評価が通った場合に、前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うことを含むことを特徴とする請求項9~12の何れか一項に記載の画像認識装置。
【請求項14】
前記第2画像認識モジュールは、
前記複数の認識すべき画像の品質に基づいて、前記複数の認識すべき画像のうちのフィルタリングすべき画像を特定し、
前記複数の認識すべき画像のうちのポジティブサンプル画像に基づいて、フィルタリング前のポジティブサンプルの割合を特定し、前記フィルタリングすべき画像に基づいてフィルタリング割合を特定し、
前記フィルタリング前のポジティブサンプルの割合に基づいて、フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線を特定し、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線に基づいて、前記画像品質判断の評価を行うことを特徴とする請求項13に記載の画像認識装置。
【請求項15】
前記第2画像認識モジュールは、
予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線を取得し、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線、並びに、前記予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線に基づいて、評価指標値を特定し、
前記評価指標値が所定評価閾値よりも大きい場合に、評価が通ったと特定することを特徴とする請求項14に記載の画像認識装置。
【請求項16】
前記第2画像認識モジュールは、
前記複数の認識すべき画像の品質及び所定品質要求に基づいて、前記複数の認識すべき画像から目標画像を取得し、
前記目標画像に基づいて第2回の画像認識を行うことを特徴とする請求項9~12の何れか一項に記載の画像認識装置。
【請求項17】
画像認識機器であって、
プロセッサと、
メモリと、
コンピュータプログラムと、含み、
前記コンピュータプログラムは、前記メモリに記憶され、且つ前記プロセッサによって実行されるように構成され、前記コンピュータプログラムは、請求項1~8の何れか一項に記載の画像認識方法を実行するための指令を含むことを特徴とする画像認識機器。
【請求項18】
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体には、指令が記憶され、
前記指令がコンピュータで実行されたときに、前記コンピュータは、請求項1~8の何れか一項に記載の画像認識方法を実施することを特徴とするコンピュータ可読記憶媒体。
【請求項19】
コンピュータプログラム製品であって、
前記コンピュータプログラム製品がコンピュータで実行されたときに、前記コンピュータは、請求項1~8の何れか一項に記載の画像認識方法を実施することを特徴とするコンピュータプログラム製品。
【発明の詳細な説明】
【発明の詳細な説明】
【0001】
(関連出願)
本願は、2021年12月28日に中国専利局へ提出された、出願番号が202111625658.8であって発明の名称が「画像認識方法、装置及び機器」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
【技術分野】
【0002】
本発明は、画像処理の技術分野に関し、特に画像認識方法、装置及び機器に関する。
【背景技術】
【0003】
画像認識技術は、画像に含まれる対象の関連情報を認識することができ、例えば、人物の顔画像を認識することにより、当該人物の一部の情報を特定することができる。そのため、経済的な発展に伴い、画像認識技術の応用は、ますます広くなり、例えば、顔認識は、防犯、車載、金融等の分野に応用されている。
【0004】
その中、車載分野の多くの車種は、顔認識機能を搭載し、所有者にカスタマイズ化サービスを提供し、例えば、顔認識によって運転者の挙動を特定することにより、運転者の挙動が車両の安全な走行に不利であると特定したときに、タイムリーに対処して、運転者の挙動が車両の安全な走行に与える影響をできるだけ低減する。
【0005】
しかし、画像認識、例えば顔認識、カメラによるデータのキャプチャ時に、取得された顔画像には、明るすぎ、暗すぎ、ぼかし等の問題および遮蔽、頭部姿勢が大きすぎる等の問題があり、顔の画像品質が悪い(これらの品質が悪い画像をまとめて低品質画像と呼んでもよい)。後続の顔認識において、低品質画像を使用すると、多くの検出漏れ(False Negative、FN)を引き起こす可能性があり、認識結果の正確率が低いため、関係者は、認識結果に基づいて正しい処理を行うことができない。例えば、車載分野において、車両の安全走行に不利である運転者の挙動を顔認識によって検出する正確率が低く、車両に事故が発生する確率を大幅に増加させる。
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来技術に存在する問題を解決すべく、本発明は、画像認識方法、装置及び機器を提供する。
【課題を解決するための手段】
【0007】
第1態様において、本発明の実施例は、画像認識方法を提供する。前記画像認識方法は、
所定目標の複数の認識すべき画像を取得するステップと、
前記複数の認識すべき画像に基づいて第1回の画像認識を行い、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得するステップと、
前記複数の認識結果ベクトルを、前記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて前記複数の認識すべき画像の品質を特定するための所定の画像品質判断モデルに入力するステップと、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うステップと、を含む。
【0008】
1種の可能な実現形態において、前記複数の認識結果ベクトルを所定の画像品質判断モデルに入力する前に、
複数の参照画像を取得し、前記複数の参照画像に対して第1回の画像認識を行い、前記複数の参照画像に対応する複数の認識結果ベクトルを取得するステップと、
前記複数の参照画像に対応する複数の認識結果ベクトルのうちの何れか1つの認識結果ベクトルである認識結果ベクトルFi(ここで、i=1,...,Nであり、且つNは前記複数の参照画像に対応する複数の認識結果ベクトルの数を表す)と、前記複数の参照画像に対応する複数の認識結果ベクトルのうちの前記認識結果ベクトルFi以外の各認識結果ベクトルとのベクトル距離を特定するステップと、
トレーニング済の初期画像品質判断モデルの損失関数の値が所定要求を満たすように、前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングするステップと、
トレーニング済の初期画像品質判断モデルに基づいて、前記所定の画像品質判断モデルを取得するステップと、を更に含み、
前記損失関数の値は、前記複数の参照画像の予測品質と前記複数の参照画像の実際品質とに基づいて特定されたものであり、前記複数の参照画像の予測品質は、前記ベクトル距離に基づいて特定されたものである。
【0009】
1種の可能な実現形態において、前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングする前に、
前記ベクトル距離のうちの最小距離を取得するステップと、
前記最小距離が所定距離閾値よりも大きいか否かを判断するステップと、を更に含み、
前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングするステップは、
前記最小距離が前記所定距離閾値以下である場合に、前記ベクトル距離に基づいて前記初期画像品質判断モデルをトレーニングすることを含む。
【0010】
1種の可能な実現形態において、前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングするステップは、
前記ベクトル距離のうちの最小距離を取得し、予め格納されたネガティブサンプルペア距離の平均値と前記認識結果ベクトルFiに対応するベクトル距離との第1差分、及び、前記距離の平均値と前記最小距離との第2差分を算出することと、
前記第1差分及び前記第2差分に基づいて、前記初期画像品質判断モデルをトレーニングすることと、を含み、
前記複数の参照画像の予測品質は、前記第1差分及び前記第2差分に基づいて特定されたものである。
【0011】
1種の可能な実現形態において、前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行う前に、
前記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行うステップを更に含み、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うステップは、
評価が通った場合に、前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うことを含む。
【0012】
1種の可能な実現形態において、前記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行うステップは、
前記複数の認識すべき画像の品質に基づいて、前記複数の認識すべき画像のうちのフィルタリングすべき画像を特定することと、
前記複数の認識すべき画像のうちのポジティブサンプル画像に基づいて、フィルタリング前のポジティブサンプルの割合を特定し、前記フィルタリングすべき画像に基づいてフィルタリング割合を特定することと、
前記フィルタリング前のポジティブサンプルの割合に基づいて、フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線を特定することと、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線に基づいて、前記画像品質判断の評価を行うことと、を含む。
【0013】
1種の可能な実現形態において、前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線に基づいて、前記画像品質判断の評価を行うことは、
予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線を取得することと、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線、並びに、前記予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線に基づいて、評価指標値を特定することと、
前記評価指標値が所定評価閾値よりも大きい場合に、評価が通ったと特定することと、を含む。
【0014】
1種の可能な実現形態において、前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うステップは、
前記複数の認識すべき画像の品質及び所定品質要求に基づいて、前記複数の認識すべき画像から目標画像を取得することと、
前記目標画像に基づいて第2回の画像認識を行うことと、を含む。
【0015】
1種の可能な実現形態において、前記複数の認識すべき画像に基づいて第1回の画像認識を行い、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得するステップは、
前記複数の認識すべき画像を、画像を入力して認識結果ベクトルを出力する所定の画像認識モデルに入力することと、
前記所定の画像認識モデルの出力に基づいて、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得することと、を含む。
【0016】
第2態様において、本発明の実施例は、画像認識装置を提供する。前記画像認識装置は、
所定目標の複数の認識すべき画像を取得するための画像取得モジュールと、
前記複数の認識すべき画像に基づいて第1回の画像認識を行い、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得するための第1画像認識モジュールと、
前記複数の認識結果ベクトルを、前記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて前記複数の認識すべき画像の品質を特定するための所定の画像品質判断モデルに入力するための品質特定モジュールと、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うための第2画像認識モジュールと、を備える。
【0017】
1種の可能な実現形態において、前記品質特定モジュールは、更に、
複数の参照画像を取得し、前記複数の参照画像に対して第1回の画像認識を行い、前記複数の参照画像に対応する複数の認識結果ベクトルを取得し、
前記複数の参照画像に対応する複数の認識結果ベクトルのうちの何れか1つの認識結果ベクトルである認識結果ベクトルFi(ここで、i=1,...,Nであり、且つNは前記複数の参照画像に対応する複数の認識結果ベクトルの数を表す)と、前記複数の参照画像に対応する複数の認識結果ベクトルのうちの前記認識結果ベクトルFi以外の各認識結果ベクトルとのベクトル距離を特定し、
トレーニング済の初期画像品質判断モデルの損失関数の値が所定要求を満たすように、前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングし、
トレーニング済の初期画像品質判断モデルに基づいて、前記所定の画像品質判断モデルを取得し、
前記損失関数の値は、前記複数の参照画像の予測品質と前記複数の参照画像の実際品質とに基づいて特定されたものであり、前記複数の参照画像の予測品質は、前記ベクトル距離に基づいて特定されたものである。
【0018】
1種の可能な実現形態において、前記品質特定モジュールは、更に、
前記ベクトル距離のうちの最小距離を取得し、
前記最小距離が所定距離閾値よりも大きいか否かを判断し、
前記最小距離が前記所定距離閾値以下である場合に、前記ベクトル距離に基づいて前記初期画像品質判断モデルをトレーニングする。
【0019】
1種の可能な実現形態において、前記品質特定モジュールは、具体的に、
前記ベクトル距離のうちの最小距離を取得し、予め格納されたネガティブサンプルペア距離の平均値と前記認識結果ベクトル に対応するベクトル距離との第1差分、及び、前記距離の平均値と前記最小距離との第2差分を算出し、
前記第1差分及び前記第2差分に基づいて、前記初期画像品質判断モデルをトレーニングし、
前記複数の参照画像の予測品質は、前記第1差分及び前記第2差分に基づいて特定されたものである。
【0020】
1種の可能な実現形態において、前記第2画像認識モジュールは、更に、
前記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行い、
評価が通った場合に、前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行う。
【0021】
1種の可能な実現形態において、前記第2画像認識モジュールは、具体的に、
前記複数の認識すべき画像の品質に基づいて、前記複数の認識すべき画像のうちのフィルタリングすべき画像を特定し、
前記複数の認識すべき画像のうちのポジティブサンプル画像に基づいて、フィルタリング前のポジティブサンプルの割合を特定し、前記フィルタリングすべき画像に基づいてフィルタリング割合を特定し、
前記フィルタリング前のポジティブサンプルの割合に基づいて、フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線を特定し、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線に基づいて、前記画像品質判断の評価を行う。
【0022】
1種の可能な実現形態において、前記第2画像認識モジュールは、具体的に、
予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線を取得し、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線、並びに、前記予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線に基づいて、評価指標値を特定し、
前記評価指標値が所定評価閾値よりも大きい場合に、評価が通ったと特定する。
【0023】
1種の可能な実現形態において、前記第2画像認識モジュールは、具体的に、
前記複数の認識すべき画像の品質及び所定品質要求に基づいて、前記複数の認識すべき画像から目標画像を取得し、
前記目標画像に基づいて第2回の画像認識を行う。
【0024】
1種の可能な実現形態において、前記第1画像認識モジュールは、具体的に、
前記複数の認識すべき画像を、画像を入力して認識結果ベクトルを出力する所定の画像認識モデルに入力し、
前記所定の画像認識モデルの出力に基づいて、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得する。
【0025】
第3態様において、本発明の実施例は、画像認識機器を提供する。当該画像認識機器は、
プロセッサと、
メモリと、
コンピュータプログラムと、含み、
前記コンピュータプログラムは、前記メモリに記憶され、且つ前記プロセッサによって実行されるように構成され、前記コンピュータプログラムは、第1態様に記載の画像認識方法を実行するための指令を含む。
【0026】
第4態様において、本発明の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムにより、サーバは、第1態様に記載の画像認識方法を実施する。
【0027】
第5態様において、本発明の実施例は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータ指令を含み、前記コンピュータ指令がプロセッサによって実行されたときに、第1態様に記載の画像認識方法は、実施される。
【発明の効果】
【0028】
本発明の実施例に関わる画像認識方法、装置及び機器では、当該方法において所定目標の複数の認識すべき画像を取得した後、当該複数の認識すべき画像に対して第1回の画像認識を行うことにより、複数の認識結果ベクトルを取得し、更に、当該複数の認識結果ベクトルを、上記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて上記複数の認識すべき画像の品質を特定するための所定の画像品質判断モデルに入力し、それによって当該品質に基づいて第2回の画像認識を行う。即ち、画像認識を行う際に、認識すべき画像の品質を考慮し、画像認識に検出漏れが存在して認識結果の正確率が低いという従来の問題を解決する。また、本発明の実施例では、画像認識の正確率が向上したため、関係者が認識結果に基づいて正しい処理をタイムリーに行い、実際の応用ニーズを満たすことができる。
【0029】
本発明の実施例又は従来技術における技術案をより明確に説明するために、以下に実施例又は従来技術に使用必要な図面を簡単に紹介する。明らかに、以下に説明する図面は本発明の幾つかの実施例に過ぎず、当業者にとって、進歩性に値する労働を掛けずに、これらの図面から他の図面を取得することができる。
【図面の簡単な説明】
【0030】
【
図1】本発明の実施例に関わる画像認識システムのアーキテクチャの模式図である。
【
図2】本発明の実施例に関わる画像認識方法の模式的なフローチャートである。
【
図3】本発明の実施例に関わる別の画像認識方法の模式的なフローチャートである。
【
図4】本発明の実施例に関わるフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線の模式図である。
【
図5】本発明の実施例に関わる画像認識装置の構造模式図である。
【
図6】本発明の実施例に関わる画像認識機器の基本ハードウェアアーキテクチャの模式図である。
【発明を実施するための形態】
【0031】
以下では、本発明の実施例における図面を参照しながら、本発明の実施例における技術案を明瞭且つ完全に記述する。明らかに、記述される実施例は、本発明の一部の実施例に過ぎず、全部の実施例ではない。当業者が本発明における実施例に基づいて進歩性に値する労働を掛けずになした全ての他の実施例は、何れも本発明の保護範囲に含まれる。
【0032】
本発明の明細書及び特許請求の範囲、並びに上記図面における用語「第1」、「第2」、「第3」及び「第4」等(存在すれば)は、特定の順序又は順序を記述するためのものではなく、類似する対象を区別するためのものである。このようにして使用されるデータは、適宜、交換可能であり、ここで説明される本出願の実施例は、ここで図示または記述されたそれ以外の順序で実施することができる。また、「含む」及び「有する」並びにそれらの任意の変形は、非排他的な包含をカバーすることを意図し、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、必ずしも明確に列挙されたそれらのステップ又はユニットに限定されず、明確に示されていない又はこれらのプロセス、方法、製品又は装置に固有の他のステップ又はユニットを含んでもよい。
【0033】
知能化されつつある昨今では、画像認識が複数の分野に適用されており、顔認識を例として、顔認識は、防犯、車載、金融等の分野に適用されている。車載分野の多くの車種は、この機能を搭載し、所有者にカスタマイズ化サービスを提供する。しかし、カメラがデータをキャプチャする際に、幾つかの画像は、例えば、明るすぎる、暗すぎたり、ぼかしたり、遮蔽したり、頭部の姿勢が大きすぎたりする等、顔認識に向いておらず、顔の画像品質を悪くする(これらの品質が悪い画像をまとめて低品質画像と呼んでもよい)。
【0034】
大量のテストを経て分かるように、低品質画像が後続の顔認識に関与すると、多くのFNが齎され、認識結果の正確率は、低い。例えば、車両運転分野において、低品質画像により、車両の安全走行に不利である運転者の挙動を顔認識によって検出する正確率が低く、車両に事故が発生する確率を大幅に増加させる。
【0035】
上記問題を解決すべく、本発明の実施例は、画像認識方法を提供する。当該画像認識方法では、認識すべき画像の品質を考慮し、認識すべき画像の品質に基づいて画像認識を行い、画像認識に検出漏れが存在して認識結果の正確率が低いという従来の問題を解決し、更に、関係者が認識結果に基づいて正しい処理をタイムリーに行うことができるようにし、応用ニーズが満たされる。
【0036】
選択可能に、本発明の実施例に関わる画像認識方法は、
図1に示す画像認識システムに適用可能である。
図1において、画像認識によって運転者の視線が正常であるか否かを特定することを例とすると、当該画像認識システムアーキテクチャは、処理装置11及び複数の取得手段を含んでもよい。ここで、当該複数の取得手段は、第1取得手段12及び第2取得手段13を例とする。第1取得手段12は、第1車両内に配備されてもよく、第2取得手段13は、第2車両内に配備されてもよい。第1取得手段12は、第1車両中の運転者のデータ、例えば運転者の顔画像を取得する。同様な理由にて、第2取得手段13は、第2車両中の運転者のデータを取得する。例示として、第1取得手段12及び第2取得手段13は、カメラであってもよい。
【0037】
理解できるように、本願の実施例に示される構造は、画像認識アーキテクチャの具体的な制限とならない。本発明の他の幾つかの実現可能な実施形態において、上記アーキテクチャは、図示より多い又は少ない部品を含んでもよく、又は幾つかの部品を組み合わせたり、幾つかの部品を分割したり、異なる部品配置を行ったりしてもよく、具体的に実際の応用シーンに応じて決定してもよく、ここでは限定しない。
図1に示される構成要素は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアの組合せによって実装されてもよい。
【0038】
具体的な実現過程において、上記第1取得手段12は、第1車両の運転者が車両に進入して運転を開始した後、第1車両における運転者の顔画像を取得し、取得された画像を処理装置11に送信してもよい。同様に、上記第2取得手段13は、第2車両の運転者が車両に進入して運転を開始した後、第2車両における運転者の顔画像を取得し、取得された画像を処理装置11に送信してもよい。
【0039】
処理装置11は、上記第1取得手段12及び第2取得手段13から送信された運転者の顔画像を受信した後、これらの顔画像の品質を特定することにより、画像の品質に基づいて画像認識、即ち顔認識を行い、第1車両上及び第2車両上の運転者の視線が正常であるか否かを特定する。認識結果の正確率が高いため、関係者は、認識結果に基づいて正しい処理を行う。
【0040】
また、上記アーキテクチャは、運転者の視線が正常でないと判断されたときに、運転者にリマインドを行うリマインド手段を更に含んでもよい。上記リマインド手段は、車両内に設けられてもよく、例えば、上記アーキテクチャが2つのリマインド手段を含むことを例として、上記第1車両及び第2車両にそれぞれ1つのリマインド手段が設けられてる。上記処理装置11は、上記顔認識結果に基づいて第1車両及び第2車両における運転者状態を判断し、第1車両における運転者の視線が正常でないと判断した場合に、リマインド情報を第1車両におけるリマインド手段に送信してもよい。第1車両におけるリマインド手段は、上記リマインド情報に基づいて運転者に注意を喚起し、例えば、上記リマインド情報を音声で再生する。
【0041】
上記アーキテクチャは、上記運転者の画像及び認識結果等を表示するための表示手段を更に含んでもよい。
【0042】
表示手段は、ユーザとのインタラクションが実現できるように、表示された上記内容と同時にユーザ指令を受信するためのタッチディスプレイスクリーンであってもよい。
【0043】
処理装置は、プロセッサがメモリ内の指令を読み出して指令を実行することによって実装されてもよく、チップ回路によって実装されてもよいことを理解されたい。
【0044】
上記システムは、例示的なシステムであり、具体的に実施する際に、応用ニーズに応じて設置されてもよい。
【0045】
理解できるように、本発明の実施例において記述されるシステムアーキテクチャは、本発明の実施例の技術案をより明確に説明するためのものであり、本発明の実施例に関わる技術案を制限するものではない。当業者であれば分かるように、システムアーキテクチャの進化と新たなサービスシーンの出現に伴い、本発明の実施例に関わる技術案は、類似する技術課題について、同様に適用可能である。
【0046】
以下では、幾つかの実施例を例として本発明の技術案を説明する。同一又は類似する概念又はプロセスについては、幾つかの実施例において説明を省略することがある。
【0047】
図2は、本発明の実施例に関わる画像認識方法の模式的なフローチャートである。本実施例の実行主体は、
図1における処理装置であってもよく、具体的な実行主体は、実際の応用シーンに応じて特定されてもよい。本発明の実施例では、これについて限定しない。
図2に示すように、本発明の実施例に関わる画像認識方法は、以下のステップS201~S204を含んでもよい。
【0048】
S201では、所定目標の複数の認識すべき画像を取得する。
上記所定目標は、実際の状況に応じて特定されてもよく、例えば上記
図1における第1車両中の運転者である。
ここで、上記処理装置は、取得手段(例えば、カメラ)を介して上記所定目標の複数の認識すべき画像を取得してもよい。例えば、当該複数の認識すべき画像の数は、N個であり、上記複数の認識すべき画像は、I
1...I
Nと示されてもよい。
【0049】
S202では、上記複数の認識すべき画像に基づいて第1回の画像認識を行い、上記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得する。
【0050】
例示として、上記処理装置は、上記複数の認識すべき画像を所定の画像認識モデルに入力してもよい。ここで、当該所定の画像認識モデルは、画像を入力して認識結果ベクトルを出力する。更に、上記処理装置は、上記所定の画像認識モデルの出力に基づいて、上記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得する。
【0051】
上記処理装置は、使用回数が多い画像認識モデルを上記所定の画像認識モデルとして取得してもよく、例えば、使用回数が所定回数閾値を超える画像認識モデルを上記所定の画像認識モデルとして取得する。ここで、上記所定回数閾値は、実際の状況に応じて特定されてもよく、例えば100回である。
【0052】
上記処理装置は、上記画像I1...INを上記所定の画像認識モデルに入力し、上記画像I1...INに対応する複数の認識結果ベクトルを取得し、当該複数の認識結果は、F1...FNと記されてもよい。
【0053】
S203では、上記複数の認識結果ベクトルを所定の画像品質判断モデルに入力し、当該画像品質判断モデルは、上記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて上記複数の認識すべき画像の品質を特定するために用いられる。
【0054】
本発明の実施例において、上記処理装置は、複数の参照画像を取得し、当該複数の参照画像に対して第1回の画像認識を行い、上記複数の参照画像に対応する複数の認識結果ベクトルを取得してから、各認識結果ベクトルと残りの各認識結果ベクトルとのベクトル距離をそれぞれ特定し、例えば、認識結果ベクトルFiと残りの各認識結果ベクトルとのベクトル距離を特定する。ここで、認識結果ベクトルFiと残りの各認識結果ベクトルとのベクトル距離は、複数あり、上記処理装置は、当該複数のベクトル距離の平均値を算出して当該平均値を上記認識結果ベクトルFiと残りの各認識結果ベクトルとのベクトル距離とし、且つそれをDiと記してもよい。
【0055】
更に、上記処理装置は、トレーニング済の初期画像品質判断モデルの損失関数の値が所定要求を満たすように、上記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングしてもよい。ここで、当該損失関数の値は、上記複数の参照画像の予測品質及び上記複数の参照画像の実際品質に基づいて特定されたものであり、上記複数の参照画像の予測品質は、上記ベクトル距離に基づいて特定されたものである。これにより、トレーニング済の初期画像品質判断モデルに基づいて、上記所定の画像品質判断モデルを取得する。
【0056】
上記初期画像品質判断モデルは、上記複数の参照画像の予測品質を出力する。
【0057】
また、上記処理装置は、上記ベクトル距離Diのうちの最小距離Dmin=min(D1,D2...DN)を取得し、更に、当該最小距離が所定距離閾値よりも大きいか否かを判断してもよい。上記最小距離が上記所定距離閾値以下である場合に、上記処理装置は、上記ベクトル距離に基づいて上記初期画像品質判断モデルをトレーニングしてもよい。Dminが上記所定距離閾値よりも大きい場合に、上記複数の参照画像のうち、品質の非常に良い図が1枚もないことを意味し、又は真値が誤った場合に、上記画像について後続の処理をせずに廃棄してもよい。
【0058】
上記所定距離閾値は、実際の状況に応じて特定されてもよく、例えば複数の品質の良い画像に対応する認識結果ベクトルの間の距離の最小値に基づいて特定される。
【0059】
例示として、上記処理装置は、上記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングする際に、上記ベクトル距離のうちの最小距離を取得し、当該距離の平均値と上記認識結果ベクトルFiに対応するベクトル距離Diとの第1差分、及び、上記距離の平均値と上記最小距離Dminとの第2差分を算出してもよく、これにより、当該第1差分及び第2差分に基づいて上記初期画像品質判断モデルをトレーニングし、上記複数の参照画像の予測品質は、前記第1差分及び前記第2差分に基づいて特定されたものである。
【0060】
例えば、上記処理装置は、
【数1】
によって上記複数の参照画像の予測品質Q
iを特定する。ここで、
【数2】
は、予め格納されたネガティブサンプルペア距離の平均値を表す。ここで、当該ネガティブサンプルペア距離の平均値は、複数のネガティブサンプルに対応する認識結果ベクトルの間の距離を取得することで特定されてもよい。ネガティブサンプルは、下記のように理解されてもよい。つまり、上記所定目標が上記
図1における第1車両中の運転者であることを例とすると、ポジティブサンプルは、当該運転者の画像(例えば、顔画像)であり、ネガティブサンプルは、当該運転者の画像ではない。
【0061】
S204では、上記複数の認識すべき画像の品質に基づいて第2回の画像認識を行う。
【0062】
ここで、上記処理装置は、上記複数の認識すべき画像の品質を特定した後、上記複数の認識すべき画像の品質及び所定品質要求に基づいて、上記複数の認識すべき画像から目標画像を取得してもよく、これにより、当該目標画像に基づいて第2回の画像認識を行い、画像認識結果の正確率を向上させる。
【0063】
上記所定品質要求は、実際の状況に応じて特定されてもよく、例えば、上記複数の認識すべき画像の品質は、値Qiと示され、上記所定品質要求は、値Q’であってもよい。上記処理装置は、上記複数の認識すべき画像から、QiがQ’よりも大きい画像を上記目標画像として取得した後、当該目標画像に基づいて第2回の画像認識を行い、例えば、当該目標画像を上記所定の画像認識モデルに入力し、上記所定の画像認識モデルの出力に基づいて、上記目標画像に対応する複数の認識結果ベクトルを取得する。
【0064】
本発明の実施例では、所定目標の複数の認識すべき画像を取得した後、当該複数の認識すべき画像に対して第1回の画像認識を行うことにより、複数の認識結果ベクトルを取得し、更に、当該複数の認識結果ベクトルを所定の画像品質判断モデルに入力し、ここで、当該画像品質判断モデルが、上記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて上記複数の認識すべき画像の品質を特定するために用いられ、それによって当該品質に基づいて第2回の画像認識を行う。即ち、画像認識を行う際に、認識すべき画像の品質を考慮し、画像認識に検出漏れが存在して認識結果の正確率が低いという従来の問題を解決する。また、本発明の実施例では、画像認識の正確率が向上したため、関係者が認識結果に基づいて正しい処理をタイムリーに行い、実際の応用ニーズを満たすことができる。
【0065】
また、上記処理装置は、上記複数の認識すべき画像の品質に基づいて第2回の画像認識を行う前に、特定された上記複数の認識すべき画像の品質の正確性を保証するために、上記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行うことも考慮する。これにより、評価が通ったときこそ、後続の操作が実行されるため、更に画像認識結果の正確率が向上する。
図3は、本発明の実施例に関わる別の画像認識方法の模式的なフローチャートである。
図3に示すように、当該方法は、ステップS301~S305を含む。
【0066】
S301では、所定目標の複数の認識すべき画像を取得する。
【0067】
S302では、上記複数の認識すべき画像に基づいて第1回の画像認識を行い、上記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得する。
【0068】
S303では、上記複数の認識結果ベクトルを、上記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて上記複数の認識すべき画像の品質を特定するための所定の画像品質判断モデルに入力する。
【0069】
ステップS301-S303と上記ステップS201-S203との実現形態が同じであり、ここで繰り返し説明しない。
【0070】
S304では、上記複数の認識すべき画像の品質に基づいて、画像品質判断の評価を行う。
【0071】
例示として、上記処理装置は、上記複数の認識すべき画像の品質に基づいて、上記複数の認識すべき画像のうちのフィルタリングすべき画像を特定し、更に、上記複数の認識すべき画像のうちのポジティブサンプル画像に基づいて、フィルタリング前のポジティブサンプルの割合を特定し、且つ上記フィルタリングすべき画像に基づいてフィルタリング割合を特定することにより、上記フィルタリング前のポジティブサンプルの割合に基づいて、フィルタリング後のポジティブサンプルの割合及び上記フィルタリング割合の変化曲線を特定し、当該変化曲線に基づいて画像品質判断の評価を行ってもよい。
【0072】
ここで、上記処理装置は、上記複数の認識すべき画像のうちのフィルタリングすべき画像を特定する際に、上記複数の認識すべき画像のうち、品質が上記所定品質要求を満たさないもの、例えば、QiがQ’以下であるものを先に特定し、更に、QiがQ’以下であるものに基づいて、上記複数の認識すべき画像のうちのフィルタリングすべき画像を取得してもよい。
【0073】
ここで、上記処理装置が画像品質判断の評価を行うとき、低品質画像のフィルタリングがネガティブサンプル割合の変化を引き起こすため、評価において、ポジティブネガティブサンプル判断閾値を図示する方法を採用し、フィルタリング前後のポジティブサンプル割合変化を比較する。例えば、上記処理装置は、
【数3】
によってフィルタリング前のポジティブサンプルの割合t
0を特定する。ただし、tpは、上記複数の認識すべき画像のうちのポジティブサンプル画像の数を表し、Rpは、上記複数の認識すべき画像のうちの全てのサンプル画像の数を表す。
【0074】
更に、上記処理装置は、
【数4】
によってフィルタリング割合 を特定する。ただし、F
i-FNは、上記フィルタリングすべき画像の数を表す。
【0075】
上記処理装置は、
【数5】
によってフィルタリング後のポジティブサンプルの割合及び上記フィルタリング割合の変化曲線yを特定する。
【0076】
これにより、上記処理装置は、曲線yに基づいて上記画像品質判断の評価を行うことができる。
【0077】
上記曲線から、yがフィルタリング割合rの増大とともに増大することが分かるが、実際の状況は、そんなに理想ではない。したがって、上記処理装置は、曲線yに基づいて上記画像品質判断の評価を行う際に、理想的なフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線、並びに、実際に特定されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線を考慮する。これにより、この2つの曲線に基づいて評価指標値を特定し、上記画像品質判断の評価を完了する。
【0078】
例示として、上記処理装置は、予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線(理想的なフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線)を取得し、更に、上記フィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線(実際に特定されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線)、並びに、予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線に基づいて、評価指標値を特定し、当該評価指標値に基づいて上記画像品質判断の評価を行う。
【0079】
例えば、
図4に示すように、フィルタリング前のポジティブサンプルの割合t
0は、0.4であり、曲線1は、予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線(理想的なフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線)であり、
【数6】
と示される。
【0080】
曲線2は、上記フィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線(実際に特定されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線)であり、
【数7】
と示される。
【0081】
これにより、上記処理装置は、この2つの曲線に基づいて、評価指標値を特定する。当該評価指標値が所定評価閾値よりも大きい場合に、上記処理装置は、評価が通ったと特定する。例えば、上記処理装置は、y=t
0の下方、r=0の右側、r=1-t
0の左側において、曲線1の下方面積を分母とし、曲線2の下方面積を分子として、テスト指標(area under the curve、AUC)∈[0,1]を取得する。ここで、
図4は、r=0.6、y=0.4という2つの境界を与え、上記曲線1の下方面積は、矢印1で指されたものであり、曲線2の下方面積は、矢印2で指されたものである。
【0082】
上記所定評価閾値は、実際の状況に応じて設定されてもよく、例えば0.8である。上記評価指標値が所定評価閾値よりも大きい場合に、上記処理装置は、評価が通ったと特定すし、即ち、上記画像品質判断が有効であると評価し、更に上記複数の認識すべき画像の品質に基づいて第2回の画像認識を行ってもよく、画像認識の正確率を向上させる。
【0083】
S305では、評価が通った場合に、上記複数の認識すべき画像の品質に基づいて第2回の画像認識を行う。
【0084】
ステップS305と上記ステップS204との実現形態が同じであり、ここで繰り返し説明しない。
【0085】
本発明の実施例では、上記処理装置は、上記複数の認識すべき画像の品質に基づいて第2回の画像認識を行う前に、特定された上記複数の認識すべき画像の品質の正確性を保証するために、上記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行うことも考慮する。これにより、評価が通ったときこそ、後続の操作が実行されるため、更に画像認識結果の正確率が向上する。また、上記処理装置により、画像認識の正確率が向上するため、関係者が認識結果に基づいて正しい処理をタイムリーに行い、実際の応用ニーズを満たすことができる。
【0086】
上記実施例の画像認識方法に相応し、
図5は、本発明の実施例に関わる画像認識装置の構造模式図である。説明の便宜上、本発明の実施例に関連する部分のみを示す。
図5は、本発明の実施例に関わる画像認識装置の構造模式図である。当該画像認識装置50は、画像取得モジュール501、第1画像認識モジュール502、品質特定モジュール503及び第2画像認識モジュール504を備える。ここでの画像認識装置は、上記処理装置自身であってもよく、処理装置の機能を果たすチップ又は集積回路であってもよい。ここで説明すべきことは、画像取得モジュール、第1画像認識モジュール、品質特定モジュール及び第2画像認識モジュールの区分は、単に論理機能の区分であり、両者は、物理的に、統合されてもよく、互いに独立してもよい。
【0087】
画像取得モジュール501は、所定目標の複数の認識すべき画像を取得する。
【0088】
第1画像認識モジュール502は、前記複数の認識すべき画像に基づいて第1回の画像認識を行い、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得する。
【0089】
品質特定モジュール503は、前記複数の認識結果ベクトルを、前記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて前記複数の認識すべき画像の品質を特定するための所定の画像品質判断モデルに入力する。
【0090】
第2画像認識モジュール504は、前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行う。
【0091】
1種の可能な実現形態において、前記品質特定モジュール503は、更に、
複数の参照画像を取得し、前記複数の参照画像に対して第1回の画像認識を行い、前記複数の参照画像に対応する複数の認識結果ベクトルを取得し、
前記複数の参照画像に対応する複数の認識結果ベクトルのうちの何れか1つの認識結果ベクトルである認識結果ベクトルFi(ここで、i=1,...,Nであり、且つNは前記複数の参照画像に対応する複数の認識結果ベクトルの数を表す)と、前記複数の参照画像に対応する複数の認識結果ベクトルのうちの前記認識結果ベクトルFi以外の各認識結果ベクトルとのベクトル距離を特定し、
トレーニング済の初期画像品質判断モデルの損失関数の値が所定要求を満たすように、前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングし、
トレーニング済の初期画像品質判断モデルに基づいて、前記所定の画像品質判断モデルを取得し、
前記損失関数の値は、前記複数の参照画像の予測品質と前記複数の参照画像の実際品質とに基づいて特定されたものであり、前記複数の参照画像の予測品質は、前記ベクトル距離に基づいて特定されたものである。
【0092】
1種の可能な実現形態において、前記品質特定モジュール503は、更に、
前記ベクトル距離のうちの最小距離を取得し、
前記最小距離が所定距離閾値よりも大きいか否かを判断し、
前記最小距離が前記所定距離閾値以下である場合に、前記ベクトル距離に基づいて前記初期画像品質判断モデルをトレーニングする。
【0093】
1種の可能な実現形態において、前記品質特定モジュール503は、具体的に、
前記ベクトル距離のうちの最小距離を取得し、予め格納されたネガティブサンプルペア距離の平均値と前記認識結果ベクトル に対応するベクトル距離との第1差分、及び、前記距離の平均値と前記最小距離との第2差分を算出し、
前記第1差分及び前記第2差分に基づいて、前記初期画像品質判断モデルをトレーニングし、前記複数の参照画像の予測品質は、前記第1差分及び前記第2差分に基づいて特定されたものである。
【0094】
1種の可能な実現形態において、前記第2画像認識モジュール504は、更に、
前記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行い、
評価が通った場合に、前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行う。
【0095】
1種の可能な実現形態において、前記第2画像認識モジュール504は、具体的に、
前記複数の認識すべき画像の品質に基づいて、前記複数の認識すべき画像のうちのフィルタリングすべき画像を特定し、
前記複数の認識すべき画像のうちのポジティブサンプル画像に基づいて、フィルタリング前のポジティブサンプルの割合を特定し、前記フィルタリングすべき画像に基づいてフィルタリング割合を特定し、
前記フィルタリング前のポジティブサンプルの割合に基づいて、フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線を特定し、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線に基づいて、前記画像品質判断の評価を行う。
【0096】
1種の可能な実現形態において、前記第2画像認識モジュール504は、具体的に、
予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線を取得し、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線、並びに、前記予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線に基づいて、評価指標値を特定し、
前記評価指標値が所定評価閾値よりも大きい場合に、評価が通ったと特定する。
【0097】
1種の可能な実現形態において、前記第2画像認識モジュール504は、具体的に、
前記複数の認識すべき画像の品質及び所定品質要求に基づいて、前記複数の認識すべき画像から目標画像を取得し、
前記目標画像に基づいて第2回の画像認識を行う。
【0098】
1種の可能な実現形態において、前記第1画像認識モジュール502は、具体的に、
前記複数の認識すべき画像を、画像を入力して認識結果ベクトルを出力する所定の画像認識モデルに入力し、
前記所定の画像認識モデルの出力に基づいて、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得する。
【0099】
本発明の実施例に関わる装置は、上記方法実施例の技術案を実行可能であり、その実現原理及び技術効果も類似するため、本発明の実施例では、これについて繰り返し説明しない。
【0100】
好ましくは、
図6は、本発明の画像認識機器の可能な基本ハードウェアアーキテクチャの模式図を概略的に提供する。
【0101】
図6を参照すると、画像認識機器は、少なくとも1つのプロセッサ601及び通信インターフェース603を備え、より好ましくは、メモリ602及びバス604を備えてもよい。
【0102】
ここで、画像認識機器において、プロセッサ601の数は、1つ又は複数であってもよい。
図6は、単にそのうちの1つのプロセッサ601を模式的に示す。選択可能に、プロセッサ601は、中央処理装置(central processing unit、CPU)、グラフィックプロセッサ(graphics processing unit、GPU)又はデジタル信号プロセッサ(digital signal processor、DSP)であってもよい。画像認識装置が複数のプロセッサ601を有する場合、複数のプロセッサ601の種類は、異なってもよく、同じであってもよい。選択可能に、画像認識機器の複数のプロセッサ601は、マルチコアプロセッサとして統合されてもよい。
【0103】
メモリ602は、コンピュータ指令及びデータを記憶し、メモリ602は、本発明に係る上記画像認識方法を実現するために必要なコンピュータ指令及びデータを記憶してもよく、例えば、メモリ602は、上記画像認識方法のステップを実現するための指令を記憶する。メモリ602は、不揮発性メモリ(例えば、読み出し専用メモリ(ROM)、ソリッドステートドライブ(SSD)、ハードディスク(HDD)、光ディスク)、揮発性メモリのうちのいずれか1つ又は任意の組み合わせであってもよい。
【0104】
通信インターフェース603は、少なくとも1つのプロセッサに情報の入出力を提供することができる。ネットワークインターフェース(例えば、イーサネットインターフェース)、無線ネットワークカード等のネットワークアクセス機能を有するデバイスのいずれか1つ又は任意の組み合わせを含んでもよい。
【0105】
選択可能に、通信インターフェース603は、画像認識機器が他のコンピューティング機器又は端末とデータ通信を行うように更に構成されてもよい。
【0106】
より選択可能に、
図6は、バス604を太線で示す。バス604は、プロセッサ601をメモリ602及び通信インターフェース603に接続することができる。このように、バス604を介して、プロセッサ601は、メモリ602にアクセスすることができ、また、通信インターフェース603を利用して他のコンピューティング機器又は端末とデータインタラクションを行うことができる。
【0107】
本発明において、画像認識機器は、メモリ602におけるコンピュータ指令を実行することにより、画像認識装置に本発明に係る上記画像認識方法を実施させ、又は、画像認識機器には、上記画像認識装置が配備される。
【0108】
論理機能区分から見れば、例示として、
図6に示すように、メモリ602は、画像取得モジュール501、第1画像認識モジュール502、品質特定モジュール503及び第2画像認識モジュール504を含んでもよい。ここでの含むというのは、メモリに記憶された指令が実行されたときに、それぞれ実現される画像取得モジュール、第1画像認識モジュール、品質特定モジュール及び第2画像認識モジュールの機能のみに関わり、物理的な構造に限定されない。
【0109】
なお、上述した画像認識機器は、上述した
図6のようにソフトウェアによって実装されてもよく、ハードウェアモジュールとして、あるいは回路ユニットとしてハードウェアによって実装されてもよい。
【0110】
本発明は、コンピュータ可読記憶媒体を提供し、当該コンピュータ可読記憶媒体は、コンピュータ指令を含み、前記コンピュータ指令は、コンピューティングデバイスに本願に係る上記画像認識方法を実行するように指示する。
【0111】
本発明は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータ指令を含み、前記コンピュータ指令がプロセッサによって実行されると、上記画像認識方法は、実施される。
【0112】
本発明は、チップを提供する。当該チップは、少なくとも1つのプロセッサおよび通信インターフェースを含み、通信インターフェースは、少なくとも1つのプロセッサに情報入力および/又は出力を提供する。更に、前記チップは、コンピュータ指令を記憶するための少なくとも1つのメモリを更に含んでもよい。少なくとも1つのプロセッサは、コンピュータ指令を呼び出して実行することで本発明に関わる画像認識方法を実行するように構成される。
【0113】
本発明に関わる幾つかの実施例において、開示された装置及び方法は、他の方式で実現されてもよいことが理解されるべきである。例えば、上述した装置実施例は、模式的なものに過ぎず、例えば、前記手段の区分は、論理機能の区分のみであり、実際の実現において、他の区分方式もあり得る。例えば、複数の手段又はユニットが結合されてもよく、又は別のシステムに統合されてもよく、又は幾つかの特徴は、無視されてもよく、又は実行されなくてもよい。その一方、表示又は議論された相互間の結合又は直接結合又は通信接続は、幾つかのインターフェース、装置又は手段を介した間接結合又は通信接続であってもよく、電気的、機械的又は他の形式であってもよい。
【0114】
前記分離部品として説明された手段は、物理的に分離されていてもよいし、物理的に分離されていなくてもよく、手段として表示された部品は、物理的手段であってもよいし、でなくてもよく、即ち、1箇所に位置してもよく、或いは複数のネットワーク手段に分布してもよい。実際のニーズに応じて、その中の一部又は全部の手段を選択して本実施例の解決手段の目的を実現することができる。
【0115】
また、本発明の各実施例における各機能手段は、1つの処理手段に統合されてもよいし、各手段が単独で物理的に存在してもよいし、2つ以上の手段が1つの手段に統合されてもよい。統合された手段は、ハードウェアとして実装されてもよいし、ハードウェアプラスソフトウェア機能手段の形態として実装されてもよい。
【手続補正書】
【提出日】2023-12-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像認識方法であって、
所定目標の複数の認識すべき画像を取得するステップと、
前記複数の認識すべき画像に基づいて第1回の画像認識を行い、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得するステップと、
前記複数の認識結果ベクトルを、前記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて前記複数の認識すべき画像の品質を特定するための所定の画像品質判断モデルに入力するステップと、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うステップと、を含むことを特徴とする画像認識方法。
【請求項2】
前記複数の認識結果ベクトルを所定の画像品質判断モデルに入力する前に、
複数の参照画像を取得し、前記複数の参照画像に対して第1回の画像認識を行い、前記複数の参照画像に対応する複数の認識結果ベクトルを取得するステップと、
前記複数の参照画像に対応する複数の認識結果ベクトルのうちの何れか1つの認識結果ベクトルである認識結果ベクトルF
i(ここで、i=1,...,Nであり、且つNは前記複数の参照画像に対応する複数の認識結果ベクトルの数を表す)と、前記複数の参照画像に対応する複数の認識結果ベクトルのうちの前記認識結果ベクトルF
i以外の各認識結果ベクトルとのベクトル距離を特定するステップと、
トレーニング済の初期画像品質判断モデルの損失関数の値が所定要求を満たすように、前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングするステップと、
トレーニング済の初期画像品質判断モデルに基づいて、前記所定の画像品質判断モデルを取得するステップと、を更に含み、
前記損失関数の値は、前記複数の参照画像の予測品質と前記複数の参照画像の実際品質とに基づいて特定されたものであり、前記複数の参照画像の予測品質は、前記ベクトル距離に基づいて特定されたものであることを特徴とする請求項1に記載の画像認識方法。
【請求項3】
前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングする前に、
前記ベクトル距離のうちの最小距離を取得するステップと、
前記最小距離が所定距離閾値よりも大きいか否かを判断するステップと、を更に含み、
前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングするステップは、
前記最小距離が前記所定距離閾値以下である場合に、前記ベクトル距離に基づいて前記初期画像品質判断モデルをトレーニングすることを含むことを特徴とする請求項2に記載の画像認識方法。
【請求項4】
前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングするステップは、
前記ベクトル距離のうちの最小距離を取得し、予め格納されたネガティブサンプルペア距離の平均値と前記認識結果ベクトルF
iに対応するベクトル距離との第1差分、及び、前記距離の平均値と前記最小距離との第2差分を算出することと、
前記第1差分及び前記第2差分に基づいて、前記初期画像品質判断モデルをトレーニングすることと、を含み、
前記複数の参照画像の予測品質は、前記第1差分及び前記第2差分に基づいて特定されたものであることを特徴とする請求項2に記載の画像認識方法。
【請求項5】
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行う前に、
前記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行うステップを更に含み、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うステップは、
評価が通った場合に、前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うことを含むことを特徴とする請求項1~4の何れか一項に記載の画像認識方法。
【請求項6】
前記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行うステップは、
前記複数の認識すべき画像の品質に基づいて、前記複数の認識すべき画像のうちのフィルタリングすべき画像を特定することと、
前記複数の認識すべき画像のうちのポジティブサンプル画像に基づいて、フィルタリング前のポジティブサンプルの割合を特定し、前記フィルタリングすべき画像に基づいてフィルタリング割合を特定することと、
前記フィルタリング前のポジティブサンプルの割合に基づいて、フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線を特定することと、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線に基づいて、前記画像品質判断の評価を行うことと、を含むことを特徴とする請求項5に記載の画像認識方法。
【請求項7】
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線に基づいて、前記画像品質判断の評価を行うことは、
予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線を取得することと、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線、並びに、前記予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線に基づいて、評価指標値を特定することと、
前記評価指標値が所定評価閾値よりも大きい場合に、評価が通ったと特定することと、を含むことを特徴とする請求項6に記載の画像認識方法。
【請求項8】
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うステップは、
前記複数の認識すべき画像の品質及び所定品質要求に基づいて、前記複数の認識すべき画像から目標画像を取得することと、
前記目標画像に基づいて第2回の画像認識を行うことと、を含むことを特徴とする請求項1~4の何れか一項に記載の画像認識方法。
【請求項9】
画像認識装置であって、
所定目標の複数の認識すべき画像を取得するための画像取得モジュールと、
前記複数の認識すべき画像に基づいて第1回の画像認識を行い、前記複数の認識すべき画像に対応する複数の認識結果ベクトルを取得するための第1画像認識モジュールと、
前記複数の認識結果ベクトルを、前記複数の認識すべき画像に対応する複数の認識結果ベクトルの間のベクトル距離に基づいて前記複数の認識すべき画像の品質を特定するための所定の画像品質判断モデルに入力するための品質特定モジュールと、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うための第2画像認識モジュールと、を備えることを特徴とする画像認識装置。
【請求項10】
前記品質特定モジュールは、更に、
複数の参照画像を取得し、前記複数の参照画像に対して第1回の画像認識を行い、前記複数の参照画像に対応する複数の認識結果ベクトルを取得し、
前記複数の参照画像に対応する複数の認識結果ベクトルのうちの何れか1つの認識結果ベクトルである認識結果ベクトルF
i(ここで、i=1,...,Nであり、且つNは前記複数の参照画像に対応する複数の認識結果ベクトルの数を表す)と、前記複数の参照画像に対応する複数の認識結果ベクトルのうちの前記認識結果ベクトルF
i以外の各認識結果ベクトルとのベクトル距離を特定し、
トレーニング済の初期画像品質判断モデルの損失関数の値が所定要求を満たすように、前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングし、
トレーニング済の初期画像品質判断モデルに基づいて、前記所定の画像品質判断モデルを取得し、
前記損失関数の値は、前記複数の参照画像の予測品質と前記複数の参照画像の実際品質とに基づいて特定されたものであり、前記複数の参照画像の予測品質は、前記ベクトル距離に基づいて特定されたものであることを特徴とする請求項9に記載の画像認識装置。
【請求項11】
前記品質特定モジュールは、更に、
前記ベクトル距離のうちの最小距離を取得し、
前記最小距離が所定距離閾値よりも大きいか否かを判断し、
前記ベクトル距離に基づいて初期画像品質判断モデルをトレーニングすることは、
前記最小距離が前記所定距離閾値以下である場合に、前記ベクトル距離に基づいて前記初期画像品質判断モデルをトレーニングすることを含むことを特徴とする請求項10に記載の画像認識装置。
【請求項12】
前記品質特定モジュールは、
前記ベクトル距離のうちの最小距離を取得し、予め格納されたネガティブサンプルペア距離の平均値と前記認識結果ベクトルF
iに対応するベクトル距離との第1差分、及び、前記距離の平均値と前記最小距離との第2差分を算出し、
前記第1差分及び前記第2差分に基づいて、前記初期画像品質判断モデルをトレーニングし、
前記複数の参照画像の予測品質は、前記第1差分及び前記第2差分に基づいて特定されたものであることを特徴とする請求項10に記載の画像認識装置。
【請求項13】
前記第2画像認識モジュールは、更に、
前記複数の認識すべき画像の品質に基づいて画像品質判断の評価を行い、
前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うことは、
評価が通った場合に、前記複数の認識すべき画像の品質に基づいて第2回の画像認識を行うことを含むことを特徴とする請求項9~12の何れか一項に記載の画像認識装置。
【請求項14】
前記第2画像認識モジュールは、
前記複数の認識すべき画像の品質に基づいて、前記複数の認識すべき画像のうちのフィルタリングすべき画像を特定し、
前記複数の認識すべき画像のうちのポジティブサンプル画像に基づいて、フィルタリング前のポジティブサンプルの割合を特定し、前記フィルタリングすべき画像に基づいてフィルタリング割合を特定し、
前記フィルタリング前のポジティブサンプルの割合に基づいて、フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線を特定し、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線に基づいて、前記画像品質判断の評価を行うことを特徴とする請求項13に記載の画像認識装置。
【請求項15】
前記第2画像認識モジュールは、
予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線を取得し、
前記フィルタリング後のポジティブサンプルの割合及び前記フィルタリング割合の変化曲線、並びに、前記予め格納されたフィルタリング後のポジティブサンプルの割合及びフィルタリング割合の変化曲線に基づいて、評価指標値を特定し、
前記評価指標値が所定評価閾値よりも大きい場合に、評価が通ったと特定することを特徴とする請求項14に記載の画像認識装置。
【請求項16】
前記第2画像認識モジュールは、
前記複数の認識すべき画像の品質及び所定品質要求に基づいて、前記複数の認識すべき画像から目標画像を取得し、
前記目標画像に基づいて第2回の画像認識を行うことを特徴とする請求項9~12の何れか一項に記載の画像認識装置。
【請求項17】
画像認識機器であって、
プロセッサと、
メモリと、
コンピュータプログラムと、含み、
前記コンピュータプログラムは、前記メモリに記憶され、且つ前記プロセッサによって実行されるように構成され、前記コンピュータプログラムは、請求項1~
4の何れか一項に記載の画像認識方法を実行するための指令を含むことを特徴とする画像認識機器。
【請求項18】
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体には、指令が記憶され、
前記指令がコンピュータで実行されたときに、前記コンピュータは、請求項1~
4の何れか一項に記載の画像認識方法を実施することを特徴とするコンピュータ可読記憶媒体。
【請求項19】
コンピュータプログラム製品であって、
前記コンピュータプログラム製品がコンピュータで実行されたときに、前記コンピュータは、請求項1~
4の何れか一項に記載の画像認識方法を実施することを特徴とするコンピュータプログラム製品。
【国際調査報告】