(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-20
(54)【発明の名称】画像識別方法及び装置、電子機器並びに記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20220413BHJP
G06T 5/00 20060101ALI20220413BHJP
【FI】
G06T7/00 300F
G06T7/00 350C
G06T5/00 725
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021536000
(86)(22)【出願日】2020-03-26
(85)【翻訳文提出日】2021-06-18
(86)【国際出願番号】 CN2020081371
(87)【国際公開番号】W WO2021159594
(87)【国際公開日】2021-08-19
(31)【優先権主張番号】202010089651.8
(32)【優先日】2020-02-12
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】518209698
【氏名又は名称】シェンチェン センスタイム テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO.,LTD
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100186716
【氏名又は名称】真能 清志
(72)【発明者】
【氏名】ヤン ユシン
(72)【発明者】
【氏名】フイ ウェイ
(72)【発明者】
【氏名】チュー チェンカイ
(72)【発明者】
【氏名】ウー ウェイ
(72)【発明者】
【氏名】リ ジエンタオ
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057BA02
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CC01
5B057CD20
5B057DA08
5B057DB02
5B057DB09
5B057DC05
5B057DC17
5L096AA06
5L096CA02
5L096DA01
5L096DA02
5L096EA14
5L096FA06
5L096FA09
5L096FA12
5L096FA16
5L096FA26
5L096FA69
5L096HA11
5L096KA04
5L096MA03
(57)【要約】
本開示は画像識別方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することと、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることと、前記領域画像情報を識別して前記目標領域の識別結果を得ることと、を含む。本開示の実施例によって目標識別の正確度を向上することができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することと、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることと、
前記領域画像情報を識別して前記目標領域の識別結果を得ることと、
を含むことを特徴とする画像識別方法。
【請求項2】
請求項1に記載の方法であって、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することは、
前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得ることと、
前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることと、
を含むことを特徴とする方法。
【請求項3】
請求項1または2に記載の方法であって、
前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第1の位置を含み、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることは、
前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、
前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得ることと、
を含むことを特徴とする方法。
【請求項4】
請求項3に記載の方法であって、
前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することは、
前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、
前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、
を含むことを特徴とする方法。
【請求項5】
請求項3または4に記載の方法であって、
前記ホモグラフィ変換行列に基づき、前記目標領域の画像を補正して、前記補正領域の領域画像情報を得ることは、
前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、
各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることと、
を含むことを特徴とする方法。
【請求項6】
請求項1~5のいずれか1項に記載の方法であって、
前記領域画像情報を識別して前記目標領域の識別結果を得ることは、
前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、
前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、
を含むことを特徴とする方法。
【請求項7】
請求項1~6のいずれか1項に記載の方法であって、
前記方法は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記方法は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、
前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、
をさらに含むことを特徴とする方法。
【請求項8】
請求項7に記載の方法であって、
前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、
予め設定されたトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることは、
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、
前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、
前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、
前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、
を含むことを特徴とする方法。
【請求項9】
請求項1~8のいずれか1項に記載の方法であって、
前記目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含むことを特徴とする方法。
【請求項10】
画像識別装置であって、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するためのキーポイント検出モジュールと、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るための補正モジュールと、
前記領域画像情報を識別して、前記目標領域の識別結果を得るための識別モジュールと、を含むことを特徴とする画像識別装置。
【請求項11】
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶された命令を呼び出すことにより、請求項1~9のいずれか1項に記載の方法を実行するように構成されたことを特徴とする電子機器。
【請求項12】
コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体でって、
前記コンピュータプログラム命令はプロセッサにより実行されると、請求項1~9のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項13】
コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードが電子機器で動作すると、前記電子機器のプロセッサに請求項1~9のいずれか1項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本出願は、2020年2月12日に中国国家知識産権局に提出された、出願番号が202010089651.8で、発明の名称が「画像識別方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は援用することによって本出願に組み込まれる。
【技術分野】
【0002】
本開示は、コンピュータテクノロジーの分野に関し、特に画像識別方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0003】
コンピュータビジョン及びインテリジェントビデオ監視などの分野では、画像における様々な目標対象物(例えば歩行者、車両など)を検出して識別する必要がある。
【発明の概要】
【0004】
本開示は、画像識別の発明を提案している。
【0005】
本開示の一側面によれば、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することと、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることと、前記領域画像情報を識別して前記目標領域の識別結果を得ることと、を含む画像識別方法が提供される。
【0006】
可能な一実施形態では、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することは、前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得ることと、前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることと、を含む。
【0007】
可能な一実施形態では、前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第1の位置を含み、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることは、前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得ることと、を含む。
【0008】
可能な一実施形態では、前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することは、前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、を含む。
【0009】
可能な一実施形態では、前記ホモグラフィ変換行列に基づき、前記目標領域の画像を補正して、前記補正領域の領域画像情報を得ることは、前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることと、を含む。
【0010】
可能な一実施形態では、前記領域画像情報を識別して前記目標領域の識別結果を得ることは、前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。
【0011】
可能な一実施形態では、前記方法は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記方法は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、をさらに含む。
【0012】
可能な一実施形態では、前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、
予め設定されたトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることは、
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、を含む。
【0013】
可能な一実施形態では、前記目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含む。
【0014】
本開示の一側面によれば、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するためのキーポイント検出モジュールと、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るための補正モジュールと、前記領域画像情報を識別して、前記目標領域の識別結果を得るための識別モジュールと、を含む画像識別装置が提供される。
【0015】
可能な一実施形態では、前記キーポイント検出モジュールは、前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得るための特徴抽出・融合サブモジュールと、前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得るための検出サブモジュールと、を含む。
【0016】
可能な一実施形態では、前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第1の位置を含み、前記補正モジュールは、前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定するための変換行列決定サブモジュールと、前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得るための補正サブモジュールと、を含む。
【0017】
可能な一実施形態では、前記変換行列決定サブモジュールは、前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することとに用いられる。
【0018】
可能な一実施形態では、前記補正サブモジュールは、前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることとに用いられる。
【0019】
可能な一実施形態では、前記識別モジュールは、前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。
【0020】
可能な一実施形態では、前記装置は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記装置は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得るための第1のトレーニングモジュールと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングするための第2のトレーニングモジュールと、をさらに含む。
【0021】
可能な一実施形態では、前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、前記第1のトレーニングモジュールは、前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることとに用いられる。
【0022】
可能な一実施形態では、前記目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含む。
【0023】
本開示の一側面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶された命令を呼び出すことにより、上記方法を実行するように構成された電子機器が提供される。
【0024】
本開示の一側面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体でって、前記コンピュータプログラム命令はプロセッサにより実行されると、前記方法を実現させるコンピュータ読み取り可能な記憶媒体が提供される。
本開示の一側面によれば、コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードが電子機器で動作すると、前記電子機器のプロセッサに前記方法を実現するための命令を実行させるコンピュータプログラムが提供される。
【0025】
本開示の実施例によれば、処理対象画像における目標領域の複数の輪郭キーポイント情報を決定し、複数の輪郭キーポイント情報に基づいて目標領域を補正し、補正した領域画像情報を識別して目標領域の識別結果を得ることによって、目標識別の正確度を向上することができる。
【0026】
なお、上述した概略的な説明及び次の詳細な説明は、例示的及び解釈的なものにすぎず、本開示を限定するものではない。以下、図面を参照しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び側面は明瞭になる。
【図面の簡単な説明】
【0027】
ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適合し、明細書と共に本開示の技術的手段の説明に用いられる。
【
図1】
図1は本開示の実施例に係る画像識別方法のフローチャートを示す。
【
図2】
図2は本開示の実施例に係るキーポイント検出手順の模式図を示す。
【
図3】
図3は本開示の実施例に係る画像識別手順の模式図的を示す。
【
図4】
図4は本開示の実施例に係る画像識別装置のブロック図を示す。
【
図5】
図5は本開示の実施例に係る電子機器のブロック図を示す。
【
図6】
図6は本開示の実施例に係る電子機器のブロック図を示す。
【発明を実施するための形態】
【0028】
以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
【0029】
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
【0030】
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
【0031】
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
【0032】
図1は本開示の実施例に係る画像識別方法のフローチャートを示す。
図1に示すように、前記方法は、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するステップS11と、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るステップS12と、
前記領域画像情報を識別して前記目標領域の識別結果を得るステップS13と、を含む。
【0033】
可能な一実施形態では、前記画像識別方法は、ユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレスフォン電話機、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、ハンドヘルドデバイス、計算装置、車載装置、ウェアラブル装置等の端末装置、又はサーバ等の電子機器によって実行されてよく、前記方法はプロセッサによってメモリに記憶されたコンピュータ読み取り可能なコマンドを呼び出す形態で実現されてよい。又は、サーバによって前記方法を実行してもよい。
【0034】
例を挙げて説明すると、処理対象画像は、画像収集装置(例えばカメラ)により収集された画像またはビデオフレーム等であってもよく、処理対象画像には、例えば歩行者、車両、ナンバープレートなどの識別されるべき目標対象物を含む。
【0035】
可能な一実施形態では、ステップS11において処理対象画像に対してキーポイントを行って、処理対象画像における目標対象物の存在する画像領域(目標領域と呼ばれる)の輪郭上の複数の輪郭キーポイント情報を決定することができる。目標領域が四角形である場合、目標領域の複数の輪郭キーポイントは、例えば目標領域の4つの頂点であってもよい。検出された輪郭キーポイントによって目標領域の範囲を限定することができれば、当業者は実際の状況に応じて検出される輪郭キーポイントの数を設定することができることが理解すべきである。本開示では、目標領域の具体的な形状及び輪郭キーポイントの数は限定されない。
【0036】
可能な一実施形態では、処理対象画像の撮影角度による処理対象画像における目標領域の歪み、回転、変形などが発生する可能性がある。この場合に、ステップS12において、複数の輪郭キーポイント情報に基づき、処理対象画像における目標領域を補正して、例えばホモグラフィ変換により補正して、目標領域に対応する補正領域の領域画像情報を得ることができる。当該補正領域は、目標領域を正面から見た時に示される領域であり、例えば目標対象物がナンバープレートである場合、当該補正領域は、ナンバープレートを正面から見た時にナンバープレートが存在する矩形状領域である。補正領域の領域画像情報は補正領域の画像または特徴マップであってもよい。
【0037】
可能な一実施形態では、領域画像情報を得た後、ステップS13において領域画像情報を識別して、目標領域の識別結果を得ることができる。例えば、ニューラルネットワークにより領域画像情報に対して特徴抽出を行い、抽出された特徴をデコードして、識別結果を得ることができる。
【0038】
可能な一実施形態では、目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含む。つまり、識別されるべき目標対象物が車両のナンバープレートである場合、画像におけるナンバープレート領域の複数の輪郭キーポイント(例えば4つの頂点)を検出して、さらにはナンバープレート領域に対する補正及び識別を行って、ナンバープレート領域の文字の種別が得られ、例えばナンバープレート領域には9815QWという文字が含まれている。
【0039】
可能な一実施形態では、識別されるべき目標対象物が広告用掲示板または店舗看板などである場合、得られた目標領域の識別結果は、広告用掲示板または店舗看板における文字及び/又は数字であり、識別されるべき目標対象物が交通標識である場合、得られた目標領域の識別結果は、交通標識の種別である。本開示では、これが限定されない。
【0040】
本開示の実施例によれば、処理対象画像における目標領域の複数の輪郭キーポイント情報を決定し、複数の輪郭キーポイント情報に基づいて目標領域を補正し、補正した領域画像情報を識別して目標領域の識別結果を得ることによって、目標識別の正確度を向上することができる。
【0041】
可能な一実施形態では、ステップS11は、
前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得ることと、
前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることと、を含んでもよい。
【0042】
例を挙げて説明すると、目標検出ネットワークにより処理対象画像に対するキーポイント検出を行うことができ、目標検出ネットワークは例えば畳み込みニューラルネットワークであってもよい。ここで、目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含んでもよい。
【0043】
可能な一実施形態では、特徴抽出サブネットワークにより処理対象画像に対して特徴抽出を行って、処理対象画像の複数のスケールでの特徴を得ることができる。特徴抽出サブネットワークは、複数の残差層または残差ブロックを含む残差ネットワークResnetを用いてもよい。特徴抽出サブネットワークは、googlenet(グーグルネットワーク)、vggnet(vggネットワーク)、shufflenet(シャッフルネットワーク)、darknet(ダークネットワーク)などのネットワーク構造をさらに用いてもよいことが理解すべきである。本開示では、これが限定されない。
【0044】
可能な一実施形態では、特徴融合サブネットワークにより処理対象画像の複数のスケールでの特徴を融合し、1つのスケールでの特徴、つまり処理対象画像の特徴マップを得ることができる。特徴融合サブネットワークは、特徴ピラミッドネットワークFPNを用いてもよく、NAS-FPN(自動検索による特徴ピラミッドネットワーク)、hourglass(砂時計ネットワーク)などのネットワーク構造を用いてもよいが、本開示ではこれが限定されない。
【0045】
可能な一実施形態では、検出サブネットワークにより処理対象画像の特徴マップに対してキーポイント検出を行って、処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることができる。検出サブネットワークは複数の畳み込み層及び複数の検出層(例えば全結合層を含む)を含んでもよく、複数の畳み込み層により処理対象画像の特徴マップにおける特徴情報を更に抽出し、複数の検出層により当該特徴情報におけるキーポイントの位置をそれぞれ検出する。目標領域が四角形である場合、4つの位置決めヒートマップを予測し、それぞれ目標領域の左上、右上、右下及び左下の頂点(つまり4つのキーポイント)の位置を位置決めすることができる。各ヒートマップは頂点座標の位置を1、残りの頂点座標を0と定義することができ、01コードを選択してもよく、ガウスコードに置き換えてもよいが、本開示ではこれが限定されない。
【0046】
図2は本開示の実施例に係るキーポイント検出手順の模式図を示す。
図2に示すように、処理対象画像21を目標検出ネットワークに入力し、順次に残差ネットワーク(Res)22及び特徴ピラミッドネットワーク(FPN)23を介して特徴抽出及び融合を行って、特徴マップ24を得ることができる。処理対象画像21の寸法は、例えば320×280であり、特徴抽出及び融合の後、寸法が80×70×64である特徴マップ24が得られ、検出サブネットワーク(図示せず)により特徴マップ24に対して畳み込み及びキーポイント検出を更に行って、80×70×4の4つのキーポイントの位置決めヒートマップが得られることで、目標領域の左上、右上、右下及び左下の頂点の位置が決定される。
【0047】
このようにして、目標領域の複数の輪郭キーポイント情報を迅速に決定することができることにより、目標領域の境界輪郭を精度よく限定し、処理速度及び精度を向上している。
【0048】
可能な一実施形態では、複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第1の位置を含み、ステップS12は、
前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、
前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得ることと、を含んでもよい。
【0049】
例を挙げて説明すると、目標領域の複数の輪郭キーポイント情報を決定した後、目標領域を補正することができる。複数の輪郭キーポイント情報は、処理対象画像または処理対象画像の特徴マップにおける各輪郭キーポイントの位置座標(つまり各輪郭キーポイントの第1の位置)を含んでもよい。目標領域が四角形領域である場合、4つの輪郭キーポイントを含んでもよい。
【0050】
可能な一実施形態では、処理対象画像またはその特徴マップのスケールをh(高さ)×w(幅)×C(チャンネル数)とし、輪郭キーポイントの座標を(x1,y1,x2,y2,x3,y3,x4,y4)とし、補正された補正領域をhH(高さ)×wH(幅)×C(チャンネル数)とすることができる。複数の輪郭キーポイントの第1の位置に基づいて目標領域の位置を決定し、目標領域の位置及び補正領域の第2の位置に基づいて目標領域と補正領域との間のホモグラフィ変換行列を決定することができる。本分野での公知の方法を用いて目標領域と補正領域との間のホモグラフィ変換行列を決定することができることは理解すべきであり、本開示ではこれが限定されない。
【0051】
可能な一実施形態では、前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定するステップは、
前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、
前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、を含んでもよい。
【0052】
つまり、入力された輪郭キーポイント座標(x1,y1,x2,y2,x3,y3,x4,y4)及び出力された補正領域hH(高さ)×wH(幅)×C(チャンネル数)の座標をそれぞれ正規化し、入力座標及び出力座標を[-1,1]の間に正規化して、正規化された第1の位置及び正規化された第2の位置を得ることができる。正規化された第1の位置及び正規化された第2の位置に基づき、正規化された目標領域と補正領域との間のホモグラフィ変換行列(例えば3×3の行列)を決定する。本開示では、ホモグラフィ変換行列を決定する方法が限定されない。
【0053】
このようにして、目標領域と補正領域のスケールを統一させ、目標領域と補正領域のスケールの差異による誤差を低減し、ホモグラフィ変換行列の正確度を向上することができる。
【0054】
可能な一実施形態では、前記ホモグラフィ変換行列に基づき、前記目標領域の画像又は特徴を補正して、前記補正領域の領域画像情報を得るステップは、
前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、
各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることと、を含んでもよい。
【0055】
例を挙げて説明すると、補正領域の正規化された第2の位置について、座標のx軸及びy軸における[-1,1]の間でwH及びhH個の点を等間隔で取って、補正領域のグリッド化座標(合計でhH×wH個の座標がある)を得、グリッド化座標を補正領域における複数の目標ポイントとする。複数の目標ポイントの第3の位置及びホモグラフィ変換行列に基づき、目標領域において対応するピクセルポイントの位置を算出することができることで、第3の位置のそれぞれに対応する目標領域におけるピクセルポイントを決定することができる。
【0056】
可能な一実施形態では、第3の位置のそれぞれに対応するピクセルポイントのピクセル情報(つまりピクセル値)を目標ポイントのそれぞれにマッピングし、それぞれの目標ポイントの間に補間処理を行って、補正領域の領域画像情報を得ることができる。双線形補間の方法を用いてもよく、他の補間方法を用いてもよいが、本開示ではこれが限定されない。当該領域画像情報は、領域画像または領域特徴マップであってもよいが、本開示ではこれが限定されない。
【0057】
このようにして、斜めに回転した目標領域を水平方向に補正することができる。この処理過程はホモグラフィプーリング(Homopooling)操作と呼ぶことができ、この操作は、目標領域の画像または特徴を補正するために微分および逆伝播することができ、任意のニューラルネットワークに埋め込んでエンドツーエンドのトレーニングを行うことができるため、統一されたネットワークにおいて画像識別過程全体を実現可能である。
【0058】
可能な一実施形態では、ステップS13は、
前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。
【0059】
例を挙げて説明すると、複数の畳み込み層、グループ正規化(group normalization)層、RELU活性化層及び最大プーリング層などのネットワーク層を含む識別ネットワークにより領域画像情報を識別することができる。各ネットワーク層を介して領域画像情報の特徴を抽出して、幅が1の特徴ベクトル、例えば寸法が1×47の特徴ベクトルを得ることができる。
【0060】
可能な一実施形態では、この識別ネットワークは、全結合層及びCTC(Connectionist Temporal Classification、接続主義時間分類)デコーダをさらに含んでもよい。全結合層により特徴ベクトを処理して、領域画像情報の文字確率分布ベクトルを得ることができ、CTCデコーダにより文字確率分布ベクトルをデコードして、目標領域の識別結果を得ることができる。目標対象物がナンバープレートである場合、目標領域の識別結果は、ナンバープレートにおける対応する文字、例えば9815QWである。このようにして、識別結果の正確性を向上することができる。
【0061】
図3は本開示の実施例に係る画像識別手順の模式図的を示す。
図3に示すように、本開示の実施例に係る画像識別方法は、前記処理対象画像に対してキーポイント検出を行うため目標検出ネットワーク31、前記目標領域を補正するための補正ネットワーク32及び前記領域画像情報を識別するための識別ネットワーク33を含むニューラルネットワークにより実現できる。
【0062】
図3に示すように、処理対象画像34における目標対象物が車両のナンバープレートであり、処理対象画像34を目標検出ネットワーク31に入力してキーポイント検出を行って、ナンバープレートの4つの頂点を含む画像35が得られ、補正ネットワーク32により、画像35における4つの頂点に基づいて処理対象画像34のナンバープレート領域を補正して、ナンバープレート画像36が得られ、ナンバープレート画像36を識別ネットワーク33に入力して識別を行って、ナンバープレート領域の識別結果37、つまりナンバープレートにおける対応する9815QWという文字が得られる。
【0063】
ニューラルネットワークを設定する前に、ニューラルネットワークをトレーニングする必要がある。本開示の実施例に係る画像識別方法は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、
前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、をさらに含む。
【0064】
例を挙げて説明すると、ニューラルネットワークを2つの段階に分けてトレーニングすることができる。即ち、目標検出ネットワークを先にトレーニングし、そして補正ネットワーク及び前記識別ネットワークをトレーニングすることになる。
【0065】
トレーニングの第1の段階では、トレーニングセットのサンプル画像を目標検出ネットワークに入力し、サンプル画像における目標領域の輪郭キーポイント検出情報を出力し、複数のサンプル画像の輪郭キーポイント検出情報と輪郭キーポイントラベリング情報との間の差異に応じて予め設定されたトレーニング条件が満たされるまで目標検出ネットワークのパラメータを調整して、トレーニングされた目標検出ネットワークを得る。
【0066】
トレーニングの第2の段階では、トレーニングセットのサンプル画像をトレーニングされた目標検出ネットワークに入力し、トレーニングされた目標検出ネットワーク、補正ネットワーク及び識別ネットワークによる処理によってサンプル画像における目標領域のトレーニング識別結果が得られ、複数のサンプル画像のトレーニング識別結果と種別ラベリング情報との差異に応じて予め設定されたトレーニング条件が満たされるまで補正ネットワーク及び識別ネットワークのパラメータを調整して、トレーニングされた補正ネットワーク及び識別ネットワークを得る。
【0067】
このようにして、トレーニング効果を高め、トレーニング速度を速くすることができる。
【0068】
可能な一実施形態では、予め設定されたトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得るステップは、
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、
前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、
前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、
前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、を含む。
【0069】
例を挙げて説明すると、トレーニング効果を高めるために、トレーニング過程中で背景の検出を追加することができる。サンプル画像を特徴抽出サブネットワークに入力して特徴抽出を行って、サンプル画像の第1の特徴が得られ、第1の特徴を特徴融合サブネットワークに入力して特徴融合を行って、サンプル画像の融合特徴が得られ、融合特徴を検出サブネットワークに入力して検出して、サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報が得られる。即ち、目標対象物がナンバープレートである場合、4つの頂点の検出情報及びサンプル画像における背景の検出情報を得ることができる。
【0070】
可能な一実施形態では、複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、目標検出ネットワークのネットワーク損失を特定し、ネットワーク損失に基づいて、予め設定されたトレーニング条件が満たされるまで目標検出ネットワークのパラメータを調整して、トレーニングされた目標検出ネットワークを得る。
【0071】
教師有り信号として背景検出を追加することで目標検出ネットワークのトレーニング効果を大幅に高めることができる。
【0072】
本開示の実施例に係る画像識別方法によれば、画像における複数の角度および不定なワード長を持つ目標対象物(例えばナンバープレート、広告用掲示板、交通標識など)を正確に識別することができる。この方法は、境界枠の代わりにキーポイント識別によるナンバープレート検出を行い、この形態は、ピクセル毎の回帰が不要で、アンカーを検出する必要がなく、非極大値の抑制を省くため、検出速度が大幅に向上した。回帰ターゲットとしてキーポイントのヒートマップを使用すると、位置決めの正確度を高めた。また、ポイント数が増加したため、より多くのナンバープレート情報を取得してナンバープレートを補正するためのホモグラフィプーリングに使用できる。
【0073】
本開示の実施例に係る画像識別方法によれば、ホモグラフィープーリングによりナンバープレート画像または特徴を補正することができ、任意のネットワークに埋め込んでエンドツーエンドの協同訓練の統一されたネットワークを実現し、ネットワークの各部分を協同で最適化して、速度と精度を確保することができる。
【0074】
本開示の実施例に係る画像識別方法によれば、スマートシティ、インテリジェント交通、安全防衛の監視制御、駐車場、車両の再識別、偽造ナンバープレートの識別などのシーンに適用してナンバープレートの番号を迅速で精度よく識別することができ、さらにはナンバープレートに基づく課金、罰金、偽造ナンバープレートの検出などを行うことができる。
【0075】
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。
【0076】
また、本開示では、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムが提供される。これらはいずれも本開示に係る画像識別方法のいずれか1つを実現するために利用できる。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。
【0077】
図4は本開示の実施例に係る画像識別装置のブロック図を示す。
図4に示すように、前記装置は、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するためのキーポイント検出モジュール41と、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るための補正モジュール42と、前記領域画像情報を識別して、前記目標領域の識別結果を得るための識別モジュール43と、を含む。
【0078】
可能な一実施形態では、前記キーポイント検出モジュールは、前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得るための特徴抽出・融合サブモジュールと、前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得るための検出サブモジュールと、を含む。
【0079】
可能な一実施形態では、前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第1の位置を含み、前記補正モジュールは、前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定するための変換行列決定サブモジュールと、前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得るための補正サブモジュールと、を含む。
【0080】
可能な一実施形態では、前記変換行列決定サブモジュールは、前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することに用いられる。
【0081】
可能な一実施形態では、前記補正サブモジュールは、前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることに用いられる。
【0082】
可能な一実施形態では、前記識別モジュールは、前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。
【0083】
可能な一実施形態では、前記装置は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記装置は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得るための第1のトレーニングモジュールと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングするための第2のトレーニングモジュールと、をさらに含む。
【0084】
可能な一実施形態では、前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、前記第1のトレーニングモジュールは、前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることに用いられる。
【0085】
可能な一実施形態では、前記目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含む。
【0086】
いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。
【0087】
本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記の方法を実現させるコンピュータ可読記憶媒体がさらに提供される。当該コンピュータ可読記憶媒体は、不揮発性または揮発性のコンピュータ可読記憶媒体であってもよい。
【0088】
本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリと、を含み、前記プロセッサは、前記メモリに記憶された命令を呼び出すことにより、上記の方法を実行するように構成される電子機器がさらに提供される。
【0089】
本開示の実施例では、コンピュータ可読コードを含むコンピュータプログラム製品であって、当該コンピュータ可読コードは機器において動作すると、機器のプロセッサに上述したいずれかの実施例に係る画像識別方法を実現するための命令を実行させるコンピュータプログラム製品がさらに提供される。
【0090】
本開示の実施例では、コンピュータ可読命令が記憶されているコンピュータプログラム製品であって、命令は実行されると、コンピュータに上述したいずれかの実施例に係る画像識別方法の動作を実行させる別のコンピュータプログラム製品がさらに提供される。
【0091】
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
【0092】
図5は、本開示の実施例に係る電子機器800のブロック図を示す。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
【0093】
図5を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
【0094】
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
【0095】
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
【0096】
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
【0097】
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
【0098】
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
【0099】
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
【0100】
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
【0101】
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
【0102】
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
【0103】
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
【0104】
図6は、本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバとして提供されてもよい。
図6を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
【0105】
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されいるオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
【0106】
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
【0107】
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
【0108】
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
【0109】
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
【0110】
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することににより、本開示の各方面を実現するようにしてもよい。
【0111】
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
【0112】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
【0113】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
【0114】
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
【0115】
当該コンピュータプログラム製品は、ハードウェア、ソフトウェア、又はそれらの組み合わせによって具体的に実現できる。選択可能的な一実施例では、前記コンピュータプログラム製品はコンピュータ記憶媒体として具現化される。選択可能的な別の実施例では、コンピュータプログラム製品はソフトウェア製品、例えば、ソフトウェア開発キット(Software Development Kit、略称SDK)等として具現化される。
論理に違反しない限り、本開示のそれぞれの実施例は相互に組み合わせることができ、異なる実施例において重点として説明されるものが異なって、重点として説明されていない部分については他の実施例の記載を参照すればよい。
【0116】
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
【国際調査報告】