特開2022-122989 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特開2022-122989画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022122989

(43)【公開日】2022-08-23

(54)【発明の名称】画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム

(51)【国際特許分類】

G06V 10/70 20220101AFI20220816BHJP

G06T 7/00 20170101ALI20220816BHJP

【ＦＩ】

G06V10/70

G06T7/00 350C

【審査請求】有

【請求項の数】16

【出願形態】ＯＬ

【外国語出願】

【公開請求】

(21)【出願番号】P 2022092371

(22)【出願日】2022-06-07

(31)【優先権主張番号】202110856547.1

(32)【優先日】2021-07-28

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】110000578

【氏名又は名称】名古屋国際特許業務法人

(72)【発明者】

【氏名】ジャンワンピン

(57)【要約】（修正有）

【課題】顔認識などのシナリオに適用できる、低品質の画像データに対する画像認識モデルのロバスト性を向上させる画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体並びにコンピュータプログラムを提供する。
【解決手段】方法は、入力画像集合を取得するステップと、入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するステップと、訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するステップと、を含む。
【選択図】図２

【特許請求の範囲】

【請求項1】

入力画像集合を取得するスッテプと、
前記入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するスッテプと、
前記訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するスッテプと、を含む画像認識モデルを構築するための方法。

【請求項2】

前記入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練することは、
前記入力画像集合と前記入力画像集合に対応する復元画像集合を利用して初期超解像モデルの損失関数を計算し、勾配降下法を採用して前記初期超解像モデルのパラメータを更新するスッテプと、
前記入力画像集合と前記復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算し、勾配降下法を採用して前記初期認識モデルのパラメータを更新するスッテプと、を含む請求項１に記載の方法。

【請求項3】

前記入力画像集合と前記入力画像集合に対応する復元画像集合を利用して初期超解像モデルの損失関数を計算することは、
前記入力画像集合内の画像をダウンサンプリングして、ダウンサンプリング画像集合を取得するスッテプと、
前記初期超解像モデルを利用して前記ダウンサンプリング画像集合内の画像を復元して、復元画像集合を取得するスッテプと、
前記入力画像集合と前記復元画像集合に基づいて前記初期超解像モデルの再構成損失を計算するスッテプと、を含む請求項２に記載の方法。

【請求項4】

前記入力画像集合と前記復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算することは、
前記入力画像集合、前記ダウンサンプリング画像集合及び前記復元画像集合をマージして、ターゲット画像集合を取得するスッテプと、
前記ターゲット画像集合内の画像の特徴を抽出するスッテプと、
前記ターゲット画像集合内の画像の特徴間の距離を計算するスッテプと、
前記距離に基づいて前記初期認識モデルのバイナリ損失関数を計算するスッテプと、を含む請求項３に記載の方法。

【請求項5】

前記勾配降下法が確率的勾配降下法である、請求項２に記載の方法。

【請求項6】

前記訓練された超解像モデルと認識モデルをカスケード方式で組み合わせることは、
前記訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端に接続するスッテプを含む請求項１に記載の方法。

【請求項7】

認識される画像を取得するスッテプと、
前記認識される画像を、請求項１～６のいずれか一項に記載の画像認識モデルを構築するための方法によって取得される画像認識モデルに入力し、前記認識される画像に対応する認識結果を出力するスッテプと、を含む画像認識方法。

【請求項8】

入力画像集合を取得するように構成されている第１取得モジュールと、
前記入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するように構成されている訓練モジュールと、
前記訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するように構成されている組み合わせモジュールと、を含む画像認識モデルを構築するための装置。

【請求項9】

前記訓練モジュールは、
前記入力画像集合と前記入力画像集合に対応する復元画像集合を利用して初期超解像モデルの損失関数を計算し、勾配降下法を採用して前記初期超解像モデルのパラメータを更新するように構成されている第１更新サブモジュールと、
前記入力画像集合と前記復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算し、勾配降下法を採用して前記初期認識モデルのパラメータを更新するように構成されている第２更新サブモジュールと、を含む請求項８に記載の装置。

【請求項10】

前記第１更新サブモジュールは、
前記入力画像集合内の画像をダウンサンプリングして、ダウンサンプリング画像集合を取得するように構成されているダウンサンプリングユニットと、
前記初期超解像モデルを利用して前記ダウンサンプリング画像集合内の画像を復元して、復元画像集合を取得するように構成されている復元ユニットと、
前記入力画像集合と前記復元画像集合に基づいて前記初期超解像モデルの再構成損失を計算するように構成されている第１計算ユニットと、を含む請求項９に記載の装置。

【請求項11】

前記第２更新サブモジュールは、
前記入力画像集合、前記ダウンサンプリング画像集合及び前記復元画像集合をマージして、ターゲット画像集合を取得するように構成されているマージユニットと、
前記ターゲット画像集合内の画像の特徴を抽出するように構成されている抽出ユニットと、
前記ターゲット画像集合内の画像の特徴間の距離を計算するように構成されている第２計算ユニットと、
前記距離を前記初期認識モデルのバイナリ損失関数を計算するように構成されている第３計算ユニットと、を含む請求項１０に記載の装置。

【請求項12】

前記組み合わせモジュールは、
前記訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端に接続するように構成されている接続サブモジュールを含む請求項８に記載の装置。

【請求項13】

認識される画像を取得するように構成されている第２取得モジュールと、
前記認識される画像を、請求項１～６のいずれか一項に記載の画像認識モデルを構築するための方法によって取得される画像認識モデルに入力し、前記認識される画像に対応する認識結果を出力するように構成されている出力モジュールと、を含む画像認識装置。

【請求項14】

少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含む電子デバイスであって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサが請求項１～７のいずれか一項に記載の方法を実行できる、電子デバイス。

【請求項15】

コンピュータに請求項１～７のいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶される非一時的なコンピュータ可読記憶媒体。

【請求項16】

プロセッサによって実行すると、請求項１～７のいずれか一項に記載の方法を実現するコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、人工知能の技術分野に関し、特にコンピュータビジョン及び深層学習の技術分野に関し、特に、顔認識などのシナリオに適用できる画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラムに関する。

【背景技術】

【0002】

顔認識は、コンピュータビジョン技術で最も早く、最も広く実装されている技術の１つであり、特にセキュリティとモバイル決済の分野で広く適用されている。顔認識技術における深層学習の幅広い適用により、深層学習に基づく顔認識の精度が大幅に向上している。

【0003】

ただし、より一般的な制約のない自然シナリオでは、カメラがビデオストリームを収集した後、キャプチャされた顔画像は、ぼやけているか、又はその顔領域が小さくなるなど、品質が悪いことが多くあり、それにより認識合格率が低くなるか、又は誤認識率が高くなる。

【発明の概要】

【0004】

本開示は、画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラムを提供する。

【0005】

本開示の第１態様によれば、
入力画像集合を取得するステップと、
入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するステップと、
訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するステップと、を含む画像認識モデルを構築するための方法を提供する。

【0006】

本開示の第２態様によれば、
認識される画像を取得するステップと、
認識される画像を、第１態様の実施方法のいずれかに記載された方法によって取得される画像認識モデルに入力し、認識される画像に対応する認識結果を出力するステップと、を含む画像認識方法を提供する。

【0007】

本開示の第３態様によれば、
入力画像集合を取得するように構成されている第１取得モジュールと、
入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するように構成されている訓練モジュールと、
訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するように構成されている組み合わせモジュールと、を含む画像認識モデルを構築するための装置を提供する。

【0008】

本開示の第４態様によれば、
認識される画像を取得するように構成されている第２取得モジュールと、
認識される画像を、第１態様の実施方法のいずれかに記載された方法によって取得される画像認識モデルに入力し、認識される画像に対応する認識結果を出力するように構成されている出力モジュールと、を含む画像認識装置を提供する。

【0009】

本開示の第５態様によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含む電子デバイスを提供し、
ここで、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記少なくとも１つのプロセッサが第１態様又は第２態様の実施方法のいずれかに記載された方法を実行できるように、前記命令が前記少なくとも１つのプロセッサによって実行される。

【0010】

本開示の第６態様によれば、コンピュータに第１態様又は第２態様の実施方法のいずれかに記載された方法を実行させるコンピュータ命令が記憶される非一時的なコンピュータ可読記憶媒体を提供する。

【0011】

本開示の第７態様によれば、プロセッサによって実行されると、第１態様又は第２態様の実施方法のいずれかに記載された方法を実現するコンピュータプログラムを提供する。

【0012】

この部分に記載されている内容は、本開示の実施例の重要又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことが理解されるべきである。本開示の他の特徴は、以下の説明を通して容易に理解される。

【図面の簡単な説明】

【0013】

図面は、本解決策をよりよく理解するために使用されており、本開示を限定するものではない。ここで：

【図1】本開示を適用できる例示的なシステムアーキテクチャ図である。

【図2】本開示による画像認識モデルを構築するための方法の一実施例を示すフローチャートである。

【図3】本開示による画像認識モデルを構築するための方法の一適用シナリオを示す概略図である。

【図4】本開示による画像認識モデルを構築するための方法の別の実施例を示すフローチャートである。

【図5】本開示による画像認識モデルを構築するための方法のさらに別の実施例を示すフローチャートである。

【図6】本開示による画像認識方法の一実施例を示すフローチャートである。

【図7】本開示による画像認識モデルを構築するための装置の一実施例を示す構造概略図である。

【図8】本開示による画像認識装置の一実施例を示す構造概略図である。

【図9】本開示の実施例による画像認識モデルを構築するための方法を実現するために使用される電子デバイスのブロック図である。

【発明を実施するための形態】

【0014】

以下、本開示の例示的な実施例について図面を参照して説明する。理解を容易にするために、それには、本開示の実施例の様々な詳細が含まれており、それらが単なる例示的なものであると見なすべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載された実施例の様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすく簡潔にするために、以下の説明では、公知の機能及び構造の説明を省略する。

【0015】

なお、本開示の実施例及び実施例の特徴は、矛盾がないという条件下で、互いに組み合わせることができる。以下、本開示について、図面を参照して実施例と併せて詳細に説明する。

【0016】

図１は、本開示を適用できる画像認識モデルを構築するための方法又は画像認識モデルを構築するための装置の実施例の例示的なシステムアーキテクチャ１００を示す。

【0017】

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクの媒体を提供するために使用される。ネットワーク１０４は、有線、無線通信リンク又は光ファイバケーブルなどの様々な接続タイプを含み得る。

【0018】

ユーザは、端末装置１０１、１０２、１０３を使用して、ネットワーク１０４を介してサーバ１０５と対話して、情報などを受信又は送信することができる。端末装置１０１、１０２、１０３には、様々なクライアントアプリケーションがインストールされて得る。

【0019】

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない様々な電子デバイスであってもよい。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、上記電子デバイスにインストールされて得る。それらは、複数のソフトウェア又はソフトウェアモジュールとして実装されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここに特別な制限はない。

【0020】

サーバ１０５は、様々なサービスを提供することができる。たとえば、サーバ１０５は、端末装置１０１、１０２、１０３から取得された入力画像集合を分析及び処理し、処理結果（たとえば、画像認識モデル）を生成することができる。

【0021】

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実装されてもよいし、単一のサーバとして実装されてもよい。サーバ１０５がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（たとえば、分散サービスを提供するために使用される）として実装されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここに特別な制限はない。

【0022】

なお、本開示の実施例が提供する画像認識モデルを構築するための方法は、一般にサーバ１０５によって実行され、これに応じて、画像認識モデルを構築するための装置は、一般にサーバ１０５に設置される。

【0023】

図１の端末装置、ネットワーク及びサーバの数は、単なる例示であることが理解されるべきである。実装のニーズに応じて、任意の数の端末装置、ネットワーク及びサーバを有することができる。

【0024】

図２を参照し続けると、それは、本開示による画像認識モデルを構築するための方法の一実施例のフロー２００を示す。当該画像認識モデルを構築するための方法は、以下のステップを含む。

【0025】

ステップ２０１：入力画像集合を取得する。

【0026】

本実施例では、画像認識モデルを構築するための方法の実行主体（図１に示されるサーバ１０５）は、少なくとも１つの入力画像を含み得る入力画像集合を取得することができる。

【0027】

なお、入力画像集合内の入力画像は、様々な方法で事前に収集された顔を含む複数の画像であってもよい。たとえば、入力画像集合は、既存の画像ライブラリから取得された複数の画像であってもよい。たとえば、入力画像集合はさらに、実際の適用シナリオにおける画像センサー（カメラセンサーなど）によってリアルタイムで収集された複数の画像であってもよい。これは本開示において特に限定されない。

【0028】

ステップ２０２：入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得する。

【0029】

本実施例では、上記実行主体は、ステップ２０１で取得された入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得することができる。

【0030】

ここで、初期超解像モデル及び初期認識モデルは、事前に決定することができ、たとえば、初期超解像モデルは、ＳＲＣＮＮ（Ｓｕｐｅｒ－ＲｅｓｏｌｕｔｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、ＦＳＲＣＮＮ（ＦａｓｔＳｕｐｅｒ－ＲｅｓｏｌｕｔｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、ＳＲＧＡＮ（Ｓｕｐｅｒ－ＲｅｓｏｌｕｔｉｏｎＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）などのモデルであってもよく、初期認識モデルは、既存のＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、残差ネットワーク）シリーズなどの分類認識モデルであってもよいし、実際のニーズに応じて設計されたモデルであってもよい。

【0031】

上記実行主体は、ステップ２０１で取得された入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、入力画像集合を介して初期超解像モデルと初期認識モデルのパラメータを調整し、共同訓練停止条件が満たされていると、訓練を停止し、それにより訓練された超解像モデルと認識モデルを取得することができる。ここで、共同訓練停止条件は、事前設定された訓練の回数、又は損失関数の値が低下しなくなること、又は特定の精度の閾値を設定し、事前設定された閾値に達すると訓練を停止することを含み得る。

【0032】

ステップ２０３：訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得する。

【0033】

本実施例では、上記実行主体は、ステップ２０２で取得された訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得することができる。当該ステップでは、訓練された超解像モデルを認識モデルの前に設定するため、認識モデルにより多くの情報を追加できるため、より良い効果を取得することができる。

【0034】

本開示の実施例が提供する画像認識モデルを構築するための方法では、最初に、入力画像集合を取得し、次に、入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得し、最後に、訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得する。本実施例における画像認識モデルを構築するための方法は、初期超解像モデルと初期認識モデルを共同訓練することにより、分類タスクに対する異なる解像度の画像の影響を軽減し、低品質データに対する画像認識モデルのロバスト性を向上させ、さらに、画像認識モデルの認識精度を向上させる。

【0035】

本開示の技術的解決手段では、関連するユーザの個人情報の取得、記憶及び適用などはいずれも、関連する法規の規定に準拠しており、公序良俗に違反していない。

【0036】

図３を参照し続けると、図３は、本開示による画像認識モデルを構築するための方法の一適用シナリオを示す概略図である。図３の適用シナリオでは、最初に、実行主体３０１は、入力画像集合３０２を取得し、次に、実行主体３０１は、入力画像集合３０２を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデル３０３と認識モデル３０４を取得し、最後に、実行主体３０１は、訓練された超解像モデル３０３と認識モデル３０４をカスケード方式で組み合わせて、画像認識モデル３０５を取得する。

【0037】

図４を参照し続けると、図４は、本開示による画像認識モデルを構築するための方法の別の実施例のフロー４００を示す。当該画像認識モデルを構築するための方法は、以下のステップを含む。

【0038】

ステップ４０１：入力画像集合を取得する。

【0039】

ステップ４０１は、基本的に、前述の実施例のステップ２０１と同じであり、特定の実施方法については、ステップ２０１の前述の説明を参照することができ、ここでは詳細を繰り返さない。

【0040】

ステップ４０２：入力画像集合と入力画像集合に対応する復元画像集合を利用して初期超解像モデルの損失関数を計算し、勾配降下法を採用して初期超解像モデルのパラメータを更新して、訓練された超解像モデルを取得する。

【0041】

本実施例では、画像認識モデルを構築するための方法の実行主体（図１に示されるサーバ１０５）は、入力画像集合が取得された後、当該入力画像集合内の各画像に対応する復元画像を決定して、入力画像集合に対応する復元画像集合を取得することができる。

【0042】

次に、上記実行主体は、入力画像集合内の入力画像と復元画像集合内の対応する復元画像を利用して、初期超解像モデルの損失関数を計算し、勾配降下法を採用して、段階的に反復的に解き、それにより最小化された損失関数とモデルパラメータ値を取得することができる。

【0043】

最後に、これらの取得されたモデルパラメータ値で初期超解像モデルのパラメータを更新して、訓練された超解像モデルを取得することにより、結果品質を向上させる。

【0044】

ステップ４０３：入力画像集合と復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算し、勾配降下法を採用して初期認識モデルのパラメータを更新して、訓練された認識モデルを取得する。

【0045】

本実施例では、上記実行主体は、入力画像集合と復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算することができ、たとえば、最初に、入力画像集合と復元画像集合内の画像をマージして、最終的な画像集合を取得し、次に、取得された画像集合内の画像特徴間の距離を計算し、これらの距離に基づいて初期認識モデルの損失関数を計算することができる。

【0046】

その後、勾配降下法を採用して段階的に反復的に解いて、最小化された損失関数とモデルパラメータ値を取得し、次に、これらの取得されたモデルパラメータ値で初期認識モデルのパラメータを更新して、訓練された認識モデルを取得することにより、認識モデルの分類精度を向上させる。

【0047】

本実施例のいくつかのオプションの実施方法では、上記勾配降下法は、確率的勾配降下法である。確率的勾配降下法を採用すると、最小化された損失関数とモデルパラメータ値をより迅速に取得し、モデル訓練の効率を向上させることができる。

【0048】

ステップ４０４：訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端に接続して、画像認識モデルを取得する。

【0049】

本実施例では、上記実行主体は、訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端に接続して、画像認識モデルを取得することができる。訓練された超解像モデルを認識モデルの前に設定することにより、認識モデルにより多くの情報を追加して、より良い効果を取得することができる。

【0050】

図４から分かるように、図２に対応する実施例と比較して、本実施例における画像認識モデルを構築するための方法は、入力画像集合を利用して初期超解像モデルと初期認識モデルを訓練するステップを強調し、モデル訓練の効率を向上させ、訓練された超解像モデルと認識モデルの精度も向上させ、幅広いアプリケーションを備えている。

【0051】

図５を参照し続けると、図５は、本開示による画像認識モデルを構築するための方法のさらに別の実施例のフロー５００を示す。当該画像認識モデルを構築するための方法は、以下のステップを含む。

【0052】

ステップ５０１：入力画像集合を取得する。

【0053】

ステップ５０１は、基本的に、前述の実施例のステップ４０１と同じであり、特定の実施方法については、ステップ４０１の前述の説明を参照することができ、ここでは詳細を繰り返さない。

【0054】

ステップ５０２：入力画像集合内の画像をダウンサンプリングして、ダウンサンプリング画像集合を取得する。

【0055】

本実施例では、画像認識モデルを構築するための方法の実行主体（図１に示されるサーバ１０５）は、入力画像集合内の各画像をダウンサンプリングして、対応するダウンサンプリング画像を取得し、さらに、入力画像集合内の各入力画像に対応するダウンサンプリング画像を含むダウンサンプリング画像集合を取得することができる。当該ステップで取得されたダウンサンプリング画像は、実際の適用シナリオにより適する低品質の画像である。

【0056】

ステップ５０３：初期超解像モデルを利用して、ダウンサンプリング画像集合内の画像を復元して、復元画像集合を取得する。

【0057】

本実施例では、上記実行主体は、初期超解像モデルを利用して、ダウンサンプリング画像集合内の各ダウンサンプリング画像を復元して、対応する復元画像を取得することができ、当該復元画像は、ステップ５０２で取得された低品質の画像を復元して取得された高品質の画像であり、さらに、ダウンサンプリング画像集合内の各ダウンサンプリング画像に対応する復元画像を含む復元画像集合を取得することができる。

【0058】

ステップ５０４：入力画像集合と復元画像集合に基づいて、初期超解像モデルの再構成損失を計算し、勾配降下法を採用して初期超解像モデルのパラメータを更新して、訓練された超解像モデルを取得する。

【0059】

本実施例では、上記実行主体は、入力画像集合内の入力画像と復元画像集合内の当該入力画像に対応する復元画像を利用して再構成損失を計算し、且つ勾配降下法を採用して段階的に反復的に解くことにより、最小化された損失関数とモデルパラメータ値を取得することができ、次に、これらの取得されたモデルパラメータ値で初期超解像モデルのパラメータを更新することにより、訓練された超解像モデルを取得することができる。

【0060】

上記ステップにより、超解像モデルの結果品質を向上させる。

【0061】

ステップ５０５：入力画像集合、ダウンサンプリング画像集合及び復元画像集合をマージして、ターゲット画像集合を取得する。

【0062】

本実施例では、上記実行主体は、入力画像集合、ダウンサンプリング画像集合及び復元画像集合をマージして、ターゲット画像集合を取得することができる。

【0063】

ステップ５０６：ターゲット画像集合内の画像の特徴を抽出し、ターゲット画像集合内の画像の特徴間の距離を計算する。

【0064】

本実施例では、上記実行主体は、ターゲット画像集合内の各画像の特徴を抽出し、抽出された特徴に基づいてターゲット画像集合内の画像間の距離を計算することができる。

【0065】

オプションで、入力画像集合を取得する前に、入力画像集合内の入力画像に注釈を付け、各ターゲットオブジェクトに１つのＩＤ（ＩｄｅｎｔｉｔｙＤｏｃｕｍｅｎｔ、識別番号）を与えることができ、当該ターゲットオブジェクトは、入力画像内の顔で表されるオブジェクトであり、入力画像集合内の各ターゲットオブジェクトに対応する入力画像は、同じＩＤを有すべきであり、ダウンサンプリング画像と復元画像のＩＤは、入力画像のＩＤに対応する。

【0066】

これに基づいて、本ステップでは、ＩＤに基づいて画像間の距離を計算し、抽出された画像特徴に基づいて同じＩＤを有するすべての画像間の距離を計算し、次に、異なるＩＤを有する画像間の距離を計算することができる。

【0067】

ステップ５０７：距離に基づいて初期認識モデルのバイナリ損失関数を計算し、勾配降下法を採用して初期認識モデルのパラメータを更新して、訓練された認識モデルを取得する。

【0068】

本実施例では、上記実行主体は、ステップ５０６で計算された距離に基づいて初期認識モデルのバイナリ損失関数を計算することができる。

【0069】

オプションで、２つの画像が同じＩＤを有している場合、損失関数は、２つの画像間の距離の２乗である。２つの画像が異なるＩＤを有している場合、最初に、２つの画像間のｍａｒｇｉｎを求め、次に、ｍａｘを求めて、この時点での損失値を取得する。すなわち、同じＩＤの画像間の距離は、近くなり、異なるＩＤのすべての画像間の距離は、遠くなるため、クラス間の差異は、大きくなり、クラス内の差異は、小さくなる。

【0070】

次に、勾配降下法を採用して段階的に反復的に解いて、最小化された損失関数とモデルパラメータ値を取得し、次に、これらの取得されたモデルパラメータ値で初期認識モデルのパラメータを更新して、訓練された認識モデルを取得する。

【0071】

上記ステップにより、認識モデルの分類精度を向上させる。

【0072】

ステップ５０８：訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端に接続して、画像認識モデルを取得する。

【0073】

ステップ５０８は、基本的に、前述の実施例のステップ４０４と同じであり、特定の実施方法については、ステップ４０４の前述の説明を参照することができ、ここでは詳細を繰り返さない。

【0074】

図５から分かるように、図４に対応する実施例と比較して、本実施例における画像認識モデルを構築するための方法は、入力画像集合と復元画像集合に基づいて初期超解像モデルの再構成損失と、初期認識モデルのバイナリ損失関数とを計算し、勾配降下法を採用して初期超解像モデルと初期認識モデルのパラメータを更新して、訓練された超解像モデルと認識モデルを取得し、それにより超解像モデルの結果品質と認識モデルの分類精度を向上させる。

【0075】

図６を参照し続けると、図６は、本開示による画像認識方法の一実施例のフロー６００を示す。当該画像認識方法は、以下のステップを含む。

【0076】

ステップ６０１：認識される画像を取得する。

【0077】

本実施例では、画像認識方法の実行主体（図１に示されるサーバ１０５）は、認識される画像を取得することができ、ここで、認識される画像は、顔認識の実際の適用シナリオで、カメラセンサーによって収集された顔を含む画像であってもよい。

【0078】

ステップ６０２：認識される画像を画像認識モデルに入力し、認識される画像に対応する認識結果を出力する。

【0079】

本実施例では、上記実行主体は、認識される画像を画像認識モデルに入力し、認識される画像に対応する認識結果を出力することができ、ここで、画像認識モデルは、前述の実施例における画像認識モデルを構築するための方法によって取得されてもよい。

【0080】

上記実行主体が認識される画像を画像認識モデルに入力すると、画像認識モデルは、最初に、認識される画像を復元して、対応する復元画像を取得し、次に、認識される画像と復元画像の特徴を抽出し、当該特徴に基づいて特徴を分類し、それにより対応する認識結果を取得し、当該認識結果を出力する。

【0081】

本開示の実施例が提供する画像認識方法では、最初に、認識される画像を取得し、次に、認識される画像を画像認識モデルに入力し、認識される画像に対応する認識結果を出力する。本実施例の画像認識方法は、事前に訓練された画像認識モデルを使用して認識される画像を認識して、認識結果の精度を向上させる。

【0082】

図７をさらに参照すると、上記の各図に示される方法の実現として、本開示は、画像認識モデルを構築するための装置の一実施例を提供し、当該装置の実施例は、図２に示される方法の実施例に対応し、当該装置は、特に様々な電子デバイスに適用することができる。

【0083】

図７に示すように、本実施例の画像認識モデルを構築するための装置７００は、第１取得モジュール７０１、訓練モジュール７０２及び組み合わせモジュール７０３を含む。ここで、第１取得モジュール７０１は、入力画像集合を取得するように構成されており、訓練モジュール７０２は、入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するように構成されており、組み合わせモジュール７０３は、訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するように構成されている。

【0084】

本実施例では、画像認識モデルを構築するための装置７００において、第１取得モジュール７０１、訓練モジュール７０２及び組み合わせモジュール７０３の特定の処理、ならびにそれらによってもたらされる技術的効果は、図２に対応する実施例におけるステップ２０１～２０３の関連する説明をそれぞれ参照することができ、ここでは繰り返されない。

【0085】

本実施例のいくつかのオプションの実施方法では、
訓練モジュールは、
入力画像集合と入力画像集合に対応する復元画像集合を利用して初期超解像モデルの損失関数を計算し、勾配降下法を採用して初期超解像モデルのパラメータを更新するように構成されている第１更新サブモジュールと、
入力画像集合と復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算し、勾配降下法を採用して初期認識モデルのパラメータを更新するように構成されている第２更新サブモジュールと、を含む。

【0086】

本実施例のいくつかのオプションの実施方法では、
第１更新サブモジュールは、
入力画像集合内の画像をダウンサンプリングして、ダウンサンプリング画像集合を取得するように構成されているダウンサンプリングユニットと、
初期超解像モデルを利用してダウンサンプリング画像集合内の画像を復元して、復元画像集合を取得するように構成されている復元ユニットと、
入力画像集合と復元画像集合に基づいて初期超解像モデルの再構成損失を計算するように構成されている第１計算ユニットと、を含む。

【0087】

本実施例のいくつかのオプションの実施方法では、
第２更新サブモジュールは、
入力画像集合、ダウンサンプリング画像集合及び復元画像集合をマージして、ターゲット画像集合を取得するように構成されているマージユニットと、
ターゲット画像集合内の画像の特徴を抽出するように構成されている抽出ユニットと、
ターゲット画像集合内の画像の特徴間の距離を計算するように構成されている第２計算ユニットと、
距離に基づいて初期認識モデルのバイナリ損失関数を計算するように構成されている第３計算ユニットと、を含む。

【0088】

本実施例のいくつかのオプションの実施方法では、組み合わせモジュールは、訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端を接続するように構成されている接続サブモジュールを含む。

【0089】

図８をさらに参照すると、上記の各図に示される方法の実現として、本開示は、画像認識装置の一実施例を提供し、当該装置の実施例は、図６に示される方法の実施例に対応し、当該装置は、特に様々な電子デバイスに適用することができる。

【0090】

図８に示すように、本実施例の画像認識装置８００は、第２取得モジュール８０１と出力モジュール８０２を含む。ここで、第２取得モジュール８０１は、認識される画像を取得するように構成されており、出力モジュール８０２は、認識される画像を画像認識モデルに入力し、認識される画像に対応する認識結果を出力するように構成されている。

【0091】

本実施例では、画像認識装置８００において、第２取得モジュール８０１と出力モジュール８０２の特定の処理、ならびにそれらによってもたらされる技術的効果は、図６に対応する実施例におけるステップ６０１～６０２の関連する説明をそれぞれ参照することができ、ここでは繰り返されない。

【0092】

本開示の実施例によれば、本開示はさらに、電子デバイス、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。

【0093】

図９は、本開示の実施例を実施できる例示的な電子デバイス９００の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを目的としている。電子デバイスはさらに、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス及びその他の同様のコンピューティングデバイスなど、様々な形式のモバイルデバイスを表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書に記載及び／又は要求される本開示の実現を制限することを意図するものではない。

【0094】

図９に示すように、デバイス９００は、読み取り専用メモリ（ＲＯＭ）９０２に記憶されたコンピュータプログラム、又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行できる計算ユニット９０１を含む。ＲＡＭ９０３には、デバイス９００の操作に必要な様々なプログラム及びデータが記憶されることもできる。計算ユニット９０１、ＲＯＭ９０２及びＲＡＭ９０３は、バス９０４を介して互いに接続されている。入出力（Ｉ／Ｏ）インターフェース９０５もバス９０４に接続されている。

【0095】

デバイス９００内の複数のコンポーネントは、Ｉ／Ｏインターフェース９０５に接続されており、それらは、キーボード、マウスなどの入力ユニット９０６と、様々なタイプのディスプレイ、スピーカーなどの出力ユニット９０７と、磁気ディスク、光ディスクなどの記憶ユニット９０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット９０９と、を含む。通信ユニット９０９は、デバイス９００がインターネットのコンピュータネットワーク及び／又は様々な電気通信ネットワークなどを介して他のデバイスと情報／データを交換することを可能にする。

【0096】

計算ユニット９０１は、処理及び計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット９０１のいくつかの例には、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロプロセッサなどが含まれるが、これらに限定されない。計算ユニット９０１は、画像認識モデルを構築するための方法又は画像認識方法などの上記の各方法及び処理を実行する。たとえば、いくつかの実施例では、画像認識モデルを構築するための方法又は画像認識方法は、記憶ユニット９０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信ユニット９０９を介してデバイス９００にロード及び／又はインストールされて得る。コンピュータプログラムがＲＡＭ９０３にロードされ、計算ユニット９０１によって実行されると、上記の画像認識モデルを構築するための方法又は画像認識方法の１つ又は複数のステップを実行することができる。あるいは、他の実施例では、計算ユニット９０１は、他の任意の適切な方法（たとえば、ファームウェアによる）によって、画像認識モデルを構築するための方法又は画像認識方法を実行するように構成されてもよい。

【0097】

上記のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含み得、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行及び／又は解釈されてもよく、当該プログラム可能なプロセッサは、専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に送信することができる。

【0098】

本開示を実施するための方法のプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによりプログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図で規定された機能／操作が実施される。プログラムコードは、完全に機械上で実行され得、部分的に機械上で実行され得、スタンドアロンソフトウェアパッケージとして部分的に機械上で実行され得、かつ部分的にリモート機械上で実行され得、又は完全にリモート機械又はサーバ上で実行され得る。

【0099】

本開示の文脈において、機械読み取り可能な媒体は、有形媒体であってもよく、それは、命令実行システム、装置又はデバイスによって使用されるか、又は命令実行システム、装置又はデバイスと組み合わせて使用されるプログラムを含むか、又は記憶することができる。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容の任意の適切な組み合わせを含み得るが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、又は上記内容の任意の適切な組み合わせを含む。

【0100】

ユーザとの対話を提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（たとえば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（たとえば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。その他の種類の装置も、ユーザとの対話を提供することができ、たとえば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（たとえば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力、音声入力又は、触覚入力を含む）でユーザからの入力を受信することができる。

【0101】

ここで説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム（たとえば、データサーバとして）、又はミドルウェアコンポーネントを含む計算システム（たとえば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含む計算システム（たとえば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザを介して、ここで説明されているシステム及び技術の実施形態と対話することができる）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実行され得る。任意の形式又は媒体のデジタルデータ通信（たとえば、通信ネットワーク）によって、システムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットを含む。

【0102】

コンピュータシステムは、クライアント及びサーバを含み得る。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよいし、分散システムのサーバ又はブロックチェーンを組み合わせたサーバであってもよい。

【0103】

上記の様々な形式のフローを使用して、再ソートし、ステップを追加又は削除することができることが理解されるべきである。たとえば、本開示に記載されている各ステップは、並行して実行してもよく、順次に実行してもよく、異なる順序で実行してもよく、本開示に開示されている技術的解決手段の所望の結果を達成できる限り、本明細書は、ここでは制限しない。

【0104】

上記の特定の実施形は、本開示の保護範囲に対する制限を構成するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができると理解すべきである。任意の本開示の精神及び原則内で行われる修正、同等の置換及び改善などはいずれも、本開示の保護範囲内に含まれるべきである。

【図1】