IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2022-122989画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム
<>
  • 特開-画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム 図1
  • 特開-画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム 図2
  • 特開-画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム 図3
  • 特開-画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム 図4
  • 特開-画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム 図5
  • 特開-画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム 図6
  • 特開-画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム 図7
  • 特開-画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム 図8
  • 特開-画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022122989
(43)【公開日】2022-08-23
(54)【発明の名称】画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム
(51)【国際特許分類】
   G06V 10/70 20220101AFI20220816BHJP
   G06T 7/00 20170101ALI20220816BHJP
【FI】
G06V10/70
G06T7/00 350C
【審査請求】有
【請求項の数】16
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2022092371
(22)【出願日】2022-06-07
(31)【優先権主張番号】202110856547.1
(32)【優先日】2021-07-28
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際特許業務法人
(72)【発明者】
【氏名】ジャン ワンピン
(57)【要約】      (修正有)
【課題】顔認識などのシナリオに適用できる、低品質の画像データに対する画像認識モデルのロバスト性を向上させる画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体並びにコンピュータプログラムを提供する。
【解決手段】方法は、入力画像集合を取得するステップと、入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するステップと、訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するステップと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
入力画像集合を取得するスッテプと、
前記入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するスッテプと、
前記訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するスッテプと、を含む画像認識モデルを構築するための方法。
【請求項2】
前記入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練することは、
前記入力画像集合と前記入力画像集合に対応する復元画像集合を利用して初期超解像モデルの損失関数を計算し、勾配降下法を採用して前記初期超解像モデルのパラメータを更新するスッテプと、
前記入力画像集合と前記復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算し、勾配降下法を採用して前記初期認識モデルのパラメータを更新するスッテプと、を含む請求項1に記載の方法。
【請求項3】
前記入力画像集合と前記入力画像集合に対応する復元画像集合を利用して初期超解像モデルの損失関数を計算することは、
前記入力画像集合内の画像をダウンサンプリングして、ダウンサンプリング画像集合を取得するスッテプと、
前記初期超解像モデルを利用して前記ダウンサンプリング画像集合内の画像を復元して、復元画像集合を取得するスッテプと、
前記入力画像集合と前記復元画像集合に基づいて前記初期超解像モデルの再構成損失を計算するスッテプと、を含む請求項2に記載の方法。
【請求項4】
前記入力画像集合と前記復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算することは、
前記入力画像集合、前記ダウンサンプリング画像集合及び前記復元画像集合をマージして、ターゲット画像集合を取得するスッテプと、
前記ターゲット画像集合内の画像の特徴を抽出するスッテプと、
前記ターゲット画像集合内の画像の特徴間の距離を計算するスッテプと、
前記距離に基づいて前記初期認識モデルのバイナリ損失関数を計算するスッテプと、を含む請求項3に記載の方法。
【請求項5】
前記勾配降下法が確率的勾配降下法である、請求項2に記載の方法。
【請求項6】
前記訓練された超解像モデルと認識モデルをカスケード方式で組み合わせることは、
前記訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端に接続するスッテプを含む請求項1に記載の方法。
【請求項7】
認識される画像を取得するスッテプと、
前記認識される画像を、請求項1~6のいずれか一項に記載の画像認識モデルを構築するための方法によって取得される画像認識モデルに入力し、前記認識される画像に対応する認識結果を出力するスッテプと、を含む画像認識方法。
【請求項8】
入力画像集合を取得するように構成されている第1取得モジュールと、
前記入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するように構成されている訓練モジュールと、
前記訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するように構成されている組み合わせモジュールと、を含む画像認識モデルを構築するための装置。
【請求項9】
前記訓練モジュールは、
前記入力画像集合と前記入力画像集合に対応する復元画像集合を利用して初期超解像モデルの損失関数を計算し、勾配降下法を採用して前記初期超解像モデルのパラメータを更新するように構成されている第1更新サブモジュールと、
前記入力画像集合と前記復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算し、勾配降下法を採用して前記初期認識モデルのパラメータを更新するように構成されている第2更新サブモジュールと、を含む請求項8に記載の装置。
【請求項10】
前記第1更新サブモジュールは、
前記入力画像集合内の画像をダウンサンプリングして、ダウンサンプリング画像集合を取得するように構成されているダウンサンプリングユニットと、
前記初期超解像モデルを利用して前記ダウンサンプリング画像集合内の画像を復元して、復元画像集合を取得するように構成されている復元ユニットと、
前記入力画像集合と前記復元画像集合に基づいて前記初期超解像モデルの再構成損失を計算するように構成されている第1計算ユニットと、を含む請求項9に記載の装置。
【請求項11】
前記第2更新サブモジュールは、
前記入力画像集合、前記ダウンサンプリング画像集合及び前記復元画像集合をマージして、ターゲット画像集合を取得するように構成されているマージユニットと、
前記ターゲット画像集合内の画像の特徴を抽出するように構成されている抽出ユニットと、
前記ターゲット画像集合内の画像の特徴間の距離を計算するように構成されている第2計算ユニットと、
前記距離を前記初期認識モデルのバイナリ損失関数を計算するように構成されている第3計算ユニットと、を含む請求項10に記載の装置。
【請求項12】
前記組み合わせモジュールは、
前記訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端に接続するように構成されている接続サブモジュールを含む請求項8に記載の装置。
【請求項13】
認識される画像を取得するように構成されている第2取得モジュールと、
前記認識される画像を、請求項1~6のいずれか一項に記載の画像認識モデルを構築するための方法によって取得される画像認識モデルに入力し、前記認識される画像に対応する認識結果を出力するように構成されている出力モジュールと、を含む画像認識装置。
【請求項14】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含む電子デバイスであって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1~7のいずれか一項に記載の方法を実行できる、電子デバイス。
【請求項15】
コンピュータに請求項1~7のいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶される非一時的なコンピュータ可読記憶媒体。
【請求項16】
プロセッサによって実行すると、請求項1~7のいずれか一項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の技術分野に関し、特にコンピュータビジョン及び深層学習の技術分野に関し、特に、顔認識などのシナリオに適用できる画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラムに関する。
【背景技術】
【0002】
顔認識は、コンピュータビジョン技術で最も早く、最も広く実装されている技術の1つであり、特にセキュリティとモバイル決済の分野で広く適用されている。顔認識技術における深層学習の幅広い適用により、深層学習に基づく顔認識の精度が大幅に向上している。
【0003】
ただし、より一般的な制約のない自然シナリオでは、カメラがビデオストリームを収集した後、キャプチャされた顔画像は、ぼやけているか、又はその顔領域が小さくなるなど、品質が悪いことが多くあり、それにより認識合格率が低くなるか、又は誤認識率が高くなる。
【発明の概要】
【0004】
本開示は、画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラムを提供する。
【0005】
本開示の第1態様によれば、
入力画像集合を取得するステップと、
入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するステップと、
訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するステップと、を含む画像認識モデルを構築するための方法を提供する。
【0006】
本開示の第2態様によれば、
認識される画像を取得するステップと、
認識される画像を、第1態様の実施方法のいずれかに記載された方法によって取得される画像認識モデルに入力し、認識される画像に対応する認識結果を出力するステップと、を含む画像認識方法を提供する。
【0007】
本開示の第3態様によれば、
入力画像集合を取得するように構成されている第1取得モジュールと、
入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するように構成されている訓練モジュールと、
訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するように構成されている組み合わせモジュールと、を含む画像認識モデルを構築するための装置を提供する。
【0008】
本開示の第4態様によれば、
認識される画像を取得するように構成されている第2取得モジュールと、
認識される画像を、第1態様の実施方法のいずれかに記載された方法によって取得される画像認識モデルに入力し、認識される画像に対応する認識結果を出力するように構成されている出力モジュールと、を含む画像認識装置を提供する。
【0009】
本開示の第5態様によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含む電子デバイスを提供し、
ここで、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記少なくとも1つのプロセッサが第1態様又は第2態様の実施方法のいずれかに記載された方法を実行できるように、前記命令が前記少なくとも1つのプロセッサによって実行される。
【0010】
本開示の第6態様によれば、コンピュータに第1態様又は第2態様の実施方法のいずれかに記載された方法を実行させるコンピュータ命令が記憶される非一時的なコンピュータ可読記憶媒体を提供する。
【0011】
本開示の第7態様によれば、プロセッサによって実行されると、第1態様又は第2態様の実施方法のいずれかに記載された方法を実現するコンピュータプログラムを提供する。
【0012】
この部分に記載されている内容は、本開示の実施例の重要又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことが理解されるべきである。本開示の他の特徴は、以下の説明を通して容易に理解される。
【図面の簡単な説明】
【0013】
図面は、本解決策をよりよく理解するために使用されており、本開示を限定するものではない。ここで:
図1】本開示を適用できる例示的なシステムアーキテクチャ図である。
図2】本開示による画像認識モデルを構築するための方法の一実施例を示すフローチャートである。
図3】本開示による画像認識モデルを構築するための方法の一適用シナリオを示す概略図である。
図4】本開示による画像認識モデルを構築するための方法の別の実施例を示すフローチャートである。
図5】本開示による画像認識モデルを構築するための方法のさらに別の実施例を示すフローチャートである。
図6】本開示による画像認識方法の一実施例を示すフローチャートである。
図7】本開示による画像認識モデルを構築するための装置の一実施例を示す構造概略図である。
図8】本開示による画像認識装置の一実施例を示す構造概略図である。
図9】本開示の実施例による画像認識モデルを構築するための方法を実現するために使用される電子デバイスのブロック図である。
【発明を実施するための形態】
【0014】
以下、本開示の例示的な実施例について図面を参照して説明する。理解を容易にするために、それには、本開示の実施例の様々な詳細が含まれており、それらが単なる例示的なものであると見なすべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載された実施例の様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすく簡潔にするために、以下の説明では、公知の機能及び構造の説明を省略する。
【0015】
なお、本開示の実施例及び実施例の特徴は、矛盾がないという条件下で、互いに組み合わせることができる。以下、本開示について、図面を参照して実施例と併せて詳細に説明する。
【0016】
図1は、本開示を適用できる画像認識モデルを構築するための方法又は画像認識モデルを構築するための装置の実施例の例示的なシステムアーキテクチャ100を示す。
【0017】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104及びサーバ105を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクの媒体を提供するために使用される。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブルなどの様々な接続タイプを含み得る。
【0018】
ユーザは、端末装置101、102、103を使用して、ネットワーク104を介してサーバ105と対話して、情報などを受信又は送信することができる。端末装置101、102、103には、様々なクライアントアプリケーションがインストールされて得る。
【0019】
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない様々な電子デバイスであってもよい。端末装置101、102、103がソフトウェアである場合、それらは、上記電子デバイスにインストールされて得る。それらは、複数のソフトウェア又はソフトウェアモジュールとして実装されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここに特別な制限はない。
【0020】
サーバ105は、様々なサービスを提供することができる。たとえば、サーバ105は、端末装置101、102、103から取得された入力画像集合を分析及び処理し、処理結果(たとえば、画像認識モデル)を生成することができる。
【0021】
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実装されてもよいし、単一のサーバとして実装されてもよい。サーバ105がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(たとえば、分散サービスを提供するために使用される)として実装されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここに特別な制限はない。
【0022】
なお、本開示の実施例が提供する画像認識モデルを構築するための方法は、一般にサーバ105によって実行され、これに応じて、画像認識モデルを構築するための装置は、一般にサーバ105に設置される。
【0023】
図1の端末装置、ネットワーク及びサーバの数は、単なる例示であることが理解されるべきである。実装のニーズに応じて、任意の数の端末装置、ネットワーク及びサーバを有することができる。
【0024】
図2を参照し続けると、それは、本開示による画像認識モデルを構築するための方法の一実施例のフロー200を示す。当該画像認識モデルを構築するための方法は、以下のステップを含む。
【0025】
ステップ201:入力画像集合を取得する。
【0026】
本実施例では、画像認識モデルを構築するための方法の実行主体(図1に示されるサーバ105)は、少なくとも1つの入力画像を含み得る入力画像集合を取得することができる。
【0027】
なお、入力画像集合内の入力画像は、様々な方法で事前に収集された顔を含む複数の画像であってもよい。たとえば、入力画像集合は、既存の画像ライブラリから取得された複数の画像であってもよい。たとえば、入力画像集合はさらに、実際の適用シナリオにおける画像センサー(カメラセンサーなど)によってリアルタイムで収集された複数の画像であってもよい。これは本開示において特に限定されない。
【0028】
ステップ202:入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得する。
【0029】
本実施例では、上記実行主体は、ステップ201で取得された入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得することができる。
【0030】
ここで、初期超解像モデル及び初期認識モデルは、事前に決定することができ、たとえば、初期超解像モデルは、SRCNN(Super-Resolution Convolutional Neural Networks)、FSRCNN(Fast Super-Resolution Convolutional Neural Networks)、SRGAN(Super-Resolution Generative Adversarial Network)などのモデルであってもよく、初期認識モデルは、既存のResNet(ResidualNetwork、残差ネットワーク)シリーズなどの分類認識モデルであってもよいし、実際のニーズに応じて設計されたモデルであってもよい。
【0031】
上記実行主体は、ステップ201で取得された入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、入力画像集合を介して初期超解像モデルと初期認識モデルのパラメータを調整し、共同訓練停止条件が満たされていると、訓練を停止し、それにより訓練された超解像モデルと認識モデルを取得することができる。ここで、共同訓練停止条件は、事前設定された訓練の回数、又は損失関数の値が低下しなくなること、又は特定の精度の閾値を設定し、事前設定された閾値に達すると訓練を停止することを含み得る。
【0032】
ステップ203:訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得する。
【0033】
本実施例では、上記実行主体は、ステップ202で取得された訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得することができる。当該ステップでは、訓練された超解像モデルを認識モデルの前に設定するため、認識モデルにより多くの情報を追加できるため、より良い効果を取得することができる。
【0034】
本開示の実施例が提供する画像認識モデルを構築するための方法では、最初に、入力画像集合を取得し、次に、入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得し、最後に、訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得する。本実施例における画像認識モデルを構築するための方法は、初期超解像モデルと初期認識モデルを共同訓練することにより、分類タスクに対する異なる解像度の画像の影響を軽減し、低品質データに対する画像認識モデルのロバスト性を向上させ、さらに、画像認識モデルの認識精度を向上させる。
【0035】
本開示の技術的解決手段では、関連するユーザの個人情報の取得、記憶及び適用などはいずれも、関連する法規の規定に準拠しており、公序良俗に違反していない。
【0036】
図3を参照し続けると、図3は、本開示による画像認識モデルを構築するための方法の一適用シナリオを示す概略図である。図3の適用シナリオでは、最初に、実行主体301は、入力画像集合302を取得し、次に、実行主体301は、入力画像集合302を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデル303と認識モデル304を取得し、最後に、実行主体301は、訓練された超解像モデル303と認識モデル304をカスケード方式で組み合わせて、画像認識モデル305を取得する。
【0037】
図4を参照し続けると、図4は、本開示による画像認識モデルを構築するための方法の別の実施例のフロー400を示す。当該画像認識モデルを構築するための方法は、以下のステップを含む。
【0038】
ステップ401:入力画像集合を取得する。
【0039】
ステップ401は、基本的に、前述の実施例のステップ201と同じであり、特定の実施方法については、ステップ201の前述の説明を参照することができ、ここでは詳細を繰り返さない。
【0040】
ステップ402:入力画像集合と入力画像集合に対応する復元画像集合を利用して初期超解像モデルの損失関数を計算し、勾配降下法を採用して初期超解像モデルのパラメータを更新して、訓練された超解像モデルを取得する。
【0041】
本実施例では、画像認識モデルを構築するための方法の実行主体(図1に示されるサーバ105)は、入力画像集合が取得された後、当該入力画像集合内の各画像に対応する復元画像を決定して、入力画像集合に対応する復元画像集合を取得することができる。
【0042】
次に、上記実行主体は、入力画像集合内の入力画像と復元画像集合内の対応する復元画像を利用して、初期超解像モデルの損失関数を計算し、勾配降下法を採用して、段階的に反復的に解き、それにより最小化された損失関数とモデルパラメータ値を取得することができる。
【0043】
最後に、これらの取得されたモデルパラメータ値で初期超解像モデルのパラメータを更新して、訓練された超解像モデルを取得することにより、結果品質を向上させる。
【0044】
ステップ403:入力画像集合と復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算し、勾配降下法を採用して初期認識モデルのパラメータを更新して、訓練された認識モデルを取得する。
【0045】
本実施例では、上記実行主体は、入力画像集合と復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算することができ、たとえば、最初に、入力画像集合と復元画像集合内の画像をマージして、最終的な画像集合を取得し、次に、取得された画像集合内の画像特徴間の距離を計算し、これらの距離に基づいて初期認識モデルの損失関数を計算することができる。
【0046】
その後、勾配降下法を採用して段階的に反復的に解いて、最小化された損失関数とモデルパラメータ値を取得し、次に、これらの取得されたモデルパラメータ値で初期認識モデルのパラメータを更新して、訓練された認識モデルを取得することにより、認識モデルの分類精度を向上させる。
【0047】
本実施例のいくつかのオプションの実施方法では、上記勾配降下法は、確率的勾配降下法である。確率的勾配降下法を採用すると、最小化された損失関数とモデルパラメータ値をより迅速に取得し、モデル訓練の効率を向上させることができる。
【0048】
ステップ404:訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端に接続して、画像認識モデルを取得する。
【0049】
本実施例では、上記実行主体は、訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端に接続して、画像認識モデルを取得することができる。訓練された超解像モデルを認識モデルの前に設定することにより、認識モデルにより多くの情報を追加して、より良い効果を取得することができる。
【0050】
図4から分かるように、図2に対応する実施例と比較して、本実施例における画像認識モデルを構築するための方法は、入力画像集合を利用して初期超解像モデルと初期認識モデルを訓練するステップを強調し、モデル訓練の効率を向上させ、訓練された超解像モデルと認識モデルの精度も向上させ、幅広いアプリケーションを備えている。
【0051】
図5を参照し続けると、図5は、本開示による画像認識モデルを構築するための方法のさらに別の実施例のフロー500を示す。当該画像認識モデルを構築するための方法は、以下のステップを含む。
【0052】
ステップ501:入力画像集合を取得する。
【0053】
ステップ501は、基本的に、前述の実施例のステップ401と同じであり、特定の実施方法については、ステップ401の前述の説明を参照することができ、ここでは詳細を繰り返さない。
【0054】
ステップ502:入力画像集合内の画像をダウンサンプリングして、ダウンサンプリング画像集合を取得する。
【0055】
本実施例では、画像認識モデルを構築するための方法の実行主体(図1に示されるサーバ105)は、入力画像集合内の各画像をダウンサンプリングして、対応するダウンサンプリング画像を取得し、さらに、入力画像集合内の各入力画像に対応するダウンサンプリング画像を含むダウンサンプリング画像集合を取得することができる。当該ステップで取得されたダウンサンプリング画像は、実際の適用シナリオにより適する低品質の画像である。
【0056】
ステップ503:初期超解像モデルを利用して、ダウンサンプリング画像集合内の画像を復元して、復元画像集合を取得する。
【0057】
本実施例では、上記実行主体は、初期超解像モデルを利用して、ダウンサンプリング画像集合内の各ダウンサンプリング画像を復元して、対応する復元画像を取得することができ、当該復元画像は、ステップ502で取得された低品質の画像を復元して取得された高品質の画像であり、さらに、ダウンサンプリング画像集合内の各ダウンサンプリング画像に対応する復元画像を含む復元画像集合を取得することができる。
【0058】
ステップ504:入力画像集合と復元画像集合に基づいて、初期超解像モデルの再構成損失を計算し、勾配降下法を採用して初期超解像モデルのパラメータを更新して、訓練された超解像モデルを取得する。
【0059】
本実施例では、上記実行主体は、入力画像集合内の入力画像と復元画像集合内の当該入力画像に対応する復元画像を利用して再構成損失を計算し、且つ勾配降下法を採用して段階的に反復的に解くことにより、最小化された損失関数とモデルパラメータ値を取得することができ、次に、これらの取得されたモデルパラメータ値で初期超解像モデルのパラメータを更新することにより、訓練された超解像モデルを取得することができる。
【0060】
上記ステップにより、超解像モデルの結果品質を向上させる。
【0061】
ステップ505:入力画像集合、ダウンサンプリング画像集合及び復元画像集合をマージして、ターゲット画像集合を取得する。
【0062】
本実施例では、上記実行主体は、入力画像集合、ダウンサンプリング画像集合及び復元画像集合をマージして、ターゲット画像集合を取得することができる。
【0063】
ステップ506:ターゲット画像集合内の画像の特徴を抽出し、ターゲット画像集合内の画像の特徴間の距離を計算する。
【0064】
本実施例では、上記実行主体は、ターゲット画像集合内の各画像の特徴を抽出し、抽出された特徴に基づいてターゲット画像集合内の画像間の距離を計算することができる。
【0065】
オプションで、入力画像集合を取得する前に、入力画像集合内の入力画像に注釈を付け、各ターゲットオブジェクトに1つのID(IdentityDocument、識別番号)を与えることができ、当該ターゲットオブジェクトは、入力画像内の顔で表されるオブジェクトであり、入力画像集合内の各ターゲットオブジェクトに対応する入力画像は、同じIDを有すべきであり、ダウンサンプリング画像と復元画像のIDは、入力画像のIDに対応する。
【0066】
これに基づいて、本ステップでは、IDに基づいて画像間の距離を計算し、抽出された画像特徴に基づいて同じIDを有するすべての画像間の距離を計算し、次に、異なるIDを有する画像間の距離を計算することができる。
【0067】
ステップ507:距離に基づいて初期認識モデルのバイナリ損失関数を計算し、勾配降下法を採用して初期認識モデルのパラメータを更新して、訓練された認識モデルを取得する。
【0068】
本実施例では、上記実行主体は、ステップ506で計算された距離に基づいて初期認識モデルのバイナリ損失関数を計算することができる。
【0069】
オプションで、2つの画像が同じIDを有している場合、損失関数は、2つの画像間の距離の2乗である。2つの画像が異なるIDを有している場合、最初に、2つの画像間のmarginを求め、次に、maxを求めて、この時点での損失値を取得する。すなわち、同じIDの画像間の距離は、近くなり、異なるIDのすべての画像間の距離は、遠くなるため、クラス間の差異は、大きくなり、クラス内の差異は、小さくなる。
【0070】
次に、勾配降下法を採用して段階的に反復的に解いて、最小化された損失関数とモデルパラメータ値を取得し、次に、これらの取得されたモデルパラメータ値で初期認識モデルのパラメータを更新して、訓練された認識モデルを取得する。
【0071】
上記ステップにより、認識モデルの分類精度を向上させる。
【0072】
ステップ508:訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端に接続して、画像認識モデルを取得する。
【0073】
ステップ508は、基本的に、前述の実施例のステップ404と同じであり、特定の実施方法については、ステップ404の前述の説明を参照することができ、ここでは詳細を繰り返さない。
【0074】
図5から分かるように、図4に対応する実施例と比較して、本実施例における画像認識モデルを構築するための方法は、入力画像集合と復元画像集合に基づいて初期超解像モデルの再構成損失と、初期認識モデルのバイナリ損失関数とを計算し、勾配降下法を採用して初期超解像モデルと初期認識モデルのパラメータを更新して、訓練された超解像モデルと認識モデルを取得し、それにより超解像モデルの結果品質と認識モデルの分類精度を向上させる。
【0075】
図6を参照し続けると、図6は、本開示による画像認識方法の一実施例のフロー600を示す。当該画像認識方法は、以下のステップを含む。
【0076】
ステップ601:認識される画像を取得する。
【0077】
本実施例では、画像認識方法の実行主体(図1に示されるサーバ105)は、認識される画像を取得することができ、ここで、認識される画像は、顔認識の実際の適用シナリオで、カメラセンサーによって収集された顔を含む画像であってもよい。
【0078】
ステップ602:認識される画像を画像認識モデルに入力し、認識される画像に対応する認識結果を出力する。
【0079】
本実施例では、上記実行主体は、認識される画像を画像認識モデルに入力し、認識される画像に対応する認識結果を出力することができ、ここで、画像認識モデルは、前述の実施例における画像認識モデルを構築するための方法によって取得されてもよい。
【0080】
上記実行主体が認識される画像を画像認識モデルに入力すると、画像認識モデルは、最初に、認識される画像を復元して、対応する復元画像を取得し、次に、認識される画像と復元画像の特徴を抽出し、当該特徴に基づいて特徴を分類し、それにより対応する認識結果を取得し、当該認識結果を出力する。
【0081】
本開示の実施例が提供する画像認識方法では、最初に、認識される画像を取得し、次に、認識される画像を画像認識モデルに入力し、認識される画像に対応する認識結果を出力する。本実施例の画像認識方法は、事前に訓練された画像認識モデルを使用して認識される画像を認識して、認識結果の精度を向上させる。
【0082】
図7をさらに参照すると、上記の各図に示される方法の実現として、本開示は、画像認識モデルを構築するための装置の一実施例を提供し、当該装置の実施例は、図2に示される方法の実施例に対応し、当該装置は、特に様々な電子デバイスに適用することができる。
【0083】
図7に示すように、本実施例の画像認識モデルを構築するための装置700は、第1取得モジュール701、訓練モジュール702及び組み合わせモジュール703を含む。ここで、第1取得モジュール701は、入力画像集合を取得するように構成されており、訓練モジュール702は、入力画像集合を利用して初期超解像モデルと初期認識モデルを共同訓練して、訓練された超解像モデルと認識モデルを取得するように構成されており、組み合わせモジュール703は、訓練された超解像モデルと認識モデルをカスケード方式で組み合わせて、画像認識モデルを取得するように構成されている。
【0084】
本実施例では、画像認識モデルを構築するための装置700において、第1取得モジュール701、訓練モジュール702及び組み合わせモジュール703の特定の処理、ならびにそれらによってもたらされる技術的効果は、図2に対応する実施例におけるステップ201~203の関連する説明をそれぞれ参照することができ、ここでは繰り返されない。
【0085】
本実施例のいくつかのオプションの実施方法では、
訓練モジュールは、
入力画像集合と入力画像集合に対応する復元画像集合を利用して初期超解像モデルの損失関数を計算し、勾配降下法を採用して初期超解像モデルのパラメータを更新するように構成されている第1更新サブモジュールと、
入力画像集合と復元画像集合内の画像の特徴間の距離に基づいて初期認識モデルの損失関数を計算し、勾配降下法を採用して初期認識モデルのパラメータを更新するように構成されている第2更新サブモジュールと、を含む。
【0086】
本実施例のいくつかのオプションの実施方法では、
第1更新サブモジュールは、
入力画像集合内の画像をダウンサンプリングして、ダウンサンプリング画像集合を取得するように構成されているダウンサンプリングユニットと、
初期超解像モデルを利用してダウンサンプリング画像集合内の画像を復元して、復元画像集合を取得するように構成されている復元ユニットと、
入力画像集合と復元画像集合に基づいて初期超解像モデルの再構成損失を計算するように構成されている第1計算ユニットと、を含む。
【0087】
本実施例のいくつかのオプションの実施方法では、
第2更新サブモジュールは、
入力画像集合、ダウンサンプリング画像集合及び復元画像集合をマージして、ターゲット画像集合を取得するように構成されているマージユニットと、
ターゲット画像集合内の画像の特徴を抽出するように構成されている抽出ユニットと、
ターゲット画像集合内の画像の特徴間の距離を計算するように構成されている第2計算ユニットと、
距離に基づいて初期認識モデルのバイナリ損失関数を計算するように構成されている第3計算ユニットと、を含む。
【0088】
本実施例のいくつかのオプションの実施方法では、組み合わせモジュールは、訓練された超解像モデルにおける損失関数の前の部分の出力端を認識モデルの入力端を接続するように構成されている接続サブモジュールを含む。
【0089】
図8をさらに参照すると、上記の各図に示される方法の実現として、本開示は、画像認識装置の一実施例を提供し、当該装置の実施例は、図6に示される方法の実施例に対応し、当該装置は、特に様々な電子デバイスに適用することができる。
【0090】
図8に示すように、本実施例の画像認識装置800は、第2取得モジュール801と出力モジュール802を含む。ここで、第2取得モジュール801は、認識される画像を取得するように構成されており、出力モジュール802は、認識される画像を画像認識モデルに入力し、認識される画像に対応する認識結果を出力するように構成されている。
【0091】
本実施例では、画像認識装置800において、第2取得モジュール801と出力モジュール802の特定の処理、ならびにそれらによってもたらされる技術的効果は、図6に対応する実施例におけるステップ601~602の関連する説明をそれぞれ参照することができ、ここでは繰り返されない。
【0092】
本開示の実施例によれば、本開示はさらに、電子デバイス、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。
【0093】
図9は、本開示の実施例を実施できる例示的な電子デバイス900の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを目的としている。電子デバイスはさらに、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス及びその他の同様のコンピューティングデバイスなど、様々な形式のモバイルデバイスを表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書に記載及び/又は要求される本開示の実現を制限することを意図するものではない。
【0094】
図9に示すように、デバイス900は、読み取り専用メモリ(ROM)902に記憶されたコンピュータプログラム、又は記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行できる計算ユニット901を含む。RAM903には、デバイス900の操作に必要な様々なプログラム及びデータが記憶されることもできる。計算ユニット901、ROM902及びRAM903は、バス904を介して互いに接続されている。入出力(I/O)インターフェース905もバス904に接続されている。
【0095】
デバイス900内の複数のコンポーネントは、I/Oインターフェース905に接続されており、それらは、キーボード、マウスなどの入力ユニット906と、様々なタイプのディスプレイ、スピーカーなどの出力ユニット907と、磁気ディスク、光ディスクなどの記憶ユニット908と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット909と、を含む。通信ユニット909は、デバイス900がインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークなどを介して他のデバイスと情報/データを交換することを可能にする。
【0096】
計算ユニット901は、処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット901のいくつかの例には、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロプロセッサなどが含まれるが、これらに限定されない。計算ユニット901は、画像認識モデルを構築するための方法又は画像認識方法などの上記の各方法及び処理を実行する。たとえば、いくつかの実施例では、画像認識モデルを構築するための方法又は画像認識方法は、記憶ユニット908などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM902及び/又は通信ユニット909を介してデバイス900にロード及び/又はインストールされて得る。コンピュータプログラムがRAM903にロードされ、計算ユニット901によって実行されると、上記の画像認識モデルを構築するための方法又は画像認識方法の1つ又は複数のステップを実行することができる。あるいは、他の実施例では、計算ユニット901は、他の任意の適切な方法(たとえば、ファームウェアによる)によって、画像認識モデルを構築するための方法又は画像認識方法を実行するように構成されてもよい。
【0097】
上記のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含み得、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行及び/又は解釈されてもよく、当該プログラム可能なプロセッサは、専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に送信することができる。
【0098】
本開示を実施するための方法のプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによりプログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図で規定された機能/操作が実施される。プログラムコードは、完全に機械上で実行され得、部分的に機械上で実行され得、スタンドアロンソフトウェアパッケージとして部分的に機械上で実行され得、かつ部分的にリモート機械上で実行され得、又は完全にリモート機械又はサーバ上で実行され得る。
【0099】
本開示の文脈において、機械読み取り可能な媒体は、有形媒体であってもよく、それは、命令実行システム、装置又はデバイスによって使用されるか、又は命令実行システム、装置又はデバイスと組み合わせて使用されるプログラムを含むか、又は記憶することができる。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容の任意の適切な組み合わせを含み得るが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、又は上記内容の任意の適切な組み合わせを含む。
【0100】
ユーザとの対話を提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(たとえば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(たとえば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。その他の種類の装置も、ユーザとの対話を提供することができ、たとえば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(たとえば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信することができる。
【0101】
ここで説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含む計算システム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含む計算システム(たとえば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザを介して、ここで説明されているシステム及び技術の実施形態と対話することができる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実行され得る。任意の形式又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)によって、システムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットを含む。
【0102】
コンピュータシステムは、クライアント及びサーバを含み得る。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよいし、分散システムのサーバ又はブロックチェーンを組み合わせたサーバであってもよい。
【0103】
上記の様々な形式のフローを使用して、再ソートし、ステップを追加又は削除することができることが理解されるべきである。たとえば、本開示に記載されている各ステップは、並行して実行してもよく、順次に実行してもよく、異なる順序で実行してもよく、本開示に開示されている技術的解決手段の所望の結果を達成できる限り、本明細書は、ここでは制限しない。
【0104】
上記の特定の実施形は、本開示の保護範囲に対する制限を構成するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができると理解すべきである。任意の本開示の精神及び原則内で行われる修正、同等の置換及び改善などはいずれも、本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【外国語明細書】