7579965 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7579965視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-30

(45)【発行日】2024-11-08

(54)【発明の名称】視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品

(51)【国際特許分類】

G06T 7/00 20170101AFI20241031BHJP

G06V 10/774 20220101ALI20241031BHJP

【ＦＩ】

G06T7/00 350C

G06V10/774

【請求項の数】 19

(21)【出願番号】P 2023512344

(86)(22)【出願日】2022-06-22

(65)【公表番号】

(43)【公表日】2024-03-07

(86)【国際出願番号】 CN2022100368

(87)【国際公開番号】W WO2023159819

(87)【国際公開日】2023-08-31

【審査請求日】2023-02-20

(31)【優先権主張番号】202210181868.0

(32)【優先日】2022-02-25

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】110002952

【氏名又は名称】弁理士法人鷲田国際特許事務所

(72)【発明者】

【氏名】クオルオユ

(72)【発明者】

【氏名】ドゥーユニン

(72)【発明者】

【氏名】リチェンシア

(72)【発明者】

【氏名】リュウチーウェン

(72)【発明者】

【氏名】ライバオフア

(72)【発明者】

【氏名】マヤンジュン

(72)【発明者】

【氏名】ユイディアンハイ

【審査官】小池正彦

(56)【参考文献】

【文献】中国特許出願公開第１１３９６３１８６（ＣＮ，Ａ）

【文献】中国特許出願公開第１１３４８６７４５（ＣＮ，Ａ）

【文献】中国特許出願公開第１１３１３９６２３（ＣＮ，Ａ）

【文献】中国特許出願公開第１１３７８０３４２（ＣＮ，Ａ）

【文献】中国特許出願公開第１０９９１９２０９（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｖ１０／７７４

(57)【特許請求の範囲】

【請求項1】

視覚モデル訓練の方法であって、
視覚モデルに基づいて、バックボーン・ネットワークと復号モジュールとを含む画像分類ネットワークを構築するステップであって、前記画像分類ネットワークのバックボーン・ネットワークが、前記視覚モデル中の特徴抽出を行うためのバックボーン・ネットワークと同じであり、前記復号モジュールが異なる、ステップと、
タグなしの第１のデータセットを使用して、前記画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るステップと、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、前記視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るステップと、
タグが付けられた第２のデータセットを使用して、前記予備訓練モデルを訓練して、コンピュータ視覚処理を実行して処理結果を得るための訓練済みの視覚モデルを得るステップであって、前記視覚モデルは、入力画像に対してテキスト認識処理を行って、前記入力画像に含まれているテキスト情報を得るための光学式文字認識（ＯＣＲ）テキスト認識モデルであり、前記第２のデータセットは、現在のコンピュータ視覚タスクシーンでの実画像データ及びタグ付き情報を含む、ステップと、を含み、
タグなしの第１のデータセットを使用して、前記画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るステップは、
複数のセットのサンプル画像及び各サンプル画像の方向情報を含む前記タグなしの第１のデータセットを取得するステップであって、ここで、各セットのサンプル画像に、第１のサンプル画像と、前記第１のサンプル画像をプリセット角度で回転させて得られる第２のサンプル画像とが含まれる、ステップと、
前記画像分類ネットワークにより、前記第１のデータセット内の各サンプル画像の画像特徴を抽出し、前記画像特徴に応じて各サンプル画像の方向予測結果を決定するステップと、
同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴に応じて、第１の損失を計算し、各サンプル画像の実際の方向情報及び方向予測結果に応じて第２の損失を計算するステップと、
前記第１の損失及び前記第２の損失に応じて、前記画像分類ネットワークのバックボーン・ネットワークの重みを調整するステップと、を含む、
視覚モデル訓練の方法。

【請求項2】

前記タグなしの第１のデータセットを取得するステップは、
タグなしの第１のサンプル画像を取得し、前記第１のサンプル画像の方向情報を０度に決定するステップと、
前記第１のサンプル画像を前記プリセット角度で回転させて、第２のサンプル画像を得、前記第２のサンプル画像の方向情報を前記プリセット角度に決定するステップと、を含む、
請求項１に記載の方法。

【請求項3】

前記プリセット角度には、少なくとも１８０度が含まれ、
同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴に応じて、第１の損失を計算するステップは、
各セットのサンプル画像に、第１のサンプル画像の画像特徴を１８０度回転した後に得られる画像特徴と、第１のサンプル画像を１８０度回転した後に得られる第２のサンプル画像の画像特徴との間の差に応じて、第１の損失を計算するステップを含む、
請求項２に記載の方法。

【請求項4】

前記プリセット角度には、少なくとも第１の角度及び第２の角度が含まれ、前記第２の角度は、前記第１の角度に１８０度を加えた角度と等しく、前記第１の角度は０度ではなく、
同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴に応じて、第１の損失を計算するステップは、
同じセット内のサンプル画像のうち方向情報が前記第１の角度であるサンプル画像の画像特徴を１８０度回転させた後に得られる画像特徴と、方向情報が前記第２の角度であるサンプル画像の画像特徴との間の差に応じて、第１の損失を計算するステップを含む、
請求項２に記載の方法。

【請求項5】

タグなしの第１のサンプル画像を取得するステップは、
合成画像及び実画像のうちの少なくとも１つを含む原画像を取得するステップと、
前記原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得るステップと、
前記サンプル画像に対してランダムなデータ拡張を行って、前記第１のサンプル画像を得るステップと、を含む、
請求項２に記載の方法。

【請求項6】

前記視覚モデルがテキスト認識シーンに適用される場合、前記原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得るステップは、
前記原画像に対してテキスト検出を行い、テキスト情報がある領域の画像を抽出するステップと、
前記テキスト情報がある領域の画像に対して画像補正を行って、モデル訓練要件を満たすサンプル画像を得るステップと、を含む、
請求項５に記載の方法。

【請求項7】

前記第１の損失及び前記第２の損失に応じて、前記画像分類ネットワークのバックボーン・ネットワークの重みを調整するステップは、
前記第１の損失と前記第２の損失との和を計算して、最終損失とするステップと、
前記最終損失に応じて、前記画像分類ネットワークのバックボーン・ネットワークの重みを調整するステップと、を含む、
請求項１に記載の方法。

【請求項8】

処理対象の画像を取得するステップと、
前記処理対象の画像を、請求項１に記載の方法で訓練して得られるものである視覚モデルに入力し、前記視覚モデルにより前記処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得るステップと、
処理結果を出力するステップと、を含む、
視覚処理方法。

【請求項9】

視覚モデル訓練の装置であって、
視覚モデルに基づいて、バックボーン・ネットワークと復号モジュールとを含む画像分類ネットワークを構築するためのネットワーク構築モジュールであって、前記画像分類ネットワークのバックボーン・ネットワークが、前記視覚モデル中の特徴抽出を行うためのバックボーン・ネットワークと同じであり、前記復号モジュールが異なる、ネットワーク構築モジュールと、
タグなしの第１のデータセットを使用して、前記画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るための第１の訓練モジュールと、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、前記視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るための予備訓練モデル決定モジュールと、
タグが付けられた第２のデータセットを使用して、前記予備訓練モデルを訓練して、訓練済みの視覚モデルを得るための第２の訓練モジュールであって、前記視覚モデルは、入力画像に対してテキスト認識処理を行って、前記入力画像に含まれているテキスト情報を得るための光学式文字認識（ＯＣＲ）テキスト認識モデルであり、前記第２のデータセットは、現在のコンピュータ視覚タスクシーンでの実画像データ及びタグ付き情報を含む、第２の訓練モジュールと、を含み、
前記第１の訓練モジュールは、
複数のセットのサンプル画像及び各サンプル画像の方向情報を含む前記タグなしの第１のデータセットを取得するために用いられるタグなしのデータセット取得ユニットであって、各セットのサンプル画像に、第１のサンプル画像と、前記第１のサンプル画像をプリセット角度で回転させて得られる第２のサンプル画像とが含まれる、タグなしのデータセット取得ユニットと、
前記画像分類ネットワークにより、前記第１のデータセット内の各サンプル画像の画像特徴を抽出し、前記画像特徴に応じて各サンプル画像の方向予測結果を決定するための分類予測ユニットと、
同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴に応じて、第１の損失を計算し、各サンプル画像の実際の方向情報及び方向予測結果に応じて第２の損失を計算するための損失コンピューティングユニットと、
前記第１の損失及び前記第２の損失に応じて、前記画像分類ネットワークのバックボーン・ネットワークの重みを調整するための重み最適化ユニットと、を含む、
視覚モデル訓練の装置。

【請求項10】

前記タグなしのデータセット取得ユニットは、
タグなしの第１のサンプル画像を取得し、前記第１のサンプル画像の方向情報を０度に決定するためのサンプル画像取得サブユニットと、
前記第１のサンプル画像を前記プリセット角度で回転させて、第２のサンプル画像を得、前記第２のサンプル画像の方向情報を前記プリセット角度に決定するための画像回転サブユニットと、を含む、
請求項９に記載の装置。

【請求項11】

前記プリセット角度には、少なくとも１８０度が含まれ、前記損失コンピューティングユニットは、
各セットのサンプル画像に、第１のサンプル画像の画像特徴を１８０度回転した後に得られる特徴と、第１のサンプル画像を１８０度回転した後に得られる第２のサンプル画像の画像特徴との間の差に応じて、第１の損失を計算するための第１の損失計算サブユニットを含む、
請求項１０に記載の装置。

【請求項12】

前記プリセット角度には、少なくとも第１の角度及び第２の角度が含まれ、前記第２の角度は、前記第１の角度に１８０度を加えた角度と等しく、前記第１の角度は０度ではなく、前記損失コンピューティングユニットは、
同じセット内のサンプル画像のうち方向情報が前記第１の角度であるサンプル画像の画像特徴を１８０度回転させた後に得られる画像特徴と、方向情報が前記第２の角度であるサンプル画像の画像特徴との間の差に応じて、第１の損失を計算する第２の損失計算サブユニットを含む、
請求項１０に記載の装置。

【請求項13】

前記サンプル画像取得サブユニットは、さらに、
合成画像及び実画像のうちの少なくとも１つを含む原画像を取得し、
前記原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得、
前記サンプル画像に対してランダムなデータ拡張を行って、前記第１のサンプル画像を得るために用いられる、
請求項１０に記載の装置。

【請求項14】

前記サンプル画像取得サブユニットは、さらに、
前記原画像に対してテキスト検出を行い、テキスト情報がある領域の画像を抽出し、
前記テキスト情報がある領域の画像に対して画像補正を行って、モデル訓練要件を満たすサンプル画像を得るために用いられる、
請求項１３に記載の装置。

【請求項15】

前記重み最適化ユニットは、さらに、
前記第１の損失と前記第２の損失との和を計算して、最終損失とし、
前記最終損失に応じて、前記画像分類ネットワークのバックボーン・ネットワークの重みを調整するために用いられる、
請求項９に記載の装置。

【請求項16】

処理対象の画像を取得するための画像取得モジュールと、
前記処理対象の画像を、請求項９～１５のいずれか１項に記載の装置によって生成される視覚モデルに入力し、前記視覚モデルにより前記処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得るための視覚処理モジュールと、
処理結果を出力するための結果出力モジュールと、を含む、
視覚処理装置。

【請求項17】

少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続するメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサが請求項１～８のいずれか１項に記載の方法を実行することができる、
電子機器。

【請求項18】

コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～８のいずれか１項に記載の方法を実行させるために用いられる、
非一時的なコンピュータ可読記憶媒体。

【請求項19】

コンピュータプログラムであって、当該コンピュータプログラムがプロセッサによって実行されると、請求項１～８のいずれか１項に記載の方法が実現される、
コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、コンピュータ技術におけるコンピュータ視覚、深層学習等の分野に関し、特に、視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品に関する。

【背景技術】

【0002】

ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学式文字認識）は、写真情報を、編集及び記憶がより容易なテキスト情報に転換する技術である。現在、手形認識、銀行カード情報認識、数式認識などの様々な場面で広く適用されており、また、ＯＣＲは、字幕翻訳、セキュリティモニタリング等の多くの下流のタスクも支援し、また、ビデオ検索などのような他のコンピュータ視覚タスクにも適用できる。

【0003】

目標検出、画像分割、テキスト認識等の様々なコンピュータ視覚タスクにおいて、一般に、コンピュータ視覚タスクのための視覚モデルを訓練する必要がある。実際のシーンにおいて、大量の実画像データがあるが、実画像データに対するタグ付きコストが高い。現在、タグ付き情報を知っている単純データと背景マップとの合成を利用して、大量の合成データ及びタグ付き情報を有する少量の実データに基づいてモデル訓練を行うのが多く、主に、以下の２つの方式がある。１つは、タグが付けられたデータを大量合成し、タグが付けられた合成データに基づいて視覚モデルを訓練し、続いて実データ及びタグ付き情報を使用して視覚モデルを訓練して、最終の視覚モデルを得る。１つは、タグが付けられたデータを大量合成し、タグが付けられた合成データと実データとを混合して訓練データとし、視覚モデルを訓練して、最終の視覚モデルを得る。しかし、合成データに基づいて、モデル訓練を行う場合、合成データが単純すぎて、オーバーフィッティングが発生するため、訓練で得られるモデルの精度が低い場合が多い。

【発明の概要】

【発明が解決しようとする課題】

【0004】

視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品を提供する。

【課題を解決するための手段】

【0005】

本開示の第１の態様によれば、視覚モデル訓練の方法を提供し、
前記視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築するステップと、
タグなしの第１のデータセットを使用して、前記画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るステップと、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、前記視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るステップと、
タグが付けられた第２のデータセットを使用して、前記予備訓練モデルを訓練して、訓練済みの視覚モデルを得るステップと、を含む。

【0006】

本開示の第２の態様によれば、視覚処理方法を提供し、
処理対象の画像を取得するステップと、
前記処理対象の画像を視覚モデルに入力し、上記の第１の態様に記載の方法で訓練して得られる前記視覚モデルにより、前記処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得るステップと、
処理結果を出力するステップと、を含む。

【0007】

本開示の第３の態様によれば、視覚モデル訓練の装置を提供し、
前記視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築するためのネットワーク構築モジュールと、
タグなしの第１のデータセットを使用して、前記画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るための第１の訓練モジュールと、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、前記視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るための予備訓練モデル決定モジュールと、
タグが付けられた第２のデータセットを使用して、前記予備訓練モデルを訓練して、訓練済みの視覚モデルを得るための第２の訓練モジュールと、を含む。

【0008】

本開示の第４の態様によれば、視覚処理装置を提供し、
処理対象の画像を取得するための画像取得モジュールと、
前記処理対象の画像を視覚モデルに入力し、上記の第３の態様に記載の装置によって生成される前記視覚モデルにより、前記処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得るための視覚処理モジュールと、
処理結果を出力するための結果出力モジュールと、を含む。

【0009】

本開示の第５の態様によれば、電子機器を提供し、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続するメモリと、を含み、ここで、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサが第１の態様又は第２の態様に記載の方法を実行することができる。

【0010】

本開示の第６の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体を提供し、ここで、前記コンピュータ命令は、前記コンピュータに第１の態様又は第２の態様に記載の方法を実行させるために用いられる。

【0011】

本開示の第７の態様によれば、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、可読記憶媒体に記憶されているコンピュータプログラムを含み、電子機器の少なくとも１つのプロセッサが、前記可読記憶媒体から前記コンピュータプログラムを読み取り、前記少なくとも１つのプロセッサが前記コンピュータプログラムを実行すると、電子機器に第１の態様又は第２の態様に記載の方法を実行させる。

【0012】

本開示の技術によれば、視覚モデルの精度を向上させる。

【0013】

本明細書に記載の内容は、本開示の実施例の肝心な特徴又は重要な特徴を特定することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことを理解されたい。本開示のその他の特徴は、以下の明細書により容易に理解できる。

【図面の簡単な説明】

【0014】

図面は、本発明をよりよく理解するために使用され、本開示を限定するものではない。

【図1】本開示の第１の実施例に係る視覚モデル訓練の方法のフローチャートである。

【図2】本開示の第２の実施例に係る視覚モデル訓練の方法のフローチャートである。

【図3】本開示の第３の実施例に係る視覚処理方法のフローチャートである。

【図4】本開示の第４の実施例に係る視覚モデル訓練の装置の概略構造図である。

【図5】本開示の第５の実施例に係る視覚モデル訓練の装置の概略構造図である。

【図6】本開示の第６の実施例に係る視覚処理装置の概略構造図である。

【図7】本開示の実施例の視覚モデル訓練の方法を実現するための電子機器のブロック図である。

【発明を実施するための形態】

【0015】

以下、図面を参照しながら本開示の例示的な実施例を説明するが、理解を容易にするために、本開示の実施例の様々な詳細事項がこの説明に含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書に説明される実施例に対して様々な変更と修正を行うことができることを理解できるだろう。同様に、分かりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造についての説明を省略する。

【0016】

本開示に係わる「第１」、「第２」、「第３」という用語は、単に記述のためのものであり、相対的な重要性を明示したり暗示したりするか、又は、示される技術的特徴の数を暗示するものと理解されるべきではない。以下の各実施例の記述において、「複数」は、特に明確に定義及び限定しない限り、２つ以上を意味する。

【0017】

【0018】

目標検出、画像分割、テキスト認識等の様々なコンピュータ視覚タスクにおいて、一般に、コンピュータ視覚タスクのための視覚モデルを訓練する必要がある。

【0019】

実際のシーンにおいて、大量の実画像データがあるが、実画像データに対するタグ付きコストが高い。モデルの訓練効果を向上させるために、画像分類における予備訓練モデルを使用して、モデルの収束過程を加速して、モデルの精度を向上させることができる。しかし、ＯＣＲに基づくテキスト認識タスクなどのような一部のコンピュータ視覚タスクにおいて、テキスト認識タスクシーンの画像データは、画像分類の予備訓練モデルに使用されるデータセットとの差異が非常に大きいため、テキスト認識モデルと予備訓練モデルとの構造の差異が大きく、画像分類に基づく予備訓練モデルを直接ロードして、テキスト認識モデルの訓練に用いると、テキスト認識モデルの精度メリットをもたらすことができない。タグなしのテキスト認識データは、非常に一般的で入手しやすいが、タグなしのデータをテキスト認識モデルの訓練に直接使用することはできない。

【0020】

現在、視覚モデルの訓練について、タグ付き情報を知っている単純データと背景マップとの合成を利用して、大量の合成データ及びタグ付き情報を有する少量の実データに基づいてモデル訓練を行うことが多い。主に、下記の２つの方式がある。１つは、タグが付けられたデータを大量合成し、タグが付けられた合成データに基づいて視覚モデルを訓練し、続いて実データ及びタグ付き情報を使用して視覚モデルを訓練して、最終の視覚モデルを得る。１つは、タグが付けられたデータを大量合成し、タグが付けられた合成データと実データとを混合して訓練データとし、視覚モデルを訓練して、最終の視覚モデルを得る。

【0021】

しかし、合成データに基づいて、モデル訓練を行う場合、合成データが単純すぎて、オーバーフィッティングが発生するため、訓練で得られるモデルの精度が低い場合が多い。

【0022】

本開示は、視覚モデルの精度を向上させるために、コンピュータ技術におけるコンピュータ視覚、深層学習等に適用される視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品を提供する。

【0023】

本開示にて提供される視覚モデル訓練の方法は、視覚モデルに基づいて画像分類ネットワークを構築して、画像分類ネットワークに、視覚モデルと同じバックボーン・ネットワークを有させ、タグなしの第１のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、画像分類ネットワークのバックボーン・ネットワークを最適化し、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、視覚モデルのバックボーン・ネットワークと一致するバックボーン・ネットワークを有する予備訓練モデルを得、現在のコンピュータ視覚タスクシーンでのタグなしのデータセットを取得しやすいため、実際のタグなしのデータセットに基づいて予備訓練モデルを訓練することにより、予備訓練モデルを現在のコンピュータ視覚タスクにおける視覚モデルの訓練により適するものにし、予備訓練モデルの有効性を向上させ、続いて、タグが付けられた第２のデータセットを使用して、予備訓練モデルを訓練して、訓練済みの視覚モデルを得、視覚モデルの精度を向上させることができる。

【0024】

また、比較的少量のタグが付けられたデータを使用しても、訓練で精度の高い視覚モデルを得ることができる。

【0025】

訓練で得られた視覚モデルは、様々なコンピュータ視覚タスクシーンに適用でき、対応するコンピュータ視覚処理を行う。例えば、視覚モデルは、入力画像に対してテキスト認識処理を行って、入力画像に含まれているテキスト情報を得るためのＯＣＲテキスト認識モデルであってもよい。

【0026】

以下、具体的な実施例で、本願の技術案と、本願の技術案が上記の技術的問題をどのように解決するかとについて詳細に説明する。以下のいくつかの具体的な実施例は、互いに組み合わせることができ、一部の実施例では、同じ又は類似の概念又は過程の詳細な説明を省略する。以下、図面を参照しながら、本願の実施例について説明する。

【0027】

図１は、本開示の第１の実施例に係る視覚モデル訓練の方法のフローチャートである。本実施例にて提供される視覚モデル訓練の方法は、具体的には、視覚モデルに対する訓練を実現するための電子機器に適用できる。

【0028】

図１に示すように、当該方法は、具体的には、ステップＳ１０１～ステップＳ１０４を含む。

【0029】

ステップＳ１０１において、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築する。

【0030】

ここで、画像分類ネットワークには、バックボーン・ネットワーク及び復号モジュールが含まれ、バックボーン・ネットワークとは、ネットワーク中の符号化モジュールであり、特徴抽出を行うためのモジュールでもある。

【0031】

本実施例において、視覚モデルに基づいて画像分類ネットワークを構築して、画像分類ネットワークに、視覚モデルと同じバックボーン・ネットワークを有させ、つまり、画像分類ネットワークは、視覚モデル中の特徴抽出を行うための符号化モジュールと一致するが、復号モジュールとは異なる。

【0032】

ステップＳ１０２において、タグなしの第１のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得る。

【0033】

ここで、第１のデータセットは、タグなしのデータセットであり、現在のコンピュータ視覚タスクシーンでの実画像データを含む。また、第１のデータセットには、さらに、合成データが含まれてもよい。

【0034】

本実施例において、現在のコンピュータ視覚タスクシーンにおけるタグなしの第１のデータセットに基づいて、画像分類ネットワークに対して自己監視訓練を行って、画像分類ネットワークのバックボーン・ネットワークの重みを最適化することにより、バックボーン・ネットワークを現在のコンピュータ視覚タスクにより適するものにし、コンピュータ視覚タスクに適用される場合に、特徴抽出をより良く行うことができ、且つ、タグが付けられたデータセットを使用する必要がない。

【0035】

ステップＳ１０３において、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得る。

【0036】

タグなしの第１のデータセットを使用して画像分類ネットワークの自己監視訓練を完了した後、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みを視覚モデルのバックボーン・ネットワークの初期重みとして、視覚モデルを初期化して、視覚モデルの構造と一致する予備訓練モデルを得、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化する。

【0037】

ステップＳ１０４において、タグが付けられた第２のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得る。

【0038】

ここで、第２のデータセットは、タグが付けられたデータセットであり、現在のコンピュータ視覚タスクシーンでの実画像データ及びタグ付き情報を含む。

【0039】

ステップＳ１０３で得られた予備訓練モデルは、視覚モデルの構造と一致し、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化するため、当該予備訓練モデルに基づいて、現在のコンピュータ視覚タスクシーンでのタグが付けられた第２のデータセットを使用してモデル訓練を行って、最終の視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。比較的少量のタグが付けられたデータを使用しても、訓練で精度の高い視覚モデルを得ることができる。

【0040】

本実施例では、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築し、タグなしの第１のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、視覚モデルの構造と一致する予備訓練モデルを得、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化して、現在のコンピュータ視覚タスクにより適するものにし、続いて、タグが付けられた第２のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。

【0041】

図２は、本開示の第２の実施例に係る視覚モデル訓練の方法のフローチャートである。上記の第１の実施例に加え、本実施例において、タグなしの第１のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るステップは、複数のセットのサンプル画像及び各サンプル画像の方向情報を含むタグなしの第１のデータセットを取得するステップであって、ここで、各セットのサンプル画像に第１のサンプル画像と、第１のサンプル画像をプリセット角度で回転させて得られる第２のサンプル画像とが含まれるステップと、画像分類ネットワークにより第１のデータセット内の各サンプル画像の画像特徴を抽出し、画像特徴に応じて各サンプル画像の方向予測結果を決定するステップと、同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴に応じて、第１の損失を計算するステップと、各サンプル画像の実際の方向情報及び方向予測結果に応じて第２の損失を計算するステップと、を含み、第１の損失及び第２の損失に応じて、画像分類ネットワークのバックボーン・ネットワークの重みを調整して、タグなしのデータセットを使用して画像分類ネットワークの自己監視訓練を実現でき、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化することにより、バックボーン・ネットワークがコンピュータ視覚タスクの特徴抽出により適するものになり、最終的に得られる視覚モデルの精度を向上させることができる。

【0042】

図２に示すように、当該方法は、具体的には、ステップＳ２０１～ステップＳ２０９を含む。

【0043】

ステップＳ２０１において、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築する。

【0044】

【0045】

本実施例において、視覚モデルに基づいて画像分類ネットワークを構築して、画像分類ネットワークに、視覚モデルと同じバックボーン・ネットワークを有させ、つまり、画像分類ネットワークは、視覚モデル中の特徴抽出を行うための符号化モジュールと一致するが、復号モジュールは異なる。

【0046】

例示的に、視覚モデルがテキスト認識モデルであることを例として、テキスト認識モデルは、ＣＲＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、畳み込み循環ニューラルネットワーク）、ＲＡＲＥ（ＲｏｂｕｓｔｔｅｘｔｒｅｃｏｇｎｉｚｅｒｗｉｔｈＡｕｔｏｍａｔｉｃＲｅｃｔｉｆｉｃａｔｉｏｎ、自動修正機能を備えたロバストなテキスト認識器）、ＮＲＴＲ等を用いて実現することができる。画像分類ネットワークのバックボーン・ネットワークは、ＣＲＮＮ、ＲＡＲＥ、ＮＲＴＲにおける特徴抽出の処理を実現するために用いられる。ここで、ＣＲＮＮの全称は、主に、エンドツーエンドの不定長のテキストシーケンスを認識するために使用されるため、先に、個々の文字をカットすることを必要とせず、テキスト認識を時系列依存のシーケンス学習問題に変換し、つまり、画像に基づくシーケンス認識である。ＣＲＮＮには、主に、畳み込み層、循環層、及び転写層が含まれ、最終的に、固定長入力を用いて不定長のシーケンスを予測することを実現する。

【0047】

画像分類ネットワーク復号モジュールは、バックボーン・ネットワークで抽出された特徴に応じて、復号して分類結果を得るために用いられる。

【0048】

ステップＳ２０２において、複数のセットのサンプル画像及び各サンプル画像の方向情報を含むタグなしの第１のデータセットを取得し、ここで、各セットのサンプル画像に第１のサンプル画像と、第１のサンプル画像をプリセット角度で回転させて得られる第２のサンプル画像とが含まれる。

【0049】

【0050】

実際のコンピュータ視覚タスクシーンにおいて、大量の実画像データを取得しやすく、合成データの使用を減らして、合成データに対する依存をなくすために、合成データを使用しなくてもよい。

【0051】

本実施例において、現在のコンピュータ視覚タスクシーンにおける大量の実画像データを取得して、第１のデータセットを生成し、第１のデータセットに対してタグ付きを行う必要がない。

【0052】

具体的には、当該ステップは、
タグなしの第１のサンプル画像を取得し、第１のサンプル画像の方向情報を０度に決定し、第１のサンプル画像をプリセット角度で回転して、第２のサンプル画像を得、第２のサンプル画像の方向情報をプリセット角度に決定する方式で実現され得る。

【0053】

ここで、プリセット角度には、１つ又は複数の異なる角度が含まれ、実際の適用シーンに応じて設定することができ、ここでは、特に限定しない。

【0054】

選択可能に、プリセット角度に、１８０度のみが含まれてもよい。

【0055】

選択可能に、プリセット角度に、１８０度と、少なくとも１つの１８０度以外の角度が含まれてもよい。例えば、プリセット角度には、９０度、１８０度が含まれてもよい。

【0056】

選択可能に、プリセット角度には、第１の角度及び第２の角度が含まれてもよく、第１の角度と第２の角度との差は１８０度である。例えば、プリセット角度には、９０度、２７０度が含まれてもよい。

【0057】

選択可能に、プリセット角度には、第１の角度、第２の角度及び少なくとも１つの第３の角度が含まれてもよく、ここで、第１の角度と第２の角度との差は１８０度である。例えば、プリセット角度には、９０度（第１の角度）、２７０度（第２の角度）、１８０度（第３の角度）が含まれてもよい。

【0058】

本実施例において、第１のサンプル画像の方向情報を０度に設定し、プリセット角度で回転して得られた第２のサンプル画像の方向情報を、対応する回転角度に設定する。

【0059】

例示的に、第１のサンプル画像を、それぞれ９０度、１８０度、２７０度回転させることを例とし、得られた３枚の第２のサンプル画像の方向情報は、順番に９０度、１８０度、２７０度であり、第１のサンプル画像の方向情報は０度である。

【0060】

１枚の第１のサンプル画像と、当該第１のサンプル画像を回転させて得られる第２のサンプル画像とを、１セットのサンプル画像とし、同じセット内のサンプル画像の方向情報の差が１８０度である２つのサンプル画像に基づいて第１の損失を決定し、同じサンプル画像の方向予測結果及び実際の方向情報に基づいて第２の損失を決定し、自己監視訓練のための損失関数を豊かにして、予備訓練モデルの訓練効果を向上させることができる。

【0061】

また、複数のプリセット角度を設定することにより、同じセットのサンプル画像のうち方向情報の差が１８０度である２つのサンプル画像以外に、他の方向情報のサンプル画像がさらに含まれてもよく、サンプルデータをさらに豊富にし、予備訓練モデルの訓練効果を向上させることができる。

【0062】

さらに、タグなしの第１のサンプル画像を取得するステップは、具体的には、
合成画像及び実画像のうちの少なくとも１つを含む原画像を取得し、原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得、サンプル画像に対してランダムなデータ拡張を行って、第１のサンプル画像を得る方式により実現され得る。

【0063】

ここで、各原画像は、現在のコンピュータ視覚タスクシーンでの実画像又は合成画像である。

【0064】

モデル訓練過程において、入力モデルのサンプル画像の寸法について、顔やテキスト等の特定内容等の情報が含まれるか否かの要件がある。各原画像に対して前処理を行うことにより、処理後のサンプル画像はモデルの訓練要件を満たし、それにより、サンプル画像を画像分類モデルの訓練に用いて、画像分類モデル訓練の効果を向上できることを確保する。

【0065】

選択可能に、視覚モデルをテキスト認識シーンに適用して、原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得るステップは、
原画像に対してテキスト検出を行って、テキスト情報がある領域の画像を抽出するステップと、テキスト情報がある領域の画像に対して画像補正を行って、モデル訓練要件を満たすサンプル画像を取得するステップとを含み、それにより、サンプル画像を画像分類モデルの訓練に用いて、画像分類モデル訓練の効果を向上させることを確保する。

【0066】

例示的に、テキスト検出モデルにより原画像に対してテキスト検出を行って、テキスト情報がある領域の画像を抽出して、テキスト検出結果を得る。テキスト検出結果は、多角形である可能性があり、アフィン変換方法を用いてテキスト検出結果に対して画像補正を行って、モデル訓練要件を満たすサンプル画像を取得し、一般に、サンプル画像の枠が矩形枠であることを要求する。

【0067】

また、サンプル画像に対してランダムなデータ拡張を行って、第１のサンプル画像を得ることにより、サンプル画像の数を大幅に増やして、第１のデータセットをより豊富にすることができる。

【0068】

また、ステップＳ２０２は、ステップＳ２０１の後に実行されてもよいし、ステップＳ２０２は、ステップＳ２０１の前に実行されてもよく、ここでは、Ｓ２０２とＳ２０１との実行順序を具体的に限定しない。

【0069】

なお、画像分類モデルのタイプの数を、プリセット角度の数と相関があるように設定し、画像分類モデルのタイプの数は、プリセット角度の数に１を加えた数と等しい。画像分類モデルは、サンプル画像に対して方向情報分類を行って、サンプル画像に対応する方向情報を予測するために用いられる。

【0070】

例示的に、プリセット角度に９０度、１８０度、２７０度が含まれることを例とし、画像分類モデルのタイプの数を４に設定し、画像分類モデルは、入力サンプル画像の方向情報が０度、９０度、１８０度、２７０度のいずれであるかを予測するために用いられる。

【0071】

タグなしの第１のデータセットを取得した後に、ステップＳ２０３～Ｓ２０７を循環して実行し、タグなしの第１のデータセットに基づいて、画像分類モデルに対して自己監視の反復訓練を行い、反復停止条件を満たすとき、反復を停止する。

【0072】

ステップＳ２０３において、画像分類ネットワークにより第１のデータセット内の各サンプル画像の画像特徴を抽出し、画像特徴に応じて各サンプル画像の方向予測結果を決定する。

【0073】

当該ステップにおいて、第１のデータセットにおけるサンプル画像を画像分類ネットワークに入力し、画像分類ネットワークのバックボーン・ネットワークにより、サンプル画像の画像特徴を抽出し、画像分類ネットワークの復号モジュールにより、サンプル画像の画像特徴に応じて、サンプル画像の方向情報を予測して、サンプル画像の方向予測結果を得る。

【0074】

選択可能に、サンプル画像を画像分類ネットワークに入力する前に、サンプル画像に対して正規化処理を行う。

【0075】

本実施例において、画像分類ネットワークの自己監視訓練を行う際に、２つの損失関数を使用し、１つの損失関数は、同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴に基づいて、第１の損失を計算するために用いられ、もう１つの損失関数は、各サンプル画像の実際の方向情報及び方向予測結果に基づいて、第２の損失を計算するために用いられ、監視訓練のための損失関数を豊富にして、モデル訓練の効果を向上させることができる。

【0076】

ステップＳ２０４において、同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴に応じて、第１の損失を計算する。

【0077】

選択可能な一実施形態において、プリセット角度には、少なくとも１８０度が含まれる。当該ステップは、具体的には、
各セットのサンプル画像に、第１のサンプル画像の画像特徴を１８０度回転した後に得られる画像特徴と、第１のサンプル画像を１８０度回転した後に得られる第２のサンプル画像の画像特徴との間の差に応じて、第１の損失を計算する方式により実現され得る。

【0078】

このような方式で計算した第１の損失は、同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴間の差を正確に反映できる場合、第１の損失に基づいて画像分類モデルに対して自己監視訓練を行い、それにより、画像分類モデルのバックボーン・ネットワークが画像の回転角度を学習できることにより、特徴抽出モジュールが画像特徴をより良く抽出することができ、画像分類モデルのロバスト性を一層向上させることができ、最終的に得られる視覚モデルの精度を向上させることができる。

【0079】

選択可能な別の実施形態において、プリセット角度には、少なくとも第１の角度及び第２の角度が含まれ、第２の角度は第１の角度に１８０度を加えた角度と等しく、第１の角度は０度ではない。例えば、第１の角度は９０度であり、第２の角度は２７０度である。

【0080】

当該ステップは、具体的には、
同じセット内のサンプル画像のうち方向情報が第１の角度であるサンプル画像の画像特徴を１８０度回転した後に得られる画像特徴と、方向情報が第２の角度であるサンプル画像の画像特徴との間の差に応じて、第１の損失を計算する方式により実現され得る。

【0081】

このような方式により計算した第１の損失は、同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴間の差を正確に反映することもできる場合、第１の損失に基づいて画像分類モデルに対して自己監視訓練を行い、それにより、画像分類モデルのバックボーン・ネットワークが画像の回転角度を学習できることにより、特徴抽出モジュールが画像特徴をより良く抽出することができ、画像分類モデルのロバスト性を一層向上させることができ、最終的に得られる視覚モデルの精度を向上させることができる。

【0082】

例示的に、同一のサンプル画像をそれぞれ９０度及び２７０度回転した後のサンプル画像の画像特徴に応じて、９０度回転した後のサンプル画像の画像特徴を第１の特徴とし、２７０度回転した後のサンプル画像の画像特徴を第２の特徴とし、第１の特徴を１８０度回転した後に得られた画像特徴と第２の特徴との差に応じて、第１の損失を計算する。

【0083】

選択可能に、プリセット角度に１８０度だけでなく、第１の角度及び第２の角度も含まれている場合、当該ステップにおいて、上記の２つの選択可能な実施形態を組み合わせて、第１の損失を計算することができる。

【0084】

選択可能に、第１の損失は、Ｌ２損失であってもよい。また、第１の損失は、Ｌ１損失であってもよいし、又は、他の類似の効果を有する損失関数を使用して計算した損失であってもよいし、本実施例では、これに対して具体的に限定しない。

【0085】

ステップＳ２０５において、各サンプル画像の実際の方向情報及び方向予測結果に応じて、第２の損失を計算する。

【0086】

当該ステップにおいて、各サンプル画像の実際の方向情報と方向予測結果との間の差に応じて、第２の損失を計算する。

【0087】

選択可能に、第２の損失の計算に、クロスエントロピー損失関数を使用してもよいし、分類モデルに一般的に使用される、分類結果の品質を測るための他の損失関数を使用してもよく、本実施例では、これに対して具体的に限定しない。

【0088】

本実施例において、ステップＳ２０４及びステップＳ２０５を並列的に実行してもよいし、任意の順序にしたがって順次実行してもよい。

【0089】

ステップＳ２０６において、第１の損失及び第２の損失に応じて、画像分類ネットワークのバックボーン・ネットワークの重みを調整する。

【0090】

第１の損失及び第２の損失を計算した後、第１の損失及び第２の損失に応じて画像分類ネットワークのバックボーン・ネットワークの重みを調整して、バックボーン・ネットワークの重みを最適化する。

【0091】

選択可能に、第１の損失及び第２の損失の和を計算して、最終損失とし、最終損失に応じて、画像分類ネットワークのバックボーン・ネットワークの重みを調整し、２つの異なる損失関数を組み合わせて画像分類ネットワークに対して自己監視訓練を行って、画像分類ネットワークのロバスト性及び有効性を向上させることができる。

【0092】

ステップＳ２０７において、反復終了条件を満たすか否かを判断する。

【0093】

上記のステップＳ２０３～Ｓ２０６により、画像分類ネットワークに対する１回の反復訓練を完了した後、反復終了条件を満たすか否かを判断する。

【0094】

反復終了条件を満たすと、反復を停止し、方向分類精度が最も高い画像分類モデルを決定して、訓練済みの画像分類モデルとし、引き続きステップＳ２０８を実行する。

【0095】

反復終了条件を満たさないと、引き続きステップＳ２０３を実行して、次回の反復を開始する。

【0096】

ここで、反復停止条件には、反復回数が予め設定された回数の閾値に達すること、最終損失が損失閾値未満であること、及び２回の反復の間の重み値の変化が既に非常に小さいことのうちの少なくとも１つが含まれ得る。

【0097】

ステップＳ２０８において、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得る。

【0098】

【0099】

ステップＳ２０９において、タグが付けられた第２のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得る。

【0100】

【0101】

予備訓練モデルは、視覚モデルの構造と一致し、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して予備訓練モデルのバックボーン・ネットワークの重みを最適化する。現在のコンピュータ視覚タスクシーンでのタグが付けられた第２のデータセットを使用して、当該予備訓練モデルに対してモデル訓練を再度行って、最終の視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。比較的少量のタグが付けられたデータを使用しても、訓練で精度の高い視覚モデルを得ることができる。

【0102】

本実施例は、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築することにより、タグなしの第１のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得、タグなしのデータを充分に利用して、特徴を抽出するためのバックボーン・ネットワークを訓練し、さらに、画像分類ネットワークの自己監視訓練を行う際に、２つの損失関数を使用し、同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴に応じて、第１の損失を計算し、各サンプル画像の実際の方向情報及び方向予測結果の第２の損失を計算し、第１の損失及び第２の損失に基づいて、バックボーン・ネットワークの重みを最適化するとともに、分類結果損失と画像特徴の整列による損失を考慮して、監視訓練のための損失関数を豊富にして、予備訓練モデルのロバスト性及び特徴抽出の精度を向上させることができる。これを基に、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、視覚モデルの構造と一致する予備訓練モデルを得、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化して、現在のコンピュータ視覚タスクにより適するものにし、続いて、タグが付けられた第２のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。

【0103】

図３は、本開示の第３の実施例に係る視覚処理方法のフローチャートである。本実施例にて提供される視覚処理方法は、具体的には、訓練済みの視覚モデルを利用して画像に対する視覚処理を実現するための電子機器に適用することができる。

【0104】

図３に示すように、当該方法は、具体的には、ステップＳ３０１～ステップＳ３０３を含む。

【0105】

ステップＳ３０１において、処理対象の画像を取得する。

【0106】

ステップＳ３０２において、処理対象の画像を視覚モデルに入力して、視覚モデルにより、処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得る。

【0107】

ここで、視覚モデルは、上記の第１の実施例又は第２の実施例の方法で訓練して得られたものであり、具体的な訓練過程について、ここでは詳細な説明を省略する。

【0108】

例示的に、視覚モデルは、テキスト認識モデルであってもよい。訓練済みのテキスト認識モデルについて、処理対象の画像をテキスト認識モデルに入力して、テキスト認識モデルにより、入力された画像に対してテキスト認識処理を行い、得られた処理結果は入力された画像に含まれるテキスト情報である。

【0109】

ステップＳ３０３において、処理結果を出力する。

【0110】

本実施例では、訓練済みの視覚モデルにより、入力画像に対して視覚処理を行って、視覚処理結果を得て出力する。

【0111】

図４は、本開示の第４の実施例に係る視覚モデル訓練の装置の概略構造図である。本開示の実施例にて提供される視覚モデル訓練の装置は、視覚モデル訓練の方法の実施例にて提供される処理流れを実行することができる。図４に示すように、視覚モデル訓練の装置４０は、具体的には、
視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築するためのネットワーク構築モジュール４１と、
タグなしの第１のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るための第１の訓練モジュール４２と、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るための予備訓練モデル決定モジュール４３と、
タグが付けられた第２のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得るための第２の訓練モジュール４４と、を含む。

【0112】

本開示の実施例にて提供される装置は、具体的には、上記の第１の実施例にて提供される方法の実施例を実行するために用いられることができ、実現される具体的な機能について、ここでは詳細な説明を省略する。

【0113】

【0114】

図５は、本開示の第５の実施例に係る視覚モデル訓練の装置の概略構造図である。本開示の実施例にて提供される視覚モデル訓練の装置は、視覚モデル訓練の方法の実施例にて提供される処理流れを実行することができる。図５に示すように、視覚モデル訓練の装置５０は、具体的には、
視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築するためのネットワーク構築モジュール５１と、
タグなしの第１のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るための第１の訓練モジュール５２と、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るための予備訓練モデル決定モジュール５３と、
タグが付けられた第２のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得るための第２の訓練モジュール５４と、を含む。

【0115】

選択可能に、図５に示すように、第１の訓練モジュール５２は、
複数のセットのサンプル画像及び各サンプル画像の方向情報を含むタグなしの第１のデータセットを取得するために用いられるタグなしのデータセット取得ユニットであって、ここで、各セットのサンプル画像に第１のサンプル画像と、第１のサンプル画像をプリセット角度で回転させて得られる第２のサンプル画像とが含まれるタグなしのデータセット取得ユニット５２１と、
画像分類ネットワークにより第１のデータセット内の各サンプル画像の画像特徴を抽出し、画像特徴に応じて各サンプル画像の方向予測結果を決定するための分類予測ユニット５２２と、
同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴に応じて、第１の損失を計算し、各サンプル画像の実際の方向情報及び方向予測結果に応じて第２の損失を計算するための第２の損失コンピューティングユニット５２３と、
第１の損失及び第２の損失に応じて、画像分類ネットワークのバックボーン・ネットワークの重みを調整するための重み最適化ユニット５２４と、を含む。

【0116】

選択可能に、タグなしのデータセット取得ユニットは、
タグなしの第１のサンプル画像を取得し、第１のサンプル画像の方向情報を０度に決定するためのサンプル画像取得サブユニットと、
第１のサンプル画像をプリセット角度で回転させて、第２のサンプル画像を得、第２のサンプル画像の方向情報をプリセット角度に決定するための画像回転サブユニットと、を含む。

【0117】

選択可能に、プリセット角度には、少なくとも１８０度が含まれる。損失コンピューティングユニットは、
各セットのサンプル画像に、第１のサンプル画像の画像特徴を１８０度回転した後に得られる画像特徴と、第１のサンプル画像を１８０度回転した後に得られる第２のサンプル画像の画像特徴との間の差に応じて、第１の損失を計算するための第１の損失計算サブユニットを含む。

【0118】

選択可能に、プリセット角度には、少なくとも第１の角度及び第２の角度が含まれ、第２の角度は第１の角度に１８０度を加えた角度と等しく、第１の角度は０度ではない。損失コンピューティングユニットは、
同じセット内のサンプル画像のうち方向情報が第１の角度であるサンプル画像の画像特徴を１８０度回転した後に得られる画像特徴と、方向情報が第２の角度であるサンプル画像の画像特徴との間の差に応じて、第１の損失を計算する第２の損失計算サブユニットを含む。

【0119】

選択可能に、サンプル画像取得サブユニットは、さらに、
合成画像及び実画像のうちの少なくとも１つを含む原画像を取得し、原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得、サンプル画像に対してランダムなデータ拡張を行って、第１のサンプル画像を得るために用いられる。

【0120】

選択可能に、サンプル画像取得サブユニットは、さらに、
原画像に対してテキスト検出を行って、テキスト情報がある領域の画像を抽出し、テキスト情報がある領域の画像に対して画像補正を行って、モデル訓練要件を満たすサンプル画像を得るために用いられる。

【0121】

選択可能に、重み最適化ユニットは、さらに、
第１の損失と第２の損失との和を計算して、最終損失とし、最終損失に応じて、画像分類ネットワークのバックボーン・ネットワークの重みを調整するために用いられる。

【0122】

本開示の実施例にて提供される装置は、具体的には、上記の第２の実施例にて提供される方法の実施例を実行するために用いられることができ、実現される具体的な機能について、ここでは詳細な説明を省略する。

【0123】

本実施例は、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築することにより、タグなしの第１のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得、タグなしのデータを充分に利用して、特徴を抽出するためのバックボーン・ネットワークを訓練し、さらに、画像分類ネットワークの自己監視訓練を行う際に、２つの損失関数を使用し、同じセット内のサンプル画像のうち方向情報が１８０度異なる２つのサンプル画像の画像特徴に応じて、第１の損失を計算し、各サンプル画像の実際の方向情報及び方向予測結果の第２の損失を計算し、第１の損失及び第２の損失に基づいて、バックボーン・ネットワークの重みを最適化するとともに、分類結果損失と画像特徴の整列による損失を考慮して、監視訓練のための損失関数を豊富にして、予備訓練モデルのロバスト性及び特徴抽出の精度を向上させることができる。これを基に、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、視覚モデルの構造と一致する予備訓練モデルを得、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、バックボーン・ネットワークの重みを最適化して、現在のコンピュータ視覚タスクにより適するものにし、続いて、タグが付けられた第２のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。

【0124】

図６は、本開示の第６の実施例に係る視覚処理装置の概略構造図である。本開示の実施例にて提供される視覚処理装置は、視覚処理方法の実施例にて提供される処理流れを実行することができる。図６に示すように、当該視覚処理装置６０には、画像取得モジュール６１、視覚処理モジュール６２及び結果出力モジュール６３が含まれる。

【0125】

具体的には、画像取得モジュール６１は、処理対象の画像を取得するために用いられる。

【0126】

視覚処理モジュール６２は、処理対象の画像を、上記の第４の実施例又は第５の実施例の装置によって生成される視覚モデルに入力して、視覚モデルにより、処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得るために用いられる。

【0127】

結果出力モジュール６３は、処理結果を出力するために用いられる。

【0128】

本開示の実施例にて提供される装置は、具体的には、上記の第３の実施例にて提供される方法の実施例を実行することができ、実現される具体的な機能について、ここでは詳細な説明を省略する。

【0129】

本開示の技術案において、係るユーザの個人情報の収集、記憶、使用、加工、伝送、提供及び開示などの処理は、何れも関連法律法規の規定に合致し、公序良俗に反するものではない。

【0130】

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。

【0131】

本開示の実施例によれば、本開示は、さらに、コンピュータプログラム製品を提供し、コンピュータプログラム製品には、可読記憶媒体に記憶されているコンピュータプログラムが含まれ、電子機器の少なくとも１つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも１つのプロセッサがコンピュータプログラムを実行すると、電子機器は上記のいずれの実施例にて提供される手段を実行する。

【0132】

図７は、本開示の実施例を実施できる例示的な電子機器７００の模式的なブロック図を示す。電子機器は、例えばラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、例えばパーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及びその他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを表すこともできる。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は単なる例であり、本明細書に記載及び／又は要求される本開示の実施を限定することを意図するものではない。

【0133】

図７に示すように、機器７００は、コンピューティングユニット７０１を含み、それは、読み取り専用メモリ（ＲＯＭ）７０２に記憶されているコンピュータプログラム又は記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラムに応じて、様々な適切なアクション及び処理を実行することができる。ＲＡＭ７０３に、機器７００の操作に必要な様々なプログラム及びデータをさらに記憶することができる。コンピューティングユニット７０１、ＲＯＭ７０２及びＲＡＭ７０３は、バス７０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続される。

【0134】

キーボード、マウスなどの入力ユニット７０６と、様々なタイプのディスプレイ、スピーカーなどの出力ユニット７０７と、磁気ディスク、光ディスクなどの記憶ユニット７０８と、ネットワークカード、モデム、ワイヤレス通信トランシーバーなどの通信ユニット７０９とを含む機器７００の複数の部材は、Ｉ／Ｏインターフェース７０５に接続される。通信ユニット７０９は、インターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークなどを介して、機器７００が他のデバイスと情報／データを交換することを可能にする。

【0135】

コンピューティングユニット７０１は、処理及びコンピューティング機能を備えた様々な汎用及び／又は専用処理コンポーネントであり得る。コンピューティングユニット７０１の一部の例示は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な特定用途向け人工知能（ＡＩ）コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、及びデジタルシグナルプロセッサ（ＤＳＰ）、及びいずれかの適切なプロセッサ、コントローラ、マイクロコンピュータなどを含むが、これらに限定されない。コンピューティングユニット７０１は、上記の各方法及び処理、例えば、視覚モデル訓練の方法又は視覚処理方法を実行する。例えば、一部の実施例において、視覚モデル訓練の方法又は視覚処理方法は、記憶ユニット７０８などの機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実装され得る。一部の実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ７０２及び／又は通信ユニット７０９を介して機器７００にロード及び／又はインストールされることができる。コンピュータプログラムがＲＡＭ７０３にロードされ、コンピューティングユニット７０１によって実行されると、上記の視覚モデル訓練の方法又は視覚処理方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例において、コンピューティングユニット７０１は、他のいずれかの適切な方式（例えば、ファームウェアを介する）で、視覚モデル訓練の方法を実行するように構成されてもよい。

【0136】

本明細書に説明した以上のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブルロジック機器（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実装され得る。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含み、ここで、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に送信することができる。

【0137】

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組合せを用いて書かれることができる。これらのプログラムコードは、汎用コンピュータ、特定用途向けコンピュータ或いは他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよいため、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図で定義された機能／操作が実施される。プログラムコードは、完全にマシン上で実行されても、部分的にマシン上で実行されてもよく、独立型ソフトウェアパッケージとして、一部がマシン上で実行されるとともに、一部がリモートマシン上で実行されるか、又は完全にリモートマシン或いはサーバ上で実行されてもよい。

【0138】

本開示の文脈において、機械可読媒体は、有形媒体であってもよく、命令実行システム、装置或いはデバイスの使用に提供されるか、又は命令実行システム、装置或いはデバイスと組み合わせて使用されるプログラムを含むか、又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置或いはデバイス、又は上記内容の任意の適切な組み合わせを含むが、これらに限定されない。機械可読記憶媒体のさらなる具体的な例示は、１つ又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ（登録商標））、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、又は上記内容のいずれの適切な組み合わせを含む。

【0139】

ユーザとのインタラクションを提供するために、本明細書に説明したシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスやトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって、コンピュータに入力することが可能になる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、そして、任意の形態（音響入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信することができる。

【0140】

本明細書で説明するシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザーインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは当該グラフィカルユーザーインターフェース又は当該ウェブブラウザを介して本明細書で説明するシステム及び技術の実施方法と相互作用できる）、又はこのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実装されることができる。システムの構成要素は、いずれの形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して互いに接続されることができる。通信ネットワークの例示には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットが含まれる。

【0141】

コンピュータシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般に、互いに遠く離れており、通常は通信ネットワークを介して相互作用する。対応するコンピュータ上で実行されるとともに互いにクライアント－サーバの関係を持つコンピュータプログラムによって、クライアントとサーバの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、略称「ＶＰＳ」）は、管理が難しく、サービス拡張性が弱いという欠点を解決するための、クラウドコンピューティングサービスシステムにおけるホスト製品の１つである。サーバは、分散システムのサーバであっても、ブロックチェーンと組み合わせたサーバであってもよい。

【0142】

上記に示された様々な形態のフローを用いて、ステップの並べ替え、追加、又は削除を行うことができることを理解されたい。例えば、本開示に記載された各ステップは、並列的に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよく、本開示に開示される技術案の所望の結果が達成できる限り、本明細書ではこれに対して限定しない。

【0143】

上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、コンビネーション、サブコンビネーション及び置換を行うことができることを理解すべきである。本開示の精神と原則の範囲内で行われる修正、等価置換及び改良などは、いずれも本開示の保護範囲に含まれるべきである。

【0144】

本開示は、２０２２年０２月２５日に中国特許庁に提出された、出願番号が２０２２１０１８１８６８．０で、出願名称が「視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品」である中国特許出願の優先権を主張し、その内容の全ては援用により本開示に組み込まれる。

【図1】