(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-30
(45)【発行日】2024-11-08
(54)【発明の名称】視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品
(51)【国際特許分類】
G06T 7/00 20170101AFI20241031BHJP
G06V 10/774 20220101ALI20241031BHJP
【FI】
G06T7/00 350C
G06V10/774
(21)【出願番号】P 2023512344
(86)(22)【出願日】2022-06-22
(86)【国際出願番号】 CN2022100368
(87)【国際公開番号】W WO2023159819
(87)【国際公開日】2023-08-31
【審査請求日】2023-02-20
(31)【優先権主張番号】202210181868.0
(32)【優先日】2022-02-25
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】クオ ルオユ
(72)【発明者】
【氏名】ドゥー ユニン
(72)【発明者】
【氏名】リ チェンシア
(72)【発明者】
【氏名】リュウ チーウェン
(72)【発明者】
【氏名】ライ バオフア
(72)【発明者】
【氏名】マ ヤンジュン
(72)【発明者】
【氏名】ユイ ディアンハイ
【審査官】小池 正彦
(56)【参考文献】
【文献】中国特許出願公開第113963186(CN,A)
【文献】中国特許出願公開第113486745(CN,A)
【文献】中国特許出願公開第113139623(CN,A)
【文献】中国特許出願公開第113780342(CN,A)
【文献】中国特許出願公開第109919209(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/774
(57)【特許請求の範囲】
【請求項1】
視覚モデル訓練の方法であって
、
視覚モデル
に基づいて、バックボーン・ネットワークと復号モジュールとを含む画像分類ネットワークを構築する
ステップであって、前記画像分類ネットワークのバックボーン・ネットワークが、前記視覚モデル中の特徴抽出を行うためのバックボーン・ネットワークと同じであり、前記復号モジュールが異なる、ステップと、
タグなしの第1のデータセットを使用して、前記画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るステップと、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、前記視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るステップと、
タグが付けられた第2のデータセットを使用して、前記予備訓練モデルを訓練して、コンピュータ視覚処理を実行して処理結果を得るための訓練済みの視覚モデルを得る
ステップであって、前記視覚モデルは、入力画像に対してテキスト認識処理を行って、前記入力画像に含まれているテキスト情報を得るための光学式文字認識(OCR)テキスト認識モデルであり、前記第2のデータセットは、現在のコンピュータ視覚タスクシーンでの実画像データ及びタグ付き情報を含む、ステップと、を含
み、
タグなしの第1のデータセットを使用して、前記画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るステップは、
複数のセットのサンプル画像及び各サンプル画像の方向情報を含む前記タグなしの第1のデータセットを取得するステップであって、ここで、各セットのサンプル画像に、第1のサンプル画像と、前記第1のサンプル画像をプリセット角度で回転させて得られる第2のサンプル画像とが含まれる、ステップと、
前記画像分類ネットワークにより、前記第1のデータセット内の各サンプル画像の画像特徴を抽出し、前記画像特徴に応じて各サンプル画像の方向予測結果を決定するステップと、
同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴に応じて、第1の損失を計算し、各サンプル画像の実際の方向情報及び方向予測結果に応じて第2の損失を計算するステップと、
前記第1の損失及び前記第2の損失に応じて、前記画像分類ネットワークのバックボーン・ネットワークの重みを調整するステップと、を含む、
視覚モデル訓練の方法。
【請求項2】
前記タグなしの第1のデータセットを取得するステップは、
タグなしの第1のサンプル画像を取得し、前記第1のサンプル画像の方向情報を0度に決定するステップと、
前記第1のサンプル画像を前記プリセット角度で回転させて、第2のサンプル画像を得、前記第2のサンプル画像の方向情報を前記プリセット角度に決定するステップと、を含む、
請求項
1に記載の方法。
【請求項3】
前記プリセット角度には、少なくとも180度が含まれ、
同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴に応じて、第1の損失を計算するステップは、
各セットのサンプル画像に、第1のサンプル画像の画像特徴を180度回転した後に得られる画像特徴と、第1のサンプル画像を180度回転した後に得られる第2のサンプル画像の画像特徴との間の差に応じて、第1の損失を計算するステップを含む、
請求項
2に記載の方法。
【請求項4】
前記プリセット角度には、少なくとも第1の角度及び第2の角度が含まれ、前記第2の角度は、前記第1の角度に180度を加えた角度と等しく、前記第1の角度は0度ではなく、
同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴に応じて、第1の損失を計算するステップは、
同じセット内のサンプル画像のうち方向情報が前記第1の角度であるサンプル画像の画像特徴を180度回転させた後に得られる画像特徴と、方向情報が前記第2の角度であるサンプル画像の画像特徴との間の差に応じて、第1の損失を計算するステップを含む、
請求項
2に記載の方法。
【請求項5】
タグなしの第1のサンプル画像を取得するステップは、
合成画像及び実画像のうちの少なくとも1つを含む原画像を取得するステップと、
前記原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得るステップと、
前記サンプル画像に対してランダムなデータ拡張を行って、前記第1のサンプル画像を得るステップと、を含む、
請求項
2に記載の方法。
【請求項6】
前記視覚モデルがテキスト認識シーンに適用される場合、前記原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得るステップは、
前記原画像に対してテキスト検出を行い、テキスト情報がある領域の画像を抽出するステップと、
前記テキスト情報がある領域の画像に対して画像補正を行って、モデル訓練要件を満たすサンプル画像を得るステップと、を含む、
請求項
5に記載の方法。
【請求項7】
前記第1の損失及び前記第2の損失に応じて、前記画像分類ネットワークのバックボーン・ネットワークの重みを調整するステップは、
前記第1の損失と前記第2の損失との和を計算して、最終損失とするステップと、
前記最終損失に応じて、前記画像分類ネットワークのバックボーン・ネットワークの重みを調整するステップと、を含む、
請求項
1に記載の方法。
【請求項8】
処理対象の画像を取得するステップと、
前記処理対象の画像を、請求項1に記載の方法で訓練して得られるものである視覚モデルに入力し、前記視覚モデルにより前記処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得るステップと、
処理結果を出力するステップと、を含む、
視覚処理方法。
【請求項9】
視覚モデル訓練の装置であって
、
視覚モデル
に基づいて、バックボーン・ネットワークと復号モジュールとを含む画像分類ネットワークを構築するためのネットワーク構築モジュール
であって、前記画像分類ネットワークのバックボーン・ネットワークが、前記視覚モデル中の特徴抽出を行うためのバックボーン・ネットワークと同じであり、前記復号モジュールが異なる、ネットワーク構築モジュールと、
タグなしの第1のデータセットを使用して、前記画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るための第1の訓練モジュールと、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、前記視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るための予備訓練モデル決定モジュールと、
タグが付けられた第2のデータセットを使用して、前記予備訓練モデルを訓練して、訓練済みの視覚モデルを得るための第2の訓練モジュール
であって、前記視覚モデルは、入力画像に対してテキスト認識処理を行って、前記入力画像に含まれているテキスト情報を得るための光学式文字認識(OCR)テキスト認識モデルであり、前記第2のデータセットは、現在のコンピュータ視覚タスクシーンでの実画像データ及びタグ付き情報を含む、第2の訓練モジュールと、を含
み、
前記第1の訓練モジュールは、
複数のセットのサンプル画像及び各サンプル画像の方向情報を含む前記タグなしの第1のデータセットを取得するために用いられるタグなしのデータセット取得ユニットであって、各セットのサンプル画像に、第1のサンプル画像と、前記第1のサンプル画像をプリセット角度で回転させて得られる第2のサンプル画像とが含まれる、タグなしのデータセット取得ユニットと、
前記画像分類ネットワークにより、前記第1のデータセット内の各サンプル画像の画像特徴を抽出し、前記画像特徴に応じて各サンプル画像の方向予測結果を決定するための分類予測ユニットと、
同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴に応じて、第1の損失を計算し、各サンプル画像の実際の方向情報及び方向予測結果に応じて第2の損失を計算するための損失コンピューティングユニットと、
前記第1の損失及び前記第2の損失に応じて、前記画像分類ネットワークのバックボーン・ネットワークの重みを調整するための重み最適化ユニットと、を含む、
視覚モデル訓練の装置。
【請求項10】
前記タグなしのデータセット取得ユニットは、
タグなしの第1のサンプル画像を取得し、前記第1のサンプル画像の方向情報を0度に決定するためのサンプル画像取得サブユニットと、
前記第1のサンプル画像を前記プリセット角度で回転させて、第2のサンプル画像を得、前記第2のサンプル画像の方向情報を前記プリセット角度に決定するための画像回転サブユニットと、を含む、
請求項
9に記載の装置。
【請求項11】
前記プリセット角度には、少なくとも180度が含まれ、前記損失コンピューティングユニットは、
各セットのサンプル画像に、第1のサンプル画像の画像特徴を180度回転した後に得られる特徴と、第1のサンプル画像を180度回転した後に得られる第2のサンプル画像の画像特徴との間の差に応じて、第1の損失を計算するための第1の損失計算サブユニットを含む、
請求項
10に記載の装置。
【請求項12】
前記プリセット角度には、少なくとも第1の角度及び第2の角度が含まれ、前記第2の角度は、前記第1の角度に180度を加えた角度と等しく、前記第1の角度は0度ではなく、前記損失コンピューティングユニットは、
同じセット内のサンプル画像のうち方向情報が前記第1の角度であるサンプル画像の画像特徴を180度回転させた後に得られる画像特徴と、方向情報が前記第2の角度であるサンプル画像の画像特徴との間の差に応じて、第1の損失を計算する第2の損失計算サブユニットを含む、
請求項
10に記載の装置。
【請求項13】
前記サンプル画像取得サブユニットは、さらに、
合成画像及び実画像のうちの少なくとも1つを含む原画像を取得し、
前記原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得、
前記サンプル画像に対してランダムなデータ拡張を行って、前記第1のサンプル画像を得るために用いられる、
請求項
10に記載の装置。
【請求項14】
前記サンプル画像取得サブユニットは、さらに、
前記原画像に対してテキスト検出を行い、テキスト情報がある領域の画像を抽出し、
前記テキスト情報がある領域の画像に対して画像補正を行って、モデル訓練要件を満たすサンプル画像を得るために用いられる、
請求項
13に記載の装置。
【請求項15】
前記重み最適化ユニットは、さらに、
前記第1の損失と前記第2の損失との和を計算して、最終損失とし、
前記最終損失に応じて、前記画像分類ネットワークのバックボーン・ネットワークの重みを調整するために用いられる、
請求項
9に記載の装置。
【請求項16】
処理対象の画像を取得するための画像取得モジュールと、
前記処理対象の画像を、請求項
9~
15のいずれか1項に記載の装置によって生成される視覚モデルに入力し、前記視覚モデルにより前記処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得るための視覚処理モジュールと、
処理結果を出力するための結果出力モジュールと、を含む、
視覚処理装置。
【請求項17】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続するメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1~
8のいずれか1項に記載の方法を実行することができる、
電子機器。
【請求項18】
コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~
8のいずれか1項に記載の方法を実行させるために用いられる、
非一時的なコンピュータ可読記憶媒体。
【請求項19】
コンピュータプログラムであって、当該コンピュータプログラムがプロセッサによって実行されると、請求項1~
8のいずれか1項に記載の方法が実現される、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術におけるコンピュータ視覚、深層学習等の分野に関し、特に、視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品に関する。
【背景技術】
【0002】
OCR(Optical Character Recognition、光学式文字認識)は、写真情報を、編集及び記憶がより容易なテキスト情報に転換する技術である。現在、手形認識、銀行カード情報認識、数式認識などの様々な場面で広く適用されており、また、OCRは、字幕翻訳、セキュリティモニタリング等の多くの下流のタスクも支援し、また、ビデオ検索などのような他のコンピュータ視覚タスクにも適用できる。
【0003】
目標検出、画像分割、テキスト認識等の様々なコンピュータ視覚タスクにおいて、一般に、コンピュータ視覚タスクのための視覚モデルを訓練する必要がある。実際のシーンにおいて、大量の実画像データがあるが、実画像データに対するタグ付きコストが高い。現在、タグ付き情報を知っている単純データと背景マップとの合成を利用して、大量の合成データ及びタグ付き情報を有する少量の実データに基づいてモデル訓練を行うのが多く、主に、以下の2つの方式がある。1つは、タグが付けられたデータを大量合成し、タグが付けられた合成データに基づいて視覚モデルを訓練し、続いて実データ及びタグ付き情報を使用して視覚モデルを訓練して、最終の視覚モデルを得る。1つは、タグが付けられたデータを大量合成し、タグが付けられた合成データと実データとを混合して訓練データとし、視覚モデルを訓練して、最終の視覚モデルを得る。しかし、合成データに基づいて、モデル訓練を行う場合、合成データが単純すぎて、オーバーフィッティングが発生するため、訓練で得られるモデルの精度が低い場合が多い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品を提供する。
【課題を解決するための手段】
【0005】
本開示の第1の態様によれば、視覚モデル訓練の方法を提供し、
前記視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築するステップと、
タグなしの第1のデータセットを使用して、前記画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るステップと、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、前記視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るステップと、
タグが付けられた第2のデータセットを使用して、前記予備訓練モデルを訓練して、訓練済みの視覚モデルを得るステップと、を含む。
【0006】
本開示の第2の態様によれば、視覚処理方法を提供し、
処理対象の画像を取得するステップと、
前記処理対象の画像を視覚モデルに入力し、上記の第1の態様に記載の方法で訓練して得られる前記視覚モデルにより、前記処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得るステップと、
処理結果を出力するステップと、を含む。
【0007】
本開示の第3の態様によれば、視覚モデル訓練の装置を提供し、
前記視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築するためのネットワーク構築モジュールと、
タグなしの第1のデータセットを使用して、前記画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るための第1の訓練モジュールと、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、前記視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るための予備訓練モデル決定モジュールと、
タグが付けられた第2のデータセットを使用して、前記予備訓練モデルを訓練して、訓練済みの視覚モデルを得るための第2の訓練モジュールと、を含む。
【0008】
本開示の第4の態様によれば、視覚処理装置を提供し、
処理対象の画像を取得するための画像取得モジュールと、
前記処理対象の画像を視覚モデルに入力し、上記の第3の態様に記載の装置によって生成される前記視覚モデルにより、前記処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得るための視覚処理モジュールと、
処理結果を出力するための結果出力モジュールと、を含む。
【0009】
本開示の第5の態様によれば、電子機器を提供し、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続するメモリと、を含み、ここで、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが第1の態様又は第2の態様に記載の方法を実行することができる。
【0010】
本開示の第6の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体を提供し、ここで、前記コンピュータ命令は、前記コンピュータに第1の態様又は第2の態様に記載の方法を実行させるために用いられる。
【0011】
本開示の第7の態様によれば、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、可読記憶媒体に記憶されているコンピュータプログラムを含み、電子機器の少なくとも1つのプロセッサが、前記可読記憶媒体から前記コンピュータプログラムを読み取り、前記少なくとも1つのプロセッサが前記コンピュータプログラムを実行すると、電子機器に第1の態様又は第2の態様に記載の方法を実行させる。
【0012】
本開示の技術によれば、視覚モデルの精度を向上させる。
【0013】
本明細書に記載の内容は、本開示の実施例の肝心な特徴又は重要な特徴を特定することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことを理解されたい。本開示のその他の特徴は、以下の明細書により容易に理解できる。
【図面の簡単な説明】
【0014】
図面は、本発明をよりよく理解するために使用され、本開示を限定するものではない。
【
図1】本開示の第1の実施例に係る視覚モデル訓練の方法のフローチャートである。
【
図2】本開示の第2の実施例に係る視覚モデル訓練の方法のフローチャートである。
【
図3】本開示の第3の実施例に係る視覚処理方法のフローチャートである。
【
図4】本開示の第4の実施例に係る視覚モデル訓練の装置の概略構造図である。
【
図5】本開示の第5の実施例に係る視覚モデル訓練の装置の概略構造図である。
【
図6】本開示の第6の実施例に係る視覚処理装置の概略構造図である。
【
図7】本開示の実施例の視覚モデル訓練の方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本開示の例示的な実施例を説明するが、理解を容易にするために、本開示の実施例の様々な詳細事項がこの説明に含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書に説明される実施例に対して様々な変更と修正を行うことができることを理解できるだろう。同様に、分かりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造についての説明を省略する。
【0016】
本開示に係わる「第1」、「第2」、「第3」という用語は、単に記述のためのものであり、相対的な重要性を明示したり暗示したりするか、又は、示される技術的特徴の数を暗示するものと理解されるべきではない。以下の各実施例の記述において、「複数」は、特に明確に定義及び限定しない限り、2つ以上を意味する。
【0017】
OCR(Optical Character Recognition、光学式文字認識)は、写真情報を、編集及び記憶がより容易なテキスト情報に転換する技術である。現在、手形認識、銀行カード情報認識、数式認識などの様々な場面で広く適用されており、また、OCRは、字幕翻訳、セキュリティモニタリング等の多くの下流のタスクも支援し、また、ビデオ検索などのような他のコンピュータ視覚タスクにも適用できる。
【0018】
目標検出、画像分割、テキスト認識等の様々なコンピュータ視覚タスクにおいて、一般に、コンピュータ視覚タスクのための視覚モデルを訓練する必要がある。
【0019】
実際のシーンにおいて、大量の実画像データがあるが、実画像データに対するタグ付きコストが高い。モデルの訓練効果を向上させるために、画像分類における予備訓練モデルを使用して、モデルの収束過程を加速して、モデルの精度を向上させることができる。しかし、OCRに基づくテキスト認識タスクなどのような一部のコンピュータ視覚タスクにおいて、テキスト認識タスクシーンの画像データは、画像分類の予備訓練モデルに使用されるデータセットとの差異が非常に大きいため、テキスト認識モデルと予備訓練モデルとの構造の差異が大きく、画像分類に基づく予備訓練モデルを直接ロードして、テキスト認識モデルの訓練に用いると、テキスト認識モデルの精度メリットをもたらすことができない。タグなしのテキスト認識データは、非常に一般的で入手しやすいが、タグなしのデータをテキスト認識モデルの訓練に直接使用することはできない。
【0020】
現在、視覚モデルの訓練について、タグ付き情報を知っている単純データと背景マップとの合成を利用して、大量の合成データ及びタグ付き情報を有する少量の実データに基づいてモデル訓練を行うことが多い。主に、下記の2つの方式がある。1つは、タグが付けられたデータを大量合成し、タグが付けられた合成データに基づいて視覚モデルを訓練し、続いて実データ及びタグ付き情報を使用して視覚モデルを訓練して、最終の視覚モデルを得る。1つは、タグが付けられたデータを大量合成し、タグが付けられた合成データと実データとを混合して訓練データとし、視覚モデルを訓練して、最終の視覚モデルを得る。
【0021】
しかし、合成データに基づいて、モデル訓練を行う場合、合成データが単純すぎて、オーバーフィッティングが発生するため、訓練で得られるモデルの精度が低い場合が多い。
【0022】
本開示は、視覚モデルの精度を向上させるために、コンピュータ技術におけるコンピュータ視覚、深層学習等に適用される視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品を提供する。
【0023】
本開示にて提供される視覚モデル訓練の方法は、視覚モデルに基づいて画像分類ネットワークを構築して、画像分類ネットワークに、視覚モデルと同じバックボーン・ネットワークを有させ、タグなしの第1のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、画像分類ネットワークのバックボーン・ネットワークを最適化し、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、視覚モデルのバックボーン・ネットワークと一致するバックボーン・ネットワークを有する予備訓練モデルを得、現在のコンピュータ視覚タスクシーンでのタグなしのデータセットを取得しやすいため、実際のタグなしのデータセットに基づいて予備訓練モデルを訓練することにより、予備訓練モデルを現在のコンピュータ視覚タスクにおける視覚モデルの訓練により適するものにし、予備訓練モデルの有効性を向上させ、続いて、タグが付けられた第2のデータセットを使用して、予備訓練モデルを訓練して、訓練済みの視覚モデルを得、視覚モデルの精度を向上させることができる。
【0024】
また、比較的少量のタグが付けられたデータを使用しても、訓練で精度の高い視覚モデルを得ることができる。
【0025】
訓練で得られた視覚モデルは、様々なコンピュータ視覚タスクシーンに適用でき、対応するコンピュータ視覚処理を行う。例えば、視覚モデルは、入力画像に対してテキスト認識処理を行って、入力画像に含まれているテキスト情報を得るためのOCRテキスト認識モデルであってもよい。
【0026】
以下、具体的な実施例で、本願の技術案と、本願の技術案が上記の技術的問題をどのように解決するかとについて詳細に説明する。以下のいくつかの具体的な実施例は、互いに組み合わせることができ、一部の実施例では、同じ又は類似の概念又は過程の詳細な説明を省略する。以下、図面を参照しながら、本願の実施例について説明する。
【0027】
図1は、本開示の第1の実施例に係る視覚モデル訓練の方法のフローチャートである。本実施例にて提供される視覚モデル訓練の方法は、具体的には、視覚モデルに対する訓練を実現するための電子機器に適用できる。
【0028】
図1に示すように、当該方法は、具体的には、ステップS101~ステップS104を含む。
【0029】
ステップS101において、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築する。
【0030】
ここで、画像分類ネットワークには、バックボーン・ネットワーク及び復号モジュールが含まれ、バックボーン・ネットワークとは、ネットワーク中の符号化モジュールであり、特徴抽出を行うためのモジュールでもある。
【0031】
本実施例において、視覚モデルに基づいて画像分類ネットワークを構築して、画像分類ネットワークに、視覚モデルと同じバックボーン・ネットワークを有させ、つまり、画像分類ネットワークは、視覚モデル中の特徴抽出を行うための符号化モジュールと一致するが、復号モジュールとは異なる。
【0032】
ステップS102において、タグなしの第1のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得る。
【0033】
ここで、第1のデータセットは、タグなしのデータセットであり、現在のコンピュータ視覚タスクシーンでの実画像データを含む。また、第1のデータセットには、さらに、合成データが含まれてもよい。
【0034】
本実施例において、現在のコンピュータ視覚タスクシーンにおけるタグなしの第1のデータセットに基づいて、画像分類ネットワークに対して自己監視訓練を行って、画像分類ネットワークのバックボーン・ネットワークの重みを最適化することにより、バックボーン・ネットワークを現在のコンピュータ視覚タスクにより適するものにし、コンピュータ視覚タスクに適用される場合に、特徴抽出をより良く行うことができ、且つ、タグが付けられたデータセットを使用する必要がない。
【0035】
ステップS103において、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得る。
【0036】
タグなしの第1のデータセットを使用して画像分類ネットワークの自己監視訓練を完了した後、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みを視覚モデルのバックボーン・ネットワークの初期重みとして、視覚モデルを初期化して、視覚モデルの構造と一致する予備訓練モデルを得、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化する。
【0037】
ステップS104において、タグが付けられた第2のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得る。
【0038】
ここで、第2のデータセットは、タグが付けられたデータセットであり、現在のコンピュータ視覚タスクシーンでの実画像データ及びタグ付き情報を含む。
【0039】
ステップS103で得られた予備訓練モデルは、視覚モデルの構造と一致し、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化するため、当該予備訓練モデルに基づいて、現在のコンピュータ視覚タスクシーンでのタグが付けられた第2のデータセットを使用してモデル訓練を行って、最終の視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。比較的少量のタグが付けられたデータを使用しても、訓練で精度の高い視覚モデルを得ることができる。
【0040】
本実施例では、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築し、タグなしの第1のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、視覚モデルの構造と一致する予備訓練モデルを得、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化して、現在のコンピュータ視覚タスクにより適するものにし、続いて、タグが付けられた第2のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。
【0041】
図2は、本開示の第2の実施例に係る視覚モデル訓練の方法のフローチャートである。上記の第1の実施例に加え、本実施例において、タグなしの第1のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るステップは、複数のセットのサンプル画像及び各サンプル画像の方向情報を含むタグなしの第1のデータセットを取得するステップであって、ここで、各セットのサンプル画像に第1のサンプル画像と、第1のサンプル画像をプリセット角度で回転させて得られる第2のサンプル画像とが含まれるステップと、画像分類ネットワークにより第1のデータセット内の各サンプル画像の画像特徴を抽出し、画像特徴に応じて各サンプル画像の方向予測結果を決定するステップと、同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴に応じて、第1の損失を計算するステップと、各サンプル画像の実際の方向
情報及び方向予測結果に応じて第2の損失を計算するステップと、を含み、第1の損失及び第2の損失に応じて、画像分類ネットワークのバックボーン・ネットワークの重みを調整して、タグなしのデータセットを使用して画像分類ネットワークの自己監視訓練を実現でき、
予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化することにより、バックボーン・ネットワークがコンピュータ視覚タスクの特徴抽出により適するものになり、最終的に得られる視覚モデルの精度を向上させることができる。
【0042】
図2に示すように、当該方法は、具体的には、ステップS201~ステップS209を含む。
【0043】
ステップS201において、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築する。
【0044】
ここで、画像分類ネットワークには、バックボーン・ネットワーク及び復号モジュールが含まれ、バックボーン・ネットワークとは、ネットワーク中の符号化モジュールであり、特徴抽出を行うためのモジュールでもある。
【0045】
本実施例において、視覚モデルに基づいて画像分類ネットワークを構築して、画像分類ネットワークに、視覚モデルと同じバックボーン・ネットワークを有させ、つまり、画像分類ネットワークは、視覚モデル中の特徴抽出を行うための符号化モジュールと一致するが、復号モジュールは異なる。
【0046】
例示的に、視覚モデルがテキスト認識モデルであることを例として、テキスト認識モデルは、CRNN(Convolutional Recurrent Neural Network、畳み込み循環ニューラルネットワーク)、RARE(Robust text recognizer with Automatic Rectification、自動修正機能を備えたロバストなテキスト認識器)、NRTR等を用いて実現することができる。画像分類ネットワークのバックボーン・ネットワークは、CRNN、RARE、NRTRにおける特徴抽出の処理を実現するために用いられる。ここで、CRNNの全称は、主に、エンドツーエンドの不定長のテキストシーケンスを認識するために使用されるため、先に、個々の文字をカットすることを必要とせず、テキスト認識を時系列依存のシーケンス学習問題に変換し、つまり、画像に基づくシーケンス認識である。CRNNには、主に、畳み込み層、循環層、及び転写層が含まれ、最終的に、固定長入力を用いて不定長のシーケンスを予測することを実現する。
【0047】
画像分類ネットワーク復号モジュールは、バックボーン・ネットワークで抽出された特徴に応じて、復号して分類結果を得るために用いられる。
【0048】
ステップS202において、複数のセットのサンプル画像及び各サンプル画像の方向情報を含むタグなしの第1のデータセットを取得し、ここで、各セットのサンプル画像に第1のサンプル画像と、第1のサンプル画像をプリセット角度で回転させて得られる第2のサンプル画像とが含まれる。
【0049】
ここで、第1のデータセットは、タグなしのデータセットであり、現在のコンピュータ視覚タスクシーンでの実画像データを含む。また、第1のデータセットには、さらに、合成データが含まれてもよい。
【0050】
実際のコンピュータ視覚タスクシーンにおいて、大量の実画像データを取得しやすく、合成データの使用を減らして、合成データに対する依存をなくすために、合成データを使用しなくてもよい。
【0051】
本実施例において、現在のコンピュータ視覚タスクシーンにおける大量の実画像データを取得して、第1のデータセットを生成し、第1のデータセットに対してタグ付きを行う必要がない。
【0052】
具体的には、当該ステップは、
タグなしの第1のサンプル画像を取得し、第1のサンプル画像の方向情報を0度に決定し、第1のサンプル画像をプリセット角度で回転して、第2のサンプル画像を得、第2のサンプル画像の方向情報をプリセット角度に決定する方式で実現され得る。
【0053】
ここで、プリセット角度には、1つ又は複数の異なる角度が含まれ、実際の適用シーンに応じて設定することができ、ここでは、特に限定しない。
【0054】
選択可能に、プリセット角度に、180度のみが含まれてもよい。
【0055】
選択可能に、プリセット角度に、180度と、少なくとも1つの180度以外の角度が含まれてもよい。例えば、プリセット角度には、90度、180度が含まれてもよい。
【0056】
選択可能に、プリセット角度には、第1の角度及び第2の角度が含まれてもよく、第1の角度と第2の角度との差は180度である。例えば、プリセット角度には、90度、270度が含まれてもよい。
【0057】
選択可能に、プリセット角度には、第1の角度、第2の角度及び少なくとも1つの第3の角度が含まれてもよく、ここで、第1の角度と第2の角度との差は180度である。例えば、プリセット角度には、90度(第1の角度)、270度(第2の角度)、180度(第3の角度)が含まれてもよい。
【0058】
本実施例において、第1のサンプル画像の方向情報を0度に設定し、プリセット角度で回転して得られた第2のサンプル画像の方向情報を、対応する回転角度に設定する。
【0059】
例示的に、第1のサンプル画像を、それぞれ90度、180度、270度回転させることを例とし、得られた3枚の第2のサンプル画像の方向情報は、順番に90度、180度、270度であり、第1のサンプル画像の方向情報は0度である。
【0060】
1枚の第1のサンプル画像と、当該第1のサンプル画像を回転させて得られる第2のサンプル画像とを、1セットのサンプル画像とし、同じセット内のサンプル画像の方向情報の差が180度である2つのサンプル画像に基づいて第1の損失を決定し、同じサンプル画像の方向予測結果及び実際の方向情報に基づいて第2の損失を決定し、自己監視訓練のための損失関数を豊かにして、予備訓練モデルの訓練効果を向上させることができる。
【0061】
また、複数のプリセット角度を設定することにより、同じセットのサンプル画像のうち方向情報の差が180度である2つのサンプル画像以外に、他の方向情報のサンプル画像がさらに含まれてもよく、サンプルデータをさらに豊富にし、予備訓練モデルの訓練効果を向上させることができる。
【0062】
さらに、タグなしの第1のサンプル画像を取得するステップは、具体的には、
合成画像及び実画像のうちの少なくとも1つを含む原画像を取得し、原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得、サンプル画像に対してランダムなデータ拡張を行って、第1のサンプル画像を得る方式により実現され得る。
【0063】
ここで、各原画像は、現在のコンピュータ視覚タスクシーンでの実画像又は合成画像である。
【0064】
モデル訓練過程において、入力モデルのサンプル画像の寸法について、顔やテキスト等の特定内容等の情報が含まれるか否かの要件がある。各原画像に対して前処理を行うことにより、処理後のサンプル画像はモデルの訓練要件を満たし、それにより、サンプル画像を画像分類モデルの訓練に用いて、画像分類モデル訓練の効果を向上できることを確保する。
【0065】
選択可能に、視覚モデルをテキスト認識シーンに適用して、原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得るステップは、
原画像に対してテキスト検出を行って、テキスト情報がある領域の画像を抽出するステップと、テキスト情報がある領域の画像に対して画像補正を行って、モデル訓練要件を満たすサンプル画像を取得するステップとを含み、それにより、サンプル画像を画像分類モデルの訓練に用いて、画像分類モデル訓練の効果を向上させることを確保する。
【0066】
例示的に、テキスト検出モデルにより原画像に対してテキスト検出を行って、テキスト情報がある領域の画像を抽出して、テキスト検出結果を得る。テキスト検出結果は、多角形である可能性があり、アフィン変換方法を用いてテキスト検出結果に対して画像補正を行って、モデル訓練要件を満たすサンプル画像を取得し、一般に、サンプル画像の枠が矩形枠であることを要求する。
【0067】
また、サンプル画像に対してランダムなデータ拡張を行って、第1のサンプル画像を得ることにより、サンプル画像の数を大幅に増やして、第1のデータセットをより豊富にすることができる。
【0068】
また、ステップS202は、ステップS201の後に実行されてもよいし、ステップS202は、ステップS201の前に実行されてもよく、ここでは、S202とS201との実行順序を具体的に限定しない。
【0069】
なお、画像分類モデルのタイプの数を、プリセット角度の数と相関があるように設定し、画像分類モデルのタイプの数は、プリセット角度の数に1を加えた数と等しい。画像分類モデルは、サンプル画像に対して方向情報分類を行って、サンプル画像に対応する方向情報を予測するために用いられる。
【0070】
例示的に、プリセット角度に90度、180度、270度が含まれることを例とし、画像分類モデルのタイプの数を4に設定し、画像分類モデルは、入力サンプル画像の方向情報が0度、90度、180度、270度のいずれであるかを予測するために用いられる。
【0071】
タグなしの第1のデータセットを取得した後に、ステップS203~S207を循環して実行し、タグなしの第1のデータセットに基づいて、画像分類モデルに対して自己監視の反復訓練を行い、反復停止条件を満たすとき、反復を停止する。
【0072】
ステップS203において、画像分類ネットワークにより第1のデータセット内の各サンプル画像の画像特徴を抽出し、画像特徴に応じて各サンプル画像の方向予測結果を決定する。
【0073】
当該ステップにおいて、第1のデータセットにおけるサンプル画像を画像分類ネットワークに入力し、画像分類ネットワークのバックボーン・ネットワークにより、サンプル画像の画像特徴を抽出し、画像分類ネットワークの復号モジュールにより、サンプル画像の画像特徴に応じて、サンプル画像の方向情報を予測して、サンプル画像の方向予測結果を得る。
【0074】
選択可能に、サンプル画像を画像分類ネットワークに入力する前に、サンプル画像に対して正規化処理を行う。
【0075】
本実施例において、画像分類ネットワークの自己監視訓練を行う際に、2つの損失関数を使用し、1つの損失関数は、同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴に基づいて、第1の損失を計算するために用いられ、もう1つの損失関数は、各サンプル画像の実際の方向情報及び方向予測結果に基づいて、第2の損失を計算するために用いられ、監視訓練のための損失関数を豊富にして、モデル訓練の効果を向上させることができる。
【0076】
ステップS204において、同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴に応じて、第1の損失を計算する。
【0077】
選択可能な一実施形態において、プリセット角度には、少なくとも180度が含まれる。当該ステップは、具体的には、
各セットのサンプル画像に、第1のサンプル画像の画像特徴を180度回転した後に得られる画像特徴と、第1のサンプル画像を180度回転した後に得られる第2のサンプル画像の画像特徴との間の差に応じて、第1の損失を計算する方式により実現され得る。
【0078】
このような方式で計算した第1の損失は、同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴間の差を正確に反映できる場合、第1の損失に基づいて画像分類モデルに対して自己監視訓練を行い、それにより、画像分類モデルのバックボーン・ネットワークが画像の回転角度を学習できることにより、特徴抽出モジュールが画像特徴をより良く抽出することができ、画像分類モデルのロバスト性を一層向上させることができ、最終的に得られる視覚モデルの精度を向上させることができる。
【0079】
選択可能な別の実施形態において、プリセット角度には、少なくとも第1の角度及び第2の角度が含まれ、第2の角度は第1の角度に180度を加えた角度と等しく、第1の角度は0度ではない。例えば、第1の角度は90度であり、第2の角度は270度である。
【0080】
当該ステップは、具体的には、
同じセット内のサンプル画像のうち方向情報が第1の角度であるサンプル画像の画像特徴を180度回転した後に得られる画像特徴と、方向情報が第2の角度であるサンプル画像の画像特徴との間の差に応じて、第1の損失を計算する方式により実現され得る。
【0081】
このような方式により計算した第1の損失は、同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴間の差を正確に反映することもできる場合、第1の損失に基づいて画像分類モデルに対して自己監視訓練を行い、それにより、画像分類モデルのバックボーン・ネットワークが画像の回転角度を学習できることにより、特徴抽出モジュールが画像特徴をより良く抽出することができ、画像分類モデルのロバスト性を一層向上させることができ、最終的に得られる視覚モデルの精度を向上させることができる。
【0082】
例示的に、同一のサンプル画像をそれぞれ90度及び270度回転した後のサンプル画像の画像特徴に応じて、90度回転した後のサンプル画像の画像特徴を第1の特徴とし、270度回転した後のサンプル画像の画像特徴を第2の特徴とし、第1の特徴を180度回転した後に得られた画像特徴と第2の特徴との差に応じて、第1の損失を計算する。
【0083】
選択可能に、プリセット角度に180度だけでなく、第1の角度及び第2の角度も含まれている場合、当該ステップにおいて、上記の2つの選択可能な実施形態を組み合わせて、第1の損失を計算することができる。
【0084】
選択可能に、第1の損失は、L2損失であってもよい。また、第1の損失は、L1損失であってもよいし、又は、他の類似の効果を有する損失関数を使用して計算した損失であってもよいし、本実施例では、これに対して具体的に限定しない。
【0085】
ステップS205において、各サンプル画像の実際の方向情報及び方向予測結果に応じて、第2の損失を計算する。
【0086】
当該ステップにおいて、各サンプル画像の実際の方向情報と方向予測結果との間の差に応じて、第2の損失を計算する。
【0087】
選択可能に、第2の損失の計算に、クロスエントロピー損失関数を使用してもよいし、分類モデルに一般的に使用される、分類結果の品質を測るための他の損失関数を使用してもよく、本実施例では、これに対して具体的に限定しない。
【0088】
本実施例において、ステップS204及びステップS205を並列的に実行してもよいし、任意の順序にしたがって順次実行してもよい。
【0089】
ステップS206において、第1の損失及び第2の損失に応じて、画像分類ネットワークのバックボーン・ネットワークの重みを調整する。
【0090】
第1の損失及び第2の損失を計算した後、第1の損失及び第2の損失に応じて画像分類ネットワークのバックボーン・ネットワークの重みを調整して、バックボーン・ネットワークの重みを最適化する。
【0091】
選択可能に、第1の損失及び第2の損失の和を計算して、最終損失とし、最終損失に応じて、画像分類ネットワークのバックボーン・ネットワークの重みを調整し、2つの異なる損失関数を組み合わせて画像分類ネットワークに対して自己監視訓練を行って、画像分類ネットワークのロバスト性及び有効性を向上させることができる。
【0092】
ステップS207において、反復終了条件を満たすか否かを判断する。
【0093】
上記のステップS203~S206により、画像分類ネットワークに対する1回の反復訓練を完了した後、反復終了条件を満たすか否かを判断する。
【0094】
反復終了条件を満たすと、反復を停止し、方向分類精度が最も高い画像分類モデルを決定して、訓練済みの画像分類モデルとし、引き続きステップS208を実行する。
【0095】
反復終了条件を満たさないと、引き続きステップS203を実行して、次回の反復を開始する。
【0096】
ここで、反復停止条件には、反復回数が予め設定された回数の閾値に達すること、最終損失が損失閾値未満であること、及び2回の反復の間の重み値の変化が既に非常に小さいことのうちの少なくとも1つが含まれ得る。
【0097】
ステップS208において、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得る。
【0098】
タグなしの第1のデータセットを使用して画像分類ネットワークの自己監視訓練を完了した後、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みを視覚モデルのバックボーン・ネットワークの初期重みとして、視覚モデルを初期化して、視覚モデルの構造と一致する予備訓練モデルを得、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化する。
【0099】
ステップS209において、タグが付けられた第2のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得る。
【0100】
ここで、第2のデータセットは、タグが付けられたデータセットであり、現在のコンピュータ視覚タスクシーンでの実画像データ及びタグ付き情報を含む。
【0101】
予備訓練モデルは、視覚モデルの構造と一致し、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して予備訓練モデルのバックボーン・ネットワークの重みを最適化する。現在のコンピュータ視覚タスクシーンでのタグが付けられた第2のデータセットを使用して、当該予備訓練モデルに対してモデル訓練を再度行って、最終の視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。比較的少量のタグが付けられたデータを使用しても、訓練で精度の高い視覚モデルを得ることができる。
【0102】
本実施例は、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築することにより、タグなしの第1のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得、タグなしのデータを充分に利用して、特徴を抽出するためのバックボーン・ネットワークを訓練し、さらに、画像分類ネットワークの自己監視訓練を行う際に、2つの損失関数を使用し、同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴に応じて、第1の損失を計算し、各サンプル画像の実際の方向情報及び方向予測結果の第2の損失を計算し、第1の損失及び第2の損失に基づいて、バックボーン・ネットワークの重みを最適化するとともに、分類結果損失と画像特徴の整列による損失を考慮して、監視訓練のための損失関数を豊富にして、予備訓練モデルのロバスト性及び特徴抽出の精度を向上させることができる。これを基に、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、視覚モデルの構造と一致する予備訓練モデルを得、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化して、現在のコンピュータ視覚タスクにより適するものにし、続いて、タグが付けられた第2のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。
【0103】
図3は、本開示の第3の実施例に係る視覚処理方法のフローチャートである。本実施例にて提供される視覚処理方法は、具体的には、訓練済みの視覚モデルを利用して画像に対する視覚処理を実現するための電子機器に適用することができる。
【0104】
図3に示すように、当該方法は、具体的には、ステップS301~ステップS303を含む。
【0105】
ステップS301において、処理対象の画像を取得する。
【0106】
ステップS302において、処理対象の画像を視覚モデルに入力して、視覚モデルにより、処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得る。
【0107】
ここで、視覚モデルは、上記の第1の実施例又は第2の実施例の方法で訓練して得られたものであり、具体的な訓練過程について、ここでは詳細な説明を省略する。
【0108】
例示的に、視覚モデルは、テキスト認識モデルであってもよい。訓練済みのテキスト認識モデルについて、処理対象の画像をテキスト認識モデルに入力して、テキスト認識モデルにより、入力された画像に対してテキスト認識処理を行い、得られた処理結果は入力された画像に含まれるテキスト情報である。
【0109】
ステップS303において、処理結果を出力する。
【0110】
本実施例では、訓練済みの視覚モデルにより、入力画像に対して視覚処理を行って、視覚処理結果を得て出力する。
【0111】
図4は、本開示の第4の実施例に係る視覚モデル訓練の装置の概略構造図である。本開示の実施例にて提供される視覚モデル訓練の装置は、視覚モデル訓練の方法の実施例にて提供される処理流れを実行することができる。
図4に示すように、視覚モデル訓練の装置40は、具体的には、
視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築するためのネットワーク構築モジュール41と、
タグなしの第1のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るための第1の訓練モジュール42と、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るための予備訓練モデル決定モジュール43と、
タグが付けられた第2のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得るための第2の訓練モジュール44と、を含む。
【0112】
本開示の実施例にて提供される装置は、具体的には、上記の第1の実施例にて提供される方法の実施例を実行するために用いられることができ、実現される具体的な機能について、ここでは詳細な説明を省略する。
【0113】
本実施例では、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築し、タグなしの第1のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、視覚モデルの構造と一致する予備訓練モデルを得、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、予備訓練モデルにおけるバックボーン・ネットワークの重みを最適化して、現在のコンピュータ視覚タスクにより適するものにし、続いて、タグが付けられた第2のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。
【0114】
図5は、本開示の第5の実施例に係る視覚モデル訓練の装置の概略構造図である。本開示の実施例にて提供される視覚モデル訓練の装置は、視覚モデル訓練の方法の実施例にて提供される処理流れを実行することができる。
図5に示すように、視覚モデル訓練の装置50は、具体的には、
視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築するためのネットワーク構築モジュール51と、
タグなしの第1のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得るための第1の訓練モジュール52と、
訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、予備訓練モデルを得るための予備訓練モデル決定モジュール53と、
タグが付けられた第2のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得るための第2の訓練モジュール54と、を含む。
【0115】
選択可能に、
図5に示すように、第1の訓練モジュール52は、
複数のセットのサンプル画像及び各サンプル画像の方向情報を含むタグなしの第1のデータセットを取得するために用いられるタグなしのデータセット取得ユニットであって、ここで、各セットのサンプル画像に第1のサンプル画像と、第1のサンプル画像をプリセット角度で回転させて得られる第2のサンプル画像とが含まれるタグなしのデータセット取得ユニット521と、
画像分類ネットワークにより第1のデータセット内の各サンプル画像の画像特徴を抽出し、画像特徴に応じて各サンプル画像の方向予測結果を決定するための分類予測ユニット522と、
同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴に応じて、第1の損失を計算し、各サンプル画像の実際の方向情報及び方向予測結果に応じて第2の損失を計算するための第2の損失コンピューティングユニット523と、
第1の損失及び第2の損失に応じて、画像分類ネットワークのバックボーン・ネットワークの重みを調整するための重み最適化ユニット524と、を含む。
【0116】
選択可能に、タグなしのデータセット取得ユニットは、
タグなしの第1のサンプル画像を取得し、第1のサンプル画像の方向情報を0度に決定するためのサンプル画像取得サブユニットと、
第1のサンプル画像をプリセット角度で回転させて、第2のサンプル画像を得、第2のサンプル画像の方向情報をプリセット角度に決定するための画像回転サブユニットと、を含む。
【0117】
選択可能に、プリセット角度には、少なくとも180度が含まれる。損失コンピューティングユニットは、
各セットのサンプル画像に、第1のサンプル画像の画像特徴を180度回転した後に得られる画像特徴と、第1のサンプル画像を180度回転した後に得られる第2のサンプル画像の画像特徴との間の差に応じて、第1の損失を計算するための第1の損失計算サブユニットを含む。
【0118】
選択可能に、プリセット角度には、少なくとも第1の角度及び第2の角度が含まれ、第2の角度は第1の角度に180度を加えた角度と等しく、第1の角度は0度ではない。損失コンピューティングユニットは、
同じセット内のサンプル画像のうち方向情報が第1の角度であるサンプル画像の画像特徴を180度回転した後に得られる画像特徴と、方向情報が第2の角度であるサンプル画像の画像特徴との間の差に応じて、第1の損失を計算する第2の損失計算サブユニットを含む。
【0119】
選択可能に、サンプル画像取得サブユニットは、さらに、
合成画像及び実画像のうちの少なくとも1つを含む原画像を取得し、原画像に対して前処理を行って、モデル訓練要件を満たすサンプル画像を得、サンプル画像に対してランダムなデータ拡張を行って、第1のサンプル画像を得るために用いられる。
【0120】
選択可能に、サンプル画像取得サブユニットは、さらに、
原画像に対してテキスト検出を行って、テキスト情報がある領域の画像を抽出し、テキスト情報がある領域の画像に対して画像補正を行って、モデル訓練要件を満たすサンプル画像を得るために用いられる。
【0121】
選択可能に、重み最適化ユニットは、さらに、
第1の損失と第2の損失との和を計算して、最終損失とし、最終損失に応じて、画像分類ネットワークのバックボーン・ネットワークの重みを調整するために用いられる。
【0122】
本開示の実施例にて提供される装置は、具体的には、上記の第2の実施例にて提供される方法の実施例を実行するために用いられることができ、実現される具体的な機能について、ここでは詳細な説明を省略する。
【0123】
本実施例は、視覚モデルと同じバックボーン・ネットワークを有する画像分類ネットワークを構築することにより、タグなしの第1のデータセットを使用して、画像分類ネットワークに対して自己監視訓練を行って、訓練済みの画像分類ネットワークを得、タグなしのデータを充分に利用して、特徴を抽出するためのバックボーン・ネットワークを訓練し、さらに、画像分類ネットワークの自己監視訓練を行う際に、2つの損失関数を使用し、同じセット内のサンプル画像のうち方向情報が180度異なる2つのサンプル画像の画像特徴に応じて、第1の損失を計算し、各サンプル画像の実際の方向情報及び方向予測結果の第2の損失を計算し、第1の損失及び第2の損失に基づいて、バックボーン・ネットワークの重みを最適化するとともに、分類結果損失と画像特徴の整列による損失を考慮して、監視訓練のための損失関数を豊富にして、予備訓練モデルのロバスト性及び特徴抽出の精度を向上させることができる。これを基に、訓練済みの画像分類ネットワークのバックボーン・ネットワークの重みに応じて、視覚モデルのバックボーン・ネットワークの重みを初期化して、視覚モデルの構造と一致する予備訓練モデルを得、且つ、現在のコンピュータ視覚タスクシーンでの実データセットを使用して、バックボーン・ネットワークの重みを最適化して、現在のコンピュータ視覚タスクにより適するものにし、続いて、タグが付けられた第2のデータセットを使用して予備訓練モデルを訓練して、訓練済みの視覚モデルを得、視覚モデルの精度を効果的に向上させることができる。
【0124】
図6は、本開示の第6の実施例に係る視覚処理装置の概略構造図である。本開示の実施例にて提供される視覚処理装置は、視覚処理方法の実施例にて提供される処理流れを実行することができる。
図6に示すように、当該視覚処理装置60には、画像取得モジュール61、視覚処理モジュール62及び結果出力モジュール63が含まれる。
【0125】
具体的には、画像取得モジュール61は、処理対象の画像を取得するために用いられる。
【0126】
視覚処理モジュール62は、処理対象の画像を、上記の第4の実施例又は第5の実施例の装置によって生成される視覚モデルに入力して、視覚モデルにより、処理対象の画像に対してコンピュータ視覚処理を行って、処理結果を得るために用いられる。
【0127】
結果出力モジュール63は、処理結果を出力するために用いられる。
【0128】
本開示の実施例にて提供される装置は、具体的には、上記の第3の実施例にて提供される方法の実施例を実行することができ、実現される具体的な機能について、ここでは詳細な説明を省略する。
【0129】
本開示の技術案において、係るユーザの個人情報の収集、記憶、使用、加工、伝送、提供及び開示などの処理は、何れも関連法律法規の規定に合致し、公序良俗に反するものではない。
【0130】
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
【0131】
本開示の実施例によれば、本開示は、さらに、コンピュータプログラム製品を提供し、コンピュータプログラム製品には、可読記憶媒体に記憶されているコンピュータプログラムが含まれ、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサがコンピュータプログラムを実行すると、電子機器は上記のいずれの実施例にて提供される手段を実行する。
【0132】
図7は、本開示の実施例を実施できる例示的な電子機器700の模式的なブロック図を示す。電子機器は、例えばラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、例えばパーソナルデジタル
アシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及びその他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを表すこともできる。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は単なる例であり、本明細書に記載及び/又は要求される本開示の実施を限定することを意図するものではない。
【0133】
図7に示すように、機器700は、コンピューティングユニット701を含み、それは、読み取り専用メモリ(ROM)702に記憶されているコンピュータプログラム又は記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに応じて、様々な適切なアクション及び処理を実行することができる。RAM703に、機器700の操作に必要な様々なプログラム及びデータをさらに記憶することができる。コンピューティングユニット701、ROM702及びRAM703は、バス704を介して互いに接続される。入力/出力(I/O)インターフェース705もバス704に接続される。
【0134】
キーボード、マウスなどの入力ユニット706と、様々なタイプのディスプレイ、スピーカーなどの出力ユニット707と、磁気ディスク、光ディスクなどの記憶ユニット708と、ネットワークカード、モデム、ワイヤレス通信トランシーバーなどの通信ユニット709とを含む機器700の複数の部材は、I/Oインターフェース705に接続される。通信ユニット709は、インターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークなどを介して、機器700が他のデバイスと情報/データを交換することを可能にする。
【0135】
コンピューティングユニット701は、処理及びコンピューティング機能を備えた様々な汎用及び/又は専用処理コンポーネントであり得る。コンピューティングユニット701の一部の例示は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な特定用途向け人工知能(AI)コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、及びデジタルシグナルプロセッサ(DSP)、及びいずれかの適切なプロセッサ、コントローラ、マイクロコンピュータなどを含むが、これらに限定されない。コンピューティングユニット701は、上記の各方法及び処理、例えば、視覚モデル訓練の方法又は視覚処理方法を実行する。例えば、一部の実施例において、視覚モデル訓練の方法又は視覚処理方法は、記憶ユニット708などの機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実装され得る。一部の実施例において、コンピュータプログラムの一部又は全部は、ROM702及び/又は通信ユニット709を介して機器700にロード及び/又はインストールされることができる。コンピュータプログラムがRAM703にロードされ、コンピューティングユニット701によって実行されると、上記の視覚モデル訓練の方法又は視覚処理方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例において、コンピューティングユニット701は、他のいずれかの適切な方式(例えば、ファームウェアを介する)で、視覚モデル訓練の方法を実行するように構成されてもよい。
【0136】
本明細書に説明した以上のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブルロジック機器(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実装され得る。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含み、ここで、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に送信することができる。
【0137】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せを用いて書かれることができる。これらのプログラムコードは、汎用コンピュータ、特定用途向けコンピュータ或いは他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよいため、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図で定義された機能/操作が実施される。プログラムコードは、完全にマシン上で実行されても、部分的にマシン上で実行されてもよく、独立型ソフトウェアパッケージとして、一部がマシン上で実行されるとともに、一部がリモートマシン上で実行されるか、又は完全にリモートマシン或いはサーバ上で実行されてもよい。
【0138】
本開示の文脈において、機械可読媒体は、有形媒体であってもよく、命令実行システム、装置或いはデバイスの使用に提供されるか、又は命令実行システム、装置或いはデバイスと組み合わせて使用されるプログラムを含むか、又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置或いはデバイス、又は上記内容の任意の適切な組み合わせを含むが、これらに限定されない。機械可読記憶媒体のさらなる具体的な例示は、1つ又は複数のワイヤに基づく電気的接続 、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ(登録商標))、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、又は上記内容のいずれの適切な組み合わせを含む。
【0139】
ユーザとのインタラクションを提供するために、本明細書に説明したシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスやトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって、コンピュータに入力することが可能になる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、そして、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
【0140】
本明細書で説明するシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザーインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは当該グラフィカルユーザーインターフェース又は当該ウェブブラウザを介して本明細書で説明するシステム及び技術の実施方法と相互作用できる)、又はこのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実装されることができる。システムの構成要素は、いずれの形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して互いに接続されることができる。通信ネットワークの例示には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットが含まれる。
【0141】
コンピュータシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般に、互いに遠く離れており、通常は通信ネットワークを介して相互作用する。対応するコンピュータ上で実行されるとともに互いにクライアント-サーバの関係を持つコンピュータプログラムによって、クライアントとサーバの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びVPSサービス(「Virtual Private Server」、略称「VPS」)は、管理が難しく、サービス拡張性が弱いという欠点を解決するための、クラウドコンピューティングサービスシステムにおけるホスト製品の1つである。サーバは、分散システムのサーバであっても、ブロックチェーンと組み合わせたサーバであってもよい。
【0142】
上記に示された様々な形態のフローを用いて、ステップの並べ替え、追加、又は削除を行うことができることを理解されたい。例えば、本開示に記載された各ステップは、並列的に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよく、本開示に開示される技術案の所望の結果が達成できる限り、本明細書ではこれに対して限定しない。
【0143】
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、コンビネーション、サブコンビネーション及び置換を行うことができることを理解すべきである。本開示の精神と原則の範囲内で行われる修正、等価置換及び改良などは、いずれも本開示の保護範囲に含まれるべきである。
【0144】
本開示は、2022年02月25日に中国特許庁に提出された、出願番号が202210181868.0で、出願名称が「視覚処理及びモデル訓練の方法、機器、記憶媒体及びプログラム製品」である中国特許出願の優先権を主張し、その内容の全ては援用により本開示に組み込まれる。