2023-541119 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-541119文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-09-28

(54)【発明の名称】文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム

(51)【国際特許分類】

G06V 30/194 20220101AFI20230921BHJP

G06T 7/00 20170101ALI20230921BHJP

G06V 10/82 20220101ALI20230921BHJP

【ＦＩ】

G06V30/194

G06T7/00 350C

G06V10/82

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023509826

(86)(22)【出願日】2022-05-16

(85)【翻訳文提出日】2023-02-10

(86)【国際出願番号】 CN2022093018

(87)【国際公開番号】W WO2023020045

(87)【国際公開日】2023-02-23

(31)【優先権主張番号】202110951785.0

(32)【優先日】2021-08-18

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】呂鵬原

(72)【発明者】

【氏名】李景泉

(72)【発明者】

【氏名】章成全

(72)【発明者】

【氏名】姚 ▲クン▼

(72)【発明者】

【氏名】劉経拓

(72)【発明者】

【氏名】韓鈞宇

【テーマコード（参考）】

5B064

5L096

【Ｆターム（参考）】

5B064DA10

5B064DA27

5L096BA17

5L096HA11

5L096JA11

5L096JA16

5L096KA04

(57)【要約】

本開示は、文字認識モデルのトレーニング方法を提供し、人工知能技術分野に関し、特にコンピュータービジョン及び深層学習分野に関し、スマートシティやスマートファイナンスなどのシナリオに適用できる。前記方法、文字と第１実際文字を示すラベルとを含む第１サンプル画像を視覚特徴抽出サブモデルに入力して第１視覚特徴および第１予測文字を取得することと、第１予測文字に基づいて、語彙特徴抽出サブモデルを採用して、第１語彙特徴を取得することと、第１視覚特徴および第１語彙特徴に基づいて、シーケンスサブモデルを採用して、第２予測文字を取得することと、第１予測文字、第２予測文字および第１実際文字に基づいて、文字認識モデルをトレーニングすることと、を含む。本開示は、文字認識モデルのトレーニング装置、文字認識方法及び装置、電子機器および記憶媒体をさらに提供する。

【特許請求の範囲】

【請求項1】

文字認識モデルのトレーニング方法であって、
前記文字認識モデルは、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルを含み、
前記方法は、
文字と第１実際文字を示すラベルとを含む第１サンプル画像を前記視覚特徴抽出サブモデルに入力して、第１視覚特徴および第１予測文字を取得することと、
前記第１予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して第１語彙特徴を取得することと、
前記第１視覚特徴および前記第１語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第２予測文字を取得することと、
前記第１予測文字、前記第２予測文字および前記第１実際文字に基づいて、前記文字認識モデルをトレーニングすることと、を含む
文字認識モデルのトレーニング方法。

【請求項2】

前記シーケンスサブモデルは、第１位置符号化ネットワークおよびシーケンスネットワークを含み、
前記シーケンスサブモデルを採用して第２予測文字を取得することは、
所定の位置ベクトルを前記第１位置符号化ネットワークに入力し、第１位置符号化特徴を取得することと、
前記第１視覚特徴、前記第１語彙特徴及び前記第１位置符号化特徴に基づいて、前記シーケンスネットワークの入力特徴を取得することと、
前記入力特徴を前記シーケンスネットワークに入力して、前記第２予測文字を取得することとを含む
請求項１に記載の方法。

【請求項3】

前記視覚特徴抽出サブモデルは、第１特徴抽出ネットワークおよび第１出力ネットワークを含み、第１視覚特徴および第１予測文字を取得することは、
前記第１サンプル画像を前記第１特徴抽出ネットワークに入力して、前記第１視覚特徴を取得することと、
前記第１視覚特徴に基づいて、前記第１出力ネットワークを採用して前記第１予測文字を取得することと、を含み、
前記語彙特徴抽出サブモデルは文字符号化ネットワークおよび第２特徴抽出ネットワークを含み、前記語彙特徴抽出サブモデルを採用して第１語彙特徴を取得することは、
前記第１予測文字を前記文字符号化ネットワークに入力して、前記第１予測文字の文字特徴を取得することと、
前記文字特徴に基づいて前記第２特徴抽出ネットワークを採用して前記第１語彙特徴を取得することと、を含む
請求項２に記載の方法。

【請求項4】

前記第１特徴抽出ネットワークは、符号化サブネットワーク、シーケンス符号化サブネットワーク、および復号化サブネットワークを含み、前記第１サンプル画像を前記第１特徴抽出ネットワークに入力して前記第１視覚特徴を取得することは、
前記第１サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得することと、
前記局所画像特徴を一次元特徴シーケンスに変換した後に前記シーケンス符号化サブネットワークに入力し、非局所画像特徴を取得することと、
前記非局所画像特徴に基づいて、前記復号化サブネットワークを採用して前記第１視覚特徴を取得することと、を含む
請求項３に記載の方法。

【請求項5】

前記視覚特徴抽出サブモデルは、第２位置符号化ネットワークをさらに含み、前記非局所画像特徴に基づいて前記復号化サブネットワークを採用して前記第１視覚特徴を取得することは、
所定の位置ベクトルを前記第２位置符号化ネットワークに入力して、第２位置符号化特徴を取得することと、
前記第２位置符号化特徴および前記非局所画像特徴に基づいて、前記復号化サブネットワークを採用して前記第１視覚特徴を取得することと、を含み、及び／又は
前記語彙特徴抽出サブモデルは、第３位置符号化ネットワークをさらに含み、前記文字特徴に基づいて前記第２特徴抽出ネットワークを採用して前記第１語彙特徴を取得することは、
所定の位置ベクトルを前記第３位置符号化ネットワークに入力し、第３位置符号化特徴を取得することと、
前記第３位置符号化特徴および前記文字特徴に基づいて、前記第２特徴抽出ネットワークを採用して前記第１語彙特徴を取得することと、を含む
請求項４に記載の方法。

【請求項6】

前記視覚特徴抽出サブモデルは、第１変換ネットワークをさらに含み、前記復号化サブネットワークを採用して前記第１視覚特徴を取得することは、
前記第２位置符号化特徴を前記第１変換ネットワークに入力して位置識別情報が付加されたターゲット位置特徴を取得することと、
前記ターゲット位置特徴をクエリベクトルとし、前記非局所画像特徴をキーベクトルとバリューベクトルとし、前記復号化サブユニットを採用して前記第１視覚特徴を取得することと、を含み、
前記語彙特徴抽出サブモデルは、第２変換ネットワークをさらに含み、前記第２特徴抽出ネットワークを採用して前記第１語彙特徴を取得することは、
前記文字特徴および前記第３位置符号化特徴を前記第２変換ネットワークに入力してキャラクター識別情報が付加された文字特徴をターゲット文字特徴として取得することと、
前記ターゲット文字特徴を前記第２特徴抽出ネットワークに入力して第１語彙特徴を取得することと、を含む
請求項５に記載の方法。

【請求項7】

前記第１視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第１グローバル特徴とを含み、前記第１予測文字は、前記文字視覚特徴を前記第１出力ネットワークに入力することによって得られ、
前記第１語彙特徴は、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第２グローバル特徴とを含み、
前記第１視覚特徴、前記第１語彙特徴及び前記第１位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得することは、前記第１グローバル特徴、前記第２グローバル特徴、および前記第１位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得することを含む
請求項６に記載の方法。

【請求項8】

前記シーケンスサブモデルは、スティッチングネットワークおよび融合ネットワークをさらに含み、前記シーケンスネットワークの入力特徴を取得することは、
前記スティッチングネットワークを採用して前記第１グローバル特徴と前記第２グローバル特徴をスティッチングしてスティッチングされた特徴を取得することと、
前記融合ネットワークを採用して、前記スティッチングされた特徴と前記第１位置符号化特徴を加算して前記シーケンスネットワークの入力特徴を取得することとを含む
請求項７に記載の方法。

【請求項9】

前記語彙特徴抽出サブモデルは、第２出力ネットワークをさらに含み、
前記方法は、さらに
前記第１語彙特徴を前記第２出力ネットワークに入力して前記第１予測文字に対する誤り訂正文字を取得することを含み、
ここで、前記第１予測文字、前記第２予測文字および前記第１実際文字に基づいて、前記文字認識モデルをトレーニングすることは、前記第１予測文字、前記第２予測文字、前記第１予測文字に対する前記誤り訂正文字、および前記第１実際文字に基づいて前記文字認識モデルをトレーニングすることを含む
請求項３に記載の方法。

【請求項10】

前記第１予測文字、前記第２予測文字、前記第１予測文字に対する前記誤り訂正文字、および前記第１実際文字に基づいて前記文字認識モデルをトレーニングすることは、
前記第１予測文字および前記第１実際文字に基づいて第１損失値を取得することと、
前記第２予測文字および前記第１実際文字に基づいて第２損失値を取得することと、
前記第１予測文字に対する誤り訂正文字および前記第１実際文字に基づいて第３損失値を取得することと、
前記第１損失値、前記第２損失値、および前記第３損失値に基づいて、前記文字認識モデルをトレーニングすることとを含む
請求項９に記載の方法。

【請求項11】

文字および第２実際文字を示すラベルを含む第２サンプル画像を前記視覚特徴抽出サブモデルに入力して第２視覚特徴および第３予測文字を取得することと、
前記第３予測文字と前記第２実際文字に基づいて前記視覚特徴抽出サブモデルをトレーニングすることと、により、
前記視覚特徴抽出サブモデルを事前トレーニングすることをさらに含む
請求項１に記載の方法。

【請求項12】

実際の誤り訂正文字を示すラベルを有するサンプル文字を前記語彙特徴抽出サブモデルに入力して、前記サンプル文字の第２語彙特徴を取得することと、
前記第２語彙特徴と前記サンプル文字の位置符号化特徴をスティッチングした後に所定の復号化ネットワークに入力して前記サンプル文字の予測の誤り訂正文字を取得することと、
前記実際の誤り訂正文字と前記予測の誤り訂正文字に基づいて前記語彙特徴抽出サブモデルをトレーニングすることと、により、
前記語彙特徴抽出サブモデルを事前トレーニングすることをさらに含む
請求項１に記載の方法。

【請求項13】

文字を含む認識すべき画像を、請求項１～１２中のいずれか一つ項に記載の方法によってトレーニングされた文字認識モデルに入力することと、
前記認識すべき画像中の文字を取得することと、を含む
文字認識方法。

【請求項14】

文字認識モデルのトレーニング装置であって、
前記文字認識モデルは、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルを含み、
前記装置は、
文字と第１実際文字を示すラベルとを含む第１サンプル画像を前記視覚特徴抽出サブモデルに入力して第１視覚特徴および第１予測文字を取得する第１情報取得モジュールと、
前記第１予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して、第１語彙特徴を取得する第１語彙特徴取得モジュールと、
前記第１視覚特徴および前記第１語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第２予測文字を取得する第１文字取得モジュールと、
前記第１予測文字、前記第２予測文字および前記第１実際文字に基づいて、前記文字認識モデルをトレーニングするモデルトレーニングモジュールと、を含む
文字認識モデルのトレーニング装置。

【請求項15】

前記シーケンスサブモデルは、第１位置符号化ネットワークおよびシーケンスネットワークを含み、
前記第１文字取得モジュールは、
所定の位置ベクトルを前記第１位置符号化ネットワークにを入力して第１位置符号化特徴を取得するための第１位置符号化取得サブモジュールと、
前記第１視覚特徴、前記第１語彙特徴及び前記第１位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得サブモジュールと、
前記入力特徴を前記シーケンスネットワークに入力して前記第２予測文字を取得するための第１文字取得サブモジュールと、を含む
請求項１４に記載の装置。

【請求項16】

前記視覚特徴抽出サブモデルは、第１特徴抽出ネットワークおよび第１出力ネットワークを含み、
前記第１情報取得モジュールは、
前記第１サンプル画像を前記第１特徴抽出ネットワークに入力して前記第１視覚特徴を取得するための第１視覚特徴取得サブモジュールと、
前記第１視覚特徴に基づいて前記第１出力ネットワークを採用して前記第１予測文字を取得するための第２文字取得サブモジュールとを含み、
前記語彙特徴抽出サブモデルは文字符号化ネットワークおよび第２特徴抽出ネットワークを含み、
第１語彙特徴取得モジュールは、
前記第１予測文字を前記文字符号化ネットワークに入力して前記第１予測文字の文字特徴を取得するための文字特徴取得サブモジュールと、
前記文字特徴に基づいて前記第２特徴抽出ネットワークを採用して前記第１語彙特徴を取得するための第１語彙特徴取得サブモジュールとを含む
請求項１５に記載の装置。

【請求項17】

前記第１特徴抽出ネットワークは、符号化サブネットワーク、シーケンス符号化サブネットワーク、および復号化サブネットワークを含み、
前記第１視覚特徴取得サブモジュールは、
前記第１サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得するための局所画像特徴取得ユニットと、
前記局所画像特徴を一次元特徴シーケンスに変換した後に前記シーケンス符号化サブネットワークに入力し、非局所画像特徴を取得するための非局所画像特徴取得ユニットと、
前記非局所画像特徴に基づいて復号化サブネットワークを採用して前記第１視覚特徴を取得するための第１視覚特徴取得ユニットと、を含む
請求項１６に記載の装置。

【請求項18】

前記視覚特徴抽出サブモデルは、第２位置符号化ネットワークをさらに含み、
前記第１視覚特徴取得ユニットは、
所定の位置ベクトルを前記第２位置符号化ネットワークに入力して第２位置符号化特徴を取得するための第２位置符号化取得サブユニットと、
前記第２位置符号化特徴および前記非局所画像特徴に基づいて前記復号化サブネットワークを採用して前記第１視覚特徴を取得するための第１視覚特徴取得サブユニットとを含み、及び/又は
前記語彙特徴抽出サブモデルは、第３位置符号化ネットワークをさらに含み、
前記第１語彙特徴取得サブモジュールは、
所定の位置ベクトルを前記第３位置符号化ネットワークに入力し、第３位置符号化特徴を取得するための第３位置符号化取得ユニットと、
前記第３位置符号化特徴および前記文字特徴に基づいて前記特徴抽出ネットワークを採用して前記第１語彙特徴を取得するための第１語彙特徴取得ユニットとを含む
請求項１７に記載の装置。

【請求項19】

前記視覚特徴抽出サブモデルは、第１変換ネットワークをさらに含み、
第１視覚特徴取得サブユニットは、
前記第２位置符号化特徴を前記第１変換ネットワークに入力して位置識別情報が付加されたターゲット位置特徴を取得するためのターゲット位置特徴取得サブユニットと、
前記ターゲット位置特徴をクエリベクトルとし、前記非局所画像特徴をキーベクトルとバリューベクトルとし、前記復号化サブユニットを採用して前記第１視覚特徴を取得するための復号化サブユニットとを含み、
前記語彙特徴抽出サブモデルは、第２変換ネットワークをさらに含み、
第１語彙特徴取得ユニットは、
前記文字特徴および前記第３位置符号化特徴を前記第２変換ネットワークに入力し、キャラクター識別情報が付加された文字特徴をターゲット文字特徴として取得するためのターゲット文字特徴取得サブユニットと、
前記ターゲット文字特徴を前記特徴抽出ネットワークに入力して第１語彙特徴を取得するための第１語彙特徴取得サブユニットとを含む
請求項１８に記載の装置。

【請求項20】

前記第１視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第１グローバル特徴とを含み、前記第１予測文字は、前記文字視覚特徴を前記第１出力ネットワークに入力することによって得られ、
前記第１語彙特徴は、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第２グローバル特徴とを含み、
前記入力特徴取得サブモジュールは、前記第１グローバル特徴、前記第２グローバル特徴、および前記第１位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得ユニットを含む
請求項１９に記載の装置。

【請求項21】

前記シーケンスサブモデルは、さらにスティッチングネットワークおよび融合ネットワークを含み、
前記入力特徴取得ユニットは、
前記スティッチングネットワークを採用して前記第１グローバル特徴および前記第２グローバル特徴をスティッチングしてスティッチングされた特徴を取得するためのスティッチングサブユニットと、
前記融合ネットワークを採用して、前記スティッチングされた特徴と前記第１位置符号化特徴を加算して前記シーケンスネットワークの入力特徴を取得するための融合サブユニットとを含む
請求項２０に記載の装置。

【請求項22】

前記語彙特徴抽出サブモデルは、第２出力ネットワークをさらに含み、
前記装置は、さらに
前記第１語彙特徴を前記第２出力ネットワークに入力して前記第１予測文字に対する誤り訂正文字を取得するための誤り訂正文字取得モジュールを含み、
ここで、前記モデルトレーニングモジュールは、前記第１予測文字、前記第２予測文字、前記第１予測文字に対する前記誤り訂正文字、および前記第１実際文字に基づいて前記文字認識モデルをトレーニングする第１モデルトレーニングサブモジュールを含む
請求項１６に記載の装置。

【請求項23】

前記第１モデルトレーニングサブモジュールは、
前記第１予測文字および前記第１実際文字に基づいて第１損失値を取得するための第１損失取得ユニットと、
前記第２予測文字および前記第１実際文字に基づいて第２損失値を取得するための第２損失取得ユニットと、
前記第１予測文字に対する誤り訂正文字と前記第１実際文字に基づいて第３損失値を取得するための第３損失取得ユニットと、
前記第１損失値、前記第２損失値、および前記第３損失値に基づいて、前記文字認識モデルをトレーニングするためのモデルトレーニングユニットと、を含む
請求項２２に記載の装置。

【請求項24】

情報取得サブモジュールと第２モデルトレーニングサブモジュールによって前記視覚特徴抽出サブモデルを事前トレーニングするための第１事前トレーニングモジュールをさらに含み、
前記情報取得サブモジュールは、文字および第２実際文字を示すラベルを含む第２サンプル画像を前記視覚特徴抽出サブモデルに入力して第２視覚特徴および第３予測文字を取得し、
前記第２モデルトレーニングサブモジュールは、前記第３予測文字と前記第２実際文字に基づいて前記視覚特徴抽出サブモデルをトレーニングする
請求項１４に記載の装置。

【請求項25】

第２語彙特徴取得サブモジュール、誤り訂正文字取得サブモジュールおよび第３モデルトレーニングサブモジュールによって前記語彙特徴抽出サブモデルを事前トレーニングするための第２事前トレーニングモジュールをさらに含み、
前記第２語彙特徴取得サブモジュールは、実際の誤り訂正文字を示すラベルを有するサンプル文字を前記語彙特徴抽出サブモデルに入力して、前記サンプル文字の第２語彙特徴を取得し、
前記誤り訂正文字取得サブモジュールは、前記第２語彙特徴と前記サンプル文字の位置符号化特徴をスティッチングした後に所定の復号化ネットワークに入力して前記サンプル文字の予測の誤り訂正文字を取得し、
前記第３モデルトレーニングサブモジュールは、前記実際の誤り訂正文字と前記予測の誤り訂正文字に基づいて前記語彙特徴抽出サブモデルをトレーニングする
請求項１４に記載の装置。

【請求項26】

文字を含む認識すべき画像を、請求項１４～２５中のいずれか一つ項に記載の装置によってトレーニングされた文字認識モデルに入力するための画像入力モジュールと、
前記認識すべき画像中の文字を取得するための文字取得モジュールと、を含む
文字認識装置。

【請求項27】

少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、
前記メモリは前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが請求項１～１３のいずれか一項に記載の方法を実行することができるように前記命令は前記少なくとも一つのプロセッサにより実行される、
電子機器。

【請求項28】

コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は前記コンピュータに請求項１～１３のいずれか一項に記載の方法を実行させる
記憶媒体。

【請求項29】

プロセッサにより実行される時に請求項１～１３のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０２１年８月１８日に出願された出願番号が２０２１１０９５１７８５．０である中国特許出願の優先権を主張し、その内容は参照により本明細書に組み込まれる。

【0002】

本開示は、人工知能技術分野に関し、特にコンピュータービジョン及び深層学習分野に関し、スマートシティやスマートファイナンスなどのシナリオに適用できる。具体的には、文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器及び記憶媒体に関する。

【背景技術】

【0003】

文字認識に使用されるモデルは、画像の視覚特徴に基づいてテキストコンテンツを識別できる。語彙モデルは、画像中のテキストの語彙特徴に基づいてテキストコンテンツを調整することができる。

【発明の概要】

【発明が解決しようとする課題】

【0004】

これに基づき、本開示は、文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体及びプログラム製品を提供する。

【課題を解決するための手段】

【0005】

本開示の一態様によれば、文字認識モデルのトレーニング方法を提供し、前記文字認識モデルは、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルを含み、前記方法は、文字と第１実際文字を示すラベルとを含む第１サンプル画像を前記視覚特徴抽出サブモデルに入力して、第１視覚特徴および第１予測文字を取得することと、前記第１予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して第１語彙特徴を取得することと、前記第１視覚特徴および前記第１語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第２予測文字を取得することと、前記第１予測文字、前記第２予測文字および前記第１実際文字に基づいて、前記文字認識モデルをトレーニングすることと、を含む。

【0006】

本開示の他の態様によれば、文字を含む認識すべき画像を本開示によって提供される文字認識モデルのトレーニング方法によってトレーニングされた文字認識モデルに入力することと、前記認識すべき画像内の文字を取得することとを含む、文字認識方法を提供する。

【0007】

本開示の他の態様によれば、文字認識モデルのトレーニング装置を提供し、前記文字認識モデルは、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルを含み、前記装置は、文字と第１実際文字を示すラベルとを含む第１サンプル画像を前記視覚特徴抽出サブモデルに入力して第１視覚特徴および第１予測文字を取得する第１情報取得モジュールと、前記第１予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して、第１語彙特徴を取得する第１語彙特徴取得モジュールと、前記第１視覚特徴および前記第１語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第２予測文字を取得する第１文字取得モジュールと、前記第１予測文字、前記第２予測文字および前記第１実際文字に基づいて、前記文字認識モデルをトレーニングするモデルトレーニングモジュールと、を含む。

【0008】

本開示の他の態様によれば、文字を含む認識すべき画像を本開示によって提供される文字認識モデルのトレーニング装置によってトレーニングされた文字認識モデルに入力する画像入力モジュールと、前記認識すべき画像内の文字を取得する文字取得モジュールとを含む、文字認識装置を提供する。

【0009】

本開示の他の態様によれば、電子機器が提供され、この電子機器は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信に接続されるメモリとを含み、メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を格納し、命令は、少なくとも１つのプロセッサが本開示によって提供される文字認識モデルのトレーニング方法及び／又は文字認識方法を実行できるように少なくとも１つのプロセッサによって実行される。

【0010】

本開示の他の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体が提供され、コンピュータ命令はコンピュータに本開示によって提供される文字認識モデルのトレーニング方法及び／又は文字認識方法を実行させる。

【0011】

本開示の他の態様によれば、プロセッサにより実行される時に本開示によって提供される文字認識モデルのトレーニング方法及び／又は文字認識方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。

【0012】

理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

【0013】

図面は、本技術案をよりよく理解するためのものであり、本願を限定するものではない。

【図面の簡単な説明】

【0014】

【図1】図１は、本開示の一実施例による文字認識モデルのトレーニング方法のフローチャートである。

【図2】図２は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。

【図3】図３は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。

【図4】図４は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。

【図5A】図５Ａは、本開示の一実施例による文字認識モデルの概略図である。

【図5B】図５Ｂは、本開示の別の実施例による文字認識モデルの概略図である。

【図6】図６は、本開示の一実施例による文字認識方法のフローチャートである。

【図7】図７は、本開示の一実施例による文字認識モデルのトレーニング装置のブロック図である。

【図8】図８は、本開示の一実施例による文字認識装置のブロック図である。

【図9】図９は、本開示の実施例の文字認識モデルのトレーニング方法及び／又は文字認識方法を実施するための電子機器のブロック図である。

【発明を実施するための形態】

【0015】

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば理解できるように、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することがない。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

【0016】

文字認識に用いられるモデルには、ＣＲＮＮ（Convolutional Recurrent Neural Network、畳み込みリカレントニューラルネットワーク)モデルまたはＡＳＴＥＲ（An Attentional Scene Text Recognizer with Flexible Rectification、柔軟な修正機能を備えたアテンションシーンテキスト認識装置）が含まれる。ＣＲＮＮモデルやＡＳＴＥＲは、視覚特徴のみを使用してテキストコンテンツを認識でき、通常のテキスト画像内の文字を認識できるが、欠陥のある（例えば、不完全な）画像に対して、認識効果が低くなる。

【0017】

語彙特徴抽出に用いられるモデルは、ＳＥＥＤ（Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition、シーンテキスト認識に用いられる語彙が強化されたエンコード復号化フレームワーク)、およびＳＲＮ（Spatial Regulation Network、空間正則化ネットワーク)モデルを含む。

【0018】

ＳＥＥＤモデルは、語彙特徴を使用して視覚特徴を監視し、これにより視覚特徴が語彙情報を持つ。しかし、ＳＥＥＤモデルは、語彙特徴を視覚特徴と融合しておらず、且つ当該モデルによる語彙特徴に対する表現が不充分である。

【0019】

ＳＲＮモデルは、語彙特徴を使用して文字認識モデルを強化し、文字認識モデルのパフォーマンスを効果的に向上させることができる。ただし、ＳＲＮモデルは、局所語彙特徴（例えば単一のキャラクター）しか使用できず、グローバル語彙特徴を使用することができない。

【0020】

図１は、本開示の実施例による文字認識モデルのトレーニング方法のフローチャートである。

【0021】

図１に示すように、当該文字認識モデルのトレーニング方法１００は、操作Ｓ１１０～操作Ｓ１４０を含む。当該文字認識モデルには、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、シーケンスサブモデルが含まれる。

【0022】

操作Ｓ１１０では、第１サンプル画像を前記視覚特徴抽出サブモデルに入力して、第１視覚特徴および第１予測文字を取得する。ここで、前記第１サンプル画像は、文字および第１実際文字を示すラベルを含む。

【0023】

例えば、第１サンプル画像は、歪みのない文字を含む通常のナンバープレートの画像であってもよい。別の例として、第１サンプル画像は、歪みがある文字を含む湾曲したナンバープレートの画像であってもよい。

【0024】

例えば、第１視覚特徴は、可能なキャラクターまたは可能なキャラクターの組み合わせを含むことができる。

【0025】

例えば、視覚特徴抽出サブモデルは、上述のＣＲＮＮモデルまたはＡＳＴＥＲモデルであってもよいが、本開示では限定されない。

【0026】

操作Ｓ１２０では、前記第１予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して、第１語彙特徴を取得する。

【0027】

例えば、第１語彙特徴は、各可能な各キャラクター間の関係を含むことができる。一例では、各可能な各キャラクター間の関係は、あるキャラクターとその前のキャラクターとの関係、およびあるキャラクターとその次のキャラクターとの関係であり得る。

【0028】

例えば、語彙特徴抽出サブモデルは、例えばＬＳＴＭ（Long Short Term Memory、ロングショートタームメモリネットワーク）モデルなどの、ＲＮＮ（Recurrent Neural Network、リカレントニューラルネットワーク）モデル等のシーケンスモデルであってもよい。別の例として、語彙特徴抽出サブモデルは、トランスフォーマーモデルであってもよく、本開示では限定されない。

【0029】

操作Ｓ１３０では、前記第１視覚特徴および前記第１語彙特徴に基づいて、前記シーケンスサブモデルを採用して第２予測文字を取得する。

【0030】

例えば、第２予測文字は、可能なキャラクター、組み合わされた可能なキャラクター、および各可能な各キャラクター間の関係に基づいて得ることができる。

【0031】

理解すべきこととして、第１語彙特徴は、他の情報も含むことができ、第１視覚特徴は、他の情報も含むことができ、可能なキャラクター、組み合わされた可能なキャラクター、および画像における各可能なキャラクター間の関係に基づいて第２予測文字を取得することは、第２予測文字を取得する形態しかないである。他の例では、第２予測文字は、第１視覚特徴および第１語彙特徴における他の情報に基づいて取得することもできる。

【0032】

例えば、シーケンスサブモデルは、前述のＬＳＴＭモデルなどであってもよいが、本開示ではこれを限定しない。

【0033】

操作Ｓ１４０で、前記文字認識モデルは、前記第１予測文字、前記第２予測文字、および前記第１実際文字に基づいてトレーニングされる。

【0034】

例えば、第１予測文字と第１実際文字に基づいて、一つの損失値を取得でき、第２予測文字と第１予測文字に基づいて、別の損失値を取得でき、２つの損失値に基づいて、視覚特徴抽出サブモデル、語彙特徴サブモデルおよびシーケンスサブモデル内の少なくとも１つのサブモデルのパラメータを調整して、この文字認識モデルに対する一回のトレーニングを完了する。２つの損失関数は、同じ関数であってもよく、異なる関数であってもよい。

【0035】

本開示の実施例によれば、シーケンスサブモデルを採用して視覚特徴と語彙特徴を融合することにより、視覚特徴に基づいて予測して取得された予測テキストと語彙特徴に基づいて取得された別の予測テキストとが同じ長さを有することを要求する必要がなくなる。

【0036】

図２は、本開示の実施例による別の文字認識モデルのトレーニング方法のフローチャートである。

【0037】

図２に示すように、当該文字認識モデルのトレーニング方法２１０は、文字を含む第１サンプル画像を前記視覚特徴抽出サブモデルに入力して、第１視覚特徴および第１予測文字を得ることができる。当該視覚特徴抽出サブモデルは、第１特徴抽出ネットワークおよび第１出力ネットワークを含む。当該文字認識モデルのトレーニング方法は、操作Ｓ２１１～操作Ｓ２１６を含むことができ、具体的には、当該操作Ｓ２１１～操作Ｓ２１６は、前述の操作Ｓ１１０の具体的な実施形態である。

【0038】

当該文字認識モデルのトレーニング方法２１０は、前記第１サンプル画像を第１特徴抽出ネットワークに入力して、前記第１視覚特徴を得ることができる。当該第１特徴抽出ネットワークは、符号化サブネットワーク、シーケンス符号化サブネットワーク、および復号化サブネットワークを含む。

【0039】

操作Ｓ２１１で、前記第１サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得する。

【0040】

本開示の実施例では、符号化サブネットワークは、畳み込みニューラルネットワークであってもよい。

【0041】

例えば、符号化サブネットワークは、ＶＧＧ、ＲｅｓＮｅｔ、ＤｅｎｓｅＮｅｔ、ＭｏＢｉｌｅＮｅｔなどの任意の構造の畳み込みニューラルネットワークであることができる。符号化サブネットワークは、例えばDeformconv、SE、DilationconvおよびInceptionなどのネットワーク効果を改善する演算子を使用することもできる。

【0042】

例えば、第１サンプル画像はＨ×Ｗのピクチャーであってもよく、符号化サブネットワークはＨ×Ｗのピクチャーに基づいてｈ×ｗの局所画像特徴を出力してもよい。

【0043】

操作Ｓ２１２において、前記局所画像特徴を一次元特徴シーケンスに変換した後に前記シーケンス符号化サブネットワークに入力し、非局所画像特徴を取得する。

【0044】

本開示の実施例では、シーケンス符号化サブネットワークは、アテンションメカニズムに基づいて構築することができる。

【0045】

例えば、シーケンス符号化サブネットワークは、自己アテンションメカニズムに基づいて構築することができる。一例では、符号化サブネットワークによって出力されるｈ×ｗの局所画像特徴は、最初に長さｋのシーケンスに変換される。ここで、ｋ＝ｈ＊ｗである。シーケンス符号化サブネットワークは、長さｋのシーケンスに基づいて、非局所画像特徴を出力する。シーケンス符号化サブネットワークは、局所画像特徴を画像のグローバルと関連付けて、より高レベルの特徴、つまり非局所画像特徴を生成できる。当該視覚特徴抽出サブモデルにシーケンス符号化ネットワークを設定することにより、文脈情報に対する視覚特徴の表現能力が向上し、得られる第１予測文字の精度が向上する。

【0046】

次に、当該文字認識モデルのトレーニング方法２１０は、前記非局所画像特徴に基づいて、前記復号化サブネットワークを採用して、前記第１視覚特徴を得ることができる。当該視覚特徴抽出サブモデルには、第２位置符号化ネットワークも含まれる。

【0047】

操作Ｓ２１３において、所定の位置ベクトルを前記第２位置符号化ネットワークに入力して、第２位置符号化特徴を取得する。

【0048】

例えば、所定の位置ベクトルは、位置０から２４までを表す行列であってもよい。理解できることとして、当該所定の位置ベクトルの長さは、実際の必要に基づいて設定することができ、本開示ではこれを限定しない。

【0049】

次に、当該文字認識モデルのトレーニング方法は、前記第２位置符号化特徴および前記非局所画像特徴に基づき、前記復号化サブネットワークを採用して前記第１視覚特徴を得ることができる。当該視覚特徴抽出サブモデルには、第１変換ネットワークも含まれる。

【0050】

操作Ｓ２１４では、前記第２位置符号化特徴を前記第１変換ネットワークに入力して、位置識別情報が付加されたターゲット位置特徴を取得する。

【0051】

例えば、第１変換ネットワークは少なくとも１つの全結合層を含み、第２位置符号化特徴は、全結合層によって処理され、ターゲット位置特徴に変換される。位置識別情報と組み合わせて、各位置から学習して一つの独立のベクトルを取得することができる。第１サンプル画像の文字の長さは、位置符号化の範囲を超えないことができる。

【0052】

操作Ｓ２１５では、前記ターゲット位置特徴をクエリベクトルとし、前記非局所画像特徴をキーベクトルおよびバリューベクトルとし、前記復号化サブネットワークを採用して前記第１視覚特徴を取得する。

【0053】

本開示の実施例では、復号化サブネットワークは、アテンションメカニズムに基づいて構築することができる。

【0054】

例えば、復号化サブネットワークは、並列アテンションメカニズム（Multi-Head Attention）に基づいて構築でき、復号化サブネットワークの入力には、キーベクトル、バリューベクトル、およびクエリベクトルが含まれることができる。抽出された非局所画像特徴の精度を向上させることができる。

【0055】

本開示の実施例では、前記第１視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第１グローバル特徴とを含む。

【0056】

例えば、復号化サブネットワークは、位置識別情報を使用して、非局所特徴から可能なキャラクター特徴を見つけ、可能なキャラクター特徴を組み合わせて、文字視覚特徴を取得することができる。復号化サブネットワークは、位置識別情報から、キャラクターグローバル情報を含む第１グローバル特徴を復号化することができる。一例では、復号化サブネットワークは、位置０に対応するベクトルに基づいて、第１グローバル特徴を復号化することができる。

【0057】

操作Ｓ２１６において、前記第１視覚特徴に基づいて、前記第１出力ネットワークを採用して前記第１予測文字を取得する。

【0058】

本開示の実施例では、第１出力ネットワークは、文字視覚特徴に基づいて第１予測文字を取得することができる。

【0059】

例えば、第１出力ネットワークは、少なくとも１つの全結合層およびＳｏｆｔｍａｘ層を含むことができる。第１出力ネットワークの全結合層とＳｏｆｔｍａｘ層は、文字視覚特徴に基づいて第１予測文字を出力することができる。

【0060】

いくつかの実施例では、以下の方式で前記視覚特徴抽出サブモデルを事前トレーニングすることをさらに含み、当該方式は、文字および第２実際文字を示すラベルを含む第２サンプル画像を前記視覚特徴抽出サブモデルに入力して、第２視覚特徴および第３予測文字を取得することと、前記第３予測文字と前記第２実際文字とに基づいて、前記視覚特徴抽出サブモデルをトレーニングすることとを含む。視覚特徴抽出サブモデルを事前トレーニングすることにより、文字認識モデルのトレーニング効率を向上させることができる。

【0061】

第２サンプル画像は、第１サンプル画像と同じトレーニングデータセットから、または異なるトレーニングデータセットから選択することができる。例えば、第２サンプル画像が属するトレーニングデータセットは、複数の領域の画像に基づいて構築されてもよく、第１サンプル画像が属するトレーニングデータセットは、複数の領域のあるターゲット領域の画像に基づいて構築されてもよい。

【0062】

図３は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。

【0063】

図３に示すように、当該文字認識モデルのトレーニング方法３２０は、前記第１予測文字に基づき、前記語彙特徴抽出サブモデルを使用して第１語彙特徴を取得することができる。当該語彙特徴抽出サブモデルは、文字符号化ネットワークおよび第２出力ネットワークを含むことができる。当該文字認識モデルのトレーニング方法３２０は、操作Ｓ３２１～操作Ｓ３２５を含むことができる。具体的には、操作Ｓ３２１～操作Ｓ３２５は、前述の操作Ｓ１２０の具体的な実施形態である。

【0064】

操作Ｓ３２１で、前記第１予測文字を文字符号化ネットワークに入力して、第１予測文字の文字特徴を取得する。

【0065】

本開示の実施例では、文字符号化ネットワークは、第１予測文字に対してＯｎｅ－Ｈｏｔ符号化（ワンホット符号化）を実行して、文字特徴を取得することができる。

【0066】

例えば、文字符号化ネットワークは、第１予測文字に対してＯｎｅ－Ｈｏｔ符号化を実行して、キャラクター長Ｃ×Ｎの行列を取得する。当該行列の各行は、１つのキャラクターに対応し、当該行列の各行は、１×Ｎのベクターにすることができる。一例では、第１サンプル画像は、変形された「Ｈｅｌｌｏ」の文字画像などの変形された文字画像であってもよく、第１予測文字は「Ｈａｌｌｏ」であってもよい。文字特徴は、５行Ｎ列の行列であり、各行は、第１予測文字「Ｈａｌｌｏ」の一つのキャラクターに対応する。

【0067】

当該語彙特徴抽出サブモデルは、第２特徴抽出ネットワークおよび第３位置符号化ネットワークも含む。次に、当該文字認識モデルのトレーニング方法３２０は、前記文字特徴に基づいて、前記第２特徴抽出ネットワークを採用して、前記第１語彙特徴を取得することができる。

【0068】

操作Ｓ３２２において、所定の位置ベクトルを前記第３位置符号化ネットワークに入力して、第３位置符号化特徴を取得する。

【0069】

例えば、所定の位置ベクトルは、位置０～位置２４を表す行列であってもよい。
次に、当該文字認識モデルのトレーニング方法３２０は、前記第３位置符号化特徴および前記文字特徴に基づいて、前記第２特徴抽出ネットワークを採用して、前記第１語彙特徴を取得することができる。当該語彙特徴抽出サブモデルには、第２変換ネットワークも含まれる。

【0070】

操作Ｓ３２３では、前記文字特徴と前記第３位置符号化特徴を前記第２変換ネットワークに入力して、キャラクター識別情報が付加された文字特徴をターゲット文字特徴として取得する。

【0071】

本開示の実施例では、前記文字特徴および前記第３位置符号化特徴を加算し、加算して得られた特徴の初期位置に前記キャラクター識別情報を付加し、文字特徴行列（Ｃ＋１）×（Ｎ＋１）を取得する。ここで、前記文字特徴および前記第３位置符号化特徴のサイズはいずれもＣ×Ｎである。

【0072】

例えば、第３位置符号化特徴は、Ｃ行Ｎ列の行列である。文字特徴は行列ａである。

【0073】

【数1】

【0074】

文字特徴ａもＣ行Ｎ列の行列である。その後、文字特徴ａを第３符号化位置特徴に加算し、加算して得られた特徴の初期位置にキャラクター識別情報を付加してターゲット文字特徴ａ'を取得し、

【0075】

【数2】

【0076】

一例では、Ｃ＝２４である。
本開示の実施例では、前記文字特徴の初期位置に前記キャラクター識別情報を付加し、前記キャラクター識別情報が付加された文字特徴と前記第３位置符号化特徴とを加算し、文字特徴行列（Ｃ＋１）×（Ｎ＋１）を取得する。ここで、前記文字特徴のサイズはＣ×Ｎであり、前記第３位置符号化特徴のサイズは(Ｃ＋１)×(Ｎ＋１)である。

【0077】

例えば、文字特徴は行列ａであり、

【0078】

【数3】

【0079】

まず、文字特徴ａにキャラクター識別情報を付加して、キャラクター識別情報が付加された文字特徴ａ''を取得し、

【0080】

【数4】

【0081】

キャラクター識別情報が付加された文字特徴ａ''と第３符号化位置特徴とを加算してターゲット文字特徴ａ'''を取得し、

【0082】

【数5】

【0083】

ここで、第３位置符号化特徴は、（Ｃ＋１）行（Ｎ＋１）列の行列である。
一例では、Ｃ＝２４である。

【0084】

操作３２４において、前記ターゲット文字特徴を前記第２特徴抽出ネットワークに入力して前記第１語彙特徴を取得する。

【0085】

本開示の実施例では、前記第１語彙特徴に、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第２グローバル特徴とが含まれる。

【0086】

例えば、アテンションメカニズムに基づいて各キャラクター間の関係を構築し、文字語彙特徴を取得することができる。

【0087】

例えば、前記ターゲット文字特徴ａ'またはａ'''におけるキャラクター識別情報を復号化して、第２グローバル特徴を取得することができる。第１予測文字における比較的大きなスパンでの文字間の文脈情報に対する抽出を実現でき、得られる語彙特徴の精度を向上させることができる。

【0088】

操作３２５において、前記第１語彙特徴を前記第２出力ネットワークに入力して、前記第１予測文字に対する誤り訂正文字を取得する。

【0089】

本開示の実施例では、第２出力ネットワークは、文字語彙特徴に基づいて、第１予測文字の誤り訂正文字を取得することができる。

【0090】

例えば、第２出力ネットワークは、少なくとも１つの全結合層およびＳｏｆｔｍａｘ層を含むことができる。第１出力ネットワークの全結合層とＳｏｆｔｍａｘ層は、文字語彙特徴に基づいて、第１予測文字の誤り訂正文字を出力することできる。

【0091】

いくつかの実施例では、以下の方式で前記語彙特徴抽出サブモデルを事前トレーニングし、当該方式は、実際の誤り訂正文字を示すラベルを有するサンプル文字を前記語彙特徴抽出サブモデルに入力して、前記サンプル文字の第２語彙特徴を取得することと、前記第２語彙特徴と前記サンプルテキストの位置符号化特徴をスティッチングして所定の復号化ネットワークに入力し、前記サンプル文字の予測誤り訂正文字を取得することと、及び前記実際の誤り訂正文字および前記予測の誤り訂正文字に基づいて、前記語彙特徴抽出サブモデルをトレーニングすることと、を含む。

【0092】

例えば、語彙特徴抽出サブモデルは、Ｔｒａｎｓｆｏｒｍｅｒモデルに基づいて構築することができ、所定の復号化ネットワークもＴｒａｎｓｆｏｒｍｅｒモデルに基づいて構築することができる。トレーニングが完了すると、語彙特徴抽出サブモデルに対応するＴｒａｎｓｆｏｒｍｅｒモデルのパラメータを、文字認識モデルにおける対応サブモデルの初期パラメータとする。語彙特徴抽出サブモデルを事前トレーニングすることにより、文字認識モデルのトレーニング効率を向上させることができる。

【0093】

図４は、本開示の一実施例による文字認識モデルのトレーニング方法のフローチャートである。

【0094】

図４に示すように、当該文字認識モデルのトレーニング方法４３０は、前記第１視覚特徴および前記第１語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第２予測文字を取得することができる。当該文字認識モデルのトレーニング方法４３０は、操作Ｓ４３１～操作Ｓ４３４を含むことができる。当該シーケンスサブモデルは、第１位置符号化ネットワークおよびシーケンスネットワークを含み得る。具体的には、当該操作Ｓ４３１～操作Ｓ４３４は、前述の操作Ｓ１３０の具体的な実施形態である。

【0095】

操作Ｓ４３１で、所定の位置ベクトルを前記第１位置符号化ネットワークに入力して、第１位置符号化特徴を取得する。

【0096】

例えば、所定の位置ベクトルは、位置０～位置２４を表す行列であってもよい。位置符号化特徴を付加すると、取得した第２予測文字の精度を向上させることができる。

【0097】

次に、当該文字認識モデルのトレーニング方法４３０は、前記第１視覚特徴、前記第１語彙特徴、および前記第１位置符号化特徴に基づいて、前記シーケンスネットワークの入力特徴を取得することができる。当該シーケンスサブモデルは、さらに、スティッチングネットワークおよび融合ネットワークを含み得る。

【0098】

本開示の実施例では、前記シーケンスネットワークの入力特徴を取得するために必要とされる特徴は、第１視覚特徴における第１グローバル特徴、第１語彙特徴における第２グローバル特徴、および第１位置符号化特徴を含み得る。

【0099】

操作Ｓ４３２において、前記スティッチングネットワークを採用して前記第１グローバル特徴と前記第２グローバル特徴とをスティッチングして、スティッチングされた特徴を取得する。

【0100】

例えば、第１グローバル特徴は１×Ｍのベクトルであり、第２グローバル特徴も１×Ｎのベクトルである。スティッチングされた特徴は、１×(Ｍ＋Ｎ）のベクトルであってもよい。一例では、Ｍ＝Ｎである。

【0101】

理解すべきこととして、スティッチングネットワークが第１グローバル特徴と第２グローバル特徴とをスティッチングすることは、本開示におけるスティッチング形態の１つにすぎない。スティッチングネットワークは、他のスティッチング形態を使用して、第１視覚特徴と第１語彙特徴をスティッチングすることもできる。

【0102】

操作Ｓ４３３において、前記融合ネットワークを採用して、前記スティッチングされた特徴と前記第１位置符号化特徴とを加算して、前記シーケンスネットワークの入力特徴を取得する。

【0103】

例えば、スティッチングされた特徴をＣ行（Ｍ＋Ｎ）列の行列に変換し、その行列の１行は前記１×(Ｍ＋Ｎ）のベクトルと同じであり、残りの行は、固定値（０など）を埋めることができる。このスティッチングされた特徴によって変換された行列と第１位置符号化特徴とを加算して、入力特徴を取得する。

【0104】

操作Ｓ４３４において、前記入力特徴を前記シーケンスネットワークに入力して、前記第２予測文字を取得する。

【0105】

例えば、入力特徴から各キャラクターの特徴を抽出し、自己アテンションメカニズムを採用して復号化し、各キャラクターについて抽出された特徴は、少なくとも１つの全結合層とＳｏｆｔｍａｘ層によって処理され、第２予測文字を取得する。

【0106】

本開示の実施例により、視覚モデル予測結果および語彙誤り訂正結果が直接に対応する位置を加重して加算することが回避され、それによって誤りを低減する可能性が提供される。

【0107】

いくつかの実施例では、前記シーケンスネットワークの入力特徴を取得するために必要な特徴は、第１視覚特徴、第１語彙特徴、および第１位置符号化特徴を含み得る。ここで、第１視覚特徴は、文字視覚特徴および第１グローバル特徴を含み、第１語彙特徴は、文字語彙特徴および第２グローバル特徴を含む。

【0108】

例えば、前記スティッチングネットワークは、文字視覚特徴および第１グローバル特徴の少なくとも１つと、文字語彙特徴および第２グローバル特徴の少なくとも１つとをスティッチングして、スティッチングされた特徴を得ることができる。前記融合ネットワークは、スティッチングされた特徴を第１位置符号化特徴と融合して、シーケンスネットワークの入力特徴を取得することができる。

【0109】

いくつかの実施例では、前記第１予測文字、前記第２予測文字、および前記第１実際文字に基づいて、前記文字認識モデルをトレーニングすることは、前記第１予測文字、前記第２予測文字、前記第１予測文字に対する誤り訂正文字および前記第１実際文字に基づいて、前記文字認識モデルをトレーニングすることを含む。モデルの精度をさらに向上させることができる。

【0110】

さらに、いくつかの実施例では、前記第１予測文字、前記第２予測文字、前記第１予測文字に対する前記誤り訂正文字、および前記第１実際文字に基づいて、前記文字認識モデルをトレーニングすることは、前記第１予測文字および前記第１実際文字に基づいて、第１損失値を取得することを含む。前記第２予測文字と前記第１実際文字に基づいて、第２損失値を取得する。前記第１予測文字に対する誤り訂正文字および前記第１実際文字に基づいて、第３損失値を取得する。前記第１損失値、前記第２損失値、および前記第３損失値に基づいて、前記文字認識モデルをトレーニングする。

【0111】

例えば、前記第１損失関数、第２損失関数、および第３損失関数はいずれも平均二乗誤差（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ、ＭＳＥ）を採用することができる。別の例として、前記第１損失関数、第２損失関数、および第３損失関数はいずれも平均二乗誤差の平方根を使用することができる。

【0112】

【数6】

【0113】

図５Ａは、本開示の一実施例による文字認識モデルの概略図である。
図５Ａに示されるように、当該文字認識モデルは、視覚抽出サブモデル５１０、語彙特徴抽出サブモデル５２０、およびシーケンスサブモデル５３０を含む。

【0114】

視覚抽出サブモデル５１０は、第１サンプル画像（ＳａｍｐｌｅＩｍａｇｅ１）に基づいて、第１視覚特徴および第１予測文字を出力することができる。語彙特徴抽出サブモデル５２０は、第１予測文字に基づいて、第１語彙特徴を出力することができる。シーケンスサブモデル５３０は、第１視覚特徴および第１語彙特徴に基づいて第２予測文字を出力することができる。

【0115】

ここで、第１サンプル画像は、文字および第１実際文字を示すラベルとを含む。第１予測文字と第１実際文字との差分に基づいて、ある損失を決定することができ、第２予測文字と第１実際文字との差分に基づいて、別の損失を決定することができる。決定された２つの損失のうちの少なくとも１つに基づいて、視覚抽出サブモデル５１０、語彙特徴抽出サブモデル５２０、およびシーケンスサブモデル５３０内の少なくとも１つのサブモデルのパラメータを調整して、今回のトレーニングを完了する。前記２つの損失のうちの少なくとも１つが所定値に達するまで、第１サンプル画像または他のサンプル画像を入力として、複数のトレーニングを実行することができる。あるいは、所定回数のトレーニングが完了するまで、第１サンプル画像または他のサンプル画像を入力として、トレーニングを実行する。ここで、第１サンプル画像は、複数のサンプル画像を含み得る。

【0116】

図５Ｂは、本開示の別の実施例による文字認識モデルの概略図である。
図５Ｂに示されるように、当該文字認識モデルは、視覚抽出サブモデル５１０、語彙特徴抽出サブモデル５２０、およびシーケンスサブモデル５３０を含む。

【0117】

視覚抽出サブモデル５１０は、第１特徴抽出ネットワーク５１１、第１出力ネットワーク５１２、第２位置符号化ネットワーク５１３、および第１変換ネットワーク５１４を含み得る。

【0118】

第１特徴抽出ネットワークは、符号化サブネットワーク５１１１、シーケンス符号化サブネットワーク５１１２、および復号化サブネットワーク５１１３を含む。符号化サブネットワーク５１１１は、第１サンプル画像（ＳａｍｐｌｅＩｍａｇｅ１）に基づいて局所画像特徴Ｉ＿ｆｅａｔ１を出力することができる。シーケンス符号化サブネットワーク５１１２は、局所画像特徴Ｉ＿ｆｅａｔ１によって変換された一次元特徴シーケンスに基づいて、非局所画像特徴Ｉ＿ｆｅａｔ２を出力することができる。

【0119】

第２位置符号化ネットワーク５１３は、所定の位置ベクトルに基づいて、第２位置符号化特徴を出力することができる。第１変換ネットワーク５１４は、第２位置符号化特徴に基づいて、位置識別情報が付加されたターゲット位置特徴を出力することができる。

【0120】

復号化サブネットワーク５１１３は、前記ターゲット位置特徴および非局所画像特徴Ｉ＿ｆｅａｔ２に基づいて、第１視覚特徴を出力することができ、ここで、第１視覚特徴は、文字視覚特徴Ｃ＿ｆｅａｔ１および第１グローバル特徴Ｇ＿ｆｅａｔ１を含む。第１出力ネットワーク５１２は、文字視覚特徴Ｃ＿ｆｅａｔ１に基づいて、第１予測文字を出力することができる。

【0121】

語彙特徴抽出サブモデル５２０は、文字符号化ネットワーク５２１、第２特徴抽出ネットワーク５２２、第３位置符号化ネットワーク５２３、第２変換ネットワーク５２４、および第２出力ネットワーク５２５を含むことができる。

【0122】

文字符号化ネットワーク５２１は、第１予測文字に基づいて、文字特徴を出力することができる。第３位置符号化ネットワーク５２３は、所定の位置ベクトルに基づいて、第３位置符号化特徴を出力することができる。第２変換ネットワーク５２４は、第３位置符号化特徴および文字特徴に基づいて、ターゲット文字特徴を出力することができる。第２特徴抽出ネットワーク５２２は、ターゲット位置特徴に基づいて、第１語彙特徴を出力することができる。ここで、第１語彙特徴は、文字語彙特徴Ｃ＿ｆｅａｔ２および第２グローバル特徴Ｇ＿ｆｅａｔ２を含む。第２出力ネットワークは、文字語彙特徴Ｃ＿ｆｅａｔ２に基づいて、第１予測文字に対する誤り訂正文字を出力することができる。

【0123】

シーケンスサブモデル５３０は、第１位置符号化ネットワーク５３１、シーケンスネットワーク５３２、スティッチングネットワーク５３３、および融合ネットワーク５３４を含む。

【0124】

第１位置符号化ネットワーク５３１は、所定の位置ベクトルに基づいて、第１位置符号化特徴を出力することができる。スティッチングネットワーク５３３は、第１グローバル特徴Ｇ＿ｆｅａｔ１および第２グローバル特徴Ｇ＿ｆｅａｔ２に基づいて、スティッチングされた特徴を出力することができる。融合ネットワーク５３４は、スティッチングされた特徴および第１位置符号化特徴に基づいて、シーケンスネットワーク５３２の入力特徴を出力することができる。シーケンスネットワーク５３２は、この入力特徴に基づいて、第２予測文字を出力することができる。

【0125】

ここで、第１サンプル画像は、文字と第１実際文字を示すラベルとを含む。第１予測文字および第１実際文字に基づいて、第１損失値を決定することができ、第２予測文字および第１実際文字に基づいて、第２損失値を決定することができ、第１予測文字に対する誤り訂正文字と第１実際文字に基づいて、第３損失値を決定する。３つの決定された損失値のうちの少なくとも１つに基づいて、視覚抽出サブモデル５１０、語彙特徴抽出サブモデル５２０、およびシーケンスサブモデル５３０中の少なくとも１つのサブモデルまたはサブモデル中の少なくとも一つのネットワークのパラメータを調整して、今回のトレーニングを完了する。前記３つの損失値の少なくとも１つが所定値未満になるまで、第１サンプル画像または他のサンプル画像を入力として、複数のトレーニングを実行することができる。あるいは、所定回数のトレーニングが完了するまで第１サンプル画像または他のサンプル画像を入力として、トレーニングを実行する。

【0126】

図６は、本開示の一実施例による文字認識方法のフローチャートである。
図６に示すように、当該文字認識方法６００は、操作Ｓ６１０～操作Ｓ６２０を含むことができる。

【0127】

操作Ｓ６１０で、認識すべき画像を文字認識モデルに入力し、前記認識すべき画像は文字を含む。

【0128】

例えば、認識すべき画像は、歪みのない文字を含む通常のナンバープレートの画像であってもよい。別の例として、認識すべき画像は、歪みがある文字を含む湾曲したナンバープレートの画像であってもよい。

【0129】

操作Ｓ６２０では、前記認識すべき画像の文字を取得する。
本開示の実施例によれば、前述の操作Ｓ６１０は、前述の文字認識モデルのトレーニング方法でトレーニングして得られた文字認識モデルに認識すべき画像を入力し、文字認識モデルは、前述の操作Ｓ１１０～操作Ｓ１３０と類似する方法を経由して予測文字を取得し、この予測文字を認識すべき画像内の文字とする。

【0130】

図７は、本開示の一実施例による文字認識モデルのトレーニング装置のブロック図である。

【0131】

図７に示すように、前記文字認識モデルのトレーニング装置７００は、第１情報取得モジュール７１０、第１語彙特徴取得モジュール７２０、第１文字取得モジュール７３０及びモデルトレーニングモジュール７４０を含む。前記文字認識モデルには、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルが含まれる。

【0132】

第１情報取得モジュール７１０は、文字と第１実際文字を示すラベルを含む第１サンプル画像を前記視覚特徴抽出サブモデルに入力して、第１視覚特徴および第１予測文字を取得する。一実施例では、第１情報取得モジュール７１０は、前記操作Ｓ１１０を実行することができ、ここでは説明を省略する。

【0133】

第１語彙特徴取得モジュール７２０は、前記第１予測文字に基づいて前記語彙特徴抽出サブモデルを採用することによって第１語彙特徴を取得する。一実施例では、第１語彙特徴取得モジュール７２０は、上述の操作Ｓ１２０を実行し、ここでは説明を省略する。

【0134】

第１文字取得モジュール７３０は、前記第１視覚特徴および前記第１語彙特徴に基づいて前記シーケンスサブモデルを採用することによって、第２予測文字を取得する。一実施例では、第１文字取得モジュール７３０は、上述の操作Ｓ１３０を実行し、ここでは説明を省略する。

【0135】

モデルトレーニングモジュール７４０は、前記第１予測文字、前記第２予測文字、および前記第１実際文字に基づいて前記文字認識モデルをトレーニングする。一実施例では、モデルトレーニングモジュール７４０は、上述の操作Ｓ１４０を実行し、ここでは説明を省略する。

【0136】

いくつかの実施例では、前記シーケンスサブモデルは、第１位置符号化ネットワークおよびシーケンスネットワークを含み、前記第１文字取得モジュールは、所定の位置ベクトルを前記第１位置符号化ネットワークに入力して第１位置符号化特徴を取得するための第１位置符号化取得サブモジュールと、前記第１視覚特徴、前記第１語彙特徴及び前記第１位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得サブモジュールと、前記入力特徴を前記シーケンスネットワークに入力して、前記第２予測文字を取得するための第１文字取得サブモジュールとを含む。

【0137】

いくつかの実施例では、前記視覚特徴抽出サブモデルは、第１特徴抽出ネットワークおよび第１出力ネットワークを含み、前記第１情報取得モジュールは、前記第１サンプル画像を前記第１特徴抽出ネットワークに入力して前記第１視覚特徴を取得するための第１視覚特徴取得サブモジュールと、前記第１視覚特徴に基づいて前記第１出力ネットワークを採用して前記第１予測文字を取得するための第２文字取得サブモジュールとを含み、前記語彙特徴抽出サブモデルは文字符号化ネットワークおよび第２特徴抽出ネットワークを含み、第１語彙特徴取得モジュールは、前記第１予測文字を前記文字符号化ネットワークに入力して、前記第１予測文字の文字特徴を取得するための文字特徴取得サブモジュールと、前記文字特徴に基づいて前記第２特徴抽出ネットワークを採用して前記第１語彙特徴を取得するための第１語彙特徴取得サブモジュールとを含む。

【0138】

いくつかの実施例では、前記第１特徴抽出ネットワークは、符号化サブネットワーク、シーケンス符号化サブネットワーク、および復号化サブネットワークを含み、前記第１視覚特徴取得サブモジュールは、前記第１サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得するための局所画像特徴取得ユニットと、前記局所画像特徴を一次元特徴シーケンスに変換した後に前記シーケンス符号化サブネットワークに入力し、非局所画像特徴を取得するための非局所画像特徴取得ユニットと、前記非局所画像特徴に基づいて復号化サブネットワークを採用して前記第１視覚特徴を取得するための第１視覚特徴取得ユニットと、を含む。

【0139】

いくつかの実施例では、前記視覚特徴抽出サブモデルは、第２位置符号化ネットワークをさらに含み、前記第１視覚特徴取得ユニットは、所定の位置ベクトルを前記第２位置符号化ネットワークに入力して第２位置符号化特徴を取得するための第２位置符号化取得サブユニットと、前記第２位置符号化特徴および前記非局所画像特徴に基づいて前記復号化サブネットワークを採用して前記第１視覚特徴を取得するための第１視覚特徴取得サブユニットとを含み、及び/又は前記語彙特徴抽出サブモデルは、第３位置符号化ネットワークをさらに含み、前記第１語彙特徴取得サブモジュールは、所定の位置ベクトルを前記第３位置符号化ネットワークに入力して第３位置符号化特徴を取得するための第３位置符号化取得ユニットと、前記第３位置符号化特徴および前記文字特徴に基づいて前記特徴抽出ネットワークを採用して前記第１語彙特徴を取得するための第１語彙特徴取得ユニットとを含む。

【0140】

いくつかの実施例では、前記視覚特徴抽出サブモデルは、第１変換ネットワークをさらに含み、第１視覚特徴取得サブユニットは、前記第２位置符号化特徴を前記第１変換ネットワークに入力して位置識別情報が付加されたターゲット位置特徴を取得するためのターゲット位置特徴取得サブユニットと、前記ターゲット位置特徴をクエリベクトルとし、前記非局所画像特徴をキーベクトルとバリューベクトルとし、前記復号化サブユニットを採用して前記第１視覚特徴を取得するための復号化サブユニットとを含み、前記語彙特徴抽出サブモデルは、第２変換ネットワークをさらに含み、第１語彙特徴取得ユニットは、前記文字特徴および前記第３位置符号化特徴を前記第２変換ネットワークに入力してキャラクター識別情報が付加された文字特徴をターゲット文字特徴として取得するためのターゲット文字特徴取得サブユニットと、前記ターゲット文字特徴を前記特徴抽出ネットワークに入力して第１語彙特徴を取得するための第１語彙特徴取得サブユニットとを含む。

【0141】

いくつかの実施例では、前記第１視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第１グローバル特徴とを含み、前記第１予測文字は、前記文字視覚特徴を前記第１出力ネットワークに入力することによって得られ、前記第１語彙特徴は、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第２グローバル特徴とを含み、前記入力特徴取得サブモジュールは、前記第１グローバル特徴、前記第２グローバル特徴、および前記第１位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得ユニットを含む。

【0142】

いくつかの実施例では、前記シーケンスサブモデルは、スティッチングネットワークおよび融合ネットワークをさらに含み、前記入力特徴取得ユニットは、前記スティッチングネットワークを採用して前記第１グローバル特徴および前記第２グローバル特徴をスティッチングしてスティッチングされた特徴を取得するためのスティッチングサブユニットと、前記融合ネットワークを採用して、前記スティッチングした後の特徴と前記第１位置符号化特徴を加算して前記シーケンスネットワークの入力特徴を取得するための融合サブユニットとを含む。

【0143】

いくつかの実施例では、前記語彙特徴抽出サブモデルは、第２出力ネットワークをさらに含み、前記装置は、前記第１語彙特徴を前記第２出力ネットワークに入力して前記第１予測文字に対する誤り訂正文字を取得するための誤り訂正文字取得モジュールを含み、ここで、モデルトレーニングモジュールは、前記第１予測文字、前記第２予測文字、前記第１予測文字に対する前記誤り訂正文字、および前記第１実際文字に基づいて前記文字認識モデルをトレーニングする第１モデルトレーニングサブモジュールを含む。

【0144】

いくつかの実施例では、前記第１モデルトレーニングサブモジュールは、前記第１予測文字および前記第１実際文字に基づいて第１損失値を取得するための第１損失取得ユニットと、前記第２予測文字および前記第１実際文字に基づいて第２損失値を取得するための第２損失取得ユニットと、前記第１予測文字に対する誤り訂正文字と前記第１実際文字に基づいて第３損失値を取得するための第３損失取得ユニットと、前記第１損失値、前記第２損失値、および前記第３損失値に基づいて、前記文字認識モデルをトレーニングするためのモデルトレーニングユニットとを含む。

【0145】

いくつかの実施例では、それはまた、以下の情報取得サブモジュールと第２モデルトレーニングサブモジュールによって前記視覚特徴抽出サブモデルを事前トレーニングするための第１事前トレーニングモジュールを含み、前記情報取得サブモジュールは、文字および第２実際文字を示すラベルを含む第２サンプル画像を前記視覚特徴抽出サブモデルに入力して第２視覚特徴および第３予測文字を取得し、前記第２モデルトレーニングサブモジュールは、前記第３予測文字と前記第２実際文字に基づいて前記視覚特徴抽出サブモデルをトレーニングする。

【0146】

いくつかの実施例では、それはまた、以下の第２語彙特徴取得サブモジュールと誤り訂正文字取得サブモジュールと第３モデルトレーニングサブモジュールによって前記語彙特徴抽出サブモデルを事前トレーニングするための第２事前トレーニングモジュールを含み、前記第２語彙特徴取得サブモジュールは、実際の誤り訂正文字を示すラベルを有するサンプル文字を前記語彙特徴抽出サブモデルに入力して、前記サンプル文字の第２語彙特徴を取得し、前記誤り訂正文字取得サブモジュールは、前記第２語彙特徴と前記サンプル文字の位置符号化特徴をスティッチングした後に所定の復号化ネットワークに入力して前記サンプル文字の予測の誤り訂正文字を取得し、前記第３モデルトレーニングサブモジュールは、前記実際の誤り訂正文字と前記予測の誤り訂正文字に基づいて前記語彙特徴抽出サブモデルをトレーニングする。

【0147】

図８は、本開示の一実施例による文字認識装置のブロック図である。
図８に示すように、当該文字認識装置８００は、画像入力モジュール８１０と文字取得モジュール８２０とを含む。

【0148】

画像入力モジュール８１０は、文字を含む認識すべき画像を文字認識モデルに入力する。一実施例では、画像入力モジュール８１０は、上述の操作Ｓ６１０を実行することができ、ここでは説明を省略する。

【0149】

文字取得モジュール８２０は、前記認識すべき画像中の文字を取得する。一実施例では、文字取得モジュール８２０は、上述の動作Ｓ６２０を実行することができ、ここでは説明を省略する。

【0150】

ここで、前記文字認識モデルは、本開示によって提供される文字認識モデルのトレーニング装置を採用することによって得られる。

【0151】

なお、本開示の技術案において、関するユーザ個人情報の取得、収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、かつ公序良俗に反するものではない。

【0152】

本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。

【0153】

図９は、本開示の実施例の文字認識モデルのトレーニング方法及び／又は文字認識方法を実施することが可能な電子機器９００の例を示す概略ブロック図である。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表示することを意図する。電子機器は、さらに、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置という様々な形式の移動装置を表示してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

【0154】

図９に示すように、機器９００は計算ユニット９０１を含み、それはリードオンリーメモリ（ＲＯＭ）９０２に記憶されたコンピュータプログラム又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ９０３には、さらに機器９００の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット９０１、ＲＯＭ９０２、およびＲＡＭ９０３は、バス９０４を介して相互に接続されている。バス９０４には、入出力インタフェース９０５も接続されている。

【0155】

機器９００における複数の部品は、Ｉ／Ｏインタフェース９０５に接続され、例えばキーボード、マウス等の入力ユニット９０６と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット９０７と、例えば磁気ディスク、光ディスク等の記憶ユニット９０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット９０９とを含む。通信ユニット９０９は、電子機器９００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信網を介して他の装置と情報／データをやり取りすることを可能にする。

【0156】

計算ユニット９０１は、処理及び演算能力を有する各種の汎用及び／又は専用の処理モジュールであってもよい。計算ユニット９０１の幾つかの例としては、中央処理装置（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット９０１は、例えば文字認識モデルのトレーニング方法及び／又は文字認識方法のような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、文字認識モデルのトレーニング方法及び／又は文字認識方法は、例えば記憶ユニット９０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信ユニット９０９を介して電子機器９００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ９０３にロードされて計算ユニット９０１により実行される場合、前記記載された文字認識モデルのトレーニング方法及び／又は文字認識方法の１つ又は複数の操作を実行してもよい。代替的に、別の実施例において、計算ユニット９０１は、他の任意の適切な形態（例えば、ファームウェアを介する）により文字認識モデルのトレーニング方法及び／又は文字認識方法を実行するように構成されてもよい。

【0157】

本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び／又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができることを含んでもよい。

【0158】

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

【0159】

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。

【0160】

ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、語音入力又は触覚入力を含む）でユーザからの入力を受信してもよい。

【0161】

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、局所エリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

【0162】

コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。その中で、サーバは、クラウドサーバーであってもよく、クラウドコンピューティングサーバー又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品である。従来の物理ホストおよびＶＰＳサービス（「Virtual Private Server」、または略して「ＶＰＳ」）の既存の管理が困難であり、ビジネスの拡張性が低いという欠点を解決する。サーバは、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってよい。

【0163】

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、付加したり又は削除してもよい。例えば、本発明に記載の各操作は、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。

【0164】

前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

【図1】

【図2】

【図3】

【図4】

【図5A】

【図5B】

【図6】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2023-02-10

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

前記シーケンスサブモデルは、第１位置符号化ネットワークおよびシーケンスネットワークを含み、
前記第１文字取得モジュールは、
所定の位置ベクトルを前記第１位置符号化ネットワークに入力して第１位置符号化特徴を取得するための第１位置符号化取得サブモジュールと、
前記第１視覚特徴、前記第１語彙特徴及び前記第１位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得サブモジュールと、
前記入力特徴を前記シーケンスネットワークに入力して前記第２予測文字を取得するための第１文字取得サブモジュールと、を含む
請求項１４に記載の装置。

【請求項16】

【請求項17】

【請求項18】

【請求項19】

【請求項20】

前記第１視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第１グローバル特徴とを含み、前記第１予測文字は、前記文字視覚特徴を前記第１出力ネットワークに入力することによって得られ、
前記第１語彙特徴は、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第２グローバル特徴とを含み、
前記入力特徴取得サブモジュールは、前記第１グローバル特徴、前記第２グローバル特徴、および前記第１位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得ユニットを含む
請求項１９に記載の装置。

【請求項21】

【請求項22】

【請求項23】

【請求項24】

【請求項25】

【請求項26】

【請求項27】

【請求項28】

【請求項29】

プロセッサにより実行される時に請求項１～１３のいずれか一項に記載の方法を実現する
コンピュータプログラム。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【発明の詳細な説明】

【技術分野】

【0001】

【0002】

本開示は、人工知能技術分野に関し、特にコンピュータービジョン及び深層学習分野に関し、スマートシティやスマートファイナンスなどのシナリオに適用できる。具体的には、文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。

【背景技術】

【0003】

【発明の概要】

【発明が解決しようとする課題】

【0004】

これに基づき、本開示は、文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体及びプログラムを提供する。

【課題を解決するための手段】

【0005】

【0006】

【0007】

【0008】

【0009】

【0010】

【0011】

本開示の他の態様によれば、プロセッサにより実行される時に本開示によって提供される文字認識モデルのトレーニング方法及び／又は文字認識方法を実現するコンピュータプログラムが提供される。

【0012】

【0013】

図面は、本技術案をよりよく理解するためのものであり、本願を限定するものではない。

【図面の簡単な説明】

【0014】

【図1】図１は、本開示の一実施例による文字認識モデルのトレーニング方法のフローチャートである。

【図2】図２は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。

【図3】図３は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。

【図4】図４は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。

【図5A】図５Ａは、本開示の一実施例による文字認識モデルの概略図である。

【図5B】図５Ｂは、本開示の別の実施例による文字認識モデルの概略図である。

【図6】図６は、本開示の一実施例による文字認識方法のフローチャートである。

【図7】図７は、本開示の一実施例による文字認識モデルのトレーニング装置のブロック図である。

【図8】図８は、本開示の一実施例による文字認識装置のブロック図である。

【図9】図９は、本開示の実施例の文字認識モデルのトレーニング方法及び／又は文字認識方法を実施するための電子機器のブロック図である。

【発明を実施するための形態】

【0015】

【0016】

【0017】

【0018】

【0019】

【0020】

図１は、本開示の実施例による文字認識モデルのトレーニング方法のフローチャートである。

【0021】

【0022】

【0023】

【0024】

例えば、第１視覚特徴は、可能なキャラクターまたは可能なキャラクターの組み合わせを含むことができる。

【0025】

例えば、視覚特徴抽出サブモデルは、上述のＣＲＮＮモデルまたはＡＳＴＥＲモデルであってもよいが、本開示では限定されない。

【0026】

操作Ｓ１２０では、前記第１予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して、第１語彙特徴を取得する。

【0027】

【0028】

【0029】

操作Ｓ１３０では、前記第１視覚特徴および前記第１語彙特徴に基づいて、前記シーケンスサブモデルを採用して第２予測文字を取得する。

【0030】

【0031】

【0032】

例えば、シーケンスサブモデルは、前述のＬＳＴＭモデルなどであってもよいが、本開示ではこれを限定しない。

【0033】

操作Ｓ１４０で、前記文字認識モデルは、前記第１予測文字、前記第２予測文字、および前記第１実際文字に基づいてトレーニングされる。

【0034】

【0035】

【0036】

図２は、本開示の実施例による別の文字認識モデルのトレーニング方法のフローチャートである。

【0037】

【0038】

【0039】

操作Ｓ２１１で、前記第１サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得する。

【0040】

本開示の実施例では、符号化サブネットワークは、畳み込みニューラルネットワークであってもよい。

【0041】

【0042】

【0043】

【0044】

本開示の実施例では、シーケンス符号化サブネットワークは、アテンションメカニズムに基づいて構築することができる。

【0045】

【0046】

【0047】

操作Ｓ２１３において、所定の位置ベクトルを前記第２位置符号化ネットワークに入力して、第２位置符号化特徴を取得する。

【0048】

【0049】

【0050】

操作Ｓ２１４では、前記第２位置符号化特徴を前記第１変換ネットワークに入力して、位置識別情報が付加されたターゲット位置特徴を取得する。

【0051】

【0052】

【0053】

本開示の実施例では、復号化サブネットワークは、アテンションメカニズムに基づいて構築することができる。

【0054】

【0055】

本開示の実施例では、前記第１視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第１グローバル特徴とを含む。

【0056】

【0057】

操作Ｓ２１６において、前記第１視覚特徴に基づいて、前記第１出力ネットワークを採用して前記第１予測文字を取得する。

【0058】

本開示の実施例では、第１出力ネットワークは、文字視覚特徴に基づいて第１予測文字を取得することができる。

【0059】

【0060】

【0061】

【0062】

図３は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。

【0063】

【0064】

操作Ｓ３２１で、前記第１予測文字を文字符号化ネットワークに入力して、第１予測文字の文字特徴を取得する。

【0065】

【0066】

【0067】

【0068】

操作Ｓ３２２において、所定の位置ベクトルを前記第３位置符号化ネットワークに入力して、第３位置符号化特徴を取得する。

【0069】

【0070】

【0071】

【0072】

例えば、第３位置符号化特徴は、Ｃ行Ｎ列の行列である。文字特徴は行列ａである。

【0073】

【数1】

【0074】

【0075】

【数2】

【0076】

【0077】

例えば、文字特徴は行列ａであり、

【0078】

【数3】

【0079】

まず、文字特徴ａにキャラクター識別情報を付加して、キャラクター識別情報が付加された文字特徴ａ''を取得し、

【0080】

【数4】

【0081】

キャラクター識別情報が付加された文字特徴ａ''と第３符号化位置特徴とを加算してターゲット文字特徴ａ'''を取得し、

【0082】

【数5】

【0083】

ここで、第３位置符号化特徴は、（Ｃ＋１）行（Ｎ＋１）列の行列である。
一例では、Ｃ＝２４である。

【0084】

操作３２４において、前記ターゲット文字特徴を前記第２特徴抽出ネットワークに入力して前記第１語彙特徴を取得する。

【0085】

【0086】

例えば、アテンションメカニズムに基づいて各キャラクター間の関係を構築し、文字語彙特徴を取得することができる。

【0087】

【0088】

操作３２５において、前記第１語彙特徴を前記第２出力ネットワークに入力して、前記第１予測文字に対する誤り訂正文字を取得する。

【0089】

本開示の実施例では、第２出力ネットワークは、文字語彙特徴に基づいて、第１予測文字の誤り訂正文字を取得することができる。

【0090】

【0091】

【0092】

【0093】

図４は、本開示の一実施例による文字認識モデルのトレーニング方法のフローチャートである。

【0094】

【0095】

操作Ｓ４３１で、所定の位置ベクトルを前記第１位置符号化ネットワークに入力して、第１位置符号化特徴を取得する。

【0096】

【0097】

【0098】

【0099】

【0100】

【0101】

【0102】

【0103】

【0104】

操作Ｓ４３４において、前記入力特徴を前記シーケンスネットワークに入力して、前記第２予測文字を取得する。

【0105】

【0106】

【0107】

【0108】

【0109】

【0110】

【0111】

【0112】

【数6】

【0113】

【0114】

【0115】

【0116】

【0117】

【0118】

【0119】

【0120】

【0121】

【0122】

【0123】

【0124】

【0125】

【0126】

【0127】

操作Ｓ６１０で、認識すべき画像を文字認識モデルに入力し、前記認識すべき画像は文字を含む。

【0128】

【0129】

【0130】

図７は、本開示の一実施例による文字認識モデルのトレーニング装置のブロック図である。

【0131】

【0132】

【0133】

【0134】

【0135】

【0136】

【0137】

【0138】

【0139】

【0140】

【0141】

【0142】

【0143】

【0144】

【0145】

【0146】

【0147】

【0148】

【0149】

【0150】

ここで、前記文字認識モデルは、本開示によって提供される文字認識モデルのトレーニング装置を採用することによって得られる。

【0151】

【0152】

本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。

【0153】

図９は、本開示の実施例の文字認識モデルのトレーニング方法及び／又は文字認識方法を実施することが可能な電子機器９００の例を示す概略ブロック図である。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表示することを意図する。電子機器は、さらに、例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置という様々な形式の移動装置を表示してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

【0154】

【0155】

【0156】

【0157】

【0158】

【0159】

【0160】

【0161】

【0162】

【0163】

【0164】

【手続補正書】

【提出日】2023-02-13

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

【請求項17】

【請求項18】

【請求項19】

【請求項20】

前記第１視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第１グローバル特徴とを含み、前記第１予測文字は、前記文字視覚特徴を前記第１出力ネットワークに入力することによって得られ、
前記第１語彙特徴は、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第２グローバル特徴とを含み、
前記入力特徴取得サブモジュールは、前記第１グローバル特徴、前記第２グローバル特徴、および前記第１位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得ユニットを含む
請求項１９に記載の装置。

【請求項21】

【請求項22】

【請求項23】

【請求項24】

【請求項25】

【請求項26】

【請求項27】

少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、
前記メモリは前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが請求項１に記載の方法を実行することができるように前記命令は前記少なくとも一つのプロセッサにより実行される、
電子機器。

【請求項28】

コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は前記コンピュータに請求項１に記載の方法を実行させる
記憶媒体。

【請求項29】

プロセッサにより実行される時に請求項１に記載の方法を実現する
コンピュータプログラム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版