2022-185143 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2022-185143テキスト検出方法、テキスト認識方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022185143

(43)【公開日】2022-12-13

(54)【発明の名称】テキスト検出方法、テキスト認識方法及び装置

(51)【国際特許分類】

G06V 30/14 20220101AFI20221206BHJP

G06T 7/11 20170101ALI20221206BHJP

G06V 10/77 20220101ALI20221206BHJP

【ＦＩ】

G06V30/14 340J

G06T7/11

G06V10/77

【審査請求】有

【請求項の数】35

【出願形態】ＯＬ

【公開請求】

(21)【出願番号】P 2022165326

(22)【出願日】2022-10-14

(31)【優先権主張番号】202210028960.3

(32)【優先日】2022-01-11

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】110000729

【氏名又は名称】特許業務法人ユニアス国際特許事務所

(72)【発明者】

【氏名】章成全

(72)【発明者】

【氏名】呂鵬原

(72)【発明者】

【氏名】范森

(72)【発明者】

【氏名】姚 ▲クン▼

(72)【発明者】

【氏名】韓鈞宇

(72)【発明者】

【氏名】劉經拓

(57)【要約】（修正有）

【課題】テキスト検出の正確度を向上させるテキスト検出方法、テキスト認識方法及び装置を提供する。
【解決手段】方法は、認識対象画像内のテキストバーの画像特徴を取得するステップＳ１０１と、認識対象画像に対して視覚強調処理を行い、認識対象画像の強調特徴マップを取得するステップＳ１０２と、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを取得するステップＳ１０３と、を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

認識対象画像内のテキストバーの画像特徴を取得し、前記認識対象画像に対して視覚強調処理を行い、前記認識対象画像の特徴ベクトルを表す特徴マップである前記認識対象画像の強調特徴マップを取得することと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを取得することと、を含む、テキスト検出方法。

【請求項2】

前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを取得することは、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定することであって、前記応答領域は、前記強調特徴マップ上の前記テキストバーの位置領域を表し、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを決定することと、を含む、請求項１に記載のテキスト検出方法。

【請求項3】

前記テキストバーの画像特徴は、前記テキストバー内のピクセル点の画像特徴を含み、前記強調特徴マップには、ピクセル点の特徴ベクトルが含まれ、前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定することは、
前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することを含む、請求項２に記載のテキスト検出方法。

【請求項4】

前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することは、
前記テキストバー内のピクセル点に対して、前記テキストバー内のピクセル点の画像特徴と、前記テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得し、前記類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を決定することを含む、請求項３に記載のテキスト検出方法。

【請求項5】

前記類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を決定することは、
前記類似度に基づいて、前記強調特徴マップから類似度が予め設定された類似度閾値より大きいピクセル点を決定し、決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定することを含む、請求項４に記載のテキスト検出方法。

【請求項6】

前記ピクセル点は位置属性を有し、決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定することは、
決定された類似度が予め設定された類似度閾値より大きいピクセル点の前記強調特徴マップにおける位置属性に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定することを含み、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記テキストバーのターゲットバウンディングボックスを決定することは、
前記テキストバーの応答領域に対して画像連結領域処理を行い、前記テキストバーのターゲットバウンディングボックスを生成することを含む、請求項５に記載のテキスト検出方法。

【請求項7】

前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することは、
前記テキストバー内の任意のピクセル点に対して、前記任意のピクセル点の画像特徴と、前記強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得し、前記各類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を生成することを含む、請求項３に記載のテキスト検出方法。

【請求項8】

前記各類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を生成することは、
各類似度から、予め設定された類似度閾値より大きい類似度を決定し、予め設定類似度閾値より大きい類似度から、対応する前記テキストバー内のピクセル点と、特徴ベクトルの前記テキストバー内のピクセル点と同じピクセル点の類似度を決定することと、
同じピクセル点の類似度に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を生成することと、を含む、請求項７に記載のテキスト検出方法。

【請求項9】

前記ピクセル点は位置属性を有し、同じピクセル点の類似度に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を生成することは、
前記強調特徴マップにおける同じピクセル点の位置属性に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定することを含み、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを決定することは、
前記テキストバーの応答領域に対して画像連結領域処理を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを生成することを含む、請求項８に記載のテキスト検出方法。

【請求項10】

認識対象画像内のテキストバーの画像特徴を取得することは、
前記認識対象画像の画像特徴を取得し、前記認識対象画像の画像特徴に基づいて、前記認識対象画像の初期バウンディングボックスを決定することを含み、ここで、前記初期バウンディングボックスには、テキストバーが含まれる、請求項１～９のいずれか１項に記載の方法。

【請求項11】

サンプル画像内のテキストバーの画像特徴を取得し、前記サンプル画像に対して視覚強調処理を行い、前記サンプル画像の特徴ベクトルを表す特徴マップである前記サンプル画像の強調特徴マップを取得することと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを取得し、前記予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングすることと、を含む、テキスト検出モデルのトレーニング方法。

【請求項12】

前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを取得することは、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定することであって、前記応答領域は、前記強調特徴マップ上の前記テキストバーの位置領域を表し、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを決定することと、を含む、請求項１１に記載のテキスト検出モデルのトレーニング方法。

【請求項13】

【請求項14】

【請求項15】

前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することは、
前記テキストバー内の任意のピクセル点に対して、前記任意のピクセル点の画像特徴と、前記強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得し、各類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を生成することを含む、請求項１３に記載のテキスト検出モデルのトレーニング方法。

【請求項16】

認識対象画像を取得し、認識対象画像のバウンディングボックスを取得することであって、ここで、前記バウンディングボックスには、テキストバーが含まれ、前記バウンディングボックスは、請求項１に記載の方法に基づいて取得され、または、前記バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、前記テキスト検出モデルは、請求項１１に記載の方法に基づいてトレーニングして生成されたものであり、
前記バウンディングボックスに対して認識処理を行い、前記認識対象画像のテキスト内容を取得することと、を含む、テキスト認識方法。

【請求項17】

認識対象画像内のテキストバーの画像特徴を取得するための第１の取得ユニットと、
前記認識対象画像に対して視覚強調処理を行い、前記認識対象画像の特徴ベクトルを表す特徴マップである前記認識対象画像の強調特徴マップを取得するための第１の強調ユニットと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを取得するための第１の照合ユニットと、を含む、テキスト検出装置。

【請求項18】

前記第１の照合ユニットは、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定するための第１の照合サブユニットであって、前記応答領域は、前記強調特徴マップ上の前記テキストバーの位置領域を表す、第１の照合サブユニットと、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを決定するための第１の決定サブユニットと、を含む、請求項１７に記載のテキスト検出装置。

【請求項19】

前記テキストバーの画像特徴は、前記テキストバー内のピクセル点の画像特徴を含み、前記強調特徴マップには、ピクセル点の特徴ベクトルが含まれ、前記第１の照合サブユニットは、前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得するためにも用いられる、請求項１８に記載のテキスト検出装置。

【請求項20】

前記第１の照合サブユニットは、
前記テキストバー内のピクセル点に対して、前記テキストバー内のピクセル点の画像特徴と、前記テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得するための第１の照合モジュールと、
前記類似度に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定するための第１の決定モジュールと、を含む、請求項１９に記載のテキスト検出装置。

【請求項21】

前記第１の決定モジュールは、
前記類似度に基づいて、前記強調特徴マップから、類似度が予め設定された類似度閾値より大きいピクセル点を決定するための第１の決定サブモジュールと、
決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定するための第２の決定サブモジュールと、を含む、請求項２０に記載のテキスト検出装置。

【請求項22】

ピクセル点は位置属性を有し、前記第２の決定サブモジュールは、決定された類似度が予め設定された類似度閾値より大きいピクセル点の前記強調特徴マップにおける位置属性に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定するためにも用いられ、
前記第１の決定サブユニットは、前記テキストバーの応答領域に対して画像連結領域処理を行い、前記テキストバーのターゲットバウンディングボックスを生成するためにも用いられる、請求項２１に記載のテキスト検出装置。

【請求項23】

前記第１の照合サブユニットは、
前記テキストバー内の任意のピクセル点に対して、前記任意のピクセル点の画像特徴と、前記強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得するための第２の照合モジュールと、
前記各類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を生成するための第１の生成モジュールと、を含む、請求項１９に記載のテキスト検出装置。

【請求項24】

前記第１の生成モジュールは、
各類似度から、予め設定された類似度閾値より大きい類似度を決定するための第３の決定サブモジュールと、
予め設定類似度閾値より大きい類似度のうち、対応する前記テキストバー内のピクセル点、特徴ベクトルのピクセル点と同じピクセル点の類似度を決定するための第４の決定サブモジュールと、
同じピクセル点の類似度に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を生成するための第１の生成サブモジュールと、を含む、請求項２３に記載の装置。

【請求項25】

ピクセル点は位置属性を有し、前記第１の生成サブモジュールは、前記強調特徴マップにおける同じピクセル点の位置属性に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定するためにも用いられ、
前記第１の決定サブユニットは、前記テキストバーの応答領域に対して画像連結領域処理を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを生成するためにも用いられる、請求項２４に記載のテキスト検出装置。

【請求項26】

前記第１の取得ユニットは、
前記認識対象画像の画像特徴を取得するための第１の取得サブユニットと、
前記認識対象画像の画像特徴に基づいて、テキストバーを含む前記認識対象画像の初期バウンディングボックスを決定するための第２の決定サブユニットと、を含む、請求項１７～２５のいずれか１項に記載のテキスト検出装置。

【請求項27】

サンプル画像内のテキストバーの画像特徴を取得するための第２の取得ユニットと、
前記サンプル画像に対して視覚強調処理を行い、前記サンプル画像の特徴ベクトルを表す特徴マップである前記サンプル画像の強調特徴マップを取得するための第２の強調ユニットと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを取得するための第２の照合ユニットと、
前記予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングするためのトレーニングユニットと、を含む、テキスト検出モデルのトレーニング装置。

【請求項28】

前記第２の照合ユニットは、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定するための第２の照合サブユニットであって、前記応答領域は、前記強調特徴マップ上の前記テキストバーの位置領域を表す、第２の照合サブユニットと、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを決定するための第３の決定サブユニットと、を含む、請求項２７に記載のテキスト検出モデルのトレーニング装置。

【請求項29】

前記テキストバーの画像特徴は、前記テキストバー内のピクセル点の画像特徴を含み、前記強調特徴マップには、ピクセル点の特徴ベクトルが含まれ、前記第２の照合サブユニットは、前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得するためにも用いられる、請求項２８に記載のテキスト検出モデルのトレーニング装置。

【請求項30】

前記第２の照合サブユニットは、
前記テキストバー内のピクセル点に対して、前記テキストバー内のピクセル点の画像特徴と、前記テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得するための第３の照合モジュールと、
前記類似度に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定するための第２の決定モジュールと、を含む、請求項２９に記載のテキスト検出モデルのトレーニング装置。

【請求項31】

前記第２の照合サブユニットは、
前記テキストバー内の任意のピクセル点に対して、前記任意のピクセル点の画像特徴と、前記強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得するための第４の照合モジュールと、
前記各類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を生成するための第２の生成モジュールと、を含む、請求項２９に記載のテキスト検出モデルのトレーニング装置。

【請求項32】

認識対象画像を取得するための第３の取得ユニットと、
認識対象画像のバウンディングボックスを取得するための第４の取得ユニットであって、ここで、前記バウンディングボックスには、テキストバーが含まれ、前記バウンディングボックスは、請求項１～９のいずれか１項に記載の方法に基づいて取得され、または、前記バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、前記テキスト検出モデルは、請求項１１～１５のいずれか１項に記載の方法に基づいてトレーニングして生成される、第４の取得ユニットと、
前記バウンディングボックスに対して認識処理を行い、前記認識対象画像のテキスト内容を取得するための認識ユニットと、を含む、テキスト認識装置。

【請求項33】

電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されているメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが請求項１～９のいずれか１項に記載の方法を実行できるように、または、前記少なくとも１つのプロセッサが請求項１１～１５のいずれか１項に記載の方法を実行できるように、または、前記少なくとも１つのプロセッサが請求項１６に記載の方法を実行できるように、前記少なくとも１つのプロセッサにより実行される、電子機器。

【請求項34】

コンピュータ命令が記憶されている非一時的なコンピュータで読み取り可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～９のいずれか１項に記載の方法を実行させるために用いられ、または、前記コンピュータに請求項１１～１５のいずれか１項に記載の方法を実行させるために用いられ、または、前記コンピュータに請求項１６に記載の方法を実行させるために用いられる、非一時的なコンピュータで読み取り可能な記憶媒体。

【請求項35】

コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、請求項１～９のいずれか１項に記載の方法が実現され、または、当該コンピュータプログラムがプロセッサにより実行されると、請求項１１～１５のいずれか１項に記載の方法が実現され、または、当該コンピュータプログラムがプロセッサにより実行されると、請求項１６に記載の方法が実現される、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、人工知能の技術分野、特にディープラーニング、コンピュータビジョンの技術分野に関し、光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）などのシーンに適用することができる。特にテキスト検出方法、テキスト認識方法及び装置に関する。

【背景技術】

【0002】

人工知能技術の発展と普遍的な応用に伴い、画像内のテキスト内容を認識する操作は、人工認識から知能認識に徐々に置き換えられ、画像内のテキスト内容を選択するためのバウンディングボックス（ＢｏｕｎｄｉｎｇＢｏｘ）を決定することは、テキスト内容を認識する前処理である。

【0003】

従来の技術において、テキスト検出の方法は、通常、「手動注釈付き＋テキスト予測」の実現に基づいており、例えば、手動でバウンディングボックスに注釈を付けて、バウンディングボックス内のテキストを予測することにより、検出対象のテキストに対応するテキスト内容を取得する。

【0004】

しかし、手動による注釈付きは人為的な主観的要因の影響を受けやすいため、テキスト検出の正確度が低いという技術的問題がある。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は、テキスト検出の正確度を向上させるためのテキスト検出方法、テキスト認識方法及び装置を提供する。

【課題を解決するための手段】

【0006】

本開示の第１の態様によれば、テキスト検出方法を提供し、前記テキスト検出方法は、
認識対象画像内のテキストバーの画像特徴を取得し、前記認識対象画像に対して視覚強調処理を行い、前記認識対象画像の特徴ベクトルを表す特徴マップである前記認識対象画像の強調特徴マップを取得することと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを取得することと、を含む。

【0007】

本開示の第２の態様によれば、テキスト検出モデルのトレーニング方法を提供し、前記テキスト検出モデルのトレーニング方法は、
サンプル画像内のテキストバーの画像特徴を取得し、前記サンプル画像に対して視覚強調処理を行い、前記サンプル画像の特徴ベクトルを表す特徴マップである強調特徴マップを取得することと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを取得し、前記予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングすることと、を含む。

【0008】

本開示の第３の態様によれば、テキスト認識方法を提供し、前記テキスト認識方法は、
認識対象画像を取得し、認識対象画像のバウンディングボックスを取得することであって、ここで、前記バウンディングボックスには、テキストバーが含まれ、前記バウンディングボックスは、第１の態様に記載の方法に基づいて取得され、または、前記バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、前記テキスト検出モデルは、第２の態様に記載の方法に基づいてトレーニングして生成される、取得することと、
前記バウンディングボックスに対して認識処理を行い、前記認識対象画像のテキスト内容を取得することと、を含む。

【0009】

本開示の第４の態様によれば、テキスト検出装置を提供し、前記テキスト検出装置は、
認識対象画像内のテキストバーの画像特徴を取得するための第１の取得ユニットと、
前記認識対象画像に対して視覚強調処理を行い、前記認識対象画像の特徴ベクトルを表す特徴マップである前記認識対象画像の強調特徴マップを取得するための第１の強調ユニットと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを取得するための第１の照合ユニットと、を含む。

【0010】

本開示の第５の態様によれば、テキスト検出モデルのトレーニング装置を提供し、前記テキスト検出モデルのトレーニング装置は、
サンプル画像内のテキストバーの画像特徴を取得するための第２の取得ユニットと、
前記サンプル画像に対して視覚強調処理を行い、前記サンプル画像の特徴ベクトルを表す特徴マップである強調特徴マップを取得するための第２の強調ユニットと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを取得するための第２の照合ユニットと、
前記予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングするためのトレーニングユニットと、を含む。

【0011】

本開示の第６の態様によれば、テキスト認識装置を提供し、前記テキスト認識装置は、
認識対象画像を取得するための第３の取得ユニットと、
認識対象画像のバウンディングボックスを取得するための第４の取得ユニットであって、ここで、前記バウンディングボックスには、テキストバーが含まれ、前記バウンディングボックスは、前記第１の態様に記載の方法に基づいて取得され、または、前記バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、前記テキスト検出モデルは、前記第２の態様に記載の方法に基づいてトレーニングして生成される、第４の取得ユニットと、
前記バウンディングボックスに対して認識処理を行い、前記認識対象画像のテキスト内容を取得するための認識ユニットと、を含む。

【0012】

本開示の第７の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されているメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが第１の様態に記載の方法を実行できるように、または、前記少なくとも１つのプロセッサが第２の様態に記載の方法を実行できるように、または、前記少なくとも１つのプロセッサが第３の様態に記載の方法を実行できるように、前記少なくとも１つのプロセッサにより実行される。

【0013】

本開示の第８の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータで読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第１の様態に記載の方法を実行させるために用いられ、または、前記コンピュータに第２の様態に記載の方法を実行させるために用いられ、または、前記コンピュータに第３の様態に記載の方法を実行させるために用いられる。

【0014】

本開示の第９の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、読み取り可能な記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは、前記読み取り可能な記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも１つのプロセッサは、電子機器が第１の様態に記載の方法を実行するように、または、電子機器が第２の様態に記載の方法を実行するように、または、電子機器が第３の様態に記載の方法を実行するように、前記コンピュータプログラムを実行する。

【0015】

なお、この部分に記載されている内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明を通じて容易に理解される。

【図面の簡単な説明】

【0016】

図面は、本解決手段をよりよく理解するためのものであり、本開示を限定するものではない。

【図1】本開示の第１の実施例に係る概略図である。

【図2】本開示の第２の実施例に係る概略図である。

【図3】本開示の実施例に係る認識対象画像の概略図である。

【図4】本開示の第３の実施例に係る概略図である。

【図5】本開示の第４の実施例に係る概略図である。

【図6】本開示の第５の実施例に係る概略図である。

【図7】本開示の第６の実施例に係る概略図である。

【図8】本開示の第７の実施例に係る概略図である。

【図9】本開示の第８の実施例に係る概略図である。

【図10】本開示の第９の実施例に係る概略図である。

【図11】本開示の第１０の実施例に係る概略図である。

【図12】本開示の第１１の実施例に係る概略図である。

【図13】本開示の第１２の実施例に係る概略図である。

【図14】本開示の実施例のテキスト検出方法、テキスト検出モデルのトレーニング方法、テキスト認識方法を実現するための電子機器のブロック図である。

【発明を実施するための形態】

【0017】

以下、図面を組み合わせて本開示の例示的な実施例を説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変化と修正を行うことができることを理解することができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

【0018】

バウンディングボックスとは、画像内のテキストの内容を囲む矩形の枠など多角形の枠である。画像内のテキストを認識するシーンやその他の認識シーンにおいて、通常、まず、認識対象を選択するバウンディングボックスを決定し、次に、バウンディングボックス内の内容を認識することにより、認識結果を取得する必要がある。

【0019】

例えば、テキストを認識するシーンにおいて、まず、バウンディングボックスを決定し、次に、バウンディングボックス内のテキストを認識し、バウンディングボックス内のテキストの内容を取得する。また、信号機を認識するシーンにおいて、まず、バウンディングボックスを決定し、次に、バウンディングボックス内の信号機を認識することにより、赤信号であるか、青信号であるか、または黄信号であるかを決定する。バウンディングボックスの応用シーンは比較的広いため、各シーンでのバウンディングボックスの応用の原理はほぼ同じであり、ここでは一々列挙しない。

【0020】

例示的に、バウンディングボックスを決定する方法は、回帰法とセグメンテーション法の２つの方法がある。

【0021】

回帰法は、通常、ネットワーク構造ＥＡＳＴ（ａｎＥｆｆｉｃｉｅｎｔａｎｄＡｃｃｕｒａｃｙＳｃｅｎｅＴｅｘｔｄｅｔｅｃｔｉｏｎｐｉｐｅｌｉｎｅ）の直接回帰方式に基づいてバウンディングボックスを取得する。

【0022】

しかし、回帰法を用いてバウンディングボックスを決定する場合、該方法は、ネットワーク構造の受容野能力に制限されやすいため、特に、長いテキストやテキストが汚染されている場合、境界回帰が比較的に不正確になり、テキストバーのバウンディングボックスの検出正確度が低くなる。

【0023】

セグメンテーション法とは、通常、テキスト領域、非テキスト領域、及びテキスト境界カテゴリの閾値を定義し、テキスト領域と非テキスト領域を区別してバウンディングボックスを取得する方法である。

【0024】

しかし、セグメンテーション法を用いてバウンディングボックスを決定する場合、テキストが重なっている場合、テキスト領域は重なっているテキストを効率的に分離することができず、これにより、バウンディングボックスの検出はテキストを正確に区別できないという技術的な課題がある。

【0025】

本開示の発明者は、上記の技術的課題の１つまたは複数を回避するために、創造的な労働を通じて、認識対象画像のテキストバーの画像特徴を決定し、認識対象画像の強調特徴ップ（認識対象画像に対して視覚強調処理を行った後の特徴マップ）を決定し、テキストバーの画像特徴と強調特徴マップに基づいて、強調特徴マップからテキストバーのタバウンディングボックスを決定するという本開示の発明の構想を得る。

【0026】

本開示は、上記の発明の構想に基づいて、検出されたバウンディングボックスの正確度と信頼度を向上させるために、人工知能の技術分野、特にディープラーニング、コンピュータビジョンの技術分野に適用され、光学文字認識などのシーンに適用することができるテキスト検出方法、テキスト認識方法及び装置を提供する。

【0027】

図１は、本開示の第１の実施例に係る概略図である。図１に示すように、本開示の実施例によって提供されるテキスト検出方法は、以下のステップを含む。

【0028】

Ｓ１０１において、認識対象画像内のテキストバーの画像特徴を取得する。

【0029】

例示的に、本実施例の実行主体は、テキスト検出装置（以下、検出装置と称する）であってもよい。検出装置は、サーバ（例えば、ローカルサーバ、又は、クラウドサーバ）であってもよく、コンピュータであってもよく、端末機器であってもよく、プロセッサであってもよく、チップなどであってもよく、本実施例は限定しない。

【0030】

テキストバーはテキスト行とも呼ばれ、認識対象画内のテキストを含む行を指す。テキストバーの画像特徴とは、テキストバーの色、テクスチャ、ピクセル、位置などを表す特徴である。

【0031】

Ｓ１０２において、認識対象画像に対して視覚強調処理を行い、認識対象画像の強調特徴マップを取得する。ここで、強調特徴マップは、認識対象画像の特徴ベクトルを表す特徴マップである。

【0032】

理解されるように、視覚強調処理には様々な方法があり、本実施例は、認識対象画像に対して視覚強調処理を行う具体的な方法を限定しない。強調特徴マップは、比較的に、認識対象画像の特徴（例えば、認識対象画像の色、テクスチャ、ピクセル、位置などの特徴）をより多くの次元から表現することができる。

【0033】

なお、上記のＳ１０１とＳ１０２の間には優先順位の限定はない。テキストバーの画像特徴を取得してから、強調特徴マップを取得することができ、強調特徴マップを取得してから、テキストバーの画像特徴を取得することもでき、テキストバーの画像特徴と強調特徴マップを同時に取得することもでき、本実施例では限定しない。

【0034】

Ｓ１０３において、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを取得する。

【0035】

上記の分析と組み合わせて、強調特徴マップは、認識対象画像の特徴をより多くの次元から表現することができるため、テキストバーの画像特徴と強調特徴マップとに対して類似度照合を行う場合、類似度照合の正確度と信頼度を向上させることができる。また、類似度照合に基づく操作で強調特徴マップからテキストバーのターゲットバウンディングボックスを決定する場合、決定されたテキストバーのターゲットバウンディングボックスの正確度と信頼度を向上させることができる。

【0036】

上記の分析に基づいて分かるように、本開示の実施例は、テキスト検出方法を提供し、前記テキスト検出方法は、認識対象画像内のテキストバーの画像特徴を取得し、認識対象画像に対して視覚強調処理を行い、認識対象画像の特徴ベクトルを表す特徴マップである強調特徴マップを取得することと、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを取得することと、を含む。本実施例において、テキストバーの画像特徴と強調特徴マップをそれぞれ取得した後、両者を照合（すなわち、類似度照合）し、強調特徴マップからテキストバーのバウンディングボックスを決定するという技術的特徴が導入される。強調特徴マップは、認識対象画像の特徴をより多くの次元から表現するため、決定されたバウンディングボックスの正確度と信頼度を高くすることができる。また、テキストバーの画像特徴と強調特徴マップとの類似度照合によってテキストバーのバウンディングボックスを決定することにより、複数の次元の照合からバウンディングボックスを決定し、バウンディングボックスとテキストバーをマッチしないことを避けることができる。例えば、バウンディングボックスの不正確により、バウンディングボックスに同じ行に属さないテキストバーが同時に含まれるという問題を回避することができ、これにより、バウンディングボックスは、強い関連性と信頼度があるという技術的効果が得られる。

【0037】

図２は、本開示の第２の実施例に係る概略図である。図２に示すように、本開示の実施例によって提供されるテキスト検出方法は、以下のステップを含む。

【0038】

Ｓ２０１において、認識対象画像の画像特徴を取得し、認識対象画像の画像特徴に基づいて、認識対象画像の初期バウンディングボックスを決定する。ここで、初期バウンディングボックスには、テキストバーが含まれる。

【0039】

なお、本実施例において前の実施例と同様の技術的特徴については、本実施例では詳細に説明しない。例えば、本実施例の実行主体、テキストバーの理解、テキストバーの画像特徴の理解など、ここでは一々列挙しない。

【0040】

ここで、認識対象画像は、検出装置に入力された画像であってもよく、認識要求に基づいて検出装置によって収集された画像であってもよく、本実施例では認識対象画像の取得方法を限定しない。

【0041】

例えば、一例として、検出装置は、画像取得装置に接続し、画像取得装置によって送信された認識対象画像を受信ことができる。

【0042】

別の例において、検出装置は、画像をロードするツールを提供することができる。ユーザは、該画像をロードするツールを介して、認識対象画像を検出装置に送信することができる。

【0043】

ここで、画像をロードするツールは、他の記憶機器と接続するためのインタフェースなど、外部機器と接続するためのインタフェースであってもよく、該インタフェースを介して外部機器から送信された認識対象画像を取得する。画像をロードするツールは、表示装置であってもよい。例えば、検出装置は、表示装置に画像をロードする機能のインタフェースを出力することができ、ユーザは該インタフェースを介して認識対象画像を検出装置に導入し、検出装置は導入した認識対象画像を取得することができる。

【0044】

初期バウンディングボックスとターゲットバウンディングボックスは相対的な概念である。初期バウンディングボックスは、検出装置によって取得された認識対象画像の大抵、大体のバウンディングボックスと理解することができる。すなわち、初期バウンディングボックスの正確度が低い、例えば、初期バウンディングボックス内のテキストバーは、異なる行のテキストバーである。初期バウンディングボックスに対して、ターゲットバウンディングボックスは比較的に正確でなり、テキストバーの選択がより信頼度がある。

【0045】

本実施例において、認識対象画像の画像特徴を取得する実現方法については限定されず、例えば、関連技術におけるネットワーク構造によって実現することができ、例えば、畳み込みニューラルネットワーク（例えば、ＶＧＧ、ＤｅｎｓｅＮｅｔ）構造に基づいて実現してもよく、残差ニューラルネットワーク（ＲｅｓＮｅｔ）構造に基づいて実現してもよく、ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒネットワーク構造に基づいて実現してもよく、ここでは一々列挙はしない。

【0046】

同様に、本実施例では、初期バウンディングボックスを取得する方法についても限定されず、例えば、ターゲット位置検出（Ｒｅｇｉｏｎ－ｂａｓｅｄ）ネットワーク構造、具体的には、ターゲット位置検出畳み込み型ニューラルネットワーク（Ｆａｓｔｅｒ－ＲＣＮＮ）構造などのネットワーク構造によって実現することができる。ここでは一々列挙はしない。

【0047】

Ｓ２０２において、認識対象画像の画像特徴に基づいて、初期バウンディングボックス内のテキストバーの画像特徴を取得する。

【0048】

初期バウンディングボックスの数は複数であってもよく、テキストバーの数も複数であってもよく、一般的に、初期バウンディングボックスの数はテキストバーの数と同じである。しかし、上記の分析と組み合わせると、初期バウンディングボックスは大抵、大体のバウンディングボックスであるため、初期バウンディングボックスには複数のテキストバーが同時に含まれる可能性がある。

【0049】

認識対象画像は領収書である場合、テキストバーの数については、図３を参照することができる。図３に示すように、領収書には、領収書コードＸ、領収書番号ＸＸ、納税者ＸＸＸ、納税者認識番号ＸＸＸＸが含まれ、それに応じて、テキストバーの数は４である。

【0050】

各テキストバーに対して、認識対象画像の画像特徴に基づいて、各テキストバーの画像特徴を取得する。

【0051】

いくつかの実施例において、ターゲット検出（ＲＯＩｐｏｏｌｉｎｇ）方法に基づいて、テキストバーの特徴を抽出することにより、テキストバーの画像特徴を取得することができる。

【0052】

ここで、テキストバーの画像特徴とは、テキストバーの中心ピクセル点の特徴であってもよく、テキストバー内の各ピクセル点の特徴の平均的な特徴であってもよく、テキストバー内の各ピクセル点のピクセル平均値であってもよい。

【0053】

理解されるように、上記は、認識対象画像は領収書であることを例として、テキストバーの数を例示的に説明したものであり、テキストバーの数の限定や認識対象画像の限定として理解することができない。

【0054】

ここで、認識対象画像は、テキストを含む様々な画像とすることができる。例えば、認識対象の画像は、本やテスト用紙の画像などの教育業界の画像であってもよく、また、認識対象の画像は、伝票の画像などの金融業界の画像であってもよく、また、認識対象の画像は、診療録の画像などの医療業界の画像であってもよく、また、認識対象の画像は、交通業界や保険業界などの画像であってもよく、ここでは一々列挙しない。

【0055】

Ｓ２０３において、認識対象画像に対して視覚強調処理を行い、認識対象画像の強調特徴マップを取得する。ここで、強調特徴マップは、認識対象画像の特徴ベクトルを表す特徴マップである。

【0056】

ここで、テキストバーの画像特徴を取得することと、強調特徴マップを取得することとの間には必然的な優先順位関係はなく、テキストバーの画像特徴を先に取得してもよく、強調特徴マップを先に取得してもよく、テキストバーの画像特徴と強調特徴マップを同時に取得してもよい。

【0057】

いくつかの実施例において、視覚強調処理は、認識対象画像の画像特徴に基づいて実現することができる。

【0058】

同様に、ネットワーク構造に基づいて強調特徴マップを取得することもできる。例えば、特徴ピラミッド（ＦＰＮ）ネットワーク構造によって実現してもよく、ディープスーパービジョン（Ｕ－Ｎｅｔ）ネットワーク構造によって実現してもよく、ここでは一々列挙しない。

【0059】

Ｓ２０４において、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上の前記テキストバーの応答領域を決定する。ここで、応答領域は、強調特徴マップ上のテキストバーの位置領域を表す。

【0060】

例示的に、類似度照合は、特徴的な類似度の照合、すなわち、テキストバーの画像特徴と強調特徴マップとの特徴的な類似度の照合であり、両者の特徴的な類似度を決定する。

【0061】

上記の分析に基づいて、テキストバーの数は複数であってもよい。テキストバーの数が複数である場合、複数のテキストバー内の各テキストバーに対して、該テキストバーの画像特徴と強調特徴マップとの類似度を照合し、強調特徴マップ上の該テキストバーの対応する位置領域（該位置領域は応答領域と称し、いくつかの実施例において、応答領域をハイライト表示してもよい）を決定する。位置領域は、ピクセル単位の１つの位置領域などの１つの位置領域であってもよく、複数の位置領域あってもよい。一般的には、複数の位置領域である。

【0062】

いくつかの実施例において、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップは、ピクセル点の特徴ベクトルを含む。Ｓ２０４は、テキストバー内のピクセル点の画像特徴と、強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することを含むことができる。

【0063】

例えば、テキストバー内のピクセル点の画像特徴はＮ＊Ｄで表され、強調特徴マップ内のピクセル点の特徴ベクトルは｛Ｈ＊Ｗ｝＊Ｄで表される。ここで、Ｎはテキストバーの数、Ｈは認識対象画像の高さ、Ｗは認識対象画像の幅、Ｄは特徴ベクトル次元である。

【0064】

テキストバー内のピクセル点の画像特徴Ｎ＊Ｄと、強調特徴マップ内のピクセル点の特徴ベクトル｛Ｈ＊Ｗ｝＊Ｄとを類似度照合することにより、Ｎ個のテキストバーの各テキストバーの強調特徴マップ上の応答領域を決定することができる。両者を比較することにより、混入した他のテキストバーのピクセル点の欠点を除去し、関連技術におけるバウンディングボックスに重複なテキストを含む欠点を回避し、応答領域に基づいて決定されたターゲットバウンディングボックスの正確度と信頼度を向上させるという技術的効果を実現することができる。

【0065】

Ｓ２０５において、強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを決定する。

【0066】

なお、本実施例において、類似度照合は、テキストバーの画像特徴と強調特徴マップに基づいて実現され、かつ応答領域は、強調特徴マップ上で決定される。強調特徴マップは、認識対象画像を特徴づける特徴が多いため、最初のバウンディングボックスに対して、決定されたターゲットバウンディングボックスは、認識対象画像のより豊富な特徴に基づいて決定されることにより、テキストバーをより正確に選択することができ、各ターゲットバウンディングボックスのそれぞれの選択されたテキストバーの間に重複があるという欠点を回避し、重複テキストの検出問題を回避し、ターゲットバウンディングボックスの正確度と信頼度をより向上させるという技術的効果を有する。

【0067】

図４は、本開示の第３の実施例に係る概略図である。図４に示すように、本開示の実施例によって提供されるテキスト検出方法は、以下のステップを含む。

【0068】

Ｓ４０１において、認識対象画像内のテキストバーの画像特徴を取得し、認識対象画像に対して視覚強調処理を行い、認識対象画像の強調特徴マップを取得する。ここで、強調特徴マップは、認識対象画像の特徴ベクトルを表す特徴マップである。

【0069】

同様に、本実施例において、上記実施例と同様の技術的特徴については、本実施例では具体的に詳細に説明しない。

【0070】

また、Ｓ４０１の実現原理については、第１の実施例を参照してもよく、第２の実施例を参照してもよく、ここでは説明しない。

【0071】

Ｓ４０２において、テキストバー内のピクセル点に対して、テキストバー内のピクセル点の画像特徴と、テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得する。

【0072】

ここで、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップには、ピクセル点の特徴ベクトルが含まれる。

【0073】

Ｓ４０３において、類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を決定する。

【0074】

本実施例は、テキストバーは複数のピクセル点を含み、複数のピクセル点の各ピクセル点に対して、テキストバーにおける該ピクセル点の画像特徴（すなわち、テキストバーにおける該ピクセル点の画像特徴）と、強調特徴マップにおける該ピクセル点の特徴ベクトルとを決定し、両者を類似度照合することにより、テキストバーにおける該ピクセル点の画像特徴と、強調特徴マップにおける該ピクセル点の特徴ベクトルとの類似度を取得し、類推により、テキストバー内の各ピクセルに対応する類似度を取得し、各類似度に基づいてテキストバーの応答領域を決定すると理解することができる。

【0075】

例えば、ピクセル点Ａに対して、テキストバーにおけるピクセル点Ａの画像特徴Ａ１と、強調特徴マップにおけるピクセル点Ａの特徴ベクトルＡ２を決定し、Ａ１とＡ２を類似度照合し、対応する類似度を取得する。

【0076】

なお、本実施例において、ピクセル点に基づいて、ピクセル点に対応するテキストバー内の画像特徴、及びピクセル点に対応する強調特徴マップ内の特徴ベクトルの類似度を決定することにより、テキストバーの応答領域を取得し、類似度照合の関連性を実現することができ、これにより、類似度照合の正確度と効率を向上させ、さらに、ターゲットバウンディングボックスを決定する信頼度と効率を向上させるという技術的効果を有する。

【0077】

いくつかの実施例において、Ｓ４０３は、以下のステップを含むことができる。

【0078】

第１のステップにおいて、類似度に基づいて、強調特徴マップから、類似度が予め設定された類似度閾値より大きいピクセル点を決定する。

【0079】

第２のステップにおいて、決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、強調特徴マップ上のテキストバーの応答領域を決定する。

【0080】

例示的に、上記の分析と組み合わせて、テキストバー内のピクセル点の数が複数である場合、複数のピクセル点のうち、各ピクセル点のテキストバー内の画像特徴とそれの強調特徴マップ内の特徴ベクトルとの類似度を決定し、すなわち各ピクセル点にそれぞれ対応する類似度を取得する。

【0081】

なお、本実施例において、各類似度が類似度閾値より大きいか否かを判断するなど、各類似度をそれぞれ類似度閾値と照合することにより、ある類似度が類似度閾値より大きい場合、該類似度に対応するピクセル点は、テキストバー内の有効なテキスト（有効なテキストとは、本テキストバーに属するテキストの内容、すなわち、他のテキストバー内のテキストの内容が混入されていないテキスト）のピクセル点であることを示し、該ピクセル点は、ターゲットバウンディングボックス内の有効なテキスト部分である。それに応じて、各類似度から類似度閾値より大きい類似度を決定し、類似度閾値より大きい決定された類似度に対応するピクセル点によってテキストバーの応答領域を決定することにより、テキストバーの応答領域を有効な応答領域、すなわち、他のテキストバーが混入されていないテキストの応答領域とすることができる。さらに、該テキストバーの応答領域に基づいてターゲットバウンディングボックスを決定する場合、ターゲットバウンディングボックス内のテキストは、いずれも有効なテキストとすることができ、これにより、ターゲットバウンディングボックスの正確度及び信頼度を向上させるという技術的効果を有する。

【0082】

ここで、類似度閾値は、ニーズ、履歴記録、試験などの方式に基づいて設定することができ、本実施例は限定しない。

【0083】

例えば、ターゲットバウンディングボックスに対する信頼度要求に基づいて類似度閾値を決定する場合、ターゲットバウンディングボックスに対する信頼度要求が比較的に高い応用シーンに対して、類似度閾値を比較的に大きな値に設定することができる。一方、ターゲットバウンディングボックスに対する信頼度要求が比較的に低い応用シーンに対して、類似度閾値を比較的に小さい値に設定することができる。

【0084】

いくつかの実施例において、ピクセル点は位置属性を有し、第２のステップは、決定された類似度が予め設定された類似度閾値より大きいピクセル点の強調特徴マップにおける位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定することを含むことができる。

【0085】

ここで、位置属性は、座標、すなわち、強調特徴マップにおけるピクセル点の座標とすることができる。座標によってテキストバーの応答領域を決定する。

【0086】

それに応じて、テキストバーの応答領域に基づいてテキストバーのターゲットバウンディングボックスを決定する場合、テキストバーの応答領域に対して画像連結領域処理を行い、テキストバーのターゲットバウンディングボックスを生成することができる。

【0087】

なお、本実施例において、テキストバーの応答領域を決定した後、強調特徴マップからテキストバーの正確なアウトライン、すなわちテキストバーのターゲットバウンディングボックスを抽出し、これにより、テキストバーのターゲットバウンディングボックスをテキストバーと非常に一致させ、テキストバーのテキストに浮いている非有効なテキスト（例えば、図３におけるテキストバーのテキストに浮いているスタンプ、図示せず）を除去し、ターゲットバウンディングボックスの正確度、信頼度、有効性を向上させるという技術的効果を有する。

【0088】

Ｓ４０４において、強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを決定する。

【0089】

図５は、本開示の第４の実施例に係る概略図である。図５に示すように、本開示の実施例によって提供されるテキスト検出方法は、以下のステップを含む。

【0090】

Ｓ５０１において、認識対象画像内のテキストバーの画像特徴を取得し、認識対象画像に対して視覚強調処理を行い、認識対象画像の強調特徴マップを取得する。ここで、強調特徴マップは、認識対象画像の特徴ベクトルを表す特徴マップである。

【0091】

同様に、本実施例において、上記実施例と同様の技術的特徴については、本実施例では具体的に詳細に説明しない。

【0092】

なお、Ｓ５０１の実現原理については、第１の実施例を参照してもよく、第２の実施例を参照してもよく、ここでは説明を省略する。

【0093】

Ｓ５０２において、テキストバー内の任意のピクセル点に対して、任意のピクセル点の画像特徴と、強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得する。

【0094】

【0095】

Ｓ５０３において、各類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成する。

【0096】

本実施例は、テキストバーは複数のピクセル点を含み、複数のピクセル点の各ピクセル点に対して、テキストバーにおける該ピクセル点の画像特徴（すなわち、テキストバーにおける該ピクセル点の画像特徴）と、強調特徴マップにおける各ピクセル点の特徴ベクトルとを決定し、テキストバーにおける該ピクセル点の画像特徴と、強調特徴マップにおける各ピクセル点の特徴ベクトルとをそれぞれ類似度照合することにより、該ピクセル点の各類似度を取得し、類推により、テキストバー内の各ピクセル点に対応する類似度を取得し、各類似度に基づいてテキストバーの応答領域を決定すると理解することができる。

【0097】

例えば、ピクセル点Ａ１に対して、テキストバーにおけるピクセル点Ａ１の画像特徴Ｔ１を決定し、画像特徴Ｔ１と、強調特徴マップにおける各特徴ベクトルとの類似度照合を行い、これにより、対応する複数の類似度を取得する。

【0098】

例えば、強調特徴画像内の特徴ベクトルの数がＢ個である場合、画像特徴Ｔ１とＢ個の特徴ベクトルの各特徴ベクトルとの類似度照合を行い、これにより、Ｂ個の類似度を取得する。

【0099】

上記の第４の実施例から分かるように、第４の実施例では、ピクセル点に基づいて１対１の類似性照合を行う。なお、本実施例では、１対多の類似度照合を行う。同様に、本実施例の方式で類似度照合を行うことにより、類似度照合の正確度と効率を向上させ、さらにターゲットバウンディングボックスの信頼度と効率を向上させるという技術的効果を有する。

【0100】

そして、第４の実施例で説明した方式、または本実施例の方式に基づいて類似度照合を行うことにより、類似度照合の柔軟性と多様性の技術的効果を実現させる。

【0101】

いくつかの実施例において、Ｓ５０３は、以下のステップを含むことができる。

【0102】

第１のステップにおいて、各類似度から、予め設定された類似度閾値より大きい類似度を決定し、予め設定類似度閾値より大きい類似度から、対応するテキストバー内のピクセル点と、特徴ベクトルのテキストバー内のピクセル点と同じピクセル点の類似度を決定する。

【0103】

第２のステップにおいて、同じピクセル点の類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成する。

【0104】

例えば、上記の例と組み合わせて、画像特徴Ｔ１に対して、Ｂ個の類似度を算出し、Ｂ個の類似度から、類似度閾値より大きい類似度を決定し、該類似度から強調特徴マップ内のピクセル点Ａ１の類似度を決定し、該類似度と組み合わせてテキストバーの応答領域を決定する。

【0105】

同様に、本実施例の方法により、テキストバーの応答領域を有効な応答領域、すなわち、他のテキストバーが混入されていないテキストの応答領域とすることができる。さらに、該テキストバーの応答領域に基づいてターゲットバウンディングボックスを決定する場合、ターゲットバウンディングボックス内のテキストは、いずれも有効なテキストとすることができ、これにより、ターゲットバウンディングボックスの正確度及び信頼度を向上させるという技術的効果を有する。

【0106】

いくつかの実施例において、ピクセル点は位置属性を有し、第２のステップは、強調特徴マップにおける同じピクセル点の位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定することを含むことができる。

【0107】

【0108】

なお、本実施例において、テキストバーの応答領域を決定した後、強調特徴マップからテキストバーの正確なアウトライン、すなわちテキストバーのターゲットバウンディングボックスを抽出し、これにより、テキストバーのターゲットバウンディングボックスをテキストバーと非常に一致させ、テキストバーのテキストに浮いている非有効なテキストを除去し、ターゲットバウンディングボックスの正確度、信頼度、有効性を向上させるという技術的効果を有する。

【0109】

Ｓ５０４において、強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを決定する。

【0110】

図６は、本開示の第５の実施例に係る概略図である。図６に示すように、本開示の実施例によって提供されるテキスト検出モデルのトレーニング方法は、以下のステップを含む。

【0111】

Ｓ６０１において、サンプル画像内のテキストバーの画像特徴を取得し、サンプル画像に対して視覚強調処理を行い、サンプル画像の強調特徴マップを取得する。ここで、強調特徴マップは、サンプル画像の特徴ベクトルを表す特徴マップである。

【0112】

本実施例の実行主体は、テキスト検出モデルのトレーニング装置（以下、トレーニング装置と称する）であってもよい。トレーニング装置は、上記実施例における検出装置と同じ装置であってもよく、異なる装置であってもよく、本実施例は限定しない。

【0113】

Ｓ６０２において、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーの予測バウンディングボックスを取得する。

【0114】

例示的に、本実施例において、予測バウンディングボックスを取得する実現原理については、前述の実施例におけるターゲットバウンディングボックスを取得する実現原理を参照することができ、本実施例では説明を省略する。

【0115】

いくつかの実施例において、Ｓ６０２は、以下のステップを含むことができる。

【0116】

第１のステップにおいて、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上の前記テキストバーの応答領域を決定する。応答領域は、強調特徴マップ上のテキストバーの位置領域を表す。

【0117】

いくつかの実施例において、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップには、ピクセル点の特徴ベクトルが含まれる。第１のステップは、テキストバー内のピクセル点の画像特徴と、強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、強調特徴マップ上のテキストバーの応答領域を取得することを含むことができる。

【0118】

一例において、テキストバー内のピクセル点に対して、テキストバー内のピクセル点の画像特徴と、テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得する。類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を決定する。

【0119】

例えば、類似度に基づいて、強調特徴マップから類似度が予め設定された類似度閾値より大きいピクセル点を決定し、決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、強調特徴マップ上の前記テキストバーの応答領域を決定する。

【0120】

ここで、ピクセル点は位置属性を有し、決定された類似度が予め設定された類似度閾値より大きいピクセル点の強調特徴マップにおける位置属性に基づいて、強調特徴マップ上の前記テキストバーの応答領域を決定することができる。

【0121】

それに応じて、テキストバーの応答領域に対して画像連結領域処理を行い、テキストバーのターゲットバウンディングボックスを生成することができる。

【0122】

他の例において、テキストバー内の任意のピクセル点に対して、任意のピクセル点の画像特徴と、強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得し、各類似度に基づいて、強調特徴マップ上の前記テキストバーの応答領域を生成する。

【0123】

例えば、各類似度から、予め設定された類似度閾値より大きい類似度を決定し、予め設定類似度閾値より大きい類似度から、対応するテキストバー内のピクセル点と、特徴ベクトルのテキストバー内のピクセル点と同じピクセル点の類似度を決定し、同じピクセル点の類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成する。

【0124】

ここで、ピクセル点は位置属性を有する。強調特徴マップにおける同じピクセル点の位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定することができる。

【0125】

それに応じて、テキストバーの応答領域に対して画像連結領域処理を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを生成することができる。

【0126】

第２のステップにおいて、強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーの予測バウンディングボックスを決定する。

【0127】

Ｓ６０３において、予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングする。

【0128】

例示的に、上記の分析と組み合わせて、各ネットワーク構造に基づいて予測バウンディングボックスを取得することができ、それに応じて、予測バウンディングボックスに基づいてネットワーク構造をトレーニングし、ネットワーク構造のパラメータを調整して、テキスト検出モデルを取得することができる。

【0129】

図７は、本開示の第６の実施例に係る概略図である。図７に示すように、本開示の実施例によって提供されるテキスト認識方法は、以下のステップを含む。

【0130】

Ｓ７０１において、認識対象画像を取得し、認識対象画像のバウンディングボックスを取得する。ここで、バウンディングボックスには、テキストバーが含まれ、バウンディングボックスは、第１～第４の実施例に記載の方法に基づいて取得され、または、バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、テキスト検出モデルは、第５の実施例に記載の方法に基づいてトレーニングして生成される。

【0131】

Ｓ７０２において、バウンディングボックスに対して認識処理を行い、認識対象画像のテキスト内容を取得する。

【0132】

上記の分析に基づいて、決定されたバウンディングボックスは高い正確度と信頼度を有するため、バウンディングボックスに対して認識処理を行う場合、認識の柔軟性と正確度の技術的効果を高めることができる。

【0133】

図８は、本開示の第７の実施例に係る概略図である。図８に示すように、本開示の実施例によって提供されるテキスト検出装置８００は、
認識対象画像内のテキストバーの画像特徴を取得するための第１の取得ユニット８０１と、
認識対象画像に対して視覚強調処理を行い、認識対象画像の特徴ベクトルを表す特徴マップである認識対象画像の強調特徴マップを取得するための第１の強調ユニット８０２と、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを取得するための第１の照合ユニット８０３と、を含む。

【0134】

図９は、本開示の第８の実施例に係る概略図である。図９に示すように、本開示の実施例によって提供されるテキスト検出装置９００は、
認識対象画像内のテキストバーの画像特徴を取得するための第１の取得ユニット９０１と、
認識対象画像に対して視覚強調処理を行い、認識対象画像の特徴ベクトルを表す特徴マップである認識対象画像の強調特徴マップを取得するための第１の強調ユニット９０２と、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを取得するための第１の照合ユニット９０３と、を含む。

【0135】

図９を参照して、いくつかの実施例において、第１の取得ユニット９０１は、
認識対象画像の画像特徴を取得するための第１の取得サブユニット９０１１と、
認識対象画像の画像特徴に基づいて、テキストバーを含む認識対象画像の初期バウンディングボックスを決定するための第２の決定サブユニット９０１２と、
を含む。

【0136】

図９を参照して、いくつかの実施例において、第１の照合ユニット９０３は、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーの応答領域を決定するための第１の照合サブユニット９０３１であって、応答領域は、強調特徴マップ上のテキストバーの位置領域を表す、第１の照合サブユニット９０３１と、
強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを決定するための第１の決定サブユニット９０３２と、を含む。

【0137】

いくつかの実施例において、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップには、ピクセル点の特徴ベクトルが含まれる。第１の照合サブユニット９０３１は、テキストバー内のピクセル点の画像特徴と、強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、強調特徴マップ上のテキストバーの応答領域を取得するためにも用いられる。

【0138】

いくつかの実施例において、第１の照合サブユニット９０３１は、
テキストバー内のピクセル点に対して、テキストバー内のピクセル点の画像特徴と、テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得するための第１の照合モジュールと、
類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するための第１の決定モジュールと、を含む。

【0139】

いくつかの実施例において、第１の決定モジュールは、
類似度に基づいて、強調特徴マップから、類似度が予め設定された類似度閾値より大きいピクセル点を決定するための第１の決定サブモジュールと、
決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するための第２の決定サブモジュールと、を含む。

【0140】

いくつかの実施例において、ピクセル点は位置属性を有し、第２の決定サブモジュールは、決定された類似度が予め設定された類似度閾値より大きいピクセル点の強調特徴マップにおける位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するために用いられる。

【0141】

そして、第１の決定サブユニット９０３２は、テキストバーの応答領域に対して画像連結領域処理を行い、テキストバーのターゲットバウンディングボックスを生成するためにも用いられる。

【0142】

他の実施例において、第１の照合サブユニット９０３１は、
テキストバー内の任意のピクセル点に対して、任意のピクセル点の画像特徴と、強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得するための第２の照合モジュールと、
各類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成するための第１の生成モジュールと、を含む。

【0143】

いくつかの実施例において、第１の生成モジュールは、
各類似度から、予め設定された類似度閾値より大きい類似度を決定するための第３の決定サブモジュールと、
予め設定類似度閾値より大きい類似度から、対応するテキストバー内のピクセル点と、特徴ベクトルのテキストバー内のピクセル点と同じピクセル点の類似度を決定するための第４の決定サブモジュールと、
同じピクセル点の類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成するための第１の生成サブモジュールと、を含む。

【0144】

いくつかの実施例において、ピクセル点は位置属性を有し、第１の生成サブモジュールは、強調特徴マップにおける同じピクセル点の位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するために用いられる。
そして、第１の決定サブユニット９０３２は、テキストバーの応答領域に対して画像連結領域処理を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを生成するために用いられる。

【0145】

図１０は、本開示の第９の実施例に係る概略図である。図１０に示すように、本開示の実施例によって提供されるテキスト検出モデルのトレーニング装置１０００は、
サンプル画像内のテキストバーの画像特徴を取得するための第２の取得ユニット１００１と、
サンプル画像に対して視覚強調処理を行い、サンプル画像の特徴ベクトルを表す特徴マップであるサンプル画像の強調特徴マップを取得するための第２の強調ユニット１００２と、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーの予測バウンディングボックスを取得するための第２の照合ユニット１００３と、
予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングするためのトレーニングユニット１００４と、を含む。

【0146】

図１１は、本開示の第１０の実施例に係る概略図である。図１１に示すように、本開示の実施例によって提供されるテキスト検出モデルのトレーニング装置１１００は、
サンプル画像内の画像特徴を取得するための第２の取得ユニット１１０１と、
サンプル画像に対して視覚強調処理を行い、サンプル画像の特徴ベクトルを表す特徴マップであるサンプル画像の強調特徴マップを取得するための第２の強調ユニット１１０２と、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーの予測バウンディングボックスを取得するための第２の照合ユニット１１０３と、を含む。

【0147】

図１１を参照して、いくつかの実施例において、第２の照合ユニット１１０３は、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーの応答領域を決定するための第２の照合サブユニット１１０３１であって、応答領域は、強調特徴マップ上のテキストバーの位置領域を表す、第２の照合サブユニット１１０３１と、
強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーの予測バウンディングボックスを決定するための第３の決定サブユニット１１０３２と、を含む。

【0148】

いくつかの実施例において、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップには、ピクセル点の特徴ベクトルが含まれる。第２の照合サブユニット１１０３１は、テキストバー内のピクセル点の画像特徴と、強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、強調特徴マップ上のテキストバーの応答領域を取得するために用いられる。

【0149】

いくつかの実施例において、第２の照合サブユニット１１０３１は、
テキストバー内のピクセル点に対して、テキストバー内のピクセル点の画像特徴と、テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得するための第３の照合モジュールと、
類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するための第２の決定モジュールと、を含む。

【0150】

いくつかの実施例において、第２の決定モジュールは、
類似度に基づいて、強調特徴マップから、類似度が予め設定された類似度閾値より大きいピクセル点を決定するための第５の決定サブモジュールと、
決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するための第６の決定サブモジュールと、を含む。

【0151】

いくつかの実施例において、ピクセル点は位置属性を有し、第６の決定サブモジュールは、決定された類似度が予め設定された類似度閾値より大きいピクセル点の強調特徴マップにおける位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するために用いられる。

【0152】

それに応じて、第３の決定サブユニット１１０３２は、テキストバーの応答領域に対して画像連結領域処理を行い、テキストバーのターゲットバウンディングボックスを生成するために用いられる。

【0153】

いくつかの実施例において、第２の照合サブユニット１１０３１は、
テキストバー内の任意のピクセル点に対して、任意のピクセル点の画像特徴と、強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得するための第４の照合モジュールと、
各類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成するための第２の生成モジュールと、を含む。

【0154】

いくつかの実施例において、第２の生成モジュールは、
各類似度から、予め設定された類似度閾値より大きい類似度を決定するための第７の決定サブモジュールと、
予め設定類似度閾値より大きい類似度から、対応するテキストバー内のピクセル点と、特徴ベクトルのテキストバー内のピクセル点と同じピクセル点の類似度を決定するための第８の決定サブモジュールと、
同じピクセル点の類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成するための第２の生成サブモジュールと、
を含む。

【0155】

いくつかの実施例において、ピクセル点は位置属性を有し、第２の生成サブモジュールは、強調特徴マップにおける同じピクセル点の位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するために用いられる。

【0156】

それに応じて、第３の決定サブユニット１１０３２は、テキストバーの応答領域に対して画像連結領域処理を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを生成するために用いられる。

【0157】

トレーニングユニット１１０４は、予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングするために用いられる。

【0158】

図１２は、本開示の第１１の実施例に係る概略図である。図１２に示すように、本開示の実施例によって提供されるテキスト認識装置１２００は、
認識対象画像を取得するための第３の取得ユニット１２０１と、
認識対象画像のバウンディングボックスを取得するための第４の取得ユニット１２０２であって、ここで、バウンディングボックスには、テキストバーが含まれ、バウンディングボックスは、上記テキスト検出方法の実施例に記載の方法に基づいて取得され、または、バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、テキスト検出モデルは、上記テキスト検出モデルのトレーニング方法の実施例に記載の方法に基づいてトレーニングして生成される、第４の取得ユニット１２０２と、
バウンディングボックスに対して認識処理を行い、認識対象画像のテキスト内容を取得するための認識ユニット１２０３と、を含む。

【0159】

図１３は、本開示の第１２の実施例に係る概略図である。図１３に示すように、本開示における電子機器１３００は、プロセッサ１３０１とメモリ１３０２と、を含む。

【0160】

メモリ１３０２は、プログラムを記憶するために用いられる。メモリ１３０２は、ランダムアクセスメモリ（ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）などの揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含むことができる。例えば、スタティックランダムアクセスメモリ（英語：ｓｔａｔｉｃｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＳＲＡＭ）、ダブルデータレート同期ダイナミックランダムアクセスメモリ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ＤＤＲＳＤＲＡＭ）が挙げられる。メモリは、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などの不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含めることもできる。メモリ１３０２は、コンピュータプログラム（例えば、上記の方法を実現するアプリケーションプログラム、機能モジュールなど）、コンピュータ命令などを記憶するために用いられ、上記のコンピュータプログラム、コンピュータ命令などは、１つまたは複数のメモリ１３０２に分割して記憶することができる。また、上記のコンピュータプログラム、コンピュータ命令、データなどは、プロセッサ１３０１によって呼び出されることができる。

【0161】

プロセッサ１３０１は、メモリ１３０２に記憶されたコンピュータプログラムを実行し、上記の実施例に係る方法の各ステップを実現させる。

【0162】

具体的には、前述の方法実施例における関連する説明を参照することができる。

【0163】

プロセッサ１３０１とメモリ１３０２は、独立した構造であってもよく、一体に集積された集積構造であってもよい。プロセッサ１３０１とメモリ１３０２は独立した構造である場合、メモリ１３０２、プロセッサ１３０１はバス１３０３を介して結合接続されてもよい。

【0164】

本実施例における電子機器は、上記の方法における技術的解決手段を実行することができ、具体的な実現プロセス及び技術原理は同様であり、ここでは説明を省略する。

【0165】

本開示に係る技術的解決手段において、関連するユーザーの個人情報の収集や、保存、使用、加工、伝送、提供及び公開などの処理は、いずれも関連する法律および規制に準拠しており、公序良俗にも違反しない。

【0166】

本開示の実施例によれば、本開示は電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。

【0167】

本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムは、読み取り可能な記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは、読み取り可能な記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも１つのプロセッサは、電子機器が上記任意の実施例によって提供される手段を実行するように、コンピュータプログラムを実行する。

【0168】

図１４は、本開示の実施例を実現するための電子機器１４００の概略ブロック図である。
電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表す。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実施を制限することを意図したものではない。

【0169】

図１４に示すように、電子機器１４００は、計算ユニット１４０１を含み、当該計算ユニット１４０１は、読み取り専用メモリ（ＲＯＭ）１４０２に記憶されたコンピュータプログラム、または、記憶ユニット１４０８からランダムアクセスメモリ（ＲＡＭ）１４０３にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。ＲＡＭ１４０３には、さらに、電子機器１４００の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット１４０１、ＲＯＭ１４０２及びＲＡＭ１４０３は、バス１４０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インタフェース１４０５も、バス１４０４に接続される。

【0170】

キーボードやマウスなどの入力ユニット１４０６と、さまざまなタイプのモニタやスピーカーなどの出力ユニット１４０７と、磁気ディスクや光ディスクなどの記憶ユニット１４０８と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット１４０９と、を含む、電子機器１４００における複数のコンポーネントは、Ｉ／Ｏインタフェース１４０５に接続される。通信ユニット１４０９は、電子機器１４００がインターネットなどのコンピュータネットワーク及び／又はさまざまな電気通信ネットワークを介して他の機器と情報／データを交換することを可能にさせる。

【0171】

計算ユニット１４０１は、処理能力や計算能力を有するさまざまな汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット１４０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、さまざまな専用な人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット１４０１は、テキスト検出方法、テキスト検出モデルのトレーニング方法、テキスト認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例では、テキスト検出方法、テキスト検出モデルのトレーニング方法、及びテキスト認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット１４０８などの機械読み取り可能な媒体に有形的に含まれている。いくつかの実施例では、コンピュータプログラムの一部またはすべては、ＲＯＭ１４０２及び／又は通信ユニット１４０９を介して電子機器１４００にロード及び／又はインストールされることができる。コンピュータプログラムは、ＲＡＭ１４０３にロードされて計算ユニット１４０１により実行されると、上記に記載のテキスト検出方法、テキスト検出モデルのトレーニング方法、テキスト認識方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット１４０１は、他の任意の適当な手段（例えば、ファームウェアに頼る）を用いてテキスト検出方法、テキスト検出モデルのトレーニング方法、テキスト認識方法を実行するように構成されることができる。

【0172】

本明細書において、上記に記載のシステム及び技術のさまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、複雑なプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、１つ又は複数のコンピュータプログラムに実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

【0173】

本開示に係る方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び／又はブロック図に示される機能／操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。

【0174】

本開示のコンテキストでは、機械読み取り可能な媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械読み取り可能な記憶媒体のより具体的な例として、１つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。

【0175】

ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

【0176】

本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとする）、或いは、ミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）、或いは、フロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例示は、ローカルネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

【0177】

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント－サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びＶＰＳ（「ＶｉｒｔｕａＬＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称）サービスに存在する管理が難しく、サービスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバであるか、またはブロックチェーンと組み合わせたサーバであってもよい。

【0178】

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

【0179】

上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

【図1】