IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2022-185143テキスト検出方法、テキスト認識方法及び装置
<>
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図1
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図2
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図3
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図4
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図5
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図6
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図7
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図8
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図9
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図10
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図11
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図12
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図13
  • 特開-テキスト検出方法、テキスト認識方法及び装置 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022185143
(43)【公開日】2022-12-13
(54)【発明の名称】テキスト検出方法、テキスト認識方法及び装置
(51)【国際特許分類】
   G06V 30/14 20220101AFI20221206BHJP
   G06T 7/11 20170101ALI20221206BHJP
   G06V 10/77 20220101ALI20221206BHJP
【FI】
G06V30/14 340J
G06T7/11
G06V10/77
【審査請求】有
【請求項の数】35
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022165326
(22)【出願日】2022-10-14
(31)【優先権主張番号】202210028960.3
(32)【優先日】2022-01-11
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】章 成全
(72)【発明者】
【氏名】呂 鵬原
(72)【発明者】
【氏名】范 森
(72)【発明者】
【氏名】姚 ▲クン▼
(72)【発明者】
【氏名】韓 鈞宇
(72)【発明者】
【氏名】劉 經拓
(57)【要約】      (修正有)
【課題】テキスト検出の正確度を向上させるテキスト検出方法、テキスト認識方法及び装置を提供する。
【解決手段】方法は、認識対象画像内のテキストバーの画像特徴を取得するステップS101と、認識対象画像に対して視覚強調処理を行い、認識対象画像の強調特徴マップを取得するステップS102と、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを取得するステップS103と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
認識対象画像内のテキストバーの画像特徴を取得し、前記認識対象画像に対して視覚強調処理を行い、前記認識対象画像の特徴ベクトルを表す特徴マップである前記認識対象画像の強調特徴マップを取得することと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを取得することと、を含む、テキスト検出方法。
【請求項2】
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを取得することは、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定することであって、前記応答領域は、前記強調特徴マップ上の前記テキストバーの位置領域を表し、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを決定することと、を含む、請求項1に記載のテキスト検出方法。
【請求項3】
前記テキストバーの画像特徴は、前記テキストバー内のピクセル点の画像特徴を含み、前記強調特徴マップには、ピクセル点の特徴ベクトルが含まれ、前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定することは、
前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することを含む、請求項2に記載のテキスト検出方法。
【請求項4】
前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することは、
前記テキストバー内のピクセル点に対して、前記テキストバー内のピクセル点の画像特徴と、前記テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得し、前記類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を決定することを含む、請求項3に記載のテキスト検出方法。
【請求項5】
前記類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を決定することは、
前記類似度に基づいて、前記強調特徴マップから類似度が予め設定された類似度閾値より大きいピクセル点を決定し、決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定することを含む、請求項4に記載のテキスト検出方法。
【請求項6】
前記ピクセル点は位置属性を有し、決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定することは、
決定された類似度が予め設定された類似度閾値より大きいピクセル点の前記強調特徴マップにおける位置属性に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定することを含み、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記テキストバーのターゲットバウンディングボックスを決定することは、
前記テキストバーの応答領域に対して画像連結領域処理を行い、前記テキストバーのターゲットバウンディングボックスを生成することを含む、請求項5に記載のテキスト検出方法。
【請求項7】
前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することは、
前記テキストバー内の任意のピクセル点に対して、前記任意のピクセル点の画像特徴と、前記強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得し、前記各類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を生成することを含む、請求項3に記載のテキスト検出方法。
【請求項8】
前記各類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を生成することは、
各類似度から、予め設定された類似度閾値より大きい類似度を決定し、予め設定類似度閾値より大きい類似度から、対応する前記テキストバー内のピクセル点と、特徴ベクトルの前記テキストバー内のピクセル点と同じピクセル点の類似度を決定することと、
同じピクセル点の類似度に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を生成することと、を含む、請求項7に記載のテキスト検出方法。
【請求項9】
前記ピクセル点は位置属性を有し、同じピクセル点の類似度に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を生成することは、
前記強調特徴マップにおける同じピクセル点の位置属性に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定することを含み、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを決定することは、
前記テキストバーの応答領域に対して画像連結領域処理を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを生成することを含む、請求項8に記載のテキスト検出方法。
【請求項10】
認識対象画像内のテキストバーの画像特徴を取得することは、
前記認識対象画像の画像特徴を取得し、前記認識対象画像の画像特徴に基づいて、前記認識対象画像の初期バウンディングボックスを決定することを含み、ここで、前記初期バウンディングボックスには、テキストバーが含まれる、請求項1~9のいずれか1項に記載の方法。
【請求項11】
サンプル画像内のテキストバーの画像特徴を取得し、前記サンプル画像に対して視覚強調処理を行い、前記サンプル画像の特徴ベクトルを表す特徴マップである前記サンプル画像の強調特徴マップを取得することと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを取得し、前記予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングすることと、を含む、テキスト検出モデルのトレーニング方法。
【請求項12】
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを取得することは、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定することであって、前記応答領域は、前記強調特徴マップ上の前記テキストバーの位置領域を表し、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを決定することと、を含む、請求項11に記載のテキスト検出モデルのトレーニング方法。
【請求項13】
前記テキストバーの画像特徴は、前記テキストバー内のピクセル点の画像特徴を含み、前記強調特徴マップには、ピクセル点の特徴ベクトルが含まれ、前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定することは、
前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することを含む、請求項12に記載のテキスト検出モデルのトレーニング方法。
【請求項14】
前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することは、
前記テキストバー内のピクセル点に対して、前記テキストバー内のピクセル点の画像特徴と、前記テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得し、前記類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を決定することを含む、請求項13に記載のテキスト検出モデルのトレーニング方法。
【請求項15】
前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することは、
前記テキストバー内の任意のピクセル点に対して、前記任意のピクセル点の画像特徴と、前記強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得し、各類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を生成することを含む、請求項13に記載のテキスト検出モデルのトレーニング方法。
【請求項16】
認識対象画像を取得し、認識対象画像のバウンディングボックスを取得することであって、ここで、前記バウンディングボックスには、テキストバーが含まれ、前記バウンディングボックスは、請求項1に記載の方法に基づいて取得され、または、前記バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、前記テキスト検出モデルは、請求項11に記載の方法に基づいてトレーニングして生成されたものであり、
前記バウンディングボックスに対して認識処理を行い、前記認識対象画像のテキスト内容を取得することと、を含む、テキスト認識方法。
【請求項17】
認識対象画像内のテキストバーの画像特徴を取得するための第1の取得ユニットと、
前記認識対象画像に対して視覚強調処理を行い、前記認識対象画像の特徴ベクトルを表す特徴マップである前記認識対象画像の強調特徴マップを取得するための第1の強調ユニットと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを取得するための第1の照合ユニットと、を含む、テキスト検出装置。
【請求項18】
前記第1の照合ユニットは、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定するための第1の照合サブユニットであって、前記応答領域は、前記強調特徴マップ上の前記テキストバーの位置領域を表す、第1の照合サブユニットと、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを決定するための第1の決定サブユニットと、を含む、請求項17に記載のテキスト検出装置。
【請求項19】
前記テキストバーの画像特徴は、前記テキストバー内のピクセル点の画像特徴を含み、前記強調特徴マップには、ピクセル点の特徴ベクトルが含まれ、前記第1の照合サブユニットは、前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得するためにも用いられる、請求項18に記載のテキスト検出装置。
【請求項20】
前記第1の照合サブユニットは、
前記テキストバー内のピクセル点に対して、前記テキストバー内のピクセル点の画像特徴と、前記テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得するための第1の照合モジュールと、
前記類似度に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定するための第1の決定モジュールと、を含む、請求項19に記載のテキスト検出装置。
【請求項21】
前記第1の決定モジュールは、
前記類似度に基づいて、前記強調特徴マップから、類似度が予め設定された類似度閾値より大きいピクセル点を決定するための第1の決定サブモジュールと、
決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定するための第2の決定サブモジュールと、を含む、請求項20に記載のテキスト検出装置。
【請求項22】
ピクセル点は位置属性を有し、前記第2の決定サブモジュールは、決定された類似度が予め設定された類似度閾値より大きいピクセル点の前記強調特徴マップにおける位置属性に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定するためにも用いられ、
前記第1の決定サブユニットは、前記テキストバーの応答領域に対して画像連結領域処理を行い、前記テキストバーのターゲットバウンディングボックスを生成するためにも用いられる、請求項21に記載のテキスト検出装置。
【請求項23】
前記第1の照合サブユニットは、
前記テキストバー内の任意のピクセル点に対して、前記任意のピクセル点の画像特徴と、前記強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得するための第2の照合モジュールと、
前記各類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を生成するための第1の生成モジュールと、を含む、請求項19に記載のテキスト検出装置。
【請求項24】
前記第1の生成モジュールは、
各類似度から、予め設定された類似度閾値より大きい類似度を決定するための第3の決定サブモジュールと、
予め設定類似度閾値より大きい類似度のうち、対応する前記テキストバー内のピクセル点、特徴ベクトルのピクセル点と同じピクセル点の類似度を決定するための第4の決定サブモジュールと、
同じピクセル点の類似度に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を生成するための第1の生成サブモジュールと、を含む、請求項23に記載の装置。
【請求項25】
ピクセル点は位置属性を有し、前記第1の生成サブモジュールは、前記強調特徴マップにおける同じピクセル点の位置属性に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定するためにも用いられ、
前記第1の決定サブユニットは、前記テキストバーの応答領域に対して画像連結領域処理を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを生成するためにも用いられる、請求項24に記載のテキスト検出装置。
【請求項26】
前記第1の取得ユニットは、
前記認識対象画像の画像特徴を取得するための第1の取得サブユニットと、
前記認識対象画像の画像特徴に基づいて、テキストバーを含む前記認識対象画像の初期バウンディングボックスを決定するための第2の決定サブユニットと、を含む、請求項17~25のいずれか1項に記載のテキスト検出装置。
【請求項27】
サンプル画像内のテキストバーの画像特徴を取得するための第2の取得ユニットと、
前記サンプル画像に対して視覚強調処理を行い、前記サンプル画像の特徴ベクトルを表す特徴マップである前記サンプル画像の強調特徴マップを取得するための第2の強調ユニットと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを取得するための第2の照合ユニットと、
前記予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングするためのトレーニングユニットと、を含む、テキスト検出モデルのトレーニング装置。
【請求項28】
前記第2の照合ユニットは、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を決定するための第2の照合サブユニットであって、前記応答領域は、前記強調特徴マップ上の前記テキストバーの位置領域を表す、第2の照合サブユニットと、
前記強調特徴マップ上の前記テキストバーの応答領域に基づいて、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを決定するための第3の決定サブユニットと、を含む、請求項27に記載のテキスト検出モデルのトレーニング装置。
【請求項29】
前記テキストバーの画像特徴は、前記テキストバー内のピクセル点の画像特徴を含み、前記強調特徴マップには、ピクセル点の特徴ベクトルが含まれ、前記第2の照合サブユニットは、前記テキストバー内のピクセル点の画像特徴と、前記強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得するためにも用いられる、請求項28に記載のテキスト検出モデルのトレーニング装置。
【請求項30】
前記第2の照合サブユニットは、
前記テキストバー内のピクセル点に対して、前記テキストバー内のピクセル点の画像特徴と、前記テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得するための第3の照合モジュールと、
前記類似度に基づいて、前記強調特徴マップ上の前記テキストバーの応答領域を決定するための第2の決定モジュールと、を含む、請求項29に記載のテキスト検出モデルのトレーニング装置。
【請求項31】
前記第2の照合サブユニットは、
前記テキストバー内の任意のピクセル点に対して、前記任意のピクセル点の画像特徴と、前記強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得するための第4の照合モジュールと、
前記各類似度に基づいて前記強調特徴マップ上の前記テキストバーの応答領域を生成するための第2の生成モジュールと、を含む、請求項29に記載のテキスト検出モデルのトレーニング装置。
【請求項32】
認識対象画像を取得するための第3の取得ユニットと、
認識対象画像のバウンディングボックスを取得するための第4の取得ユニットであって、ここで、前記バウンディングボックスには、テキストバーが含まれ、前記バウンディングボックスは、請求項1~9のいずれか1項に記載の方法に基づいて取得され、または、前記バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、前記テキスト検出モデルは、請求項11~15のいずれか1項に記載の方法に基づいてトレーニングして生成される、第4の取得ユニットと、
前記バウンディングボックスに対して認識処理を行い、前記認識対象画像のテキスト内容を取得するための認識ユニットと、を含む、テキスト認識装置。
【請求項33】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されているメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~9のいずれか1項に記載の方法を実行できるように、または、前記少なくとも1つのプロセッサが請求項11~15のいずれか1項に記載の方法を実行できるように、または、前記少なくとも1つのプロセッサが請求項16に記載の方法を実行できるように、前記少なくとも1つのプロセッサにより実行される、電子機器。
【請求項34】
コンピュータ命令が記憶されている非一時的なコンピュータで読み取り可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~9のいずれか1項に記載の方法を実行させるために用いられ、または、前記コンピュータに請求項11~15のいずれか1項に記載の方法を実行させるために用いられ、または、前記コンピュータに請求項16に記載の方法を実行させるために用いられる、非一時的なコンピュータで読み取り可能な記憶媒体。
【請求項35】
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、請求項1~9のいずれか1項に記載の方法が実現され、または、当該コンピュータプログラムがプロセッサにより実行されると、請求項11~15のいずれか1項に記載の方法が実現され、または、当該コンピュータプログラムがプロセッサにより実行されると、請求項16に記載の方法が実現される、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の技術分野、特にディープラーニング、コンピュータビジョンの技術分野に関し、光学文字認識(Optical Character Recognition、OCR)などのシーンに適用することができる。特にテキスト検出方法、テキスト認識方法及び装置に関する。
【背景技術】
【0002】
人工知能技術の発展と普遍的な応用に伴い、画像内のテキスト内容を認識する操作は、人工認識から知能認識に徐々に置き換えられ、画像内のテキスト内容を選択するためのバウンディングボックス(Bounding Box)を決定することは、テキスト内容を認識する前処理である。
【0003】
従来の技術において、テキスト検出の方法は、通常、「手動注釈付き+テキスト予測」の実現に基づいており、例えば、手動でバウンディングボックスに注釈を付けて、バウンディングボックス内のテキストを予測することにより、検出対象のテキストに対応するテキスト内容を取得する。
【0004】
しかし、手動による注釈付きは人為的な主観的要因の影響を受けやすいため、テキスト検出の正確度が低いという技術的問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、テキスト検出の正確度を向上させるためのテキスト検出方法、テキスト認識方法及び装置を提供する。
【課題を解決するための手段】
【0006】
本開示の第1の態様によれば、テキスト検出方法を提供し、前記テキスト検出方法は、
認識対象画像内のテキストバーの画像特徴を取得し、前記認識対象画像に対して視覚強調処理を行い、前記認識対象画像の特徴ベクトルを表す特徴マップである前記認識対象画像の強調特徴マップを取得することと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを取得することと、を含む。
【0007】
本開示の第2の態様によれば、テキスト検出モデルのトレーニング方法を提供し、前記テキスト検出モデルのトレーニング方法は、
サンプル画像内のテキストバーの画像特徴を取得し、前記サンプル画像に対して視覚強調処理を行い、前記サンプル画像の特徴ベクトルを表す特徴マップである強調特徴マップを取得することと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを取得し、前記予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングすることと、を含む。
【0008】
本開示の第3の態様によれば、テキスト認識方法を提供し、前記テキスト認識方法は、
認識対象画像を取得し、認識対象画像のバウンディングボックスを取得することであって、ここで、前記バウンディングボックスには、テキストバーが含まれ、前記バウンディングボックスは、第1の態様に記載の方法に基づいて取得され、または、前記バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、前記テキスト検出モデルは、第2の態様に記載の方法に基づいてトレーニングして生成される、取得することと、
前記バウンディングボックスに対して認識処理を行い、前記認識対象画像のテキスト内容を取得することと、を含む。
【0009】
本開示の第4の態様によれば、テキスト検出装置を提供し、前記テキスト検出装置は、
認識対象画像内のテキストバーの画像特徴を取得するための第1の取得ユニットと、
前記認識対象画像に対して視覚強調処理を行い、前記認識対象画像の特徴ベクトルを表す特徴マップである前記認識対象画像の強調特徴マップを取得するための第1の強調ユニットと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーのターゲットバウンディングボックスを取得するための第1の照合ユニットと、を含む。
【0010】
本開示の第5の態様によれば、テキスト検出モデルのトレーニング装置を提供し、前記テキスト検出モデルのトレーニング装置は、
サンプル画像内のテキストバーの画像特徴を取得するための第2の取得ユニットと、
前記サンプル画像に対して視覚強調処理を行い、前記サンプル画像の特徴ベクトルを表す特徴マップである強調特徴マップを取得するための第2の強調ユニットと、
前記テキストバーの画像特徴と前記強調特徴マップとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの予測バウンディングボックスを取得するための第2の照合ユニットと、
前記予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングするためのトレーニングユニットと、を含む。
【0011】
本開示の第6の態様によれば、テキスト認識装置を提供し、前記テキスト認識装置は、
認識対象画像を取得するための第3の取得ユニットと、
認識対象画像のバウンディングボックスを取得するための第4の取得ユニットであって、ここで、前記バウンディングボックスには、テキストバーが含まれ、前記バウンディングボックスは、前記第1の態様に記載の方法に基づいて取得され、または、前記バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、前記テキスト検出モデルは、前記第2の態様に記載の方法に基づいてトレーニングして生成される、第4の取得ユニットと、
前記バウンディングボックスに対して認識処理を行い、前記認識対象画像のテキスト内容を取得するための認識ユニットと、を含む。
【0012】
本開示の第7の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されているメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1の様態に記載の方法を実行できるように、または、前記少なくとも1つのプロセッサが第2の様態に記載の方法を実行できるように、または、前記少なくとも1つのプロセッサが第3の様態に記載の方法を実行できるように、前記少なくとも1つのプロセッサにより実行される。
【0013】
本開示の第8の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータで読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第1の様態に記載の方法を実行させるために用いられ、または、前記コンピュータに第2の様態に記載の方法を実行させるために用いられ、または、前記コンピュータに第3の様態に記載の方法を実行させるために用いられる。
【0014】
本開示の第9の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、読み取り可能な記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、前記読み取り可能な記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサは、電子機器が第1の様態に記載の方法を実行するように、または、電子機器が第2の様態に記載の方法を実行するように、または、電子機器が第3の様態に記載の方法を実行するように、前記コンピュータプログラムを実行する。
【0015】
なお、この部分に記載されている内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明を通じて容易に理解される。
【図面の簡単な説明】
【0016】
図面は、本解決手段をよりよく理解するためのものであり、本開示を限定するものではない。
図1】本開示の第1の実施例に係る概略図である。
図2】本開示の第2の実施例に係る概略図である。
図3】本開示の実施例に係る認識対象画像の概略図である。
図4】本開示の第3の実施例に係る概略図である。
図5】本開示の第4の実施例に係る概略図である。
図6】本開示の第5の実施例に係る概略図である。
図7】本開示の第6の実施例に係る概略図である。
図8】本開示の第7の実施例に係る概略図である。
図9】本開示の第8の実施例に係る概略図である。
図10】本開示の第9の実施例に係る概略図である。
図11】本開示の第10の実施例に係る概略図である。
図12】本開示の第11の実施例に係る概略図である。
図13】本開示の第12の実施例に係る概略図である。
図14】本開示の実施例のテキスト検出方法、テキスト検出モデルのトレーニング方法、テキスト認識方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0017】
以下、図面を組み合わせて本開示の例示的な実施例を説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変化と修正を行うことができることを理解することができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0018】
バウンディングボックスとは、画像内のテキストの内容を囲む矩形の枠など多角形の枠である。画像内のテキストを認識するシーンやその他の認識シーンにおいて、通常、まず、認識対象を選択するバウンディングボックスを決定し、次に、バウンディングボックス内の内容を認識することにより、認識結果を取得する必要がある。
【0019】
例えば、テキストを認識するシーンにおいて、まず、バウンディングボックスを決定し、次に、バウンディングボックス内のテキストを認識し、バウンディングボックス内のテキストの内容を取得する。また、信号機を認識するシーンにおいて、まず、バウンディングボックスを決定し、次に、バウンディングボックス内の信号機を認識することにより、赤信号であるか、青信号であるか、または黄信号であるかを決定する。バウンディングボックスの応用シーンは比較的広いため、各シーンでのバウンディングボックスの応用の原理はほぼ同じであり、ここでは一々列挙しない。
【0020】
例示的に、バウンディングボックスを決定する方法は、回帰法とセグメンテーション法の2つの方法がある。
【0021】
回帰法は、通常、ネットワーク構造EAST(an Efficient and Accuracy Scene Text detection pipeline)の直接回帰方式に基づいてバウンディングボックスを取得する。
【0022】
しかし、回帰法を用いてバウンディングボックスを決定する場合、該方法は、ネットワーク構造の受容野能力に制限されやすいため、特に、長いテキストやテキストが汚染されている場合、境界回帰が比較的に不正確になり、テキストバーのバウンディングボックスの検出正確度が低くなる。
【0023】
セグメンテーション法とは、通常、テキスト領域、非テキスト領域、及びテキスト境界カテゴリの閾値を定義し、テキスト領域と非テキスト領域を区別してバウンディングボックスを取得する方法である。
【0024】
しかし、セグメンテーション法を用いてバウンディングボックスを決定する場合、テキストが重なっている場合、テキスト領域は重なっているテキストを効率的に分離することができず、これにより、バウンディングボックスの検出はテキストを正確に区別できないという技術的な課題がある。
【0025】
本開示の発明者は、上記の技術的課題の1つまたは複数を回避するために、創造的な労働を通じて、認識対象画像のテキストバーの画像特徴を決定し、認識対象画像の強調特徴ップ(認識対象画像に対して視覚強調処理を行った後の特徴マップ)を決定し、テキストバーの画像特徴と強調特徴マップに基づいて、強調特徴マップからテキストバーのタバウンディングボックスを決定するという本開示の発明の構想を得る。
【0026】
本開示は、上記の発明の構想に基づいて、検出されたバウンディングボックスの正確度と信頼度を向上させるために、人工知能の技術分野、特にディープラーニング、コンピュータビジョンの技術分野に適用され、光学文字認識などのシーンに適用することができるテキスト検出方法、テキスト認識方法及び装置を提供する。
【0027】
図1は、本開示の第1の実施例に係る概略図である。図1に示すように、本開示の実施例によって提供されるテキスト検出方法は、以下のステップを含む。
【0028】
S101において、認識対象画像内のテキストバーの画像特徴を取得する。
【0029】
例示的に、本実施例の実行主体は、テキスト検出装置(以下、検出装置と称する)であってもよい。検出装置は、サーバ(例えば、ローカルサーバ、又は、クラウドサーバ)であってもよく、コンピュータであってもよく、端末機器であってもよく、プロセッサであってもよく、チップなどであってもよく、本実施例は限定しない。
【0030】
テキストバーはテキスト行とも呼ばれ、認識対象画内のテキストを含む行を指す。テキストバーの画像特徴とは、テキストバーの色、テクスチャ、ピクセル、位置などを表す特徴である。
【0031】
S102において、認識対象画像に対して視覚強調処理を行い、認識対象画像の強調特徴マップを取得する。ここで、強調特徴マップは、認識対象画像の特徴ベクトルを表す特徴マップである。
【0032】
理解されるように、視覚強調処理には様々な方法があり、本実施例は、認識対象画像に対して視覚強調処理を行う具体的な方法を限定しない。強調特徴マップは、比較的に、認識対象画像の特徴(例えば、認識対象画像の色、テクスチャ、ピクセル、位置などの特徴)をより多くの次元から表現することができる。
【0033】
なお、上記のS101とS102の間には優先順位の限定はない。テキストバーの画像特徴を取得してから、強調特徴マップを取得することができ、強調特徴マップを取得してから、テキストバーの画像特徴を取得することもでき、テキストバーの画像特徴と強調特徴マップを同時に取得することもでき、本実施例では限定しない。
【0034】
S103において、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを取得する。
【0035】
上記の分析と組み合わせて、強調特徴マップは、認識対象画像の特徴をより多くの次元から表現することができるため、テキストバーの画像特徴と強調特徴マップとに対して類似度照合を行う場合、類似度照合の正確度と信頼度を向上させることができる。また、類似度照合に基づく操作で強調特徴マップからテキストバーのターゲットバウンディングボックスを決定する場合、決定されたテキストバーのターゲットバウンディングボックスの正確度と信頼度を向上させることができる。
【0036】
上記の分析に基づいて分かるように、本開示の実施例は、テキスト検出方法を提供し、前記テキスト検出方法は、認識対象画像内のテキストバーの画像特徴を取得し、認識対象画像に対して視覚強調処理を行い、認識対象画像の特徴ベクトルを表す特徴マップである強調特徴マップを取得することと、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを取得することと、を含む。本実施例において、テキストバーの画像特徴と強調特徴マップをそれぞれ取得した後、両者を照合(すなわち、類似度照合)し、強調特徴マップからテキストバーのバウンディングボックスを決定するという技術的特徴が導入される。強調特徴マップは、認識対象画像の特徴をより多くの次元から表現するため、決定されたバウンディングボックスの正確度と信頼度を高くすることができる。また、テキストバーの画像特徴と強調特徴マップとの類似度照合によってテキストバーのバウンディングボックスを決定することにより、複数の次元の照合からバウンディングボックスを決定し、バウンディングボックスとテキストバーをマッチしないことを避けることができる。例えば、バウンディングボックスの不正確により、バウンディングボックスに同じ行に属さないテキストバーが同時に含まれるという問題を回避することができ、これにより、バウンディングボックスは、強い関連性と信頼度があるという技術的効果が得られる。
【0037】
図2は、本開示の第2の実施例に係る概略図である。図2に示すように、本開示の実施例によって提供されるテキスト検出方法は、以下のステップを含む。
【0038】
S201において、認識対象画像の画像特徴を取得し、認識対象画像の画像特徴に基づいて、認識対象画像の初期バウンディングボックスを決定する。ここで、初期バウンディングボックスには、テキストバーが含まれる。
【0039】
なお、本実施例において前の実施例と同様の技術的特徴については、本実施例では詳細に説明しない。例えば、本実施例の実行主体、テキストバーの理解、テキストバーの画像特徴の理解など、ここでは一々列挙しない。
【0040】
ここで、認識対象画像は、検出装置に入力された画像であってもよく、認識要求に基づいて検出装置によって収集された画像であってもよく、本実施例では認識対象画像の取得方法を限定しない。
【0041】
例えば、一例として、検出装置は、画像取得装置に接続し、画像取得装置によって送信された認識対象画像を受信ことができる。
【0042】
別の例において、検出装置は、画像をロードするツールを提供することができる。ユーザは、該画像をロードするツールを介して、認識対象画像を検出装置に送信することができる。
【0043】
ここで、画像をロードするツールは、他の記憶機器と接続するためのインタフェースなど、外部機器と接続するためのインタフェースであってもよく、該インタフェースを介して外部機器から送信された認識対象画像を取得する。画像をロードするツールは、表示装置であってもよい。例えば、検出装置は、表示装置に画像をロードする機能のインタフェースを出力することができ、ユーザは該インタフェースを介して認識対象画像を検出装置に導入し、検出装置は導入した認識対象画像を取得することができる。
【0044】
初期バウンディングボックスとターゲットバウンディングボックスは相対的な概念である。初期バウンディングボックスは、検出装置によって取得された認識対象画像の大抵、大体のバウンディングボックスと理解することができる。すなわち、初期バウンディングボックスの正確度が低い、例えば、初期バウンディングボックス内のテキストバーは、異なる行のテキストバーである。初期バウンディングボックスに対して、ターゲットバウンディングボックスは比較的に正確でなり、テキストバーの選択がより信頼度がある。
【0045】
本実施例において、認識対象画像の画像特徴を取得する実現方法については限定されず、例えば、関連技術におけるネットワーク構造によって実現することができ、例えば、畳み込みニューラルネットワーク(例えば、VGG、DenseNet)構造に基づいて実現してもよく、残差ニューラルネットワーク(ResNet)構造に基づいて実現してもよく、Vision Transformerネットワーク構造に基づいて実現してもよく、ここでは一々列挙はしない。
【0046】
同様に、本実施例では、初期バウンディングボックスを取得する方法についても限定されず、例えば、ターゲット位置検出(Region-based)ネットワーク構造、具体的には、ターゲット位置検出畳み込み型ニューラルネットワーク(Faster-RCNN)構造などのネットワーク構造によって実現することができる。ここでは一々列挙はしない。
【0047】
S202において、認識対象画像の画像特徴に基づいて、初期バウンディングボックス内のテキストバーの画像特徴を取得する。
【0048】
初期バウンディングボックスの数は複数であってもよく、テキストバーの数も複数であってもよく、一般的に、初期バウンディングボックスの数はテキストバーの数と同じである。しかし、上記の分析と組み合わせると、初期バウンディングボックスは大抵、大体のバウンディングボックスであるため、初期バウンディングボックスには複数のテキストバーが同時に含まれる可能性がある。
【0049】
認識対象画像は領収書である場合、テキストバーの数については、図3を参照することができる。図3に示すように、領収書には、領収書コードX、領収書番号XX、納税者XXX、納税者認識番号XXXXが含まれ、それに応じて、テキストバーの数は4である。
【0050】
各テキストバーに対して、認識対象画像の画像特徴に基づいて、各テキストバーの画像特徴を取得する。
【0051】
いくつかの実施例において、ターゲット検出(ROI pooling)方法に基づいて、テキストバーの特徴を抽出することにより、テキストバーの画像特徴を取得することができる。
【0052】
ここで、テキストバーの画像特徴とは、テキストバーの中心ピクセル点の特徴であってもよく、テキストバー内の各ピクセル点の特徴の平均的な特徴であってもよく、テキストバー内の各ピクセル点のピクセル平均値であってもよい。
【0053】
理解されるように、上記は、認識対象画像は領収書であることを例として、テキストバーの数を例示的に説明したものであり、テキストバーの数の限定や認識対象画像の限定として理解することができない。
【0054】
ここで、認識対象画像は、テキストを含む様々な画像とすることができる。例えば、認識対象の画像は、本やテスト用紙の画像などの教育業界の画像であってもよく、また、認識対象の画像は、伝票の画像などの金融業界の画像であってもよく、また、認識対象の画像は、診療録の画像などの医療業界の画像であってもよく、また、認識対象の画像は、交通業界や保険業界などの画像であってもよく、ここでは一々列挙しない。
【0055】
S203において、認識対象画像に対して視覚強調処理を行い、認識対象画像の強調特徴マップを取得する。ここで、強調特徴マップは、認識対象画像の特徴ベクトルを表す特徴マップである。
【0056】
ここで、テキストバーの画像特徴を取得することと、強調特徴マップを取得することとの間には必然的な優先順位関係はなく、テキストバーの画像特徴を先に取得してもよく、強調特徴マップを先に取得してもよく、テキストバーの画像特徴と強調特徴マップを同時に取得してもよい。
【0057】
いくつかの実施例において、視覚強調処理は、認識対象画像の画像特徴に基づいて実現することができる。
【0058】
同様に、ネットワーク構造に基づいて強調特徴マップを取得することもできる。例えば、特徴ピラミッド(FPN)ネットワーク構造によって実現してもよく、ディープスーパービジョン(U-Net)ネットワーク構造によって実現してもよく、ここでは一々列挙しない。
【0059】
S204において、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上の前記テキストバーの応答領域を決定する。ここで、応答領域は、強調特徴マップ上のテキストバーの位置領域を表す。
【0060】
例示的に、類似度照合は、特徴的な類似度の照合、すなわち、テキストバーの画像特徴と強調特徴マップとの特徴的な類似度の照合であり、両者の特徴的な類似度を決定する。
【0061】
上記の分析に基づいて、テキストバーの数は複数であってもよい。テキストバーの数が複数である場合、複数のテキストバー内の各テキストバーに対して、該テキストバーの画像特徴と強調特徴マップとの類似度を照合し、強調特徴マップ上の該テキストバーの対応する位置領域(該位置領域は応答領域と称し、いくつかの実施例において、応答領域をハイライト表示してもよい)を決定する。位置領域は、ピクセル単位の1つの位置領域などの1つの位置領域であってもよく、複数の位置領域あってもよい。一般的には、複数の位置領域である。
【0062】
いくつかの実施例において、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップは、ピクセル点の特徴ベクトルを含む。S204は、テキストバー内のピクセル点の画像特徴と、強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、前記強調特徴マップ上の前記テキストバーの応答領域を取得することを含むことができる。
【0063】
例えば、テキストバー内のピクセル点の画像特徴はN*Dで表され、強調特徴マップ内のピクセル点の特徴ベクトルは{H*W}*Dで表される。ここで、Nはテキストバーの数、Hは認識対象画像の高さ、Wは認識対象画像の幅、Dは特徴ベクトル次元である。
【0064】
テキストバー内のピクセル点の画像特徴N*Dと、強調特徴マップ内のピクセル点の特徴ベクトル{H*W}*Dとを類似度照合することにより、N個のテキストバーの各テキストバーの強調特徴マップ上の応答領域を決定することができる。両者を比較することにより、混入した他のテキストバーのピクセル点の欠点を除去し、関連技術におけるバウンディングボックスに重複なテキストを含む欠点を回避し、応答領域に基づいて決定されたターゲットバウンディングボックスの正確度と信頼度を向上させるという技術的効果を実現することができる。
【0065】
S205において、強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを決定する。
【0066】
なお、本実施例において、類似度照合は、テキストバーの画像特徴と強調特徴マップに基づいて実現され、かつ応答領域は、強調特徴マップ上で決定される。強調特徴マップは、認識対象画像を特徴づける特徴が多いため、最初のバウンディングボックスに対して、決定されたターゲットバウンディングボックスは、認識対象画像のより豊富な特徴に基づいて決定されることにより、テキストバーをより正確に選択することができ、各ターゲットバウンディングボックスのそれぞれの選択されたテキストバーの間に重複があるという欠点を回避し、重複テキストの検出問題を回避し、ターゲットバウンディングボックスの正確度と信頼度をより向上させるという技術的効果を有する。
【0067】
図4は、本開示の第3の実施例に係る概略図である。図4に示すように、本開示の実施例によって提供されるテキスト検出方法は、以下のステップを含む。
【0068】
S401において、認識対象画像内のテキストバーの画像特徴を取得し、認識対象画像に対して視覚強調処理を行い、認識対象画像の強調特徴マップを取得する。ここで、強調特徴マップは、認識対象画像の特徴ベクトルを表す特徴マップである。
【0069】
同様に、本実施例において、上記実施例と同様の技術的特徴については、本実施例では具体的に詳細に説明しない。
【0070】
また、S401の実現原理については、第1の実施例を参照してもよく、第2の実施例を参照してもよく、ここでは説明しない。
【0071】
S402において、テキストバー内のピクセル点に対して、テキストバー内のピクセル点の画像特徴と、テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得する。
【0072】
ここで、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップには、ピクセル点の特徴ベクトルが含まれる。
【0073】
S403において、類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を決定する。
【0074】
本実施例は、テキストバーは複数のピクセル点を含み、複数のピクセル点の各ピクセル点に対して、テキストバーにおける該ピクセル点の画像特徴(すなわち、テキストバーにおける該ピクセル点の画像特徴)と、強調特徴マップにおける該ピクセル点の特徴ベクトルとを決定し、両者を類似度照合することにより、テキストバーにおける該ピクセル点の画像特徴と、強調特徴マップにおける該ピクセル点の特徴ベクトルとの類似度を取得し、類推により、テキストバー内の各ピクセルに対応する類似度を取得し、各類似度に基づいてテキストバーの応答領域を決定すると理解することができる。
【0075】
例えば、ピクセル点Aに対して、テキストバーにおけるピクセル点Aの画像特徴A1と、強調特徴マップにおけるピクセル点Aの特徴ベクトルA2を決定し、A1とA2を類似度照合し、対応する類似度を取得する。
【0076】
なお、本実施例において、ピクセル点に基づいて、ピクセル点に対応するテキストバー内の画像特徴、及びピクセル点に対応する強調特徴マップ内の特徴ベクトルの類似度を決定することにより、テキストバーの応答領域を取得し、類似度照合の関連性を実現することができ、これにより、類似度照合の正確度と効率を向上させ、さらに、ターゲットバウンディングボックスを決定する信頼度と効率を向上させるという技術的効果を有する。
【0077】
いくつかの実施例において、S403は、以下のステップを含むことができる。
【0078】
第1のステップにおいて、類似度に基づいて、強調特徴マップから、類似度が予め設定された類似度閾値より大きいピクセル点を決定する。
【0079】
第2のステップにおいて、決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、強調特徴マップ上のテキストバーの応答領域を決定する。
【0080】
例示的に、上記の分析と組み合わせて、テキストバー内のピクセル点の数が複数である場合、複数のピクセル点のうち、各ピクセル点のテキストバー内の画像特徴とそれの強調特徴マップ内の特徴ベクトルとの類似度を決定し、すなわち各ピクセル点にそれぞれ対応する類似度を取得する。
【0081】
なお、本実施例において、各類似度が類似度閾値より大きいか否かを判断するなど、各類似度をそれぞれ類似度閾値と照合することにより、ある類似度が類似度閾値より大きい場合、該類似度に対応するピクセル点は、テキストバー内の有効なテキスト(有効なテキストとは、本テキストバーに属するテキストの内容、すなわち、他のテキストバー内のテキストの内容が混入されていないテキスト)のピクセル点であることを示し、該ピクセル点は、ターゲットバウンディングボックス内の有効なテキスト部分である。それに応じて、各類似度から類似度閾値より大きい類似度を決定し、類似度閾値より大きい決定された類似度に対応するピクセル点によってテキストバーの応答領域を決定することにより、テキストバーの応答領域を有効な応答領域、すなわち、他のテキストバーが混入されていないテキストの応答領域とすることができる。さらに、該テキストバーの応答領域に基づいてターゲットバウンディングボックスを決定する場合、ターゲットバウンディングボックス内のテキストは、いずれも有効なテキストとすることができ、これにより、ターゲットバウンディングボックスの正確度及び信頼度を向上させるという技術的効果を有する。
【0082】
ここで、類似度閾値は、ニーズ、履歴記録、試験などの方式に基づいて設定することができ、本実施例は限定しない。
【0083】
例えば、ターゲットバウンディングボックスに対する信頼度要求に基づいて類似度閾値を決定する場合、ターゲットバウンディングボックスに対する信頼度要求が比較的に高い応用シーンに対して、類似度閾値を比較的に大きな値に設定することができる。一方、ターゲットバウンディングボックスに対する信頼度要求が比較的に低い応用シーンに対して、類似度閾値を比較的に小さい値に設定することができる。
【0084】
いくつかの実施例において、ピクセル点は位置属性を有し、第2のステップは、決定された類似度が予め設定された類似度閾値より大きいピクセル点の強調特徴マップにおける位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定することを含むことができる。
【0085】
ここで、位置属性は、座標、すなわち、強調特徴マップにおけるピクセル点の座標とすることができる。座標によってテキストバーの応答領域を決定する。
【0086】
それに応じて、テキストバーの応答領域に基づいてテキストバーのターゲットバウンディングボックスを決定する場合、テキストバーの応答領域に対して画像連結領域処理を行い、テキストバーのターゲットバウンディングボックスを生成することができる。
【0087】
なお、本実施例において、テキストバーの応答領域を決定した後、強調特徴マップからテキストバーの正確なアウトライン、すなわちテキストバーのターゲットバウンディングボックスを抽出し、これにより、テキストバーのターゲットバウンディングボックスをテキストバーと非常に一致させ、テキストバーのテキストに浮いている非有効なテキスト(例えば、図3におけるテキストバーのテキストに浮いているスタンプ、図示せず)を除去し、ターゲットバウンディングボックスの正確度、信頼度、有効性を向上させるという技術的効果を有する。
【0088】
S404において、強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを決定する。
【0089】
図5は、本開示の第4の実施例に係る概略図である。図5に示すように、本開示の実施例によって提供されるテキスト検出方法は、以下のステップを含む。
【0090】
S501において、認識対象画像内のテキストバーの画像特徴を取得し、認識対象画像に対して視覚強調処理を行い、認識対象画像の強調特徴マップを取得する。ここで、強調特徴マップは、認識対象画像の特徴ベクトルを表す特徴マップである。
【0091】
同様に、本実施例において、上記実施例と同様の技術的特徴については、本実施例では具体的に詳細に説明しない。
【0092】
なお、S501の実現原理については、第1の実施例を参照してもよく、第2の実施例を参照してもよく、ここでは説明を省略する。
【0093】
S502において、テキストバー内の任意のピクセル点に対して、任意のピクセル点の画像特徴と、強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得する。
【0094】
ここで、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップには、ピクセル点の特徴ベクトルが含まれる。
【0095】
S503において、各類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成する。
【0096】
本実施例は、テキストバーは複数のピクセル点を含み、複数のピクセル点の各ピクセル点に対して、テキストバーにおける該ピクセル点の画像特徴(すなわち、テキストバーにおける該ピクセル点の画像特徴)と、強調特徴マップにおける各ピクセル点の特徴ベクトルとを決定し、テキストバーにおける該ピクセル点の画像特徴と、強調特徴マップにおける各ピクセル点の特徴ベクトルとをそれぞれ類似度照合することにより、該ピクセル点の各類似度を取得し、類推により、テキストバー内の各ピクセル点に対応する類似度を取得し、各類似度に基づいてテキストバーの応答領域を決定すると理解することができる。
【0097】
例えば、ピクセル点A1に対して、テキストバーにおけるピクセル点A1の画像特徴T1を決定し、画像特徴T1と、強調特徴マップにおける各特徴ベクトルとの類似度照合を行い、これにより、対応する複数の類似度を取得する。
【0098】
例えば、強調特徴画像内の特徴ベクトルの数がB個である場合、画像特徴T1とB個の特徴ベクトルの各特徴ベクトルとの類似度照合を行い、これにより、B個の類似度を取得する。
【0099】
上記の第4の実施例から分かるように、第4の実施例では、ピクセル点に基づいて1対1の類似性照合を行う。なお、本実施例では、1対多の類似度照合を行う。同様に、本実施例の方式で類似度照合を行うことにより、類似度照合の正確度と効率を向上させ、さらにターゲットバウンディングボックスの信頼度と効率を向上させるという技術的効果を有する。
【0100】
そして、第4の実施例で説明した方式、または本実施例の方式に基づいて類似度照合を行うことにより、類似度照合の柔軟性と多様性の技術的効果を実現させる。
【0101】
いくつかの実施例において、S503は、以下のステップを含むことができる。
【0102】
第1のステップにおいて、各類似度から、予め設定された類似度閾値より大きい類似度を決定し、予め設定類似度閾値より大きい類似度から、対応するテキストバー内のピクセル点と、特徴ベクトルのテキストバー内のピクセル点と同じピクセル点の類似度を決定する。
【0103】
第2のステップにおいて、同じピクセル点の類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成する。
【0104】
例えば、上記の例と組み合わせて、画像特徴T1に対して、B個の類似度を算出し、B個の類似度から、類似度閾値より大きい類似度を決定し、該類似度から強調特徴マップ内のピクセル点A1の類似度を決定し、該類似度と組み合わせてテキストバーの応答領域を決定する。
【0105】
同様に、本実施例の方法により、テキストバーの応答領域を有効な応答領域、すなわち、他のテキストバーが混入されていないテキストの応答領域とすることができる。さらに、該テキストバーの応答領域に基づいてターゲットバウンディングボックスを決定する場合、ターゲットバウンディングボックス内のテキストは、いずれも有効なテキストとすることができ、これにより、ターゲットバウンディングボックスの正確度及び信頼度を向上させるという技術的効果を有する。
【0106】
いくつかの実施例において、ピクセル点は位置属性を有し、第2のステップは、強調特徴マップにおける同じピクセル点の位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定することを含むことができる。
【0107】
それに応じて、テキストバーの応答領域に基づいてテキストバーのターゲットバウンディングボックスを決定する場合、テキストバーの応答領域に対して画像連結領域処理を行い、テキストバーのターゲットバウンディングボックスを生成することができる。
【0108】
なお、本実施例において、テキストバーの応答領域を決定した後、強調特徴マップからテキストバーの正確なアウトライン、すなわちテキストバーのターゲットバウンディングボックスを抽出し、これにより、テキストバーのターゲットバウンディングボックスをテキストバーと非常に一致させ、テキストバーのテキストに浮いている非有効なテキストを除去し、ターゲットバウンディングボックスの正確度、信頼度、有効性を向上させるという技術的効果を有する。
【0109】
S504において、強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを決定する。
【0110】
図6は、本開示の第5の実施例に係る概略図である。図6に示すように、本開示の実施例によって提供されるテキスト検出モデルのトレーニング方法は、以下のステップを含む。
【0111】
S601において、サンプル画像内のテキストバーの画像特徴を取得し、サンプル画像に対して視覚強調処理を行い、サンプル画像の強調特徴マップを取得する。ここで、強調特徴マップは、サンプル画像の特徴ベクトルを表す特徴マップである。
【0112】
本実施例の実行主体は、テキスト検出モデルのトレーニング装置(以下、トレーニング装置と称する)であってもよい。トレーニング装置は、上記実施例における検出装置と同じ装置であってもよく、異なる装置であってもよく、本実施例は限定しない。
【0113】
S602において、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーの予測バウンディングボックスを取得する。
【0114】
例示的に、本実施例において、予測バウンディングボックスを取得する実現原理については、前述の実施例におけるターゲットバウンディングボックスを取得する実現原理を参照することができ、本実施例では説明を省略する。
【0115】
いくつかの実施例において、S602は、以下のステップを含むことができる。
【0116】
第1のステップにおいて、テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上の前記テキストバーの応答領域を決定する。応答領域は、強調特徴マップ上のテキストバーの位置領域を表す。
【0117】
いくつかの実施例において、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップには、ピクセル点の特徴ベクトルが含まれる。第1のステップは、テキストバー内のピクセル点の画像特徴と、強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、強調特徴マップ上のテキストバーの応答領域を取得することを含むことができる。
【0118】
一例において、テキストバー内のピクセル点に対して、テキストバー内のピクセル点の画像特徴と、テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得する。類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を決定する。
【0119】
例えば、類似度に基づいて、強調特徴マップから類似度が予め設定された類似度閾値より大きいピクセル点を決定し、決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、強調特徴マップ上の前記テキストバーの応答領域を決定する。
【0120】
ここで、ピクセル点は位置属性を有し、決定された類似度が予め設定された類似度閾値より大きいピクセル点の強調特徴マップにおける位置属性に基づいて、強調特徴マップ上の前記テキストバーの応答領域を決定することができる。
【0121】
それに応じて、テキストバーの応答領域に対して画像連結領域処理を行い、テキストバーのターゲットバウンディングボックスを生成することができる。
【0122】
他の例において、テキストバー内の任意のピクセル点に対して、任意のピクセル点の画像特徴と、強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得し、各類似度に基づいて、強調特徴マップ上の前記テキストバーの応答領域を生成する。
【0123】
例えば、各類似度から、予め設定された類似度閾値より大きい類似度を決定し、予め設定類似度閾値より大きい類似度から、対応するテキストバー内のピクセル点と、特徴ベクトルのテキストバー内のピクセル点と同じピクセル点の類似度を決定し、同じピクセル点の類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成する。
【0124】
ここで、ピクセル点は位置属性を有する。強調特徴マップにおける同じピクセル点の位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定することができる。
【0125】
それに応じて、テキストバーの応答領域に対して画像連結領域処理を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを生成することができる。
【0126】
第2のステップにおいて、強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーの予測バウンディングボックスを決定する。
【0127】
S603において、予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングする。
【0128】
例示的に、上記の分析と組み合わせて、各ネットワーク構造に基づいて予測バウンディングボックスを取得することができ、それに応じて、予測バウンディングボックスに基づいてネットワーク構造をトレーニングし、ネットワーク構造のパラメータを調整して、テキスト検出モデルを取得することができる。
【0129】
図7は、本開示の第6の実施例に係る概略図である。図7に示すように、本開示の実施例によって提供されるテキスト認識方法は、以下のステップを含む。
【0130】
S701において、認識対象画像を取得し、認識対象画像のバウンディングボックスを取得する。ここで、バウンディングボックスには、テキストバーが含まれ、バウンディングボックスは、第1~第4の実施例に記載の方法に基づいて取得され、または、バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、テキスト検出モデルは、第5の実施例に記載の方法に基づいてトレーニングして生成される。
【0131】
S702において、バウンディングボックスに対して認識処理を行い、認識対象画像のテキスト内容を取得する。
【0132】
上記の分析に基づいて、決定されたバウンディングボックスは高い正確度と信頼度を有するため、バウンディングボックスに対して認識処理を行う場合、認識の柔軟性と正確度の技術的効果を高めることができる。
【0133】
図8は、本開示の第7の実施例に係る概略図である。図8に示すように、本開示の実施例によって提供されるテキスト検出装置800は、
認識対象画像内のテキストバーの画像特徴を取得するための第1の取得ユニット801と、
認識対象画像に対して視覚強調処理を行い、認識対象画像の特徴ベクトルを表す特徴マップである認識対象画像の強調特徴マップを取得するための第1の強調ユニット802と、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを取得するための第1の照合ユニット803と、を含む。
【0134】
図9は、本開示の第8の実施例に係る概略図である。図9に示すように、本開示の実施例によって提供されるテキスト検出装置900は、
認識対象画像内のテキストバーの画像特徴を取得するための第1の取得ユニット901と、
認識対象画像に対して視覚強調処理を行い、認識対象画像の特徴ベクトルを表す特徴マップである認識対象画像の強調特徴マップを取得するための第1の強調ユニット902と、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを取得するための第1の照合ユニット903と、を含む。
【0135】
図9を参照して、いくつかの実施例において、第1の取得ユニット901は、
認識対象画像の画像特徴を取得するための第1の取得サブユニット9011と、
認識対象画像の画像特徴に基づいて、テキストバーを含む認識対象画像の初期バウンディングボックスを決定するための第2の決定サブユニット9012と、
を含む。
【0136】
図9を参照して、いくつかの実施例において、第1の照合ユニット903は、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーの応答領域を決定するための第1の照合サブユニット9031であって、応答領域は、強調特徴マップ上のテキストバーの位置領域を表す、第1の照合サブユニット9031と、
強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを決定するための第1の決定サブユニット9032と、を含む。
【0137】
いくつかの実施例において、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップには、ピクセル点の特徴ベクトルが含まれる。第1の照合サブユニット9031は、テキストバー内のピクセル点の画像特徴と、強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、強調特徴マップ上のテキストバーの応答領域を取得するためにも用いられる。
【0138】
いくつかの実施例において、第1の照合サブユニット9031は、
テキストバー内のピクセル点に対して、テキストバー内のピクセル点の画像特徴と、テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得するための第1の照合モジュールと、
類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するための第1の決定モジュールと、を含む。
【0139】
いくつかの実施例において、第1の決定モジュールは、
類似度に基づいて、強調特徴マップから、類似度が予め設定された類似度閾値より大きいピクセル点を決定するための第1の決定サブモジュールと、
決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するための第2の決定サブモジュールと、を含む。
【0140】
いくつかの実施例において、ピクセル点は位置属性を有し、第2の決定サブモジュールは、決定された類似度が予め設定された類似度閾値より大きいピクセル点の強調特徴マップにおける位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するために用いられる。
【0141】
そして、第1の決定サブユニット9032は、テキストバーの応答領域に対して画像連結領域処理を行い、テキストバーのターゲットバウンディングボックスを生成するためにも用いられる。
【0142】
他の実施例において、第1の照合サブユニット9031は、
テキストバー内の任意のピクセル点に対して、任意のピクセル点の画像特徴と、強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得するための第2の照合モジュールと、
各類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成するための第1の生成モジュールと、を含む。
【0143】
いくつかの実施例において、第1の生成モジュールは、
各類似度から、予め設定された類似度閾値より大きい類似度を決定するための第3の決定サブモジュールと、
予め設定類似度閾値より大きい類似度から、対応するテキストバー内のピクセル点と、特徴ベクトルのテキストバー内のピクセル点と同じピクセル点の類似度を決定するための第4の決定サブモジュールと、
同じピクセル点の類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成するための第1の生成サブモジュールと、を含む。
【0144】
いくつかの実施例において、ピクセル点は位置属性を有し、第1の生成サブモジュールは、強調特徴マップにおける同じピクセル点の位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するために用いられる。
そして、第1の決定サブユニット9032は、テキストバーの応答領域に対して画像連結領域処理を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを生成するために用いられる。
【0145】
図10は、本開示の第9の実施例に係る概略図である。図10に示すように、本開示の実施例によって提供されるテキスト検出モデルのトレーニング装置1000は、
サンプル画像内のテキストバーの画像特徴を取得するための第2の取得ユニット1001と、
サンプル画像に対して視覚強調処理を行い、サンプル画像の特徴ベクトルを表す特徴マップであるサンプル画像の強調特徴マップを取得するための第2の強調ユニット1002と、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーの予測バウンディングボックスを取得するための第2の照合ユニット1003と、
予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングするためのトレーニングユニット1004と、を含む。
【0146】
図11は、本開示の第10の実施例に係る概略図である。図11に示すように、本開示の実施例によって提供されるテキスト検出モデルのトレーニング装置1100は、
サンプル画像内の画像特徴を取得するための第2の取得ユニット1101と、
サンプル画像に対して視覚強調処理を行い、サンプル画像の特徴ベクトルを表す特徴マップであるサンプル画像の強調特徴マップを取得するための第2の強調ユニット1102と、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーの予測バウンディングボックスを取得するための第2の照合ユニット1103と、を含む。
【0147】
図11を参照して、いくつかの実施例において、第2の照合ユニット1103は、
テキストバーの画像特徴と強調特徴マップとの類似度照合を行い、強調特徴マップ上のテキストバーの応答領域を決定するための第2の照合サブユニット11031であって、応答領域は、強調特徴マップ上のテキストバーの位置領域を表す、第2の照合サブユニット11031と、
強調特徴マップ上のテキストバーの応答領域に基づいて、強調特徴マップ上のテキストバーの予測バウンディングボックスを決定するための第3の決定サブユニット11032と、を含む。
【0148】
いくつかの実施例において、テキストバーの画像特徴は、テキストバー内のピクセル点の画像特徴を含む。強調特徴マップには、ピクセル点の特徴ベクトルが含まれる。第2の照合サブユニット11031は、テキストバー内のピクセル点の画像特徴と、強調特徴マップ内のピクセル点の特徴ベクトルとの類似度照合を行い、強調特徴マップ上のテキストバーの応答領域を取得するために用いられる。
【0149】
いくつかの実施例において、第2の照合サブユニット11031は、
テキストバー内のピクセル点に対して、テキストバー内のピクセル点の画像特徴と、テキストバー内のピクセル点に対応する強調特徴マップの特徴ベクトルとの類似度照合を行い、類似度を取得するための第3の照合モジュールと、
類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するための第2の決定モジュールと、を含む。
【0150】
いくつかの実施例において、第2の決定モジュールは、
類似度に基づいて、強調特徴マップから、類似度が予め設定された類似度閾値より大きいピクセル点を決定するための第5の決定サブモジュールと、
決定された類似度が予め設定された類似度閾値より大きいピクセル点に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するための第6の決定サブモジュールと、を含む。
【0151】
いくつかの実施例において、ピクセル点は位置属性を有し、第6の決定サブモジュールは、決定された類似度が予め設定された類似度閾値より大きいピクセル点の強調特徴マップにおける位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するために用いられる。
【0152】
それに応じて、第3の決定サブユニット11032は、テキストバーの応答領域に対して画像連結領域処理を行い、テキストバーのターゲットバウンディングボックスを生成するために用いられる。
【0153】
いくつかの実施例において、第2の照合サブユニット11031は、
テキストバー内の任意のピクセル点に対して、任意のピクセル点の画像特徴と、強調特徴マップ内の各ピクセル点の特徴ベクトルとの類似度照合をそれぞれ行い、各類似度を取得するための第4の照合モジュールと、
各類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成するための第2の生成モジュールと、を含む。
【0154】
いくつかの実施例において、第2の生成モジュールは、
各類似度から、予め設定された類似度閾値より大きい類似度を決定するための第7の決定サブモジュールと、
予め設定類似度閾値より大きい類似度から、対応するテキストバー内のピクセル点と、特徴ベクトルのテキストバー内のピクセル点と同じピクセル点の類似度を決定するための第8の決定サブモジュールと、
同じピクセル点の類似度に基づいて、強調特徴マップ上のテキストバーの応答領域を生成するための第2の生成サブモジュールと、
を含む。
【0155】
いくつかの実施例において、ピクセル点は位置属性を有し、第2の生成サブモジュールは、強調特徴マップにおける同じピクセル点の位置属性に基づいて、強調特徴マップ上のテキストバーの応答領域を決定するために用いられる。
【0156】
それに応じて、第3の決定サブユニット11032は、テキストバーの応答領域に対して画像連結領域処理を行い、強調特徴マップ上のテキストバーのターゲットバウンディングボックスを生成するために用いられる。
【0157】
トレーニングユニット1104は、予測バウンディングボックスに基づいて、認識対象画像のターゲットバウンディングボックスを取得するためのテキスト検出モデルをトレーニングするために用いられる。
【0158】
図12は、本開示の第11の実施例に係る概略図である。図12に示すように、本開示の実施例によって提供されるテキスト認識装置1200は、
認識対象画像を取得するための第3の取得ユニット1201と、
認識対象画像のバウンディングボックスを取得するための第4の取得ユニット1202であって、ここで、バウンディングボックスには、テキストバーが含まれ、バウンディングボックスは、上記テキスト検出方法の実施例に記載の方法に基づいて取得され、または、バウンディングボックスは、予め設定されたテキスト検出モデルに基づいて取得され、テキスト検出モデルは、上記テキスト検出モデルのトレーニング方法の実施例に記載の方法に基づいてトレーニングして生成される、第4の取得ユニット1202と、
バウンディングボックスに対して認識処理を行い、認識対象画像のテキスト内容を取得するための認識ユニット1203と、を含む。
【0159】
図13は、本開示の第12の実施例に係る概略図である。図13に示すように、本開示における電子機器1300は、プロセッサ1301とメモリ1302と、を含む。
【0160】
メモリ1302は、プログラムを記憶するために用いられる。メモリ1302は、ランダムアクセスメモリ(random-access memory、RAM)などの揮発性メモリ(volatile memory)を含むことができる。例えば、スタティックランダムアクセスメモリ(英語:static random-access memory、SRAM)、ダブルデータレート同期ダイナミックランダムアクセスメモリ(Double Data Rate Synchronous Dynamic Random Access Memory,DDR SDRAM)が挙げられる。メモリは、フラッシュメモリ(flash memory)などの不揮発性メモリ(non-volatile memory)を含めることもできる。メモリ1302は、コンピュータプログラム(例えば、上記の方法を実現するアプリケーションプログラム、機能モジュールなど)、コンピュータ命令などを記憶するために用いられ、上記のコンピュータプログラム、コンピュータ命令などは、1つまたは複数のメモリ1302に分割して記憶することができる。また、上記のコンピュータプログラム、コンピュータ命令、データなどは、プロセッサ1301によって呼び出されることができる。
【0161】
プロセッサ1301は、メモリ1302に記憶されたコンピュータプログラムを実行し、上記の実施例に係る方法の各ステップを実現させる。
【0162】
具体的には、前述の方法実施例における関連する説明を参照することができる。
【0163】
プロセッサ1301とメモリ1302は、独立した構造であってもよく、一体に集積された集積構造であってもよい。プロセッサ1301とメモリ1302は独立した構造である場合、メモリ1302、プロセッサ1301はバス1303を介して結合接続されてもよい。
【0164】
本実施例における電子機器は、上記の方法における技術的解決手段を実行することができ、具体的な実現プロセス及び技術原理は同様であり、ここでは説明を省略する。
【0165】
本開示に係る技術的解決手段において、関連するユーザーの個人情報の収集や、保存、使用、加工、伝送、提供及び公開などの処理は、いずれも関連する法律および規制に準拠しており、公序良俗にも違反しない。
【0166】
本開示の実施例によれば、本開示は電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
【0167】
本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムは、読み取り可能な記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、読み取り可能な記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサは、電子機器が上記任意の実施例によって提供される手段を実行するように、コンピュータプログラムを実行する。
【0168】
図14は、本開示の実施例を実現するための電子機器1400の概略ブロック図である。
電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表す。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実施を制限することを意図したものではない。
【0169】
図14に示すように、電子機器1400は、計算ユニット1401を含み、当該計算ユニット1401は、読み取り専用メモリ(ROM)1402に記憶されたコンピュータプログラム、または、記憶ユニット1408からランダムアクセスメモリ(RAM)1403にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。RAM1403には、さらに、電子機器1400の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット1401、ROM1402及びRAM1403は、バス1404を介して互いに接続される。入力/出力(I/O)インタフェース1405も、バス1404に接続される。
【0170】
キーボードやマウスなどの入力ユニット1406と、さまざまなタイプのモニタやスピーカーなどの出力ユニット1407と、磁気ディスクや光ディスクなどの記憶ユニット1408と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット1409と、を含む、電子機器1400における複数のコンポーネントは、I/Oインタフェース1405に接続される。通信ユニット1409は、電子機器1400がインターネットなどのコンピュータネットワーク及び/又はさまざまな電気通信ネットワークを介して他の機器と情報/データを交換することを可能にさせる。
【0171】
計算ユニット1401は、処理能力や計算能力を有するさまざまな汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット1401のいくつかの例は、中央処理ユニット(CPU)、グラフィックスプロセッシングユニット(GPU)、さまざまな専用な人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット1401は、テキスト検出方法、テキスト検出モデルのトレーニング方法、テキスト認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例では、テキスト検出方法、テキスト検出モデルのトレーニング方法、及びテキスト認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット1408などの機械読み取り可能な媒体に有形的に含まれている。いくつかの実施例では、コンピュータプログラムの一部またはすべては、ROM1402及び/又は通信ユニット1409を介して電子機器1400にロード及び/又はインストールされることができる。コンピュータプログラムは、RAM1403にロードされて計算ユニット1401により実行されると、上記に記載のテキスト検出方法、テキスト検出モデルのトレーニング方法、テキスト認識方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット1401は、他の任意の適当な手段(例えば、ファームウェアに頼る)を用いてテキスト検出方法、テキスト検出モデルのトレーニング方法、テキスト認識方法を実行するように構成されることができる。
【0172】
本明細書において、上記に記載のシステム及び技術のさまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップのシステム(SOC)、複雑なプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、1つ又は複数のコンピュータプログラムに実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
【0173】
本開示に係る方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び/又はブロック図に示される機能/操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。
【0174】
本開示のコンテキストでは、機械読み取り可能な媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械読み取り可能な記憶媒体のより具体的な例として、1つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。
【0175】
ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0176】
本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、或いは、ミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、或いは、フロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例示は、ローカルネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
【0177】
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びVPS(「VirtuaL Private Server」、又は「VPS」と略称)サービスに存在する管理が難しく、サービスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバであるか、またはブロックチェーンと組み合わせたサーバであってもよい。
【0178】
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
【0179】
上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14