IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7124153テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品
<>
  • 特許-テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 図1
  • 特許-テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 図2
  • 特許-テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 図3
  • 特許-テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 図4
  • 特許-テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 図5
  • 特許-テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 図6
  • 特許-テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 図7
  • 特許-テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 図8
  • 特許-テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-15
(45)【発行日】2022-08-23
(54)【発明の名称】テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220816BHJP
   G06N 20/00 20190101ALI20220816BHJP
   G06V 30/14 20220101ALI20220816BHJP
【FI】
G06T7/00 350B
G06N20/00 130
G06V30/14 340J
【請求項の数】 15
(21)【出願番号】P 2021043037
(22)【出願日】2021-03-17
(65)【公開番号】P2021103545
(43)【公開日】2021-07-15
【審査請求日】2021-03-17
(31)【優先権主張番号】202010349150.9
(32)【優先日】2020-04-28
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100163050
【弁理士】
【氏名又は名称】小栗 眞由美
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】劉 珊珊
(72)【発明者】
【氏名】章 成全
(72)【発明者】
【氏名】李 軒
(72)【発明者】
【氏名】恩 孟一
(72)【発明者】
【氏名】許 海倫
(72)【発明者】
【氏名】張 曉強
【審査官】佐藤 実
(56)【参考文献】
【文献】米国特許出願公開第2016/0210507(US,A1)
【文献】Wei Feng et al.,TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting,2019 IEEE/CVF International Conference on Computer Vision (ICCV),IEEE,2019年10月27日,pp.9075-9084,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9009034
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 20/00
G06V 30/14
(57)【特許請求の範囲】
【請求項1】
文字盤の画像を取得することと、
前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出することと、
前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識することと、
を含み、
前記文字盤の画像内の少なくとも1本のテキスト中心線を検出することが、畳み込み層より前記文字盤の画像を検出して、前の背景分類の特徴マップを取得し、単一のフィルタの畳み込み層により単一特徴マップを取得して、前景と背景の分割を表現し、分割された前記前景と前記背景に対して教師あり学習を行って、前記文字盤の画像のテキスト中心線を決定することを含む、電子機器に適用されるテキストコンテンツの認識方法。
【請求項2】
前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストを認識することが、
ターゲットテキスト中心線と第1のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴を取得することであって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも1本のテキスト中心線のいずれか1つであることと、
前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行って、ターゲットテキストの特徴シーケンスを取得することと、
プリセット損失関数でターゲットテキストの特徴シーケンスに対して教師あり学習を行うことと、
教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得することと、
を含む請求項1に記載の認識方法。
【請求項3】
前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行う前に、前記少なくとも1つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うことを含み、
前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行うことが、バックグラウンド抑制処理後の前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行うことを含む請求項2に記載の認識方法。
【請求項4】
前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する前に、前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得することを含む請求項1に記載の認識方法。
【請求項5】
前記文字盤の画像を取得することが、
計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得することと、
マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定することと、
前記文字盤領域の画像を前記文字盤の画像として出力することと、
を含む請求項1に記載の認識方法。
【請求項6】
前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する前に、前記文字盤の画像に対して前処理を行うことを含み、
前記前処理が、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含む請求項1に記載の認識方法。
【請求項7】
文字盤の画像を取得する画像取得モジュールと、
前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する検出モジュールと、
前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する認識モジュールと、
を備え
前記検出モジュールが前記文字盤の画像内の少なくとも1本のテキスト中心線を検出することが、畳み込み層より前記文字盤の画像を検出して、前の背景分類の特徴マップを取得し、単一のフィルタの畳み込み層により単一特徴マップを取得して、前景と背景の分割を表現し、分割された前記前景と前記背景に対して教師あり学習を行って、前記文字盤の画像のテキスト中心を決定することを含む、電子機器に適用されるテキストコンテンツの認識装置。
【請求項8】
前記認識モジュールが、
ターゲットテキスト中心線と第1のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴を取得する特徴取得ユニットであって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも1本のテキスト中心線のいずれか1つである特徴取得ユニットと、
前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行って、ターゲットテキストの特徴シーケンスを取得するシリアル化ユニットと、
プリセット損失関数でターゲットテキストの特徴シーケンスに対して教師あり学習を行う教師あり学習ユニットと、
教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得する復号ユニットと、
を備える請求項7に記載の認識装置。
【請求項9】
前記認識モジュールが、前記少なくとも1つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うバックグラウンド抑制ユニットを備え、
前記シリアル化ユニットが、バックグラウンド抑制処理後の前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行う請求項8に記載の認識装置。
【請求項10】
前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得するマルチスケール特徴モジュールを備える請求項7に記載の認識装置。
【請求項11】
前記画像取得モジュールが、
計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得するマルチスケール特徴ユニットと、
マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定する分類回帰ユニットと、
前記文字盤領域の画像を前記文字盤の画像として出力する画像出力ユニットと、
を備える請求項7に記載の認識装置。
【請求項12】
前記文字盤の画像に対して前処理を行う前処理モジュールを備え、
前記前処理が、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含む請求項7に記載の認識装置。
【請求項13】
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信接続されたメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、請求項1から6のいずれか一項に記載の方法を前記少なくとも1つのプロセッサに実行させる命令が記憶されている電子機器。
【請求項14】
コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ命令が、請求項1から6のいずれか一項に記載の方法をコンピュータに実行させる非一時的なコンピュータ可読記憶媒体。
【請求項15】
プロセッサによって実行されると、請求項1から6のいずれか一項に記載の方法が実現されるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、コンピュータの技術分野におけるテキスト認識技術に関し、特に、テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品に関する。
【背景技術】
【0002】
計器盤は計測装置として、機械製造、水道システム、電力システム、自動車、医療などの様々な分野で広く適用されている。現在、計器による計測の技術の発展に伴い、従来の指針計器盤は徐々にデジタル計器盤に取って代わり、デジタル計器盤は、設置された液晶表示パネルなどの文字盤により、計測指標項目や計測値などの計測コンテンツを表示する。
【0003】
計器盤の検針効率を向上させるために、現在、一般的には、計器盤に設置されたデータ収集装置により計器盤の画像を収集してから、サーバなどの電子機器により計器盤の画像内の計測コンテンツを認識する。しかしながら、現在、計器盤の計測コンテンツの認識プロセスにおいて、計測コンテンツの認識にエラーが発生しやすいため、計器盤の計測コンテンツの認識精度が低下する。
【0004】
現在、計器盤の計測コンテンツの認識プロセスにおいて、認識精度が低いという問題があることが分かっている。
【発明の内容】
【0005】
現在、計器盤の計測コンテンツの認識プロセスにおいて認識精度が低いという問題を解決するために、テキストコンテンツの認識方法、装置及び電子機器を提供する。
【0006】
第1の態様に係る、電子機器に適用されるテキストコンテンツの認識方法は、文字盤の画像を取得するステップと、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出するステップと、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識するステップとを含む。
【0007】
第2の態様に係る、電子機器に適用されるテキストコンテンツの認識装置は、文字盤の画像を取得する画像取得モジュールと、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する検出モジュールと、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する認識モジュールとを備える。
【0008】
第3の態様に係る電子機器は、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信接続されたメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、上記第1の態様に記載の方法を前記少なくとも1つのプロセッサに実行させる命令が記憶されている。
【0009】
本願の第4の態様に係る、非一時的なコンピュータ可読記憶媒体には、上記第1の態様に記載の方法をコンピュータに実行させるコンピュータ命令が記憶されている。
【0010】
本願において、文字盤の画像を取得し、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。このように、電子機器は文字盤の画像内のテキストコンテンツを正確かつ迅速に認識できるため、計器盤の計測コンテンツの認識精度及び効率を向上させる。
【0011】
本部分で説明された内容は、本開示の実施例の主要又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の明細書により容易に理解できる。
【図面の簡単な説明】
【0012】
図面は、本解決手段をよりよく理解するためのものであり、本願を限定するものではない。
【0013】
図1】本願の第1の実施例に係る概略図その1である。
図2】本願の第1の実施例に係る概略図その2である。
図3】本願の第2の実施例に係る概略図その1である。
図4】本願の第2の実施例に係る概略図その2である。
図5】本願の第2の実施例に係る概略図その3である。
図6】本願の第2の実施例に係る概略図その4である。
図7】本願の第2の実施例に係る概略図その5である。
図8】本願の第2の実施例に係る概略図その6である。
図9】本願の実施例に係るテキストコンテンツの認識方法を実現する電子機器のブロック図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら本願の例示的な実施例を説明し、理解を容易にするための本願の実施例の様々な詳細を含むが、それらが単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確さと簡潔さのために、以下の説明では、公知の機能及び構造についての説明を省略する。
【0015】
図1を参照すると、本願の実施例に係る、電子機器に適用可能なテキストコンテンツの認識方法は図1に示すように、以下のステップ101~ステップ103を含む。
【0016】
ステップ101では、文字盤の画像を取得する。
【0017】
本願において、電子機器は、計器盤の撮像画像を受信した場合に、該計器盤の撮像画像から文字盤の画像を取得することができる。上記文字盤の画像は、撮像画像内の計器盤の文字盤の所在する領域の画像を含み、上記文字盤は計器盤における表示画面の所在する領域を指す。
【0018】
例えば、図2に示すように、電子機器は、入力された計器盤の撮像画像21を受信すると、撮像画像21内の文字盤の所在する領域の画像211により、文字盤の画像22を生成する。
【0019】
なお、上記電子機器が計器盤の撮像画像により文字盤の画像を取得することは、以下のとおりであってよい。電子機器は、撮像画像内でオペレータが撮像画像内の計器盤の文字盤の所在する領域の画像を注釈する注釈操作を受け取り、該注釈操作に応答して、該注釈操作によって注釈された画像から上記文字盤の画像を生成する。
【0020】
あるいは、いくつかの実施形態では、上記ステップ101は、計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得するステップと、マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定するステップと、前記文字盤領域の画像を前記文字盤の画像として出力するステップとを含んでよい。
【0021】
電子機器は、計器盤の撮像画像に対してマルチスケール特徴処理、中心線検出、及び境界ボックス回帰処理を行うことにより、撮像画像内の計器盤の文字盤の位置を正確に識別できるため、計器盤内のテキストコンテンツの認識精度を向上させることができる。
【0022】
撮像画像の画像特徴に対する上記マルチスケール特徴処理は、マルチスケール特徴処理を行うプリセットアルゴリズムで実現することができる。
【0023】
具体的には、図2に示す品質管理プロセスにおいて、本体ネットワーク内の軽量ネットワーク(複合スケーリング法を使用して、従来の畳み込みニューラルネットワーク(CNN)を最適化した軽量ネットワークEfficientNetB0Smallなど)を介して入力画像(即ち、上記撮像画像)に対して本体特徴抽出を行い、深層学習分割ネットワーク(UNetなど)と組み合わせて特徴次元のマルチスケール適応を実現し、つまり、まず、入力画像をダウンサンプリングし、次に、様々な程度の畳み込みにより、入力画像の深層特徴を学習して取得し(EfficientNetB0Smallで実現し)、最後に、入力画像の深層特徴をアップサンプリングしてオリジナル画像のサイズに復元することにより、マルチスケール特徴を有する入力画像を取得する。アップサンプリングは、逆畳み込みによって実現される。ここで、軽量ネットワークを使用して撮像画像の画像特徴に対してマルチスケール特徴処理を行うことにより、処理の正確率及び効率を向上させることができる。
【0024】
さらに、電子機器は、計器盤の撮像画像に対してマルチスケール特徴処理を行った後、マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理をさらに行って、撮像画像内の文字盤領域を決定することができる。
【0025】
具体的には、図2に示すように、マルチスケール特徴を有する入力画像を取得した後、電子機器は、品質管理プロセスのEst検出中に、マルチスケール特徴を有する入力画像に分類と回帰をさらに行うことができる。例えば、分類ネットワークと回帰ネットワークは、いずれも2レベルの3×3のネットワークと一つの分類層を使用して、前景と回帰の位置情報を抽出し、かつ分類に対してdice_lossを介して教師あり学習を行い、回帰に対してsmooth_l1_lossを介して教師あり学習を行うことにより、文字盤の撮像画像内の位置を決定し、撮像画像内の文字盤領域の位置決めを実現する。
【0026】
当然のことながら、撮像画像の画像特徴に対してマルチスケール特徴処理を行う上記ステップの前に、電子機器は、撮像画像に前処理を行うことができ、具体的には、上記撮像画像をプリセットサイズにトリミングし、かつ上記撮像画像に対して平均減算処理を行う。
【0027】
例えば、上記計器盤の撮像画像を受信した場合に、電子機器は、入力画像を長辺に応じてプリセットサイズ(256スケールなど)に統一して変更することにより、文字盤の画像を取得する処理速度を向上させることができる。さらに、画像に対して平均減算処理を行うことにより、計算の複雑さを軽減すると共に、個々の特徴の違いを強調することができる。
【0028】
ステップ102では、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する。
【0029】
本願において、電子機器は、上記文字盤の画像を取得した後、文字盤の画像内の少なくとも1本のテキスト中心線と少なくとも1つの境界ボックスとを検出することができる。少なくとも1本のテキスト中心線は少なくとも1つの境界ボックスに1対1で対応し、つまり、各テキスト中心線はそれに対応する境界ボックスを有する。
【0030】
上記各テキスト中心線は、上記文字盤の画像内の各行のテキストの中心線であり、各境界ボックスは、それに対応するテキスト中心線上のテキストの外縁に沿って形成される枠である。
【0031】
なお、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する上記ステップは、テキスト中心線と境界ボックスとを検出する任意のプリセットアルゴリズムによって実現することができ、ここで限定しない。
【0032】
具体的には、図2に示すエンドツーエンド認識(1段階one-stageのエンドツーエンド認識であってよい)プロセスにおいて、電子機器は、文字盤の画像の特徴を検出ブランチの入力として、文字盤の画像のテキスト中心線を検出し、テキスト中心線の境界ボックスを回帰させる目標を達成することができる。該検出ブランチは、テキスト中心線の検出とテキスト中心線の境界ボックスの回帰の2つの部分に分かれ、具体的には、以下のとおりである。
【0033】
テキスト中心線の検出中に、バックボーン特徴(文字盤の画像の特徴)から、まず、いくつかの畳み込み層より検出前の背景分類の特徴マップを取得し、単一のフィルタの畳み込み層により単一特徴マップ(map)を取得して、前景と背景の分割を表現し、分割された前景と背景に対して教師あり学習(例えば、dice-loss教師あり学習)を行って、前景が1、背景が0の特徴マップを取得し、特徴マップ内のテキスト中心線をハイライト形式とすることにより、文字盤の画像のテキスト中心を決定する。
テキスト中心線の境界ボックスの回帰中に、バックボーン特徴から、まず、いくつかの畳み込み層により高レベルの特徴を取得し、その後に、第1の数のフィルタ(例えば、4つのフィルタ)を含む畳み込み層により分類結果(分類結果には第1の数の特徴マップが含まれる)を取得する。第1の数の特徴マップ(例えば、4つの特徴マップ)は、中心線の上部境界と下部境界からの各ピクセルの(x、y)を表現する。最後に、第1の数の特徴マップに対して教師あり学習(例えば、smoothl1-loss教師あり学習)を行って、中心線の境界ボックスを回帰させる。
【0034】
いくつかの実施形態では、上記ステップ102の前に、前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得するステップをさらに含む。
【0035】
電子機器は、文字盤の画像に対してマルチスケール特徴処理を行うことにより、計器盤のテキスト認識プロセスを様々な解像度の文字盤の画像に適応させて、さらにテキストの認識精度を向上させることができる。
【0036】
文字盤の画像の画像特徴に対してマルチスケール特徴処理を行う上記ステップは、マルチスケール特徴処理を行うプリセットアルゴリズムによって実現することができる。
【0037】
具体的には、電子機器は、軽量ネットワーク(例えば、EfficientNetB0Small)と特徴ピラミッドネットワーク(Feature Pyramid Networks,FPN)を介して、文字盤の画像の画像特徴に対するマルチスケール特徴処理を実現することができる。即ち、図2に示すように、エンドツーエンド認識プロセスの本体ネットワークにおいて、電子機器は、軽量ネットワークを使用して、文字盤の画像の異なるスケールの特徴を異なるブロック(block)に格納し、FPNネットワークを介してより抽象的で、強力なセマンティックな高レベルの特徴マップをアップサンプリングし、その後に、該アップサンプリングされた特徴を前レベルの特徴に横方向に接続することにより、文字盤の画像の高レベルの特徴を強化し、各レベルの予測に使用される特徴マップ(Feature map)が、異なる解像度とセマンティック強度が異なる特徴を融合し、対応する解像度の対象物の検出を完了でき、各レベルに適切な解像度と強力なセマンティック特徴があることを保証することができる。
【0038】
当然のことながら、文字盤の画像を検出する上記ステップ102の前に、電子機器は、文字盤の画像に前処理を行うことができ、具体的には、上記ステップ102の前に、前記文字盤の画像に対して前処理を行うステップをさらに含み、前記前処理は、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含むため、文字盤の画像を取得する処理速度を向上させるだけでなく、計算の複雑さを軽減すると共に、個々の特徴の違いを強調することができる。
【0039】
ステップ103では、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。
【0040】
本願において、上記電子機器は、上記少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出した後、上記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内の各行のテキストのテキストコンテンツを認識することができる。
【0041】
少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内の各行のテキストのテキストコンテンツを認識する上記ステップは、テキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、該テキスト中心線上の該テキストを識別する任意の方法によって実現することができ、ここで限定しない。
【0042】
具体的には、上記ステップ103は、ターゲットテキスト中心線と前記第1のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴を取得するステップであって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも1本のテキスト中心線のいずれか1つであるステップと、前記少なくとも1つのサンプリングポイントのテキスト特徴にシリアル化処理を行ってて、ターゲットテキストの特徴シーケンスを取得するステップと、プリセット損失関数でターゲットテキストの特徴シーケンスに教師あり学習を行うステップと、教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得するステップとを含んでよい。
【0043】
テキスト中心線上のサンプリングポイントに特徴抽出を行い、かつ抽出された特徴に教師あり学習を行うことにより、テキスト中心線に対応するテキストコンテンツの認識を実現して、認識精度を向上させることができる。
【0044】
電子機器は、いずれかのテキスト中心線と該テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内のターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴を取得することができる。例えば、一般的なCNNネットワークを使用することにより実現することができる。
【0045】
あるいは、図2に示すように、認識ブランチは、検出出力位置のコンテンツの認識を実現するものであり、異なる認識タスクは分類カテゴリの数が異なり、カテゴリの数は、認識される文字の数を意味する。実現プロセスは以下のとおりである。電子機器は、エンドツーエンド認識プロセスにおける本体ネットワークによって出力された特徴(即ち、上記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに対応する特徴)を認識ブランチの入力として、畳み込み層と、カテゴリの数+1個のフィルタにより全体図レベルの特徴であるテキスト特徴(f_charとする)を抽出し、全体図レベルの特徴に基づいて、テキスト中心線上のテキストの特徴(即ち、ターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴)を学習し、例えば、深層学習トレーニングフレームワーク統合ツールを使用して、gather_nd層(gather_nd層は、多次元ベクトルインデックスにより特徴マップから不連続な特徴を抽出することをサポートする)で特徴抽出を行い、即ち、データ処理段階でテキスト中心線上のサンプリングポイントの数を事前設定し、データ処理によってサンプリングポイントの位置と対応するラベル(label)を定義し、tcl_posとし、その後に、f_charとtcl_posをgather_nd層に送り、テキスト中心線上のサンプリングポイントの特徴を取得し、取得されたサンプリングポイントの特徴の次元は、カテゴリの数+1となる。
【0046】
さらに、電子機器は、損失関数として一般的warpctc lossを使用して、ターゲットテキストの特徴シーケンスに対して教師あり学習を行い、ctc復号によって予測されたサンプル(即ち、ターゲット行テキストのテキストコンテンツ)を取得して出力することができる。
【0047】
いくつかの実施形態では、前記少なくとも1つのサンプリングポイントのテキスト特徴にシリアル化処理を行う上記ステップの前に、前記少なくとも1つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うステップをさらに含み、前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行う前記ステップは、バックグラウンド抑制処理後の前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行うステップを含む。
【0048】
サンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行って、認識精度をさらに向上させることができる。
【0049】
なお、抽出されたサンプリングポイントのテキスト特徴には前景情報と背景情報が含まれているため、電子機器は、上記抽出されたサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行い、例えば、maskにより背景mapの背景を強化し、前景mapの背景を抑制することにより、背景mapの背景予測確率がいずれも1であり、前景mapの背景予測確率が0であることを保証することができる。
【0050】
本願において、文字盤の画像を取得し、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。このように、電子機器は、文字盤の画像内のテキストコンテンツを正確かつ迅速に認識することができるため、計器盤の計測コンテンツの認識精度及び効率を向上させる。
【0051】
図3を参照すると、本願の実施例において、電子機器に適用されるテキストコンテンツの認識装置を提供する。テキストコンテンツの認識装置300は、図3に示すように、文字盤の画像を取得する画像取得モジュール301と、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する検出モジュール302と、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する認識モジュール303とを備える。
【0052】
好ましくは、図4に示すように、前記認識モジュール303は、ターゲットテキスト中心線と前記第1のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴を取得する特徴取得ユニット3031であって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも1本のテキスト中心線のいずれか1つである特徴取得ユニット3031と、前記少なくとも1つのサンプリングポイントのテキスト特徴にシリアル化処理を行って、ターゲットテキストの特徴シーケンスを取得するシリアル化ユニット3032と、プリセット損失関数でターゲットテキストの特徴シーケンスに教師あり学習を行う教師あり学習ユニット3033と、教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得する復号ユニット3034とを備える。
【0053】
好ましくは、図5に示すように、前記認識モジュール303は、前記少なくとも1つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うバックグラウンド抑制ユニット3035をさらに備え、前記シリアル化ユニット3032は、具体的には、バックグラウンド抑制処理後の前記少なくとも1つのサンプリングポイントのテキスト特徴にシリアル化処理を行う。
【0054】
好ましくは、図6に示すように、前記装置300は、前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得するマルチスケール特徴モジュール304をさらに備える。
【0055】
好ましくは、図7に示すように、前記画像取得モジュール301は、計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得するマルチスケール特徴ユニット3011と、マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定する分類回帰ユニット3012と、前記文字盤領域の画像を前記文字盤の画像として出力する画像出力ユニット3013とを備える。
【0056】
好ましくは、図8に示すように、前記装置300は、前記文字盤の画像に対して前処理を行う前処理モジュール305をさらに備え、前記前処理は、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含む。
【0057】
なお、テキストコンテンツの認識装置300は、本願の図1の方法の実施例における電子機器によって実現される各プロセスを実現し、かつ同じ有益な効果を達成することができ、重複を避けるために、ここでは説明を省略する。
【0058】
本願の実施例によれば、本願は電子機器と読み取り可能な記憶媒体をさらに提供する。
【0059】
図9は、本願の実施例に係るテキストコンテンツの認識方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータなどの、様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタル処理、セルラー電話、スマートフォン、ウェアラブルデバイス、及びその他の類似するコンピューティングデバイスなどの、様々な形式のモバイルデバイスを表すこともできる。本明細書で示されているコンポーネントと、それらの接続及び関係と、それらの機能とは例示的ものに過ぎず、本明細書で説明及び/又は要求された本願の実現を制限することを意図するものではない。
【0060】
図9に示すように、該電子機器は、一つ又は複数のプロセッサ901と、メモリ902と、各コンポーネントを接続し高速インタフェース及び低速インタフェースを備えるインタフェースと、を含む。各コンポーネントは異なるバスを介して相互に接続され、共通のマザーボードに取り付けられれもよく、必要に応じて他の方法で取り付けられてもよい。プロセッサは、メモリ内に記憶されている命令、又は外部入力/出力装置(例えば、インタフェースに結合された表示装置)にGUIのグラフィック情報を表示するメモリ上の命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、必要があれば、複数のプロセッサ及び/又は複数のバスを複数のメモリと共に使用することができる。同様に、それぞれが必要な操作の一部を提供する複数の電子機器(例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステム)を接続することができる。図9では、1つのプロセッサ901を例とする。
【0061】
メモリ902は、即ち、本願に係る非一時的なコンピュータ可読記憶媒体である。前記メモリには、少なくとも1つのプロセッサに実行可能で、本願に係るテキストコンテンツの認識方法を前記少なくとも1つのプロセッサに実行させる命令が記憶されている。本願の非一時的なコンピュータ可読記憶媒体には、本願に係るテキストコンテンツの認識方法をコンピュータに実行させるコンピュータ命令が記憶されている。
【0062】
メモリ902は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール、例えば、本願の実施例におけるテキストコンテンツの認識方法に対応するプログラム命令/モジュール(例えば、図3に示す画像取得モジュール301、検出モジュール302及び認識モジュール303)を記憶することができる。プロセッサ901は、メモリ902に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの各機能アプリケーション及びデータ処理を実行し、即ち、上記方法実施例におけるテキストコンテンツの認識方法を実現する。
【0063】
メモリ902は、プログラム記憶領域とデータ記憶領域を備えてもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は、エコー遅延を検出する電子機器の使用により作成されたデータなどを記憶することができる。さらに、メモリ902は、高速ランダムアクセスメモリを備えてもよく、少なくとも1つの磁気ディスクメモリ装置、フラッシュメモリ装置、又は他の非一時的な固体メモリ装置などの非一時的なメモリをさらに備えてもよい。いくつかの実施例では、メモリ902は、好ましくは、プロセッサ901に対して遠隔設置されたメモリを備えてもよく、これらの遠隔メモリは、ネットワークを介してエコー遅延の検出の電子機器に接続することができる。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
【0064】
テキストコンテンツの認識方法の電子機器は、入力装置903及び出力装置904をさらに備えてもよい。プロセッサ901、メモリ902、入力装置903、及び出力装置904は、バス又は他の方法で接続することができ、図9では、バスを介する接続を例とする。
【0065】
入力装置903は、入力された数字又は文字情報を受信し、かつエコー遅延の検出の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができる。入力装置は、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックである。出力装置904は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを備えてもよい。該表示装置は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えてもよいが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってよい。
【0066】
本明細書で説明されたシステム及び技術の各実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの実施形態は、1つ又は複数のコンピュータプログラムでの実行を含んでよく、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行及び/又は解釈することでき、該プログラム可能なプロセッサは、専用又は汎用プログラム可能なプロセッサでであってよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に送信することができる。
【0067】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラム可能なプロセッサの機械命令を含み、高レベルの手順及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械言語によって実行することができる。本明細書で使用された用語「機械可読媒体」及び「コンピュータ可読媒体」は、機械命令及び/又はデータをプログラム可能なプロセッサに提供する任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械可読信号としての機械命令を受信する機械可読信媒体を含む。用語「機械可読信号」は、機械命令及び/又はデータをプログラム可能なプロセッサに提供する任意の信号を指す。
【0068】
ユーザとの対話を提供するために、本明細書で説明されたシステム及び技術をコンピュータ上で実行することができ、該コンピュータは、ユーザに情報を表示する表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、該キーボードと該ポインティングデバイスによりコンピュータに入力を提供することができる。他のタイプの装置は、ユーザとの対話を提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってよく、また、任意の形式(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
【0069】
本明細書で説明されたシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、ユーザが本明細書で説明されたシステム及び技術の実施形態と対話できるグラフィカルユーザインタフェース又はWebブラウザを備えたユーザコンピュータ)、又はそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、若しくはフロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実行することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムのコンポーネントを相互に接続することができる。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが挙げられる。
【0070】
コンピュータシステムは、クライアントとサーバを備えてもよい。クライアントとサーバは通常、互いに遠く離れ、かつ一般的には通信ネットワークを介して対話する。対応するコンピュータ上で実行し、相互にクライアント-サーバの関係を持つコンピュータプログラムによりクライアントとサーバの関係を生成する。
【0071】
本願において、文字盤の画像を取得し、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。このように、電子機器は文字盤の画像内のテキストコンテンツを正確かつ迅速に認識することができるため、計器盤の計測コンテンツの認識精度及び効率を向上させる。
【0072】
上述した各形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本願に開示されている技術手段の所望の結果を達成できる限り、本願に記載の各ステップは、並行して、順次、又は異なる順序で実行してよいが、本明細書はこれを限定しない。
【0073】
上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができることを理解すべきである。本願の精神及び原則の範囲内で行われた修正、同等置換、及び改善などは、いずれも本願の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9