IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲創▼新奇智(上海)科技有限公司の特許一覧

特許7026165テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
<>
  • 特許-テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 図1
  • 特許-テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 図2
  • 特許-テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 図3
  • 特許-テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 図4
  • 特許-テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 図5
  • 特許-テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 図6
  • 特許-テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 図7
  • 特許-テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 図8
  • 特許-テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-02-16
(45)【発行日】2022-02-25
(54)【発明の名称】テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
(51)【国際特許分類】
   G06V 30/148 20220101AFI20220217BHJP
【FI】
G06K9/34
【請求項の数】 10
(21)【出願番号】P 2020085898
(22)【出願日】2020-05-15
(65)【公開番号】P2021135993
(43)【公開日】2021-09-13
【審査請求日】2020-05-15
(31)【優先権主張番号】202010114235.9
(32)【優先日】2020-02-24
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520168790
【氏名又は名称】▲創▼新奇智(上海)科技有限公司
(74)【代理人】
【識別番号】110003339
【氏名又は名称】特許業務法人南青山国際特許事務所
(74)【代理人】
【識別番号】100104215
【弁理士】
【氏名又は名称】大森 純一
(74)【代理人】
【識別番号】100196575
【弁理士】
【氏名又は名称】高橋 満
(74)【代理人】
【識別番号】100168181
【弁理士】
【氏名又は名称】中村 哲平
(74)【代理人】
【識別番号】100160989
【弁理士】
【氏名又は名称】関根 正好
(74)【代理人】
【識別番号】100117330
【弁理士】
【氏名又は名称】折居 章
(74)【代理人】
【識別番号】100168745
【弁理士】
【氏名又は名称】金子 彩子
(74)【代理人】
【識別番号】100176131
【弁理士】
【氏名又は名称】金山 慎太郎
(74)【代理人】
【識別番号】100197398
【弁理士】
【氏名又は名称】千葉 絢子
(74)【代理人】
【識別番号】100197619
【弁理士】
【氏名又は名称】白鹿 智久
(72)【発明者】
【氏名】チャン、ファーエン
(72)【発明者】
【氏名】ルー、チアン
(72)【発明者】
【氏名】ユアン、チーチャオ
(72)【発明者】
【氏名】スン、ティアンチー
(72)【発明者】
【氏名】シュー、フイ
【審査官】岡本 俊威
(56)【参考文献】
【文献】特開2020-119559(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06K 9/00-9/82
(57)【特許請求の範囲】
【請求項1】
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップと、
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するステップと
を含み、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップは、
テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得するステップと、
前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS処理を行い、文字領域集合を得るステップと、を含む
ことを特徴とするテキスト認識方法。
【請求項2】
前記文字予測領域に対してNMS処理を行い、文字領域集合を得たあと、
前記文字領域集合から前記分類信頼度が第1閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップ
をさらに含むことを特徴とする請求項に記載のテキスト認識方法。
【請求項3】
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップは、
前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつけるステップと、
各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離IoUを順に算出するステップと
を含むことを特徴とする請求項1に記載のテキスト認識方法。
【請求項4】
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離IoUが、いずれも第2閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップ
を含むことを特徴とする請求項1に記載のテキスト認識方法。
【請求項5】
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも1つの文字予測領域との水平距離IoUが第2閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れるステップと、
前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップと
を含むことを特徴とする請求項1に記載のテキスト認識方法。
【請求項6】
前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップは、
前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップと、
前記2つの文字予測領域間の分類信頼度の差が第3閾値より小さい場合、前記2つの文字予測領域のうちの、面積が大きい文字予測領域を前記文字位置集合に入れるステップと
を含むことを特徴とする請求項に記載のテキスト認識方法。
【請求項7】
前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップのあと、
前記2つの文字予測領域間の分類信頼度の差が第3閾値以上となる場合、前記2つの文字予測領域のうちの、分類信頼度が大きい文字予測領域を前記文字位置集合に入れるステップ
を含むことを特徴とする請求項に記載のテキスト認識方法。
【請求項8】
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するための領域抽出モジュールと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するためのIoU算出モジュールと、
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るための重なり除去モジュールと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するための文字出力モジュールと
を有し、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得することは、
テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得することと、
前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS処理を行い、文字領域集合を得ることと、を含む
ことを特徴とするテキスト認識装置。
【請求項9】
請求項1~のいずれか1項に記載のテキスト認識方法を実行するプロセッサーと、
プロセッサーが実行可能な命令を記憶するためのメモリと
を有することを特徴とする電子設備。
【請求項10】
プロセッサーの実行により請求項1~のいずれか1項に記載のテキスト認識方法を実現するコンピュータプログラムが記憶されていることを特徴とするコンピュータの読取可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、画像処理技術の分野に属し、殊に、テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体に関する。
【背景技術】
【0002】
テキスト認識は、通常、テキスト画像に対して認識、分析、処理を行い、テキスト画像における有用な文字情報を取得するプロセスを指している。よく見られるテキスト認識の応用分野として、身分証認識、発票認識、車両識別番号認識、ナンバープレート認識が挙げられる。また、テキスト認識は、産業の場においても需要が増えており、例えば、部品コードの認識、部品序列番号のマッチング等に用いられる。テキスト認識の利用場面がますます複雑になり、テキスト認識のアルゴリズムに対する要求もますます高まっている。
【0003】
従来の画像に対する処理及び認識は、おもに従来の文字認識技術(Optical Character Recognition、OCR)を用いる。しかしOCRによりデジタルカメラが取得したテキスト画像を認識するとき、画像の歪みに起因して認識率が低くなることがよくあり、認識の精度が劣る。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願の実施例は、テキスト認識の精度を向上させるためのテキスト認識方法を提供する。
【課題を解決するための手段】
【0005】
本出願の実施例によるテキスト認識方法は、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップと、
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するステップとを含む。
【0006】
一実施例では、既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップは、
テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得するステップと、
前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS処理を行い、文字領域集合を得るステップとを含む。
【0007】
一実施例では、前記文字予測領域に対してNMS処理を行い、文字領域集合を得たあと、
前記文字領域集合から前記分類信頼度が第1閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップをさらに含む。
【0008】
一実施例では、前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップは、
前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつけるステップと、
各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離IoUを順に算出するステップとを含む。
【0009】
一実施例では、前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離IoUが、いずれも前記第2閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップを含む。
【0010】
一実施例では、前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも1つの文字予測領域との水平距離IoUが第2閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れるステップと、
前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップとを含む。
【0011】
一実施例では、前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップは、
前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップと、
前記2つの文字予測領域間の分類信頼度の差が第3閾値より小さい場合、前記2つの文字予測領域のうちの、面積が大きい文字予測領域を前記文字位置集合に入れるステップとを含む。
【0012】
一実施例では、前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップのあと、
前記2つの文字予測領域間の分類信頼度の差が第3閾値以上となる場合、前記2つの文字予測領域のうちの、分類信頼度の大きい文字予測領域を前記文字位置集合に入れるステップを含む。
【0013】
本出願の実施例によるテキスト認識装置は、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するための領域抽出モジュールと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するためのIoU算出モジュールと、
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るための重なり除去モジュールと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するための文字出力モジュールとを有する。
【0014】
本出願の実施例による電子設備は、
上記のテキスト認識方法を実行するプロセッサーと、
プロセッサーが実行可能な命令を記憶するためのメモリとを有する。
本出願の実施例によるコンピュータの読取可能な記憶媒体は、プロセッサーの実行により上記のテキスト認識方法を実現するコンピュータプログラムが記憶されている。
【0015】
本出願上記の実施例の技術案は、文字予測領域間の水平距離IoUを算出することによって、重なりがあった文字予測領域を除去して文字位置集合を得、さらに、文字位置集合における各文字予測領域の位置に基づいて、文字予測領域における文字クラスを、順位をつけて出力して、テキスト認識結果を得る。このような方式は、湾曲したテキスト画像に対する認識に適用でき、同一位置に複数のテキスト認識枠を有する問題を解決でき、テキスト認識の精度を向上させることができる。
【0016】
本出願の実施例の技術案をより明瞭に説明するため、以下、本出願の実施例の説明に必要な図面を簡単に説明する。
【図面の簡単な説明】
【0017】
図1】本出願の実施例によるテキスト認識方法の応用場面の模式図である。
図2】本出願の実施例によるテキスト認識方法の模式的フローチャートである。
図3】水平距離IoU(IoU:Intersection over Union)の計算原理の模式図である。
図4図2に示した実施例におけるステップ210の詳細のフローチャートである。
図5図2に示した実施例におけるステップ220の詳細のフローチャートである。
図6】本出願のその他の実施例によるテキスト認識方法の模式的フローチャートである。
図7】本出願の実施例によるテキスト認識装置のブロック図である。
図8】水平距離IoUに基づく、重なった予測枠に対する選別の前後の効果比較図である。
図9】水平距離IoU及び面積IoUを用いた処理効果の比較図である。
【発明を実施するための形態】
【0018】
以下、本出願の実施例の図面を参照しながら、本出願の実施例の技術案を説明する。
【0019】
同様な符号は、図面において同様なものを示すので、1つの図面で定義された場合、その他の図面でさらに定義、解釈することが不要になる。また、本出願の説明では、「第1」、「第2」等の用語が、区別して説明するためのものであり、相対重要性を明示又は暗示するものではない。
【0020】
図1は、本出願の実施例によるテキスト認識方法の応用場面の模式図である。該応用場面は、図1に示すように、インテリジェント設備110を含む。該インテリジェント設備110は、サーバ、サーバ群又はクラウドコンピューティングセンターであることが可能である。インテリジェント設備110は、インテリジェントカメラ、移動端末又はデスクトップパソコンであってもよい。インテリジェント設備110は、本出願の実施例による方法を利用して、テキスト行画像に含まれる文字内容を認識することができる。
【0021】
一実施例では、上記の応用場面は、画像取得設備120をさらに有してもよい。画像取得設備120は、文字内容を含む画像を取得し、該画像をインテリジェント設備110に伝送することができる。インテリジェント設備110は、本出願の実施例による方法を利用して、テキスト認識を行う。
【0022】
本出願は、電子設備をさらに提供する。該電子設備は、図1に示したインテリジェント設備110であることが可能である。インテリジェント設備110は、図1に示すように、プロセッサー111と、プロセッサー111が実行可能な命令を記憶するためのメモリ112とを有し、プロセッサー111が、本出願の実施例によるテキスト認識方法を実行するように構成される。
【0023】
メモリ112は、任意タイプの揮発性又は不揮発性のメモリ又はこれらの組み合わせにより実現されることが可能である。例えば、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAMと略称する)、電気的に消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROMと略称する)、消去可能なプログラマブル読み出し専用メモリ(Erasable Programmable Read-Only Memory、EPROMと略称する)、プログラマブル読み出し専用メモリ(Programmable Read-Only Memory、PROMと略称する)、読み出し専用メモリ(Read-Only Memory、ROMと略称する)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクが挙げられる。
【0024】
本出願は、コンピュータの読み取り可能な記憶媒体をさらに提供し、該記憶媒体に、プロセッサー111の実行によって本出願の実施例によるテキスト認識方法を実現するコンピュータプログラムが記憶されている。
【0025】
図2は、本出願の実施例によるテキスト認識方法の模式的フローチャートである。図2に示すように、該方法は、下記のステップS210~S240を含む。
【0026】
ステップS210は、既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得する。
【0027】
テキスト認識モデルは、例えば、SSD、YOLOV3のようなトレーニング済みの目標検出ニューラルネットワークモデルを用いる。テキスト認識モデルの入力は、テキスト行画像であり、そのサイズが、88×352であってもよい。テキスト認識モデルの出力は、文字予測領域、文字予測領域の文字クラス及び分類信頼度を含む。文字予測領域は、文字が存在可能な領域を表すものであり、4つの頂点の座標で文字予測領域の位置を表す矩形枠の形式を用いることができる。同一の文字に対して複数の文字予測領域が検出される場合がある。つまり、文字予測領域の重なりが発生することがある。文字領域集合は、全ての文字予測領域からなる集合を指している。
【0028】
テキスト認識モデルによる検出結果の文字分類の精度を向上させるように、テキスト認識モデルの損失関数における分類損失の重みを10に設定することができる。サイズが同一であり且つ横に配列されるテキスト行における文字の特徴に基づいて、アンカーボックス(即ち、リファレンスボックス)の高さを、入力するテキスト行画像の0.8倍に設定する。
【0029】
ステップS220は、前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出する。
【0030】
図3は、水平距離IoUの計算原理の模式図である。図3に示すように、2つの文字予測領域間に重なりがあり、この2つの文字予測領域間のHorizon-distance IoU(水平距離IoU)は、下記式1を用いて算出することができる。
(x-x)/(x-x) ・・・式1
【0031】
ただし、x及びxが1つの文字予測領域の2つの頂点の横座標であり、x及びxがもう1つの文字予測領域の2つの頂点の横座標である。水平距離IoUは、2つの文字予測領域の水平方向における重なり比例を表す。
【0032】
文字予測領域の位置は、文字予測領域の各頂点の座標を含む。文字領域集合におけるすべての文字予測領域に対して、任意2つの文字予測領域間の水平距離IoUを算出することができる。
【0033】
ステップS230は、前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得る。
【0034】
一実施例では、2つの文字予測領域間の水平距離IoUが第2閾値より大きい場合、この2つの文字予測領域が重なっていると認定される。第2閾値として0.3にすることができる。例えば、ある文字予測領域がその他の2つの文字予測領域のそれぞれと重なる場合、この3つの文字予測領域に対して、そのうちの2つの文字予測領域を除去し、残られた文字予測領域を文字位置集合に入れる。文字位置集合は、重なりがあった文字予測領域を除去して重なりがない文字予測領域の集合であるとみなされる。
【0035】
ステップS240は、前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力する。
【0036】
通常、テキストにおける文字が横に配列されるので、文字予測領域の位置を文字予測領域の横座標の値で表すことができる。文字位置集合におけるすべての文字予測領域に対して、これらの文字予測領域の横座標の大小に基づいて、横座標の小さい順に、文字位置集合における文字予測領域に順位を付けて、各文字予測領域に対応する文字クラスを順に出力することが可能である。文字クラスは、文字予測領域に含まれる文字を指し、漢字、アルファベット又は特定の符号であることが可能である。縦方向に配列される文字に対して、列ごとに抽出し、各列をテキスト行とする。横座標の大小に基づいてテキスト行における各文字の前後の順序を決める。
【0037】
ステップS210において上記のテキスト認識モデルにより各文字予測領域における文字クラスを認識するようにしてもよく、文字位置集合が確定されたあと、テキスト認識モデルにより各文字予測領域における文字クラスを認識するようにしてもよい。
【0038】
本出願における上記の実施例の技術案は、文字予測領域間の水平距離IoUを算出することによって、重なりがあった文字予測領域を除去して文字位置集合を得、さらに、文字位置集合における各文字予測領域の位置に基づいて、文字予測領域における文字クラスを、順位をつけて出力して、テキスト認識結果を得る。このような方式は、湾曲したテキスト画像に対する認識に適用でき、同一位置に複数のテキスト認識枠を有する問題を解決でき、テキスト認識の精度を向上させることができる。
【0039】
一実施例では、上記のステップ210は、図4に示すように、下記のステップ211とステップ212とを含む。
【0040】
ステップ211は、テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得する。
【0041】
分類信頼度は、文字予測領域における文字クラスの分類の精度を表すものである。文字クラス及び分類信頼度は、ステップ210でテキスト認識モデルにより得ることができる。
【0042】
ステップ212は、前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS(Non-Maximum Suppression)処理を行い、文字領域集合を得る。
【0043】
1つの文字に対して複数の文字予測領域を得ることがある。NMS処理は、局部の複数の文字予測領域のうちの、分類信頼度の一番高い文字予測領域を選出して局部の領域における文字予測領域とする処理を指している。選出されたすべての文字予測領域が文字領域集合を構成する。
【0044】
本出願の実施例による方法は、ステップ212のあとに、前記文字領域集合から前記分類信頼度が第1閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップ213をさらに含んでもよい。
【0045】
例えば、第1閾値を0.5にする場合、文字領域集合から分類信頼度が0.5より大きい文字予測領域を選出し、選出された文字予測領域を文字領域集合とすることができる。
【0046】
一実施例では、上記のステップ220は、図5に示すように、具体的に下記のステップ221、222を含む。
【0047】
ステップ221は、前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつける。
【0048】
横座標の小さい順又は大きい順で文字領域集合におけるすべての文字予測領域に順位をつけることができる。
【0049】
ステップ222は、各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離IoUを順に算出する。
【0050】
文字領域集合を集合1とし、集合1にn個の文字予測領域があると仮定する。上記の順位づけを行ったので、1つ目の文字予測領域と、2つ目からn個目の文字予測領域のそれぞれとの水平距離IoUを算出して、1つ目の文字予測領域と重なるすべての文字予測領域を洗い出し、1つ目の文字予測領域及びそれと重なった文字予測領域を、集合1から削除するとともに集合2に入れる。これによって、新たな集合1を得る。集合2における重なり合う複数の文字予測領域から1つの文字予測領域を選択して集合3に入れるとともに、集合2を空集合にする。集合3における文字予測領域は、重なりがない文字予測領域とみなされる。
【0051】
なお、集合1において、1つ目の文字予測領域と集合1におけるすべての文字予測領域とは重なり合うことがない場合、第1文字予測領域を集合1から削除するとともに集合3に入れ、新たな集合1を得る。
【0052】
引き続き、新たな集合1に対して、新たな集合1における1つ目の文字予測領域と、2つ目から最後の文字予測領域のそれぞれとの水平距離IoUを算出して、1つ目の文字予測領域と重なるすべての文字予測領域を洗い出し、1つ目の文字予測領域及びそれと重なった文字予測領域を、新たな集合1から削除するとともに集合2に入れる。これによって、更新された集合1を得る。そして、集合2から1つの文字予測領域を選択して集合3に入れるとともに、集合2を空集合にする。
【0053】
上記ステップを繰り返して、集合1が空集合になるまで行う。このようにして、集合1におけるすべての文字予測領域間の水平距離IoUの算出、及び重なりがない文字予測領域の選出を完成させる。水平距離IoUの計算式は、上記の記載を参照する。
【0054】
一実施例では、上記のステップ230は、具体的に、前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離IoUが、いずれも前記第2閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップを含む。
【0055】
ここで、文字領域集合が上記の実施例における集合1に相当し、文字位置集合が上記の実施例における集合3に相当する。第2閾値として0.3に設定することができる。集合1におけるある文字予測領域と集合1におけるすべての文字予測領域との水平距離IoUが、いずれも0.3以下となるとき、該文字予測領域とその他のすべての文字予測領域との重なりがないとみなされるため、該文字予測領域を集合3に入れることができる。文字位置集合における文字予測領域は、重なりがない文字予測領域とみなされる。
【0056】
また、上記のステップ230は、前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも1つの文字予測領域との水平距離IoUが第2閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れ、前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップを含むことができる。
【0057】
ここで、候補集合が上記の実施例における集合2に相当し、集合1におけるある文字予測領域と集合1における少なくとも1つの文字予測領域との水平距離IoUが0.3より大きい場合、水平距離IoUが0.3より大きい文字予測領域を、集合1から削除するとともに集合2に入れる。集合2における文字予測領域、即ち候補集合における文字予測領域に対して、分類信頼度の高低に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出する。この2つの文字予測領域の分類信頼度の差が第3閾値(例えば、0.1)より小さい場合、2つの文字予測領域のうちの面積が大きい文字予測領域を文字位置集合(即ち集合3)に入れる。
【0058】
また、2つの文字予測領域の分類信頼度の差が第3閾値以上となる場合、2つの文字予測領域のうちの分類信頼度が大きい文字予測領域を文字位置集合(即ち集合3)に入れる。
【0059】
したがって、集合3における文字予測領域が、重なりがない文字予測領域とみなされる。集合3におけるすべての文字予測領域に順位をつけて、各文字予測領域に対応する文字クラスを該順位に従って出力して、認識結果を得る。
【0060】
図6は、本出願の一実施例によるテキスト認識方法の模式的フローチャートである。該方法は、図6に示すように、下記のステップを含む。
【0061】
ステップ601は、テキスト認識モデルにより入力画像を認識して文字予測領域を得る。
【0062】
ステップ602は、文字予測領域に対してNMS処理(NMS)を行って、文字領域集合S0を得る。
【0063】
ステップ603は、文字領域集合S0から分類信頼度が0.5より大きい文字予測領域を選出して、文字領域集合S1を得る。
【0064】
ステップ604は、文字領域集合S1における文字予測領域に対して、横座標の小さい順に順位をつける。
【0065】
ステップ605は、文字領域集合S1が空集合であるか否かを判断し、空集合ではない場合、文字領域集合S1における1つ目の文字予測領域とS1におけるその他のすべての文字予測領域のそれぞれとの水平距離IoUを算出する。空集合である場合、ステップ613を実行する。
【0066】
ステップ606は、水平距離IoUが0.3より大きいか否かを判断する。NOである場合、ステップ607を実行し、YESである場合、ステップ608を実行する。
【0067】
ステップ607は、文字領域集合S1における1つ目の文字予測領域を文字位置集合S3に入れるとともに、文字領域集合S1から1つ目の文字予測領域を削除する。ステップ605に戻る。
【0068】
ステップ608は、第1文字予測領域、及び第1文字予測領域との水平距離IoUが0.3より大きい文字予測領域を候補集合S2に入れるとともに、文字領域集合S1からこれらの文字予測領域を削除する。
【0069】
ステップ609は、候補集合S2における文字予測領域に対して、分類信頼度の小さい順に順位をつけて、分類信頼度の最も大きい2つの文字予測領域を残し、その他の文字予測領域を除去する。
【0070】
ステップ610は、候補集合S2における文字予測領域の分類信頼度の差が0.1より小さいか否かを判断し、NOである場合、ステップ611を実行し、YESである場合、ステップ612を実行する。
【0071】
ステップ611は、候補集合S2における分類信頼度のより大きい文字予測領域を文字位置集合S3に入れるとともに、候補集合S2を空集合にする。ステップ605に戻る。
【0072】
ステップ612は、候補集合S2における面積のより大きい文字予測領域を文字位置集合S3に入れるとともに、候補集合S2を空集合にする。ステップ605に戻る。
【0073】
ステップ613は、文字位置集合S3における文字予測領域の文字クラスを、文字予測領域の横座標の小さい順に従って順位をつけて出力する。
【0074】
図7は、本出願の実施例によるテキスト認識装置のブロック図である。該装置は、領域抽出モジュール710と、IoU算出モジュール720と、重なり除去モジュール730と、文字出力モジュール740とを有する。
【0075】
領域抽出モジュール710は、既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得する。
【0076】
IoU算出モジュール720は、前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出する。
【0077】
重なり除去モジュール730は、前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得る。
【0078】
文字出力モジュール740は、前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力する。
【0079】
上記の装置における各モジュールの機能及び作用の実現プロセスは、具体的に上記のテキスト認識方法における対応するステップの実現プロセスを参照できるので、ここで説明を省略する。
【0080】
図8は、水平距離IoUに基づく重なった予測枠に対する選別の前後の効果比較図である。ここで、第1行が、水平距離IoUに基づく選別が行われなかったテキスト認識結果であり、第2行が、水平距離IoUに基づいて選別が行われたテキスト認識結果である。図8における3個目の数字0に注目すると、第1行に重なった予測枠があるため、2つの0が認識され、検測が正確ではない。図9は、水平距離IoUと面積IoUを用いた処理の効果比較図である。図9においては、第1行の画像が、面積IoUに基づいて重なった予測枠を選出した処理結果であり、第2行が、水平距離IoUに基づいて重なった予測枠を選出した処理結果である。図9を参照すると、水平距離IoUを用いる場合、同一位置に複数の文字予測枠が存在しても面積IoUが閾値以下となる状況に対応でき、これに対して、面積IoUに基づく従来の方式は、このような状況に対応できないことが分かる。
【0081】
本出願の実施例による目標検出テキスト認識アルゴリズムは、ピクセル単位による予測ではないので、本出願の実施例の技術案は、分割によるテキスト認識方法と比べて、よりはやく、ノイズに対するロバスト性が向上した方法である。また、Horizon-distance IoU(水平距離IoU)に基づいて重なり合う文字枠を選出する処理方式を用いるので、目標検出をテキスト認識に適用するときの文字枠の重なりの問題を解決できるとともに、従来のNMSの計算量と比べて、該方法の計算量が大幅に低減できる。本出願の実施例の技術案は、湾曲したテキストの認識に適用でき、同一位置に複数の文字枠が存在しても面積IoUが閾値以下となる状況に対応できる。例えば、湾曲したテキストでは、面積IoUが通常大きいため、本出願の実施例によるHorizon-distance IoUを利用せず、面積IoUを用いる場合、正確な文字予測枠の漏れが発生してしまい、その後の処理においてエラーが起こりやすくなる。
【0082】
本出願が提供したいくつの実施例において、記載された装置及び方法は、その他の方式により実現されることも可能である。上記に説明された装置の実施例は、模式的なものに過ぎず、例えば、図面におけるフローチャート及びブロック図が、本出願における複数の実施例による装置、方法及びコンピュータプログラム製品が実現可能なアーキテクチャ、機能及び操作を示した。ここで、フローチャート又はブロック図における各ブロックは、所定の論理機能を実現できる1つの又は複数の実行可能な命令が含まれている、1つのモジュール、プログラムセグメントまたはコードの一部を表すことが可能である。置き換え可能な実現方式において、ブロックに記載された機能が図面に示した順序と異なるものによって実施される。例えば、2つの連続するブロックは、実際にほぼ並行に実行されてもよく、場合によって逆の順序で実行されてもよい。これは、該当する機能によって決められる。そして、ブロック図及び/又はフローチャートにおける各ブロックと、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアシステムにより実現されてもよく、専用のハードウェアとコンピュータ命令との組み合わせにより実現されてもよい。
【0083】
また、本出願の各実施例における各機能モジュールは、1つの独立部分に集積されてもよく、各モジュールが単独に存在していてもよく、2つ又は2つ以上のモジュールが1つの独立部分に集積されていてもよい。
【0084】
機能は、ソフトウェアによる機能ユニットの形式で実現され、独立の製品として販売されたり使用されたりする場合、コンピュータの読み取り可能な記憶媒体に記憶することが可能である。このような理解をもとに、本発明の技術案のそのもの、従来技術に貢献する部分、或いは該技術案の一部は、ソフトウェア製品の形式で実現できる。該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ設備(パソコン、サーバ或いはネットワーク設備等)が本出願の各実施例における方法の全部又は一部のステップを実行するための複数のコマンドを含む。前記記憶媒体は、USBディスク、携帯型ハードディスク、リードオンリーメモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random-Access Memory)、磁気ディスク又は光ディスク等の各種の、プログラムコードを記憶できる媒体を含む。
図1
図2
図3
図4
図5
図6
図7
図8
図9