(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-30
(45)【発行日】2024-02-07
(54)【発明の名称】コンピュータビジョンに基づく文字列認識方法、装置、機器及び媒体
(51)【国際特許分類】
G06V 30/16 20220101AFI20240131BHJP
【FI】
G06V30/16
(21)【出願番号】P 2022564797
(86)(22)【出願日】2021-07-02
(86)【国際出願番号】 CN2021104308
(87)【国際公開番号】W WO2022002262
(87)【国際公開日】2022-01-06
【審査請求日】2022-10-24
(31)【優先権主張番号】202010630553.0
(32)【優先日】2020-07-03
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】522238376
【氏名又は名称】深▲セン▼思謀信息科技有限公司
【氏名又は名称原語表記】SHENZHEN SMARTMORE TECHNOLOGY CO., LTD.
【住所又は居所原語表記】2201A, Tower 2, Qianhai Kerry Business Center Phase 4, Qianhai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong, China
(73)【特許権者】
【識別番号】522413869
【氏名又は名称】上海思謀科技有限公司
(74)【代理人】
【識別番号】110000291
【氏名又は名称】弁理士法人コスモス国際特許商標事務所
(72)【発明者】
【氏名】楊 志成
(72)【発明者】
【氏名】李 睿宇
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開2017-207910(JP,A)
【文献】中国特許出願公開第105279512(CN,A)
【文献】中国特許出願公開第108681729(CN,A)
【文献】中国特許出願公開第110516672(CN,A)
【文献】中国特許出願公開第111260569(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/16
(57)【特許請求の範囲】
【請求項1】
コンピュータビジョンに基づく文字列認識方法であって、
認識対象文字列が付いた画像を取得するステップと、
予め構築された位置検出モデルに基づいて、前記認識対象文字列が付いた画像のうちの前記認識対象文字列が位置する目標領域画像を取得するステップと、
前記目標領域画像を横方向補正して、横方向の目標領域画像を得るステップと、
予め構築された角度判定モデルに基づいて、前記横方向の目標領域画像の文字列の起立状態を取得するステップと、
前記文字列の起立状態が正立状態である場合、予め構築されたコンテンツ認識モデルに前記横方向の目標領域画像を入力し、前記認識対象文字列に対応する文字列コンテンツを取得するステップ
であって、
前記コンテンツ認識モデルを利用して、前記横方向の目標領域画像に対してグローバル画像特徴抽出を行い、前記横方向の目標領域画像に対応する文字列画像特徴を得るステップと、
行ベクトル畳み込みカーネルを用いて前記横方向に沿って前記文字列画像特徴に対して第2特徴強調処理を行うステップと、
前記第2特徴強調処理により得られた文字列画像特徴に基づいて、前記認識対象文字列を並列予測して、前記文字列コンテンツを得るステップとを含む、ことを特徴とする文字列認識方法。
【請求項2】
前記予め構築された角度判定モデルに基づいて、前記横方向の目標領域画像の文字列の起立状態を取得するステップは、
前記角度判定モデルに基づいて、前記横方向の目標領域画像の起立角度を取得するステップと、
前記起立角度が属する起立角度区間から、前記文字列の起立状態を決定するステップとを含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記起立角度区間は第1角度区間と第2角度区間を含み、前記文字列の起立状態は正立状態と倒立状態とを含み、
前記起立角度が属する起立角度区間から、前記文字列の起立状態を決定する前記ステップは、
前記起立角度区間が前記第1角度区間である場合、前記文字列の起立状態を前記正立状態として決定するステップと、
前記起立角度区間が前記第2角度区間である場合、前記文字列の起立状態を前記倒立状態として決定するステップとを含む、ことを特徴とする請求項2に記載の方法。
【請求項4】
前記文字列の起立状態が前記倒立状態である場合、前記横方向の目標領域画像を前記正立状態に回転させるステップをさらに含む、ことを特徴とする請求項3に記載の方法。
【請求項5】
予め構築された位置検出モデルに基づいて、前記認識対象文字列が付いた画像のうちの前記認識対象文字列が位置する目標領域画像を取得する前記ステップは、
前記位置検出モデルを利用して、前記認識対象文字列が付いた画像から文字領域画像特徴を抽出するステップと、
前記文字領域画像特徴に従って、前記目標領域画像の予測マスクを取得するステップと、
前記予測マスクについ
て最小外接矩形を求め、前記目標領域画像を得るステップとを含む、ことを特徴とする請求項1に記載の方法。
【請求項6】
前記認識対象文字列が付いた画像から文字領域画像特徴を抽出する前記ステップは、
前記認識対象文字列が付いた画像を前処理し、前処理後の画像から高次元画像特徴を抽出するステップと、
画像特徴ピラミッドを利用して、前記高次元画像特徴に対して第1特徴強調処理を行い、前記文字領域画像特徴とするステップとを含む、ことを特徴とする請求項5に記載の方法。
【請求項7】
前記前処理は、
前記認識対象文字列が付いた画像のうちの小さい又は視認しにくい文字列領域画像をフィルタリングし、前記認識対象文字列が付いた画像内の前記高次元画像特徴を抽出するステップを含む、ことを特徴とする請求項6に記載の方法。
【請求項8】
コンピュータビジョンに基づく文字列認識装置であって、
認識対象文字列が付いた画像を取得する画像取得モジュールと、
予め構築された位置検出モデルに基づいて、前記認識対象文字列が付いた画像のうちの前記認識対象文字列が位置する目標領域画像を取得する位置検出モジュールと、
前記目標領域画像を横方向補正して、横方向の目標領域画像を得る横方向補正モジュールと、
予め構築された角度判定モデルに基づいて、前記横方向の目標領域画像の文字列の起立状態を取得する角度判定モジュールと、
前記文字列の起立状態が正立状態である場合、予め構築されたコンテンツ認識モデルに前記横方向の目標領域画像を入力し、前記認識対象文字列に対応する文字列コンテンツを取得するコンテンツ認識モジュール
であって、
前記コンテンツ認識モデルを利用して、前記横方向の目標領域画像に対してグローバル画像特徴抽出を行い、前記横方向の目標領域画像に対応する文字列画像特徴を得ることと、
行ベクトル畳み込みカーネルを用いて前記横方向に沿って前記文字列画像特徴に対して第2特徴強調処理を行うことと、
前記第2特徴強調処理により得られた文字列画像特徴に基づいて、前記認識対象文字列を並列予測して、前記文字列コンテンツを得ることを行うコンテンツ認識モジュールとを含む、ことを特徴とする文字列認識装置。
【請求項9】
コンピュータプログラムが記憶されているメモリと、
前記コンピュータプログラムを実行すると請求項1~
7のいずれか1項に記載の方法のステップを実現するプロセッサと、を含むことを特徴とするコンピュータ機器。
【請求項10】
プロセッサによって実行されると請求項1~
7のいずれか1項に記載の方法のステップを実現するコンピュータプログラムが記憶されている、ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、コンピュータビジョンに基づく文字列認識方法、装置、コンピュータ機器及び記憶媒体に関する。
【0002】
本願は、2020年07月03日に提出された、発明が「コンピュータビジョンに基づく文字列認識方法、装置、機器及び媒体」、出願番号が202010630553.0である中国出願の優先権を主張しており、当該出願の開示内容は引用により全体として本願に組み込まれている。
【背景技術】
【0003】
コンピュータビジョン技術の発展に伴い、文字列に対する認識はコンピュータビジョン技術が生活において実際に適用されることの1つとなっており、例えば、工業シーンにおいて、シリアル番号、製造日、ステンシルや碑文などの文字列を認識する。一般には、文字列に対する認識プロセスでは、まず文字列の位置を検出し、検出した位置にある文字列をトリミングし、最後に、トリミングした文字列画像について角度判定及び認識を行い、対応するテキストコンテンツを得るか、又は、文字列を特殊な目標として検出し、分類器によって検出し、画像構造のモデルに基づいて1つの語として集約するか、又はニューラルネットワークアルゴリズムにより、画像特徴及び文字列位置と対応するコンテンツとのマッチング関係を作成することで、文字列を認識する。
【発明の概要】
【課題を解決するための手段】
【0004】
複数の実施例によれば、本願の第1態様は、
認識対象文字列が付いた画像を取得するステップと、
予め構築された位置検出モデルに基づいて、前記認識対象文字列が付いた画像のうちの前記認識対象文字列が位置する目標領域画像を取得するステップと、
前記目標領域画像を横方向補正して、横方向の目標領域画像を得るステップと、
予め構築された角度判定モデルに基づいて、前記横方向の目標領域画像の文字列の起立状態を取得するステップと、
前記文字列の起立状態が正立状態である場合、予め構築されたコンテンツ認識モデルに前記横方向の目標領域画像を入力し、前記認識対象文字列に対応する文字列コンテンツを取得するステップとを含む、コンピュータビジョンに基づく文字列認識方法を提供する。
【0005】
複数の実施例によれば、本願の第2態様は、
認識対象文字列が付いた画像を取得する画像取得モジュールと、
予め構築された位置検出モデルに基づいて、前記認識対象文字列が付いた画像のうちの前記認識対象文字列が位置する目標領域画像を取得する位置検出モジュールと、
前記目標領域画像を横方向補正して、横方向の目標領域画像を得る横方向補正モジュールと、
予め構築された角度判定モデルに基づいて、前記横方向の目標領域画像の文字列の起立状態を取得する角度判定モジュールと、
前記文字列の起立状態が正立状態である場合、予め構築されたコンテンツ認識モデルに前記横方向の目標領域画像を入力し、前記認識対象文字列に対応する文字列コンテンツを取得するコンテンツ認識モジュールとを含む、コンピュータビジョンに基づく文字列認識装置を提供する。
【0006】
複数の実施例によれば、本願の第3態様は、
コンピュータプログラムが記憶されているメモリと、前記コンピュータプログラムを実行すると上記方法のステップを実現するプロセッサとを含む、コンピュータ機器を提供する。
【0007】
複数の実施例によれば、本願の第4態様は、
プロセッサによって実行されると上記の方法のステップを実現するコンピュータプログラムが記憶されている、コンピュータ読み取り可能な記憶媒体を提供する。
【0008】
本願の1つ又は複数の実施例の詳細は以下の図面及び説明に記載される。本願の他の特徴及び利点は、明細書、図面及び特許請求の範囲から明らかになる。
【0009】
本願の実施例又は従来技術の技術的解決手段をより明確に説明するために、以下、実施例又は従来の説明に必要な図面を簡単に説明するが、以下の説明における図面は本願の一部の実施例に過ぎず、当業者であれば、創造的な努力を必要とせずに、これらの図面に基づいて他の図面を得ることもできることは明らかである。
【図面の簡単な説明】
【0010】
【
図1】一実施例におけるコンピュータビジョンに基づく文字列認識方法の流れの概略図である。
【
図2】一実施例における予め構築された角度判定モデルに基づいて、横方向の目標領域画像の文字列の起立状態を取得する流れの概略図である。
【
図3】一実施例における予め構築された位置検出モデルに基づいて、画像のうちの認識対象文字列が位置する目標領域画像を取得する流れの概略図である。
【
図4】一実施例における予め構築されたコンテンツ認識モデルに横方向の目標領域画像を入力し、認識対象文字列に対応する文字列コンテンツを取得する流れの概略図である。
【
図5】別の実施例におけるコンピュータビジョンに基づく文字列認識方法の流れの概略図である。
【
図6】一適用例におけるアルゴリズムトレーニング及び予測処理の流れの概略図である。
【
図7】一適用例における画像特徴ピラミッドの構造概略図である。
【
図8】一適用例における文字列角度判定アルゴリズムの流れの概略図である。
【
図9】一適用例における文字列コンテンツ認識アルゴリズムの流れの概略図である。
【
図10】一実施例におけるコンピュータビジョンに基づく文字列認識装置の構造ブロック図である。
【
図11】一実施例におけるコンピュータ機器の内部構造図である。
【発明を実施するための形態】
【0011】
現在の文字列認識方法は、全て低次元の手動特徴に基づくものであり、工業シーンにおける画像撮影角度の変化への適応処理能力に欠けるため、文字列に対する認識の正確率が低い。
【0012】
本願の目的、技術的解決手段及び利点をより明確にするために、以下、図面及び実施例を参照して、本願についてさらに詳細に説明する。なお、ここで説明される具体的な実施例は本願を解釈するために過ぎず、本願を限定するものではない。
【0013】
一実施例では、
図1に示すように、コンピュータビジョンに基づく文字列認識方法を提供し、本実施例では、該方法が端末に適用される場合を例として説明するが、該方法はサーバに適用されてもよいし、端末とサーバを備えたシステムに適用され、端末とサーバとの相互作用を通じて実装されてもよいことが理解される。本実施例では、該方法は、ステップS101~ステップS105を含む。
【0014】
ステップS101において、端末は認識対象文字列が付いた画像を取得する。
【0015】
ここでは、認識対象文字列とは、ユーザが画像から取得すべき文字列を指し、該画像は工業シーンで撮影された画像であってもよい。具体的には、ユーザは、携帯電話のカメラ又はビデオ収集機器などにより、さまざまなシーンから認識対象文字列が付いた画像を記録し、この画像を端末に記憶し、端末が認識対象文字列が付いた画像を得るようにしてもよい。
【0016】
ステップS102において、端末は、予め構築された位置検出モデルに基づいて、認識対象文字列が付いた画像のうちの認識対象文字列が位置する目標領域画像を取得する。
【0017】
ここでは、位置検出モデルは主に画像内の認識対象文字の位置領域を検出するものであり、目標領域画像とは、認識対象文字列の該画像での位置領域の画像を指す。具体的には、端末は、予め構築された位置検出モデルを利用して、認識対象文字列が付いた画像に対して文字列位置検出を行うことで、認識対象文字列が位置する目標領域画像を決定してもよい。
【0018】
ステップS103において、端末は、目標領域画像を横方向補正して、横方向の目標領域画像を得る。
【0019】
ユーザがさまざまな撮影角度から認識対象文字列の画像を撮影するのが一般的であるため、端末により得られた、認識対象文字列が付いた画像では、認識対象文字列は横方向に配列されるのではなく、横方向とある角度をなして表現される場合が多い。このため、文字列認識の正確性を向上させるために、端末は、ステップS102で目標領域画像を得た後、目標領域画像を横方向に補正して、横方向の目標領域画像を得る必要がある。横方向の目標領域画像内では、認識対象文字列は横方向に配列される。具体的には、端末は目標領域画像に対してアフィン変換を行うことで横方向補正を行い、横方向の目標領域画像を得るようにしてもよい。
【0020】
ステップS104において、端末は、予め構築された角度判定モデルに基づいて、横方向の目標領域画像の文字列の起立状態を取得する。
【0021】
ステップS103では、端末は、目標領域画像に対する横方向補正を完了した後、ユーザの初期の撮影画像の角度から、得た横方向の目標領域画像の文字列の起立状態が正立状態であってもよいし、倒立状態であってもよく、倒立状態である場合、文字列の起立状態のずれにより最終の文字列認識結果が影響を受ける。このため、端末は、横方向の目標領域画像を得た後、得た横方向の目標領域画像の文字列の起立状態を決定する必要がある。具体的には、端末は、予め構築された角度判定モデルに横方向の目標領域画像を入力することで、横方向の目標領域画像の文字列の起立状態を決定してもよい。
【0022】
ステップS105において、端末は、文字列の起立状態が正立状態である場合、予め構築されたコンテンツ認識モデルに横方向の目標領域画像を入力し、認識対象文字列に対応する文字列コンテンツを取得する。
【0023】
一方、端末は、このときの文字列の起立状態を正立状態として決定した場合、予め構築されたコンテンツ認識モデルに横方向の目標領域画像を直接入力してもよく、コンテンツ認識モデルは主に目標領域画像内の文字列のコンテンツを認識するものであり、このため、端末は、このコンテンツ認識モデルを利用して、認識対象文字列に対応する文字列コンテンツを得てもよい。
【0024】
上記のコンピュータビジョンに基づく文字列認識方法では、端末は、認識対象文字列が付いた画像を取得し、予め構築された位置検出モデルに基づいて、画像のうちの認識対象文字列が位置する目標領域画像を取得し、目標領域画像を横方向補正して、横方向の目標領域画像を得て、予め構築された角度判定モデルに基づいて、横方向の目標領域画像の文字列の起立状態を取得し、文字列の起立状態が正立状態である場合、予め構築されたコンテンツ認識モデルに横方向の目標領域画像を入力し、認識対象文字列に対応する文字列コンテンツを取得する。本願では、端末が目標領域画像を横方向補正することにより、工業シーンにおける画像撮影角度の変化への適応処理が図られ、文字列に対する認識の正確率が向上する。
【0025】
一実施例では、
図2に示すように、ステップS104は、ステップS201とステップS202を含む。
【0026】
ステップS201において、端末は、角度判定モデルに基づいて、横方向の目標領域画像の起立角度を取得する。
【0027】
ここでは、角度判定モデルは主に横方向の目標領域画像の角度を決定するものであり、文字列の起立状態が主としてユーザの初期の撮影画像の角度によるものであるため、端末はこの角度判定モデルにより、横方向の目標領域画像の起立角度を決定し、起立角度を利用して文字列の起立状態を決定してもよい。
【0028】
ステップS202において、端末は、起立角度が属する起立角度区間から、文字列の起立状態を決定する。
【0029】
一方、端末により得られた横方向の目標領域画像の起立角度と標準の横方向角度との間の僅かなずれを回避するために、ステップS201では、端末は、角度判定モデルによって起立角度を決定した後、予め設定された起立角度区間表から、当該起立角度に適した起立角度区間を、該起立角度が属する起立角度区間として選択し、起立角度区間を利用して文字列の起立状態を決定してもよい。
【0030】
さらに、起立角度区間は第1角度区間と第2角度区間を含んでもよく、文字列の起立状態は正立状態と倒立状態を含んでもよく、ステップS202は、起立角度区間が第1角度区間である場合、端末は文字列の起立状態を正立状態として決定するステップと、起立角度区間が第2角度区間である場合、文字列の起立状態を倒立状態として決定するステップとをさらに含んでもよい。
【0031】
ここでは、第1角度区間と第2角度区間はそれぞれ2つの異なる角度区間であり、文字列の2種の起立状態をそれぞれ表す。具体的には、端末により得られた横方向の目標領域画像の起立角度が属する起立角度区間が第1角度区間である場合、端末は、このときの横方向の目標領域画像を正立状態として決定してもよく、一方、端末により得られた横方向の目標領域画像の起立角度が属する起立角度区間が第2角度区間である場合、端末は、このときの横方向の目標領域画像を倒立状態として決定してもよい。
【0032】
また、文字列の起立状態が倒立状態である場合、横方向の目標領域画像を正立状態に回転させて、コンテンツ認識モデルに入力し、文字列コンテンツを取得する。
【0033】
端末がコンテンツ認識モデルに倒立状態の横方向の目標領域画像をそのまま入力すれば、コンテンツ認識モデルが得た文字列コンテンツと実際の文字コンテンツとの間のずれをもたらす恐れがある。このため、コンテンツ認識モデルに横方向の目標領域画像を入力するに先立って、横方向の目標領域画像を回転させて、正立状態にする必要があり、例えば、横方向の目標領域画像の中心を180°回転させることによって、横方向の目標領域画像を正立状態に回転させ、コンテンツ認識モデルに回転後の横方向の目標領域画像を入力し、認識対象文字列の文字列コンテンツを得るようにしてもよい。
【0034】
上記の実施例では、端末は、角度判定モデルにより、横方向の目標領域画像の起立角度を得て、文字列の起立状態を決定してもよく、一方、文字列の起立状態が倒立状態である場合、端末は、回転によって横方向の目標領域画像を正立状態に変換し、コンテンツ認識モデルに正立状態の横方向の目標領域画像を入力し、文字列コンテンツを得るようにしてもよく、これは、得た文字列コンテンツの正確性のさらなる向上に有利である。
【0035】
一実施例では、
図3に示すように、ステップS102は、ステップS301~ステップS303を含む。
【0036】
ステップS301において、端末は、位置検出モデルを利用して、画像から文字領域画像特徴を抽出する。
【0037】
ここでは、文字領域画像特徴とは、文字列位置を決定するための画像特徴を指す。具体的には、端末は、位置検出モデルを利用して、得た認識対象文字列の画像から、上記文字領域画像特徴を抽出してもよい。
【0038】
ステップS302において、端末は、文字領域画像特徴に従って、目標領域画像の予測マスクを取得する。
【0039】
ここで、マスクとは、選択された画像、図形又は物体であり、処理対象の画像(グローバル又はローカル)を遮断することで、画像の処理領域又は処理プロセスを制御することを指す。具体的には、端末は、文字領域画像特徴を利用して、文字領域画像特徴に対応する予測マスクを得るようにしてもよい。
【0040】
ステップS303において、端末は、予測マスクについて連通ドメイン及び最小外接矩形を求め、目標領域画像を得る。
【0041】
ステップS302では、端末は、目標領域画像の予測マスクを得た後、該マスクについて連通ドメイン及び最小外接矩形を求め、目標画像を得るようにしてもよい。
【0042】
さらに、端末により得られた認識対象文字列が付いた画像に存在し得る鮮明さの不足や、光照射強度が低すぎることにより文字列認識の正確率が低すぎるという問題を回避するために、一実施例では、ステップS301は、さらに、端末は、画像を前処理し、前処理後の画像から高次元画像特徴を抽出するステップと、画像特徴ピラミッドを利用して、高次元画像特徴に対して第1特徴強調処理を行い、文字領域画像特徴とするステップとを含んでもよい。
【0043】
ここで、前処理のプロセスは、端末が、認識対象文字列が付いた画像のうちの小さい又は視認しにくい文字列領域画像をフィルタリングすることで、認識対象文字列が付いた画像内の高次元画像特徴を抽出できることであってもよく、また、端末は、画像特徴ピラミッドを利用して、抽出した高次元画像特徴に対して第1特徴強調処理を行ってもよく、これは、文字領域画像特徴の特徴表現能力の向上に有利であり、特徴が不明確な環境においても正確な目標領域画像の予測マスクを生成することが可能である。
【0044】
上記実施例では、端末は、画像から文字領域画像特徴を抽出し、対応する予測マスクを生成し、また、予測マスクについて連通ドメイン及び最小外接矩形を求めることで、正確な目標領域画像を得てもよく、また、特徴が不明瞭であることによる文字列の認識漏れや誤認識などの問題を回避するために、端末は、画像特徴ピラミッドにより、抽出した画像特徴に対して第1特徴強調処理を行うことで、文字領域画像特徴の特徴表現能力を向上させることができ、これにより、文字列認識の正確性をさらに向上させる。
【0045】
一実施例では、
図4に示すように、ステップS105は、ステップS401~ステップS403を含む。
【0046】
ステップS401において、端末は、コンテンツ認識モデルを利用して、横方向の目標領域画像に対してグローバル画像特徴抽出を行い、横方向の目標領域画像に対応する文字列画像特徴を得る。
【0047】
ここで、コンテンツ認識モデルは、主に横方向の目標領域画像に含まれる認識対象文字列の文字コンテンツを認識するものである。具体的には、端末は、コンテンツ認識モデルを利用して、得た横方向の目標領域画像に対してグローバル画像特徴抽出を行い、横方向の目標領域画像に対応する文字列画像特徴を得るようにしてもよい。
【0048】
ステップS402において、端末は、行ベクトル畳み込みカーネルを用いて横方向に沿って文字列画像特徴に対して第2特徴強調処理を行う。
【0049】
ここでは、第2特徴強調処理とは、文字列画像特徴に対する特徴強調処理を指す。具体的には、ステップS401では、文字列画像特徴を得た後、行ベクトル畳み込みカーネルを用いて、横方向、すなわち文字列の方向に沿って文字列画像特徴に対して第2特徴強調処理を行ってもよい。
【0050】
ステップS403において、端末は、第2特徴強調処理により得られた文字列画像特徴に基づいて、認識対象文字列を並列予測して、前記文字列コンテンツを得る。
【0051】
また、文字列認識の効率をさらに高めるために、端末は、第2特徴強調処理により得られた文字列画像特徴について、文字列コンテンツの認識を行ってもよく、また、認識プロセスは並列予測であり、複数の文字列について予測することができ、このため、文字列コンテンツに対する効率的な予測が図られる。
【0052】
本実施例では、端末は、コンテンツ認識モデルによって文字列のコンテンツを正確に認識し、文字列画像特徴に対して第2特徴強調処理を行うことで、特徴の表現能力を向上させることができ、これにより、文字列コンテンツ認識の正確性を向上させ、また、並列予測方法によって全ての文字列に対して予測を行うことで、文字列コンテンツ認識の効率をさらに向上させる。
【0053】
一実施例では、
図5に示すように、コンピュータビジョンに基づく文字列認識方法を提供し、本実施例では、該方法が端末に適用される場合を例として説明するが、本実施例では、該方法は、ステップS501~ステップS510を含む。
【0054】
ステップS501において、端末は、認識対象文字列が付いた画像を取得する。
【0055】
ステップS502において、端末は、画像を前処理し、前処理後の画像から高次元画像特徴を抽出し、画像特徴ピラミッドを利用して、高次元画像特徴に対して第1特徴強調処理を行い、文字領域画像特徴とする。
【0056】
ステップS503において、端末は、文字領域画像特徴に従って、目標領域画像の予測マスクを取得し、予測マスクについて連通ドメイン及び最小外接矩形を求め、目標領域画像を得る。
【0057】
ステップS504において、端末は、目標領域画像を横方向補正して、横方向の目標領域画像を得る。
【0058】
ステップS505において、端末は、角度判定モデルに基づいて、横方向の目標領域画像の起立角度を取得する。
【0059】
ステップS506において、起立角度区間が前記第1角度区間である場合、端末は、文字列の起立状態を正立状態として決定し、起立角度区間が第2角度区間である場合、端末は、文字列の起立状態を倒立状態として決定する。
【0060】
ステップS507において、文字列の起立状態が正立状態である場合、端末は、予め構築されたコンテンツ認識モデルに横方向の目標領域画像を入力し、文字列の起立状態が倒立状態である場合、端末は、横方向の目標領域画像を正立状態に回転させてコンテンツ認識モデルに入力する。
【0061】
ステップS508において、端末は、コンテンツ認識モデルを利用して、横方向の目標領域画像に対してグローバル画像特徴抽出を行い、横方向の目標領域画像に対応する文字列画像特徴を得る。
【0062】
ステップS509において、端末は、行ベクトル畳み込みカーネルを用いて横方向に沿って文字列画像特徴に対して第2特徴強調処理を行う。
【0063】
ステップS510において、端末は、第2特徴強調処理により得られた文字列画像特徴に基づいて、認識対象文字列を並列予測して、文字列コンテンツを得る。
【0064】
上記実施例では、端末が目標領域画像を横方向補正することにより、工業シーンにおける画像撮影角度の変化への適応処理が図られ、文字列に対する認識の正確率が向上する。また、端末は、角度判定モデルにより、横方向の目標領域画像の起立角度を得て、文字列の起立状態を決定してもよく、文字列の起立状態が倒立状態である場合、端末は、回転によって横方向の目標領域画像を正立状態に変換し、これは、得られた文字列コンテンツの正確性のさらなる向上に有利である。また、端末は、画像特徴ピラミッドを利用して、抽出した高次元画像特徴に対して第1特徴強調処理を行い、文字列画像特徴に対して第2特徴強調処理を行ってもよく、これにより、特徴の表現能力を向上させ、文字列コンテンツ認識の正確性をさらに向上させることができる。しかも、並列予測方法によって全ての文字列について予測を行うことにより、文字列コンテンツ認識の効率をさらに向上させる。
【0065】
一適用例では、現在の工業シーンにおいて、文字認識アルゴリズムのぼやけ、光照射や角度変化などの場合での認識漏れ、誤認識等の問題を効果的に解決し、認識正確率をより高くする目的で、工業シーンにおける任意の角度の文字列認識アルゴリズムをさらに提供する。本願は、カメラの画像形成環境が悪い工業環境に配置されてもよく、また、認識アルゴリズムの効率性や正確性を確保し、多角度、さらに倒立文字の認識をサポートする。ここで、アルゴリズムのトレーニング及び予測処理の流れを
図6に示す。流れは主としてアルゴリズムのトレーニングと予測の2つのプロセスに分けられる。トレーニングプロセスでは、それぞれ文字列位置の検出、文字列角度の判定及び文字列コンテンツの認識のための3つの異なるモデルをトレーニングする必要がある。予測プロセスでは、トレーニング済みのモデルはテスト画像に入力されて、位置検出、角度判定及び認識コンテンツの順に処理を行い、最後に、文字列、位置及び対応するコンテンツが得られる。
【0066】
各モジュールによる処理の流れは、具体的には、以下のとおりである。
【0067】
(一)トレーニングプロセス
1.1 文字列位置検出アルゴリズム
トレーニングサンプルは、文字列を含む全体のサンプル画像であり、対応する注釈は、文字列位置の座標情報、例えば文字列の開始点の左上隅及び終了点の右下隅の情報を含む画像内の文字列の位置ボックスである。異なるトレーニングサンプルの間にスケール、色分布の違いが存在することから、サンプルに対して正規化処理を行うとともに、小さい又は視認しにくい文字列位置ボックスをフィルタリングする必要がある。画像前処理を受けたデータは、文字列位置検出アルゴリズム部分の入力とし、この部分はディープニューラルネットワークを介して、画像特徴ピラミッド構造と合わせて特徴強調を行う。
図7に示すように、conv
は畳み込み層を表し、stride
はステップサイズを表し、抽出した各スケールの特徴についてアップサンプリングを行い、以前にネットワークを介して得られた特徴を加算することにより、最終的な画像特徴が得られる。この場合、該特徴は、空間情報に加えて、セマンティクス情報を保持している。位置検出アルゴリズムによって得られた画像特徴は、最終的な画像文字列領域に対するマスクを予測することに用いられる。該マスクについて連通ドメイン及び最小外接矩形を求めることにより、文字列位置ボックスが得られる。
1.2 文字列角度判定アルゴリズム
図8に示すように、文字列の角度が0度よりも大きく180度未満の場合、アフィン変換によって横方向に補正された文字列画像が得られる。横方向に補正された後、最初の撮影角度により、補正後の文字列について正立か倒立が確保されにくく、このため、補正後の文字列が倒立であるか否かを判定するための角度判定アルゴリズムが追加され、倒立の場合、中心に対して文字列を180度回転させ、正立の場合、処理せずに直接出力する。このようにして、最終的に得られた文字列画像が正立のものとして確保され、次の文字列コンテンツの出力とされる。
1.3 文字列コンテンツ認識アルゴリズム
図9に示すように、文字列画像コンテンツの認識には、ディープニューラルネットワークを用いて文字列特徴について学習を行い、列全体の特徴を取得するために、最後に、抽出した画像特徴に対して、行ベクトルを畳み込みカーネルとして、文字列方向に沿って特徴強調を行い、これにより、文字列コンテンツを並列して効率的に予測する。
【0068】
(二)予測プロセス
テスト画像を入力し、まず、文字列位置検出アルゴリズムで該テスト画像の文字列位置を検出する。次に、検出した画像領域についてトリミング及びアフィン変換を行い、変換後のトリミング領域を文字列角度判定アルゴリズムに供給し、トリミング領域画像が倒立であると判定した場合、中心に対して180度回転させ、正立であると判定した場合、処理しない。文字列位置検出アルゴリズム及び文字列角度判定アルゴリズムで処理された画像領域を、文字列コンテンツ認識ネットワークの入力とし、最後に、コンテンツ認識ネットワークにより、画像内の文字列の位置及び対応する文本コンテンツを得る。
【0069】
上記適用例では、カスケード文字列位置検出アルゴリズム、文字列角度判定アルゴリズム及び文字列コンテンツ認識アルゴリズムという合計3段階のアルゴリズムにより、形成画像の鮮明さが変化したり、角度が変化したり、光照射が変化したりする一般的な工業シーンにおいても文字列を安定的かつ効率よく認識するアルゴリズムが得られ、工業シーンにおける文字列認識の適用のための基礎を築いた。
【0070】
なお、本願の流れ図における各ステップは、矢印のような順で示されているものの、これらのステップは必ずしも矢印のような順番に従って実行されるわけではない。明確な記載がない限り、これらのステップの実行の順番には厳格な制限がなく、これらのステップは他の順番で実行されてもよい。そして、図における少なくとも一部のステップは複数のステップ又は複数の段階を含んでもよく、これらのステップ又は段階は必ずしも同じタイミングで完了するわけではなく、異なるタイミングで実行されても構わず、これらのステップ又は段階は必ずしも順次実行されるとは限らず、他のステップ、他のステップにおけるステップ又は段階の少なくとも一部と順番に又は交互に実行されてもよい。
【0071】
一実施例では、
図10に示すように、画像取得モジュール1001と、位置検出モジュール1002と、横方向補正モジュール1003と、角度判定モジュール1004と、コンテンツ認識モジュール1005とを含むコンピュータビジョンに基づく文字列認識装置を提供し、
画像取得モジュール1001は、認識対象文字列が付いた画像を取得するために用いられる。
位置検出モジュール1002は、予め構築された位置検出モデルに基づいて、画像のうちの認識対象文字列が位置する目標領域画像を取得するために用いられる。
横方向補正モジュール1003は、目標領域画像を横方向補正して、横方向の目標領域画像を得るために用いられる。
角度判定モジュール1004は、予め構築された角度判定モデルに基づいて、横方向の目標領域画像の文字列の起立状態を取得するために用いられる。
コンテンツ認識モジュール1005は、文字列の起立状態が正立状態である場合、予め構築されたコンテンツ認識モデルに横方向の目標領域画像を入力し、認識対象文字列に対応する文字列コンテンツを取得するために用いられる。
【0072】
一実施例では、角度判定モジュール1004は、さらに、角度判定モデルに基づいて、横方向の目標領域画像の起立角度を取得し、起立角度が属する起立角度区間から、文字列の起立状態を決定するために用いられる。
【0073】
一実施例では、起立角度区間は第1角度区間と第2角度区間を含み、文字列の起立状態は正立状態と倒立状態を含み、角度判定モジュール1004は、さらに、起立角度区間が前記第1角度区間である場合、文字列の起立状態を正立状態として決定し、起立角度区間が前記第2角度区間である場合、文字列の起立状態を倒立状態として決定するために用いられる。
【0074】
一実施例では、コンテンツ認識モジュール1005は、さらに、文字列の起立状態が倒立状態である場合、横方向の目標領域画像を正立状態に回転させる。
【0075】
一実施例では、位置検出モジュール1002は、さらに、位置検出モデルを利用して、認識対象文字列が付いた画像から文字領域画像特徴を抽出し、文字領域画像特徴に従って、目標領域画像の予測マスクを取得し、予測マスクについて連通ドメイン及び最小外接矩形を求め、目標領域画像を得るために用いられる。
【0076】
一実施例では、位置検出モジュール1002は、さらに、認識対象文字列が付いた画像を前処理し、前処理後の画像から高次元画像特徴を抽出し、画像特徴ピラミッドを利用して、高次元画像特徴に対して第1特徴強調処理を行い、文字領域画像特徴とするために用いられる。
【0077】
一実施例では、コンテンツ認識モジュール1005は、さらに、コンテンツ認識モデルを利用して、横方向の目標領域画像に対してグローバル画像特徴抽出を行い、横方向の目標領域画像に対応する文字列画像特徴を得て、行ベクトル畳み込みカーネルを用いて横方向に沿って文字列画像特徴に対して第2特徴強調処理を行い、第2特徴強調処理により得られた文字列画像特徴に基づいて、認識対象文字列を並列予測して、文字列コンテンツを得るために用いられる。
【0078】
コンピュータビジョンに基づく文字列認識装置についての具体的な限定は、上記でコンピュータビジョンに基づく文字列認識方法に対する限定を参照してもよいため、ここでは詳しく説明しない。上記コンピュータビジョンに基づく文字列認識装置における各モジュールの全部又は一部は、ソフトウェア、ハードウェアとソフトウェアとの組み合わせによって実装されてもよい。上記各モジュールは、ハードウェアの形態でコンピュータ機器のプロセッサに組み込まれたり、コンピュータ機器のプロセッサから独立してもよく、また、ソフトウェアの形態でコンピュータ機器のメモリに記憶されて、プロセッサによって呼び出されて以上の各モジュールに対応する操作を実行してもよい。
【0079】
一実施例では、コンピュータ機器を提供し、該コンピュータ機器は端末であってもよく、その内部構造図は
図11に示されるものであってもよい。該コンピュータ機器は、システムのバスを介して接続されたプロセッサ、メモリ、通信インターフェース、表示画面、及び入力装置を含む。該コンピュータ機器のプロセッサは計算及び制御の能力を提供するものである。該コンピュータ機器のメモリは、不揮発性記憶媒体、内部メモリを含む。該不揮発性記憶媒体にはオペレーティングシステム及びコンピュータプログラムが記憶されている。該内部メモリは不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムが実行するための環境を提供する。該コンピュータ機器の通信インターフェースは外部の端末と有線又は無線通信を行うことに用いられ、無線方式は、WIFI、事業者のネットワーク、NFC(近距離無線通信)や他の技術で実現されてもよい。該コンピュータプログラムは、プロセッサによって実行されると、コンピュータビジョンに基づく文字列認識方法を実現する。該コンピュータ機器の表示画面は液晶表示画面又は電子インク表示画面であってもよく、該コンピュータ機器の入力装置は表示画面上に覆われたタッチ層であってもよいし、コンピュータ機器のケースに設けられたボタン、トラックボール又はタッチパネルであってもよいし、外付けのキーボード、タッチパネルやマウスなどであってもよい。
【0080】
当業者にとって明らかなように、
図11に示す構造は、本願の解決手段に関連する部分の構造のブロック図に過ぎず、本願の解決手段が適用されるコンピュータ機器を限定するものではない。具体的には、コンピュータ機器は、図に示したものよりも少ない又は多い部材を含んだり、一部の部材を組み合わせたり、異なる部材の配置を有したりしてもよい。
【0081】
一実施例では、コンピュータプログラムが記憶されているメモリと、コンピュータプログラムを実行すると上記各方法実施例におけるステップを実現するプロセッサと、を含むコンピュータ機器をさらに提供する。
【0082】
一実施例では、プロセッサによって実行されると上記各方法実施例のステップを実現するコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供する。
【0083】
当業者にとって明らかなように、上記実施例方法の全部又は一部の流れは、コンピュータプログラムが関連するハードウェアに命令することで実施されてもよく、前記コンピュータプログラムは不揮発性コンピュータ読み取り可能な取記憶媒体に記憶されてもよく、該コンピュータプログラムは、実行されると、上記各方法の実施例の流れを含んでもよい。本願に係る各実施例で使用されるメモリ、記憶、データベース又は他の媒体の全ての引用は、不揮発性メモリ及び揮発性メモリの少なくとも1種を含んでもよい。不揮発性メモリは、読み取り専用メモリ(ROM:Read-Only Memory)、磁気テープ、フロッピーディスク、フラッシュメモリ又は光メモリなどを含んでもよい。揮発性メモリは、ランダムアクセスメモリ(RAM:Random Access Memory)又は外部キャッシュメモリを含んでもよい。非限定的な説明であるが、RAMは、スタティック ランダムアクセスメモリ(SRAM:Static Random Access Memory)又はダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)などのさまざまな形態であってもよい。
【0084】
以上の実施例の各技術的特徴は任意に組み合わせられてもよく、説明の便宜上、上記実施例の各技術的特徴の全ての可能な組み合わせは記載されていないが、これらの技術的特徴の組み合わせは、矛盾がない限り、本明細書に記載の範囲にあるとみなすべきである。
【0085】
以上に記載の実施例は本願のいくつかの実施形態に過ぎず、その説明は具体的かつ詳細であるが、本発明の特許範囲を制限するものとして理解すべきではない。なお、当業者であれば、本願の趣旨を逸脱せずに、いくつかの変形や改良を行うことができ、これらは全て本願の特許範囲に含まれるものとする。このため、本願の特許範囲は添付の特許請求の範囲に準じるべきである。