IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッドの特許一覧

特許7153088テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム
<>
  • 特許-テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム 図1
  • 特許-テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム 図2
  • 特許-テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム 図3
  • 特許-テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム 図4
  • 特許-テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-04
(45)【発行日】2022-10-13
(54)【発明の名称】テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム
(51)【国際特許分類】
   G06V 30/194 20220101AFI20221005BHJP
   G06T 7/00 20170101ALI20221005BHJP
【FI】
G06V30/194
G06T7/00 350C
G06T7/00 300F
【請求項の数】 11
(21)【出願番号】P 2020561646
(86)(22)【出願日】2020-01-17
(65)【公表番号】
(43)【公表日】2021-08-12
(86)【国際出願番号】 CN2020072804
(87)【国際公開番号】W WO2020199730
(87)【国際公開日】2020-10-08
【審査請求日】2020-11-02
(31)【優先権主張番号】201910251661.4
(32)【優先日】2019-03-29
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】321006888
【氏名又は名称】ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】▲劉▼学博
【審査官】宮島 潤
(56)【参考文献】
【文献】特開2017-194806(JP,A)
【文献】特開平9-54814(JP,A)
【文献】国際公開第2018/094294(WO,A1)
【文献】中国特許出願公開第108287585(CN,A)
【文献】Xuebo Liu,FOTS: Fast Oriented Text Spotting with a Unified Network,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,IEEE,2018年06月18日,pp.5676 - 5685,URL,https://ieeexplore.ieee.org/document/8578693
(58)【調査した分野】(Int.Cl.,DB名)
G06K 9/00 - 9/03
G06K 9/46 - 9/52
G06K 9/62 - 9/82
G06K 9/18 - 9/44
G06K 9/54 - 9/60
G06V 30/00 - 30/12
G06V 30/18 - 30/222
G06V 30/226 - 30/32
G06V 30/42 - 30/424
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
(57)【特許請求の範囲】
【請求項1】
テキスト認識方法であって、
検出対象画像に対して特徴抽出処理を行うことによって、複数のセマンティックベクトルを得ることであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することと、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行うことによって、前記テキストシーケンスの認識結果を得ること
を含み、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行うことによって、前記テキストシーケンスの認識結果を得ることは、
前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つであり、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含み、前記重みパラメータは、ターゲットセマンティックベクトルに対して重み付け処理を行うことによって前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを決定するためのものである、ことと、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することと
を含む、テキスト認識方法。
【請求項2】
畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行うことによって、前記ターゲットセマンティックベクトルの重みパラメータを得ることは、
前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行うことによって、前記ターゲットセマンティックベクトルの符号化後の第1ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記先験的情報の符号化後の第2ベクトルを得ることと、
前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定すること
を含む請求項に記載のテキスト認識方法。
【請求項3】
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記先験的情報の符号化後の第2ベクトルを得ることは、
前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行うことによって、前記先験的情報の単語埋め込み後の特徴ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記特徴ベクトルに対して符号化処理を行うことによって、前記第2ベクトルを得ること
を含む請求項に記載のテキスト認識方法。
【請求項4】
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記先験的情報の符号化後の第2ベクトルを得ることは、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行うことによって、前記第2ベクトルを得ることを含む請求項又はに記載のテキスト認識方法。
【請求項5】
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することは、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理することによって、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定すること
を含む請求項1~4のいずれか一項に記載のテキスト認識方法。
【請求項6】
前記検出対象画像に対して特徴抽出処理を行うことによって、複数のセマンティックベクトルを得ることは、
前記検出対象画像に対して特徴抽出を行うことによって、特徴情報を得ることと、
前記特徴情報に対してダウンサンプリング処理を行うことによって、前記複数のセマンティックベクトルを得ること
を含む請求項1~5のいずれか一項に記載のテキスト認識方法。
【請求項7】
テキスト認識装置であって、
検出対象画像に対して特徴抽出処理を行うことによって、複数のセマンティックベクトルを得るように構成される抽出モジュールであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する抽出モジュールと、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行うことによって、前記テキストシーケンスの認識結果を得るように構成される認識モジュール
を備え、
前記認識モジュールは、
前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つであり、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含み、前記重みパラメータは、ターゲットセマンティックベクトルに対して重み付け処理を行うことによって前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを決定するためのものである、ことと、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することと
を行う、テキスト認識装置。
【請求項8】
前記抽出モジュールは、
前記検出対象画像に対して特徴抽出を行うことによって、特徴情報を得ることと、
前記特徴情報に対してダウンサンプリング処理を行うことによって、前記複数のセマンティックベクトルを得ること
を行う、請求項に記載のテキスト認識装置。
【請求項9】
電子機器であって、
プロセッサと、
前記プロセッサにより実行される命令を記憶するメモリ
を備え、
前記プロセッサは、前記メモリに記憶されている前記命令を実行することにより、請求項1~6のいずれか一項に記載のテキスト認識方法を実行する、電子機器。
【請求項10】
コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令は、プロセッサによって実行されると、請求項1~6のいずれか一項に記載のテキスト認識方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
【請求項11】
コンピュータプログラムであって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項1~6のいずれか一項に記載のテキスト認識方法を実行することを前記プロセッサに行わせる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2019年3月29日に提出された、出願番号が201910251661.4であり、発明名称が「テキスト認識方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張する
【0002】
本出願は、コンピュータビジョン技術分野に関し、特にテキスト認識方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0003】
自然のシーンにおけるテキスト認識は、画像理解及び画像復元分野における重要な課題である。正確なテキスト認識は、例えば画像理解、自動翻訳、視覚障害者誘導、ロボットナビゲーションなどに用いられる。現在、コーデックフレームワークに基づいたテキスト認識システムは、一般的には、エンコーダ及びデコーダとして再帰型ニューラルネットワークを用いる。
【発明の概要】
【課題を解決するための手段】
【0004】
本出願の一態様によれば、テキスト認識方法を提供する。該方法は、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することと、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることとを含む。
【0005】
本出願の実施例のテキスト認識方法によれば、テキスト認識の精度を向上させることができる。
【0006】
幾つかの実施例において、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることは、前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つであることと、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することとを含む。
【0007】
このような方式によれば、先験的情報に基づいて得られた重みパラメータを利用してターゲットセマンティックベクトルに対して重み付けを行い、ターゲットセマンティックベクトル認識過程において、先験的情報を参照することで、ターゲットセマンティックベクトルの認識精度を向上させることができる。
【0008】
幾つかの実施例において、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含む。
【0009】
幾つかの実施例において、前記先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることは、前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第1ベクトルを得ることと、前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることと、前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定することとを含む。
【0010】
このような方式によれば、重みパラメータに先験的情報を包含させ、ターゲットセマンティックベクトルの認識のための依拠を提供することができる。
【0011】
幾つかの実施例において、前記先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることは、前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、前記先験的情報に対応する特徴ベクトルを得ることと、前記特徴ベクトルに対して符号化処理を行い、前記第2ベクトルを得ることとを含む。
【0012】
このような方式によれば、畳み込みニューラルネットワークにより、直前の文字の認識結果に基づいて、現在のターゲットセマンティックベクトルに対応する文字を認識することができ、制御不能な長さ依存性の課題を避け、認識の正解率を向上させる。
【0013】
幾つかの実施例において、前記先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることは、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第2ベクトルを得ることを含む。
【0014】
幾つかの実施例において、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することは、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることと、前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することとを含む。
【0015】
幾つかの実施例において、前記検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることは、前記検出対象画像に対して特徴抽出を行い、特徴情報を得ることと、前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得ることとを含む。
【0016】
本出願のもう1つの態様によれば、テキスト認識装置を提供する。該装置は、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得るように構成される抽出モジュールであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する抽出モジュールと、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得るように構成される認識モジュールとを備える。
【0017】
本出願のもう1つの態様によれば、電子機器を提供する。該電子機器は、プロセッサと、該プロセッサによる実行可能な命令を記憶するためのメモリとを備え、前記プロセッサは、前記メモリに記憶された指令を実行する時、上記テキスト認識方法を実現させる。
【0018】
本出願のもう1つの態様によれば、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、該プロセッサに上記テキスト認識方法を実現させる。
例えば、本願は以下の項目を提供する。
(項目1)
テキスト認識方法であって、
検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することと、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることと、を含む、前記方法。
(項目2)
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることは、
前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つであることと、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することとを含むことを特徴とする
項目1に記載の方法。
(項目3)
前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含むことを特徴とする
項目2に記載の方法。
(項目4)
畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることは、
前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第1ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることと、
前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定することと、を含むことを特徴とする
項目2又は3に記載の方法。
(項目5)
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることは、
前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、前記先験的情報に対応する特徴ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記特徴ベクトルに対して符号化処理を行い、前記第2ベクトルを得ることとを含むことを特徴とする
項目4に記載の方法。
(項目6)
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることは、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第2ベクトルを得ることを含むことを特徴とする
項目4又は5に記載の方法。
(項目7)
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することは、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することと、を含むことを特徴とする
項目2から6のいずれか一項に記載の方法。
(項目8)
前記検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることは、
前記検出対象画像に対して特徴抽出を行い、特徴情報を得ることと、
前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得ることと、を含むことを特徴とする
項目1から7のいずれか一項に記載の方法。
(項目9)
テキスト認識装置であって、
検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得るように構成される抽出モジュールであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する抽出モジュールと、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得るように構成される認識モジュールと、を備える、テキスト認識装置。
(項目10)
前記認識モジュールは、
前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得て、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成され、
前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つであることを特徴とする
項目9に記載の装置。
(項目11)
前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含むことを特徴とする
項目10に記載の装置。
(項目12)
前記認識モジュールは、
前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第1ベクトルを得て、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得て、
前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定するように構成されることを特徴とする
項目10又は11に記載の装置。
(項目13)
前記認識モジュールは、
前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、該先験的情報に対応する特徴ベクトルを得て、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記特徴ベクトルに対して符号化処理を行い、前記第2ベクトルを得るように構成されることを特徴とする
項目12に記載の装置。
(項目14)
前記認識モジュールは、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第2ベクトルを得るように構成されることを特徴とする
項目12又は13に記載の装置。
(項目15)
前記認識モジュールは、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得て、
前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成されることを特徴とする
項目10-14のいずれか一項に記載の装置。
(項目16)
前記抽出モジュールは、
前記検出対象画像に対して特徴抽出を行い、特徴情報を得て、
前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得るように構成されることを特徴とする
項目9-15のいずれか一項に記載の装置。
(項目17)
電子機器であって、
プロセッサと、
前記プロセッサにより実行される命令を記憶するためのメモリと、を備え、
前記プロセッサは、前記メモリに記憶されている命令を実行する時、項目1から8のいずれか一項に記載の方法を実現させる、電子機器。
(項目18)
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される時、プロセッサに項目1から8のいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
【0019】
本発明の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
【図面の簡単な説明】
【0020】
図1】本出願の実施例によるテキスト認識方法を示すフローチャートである。
図2】本出願の実施例によるテキスト認識のための、畳み込みニューラルネットワークに基づいたコーデックフレームワークを示す概略図である。
図3】本出願の実施例によるテキスト認識装置を示すブロック図である。
図4】本出願の実施例による電子機器を示すブロック図である。
図5】本出願の実施例による電子機器を示すブロック図である。
【発明を実施するための形態】
【0021】
以下、図面を参照しながら本出願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。
【0022】
本出願で用いられる用語は、特定の実施例を説明するためのものに過ぎず、本出願を限定するものではない。本出願で用いられる単数形「1つ」、「前記」及び「該」等は、文脈上明確に別途に示されていない限り、複数形も同じように含むことが意図されている。「A及び/又はB」は、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。「A、B、Cのうちの少なくとも1つを含む」は、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
【0023】
本出願において、用語「第1」、「第2」、「第3」などにより、様々な情報を説明するが、これらの情報は、これらの用語を限定するものではない。これらの用語は、同一のタイプの情報を区別するためのものに過ぎない。例えば、本出願の範囲から逸脱することなく、第1情報は第2情報と呼ばれてもよい。同様に、第2情報は、第1情報と呼ばれてもよい。文脈によっては、ここで用いられる用語「すれば」、「・・の場合」又は「・・時」又は「に応答して」と解釈されてもよい。
【0024】
なお、本出願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
【0025】
図1は、本出願の実施例によるテキスト認識方法を示すフローチャートである。図1に示すように、前記方法は、ステップS11及びS12を含んでもよい。
【0026】
ステップS11において、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する。
【0027】
ステップS12において、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得る。
【0028】
本出願の実施例のテキスト認識方法によれば、テキスト認識の精度を向上させることができる。
【0029】
幾つかの実施例において、前記テキスト認識方法は、端末装置により実行されてもよい。端末装置は、ユーザ装置(User Equipment:UE)、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。前記方法は、端末装置におけるプロセッサにより、メモリに記憶されているコンピュータプログラム命令を呼び出すことで実現される。又は、端末装置により、検出対象画像を取得し、検出対象画像をサーバに送信し、サーバにより前記方法を実行してもよい。
【0030】
幾つかの実施例において、ステップS11は、前記検出対象画像に対して特徴抽出を行い、特徴情報を得ることと、前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得ることとを含んでもよい。
【0031】
幾つかの実施例において、前記特徴情報は、特徴マップ又は特徴ベクトル等を含んでもよいが、これらに限定されない。
【0032】
例において、検出対象画像は、例えば複数のテキスト文字からなるテキストシーケンスを有してもよい。前記テキストシーケンスの各テキスト文字同士の間は、一定のセマンティック接続関係を有してもよい。つまり、前記テキストシーケンスは、あるセマンティックを有してもよい。
【0033】
幾つかの実施例において、特徴抽出ネットワークを利用して、検出対象画像における複数のセマンティックベクトルを抽出することができる。該特徴抽出ネットワークは、例えば畳み込みニューラルネットワークなどのニューラルネットワークであってもよい。検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることは、前記検出対象画像を特徴抽出ネットワークに入力し、前記複数のセマンティックベクトルを得ることを含んでもよい。
【0034】
例において、特徴抽出ネットワークは、符号化処理などにより、検出対象画像の1つ又は複数の特徴行列を取得することができる。該特徴行列の次元は、M×Pであってもよい。例えば、Pは、32であってもよい。MとPとの比は、検出対象画像のアスペクト比に対応してもよい。例えば、検出対象画像の解像度が1024×768であるとすれば、符号化処理により、1つ又は複数の43×32の特徴マップを得ることができる。
【0035】
例において、特徴抽出ネットワークは、該特徴行列に対してダウンサンプリング処理を行い、1つ又は複数の特徴ベクトルをセマンティックベクトルとして得ることができる。例えば、次元がM×Pである特徴行列に対して、ダウンサンプリング処理を行い、1つ又は複数の次元がM×1である特徴ベクトルを一次元セマンティックベクトルとして得ることができる。上述した例において符号化処理により得られた43×32の特徴マップに対して、ダウンサンプリング処理により、1つ又は複数の43×1の特徴ベクトルを得ることができる。
【0036】
上記特徴抽出処理により、テキスト認識の複雑さを低減させ、テキスト認識の効率を向上させることができる。
【0037】
幾つかの実施例において、特徴抽出ネットワークを利用して検出対象画像に対して特徴抽出処理を行う前に、前記特徴抽出ネットワークを訓練することができる。
【0038】
幾つかの実施例において、多種の背景、多種の解像度、多種のフォント、多種の照明条件、多種のサイズスケール、多種の傾斜方向及び多重のぼけ度合いの複数の画像を第1サンプル画像として撮影し、特徴抽出ネットワークを訓練することができる。
【0039】
幾つかの実施例において、確率辞書に基づいて、第1サンプル画像におけるテキストに対してラベル付けを行い、第1サンプル画像のラベリングセマンティックベクトル(以下、第1サンプル画像の真のセマンティックベクトルと呼ばれてもよい)を得ることができる。前記確率辞書は、ユーザにより定義された、テキストに関する確率分布を含んでもよい。例えば、複数の要素を含むベクトルで、確率辞書における各テキストの確率分布情報を表すことができる。各テキストの確率分布情報に基づいて、確率辞書におけるテキストを決定するか、又は確率辞書におけるテキストの確率分布情報を決定することことができ、それによって前記テキストに対応するセマンティックベクトルを決定することができる。例において、第1サンプル画像におけるテキストの前記確率辞書における確率分布情報を決定することで、第1サンプル画像におけるテキストに対応するセマンティックベクトルを決定し、前記セマンティックベクトルに基づいて、第1サンプル画像に対してラベル付けを行い、アノテーション情報を得ることができる。従って、前記アノテーション情報は、第1サンプル画像の真のセマンティックベクトルを表すことができる。
【0040】
幾つかの実施例において、第1サンプル画像を前記特徴抽出ネットワークに入力して処理し、第1サンプル画像に対応するサンプルセマンティックベクトルを得ることができる。前記サンプルセマンティックベクトルは、特徴抽出ネットワークからの該第1サンプル画像の出力結果である。該出力結果には、誤差が存在する可能性がある。
【0041】
幾つかの実施例において、第1サンプル画像のアノテーション情報及び出力結果に基づいて、特徴抽出ネットワークのネットワーク損失を決定することができる。例において、第1サンプル画像の真のセマンティックベクトル(即ち、アノテーション情報)とサンプルセマンティックベクトル(即ち、出力結果)を比較し、両者間の差異を特徴抽出ネットワークの損失関数と決定することができる。また、例えば、アノテーション情報及び出力結果に基づいて、特徴抽出ネットワークの交差エントロピー損失関数を決定することができる。例において、正則化の損失関数を特徴抽出ネットワークのネットワーク損失として用いることができ、それによって反復訓練過程において特徴抽出ネットワークのネットワークパラメータに過剰適合が生じることを避けることができる。
【0042】
幾つかの実施例において、ネットワーク損失に基づいて、特徴抽出ネットワークのネットワークパラメータを調整することができる。例において、ネットワークパラメータを調整することでネットワーク損失を最小にし、調整された特徴抽出ネットワークに高い適合度を持たせると共に、過剰適合を避けることができる。例において、勾配降下法により、ネットワーク損失の逆伝搬を行い、特徴抽出ネットワークのネットワークパラメータを調整することができる。例えば、各ニューロンの間でツリー型によって接続されている特徴抽出ネットワークに対して、ランダム勾配降下法などにより、ネットワークパラメータを調整し、ネットワークパラメータ調整過程の複雑さを低下させ、ネットワークパラメータの調整効率を向上させ、調整されたネットワークパラメータに過剰適合が発生することを避けることができる。
【0043】
幾つかの実施例において、特徴抽出ネットワークに対して反復訓練を行い、訓練要件を満たした特徴抽出ネットワークをセマンティックベクトルの取得に用いることができる。訓練要件は、調整回数、ネットワーク損失の大きさ又はネットワーク損失の収束性及び拡散性などを含んでもよい。特徴抽出ネットワークに所定の数の第1サンプル画像を入力する。つまり、特徴抽出ネットワークのネットワークパラメータを所定の回数で調整する。調整回数が前記所定の回数に達した時、訓練要件を満たしていると見なす。又は、調整回数を限定せず、ネットワーク損失が所定の程度まで低下したか、又は所定の閾値内に収束した時、調整を終了し、調整された特徴抽出ネットワークを得る。又、調整された特徴抽出ネットワークを検出対象画像のセマンティックベクトルの取得に用いる。アノテーション情報と出力結果との差により、特徴抽出ネットワークを訓練し、損失関数の複雑さを低下させ、訓練速度を向上させることができる。
【0044】
幾つかの実施例において、ステップS12において、グラフィック処理ユニット(Graphics Processing Unit:GPU)を利用して畳み込みニューラルネットワークを加速し、畳み込みニューラルネットワークの処理効率を向上させることができる。
【0045】
幾つかの実施例において、ステップS12において、畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることができる。ここで、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つである。また、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。
【0046】
幾つかの実施例において、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含む。ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルであると、前記先験的情報は、開始記号であってもよい。ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルではないと、前記先験的情報は、ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果であってもよい。
【0047】
幾つかの実施例において、前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第1ベクトルを得ることができる。前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることができる。続いて、前記第1ベクトル及び前記第2ベクトルに基づいて、前記ターゲットセマンティックベクトルの重みパラメータを決定することができる。
【0048】
幾つかの実施例において、前記第1ベクトルは、ターゲットセマンティックベクトルのセマンティック情報を有してもよく、また、第1ベクトルは、ターゲットセマンティックベクトルに対応する文字のセマンティック接続関係を有する。
【0049】
幾つかの実施例において、ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルであり、つまり、ターゲットセマンティックベクトルがテキストシーケンスにおける最初の文字に対応するセマンティックベクトルである場合、前記ターゲットセマンティックベクトルの先験的情報における開始記号に対応する開始ベクトルにより、符号化処理し、該先験的情報に対応する第2ベクトルを得ることができる。例において、開始記号に対応する開始ベクトルは、要素が所定の値(例えば、要素が全て1である)であるベクトルであってもよい。例において、テキストシーケンスにおける文字がA、B、C及びDであり、開始記号Sに対応する開始ベクトルに対して符号化処理を行い、第2ベクトルを得ることができる。
【0050】
幾つかの実施例において、ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルではないと、前記先験的情報には前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、先験的情報に対応する特徴ベクトルを得て、前記特徴ベクトルに対して符号化処理を行い、該先験的情報に対応する第2ベクトルを得ることができる。例えば、テキストシーケンスにおける文字がA、B、C及びDであり、ターゲットセマンティックベクトルがB、C又はDに対応するセマンティックベクトルであると、ターゲットセマンティックベクトルの直前のセマンティックベクトルのテキスト認識結果に対して単語埋め込み処理を行い、先験的情報に対応する特徴ベクトルを得て、該特徴ベクトルに対して符号化処理を行い、該先験的情報に対応する第2ベクトルを得ることができる。
【0051】
幾つかの実施例において、ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルではないと、ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、該テキスト認識結果に対応する特徴ベクトルを決定することができる。例において、Word2Vec又はGloVe等のようなモデルのアルゴリズムにより、直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、先験的情報に対応する特徴ベクトルを得ることができる。
【0052】
幾つかの実施例において、ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキストを認識する過程において、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォントなどの情報を認識することができる。つまり、前記直前のセマンティックベクトルに対応するテキスト認識結果は、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォントなどの情報によるものである。従って、前記直前のセマンティックベクトルに対応するテキスト認識結果に対応する特徴ベクトルは、後続の文字認識の依拠とすることができる。なお、前記直前のセマンティックベクトルに対応するテキスト認識結果に対応する特徴ベクトルは、前記直前のセマンティックベクトルに対応するテキスト認識結果のセマンティック情報を有し、且つ、前記直前のセマンティックベクトルに対応するテキスト認識結果のセマンティック接続関係を有する。
【0053】
幾つかの実施例において、前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定することができる。前記重みパラメータは、重み行列であってもよい。例えば、第1ベクトル及び第2ベクトルに対してベクトル乗算を行い、前記重み行列を得ることができる。
【0054】
幾つかの実施例において、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることができる。前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。
【0055】
幾つかの実施例において重みパラメータ(重み行列)とターゲットセマンティックベクトルを行列乗算し(即ち、ターゲットセマンティックベクトルに対して重み付け処理を行う)、前記注意分配ベクトルを得ることができる。従って、注意分配ベクトルは、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォント等の情報並びにターゲットセマンティックベクトルのセマンティック情報を有する。
【0056】
幾つかの実施例において、注意分配ベクトルに基づいて、確率辞書に関する確率分布情報を決定することができる。例えば、前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、確率辞書に関する確率分布情報を得ることができる。続いて、確率分布情報に基づいて、確率辞書におけるテキストを決定し、つまり、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。該テキスト認識結果は、次の文字の認識処理過程に用いられる。このように類推して、テキストシーケンスにおける全ての文字の認識が完了するまで継続する。テキストシーケンスにおける全ての文字の認識が完了した時、畳み込みニューラルネットワークに終了ベクトルを入力してもよい。前記終了ベクトルの要素は、所定のものであってもよい(例えば、要素が全て1である)。終了ベクトルを入力する時、検出対象画像におけるテキストシーケンスの認識動作が完了し、前記テキストシーケンスの認識結果が得られる。
【0057】
幾つかの実施例において、前記直前のセマンティックベクトルに対応するテキスト認識結果のセマンティック情報は、前記直前のセマンティックベクトルに対応するテキスト認識結果に対応する特徴ベクトルの重みパラメータ(重み行列)に含まれてもよい。該重みパラメータにおける要素は、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォントなどの情報を有してもよく、テキストシーケンスにおける後続文字の認識の依拠とすることができる。該重みパラメータに含まれるセマンティック情報は、後続文字の認識の依拠とすることもできる。例えば、ターゲットセマンティックベクトルが2番目のセマンティックベクトルであれば、ターゲットセマンティックベクトルの直前のセマンティックベクトルは最初のセマンティックベクトルであり、それに対応する文字は、テキストシーケンスにおける最初の文字である。最初の文字の認識結果は、ターゲットセマンティックベクトルに対応する文字の認識の依拠とすることができる。また、ターゲットセマンティックベクトルの認識結果は、3番目のセマンティックベクトル(即ち、ターゲットセマンティックベクトルの次のセマンティックベクトル)に対応する文字の認識の依拠とすることができる。
【0058】
例において、テキストシーケンスにおける最初の文字を認識する時、認識対象画像には、認識された文字が存在しないため、先験的情報としての開始記号を利用して最初の文字を認識する。例を挙げると、テキストシーケンスに文字A、B、C及びDが存在する時、まず、開始記号Sを先験的情報とし、開始記号Sに対応する開始ベクトルを利用して文字Aを認識し、テキストシーケンスにおける最初の文字の認識結果Aを得る。続いて、認識された文字Aを利用して文字Bを認識し、2番目の文字の認識結果Bを得る。このように類推して、全ての文字A、B、C及びDを認識するまで継続し、テキストシーケンスの認識結果を得る。
【0059】
このような方式によれば、畳み込みニューラルネットワークにより、直前の文字の認識結果に基づいて、現在のターゲットセマンティックベクトルに対応する文字を認識することができ、制御不能な長さ依存性の課題を避け、認識の正解率を向上させる。
【0060】
幾つかの実施例において、畳み込みニューラルネットワークを利用してテキスト認識結果を決定する前に、前記畳み込みニューラルネットワークを訓練することができる。
【0061】
幾つかの実施例において、多種の背景、多種の解像度、多種のフォント、多種の照明条件、多種のサイズスケール、多種の傾斜方向及び多重のぼけ度合いの複数の画像を第2サンプル画像として撮影し、複数の第2サンプル画像を利用して畳み込みニューラルネットワークを訓練することができる。
【0062】
幾つかの実施例において、確率辞書に基づいて、各第2サンプル画像における文字の確率分布情報を得て、前記確率分布情報に基づいて、該第2サンプル画像に対してラベル付けを行い、該第2サンプル画像における各文字のアノテーション情報を得ることができる。つまり、前記アノテーション情報は、第2サンプル画像における対応する文字の真の確率分布情報である。
【0063】
幾つかの実施例において、いずれか1つの第2サンプル画像に対して特徴抽出処理を行い、第2サンプル画像における複数の文字にそれぞれ対応する複数のセマンティックベクトルを得ることができる。畳み込みニューラルネットワークにおける第1畳み込み層に最初のセマンティックベクトルを入力し、第2畳み込み層に開始記号を入力することで、最初のセマンティックベクトルの重みパラメータを得ることができる。更に、該重みパラメータ(重み行列)を利用して最初のセマンティックベクトルに対して重み付けを行い(つまり、行列乗算を行う)、最初のセマンティックベクトルに対応するサンプル注意分配ベクトルを得ることができる。
【0064】
幾つかの実施例において、畳み込みニューラルネットワークにおける逆畳み込み層によりサンプル注意分配ベクトルを復号処理し、畳み込みニューラルネットワークから出力された確率分布情報を得る。つまり、畳み込みニューラルネットワークの出力結果を得る。更に、アノテーション情報(真の確率分布情報)及び出力結果(畳み込みニューラルネットワークから出力された確率分布情報)に基づいて、畳み込みニューラルネットワークのネットワーク損失を決定することができる。例において、第2サンプル画像における文字のアノテーション情報と畳み込みニューラルネットワークの出力結果を比較し、両者間の差異を畳み込みニューラルネットワークの損失関数と決定することができる。また、例えば、アノテーション情報及び出力結果に基づいて、畳み込みニューラルネットワークの交差エントロピー損失関数を決定することができる。例において、正則化された損失関数を畳み込みニューラルネットワークのネットワーク損失として用いることで、反復訓練過程において畳み込みニューラルネットワークのネットワークパラメータに過剰適合が生じることを避けることができる。
【0065】
幾つかの実施例において、ネットワーク損失に基づいて、畳み込みニューラルネットワークのネットワークパラメータを調整することができる。例において、ネットワークパラメータを調整することでネットワーク損失を最小にし、調整された畳み込みニューラルネットワークに高い適合度を持たせると共に、過剰適合を避けることができる。例において、勾配降下法により、ネットワーク損失の逆伝搬を行い、畳み込みニューラルネットワークのネットワークパラメータを調整することができる。例えば、各ニューロンの間でツリー型によって接続されている畳み込みニューラルネットワークに対して、ランダム勾配降下法などにより、ネットワークパラメータを調整し、ネットワークパラメータ調整過程の複雑さを低下させ、ネットワークパラメータの調整効率を向上させ、調整されたネットワークパラメータに過剰適合が発生することを避けることができる。
【0066】
幾つかの実施例において、畳み込みニューラルネットワークから出力された確率分布情報及び確率辞書に基づいて、畳み込みニューラルネットワークにより認識された文字を決定し、該文字に対して単語埋め込み処理を行い、該文字に対応する特徴ベクトルを得ることができる。更に、該特徴ベクトルを畳み込みニューラルネットワークにおける第2畳み込み層に入力し、第2サンプル画像における2番目のセマンティックベクトルを畳み込みニューラルネットワークにおける第1畳み込み層に入力し、2番目のセマンティックベクトルの重みパラメータを得る。該重みパラメータを利用して2番目のセマンティックベクトルに対して重み付けを行い、2番目のセマンティックベクトルに対応するサンプル注意分配ベクトルを得ることができる。続いて、畳み込みニューラルネットワークにおける逆畳み込み層により、該サンプル注意分配ベクトルを復号し、確率分布情報を得ることができる。該確率分布情報及び2番目の文字のアノテーション情報に基づいて、ネットワーク損失を決定し、ネットワーク損失を利用して、畳み込みニューラルネットワークのネットワークパラメータを再調整することができる。例において、このような方式により、反復調整を行うことができる。例えば、畳み込みニューラルネットワークにより認識された2番目の文字に対応する特徴ベクトル及び3番目のセマンティックベクトルに基づいて、3番目のセマンティックベクトルの重みパラメータを得て、更に、3番目のセマンティックベクトルに対応するサンプル注意分配ベクトルを得ることができる。それに対して復号処理を行ってから、ネットワーク損失を決定し、ネットワーク損失に基づいて畳み込みニューラルネットワークを再調整することができる。このように類推すると、3番目の文字及び4番目のセマンティックベクトルに基づいて、畳み込みニューラルネットワークを調整し、4番目の文字及び5番目のセマンティックベクトルに基づいて畳み込みニューラルネットワークを調整し、該第2サンプル画像における全ての文字の認識が完了するまで継続する。従って、畳み込みニューラルネットワークのネットワークパラメータが複数回調整される
幾つかの実施例において、畳み込みニューラルネットワークが訓練要件を満たした場合、畳み込みニューラルネットワークを検出対象画像におけるテキストシーケンスの認識に用いることができる。訓練要件は、調整回数、ネットワーク損失の大きさ又はネットワーク損失の収束性及び拡散性などを含んでもよい。畳み込みニューラルネットワークのネットワークパラメータを所定の回数で調整する。調整回数が前記所定の回数に達した時、訓練要件を満たしていると認められる。又は、調整回数を限定せず、ネットワーク損失が所定の程度まで低下したか又は所定の閾値内に収束した時、調整を終了し、調整されたみ込みニューラルネットワークを得る。
【0067】
本出願の実施例のテキスト認識方法によれば、検出対象画像からセマンティックベクトルを抽出し、テキスト認識の複雑さを低下させ、テキスト認識の効率を向上させることができる。畳み込みニューラルネットワークを利用して、直前の文字の認識結果に基づいて、現在のターゲットセマンティックベクトルに対応する文字を認識することで、制御不能な長さ依存性の課題を避け、認識の正解率を向上させる。GPUを利用して畳み込みニューラルネットワークを加速し、畳み込みニューラルネットワークの処理効率を向上させることができる。
【0068】
図2は、本出願の実施例によるテキスト認識のための、畳み込みニューラルネットワークに基づいたコーデックフレームワークを示す概略図である。
【0069】
幾つかの実施例において、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得る。畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得て、また、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。前記ターゲットセマンティックベクトルは、複数のセマンティックベクトルのうちのいずれか1つである。
【0070】
幾つかの実施例において、複数のセマンティックベクトルは、テキストシーケンスにおける複数の文字に対応してもよい。例えば、テキストシーケンスにおける複数の文字のうちの各文字は、複数のセマンティックベクトルのうちの1つのセマンティックベクトルに対応するが、本出願の実施例はこれに限定されない。ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトル(即ち、検出対象画像におけるテキストシーケンスにおける最初の文字に対応するセマンティックベクトル)であれば、ターゲットセマンティックベクトルを前記畳み込みニューラルネットワークにおける第1畳み込み層に入力して符号化処理し、第1ベクトルを得て、開始記号に対応する開始ベクトルを前記畳み込みニューラルネットワークにおける第2畳み込み層に入力して符号化処理し、第2ベクトルを得ることができる。更に、第1ベクトルと第2ベクトルに対してベクトル乗算を行い、最初のセマンティックベクトルの重みパラメータである重み行列を得る。
【0071】
幾つかの実施例において、該重み行列を利用して最初のセマンティックベクトルに対して重み付けを行い、最初のセマンティックベクトルに対応する注意分配ベクトルを得て、前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、確率辞書に関する確率分布情報を得ることができる。更に、該確率分布情報に基づいて確率辞書におけるテキストを決定する。つまり、最初のセマンティックベクトルに対応するテキスト認識結果を得ることで、最初の文字の認識結果を得る。
【0072】
幾つかの実施例において、最初の文字の認識結果に対して単語埋め込み処理を行い、最初の文字に対応する特徴ベクトルを得ることができる。最初の文字に対応する特徴ベクトルを前記畳み込みニューラルネットワークにおける第2畳み込み層に入力して符号化処理し、最初の文字に対応する第2ベクトルを得ることができる。2番目のセマンティックベクトル(即ち、検出対象画像における文字シーケンスにおける2番目の文字に対応するセマンティックベクトル)を畳み込みニューラルネットワークにおける第1畳み込み層に入力して符号化処理し、2番目のセマンティックベクトルの第1ベクトルを得ることができる。更に、2番目のセマンティックベクトルの第1ベクトルと最初の文字に対応する第2ベクトルに対してベクトル乗算を行い、2番目のセマンティックベクトルの重み行列を得ることができる。該重み行列を利用して2番目のセマンティックベクトルに対して重み付けを行い(つまり、行列乗算を行う)、重み付けされた2番目のセマンティックベクトルを畳み込みニューラルネットワークの全結合層に入力し、2番目のセマンティックベクトルに対応する注意分配ベクトルを得ることができる。前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、2番目のセマンティックベクトルに対応する注意分配ベクトルを復号処理し、確率辞書に関する確率分布情報(即ち、2番目の文字の認識結果の確率分布)を得ることができる。該確率分布情報に基づいて、確率辞書におけるテキストを決定する。つまり、2番目の文字の認識結果を得ることができる。更に、2番目の文字の認識結果を利用して、3番目の文字の認識結果を決定し、3番目の文字の認識結果を利用して、4番目の文字の認識結果を決定することもできる。以下、同様である。
【0073】
例において、テキストシーケンスにおける最初の文字を認識する時、認識対象画像には、認識された文字が存在しないため、先験的情報とした開始記号を利用して最初の文字を認識する。例を挙げると、テキストシーケンスに文字A、B、C及びDが存在する時、まず、開始記号Sを先験的情報とし、開始記号Sに対応する開始ベクトルを利用して文字Aを認識し、テキストシーケンスにおける最初の文字の認識結果Aを得る。続いて、認識された文字Aを利用して文字Bを認識し、2番目の文字の認識結果Bを得る。このように類推して、全ての文字A、B、C及びDを認識するまで継続し、テキストシーケンスの認識結果を得る。
【0074】
幾つかの実施例において、上記方式により、処理されるべき画像における各セマンティックベクトルを反復処理することで、検出対象画像における各文字の認識結果を得て、テキストシーケンスにおける全ての文字の認識が完了するまで継続する。テキストシーケンスにおける全ての文字の認識が完了した時、畳み込みニューラルネットワークに終了ベクトルを入力し、検出対象画像におけるテキストシーケンスの認識動作を完了させ、テキストシーケンスの認識結果を得ることができる。
【0075】
図3は、上記いずれか1つの実施例によるテキスト認識方法を実現させるテキスト認識装置を示すブロック図である。図3に示すように、前記装置は、抽出モジュール11と、認識モジュール12とを備える。
【0076】
抽出モジュール11は、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することができる。認識モジュール12は、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることができる。
【0077】
幾つかの実施例において、前記認識モジュールは、畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得て、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成され、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つである。
【0078】
幾つかの実施例において、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含む。
【0079】
幾つかの実施例において、前記認識モジュールは、前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第1ベクトルを得て、前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得て、前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定するように構成される。
【0080】
幾つかの実施例において、前記認識モジュールは、前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、該先験的情報に対応する特徴ベクトルを得て、前記特徴ベクトルに対して符号化処理を行い、前記第2ベクトルを得るように構成される。
【0081】
幾つかの実施例において、前記認識モジュールは、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第2ベクトルを得るように構成される。
【0082】
幾つかの実施例において、前記認識モジュールは、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得て、前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成される。
【0083】
幾つかの実施例において、前記抽出モジュールは、前記検出対象画像に対して特徴抽出を行い、特徴情報を得て、前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得るように構成される。
【0084】
図4は一例示的な実施例による電子機器800を示すブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってもよい。
【0085】
図4を参照すると、電子機器800は、処理ユニット802、メモリ804、電源ユニット806、マルチメディアユニット808、オーディオユニット810、入力/出力(I/O)インタフェース812、センサユニット814及び通信ユニット816のうちの1つ又は複数を備えてもよい。
【0086】
処理ユニット802は一般的には、電子機器800の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット802は、指令を実行するための1つ又は複数のプロセッサ820を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット802は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理ユニット802はマルチメディアモジュールを備えることで、マルチメディアユニット808と処理ユニット802とのインタラクションに寄与する。
【0087】
メモリ804は、各種のデータを記憶することで電子機器800における操作をサポートするように構成される。これらのデータの例として、電子機器800上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ804は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM(登録商標))、電気的に消去可能なプログラマブル読出し専用メモリ(EPROM)、プログラマブル読出し専用メモリ(PROM)、読出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
【0088】
電源ユニット806は電子機器800の様々なユニットに電力を提供する。電源ユニット806は、電源管理システム、1つ又は複数の電源、及び電子機器800のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
【0089】
マルチメディアユニット808は、上記電子機器800とユーザとの間にインタフェース(例えば、グラフィックユーザインタフェース(GUI))を提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット808は、フロントカメラ及び/又はリアカメラを備える。電子機器800が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
【0090】
オーディオユニット810は、オーディオ信号を出力/入力するように構成される。例えば、オーディオユニット810は、マイクロホンを備える。電子機器800が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ804に記憶するか、又は通信ユニット816を経由して送信することができる。幾つかの実施例において、オーディオユニット810は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
【0091】
I/Oインタフェース812は、処理ユニット802と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
【0092】
センサユニット814は、1つ又は複数のセンサを備え、電子機器800のために様々な状態情報を提供するように構成される。例えば、センサユニット814は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット814は、相補型金属酸化膜半導体(CMOS)又は電荷結合素子(CCD)画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット814は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
【0093】
通信ユニット816は、電子機器800と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器800は、WiFi、2G又は3G、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット816は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット816は、近接場通信(NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現される。
【0094】
例示的な実施例において、電子機器800は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、いずれか1つのテキスト認識方法を実行するように構成されてもよい。
【0095】
例示的な実施例において、コンピュータプログラム命令を記憶した非一時的コンピュータ可読記憶媒体(例えば、メモリ804)を更に提供する。該コンピュータプログラム命令は、プロセッサ(例えば、プロセッサ820)により実行される時、該プロセッサに上記いずれか1つのテキスト認識方法を実現させる。
【0096】
図5は、一例示的な実施例による電子機器1900を示すブロック図である。例えば、電子機器1900は、サーバであってもよい。
【0097】
図5を参照すると、電子機器1900は、処理ユニット1922を備える。ぞれは1つ又は複数のプロセッサと、メモリ1932で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット1922により実行される命令を記憶するためのものである。処理ユニット1922は、命令を実行して、上記いずれか1つのテキスト認識方法を実現させる。
【0098】
電子機器1900は、電子機器1900の電源管理を実行するように構成される電源ユニット1926と、電子機器1900をネットワークに接続するように構成される有線又は無線ネットワークインタフェース1950と、入力出力(I/O)インタフェース1958を更に備えてもよい。
【0099】
電子機器1900は、メモリ1932に記憶されているオペレーティングシステム(例えば、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTMなど)に基づいて動作することができる。
【0100】
例示的な実施例において、例えば、コンピュータプログラム命令を記憶した不揮発性コンピュータ可読記憶媒体(例えば、メモリ1932)を更に提供する。該コンピュータプログラム命令は、プロセッサ(例えば、処理ユニット1922)により実行される時、該プロセッサに上記いずれか1つのテキスト認識方法を実現させる。
【0101】
本出願は、装置(システム)、方法及び/又はコンピュータプログラム製品として実現されてもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本出願のテキスト認識方法を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
【0102】
図面におけるフローチャート及びブロック図は、本出願の各実施例による装置(システム)、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュールプログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、1つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。
【0103】
以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、本出願を限定するものではない。本出願の範囲及び精神から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本出願の精神及び原則を脱逸することなく行われる如何なる修正、均等物による置換、改良などは、いずれも本出願の範囲内に含まれるものとする。
図1
図2
図3
図4
図5