IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッドの特許一覧

特許7252009人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理
<>
  • 特許-人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理 図1
  • 特許-人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理 図1A
  • 特許-人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理 図1B
  • 特許-人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理 図2
  • 特許-人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理 図3
  • 特許-人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理 図4
  • 特許-人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理 図5
  • 特許-人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理 図6
  • 特許-人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-27
(45)【発行日】2023-04-04
(54)【発明の名称】人工ニューラルネットワークを用いたOCRシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理
(51)【国際特許分類】
   G06V 30/14 20220101AFI20230328BHJP
   G06T 7/00 20170101ALI20230328BHJP
【FI】
G06V30/14 340K
G06T7/00 350C
【請求項の数】 15
【外国語出願】
(21)【出願番号】P 2019030974
(22)【出願日】2019-02-22
(65)【公開番号】P2019153293
(43)【公開日】2019-09-12
【審査請求日】2021-11-18
(31)【優先権主張番号】15/908,714
(32)【優先日】2018-02-28
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507031918
【氏名又は名称】コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
(74)【代理人】
【識別番号】110000671
【氏名又は名称】IBC一番町弁理士法人
(72)【発明者】
【氏名】ヨンミャン チャン
(72)【発明者】
【氏名】シュバーン アガワル
【審査官】佐田 宏史
(56)【参考文献】
【文献】特開2017-174039(JP,A)
【文献】特開2017-049996(JP,A)
【文献】国際公開第2017/031088(WO,A1)
【文献】Le Kang et al.,"Convolutional Neural Networks for No-Reference Image Quality Assessment",2014 IEEE Conference on Computer Vision and Pattern Recognition,米国,IEEE,2014年06月23日,pp.1733-1740
【文献】Le Kang et al.,"A DEEP LEARNING APPROACH TO DOCUMENT IMAGE QUALITY ASSESSMENT",2014 IEEE International Conference on Image Processing (ICIP),米国,IEEE,2014年10月27日,pp.2570-2574
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00-7/90
G06V 10/00-10/98,30/00-30/424
G06N 3/02,20/00
(57)【特許請求の範囲】
【請求項1】
コンピューターにより実行される、人工ニューラルネットワークを用いたテキスト文字の認識方法であって、
複数のテキスト行画像および対応するラベルデータを含む訓練データを取得するステップと、ここで、各テキスト行画像は、印刷された一行のテキストを含む二値画像であり、前記ラベルデータは、各テキスト行画像に含まれる文字を表すデジタル値を含み、
各テキスト行画像について、前記テキスト行画像における前記テキストの線の太さを計算するステップと、
前記訓練データにおける前記テキスト行画像の全ての前記線の太さを平均化することによって、平均の線の太さを計算するステップと、
前記訓練データの各テキスト行画像に対してプーリング工程を実行して、前処理が行われたテキスト行画像を生成するステップと、ここで、当該ステップは、
前記平均の線の太さよりも太い線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、
前記平均の線の太さ以下の線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、
を含み、前記最大プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記最小プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記プーリングされた画像は、前記前処理が行われたテキスト行画像を形成し、
前記前処理が行われたテキスト行画像および前記ラベルデータを用いて、訓練されていない長短期記憶(LSTM)ニューラルネットワークを訓練して、訓練されたLSTMニューラルネットワークを取得するステップと、
を含む方法。
【請求項2】
前記訓練データを取得するステップは、
複数のテキスト画像を取得するステップと、ここで、各テキスト画像は、印刷された複数の行のテキストを含む二値画像であり、
各テキスト画像を、複数のテキスト行画像に区分化するステップと、ここで、各テキスト行画像は、印刷された一行のテキストを含み、
を含む、請求項1に記載の方法。
【請求項3】
各プーリング領域は、2×1画素のサイズを有する、請求項1または2に記載の方法。
【請求項4】
各テキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、各プーリング領域のサイズを決定するステップをさらに含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
入力されたテキスト行画像を取得するステップと、ここで、前記入力されたテキスト行画像は、印刷された一行のテキストを含む二値画像であり、
前記入力されたテキスト行画像における前記テキストの線の太さを計算するステップと、
前記線の太さが、前記平均の線の太さよりも太いと判断するステップと、
前記入力されたテキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、
前記訓練されたLSTMニューラルネットワークを用いて前記プーリングされた画像を処理して、前記プーリングされた画像に含まれる文字を認識するステップと、
をさらに含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
入力された他のテキスト行画像を取得するステップと、ここで、前記入力された他のテキスト行画像は、印刷された一行のテキストを含む二値画像であり、
前記入力された他のテキスト行画像における前記テキストの線の太さを計算するステップと、
前記線の太さが、前記平均の線の太さ以下であると判断するステップと、
前記入力された他のテキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、
前記訓練されたLSTMニューラルネットワークを用いて前記プーリングされた画像を処理して、前記プーリングされた画像に含まれる文字を認識するステップと、
をさらに含む、請求項5に記載の方法。
【請求項7】
前記訓練データの各テキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記テキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
前記入力されたテキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記入力されたテキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
前記入力された他のテキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記入力された他のテキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
をさらに含む、請求項6に記載の方法。
【請求項8】
データ処理装置を制御するためのコンピュータープログラムであって、当該コンピュータープログラムは、前記データ処理装置にテキスト文字の認識処理を実行させるように構成され、当該処理は、
複数のテキスト行画像および対応するラベルデータを含む訓練データを取得するステップと、ここで、各テキスト行画像は、印刷された一行のテキストを含む二値画像であり、前記ラベルデータは、各テキスト行画像に含まれる文字を表すデジタル値を含み、
各テキスト行画像について、前記テキスト行画像における前記テキストの線の太さを計算するステップと、
前記訓練データにおける前記テキスト行画像の全ての前記線の太さを平均化することによって、平均の線の太さを計算するステップと、
前記訓練データの各テキスト行画像に対してプーリング工程を実行して、前処理が行われたテキスト行画像を生成するステップと、ここで、当該ステップは、
前記平均の線の太さよりも太い線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、
前記平均の線の太さ以下の線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、
を含み、前記最大プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記最小プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記プーリングされた画像は、前記前処理が行われたテキスト行画像を形成し、
前記前処理が行われたテキスト行画像および前記ラベルデータを用いて、訓練されていない長短期記憶(LSTM)ニューラルネットワークを訓練して、訓練されたLSTMニューラルネットワークを取得するステップと、
を含むコンピュータープログラム。
【請求項9】
前記訓練データを取得するステップは、
複数のテキスト画像を取得するステップと、ここで、各テキスト画像は、印刷された複数の行のテキストを含む二値画像であり、
各テキスト画像を、複数のテキスト行画像に区分化するステップと、ここで、各テキスト行画像は、印刷された一行のテキストを含み、
を含む、請求項8に記載のコンピュータープログラム。
【請求項10】
各プーリング領域は、2×1画素のサイズを有する、請求項8または9に記載のコンピュータープログラム。
【請求項11】
前記処理は、各テキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、各プーリング領域のサイズを決定するステップをさらに含む、請求項8~10のいずれか一項に記載のコンピュータープログラム。
【請求項12】
前記処理は、
入力されたテキスト行画像を取得するステップと、ここで、前記入力されたテキスト行画像は、印刷された一行のテキストを含む二値画像であり、
前記入力されたテキスト行画像における前記テキストの線の太さを計算するステップと、
前記線の太さが、前記平均の線の太さよりも太いことを判断するステップと、
前記入力されたテキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、
前記訓練されたLSTMニューラルネットワークに前記プーリングされた画像を入力して、前記プーリングされた画像に含まれる文字を認識するステップと、
をさらに含む、請求項8~11のいずれか一項に記載のコンピュータープログラム。
【請求項13】
前記処理は、
入力された他のテキスト行画像を取得するステップと、ここで、前記入力された他のテキスト行画像は、印刷された一行のテキストを含む二値画像であり、
前記入力された他のテキスト行画像における前記テキストの線の太さを計算するステップと、
前記線の太さが、前記平均の線の太さ以下であることを判断するステップと、
前記入力された他のテキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、
前記訓練されたLSTMニューラルネットワークに前記プーリングされた画像を入力して、前記プーリングされた画像に含まれる文字を認識するステップと、
をさらに含む、請求項12に記載のコンピュータープログラム。
【請求項14】
前記処理は、
前記訓練データの各テキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記テキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
前記入力されたテキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記入力されたテキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
前記入力された他のテキスト行画像について、前記線の太さを計算した後、かつ、前記プーリング工程を実行する前に、画素の数で測定された前記線の太さに基づいて、前記入力された他のテキスト行画像に対する前記プーリング工程において用いられる、各プーリング領域のサイズを決定するステップと、
をさらに含む、請求項13に記載のコンピュータープログラム。
【請求項15】
請求項8~14のいずれか一項に記載のコンピュータープログラムを格納した、コンピューター読取可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキスト画像の処理、特に、光学文字認識(OCR)を行って印刷されたテキストをデジタル化するために、人工ニューラルネットワークと併用される、テキスト画像の処理方法に関する。
【背景技術】
【0002】
テキストのデジタル化のための言語の光学文字認識(OCR)システムにおいて、長短期記憶(LSTM)ネットワーク等のリカレント(再帰型)ニューラルネットワーク(RNN)を適用することに対して、そのようなタスクが、例えばテキスト文のような連続した情報のオンライン処理を含むことができるため、大きな関心が寄せられている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかし、LSTMは実用上、計算的に複雑である。LSTMの複雑さを低減するための、いくつかの試みもなされている。しかし、これらの複雑さを低減する技術によって、精度の性能がしばしば妥協される。より具体的には、OCRにおいてRNNを適用する際に、2つの大きな問題がある。第1に、大きな計算コストによって、データセンターおよびモバイル機器等の大規模な環境、またはリソースに制約のある環境では、大規模なデジタル変換のリアルタイム処理のために、LSTMを展開することが困難な点である。第2に、テキストが多くの異なるフォントを含み得るため、多くの異なるフォントのテキストを正確に認識できる、一般化されたモデルを作ることが困難な点である。
【0004】
第1の問題に対処するために、RNNに含まれるパラメーターの数を減少させること、ひいては計算の負荷を減少させることに重点を置いたいくつかの技術が提案されている。これらの技術は、かなりの計算量の減少を達成できるが、動作の精度は大きく低下する。言語のOCRシステムの分野では、認識精度が重要であるため、パラメーターの減少によって計算効率を達成するこれらの技術は、満足のいくものではない。フォントにおけるばらつきに対処する試みは、比較的少ない。
【0005】
したがって、本発明は、関連する技術の制限および不利益に起因する問題の一つ以上を十分に解決する、テキスト画像の処理方法を対象とする。
【0006】
本発明の目的は、リカレントニューラルネットワークを用いたOCRシステムのために、計算コストを減少させるだけでなく、認識精度を向上させる方法を提供することである。
【0007】
本発明の追加の特徴および利点は、以下の説明において記載され、その一部は当該説明から明らかであり、または、本発明の実施によって理解され得る。本発明の目的および他の利点は、明細書および特許請求の範囲、ならびに添付された図面において具体的に示された構造によって、実現および達成される。
【課題を解決するための手段】
【0008】
上述した目的を達成するために、本発明は、人工ニューラルネットワークを用いたテキスト文字の認識方法であって、複数のテキスト行画像および対応するラベルデータを含む訓練データを取得するステップと、ここで、各テキスト行画像は、印刷された一行のテキストを含む二値画像であり、前記ラベルデータは、各テキスト行画像に含まれる文字を表すデジタル値を含み、各テキスト行画像について、前記テキスト行画像における前記テキストの線の太さを計算するステップと、前記訓練データにおける前記テキスト行画像の全ての前記線の太さを平均化することによって、平均の線の太さを計算するステップと、前記訓練データの各テキスト行画像に対してプーリング工程を実行して、前処理が行われたテキスト行画像を生成するステップと、ここで、当該ステップは、前記平均の線の太さよりも太い線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、前記平均の線の太さ以下の線の太さを有する各テキスト行画像について、前記テキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記テキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、を含み、前記最大プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記最小プーリングは、前記テキスト行画像の全てのうちのいくつかに対して実行され、前記プーリングされた画像は、前記前処理が行われたテキスト行画像を形成し、前記前処理が行われたテキスト行画像および前記ラベルデータを用いて、訓練されていない長短期記憶(LSTM)ニューラルネットワークを訓練して、訓練されたLSTMニューラルネットワークを取得するステップと、を含む方法を提供する。
【0009】
好ましくは、各プーリング領域は、2×1画素のサイズを有する。
【0010】
本方法は、入力されたテキスト行画像を取得するステップと、ここで、前記入力されたテキスト行画像は、印刷された一行のテキストを含む二値画像であり、前記入力されたテキスト行画像における前記テキストの線の太さを計算するステップと、前記線の太さが、前記平均の線の太さよりも太いと判断するステップと、前記入力されたテキスト行画像に対する最小プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最小値であり、前記訓練されたLSTMニューラルネットワークを用いて前記プーリングされた画像を処理して、前記プーリングされた画像に含まれる文字を認識するステップと、をさらに含んでもよい。
【0011】
本方法は、入力された他のテキスト行画像を取得するステップと、ここで、前記入力された他のテキスト行画像は、印刷された一行のテキストを含む二値画像であり、前記入力された他のテキスト行画像における前記テキストの線の太さを計算するステップと、前記線の太さが、前記平均の線の太さ以下であると判断するステップと、前記入力された他のテキスト行画像に対する最大プーリングを実行して、プーリングされた画像を生成するステップと、ここで、前記プーリングされた画像における各画素について、その画素値は、前記入力されたテキスト行画像の対応するプーリング領域における全ての画素値のうちの最大値であり、前記訓練されたLSTMニューラルネットワークを用いて前記プーリングされた画像を処理して、前記プーリングされた画像に含まれる文字を認識するステップと、をさらに含んでもよい。
【0012】
他の態様では、本発明は、データ処理装置を制御するためのコンピュータープログラム、およびコンピュータープログラムを内部に格納したコンピューター読取可能な記録媒体(例えば、メモリーまたは記憶装置)を提供し、当該コンピュータープログラムは、上述した方法をデータ処理装置に実行させるように構成される。
【0013】
前述した一般的な説明、および後述する詳細な説明は共に、例示的および説明的であり、特許請求の範囲に記載された本発明のさらなる説明を提供することを意図するものであると理解される。
【図面の簡単な説明】
【0014】
図1】本発明の一実施形態に係るテキスト画像の処理方法を概略的に示す図である。
図1A】本発明の一実施形態に係るテキスト画像の処理方法を概略的に示す図である。
図1B】本発明の一実施形態に係るテキスト画像の処理方法を概略的に示す図である。
図2】最大プーリング後のテキスト画像の一例を概略的に示す図である。
図3】最小プーリング後のテキスト画像の一例を概略的に示す図である。
図4】本発明の一実施形態に係る線の太さを計算する方法を概略的に示す図である。
図5】線の太さを計算する方法の一例を概略的に示す図である。
図6】テキスト行のコア領域の高さの計算の一例を概略的に示す図である。
図7】テキスト行における最大プーリングおよび最小プーリングの結果の例を概略的に示す図である。
【発明を実施するための形態】
【0015】
本発明の実施形態は、文字認識のためのリカレントニューラルネットワーク(RNN)に、テキスト画像を入力する前に、当該画像の前処理を行う画像処理方法を提供する。(より詳細に後述される)図1を参照すると、ステップS11~S17は、画像の前処理である。本方法は主に、二値画像(すなわち、画素値が0および1である画像)として示された、印刷されたテキストに適用されることが意図される。本方法は、RNNモデルにおいて用いられる時間ステップを、それ以外の場合において必要とされるよりも少なくできることを除いて、文字認識に用いられるニューラルネットワークモデルに対する、いかなる変更も要求しない。また、本方法は、ニューラルネットワークによって処理される画像のサイズを縮小させる。入力されたテキスト画像に対して、そのサイズを縮小させるために、線認識(stroke-aware)最大-最小プーリングの技術を適用することによって、本発明の実施形態は、ニューラルネットワークモデルの計算の複雑さを低減でき、同時に、文字認識の精度を向上できる。
【0016】
リカレントニューラルネットワークは、ネットワークノードが周期的に接続される、人工ニューラルネットワークの一種である。リカレントニューラルネットワークは、RNNのセルにおけるニューラルネットワークのチャンクを、セルに対する入力としてのx(時系列)、および出力としてのh(時系列)と結合することによって、構成されてもよい。長短期記憶(LSTM)ブロックは、多くのアプリケーションにおいて、RNNセルのための一般的な選択肢であり、結果として生じるネットワークは、LSTMネットワークと称される。セルは、現在の時間ステップtから次の時間ステップt+1に、情報が送られることを可能にする。したがって、過去における多くのステップからの情報が、現在のステップの出力を生成するのに用いられる。しかし、時間の連続した予測に含まれる、より多くの時間ステップは、より高い計算コストをもたらす。LSTMネットワークは、当該技術分野において周知であり、テキストのデジタル化のためのOCRを行うために用いられている。例えば、Graves,Alexの“Generating sequences with recurrent neural networks,” arXiv preprint arXiv:1308.0850(2013)を参照されたい。OCRに用いられ得るLSTMモデルの一例は、https://github.com/tmbdev/clstmから取得されてもよい。これは、C++におけるLSTMの実装である。入手可能な文献に基づいて、当業者は、本発明を実装するのに有用なRNNを取得して構築できるため、RNNまたはLSTMのさらなる詳細な説明は、本開示では提供されない。本発明の実施形態は、現在入手可能なもの、および将来開発され得るものを含む、任意の適切なRNNモデルと併用され得る。
【0017】
プーリングは、データ配列のサイズを縮小する方法である。プーリングは、元の配列の1つの領域を、プーリングされた配列における1つの要素にマッピングする(対応付ける)。視覚認識のための多くの人工ニューラルネットワークモデルは、次元を削減する方法として、プーリング層を用いて、特徴のプーリングを行う。視覚認識において用いられる2つの一般的なプーリングアルゴリズムは、平均プーリングおよび最大プーリングである。平均プーリングでは、特徴マップの各領域における値の平均値が算出され、プーリングされた特徴マップの対応値として用いられる。
【0018】
【数1】
【0019】
ここで、mは、プーリングされる特徴マップの領域を示し、yは、領域m内の特徴マップの位置/インデックスの集合を示し、aは、領域m内の位置iにおける値を示し、fは、領域mに対応する、プーリングされた特徴マップの値を示す。最大プーリングでは、特徴マップの領域mにおける値のうちの最大値が、プーリングされた特徴マップの対応値として算出される。
【0020】
【数2】
【0021】
最大プーリングは、画像認識のためのディープラーニングにおいて適用された場合における、そのより良好な性能によって、最近人気を得ている。
【0022】
本発明の実施形態は、文字認識を行うLSTMネットワークにプーリングされた画像を入力する前に、印刷されたテキストの入力された二値画像に、プーリングステップを適用する。本発明の発明者は、最大プーリングまたは平均プーリングのいずれかが、印刷されたテキストの二値画像に適用されて、画像のサイズが縮小される場合、単語の隣接する文字間の内部空間をしばしば抑制し、LSTMネットワークの認識性能の低下をもたらすことを発見した。図2は、最大プーリングが、2本の線の間の内部空間を抑制する一例を示す。図2では、左における元の画像が、2本の縦線を含む。プーリング領域は、2×2画素のサイズである。右におけるプーリングされた画像では、2本の線は、最大プーリング後に結合されている。
【0023】
最大プーリングも平均プーリングも、両工程が共に単語における文字間の内部空間を抑制するため、全てのテキストのフォントに対して適切に行われるわけではないという発明者の見解を考慮して、本発明の実施形態では、新たなプーリングの方法が用いられる。新たなプーリングの方法は、単語における文字の内部空間が抑制されることを防ぐため、単語の構造が保たれる。
【0024】
上述した問題を解決するために、画像領域における画素値のうちの最小値を計算する、最小プーリングの方法が用いられる。
【0025】
【数3】
【0026】
ここで、mは、プーリングされる画像の領域を示し、yは、領域m内の画像の位置/インデックスの集合を示し、aは、領域m内の位置iにおける画素値(0または1)を示し、fは、領域mを表すプーリングされた画像の値を示す。
【0027】
図3は、最小プーリングの方法が、当該プーリングの工程後に、2つの隣接する線が結合されることをどのように防止するかを示す。図2と同じ元の画像(左)の例に対して、右における最小プーリングの結果は、2本の線の構造を保つ。プーリング領域は、ここでも2×2画素である。最小プーリングは、線の太さ(厚さ)を損ない得るが、最大プーリングまたは平均プーリングよりも、隣接した線の間の内部空間、ひいては文字および単語の構造を良好に保つ。
【0028】
最小プーリングは、印刷されたテキストの二値画像に適用された場合、最大プーリングの不利益を克服するが、場合によっては、単語の構造を破壊し得る。例えば、線の太さが1画素しかない場合、最小プーリングの工程後に、単語の線は消え得る。これらの問題を解決するために、本発明の実施形態は、テキスト画像の領域に、その領域におけるテキストの線の太さに応じて、最大プーリングまたは最小プーリングのいずれかを適用する、線認識最大-最小プーリングの方法を提供する(式(1))。
【0029】
【数4】
【0030】
ここで、mは、プーリングされる画像の領域を示し、yは、領域m内の画像の位置/インデックスの集合を示し、aは、領域m内の位置iにおける画素値を示し、fは、領域mに対応するプーリングされた画像の値を示し、sは、領域mにおけるテキスト文字の線の太さを示し、τは、印刷された大量のテキスト画像を含むデータセットから算出される、様々なフォントにおける平均の線の太さを示す。言い換えれば、最大プーリングでは、プーリングされた画像における各画素に関する画素値は、元の画像の対応するプーリング領域mにおける全ての画素値のうちの最大値であり、最小プーリングでは、プーリングされた画像における各画素に関する画素値は、元の画像の対応するプーリング領域mにおける全ての画素値のうちの最小値である。
【0031】
好ましい実施形態では、まず、行の区分化ステップがテキスト画像のページに適用され、当該ページがテキストの個別の行に区分化される。そして、プーリングステップが、テキストの1行を含む区分化された画像(テキスト行画像と称される)の各々に適用され、当該テキスト行について、線の太さsが算出される。言い換えれば、式(1)における各領域mは、テキスト画像のページから区分化されたテキストの行である。これは、各行が1つのフォントのみのテキストを含む場合に、良好に機能する。より詳細に後述するように、複数のフォントを含むテキスト行画像は、単語単位を基礎として処理され得る。
【0032】
一実装では、テキスト行に関する線の太さsは、以下の式(式(2))を用いて計算される。
【0033】
【数5】
【0034】
ここで、hは、後述するようなテキスト行のコア領域の高さを示し、iは、垂直(縦)方向における画素行のインデックスを示し、Yは、テキスト行画像の水平(横)に走査する行(画素行)の数を示し、jは、画素行内の水平方向における、連続した前景(テキスト)画素のランのインデックスを示し、Xは、i番目の画素行における連続した前景画素のランの数を示し、rijは、インデックスi、jを有する、連続した前景画素のランの長さ(ランレングスと称される)を示す。式(2)の意味は、以下の通りである。
【0035】
各画素行iにおいて、水平方向における連続した前景画素の各ランは、当該行によって横切られる文字の線の一部に対応する。例えば、画素行が曲線の上部(例えば、「o」、「s」の上部)に近かったり、「t」等のいくつかの文字の水平方向のダッシュ内に存在したりする、ある場所において、前景のランレングスは、実際の線の太さよりも長い。(rによって示される)画素行iにおける、全てのランレングスrijの最小値を取得することによって、これらのより長い前景のランレングスは、捨てられ得る。そして、全ての画素行iにおける、rの最小値が算出される(ただし、最小値を算出するとき、前景のランレングスを有しない当該行は除外される)。その後、当該最小値が、テキストのコア領域の高さhによって除算され、線の太さsが取得される。線の太さは、テキストのコア領域の高さhの比として、正規化された値であることに留意すべきである。図4は、線の太さを算出する処理をまとめている。図5は、本方法を用いて、線の太さを取得する一例を示す。
【0036】
一実施形態では、テキスト行のコア領域の高さhは、以下のように計算される。まず、各画素行における前景画素の数を数えることによって、水平方向の画素濃度のヒストグラムdが生成される。各行のインデックスiに関するヒストグラム値dは、当該行における前景画素の数の、テキスト行画像の各画素行における画素の総数に対する比として表現されてもよい。水平方向の画素濃度のヒストグラムの一例を図6に示す。そして、K平均クラスタリングの計算が、ヒストグラム値dに適用されて、それらが2つのクラス、すなわち、高濃度のクラスおよび低濃度のクラスに分類される。全ての高濃度のヒストグラム値からなる行のインデックス値iは、i軸に沿う(垂直方向における)一つ以上の連続した区間を形成し、最も長いそのような区間の長さが、テキスト行のコア領域の高さhとして取得される。コア領域の高さhは、テキスト行の文字高さの近似値として用いられる。
【0037】
式(2)は、線の太さを算出するための例示的な方法に過ぎないことに留意すべきである。他の適切な方法が用いられてもよい。
【0038】
平均の線の太さτは、多数のテキスト行画像を含むデータセットから計算される、線の太さsの値の平均である。データセットが非常に大きい場合、データセットからランダムに選択されるサブセットが用いられて、τが計算されてもよい。
【0039】
好ましい実施形態では、テキスト行画像に適用される線認識最大-最小プーリングは、非正方形状のプーリング領域mを用いる。例えば、2×1画素、3×1画素、または、より一般的にはN×1画素のプーリング領域、すなわち行型のプーリングである。行型のプーリングを用いると、画像のサイズは、水平方向においてのみ縮小し、垂直方向における文字のサイズは、変化しないままである。他の例では、プーリング領域は、3×2画素、4×2画素等であってもよい。
【0040】
図7は、線認識最大-最小プーリングの結果の一例を示し、それを最大プーリングの結果と比較している。左の画像は、非公式のローマン体で印刷された、例示的な元のテキスト画像であり、中央の画像は、最大プーリング後のプーリングされた画像であり、右の画像は、本発明の一実施形態に係る線認識最大-最小プーリング後のプーリングされた画像である(この場合、最小プーリングは、線の太さの解析に基づいて用いられた)。両方のプーリングの方法において、2×1のプーリング領域が用いられた。最大プーリングを用いた結果では、文字間における空間が、最大プーリング後に抑制されていることによって、単語の構造が損なわれていることが確認され得る。一方、線認識最大-最小プーリングからの結果は、元の文字の構造を保つ。
【0041】
いくつかの実施形態では、各テキスト行画像について用いられるプーリング領域mのサイズは、線の太さsに基づいて、動的に決定される。これにより、異なるフォントにわたって、線の太さを効果的に均等化でき、LSTMネットワークによる認識精度が向上し得る。例えば、線の太さによって、プーリング領域のサイズは、2×1、3×1等であってもよい。一例では、画素の数における線の太さMは、(式(2)を用いるが、コア領域の高さによって除算しない)上述した方法を用いて算出され、NがM/2の整数部分、またはM/2+1の整数部分である、プーリング領域のサイズN×1画素が用いられる。この方法を用いると、異なるフォントは、プーリング後にほぼ同じ線の太さを有するようになる。
【0042】
先に示したように、各行が同じフォントのテキストを含む場合、一度における1つのテキスト行の処理は、良好に機能する。任意に、まず、フォント検出ステップがテキスト行画像に適用されて、テキスト行が1つのフォントのみを含むか、複数のフォントを含むかが判断されてもよく、複数のフォントが存在する場合、テキスト行画像が複数の単語画像に区分化され、各単語画像は、上述した方法と同じ方法で、テキスト行画像として処理される。
【0043】
より具体的には、これは2つの方法で行われ得る。第1の方法では、各テキスト行に単語区分化ステップが適用されて、単語画像が取得され、各単語画像にフォント認識アルゴリズムが適用されて、単語に関するフォントが判断される。任意の時点において、行が複数のフォントを含むと判断された場合、プーリングステップが、各単語画像に個別に適用される。フォント認識アルゴリズムは、周知である。例えば、Zramdini,AbdelwahabおよびRolf Ingoldの“Optical font recognition using typographical features.”IEEE Transactions on pattern analysis and machine intelligence 20.8(1998):877-882は、当該ステップにおいて用いられてもよい、フォント認識アルゴリズムを記載している。
【0044】
第2の方法では、最初にテキスト行を単語に区分化せずに、テキスト行にフォント認識アルゴリズムが適用されて、行が複数のフォントを含むかどうかが検出されてもよい。行が複数のフォントを含む場合、行は単語画像に区分化され、各単語画像にプーリングが個別に適用され、行が複数のフォントを含まない場合、行全体にプーリングが適用される。
【0045】
図1は、本発明の実施形態に係るテキスト画像の処理方法をまとめている。ステップの詳細については、上述している。当該処理に対する入力は、印刷されたテキストの二値画像である。まず、入力された画像に行の区分化が適用されて、テキスト行画像が生成される(ステップS11)。当該ステップは、入力された画像が既にテキスト行に区分化されている場合、不要である。各テキスト行画像に対して、任意のステップ(ステップS12)が実行されて、テキスト行が1つのフォントのみを含むか、複数のフォントを含むかが判断され、行が複数のフォントを含む場合、テキスト行画像が複数の単語画像にさらに区分化される。このような各単語画像は、以降のステップにおいて、テキスト行画像として扱われる。ステップS12は任意であり、省略された場合、各行が1つのフォントのみを含むか、複数のフォントを含むかを判断せずに、各行はテキスト行画像として処理される。
【0046】
各テキスト行画像について、文字の線の太さsが算出される(ステップS13)。画素の数で測定された線の太さに基づいて、プーリング領域mのサイズが決定される(ステップS14)。ステップS14は任意であり、いくつかの実施形態において省略されてもよく、省略された場合、所定のサイズがプーリング領域mに用いられる。
【0047】
そして、線認識最大-最小プーリングが、テキスト行画像に適用されて(ステップS15、S16およびS17)、前処理が行われたテキスト行画像が生成される。ステップS15の判断において用いられる値τ(平均の線の太さ)は、印刷された二値のテキスト画像のデータセットを用いて、予め算出されている。ステップS13~17は、各テキスト行画像に対して繰り返される。
【0048】
前処理が行われたテキスト行画像は、LSTMネットワークモデルに入力され、ネットワークモデルが訓練されたり、文字認識(予測)が実行されたりする。ニューラルネットワークの技術分野において一般的に知られているように、ネットワークモデルの訓練は、大量のラベル付けされた訓練データ、この場合は、テキスト行画像に含まれる文字を表すデジタル値を用いてラベル付けされた、前処理が行われたテキスト行画像を、ネットワークモデルに入力し、ネットワークモデルの重みを計算することを含む。予測の実行は、処理されるデータ、この場合は、認識されるテキスト行画像を、ネットワークに入力し、予測出力、この場合は、テキスト行画像における文字のデジタル値を取得することを含む。上述したように、本発明の実施形態は、訓練および予測の両方のためのLSTMネットワークモデルに対する入力として、入力された元のテキスト画像ではなく、前処理が行われたテキスト行画像を用いるが、LSTMネットワーク、またはその訓練アルゴリズムのいかなる変更も必要としない。LSTMモデルにおける時間ステップの数は、入力された画像における列の数と等しい。したがって、プーリング領域が2×1画素の場合、最大-最小プーリングの適用後、LSTMモデルにおける時間ステップの数は、半分に減少する。
【0049】
より具体的には、訓練段階(図1A)では、複数のテキスト画像および対応するラベルデータを含む訓練データセットが提供され(それは、データセットの全体またはサブセットであってもよく、ネットワークモデルが認識することを期待される全てのフォントを含むべきである)、画像が複数のテキスト行画像に区分化され(ステップS21)、各テキスト行画像について(ステップS13と同じ)線の解析が適用されて線の太さが計算され(ステップS22)、全てのテキスト行画像から平均の線の太さτが計算される(ステップS23)。そして、(ステップS15~S17と同じ)計算されたτ値に基づく線認識最大-最小プーリングが、各テキスト行画像に適用されて(ステップS24)、前処理が行われた訓練データセットが生成される。前処理が行われた訓練データセットは、訓練されていないLSTMネットワークモデルを訓練するのに用いられる。予測段階(図1B)では、認識されるテキストを含む入力されたテキスト画像が、テキスト行画像に区分化され(ステップS31)、各テキスト行画像について線の太さが計算され(ステップS32)、線認識最大-最小プーリングを用いて、テキスト行画像の前処理が行われる(ステップS15~17と同じステップS33)。そして、前処理が行われたテキスト行画像が、認識結果を出力する、訓練されたLSTMネットワークモデルに入力される(ステップS34)。
【0050】
予測段階では、テキスト画像の各ページは、当該ページにおいて用いられたフォント(すなわち、τに関連する線の太さ)に応じて、最大プーリングのみまたは最小プーリングのみを呼び出すことができるが、τ値は、多数のフォントを含む訓練データセットから計算されているため、全てのフォントについて、訓練されたLSTMネットワークの全体的な性能が向上され得る。
【0051】
本発明の発明者らは、一般的に用いられる30個のフォントを含んだデータセットを用いて、試験を行った。認識精度について、線認識最大-最小プーリングは、全体的な認識精度において、最大プーリングと比較して9%の向上をもたらし、いかなるプーリングの方法も用いない元の入力と比較して、8%の向上をもたらした。また、線認識最大-最小プーリングを用いると、いかなるプーリングも用いない場合と比較して、全体的なデジタル化処理のための計算時間が、平均して約50%短縮された。計算時間におけるこの短縮は、LSTMパラメーターを圧縮する多くの既存の手法よりも、非常に優れている。さらに、線認識最大-最小プーリングを用いると、複数のフォント間の認識精度のばらつきが減少した。いくつかのフォントについては、線認識最大-最小プーリングを用いると、わずかに低下した精度がもたらされたが、全体的な精度は大きく向上した。
【0052】
まとめると、複雑さの低減によって、精度の性能が常に妥協される多くの従来の手法とは異なり、本発明の実施形態に係る線認識最大-最小プーリングの方法は、分類の精度を向上するだけでなく、LSTMにおける時間ステップの数を減少させることによって、計算コストも大きく減少させ、例えば、プーリング領域が2×1画素の場合、50%減少させる。
【0053】
本発明の実施形態に係るプーリングの方法は、以下の利点を有する。従来の方法(例えば、平均プーリングおよび最大プーリング)とは異なり、本プーリング方法は、対象のテキスト行のフォントの線によって誘導されることによって、異なるフォント間の類似性をより良好に均等化し、分類の精度を向上させることができる。正方形のプーリング領域を用いる従来のプーリングとは異なり、本プーリング方法は、非正方形のプーリング領域を用いることによって、垂直方向における文字の識別機能をより良好に保つことができる。本プーリング方法は、LSTMの時系列において必要とされる時間ステップを、より少なくできる。
【0054】
線認識最大-最小プーリングの方法は、一つ以上のコンピューター等のデータ処理システムにおいて実行されてもよい。各コンピューターは、プロセッサー、メモリーまたは記憶装置(例えば、ハードディスクドライブ、フラッシュメモリー)および内部メモリー(例えばRAM)を備えてもよい。記憶装置は、当該方法を実行するために、RAMに読み出され、プロセッサーによって実行され得る、コンピュータープログラムを記憶する。線認識最大-最小プーリングの手順およびRNNモデルは、同じコンピューターにおいて実行されてもよいし、異なるコンピューターにおいて実行されてもよい。実際には、人工ニューラルネットワークモデルは、GPU(グラフィックスプロセッシングユニット)クラスター等の特殊なプロセッサーを用いて、しばしば実装される。
【0055】
一態様では、本発明は、データ処理システムによって実行される方法である。他の態様では、本発明は、当該方法を実行するようにデータ処理装置を制御するための、コンピュータープログラム、およびコンピュータープログラムを内部に格納したコンピューター読取可能な記録メモリーである。他の態様では、本発明は、データ処理システムにおいて具現化される。
【0056】
当業者には明らかなように、本発明の思想または範囲から逸脱することなく、本発明のテキスト画像の処理方法および関連する装置において、種々の改良および変更が行われ得る。したがって、本発明は、添付の特許請求の範囲およびその均等物の範囲内に入る改良および変更を包含することが意図される。
図1
図1A
図1B
図2
図3
図4
図5
図6
図7