【新規性喪失の例外の表示】特許法第30条第2項適用 2016年3月20日 The 41st IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP2016)(第41回 音響効果、スピーチ及び信号処理に関するIEEE国際会議 論文集)にて公開
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0011】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0012】
<本発明の実施の形態の概要>
入力画像から、文字の領域を切り出すことを検出と言う。検出された文字の領域の画像から、どの単語に該当するか、判断する過程を認識とよぶ。このように画像内文字認識の過程として、以下の3つのタスクが考えられる。
【0014】
2)切り出された文字領域を入力として、そこに描かれている文字を認識する。
【0015】
3)画像の入力から認識結果の出力までのトータルの技術を扱う。
【0016】
本実施の形態では、上記の2)を扱う。また、本実施の形態では、以下の3つのポイントを特徴としている。
【0017】
1)CNNを用いた高い性能の文字分類器を用いる。
【0018】
2)辞書と言語モデルを組み合せたWFSTによる文字列のラベル付け技術を用いる。
【0019】
3)RNN系列分類器による文字列認識技術を用いる。
【0020】
<第1の実施の形態>
<文字列認識装置のシステム構成>
図1は、本発明の第1の実施の形態に係る文字列認識装置100を示すブロック図である。この文字列認識装置100は、CPUと、RAMと、後述する文字列認識処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0021】
本実施の形態に係る文字列認識装置100は、
図1に示すように、入力部10と、演算部20と、出力部40とを備えている。
【0022】
入力部10は、文字列画像を入力として受け付ける。文字列画像は、画像から文字列の領域を切り出した画像であり、縦の画素数が所定数となるように大きさが正規化されているものとする。ここで、所定数とは、後述する窓と同じサイズである。
【0023】
演算部20は、文字認識部22、文字列候補認識部24、及び文字列認識部26を備えている。
【0024】
文字認識部22は、入力された文字列画像に対して部分画像を切り出すための窓を走査して、窓で切り出された部分画像の各々を、Network in Network構造であって、かつ、文字を認識するための予め学習されたCNN(Convolutional Neural Network)に入力して、部分画像の各々についての各文字のスコアを表すCNNスコア行列を求める。
【0025】
本実施の形態では、文字認識のタスクで、
図2に示すような、Network in Network構造を持つCNNを用いて、走査ステップ毎に窓で切り出された部分画像から、例えば、62クラスへ分類するための各スコアを計算し、走査した窓毎に62クラスの各スコアを並べたCNNスコア行列が得られる。
【0026】
ここで、62クラスとは、数字10個、アルファベット26文字*2(大文字,小文字)を合わせたものである。
【0027】
また、Network in Network構造を持つCNNの入力としては、32×32のグレースケール画像を用い、Micro network(非特許文献2(M. Lin et al. "Network in Network", ICLR 2014)を参照)に接続された3つの畳み込み層(convolutional layer)と、128個のニューロンを有する、1つの全接続層(fully connected layer)とを有するCNNを用いる。
【0028】
畳み込み層間は、小さな複層パーセプションネットワークで接続され、全接続層は、分類カテゴリと特徴マップとを直接リンクさせるグローバルアベレージプーリング層である。
【0029】
なお、CNNは、訓練データに基づいて予め学習しておく。
【0030】
文字列候補認識部24は、文字認識部22によって求められたCNNスコア行列に対して、局所的な最大値以外を押さえる強調処理を行い、強調処理後のCNNスコア行列から、文字列画像が表す文字列候補を認識する。具体的には、強調処理後のCNNスコア行列を、文字列候補を認識するための予め学習されたRNN(Recurrent Neural Network)に入力して、文字列画像が表す文字列候補の各々を求める。
【0031】
本実施の形態では、RNNとして、
図3に示すLSTMを用いた双方向のRNN系列分類器を用いる。
【0032】
なお、RNNは、訓練データに基づいて予め学習しておく。
【0033】
文字列認識部26は、文字列候補認識部24によって認識された文字列候補から、誤った文字列候補を取り除くことにより、文字列画像が表す文字列を認識する。本実施の形態では、文字列候補認識部24によって認識された文字列候補の各々について、CNNスコア行列から得られるスコアを再検証することにより、誤った文字列候補を取り除く。
【0034】
具体的には、CNNスコア行列Mに基づいて、文字列候補Wの各々について、以下の式に従ってスコアS(W,M)を計算し、再検証を行う。
【0036】
ただし、W={c
1,c
2,…,c
N}であり、p
i+Δは、文字c
iの中心の位置である(
図4参照)。また、B=[−δ,δ]は、幅を示すパラメタである。実験ではδを5としている。
【0037】
文字列候補Wの各々について計算されたスコアS(W,M)に基づいて、スコアS(W,M)が最大となる文字列候補Wを、文字列画像が表す文字列の認識結果とする。
【0038】
出力部40は、文字列画像が表す文字列の認識結果を出力する。
【0039】
<文字列認識装置の作用>
次に、本実施の形態に係る文字列認識装置100の作用について説明する。縦の画素数が所定数となるように大きさが正規化されている文字列画像が、文字列認識装置100に入力されると、文字列認識装置100によって、
図5に示す文字列認識処理ルーチンが実行される。
【0040】
まず、ステップS100において、入力された文字列画像に対して窓を走査して、窓で切り出された部分画像の各々を、Network in Network構造のCNN(Convolutional Neural Network)に入力して、部分画像の各々についての各文字のスコアを表すCNNスコア行列を求める。
【0041】
そして、ステップS102において、上記ステップS100で求められたCNNスコア行列に対して、強調処理を行う。
【0042】
ステップS104では、強調処理後のスコア行列を、文字列候補を認識するための予め学習されたRNN(Recurrent Neural Network)に入力して、文字列画像が表す文字列候補の各々を取得する。
【0043】
そして、ステップS106では、上記ステップS100で得られたCNNスコア行列Mに基づいて、上記ステップS104で得られた文字列候補Wの各々について、スコアS(W,M)を計算し、再検証し、スコアS(W,M)が最大となる文字列候補Wを、文字列画像が表す文字列の認識結果として、出力部40により出力し、文字列認識処理ルーチンを終了する。
【0044】
以上説明したように、本発明の第1の実施の形態に係る文字列認識装置によれば、文字列画像に対して走査した窓で切り出された部分画像の各々を、Network In Network構造のCNNに入力し、求められたCNNスコア行列に基づいて、文字列画像が表す文字列候補を認識することにより、文字列画像が表す文字列を精度よく認識することができる。
【0045】
また、CNN特徴がさまざまなノイズ・変形に強いことから、CNNスコア行列を用いて、文字列画像が表す文字列を精度よく認識することができる。
【0046】
また、RNNを用いて、文字列候補を求めることにより、文脈の情報を十分に役立てることができ、また、原語モデルや語彙辞書を前提とせずに、文字列候補を得ることができる。
【0047】
<第2の実施の形態>
<文字列認識装置のシステム構成>
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る文字列認識装置は、第1の実施の形態と同様の構成であるため、同一符号を付して説明を省略する。
【0048】
第2の実施の形態では、
図6に示すように、文字列候補に対して、WFST(Weight Finite State Transducer)に基づく探索グラフを作成して、文字列画像が表す文字列の認識結果を求めている点が、第1の実施の形態と異なっている。
【0049】
第2の実施の形態では、文字列認識部26は、文字列候補認識部24によって認識された文字列候補の各々から、言語モデル及び語彙辞書から得られる、文字列候補の各々に対応する文字列を表す探索グラフを生成し、生成した探索グラフに基づいて、文字列画像が表す文字列を認識する。
【0050】
具体的には、文字列候補の各々を、語彙辞書の中の正しい文字列に対応付けることにより、語彙辞書から得られる文字列候補の各々に対応する文字列を表す、語彙辞書に基づくWFST Lを生成し、文字列候補の各々を、言語モデルの中の正しい文字列に対応付けることにより、言語モデルから得られる文字列候補の各々に対応する文字列を表す、言語モデルに基づくWFST Gを生成し、複数のWFSTを組み合わせて、効率のよい1つの探索グラフを作成する。
【0052】
作成した探索グラフを用いて、文字列候補に対して編集距離が最も短い文字列を求め、文字列画像が表す文字列の認識結果とする。
【0053】
例えば、
図7に示すように、文字列候補「POCHIETL」に対して、編集距離が最も短い文字列を求めることで、文字列の認識結果「POCKET」を得ることができる。
【0054】
<文字列認識装置の作用>
次に第2の実施の形態における文字列認識処理ルーチンについて、
図8を用いて説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
【0055】
まず、ステップS100において、入力された文字列画像に対して窓を走査して、窓で切り出された部分画像の各々を、Network in Network構造のCNNに入力して、CNNスコア行列を求める。
【0056】
そして、ステップS102において、上記ステップS100で求められたCNNスコア行列に対して、強調処理を行う。
【0057】
ステップS104では、強調処理後のスコア行列を、RNNに入力して、文字列画像が表す文字列候補の各々を取得する。
【0058】
そして、ステップS206では、上記ステップS104で得られた文字列候補Wの各々から、語彙辞書に基づくWFST L、及び言語モデルに基づくWFST Gを組み合わせた探索グラフを作成する。ステップS208では、上記ステップS206で作成した探索グラフを用いて、文字列候補に対して編集距離が最も短い文字列を求め、文字列画像が表す文字列の認識結果として、出力部40により出力し、文字列認識処理ルーチンを終了する。
【0059】
以上説明したように、本発明の第2の実施の形態に係る文字列認識装置によれば、文字列候補に対して、複数のWFSTに基づく探索グラフを作成して、文字列画像が表す文字列の認識結果を求めることにより、効率的に、語彙辞書と言語モデルの双方を考慮した文字列を認識結果として得ることができる。
【0060】
<実施例>
既存のICDAR 2003のデータセット、SVT-WORDのデータセット、IIIT5Kのデータセットを用いて上述した第2の実施の形態の手法による文字列認識の効果を検証する評価実験を行った。比較対象は従来のICCV2011(非特許文献3)、BMVC2012(非特許文献4)、ICPR2012(非特許文献5)、CVPR2014(非特許文献6)、ICLR2014(非特許文献7)、ECCV2014(非特許文献8)、PAMI2014(非特許文献9)に記載の各手法とした。
【0061】
[非特許文献3]: Kai Wang, Boris Babenko, and Serge Belongie, “Endto-end scene text recognition,” in ICCV. IEEE, 2011,pp. 1457-1464.
[非特許文献4]:Anand Mishra, Karteek Alahari, and CV Jawahar,“Scene text recognition using higher order language priors,”in BMVC, 2012
[非特許文献5]:Tao Wang, David J Wu, Andrew Coates, and Andrew Y Ng, “End-to-end text recognition with convolutional neural networks,” in Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE, 2012, pp. 3304-3308.
[非特許文献6]:Cong Yao, Xiang Bai, Baoguang Shi, and Wenyu Liu,“Strokelets: A learned multi-scale representation for scene text recognition,” in Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014, pp. 4042-4049.
[非特許文献7]:Ouais Alsharif and Joelle Pineau, “End-to-end text recognition with hybrid HMM maxout models,” in ICLR, 2014.
[非特許文献8]: Max Jaderberg, Andrea Vedaldi, and Andrew Zisserman, “Deep features for text spotting,” in Computer Vision-ECCV 2014, pp. 512-528. Springer, 2014.
[非特許文献9]: Jon Almazan, Albert Gordo, Alicia Forn´es, and Ernest Valveny, “Word spotting and recognition with embedded attributes,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 36, no. 12, pp. 2552-2566, 2014.
【0062】
文字列認識の結果を
図9の表に示す。ノイズや変形の多いデータセットに対して、上述した第2の実施の形態の手法では、最高性能を示すことが分かった。
【0063】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0064】
例えば、
図10に示すように、RNNを用いずに、強調処理後のCNNスコア行列から、順序の整合性を考慮した解釈により、文字列候補を取得するようにしてもよい。
【0065】
上述の文字列認識装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0066】
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。