IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

<>
  • 特許-モデル生成システム及びモデル生成方法 図1
  • 特許-モデル生成システム及びモデル生成方法 図2
  • 特許-モデル生成システム及びモデル生成方法 図3
  • 特許-モデル生成システム及びモデル生成方法 図4
  • 特許-モデル生成システム及びモデル生成方法 図5
  • 特許-モデル生成システム及びモデル生成方法 図6
  • 特許-モデル生成システム及びモデル生成方法 図7
  • 特許-モデル生成システム及びモデル生成方法 図8
  • 特許-モデル生成システム及びモデル生成方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-04-28
(45)【発行日】2025-05-09
(54)【発明の名称】モデル生成システム及びモデル生成方法
(51)【国際特許分類】
   G06V 30/194 20220101AFI20250430BHJP
【FI】
G06V30/194
【請求項の数】 9
(21)【出願番号】P 2022045991
(22)【出願日】2022-03-22
(65)【公開番号】P2023140117
(43)【公開日】2023-10-04
【審査請求日】2024-06-20
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】グエン コン カー
(72)【発明者】
【氏名】大館 良介
【審査官】岡本 俊威
(56)【参考文献】
【文献】特表2021-520561(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00-30/424
(57)【特許請求の範囲】
【請求項1】
テキストライン画像に含まれるテキストラインを認識するテキストライン認識モデルを生成するモデル生成システムであって、
前記モデル生成システムは、プロセッサ部を含み、
前記テキストライン認識モデルは、前記プロセッサ部により実行されるとテキストライン画像から画像の特徴量を出力するビジュアル特徴抽出器と、前記プロセッサ部により実行されると、ビジュアル特徴抽出器から出力された特徴量を入力してテキストラインを出力する言語文脈関係ネットワークと、を含み、
前記プロセッサ部は、
訓練用のテキストデータを取得し、前記取得したテキストデータを利用して前記言語文脈関係ネットワークを訓練することにより、前記言語文脈関係ネットワークの変数を決定し、
前記テキストライン認識モデルを、前記言語文脈関係ネットワークの変数を決定した前記変数に固定した状態で、既存のラベル付きのテキストライン画像を用いて訓練することにより、前記ビジュアル特徴抽出器の変数を決定し、
前記言語文脈関係ネットワークの変数を決定された前記言語文脈関係ネットワークの変数とし、前記ビジュアル特徴抽出器の変数を決定された前記ビジュアル特徴抽出器の変数とした前記テキストライン認識モデルを生成する
モデル生成システム。
【請求項2】
前記プロセッサ部は、前記テキストライン認識モデルを、所定数未満のラベル付きのテキストライン画像を用いて訓練することにより、前記テキストライン認識モデルの変数を調整する
請求項1に記載のモデル生成システム。
【請求項3】
前記モデル生成システムは、インターネットに接続されており、
前記プロセッサ部は、前記インターネットを介して前記訓練用のテキストデータを取得する
請求項1に記載のモデル生成システム。
【請求項4】
前記訓練用のテキストデータは、インターネット上で公開されている著作権フリーのテキストデータである
請求項3に記載のモデル生成システム。
【請求項5】
前記プロセッサ部は、
ユーザからテキストライン画像と、前記テキストライン画像に付けるラベルとの入力を受け付け、
前記テキストライン認識モデルを、受け付けた前記テキストライン画像及びラベルを用いて訓練することにより、前記テキストライン認識モデルの変数を調整する
請求項2に記載のモデル生成システム。
【請求項6】
前記プロセッサ部は、
前記言語文脈関係ネットワークの訓練において、前記訓練用のテキストラインデータを取得し、前記取得したテキストラインデータを数値化する単語埋め込みを行い、数値化したデータを畳み込んだ後に、前記言語文脈関係ネットワークに入力することにより、前記言語文脈関係ネットワークを訓練する
請求項1に記載のモデル生成システム。
【請求項7】
前記プロセッサ部は、
前記言語文脈関係ネットワークの訓練において、前記訓練用のテキストラインデータを取得し、前記取得したテキストラインデータを所定のフォントによりテキストライン画像に変換し、変換されたテキストライン画像を、所定のビジュアル特徴抽出器に入力し、前記ビジュアル特徴抽出器からの出力を前記言語文脈関係ネットワークに入力することにより、前記言語文脈関係ネットワークを訓練する
請求項1に記載のモデル生成システム。
【請求項8】
前記既存のラベル付きテキストライン画像は、同一のスタイルのテキストライン画像をまとめた、複数のスタイル別画像群により管理されており、
プロセッサ部は、
前記テキストライン認識モデルを、前記言語文脈関係ネットワークの変数を決定した前記変数に固定した状態で、複数の前記スタイル別画像群のそれぞれのラベル付きテキストライン画像を用いて訓練することにより、前記ビジュアル特徴抽出器の変数を決定する
請求項1に記載のモデル生成システム。
【請求項9】
テキストライン画像に含まれるテキストラインを認識するテキストライン認識モデルを生成するモデル生成システムによるモデル生成方法であって、
前記テキストライン認識モデルは、前記モデル生成システムにより実行されるとテキストライン画像から画像の特徴量を出力するビジュアル特徴抽出器と、前記モデル生成システムにより実行されると、ビジュアル特徴抽出器から出力された特徴量を入力してテキストラインを出力する言語文脈関係ネットワークと、を含み、
前記モデル生成システムは、
訓練用のテキストデータを取得し、前記取得したテキストデータを利用して前記言語文脈関係ネットワークを訓練することにより、前記言語文脈関係ネットワークの変数を決定し、
前記テキストライン認識モデルを、前記言語文脈関係ネットワークの変数を決定した前記変数に固定した状態で、既存のラベル付きのテキストライン画像を用いて訓練することにより、前記ビジュアル特徴抽出器の変数を決定し、
前記言語文脈関係ネットワークの変数を決定された前記言語文脈関係ネットワークの変数とし、前記ビジュアル特徴抽出器の変数を決定された前記ビジュアル特徴抽出器の変数とした前記テキストライン認識モデルを生成する
モデル生成方法。


【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストライン画像のテキストを認識する技術に関する。
【背景技術】
【0002】
文書認識は、小売、金融、教育、ロジスティクス、ヘルスケアなどのさまざまな分野に多くのメリットをもたらす。通常、文書認識は、テキストラインの検出から始まり、次にテキストラインの認識が行われる。テキストラインには、さまざまな手書き、複雑な背景、さまざまなフォント等の複数のスタイルが存在するので、現在の技術においては、テキストライン画像の文字を認識することに苦労している。
【0003】
過去数十年間、テキストライン認識に関する研究は、非特許文献1に示すような、文字列を単独文字へ分割し個々に認識する方法にほとんど集中していた。この方法では、テキストラインは、射影プロファイル(射影ヒストグラム)および多くのヒューリスティック仮説によって文字パターンに分割される。分割された文字パターンは、特徴マッチングモデルによって認識され、認識候補は、ラティスダイアグラムで言語文脈モデルと組み合わされる。ダイアグラムの最適なパスが検索され、認識結果として出力される。
【0004】
近年、深層学習の急激な進歩と共に、テキストライン認識のアプローチは、畳み込みニューラルネットワーク(CNN)と回帰型ニューラルネットワーク(RNN)のセグメンテーションフリー手法にほとんど移行している。これらは、上記のヒューリスティック仮説による方法よりも優れている。まず、非特許文献2に示すような、シーンテキスト画像を認識するために、CNN、双方向長短期記憶(BLSTM)、及びコネクショニスト時間分類(CTC)に基づいて、エンド・ツー・エンド学習可能な手法が提案された。この手法の一つの問題は、CTCレイヤの出力ラベルを予測するとき、BLMSTの時間ステップの特徴量の独立性を仮定することである。これは、モデルの精度を低下させるハードアライメント問題として知られている。
【0005】
その後、この問題を解決するために、非特許文献3に示すような、RNNのエンコーダー・デコーダー注意機構に基づく方法が提案された。この方法では、CNNを使用して特徴を抽出する。その特徴はRNNによってエンコードされる。注意機構は、エンコードされた特徴を出力ラベルに合わせる。次に、RNNのデコーダーは、テキストラインの最初から最後まで、順番にエンコードされた特徴を対応するラベルにデコードすることを学習する。前の時間ステップのデコードされた結果は、後の時間ステップのデコードにも使用されるため、この方法は、CTCに基づく方法の問題を解決することができる。ただし、この方法の問題は順次学習であり、デコードによるエラーが後の時間ステップにも広がることである。
【0006】
最近、非特許文献4に示すような、RNNを使用しない自己注意の方法が提案されている。この方法では、特徴を抽出するためにCNNが使用される。ドット・プロダクションの自己注意に基づくエンコーダーは、CNN特徴をエンコードする。次に、ドット・プロダクションの自己注意に基づくデコーダーは、エンコードされた特徴を出力ラベルにデコードすることを学習する。訓練段階では、この学習プロセスは出力ラベルのすべての文字に対して並行して行われる。したがって、RNNのエンコーダー・デコーダー注意に基づく方法の問題を克服できる。
【0007】
上記の深層学習に基づく方法では、モデルは一般にCNN特徴抽出器(FEXと呼ぶ)と、言語文脈関係ネットワーク(RNと呼ぶ)とで構成される。FEXは、入力画像をダウンサンプリングして次の層の計算コストを削減する、テキストライン画像の深いビジュアル特徴を抽出し、RNはテキストライン画像における文字パターン間の関係を学習する。上記の方法は、学習データとテストデータとが同じスタイルである場合に高い精度を達成するが、新しいスタイルのデータについてテストする場合は精度が低下する。上記のモデルを様々なスタイルのデータに一般化するには、許容可能な認識率を得るために多くのラベル付きデータが必要である。
【0008】
ラベル付きデータを用意するためのラベリング・コストを節約するためのソリューションは、非特許文献5に示すような、モデルを構築するためのドロップアウトやバッチ正規化等の転送可能な特徴学習手法を適用し、データ拡張方法により学習データを多様化し、ドメイン適応方法を適用することである。現在、転送可能な特徴学習手法とデータ拡張とは、深層学習に基づくモデルにしばしば適用されるが、これらの手法は、様々なスタイルの文書に対して十分に堅牢ではない。最近、非特許文献6に示すような、ドメイン適応の方法は、様々なスタイルの文書を認識するための有望な結果を生み出している。この手法は、ラベルのないデータを利用して、モデルに様々なスタイルのテキストライン画像の不変の特徴を学習させる。この手法の欠点の一つは、ラベルのない大量のデータが常に利用できるとは限らないことである。そのため、少ないサンプル数でのドメイン適応方法が要請される。
【先行技術文献】
【非特許文献】
【0009】
【文献】LIU, Cheng-Lin, et al. “Online and offline handwritten Chinese character recognition: benchmarking on new databases.” Pattern Recognition, 2013, 46.1: 155-162.
【文献】Shi, Baoguang, Xiang Bai, and Cong Yao. (2016) “An end to-end trainable neural network for image-based sequence recognition and its application to scene text recognition.” IEEE transactions on pattern analysis and machine intelligence 39, no. 11: 2298-2304.
【文献】Kang, Lei, J. Ignacio Toledo, Pau Riba, Mauricio Villegas, Alicia Fornes, and Marcal Rusinol. (2018) “Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition.” In German Conference on Pattern Recognition, pp. 459-472. Springer, Cham.
【文献】Lee, Junyeop, Sungrae Park, Jeonghun Baek, Seong Joon Oh, Seonghyeon Kim, and Hwalsuk Lee. “On recognizing texts of arbitrary shapes with 2D self-attention.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pp. 546-547. 2020.
【文献】Wang, Mei, and Weihong Deng. (2018) “Deep visual domain adaptation: A survey.” Neurocomputing 312: 135-153.
【文献】Zhang, Yaping, Shuai Nie, Wenju Liu, Xing Xu, Dongxiang Zhang, and Heng Tao Shen. “Sequence-to-sequence domain adaptation network for robust text-image recognition.” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2740-2749. 2019.
【発明の概要】
【発明が解決しようとする課題】
【0010】
深層学習に基づくテキストライン認識方法の主な問題は、モデルが訓練データと同じのデータに対しては高い認識精度を得られるが、訓練データと異なるスタイルのデータには認識精度が低下する過学習であることである。テキストラインデータには、印刷テキスト、シーンテキスト、手書きなど、さまざまな種類がある。それぞれのデータの種類において、テキストラインは、手書きスタイル、フォント、及び背景も異なる。また、テキストラインの内容も豊富である。そこで、許容可能な精度を得るためにモデルを訓練するには、大量のデータが必要である。
【0011】
本発明は、上記事情に鑑みなされたものであり、その目的は、訓練用のデータサンプルが少数であっても、所望のスタイルのテキストライン画像に適合できるテキストライン認識モデルを適切に生成することのできる技術を提供することにある。
【課題を解決するための手段】
【0012】
上記目的を達成するため、一観点に係るモデル生成システムは、テキストライン画像に含まれるテキストラインを認識するテキストライン認識モデルを生成するモデル生成システムであって、前記モデル生成システムは、プロセッサ部を含み、前記テキストライン認識モデルは、前記プロセッサ部により実行されるとテキストライン画像から画像の特徴量を出力するビジュアル特徴抽出器と、前記プロセッサ部により実行されると、ビジュアル特徴抽出器から出力された特徴量を入力してテキストラインを出力する言語文脈関係ネットワークと、を含み、前記プロセッサ部は、訓練用のテキストデータを取得し、前記取得したテキストデータを利用して前記言語文脈関係ネットワークを訓練することにより、前記言語文脈関係ネットワークの変数を決定し、前記テキストライン認識モデルを、前記言語文脈関係ネットワークの変数を決定した前記変数に固定した状態で、既存のラベル付きのテキストライン画像を用いて訓練することにより、前記ビジュアル特徴抽出器の変数を決定し、前記言語文脈関係ネットワークの変数を決定された前記言語文脈関係ネットワークの変数とし、前記ビジュアル特徴抽出器の変数を決定された前記ビジュアル特徴抽出器の変数とした前記テキストライン認識モデルを生成する。
【発明の効果】
【0013】
本発明によれば、訓練用のデータサンプルが少数であっても、所望のスタイルのテキストライン画像に適合できるテキストライン認識モデルを適切に生成することができる。
【図面の簡単な説明】
【0014】
図1図1は、一実施形態に係るモデル生成システムにおいて生成するテキストライン認識モデルを説明する図である。
図2図2は、一実施形態に係るモデル生成システムのハードウェア構成図である。
図3図3は、一実施形態に係るRNを訓練する訓練処理に関わるGUIの画面の一例を示す図である。
図4図4は、一実施形態に係るRNを訓練する訓練処理の第1の例を説明する図である。
図5図5は、一実施形態に係るRNを訓練する訓練処理の第2の例を説明する図である。
図6図6は、一実施形態に係るプロトタイプモデルの生成処理に関わるGUIの画面の一例を示す図である。
図7図7は、一実施形態に係るプロトタイプモデル生成処理のフローチャートである。
図8図8は、一実施形態に係るテキストライン認識モデルを再訓練する再訓練処理に関わるGUIの画面の一例を示す図である。
図9図9は、一実施形態に係るテキストライン認識モデルの再訓練処理のフローチャートである。
【発明を実施するための形態】
【0015】
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0016】
以下の説明では、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)などの深層学習に関しては、いわゆる当業者に理解されているので、詳細な説明を省略することがある。
【0017】
また、以下の説明では、「プロセッサ部」は、1以上のプロセッサを含む。少なくとも1つのプロセッサは、典型的には、CPU(Central Processing Unit)、GPU(Graphical Processing Unit)のようなマイクロプロセッサである。1以上のプロセッサの各々は、シングルコアでもよいしマルチコアでもよい。プロセッサは、処理の一部または全部を行うハードウェア回路を含んでもよい。
【0018】
図1は、一実施形態に係るモデル生成システムにおいて生成するテキストライン認識モデルを説明する図である。
【0019】
モデル生成システム10は、テキストライン認識モデル100を含む。テキストライン認識モデル100は、ビジュアル特徴抽出器(FEX)101と、言語文脈関係ネットワーク(RN)102とを含む。
【0020】
FEX101は、テキストライン画像を入力し、テキストライン画像における特徴量を出力する。FEX101は、例えば、VGGNet、RestNetなどのCNNの浅い層を含む。なお、VGGNet、RestNetは、公知の技術であるので、詳細な説明を省略する。このFEX101は、入力画像をダウンサンプリングするために、後続の処理の計算コストを削減することができる。
【0021】
RN102は、特徴量を入力して、テキストライン画像に含まれるテキストを出力する。RN102は、例えば、入力される特徴量を符号化するエンコーダーと、符号化されたデータを入力して各文字を復元するデコーダーとを含む。RN102は、例えば、ネットワーク103,104,105,106であってもよい。ネットワーク103は、BLSTMエンコーダー103aと、CTCデコーダー103bとを含む。ネットワーク104は、入力される特徴量を符号化するRNNエンコーダー104aと、特徴量のどこを注目するかを推論する注意ユニット104bと、注意ユニット104bで推論されたデータを入力して各文字を復元するRNNデコーダー104cとを含む。ネットワーク105は、ドット・プロダクション自己注意エンコーダー105aと、ドット・プロダクション自己注意デコーダー105bとを含む。ネットワーク106は、自然言語処理モデル106aを含む。
【0022】
次に、モデル生成システム10のハードウェア構成の一例を説明する。
【0023】
図2は、一実施形態に係るモデル生成システムのハードウェア構成図である。
【0024】
モデル生成システム10は、例えば、PC(Personal Computer)や汎用サーバ等の計算機により構成され、通信インターフェース(通信I/F)11と、CPU12と、入力装置13と、記憶デバイス14と、メモリ15と、表示装置16と、GPU17と、バス18とを備える。通信I/F11、CPU12、入力装置13、記憶デバイス14、メモリ15、表示装置16、及びGPU17は、バス18を介して接続されている。なお、モデル生成システム10は、複数台の計算機により構成されてもよい。
【0025】
通信I/F11は、図示しないインターネット等のネットワークに接続されており、ネットワークに接続された他の装置との間でのデータの送受信を行う。CPU12は、メモリ15に格納されたプログラムを実行することにより各種処理を実行する。本実施形態では、CPU12は、テキストライン認識モデル100を実行する処理を行うが、一部の処理については、GPU17に実行させている。
【0026】
記憶デバイス14は、例えば、Hard Disk Drive(HDD)、Solid State Drive(SSD)等の非一時的記憶デバイス(不揮発性記憶デバイス)であり、CPU12で実行されるプログラムや、各種情報を記憶する。メモリ15は、例えば、RAM(Random Access Memory)等であり、CPU12に実行されるプログラムや、各種情報を記憶する。
【0027】
GPU17は、例えば、画像処理やニューラルネットワークモデルの実行処理等の特定の処理の実行に適しているプロセッサであり、例えば、並列的に行われる処理の実行に適している。本実施形態では、GPU17は、CPU12の指示に従って所定の処理を実行する。
【0028】
入力装置13は、例えば、マウス、キーボード等であり、操作者による各種入力を受け付ける。表示装置16は、例えば、ディスプレイであり、GUI(Graphical User Interface)により各種情報を含む画面を表示出力する。
【0029】
ここで、異なるスタイルのテキストライン画像を認識するためのテキストライン認識モデルの一般化方法を示す。まず、テキストライン認識モデルの一般化の補題を示す。
【0030】
補題:φとφとをそれぞれテキストライン認識モデルのFEXとRNの重みとする。多様なスタイルのテキスト画像I∈R(W×h×c)(ここで、Rは画像集合を示し、Wは画像のWidth(幅)を示し、hは画像のHeight(高さ)を示し、cは画像のChannel(例えば、RGB)を示す)に対してFEXを一般化でき、RNが大量のテキストで訓練されている場合には、φとφとのプロトタイプモデルfは一般化されることになる。
【0031】
補題に従って、一般化されたテキストライン認識モデルを生成し、テキストライン認識モデルを新しく出現するデータに合わせて微調整するモデル生成システム10の処理は以下のようになる。
【0032】
ステップ1:モデル生成システム10は、インターネットを介してインターネット上に公開されているページから大量の著作権フリーなテキストを取得し、このテキストを使用してRN102を訓練する。ステップ1の詳細は、図3乃至図5を参照して後述する。
【0033】
ステップ2: モデル生成システム10は、ステップ1で訓練して得られたRN102の重み(変数)を凍結(固定)した状態で、既存のラベル付きのテキストライン画像を使用してテキストライン認識モデル100を訓練することにより、多様なスタイルのテキストライン画像に対してFEX101を一般化する。すなわち、FEX101の変数を調整する。ステップ2の詳細は、図6及び図7を参照して後述する。
【0034】
ステップ3:モデル生成システム10は、ステップ2までで訓練されたテキストライン認識モデル100について、認識対象とする所望のスタイルについてのサンプルとなるいくつかのラベル付きのテキストライン画像のデータ(ブートストラップデータという)を使用して訓練することにより、テキストライン認識モデル100を微調整、すなわち、テキストライン認識モデル100の変数を微調整する。このように微調整されたテキストライン認識モデル100は、認識対象とするスタイルが含まれているテキストライン画像におけるテキスト認識において高い認識精度が得られるようになる。ステップ3の詳細については、図8及び図9を参照して後述する。
【0035】
次に、RN102を訓練するため処理(ステップ1)について、図3乃至図5を参照して説明する。
【0036】
図3は、一実施形態に係るRNを訓練する訓練処理に関わるGUIの画面の一例を示す図である。
【0037】
RN102を訓練するため処理に関わるGUIの画面200は、テキストボックス201と、操作パネル202と、ステータス表示ウインドウ207とを含む。
【0038】
テキストボックス201は、インターネットから取得するテキストのリソースへのリンクが入力される領域である。リンクとしては、例えば、著作権フリーのリソースか、又は操作者から許可を得たリソースのリンクである。
【0039】
ステータス表示ウインドウ207は、各種ステータスの情報が表示される領域である。
【0040】
操作パネル202は、取得ボタン203と、訓練ボタン204と、停止ボタン205と、閉じるボタン206とを含む。
【0041】
取得ボタン203が操作者により押下(クリック)されると、モデル生成システム10は、テキストボックス201に入力されたリンクのリソースからインターネットを介してテキストデータを取得するテキスト取得処理を実行し、この処理が完了した場合に、ステータス表示ウインドウ207に完了メッセージを表示する。この後、操作者は、訓練ボタン204を押下することにより、取得したテキストデータによるRN102の訓練を行わせることが可能となる。
【0042】
訓練ボタン204が操作者により押下されると、モデル生成システム10は、取得したテキストデータによるRN102を訓練する訓練処理(図4図5参照)を実行する。なお、モデル生成システム10は、訓練処理の実行状態をステータス表示ウインドウ207に表示する。
【0043】
RN102の訓練処理を開始した後に、操作者により停止ボタン205が押下されると、モデル生成システム10は、訓練処理を停止し、訓練処理の停止時点におけるRN102の重み(変数)を記憶デバイス14に保存する。この後、操作者により訓練ボタン204が押下されると、モデル生成システム10は、訓練処理における停止時点の状態のRN102をメモリ15にリロードして、訓練処理の停止時点以降の処理を再開する。
【0044】
訓練処理が終了した後に、閉じるボタン206が操作者により押下されると、モデル生成システム10は、訓練後のRN102の変数を記憶デバイス14に保存する。
【0045】
次に、モデル生成システム10によるRN102を訓練する訓練処理の第1の例について説明する。
【0046】
図4は、一実施形態に係るRNを訓練する訓練処理の第1の例を説明する図である。
【0047】
第1の訓練処理300では、モデル生成システム10は、取得したテキストデータを埋め込み層301に入力する。モデル生成システム10は、埋め込み層301により、テキストを数値に変換する埋め込み処理と、変換後の数値に対して畳み込み処理を行って、畳み込み特徴に変換する。モデル生成システム10は、射影層302により、畳み込み特徴に対して線形の畳み込みを行って、データのサイズを調整する。モデル生成システム10は、射影層302から出力されたデータを用いて、RN102を訓練する。
【0048】
次に、モデル生成システム10によるRN102を訓練する訓練処理の第2の例について説明する。
【0049】
図5は、一実施形態に係るRNを訓練する訓練処理の第2の例を説明する図である。
【0050】
第2の訓練処理303では、モデル生成システム10は、取得したテキストデータを、テキストライン画像生成部304に入力する。テキストライン画像生成部304は、所定の利用可能なデジタルフォント(例えば、Arial、MSゴシック等)により、テキストデータをテキストライン画像に変換する。モデル生成システム10は、FEX305により、テキストライン画像の特徴量を抽出する。なお、FEX305は、FEX101と構造が同じであるが設定されている変数が違うものであってもよい。FEX305の変数は、予め訓練によって決定されたものでよい。モデル生成システム10は、FEX305から出力された特徴を用いて、RN102を訓練する。
【0051】
次に、テキストライン認識モデルの一般化されたプロトタイプモデルを生成する生成処理について説明する。
【0052】
本実施形態では、モデル生成システム10は、上記した訓練処理により訓練されたRN102と、訓練されていないFEX101とを組み合わせて、プロトタイプモデルを生成するための訓練対象となるテキストライン認識モデル100を生成し、このテキストライン認識モデル100において、RN102の重み(変数)を凍結(固定)した状態で、既存のラベル付きテキストライン画像(訓練用テキストラインデータ)を用いて訓練を行う。ここで、訓練用テキストラインデータは、同じスタイルのテキストライン画像毎のドメイン(スタイル別画像群の一例)に分類されて管理されている。例えば、同じライタによるテキストライン画像は、同じドメインに分類される。また、例えば、シーンテキストや、銀行のフォーム、請求書、領収書などの印刷されたテキストライン画像の場合には、同じフォント、同様な背景又はテクスチャで作成されていれば、同じドメインに分類される。
【0053】
図6は、一実施形態に係るプロトタイプモデルの生成処理に関わるGUIの画面の一例を示す図である。
【0054】
プロトタイプモデルの生成に関わるGUIの画面400は、操作パネル401と、訓練状態表示ウインドウ407とを含む。
【0055】
訓練状態表示ウインドウ407は、訓練状態の情報が表示される領域である。
【0056】
操作パネル401は、入力ボックス402と、入力ボックス403と、訓練ボタン404と、停止ボタン405と、閉じるボタン406とを含む。
【0057】
入力ボックス402は、操作者により、訓練に使用されるドメインの数であるタスク数(t)が入力される領域である。入力ボックス403は、操作者により、各ドメインに対して訓練に利用される訓練用テキストラインデータのサンプルの数が入力される領域である。
【0058】
訓練ボタン404が操作者により押下されると、モデル生成システム10は、訓練対象のテキストライン認識モデル100を訓練してプロトタイプデータを生成するプロトタイプモデル生成処理(図7参照)を実行する。なお、モデル生成システム10は、プロトタイプモデル生成処理における訓練状態を訓練状態表示ウインドウ407に表示する。
【0059】
プロトタイプモデル生成処理を開始した後に、操作者により停止ボタン405が押下されると、モデル生成システム10は、プロトタイプモデル生成処理を停止し、処理の停止時点におけるテキストライン認識モデル100の重み(変数)を記憶デバイス14に保存する。この後、操作者により訓練ボタン404が押下されると、モデル生成システム10は、停止時点の状態のテキストライン認識モデル100をメモリ15にリロードして、プロトタイプモデル生成処理の停止時点以降の処理を再開する。
【0060】
プロトタイプモデル生成処理が終了した後に、閉じるボタン406が操作者により押下されると、モデル生成システム10は、訓練後のテキストライン認識モデル100の変数を記憶デバイス14に保存する。
【0061】
次に、モデル生成システム10によるプロトタイプモデルを生成するプロトタイプモデル生成処理について説明する。
【0062】
図7は、一実施形態に係るプロトタイプモデル生成処理のフローチャートである。
【0063】
ここで、本説明において、テキストライン認識モデル100のプロトタイプモデルにおける重みをφとし、プロトタイプモデルのクローンとして作成されたモデル(クローンモデル)における重みをφ’とする。
【0064】
モデル生成システム10は、内部訓練率α、メタ訓練率β、及び訓練対象のテキストライン認識モデル100のFEX101の重みを初期化する(ステップ502)。なお、訓練対象のテキストライン認識モデル100のRN102の重みは、訓練処理により訓練されたRN102からコピーされ、プロトタイプモデル生成処理において凍結される。
【0065】
次いで、モデル生成システム10は、プロトタイプモデルを生成(訓練)するために反復処理500を実行する。
【0066】
反復処理500においては、モデル生成システム10は、まず、タスクを定義する(ステップ503)。具体的には、モデル生成システム10は、訓練用テキストラインデータのn個のドメインD={D,D,・・・,D}からt個(入力ボックス402に入力された値)のドメインをランダムに選択する。ここで、t<<nである。次いで、モデル生成システム10は、選択されたドメインiにおいて、2つのセットT={D sp、D qr}をランダムに抽出する。ここで、Tは、i番目のドメインのデータを意味し、D spをサポートセットといい、訓練で使用されるセットであり、D qrをクエリセットといい、モデルの評価に使用されるセットである。各セットは、s個(入力ボックス403に入力された値)のサンプルを含む。
【0067】
次いで、モデル生成システム10は、プロトタイプモデルのクローンモデルを作成する(ステップ504)。
【0068】
次いで、モデル生成システム10は、各ドメインのデータを用いた各タスクに対して処理501を繰り返し実行する。
【0069】
モデル生成システム10は、タスクTAについて、クローンモデルのFEX101をサポートセットD sp={I sp,L sp}を使用して訓練する(ステップ505)。ここで、I spは、サポートセットのテキストライン画像であり、L spは、サポートセットのテキストライン画像に対応するラベルである。
【0070】
ステップ505の訓練においては、クローンモデルの重みφ’は、式(1)に示すように更新される。
【0071】
【数1】
【0072】
ここで、Lはモデルの出力と入力ラベルの損失関数であり、∇は損失関数の勾配であり、
∧spは、I spを入力するクローンモデルの出力である。
【0073】
次いで、モデル生成システム10は、タスクTAについて、クローンモデルのFEX101をクエリセットD qr={I qr,L qr}を使用して評価する(ステップ506)。ここで、I qrは、クエリセットのテキストライン画像であり、L qrは、クエリセットのテキストライン画像に対応するラベルである。
【0074】
ステップ506の評価において、合計評価損失Litは、式(2)に示すように更新される。
【0075】
【数2】
【0076】
ここで、f ∧qrは、I qrを入力するクローンモデルの出力である。
【0077】
次いで、モデル生成システム10は、すべてのタスクを終了したか否かを判定し(ステップ507)、すべてのタスクを終了していない場合(ステップ507:No)には、処理をステップ505に進めて、他のタスクを対象に処理を行う。
【0078】
一方、すべてのタスクを終了した場合、すなわち、すべてのタスクでクローンモデルの訓練及び評価を完了した場合(ステップ507:Yes)には、モデル生成システム10は、式(3)に示すように合計評価損失を使用して、プロトタイプモデルの重みを更新する(ステップ508)。
【0079】
【数3】
【0080】
次いで、モデル生成システム10は、所定回の反復処理が終了したか否かを判定し(ステップ509)、所定回の反復が終了していない場合(ステップ509:No)には、処理をステップ503に進めて、反復処理500を更に実行する。これにより、各反復処理500において、プロトタイプモデルに対して、サポートセットを使用してクエリセットの認識精度を向上させる訓練が行われる。なお、反復処理の回数を十分に多くすることにより、プロトタイプモデルは、一般化の特性を得ることができ、少ない訓練サンプルにより高い認識精度を得ることができる。
【0081】
一方、所定回の反復が終了した場合(ステップ509:Yes)には、モデル生成システム10は、プロトタイプモデル生成処理を終了する。
【0082】
次に、テキストライン認識モデルを再訓練する再訓練処理について説明する。
【0083】
図8は、一実施形態に係るテキストライン認識モデルを再訓練する再訓練処理に関わるGUIの画面の一例を示す図である。
【0084】
テキストライン認識モデルを再訓練するためのGUIの画面600は、操作パネル610と、ウインドウ609とを含む。
【0085】
操作パネル610は、新規ボタン601と、開くボタン602と、適応開始ボタン603と、停止ボタン604と、認識ボタン605と、閉じるボタン606とを含む。
【0086】
新規ボタン601が押下されると、モデル生成システム10は、ウインドウ609に、テキストラインを手書きにより書き込み可能な所定数(例えば、S個)の入力領域607と、入力領域607に入力されたテキストラインに対応するラベルを操作者が入力可能なS個のテキストボックス608とを表示する。なお、S個は、5未満の数としてもよい。
【0087】
また、開くボタン602が押下されると、モデル生成システム10は、記憶デバイス14から使用するS個のテキストライン画像を選択可能する図示しないウインドウを表示させ、操作者により選択されたS個のテキストライン画像をウインドウ609に表示するとともに、表示したテキストライン画像に対応するラベルを操作者が入力可能なS個のテキストボックス608を表示する。
【0088】
操作者により、適応開始ボタン603を押下されると、モデル生成システム10は、ウインドウ609に入力されたS個の入力サンプル(テキストライン画像と、それに対応するラベルとの組)を用いてプロトタイプモデルを微調整する再訓練処理(図9参照)を開始する。
【0089】
再訓練処理を開始した後に、操作者により停止ボタン604が押下されると、モデル生成システム10は、再訓練処理を停止し、処理の停止時点におけるプロトタイプモデルの重み(変数)を記憶デバイス14に保存する。この後、操作者により適応開始ボタン603が押下されると、モデル生成システム10は、停止時点の状態のプロトタイプモデル0をメモリ15にリロードして、再訓練処理の停止時点以降の処理を再開する。
【0090】
また、操作者により、手書きによる又は選択されたテキストライン画像を入力された後、認識ボタン605が押下されると、モデル生成システム10は、その時点のプロトタイプモデルを用いて、入力されたテキストライン画像に対するテキスト認識を行って、認識結果をウインドウ609に表示する。これにより、操作者は、再訓練されたプロトタイプモデルのテキスト認識のテストを行うことができる。
【0091】
再訓練処理が終了した後に、閉じるボタン606が操作者により押下されると、モデル生成システム10は、再訓練処理後のプロトタイプモデルの変数を記憶デバイス14に保存する。以降においてテキストライン画像に対してテキストを認識する際には、この変数が設定されたテキストライン認識モデル100が使用されることとなる。
【0092】
次に、モデル生成システム10によるテキストライン認識モデルの再訓練処理について説明する。
【0093】
図9は、一実施形態に係るテキストライン認識モデルの再訓練処理のフローチャートである。
【0094】
モデル生成システム10は、実行する適応ステップ700の数(適応ステップ数)を設定する(ステップ701)。適応ステップ数は任意の数でよい。次いで、モデル生成システム10は、入力された入力サンプルを使用してプロトタイプモデルの再訓練(微調整)を行う(ステップ702)。
【0095】
次いで、モデル生成システム10は、適応ステップ数の実行が完了したか否かを判定し(ステップ703)、完了していない場合(ステップ703:No)には、次の適応ステップ700を実行する一方、完了した場合(ステップ703:Yes)には、ウインドウ609に適用完了を表示し、再訓練処理を終了する。
【0096】
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。
【0097】
例えば、上記実施形態において、プロセッサが行っていた処理の一部又は全部を、ハードウェア回路で行うようにしてもよい。また、上記実施形態におけるプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記憶メディア(例えば可搬型の記憶メディア)であってもよい。
【符号の説明】
【0098】
10…モデル生成システム、11…CPU、100…テキストライン認識モデル、101…ビジュアル特徴抽出器、102…言語文脈関係ネットワーク



図1
図2
図3
図4
図5
図6
図7
図8
図9