特許7674295 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許7674295モデル生成システム及びモデル生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-04-28

(45)【発行日】2025-05-09

(54)【発明の名称】モデル生成システム及びモデル生成方法

(51)【国際特許分類】

G06V 30/194 20220101AFI20250430BHJP

【ＦＩ】

G06V30/194

【請求項の数】 9

(21)【出願番号】P 2022045991

(22)【出願日】2022-03-22

(65)【公開番号】P2023140117

(43)【公開日】2023-10-04

【審査請求日】2024-06-20

(73)【特許権者】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110000279

【氏名又は名称】弁理士法人ウィルフォート国際特許事務所

(72)【発明者】

【氏名】グエンコンカー

(72)【発明者】

【氏名】大館良介

【審査官】岡本俊威

(56)【参考文献】

【文献】特表２０２１－５２０５６１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／００－３０／４２４

(57)【特許請求の範囲】

【請求項1】

テキストライン画像に含まれるテキストラインを認識するテキストライン認識モデルを生成するモデル生成システムであって、
前記モデル生成システムは、プロセッサ部を含み、
前記テキストライン認識モデルは、前記プロセッサ部により実行されるとテキストライン画像から画像の特徴量を出力するビジュアル特徴抽出器と、前記プロセッサ部により実行されると、ビジュアル特徴抽出器から出力された特徴量を入力してテキストラインを出力する言語文脈関係ネットワークと、を含み、
前記プロセッサ部は、
訓練用のテキストデータを取得し、前記取得したテキストデータを利用して前記言語文脈関係ネットワークを訓練することにより、前記言語文脈関係ネットワークの変数を決定し、
前記テキストライン認識モデルを、前記言語文脈関係ネットワークの変数を決定した前記変数に固定した状態で、既存のラベル付きのテキストライン画像を用いて訓練することにより、前記ビジュアル特徴抽出器の変数を決定し、
前記言語文脈関係ネットワークの変数を決定された前記言語文脈関係ネットワークの変数とし、前記ビジュアル特徴抽出器の変数を決定された前記ビジュアル特徴抽出器の変数とした前記テキストライン認識モデルを生成する
モデル生成システム。

【請求項2】

前記プロセッサ部は、前記テキストライン認識モデルを、所定数未満のラベル付きのテキストライン画像を用いて訓練することにより、前記テキストライン認識モデルの変数を調整する
請求項１に記載のモデル生成システム。

【請求項3】

前記モデル生成システムは、インターネットに接続されており、
前記プロセッサ部は、前記インターネットを介して前記訓練用のテキストデータを取得する
請求項１に記載のモデル生成システム。

【請求項4】

前記訓練用のテキストデータは、インターネット上で公開されている著作権フリーのテキストデータである
請求項３に記載のモデル生成システム。

【請求項5】

前記プロセッサ部は、
ユーザからテキストライン画像と、前記テキストライン画像に付けるラベルとの入力を受け付け、
前記テキストライン認識モデルを、受け付けた前記テキストライン画像及びラベルを用いて訓練することにより、前記テキストライン認識モデルの変数を調整する
請求項２に記載のモデル生成システム。

【請求項6】

前記プロセッサ部は、
前記言語文脈関係ネットワークの訓練において、前記訓練用のテキストラインデータを取得し、前記取得したテキストラインデータを数値化する単語埋め込みを行い、数値化したデータを畳み込んだ後に、前記言語文脈関係ネットワークに入力することにより、前記言語文脈関係ネットワークを訓練する
請求項１に記載のモデル生成システム。

【請求項7】

前記プロセッサ部は、
前記言語文脈関係ネットワークの訓練において、前記訓練用のテキストラインデータを取得し、前記取得したテキストラインデータを所定のフォントによりテキストライン画像に変換し、変換されたテキストライン画像を、所定のビジュアル特徴抽出器に入力し、前記ビジュアル特徴抽出器からの出力を前記言語文脈関係ネットワークに入力することにより、前記言語文脈関係ネットワークを訓練する
請求項１に記載のモデル生成システム。

【請求項8】

前記既存のラベル付きテキストライン画像は、同一のスタイルのテキストライン画像をまとめた、複数のスタイル別画像群により管理されており、
プロセッサ部は、
前記テキストライン認識モデルを、前記言語文脈関係ネットワークの変数を決定した前記変数に固定した状態で、複数の前記スタイル別画像群のそれぞれのラベル付きテキストライン画像を用いて訓練することにより、前記ビジュアル特徴抽出器の変数を決定する
請求項１に記載のモデル生成システム。

【請求項9】

テキストライン画像に含まれるテキストラインを認識するテキストライン認識モデルを生成するモデル生成システムによるモデル生成方法であって、
前記テキストライン認識モデルは、前記モデル生成システムにより実行されるとテキストライン画像から画像の特徴量を出力するビジュアル特徴抽出器と、前記モデル生成システムにより実行されると、ビジュアル特徴抽出器から出力された特徴量を入力してテキストラインを出力する言語文脈関係ネットワークと、を含み、
前記モデル生成システムは、
訓練用のテキストデータを取得し、前記取得したテキストデータを利用して前記言語文脈関係ネットワークを訓練することにより、前記言語文脈関係ネットワークの変数を決定し、
前記テキストライン認識モデルを、前記言語文脈関係ネットワークの変数を決定した前記変数に固定した状態で、既存のラベル付きのテキストライン画像を用いて訓練することにより、前記ビジュアル特徴抽出器の変数を決定し、
前記言語文脈関係ネットワークの変数を決定された前記言語文脈関係ネットワークの変数とし、前記ビジュアル特徴抽出器の変数を決定された前記ビジュアル特徴抽出器の変数とした前記テキストライン認識モデルを生成する
モデル生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テキストライン画像のテキストを認識する技術に関する。

【背景技術】

【0002】

文書認識は、小売、金融、教育、ロジスティクス、ヘルスケアなどのさまざまな分野に多くのメリットをもたらす。通常、文書認識は、テキストラインの検出から始まり、次にテキストラインの認識が行われる。テキストラインには、さまざまな手書き、複雑な背景、さまざまなフォント等の複数のスタイルが存在するので、現在の技術においては、テキストライン画像の文字を認識することに苦労している。

【0003】

過去数十年間、テキストライン認識に関する研究は、非特許文献１に示すような、文字列を単独文字へ分割し個々に認識する方法にほとんど集中していた。この方法では、テキストラインは、射影プロファイル（射影ヒストグラム）および多くのヒューリスティック仮説によって文字パターンに分割される。分割された文字パターンは、特徴マッチングモデルによって認識され、認識候補は、ラティスダイアグラムで言語文脈モデルと組み合わされる。ダイアグラムの最適なパスが検索され、認識結果として出力される。

【0004】

近年、深層学習の急激な進歩と共に、テキストライン認識のアプローチは、畳み込みニューラルネットワーク（ＣＮＮ）と回帰型ニューラルネットワーク（ＲＮＮ）のセグメンテーションフリー手法にほとんど移行している。これらは、上記のヒューリスティック仮説による方法よりも優れている。まず、非特許文献２に示すような、シーンテキスト画像を認識するために、ＣＮＮ、双方向長短期記憶（ＢＬＳＴＭ）、及びコネクショニスト時間分類（ＣＴＣ）に基づいて、エンド・ツー・エンド学習可能な手法が提案された。この手法の一つの問題は、ＣＴＣレイヤの出力ラベルを予測するとき、ＢＬＭＳＴの時間ステップの特徴量の独立性を仮定することである。これは、モデルの精度を低下させるハードアライメント問題として知られている。

【0005】

その後、この問題を解決するために、非特許文献３に示すような、ＲＮＮのエンコーダー・デコーダー注意機構に基づく方法が提案された。この方法では、ＣＮＮを使用して特徴を抽出する。その特徴はＲＮＮによってエンコードされる。注意機構は、エンコードされた特徴を出力ラベルに合わせる。次に、ＲＮＮのデコーダーは、テキストラインの最初から最後まで、順番にエンコードされた特徴を対応するラベルにデコードすることを学習する。前の時間ステップのデコードされた結果は、後の時間ステップのデコードにも使用されるため、この方法は、ＣＴＣに基づく方法の問題を解決することができる。ただし、この方法の問題は順次学習であり、デコードによるエラーが後の時間ステップにも広がることである。

【0006】

最近、非特許文献４に示すような、ＲＮＮを使用しない自己注意の方法が提案されている。この方法では、特徴を抽出するためにＣＮＮが使用される。ドット・プロダクションの自己注意に基づくエンコーダーは、ＣＮＮ特徴をエンコードする。次に、ドット・プロダクションの自己注意に基づくデコーダーは、エンコードされた特徴を出力ラベルにデコードすることを学習する。訓練段階では、この学習プロセスは出力ラベルのすべての文字に対して並行して行われる。したがって、ＲＮＮのエンコーダー・デコーダー注意に基づく方法の問題を克服できる。

【0007】

上記の深層学習に基づく方法では、モデルは一般にＣＮＮ特徴抽出器（ＦＥＸと呼ぶ）と、言語文脈関係ネットワーク（ＲＮと呼ぶ）とで構成される。ＦＥＸは、入力画像をダウンサンプリングして次の層の計算コストを削減する、テキストライン画像の深いビジュアル特徴を抽出し、ＲＮはテキストライン画像における文字パターン間の関係を学習する。上記の方法は、学習データとテストデータとが同じスタイルである場合に高い精度を達成するが、新しいスタイルのデータについてテストする場合は精度が低下する。上記のモデルを様々なスタイルのデータに一般化するには、許容可能な認識率を得るために多くのラベル付きデータが必要である。

【0008】

ラベル付きデータを用意するためのラベリング・コストを節約するためのソリューションは、非特許文献５に示すような、モデルを構築するためのドロップアウトやバッチ正規化等の転送可能な特徴学習手法を適用し、データ拡張方法により学習データを多様化し、ドメイン適応方法を適用することである。現在、転送可能な特徴学習手法とデータ拡張とは、深層学習に基づくモデルにしばしば適用されるが、これらの手法は、様々なスタイルの文書に対して十分に堅牢ではない。最近、非特許文献６に示すような、ドメイン適応の方法は、様々なスタイルの文書を認識するための有望な結果を生み出している。この手法は、ラベルのないデータを利用して、モデルに様々なスタイルのテキストライン画像の不変の特徴を学習させる。この手法の欠点の一つは、ラベルのない大量のデータが常に利用できるとは限らないことである。そのため、少ないサンプル数でのドメイン適応方法が要請される。

【先行技術文献】

【非特許文献】

【0009】

【文献】LIU, Cheng-Lin, et al. “Online and offline handwritten Chinese character recognition: benchmarking on new databases.” Pattern Recognition, 2013, 46.1: 155-162.

【文献】Shi, Baoguang, Xiang Bai, and Cong Yao. (2016) “An end to-end trainable neural network for image-based sequence recognition and its application to scene text recognition.” IEEE transactions on pattern analysis and machine intelligence 39, no. 11: 2298-2304.

【文献】Kang, Lei, J. Ignacio Toledo, Pau Riba, Mauricio Villegas, Alicia Fornes, and Marcal Rusinol. (2018) “Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition.” In German Conference on Pattern Recognition, pp. 459-472. Springer, Cham.

【文献】Lee, Junyeop, Sungrae Park, Jeonghun Baek, Seong Joon Oh, Seonghyeon Kim, and Hwalsuk Lee. “On recognizing texts of arbitrary shapes with 2D self-attention.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pp. 546-547. 2020.

【文献】Wang, Mei, and Weihong Deng. (2018) “Deep visual domain adaptation: A survey.” Neurocomputing 312: 135-153.

【文献】Zhang, Yaping, Shuai Nie, Wenju Liu, Xing Xu, Dongxiang Zhang, and Heng Tao Shen. “Sequence-to-sequence domain adaptation network for robust text-image recognition.” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2740-2749. 2019.

【発明の概要】

【発明が解決しようとする課題】

【0010】

深層学習に基づくテキストライン認識方法の主な問題は、モデルが訓練データと同じのデータに対しては高い認識精度を得られるが、訓練データと異なるスタイルのデータには認識精度が低下する過学習であることである。テキストラインデータには、印刷テキスト、シーンテキスト、手書きなど、さまざまな種類がある。それぞれのデータの種類において、テキストラインは、手書きスタイル、フォント、及び背景も異なる。また、テキストラインの内容も豊富である。そこで、許容可能な精度を得るためにモデルを訓練するには、大量のデータが必要である。

【0011】

本発明は、上記事情に鑑みなされたものであり、その目的は、訓練用のデータサンプルが少数であっても、所望のスタイルのテキストライン画像に適合できるテキストライン認識モデルを適切に生成することのできる技術を提供することにある。

【課題を解決するための手段】

【0012】

上記目的を達成するため、一観点に係るモデル生成システムは、テキストライン画像に含まれるテキストラインを認識するテキストライン認識モデルを生成するモデル生成システムであって、前記モデル生成システムは、プロセッサ部を含み、前記テキストライン認識モデルは、前記プロセッサ部により実行されるとテキストライン画像から画像の特徴量を出力するビジュアル特徴抽出器と、前記プロセッサ部により実行されると、ビジュアル特徴抽出器から出力された特徴量を入力してテキストラインを出力する言語文脈関係ネットワークと、を含み、前記プロセッサ部は、訓練用のテキストデータを取得し、前記取得したテキストデータを利用して前記言語文脈関係ネットワークを訓練することにより、前記言語文脈関係ネットワークの変数を決定し、前記テキストライン認識モデルを、前記言語文脈関係ネットワークの変数を決定した前記変数に固定した状態で、既存のラベル付きのテキストライン画像を用いて訓練することにより、前記ビジュアル特徴抽出器の変数を決定し、前記言語文脈関係ネットワークの変数を決定された前記言語文脈関係ネットワークの変数とし、前記ビジュアル特徴抽出器の変数を決定された前記ビジュアル特徴抽出器の変数とした前記テキストライン認識モデルを生成する。

【発明の効果】

【0013】

本発明によれば、訓練用のデータサンプルが少数であっても、所望のスタイルのテキストライン画像に適合できるテキストライン認識モデルを適切に生成することができる。

【図面の簡単な説明】

【0014】

【図1】図１は、一実施形態に係るモデル生成システムにおいて生成するテキストライン認識モデルを説明する図である。

【図2】図２は、一実施形態に係るモデル生成システムのハードウェア構成図である。

【図3】図３は、一実施形態に係るＲＮを訓練する訓練処理に関わるＧＵＩの画面の一例を示す図である。

【図4】図４は、一実施形態に係るＲＮを訓練する訓練処理の第１の例を説明する図である。

【図5】図５は、一実施形態に係るＲＮを訓練する訓練処理の第２の例を説明する図である。

【図6】図６は、一実施形態に係るプロトタイプモデルの生成処理に関わるＧＵＩの画面の一例を示す図である。

【図7】図７は、一実施形態に係るプロトタイプモデル生成処理のフローチャートである。

【図8】図８は、一実施形態に係るテキストライン認識モデルを再訓練する再訓練処理に関わるＧＵＩの画面の一例を示す図である。

【図9】図９は、一実施形態に係るテキストライン認識モデルの再訓練処理のフローチャートである。

【発明を実施するための形態】

【0015】

実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

【0016】

以下の説明では、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）などの深層学習に関しては、いわゆる当業者に理解されているので、詳細な説明を省略することがある。

【0017】

また、以下の説明では、「プロセッサ部」は、１以上のプロセッサを含む。少なくとも１つのプロセッサは、典型的には、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のようなマイクロプロセッサである。１以上のプロセッサの各々は、シングルコアでもよいしマルチコアでもよい。プロセッサは、処理の一部または全部を行うハードウェア回路を含んでもよい。

【0018】

図１は、一実施形態に係るモデル生成システムにおいて生成するテキストライン認識モデルを説明する図である。

【0019】

モデル生成システム１０は、テキストライン認識モデル１００を含む。テキストライン認識モデル１００は、ビジュアル特徴抽出器（ＦＥＸ）１０１と、言語文脈関係ネットワーク（ＲＮ）１０２とを含む。

【0020】

ＦＥＸ１０１は、テキストライン画像を入力し、テキストライン画像における特徴量を出力する。ＦＥＸ１０１は、例えば、ＶＧＧＮｅｔ、ＲｅｓｔＮｅｔなどのＣＮＮの浅い層を含む。なお、ＶＧＧＮｅｔ、ＲｅｓｔＮｅｔは、公知の技術であるので、詳細な説明を省略する。このＦＥＸ１０１は、入力画像をダウンサンプリングするために、後続の処理の計算コストを削減することができる。

【0021】

ＲＮ１０２は、特徴量を入力して、テキストライン画像に含まれるテキストを出力する。ＲＮ１０２は、例えば、入力される特徴量を符号化するエンコーダーと、符号化されたデータを入力して各文字を復元するデコーダーとを含む。ＲＮ１０２は、例えば、ネットワーク１０３，１０４，１０５，１０６であってもよい。ネットワーク１０３は、ＢＬＳＴＭエンコーダー１０３ａと、ＣＴＣデコーダー１０３ｂとを含む。ネットワーク１０４は、入力される特徴量を符号化するＲＮＮエンコーダー１０４ａと、特徴量のどこを注目するかを推論する注意ユニット１０４ｂと、注意ユニット１０４ｂで推論されたデータを入力して各文字を復元するＲＮＮデコーダー１０４ｃとを含む。ネットワーク１０５は、ドット・プロダクション自己注意エンコーダー１０５ａと、ドット・プロダクション自己注意デコーダー１０５ｂとを含む。ネットワーク１０６は、自然言語処理モデル１０６ａを含む。

【0022】

次に、モデル生成システム１０のハードウェア構成の一例を説明する。

【0023】

図２は、一実施形態に係るモデル生成システムのハードウェア構成図である。

【0024】

モデル生成システム１０は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）や汎用サーバ等の計算機により構成され、通信インターフェース（通信Ｉ／Ｆ）１１と、ＣＰＵ１２と、入力装置１３と、記憶デバイス１４と、メモリ１５と、表示装置１６と、ＧＰＵ１７と、バス１８とを備える。通信Ｉ／Ｆ１１、ＣＰＵ１２、入力装置１３、記憶デバイス１４、メモリ１５、表示装置１６、及びＧＰＵ１７は、バス１８を介して接続されている。なお、モデル生成システム１０は、複数台の計算機により構成されてもよい。

【0025】

通信Ｉ／Ｆ１１は、図示しないインターネット等のネットワークに接続されており、ネットワークに接続された他の装置との間でのデータの送受信を行う。ＣＰＵ１２は、メモリ１５に格納されたプログラムを実行することにより各種処理を実行する。本実施形態では、ＣＰＵ１２は、テキストライン認識モデル１００を実行する処理を行うが、一部の処理については、ＧＰＵ１７に実行させている。

【0026】

記憶デバイス１４は、例えば、ＨａｒｄＤｉｓｋＤｒｉｖｅ（ＨＤＤ）、ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ（ＳＳＤ）等の非一時的記憶デバイス（不揮発性記憶デバイス）であり、ＣＰＵ１２で実行されるプログラムや、各種情報を記憶する。メモリ１５は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等であり、ＣＰＵ１２に実行されるプログラムや、各種情報を記憶する。

【0027】

ＧＰＵ１７は、例えば、画像処理やニューラルネットワークモデルの実行処理等の特定の処理の実行に適しているプロセッサであり、例えば、並列的に行われる処理の実行に適している。本実施形態では、ＧＰＵ１７は、ＣＰＵ１２の指示に従って所定の処理を実行する。

【0028】

入力装置１３は、例えば、マウス、キーボード等であり、操作者による各種入力を受け付ける。表示装置１６は、例えば、ディスプレイであり、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）により各種情報を含む画面を表示出力する。

【0029】

ここで、異なるスタイルのテキストライン画像を認識するためのテキストライン認識モデルの一般化方法を示す。まず、テキストライン認識モデルの一般化の補題を示す。

【0030】

補題：φ_ｅとφ_ｒとをそれぞれテキストライン認識モデルのＦＥＸとＲＮの重みとする。多様なスタイルのテキスト画像Ｉ∈Ｒ^{（Ｗ×ｈ×ｃ）}（ここで、Ｒは画像集合を示し、Ｗは画像のＷｉｄｔｈ（幅）を示し、ｈは画像のＨｅｉｇｈｔ（高さ）を示し、ｃは画像のＣｈａｎｎｅｌ（例えば、ＲＧＢ）を示す）に対してＦＥＸを一般化でき、ＲＮが大量のテキストで訓練されている場合には、φ_ｅとφ_ｒとのプロトタイプモデルｆは一般化されることになる。

【0031】

補題に従って、一般化されたテキストライン認識モデルを生成し、テキストライン認識モデルを新しく出現するデータに合わせて微調整するモデル生成システム１０の処理は以下のようになる。

【0032】

ステップ１：モデル生成システム１０は、インターネットを介してインターネット上に公開されているページから大量の著作権フリーなテキストを取得し、このテキストを使用してＲＮ１０２を訓練する。ステップ１の詳細は、図３乃至図５を参照して後述する。

【0033】

ステップ２: モデル生成システム１０は、ステップ１で訓練して得られたＲＮ１０２の重み（変数）を凍結（固定）した状態で、既存のラベル付きのテキストライン画像を使用してテキストライン認識モデル１００を訓練することにより、多様なスタイルのテキストライン画像に対してＦＥＸ１０１を一般化する。すなわち、ＦＥＸ１０１の変数を調整する。ステップ２の詳細は、図６及び図７を参照して後述する。

【0034】

ステップ３：モデル生成システム１０は、ステップ２までで訓練されたテキストライン認識モデル１００について、認識対象とする所望のスタイルについてのサンプルとなるいくつかのラベル付きのテキストライン画像のデータ（ブートストラップデータという）を使用して訓練することにより、テキストライン認識モデル１００を微調整、すなわち、テキストライン認識モデル１００の変数を微調整する。このように微調整されたテキストライン認識モデル１００は、認識対象とするスタイルが含まれているテキストライン画像におけるテキスト認識において高い認識精度が得られるようになる。ステップ３の詳細については、図８及び図９を参照して後述する。

【0035】

次に、ＲＮ１０２を訓練するため処理（ステップ１）について、図３乃至図５を参照して説明する。

【0036】

図３は、一実施形態に係るＲＮを訓練する訓練処理に関わるＧＵＩの画面の一例を示す図である。

【0037】

ＲＮ１０２を訓練するため処理に関わるＧＵＩの画面２００は、テキストボックス２０１と、操作パネル２０２と、ステータス表示ウインドウ２０７とを含む。

【0038】

テキストボックス２０１は、インターネットから取得するテキストのリソースへのリンクが入力される領域である。リンクとしては、例えば、著作権フリーのリソースか、又は操作者から許可を得たリソースのリンクである。

【0039】

ステータス表示ウインドウ２０７は、各種ステータスの情報が表示される領域である。

【0040】

操作パネル２０２は、取得ボタン２０３と、訓練ボタン２０４と、停止ボタン２０５と、閉じるボタン２０６とを含む。

【0041】

取得ボタン２０３が操作者により押下（クリック）されると、モデル生成システム１０は、テキストボックス２０１に入力されたリンクのリソースからインターネットを介してテキストデータを取得するテキスト取得処理を実行し、この処理が完了した場合に、ステータス表示ウインドウ２０７に完了メッセージを表示する。この後、操作者は、訓練ボタン２０４を押下することにより、取得したテキストデータによるＲＮ１０２の訓練を行わせることが可能となる。

【0042】

訓練ボタン２０４が操作者により押下されると、モデル生成システム１０は、取得したテキストデータによるＲＮ１０２を訓練する訓練処理（図４、図５参照）を実行する。なお、モデル生成システム１０は、訓練処理の実行状態をステータス表示ウインドウ２０７に表示する。

【0043】

ＲＮ１０２の訓練処理を開始した後に、操作者により停止ボタン２０５が押下されると、モデル生成システム１０は、訓練処理を停止し、訓練処理の停止時点におけるＲＮ１０２の重み（変数）を記憶デバイス１４に保存する。この後、操作者により訓練ボタン２０４が押下されると、モデル生成システム１０は、訓練処理における停止時点の状態のＲＮ１０２をメモリ１５にリロードして、訓練処理の停止時点以降の処理を再開する。

【0044】

訓練処理が終了した後に、閉じるボタン２０６が操作者により押下されると、モデル生成システム１０は、訓練後のＲＮ１０２の変数を記憶デバイス１４に保存する。

【0045】

次に、モデル生成システム１０によるＲＮ１０２を訓練する訓練処理の第１の例について説明する。

【0046】

図４は、一実施形態に係るＲＮを訓練する訓練処理の第１の例を説明する図である。

【0047】

第１の訓練処理３００では、モデル生成システム１０は、取得したテキストデータを埋め込み層３０１に入力する。モデル生成システム１０は、埋め込み層３０１により、テキストを数値に変換する埋め込み処理と、変換後の数値に対して畳み込み処理を行って、畳み込み特徴に変換する。モデル生成システム１０は、射影層３０２により、畳み込み特徴に対して線形の畳み込みを行って、データのサイズを調整する。モデル生成システム１０は、射影層３０２から出力されたデータを用いて、ＲＮ１０２を訓練する。

【0048】

次に、モデル生成システム１０によるＲＮ１０２を訓練する訓練処理の第２の例について説明する。

【0049】

図５は、一実施形態に係るＲＮを訓練する訓練処理の第２の例を説明する図である。

【0050】

第２の訓練処理３０３では、モデル生成システム１０は、取得したテキストデータを、テキストライン画像生成部３０４に入力する。テキストライン画像生成部３０４は、所定の利用可能なデジタルフォント（例えば、Ａｒｉａｌ、ＭＳゴシック等）により、テキストデータをテキストライン画像に変換する。モデル生成システム１０は、ＦＥＸ３０５により、テキストライン画像の特徴量を抽出する。なお、ＦＥＸ３０５は、ＦＥＸ１０１と構造が同じであるが設定されている変数が違うものであってもよい。ＦＥＸ３０５の変数は、予め訓練によって決定されたものでよい。モデル生成システム１０は、ＦＥＸ３０５から出力された特徴を用いて、ＲＮ１０２を訓練する。

【0051】

次に、テキストライン認識モデルの一般化されたプロトタイプモデルを生成する生成処理について説明する。

【0052】

本実施形態では、モデル生成システム１０は、上記した訓練処理により訓練されたＲＮ１０２と、訓練されていないＦＥＸ１０１とを組み合わせて、プロトタイプモデルを生成するための訓練対象となるテキストライン認識モデル１００を生成し、このテキストライン認識モデル１００において、ＲＮ１０２の重み（変数）を凍結（固定）した状態で、既存のラベル付きテキストライン画像（訓練用テキストラインデータ）を用いて訓練を行う。ここで、訓練用テキストラインデータは、同じスタイルのテキストライン画像毎のドメイン（スタイル別画像群の一例）に分類されて管理されている。例えば、同じライタによるテキストライン画像は、同じドメインに分類される。また、例えば、シーンテキストや、銀行のフォーム、請求書、領収書などの印刷されたテキストライン画像の場合には、同じフォント、同様な背景又はテクスチャで作成されていれば、同じドメインに分類される。

【0053】

図６は、一実施形態に係るプロトタイプモデルの生成処理に関わるＧＵＩの画面の一例を示す図である。

【0054】

プロトタイプモデルの生成に関わるＧＵＩの画面４００は、操作パネル４０１と、訓練状態表示ウインドウ４０７とを含む。

【0055】

訓練状態表示ウインドウ４０７は、訓練状態の情報が表示される領域である。

【0056】

操作パネル４０１は、入力ボックス４０２と、入力ボックス４０３と、訓練ボタン４０４と、停止ボタン４０５と、閉じるボタン４０６とを含む。

【0057】

入力ボックス４０２は、操作者により、訓練に使用されるドメインの数であるタスク数（ｔ）が入力される領域である。入力ボックス４０３は、操作者により、各ドメインに対して訓練に利用される訓練用テキストラインデータのサンプルの数が入力される領域である。

【0058】

訓練ボタン４０４が操作者により押下されると、モデル生成システム１０は、訓練対象のテキストライン認識モデル１００を訓練してプロトタイプデータを生成するプロトタイプモデル生成処理（図７参照）を実行する。なお、モデル生成システム１０は、プロトタイプモデル生成処理における訓練状態を訓練状態表示ウインドウ４０７に表示する。

【0059】

プロトタイプモデル生成処理を開始した後に、操作者により停止ボタン４０５が押下されると、モデル生成システム１０は、プロトタイプモデル生成処理を停止し、処理の停止時点におけるテキストライン認識モデル１００の重み（変数）を記憶デバイス１４に保存する。この後、操作者により訓練ボタン４０４が押下されると、モデル生成システム１０は、停止時点の状態のテキストライン認識モデル１００をメモリ１５にリロードして、プロトタイプモデル生成処理の停止時点以降の処理を再開する。

【0060】

プロトタイプモデル生成処理が終了した後に、閉じるボタン４０６が操作者により押下されると、モデル生成システム１０は、訓練後のテキストライン認識モデル１００の変数を記憶デバイス１４に保存する。

【0061】

次に、モデル生成システム１０によるプロトタイプモデルを生成するプロトタイプモデル生成処理について説明する。

【0062】

図７は、一実施形態に係るプロトタイプモデル生成処理のフローチャートである。

【0063】

ここで、本説明において、テキストライン認識モデル１００のプロトタイプモデルにおける重みをφとし、プロトタイプモデルのクローンとして作成されたモデル（クローンモデル）における重みをφ’とする。

【0064】

モデル生成システム１０は、内部訓練率α、メタ訓練率β、及び訓練対象のテキストライン認識モデル１００のＦＥＸ１０１の重みを初期化する（ステップ５０２）。なお、訓練対象のテキストライン認識モデル１００のＲＮ１０２の重みは、訓練処理により訓練されたＲＮ１０２からコピーされ、プロトタイプモデル生成処理において凍結される。

【0065】

次いで、モデル生成システム１０は、プロトタイプモデルを生成（訓練）するために反復処理５００を実行する。

【0066】

反復処理５００においては、モデル生成システム１０は、まず、タスクを定義する（ステップ５０３）。具体的には、モデル生成システム１０は、訓練用テキストラインデータのｎ個のドメインＤ＝｛Ｄ_１，Ｄ_２，・・・，Ｄ_ｎ｝からｔ個（入力ボックス４０２に入力された値）のドメインをランダムに選択する。ここで、ｔ＜＜ｎである。次いで、モデル生成システム１０は、選択されたドメインｉにおいて、２つのセットＴ_ｉ＝｛Ｄ_ｉ ^ｓｐ、Ｄ_ｉ ^ｑｒ｝をランダムに抽出する。ここで、Ｔ_ｉは、ｉ番目のドメインのデータを意味し、Ｄ_ｉ ^ｓｐをサポートセットといい、訓練で使用されるセットであり、Ｄ_ｉ ^ｑｒをクエリセットといい、モデルの評価に使用されるセットである。各セットは、ｓ個（入力ボックス４０３に入力された値）のサンプルを含む。

【0067】

次いで、モデル生成システム１０は、プロトタイプモデルのクローンモデルを作成する（ステップ５０４）。

【0068】

次いで、モデル生成システム１０は、各ドメインのデータを用いた各タスクに対して処理５０１を繰り返し実行する。

【0069】

モデル生成システム１０は、タスクＴＡ_ｉについて、クローンモデルのＦＥＸ１０１をサポートセットＤ_ｉ ^ｓｐ＝｛Ｉ_ｉ ^ｓｐ，Ｌ_ｉ ^ｓｐ｝を使用して訓練する（ステップ５０５）。ここで、Ｉ_ｉ ^ｓｐは、サポートセットのテキストライン画像であり、Ｌ_ｉ ^ｓｐは、サポートセットのテキストライン画像に対応するラベルである。

【0070】

ステップ５０５の訓練においては、クローンモデルの重みφ’は、式（１）に示すように更新される。

【0071】

【数1】

【0072】

ここで、Ｌはモデルの出力と入力ラベルの損失関数であり、∇は損失関数の勾配であり、
ｆ_ｉ ^∧ｓｐは、Ｉ_ｉ ^ｓｐを入力するクローンモデルの出力である。

【0073】

次いで、モデル生成システム１０は、タスクＴＡ_ｉについて、クローンモデルのＦＥＸ１０１をクエリセットＤ_ｉ ^ｑｒ＝｛Ｉ_ｉ ^ｑｒ，Ｌ_ｉ ^ｑｒ｝を使用して評価する（ステップ５０６）。ここで、Ｉ_ｉ ^ｑｒは、クエリセットのテキストライン画像であり、Ｌ_ｉ ^ｑｒは、クエリセットのテキストライン画像に対応するラベルである。

【0074】

ステップ５０６の評価において、合計評価損失Ｌ_ｉｔは、式（２）に示すように更新される。

【0075】

【数2】

【0076】

ここで、ｆ_ｉ ^∧ｑｒは、Ｉ_ｉ ^ｑｒを入力するクローンモデルの出力である。

【0077】

次いで、モデル生成システム１０は、すべてのタスクを終了したか否かを判定し（ステップ５０７）、すべてのタスクを終了していない場合（ステップ５０７：Ｎｏ）には、処理をステップ５０５に進めて、他のタスクを対象に処理を行う。

【0078】

一方、すべてのタスクを終了した場合、すなわち、すべてのタスクでクローンモデルの訓練及び評価を完了した場合（ステップ５０７：Ｙｅｓ）には、モデル生成システム１０は、式（３）に示すように合計評価損失を使用して、プロトタイプモデルの重みを更新する（ステップ５０８）。

【0079】

【数3】

【0080】

次いで、モデル生成システム１０は、所定回の反復処理が終了したか否かを判定し（ステップ５０９）、所定回の反復が終了していない場合（ステップ５０９：Ｎｏ）には、処理をステップ５０３に進めて、反復処理５００を更に実行する。これにより、各反復処理５００において、プロトタイプモデルに対して、サポートセットを使用してクエリセットの認識精度を向上させる訓練が行われる。なお、反復処理の回数を十分に多くすることにより、プロトタイプモデルは、一般化の特性を得ることができ、少ない訓練サンプルにより高い認識精度を得ることができる。

【0081】

一方、所定回の反復が終了した場合（ステップ５０９：Ｙｅｓ）には、モデル生成システム１０は、プロトタイプモデル生成処理を終了する。

【0082】

次に、テキストライン認識モデルを再訓練する再訓練処理について説明する。

【0083】

図８は、一実施形態に係るテキストライン認識モデルを再訓練する再訓練処理に関わるＧＵＩの画面の一例を示す図である。

【0084】

テキストライン認識モデルを再訓練するためのＧＵＩの画面６００は、操作パネル６１０と、ウインドウ６０９とを含む。

【0085】

操作パネル６１０は、新規ボタン６０１と、開くボタン６０２と、適応開始ボタン６０３と、停止ボタン６０４と、認識ボタン６０５と、閉じるボタン６０６とを含む。

【0086】

新規ボタン６０１が押下されると、モデル生成システム１０は、ウインドウ６０９に、テキストラインを手書きにより書き込み可能な所定数（例えば、Ｓ個）の入力領域６０７と、入力領域６０７に入力されたテキストラインに対応するラベルを操作者が入力可能なＳ個のテキストボックス６０８とを表示する。なお、Ｓ個は、５未満の数としてもよい。

【0087】

また、開くボタン６０２が押下されると、モデル生成システム１０は、記憶デバイス１４から使用するＳ個のテキストライン画像を選択可能する図示しないウインドウを表示させ、操作者により選択されたＳ個のテキストライン画像をウインドウ６０９に表示するとともに、表示したテキストライン画像に対応するラベルを操作者が入力可能なＳ個のテキストボックス６０８を表示する。

【0088】

操作者により、適応開始ボタン６０３を押下されると、モデル生成システム１０は、ウインドウ６０９に入力されたＳ個の入力サンプル（テキストライン画像と、それに対応するラベルとの組）を用いてプロトタイプモデルを微調整する再訓練処理（図９参照）を開始する。

【0089】

再訓練処理を開始した後に、操作者により停止ボタン６０４が押下されると、モデル生成システム１０は、再訓練処理を停止し、処理の停止時点におけるプロトタイプモデルの重み（変数）を記憶デバイス１４に保存する。この後、操作者により適応開始ボタン６０３が押下されると、モデル生成システム１０は、停止時点の状態のプロトタイプモデル０をメモリ１５にリロードして、再訓練処理の停止時点以降の処理を再開する。

【0090】

また、操作者により、手書きによる又は選択されたテキストライン画像を入力された後、認識ボタン６０５が押下されると、モデル生成システム１０は、その時点のプロトタイプモデルを用いて、入力されたテキストライン画像に対するテキスト認識を行って、認識結果をウインドウ６０９に表示する。これにより、操作者は、再訓練されたプロトタイプモデルのテキスト認識のテストを行うことができる。

【0091】

再訓練処理が終了した後に、閉じるボタン６０６が操作者により押下されると、モデル生成システム１０は、再訓練処理後のプロトタイプモデルの変数を記憶デバイス１４に保存する。以降においてテキストライン画像に対してテキストを認識する際には、この変数が設定されたテキストライン認識モデル１００が使用されることとなる。

【0092】

次に、モデル生成システム１０によるテキストライン認識モデルの再訓練処理について説明する。

【0093】

図９は、一実施形態に係るテキストライン認識モデルの再訓練処理のフローチャートである。

【0094】

モデル生成システム１０は、実行する適応ステップ７００の数（適応ステップ数）を設定する（ステップ７０１）。適応ステップ数は任意の数でよい。次いで、モデル生成システム１０は、入力された入力サンプルを使用してプロトタイプモデルの再訓練（微調整）を行う（ステップ７０２）。

【0095】

次いで、モデル生成システム１０は、適応ステップ数の実行が完了したか否かを判定し（ステップ７０３）、完了していない場合（ステップ７０３：Ｎｏ）には、次の適応ステップ７００を実行する一方、完了した場合（ステップ７０３：Ｙｅｓ）には、ウインドウ６０９に適用完了を表示し、再訓練処理を終了する。

【0096】

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。

【0097】

例えば、上記実施形態において、プロセッサが行っていた処理の一部又は全部を、ハードウェア回路で行うようにしてもよい。また、上記実施形態におけるプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記憶メディア（例えば可搬型の記憶メディア）であってもよい。

【符号の説明】

【0098】

１０…モデル生成システム、１１…ＣＰＵ、１００…テキストライン認識モデル、１０１…ビジュアル特徴抽出器、１０２…言語文脈関係ネットワーク

【図1】