(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-06-12
(45)【発行日】2024-06-20
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20240613BHJP
G06V 30/12 20220101ALI20240613BHJP
【FI】
G06N20/00 130
G06V30/12 B
(21)【出願番号】P 2024513172
(86)(22)【出願日】2024-02-27
(86)【国際出願番号】 JP2024006903
【審査請求日】2024-02-27
【早期審査対象出願】
(73)【特許権者】
【識別番号】516380407
【氏名又は名称】ファーストアカウンティング株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(72)【発明者】
【氏名】藤武 将人
【審査官】山本 俊介
(56)【参考文献】
【文献】特開2021-60876(JP,A)
【文献】宮下 知也ほか,機械学習を用いた手書き文字の正誤判定システムの開発,FIT2017 第16回情報科学技術フォーラム 講演論文集,2017年09月05日,第3分冊,pp.429-430
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06V 30/12
(57)【特許請求の範囲】
【請求項1】
(1)文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第1教師データと、
(2)(ア)前記複数の画像データ、(イ)認識する対象の文字列である認識対象文字列及び(ウ)前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第2教師データと、
を取得する取得部と、
(1)前記第1教師データに基づいて、第1教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、
(2)前記第2教師データに基づいて、前記第2教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、
を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習部と、
を有する情報処理装置。
【請求項2】
前記認識対象文字列においては、
(1)当該認識対象文字列に関連付けられた画像データに対応する正解文字列と、
(2)当該画像データに基づいて誤って認識された文字列と、
のうちいずれかを含む、
請求項1に記載の情報処理装置。
【請求項3】
前記学習部は、単一の学習プロセスにおいて、前記文字列認識タスクと、前記正誤判定タスクと、を学習させ、前記学習済みモデルを生成する、
請求項1に記載の情報処理装置。
【請求項4】
前記学習済みモデルは、認識対象の文字列を含む画像データである対象画像データを入力として、予測文字列と、該予測文字列の正誤を示す正誤フラグと、を出力し、
前記取得部は、認識対象の文字列を含む画像データである対象画像データをさらに取得し、
前記情報処理装置は、前記取得部が取得した前記対象画像データを前記学習済みモデルに入力し、該対象画像データについての予測文字列と、該予測文字列についての正誤フラグと、を出力させる出力部をさらに有する、
請求項1に記載の情報処理装置。
【請求項5】
前記出力部が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、予測結果が誤っている可能性があることを示すメッセージを表示させる表示制御部をさらに有する、
請求項4に記載の情報処理装置。
【請求項6】
前記出力部が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、画像データを入力すると当該画像データに含まれる文字を出力する光学文字認識手段であって、前記学習済みモデルとは異なる前記光学文字認識手段に前記対象画像データを入力する認識手段制御部をさらに有し、
前記光学文字認識手段が前記対象画像データを光学文字認識することにより認識された文字列を取得し、取得した文字列を表示させる表示制御部をさらに有する、
請求項4に記載の情報処理装置。
【請求項7】
前記学習部が前記文字列認識タスクを学習させる過程で前記学習済みモデルが出力した文字列であって、入力した画像データに含まれる文字列と異なる文字列を前記認識対象文字列として、前記学習済みモデルに入力した画像データと関連付けた前記第2教師データを生成する生成部をさらに有する、
請求項2に記載の情報処理装置。
【請求項8】
コンピュータが実行する、
文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第1教師データを取得する第1取得ステップと、
(ア)前記複数の画像データ、(イ)認識する対象の文字列である認識対象文字列及び(ウ)前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第2教師データを取得する第2取得ステップと、
(1)前記第1教師データに基づいて、第1教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、
(2)前記第2教師データに基づいて、前記第2教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、
を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習ステップと、
を有する情報処理方法。
【請求項9】
コンピュータに、
文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第1教師データを取得する第1取得ステップと、
(ア)前記複数の画像データ、(イ)認識する対象の文字列である認識対象文字列及び(ウ)前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第2教師データを取得する第2取得ステップと、
(1)前記第1教師データに基づいて、第1教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、
(2)前記第2教師データに基づいて、前記第2教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、
を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習ステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
言語モデルを用いて画像中に含まれる文字列を認識させる手法が提案されている(例えば、特許文献1を参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】Darwin Bautista and Rowel Atienza. Scene text recognition with permuted autoregressive sequence models. In ECCV, pages 178-196, 2022.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、情景中に含まれる文字列を認識する場合、様々なフォント、色、形状又は背景を認識する必要があり、従来技術においては認識精度が向上しない場合が生じていた。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、画像に含まれる文字列の認識精度を向上させることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様に係る情報処理装置は、(1)文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第1教師データと、(2)(ア)前記複数の画像データ、(イ)認識する対象の文字列である認識対象文字列及び(ウ)前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第2教師データと、を取得する取得部と、(1)前記第1教師データに基づいて、第1教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、(2)前記第2教師データに基づいて、前記第2教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習部と、を有する。
【0007】
前記認識対象文字列においては、(1)当該認識対象文字列に関連付けられた画像データに対応する正解文字列と、(2)当該画像データに基づいて誤って認識された文字列と、のうちいずれかを含んでもよい。
【0008】
前記学習部は、単一の学習プロセスにおいて、前記文字列認識タスクと、前記正誤判定タスクと、を学習させ、前記学習済みモデルを生成してもよい。
【0009】
前記学習済みモデルは、認識対象の文字列を含む画像データである対象画像データを入力として、予測文字列と、該予測文字列の正誤を示す正誤フラグと、を出力し、前記取得部は、認識対象の文字列を含む画像データである対象画像データをさらに取得し、前記情報処理装置は、前記取得部が取得した前記対象画像データを前記学習済みモデルに入力し、該対象画像データについての予測文字列と、該予測文字列についての正誤フラグと、を出力させる出力部をさらに有してもよい。
【0010】
前記出力部が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、予測結果が誤っている可能性があることを示すメッセージを表示させる表示制御部をさらに有してもよい。
【0011】
前記出力部が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、画像データを入力すると当該画像データに含まれる文字を出力する光学文字認識手段であって、前記学習済みモデルとは異なる前記光学文字認識手段に前記対象画像データを入力する認識手段制御部をさらに有し、前記光学文字認識手段が前記対象画像データを光学文字認識することにより認識された文字列を取得し、取得した文字列を表示させる表示制御部をさらに有してもよい。
【0012】
前記学習部が前記文字列認識タスクを学習させる過程で前記学習済みモデルが出力した文字列であって、入力した画像データに含まれる文字列と異なる文字列を前記認識対象文字列として、前記学習済みモデルに入力した画像データと関連付けた前記第2教師データを生成する生成部をさらに有してもよい。
【0013】
本発明の第2の態様の情報処理方法においては、コンピュータが実行する、文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第1教師データを取得する第1取得ステップと、(ア)前記複数の画像データ、(イ)認識する対象の文字列である認識対象文字列及び(ウ)前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第2教師データを取得する第2取得ステップと、(1)前記第1教師データに基づいて、第1教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、(2)前記第2教師データに基づいて、前記第2教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習ステップと、を有する。
【0014】
本発明の第3の態様のプログラムにおいては、コンピュータに、文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第1教師データを取得する第1取得ステップと、(ア)前記複数の画像データ、(イ)認識する対象の文字列である認識対象文字列及び(ウ)前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第2教師データを取得する第2取得ステップと、(1)前記第1教師データに基づいて、第1教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、(2)前記第2教師データに基づいて、前記第2教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習ステップと、を実行させる。
【発明の効果】
【0015】
本発明によれば、画像中に含まれる文字列の認識精度を向上させることが期待できる。
【図面の簡単な説明】
【0016】
【
図1】実施形態にかかる情報処理システムSの概要を説明するための図である。
【
図2】第1教師データD1のデータ構造の一例を示す図である。
【
図3】第2教師データD2のデータ構造の一例を示す図である。
【
図4】情報処理装置1の構成を示すブロック図である。
【
図8】表示制御部134が表示させる画面の一例を示す図である。
【
図9】情報処理装置1における処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0017】
[情報処理システムSの概要]
図1は、実施形態にかかる情報処理システムSの概要を説明するための図である。情報処理システムSは、画像に含まれる文字を抽出するOCR(Optical Character Recognition)を提供するためのシステムである。情報処理システムSは、情報処理装置1及び情報端末2を有する。
【0018】
情報処理装置1は、画像中に含まれる文字列を認識するためのOCRである。情報処理装置1は、画像に基づいて文字認識をするための機械学習モデルである学習済みモデルを学習させる。また、情報処理装置1は、推論対象となる画像データを学習済みモデルに入力し、画像データ中に含まれる文字を出力させる。
【0019】
情報端末2は、情報処理システムSのユーザが使用する端末である。情報端末2は、例えばスマートフォン、タブレット又はパーソナルコンピュータである。情報端末2は、ユーザの操作に応じて情報処理装置1に学習を開始するための指示を送信し、学習に用いる教師データを送信する。また、情報端末2は、文字列を認識する対象の画像を送信し、情報処理装置1による文字列の認識結果を取得し表示する。
【0020】
情報処理装置1における処理の概要を説明する。情報処理装置1は、文字列認識タスクと、正誤判定タスクと、を学習モデルに学習させ、学習済みモデルを生成する。文字列認識タスクは、画像データに含まれる文字列を予測するタスクである。正誤判定タスクは、画像データと、文字列と、に基づいて、画像データに含まれる文字列と、入力された文字列と、が一致するか否かを予測するタスクである。学習モデルは、大量のデータセットに基づいて自然言語処理タスクを実行可能に学習された事前学習モデルである。
【0021】
情報処理装置1は第1教師データD1及び第2教師データD2を取得する。第1教師データD1は、主に文字列認識タスクの学習に使用される教師データである。
図2は、第1教師データD1のデータ構造の一例を示す図である。第1教師データD1においては、複数の画像データD11と、複数の画像データD11それぞれに対応する正解文字列D12と、が関連付けられている。画像データにおいては、文字列が写りこんでいる。正解文字列D12は、複数の画像データD11それぞれに含まれる文字列の正解を示す。
【0022】
第2教師データD2は、正誤判定タスクの学習に使用する教師データである。
図3は、第2教師データD2のデータ構造の一例を示す図である。第2教師データD2においては、複数の画像データD21、判定対象文字列D22及び複数の画像データそれぞれに対応する正誤フラグD23を関連付けたデータである。第2教師データD2の判定対象文字列D22においては、(1)当該判定対象文字列D22に関連付けられた画像データD21に対応する正解文字列と、(2)学習過程又は推論過程において当該画像データD21に基づいて誤って認識された文字列と、のうちいずれかを含む。正誤フラグは、正解文字列と判定対象文字列とが一致するか否かを示すフラグである。
【0023】
第1教師データD1及び第2教師データD2における画像データ(D11及びD12)は、一例として、商品等に付されたブランド等を示す文字列が写りこんだ画像である。この例における正解文字列は、当該画像に写りこんだ商品等に付された文字列である。第1教師データD1及び第2教師データD2においては共通する画像で構成されてもよいし、それぞれ異なる画像を含んでいてもよい。
【0024】
このように学習されることで、学習済みモデルは、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列を出力する。
【0025】
情報処理システムSがこのように構成されることで、画像中に含まれる文字列を認識する精度を向上させることが期待できる。特に、情報処理装置1が学習又は推論の過程において誤認識した文字列(正解文字列と異なる文字列)と、当該文字列を認識した対象の画像データと、を含む第2教師データD2に基づいて正誤判定タスクを学習させることで誤認識の傾向を学習することができ、文字列の認識精度を向上させることが期待できる。
【0026】
[情報処理装置1の構成]
図4は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、通信部11、記憶部12及び制御部13を有する。制御部13は、取得部131、学習部132、出力部133、表示制御部134、認識手段制御部135及び生成部136を有する。
【0027】
通信部11は、ネットワークを介して他の装置とデータの送受信をするための通信インターフェースである。記憶部12は、ROM(Read Only Memory)、RAM(Random Access Memory)、SSD(Solid State Drive)、ハードディスクドライブ等を含む記憶媒体である。記憶部12は、制御部13が実行するプログラムを予め記憶している。
【0028】
制御部13は、例えばCPU(Central Processing Unit)等のプロセッサである。制御部13は、記憶部12に記憶されたプログラムを実行することにより、取得部131、学習部132、出力部133、表示制御部134、認識手段制御部135及び生成部136として機能する。
【0029】
取得部131は、第1教師データD1及び第2教師データD2を取得する。一例として、取得部131は、情報端末2から第1教師データD1及び第2教師データD2を取得する。取得部131は、不図示の外部装置から第1教師データD1及び第2教師データD2を取得してもよい。
【0030】
学習部132は、第1教師データD1に基づいて、文字列認識タスクを学習させる。また、学習部132は、第2教師データD2に基づいて、正誤判定タスクを学習させる。
図5を参照して学習部132の処理を説明する。学習部132は、第1教師データD1において関連付けられた画像データD11を入力として、当該画像データD11に含まれる文字列を出力させる。一例として、学習モデルにおいては、画像データD11を複数のパッチD31に分割し、それぞれのパッチの射影をとることでベクトルに変換する。一例として、入力データの末尾には、入力データの末尾であることを示すデータ(
図5における[SEP])を含む。
【0031】
学習部132は、入力データに基づいて出力された予測結果を自己回帰的に学習済みモデルに入力する。学習部132は、パッチD31に対応するベクトルと、直前に入力したベクトルに基づいて学習モデルが出力した予測結果D41と、を連結させて学習モデルに入力し、予測結果D41を出力させる。学習モデルは、予測終了を示すベクトル(
図5における[EOS])が出力されるまで、自己回帰的に処理を繰り返す。
【0032】
予測が終了した場合、学習部132は、学習モデルが出力した文字列と、第1教師データD1において関連付けられた正解文字列D12との差に基づいて、学習モデルのパラメータを更新する。一例として、学習部132は、学習モデルが出力した文字列を示すベクトルと、正解文字列D12に対応するベクトルと、の交差エントロピー誤差を算出し、算出した交差エントロピー誤差に基づいて学習モデルのパラメータを更新する。
【0033】
図6を参照して、正誤判定タスクの学習について説明する。学習部132は、第2教師データD2において関連付けられた画像データD21と、判定対象文字列D22と、を学習モデルに入力し、正誤フラグD42を出力させる。学習部132は、判定対象文字列D22をベクトルに変換し、画像データD21を分割したパッチに対応するベクトルと判定対象文字列D22に対応するベクトルとを連結させて入力データD32を構成する。この場合、入力データD32においては、パッチの末尾と判定対象文字列との間にデータの区切りであることを示すデータ(
図6における[SEP])を含む。学習部132は、学習モデルが出力した正誤フラグD42と、第2教師データD2において関連付けられた正誤フラグD23と、の差に基づいて学習モデルのパラメータを更新する。学習部132は、学習モデルが出力した正誤フラグD42と、第2教師データD2において関連付けられた正誤フラグD23と、の交差エントロピー誤差に基づいて学習モデルのパラメータを更新する。
【0034】
情報処理装置1がこのように構成されることで、画像中に含まれる文字列を認識する精度を向上させることができる。
【0035】
学習部132は、単一の学習プロセスにおいて、文字列認識タスクと、正誤判定タスクと、を学習させ、学習済みモデルを生成する。学習部132は、学習を開始してから終了するまでの過程において文字列認識タスクと、正誤判定タスクと、の両方のタスクを学習モデルに学習させる。学習部132は、文字列認識タスクと、正誤判定タスクと、を順に学習させてもよいし、並行して学習させてもよい。
【0036】
学習の過程において出力された文字列の予測結果を第2教師データD2における判定対象文字列として学習させることで、学習済みモデルの誤認識の傾向を学習させることが可能となる。
【0037】
生成部136は、学習部132が文字列認識タスクを学習させる過程で学習済みモデルが出力した文字列であって、入力した画像データに含まれる文字列と異なる文字列を認識対象文字列として、学習済みモデルに入力した画像データと関連付けた第2教師データD2を生成する。
【0038】
認識した文字の正誤の判定を単一の予測プロセスにおいて行うように情報処理装置1が構成されてもよい。
【0039】
この場合、学習部132は、上記の学習に加え、第1教師データD1に基づいて正誤判定タスクを学習させる。換言すれば、学習部132は、入力された画像データD11に応じて学習モデルが出力した文字列を、判定対象文字列として学習モデルに入力し、正誤判定タスクを学習させる。
【0040】
図7を参照して、この場合における学習部132の処理について説明する。この場合、学習部132は、第1教師データD1において関連付けられた画像データD11を分割したパッチD31に対応するベクトルを学習モデルに入力し、予測結果を出力させる。学習部132は、出力された予測結果を学習モデルに自己回帰的に入力する。学習モデルは、文字列の予測が終了した場合、文字列の末尾であることを示す情報(
図7における[SEP])を出力する。学習モデルは、文字列の末尾であることを示す情報が入力されると、入力されたパッチと、文字列の予測結果と、に基づいて、正誤フラグを出力する。学習部132は、学習モデルが出力した文字列及び正誤フラグと、第1教師データにおいて画像データD11に関連付けられた正解文字列D12及び「TRUE」の値の正誤フラグと、の差に基づいて学習モデルのパラメータを更新し、学習済みモデルを生成する。学習済みモデルは、認識対象の文字列を含む画像データである対象画像データを入力として、予測文字列と、正誤フラグと、を出力する。
【0041】
取得部131は、対象画像データを取得する。対象画像データは、情報処理装置1が文字認識する対象の画像データであり、認識対象の文字列を含む。取得部131は、情報端末2から対象画像データを取得してもよい。取得部131は、不図示の外部装置から対象画像データを取得してもよい。
【0042】
出力部133は、取得部131が取得した対象画像データを学習済みモデルに入力し、該対象画像データについての予測文字列と、該予測文字列についての正誤フラグと、を出力させる。表示制御部134は、学習済みモデルが出力した予測文字列と、学習済みモデルが出力した正誤フラグと、を情報端末2に表示させてもよい。
【0043】
学習済みモデルによる認識結果が誤っている可能性がある場合、ユーザに注意を促すための情報を表示させるように情報処理装置1が構成されてもよい。
【0044】
表示制御部134は、出力部133が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、予測結果が誤っている可能性があることを示すメッセージを表示させる。一例として、表示制御部134は、学習済みモデルが出力した正誤フラグが「FALSE」であるかを判定する。表示制御部134は、正誤フラグが「FALSE」である場合に、
図8に示す画面を情報端末2に表示させる。
図8に示す画面においては、対象画像データと、対象画像データに対応する予測文字列と、予測結果が誤っている可能性があることを示すメッセージと、が表示されている。
【0045】
情報処理装置1が誤認識の傾向を学習し、誤認識の可能性があることを出力するよう構成されることで、ユーザは注意を要することを認識することができる。
【0046】
学習済みモデルの認識結果が誤っている可能性がある場合、他のOCRに入力するよう情報処理装置1が構成されてもよい。
【0047】
認識手段制御部135は、出力部133が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、画像データを入力すると当該画像データに含まれる文字を出力する光学文字認識手段であって、学習済みモデルとは異なる光学文字認識手段に対象画像データを入力する。一例として、認識手段制御部135は、正誤フラグが「FALSE」である場合に、不図示の光学文字認識手段に対象画像データを入力してもよい。また、記憶部12が学習済みモデルとは異なるデータセットに基づいて文字認識を行うように学習された学習済みモデルである文字認識モデルを記憶していてもよく、この場合は、認識手段制御部135は、文字認識モデルに対象画像データを入力し、認識結果を出力させてもよい。
【0048】
表示制御部134は、光学文字認識手段が対象画像データを光学文字認識することにより認識された文字列を取得し、取得した文字列を表示させる。表示制御部134は、一例として、認識手段制御部135が対象画像データを入力した光学文字認識手段から、認識結果の文字列を取得してもよい。また、認識手段制御部135が、文字認識モデルに対象画像データを入力した場合は、表示制御部134は、文字認識モデルが出力した認識結果を取得する。表示制御部134は、取得した文字列と、学習済みモデルが出力した文字列と、を情報端末2に表示させる。
【0049】
なお、入力候補のOCRが複数存在する場合は、学習済みモデルは、入力先のOCRを識別するためのOCR識別情報をさらに出力するよう構成されていてもよい。この場合、学習済みモデルは、画像データ、認識文字列、正誤フラグ及びOCR識別情報が関連付けられた教師データに基づいて学習されている。この場合の教師データに含まれるOCR識別情報は、画像データを文字認識するために好適なOCRを示す。
【0050】
情報処理装置1がこのように構成されることで、文字列の予測により適したOCRにより文字認識することができるという効果を奏する。
【0051】
[情報処理装置1における処理の流れ]
図9は、情報処理装置1における処理の流れを示すフローチャートである。
図9に示すフローチャートは、情報処理装置1が情報端末2から学習を開始する指示を取得した時点から開始している。
【0052】
取得部131は、第1教師データを取得する(S01)。一例として取得部131は、情報端末2から第1教師データを取得する。取得部131は、第2教師データを取得する(S02)。一例として取得部131は、情報端末2から第2教師データを取得する。
【0053】
学習部132は、第1教師データに基づいて文字認識タスクを学習させる(S03)。学習部132は、文字認識タスクにおける出力と、第1教師データにおいて関連付けられた正解文字列D12との差に基づいて学習モデルのパラメータを更新する。
【0054】
学習部132は、第2教師データに基づいて正誤判定タスクを学習させる(S04)。学習部132は、正誤判定タスクにおける出力と、第2教師データD2において関連付けられた正誤フラグとの差に基づいて学習モデルのパラメータを更新する。
【0055】
学習部132は、第1教師データに基づいて正誤判定タスクを学習させる(S05)。学習部132は、正誤判定タスクにおいて出力された文字列及び正誤フラグと、第1教師データD1に関連付けられた正解文字列D12及び「TRUE」の値の正誤フラグと、の差に基づいて学習モデルのパラメータを更新する。
【0056】
学習部132は、パラメータを更新することで、学習が完了した学習モデルである学習済みモデルを生成し、記憶部12に記憶させる(S06)。情報処理装置1は、処理を終了する。
【0057】
[情報処理装置1における効果]
情報処理装置1がこのように構成されることで、画像中に含まれる文字列の認識精度を向上させることが期待できる。
【0058】
以上、実施の形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0059】
1 情報処理装置
2 情報端末
11 通信部
12 記憶部
13 制御部
131 取得部
132 学習部
133 出力部
134 表示制御部
135 認識手段制御部
136 生成部
【要約】
文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第1教師データと、複数の画像データ、認識する対象の文字列である認識対象文字列及び複数の画像データそれぞれに対応する正解文字列と認識対象文字列とが一致するか否かを示すフラグを関連付けた第2教師データと、を取得する取得部131と、第1教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクと、第2教師データにおいて関連付けられた画像データと、認識対象文字列と、を入力として、該画像データに対応する正解文字列と認識対象文字列とが一致するか否かを判定するタスクと、を学習させ、画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習部132と、を有する情報処理装置1である。