特許7503279 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ファーストアカウンティング株式会社の特許一覧

特許7503279情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-06-12

(45)【発行日】2024-06-20

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240613BHJP

G06V 30/12 20220101ALI20240613BHJP

【ＦＩ】

G06N20/00 130

G06V30/12 B

【請求項の数】 9

(21)【出願番号】P 2024513172

(86)(22)【出願日】2024-02-27

(86)【国際出願番号】 JP2024006903

【審査請求日】2024-02-27

【早期審査対象出願】

(73)【特許権者】

【識別番号】516380407

【氏名又は名称】ファーストアカウンティング株式会社

(74)【代理人】

【識別番号】110004222

【氏名又は名称】弁理士法人創光国際特許事務所

(72)【発明者】

【氏名】藤武将人

【審査官】山本俊介

(56)【参考文献】

【文献】特開２０２１－６０８７６（ＪＰ，Ａ）

【文献】宮下知也ほか，機械学習を用いた手書き文字の正誤判定システムの開発，ＦＩＴ２０１７第１６回情報科学技術フォーラム講演論文集，2017年09月05日，第３分冊，pp.429-430

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｖ３０／１２

(57)【特許請求の範囲】

【請求項1】

（１）文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第１教師データと、
（２）（ア）前記複数の画像データ、（イ）認識する対象の文字列である認識対象文字列及び（ウ）前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第２教師データと、
を取得する取得部と、
（１）前記第１教師データに基づいて、第１教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、
（２）前記第２教師データに基づいて、前記第２教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、
を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習部と、
を有する情報処理装置。

【請求項2】

前記認識対象文字列においては、
（１）当該認識対象文字列に関連付けられた画像データに対応する正解文字列と、
（２）当該画像データに基づいて誤って認識された文字列と、
のうちいずれかを含む、
請求項１に記載の情報処理装置。

【請求項3】

前記学習部は、単一の学習プロセスにおいて、前記文字列認識タスクと、前記正誤判定タスクと、を学習させ、前記学習済みモデルを生成する、
請求項１に記載の情報処理装置。

【請求項4】

前記学習済みモデルは、認識対象の文字列を含む画像データである対象画像データを入力として、予測文字列と、該予測文字列の正誤を示す正誤フラグと、を出力し、
前記取得部は、認識対象の文字列を含む画像データである対象画像データをさらに取得し、
前記情報処理装置は、前記取得部が取得した前記対象画像データを前記学習済みモデルに入力し、該対象画像データについての予測文字列と、該予測文字列についての正誤フラグと、を出力させる出力部をさらに有する、
請求項１に記載の情報処理装置。

【請求項5】

前記出力部が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、予測結果が誤っている可能性があることを示すメッセージを表示させる表示制御部をさらに有する、
請求項４に記載の情報処理装置。

【請求項6】

前記出力部が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、画像データを入力すると当該画像データに含まれる文字を出力する光学文字認識手段であって、前記学習済みモデルとは異なる前記光学文字認識手段に前記対象画像データを入力する認識手段制御部をさらに有し、
前記光学文字認識手段が前記対象画像データを光学文字認識することにより認識された文字列を取得し、取得した文字列を表示させる表示制御部をさらに有する、
請求項４に記載の情報処理装置。

【請求項7】

前記学習部が前記文字列認識タスクを学習させる過程で前記学習済みモデルが出力した文字列であって、入力した画像データに含まれる文字列と異なる文字列を前記認識対象文字列として、前記学習済みモデルに入力した画像データと関連付けた前記第２教師データを生成する生成部をさらに有する、
請求項２に記載の情報処理装置。

【請求項8】

コンピュータが実行する、
文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第１教師データを取得する第１取得ステップと、
（ア）前記複数の画像データ、（イ）認識する対象の文字列である認識対象文字列及び（ウ）前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第２教師データを取得する第２取得ステップと、
（１）前記第１教師データに基づいて、第１教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、
（２）前記第２教師データに基づいて、前記第２教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、
を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習ステップと、
を有する情報処理方法。

【請求項9】

コンピュータに、
文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第１教師データを取得する第１取得ステップと、
（ア）前記複数の画像データ、（イ）認識する対象の文字列である認識対象文字列及び（ウ）前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第２教師データを取得する第２取得ステップと、
（１）前記第１教師データに基づいて、第１教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、
（２）前記第２教師データに基づいて、前記第２教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、
を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習ステップと、
を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

【背景技術】

【0002】

言語モデルを用いて画像中に含まれる文字列を認識させる手法が提案されている（例えば、特許文献１を参照）。

【先行技術文献】

【非特許文献】

【0003】

【文献】Darwin Bautista and Rowel Atienza. Scene text recognition with permuted autoregressive sequence models. In ECCV, pages 178-196, 2022.

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、情景中に含まれる文字列を認識する場合、様々なフォント、色、形状又は背景を認識する必要があり、従来技術においては認識精度が向上しない場合が生じていた。

【0005】

そこで、本発明はこれらの点に鑑みてなされたものであり、画像に含まれる文字列の認識精度を向上させることを目的とする。

【課題を解決するための手段】

【0006】

本発明の第１の態様に係る情報処理装置は、（１）文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第１教師データと、（２）（ア）前記複数の画像データ、（イ）認識する対象の文字列である認識対象文字列及び（ウ）前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第２教師データと、を取得する取得部と、（１）前記第１教師データに基づいて、第１教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、（２）前記第２教師データに基づいて、前記第２教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習部と、を有する。

【0007】

前記認識対象文字列においては、（１）当該認識対象文字列に関連付けられた画像データに対応する正解文字列と、（２）当該画像データに基づいて誤って認識された文字列と、のうちいずれかを含んでもよい。

【0008】

前記学習部は、単一の学習プロセスにおいて、前記文字列認識タスクと、前記正誤判定タスクと、を学習させ、前記学習済みモデルを生成してもよい。

【0009】

前記学習済みモデルは、認識対象の文字列を含む画像データである対象画像データを入力として、予測文字列と、該予測文字列の正誤を示す正誤フラグと、を出力し、前記取得部は、認識対象の文字列を含む画像データである対象画像データをさらに取得し、前記情報処理装置は、前記取得部が取得した前記対象画像データを前記学習済みモデルに入力し、該対象画像データについての予測文字列と、該予測文字列についての正誤フラグと、を出力させる出力部をさらに有してもよい。

【0010】

前記出力部が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、予測結果が誤っている可能性があることを示すメッセージを表示させる表示制御部をさらに有してもよい。

【0011】

前記出力部が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、画像データを入力すると当該画像データに含まれる文字を出力する光学文字認識手段であって、前記学習済みモデルとは異なる前記光学文字認識手段に前記対象画像データを入力する認識手段制御部をさらに有し、前記光学文字認識手段が前記対象画像データを光学文字認識することにより認識された文字列を取得し、取得した文字列を表示させる表示制御部をさらに有してもよい。

【0012】

前記学習部が前記文字列認識タスクを学習させる過程で前記学習済みモデルが出力した文字列であって、入力した画像データに含まれる文字列と異なる文字列を前記認識対象文字列として、前記学習済みモデルに入力した画像データと関連付けた前記第２教師データを生成する生成部をさらに有してもよい。

【0013】

本発明の第２の態様の情報処理方法においては、コンピュータが実行する、文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第１教師データを取得する第１取得ステップと、（ア）前記複数の画像データ、（イ）認識する対象の文字列である認識対象文字列及び（ウ）前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第２教師データを取得する第２取得ステップと、（１）前記第１教師データに基づいて、第１教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、（２）前記第２教師データに基づいて、前記第２教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習ステップと、を有する。

【0014】

本発明の第３の態様のプログラムにおいては、コンピュータに、文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第１教師データを取得する第１取得ステップと、（ア）前記複数の画像データ、（イ）認識する対象の文字列である認識対象文字列及び（ウ）前記複数の画像データそれぞれに対応する正解文字列と前記認識対象文字列とが一致するか否かを示すフラグを関連付けた第２教師データを取得する第２取得ステップと、（１）前記第１教師データに基づいて、第１教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクである文字列認識タスクと、（２）前記第２教師データに基づいて、前記第２教師データにおいて関連付けられた画像データと、前記認識対象文字列と、を入力として、該画像データに対応する正解文字列と前記認識対象文字列とが一致するか否かを判定するタスクである正誤判定タスクと、を学習させた学習済みモデルであって、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習ステップと、を実行させる。

【発明の効果】

【0015】

本発明によれば、画像中に含まれる文字列の認識精度を向上させることが期待できる。

【図面の簡単な説明】

【0016】

【図1】実施形態にかかる情報処理システムＳの概要を説明するための図である。

【図2】第１教師データＤ１のデータ構造の一例を示す図である。

【図3】第２教師データＤ２のデータ構造の一例を示す図である。

【図4】情報処理装置１の構成を示すブロック図である。

【図5】学習部１３２の処理の一例を示す図である。

【図6】学習部１３２の処理の一例を示す図である。

【図7】学習部１３２の処理の一例を示す図である。

【図8】表示制御部１３４が表示させる画面の一例を示す図である。

【図9】情報処理装置１における処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0017】

［情報処理システムＳの概要］
図１は、実施形態にかかる情報処理システムＳの概要を説明するための図である。情報処理システムＳは、画像に含まれる文字を抽出するＯＣＲ（Optical Character Recognition）を提供するためのシステムである。情報処理システムＳは、情報処理装置１及び情報端末２を有する。

【0018】

情報処理装置１は、画像中に含まれる文字列を認識するためのＯＣＲである。情報処理装置１は、画像に基づいて文字認識をするための機械学習モデルである学習済みモデルを学習させる。また、情報処理装置１は、推論対象となる画像データを学習済みモデルに入力し、画像データ中に含まれる文字を出力させる。

【0019】

情報端末２は、情報処理システムＳのユーザが使用する端末である。情報端末２は、例えばスマートフォン、タブレット又はパーソナルコンピュータである。情報端末２は、ユーザの操作に応じて情報処理装置１に学習を開始するための指示を送信し、学習に用いる教師データを送信する。また、情報端末２は、文字列を認識する対象の画像を送信し、情報処理装置１による文字列の認識結果を取得し表示する。

【0020】

情報処理装置１における処理の概要を説明する。情報処理装置１は、文字列認識タスクと、正誤判定タスクと、を学習モデルに学習させ、学習済みモデルを生成する。文字列認識タスクは、画像データに含まれる文字列を予測するタスクである。正誤判定タスクは、画像データと、文字列と、に基づいて、画像データに含まれる文字列と、入力された文字列と、が一致するか否かを予測するタスクである。学習モデルは、大量のデータセットに基づいて自然言語処理タスクを実行可能に学習された事前学習モデルである。

【0021】

情報処理装置１は第１教師データＤ１及び第２教師データＤ２を取得する。第１教師データＤ１は、主に文字列認識タスクの学習に使用される教師データである。図２は、第１教師データＤ１のデータ構造の一例を示す図である。第１教師データＤ１においては、複数の画像データＤ１１と、複数の画像データＤ１１それぞれに対応する正解文字列Ｄ１２と、が関連付けられている。画像データにおいては、文字列が写りこんでいる。正解文字列Ｄ１２は、複数の画像データＤ１１それぞれに含まれる文字列の正解を示す。

【0022】

第２教師データＤ２は、正誤判定タスクの学習に使用する教師データである。図３は、第２教師データＤ２のデータ構造の一例を示す図である。第２教師データＤ２においては、複数の画像データＤ２１、判定対象文字列Ｄ２２及び複数の画像データそれぞれに対応する正誤フラグＤ２３を関連付けたデータである。第２教師データＤ２の判定対象文字列Ｄ２２においては、（１）当該判定対象文字列Ｄ２２に関連付けられた画像データＤ２１に対応する正解文字列と、（２）学習過程又は推論過程において当該画像データＤ２１に基づいて誤って認識された文字列と、のうちいずれかを含む。正誤フラグは、正解文字列と判定対象文字列とが一致するか否かを示すフラグである。

【0023】

第１教師データＤ１及び第２教師データＤ２における画像データ（Ｄ１１及びＤ１２）は、一例として、商品等に付されたブランド等を示す文字列が写りこんだ画像である。この例における正解文字列は、当該画像に写りこんだ商品等に付された文字列である。第１教師データＤ１及び第２教師データＤ２においては共通する画像で構成されてもよいし、それぞれ異なる画像を含んでいてもよい。

【0024】

このように学習されることで、学習済みモデルは、文字列を含む画像データを入力として当該画像データに含まれると予測される文字列である予測文字列を出力する。

【0025】

情報処理システムＳがこのように構成されることで、画像中に含まれる文字列を認識する精度を向上させることが期待できる。特に、情報処理装置１が学習又は推論の過程において誤認識した文字列（正解文字列と異なる文字列）と、当該文字列を認識した対象の画像データと、を含む第２教師データＤ２に基づいて正誤判定タスクを学習させることで誤認識の傾向を学習することができ、文字列の認識精度を向上させることが期待できる。

【0026】

［情報処理装置１の構成］
図４は、情報処理装置１の構成を示すブロック図である。情報処理装置１は、通信部１１、記憶部１２及び制御部１３を有する。制御部１３は、取得部１３１、学習部１３２、出力部１３３、表示制御部１３４、認識手段制御部１３５及び生成部１３６を有する。

【0027】

通信部１１は、ネットワークを介して他の装置とデータの送受信をするための通信インターフェースである。記憶部１２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＳＳＤ（Solid State Drive）、ハードディスクドライブ等を含む記憶媒体である。記憶部１２は、制御部１３が実行するプログラムを予め記憶している。

【0028】

制御部１３は、例えばＣＰＵ（Central Processing Unit）等のプロセッサである。制御部１３は、記憶部１２に記憶されたプログラムを実行することにより、取得部１３１、学習部１３２、出力部１３３、表示制御部１３４、認識手段制御部１３５及び生成部１３６として機能する。

【0029】

取得部１３１は、第１教師データＤ１及び第２教師データＤ２を取得する。一例として、取得部１３１は、情報端末２から第１教師データＤ１及び第２教師データＤ２を取得する。取得部１３１は、不図示の外部装置から第１教師データＤ１及び第２教師データＤ２を取得してもよい。

【0030】

学習部１３２は、第１教師データＤ１に基づいて、文字列認識タスクを学習させる。また、学習部１３２は、第２教師データＤ２に基づいて、正誤判定タスクを学習させる。図５を参照して学習部１３２の処理を説明する。学習部１３２は、第１教師データＤ１において関連付けられた画像データＤ１１を入力として、当該画像データＤ１１に含まれる文字列を出力させる。一例として、学習モデルにおいては、画像データＤ１１を複数のパッチＤ３１に分割し、それぞれのパッチの射影をとることでベクトルに変換する。一例として、入力データの末尾には、入力データの末尾であることを示すデータ（図５における［ＳＥＰ］）を含む。

【0031】

学習部１３２は、入力データに基づいて出力された予測結果を自己回帰的に学習済みモデルに入力する。学習部１３２は、パッチＤ３１に対応するベクトルと、直前に入力したベクトルに基づいて学習モデルが出力した予測結果Ｄ４１と、を連結させて学習モデルに入力し、予測結果Ｄ４１を出力させる。学習モデルは、予測終了を示すベクトル（図５における［ＥＯＳ］）が出力されるまで、自己回帰的に処理を繰り返す。

【0032】

予測が終了した場合、学習部１３２は、学習モデルが出力した文字列と、第１教師データＤ１において関連付けられた正解文字列Ｄ１２との差に基づいて、学習モデルのパラメータを更新する。一例として、学習部１３２は、学習モデルが出力した文字列を示すベクトルと、正解文字列Ｄ１２に対応するベクトルと、の交差エントロピー誤差を算出し、算出した交差エントロピー誤差に基づいて学習モデルのパラメータを更新する。

【0033】

図６を参照して、正誤判定タスクの学習について説明する。学習部１３２は、第２教師データＤ２において関連付けられた画像データＤ２１と、判定対象文字列Ｄ２２と、を学習モデルに入力し、正誤フラグＤ４２を出力させる。学習部１３２は、判定対象文字列Ｄ２２をベクトルに変換し、画像データＤ２１を分割したパッチに対応するベクトルと判定対象文字列Ｄ２２に対応するベクトルとを連結させて入力データＤ３２を構成する。この場合、入力データＤ３２においては、パッチの末尾と判定対象文字列との間にデータの区切りであることを示すデータ（図６における［ＳＥＰ］）を含む。学習部１３２は、学習モデルが出力した正誤フラグＤ４２と、第２教師データＤ２において関連付けられた正誤フラグＤ２３と、の差に基づいて学習モデルのパラメータを更新する。学習部１３２は、学習モデルが出力した正誤フラグＤ４２と、第２教師データＤ２において関連付けられた正誤フラグＤ２３と、の交差エントロピー誤差に基づいて学習モデルのパラメータを更新する。

【0034】

情報処理装置１がこのように構成されることで、画像中に含まれる文字列を認識する精度を向上させることができる。

【0035】

学習部１３２は、単一の学習プロセスにおいて、文字列認識タスクと、正誤判定タスクと、を学習させ、学習済みモデルを生成する。学習部１３２は、学習を開始してから終了するまでの過程において文字列認識タスクと、正誤判定タスクと、の両方のタスクを学習モデルに学習させる。学習部１３２は、文字列認識タスクと、正誤判定タスクと、を順に学習させてもよいし、並行して学習させてもよい。

【0036】

学習の過程において出力された文字列の予測結果を第２教師データＤ２における判定対象文字列として学習させることで、学習済みモデルの誤認識の傾向を学習させることが可能となる。

【0037】

生成部１３６は、学習部１３２が文字列認識タスクを学習させる過程で学習済みモデルが出力した文字列であって、入力した画像データに含まれる文字列と異なる文字列を認識対象文字列として、学習済みモデルに入力した画像データと関連付けた第２教師データＤ２を生成する。

【0038】

認識した文字の正誤の判定を単一の予測プロセスにおいて行うように情報処理装置１が構成されてもよい。

【0039】

この場合、学習部１３２は、上記の学習に加え、第１教師データＤ１に基づいて正誤判定タスクを学習させる。換言すれば、学習部１３２は、入力された画像データＤ１１に応じて学習モデルが出力した文字列を、判定対象文字列として学習モデルに入力し、正誤判定タスクを学習させる。

【0040】

図７を参照して、この場合における学習部１３２の処理について説明する。この場合、学習部１３２は、第１教師データＤ１において関連付けられた画像データＤ１１を分割したパッチＤ３１に対応するベクトルを学習モデルに入力し、予測結果を出力させる。学習部１３２は、出力された予測結果を学習モデルに自己回帰的に入力する。学習モデルは、文字列の予測が終了した場合、文字列の末尾であることを示す情報（図７における［ＳＥＰ］）を出力する。学習モデルは、文字列の末尾であることを示す情報が入力されると、入力されたパッチと、文字列の予測結果と、に基づいて、正誤フラグを出力する。学習部１３２は、学習モデルが出力した文字列及び正誤フラグと、第１教師データにおいて画像データＤ１１に関連付けられた正解文字列Ｄ１２及び「ＴＲＵＥ」の値の正誤フラグと、の差に基づいて学習モデルのパラメータを更新し、学習済みモデルを生成する。学習済みモデルは、認識対象の文字列を含む画像データである対象画像データを入力として、予測文字列と、正誤フラグと、を出力する。

【0041】

取得部１３１は、対象画像データを取得する。対象画像データは、情報処理装置１が文字認識する対象の画像データであり、認識対象の文字列を含む。取得部１３１は、情報端末２から対象画像データを取得してもよい。取得部１３１は、不図示の外部装置から対象画像データを取得してもよい。

【0042】

出力部１３３は、取得部１３１が取得した対象画像データを学習済みモデルに入力し、該対象画像データについての予測文字列と、該予測文字列についての正誤フラグと、を出力させる。表示制御部１３４は、学習済みモデルが出力した予測文字列と、学習済みモデルが出力した正誤フラグと、を情報端末２に表示させてもよい。

【0043】

学習済みモデルによる認識結果が誤っている可能性がある場合、ユーザに注意を促すための情報を表示させるように情報処理装置１が構成されてもよい。

【0044】

表示制御部１３４は、出力部１３３が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、予測結果が誤っている可能性があることを示すメッセージを表示させる。一例として、表示制御部１３４は、学習済みモデルが出力した正誤フラグが「ＦＡＬＳＥ」であるかを判定する。表示制御部１３４は、正誤フラグが「ＦＡＬＳＥ」である場合に、図８に示す画面を情報端末２に表示させる。図８に示す画面においては、対象画像データと、対象画像データに対応する予測文字列と、予測結果が誤っている可能性があることを示すメッセージと、が表示されている。

【0045】

情報処理装置１が誤認識の傾向を学習し、誤認識の可能性があることを出力するよう構成されることで、ユーザは注意を要することを認識することができる。

【0046】

学習済みモデルの認識結果が誤っている可能性がある場合、他のＯＣＲに入力するよう情報処理装置１が構成されてもよい。

【0047】

認識手段制御部１３５は、出力部１３３が出力させた正誤フラグが、予測文字列が誤りであることを示す場合、画像データを入力すると当該画像データに含まれる文字を出力する光学文字認識手段であって、学習済みモデルとは異なる光学文字認識手段に対象画像データを入力する。一例として、認識手段制御部１３５は、正誤フラグが「ＦＡＬＳＥ」である場合に、不図示の光学文字認識手段に対象画像データを入力してもよい。また、記憶部１２が学習済みモデルとは異なるデータセットに基づいて文字認識を行うように学習された学習済みモデルである文字認識モデルを記憶していてもよく、この場合は、認識手段制御部１３５は、文字認識モデルに対象画像データを入力し、認識結果を出力させてもよい。

【0048】

表示制御部１３４は、光学文字認識手段が対象画像データを光学文字認識することにより認識された文字列を取得し、取得した文字列を表示させる。表示制御部１３４は、一例として、認識手段制御部１３５が対象画像データを入力した光学文字認識手段から、認識結果の文字列を取得してもよい。また、認識手段制御部１３５が、文字認識モデルに対象画像データを入力した場合は、表示制御部１３４は、文字認識モデルが出力した認識結果を取得する。表示制御部１３４は、取得した文字列と、学習済みモデルが出力した文字列と、を情報端末２に表示させる。

【0049】

なお、入力候補のＯＣＲが複数存在する場合は、学習済みモデルは、入力先のＯＣＲを識別するためのＯＣＲ識別情報をさらに出力するよう構成されていてもよい。この場合、学習済みモデルは、画像データ、認識文字列、正誤フラグ及びＯＣＲ識別情報が関連付けられた教師データに基づいて学習されている。この場合の教師データに含まれるＯＣＲ識別情報は、画像データを文字認識するために好適なＯＣＲを示す。

【0050】

情報処理装置１がこのように構成されることで、文字列の予測により適したＯＣＲにより文字認識することができるという効果を奏する。

【0051】

［情報処理装置１における処理の流れ］
図９は、情報処理装置１における処理の流れを示すフローチャートである。図９に示すフローチャートは、情報処理装置１が情報端末２から学習を開始する指示を取得した時点から開始している。

【0052】

取得部１３１は、第１教師データを取得する（Ｓ０１）。一例として取得部１３１は、情報端末２から第１教師データを取得する。取得部１３１は、第２教師データを取得する（Ｓ０２）。一例として取得部１３１は、情報端末２から第２教師データを取得する。

【0053】

学習部１３２は、第１教師データに基づいて文字認識タスクを学習させる（Ｓ０３）。学習部１３２は、文字認識タスクにおける出力と、第１教師データにおいて関連付けられた正解文字列Ｄ１２との差に基づいて学習モデルのパラメータを更新する。

【0054】

学習部１３２は、第２教師データに基づいて正誤判定タスクを学習させる（Ｓ０４）。学習部１３２は、正誤判定タスクにおける出力と、第２教師データＤ２において関連付けられた正誤フラグとの差に基づいて学習モデルのパラメータを更新する。

【0055】

学習部１３２は、第１教師データに基づいて正誤判定タスクを学習させる（Ｓ０５）。学習部１３２は、正誤判定タスクにおいて出力された文字列及び正誤フラグと、第１教師データＤ１に関連付けられた正解文字列Ｄ１２及び「ＴＲＵＥ」の値の正誤フラグと、の差に基づいて学習モデルのパラメータを更新する。

【0056】

学習部１３２は、パラメータを更新することで、学習が完了した学習モデルである学習済みモデルを生成し、記憶部１２に記憶させる（Ｓ０６）。情報処理装置１は、処理を終了する。

【0057】

［情報処理装置１における効果］
情報処理装置１がこのように構成されることで、画像中に含まれる文字列の認識精度を向上させることが期待できる。

【0058】

以上、実施の形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

【符号の説明】

【0059】

１情報処理装置
２情報端末
１１通信部
１２記憶部
１３制御部
１３１取得部
１３２学習部
１３３出力部
１３４表示制御部
１３５認識手段制御部
１３６生成部

【要約】

文字列を含む複数の画像データ及び当該複数の画像データそれぞれに含まれる文字列である正解文字列を関連付けた第１教師データと、複数の画像データ、認識する対象の文字列である認識対象文字列及び複数の画像データそれぞれに対応する正解文字列と認識対象文字列とが一致するか否かを示すフラグを関連付けた第２教師データと、を取得する取得部１３１と、第１教師データにおいて関連付けられた画像データを入力として、当該画像データに含まれる文字列を出力するタスクと、第２教師データにおいて関連付けられた画像データと、認識対象文字列と、を入力として、該画像データに対応する正解文字列と認識対象文字列とが一致するか否かを判定するタスクと、を学習させ、画像データを入力として当該画像データに含まれると予測される文字列である予測文字列とを出力する学習済みモデルを生成する学習部１３２と、を有する情報処理装置１である。

【図1】