IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ファーストアカウンティング株式会社の特許一覧

特許7519649情報処理装置、情報処理方法及びプログラム
<>
  • 特許-情報処理装置、情報処理方法及びプログラム 図1
  • 特許-情報処理装置、情報処理方法及びプログラム 図2
  • 特許-情報処理装置、情報処理方法及びプログラム 図3
  • 特許-情報処理装置、情報処理方法及びプログラム 図4
  • 特許-情報処理装置、情報処理方法及びプログラム 図5
  • 特許-情報処理装置、情報処理方法及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-07-11
(45)【発行日】2024-07-22
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06V 30/262 20220101AFI20240712BHJP
【FI】
G06V30/262
【請求項の数】 7
(21)【出願番号】P 2024506714
(86)(22)【出願日】2024-02-02
(86)【国際出願番号】 JP2024003447
【審査請求日】2024-02-02
【早期審査対象出願】
(73)【特許権者】
【識別番号】516380407
【氏名又は名称】ファーストアカウンティング株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(72)【発明者】
【氏名】藤武 将人
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2020-102166(JP,A)
【文献】特開2021-197175(JP,A)
【文献】国際公開第2021/010276(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/90
G06V 10/00-20/90
G06V 30/00-30/424
(57)【特許請求の範囲】
【請求項1】
画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、を関連付けた教師データを取得する取得部と、
前記取得部が取得した教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成する学習部と、
を有し、
前記認識文字列は、画像に含まれる文字列であって、該文字列を構成する文字のうち1以上の文字に重なるように押印された文書を光学文字認識することにより生成された文字列を含む、
情報処理装置。
【請求項2】
画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、を関連付けた教師データを取得するとともに、推論対象の認識文字列と、推論対象の認識文字列を生成するために認識された画像である推論対象画像と、を取得する取得部と、
前記取得部が取得した教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成する学習部と、
前記推論対象画像における文字列と印影との重なりの有無を判定する判定部と、
前記判定部が当該画像において文字列と印影とが重なっていると判定する場合、前記取得部が取得した認識文字列を前記学習済みモデルに入力し、入力された認識文字列に対応する文字列を出力させる推論部と、
前記学習済みモデルが出力した文字列を表示部に表示させる表示制御部と、
を有する情報処理装置。
【請求項3】
画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、該認識文字列に対応する前記画像を光学文字認識した認識手段を識別するための認識手段識別情報と、を関連付けた教師データを取得するとともに、推論対象の認識文字列と、該認識文字列に対応する認識手段識別情報と、を取得する取得部と、
前記取得部が取得した教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列及び認識手段識別情報を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成する学習部と、
前記取得部が取得した認識文字列及び認識手段識別情報を前記学習済みモデルに入力し、入力された認識文字列に対応する文字列を出力させる推論部と、
前記学習済みモデルが出力した文字列を表示部に表示させる表示制御部と、
を有する情報処理装置。
【請求項4】
コンピュータが実行する、
画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、を関連付けた教師データを取得するステップと、
取得された前記教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成するステップと、
を有し、
前記認識文字列は、画像に含まれる文字列であって、該文字列を構成する文字のうち1以上の文字に重なるように押印された文書を光学文字認識することにより生成された文字列を含む、
情報処理方法。
【請求項5】
コンピュータが実行する、
画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、を関連付けた教師データを取得する第1取得ステップと、
取得された前記教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成する生成ステップと、
推論対象の認識文字列と、推論対象の認識文字列を生成するために認識された画像と、を取得する第2取得ステップと、
該画像における文字列と印影との重なりの有無を判定する判定ステップと、
前記判定ステップにおいて当該画像において文字列と印影とが重なっていると判定される場合、前記第2取得ステップにおいて取得された認識文字列を前記学習済みモデルに入力し、入力された認識文字列に対応する文字列を出力させる出力ステップと、
前記学習済みモデルが出力した文字列を表示部に表示させる表示制御ステップと、
を有する情報処理方法。
【請求項6】
コンピュータが実行する、
画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、認識文字列に対応する前記画像を光学文字認識した認識手段を識別するための認識手段識別情報と、を関連付けた教師データを取得する第1取得ステップと、
取得された前記教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列と、認識手段識別情報と、を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成する生成ステップと、
推論対象の認識文字列と、該認識文字列に対応する認識手段識別情報と、を取得する第2取得ステップと、
前記第2取得ステップにおいて取得された認識文字列及び認識手段識別情報を前記学習済みモデルに入力し、入力された認識文字列に対応する文字列を出力させる推論ステップと、
前記学習済みモデルが出力した文字列を表示部に表示させる表示制御ステップと、
を有する情報処理方法。
【請求項7】
コンピュータに、
画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、を関連付けた教師データを取得するステップと、
取得された前記教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成するステップと、
を実行させ、
前記認識文字列は、画像に含まれる文字列であって、該文字列を構成する文字のうち1以上の文字に重なるように押印された文書を光学文字認識することにより生成された文字列を含む、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
OCRにより認識された文字列について、誤り箇所の検出と検出された誤り箇所の訂正とを行うことにより訂正する技術が知られている(例えば特許文献1)。
【先行技術文献】
【特許文献】
【0003】
特表2018-523188号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
取引書類においては、書類中の文字列に重なるように押印する場合があるが、このような書類においては文字列中に含まれる文字のうち複数の文字が読み取れない場合が生じ得る。従来技術においては、このようにして生じた文字列中の複数の文字が誤認識された場合に訂正が困難になるという問題が生じていた。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、OCR(Optical Character Recognition)による文字認識の傾向に基づいて認識結果を訂正できるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様に係る情報処理装置においては、画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、を関連付けた教師データを取得する取得部と、前記取得部が取得した教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成する学習部と、を有する。
【0007】
前記認識文字列は、画像に含まれる文字列であって、該文字列を構成する文字のうち1以上の文字に重なるように押印された文書を光学文字認識することにより生成された文字列を含んでもよい。
【0008】
前記取得部は、推論対象の認識文字列を取得し、前記情報処理装置は、前記取得部が取得した認識文字列を前記学習済みモデルに入力し、入力された認識文字列に対応する文字列を出力させる推論部と、前記学習済みモデルが出力した文字列を表示部に表示させる表示制御部と、をさらに有してもよい。
【0009】
前記取得部は、推論対象の認識文字列を生成するために認識された画像をさらに取得し、前記情報処理装置は、当該画像における文字列と印影との重なりの有無を判定する判定部をさらに有し、前記推論部は、前記判定部が当該画像において文字列と印影とが重なっていると判定する場合、前記取得部が取得した認識文字列を前記学習済みモデルに入力し、入力された認識文字列に対応する文字列を出力させてもよい。
【0010】
前記教師データにおいては、認識文字列に対応する前記画像を光学文字認識した認識手段を識別するための認識手段識別情報がさらに関連付けられており、前記学習済みモデルは、認識文字列と、認識手段識別情報と、を入力として、入力された認識文字列に対応する文字列を出力し、前記取得部は、推論対象の認識文字列と、該認識文字列に対応する認識手段識別情報と、を取得し、前記推論部は、前記取得部が取得した認識文字列及び認識手段識別情報を前記学習済みモデルに入力し、入力された認識文字列に対応する文字列を出力させてもよい。
【0011】
本発明の第2の態様の情報処理方法においては、コンピュータが実行する、画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、を関連付けた教師データを取得するステップと、取得された前記教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成するステップと、を有する。
【0012】
本発明の第3の態様のプログラムにおいては、コンピュータに、画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、を関連付けた教師データを取得するステップと、取得された前記教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成するステップと、を実行させる。
【発明の効果】
【0013】
本発明によれば、所定の傾向を有するOCRによる認識結果を訂正できるという効果を奏する。
【図面の簡単な説明】
【0014】
図1】情報処理システムSの概要を説明するための図である。
図2】情報処理装置1の構成を示すブロック図である。
図3】取得部131が取得する教師データの一例を示す図である。
図4】認識文字列を生成する対象の画像の一部を示す図である。
図5】情報処理装置1における処理の流れを示すフローチャートである。
図6】取得部131が取得する教師データの一例を示す図である。
【発明を実施するための形態】
【0015】
[情報処理システムSの概要]
図1は、情報処理システムSの概要を説明するための図である。情報処理システムSは、画像に含まれる文字列を光学文字認識した結果を出力するためのシステムである。情報処理装置1、認識手段2及び情報端末3を有する。
【0016】
情報処理装置1は、光学文字認識されることで生成された文字列を訂正するための装置である。認識手段2は、画像を光学文字認識することにより、画像に含まれる文字列を出力する。なお、情報処理装置1は、認識手段2と一体に構成されてもよい。すなわち、情報処理装置1が認識対象の画像に基づいて認識結果の文字列を生成し、認識結果の文字列を訂正し、訂正した文字列を出力するよう構成されてもよい。
【0017】
情報端末3は、情報処理システムSを利用するユーザが使用する端末である。情報端末3は、例えばスマートフォン、タブレット又はパーソナルコンピュータである。
【0018】
まず、情報処理装置1における学習について説明する。情報処理装置1は、認識文字列と、正解文字列と、を関連付けた教師データD1を取得する。認識文字列は、画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である。正解文字列は、該認識文字列が抽出された画像に含まれる文字列の正解を示す。教師データにおいては、認識文字列と正解文字列とのペアが複数含まれる。認識文字列においては、正解文字列と異なる文字列(すなわち、OCRが文字列を誤って認識した結果生成された文字列)が含まれていてもよいし、正解文字列と同一の文字列が含まれていてもよい。
【0019】
情報処理装置1は、教師データに基づいて事前学習済みモデルを学習させ、学習済みモデルMを生成する。学習済みモデルMは、推論対象の認識文字列が入力されると、推論対象の認識文字列に対応する文字列を出力する。事前学習済みモデルは、大量のテキストデータを学習用データセットとして文の意味や文脈を理解できるように学習した学習済みモデルである。一例として、事前学習済みモデルは、学習用データセットに基づいてMasked Language Model (MLM)及びNext Sentence Prediction (NSP)のタスクを解かせることで、与えられた文脈に基づいて後続する単語を予測できるように学習させた学習済みモデルである。
【0020】
情報処理システムSにおける推論処理の概要について説明する。情報処理装置1は、推論対象の画像データD2に対応する認識文字列を取得する。画像データD2は、文字列を含む書類を画像化した画像データである。より具体的には、認識手段2は、推論対象の画像データD2を取得し、画像データD2を光学文字認識することにより推論対象の認識文字列を生成し、情報処理装置1に出力する。情報処理装置1は、認識文字列を学習済みモデルMに入力し、認識文字列に対応する文字列を出力する。
【0021】
情報処理装置1がこのように構成されることで、OCRの認識の傾向に基づいて、認識結果を訂正することができるという効果を奏する。すなわち、OCRの誤認識結果と、画像に含まれる本来の文字列との関係を学習することにより、OCRによる読取結果の文字数と画像に含まれる本来の文字数とが異なることにより誤り箇所の検出が困難な場合であっても認識結果を訂正することが期待できる。
【0022】
[情報処理装置1の構成]
図2は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、通信部11、記憶部12及び制御部13を有する。制御部13は、取得部131、学習部132、推論部133、表示制御部134及び判定部135を有する。
【0023】
通信部11は、ネットワークを介して他の装置とデータの送受信をするための通信インターフェースである。記憶部12は、ROM(Read Only Memory)、RAM(Random Access Memory)、SSD(Solid State Drive)、ハードディスクドライブ等を含む記憶媒体である。記憶部12は、制御部13が実行するプログラムを予め記憶している。
【0024】
制御部13は、例えばCPU(Central Processing Unit)等のプロセッサである。制御部13は、記憶部12に記憶されたプログラムを実行することにより、取得部131、学習部132、推論部133、表示制御部134及び判定部135として機能する。
【0025】
取得部131は、教師データを取得する。一例として、取得部131は、情報端末3から教師データを取得する。図3は、取得部131が取得する教師データの一例を示す図である。図3に示すように、教師データおいては、認識文字列と、該認識文字列に対応する正解文字列と、が関連付けられている。
【0026】
学習部132は、取得部131が取得した教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成する。一例として、学習部132は、認識文字列を入力として、文字列を出力させるタスクを事前学習済みモデルに実行させ、出力された文字列と入力した認識文字列に関連付けられた正解文字列との誤差に基づいてパラメータを更新することで、事前学習済みモデルMを学習させ、学習済みモデルMを生成する。
【0027】
情報処理装置1がこのように構成されることで、OCRによる認識誤りの傾向に基づいて認識結果を訂正する手段を提供することができる。
【0028】
情報処理装置1によって提供される認識結果の訂正は、特に光学文字認識される時点において読取対象の文字列と重なるように何らかの要素が上書きされている場合に好適である。一例として、認識対象の文字列に重なるように押印された書類を光学文字認識することにより認識文字列が生成された文字列を訂正する場合に情報処理装置1は好適である。より具体的には、発行する企業名に被さるように押印して発行された請求書等の文字列を訂正する場合である。すなわち、認識文字列は、画像に含まれる文字列であって、該文字列を構成する文字のうち1以上の文字に重なるように押印された文書を光学文字認識することにより生成された文字列を含む。図4は、このような場合の認識文字列を生成する対象の画像の一部を示す図である。図4に示す画像は押印された請求書を画像化した画像の一部を示す。図4に示す画像においては、書類に本来記載されていた「株式会社ABC」の文字列のうち、「会社A」に相当する部分に重なるように押印されている。この場合の認識文字列は、例えば「株式#BC」等の文字列となることが想定され、教師データとして「株式#BC」の認識文字列と「株式会社ABC」の正解文字列と、をペアとして学習部132は学習させた学習済みモデルMを生成する。
【0029】
情報処理装置1における推論処理について説明する。取得部131は、推論対象の認識文字列を取得する。推論部133は、取得部131が取得した認識文字列を学習済みモデルMに入力し、入力された認識文字列に対応する文字列を出力させる。取得部131は、認識手段から認識文字列を取得してもよいし、情報端末3から文字列を取得してもよい。
【0030】
表示制御部134は、学習済みモデルMが出力した文字列を表示部に表示させる。一例として、表示制御部134は、学習済みモデルMが出力した文字列を情報端末3の表示部に表示させる。また、情報処理装置1が表示部を有してもよく、この場合、表示制御部134は、情報処理装置1の表示部に学習済みモデルMが出力した文字列を表示させる。
【0031】
表示制御部134は、取得部131が取得した認識文字列と、推論部133が学習済みモデルMに出力させた認識文字列に対応する文字列と、を関連付けて表示部に表示させてもよい。また、表示制御部134は、認識文字列と、推論部133が出力させた文字列と、のいずれかを選択可能に構成された画面を表示部に表示させてもよい。表示制御部134は、認識文字列と、推論部133が学習済みモデルMに出力させた文字列と、が一致するか否かを判定し、認識文字列と、推論部133が学習済みモデルMに出力させた文字列と、が一致しない場合にユーザに文字列が訂正されたことを認識させるための情報を、表示部に表示させてもよい。
【0032】
OCRの誤りの傾向を学習した学習済みモデルMに認識された文字列を入力し、対応する文字列を出力させるよう情報処理装置1が構成されることで、OCRの誤認識の傾向を踏まえて文字列を認識させることが可能になる。
【0033】
文字列の読取が困難な可能性がある場合に、上記の訂正処理が行われるよう情報処理装置1が構成されてもよい。
【0034】
取得部131は、推論対象の認識文字列を生成するために認識された画像を取得する。一例として、取得部131は、認識文字列と、認識文字列を生成するために認識された画像と、を関連付けて取得する。
【0035】
判定部135は、画像における文字列と印影との重なりの有無を判定する。一例として、記憶部12は、画像における文字列と印影との重なりを判定するための学習済みモデルである判定モデルを記憶する。判定モデルは、画像を入力として受付け、画像に含まれる文字列中に印影との重なりがあるか否かを示すフラグを出力するよう学習されている。一例として、判定モデルは、文字列を含む画像と、画像における文字列と印影との重なりの有無を示すラベルを関連付けた教師データに基づいて学習されている。
【0036】
判定部135は、取得部131が取得した画像を判定モデルに入力し、画像に含まれる文字列中に印影との重なりがあるか否かを示すフラグを出力させる。判定部135は、判定モデルに出力させたフラグに基づいて、画像における文字列と印影との重なりの有無を判定する。
【0037】
推論部133は、判定部135が画像において文字列と印影とが重なっていると判定する場合、取得部131が取得した認識文字列を学習済みモデルMに入力し、入力された認識文字列に対応する文字列を出力させる。表示制御部134は、学習済みモデルMが出力した文字列と、取得部131が取得した認識対象の画像と、を関連付けて表示部に表示してもよい。このように構成されることで、ユーザは情報処理装置1が出力した文字列の妥当性を判断することができる。
【0038】
情報処理装置1がこのように構成されることで、文字列の読取が困難な可能性がある場合に誤認識傾向を踏まえた読取結果の訂正を行うことができるようになる。その結果、不要な文字列の訂正を防止することが可能となり、文字列認識の精度を向上させることができる。
【0039】
なお、情報処理装置1は、画像を光学文字認識し、認識文字列を生成するための認識手段をさらに有してもよい。この場合、取得部131は、光学文字認識を行う対象の画像を取得し、取得した画像を認識手段に入力する。取得部131は、認識手段が当該画像を光学文字認識することで生成された認識文字列を取得する。
【0040】
[情報処理装置1における処理の流れ]
図5は、情報処理装置1における処理の流れを示すフローチャートである。図5に示すフローチャートは、学習を開始する指示を受付けた時点から開始している。
【0041】
取得部131は、教師データを取得する(S01)。学習部132は、取得した教師データに基づいて学習済みモデルMを生成する(S02)。一例として、学習部132は、取得した教師データに基づいて事前学習済みモデルをファインチューニングすることで、学習済みモデルMを生成する。
【0042】
取得部131は、推論対象の認識文字列を取得する(S03)。推論部133は、取得部131が取得した認識文字列を学習済みモデルMに入力し、入力された認識文字列に対応する文字列を出力させる(S04)。表示制御部134は、学習済みモデルMが出力した文字列を表示部に表示させる(S05)。そして、情報処理装置1は、処理を終了する。
【0043】
<変形例>
OCRの種類ごとに文字列の認識の傾向が異なる場合がある。そこで、認識文字列を生成したOCRの種類をさらに含む教師データに基づいて学習済みモデルMを学習させるよう情報処理装置1が構成されてもよい。
【0044】
教師データにおいては、認識文字列に対応する画像を光学文字認識した認識手段を識別するための認識手段識別情報がさらに関連付けられている。図6は、この場合に取得部131が取得する教師データの一例を示す図である。図6に示す教師データにおいては、認識文字列と正解文字列のペアに、認識手段識別情報がさらに関連付けられている。認識手段識別情報は、一例として、OCRのベンダ、ソフトウェアのバージョン又は機種等を示す。
【0045】
学習部132は、認識手段識別情報を含む教師データに基づいて、事前学習済みモデルを学習させ、学習済みモデルMを生成する。この場合の学習済みモデルMは、認識文字列と、認識手段識別情報と、を入力として、入力された認識文字列に対応する文字列を出力する。
【0046】
取得部131は、推論対象の認識文字列と、該認識文字列に対応する認識手段識別情報と、を取得する。すなわち、取得部131は、推論対象の認識文字列と、当該認識文字列を生成した認識手段を示す認識手段識別情報と、を関連付けて取得する。
【0047】
推論部133は、取得部131が取得した認識文字列及び認識手段識別情報を学習済みモデルMに入力し、入力された認識文字列に対応する文字列を出力させる。
【0048】
変形例における情報処理装置1においては、OCRの種類ごとに異なる認識の傾向に基づいて認識結果の訂正を提供することができる。
【0049】
以上、実施の形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0050】
1 情報処理装置
2 認識手段
3 情報端末
11 通信部
12 記憶部
13 制御部
131 取得部
132 学習部
133 推論部
134 表示制御部
135 判定部
【要約】
画像に含まれる文字列を光学文字認識により認識されることにより生成された文字列である認識文字列と、該認識文字列に対応する前記画像における文字列の正解を示す正解文字列と、を関連付けた教師データを取得する取得部131と、
前記取得部131が取得した教師データに基づいて、自然言語処理タスクを実行可能に事前学習された事前学習済みモデルを学習させることにより、認識文字列を入力として、入力された認識文字列に対応する文字列を出力するように学習された学習済みモデルを生成する学習部132と、を有する情報処理装置1である。
前記認識文字列は、画像に含まれる文字列であって、該文字列を構成する文字のうち1以上の文字に重なるように押印された文書を光学文字認識することにより生成された文字列を含んでもよい。
図1
図2
図3
図4
図5
図6