IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特開2024-21755データセット生成装置、学習装置、文字認識装置、その方法及びプログラム
<>
  • 特開-データセット生成装置、学習装置、文字認識装置、その方法及びプログラム 図1
  • 特開-データセット生成装置、学習装置、文字認識装置、その方法及びプログラム 図2
  • 特開-データセット生成装置、学習装置、文字認識装置、その方法及びプログラム 図3
  • 特開-データセット生成装置、学習装置、文字認識装置、その方法及びプログラム 図4
  • 特開-データセット生成装置、学習装置、文字認識装置、その方法及びプログラム 図5
  • 特開-データセット生成装置、学習装置、文字認識装置、その方法及びプログラム 図6
  • 特開-データセット生成装置、学習装置、文字認識装置、その方法及びプログラム 図7
  • 特開-データセット生成装置、学習装置、文字認識装置、その方法及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024021755
(43)【公開日】2024-02-16
(54)【発明の名称】データセット生成装置、学習装置、文字認識装置、その方法及びプログラム
(51)【国際特許分類】
   G06V 30/194 20220101AFI20240208BHJP
   G06V 10/774 20220101ALI20240208BHJP
   G06T 7/00 20170101ALI20240208BHJP
【FI】
G06V30/194
G06V10/774
G06T7/00 350B
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022124823
(22)【出願日】2022-08-04
(71)【出願人】
【識別番号】000003193
【氏名又は名称】TOPPANホールディングス株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【弁理士】
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】大澤 留次郎
(72)【発明者】
【氏名】岡 敏生
(72)【発明者】
【氏名】石井 達也
(72)【発明者】
【氏名】岡田 崇
【テーマコード(参考)】
5B064
5L096
【Fターム(参考)】
5B064AA01
5B064DA27
5L096BA17
5L096KA04
(57)【要約】      (修正有)
【課題】文字列として繋がった状態を維持しつつ、個人情報とみなされないようにすることができるデータセット生成装置、学習装置、文字認識装置、その方法及びプログラムを提供する。
【解決手段】AI-OCRシステムにおいて、データセット生成装置10は、戸籍謄本の書面を光学的に読み取って得られる戸籍謄本画像データから、複数の文字を含む配列単位での文字列画像を抽出する配列文字列画像抽出部130と、配列単位での文字列画像に含まれる文字列の区切り位置に基づいて区切られた画像である文字列区切り画像と、文字列区切り画像に含まれる文字列を表す文字情報とを含むデータセットを生成するデータセット生成部140と、生成されたデータセットと、当該データセットが生成された戸籍謄本とは異なる戸籍謄本から得られたデータセットとを含むデータセット群として出力する出力部170と、を有する。
【選択図】図3
【特許請求の範囲】
【請求項1】
文字が記載された書面を光学的に読み取って得られる書面画像データから、複数の文字を含む配列単位での文字列画像を抽出する配列文字列画像抽出部と、
前記配列単位での文字列画像に含まれる文字列の区切り位置に基づいて区切られた画像である文字列区切り画像と、文字列区切り画像に含まれる文字列を表す文字情報とを含むデータセットを生成するデータセット生成部と、
前記生成されたデータセットと、当該データセットが生成された書面とは異なる書面から得られたデータセットとを含むデータセット群として出力する出力部と、
を有するデータセット生成装置。
【請求項2】
前記生成されたデータセットと、当該データセットが生成された書面とは異なる書面から得られたデータセットとについて、各データセットを識別する識別情報であり、順序がランダムである識別情報を付与する識別情報付与部を有し、
前記出力部は、前記識別情報が付与されたデータセットを含むデータセット群を出力する
請求項1に記載のデータセット生成装置。
【請求項3】
前記データセットに対し、当該データセットに含まれる文字情報の属性に応じたラベルを付与するラベル付与部を有し、
前記出力部は、前記ラベルが付与されたデータセットを含むデータセット群を出力する
請求項1または請求項2に記載のデータセット生成装置。
【請求項4】
前記出力部は、前記ラベルが表す属性毎に分類してから出力する
請求項3に記載のデータセット生成装置。
【請求項5】
前記書面は、戸籍謄本である
請求項3に記載のデータセット生成装置。
【請求項6】
請求項1に記載のデータセット生成装置によって生成されたデータセット群を教師データとして、前記書面から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習することで学習済みモデルを生成する学習部
を有する学習装置。
【請求項7】
請求項1に記載のデータセット生成装置によって生成されたデータセット群を教師データとして、前記書面から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習した学習済みモデルに対し、文字認識対象の文書の画像データを入力することで文字認識処理がなされた結果を得る文字認識部
を有する文字認識装置。
【請求項8】
配列文字列画像抽出部が、戸籍謄本の書面を光学的に読み取って得られる戸籍謄本画像データから、複数の文字を含む配列単位での文字列画像を抽出し、
データセット生成部が、前記配列単位での文字列画像に含まれる文字列の区切り位置に基づいて区切られた画像である文字列区切り画像と、文字列区切り画像に含まれる文字列を表す文字情報とを含むデータセットを生成し、
出力部が、前記生成されたデータセットと、当該データセットが生成された戸籍謄本とは異なる戸籍謄本から得られたデータセットとを含むデータセット群として出力する
データセット生成方法。
【請求項9】
請求項8に記載のデータセット生成方法によって生成されたデータセット群を教師データとして、前記書面から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習することで学習済みモデルを生成する
学習方法。
【請求項10】
請求項8に記載のデータセット生成方法によって生成されたデータセット群を教師データとして、前記書面から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習した学習済みモデルに対し、文字認識対象の文書の画像データを入力することで文字認識処理がなされた結果を得る
文字認識方法。
【請求項11】
戸籍謄本の書面を光学的に読み取って得られる戸籍謄本画像データから、複数の文字を含む配列単位での文字列画像を抽出し、
前記配列単位での文字列画像に含まれる文字列の区切り位置に基づいて区切られた画像である文字列区切り画像と、文字列区切り画像に含まれる文字列を表す文字情報とを含むデータセットを生成し、
前記生成されたデータセットと、当該データセットが生成された戸籍謄本とは異なる戸籍謄本から得られたデータセットとを含むデータセット群として出力する
ことをコンピュータに実行させるプログラム。
【請求項12】
請求項12に記載のプログラムによって生成されたデータセット群を教師データとして、前記書面から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習することで学習済みモデルを生成する
ことをコンピュータに実行させるためのプログラム。
【請求項13】
請求項12に記載のプログラムによって生成されたデータセット群を教師データとして、前記書面から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習した学習済みモデルに対し、文字認識対象の文書の画像データを入力することで文字認識処理がなされた結果を得る
ことをコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データセット生成装置、学習装置、文字認識装置、その方法及びプログラムに関する。
【背景技術】
【0002】
AI(artificial intelligence)を用いたOCR(Optical Character Recognition)技術であるAI-OCRが利用されつつある。AI-OCRは、手書き文字等の各種文字を予め学習しておき、その学習済みモデルを用いることで、一般的なOCRよりも高い認識精度で、手書き文字を認識することができる。
このような手書き文字を対象としたAI-OCRシステムを開発するためには、様々な書き手による手書き文字画像と、解読したテキストとのセットである学習データ(教師データ)を大量に収集する必要がある。
学習データには、手書き文字を含む文字列画像について1文字分ずつ画像を分割した文字画像と、その文字を解読したテキストとの組み合わせを学習データとする方式がある。また、学習データには、手書き文字を含む文字列画像を1文字ずつ分けるのではなく、文章として繋がった状態の文字列画像と、その文字列を解読したテキストとの組み合わせを学習データとする方式(テキストシーケンス方式)もある。現在では、このテキストシーケンス方式の方が主流になりつつある。
【0003】
ところで、近年、銀行において相続に関する手続事務を行う場合、相続人と被相続人との関係を確認するために戸籍謄本が用いられている。相続人が高齢者である場合、その相続人の戸籍謄本は、明治や大正の頃に作成されたものがあり、その場合、記載内容には手書き文字が含まれている。この手書き文字は、書き手によって独特の文字書体によって記載されていたり、旧字であったり、旧仮名遣いによって記載されている場合もある。また、手書き文字は、筆、鉛筆、ペンなどのような様々な筆記用具によって記載されている場合もある。
なお、個人情報を含むデータを取り扱うシステムが提供されている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008-181346号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述のような手書き文字が含まれる戸籍謄本を読むためには、一定の知識や経験が必要であるが、担当者によっては知識や経験が十分でない場合もあるため、知識や経験がある担当者に確認をしたり、自身で調べる必要があり、確認作業に時間がかかる。
そこで、手書き文字を含む戸籍謄本を対象とし、AI-OCRによって文字認識を行うことが考えられる。この場合、文字認識率を高めるためには、戸籍謄本に記載された手書き文字を対象として予め学習しておくことが考えられる。ここで、テキストシーケンス方式によって学習データを生成する場合、戸籍謄本から文章として繋がった文字列画像を用いると、機密情報、特に戸籍謄本に記載された人の個人情報(氏名、住所、生年月日等)等が含まれている場合があるため、個人情報そのものを含んだ状態で学習データとして用いる場合、戸籍謄本の記載された人の許諾が必要となるため、広範囲な収集が困難となる。また、このような個人情報を含んだ状態の学習データについては、様々な用途での利用や、他との共有をすることも個人情報の保護の観点から困難である。そのため、個人が特定できないような状態でのデータを取り扱うように配慮することが必要である。
しかしながら、テキストシーケンス方式では、ある程度の長さを持った文字列である方が、学習データの作成効率及び利便性が高い。
そこで、学習データの作成効率及び利便性と、個人情報への配慮とを両立させるためには、文字列として繋がった状態を維持しつつ、個人情報とみなされないようにする必要がある。
【0006】
本発明は、このような事情に鑑みてなされたもので、その目的は、文字列として繋がった状態を維持しつつ、個人情報とみなされないようにすることができるデータセット生成装置、学習装置、文字認識装置、その方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上述した課題を解決するために、本発明の一態様は、文字が記載された書面を光学的に読み取って得られる書面画像データから、複数の文字を含む配列単位での文字列画像を抽出する配列文字列画像抽出部と、前記配列単位での文字列画像に含まれる文字列の区切り位置に基づいて区切られた画像である文字列区切り画像と、文字列区切り画像に含まれる文字列を表す文字情報とを含むデータセットを生成するデータセット生成部と、前記生成されたデータセットと、当該データセットが生成された書面とは異なる書面から得られたデータセットとを含むデータセット群として出力する出力部と、を有するデータセット生成装置である。
【0008】
また、本発明の一態様は、上述のデータセット生成装置によって生成されたデータセット群を教師データとして、前記書面から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習することで学習済みモデルを生成する学習部を有する学習装置である。
【0009】
また、本発明の一態様は、上述のデータセット生成装置によって生成されたデータセット群を教師データとして、前記書面から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習した学習済みモデルに対し、文字認識対象の文書の画像データを入力することで文字認識処理がなされた結果を得る文字認識部を有する文字認識装置である。
【0010】
また、本発明の一態様は、配列文字列画像抽出部が、戸籍謄本の書面を光学的に読み取って得られる戸籍謄本画像データから、複数の文字を含む配列単位での文字列画像を抽出し、データセット生成部が、前記配列単位での文字列画像に含まれる文字列の区切り位置に基づいて区切られた画像である文字列区切り画像と、文字列区切り画像に含まれる文字列を表す文字情報とを含むデータセットを生成し、出力部が、前記生成されたデータセットと、当該データセットが生成された戸籍謄本とは異なる戸籍謄本から得られたデータセットとを含むデータセット群として出力するデータセット生成方法である。
【0011】
また、本発明の一態様は、戸籍謄本の書面を光学的に読み取って得られる戸籍謄本画像データから、複数の文字を含む配列単位での文字列画像を抽出し、前記配列単位での文字列画像に含まれる文字列の区切り位置に基づいて区切られた画像である文字列区切り画像と、文字列区切り画像に含まれる文字列を表す文字情報とを含むデータセットを生成し、前記生成されたデータセットと、当該データセットが生成された戸籍謄本とは異なる戸籍謄本から得られたデータセットとを含むデータセット群として出力することをコンピュータに実行させるプログラムである。
【0012】
また、本発明の一態様は、上述のプログラムによって生成されたデータセット群を教師データとして、前記書面から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習することで学習済みモデルを生成することをコンピュータに実行させるためのプログラムである。
【0013】
また、本発明の一態様は、上述のプログラムによって生成されたデータセット群を教師データとして、前記書面から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習した学習済みモデルに対し、文字認識対象の文書の画像データを入力することで文字認識処理がなされた結果を得ることをコンピュータに実行させるためのプログラムである。
【発明の効果】
【0014】
以上説明したように、この発明によれば、文字列として繋がった状態を維持しつつ、個人情報とみなされないようにすることができる。
【図面の簡単な説明】
【0015】
図1】データセット生成装置10を用いたAI-OCRシステム1の構成を示す概略システム構成図である。
図2】戸籍謄本FRaの書面の一部を表す図である。
図3】データセット生成装置10の機能を表す概略ブロック図である。
図4】戸籍謄本画像データの一部を表す図である。
図5】戸籍謄本画像データの一部において、文字列区切り画像の一例を表す図である。
図6】AI-OCRシステム1の学習データを準備する流れを説明する流れ図である。
図7】データセット生成装置10の動作を説明するフローチャートである。
図8】戸籍謄本画像データからデータセット群を生成する流れを説明する概念図である。
【発明を実施するための形態】
【0016】
以下、本発明の一実施形態によるデータセット生成装置について図面を参照して説明する。
図1は、この発明の一実施形態によるデータセット生成装置10を用いたAI-OCRシステム1の構成を示す概略システム構成図である。
AI-OCRシステム1は、スキャナSa、スキャナSb、端末装置Ta、端末装置Tb、データセット生成装置10、学習データ保管サーバ20、学習サーバ30、AI-OCRサーバ40、ネットワークNを含む。
【0017】
スキャナSaは、端末装置Taに通信線を介して接続される。通信線は、有線のケーブルであってもよいし、無線であってもよい。スキャナSaは、紙の戸籍謄本FRaを光学的に読み取り、戸籍謄本FRaの画像データを生成する。
【0018】
図2は、戸籍謄本FRaの書面の一部を表す図である。
電算化される前に発行された戸籍謄本には、手書き文字が含まれるものがある。
戸籍謄本FRaは、電算化される前に発行された戸籍謄本の一部の領域の例を示す図である。戸籍謄本FRaには、手書き文字が含まれる。例えば、領域201には、活字によって印字されており、領域202と領域203は、手書きによって記載されている。また、領域202に記載された手書き文字と、領域203に記載された手書き文字は、それぞれ異なる書き手によって記載されている。そのため、手書き文字は、書き手によって独特の文字書体によって記載されている。また、手書き文字によって記載される場合、旧字であったり、旧仮名遣いによって記載されている場合もある。また、筆、鉛筆、ペンなどのような様々な筆記用具によって記載されている場合もある。
【0019】
端末装置Taは、スキャナSaに通信線を介して接続されるとともに、ネットワークNを介してデータセット生成装置10に接続される。ネットワークNは、閉域網である。
端末装置Taは、スキャナSaによって生成された戸籍謄本FRaの画像データを取得し、ネットワークNを介してデータセット生成装置10に送信する。
端末装置Taは、例えばコンピュータである。
【0020】
スキャナSbは、スキャナSaとは別のスキャナである。スキャナSbの機能はスキャナSaと同様である。スキャナSbは、スキャナSbとは別の戸籍謄本FRbを光学的に読み取り、戸籍謄本FRbの画像データを生成する。戸籍謄本FRbは、紙の戸籍謄本である。
戸籍謄本FRbは、戸籍謄本FRaと同様に、手書き文字が含まれる。
【0021】
端末装置Tbは、スキャナSbによって生成された戸籍謄本FRbの画像データを取得し、ネットワークNを介してデータセット生成装置10に送信する。端末装置Tbは、端末装置Taとは異なる端末装置である。
【0022】
以下、スキャナSaとスキャナSbとを特に識別しない場合には単にスキャナSと称する。また、端末装置Taと端末装置Tbとを特に識別しない場合には単に端末装置Tと称する。
また、スキャナSと端末装置Tの組み合わせは、ここでは2組あるが、1組であってもよいし、3組以上であってもよい。
【0023】
スキャナSと端末装置Tの組み合わせは、様々な場面において利用可能であるが、一例としては、銀行に設置され、銀行の担当者によって利用される。戸籍謄本は個人情報を含むため、戸籍謄本をスキャナSによってスキャンする場合には、セキュリティが確保された環境において利用される。
ここで、戸籍謄本をスキャナSによってスキャンするケースとしては、AI-OCRシステム1における学習データを準備するための対象となる戸籍謄本をスキャンする場合と、相続手続事務を行う場合に、相続手続事務を行う対象の戸籍謄本をスキャンする場合がある。
【0024】
銀行では、銀行において相続に関する手続事務が行われる。このような相続に関する手続事務を行う場合、相続人と被相続人との関係が明確に把握可能な戸籍謄本が用いられる。相続人と被相続人との関係を明確にするためには、複数の戸籍謄本が必要となる場合もある。相続人が高齢者である場合、その相続人の戸籍謄本は、明治や大正の頃に作成されたものもあり、その場合、記載は手書き文字が含まれている。銀行では、紙の戸籍謄本を用いて相続手続事務を行う場合には、手書き文字であっても記載内容を正確に読み解く必要があるが、手書き文字が独特な書体や旧字などが用いられる場合には、読み解くための知識や経験がより必要である。銀行の担当者のうち、このような手書き文字を読み解くための知識や経験を有する担当者はそれほど多くはないにもかかわらず、高齢化社会に伴って高齢の方が亡くなるケースが増大しており、手書き文字を読み解きつつ相続手続事務を行うケースが増大している。そのため、相続手続事務の効率化のためには、手書き文字を含む戸籍謄本をAI-OCRシステム1を用いて文字認識することで、手書き文字をテキストデータとして取り扱うことができる。これにより、手書き文字を読み解くための知識や経験が浅い担当者であっても、戸籍謄本を読み解くことができるようになり、相続手続事務の効率を向上させることができる。
【0025】
銀行以外には、戸籍謄本をスキャンする業務を請け負った業者がスキャナSと端末装置Tの組み合わせを利用することもある。この場合であっても、セキュリティが確保された環境において利用される。
【0026】
データセット生成装置10は、ネットワークNを介して端末装置Tと接続されるとともに、学習データ保管サーバ20と通信可能に接続される。データセット生成装置10と学習データ保管サーバ20の通信は、セキュリティが確保された環境であることが望ましい。
データセット生成装置10は、例えばコンピュータである。
【0027】
学習データ保管サーバ20は、データセット生成装置10に通信可能に接続されるとともに、学習サーバ30に通信可能に接続される。学習データ保管サーバ20と学習サーバ30の通信は、セキュリティが確保された環境であることが望ましい。
学習データ保管サーバ20は、例えばコンピュータである。
学習データ保管サーバ20は、データセット生成装置10から送信されるデータセットを記憶する。データセットは、AI-OCRにおける教師データとして用いられる。
【0028】
学習サーバ30は、学習データ保管サーバ20に通信可能に接続されるともに、AI-OCRサーバ40に通信可能に接続される。学習サーバ30とAI-OCRサーバ40の通信は、セキュリティが確保された環境であることが望ましい。
学習サーバ30は、例えば、コンピュータである。
学習サーバ30は、学習データ保管サーバ20から得られるデータセットを教師データとして、戸籍謄本から得られた画像に含まれる文字の画像と、当該文字の画像に含まれる文字のテキストデータとの関係を学習することで学習済みモデルを生成する学習部を有する。学習サーバ30は、学習データ保管サーバ20からデータセット群を取得してもよいが、データセット生成装置10から直接取得するようにしてもよい。
【0029】
AI-OCRサーバ40は、学習サーバ30に通信可能に接続される。
AI-OCRサーバ40は、例えばコンピュータである。
AI-OCRサーバ40は、学習サーバ30によって生成された学習済みモデルを用いて、文字認識対象の戸籍謄本画像データの文字認識処理をすることで、戸籍謄本画像データに含まれる文字を表す文字情報(例えば文字コード)を生成する文字認識部を有する。
【0030】
図3は、データセット生成装置10の機能を表す概略ブロック図である。
データセット生成装置10は、通信部110、記憶部120、配列文字列画像抽出部130、データセット生成部140、識別情報付与部150、ラベル付与部160、出力部170、制御部180を有する。
【0031】
通信部110は、ネットワークNを介して端末装置Tと通信を行う。また、通信部110は、学習データ保管サーバ20と通信を行う。
【0032】
記憶部120は、各種データを記憶する。例えば、記憶部120は、少なくとも1つのデータセット、属性対応データ等を記憶する。
【0033】
記憶部120は、記憶媒体、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、またはこれらの記憶媒体の任意の組み合わせによって構成される。
この記憶部120は、例えば、不揮発性メモリと、揮発性メモリとを用いることができ、記憶する対象のデータの種類に応じて、不揮発性メモリと揮発性メモリのいずれか記憶するようにしてもよい。
【0034】
配列文字列画像抽出部130は、戸籍謄本の書面を光学的に読み取って得られる戸籍謄本画像データから、複数の文字を含む配列単位での文字列画像を抽出する。
図4は、戸籍謄本画像データの一部を表す図である。
配列単位は、例えば、文字列が記載された1行である。手書き文字が含まれ得る戸籍謄本は、例えば、明治19年式戸籍、明治31年式戸籍、大正4年式戸籍、昭和23年戸籍等があり、これらはいずれも縦書きである。そのため配列単位は、縦方向に並ぶ1行の文字列である。なお、配列方向は、縦方向(縦書き)の場合について説明するが、横方向(横書き)であってもよい。
この図4において、文字列画像は、文字列画像400や、文字列画像401に示すように、文字列が記載された縦方向に並ぶ1行の文字列を含む画像である。この図においては、文字列が複数行に亘って記載されているため、各行の画像が、それぞれ文字列画像に該当する。
戸籍謄本画像データから、配列単位毎に文字列画像を抽出する機能は、一般的なOCR技術を利用するようにしてもよい。
【0035】
データセット生成部140は、配列単位での文字列画像に含まれる文字列の区切り位置に基づいて区切られた画像である文字列区切り画像と、文字列区切り画像に含まれる文字列を表す文字情報とを含むデータセットを生成する。
区切り位置は、文字列からなる文の中から、個人情報に当たらない文字列の単位に分割することができる位置を表す。区切り位置は、例えば単語単位で分割する位置であってもよい。例えば、文字列画像に含まれる文を形態素解析することで区切り位置を定めるようにしてもよいし、端末装置Tを操作する担当者によって戸籍謄本画像データを画面上で文字列画像を確認してもらい、区切り位置を入力装置から入力してもらうようにしてもよい。
区切り位置は、例えば、氏名については、氏と名に分ける位置がある。氏と名とに分けることで、氏のみ、あるいは名のみからは個人を特定することが容易ではない状態にした上で、データを取り扱うことができる。
文字列区切り画像は、区切り位置に従って文字列画像を分割した画像である。
【0036】
図5は、戸籍謄本画像データの一部において、文字列区切り画像の一例を表す図である。
ここでは、データセット生成部140は、例えば、図4に示す文字列画像400を区切り位置505において分割することで、文字列区切り画像500と文字列区切り画像501とを生成する。ここでは、個人情報に該当しない文字列(例えば、「昭和参拾年四月拾五日」、「貳百九拾参参番」等)については、複数の単語を含むようにした文字列区切り画像が生成されてもよい。
また、データセット生成部140は、例えば、図4の文字列画像401を区切り位置520、区切り位置521、区切り位置522、区切り位置523において分割することで、文字列区切り画像510と文字列区切り画像511と文字列区切り画像512と文字列区切り画像513と文字列区切り画像514とを生成する。
【0037】
データセット生成部140は、文字列区切り画像に含まれる文字画像について、文字認識処理(OCR処理)をすることで、文字画像に対応する文字情報を生成する。
文字情報は、例えばテキスト情報であり、文字列区切り画像に含まれる文字について文字認識処理をすることで得られる。この文字情報は、文字コードであってもよい。また、文字列画像に含まれる文字が手書き文字や、旧字体であったとしても、データセット生成部140は、新字体で表された文字に対応するテキストデータを文字情報として得る。これにより、AI-OCRサーバ40において手書き文字や旧字体の文字を含む戸籍謄本画像データについて文字認識される場合であっても、新字体のテキストデータ(あるいは文字コード)を得ることができる。これにより、銀行の担当者は、手書き文字や旧字体の文字を読む知識や経験が少なかったとしても新字体での文字として戸籍謄本を読むことができるようになるため、相続手続事務の効率を向上させることができる。
このようにして、データセット生成部140は、文字列区切り画像に対して文字認識処理をし、文字列区切り画像に対して文字情報を付与する(アノテーション)ことで、文字列区切り画像に文字情報が対応付けられたデータセットを生成する。
【0038】
識別情報付与部150は、データセット生成部140によって生成されたデータセットに対し、当該データセットを個別に識別する識別情報を付与する。
また、識別情報付与部150は、生成されたデータセットと、当該データセットが生成された戸籍謄本とは異なる戸籍謄本から得られたデータセットとについて、各データセットを識別する識別情報であり、順序がランダムである識別情報を付与する。
例えば、1つの戸籍謄本画像データから得られる複数のデータセットに対して識別情報が連番となるように識別情報を付与した場合には、複数の戸籍謄本画像データからデータセットが得られていたとしても、この識別情報を昇順または降順にソートすると、戸籍謄本毎にデータセットをグループ分けすることができるようになり、そうすると、個人情報を復元することができる可能性が生じてしまう。そのため、異なる複数の戸籍謄本画像データから得られたデータセットを対象としてランダムに識別情報を付与することで、識別情報を元に昇順または降順にソートしたとしても、異なる複数の戸籍謄本から得られたデータセットが並ぶため、データセットから個人情報を復元することができないようになっている。
【0039】
ラベル付与部160は、データセットに対し、当該データセットに含まれる文字情報の属性に応じたラベルを付与する。
属性は、戸籍謄本に記載された事項に応じて定められる。例えば、属性には、年月日、住所、地番、氏、名、その他がある。ラベル付与部160は、データセットに含まれる文字情報の属性をラベルとして付与する。
図5において、文字区切り画像500から得られる文字情報「昭和参拾年四月拾五日」の属性は、年月日であるため、ラベル付与部160は、ラベルとして「年月日」を付与する。
文字区切り画像500から得られる文字情報「昭和参拾年四月拾五日」の属性は、年月日であるため、ラベル付与部160は、ラベルとして「年月日」を付与する。
文字区切り画像530から得られる文字情報「北島町」の属性は、住所であるため、ラベル付与部160は、ラベルとして「住所」を付与する。
文字区切り画像531から得られる文字情報「貳百九拾参参番」の属性は、地番であるため、ラベル付与部160は、ラベルとして「地番」を付与する。
文字区切り画像512から得られる文字情報「井野」の属性は、氏であるため、ラベル付与部160は、ラベルとして「氏」を付与する。
文字区切り画像532から得られる文字情報「○二」の属性は、名であるため、ラベル付与部160は、ラベルとして「名」を付与する。
文字区切り画像511から得られる文字情報「町長」の属性は、年月日、住所、地番、氏、名には該当しないため、「その他」とされるため、ラベル付与部160は、ラベルとして「その他」を付与する。
【0040】
文字情報がいずれの属性に該当するかについては、文字情報と属性が対応付けられた属性対応データを予め記憶部120に記憶しておき、ラベル付与部160が、この属性対応データを参照し、文字情報に対応する属性を読み出し、読み出された属性をラベルとして付与してもよい。また、文字情報に対する属性を、端末装置Tの入力装置を介して担当者から入力してもらい、この入力された属性をラベルとして付与してもよい。
ここで、図5では、戸籍謄本における人の異動に関して記載された領域を対象として説明しているが、戸籍謄本に記載された領域であれば、続柄、氏名、生年月日などが記載された領域を対象として文字区切り画像を生成するようにしてもよい。
【0041】
出力部170は、データセットを外部に出力する。出力部170が出力する出力先は、例えば、学習データ保管サーバ20である。
出力部170は、生成されたデータセットと、当該データセットが生成された戸籍謄本とは異なる戸籍謄本から得られたデータセットとを含むデータセット群として出力する。データセット群は、少なくとも2つのデータセットを含む。出力部170は、識別情報が付与されたデータセットを含むデータセット群を出力してもよい。また、出力部170は、ラベルが付与されたデータセットを含むデータセット群を出力してもよい。出力部170は、ラベルが表す属性毎に分類してから出力してもよい。
【0042】
制御部180は、データセット生成装置10の各部を制御する。
【0043】
データセット生成装置10において、通信部110、配列文字列画像抽出部130、データセット生成部140、識別情報付与部150、ラベル付与部160、出力部170、制御部180は、例えばCPU(中央処理装置)等の処理装置若しくは専用の電子回路で構成されてよい。
【0044】
《学習データの準備》
図6は、AI-OCRシステム1の学習データを準備する流れを説明する流れ図である。
図7は、データセット生成装置10の動作を説明するフローチャートである。
銀行の担当者は、読み取り対象であって、手書き文字の記載が含まれた戸籍謄本FRをスキャナの読み取り部にセットし(図6:ステップS10)、端末装置Tのキーボードやマウス等の入力装置を介して読み取り指示を入力する。端末装置Tは、入力装置から読み取り指示が入力されたことに応じて、スキャナSに読み取り指示を出力する。スキャナSは、この読み取り指示に基づいて、戸籍謄本FRを光学的に読み取り、読み取り結果に応じた戸籍謄本画像データを生成し、端末装置Tに出力する(図6:ステップS11)。
【0045】
端末装置Tは、スキャナSから戸籍謄本画像データを取得すると、端末装置T内の記憶装置に一時的に記憶した後、ネットワークNを介してデータセット生成装置10に送信する(図6:ステップS12)。端末装置Tは、データセット生成装置10に戸籍謄本画像データの送信が終了すると、端末装置T内の記憶装置に一時的に記憶された戸籍謄本画像データを削除する(図6:ステップS13)。戸籍謄本画像データが送信された後、端末装置Tの記憶装置に記憶された戸籍謄本画像データを削除するようにしたので、個人情報が継続的に端末装置Tに残ることを防止することができ、個人情報の漏洩を防止することができる。
このようにして、銀行BK内から、戸籍謄本画像データをデータセンターDCに送信することができる。
【0046】
データセンターDCにおいて、データセット生成装置10の通信部110は、端末装置Tから送信された戸籍謄本画像データを受信する(図7:ステップS100)。
データセット生成装置10の配列文字列画像抽出部130は、通信部110によって受信された戸籍謄本画像データを対象として、レイアウト解析処理を行い、文字列が配列された画像領域を特定し、行矩形への分割処理をすることで、文字列画像を抽出する(図7:ステップS101)。
【0047】
データセット生成装置10のデータセット生成部140は、文字列画像に対して、文字区切り位置の入力を受け付ける(図7:ステップS102)。
ここでデータセット生成部140は、文字列画像について文字認識処理を行い、文字列画像から文字情報を取得し、取得された文字情報に対して形態素解析を行うことで、文字情報を単語単位に分割する。そしてデータセット生成部140は、文字列画像にうち、分割された単語に対応する領域を抽出することで、文字区切り位置を特定し、特定された文字区切り位置を入力として受け付ける。この場合、データセット生成部140は、端末装置Tの担当者に文字区切り位置を入力してもらう必要がない。また、データセット生成部140が生成した文字区切り位置について、文字列画像に重ね、端末装置Tの表示画面に表示することで、端末装置Tの担当者に、文字区切り位置が正しいか否かを確認してもらい、必要に応じて文字区切り位置を修正してもらうようにしてもよい。
あるいは、データセット生成部140は、文字認識処理を行わない段階において、端末装置Tを操作する担当者によって戸籍謄本画像データを画面上で文字列画像を確認してもらい、区切り位置を入力装置から入力してもらうことで、文字区切り位置を入力として受け付けるようにしてもよい。この場合、文字区切り画像を文字認識処理することなく、文字区切り位置の入力を受け付けることができる。
【0048】
データセット生成装置10のデータセット生成部140は、文字区切り位置に基づいて、文字列画像を分割することで、文字区切り画像を生成し、生成された文字区切り画像に対して文字認識処理(OCR処理)をすることで、文字区切り画像に含まれる文字列から文字情報を生成することで、テキストデータ取得する(図7:ステップS103)。
ここでは、文字認識処理を行った結果をそのまま文字情報として取得してもよいし、文字認識処理によって得られた文字情報と文字区切り画像とを端末装置Tの表示画面に表示することで、端末装置Tの担当者に文字認識結果が正しいか否かを確認してもらい、必要に応じて文字情報を修正してもらうようにしてもよい。
【0049】
データセット生成装置10のラベル付与部160は、生成された文字情報に対応する属性を特定し、属性に応じたラベルを文字情報に対して付与する(図7:ステップS104)。ここでは、ラベル付与部160は、属性対応データを参照し、文字情報に対応する属性を読み出し、読み出された属性をラベルとして付与してもよし、文字情報に対する属性を、端末装置Tの入力装置を介して担当者から入力してもらい、この入力された属性をラベルとして付与してもよい。
また、ラベル付与部160は、属性対応データを参照して属性を得る場合、得られた属性を、端末装置Tの表示画面に表示することで端末装置Tの担当者に属性が正しいか否かを確認してもらい、必要に応じて属性を修正してもらうようにしてもらうことで、ラベルを修正してもよい。
【0050】
データセット生成装置10のデータセット生成部140は、戸籍謄本画像データから抽出された文字区切り画像から、文字区切り位置に基づいて文字区切り画像を切り出し、切り出された文字区切り画像に対応する文字情報とラベルをメタ情報として、文字区切り画像に添付することでデータセットを生成する(図7:ステップS105)。メタ情報として付与される文字情報とラベルは、ステップS103、ステップS104において得られたデータである。
【0051】
データセット生成装置10の識別情報付与部150は、文字区切り画像とメタ情報とを含むデータセットに対してランダムな識別情報を付与する。データセット生成部140は、識別情報が付与されたデータセットを記憶部120に一時記憶する(図7:ステップS106)。ここで、データセットは、揮発性メモリに記憶されるようにしてもよい。これにより、データセット生成装置10の電源が切断されると、データセットが記憶部120から消去されるため、データセット生成装置10を廃棄する場合であっても、データセットが消去されるため、漏洩リスクを低減することができる。
【0052】
出力部170は、データセットがある程度蓄積されると、複数のデータセットの順序がランダムになるようにシャッフルした後、データセット群として学習データ保管サーバ20に出力する。ここでは、異なる複数の戸籍謄本画像データから得られた複数のデータセットを対象として、各データセットの順序がランダムになるように混ぜることで、1つの戸籍謄本から得られたデータセットのみからなるデータ群として記憶されてしまうことがなくなるため、いくつかのデータセットを抽出できたとしても、抽出されたデータセットの組み合わせは、異なる戸籍謄本から得られたデータセットの組み合わせであるため、そのデータセットを組み合わせたとしても、1人の個人情報として復元することが困難な状態とすることができる。従って、個人情報を復元することを困難な状態にした上で、データセット生成装置10の外部に出力することができる。
【0053】
図6に戻り、制御部180は、個人情報にあたらない単位まで分割されて生成されたデータセットが他のデータセットと順序が入れ替えられたデータセット群が出力部170によって出力されると(図6:ステップS14)、この出力されたデータセット群を記憶部120から削除する(図6:ステップS15)。
【0054】
学習データ保管サーバ20は、データセット生成装置10から出力されたデータセット群を記憶する(図6:ステップS16)。ここでは、学習データ保管サーバ20は、データセット群を暗号化して記憶するようにしてもよい。これにより、仮に学習データ保管サーバ20からデータセット群が消去されずに廃棄されてしまった場合であっても、漏洩リスクを低減することができる。
【0055】
学習データ保管サーバ20は、データセット群が記憶されると、学習サーバ30にデータセット群を出力することでコピーする(図6:ステップS17)。
学習サーバ30は、データセット群がコピーされると、このデータセット群を復号し、復号されたデータセット群を揮発性メモリに記憶する。そして、学習サーバ30は、揮発メモリに記憶されたデータセット群を教師データとして学習し、学習済みモデルを生成する(図6:ステップS18)。
【0056】
学習サーバ30は、生成した学習済みモデルをAI-OCRサーバ40に出力する(図6:ステップS19)。学習サーバ30は、学習済みモデルを生成すると、揮発性メモリに記憶されたデータセット群を削除してもよい。また、学習サーバ30において学習済みモデルは、揮発性メモリに記憶されているため、学習サーバ30の電源が切断された場合には、データセット群が消去されるため、漏洩リスクを低減することができる。
【0057】
AI-OCRサーバ40は、文字認識処理をする対象の戸籍謄本画像データが入力されると、学習サーバ30から得られた学習済みモデルを用いて文字認識することで、戸籍謄本画像データに含まれる文字画像から文字情報を生成し、文字認識結果として出力する(図6:ステップS20)。これにより、AI-OCRサーバ40は、データセット生成装置10において個人情報にあたらない単位まで分割されて生成されたデータセットを基に生成された学習済みモデルを利用し、戸籍謄本画像データから文字情報を得ることができる。
【0058】
図8は、戸籍謄本画像データからデータセット群を生成する流れを説明する概念図である。
戸籍謄本画像データ801、戸籍謄本画像データ802、戸籍謄本画像データ803は、それぞれ異なる戸籍主の戸籍謄本から得られた戸籍謄本画像データである。戸籍謄本画像データ801から文字区切り画像811が抽出され、戸籍謄本画像データ802から文字区切り画像812が抽出され、戸籍謄本画像データ803から文字区切り画像813が抽出される。この段階の文字区切り画像群810のままでは、切り出された文字区切り画像が、どの戸籍謄本画像データから切り出されたものであるかを推定できる可能性がある。この後、文字区切り画像を元にデータセットが生成されるが、生成されたデータセットについては、異なる戸籍謄本画像データから得られたデータセット群と混在するようにしつつ、順序についてもシャッフルすることで、データセット群820を得る。
【0059】
これにより、戸籍謄本画像データに含まれる文字列画像を、個人情報にあたらない単位まで分割して文字区切り画像を生成し、文字情報を生成することで得られるデータセットを、異なる戸籍謄本画像データから得られたデータセットと混在するようにし、かつデータの並び順序も入れ替えるようにしたので、データセット群を参照したとしても、個人情報を容易に復元することを防止することができる。
また、戸籍謄本画像データに含まれる文字列画像を、個人情報にあたらない単位まで分割するようにしたので、文字列として繋がった状態を維持しつつ、個人情報とみなされない単位に分割することができ、このようなデータからデータセットを生成したとしても、個人情報とみなされないようにすることができる。
【0060】
また、上述した実施形態によれば、テキストシーケンス方式であっても、個人情報に当たらない程度であって、かつある程度の長さを持った文字列を用いたデータセットを利用することができるため、学習データの作成効率及び利便性を高めることができる。このようなデータセットを利用して学習済みモデルを生成し、生成された学習済みモデルを用いてAI-OCRによる文字認識処理をするようにしたので、手書き文字を含む戸籍謄本を参照して相続手続事務を行う場合であっても、作業効率がよく安定した品質を保証することも可能となる。
【0061】
この図8の例では、3つの異なる戸籍謄本画像データから得られたデータセットからデータセット群820を得る場合について説明したが、より多くの戸籍謄本画像データからデータセットを収集し、データセット群を生成することで、個人情報の復元がされにくくすることができる。
【0062】
また、ここでは、データセットにはランダムな識別情報を付してあるため、データセット群820に含まれるデータセットを識別情報に基づいてソートしたとしても、個人情報が復元されてしまうことを防止することができる。
【0063】
また、この図8の例では、戸籍謄本画像データから得られたデータセットをそれぞれシャッフルする場合について説明したが、データセットのラベル毎に分類し、その分類されたグループ内においてシャッフルするようにしてもよい。
【0064】
また、学習サーバ30において生成された学習済みモデルを、データセット生成装置10に送信し、データセット生成装置10のデータセット生成部140が、この学習済みモデルを用いて文字認識処理を行うことで、文字列区切り画像の文字認識処理を行い、文字情報を生成するようにしてもよい。
【0065】
上述した実施形態における通信部110、配列文字列画像抽出部130、データセット生成部140、識別情報付与部150、ラベル付与部160、出力部170、制御部180をコンピュータで実現するようにしてもよい。また、学習サーバ30、AI-OCRサーバ40の機能をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0066】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0067】
1…AI-OCRシステム、10…データセット生成装置、20…学習データ保管サーバ、30…学習サーバ、40…AI-OCRサーバ、110…通信部、120…記憶部、130…配列文字列画像抽出部、140…データセット生成部、150…識別情報付与部、160…ラベル付与部、170…出力部、180…制御部、Sa,Sb…スキャナ、Ta,Tb…端末装置、FRa,FRb…戸籍謄本
図1
図2
図3
図4
図5
図6
図7
図8