IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特許7435098くずし字認識システム、くずし字認識方法及びプログラム
<>
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図1
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図2
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図3
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図4
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図5
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図6
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図7
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図8
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図9
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図10
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図11
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図12
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図13
  • 特許-くずし字認識システム、くずし字認識方法及びプログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-13
(45)【発行日】2024-02-21
(54)【発明の名称】くずし字認識システム、くずし字認識方法及びプログラム
(51)【国際特許分類】
   G06V 30/194 20220101AFI20240214BHJP
   G06T 7/00 20170101ALI20240214BHJP
【FI】
G06V30/194
G06T7/00 350C
【請求項の数】 10
(21)【出願番号】P 2020048007
(22)【出願日】2020-03-18
(65)【公開番号】P2021149437
(43)【公開日】2021-09-27
【審査請求日】2023-02-22
(73)【特許権者】
【識別番号】000003193
【氏名又は名称】TOPPANホールディングス株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【弁理士】
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】岡 敏生
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2020-004406(JP,A)
【文献】特開2007-004584(JP,A)
【文献】赤間 亮,岡 敏生,AI技術を適用したくずし字翻刻学習・指導システム,画像ラボ,日本,日本工業出版株式会社,2020年02月,第31巻,p.20-25
【文献】于 小億,孫 俊,近藤 正雄,直井 聡,教師データ数を削減できる深層学習術,画像ラボ,日本,日本工業出版株式会社,2018年04月,第29巻,p.25-32
【文献】陳 楽涵 ,呂 氷,冨山 宏之,孟 林,CenterNetを用いたくずし字の認識,第82会 全国大会講演論文集(4),日本,一般社団法人情報処理学会,2020年02月20日,p.4-551~4-552
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
くずし字で記載されている少なくとも古典籍または古文書の各々の標本により、機械学習モデルを学習させて生成する機械学習モデル生成部と、
前記古典籍または前記古文書を含む対象文献における文章の画像からくずし字の文字画像を取得し、当該くずし字の文字画像を、現代文字に対応させる文字認識を前記機械学習モデルにより行うくずし字処理部と
を備え、
前記機械学習モデル生成部が、前記古典籍及び前記古文書の各々の前記標本を複写して増加させた後に前記機械学習モデルを学習させる第1学習方法、あるいは前記古典籍及び前記古文書のいずれかの標本で前記機械学習モデルを学習させた後に他方の標本で再学習させる第2学習方法、または前記古典籍及び前記古文書の各々の標本の特徴情報の次元を増加させて前記機械学習モデルを学習させる第3学習方法、前記古典籍及び前記古文書の各々の前記標本に対応したフィッシャー情報量を用いて前記機械学習モデルを学習させる第4学習方法のいずれか、あるいは組合せ、または全てを用いて前記機械学習モデルを学習させる
ことを特徴とするくずし字認識システム。
【請求項2】
前記第1学習方法が、前記古典籍と前記古文書との各々の前記標本の数を同様とするように、標本の数の少ない方の標本を複製することで増加させ、前記古典籍と前記古文書との各々の標本を用いて、前記機械学習モデルの学習を行わせる方法であり、
前記第2学習方法が、前記古典籍及び前記古文書の一方の前記標本で学習させた前記機械学習モデルの一部を、他方の前記標本で再学習させる方法であり、
前記第3学習方法が、前記古典籍及び前記古文書の各々の前記標本のくずし字の画像データを、共通の特徴を学習する画像領域、前記古典籍の特徴を学習する画像領域、及び前記古文書の特徴を学習する画像領域とするように合成した画像を用いて学習させる方法である
ことを特徴とする請求項1に記載のくずし字認識システム。
【請求項3】
前記第2学習方法において、機械学習モデル生成部が、前記古典籍及び前記古文書の一方の前記標本で前記機械学習モデルを学習させ、当該機械学習モデルの少なくとも入力層及び最終段の出力層を再学習させる
ことを特徴とする請求項2に記載のくずし字認識システム。
【請求項4】
前記古典籍及び古文書の各々の属性情報の種類に対応した分類毎に対応して生成された機械学習モデルを管理する機械学習モデル管理部をさらに備える
こと特徴とする請求項1から請求項3のいずれか一項に記載のくずし字認識システム。
【請求項5】
前記対象文献の前記属性情報が、少なくとも当該文献のカテゴリ、前記対象文献の作者の書き手の属性、前記対象文献におけるくずし字の書体の属性、前記対象文献の作成された地域の属性、前記対象文献の作成された時代の属性のいずれか、あるいは組み合わせまたは全てである
ことを特徴とする請求項4に記載のくずし字認識システム。
【請求項6】
前記機械学習モデルが、前記古典籍及び前記古文書の前記分類における前記種類の前記属性情報の各々のデータからなるデータセットを教師データとして学習されている
ことを特徴とする請求項4または請求項5に記載のくずし字認識システム。
【請求項7】
前記分類が文字認識の対象文献である場合、当該対象文献の一部のくずし字と現代文字との対応を標本として前記機械学習モデルの機械学習を行う
ことを特徴とする請求項4から請求項6のいずれか一項に記載のくずし字認識システム。
【請求項8】
前記分類に対応した機械学習モデルの各々が予め書き込まれて記憶されている機械学習モデル記憶部をさらに備え、
前記機械学習モデル管理部が、前記対象文献の文章の文字認識を行う際、当該対象文献の分類に対応した前記機械学習モデルを、前記機械学習モデル記憶部から読み出す
ことを特徴とする請求項4から請求項7のいずれか一項に記載のくずし字認識システム。
【請求項9】
機械学習モデル生成部が、くずし字で記載されている少なくとも古典籍または古文書の各々の標本により、機械学習モデルを学習させて生成する機械学習モデル生成過程と、
くずし字処理部が、前記古典籍または前記古文書を含む対象文献における文章の画像からくずし字の文字画像を取得し、当該くずし字の文字画像を、現代文字に対応させる文字認識を前記機械学習モデルにより行うくずし字処理過程と、
を備え、
前記機械学習モデル生成部が、前記古典籍及び前記古文書の各々の前記標本を複写して増加させた後に前記機械学習モデルを学習させる第1学習方法、あるいは前記古典籍及び前記古文書のいずれかの標本で前記機械学習モデルを学習させた後に他方の標本で再学習させる第2学習方法、または前記古典籍及び前記古文書の各々の標本の特徴情報の次元を増加させて前記機械学習モデルを学習させる第3学習方法、前記古典籍及び前記古文書の各々の前記標本に対応したフィッシャー情報量を用いて前記機械学習モデルを学習させる第4学習方法のいずれか、あるいは組合せ、または全てを用いて前記機械学習モデルを学習させる
ことを特徴とするくずし字認識方法。
【請求項10】
コンピュータを、
くずし字で記載されている少なくとも古典籍または古文書の各々の標本により、機械学習モデルを学習させて生成する機械学習モデル生成手段、
前記古典籍または前記古文書を含む対象文献における文章の画像からくずし字の文字画像を取得し、当該くずし字の文字画像を、現代文字に対応させる文字認識を前記機械学習モデルにより行うくずし字処理手段
として機能させ、
前記機械学習モデル生成手段が、前記古典籍及び前記古文書の各々の前記標本を複写して増加させた後に前記機械学習モデルを学習させる第1学習方法、あるいは前記古典籍及び前記古文書のいずれかの標本で前記機械学習モデルを学習させた後に他方の標本で再学習させる第2学習方法、または前記古典籍及び前記古文書の各々の標本の特徴情報の次元を増加させて前記機械学習モデルを学習させる第3学習方法、前記古典籍及び前記古文書の各々の前記標本に対応したフィッシャー情報量を用いて前記機械学習モデルを学習させる第4学習方法のいずれか、あるいは組合せ、または全てを用いて前記機械学習モデルを学習させる
ためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、くずし字認識システム、くずし字認識方法及びプログラムに関する。
【背景技術】
【0002】
過去の日本文化を研究する場合、過去の文書である日本の古典籍(現代でいうところの書籍に相当)及び古文書(手紙など少数の読み手に向けられた文書)の文字が読めることが必要となる場合がある。
しかし、江戸期以前の日本の古典籍や古文書の多くは、漢字や片仮名などを崩した文字で記載されている。
このため、くずし字は、旧字体が用いられたり、草書体などで記載されているため、現在とは使用される文字と文字の形状とが大きく異なっており、専門家以外は読むことが困難である。
また、古典籍や古文書が旧字体や草書体で記載されていることから、一般的なOCR(Optical Character Recognition、光学文字認識)エンジンを用いても、日本の古典籍や古文書の文字を認識させることができない。
【0003】
日本の古典籍や古文書の文字をOCRエンジンに認識させ、認識結果を楷書体(現代文字)で示したデータを出力することができれば、専門家以外でも古典籍や古文書に記載された歴史的に価値の高い内容を、幅広く活用することができる。
このため、くずし字に対応したOCRエンジン(例えば、非特許文献1参照)を作成することにより、日本の古典籍や古文書を電子テキストとして現代日本語に翻刻することができる。
このくずし字に対応したOCRエンジンを用いることで、専門家による歴史の研究のみでなく、専門家以外にも幅広い用途へ展開することが可能となる。
【先行技術文献】
【非特許文献】
【0004】
【文献】山本純子、大澤留次郎:”古典籍翻刻の省略化:くずし字を含むOCR技術の開発”、情報管理、58巻(2015)11号、p819-827、2015
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したOCRエンジンは、文字認識においてCNN(convolutional neural network)などの機械学習モデルを用いたディープラーニング技術を用いている。
そして、日本の古典籍及び古文書の各々において、文字認識を行う機械学習モデルの学習に用いる教師データとして、すでに構築されている翻刻済みの字形データベースを利用している。
【0006】
しかしながら、古典籍や古文書は、同じ文字でも種々のくずし方があり、さらに手書きされた文字である場合には、書き手によってくずし方が異なる場合がある。そのため、学習済みのくずし方とは異なるくずし方で記載された文字は、教師データとして用いられた文字と必ずしも同様の傾向を有していない場合もある。このため、形状が類似した他の文字と判別できる程度の違いを有さない場合が多々ある。
このため、上記OCRエンジンは、教師データに用いた文字と認識対象の文字との個体差により、翻刻を行う認識対象の文字を誤認識してしまうことが多い。
【0007】
本発明は、このような状況に鑑みてなされたもので、日本の古典籍や古文書などの文献に含まれるくずし字を、それぞれの文献における文字の個体差による誤認識を抑制し、精度良く現代の日本語の文字に変換することが可能なくずし字認識システム、くずし字認識方法及びプログラムを提供する。
【課題を解決するための手段】
【0008】
上述した課題を解決するために、本発明のくずし字認識システムは、くずし字で記載されている少なくとも古典籍または古文書の各々の標本により、機械学習モデルを学習させて生成する機械学習モデル生成部と、前記古典籍または前記古文書を含む対象文献における文章の画像からくずし字の文字画像を取得し、当該くずし字の文字画像を、現代文字に対応させる文字認識を前記機械学習モデルにより行うくずし字処理部とを備え、前記機械学習モデル生成部が、前記古典籍及び前記古文書の各々の前記標本を複写して増加させた後に前記機械学習モデルを学習させる第1学習方法、あるいは前記古典籍及び前記古文書のいずれかの標本で前記機械学習モデルを学習させた後に他方の標本で再学習させる第2学習方法、または前記古典籍及び前記古文書の各々の標本の特徴情報の次元を増加させて前記機械学習モデルを学習させる第3学習方法、前記古典籍及び前記古文書の各々の前記標本に対応したフィッシャー情報量を用いて前記機械学習モデルを学習させる第4学習方法のいずれか、あるいは組合せ、または全てを用いて前記機械学習モデルを学習させることを特徴とする。
【0009】
本発明のくずし字認識システムは、前記第1学習方法が、前記古典籍と前記古文書との各々の前記標本の数を同様とするように、標本の数の少ない方の標本を複製することで増加させ、前記古典籍と前記古文書との各々の標本を用いて、前記機械学習モデルの学習を行わせる方法であり、前記第2学習方法が、前記古典籍及び前記古文書の一方の前記標本で学習させた前記機械学習モデルの一部を、他方の前記標本で再学習させる方法であり、前記第3学習方法が、前記古典籍及び前記古文書の各々の前記標本のくずし字の画像データを、共通の特徴を学習する画像領域、前記古典籍の特徴を学習する画像領域、及び前記古文書の特徴を学習する画像領域とするように合成した画像を用いて学習させる方法であることを特徴とする。
【0010】
本発明のくずし字認識システムは、前記第2学習方法において、機械学習モデル生成部が、前記古典籍及び前記古文書の一方の前記標本で前記機械学習モデルを学習させ、当該機械学習モデルの少なくとも入力層及び最終段の出力層を再学習させることを特徴とする。
【0011】
本発明のくずし字認識システムは、前記古典籍及び古文書の各々の属性情報の種類に対応した分類毎に対応して生成された機械学習モデルを管理する機械学習モデル管理部をさらに備えること特徴とする。
【0012】
本発明のくずし字認識システムは、前記文献の前記属性情報が、少なくとも当該文献のカテゴリ、前記文献の作者の書き手の属性、前記対象文献におけるくずし字の書体の属性、前記対象文献の作成された地域の属性、前記文献の作成された時代の属性のいずれか、あるいは組み合わせまたは全てであることを特徴とする。
【0013】
本発明のくずし字認識システムは、前記機械学習モデルが、前記古典籍及び前記古文書の前記分類における前記種類の前記属性情報の各々のデータからなるデータセットを教師データとして学習されていることを特徴とする。
【0014】
本発明のくずし字認識システムは、前記分類が文字認識の対象文献である場合、当該対象文献の一部のくずし字と現代文字との対応を標本として前記機械学習モデルの機械学習を行うことを特徴とする。
【0015】
本発明のくずし字認識システムは、前記分類に対応した機械学習モデルの各々が予め書き込まれて記憶されている機械学習モデル記憶部をさらに備え、前記機械学習モデル管理部が、前記対象文献の文章の文字認識を行う際、当該対象文献の分類に対応した前記機械学習モデルを、前記機械学習モデル記憶部から読み出すことを特徴とする。
【0016】
本発明のくずし字認識方法は、機械学習モデル生成部が、くずし字で記載されている少なくとも古典籍または古文書の各々の標本により、機械学習モデルを学習させて生成する機械学習モデル生成過程と、くずし字処理部が、前記古典籍または前記古文書を含む対象文献における文章の画像からくずし字の文字画像を取得し、当該くずし字の文字画像を、現代文字に対応させる文字認識を前記機械学習モデルにより行うくずし字処理過程と、を備え、前記機械学習モデル生成部が、前記古典籍及び前記古文書の各々の前記標本を複写して増加させた後に前記機械学習モデルを学習させる第1学習方法、あるいは前記古典籍及び前記古文書のいずれかの標本で前記機械学習モデルを学習させた後に他方の標本で再学習させる第2学習方法、または前記古典籍及び前記古文書の各々の標本の特徴情報の次元を増加させて前記機械学習モデルを学習させる第3学習方法、前記古典籍及び前記古文書の各々の前記標本に対応したフィッシャー情報量を用いて前記機械学習モデルを学習させる第4学習方法のいずれか、あるいは組合せ、または全てを用いて前記機械学習モデルを学習させることを特徴とする。
【0017】
本発明のくずし字認識方法は、コンピュータを、くずし字で記載されている少なくとも古典籍または古文書の各々の標本により、機械学習モデルを学習させて生成する機械学習モデル生成手段、前記古典籍または前記古文書を含む対象文献における文章の画像からくずし字の文字画像を取得し、当該くずし字の文字画像を、現代文字に対応させる文字認識を前記機械学習モデルにより行うくずし字処理手段として機能させ、前記機械学習モデル生成手段が、前記古典籍及び前記古文書の各々の前記標本を複写して増加させた後に前記機械学習モデルを学習させる第1学習方法、あるいは前記古典籍及び前記古文書のいずれかの標本で前記機械学習モデルを学習させた後に他方の標本で再学習させる第2学習方法、または前記古典籍及び前記古文書の各々の標本の特徴情報の次元を増加させて前記機械学習モデルを学習させる第3学習方法、前記古典籍及び前記古文書の各々の前記標本に対応したフィッシャー情報量を用いて前記機械学習モデルを学習させる第4学習方法のいずれか、あるいは組合せ、または全てを用いて前記機械学習モデルを学習させるプログラムである。
【発明の効果】
【0018】
以上説明したように、本発明によれば、日本の古典籍や古文書などの文献に含まれるくずし字を、それぞれの文献における文字の個体差による誤認識を抑制し、精度良く現代の日本語の文字に変換することが可能なくずし字認識システム、くずし字認識方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0019】
図1】本発明の一実施形態によるくずし字認識システムの構成例を示すブロック図である。
図2】字形データベース107に記憶されている字形データテーブルの構成例を示す図である。
図3】字形データテーブルにおける類似字形検索用インデックスの指し示す記憶領域に記憶されている字形の画像データの例を示す図である。
図4】文献画像記憶部108に記憶されている文献画像データテーブルの構成例を示す図である。
図5】機械学習モデル記憶部109に記憶されている機械学習モデルテーブルの構成例を示す図である。
図6】字形データベース107から読み込んだくずし字の画像データを教師データとして用いるための前処理を説明する図である。
図7】字形データベース107から読み込んだくずし字の画像データを教師データとして用いるための前処理を説明する図である。
図8】機械学習モデルの学習に用いる古典籍及び古文書の標本の混合方法を説明する図である。
図9】古典籍の標本で学習させた機械学習モデルを古文書の標本で再学習させるfine tuningの手法を説明する図である。
図10】元ドメインを古典籍とし、目標ドメインを古文書としたドメイン適応手法による機械学習モデルの学習方法を説明する図である。
図11】翻刻データ記憶部110に記憶されている翻刻データテーブルの構成例を示す図である。
図12】本発明の一実施形態のくずし字認識システム1における機械学習モデルの生成の処理の動作例を示すフローチャートである。
図13】本発明の一実施形態のくずし字認識システム1における機械学習モデルによるくずし字の認識の処理の動作例を示すフローチャートである。
図14】本発明の一実施形態のくずし字認識システム1における機械学習モデルによるくずし字の認識の処理の動作例を説明する図である。
【発明を実施するための形態】
【0020】
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本発明の一実施形態によるくずし字認識システムの構成例を示すブロック図である。くずし字認識システム1は、データ入出力部101、機械学習モデル生成部102、文字領域抽出部103、機械学習モデル管理部104、くずし字認識部105、表示部106、字形データベース107、文献画像記憶部108、機械学習モデル記憶部109及び翻刻データ記憶部110の各々を備えている。文字領域抽出部103及びくずし字認識部105とは、くずし字処理部(不図示)を構成している。
【0021】
データ入出力部101は、くずし字を認識する対象の文献(古典籍及び古文書など)の撮像画像を外部装置から読み込み、文献画像記憶部108に文献識別情報を付与して書き込んで記憶させる。
また、データ入出力部101は、図示しないデータ入力手段(キーボード、マウス、後述するタッチパネル)からデータの入力を行ない、外部装置に対してくずし字を翻刻した現代文字などのデータを出力する。
【0022】
機械学習モデル生成部102は、字形データベース107に蓄積されているくずし字形状と、専門家が翻刻(現代文字へ変換)した現代文字との対応関係を示す字形データテーブルを参照して、くずし字がいずれの現代文字に対応するかを認識(くずし字を現代文字に変換)する機械学習モデルを生成する。ここで、機械学習モデルとしては、例えば、CNN(convolution neural network、畳み込みニューラルネットワーク)、RNN(recurrent neural network、回帰型ニューラルネットワーク)を含むニューラルネットワークによるディープラーニング技術などのモデルを用いている。
【0023】
本実施形態においては、機械学習モデル生成部102は、古典籍及び古文書(双方を一括して示す場合は文献と記す)の属性情報の所定の種類の組合せにおけるそれぞれの種類のデータに対応したくずし字と現代文字との対応をデータセット(標本)を用いて学習させて機械学習モデルを生成する。この機械学習モデルに対する標本による学習方法については後に詳細に説明する。
また、機械学習モデルの学習に用いる標本に対して、直接に文献の属性情報を対応付けてもよいが、以下に示す本実施形態においては、標本に対して文献を対応付けて、この文献に文献の属性情報を対応付ける構成としている。
【0024】
ここで、属性情報の種類としては、例えば、くずし字認識対象の文献である対象文献か否か、文献のカテゴリ(古典籍及び古文書のいずれであるかとともに、日記、瓦版、仏教関連書物、歴史関連書物、法律関連書物など)、書き手の属性として職業、性別、年齢、階級(序列や役職を示すランクの情報)など、書体の属性として御家流、唐様など、地域の属性として九州地方、四国地方、中国地方、近畿地方、東海地方、北陸地方、関東地方、東北地方、北海道地方など、時代の属性として飛鳥時代、奈良時代、平安時代、鎌倉時代、室町時代、安土桃山時代、江戸時代などである。
【0025】
ここで、機械学習モデルは、属性情報の種類のいずれか、あるいは組合せまたは全てで、例えば組み合わせの場合、(時代、書き手属性、地域)毎に分類され、各分類における属性情報の種類それぞれのデータのデータセット(奈良時代、女性、近畿地方)、(平安時代、男性、中国地方)などにおけるくずし字と現代文字との対応を機械学習の標本(教師データ及び文字クラス)の学習用データとして機械学習モデル群を生成する。ここで、属性情報の種類が時代である場合のデータが奈良時代や平安時代などであり、属性情報の種類が性別である場合のデータが女性及び男性であり、属性情報の種類が地域である場合のデータが近畿地方や中国地方などである。
【0026】
すなわち、属性情報の種類(時代、性別、地域など)の組合せ(単数及び全てを含む)を分類とし、この分類における属性情報の各種類のデータ(時代:平安時代・鎌倉時代・室町時代など、性別:女性・男性、地域:近畿地方、中国地方、東海地方、関東地方など)の組合せをグループとする。したがって、分類毎に各属性情報のデータの各々の組合せのグループが存在する。例えば、属性情報のそれぞれの種類のデータの組合せ(時代、性別、地域)=(平安時代、女性、近畿地方)、(鎌倉時代、男性、関東地方)などのグループが存在する。
そして、上記グループのそれぞれに属する文献におけるくずし字と現代文字との対応をデータセットとし、グループ毎に機械学習モデルが生成され、分類においてそれぞれのグループに対応した機械学習モデルからなる機械学習モデル群が存在する。
【0027】
上述したように、機械学習モデル生成部102は、属性情報の種類の各々のいずれか、あるいは組合せ、または全てで文献を分類し、分類における属性情報の種類のそれぞれのデータからなる各グループの機械学習を行う教師データ及び文字クラスの標本(データセット)とする。
そして、機械学習モデル生成部102は、字形データテーブルにおける各分類に属する文献の各々のグループにおけるくずし字と現代字との対応を示す教師データにより、それぞれの分類における各グループに対応する機械学習モデルを生成する。
【0028】
文字領域抽出部103は、表示部106の表示画面に表示されている、文献の任意のページの撮像画像において、利用者がマウスなどで文字枠で囲んだ領域を、翻刻する対象のくずし字が含まれる文字領域として抽出する。
そして、文字領域抽出部103は、抽出した文字領域の画像のデータ(くずし字画像データ)を、くずし字認識部105に対して出力する。
【0029】
機械学習モデル管理部104は、利用者が翻刻の対象とした文献の属性情報を、文献画像記憶部108から読み出す。
そして、機械学習モデル管理部104は、読み出した対象文献の属性情報に対応する機械学習モデルを、機械学習モデル記憶部109に記憶されている属性情報の種類の組合せ分類のそれぞれにおける各データセットに対応する機械学習モデルのなかから読み出し、くずし字認識部105に対して出力する。
【0030】
くずし字認識部105は、機械学習モデル管理部104から供給される機械学習モデルにより、文字領域抽出部103から供給されるくずし字画像データのくずし字を現代文字のいずれに対応するかの認識処理を行う。
そして、くずし字認識部105は、くずし字の認識処理の結果を、翻刻データ記憶部110における文献毎にされる翻刻データテーブルに書き込んで記憶させる。
【0031】
表示部106は、例えば液晶パネルからなる表示画面を有しており、この表示画面がタッチパネルであり画面上におけるボタンをクリックすることで、データ入出力部101を介したデータ入力などができる。
【0032】
字形データベース107には、字形データテーブルが予め書き込まれて記憶されている。
図2は、字形データベース107に記憶されている字形データテーブルの構成例を示す図である。図2において、字形データテーブルは、レコード毎に、文字コード、類似字形検索用インデックス、文献の属性情報、文献情報、ページ、ページ内位置情報、現代文字の各々の欄を備えている。
【0033】
ここで、文字コードは、それぞれのくずし字の各々を識別する識別情報である。類似字形検索用インデックスは、文献から抽出したくずし字の参照画像データ(教師データ)の記憶されている、字形データベース107における記憶領域を示すアドレスなどである。 また、文献の属性情報は、くずし字を抽出した文献の属性であり、一例として、文献のカテゴリを示す属性、書き手の属性、書体の属性、地域の属性、時代の属性などである。
例えば、図2において、文献のカテゴリを示す属性は、対象文献、文献種別などである。対象文献は、文字コードの参照画像データを抽出した文献が、古典籍であるか古文書のいずれであるかを示す情報である。文献種別は、日記、瓦版、仏教関連書物、歴史関連書物、法律関連書物などのいずれかであるかを示す情報である。
【0034】
また、書き手の属性は、職業、性別、年齢、階級(序列や役職を示すランクの情報)などである。
書体の属性は、御家流、唐様などの参照画像データも文字の書体の種別を示す情報である。
地域の属性は、文献が記述された場所を示す情報であり、九州地方、四国地方、中国地方、近畿地方、東海地方、北陸地方、関東地方、東北地方、北海道地方などである。
時代の属性は、文献が記述された時代を示す情報であり、飛鳥時代、奈良時代、平安時代、鎌倉時代、室町時代、安土桃山時代、江戸時代などである。
【0035】
また、文献情報は、文字コードが示すくずし字の参照画像データを抽出した文献を示す情報であり、例えば文献名や文献を識別する文献識別情報などである。
ページは、文字コードが示すくずし字が抽出された、文献情報の示す文献におけるページ番号である。
ページ内位置情報は、ページ番号におけるページの撮像画像における、文字コードが示すくずし字の参照画像データが抽出された位置を示す位置情報である。
現代文字は、専門家がくずし字の参照画像データを視認して、くずし字の形状から判別した現代の文字(後述する文字ラベル)が示されている。
【0036】
図3は、字形データテーブルにおける類似字形検索用インデックスの指し示す記憶領域に記憶されている字形(くずし字の文字形状)の画像データの例を示す図である。
図3(a)は、古典籍のページの撮像画像の一例を示している。図3(b)は、類似字形検索用インデックスの指し示す記憶領域に記憶されている字形の画像データを示している。図3(a)の撮像画像において、くずし字の文字画像の領域として、一文字のくずし字毎にくずし字の形状を文字枠200により区切り、図3(b)に示すようにくずし字が含まれる画像データ(文字枠200で選択された画像領域の画像データ)として、字形データベース107において類似字形検索用インデックスの示すアドレスに記憶されている。
【0037】
また、図3(a)において、文字枠内のくずし字の画像を視認し 翻刻の専門家が判別して、くずし字の各々を、このくずし字に対応する現代文字とし、図2に示す字形データテーブルにおける現代文字の欄に書き込んで記憶させる。
そして、図2におけるくずし字の画像データと、このくずし字が専門家により判定された現代文字との組合せを用いて、くずし字を認識する機械学習モデルの生成を行う。
【0038】
文献画像記憶部108には、文献画像データテーブルが予め書き込まれて記憶されている。
図4は、文献画像記憶部108に記憶されている文献画像データテーブルの構成例を示す図である。図4において、文献画像データテーブルは、レコード毎に、文献識別情報、文献名、文献の属性情報、撮像画像インデックスの各々の欄を備えている。
ここで、文献識別情報は、撮像画像の文献の各々を識別する識別情報である。文献名は、文献識別情報の示す文献の名称を示している。
文献の属性情報は、くずし字を抽出した文献の属性であり、一例として、図2の文献の属性情報と同様に、文献のカテゴリを示す属性、書き手の属性、書体の属性、地域の属性、時代の属性などである。
撮像画像インデックスは、撮像画像が記憶されている文献画像記憶部108における記憶領域を示すアドレスなどである。
【0039】
機械学習モデル記憶部109には、属性情報に対応した分類毎に生成された機械学習モデルテーブルが記憶されている。
図5は、機械学習モデル記憶部109に記憶されている機械学習モデルテーブルの構成例を示す図である。図5において、機械学習モデルテーブルは、レコード毎に、機械学習モデル識別情報、文献名、属性情報、撮像画像インデックスの各々の欄を備えている。
ここで、機械学習モデル識別情報は、機械学習モデルの各々を識別する情報である。属性情報組合せは、くずし字を認識する文献を分類するために用いた属性情報の各々が記載されている。そのため、分類における属性情報の種類の組合せの各々のデータセットに属する文献のくずし字を認識させるため、分類毎に機械学習モデルが生成されている。
【0040】
図5においては、分類に用いる組合せとして、年代(時代)、性別及び地域の各々を用いている。この組合せにより分類されるグループに属する文献に対応する機械学習モデルの各々が生成されている。
例えば、分類(年代,性別,地域)においてグループ(鎌倉時代,男性,近畿地方)、(室町時代,女性,関東地方)、(奈良時代,女性,九州地方)などとして、分類に対応する属性情報を有する文献がぞれぞれのデータにより、データセットにおける教師データとしてグルーピングされる。
【0041】
機械学習モデルの各々は、すでに述べたように、分類及びグループのそれぞれに対応して機械学習モデル生成部102により生成されるため、字形データベース107の字形データテーブルから、分類及びグループに対応した、くずし字の文字画像と翻刻の専門家が判別したこのくずし字の現代文字との組を教師データとして用いる。
例えば、機械学習モデル生成部102は、分類(年代,性別,地域)に属するグループに対応する機械学習モデルを生成する場合、字形データベース107の字形データテーブルから、分類における属性情報の年代、性別及び地域の各々が、それぞれ鎌倉時代、男性、近畿地方、すなわち、グループ(鎌倉時代,男性,近畿地方)のくずし字の画像と、このくずし字の現代文字との組を教師データとして抽出する。
【0042】
そして、機械学習モデル生成部102は、分類(年代,性別,地域)におけるグループ毎に、くずし字の画像を入力とし、現代文字を出力として機械学習モデルの機械学習を行ない、グループの各々に対応する機械学習モデルを生成する。
また、分類を複数設定し、分類毎に、それぞれのグループに対応する機械学習モデルを生成しておき、くずし字認識部105が識別対象のくずし字の画像データをそれぞれの機械学習モデルに入力し、各機械学習モデルの出力を総計して、最も認識の度合いの高い現代文字を出力するように構成しても良い。
【0043】
また、機械学習モデル生成部102は、くずし字の画像を機械学習モデルに入力する際、教師データとして用いる前処理として、くずし字の画像の解像度を合わせる処理を行う。
図6及び図7の各々は、字形データベース107から読み込んだくずし字の画像データを教師データとして用いるための前処理を説明する図である。
【0044】
図6においては、くずし字の画像の文字枠として区切った領域が、縦長の(図の上下方向の幅が長い)場合における前処理について記載されている。
図6(a)は、対象文献のページの撮像画像から文字枠で示されたくずし字の画像データである。
図6(b)は、図6(a)の画像データを2値化(例えば、大津の判別分析法を用いた2値化)した後に、白黒反転した反転画像データを示している。
【0045】
図6(c)は、図6(b)の反転画像データを縦方向及び横方向の長さを、機械学習モデルの入力に対応した入力幅(縦ピクセル数×横ピクセル数)になるように、拡大または縮小の調整処理を行った結果を示している。図6(b)の場合は、縦方向の辺の長さが入力幅に対して大きいため、縦方向の辺の長さを入力幅となる比率で縮小した。そして、この比率により横方向の辺の長さも縮小される。このとき、縦方向の縦ピクセル数が、機械学習モデルの入力幅のピクセル数、例えば40ピクセルに対応する。
図6(d)は、横方向の横ピクセル数が、入力幅の40ピクセルに対応するように、図6(c)の画像データの両横に黒のピクセルを挿入する(パディング)。そして、これにより、教師データとしての入力幅のくずし字の画像データが生成される。
【0046】
一方、くずし字の画像の文字枠として区切った領域が、横長の(図の左右方向の幅が長い)場合における前処理について記載されている。
図7(a)は、対象文献のページの撮像画像から文字枠で示されたくずし字の画像データである。
図7(b)は、図7(a)の画像データを2値化(例えば、大津の判別分析法を用いた2値化)した後に、白黒反転した反転画像データを示している。
【0047】
図7(c)は、図7(b)の反転画像データを縦方向及び横方向の長さを、機械学習モデルの入力に対応した入力幅(縦ピクセル数×横ピクセル数)になるように、拡大または縮小の調整処理を行った結果を示している。図7(b)の場合は、横方向の辺の長さが入力幅に対して大きいため、横方向の辺の長さを入力幅となる比率で縮小した。そして、この比率により縦方向の辺の長さも縮小される。このとき、横方向の横ピクセル数が、機械学習モデルの入力幅のピクセル数、例えば40ピクセルに対応する。
図7(d)は、縦方向の横ピクセル数が、入力幅の40ピクセルに対応するように、図7(c)の画像データの両横に黒のピクセルを挿入する(パディング)。そして、これにより、教師データとしての入力幅のくずし字の画像データが生成される。
【0048】
次に、機械学習モデル管理部104が機械学習モデルに対して行なう機械学習の処理を、以下に説明する。上述した属性情報の所定の種類の組合せに対応させ、機械学習モデルの学習を行うが、以下の手法を用いて行なう。
以下に示す手法による機械学習モデルの学習は、すでに説明した機械学習モデル生成部102が行なう。
【0049】
・標本化の頻度の変更
古典籍から抽出した教師データx及び文字クラスyからなる標本h、古文書から抽出した教師データx及び文字クラスyから標本hの各々を用いて機械学習を行なわせる。
しかしながら、古典籍の標本hに比較して、古文書の標本hの数が少ないため、及びを混合した場合、機械学習モデルが古典籍の特徴に偏った学習が行なわれる場合がある。
【0050】
このため、古文書から抽出した教師データxの1個の文字画像を、複数個にコピー(複製)して、それぞれのコピーした教師データx’を同一の文字クラスyに組み合わせることで標本数を増加させ、古典籍の標本数と同等以上の数とする。
図8は、機械学習モデルの学習に用いる古典籍及び古文書の標本の混合方法を説明する図である。
図8においては、例えば、古典籍の標本hが100万個であり、古文書の標本hが10万個である場合を示している。古典籍における標本hの数が100万個であるため、古文書の標本hの各々の教師データxを19個の教師データx’に複製し、複製元の教師データxを合わせて20個としている。
【0051】
そして、複製した19個の教師データx’に対して、複製元の教師データ文字クラスytと組み合わせることで、古文書の標本hの数が20倍となり、200万個に増加する。
ここで、複製した教師データx’の文字画像は、文字を縮小、拡大、文字の線の形状を変化、文字画像を所定の角度に回転させるなどのそれぞれ異なる変更を加えて用いる。
複製し倍に増加させて200万個として、この標本と標本との合計300万個を学習用の標本として混合して、機械学習モデルに対する機械学習を行なう。
【0052】
・ファインチューニング(fine tuning)
上述したように、古文書の標本数に比較して古典籍の標本数が多いため、古文書の文字クラスの推定の確度は向上させることが可能である。
しかしながら、古典籍は標本数が少ないため、機械学習モデルの文字クラスの推定の確度を十分とするための学習を行なわせることでできない場合がある。
このため、ファインチューニングの手法を用いて、元ドメインである古典籍の標本hで学習させた機械学習モデルをpretrainモデルとして、このpretraineモデルに対してfine tuning(標本hによる追加学習)を行ない、目標ドメインの古文書に対応する機械学習モデルを生成する。
【0053】
図9は、古典籍の標本で学習させた機械学習モデルを古文書の標本で再学習させるfine tuningの手法を説明する図である。
fine tuningにおいては、古典籍の標本hで学習させた機械学習モデルにおいて、この機械学習モデルの入力層に近い部分の層と、機械学習モデルの最終出力層とを、未学習(ニューラルネットの関数の各々の重み係数が初期状態)の層に付け替える(pretraineモデルの生成)。
【0054】
そして、一般的な転移学習においては、付け替えた未学習の層以外の層の再学習を行なわない。
しかしながら、本実施形態においては、fine tuningの手法を用いているため、古文書の標本hにより新たに付けた未学習の層の学習を行なわせるとともに、古典籍の標本hで学習させた機械学習モデルの再学習を行なう。
すなわち、古典籍の標本hで生成したpretraineモデル(画像の大域的な特徴を捉える機能を有するConvolution層)に対して、古文書の標本hを用いたfine tuningを行なう。
【0055】
また、フィッシャー重みマップ(fisher weight map)を用いて、古典籍の標本h及び古文書の標本hの各々を用いて、フィッシャーの判別基準の最大化を行なうことも可能である。
【0056】
・標本のベクトル(あるいはテンソル)表現の次元を変更する
すなわち、一般的にFEDA(frustratingly easy domain adaptation)と呼ばれるドメイン適応手法を用いて、古文書に対応した機械学習モデルの学習を行なう。
ドメイン適応手法は、元ドメインとしての古典籍の標本hで学習させた機械学習モデルに対して、目標ドメインである古文書に対応させる再学習を行なわせることにより、目標ドメインである古文書に適応する機械学習モデルとなるように、ニューラルネットワークの関数の重み係数の調整を行う。
【0057】
本実施形態においては、ドメイン適応手法としてFEDAの手法を用いており、元ドメインの特徴ベクトル(あるいはテンソル)と目標ドメインの特徴ベクトル(あるいはテンソル)の各々を、それぞれ長さが3倍の高次元の特徴ベクトル(あるいはテンソル)に変更して、特徴情報を増加させて用いている。
そして、高次元の特徴ベクトルに変更した標本を用いて、古文書に対応する機械学習モデルに対して、一般的な学習を行なわせる。
【0058】
図10は、元ドメインを古典籍とし、目標ドメインを古文書としたドメイン適応手法による機械学習モデルの学習方法を説明する図である。
図10において、特徴ベクトル画像301は、古典籍の標本hにおける教師データxの特徴ベクトルを高次化した画像を示している。また、特徴ベクトル画像302は、古文書の標本hにおける教師データxの特徴ベクトルを高次化(特徴情報を増加)した画像を示している。
教師データx’として用いる特徴ベクトル画像301は、文字クラスyに対応している。また、教師データx’として用いる特徴ベクトル画像302は、文字クラスyに対応している。
【0059】
図6及び図7の各々で説明したパディングを行なった反転画像データとして、古典籍の標本hにおける教師データxと、古文書の標本hにおける教師データxとがある。
特徴ベクトル画像301は、古典籍の標本hにおける教師データxを、横方向(X方向)の画像のピクセル数を換えずに、縦方向(Y方向)のピクセル数を変更している。
すなわち、古典籍の標本hにおける教師データxとの反転画像データ2個と、この反転画像データと同一の入力幅を有する黒画像(階調度0)の画像データを連結して、高次元の特徴ベクトルを有する教師データx’として生成されている。
また、特徴ベクトル画像301は、Y方向に対して、教師データxとの反転画像データ、教師データxとの反転画像データ、黒画像の画像データとの順番で連結している。
【0060】
一方、特徴ベクトル画像302は、古文書の標本hにおける教師データxを、横方向(X方向)の画像のピクセル数を換えずに、縦方向(Y方向)のピクセル数を変更している。
すなわち、特徴ベクトル画像302は、特徴ベクトル301と同様の縦ピクセル数×横ピクセル数となるように、古文書の標本hにおける教師データxとの反転画像データ2個と、この反転画像データと同一の入力幅を有する黒画像の画像データを連結して、高次元の特徴ベクトルを有する教師データx’として生成されている。
また、特徴ベクトル画像301は、Y方向に対して、教師データxとの反転画像データ、黒画像の画像データと、教師データxとの反転画像データの順番で連結している。
【0061】
図10に示すように、特徴ベクトル画像301及び特徴ベクトル画像302の各々を、機械学習モデルの教師データとして生成したため、機械学習モデルに対して以下に示す学習が行なわれる。
教師データx’(特徴ベクトル画像301における部分領域301_1)及び教師データx’(特徴ベクトル画像302における部分領域302_1)が同一行にあることで、機械学習モデルにおけるニューラルネットの関数の重み係数が古典籍及び古文書の文字における共通の特徴を学習する。
【0062】
また、教師データx’(特徴ベクトル画像301における部分領域301_2)及び黒画像の画像データ(特徴ベクトル画像302における部分領域302_2)が同一行にあることで、機械学習モデルにおけるニューラルネットの関数の重み係数が古典籍の文字に特有な特徴のみを学習する。
また、黒画像の画像データ(特徴ベクトル画像301における部分領域301_3)及び教師データx’(特徴ベクトル画像302における部分領域302_3)が同一行にあることで、機械学習モデルにおけるニューラルネットの関数の重み係数が古文書の文字に特有な特徴のみを学習する。
上述したFEDAの手法を用いる構成により、機械学習モデルに対して、古典籍と古文書との各々の特徴を同時に学習させることができ、古典籍の文字の特徴の一部を利用して、古文書の文字クラスの推定の確度を向上したくずし字の認識が行える。
【0063】
翻刻データ記憶部110には、翻刻された文献におけるくずし字と現代文字との対応を示す翻刻データテーブルが書き込まれて記憶されている。ここで、翻刻データテーブルは、翻刻された文献毎に作成される。
図11は、翻刻データ記憶部110に記憶されている翻刻データテーブルの構成例を示す図である。図11において、翻刻データテーブルは、レコード毎に、文字コード、文字画像インデックス、文献の属性情報、文献情報、ページ、ページ内位置情報、現代文字の各々の欄を備えている。
【0064】
ここで、文字コードは、翻刻されたくずし字の各々を識別するために付与された識別情報である。文字画像インデックスは、文字枠で抽出された文字の画像データが記憶されている翻刻データ記憶部110における記憶領域を示すアドレスなどである。
また、文献の属性情報は、くずし字を抽出した文献の属性であり、一例として、文献のカテゴリを示す属性、書き手の属性、書体の属性、地域の属性、時代の属性などである。
例えば、図11において、文献のカテゴリを示す属性は、図2と同様に、対象文献、文献種別などである。対象文献は、文字コードの参照画像データを抽出した文献が、古典籍であるか古文書のいずれであるかを示す情報である。文献種別は、日記、瓦版、仏教関連書物、歴史関連書物、法律関連書物などのいずれかであるかを示す情報である。
【0065】
また、文献情報は、文字コードが示すくずし字の文字画像データを抽出した文献を示す情報であり、例えば文献名や文献を識別する文献識別情報などである。
ページは、文字コードが示す文字画像のくずし字が抽出された、文献情報の示す文献におけるページ番号である。
ページ内位置情報は、ページ番号におけるページの撮像画像における、文字コードが示すくずし字の文字画像データが抽出された位置を示す位置情報である。
現代文字は、機械学習モデルが文字画像データにおけるくずし字の形状から推定した現代の文字(標本における教師データに対応する文字ラベル)が示されている。
【0066】
次に、図12は、本発明の一実施形態のくずし字認識システム1における機械学習モデルの生成の処理の動作例を示すフローチャートである。
S101:
データ入出力部101は、外部装置から字形データベース107における字形データテーブルを生成するために用いる文献の撮像画像を入力する。
そして、表示部106は、自身の表示画面に対して文献の各ページの撮像画像を表示する。
専門家は、表示画面のくずし字の画像領域をマウスなどにより文字枠を形成して囲み、撮像画像におけるくずし字の画像を抽出する(図3(a))。
【0067】
S102:
専門家は、抽出したくずし字の判別を行い、このくずし字に対応する現代文字を認識して、くずし字と現代文字と対応させ、属性情報を付与する。
これにより、データ入出力部101は、専門家が所定の入力手段から入力する、くずし字に対応させた現代文字と、このくずし字の属性情報とを、字形データベース107における字形データテーブルに書き込んで記憶させる。
これにより、くずし字がいずれの現代文字に対応するかを認識する機械学習モデルの学習させるための教師データが、字形データベース107に生成される。
【0068】
S103:
機械学習モデルを生成する際、機械学習モデルを生成する作業者は、くずし字認識システム1に対して、この機械学習モデルにより翻刻を行う対象の文献の属性情報を入力する。
そして、作業者は、機械学習モデルを生成する際に用いる教師データを字形データベース107から抽出するため、教師データのデータセットを生成する属性情報の各々の組み合わせを入力する。
例えば、属性情報の組み合わせとして、組合せ(年代,性別,地域)=(鎌倉時代,男性,近畿地方)、(室町時代,女性,関東地方)、(奈良時代,女性,九州地方)などが入力される。
【0069】
S104:
機械学習モデル生成部102は、各組み合わせに対応したくずし字と現代文字との対応を、機械学習モデルを生成する際の教師データのデータセットとして、字形データベース107の字形データテーブルから抽出する(教師データの入力)。
【0070】
S105:
そして、機械学習モデル生成部102は、属性情報の組み合わせに対応した機械学習モデルの各々を、この組み合わせに対応してデータセットそれぞれの教師データにより学習させて生成する。
機械学習モデル生成部102は、生成した機械学習モデルの各々に機械学習モデル識別情報を付与し、機械学習モデル記憶部109の機械学習モデルテーブルに書き込んで記憶させる。
【0071】
次に、図13及び図14を用いて、本発明の一実施形態のくずし字認識システム1における機械学習モデルによるくずし字の認識の処理を説明する。
図13は、本発明の一実施形態のくずし字認識システム1における機械学習モデルによるくずし字の認識の処理の動作例を示すフローチャートである。
【0072】
図14は、本発明の一実施形態のくずし字認識システム1における機械学習モデルによるくずし字の認識の処理の動作例を説明する図である。図14(a)は、翻刻対象(識別対象)の文献の翻刻を行うページの撮像画像である。図14(b)は、図14(a)に示すページの撮像画像において、翻刻を行う作業者が翻刻対象のくずし字を文字枠201で囲んで選択したくずし字の文字領域の画像データである。図14(c)は、図14(b)のくずし字を機械学習モデルにより、このくずし字に対応する現代文字を認識し、くずし字の文字領域の隣接する位置に認識結果の現代文字の画像データを表示する一例である。図14(d)は、翻刻が終了したページの表示例であり、各くずし字の文字領域の隣接した領域に現代文字が表示される。
【0073】
ステップ201:
データ入出力部101は、翻刻対象の文献の撮像画像の画像データの各々を、この文献の属性情報とともに外部装置から入力し、それぞれに文献識別情報を付与し、文献画像記憶部108の文献画像データテーブルに書き込んで記憶させる。
【0074】
ステップS202:
作業者は、所定の入力手段から翻刻対象の文献名を、くずし字認識システム1に対して入力する。
データ入出力部101は、作業者が入力する文献名に対応する文献の撮像画像を、文献画像記憶部108の文献画像データテーブルから読み出し、表示部106の表示画面に対してページ順に表示する(図14(a))。
【0075】
ステップS203:
次に、機械学習モデル管理部104は、翻刻対象の文献の属性情報を文献画像記憶部108の文字画像テーブルから読み出す。
このとき、機械学習モデル記憶部109に記憶されている機械学習モデルから、くずし字の認識に用いる機械学習モデルを選択する文献の属性情報の組合せは、予め設定されている構成としても良いし、識別を行う処理毎に作業者が選択して設定する構成としてもよい。
【0076】
ステップS204:
そして、機械学習モデル管理部104は、設定された文献における属性情報の種類の組合せ(例えば、組合せ(年代,性別,地域))に対応する機械学習モデルのグループのなかから、認識対象の文献における属性情報の組合せの各種類のデータセット(鎌倉時代,男性,近畿地方)に対応する機械学習モデルを選択する。
機械学習モデル管理部104は、機械学習モデル記憶部109において選択し機械学習モデルを読み出し、読み出した機械学習モデルをくずし字認識部105に対して出力する。
【0077】
ステップS205:
作業者は、表示部106に表示されている文献のページの撮像画像をマウスでクリックするなどして選択し(図14(a))、翻刻対象のページにおけるくずし字の文字領域を文字枠201で選択する(図14(b))。
これにより、文字領域抽出部103は、この文字枠201で囲まれた文字領域におけるくずし字を翻刻対象として抽出し、くずし字認識部105に対して出力する。
【0078】
ステップS206:
くずし字認識部105は、文字領域抽出部103から供給される文字領域におけるくずし字を、すでに説明した前処理により、機械学習モデルに入力可能なくずし字の画像データを生成する(図6及び図7)。
そして、くずし字認識部105は、機械学習モデル管理部104から供給される機械学習モデルに対し、前処理を行ったくずし字の画像データを入力する。
これにより、くずし字認識部105は、供給された機械学習モデルにより、くずし字がいずれの現代文字に対応するかの認識処理を行う。
【0079】
ステップS207:
くずし字認識部105は、入力したくずし字の画像データに対応して機械学習モデルが出力する現代文字の画像データ202を、認識対象のくずし字の文字枠201に隣接する領域に表示する(図14(c))。
また、くずし字認識部105は、認識が終了したくずし字に対して文字コードを付与し、くずし字の存在するページの情報及びこのページの撮像画像におけるくずし字の位置情報を付与し、翻刻データ記憶部110における認識対象の文献の翻刻データテーブルに書き込んで記憶させる。
【0080】
ステップS208:
作業者は、表示部106に表示されている翻刻の対象としている文献の各ページを確認し(図14(d))、認識すべきくずし字の有無、すなわち認識処理が終了したか否かの判定を行う。
そして、作業者は、認識すべきくずし字がないことを確認すると、認識処理が終了したとして、くずし字認識システム1に対して処理を終了することを示す終了情報を入力する。
一方、作業者は、認識すべきくずし字があることを確認すると、認識処理が終了していないとして、ステップS205の処理を行う。
【0081】
上述した構成により、本実施形態によれば、認識対象とする日本の古典籍や古文書などの文献の属性情報の種類の組合せを設定し、この属性情報の組合せにおける種類のデータに基づくデータセットの各々を教師データとして機械学習モデルを生成しているため、その標本のデータセットに対応する文献におけるくずし字の認識率を向上させることが可能であるため、認識対象とする日本の古典籍や古文書などの文献に含まれるくずし字を、それぞれの文献における文字の個体差による誤認識を抑制し、精度良く現代の日本語の文字に変換することができる。
【0082】
また、本実施形態によれば、機械学習モデルの学習に用いる古典籍及び古文書の標本(教師データと文字クラスの組合せ)の混合において、いずれか標本数が少ない方の文献における標本を複製し(標本数が多い方より多くの数となる複製数とする)、複製した教師データそれぞれの文字画像に対して異なる変更を行ない、標本数を増加させて、標本数が多い方の標本と混合して機械学習モデルを学習させるため、いずれかの特徴に偏らない学習を行なうことが可能となり、古典籍及び古文書の各々のくずし字の推定精度を向上させることができる。
【0083】
また、本実施形態によれば、例えば、古文書の標本が古典籍の標本より数が少ない場合、古典籍の標本で学習させた機械学習モデルを、古典籍より標本数の少ない古文書の標本でfine tuningの手法を用いて再学習させているため、古典籍の文字画像により大域的な特徴を学習した後、古典籍と古文書との特徴の違いを再学習させることが可能となり、標本数の少ない学習により、古文書の文字クラスの推定精度を向上させることができる。
【0084】
また、本実施形態によれば、例えば、古文書の標本が古典籍の標本より数が少ない場合、標本のベクトル(あるいはテンソル)表現の次元を変更する手法、すなわち、機械学習モデルに対して、古典籍と古文書との各々の特徴を同時に学習させることができ、古典籍の文字の特徴の一部を利用して古文書の文字画像データから文字クラスを推定することが可能となり、また古文書の文字の特徴の一部を利用して古典籍の文字画像データから文字クラスを推定することが可能となり、古典籍及び古文書の各々の文字画像データから文字クラスを推定する確度を向上させることができる。
【0085】
また、本実施形態において、属性情報の組合せにおける種類のデータに基づくデータセットを教師データとして機械学習モデルの学習を行っているが、全てのデータセットを用いて汎用の機械学習モデルである汎用機械学習モデルを学習させ、この汎用機械学習モデルの入力に近い部分のニューラルネットワークの関数の係数を固定し、出力に近い関数の係数部分だけ、各データセットに対応する教師データで学習させる転移学習により、それぞれのデータセットに対応する機械学習モデルを生成する構成としてもよい。
【0086】
また、本実施形態によれば、上述した機械学習モデルの学習に用いる古典籍及び古文書の標本(教師データと文字クラスの組合せ)の混合を行なう手法、fine tuningの手法(転移学習も含む)、標本のベクトル(あるいはテンソル)表現の次元を変更する手法、及びフィッシャー情報量を用いる手法の各々の組合せ、または全てを用いて機械学習モデルを生成することで、それぞれの手法のみで学習させる場合に比較して、古典籍及び古文書の各々の文字画像データから文字クラスを推定する確度をより向上させることができる。
【0087】
また、本実施形態において、属性情報の種類の組合せを複数作成し、それぞれの組合せにおける各種類の属性情報のデータセットによる機械学習モデルを生成し、どの組み合わせの機械学習モデルの判定度合いが高いかの確認を行い、くずし字の認識に用いる機械学習モデルを選択する構成としてもよい。
この場合、例えば、組合せ(時代、性別、地域)、(時代、性別)、(年代、地域) などの複数の組合せ毎に、組合せが(時代、性別、地域)であれば、それぞれのデータセット(平安時代、女性、近畿地方)、(鎌倉時代、男性、中国地方)などに対応した機械学習モデルの生成を行う。
【0088】
また、本実施形態においては、認識対象の文献における各ページのくずし字の文字領域を作業者自身が文字枠により選択する構成としたが、作業者が選択したページにおいて、文字領域抽出部103がくずし字の文字画像の存在する文字領域を画像処理により選択し、文字枠により囲んでくずし字の文字領域を抽出する構成としてもよい。
【0089】
また、本実施形態においては、翻刻の対象の文献以外であり、すでに専門家に翻刻された文献のくずし字と現代文字との組合せを教師データとしたが、翻刻の対象の文献の一部のくずし字を専門家が認識して現代文字と対応付けたデータの組を、機械学習モデルのグルーピングとしての組合せの属性情報の種類の一つとして教師データのデータセットに用いる構成としてもよい。
【0090】
なお、本発明における図1のくずし字認識システム1の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりくずし字を対応する現代文字に対応させる認識処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0091】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0092】
1…くずし字認識システム
101…データ入出力部
102…機械学習モデル生成部
103…文字領域抽出部
104…機械学習モデル管理部
105…くずし字認識部
106…表示部
107…字形データベース
108…文献画像記憶部
109…機械学習モデル記憶部
110…翻刻データ記憶部
201…文字枠
202…画像データ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14