(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-22
(45)【発行日】2024-01-05
(54)【発明の名称】住所データベース生成装置及びプログラム
(51)【国際特許分類】
G06F 16/28 20190101AFI20231225BHJP
【FI】
G06F16/28
(21)【出願番号】P 2019171145
(22)【出願日】2019-09-20
【審査請求日】2022-08-10
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(73)【特許権者】
【識別番号】598076591
【氏名又は名称】東芝インフラシステムズ株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】朴 英
(72)【発明者】
【氏名】浜村 倫行
(72)【発明者】
【氏名】赤木 琢磨
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開昭63-018438(JP,A)
【文献】特開2011-197823(JP,A)
【文献】特開2015-176241(JP,A)
【文献】特開2000-029873(JP,A)
【文献】特開2019-095833(JP,A)
【文献】中国特許出願公開第101984432(CN,A)
【文献】特開2000-285166(JP,A)
【文献】特開平09-274620(JP,A)
【文献】特開2007-240438(JP,A)
【文献】韓国公開特許第10-2009-0038339(KR,A)
【文献】特開2015-155077(JP,A)
【文献】特開2012-194676(JP,A)
【文献】特開2001-134716(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
国又は地域によって階層構造が異なるデータベースであって、複数の住所を含む第1の住所データベースを取得する取得部と、
国又は地域のオペレータにより住所の構成に関する情報を設定する
ための画面を表示する信号を出力し、前記画面からの入力に基づき前記情報を設定する設定部と、
前記情報を含む設定ファイルに基づき、前記第1の住所データベースから前記複数の住所に対応する木構造の住所階層を含む第2の住所データベースを生成する生成部と、
を備える住所データベース生成装置。
【請求項2】
前記設定部は、住所を構成する各住所階層の有効又は無効を設定するための画面を表示する信号を出力し、前記画面からの入力に基づき前記有効又は前記無効を設定する、請求項1の住所データベース生成装置。
【請求項3】
前記設定部は、住所を構成する各住所階層の順位を設定するための画面を表示する信号を出力し、前記画面からの入力に基づき前記順位を設定する、請求項1又は2の住所データベース生成装置。
【請求項4】
前記設定部は、住所を構成する郵便番号の信頼桁数を設定するための画面を表示する信号を出力し、前記画面からの入力に基づき前記信頼桁数を設定する、請求項1乃至3の何れか一つの住所データベース生成装置。
【請求項5】
前記設定部は、住所を構成する基準表記に対応する代替表記を設定するための画面を表示する信号を出力し、前記画面からの入力に基づき前記代替表記を設定する、請求項1乃至4の何れか一つの住所データベース生成装置。
【請求項6】
前記設定部は、住所を構成する1以上の言語を設定するための画面を表示する信号を出力し、前記画面からの入力に基づき1以上の言語を設定する、請求項1乃至5の何れか一つの住所データベース生成装置。
【請求項7】
前記取得部は、前記第2の住所データベースを生成してから更新条件を満たすことの検出に基づき、前記第1の住所データベースを再取得し、
前記生成部は、前記情報に基づき、再取得された前記第1の住所データベースから前記第2の住所データベースを再生成する、請求項1乃至6の何れか一つの住所データベース生成装置。
【請求項8】
前記取得部は、前記第2の住所データベースを生成してから更新条件を満たすことの検出に基づき、前記第1の住所データベースを再取得し、
前記生成部は、取得された前記第1の住所データベースと再取得された前記第1の住所データベースとの差分が更新判定値を超える場合に、前記情報に基づき、再取得された前記第1の住所データベースから前記第2の住所データベースを再生成する、請求項1乃至6の何れか一つの住所データベース生成装置。
【請求項9】
前記取得部は、前記第1の住所データベースに追加された住所件数が一定値を越えた場合、又は前記第1の住所データベースの更新された住所件数が一定値を越えた場合に前記更新条件を満たすことを検出する、請求項7又は8の住所データベース生成装置。
【請求項10】
他の住所データベース生成装置に対して前記設定ファイルを送信する通信部を備える請求項1乃至
9の何れか一つの住所データベース生成装置。
【請求項11】
コンピュータに、
国又は地域によって階層構造が異なるデータベースであって、複数の住所を含む第1の住所データベースを取得する手順と、
国又は地域のオペレータにより住所の構成に関する情報を設定する
ための画面を表示する信号を出力し、前記画面からの入力に基づき前記情報を設定する手順と、
前記情報を含む設定ファイルに基づき、前記第1の住所データベースから前記複数の住所に対応する木構造の住所階層を含む第2の住所データベースを生成する手順と、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、住所データベース生成装置及びプログラムに関する。
【背景技術】
【0002】
郵便物又は帳票等の紙葉類に記載された住所を認識する住所認識装置は、住所から文字や単語ごとの候補を抽出し、抽出された文字や単語と住所データベースに登録された文字や単語とを照合する。数百万件を超える膨大な数の住所が登録された住所データベースを利用する場合、住所認識装置による照合処理の負荷は重く、照合処理に多くの時間が必要となる。
【0003】
そこで、住所データベースから書き換えられるOCR(Optical Character Recognition)住所データベースが利用される。例えば、OCR住所データベースは、住所データベースに含まれる複数の住所に対応する木構造の住所階層のデータベースである。住所階層としては、国、県、区、市、町、村、及び郵便番号などがある。このようなOCR住所データベースは、住所データベースの情報量を維持しつつ、住所データベースと比較してデータサイズを数分の一~数十分の一のデータサイズに圧縮することができる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
コンピュータ等の情報処理装置により、住所データベースの住所階層の構造を分析し、住所データベースからOCR住所データベースを生成すること要求されているが、国や地域によって住所階層の構造が異なるため、情報処理装置の製造元で設定された固定の分析方法で高い分析精度を得ることは難しい。また、実際の住所データベースは個人情報を含むため、情報処理装置の製造元がこのような個人情報を含む実際の住所データベースを入手し分析することも難しい。このように、国や地域によって住所階層の構造が異なり、加えて、実際の住所データベースを入手し分析することも難しい状況下で、住所データベースから適切なOCR住所データベースを生成する技術が望まれている。
【0006】
本発明の目的は、複数の住所を含む住所データベースから信頼性の高いOCR住所データベースを生成する住所データベース生成装置及びプログラムを提供することである。
【課題を解決するための手段】
【0007】
実施形態に係る住所データベース生成装置は、取得部、設定部、及び生成部を備える。前記取得部は、複数の住所を含む第1の住所データベースを取得する。前記設定部は、住所の構成に関する情報を設定する。前記生成部は、前記情報を含む設定ファイルに基づき、前記第1の住所データベースから前記複数の住所に対応する木構造の住所階層を含む第2の住所データベースを生成する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る区分システムの概略構成の一例を示すブロック図である。
【
図2】
図2は、実施形態に係るOCR住所データベース生成装置の概略構成の一例を示すブロック図である。
【
図3】
図3は、区分システムにより区分される紙葉類等の住所表記の一例を示す図である。
【
図4】
図4は、実施形態に係るOCR住所データベース生成装置により生成されるOCR住所データベースの木構造の第1例を示す概念図である。
【
図5】
図5は、実施形態に係るOCR住所データベース生成装置により生成されるOCR住所データベースの木構造の第2例を示す概念図である。
【
図6】
図6は、実施形態に係るOCR住所データベース生成装置によるOCR住所データベースの生成の第1例を示す図である。
【
図7】
図7は、実施形態に係るOCR住所データベース生成装置で利用される住所階層設定ファイルの一例を示す図である。
【
図8】
図8は、実施形態に係るOCR住所データベース生成装置で利用される出力言語設定ファイルの一例を示す図である。
【
図9】
図9は、実施形態に係るOCR住所データベース生成装置によるOCR住所データベースの生成の第2例を示す図である。
【
図10】
図10は、実施形態に係るOCR住所データベース生成装置によるOCR住所データベースの生成の第3例を示す図である。
【
図11】
図11は、実施形態に係る住所データベース生成装置による住所データベースの生成処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、図面を用いて実施形態について説明する。
図1は、実施形態に係る区分システムの概略構成の一例を示すブロック図である。
区分システム1は、区分対象物から住所を読み取り、読み取った住所を認識し、認識結果に基づき区分対象物を区分する。例えば、区分対象物は、郵便物又は帳票等の紙葉類である。区分システム1は、複数の住所を含む住所データベース(第1の住所データベース)DB1から、これら複数の住所に対応する木構造の住所階層を含むOCR住所データベース(第2の住所データベース)DB2を生成する。
【0010】
区分システム1を適用する国又は地域によって異なるが、住所データベースDB1は、数百万件を超える住所を含む。住所データベースDB1から生成されるOCR住所データベースDB2は、区分対象物から読み取られた住所の認識処理に利用され、住所データベースDB1の情報量を維持しつつ、住所データベースDB1と比較してデータサイズが大幅に圧縮されている。本実施形態の区分システム1に含まれる住所データベース生成装置18は、国又は地域によって階層構造が異なる住所データベースDB1から、信頼性の高いOCR住所データベースDB2を生成することができる。
【0011】
図1に示すように、区分システム1は、オペレーション入出力部11、供給部12、区分部13、区分制御部14、バーコードリーダ(BCR)15、画像撮影部16、住所認識部17、OCR住所データベース生成装置18、及びバーコードライター(BCW)19等を備える。
【0012】
オペレーション入出力部11は、ユーザインタフェースであり、ディスプレイ、タッチセンサ、キーボード、及びマウス等を備える。ディスプレイは、各種情報を表示する。タッチセンサは、ディスプレイに対向配置される。タッチセンサ、キーボード、及びマウス等の入力デバイスは、オペレータからの各種入力を受け付ける。後に詳しく説明するが、ディスプレイは、OCR住所データベースDB2を生成するための条件を設定する設定画面を表示し、オペレータは、入力デバイスを介して、設定画面に対して条件を入力することができる。
【0013】
供給部12は、郵便番号、住所、及び宛名などの文字、数字、及び記号等からなる住所情報が記載又は添付された紙葉類を収容し、紙葉類を区分部13へ供給する。また、紙葉類には、住所情報以外に、紙葉類の住所情報を示す宛先バーコード、又は住所情報が認識されなかった紙葉類に割り当てられる識別情報(書状ID)としてのIDバーコードが印刷されることがある。
【0014】
BCR15は、紙葉類に記録された宛先バーコード、又はIDバーコードを読み取る。BCW19は、必要に応じて紙葉類に宛先バーコード、又はIDバーコードを印刷する。例えば、BCW19は、住所認識部17により紙葉類の住所情報が認識された場合、認識された住所情報をバーコード化した宛先バーコードをこの紙葉類に対して印刷する。また、BCW19は、住所認識部17により紙葉類の住所情報が認識されなかった場合、区分制御部14から与えられる識別情報をバーコード化したIDバーコードをこの紙葉類に対して印刷する。つまり、BCW19は、住所情報が認識できた紙葉類にはその認識結果を宛先バーコードとして印刷し、住所情報が認識できなかった紙葉類には識別情報をIDバーコードとして印刷する。
【0015】
画像撮影部16は、住所情報が記載又は添付された紙葉類を撮影し、紙葉類の画像を出力する。住所認識部17は、画像撮影部16から出力される画像を処理し、画像上の住所情報とOCR住所データベースDB2との照合により、住所情報を認識する。
【0016】
OCR住所データベース生成装置18は、設定ファイルに基づき、住所データベースDB1からOCR住所データベースDB2を生成し、OCR住所データベースDB2を住所認識部17へ提供する。OCR住所データベース生成装置18によるOCR住所データベースDB2の生成については後に詳しく説明する。
【0017】
区分制御部14は、紙葉類の住所情報の認識結果に基づき区分制御信号を出力する。区分部13は、区分制御信号に基づき紙葉類を区分する。
【0018】
図2は、実施形態に係るOCR住所データベース生成装置の概略構成の一例を示すブロック図である。
図2に示すように、OCR住所データベース生成装置18は、制御部181、ROM(read-only memory)182、RAM(random-access memory)183、補助記憶デバイス184、通信インタフェース185、及び入出力部186を備える。
【0019】
制御部181は、OCR住所データベースDB2の生成に必要な演算及び制御などの処理を行うコンピュータの中枢部分に相当する。制御部181は、ROM182及び補助記憶デバイス184の少なくとも一方に記憶されたシステムソフトウェア、アプリケーションソフトウェア又はファームウェアなどのプログラムに基づいて、各種の機能を実現するべく演算及び制御を実行する。例えば、制御部181は、CPU(central processing unit)、MPU(micro processing unit)、又はDSP(digital signal processor)などである。あるいは、制御部181は、これらのうちのいくつかのプロセッサを組み合わせたものである。制御部181は、OCR住所データベース生成エンジン1811を含む。
【0020】
ROM182は、コンピュータ可読記憶媒体であり、制御部181を中枢とするコンピュータの主記憶装置に相当する。ROM182は、専らデータの読み出しに用いられる不揮発性メモリ(非一時的記憶媒体)である。ROM182は、上記のプログラムの少なくとも一部を記憶してもよい。また、ROM182は、制御部181が各種の処理を行う上で使用するデータ又は各種の設定値などを記憶する。
【0021】
RAM183は、コンピュータ可読記憶媒体であり、制御部181を中枢とするコンピュータの主記憶装置に相当する。RAM183は、データの読み書きに用いられるメモリである。RAM183は、制御部181が各種の処理を行う上で一時的に使用するデータを記憶しておく、いわゆるワークエリアなどとして利用される。
【0022】
補助記憶デバイス184は、コンピュータ可読記憶媒体であり、制御部181を中枢とするコンピュータの補助記憶装置に相当する。補助記憶デバイス184は、例えばEEPROM(electric erasable programmable read-only memory)(登録商標)、HDD(hard disk drive)又はSSD(solid state drive)などの非一時的記憶媒体である。補助記憶デバイス184は、上記のプログラムの少なくとも一部を記憶してもよい。また、補助記憶デバイス184は、制御部181が各種の処理を行う上で使用するデータ、制御部181での処理によって生成されたデータ又は各種の設定値などを保存する。例えば、補助記憶デバイス184は、各種設定ファイル、住所データベースDB1、及びOCR住所データベースDB2を記憶する。
【0023】
ROM182及び補助記憶デバイス184の少なくとも一方に記憶されるプログラムは、OCR住所データベースDB2の生成のためのプログラムを含む。一例として、区分システム1又はOCR住所データベース生成装置18は、当該プログラムがROM182及び補助記憶デバイス184の少なくとも一方に記憶された状態で区分システム1又はOCR住所データベース生成装置18の管理者などへ譲渡される。或いは、当該プログラムが記憶された非一時的なコンピュータ可読記憶媒体により、当該管理者などへ譲渡されてもよい。この場合、当該管理者又はサービスマンなどによる操作の下に、非一時的なコンピュータ可読記憶媒体に記憶された当該プログラムが補助記憶デバイス184等に書き込まれる。当該プログラムが記憶された非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク、光磁気ディスク、光ディスク又は半導体メモリなどのようなリムーバブルな記憶媒体である。或いは、ネットワークなどを介して当該プログラムをダウンロードし補助記憶デバイス184に書き込んでもよい。
【0024】
通信インタフェース185は、ネットワークなどを介して他の装置と有線又は無線で通信し、他の装置から送信される各種情報を受信し、また、他の装置に各種情報を送信するためのインタフェースである。例えば、通信インタフェース185は、通信部として機能し、他のOCR住所データベース生成装置18と通信する。また、通信インタフェース185は、住所データベースDB1を取得する取得部として機能してもよく、上位機器等から住所データベースDB1を受信し、補助記憶デバイス184に住所データベースDB1を書き込む。
【0025】
入出力部186は、オペレーション入出力部11に対して信号を出力したり、オペレーション入出力部11からの信号を入力したりする。また、入出力部186は、住所データベースDB1を取得する取得部として機能してもよく、リムーバブルな記憶媒体から住所データベースDB1を読み取り、補助記憶デバイス184に住所データベースDB1を書き込む。
【0026】
ここで本実施形態における各用語について説明する。国、県、区、市、町、村、及び郵便番号等のそれぞれを住所セグメントと称し、住所セグメントのそれぞれが住所階層に相当する。住所セグメントの幾つかの組み合わせ、つまり住所階層の幾つかの組み合わせを住所と称する。住所データベースDB1は住所の集合体である。例えば、住所データベースDB1に含まれる市名ファイルに各市名データが登録され、住所データベースDB1に含まれる町名ファイルに各町名データが登録される。OCR住所データベースDB2は、住所データベースDB1から生成されるデータベースであり、住所データベースDB1の複数の住所に対応する木構造の住所階層を含む。
【0027】
図3は、区分システムにより区分される紙葉類等の住所表記の一例を示す図である。
図4は、実施形態に係るOCR住所データベース生成装置により生成されるOCR住所データベースの木構造の第1例を示す概念図である。
図4に示すOCR住所データベースDB2は、市、区、町、番地、建物名、部屋番号、及び氏名の木構造を有する。また、
図5は、実施形態に係るOCR住所データベース生成装置により生成されるOCR住所データベースの木構造の第2例を示す概念図である。
図5に示すOCR住所データベースDB2は、市、郵便番号、町、番地、建物名、部屋番号、及び氏名の木構造を有する。
【0028】
例えば、OCR住所データベース生成装置18は、第1の設定情報を含む設定ファイルSFに基づき、住所データベースDB1に含まれる複数の住所を木構造化することにより、
図4に示すOCR住所データベースDB2を生成し、第2の設定情報を含む設定ファイルSFに基づき、住所データベースDB1に含まれる複数の住所を木構造化することにより、
図5に示すOCR住所データベースDB2を生成する。このように、OCR住所データベース生成装置18は、設定ファイルSFに応じたOCR住所データベースDB2を生成することができる。
【0029】
図4又は
図5に示すOCR住所データベースDB2のデータサイズは、住所データベースDB1のデータサイズに比べて、大幅に圧縮される。
図4に示すOCR住所データベースDB2が、郵便番号を除く木構造であるのに対して、
図5に示すOCR住所データベースDB2は、郵便番号を木構造の上位階層に含め、郵便番号への依存度を高くしている。例えば、郵便番号の信頼性の低い国又は地域では
図4に示すOCR住所データベースDB2を利用し、郵便番号の信頼性の高い国又は地域では
図5に示すOCR住所データベースDB2を利用することができる。
【0030】
画像撮影部16は、
図3に示す紙葉類等から住所を読み取り、住所認識部17は、
図4又は
図5に示すOCR住所データベースDB2に基づき、読み取った住所を認識する。例えば、郵便番号の信頼性の低い国又は地域では
図4に示すOCR住所データベースDB2を利用することにより認識精度を高めることができ、郵便番号の信頼性の高い国又は地域では
図5に示すOCR住所データベースDB2を利用することにより認識精度を高めることができる。
【0031】
次に、OCR住所データベース生成装置18によるOCR住所データベースDB2の生成について詳細に説明する。
図6は、実施形態に係るOCR住所データベース生成装置によるOCR住所データベースの生成の第1例を示す図である。
補助記憶デバイス184は、住所の構成に関する情報を含む設定ファイルSF1を記憶する。設定ファイルSF1は、住所階層設定ファイルSF1-1、参照先設定ファイルSF1-2、及び出力言語設定ファイルSF1-3等を含む。住所階層設定ファイルSF1-1は、住所を構成する各住所階層の有効又は無効の設定、及び住所を構成する各住所階層の順位の設定を含む。参照先設定ファイルSF1-2は、各国言語に対応するファイル等の参照先を含む。出力言語設定ファイルSF1-3は、住所を構成する1以上の言語の有効又は無効の設定を含む。オペレータは、オペレーション入出力部11の入力デバイスを介して、設定ファイルSF1の情報を書き換えることができる。
【0032】
入出力部186は、取得部として機能し、住所データベースDB1を取得し、補助記憶デバイス184は、取得された住所データベースDB1を記憶する。例えば、住所データベースDB1は、都市名ファイルDB1-1、町名ファイルDB1-2、番地名ファイルDB1-3、郵便番号ファイルDB1-4、法人名ファイルDB1-5、氏名ファイルDB1-6を含む。
【0033】
OCR住所データベース生成エンジン1811は、補助記憶デバイス184に記憶された住所データベースDB1を読み出す。また、OCR住所データベース生成エンジン1811は、設定部として機能し、オペレーション入出力部11を介して入力される、住所の構成に関する情報を設定ファイルSFに設定する。また、OCR住所データベース生成エンジン1811は、生成部として機能し、住所の構成に関する情報を含む設定ファイルSFに基づき、住所データベースDB1からOCR住所データベースDB2を生成する。補助記憶デバイス184は、生成されたOCR住所データベースDB2を記憶する。なお、住所認識部17は、OCR住所データベースDB2に基づき、紙葉類から読み取られた住所を認識する。言い換えれば、住所の構成に関する情報は、OCR住所データベースDB2を生成するための情報であるとともに、住所認識精度及び住所認識効率を高めるための情報である。
【0034】
図7は、実施形態に係るOCR住所データベース生成装置で利用される住所階層設定ファイルの一例を示す図である。
OCR住所データベース生成エンジン1811は、補助記憶デバイス184に記憶された住所階層設定ファイルSF1-1に基づき、入出力部186を介してオペレーション入出力部11に対して、住所を構成する各住所階層の有効(ON)又は無効(OFF)を設定するための画面を表示する表示制御信号を出力する。
図7に示すように、オペレーション入出力部11のディスプレイは、表示制御信号に基づき、住所を構成する各住所階層の有効又は無効を設定するための画面を表示する。
【0035】
オペレータは、オペレーション入出力部11の入力デバイスを介して、各住所階層の有効又は無効を入力する。オペレーション入出力部11は、各住所階層の有効又は無効を受け付ける。OCR住所データベース生成エンジン1811は、オペレーション入出力部11で受け付けられた入力に基づき、住所階層設定ファイルSF1-1を更新し、住所を構成する各住所階層の有効又は無効の設定を完了する。例えば、
図7に示すように、OCR住所データベース生成エンジン1811は、都市名(ON)、区名(ON)、町名(ON)、番地名(ON)、建物名(OFF)、氏名(OFF)、及び郵便番号(ON)の設定を完了する。
【0036】
OCR住所データベース生成エンジン1811は、更新された住所階層設定ファイルSF1-1に基づき、住所データベースDB1からOCR住所データベースDB2を生成する。OCR住所データベース生成エンジン1811は、更新された住所階層設定ファイルSF1-1に基づき、全住所階層のうち、都市名(ON)、区名(ON)、町名(ON)、番地名(ON)、及び郵便番号(ON)に対応する木構造の住所階層を含むOCR住所データベースDB2を生成する。例えば、住所階層設定ファイルSF1-1は、国際基準である所定数の住所階層を含み、これら所定数の住所階層に対して有効又は無効の設定を可能とする。国又は地域のオペレータは、所定数の住所階層の一覧から、自分の国又は地域で利用されている住所階層を有効にして、利用されていない住所階層を無効にするだけでよい。又は、初期状態で所定数の住所階層を全て無効に設定し、オペレータが、自分の国又は地域で利用されている住所階層を有効にしてもよい。
【0037】
例えば、国名、都市名、区名、町名、通り名、建物名、及び部屋番号などの住所階層を有効に設定し、これら住所階層に絞り込むことが考えられる。又は、郵便番号を活用し、国名、都市名、郵便番号、町名、通り名、建物名、及び部屋番号などの住所階層を有効に設定し、これら住所階層に絞り込むことが考えられる。住所階層設定ファイルSF1-1により、国又は地域の実情に合わせた住所階層に絞り込むことにより、住所データベースDB1からOCR住所データベースDB2を精度良く生成することができる。
【0038】
或いは、OCR住所データベース生成エンジン1811は、補助記憶デバイス184に記憶された住所階層設定ファイルSF1-1に基づき、入出力部186を介してオペレーション入出力部11に対して、住所を構成する各住所階層の順位を設定するための画面を表示する表示制御信号を出力するようにしてもよい。オペレーション入出力部11のディスプレイは、表示制御信号に基づき、住所を構成する各住所階層の順位を設定するための画面を表示する。
【0039】
オペレータは、オペレーション入出力部11の入力デバイスを介して、各住所階層の順位を入力する。マウスのドラッグ及びドロップの操作で、各住所階層の順位を入力するようにしてもよい。オペレーション入出力部11は、各住所階層の順位の入力を受け付ける。OCR住所データベース生成エンジン1811は、オペレーション入出力部11で受け付けられた入力に基づき、住所階層設定ファイルSF1-1を更新し、住所を構成する各住所階層の順位の設定を完了する。
【0040】
OCR住所データベース生成エンジン1811は、更新された住所階層設定ファイルSF1-1に基づき、住所データベースDB1からOCR住所データベースDB2を生成する。OCR住所データベース生成エンジン1811は、更新された住所階層設定ファイルSF1-1に基づき、設定された順位に対応する木構造の住所階層を含むOCR住所データベースDB2を生成する。国又は地域のオペレータは、所定数の住所階層の一覧から、自分の国又は地域における住所階層の順位に応じた順位を設定するだけでよい。例えば、国名、都市名、郵便番号、及び町名の順に住所を絞るように設定しても良い。又は、郵便番号の優先度を高くして、国名、郵便番号、都市名、及び町名の順に住所を絞るように設定しても良い。住所階層別の認識精度が異なるため(例えば、長い文字列の認識精度より、桁数一定な郵便番号の認識精度が高い)、住所階層の順位を変更することにより、認識性能の向上に繋がるOCR住所データベースDB2を作成することができる。住所階層設定ファイルSF1-1により、国又は地域の実情に合わせた住所階層の順位で絞り込むことにより、住所データベースDB1からOCR住所データベースDB2を精度良く生成することができる。
【0041】
或いは、設定ファイルSF1は、郵便番号設定ファイルを含み、OCR住所データベース生成エンジン1811は、郵便番号設定ファイルに基づき、入出力部186を介してオペレーション入出力部11に対して、住所を構成する郵便番号の信頼桁数を設定するための画面を表示する表示制御信号を出力するようにしてもよい。オペレーション入出力部11のディスプレイは、表示制御信号に基づき、住所を構成する郵便番号の信頼桁数を設定するための画面を表示する。
【0042】
オペレータは、オペレーション入出力部11の入力デバイスを介して、郵便番号の信頼桁数を入力する。例えば、郵便番号の上位3桁を信頼桁数として入力する。オペレーション入出力部11は、郵便番号の信頼桁数の入力を受け付ける。OCR住所データベース生成エンジン1811は、オペレーション入出力部11で受け付けられた入力に基づき、郵便番号設定ファイルを更新し、郵便番号の信頼桁数の設定を完了する。
【0043】
OCR住所データベース生成エンジン1811は、更新された郵便番号設定ファイルに基づき、住所データベースDB1からOCR住所データベースDB2を生成する。OCR住所データベース生成エンジン1811は、更新された郵便番号設定ファイルに基づき、設定された信頼桁数に対応する木構造の住所階層を含むOCR住所データベースDB2を生成する。国又は地域のオペレータは、自分の国又は地域における郵便番号の信頼性に応じた信頼桁数を設定するだけでよい。郵便番号設定ファイルにより、国又は地域の実情に合わせた郵便番号の信頼桁数で絞り込みができ、OCR住所データベースDB2を精度良く生成することができる。例えば、特定の国又は地域で、郵便番号の7桁のうち上位3桁の信頼性が高く、下位4桁の信頼性が低い場合に、上位3桁に絞り込むことにより、文字認識に優れたOCR住所データベースDB2を生成することができる。
【0044】
或いは、住所階層の順位と信頼桁数を組み合わせるようにしてもよい。例えば、国名、郵便番号(上位3桁)、都市名、郵便番号(全桁)、町名の順に住所を絞るように設定しても良い。信頼性の高い郵便番号の上位3桁を優先的に利用することにより、文字認識に優れたOCR住所データベースDB2を生成することができる。
【0045】
或いは、設定ファイルSF1は、代替表記ファイルを含み、OCR住所データベース生成エンジン1811は、代替表記ファイルに基づき、入出力部186を介してオペレーション入出力部11に対して、基準表記に対応する代替表記を設定するための画面を表示する表示制御信号を出力するようにしてもよい。基準表記及び代替表記の何れも住所を構成する情報である。オペレーション入出力部11のディスプレイは、表示制御信号に基づき、基準表記に対応する代替表記を設定するための画面を表示する。
【0046】
オペレータは、オペレーション入出力部11の入力デバイスを介して、基準表記に対応する代替表記の有効又は無効を入力する。例えば、基準表記がアラビア数字で、代替表記が漢数字である。日本では、アラビア数字又は漢数字で番地又は部屋番号等が記載されることがある(アラビア数字と漢数字の番地又は部屋番号が混在することがあるが)。また、基準表記が新しい都市名で、代替表記が古い都市名である。その他、基準表記が任意の文字列で、代替表記が異なる任意の文字列である。また、基準表記に対して、複数の代替表記が存在する場合には、各代替表記に優先順位を設定することができる。基準表記に対応する代替表記を有効にすると、OCR住所データベース生成エンジン1811は、基準表記と代替表記とを同一と見なして、住所データベースDB1からOCR住所データベースDB2を生成する。OCR住所データベース生成エンジン1811は、オペレーション入出力部11で受け付けられた入力に基づき、代替表記ファイルを更新し、基準表記に対応する代替表記の設定を完了する。
【0047】
OCR住所データベース生成エンジン1811は、更新された代替表記ファイルに基づき、住所データベースDB1からOCR住所データベースDB2を生成する。国又は地域のオペレータは、その国又は地域に特有の代替表記を設定することにより、住所表記のゆらぎに影響されることなく、住所データベースDB1からOCR住所データベースDB2を生成することができる。
【0048】
また、OCR住所データベース生成エンジン1811は、代替表記に処理コードを関連付けて、オペレーション入出力部11から入力される処理コードにより、代替表記の有効又は無効を設定するようにしてもよい。
【0049】
或いは、OCR住所データベース生成エンジン1811は、補助記憶デバイス184に記憶された出力言語設定ファイルSF1-3に基づき、入出力部186を介してオペレーション入出力部11に対して、住所を構成する1以上の言語を設定するための画面を表示する表示制御信号を出力するようにしてもよい。
図8に示すように、オペレーション入出力部11のディスプレイは、表示制御信号に基づき、住所を構成する1以上の言語を設定するための画面を表示する。
【0050】
オペレータは、オペレーション入出力部11の入力デバイスを介して、各言語に対して有効(ON)又は無効(OFF)を入力する。オペレーション入出力部11は、各言語の有効又は無効を受け付ける。OCR住所データベース生成エンジン1811は、オペレーション入出力部11で受け付けられた入力に基づき、出力言語設定ファイルSF1-3を更新し、言語の設定を完了する。
【0051】
OCR住所データベース生成エンジン1811は、更新された出力言語設定ファイルSF1-3に基づき、住所データベースDB1からOCR住所データベースDB2を生成する。出力言語設定ファイルSF1-3により、国又は地域の実情に合わせた言語に絞り込むことにより、住所データベースDB1からOCR住所データベースDB2を精度良く生成することができる。
【0052】
国又は地域によって、住所情報を含む住所データベースDB1の形式は異なるが、その国又は地域の実情を知るオペレータが、オペレーション入出力部11を介して、住所データベースDB1に応じた各種条件を設定ファイルSF1に入力することにより、OCR住所データベース生成装置18は、設定ファイルSF1に基づき、国又は地域によって異なる住所データベースDB1から信頼性の高いOCR住所データベースDB2を生成することができる。例えば、設定ファイルSF1には、住所の構成に関する様々な情報を設定することができる。例えば、以下のような住所の構成に関する情報を設定することができる。
・各住所階層の有効又は無効
・各住所階層の順位
・郵便番号の信頼桁数
・基準表記と基準表記に対応する代替表記
・1以上の言語
・住所データベースDB1のファイルの形式
・住所データベースDB1で使用されている区切り文字コード
・住所データベースDB1で使用されている住所階層の数
また、OCR住所データベース生成装置18又は区分システム1の製造元ではなく、OCR住所データベース生成装置18又は区分システム1を導入する国又は地域のオペレータが、条件ファイルSF1へ情報を入力するので、国又は地域の実情に応じた住所の構成に関する情報の設定が可能になるだけでなく、氏名などの個人情報関連の住所階層の設定も可能となる。これにより、個人情報を含むOCR住所データベースDB2を作成することが可能となる。また、個人情報関連を製造元に渡す必要がないので、個人情報関連の流出リスクの低減を図ることもできる。
【0053】
図9は、実施形態に係るOCR住所データベース生成装置によるOCR住所データベースの生成の第2例を示す図である。
図9に示すように、OCR住所データベース生成装置18が、複数の異なる設定ファイルを記憶することにより、住所データベースDB1から、複数の異なるOCR住所データベースを生成することができる。例えば、OCR住所データベース生成装置18は、n個の設定ファイル(設定ファイルSF1~SFn(n:2以上の整数))を記憶する。設定ファイルSF1は、住所階層設定ファイルSF1-1、参照先設定ファイルSF1-2、及び出力言語設定ファイルSF1-3等を含み、設定ファイルSFnは、住所階層設定ファイルSFn-1、参照先設定ファイルSFn-2、及び出力言語設定ファイルSFn-3等を含む。OCR住所データベース生成エンジン1811は、設定ファイルSF1に基づき、住所データベースDB1からOCR住所データベースDB21を生成し、また、設定ファイルSFnに基づき、住所データベースDB1からOCR住所データベースDB2nを生成する。例えば、各地域に応じた設定ファイルを用意するだけで、一つの住所データベースDB1から、各地域に応じたOCR住所データベースを生成することができる。
【0054】
図10は、実施形態に係るOCR住所データベース生成装置によるOCR住所データベースの生成の第3例を示す図である。
図10に示すように、OCR住所データベース生成装置18が、複数の異なる設定ファイルを記憶することにより、複数の異なる住所データベースから、複数の異なるOCR住所データベースを生成することができる。例えば、OCR住所データベース生成装置18は、n個の設定ファイル(設定ファイルSF1~SFn(n:2以上の整数))を記憶する。また、OCR住所データベース生成装置18は、n個の住所データベース(住所データベースDB11~DB1n(n:2以上の整数))を記憶する。住所データベースDB11は、都市名ファイルDB11-1、町名ファイルDB11-2、番地名ファイルDB11-3、郵便番号ファイルDB11-4、法人名ファイルDB11-5、氏名ファイルDB11-6を含む。住所データベースDB1nは、都市名ファイルDB1n-1、町名ファイルDB1n-2、番地名ファイルDB1n-3、郵便番号ファイルDB1n-4、法人名ファイルDB1n-5、氏名ファイルDB1n-6を含む。OCR住所データベース生成エンジン1811は、設定ファイルSF1に基づき、住所データベースDB11からOCR住所データベースDB21を生成し、また、設定ファイルSFnに基づき、住所データベースDB1nからOCR住所データベースDB2nを生成する。例えば、各地域に応じた設定ファイルにより、各地域に応じた住所データベースから、各地域に応じたOCR住所データベースを生成することができる。
【0055】
図11は、実施形態に係る住所データベース生成装置による住所データベースの生成処理の一例を示すフローチャートである。
例えば、オペレータは、オペレーション入出力部11を介して、OCR住所データベースDB2の生成を要求する。住所データベース生成エンジン1811は、OCR住所データベースDB2の生成要求に基づき(ST1、YES)、OCR住所データベースDB2の生成を開始する。
【0056】
住所データベース生成エンジン1811は、通信インタフェース185を介して、上位機器に住所データベースDB1を要求し、住所データベースDB1を取得する(ST2)。通信インタフェース185は、上位機器等から住所データベースDB1を受信し、補助記憶デバイス184に住所データベースDB1を書き込む。或いは、入出力部186が、リムーバブルな記憶媒体から住所データベースDB1を読み取り、補助記憶デバイス184に書き込むようにしてもよい。
【0057】
住所データベース生成エンジン1811は、補助記憶デバイス184に記憶された設定ファイルSFに基づき、OCR住所データベースDB2を生成するために必要な情報、つまり住所の構成に関する情報を設定するための画面を表示する表示制御信号を出力する(ST3)。オペレーション入出力部11のディスプレイは、表示制御信号に基づき住所の構成に関する情報を設定するための画面を表示する(ST4)。オペレータは、オペレーション入出力部11の入力デバイスを介して、住所の構成に関する情報を入力し(ST5、YES)、住所データベース生成エンジン1811は、住所の構成に関する情報の入力に基づき、設定ファイルSFを更新する(ST6)。
【0058】
住所データベース生成エンジン1811は、更新された設定ファイルSFに基づき、住所データベースDB1からOCR住所データベースDB2を生成し(ST7)、生成したOCR住所データベースDB2を補助記憶デバイス184に書き込む。なお、一定時間、住所の構成に関する情報の入力がなければ(ST5、NO)、既存の設定ファイルSFに基づき、住所データベースDB1からOCR住所データベースDB2を生成するようにしてもよい。
【0059】
また、住所データベース生成エンジン1811は、OCR住所データベースDB2を生成してから更新条件を満たすか否かを監視し、更新条件を満たすことを検出した場合には(ST8、YES)、通信インタフェース185等が住所データベースDB1を再取得する(ST9)。
【0060】
例えば、更新条件は、以下の更新条件1乃至5のうちのいずれか1つでも良いし、これらの2以上の組み合わせでも良い。
(更新条件1)住所データベースDB1に追加された住所件数が一定値を越えた場合(新規住所が生じた場合など)
(更新条件2)住所データベースDB1の更新された住所件数が一定値を越えた場合(住所情報が訂正及び整備された場合など)
(更新条件3)OCR住所認識性能(認識率)が一定値を下回った場合(住所データベースDB1の情報が古くなった場合など)
(更新条件4)新規要求が追加された場合(郵便番号の桁数増加(5桁から6桁に変更)、住所階層の増加(特定住所階層の新設)など)
(更新条件5)更新時間に到達した場合(時間経過により情報の更新、修正、又は追加等が生じると想定)
【0061】
例えば、ST8の監視において、更新条件3乃至5の少なくとも一つが含まれる場合、住所データベース生成エンジン1811は、ST2で取得された住所データベースDB1と、ST9で再取得された住所データベースDB1とを比較し、取得された住所データベースDB1と、再取得された住所データベースDB1との差分が更新判定値(閾値)を超える場合に(ST10、YES)、設定ファイルSFに基づき、再取得された住所データベースDB1からOCR住所データベースDB2を再生成し(ST11)、生成したOCR住所データベースDB2を補助記憶デバイス184に書き込む。このように、一定の条件を満たす場合に、OCR住所データベースDB2を再生成することで、OCR住所データベースDB2による住所認識精度及び住所認識効率の向上を図ることができる。
【0062】
住所データベース生成エンジン1811は、動作停止要求を受信すると(ST12、YES)、動作を停止する。なお、住所データベース生成エンジン1811が、更新条件を満たすことを検出した場合に、住所データベースDB1を再取得し、ST10を省略し、設定ファイルSFに基づき、再取得された住所データベースDB1からOCR住所データベースDB2を再生成してもよい。
【0063】
また、住所データベース生成装置18は、通信インタフェース185を介して他の住所データベース生成装置18に対して条件ファイルを送信するようにしてもよい。これにより、他の国又は地域などに設置される他の住所データベース生成装置18は、通信インタフェース185を介して条件ファイルを受信し、受信した条件ファイルに基づき、住所データベースDB1からOCR住所データベースDB2を生成することができる。或いは、住所データベース生成装置18は、通信インタフェース185を介して他の住所データベース生成装置18に対してOCR住所データベースDB2を送信するようにしてもよい。複数台の区分システム1が導入されるケースで、OCR住所データベースDB2を効率良く利用することができる。
【0064】
本実施形態では、オペレーション入出力部11のディスプレイにより設定画面を表示し、設定画面を介して条件の入力を受け付けるケースについて説明したが、音声により設定を案内し、音声により条件の入力を受け付けるようにしてもよい。
【0065】
以上により、本実施形態の区分システム又は住所データベース生成装置18によれば、複数の住所を含む住所データベースから信頼性の高いOCR住所データベースを生成することができる。
【0066】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
複数の住所を含む第1の住所データベースを取得する取得部と、
住所の構成に関する情報を設定する設定部と、
前記情報を含む設定ファイルに基づき、前記第1の住所データベースから前記複数の住所に対応する木構造の住所階層を含む第2の住所データベースを生成する生成部と、
を備える住所データベース生成装置。
[C2]
前記設定部は、住所を構成する各住所階層の有効又は無効を設定するための画面を表示する信号を出力し、前記画面からの入力に基づき前記有効又は前記無効を設定する、[C1]の住所データベース生成装置。
[C3]
前記設定部は、住所を構成する各住所階層の順位を設定するための画面を表示する信号を出力し、前記画面からの入力に基づき前記順位を設定する、[C1]又は[C2]の住所データベース生成装置。
[C4]
前記設定部は、住所を構成する郵便番号の信頼桁数を設定するための画面を表示する信号を出力し、前記画面からの入力に基づき前記信頼桁数を設定する、[C1]乃至[C3]の何れか一つの住所データベース生成装置。
[C5]
前記設定部は、住所を構成する基準表記に対応する代替表記を設定するための画面を表示する信号を出力し、前記画面からの入力に基づき前記代替表記を設定する、[C1]乃至[C4]の何れか一つの住所データベース生成装置。
[C6]
前記設定部は、住所を構成する1以上の言語を設定するための画面を表示する信号を出力し、前記画面からの入力に基づき1以上の言語を設定する、[C1]乃至[C5]の何れか一つの住所データベース生成装置。
[C7]
前記取得部は、前記第2の住所データベースを生成してから更新条件を満たすことの検出に基づき、前記第1の住所データベースを再取得し、
前記生成部は、前記情報に基づき、再取得された前記第1の住所データベースから前記第2の住所データベースを再生成する、[C1]乃至[C6]の何れか一つの住所データベース生成装置。
[C8]
前記取得部は、前記第2の住所データベースを生成してから更新条件を満たすことの検出に基づき、前記第1の住所データベースを再取得し、
前記生成部は、取得された前記第1の住所データベースと再取得された前記第1の住所データベースとの差分が更新判定値を超える場合に、前記情報に基づき、再取得された前記第1の住所データベースから前記第2の住所データベースを再生成する、[C1]乃至[C6]の何れか一つの住所データベース生成装置。
[C9]
他の住所データベース生成装置に対して前記設定ファイルを送信する通信部を備える[C1]乃至[C8]の何れか一つの住所データベース生成装置。
[C10]
コンピュータに、
複数の住所を含む第1の住所データベースを取得する手順と、
住所の構成に関する情報を設定する手順と、
前記情報を含む設定ファイルに基づき、前記第1の住所データベースから前記複数の住所に対応する木構造の住所階層を含む第2の住所データベースを生成する手順と、
を実行させるためのプログラム。
【符号の説明】
【0067】
1…区分システム
11…オペレーション入出力部
12…供給部
13…区分部
14…区分制御部
15…バーコードリーダ(BCR)
16…画像撮影部
17…住所認識部
18…住所データベース生成装置
19…バーコードライター(BCW)
181…制御部
182…ROM
183…RAM
184…補助記憶デバイス
185…通信インタフェース
186…入出力部
1811…住所データベース生成エンジン