IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社インテックの特許一覧

特許7612403帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム
<>
  • 特許-帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム 図1
  • 特許-帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム 図2
  • 特許-帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム 図3
  • 特許-帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム 図4
  • 特許-帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム 図5
  • 特許-帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム 図6
  • 特許-帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム 図7
  • 特許-帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム 図8
  • 特許-帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム 図9
  • 特許-帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-27
(45)【発行日】2025-01-14
(54)【発明の名称】帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラム
(51)【国際特許分類】
   G06F 16/908 20190101AFI20250106BHJP
【FI】
G06F16/908
【請求項の数】 9
(21)【出願番号】P 2020206474
(22)【出願日】2020-12-14
(65)【公開番号】P2022093805
(43)【公開日】2022-06-24
【審査請求日】2023-11-06
(73)【特許権者】
【識別番号】391021710
【氏名又は名称】株式会社インテック
(74)【代理人】
【識別番号】100095430
【弁理士】
【氏名又は名称】廣澤 勲
(72)【発明者】
【氏名】市田 越子
(72)【発明者】
【氏名】加藤 康記
(72)【発明者】
【氏名】辻 宇俊
【審査官】早川 学
(56)【参考文献】
【文献】米国特許出願公開第2016/0104077(US,A1)
【文献】米国特許出願公開第2015/0026556(US,A1)
【文献】中国特許出願公開第111507230(CN,A)
【文献】特開2020-181444(JP,A)
【文献】特開2009-237640(JP,A)
【文献】特開2013-205974(JP,A)
【文献】特開2020-140410(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
行と列の位置関係が定義されてマトリックス表記が可能な電子データである帳票データの中から、利用者が希望する特定データを自動的に抽出して出力するコンピュータシステムであって、
前記特定データは、前記帳票データをマトリックス表記したマップを想定した時、前記マップの中の、利用者の希望に合致した項目名が一方向に並ぶセル領域である項目名ブロックのデータと、前記項目名ブロックに対応したデータが並ぶセル領域である内容ブロックのデータとで構成されるものであり、
項目名辞書、表項目名モデル作成手段、項目名ブロック抽出手段、内容ブロック抽出手段及び特定データ出力手段を備え、
前記項目名辞書は、利用者によって入力された指定項目名と当該指定項目名に対応するデータの型式とを相互に紐付けて格納した辞書であり、
前記表項目名モデル作成手段には、前記帳票データに含まれると想定される複数の語句と、当該語句同士の関連度を示す情報とで構成される語句関連性モデルが設定されており、
前記表項目名モデル作成手段は、前記項目名辞書を参照して前記指定項目名を取得すると、前記語句関連性モデルを使用して、前記指定項目名と一定以上の関連度を有する語句を項目名候補として抽出するとともに、抽出した前記項目名候補が前記指定項目名に合致する確率値を算出し、前記項目名候補と前記確率値とを紐付けした表項目名モデルを作成する処理を行い、
前記項目名ブロック抽出手段は、前記帳票データが格納された各セルのデータを分析し、前記表項目名モデルの前記項目名候補と同じか又は類似度が高い語句が一方向に並ぶk行1列又は1行k列(kは自然数)のセル領域を前記項目名ブロックとして抽出する処理を行い、
前記内容ブロック抽出手段は、前記項目名辞書を参照し、前記項目名ブロックのセルの語句の中の、前記指定項目名と一致する語句に各々紐付けられているデータの型式を認識するとともに、前記項目名ブロックの中の、前記指定項目名と一致する語句が格納されたセルに隣接するセル領域のセルのデータを分析することによって、前記項目名辞書で認識した型式のデータが格納された全てのセルを含むセル領域であって、前記項目名ブロックと隣接するk行n列のセル領域又はn行k列(nは自然数)のセル領域を特定し、当該セル領域を前記内容ブロックとして抽出する処理を行い、
前記特定データ出力手段は、抽出された前記項目名ブロック及び前記内容ブロックの各セルに格納されたデータを前記特定データとして出力する処理を行う、
ことを特徴とする帳票データ検索システム。
【請求項2】
前記語句関連性モデルは、複数の前記帳票データに基づく機械学習によって作成された学習済みモデルである請求項1記載の帳票データ検索システム。
【請求項3】
前記項目名ブロック抽出手段は、
前記帳票データが格納された各セルのデータについて、前記表項目名モデルに含まれる個々の前記項目名候補に対する類似度を算出し、算出した前記類似度が第一の閾値を超えたセルに対して、対応する前記項目名候補に紐付けされた前記確率値を割り付けるとともに、算出した前記類似度が第一の閾値以下だったセルに対して、確率値ゼロを割り付け、
さらに、前記各セルに割り付けられた確率値に、行方向又は列方向に隣接するセルに割り付けられた前記確率値に係数a(0<a<1)を乗じて求まる補正分を加算することによって各セルの確率値を補正し、
補正後の前記確率値が第二の閾値を超えているセルが一方向に連続するk行1列又は1行k列(kは自然数)のセル領域を、前記項目名ブロックとして抽出する処理を行う請求項1又は2記載の帳票データ検索システム。
【請求項4】
前記特定データは、前記項目名ブロックのデータと、前記内容ブロックのデータと、前記内容ブロックに対応したデータが並ぶセル領域である補助項目名ブロックのデータとで構成されるものであり、
補助項目名抽出手段を備え、前記補助項目名抽出手段は、前記内容ブロックの、前記項目名ブロックと交差する位置に隣接するセル領域を前記補助項目名ブロックとして抽出する処理を行い、
前記特定データ出力手段は、抽出された前記項目名ブロック、前記内容ブロック及び前記補助項目名ブロックの各セルに格納されたデータを前記特定データとして出力する処理を行う請求項1乃至3のいずれか記載の帳票データ検索システム。
【請求項5】
行と列の位置関係が定義されてマトリックス表記が可能な電子データである帳票データの中から、利用者が希望する特定データを自動的に抽出して出力するコンピュータシステムが実行する情報処理方法であって、
前記特定データは、前記帳票データをマトリックス表記したマップを想定した時、前記マップの中の、利用者の希望に合致した項目名が一方向に並ぶセル領域である項目名ブロックのデータと、前記項目名ブロックに対応したデータが並ぶセル領域である内容ブロックのデータとで構成されるものであり、
前記コンピュータシステムには、前記帳票データに含まれると想定される複数の語句と、当該語句同士の関連度を示す情報とで構成される語句関連性モデルが設定され、さらに、利用者によって入力された指定項目名と、当該指定項目名に対応するデータの型式とを相互に紐付けして格納した項目名辞書が設けられており、
表項目名モデル作成ステップ、項目名ブロック抽出ステップ、内容ブロック抽出ステップ及び特定データ出力ステップを備え、
前記表項目名モデル作成ステップでは、前記項目名辞書を参照して利用者が指定した指定項目名を取得し、前記語句関連性モデルを使用して、前記指定項目名と一定以上の関連度を有する語句を項目名候補として抽出するとともに、抽出した前記項目名候補が前記指定項目名に合致する確率値を算出し、前記項目名候補と前記確率値とを紐付けした表項目名モデルを作成する処理を行い、
前記項目名ブロック抽出ステップでは、前記帳票データが格納された各セルのデータを分析し、前記表項目名モデルの前記項目名候補と同じ又は類似度が高い語句が一方向に並ぶk行1列又は1行k列(kは自然数)のセル領域を前記項目名ブロックとして抽出する処理を行い、
前記内容ブロック抽出ステップでは、前記項目名辞書を参照して、前記項目名ブロックのセルの語句の中の、前記指定項目名と一致する語句に各々紐付けられているデータの型式を認識するとともに、前記項目名ブロックの中の、前記指定項目名と一致する語句が格納されたセルに隣接するセル領域のセルのデータを分析することによって、前記項目名辞書で認識した型式のデータが格納された全てのセルを含むセル領域であって、前記項目名ブロックと隣接するk行n列のセル領域又はn行k列(nは自然数)のセル領域を特定し、当該セル領域を前記内容ブロックとして抽出する処理を行い、
前記特定データ出力ステップでは、抽出された前記項目名ブロック及び前記内容ブロックの各セルに格納されたデータを前記特定データとして出力する処理を行う、
ことを特徴とする帳票データ検索方法。
【請求項6】
前記語句関連性モデルは、複数の前記帳票データに基づく機械学習によって作成された学習済みモデルである請求項5記載の帳票データ検索方法。
【請求項7】
前記項目名ブロック抽出ステップでは、
前記帳票データが格納された各セルのデータについて、前記表項目名モデルに含まれる個々の前記項目名候補に対する類似度を算出し、算出した前記類似度が第一の閾値を超えたセルに対して、対応する前記項目名候補に紐付けされた前記確率値を割り付けるとともに、算出した前記類似度が第一の閾値以下だったセルに対して、確率値ゼロを割り付け、
さらに、前記各セルに割り付けられた確率値に、行方向又は列方向に隣接するセルに割り付けられた前記確率値に係数a(0<a<1)を乗じて求まる補正分を加算することによって各セルの確率値を補正し、
補正後の前記確率値が第二の閾値を超えているセルが一方向に連続するk行1列又は1行k列(kは自然数)のセル領域を、前記項目名ブロックとして抽出する処理を行う請求項5又は6記載の帳票データ検索方法。
【請求項8】
前記特定データは、前記項目名ブロックのデータと、前記内容ブロックのデータと、前記内容ブロックに対応したデータが並ぶセル領域である補助項目名ブロックのデータとで構成されるものであり、
補助項目名抽出ステップを備え、前記補助項目名抽出ステップでは、前記内容ブロックの、前記項目名ブロックと交差する位置に隣接するセル領域を前記補助項目名ブロックとして抽出する処理を行い、
前記特定データ出力ステップでは、抽出された前記項目名ブロック、前記内容ブロック及び前記補助項目名ブロックの各セルに格納されたデータを前記特定データとして出力する処理を行う請求項5乃至7のいずれか記載の帳票データ検索方法。
【請求項9】
請求項5乃至8のいずれか記載の帳票データ検索方法をコンピュータシステムに実行させるための、各ステップ実行用プログラムを備える帳票データ検索プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、行と列の位置関係が定義されてマトリックス表記が可能な帳票データの中から利用者が希望する特定データを自動的に抽出して出力する帳票データ検索システム、並びに帳票データ検索システムにより実行される帳票データ検索方法及び帳票データ検索プログラムに関する。
【背景技術】
【0002】
従来から、紙帳票に記載された情報をOCR(Optical Character Reader/光学式文字読み取り装置)で読取って電子データに変換する技術が実用化され、業務の効率化に有効であるとして様々な分野で使用されている。特に、ビジネス分野では、行と列の位置関係が定義されたマトリックス表記が可能な電子データ(以下、帳票データと称する。)に変換する技術が便利に使用されている。
【0003】
OCRから出力される未加工の帳票データは、紙帳票に含まれる情報のほぼ全部が含まれている。そのため、利用者が帳票データの中から目的の情報を抽出する時は、利用者が帳票データを目で見て該当する部分を特定し、必要なデータを抜き出して転記するという作業が行われている。これは、利用者にとって大きな負担になっているだけでなく、目的の情報を的確に抽出できない可能性もあるので、目的の情報を容易且つ的確に抽出する技術が求められている。
【0004】
従来、例えば特許文献1に開示されているように、行列形式の電子帳票(帳票データ)の中の、指定された行列形式の検索表領域のデータを検索する装置であって、検索条件受付手段、ラベル設定手段、検索実行手段及び表示手段を有し、これらが動作することによって、利用者の検索条件に合うデータ(特定データ)が自動的に抽出される帳票検索装置があった。
【0005】
検索条件受付手段は、利用者が希望する検索条件を受け付ける手段で、ラベル設定手段は、指定された領域の最上行及び列の少なくとも一部をラベルとして設定する手段である。検索実行手段は、ラベル設定手段が設定したラベル中の、利用者の検索条件を満たすラベルによって特定される領域に含まれるデータの検索を実行し、表示手段が、検索実行手段が検索して得たデータに対応してラベルを表示部に表示する動作を行う。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2012-128606号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1の帳票検索装置は、利用者は、検索を行う時に、電子帳票(帳票データ)の中から特定の検索表領域を選択する作業を行う必要がある。つまり、目的に合う検索表領域を目で見て特定しなければならないので、特に電子帳票の規模が大きい場合、利用者にとって大きな負担であり、しかも、目的に合う検索表領域を見逃してしまう可能性がある。
【0008】
本発明は、上記背景技術に鑑みて成されたものであり、マトリックス表記が可能な電子データである帳票データの中から必要な情報を容易且つ的確に抽出できる帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
請求項1記載の発明は、行と列の位置関係が定義されてマトリックス表記が可能な電子データである帳票データの中から、利用者が希望する特定データを自動的に抽出して出力するコンピュータシステムであって、
前記特定データは、前記帳票データをマトリックス表記したマップを想定した時、前記マップの中の、利用者の希望に合致した項目名が一方向に並ぶセル領域である項目名ブロックのデータと、前記項目名ブロックに対応したデータが並ぶセル領域である内容ブロックのデータとで構成されるものであり、
項目名辞書、表項目名モデル作成手段、項目名ブロック抽出手段、内容ブロック抽出手段及び特定データ出力手段を備え、前記項目名辞書は、利用者によって入力された指定項目名と当該指定項目名に対応するデータの型式とを相互に紐付けて格納した辞書であり、前記表項目名モデル作成手段には、前記帳票データに含まれると想定される複数の語句と、当該語句同士の関連度を示す情報とで構成される語句関連性モデルが設定されており、前記表項目名モデル作成手段は、前記項目名辞書を参照して前記指定項目名を取得し、前記語句関連性モデルを使用して、前記指定項目名と一定以上の関連度を有する語句を項目名候補として抽出するとともに、抽出した前記項目名候補が前記指定項目名に合致する確率値を算出し、前記項目名候補と前記確率値とを紐付けした表項目名モデルを作成する処理を行い、前記項目名ブロック抽出手段は、前記帳票データが格納された各セルのデータを分析し、前記表項目名モデルの前記項目名候補と同じか又は類似度が高い語句が一方向に並ぶk行1列又は1行k列(kは自然数)のセル領域を前記項目名ブロックとして抽出する処理を行い、
前記内容ブロック抽出手段は、前記項目名辞書を参照して、前記項目名ブロックのセルの語句の中の、前記指定項目名と一致する語句に各々紐付けられているデータの型式を認識するとともに、前記項目名ブロックの中の、前記指定項目名と一致する語句が格納されたセルに隣接するセル領域のセルのデータを分析することによって、前記項目名辞書で認識した型式のデータが格納された全てのセルを含むセル領域であって、前記項目名ブロックと隣接するk行n列のセル領域又はn行k列(nは自然数)のセル領域を特定し、当該セル領域を前記内容ブロックとして抽出する処理を行い、
前記特定データ出力手段は、抽出された前記項目名ブロック及び前記内容ブロックの各セルに格納されたデータを前記特定データとして出力する処理を行う帳票データ検索システムである。
【0010】
前記語句関連性モデルは、複数の前記帳票データに基づく機械学習によって作成された学習済みモデルであることが好ましい[請求項2記載の発明]。
【0011】
前記項目名ブロック抽出手段は、前記帳票データが格納された各セルのデータについて、前記表項目名モデルに含まれる個々の前記項目名候補に対する類似度を算出し、算出した前記類似度が第一の閾値を超えたセルに対して、対応する前記項目名候補に紐付けされた前記確率値を割り付けるとともに、算出した前記類似度が第一の閾値以下だったセルに対して、確率値ゼロを割り付け、さらに、前記各セルに割り付けられた確率値に、行方向又は列方向に隣接するセルに割り付けられた前記確率値に係数a(0<a<1)を乗じて求まる補正分を加算することによって各セルの確率値を補正し、補正後の前記確率値が第二の閾値を超えているセルが一方向に連続するk行1列又は1行k列(kは自然数)のセル領域を、前記項目名ブロックとして抽出する処理を行う構成にすることが好ましい[請求項3記載の発明]。
【0012】
前記特定データは、前記項目名ブロックのデータと、前記内容ブロックのデータと、前記内容ブロックに対応したデータが並ぶセル領域である補助項目名ブロックのデータとで構成されるものであり、補助項目名抽出手段を備え、前記補助項目名抽出手段は、前記内容ブロックの、前記項目名ブロックと交差する位置に隣接するセル領域を前記補助項目名ブロックとして抽出する処理を行い、前記特定データ出力手段は、抽出された前記項目名ブロック、前記内容ブロック及び前記補助項目名ブロックの各セルに格納されたデータを前記特定データとして出力する処理を行う構成にしてもよい[請求項4記載の発明]。
【0013】
請求項5記載の発明は、行と列の位置関係が定義されてマトリックス表記が可能な電子データである帳票データの中から、利用者が希望する特定データを自動的に抽出して出力するコンピュータシステムが実行する情報処理方法であって、
前記特定データは、前記帳票データをマトリックス表記したマップを想定した時、前記マップの中の、利用者の希望に合致した項目名が一方向に並ぶセル領域である項目名ブロックのデータと、前記項目名ブロックに対応したデータが並ぶセル領域である内容ブロックのデータとで構成されるものであり、
前記コンピュータシステムには、前記帳票データに含まれると想定される複数の語句と、当該語句同士の関連度を示す情報とで構成される語句関連性モデルが設定され、さらに、利用者によって入力された指定項目名と、当該指定項目名に対応するデータの型式とを相互に紐付けして格納した項目名辞書が設けられており、
表項目名モデル作成ステップ、項目名ブロック抽出ステップ、内容ブロック抽出ステップ及び特定データ出力ステップを備え、前記表項目名モデル作成ステップでは、前記項目名辞書を参照して前記指定項目名を取得し、前記語句関連性モデルを使用して、前記指定項目名と一定以上の関連度を有する語句を項目名候補として抽出するとともに、抽出した前記項目名候補が前記指定項目名に合致する確率値を算出し、前記項目名候補と前記確率値とを紐付けした表項目名モデルを作成する処理を行い、前記項目名ブロック抽出ステップでは、前記帳票データが格納された各セルのデータを分析し、前記表項目名モデルの前記項目名候補と同じ又は類似度が高い語句が一方向に並ぶk行1列又は1行k列(kは自然数)のセル領域を前記項目名ブロックとして抽出する処理を行い、前記内容ブロック抽出ステップでは、前記項目名辞書を参照して、前記項目名ブロックのセルの語句の中の、前記指定項目名と一致する語句に各々紐付けられているデータの型式を認識するとともに、前記項目名ブロックの中の、前記指定項目名と一致する語句が格納されたセルに隣接するセル領域のセルのデータを分析することによって、前記項目名辞書で認識した型式のデータ格納された全てのセルを含むセル領域であって、前記項目名ブロックと隣接するk行n列のセル領域又はn行k列(nは自然数)のセル領域を特定し、当該セル領域を前記内容ブロックとして抽出する処理を行い、前記特定データ出力ステップでは、抽出された前記項目名ブロック及び前記内容ブロックの各セルに格納されたデータを前記特定データとして出力する処理を行う帳票データ検索方法である。
【0014】
前記語句関連性モデルは、複数の前記帳票データに基づく機械学習によって作成された学習済みモデルであることが好ましい[請求項6記載の発明]。
【0015】
前記項目名ブロック抽出ステップでは、前記帳票データが格納された各セルのデータについて、前記表項目名モデルに含まれる個々の前記項目名候補に対する類似度を算出し、算出した前記類似度が第一の閾値を超えたセルに対して、対応する前記項目名候補に紐付けされた前記確率値を割り付けるとともに、算出した前記類似度が第一の閾値以下だったセルに対して、確率値ゼロを割り付け、さらに、前記各セルに割り付けられた確率値に、行方向又は列方向に隣接するセルに割り付けられた前記確率値に係数a(0<a<1)を乗じて求まる補正分を加算することによって各セルの確率値を補正し、補正後の前記確率値が第二の閾値を超えているセルが一方向に連続するk行1列又は1行k列(kは自然数)のセル領域を、前記項目名ブロックとして抽出する処理を行う構成にすることが好ましい[請求項7記載の発明]。
【0016】
前記特定データは、前記項目名ブロックのデータと、前記内容ブロックのデータと、前記内容ブロックに対応したデータが並ぶセル領域である補助項目名ブロックのデータとで構成されるものであり、補助項目名抽出ステップを備え、前記補助項目名抽出ステップでは、前記内容ブロックの、前記項目名ブロックと交差する位置に隣接するセル領域を前記補助項目名ブロックとして抽出する処理を行い、前記特定データ出力ステップでは、抽出された前記項目名ブロック、前記内容ブロック及び前記補助項目名ブロックの各セルに格納されたデータを前記特定データとして出力する処理を行う構成にしてもよい[請求項8記載の発明]。
【0017】
請求項9記載の発明は、請求項5乃至8のいずれか記載の帳票データ検索方法をコンピュータシステムに実行させるための、各ステップ実行用プログラムを備える帳票データ検索プログラムである。
【発明の効果】
【0018】
本発明の帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラムによれば、利用者が帳票データから必要な情報を抽出したい時、関連するキーワード(指定項目名等)を指定するだけで、利用者の希望に合致する特定データを自動的に抽出し出力することができる。帳票データを目で見て検索対象の領域特定する作業が不要なので、帳票データの規模が非常に大きい場合でも、短時間で的確に検索を行うことができ、利用者の負担も大幅に軽減される。そして、帳票データに含まれる多くの有益な情報を最大限に活用することができる。
【0019】
また、帳票データの中から項目名ブロック(指定項目名に合致する項目名が格納されたセル領域)を抽出する処理は、利用者の指定項目名と一致する語句(項目名)だけに着目するのではなく、語句関連性モデル及び表項目モデルから推定される語句(項目名)にも着目するので、利用者の意図に合う項目名ブロックをより的確に抽出することが可能になる。帳票データの中から内容ブロック(項目名ブロックに対応した情報が格納されたセル領域)を抽出する処理も、独特な項目名辞書を使用することによって容易且つ的確に行うことができる。
【図面の簡単な説明】
【0020】
図1】本発明の帳票データ検索システムの一実施形態を示すシステム構成図である。
図2】本発明の帳票データ検索方法の一実施形態を示すフローチャートである。
図3】検索対象の帳票データをマトリックス表記したマップである。
図4図1の中の語句関連性モデルの作成方法を示す図表である。
図5図1の中の項目名辞書の内容を示す図表である。
図6図2の中の表項目名モデル作成ステップの流れを示す図(a)、表項目名モデルの内容を示すイメージ図(b)である。
図7図2の中の項目名ブロック抽出ステップで行う処理の流れを示す図(a)、(b)である。
図8図2の中の内容ブロック抽出ステップで行う処理の流れを示す図(a)、(b)である。
図9図2の中の補助項目名ブロックで行う処理を示す図である。
図10図2の中の特定データ出力ブロックが出力する特定データをマトリックス表記したマップである。
【発明を実施するための形態】
【0021】
以下、本発明の帳票データ検索システムと帳票データ検索方法及び帳票データ検索プログラムの一実施形態について、図面に基づいて説明する。この実施形態の帳票データ検索システム10は、図1に示すように、帳票データCDの中から、利用者が希望する特定データTDを自動的に抽出して出力するコンピュータシステムである。また、この実施形態の帳票データ検索方法は、帳票データ検索システム10が実行する検索方法で、図2のフローチャートのように表される。また、この実施形態の帳票データ検索プログラムは、図2に示す帳票データ検索方法を帳票データ検索システム10に実行させるための、各ステップ実行用のプログラムである。
【0022】
以下、説明を分かりやすくするため、検索対象の帳票データCDは、自動車に関する様々な情報を含んだデータであり、利用者が抽出したい情報は、自動車の車体サイズの情報だと仮定して説明する。
【0023】
帳票データCDは、図3に示すように、行と列の位置関係が定義されてマトリックス表記が可能なテキストデータにより構成された電子データで、例えば、紙帳票に記載された情報をOCRシステム12で処理することによって作成されたCSV型式のデータやエクセル型式のデータである。
【0024】
また、特定データTDは、図10に示すように、帳票データCDをマトリックス表記したマップの中の、利用者の希望に合致した項目名が一方向に並ぶセル領域である項目名ブロックBR1のデータと、項目名ブロックBR1に対応したデータが並ぶセル領域である内容ブロックBR2のデータと、内容ブロックBR2に対応したデータが並ぶセル領域である補助項目名ブロックBR3のデータとで構成される。
【0025】
帳票データ検索システム10の構成を簡単に説明すると、帳票データ検索システム10は、図1に示すように、表項目名モデル作成手段14、項目名ブロック抽出手段16、内容ブロック抽出手段18、補助項目名ブロック抽出手段20及び特定データ出力手段22を備え、さらに項目名辞書24が設けられている。また、表項目モデル作成手段14には、あらかじめ独特な語句関連性モデル26が設定されている。
【0026】
語句関連性モデル26は、帳票データCDに含まれると想定される複数の語句と、当該語句同士の関連度を示す情報とで構成される。図4は、語句関連性モデル26のデータ構造のイメージを表した図で、複数の語句同士の離間距離が関連度に対応し、距離が近いものほど関連度が相対的に高いことを示している。例えば、図中の左上のエリアにある「全長」は、近接している「全幅」や「全高」と関連度が非常に高く、少し離れたエリアにある「ホイルベース」、「客室寸法」、「燃費」とは関連度が低い。この語句関連性モデル26は、任意に収集された複数の帳票データに基づく機械学習によって作成された学習済みモデルである。この語句関連性モデル26は、利用者が検索を行う前に、あらかじめシステム管理者により設定される。
【0027】
項目名辞書24は、利用者が抽出したいデータを指定するために入力した情報を格納した辞書で、図5に示すように、指定項目名と、当該指定項目に対応するデータの型式とを相互に紐付けして格納されている。例えば、指定項目名が「全長」、「ホイルベース」、「最低地上高」の場合、一般的には長さを示す数値データが対応するので、データの型式として「数字列」が紐付けられる。その他、指定項目名が「駆動方式」だとすると、一般的には前輪駆動か後輪駆動かを示す文字データが対応するので、データの型式として「文字列」が紐付けられることになる。図5の中の表記のゆれについては、後述する。
【0028】
図1に示す各手段14,16,18,20,22は、図2に示す表項目名モデル作成ステップS11、項目名ブロック抽出ステップS12、内容ブロック抽出ステップS13、補助項目名ブロック抽出ステップS14及び特定データ出力ステップS15を各々実行する。
【0029】
次に、図2のフローチャートに沿って、帳票データ検索システム10が実行する帳票データ検出方法を説明する。
【0030】
まず、利用者が、希望の指定項目名及び当該指定項目に対応するデータの型式を帳票データ検索システム10に入力し、これらの情報が項目名辞書24に格納される。そして、表項目名モデル作成手段14が、表項目名モデル作成ステップS11を実行する。表項目名モデル作成ステップS11では、項目名辞書24を参照して指定項目名を取得し、語句関連性モデル26を使用して、指定項目名と一定以上の関連度を有する語句を項目名候補として抽出するとともに、抽出した項目名候補が指定項目名に合致する確率値を算出し、項目名候補と確率値とを紐付けした表項目名モデル28を作成する処理を行う。
【0031】
例えば図6(a)、(b)に示すように、利用者の指定項目名が「全長」、「ホイルベース」及び「最低地上高」の場合、表項目名モデル作成手段14は、語句関連性モデル26を使用して、指定項目名「全長」、「ホイルベース」又は「最定地上高」と一定以上の関連度を有する「全長」、「全幅」、「全高」、・・・、「客室寸法」の9つの語句を項目名候補として抽出する。この例では、一定以上の関連度を有するということは、確率値が約0.70以上であることと等価である。
【0032】
例えば、語句関連性モデル26の中の「全長」の語句は、指定項目名「全長」と一致するので、必然的に項目名候補だと判定され、確率値1.00が紐付けられる。また、語句関連性モデル26の中の「全幅」の語句は、指定項目名と一致しないものの、「全長」に対して一定以上の関連度を有していると判定されて項目名候補となり、所定の方法で算出された確率値0.88が紐付けられる。一方、語句関連性モデル26の中の「燃費」や「馬力」等の語句は、指定項目名に対して一定以上の関連度を有していないと判定され、項目名候補にならない(仮に確率値を算出しても、0.70未満になると判定される)。
【0033】
表項目名モデル作成ステップS11が終了すると、次は、項目名ブロック抽出手段16が項目名ブロック抽出ステップS12を実行する。項目名ブロック抽出ステップS12では、帳票データCDが格納された各セルのデータを分析し、表項目名モデル28の項目名候補と同じ又は類似度が高い語句が一方向に並ぶk行1列又は1行k列(kは自然数)のセル領域を項目名ブロックBR1として抽出する処理を行う。
【0034】
まず、帳票データCDが格納された各セルのデータについて、表項目名モデル28に含まれる個々の項目名候補に対する類似度を算出し、算出した類似度が第一の閾値を超えるセルを抽出する。類似度の計算方法は特に限定されず、公知な計算方法の中から自由に選択することができる。
【0035】
例えば、図7(a)に示す帳票データCDのA列を見ると、「★」印を付した4つのセルのデータ、すなわち、セルcAの「全長」、セルdAの「全幅」、セルeAの「ホイルベース」、セルgAの「最低地上高」は、項目名候補に対して類似度が第一の閾値を超えると判定される。一方、セルfAの「トレッド」というデータは、類似度が第一の閾値以下だと判定され、データが格納されていないセルbA,hA等も、データの類似度が第一の閾値以下だと判定される。
【0036】
A列以外のセル(例えばB列~E列のセル)のデータも同様の考え方で判定され、すべてのセルについて、データの類似度が第一の閾値以下だと判定される。
【0037】
そして、図7(b)に示すように、類似度が第一の閾値を超えると判定された「★」印を付したセルcA,dA,eA,gAに対し、表項目名モデル28の中の、対応する項目名候補に紐付けられた確率値1.00,0.88,1.00,0.96を各々割り付ける。一方、類似度が第一の閾値以下であると判定されたその他のセルに対しては、一律の確率値0を割り付ける。
【0038】
各セルに確率値を割り付けると、次に、その確率値を補正する処理を行う。具体的には、行方向又は列方向(ここでは行方向)に隣接するセルに割り付けられた確率値に所定の係数a(0<a<1)を乗じて補正分を算出し、算出した補正分を当初の確率値に加算する。
【0039】
係数aを1/2に設定したとすると、例えばセルdAの場合、上側に隣接するセルcAの当初の確率値1.00を1/2倍した0.50と、下側に隣接するセルeAの当初の確率値1.00を1/2倍した0.50とを合計した1.00が補正分となり、セルdAの確率値は、当初の確率値0.88に補正分1.00を加算して1.88に補正される。また、セルfAの場合、上側に隣接するセルeAの当初の確率値1.00を1/2倍した0.50と、下側に隣接するセルgAの当初の確率値1.00を1/2倍した0.50とを合計した1.00が補正分となり、セルfAの確率値は、当初の確率値0に補正分1.00を加算して1.00に補正される。また、セルfBの場合、上下に隣接する2つのセルの当初の確率値が0なので、補正分は0となり、セルfBの確率値は、当初の確率値0に補正分0を加算して0に補正される(つまり、補正後の確率値は、当初の確率値と同じになる)。その他のセルの確率値も、同様の考え方で補正される。
【0040】
各セルの確率値の補正が終了すると、項目名ブロック抽出手段16は、補正後の確率値が第二の閾値を超えているセルが一方向に並ぶセル領域を特定し、特定したセル領域を項目名ブロックBR1として抽出する。図7(b)の例では、第二の閾値が0.80に設定され、セル領域cA~gA(5行1列のセル領域)が項目名ブロックBR1として抽出される。
【0041】
項目名ブロック抽出ステップS12が終了すると、次は、内容ブロック抽出手段18が内容ブロック抽出ステップS13を実行する。内容ブロック抽出ステップS13は、図8(b)に示すステップS13-1~S13-3を実行し、項目名ブロックBR1に対応したデータが格納されているセル領域を特定し、これを内容ブロックBR2として抽出する処理を行う。
【0042】
図8(a)の例では、内容ブロックBR2になり得るのは、項目名ブロックBR1に隣接するセル領域αである。まず、項目名辞書24を参照し、項目名ブロックBR1の語句の中の、指定項目名と一致する語句に各々紐付けられているデータの型式を認識する(ステップS13-1)。つまり、「全長」、「ホイルベース」、「最低地上高」の各語句に対し、「数字列」というデータの型式が各々紐付けられていることを認識する。
【0043】
このとき、項目名ブロックBR1の語句と完全に一致するものが項目名辞書24の指定項目名の中にあればよいが、項目名ブロックBR1の語句の表記のゆれの影響で、対応するデータの型式が認識できないという状況になる可能性がある。したがって、そのような状況を回避するため、利用者が指定項目名及びデータの型式を入力する時に、指定項目名と同義の語句(指定項目名と一致しているとみなず語句)も合わせて入力してもらうようにするとよい。これによって、図5に示すような項目名辞書24を得ることができ、項目名ブロックBR1の語句の表記ゆれも考慮してデータの型式を認識することができる。
【0044】
次にステップS13-2に進み、項目名ブロックBR1の中の、指定項目名と一致する語句が格納されたセルに隣接するセル領域のセル(セル領域αの中の特定のセル)のデータの型式を分析し、項目名辞書24で認識した形式のデータが格納されたセルを抽出する。例えば項目名ブロックBR1の中の「全長」については、セル領域αの中のc行のセルの中から、データの型式が「数字列」のセルcB,cC,cDが抽出される。また、「ホイルベース」については、セル領域αの中のe行のセルの中から、データの型式が「数字列」のセルeB,eC,eDが抽出される。同様に、「最低地上高」についても、該当するセルgB,gC,gDが抽出される。したがって、図8(a)の例では、ステップS13-2を行うことによって合計9個のセルが抽出されることになる。
【0045】
そしてステップS13-3に進み、ステップS13-2で抽出した全てのセルを含むセル領域であって、項目名ブロックBR1と隣接する矩形のセル領域を特定し、当該セル領域を内容ブロックBR2として抽出する。つまり、図8(a)の例では、(c~g)×(B~D)の5行3列のセル領域が内容ブロックBR2として抽出される。
【0046】
内容ブロック抽出ステップS13が終了すると、次は、補助項目名ブロック抽出手段20が補助項目名ブロック抽出ステップS14を実行する。補助項目名ブロック抽出ステップS14では、内容ブロックBR2の、項目名ブロックBR1と交差する位置に隣接するセル領域を前記補助項目名ブロックとして抽出する処理を行う。図9の例では、内容ブロックBR2の上側に隣接するセル領域にデータが格納されているので、(a~b)×(B~D)の2行3列のセル領域が補助項目名ブロックBR3として抽出される。あるいは、b×(B~D)の1行3列のセル領域が抽出される設定にしてもよい。
【0047】
補助項目名内容ブロック抽出ステップS14が終了すると、次は、特定データ出力手段22が特定データ出力ステップS15を実行する。特定データ出力ステップS15では、先のステップで抽出した項目名ブロックBR1、内容ブロックBR2及び補助項目名ブロックBR3の各セルに格納されたデータを、図10に示す特定データTDとして出力する処理を行う。特性データTDは、行と列の位置関係が定義されてマトリックス表記が可能なCSV型式やエクセル型式のデータである。
【0048】
このように、図2に示す5つのステップS11~S15を順に実行することによって、帳票データCDの中から、利用者の希望に合う特定データTDを的確に抽出して出力することができる。
【0049】
ここで、上述したステップS11~S15で行う処理内容や判定方法に関して補足する。例えば、上記の表項目名モデル作成ステップS11の説明では、項目名候補として抽出する語句を確率値が約0.70以上の語句としたが、0.70という数値はあくまでも一例であり、検索対象の帳票データCDの種類や特徴、利用者の指定項目名等に合わせて、自由に変更することができる。
【0050】
また、項目名ブロック抽出ステップS12の中で、第一の閾値に基づいて類似度が高いか低いかを判定するが、類似度の計算方法や第一の閾値は、検索対象の帳票データCDの種類や特徴、利用者の指定項目名等に合わせて、自由に変更することができる。
【0051】
上記の項目名ブロック抽出ステップS12の説明では、係数α=1/2として確率値の補正を行い、補正後の確率値が高いか低いかを第二の閾値0.80で判定しているが、これらの値も自由に変更することができる。ただし、図7(b)の例を見ると、αを小さくし過ぎると、セルfAの補正後の確率値が低くなって項目名ブロックBR1を的確に抽出できなくなる可能性があり、第二の閾値を低くし過ぎると、項目名ブロックBR1に含めるべきでないセルbA,hAも項目名ブロックBR1として抽出してしまう可能性が出てくる。したがって、係数αや第二の閾値を設定する時は、検索対象の帳票データCDの種類や特徴、利用者の指定項目名等に合わせ、適切な値に設定する。
【0052】
上記の内容ブロック抽出ステップS13の説明では、内容ブロックBR2を構成する15個のセルに全てデータが格納されているが、例えば特定のセルにデータが格納されていない場合もあり得る。この場合、利用者は、出力された特定データTDを見ることによって、「この帳票データCDは、一部のデータが欠落している。」ということを知ることができる。
【0053】
図7図10に示した具体例では、項目名ブロックBR1としてk行1列のセル領域が抽出されて「行ラベル」となり、これに合わせ、内容ブロックBR2としてk行n列のセル領域が抽出され、さらに補助項目名ブロックBR3として2行n列のセル領域が抽出されて「列ラベル」となっている。しかし、検索対象の帳票データCDによっては、上記と同様の処理を行った結果、項目名ブロックBR1として1行k列のセル領域が抽出されて「列ラベル」となり、これに合わせ、内容ブロックBR2としてn行k列のセル領域が抽出され、さらに補助項目名ブロックBR3としてn行2列が抽出されて「行ラベル」となる場合もある。
【0054】
以上説明したように、この実施形態の帳票データ検索システム10、帳票データ検索方法及び帳票データ検索プログラムによれば、利用者が帳票データCDから必要な情報を抽出したい時、関連するキーワード等(指定項目名等)を指定するだけで、利用者の希望に合致する特定データTDを自動的に抽出し出力することができる。帳票データを目で見て検索対象の領域を特定する必要がないので、帳票データCDの規模が非常に大きい場合でも、短時間で的確に検索を行うことができ、利用者の負担も大幅に軽減される。そして、帳票データCDに含まれる多くの有益な情報を最大限に活用することができる。
【0055】
帳票データCDの中から項目名ブロックBR1を抽出する処理は、利用者の指定項目名と一致する語句(項目名)だけに着目するのではなく、語句関連性モデル26や表項目モデル28から推定される語句(項目名)にも着目するので、利用者の意図に合う項目名ブロックBR1をより的確に抽出することが可能になる。また、帳票データCDの中から内容ブロックBR2を抽出する処理も、容易且つ的確に行うことができる。さらに、補助項目名ブロックBR3を抽出する処理を行うことによって、マトリクス表示した時の行ラベルと列ラベルの両方が抽出されるので、利用者が見やすい形式で検索結果を出力することができる。
【0056】
なお、本発明の帳票データ検索システム、帳票データ検索方法及び帳票データ検索プログラムは上記実施形態に限定されるものではない。例えば、表項目名モデル作成ステップで使用する語句関連性モデルは、図4に示す語句関連性モデル26のように、複数の帳票データに基づく機械学習によって作成された学習済みモデルであることが好ましいが、機械学習以外の方法で設定されたモデル(例えば、システム管理者等が独自に考えたモデル)を使用してもよい。
【0057】
上記実施形態は、補助項目名ブロック抽出手段20と補助項目名ブロック抽出ステップS14を設ける構成になっているが、利用者が希望する情報の内容によっては、補助項目名ブロックBR3を抽出する必要がないケースがあるので、その場合は、補助項目名ブロック抽出手段と補助項目名ブロック抽出ステップは省略することができる。
【0058】
また、上記実施形態の説明では、「検索対象の帳票データCDは、自動車に関する様々な情報を含んだデータである。」と仮定して説明したが、帳票データCDは、自動車に関する情報とそれ以外の雑多な情報(例えば、自動車に全く関係のない情報等)が混在しているデータであってもよく、帳票データCDの内容に対応した語句関連性モデル26を設定することによって、上記の流れで自動車の車体サイズの情報を容易に抽出することができ、自動車に関係のない情報であっても、同様の流れで問題なく抽出することができる。
【符号の説明】
【0059】
10 検索データ検索システム
12 OCRシステム
14 表項目名作成手段
16 項目名ブロック抽出手段
18 内容ブロック抽出手段
20 補助項目名ブロック抽出手段
22 特定データ出力手段
24 項目名辞書
26 語句関連性モデル
28 表項目名モデル
BR1 項目名ブロック
BR2 内容ブロック
BR3 補助項目名ブロック
CD 帳票データ
S11 表項目名モデル作成ステップ
S12 項目名ブロック抽出ステップ
S13 内容ブロック抽出ステップ
S14 補助項目名ブロック抽出ステップ
S15 特定データ出力ステップ
TD 特定データ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10