特許6973782 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ミラボの特許一覧

特許6973782標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6973782

(24)【登録日】2021年11月8日

(45)【発行日】2021年12月1日

(54)【発明の名称】標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム

(51)【国際特許分類】

G06K 9/20 20060101AFI20211118BHJP

G06T 7/00 20170101ALI20211118BHJP

【ＦＩ】

G06K9/20 340C

G06T7/00 350C

【請求項の数】9

【全頁数】20

(21)【出願番号】特願2017-186661(P2017-186661)

(22)【出願日】2017年9月27日

(65)【公開番号】特開2019-61550(P2019-61550A)

(43)【公開日】2019年4月18日

【審査請求日】2020年9月11日

(73)【特許権者】

【識別番号】514323028

【氏名又は名称】株式会社ミラボ

(74)【代理人】

【識別番号】100088580

【弁理士】

【氏名又は名称】秋山敦

(74)【代理人】

【識別番号】100111109

【弁理士】

【氏名又は名称】城田百合子

(72)【発明者】

【氏名】谷川一也

(72)【発明者】

【氏名】鈴木健太

【審査官】新井則和

(56)【参考文献】

【文献】特開２００９−１２８９５８（ＪＰ，Ａ）

【文献】国際公開第２０１４／０６８７７０（ＷＯ，Ａ１）

【文献】特開平１１−２０３４１５（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｋ９／００−９／８２

Ｇ０６Ｔ７／００−７／９０

(57)【特許請求の範囲】

【請求項1】

複数の帳票に記載された複数の項目名を取得する項目名取得部と、
前記複数の項目名を複数のクラスタのいずれかに分類するクラスタリング部と、
前記複数のクラスタのうちの注目クラスタに分類された項目名に基づいて、当該注目クラスタのタイプを複数のタイプの中から決定するタイプ決定部と、
前記タイプ決定部により決定したタイプに対応するルールに基づいて、前記注目クラスタに分類された項目名を共通の文字列を有する項目名からなるサブクラスタに細分化するとともに、当該サブクラスタに属する項目名について前記共通の文字列以外の文字列に基づく複数の項目名候補を生成する項目名候補生成部と、
前記サブクラスタの前記複数の項目名候補の中から所定の基準に基づいて選択した項目名候補を、前記サブクラスタに対応する標準項目名として設定する標準項目名設定部と、
を備えることを特徴とする標準項目名設定装置。

【請求項2】

前記複数の項目名のそれぞれの特徴ベクトルを生成する特徴ベクトル生成部を備え、
前記クラスタリング部は、前記複数の項目名のそれぞれの特徴ベクトルの類似度に基づいて、前記複数の項目名を前記複数のクラスタに分類する
ことを特徴とする請求項１に記載の標準項目名設定装置。

【請求項3】

学習データとしての１以上の帳票に出現する単語を機械学習した学習モデルを記憶する学習モデル記憶部を備え、
前記特徴ベクトル生成部は、前記項目名を分解した各単語の前記学習モデルに基づくベクトルを合成して、前記項目名の特徴ベクトルを生成する
ことを特徴とする請求項２に記載の標準項目名設定装置。

【請求項4】

前記複数のタイプごとに、キーワード、正規表現のうち少なくとも一方を含むマッチングパターンを対応付けて記憶したマッチングパターン記憶部を備え、
前記タイプ決定部は、前記注目クラスタに分類された項目名にマッチするマッチングパターンに基づいて、前記複数のタイプのうちから前記注目クラスタのタイプを決定する
ことを特徴とする請求項１乃至３のいずれかに記載の標準項目名設定装置。

【請求項5】

前記項目名候補生成部は、前記注目クラスタに分類された項目名のうち、前記注目クラスタのタイプに対応付けて記憶されたマッチングパターンに該当する文字列以外から前記共通の文字列を設定する
ことを特徴とする請求項４に記載の標準項目名設定装置。

【請求項6】

前記標準項目名設定部は、前記サブクラスタについての前記複数の項目名候補のうち、前記サブクラスタにおける出現頻度が最も高い項目名候補を前記標準項目名として設定する
ことを特徴とする請求項１乃至５のいずれかに記載の標準項目名設定装置。

【請求項7】

前記複数のクラスタのそれぞれについて、前記タイプ決定部と、前記項目名候補生成部と、前記標準項目名設定部による処理を実行して、複数の標準項目名を設定する
ことを特徴とする請求項１乃至６のいずれかに記載の標準項目名設定装置。

【請求項8】

コンピュータが、
複数の帳票に記載された複数の項目名を取得し、
前記複数の項目名を複数のクラスタのいずれかに分類し、
前記複数のクラスタのうちの注目クラスタに分類された項目名に基づいて、当該注目クラスタのタイプを複数のタイプの中から決定し、
前記決定したタイプに対応するルールに基づいて、前記注目クラスタに分類された項目名を共通の文字列を有する項目名からなるサブクラスタに細分化するとともに、当該サブクラスタに属する項目名について前記共通の文字列以外の文字列に基づく複数の項目名候補を生成し、
前記サブクラスタの前記複数の項目名候補の中から所定の基準に基づいて選択した項目名候補を、前記サブクラスタに対応する標準項目名として設定することを特徴とする標準項目名設定方法。

【請求項9】

複数の帳票に記載された複数の項目名を取得する項目名取得部と、
前記複数の項目名を複数のクラスタのいずれかに分類するクラスタリング部と、
前記複数のクラスタのうちの注目クラスタに分類された項目名に基づいて、当該注目クラスタのタイプを複数のタイプの中から決定するタイプ決定部と、
前記タイプ決定部により決定したタイプに対応するルールに基づいて、前記注目クラスタに分類された項目名を共通の文字列を有する項目名からなるサブクラスタに細分化するとともに、当該サブクラスタに属する項目名について前記共通の文字列以外の文字列に基づく複数の項目名候補を生成する項目名候補生成部と、
前記サブクラスタの前記複数の項目名候補の中から所定の基準に基づいて選択した項目名候補を、前記サブクラスタに対応する標準項目名として設定する標準項目名設定部としてコンピュータを機能させるための標準項目名設定プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラムに関する。

【背景技術】

【0002】

自治体や企業等では多数の帳票が利用されている。帳票は紙媒体であることが一般的ではあるが、紙媒体の帳票を電子化した入力フォームを用いることで帳票の管理コストを低減することが望まれている。

【0003】

例えば、下記の特許文献１においては、帳票の種類を判別し、帳票の種類に応じた入力フォームを利用して帳票の受付処理をするシステムについて開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００４−１２６９１０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、同じ種類の帳票であっても、自治体や企業等に応じて対応する項目の名称（項目名）が異なっていることがある。そのため、数多くの種類の帳票について項目名を標準化しようとすると、項目名のリストが膨大なものとなるため、人手で整理しようとすると労力が極めて大きいという課題があった。

【0006】

本発明は、上記の課題に鑑みてなされたものであり、その目的は、複数の帳票において対応する項目名に対し標準的な項目名を設定できる標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラムを提供することにある。

【課題を解決するための手段】

【0007】

上記課題は、本発明に係る標準項目名設定装置によれば、複数の帳票に記載された複数の項目名を取得する項目名取得部と、前記複数の項目名を複数のクラスタのいずれかに分類するクラスタリング部と、前記複数のクラスタのうちの注目クラスタに分類された項目名に基づいて、当該注目クラスタのタイプを複数のタイプの中から決定するタイプ決定部と、前記タイプ決定部により決定したタイプに対応するルールに基づいて、前記注目クラスタに分類された項目名を共通の文字列を有する項目名からなるサブクラスタに細分化するとともに、当該サブクラスタに属する項目名について前記共通の文字列以外の文字列に基づく複数の項目名候補を生成する項目名候補生成部と、前記サブクラスタの前記複数の項目名候補の中から所定の基準に基づいて選択した項目名候補を、前記サブクラスタに対応する標準項目名として設定する標準項目名設定部と、を備えることにより解決される。

【0008】

上記課題は、本発明に係る標準項目名設定方法によれば、コンピュータが、複数の帳票に記載された複数の項目名を取得し、前記複数の項目名を複数のクラスタのいずれかに分類し、前記複数のクラスタのうちの注目クラスタに分類された項目名に基づいて、当該注目クラスタのタイプを複数のタイプの中から決定し、前記決定したタイプに対応するルールに基づいて、前記注目クラスタに分類された項目名を共通の文字列を有する項目名からなるサブクラスタに細分化するとともに、当該サブクラスタに属する項目名について前記共通の文字列以外の文字列に基づく複数の項目名候補を生成し、前記サブクラスタの前記複数の項目名候補の中から所定の基準に基づいて選択した項目名候補を、前記サブクラスタに対応する標準項目名として設定することにより解決される。

【0009】

上記課題は、本発明に係る標準項目名設定プログラムによれば、複数の帳票に記載された複数の項目名を取得する項目名取得部と、前記複数の項目名を複数のクラスタのいずれかに分類するクラスタリング部と、前記複数のクラスタのうちの注目クラスタに分類された項目名に基づいて、当該注目クラスタのタイプを複数のタイプの中から決定するタイプ決定部と、前記タイプ決定部により決定したタイプに対応するルールに基づいて、前記注目クラスタに分類された項目名を共通の文字列を有する項目名からなるサブクラスタに細分化するとともに、当該サブクラスタに属する項目名について前記共通の文字列以外の文字列に基づく複数の項目名候補を生成する項目名候補生成部と、前記サブクラスタの前記複数の項目名候補の中から所定の基準に基づいて選択した項目名候補を、前記サブクラスタに対応する標準項目名として設定する標準項目名設定部としてコンピュータを機能させることにより解決される。

【0010】

上記の標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラムによれば、複数の帳票において対応する項目名に対して１つの標準的な項目名を設定することができる。これにより、対応する複数の項目名を１つの項目名にまとめる労力を軽減できる。

【0011】

上記の標準項目名設定装置において、前記複数の項目名のそれぞれの特徴ベクトルを生成する特徴ベクトル生成部を備え、前記クラスタリング部は、前記複数の項目名のそれぞれの特徴ベクトルの類似度に基づいて、前記複数の項目名を前記複数のクラスタに分類すると好適である。
こうすることで、帳票に記載の互いに類似する複数の項目名に対して１つの標準的な項目名を設定することができる。これにより、複数の類似する項目名を１つの項目名にまとめる労力を軽減できる。

【0012】

上記の標準項目名設定装置において、学習データとしての１以上の帳票に出現する単語を機械学習した学習モデルを記憶する学習モデル記憶部を備え、前記特徴ベクトル生成部は、前記項目名を分解した各単語の前記学習モデルに基づくベクトルを合成して、前記項目名の特徴ベクトルを生成すると好適である。
こうすることで、類似する項目名をまとめて分類する精度を向上できる。

【0013】

上記の標準項目名設定装置において、前記複数のタイプごとに、キーワード、正規表現のうち少なくとも一方を含むマッチングパターンを対応付けて記憶したマッチングパターン記憶部を備え、前記タイプ決定部は、前記注目クラスタに分類された項目名にマッチするマッチングパターンに基づいて、前記複数のタイプのうちから前記注目クラスタのタイプを決定すると好適である。
こうすることで、クラスタのタイプの判定精度を向上できる。

【0014】

上記の標準項目名設定装置において、前記項目名候補生成部は、前記注目クラスタに分類された項目名のうち、前記注目クラスタのタイプに対応付けて記憶されたマッチングパターンに該当する文字列以外から前記共通の文字列を設定すると好適である。
こうすることで、１つのクラスタを１以上のサブクラスタに分類する基準を簡易に定めることができる。

【0015】

上記の標準項目名設定装置において、前記標準項目名設定部は、前記サブクラスタについての前記複数の項目名候補のうち、前記サブクラスタにおける出現頻度が最も高い項目名候補を前記標準項目名として設定すると好適である。
こうすることで、同一のサブクラスタに分類された項目名のうち、最も良く使用されている表現に基づいて標準項目名を設定できる。

【0016】

上記の標準項目名設定装置において、前記複数のクラスタのそれぞれについて、前記タイプ決定部と、前記項目名候補生成部と、前記標準項目名設定部による処理を実行して、複数の標準項目名を設定すると好適である。
こうすることで、帳票の多様な項目名について標準項目名を設定できる。これにより、帳票から標準項目名を設定する労力を軽減できる。

【発明の効果】

【0017】

本発明によれば、複数の帳票において対応する項目名に対し標準的な項目名を設定できる。

【図面の簡単な説明】

【0018】

【図1】情報処理システムの全体構成を示す図である。

【図2】複数の帳票における項目名の関係を示す図である。

【図3】標準項目名の設定処理の流れを説明する図である。

【図4】標準項目名設定装置の機能ブロック図である。

【図5】ニューラルネットワークの構成を説明する図である。

【図6】項目名の特徴ベクトルを説明する図である。

【図7】マッチングパターンテーブルの一例を示す図である。

【図8】項目名候補テーブルの一例を示す図である。

【図9】項目名のクラスタリング処理のフロー図である。

【図10】標準項目名の設定処理のフロー図である。

【発明を実施するための形態】

【0019】

以下、図１乃至図１０を参照しながら、本発明の実施の形態（以下、本実施形態）に係る標準項目名設定装置１０を備える情報処理システム１について説明する。
なお、以下に説明する実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。すなわち、以下に説明するシステムの構成、データ、処理等については、本発明の趣旨を逸脱することなく、変更、改良され得るとともに、本発明にはその等価物が含まれる。

【0020】

[情報処理システム１の構成]
図１に示されるように、情報処理システム１は、標準項目名設定装置１０及び帳票処理装置３０を備える。標準項目名設定装置１０と帳票処理装置３０とは、例えば図示しないインターネットやイントラネット等のネットワークを介して通信可能に接続される。

【0021】

帳票処理装置３０はスキャナ４０に接続される。
スキャナ４０は、紙媒体を光学走査することにより画像情報を取り込む装置である。本実施形態では、スキャナ４０は、帳票Ｐをスキャンしたスキャン画像（画像情報）を、帳票処理装置３０に出力する。
帳票Ｐは、帳簿、伝票、申請書等の定型的な書類である。本実施形態では、多種類の帳票Ｐをスキャナ４０により取り込み、帳票処理装置３０に出力することとする。

【0022】

帳票処理装置３０は、スキャナ４０により取り込んだ帳票Ｐを処理するコンピュータである。具体的には、帳票処理装置３０は、帳票Ｐに対してＯＣＲ（光学文字認識）を実行して、帳票Ｐに記載の文字列を取得する。また、帳票処理装置３０は、罫線、文字列の配置に基づいて、帳票Ｐの表構造を解析する。より具体的には、帳票処理装置３０は、帳票Ｐを構成する項目欄、入力欄、穴埋め入力欄に分けるとともに、項目欄（さらには穴埋め入力欄）に記載された項目名の情報を解析する。
なお、項目欄とは、項目名としての文字列が記載された領域であり、入力欄とは、文字列が記載されず、項目欄に対応する情報を入力する領域である。そして、穴埋め入力欄とは、文字列が記載され、文字列の間に情報を入力する領域である。

【0023】

本実施形態では、帳票処理装置３０が解析した複数種類の帳票Ｐの情報を標準項目名設定装置１０に出力する。そして、標準項目名設定装置１０が複数種類の帳票Ｐにおいて対応する項目名を特定し、対応する項目名を標準化した標準項目名を設定する。

【0024】

次に、標準項目名設定装置１０の構成について説明する。
図１に示されるように、標準項目名設定装置１０は、ハードウェアとしてプロセッサ１１、記憶装置１２及び通信用インターフェース１３を備えるコンピュータである。

【0025】

プロセッサ１１は、例えば中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含み構成され、記憶装置１２に記憶されるプログラムやデータに基づいて各種の演算処理を実行するとともに、標準項目名設定装置１０の各部を制御する。

【0026】

記憶装置１２は、例えばメモリ、磁気ディスク装置を含み構成され、各種のプログラムやデータを記憶するほか、プロセッサ１１のワークメモリとしても機能する。

【0027】

通信用インターフェースは、ネットワークインターフェースカード（ＮＩＣ）等の通信インターフェースを有し、通信インターフェースを介してネットワークに接続する。そして、通信用インターフェースは、ネットワークを介して帳票処理装置３０等のデバイスと通信する。

【0028】

[標準項目名設定装置１０により実行される処理の概要]
ここで、図２及び図３を参照しながら、標準項目名設定装置１０により実行される処理の概要について説明する。

【0029】

図２には、複数の帳票（第１帳票ＰＡ、第２帳票ＰＢ、第３帳票ＰＣ）における項目名の対応関係を示した。ここで、第１帳票ＰＡ、第２帳票ＰＢ、第３帳票ＰＣは同一の手続に関する帳票であるが、フォーマットが異なっていることとする。
そのため、第１項目名５０Ａ、第２項目名５０Ｂ、第３項目名５０Ｃは同一の項目として扱うことが望ましいところ、項目名が「氏名」、「おなまえ」、「名前」と異なっており、これらの項目名を標準化することが必要となる。
そこで、本実施形態に係る標準項目名設定装置１０では、以下の手順で帳票の項目名を標準化した標準項目名を設定する。なお、以下においては処理の概要について説明し、処理の詳細については追って説明する。

【0030】

図３に示されるように、まず、標準項目名設定装置１０は、帳票処理装置３０から複数の帳票Ｐに記載された項目名のリストを含む項目名リスト６０を取得する。

【0031】

次に、標準項目名設定装置１０は、項目名リスト６０に含まれる項目名（項目名Ｉ_１〜項目名Ｉ_Ｎ）のそれぞれの特徴ベクトル（特徴ベクトルＶ_１〜Ｖ_Ｎ）を生成する。なお、上記においてＮ（２以上の整数）は項目名の数を表す。

【0032】

次に、標準項目名設定装置１０は、特徴ベクトル（特徴ベクトルＶ_１〜Ｖ_Ｎ）をクラスタリングして、複数のクラスタ（クラスタＣ_１〜Ｃ_Ｍ）に分類する。ここでは、クラスタ数をＭ（２以上の整数）とする。

【0033】

次に、標準項目名設定装置１０は、複数のクラスタ（クラスタＣ_１〜Ｃ_Ｍ）のそれぞれのタイプを決定する。タイプには、例えば「ｎａｍｅ（名称）」、「ｄａｔｅ（日付）」、「ａｄｄｒｅｓｓ（住所）」等の予め複数のタイプが定められており、標準項目名設定装置１０は、各クラスタに対応するタイプを決定する。

【0034】

次に、標準項目名設定装置１０は、クラスタのタイプに基づく細分化ルールに従い、クラスタに分類された項目名をサブクラスタ（例えばＣ１ａ、Ｃ１ｂ、Ｃ１ｃ）に分類する。
例えば、サブクラスタは、タイプの名詞を修飾する修飾語ごとに生成される。

【0035】

次に、標準項目名設定装置１０は、サブクラスタの修飾語が修飾する名詞ごとに、項目名候補を生成する。例えば、サブクラスタの修飾語が「妊婦の」である場合には、サブクラスタに対応する標準項目名は「妊婦の［ｎａｍｅ］」となる。ここで、サブクラスタの項目名に［ｎａｍｅ］の候補として、「氏名」、「御名前」、「名前」があるとすると、この中から出現頻度が最も多いもの（例えば「氏名」）が標準項目名として選ばれる。
標準項目名設定装置１０は、以上の処理を各クラスタ及び各サブクラスタに対して実行し、標準項目名を設定する。

【0036】

[標準項目名設定装置１０に備えられる機能]
以下においては、以上説明した処理を実現するために標準項目名設定装置１０に備えられる機能について説明する。

【0037】

図６には、標準項目名設定装置１０の機能ブロック図を示した。図６に示されるように、標準項目名設定装置１０は、機能として、学習モデル記憶部２０、項目名取得部２１、特徴ベクトル生成部２２、クラスタリング部２３、マッチングパターン記憶部２４、タイプ決定部２５、項目名候補生成部２６、及び標準項目名設定部２７を備える。

【0038】

標準項目名設定装置１０に備えられる上記の各部の機能は、記憶装置１２に記憶されるプログラム（標準項目名設定プログラム）に従ってプロセッサ１１が標準項目名設定装置１０の各部を動作させることにより実行される。なお、上記のプログラムは、通信用インターフェースによりネットワーク等の通信網を介して標準項目名設定装置１０が取得してもよいし、プログラムを記憶した記憶媒体から標準項目名設定装置１０が読み込んで取得することとしてもよい。
また、上記の標準項目名設定プログラムに従って、プロセッサ１１が動作することにより本発明に係る標準項目名設定方法が実現される。
以下、上記の各部の機能の詳細について説明する。

【0039】

［学習モデル記憶部２０の説明］
学習モデル記憶部２０は、学習データとしての１以上の帳票に出現する単語を機械学習した学習モデルを記憶する。

【0040】

「学習データ」とは、学習モデルに機械学習を行わせるために用いるデータセットである。換言すれば、「学習データ」とは、学習モデルに機械学習を行わせるために用いるサンプルデータ集合である。
例えば、帳票Ｐの解析データが「学習データ」の一例に相当する。具体的には、上記の解析データには、帳票Ｐから光学文字認識により得た項目名と、その項目名を形態素解析により単語に分解したデータが含まれる。

【0041】

「帳票に出現する単語」とは、学習データとしての帳票に記載された単語である。換言すれば、学習データとしての帳票から光学文字認識により得た項目名を構成する単語である。なお、「単語」とは、意味・機能を持つ最小の言語単位である。

【0042】

「機械学習」とは、ある程度の数のサンプルデータ集合を入力して解析を行い、そのデータから有用な規則、ルール、知識表現、判断基準などを抽出し、アルゴリズムを発展させることをいう。
本実施形態では、「機械学習」には教師なし学習の手法を用いることとする。

【0043】

「学習モデル」とは、学習データにより機械学習をする対象となる数学モデルである。例えば、ニューラルネットワークが上記の「学習モデル」の一例に相当する。ニューラルネットワークには、二層のパーセプトロン、三層の階層型ニューラルネットワーク、四層以上の多層ニューラルネットワーク（ディープニューラルネットワーク）を含む。

【0044】

図５には、学習モデルとしてのニューラルネットワーク７０の一例を示した。図５に示されるように、ニューラルネットワーク７０は、入力層７１、隠れ層７２、出力層７３を有する。

【0045】

入力層７１は、学習データとしての帳票から抽出された単語数を次元（要素数）とする入力ノードである。
隠れ層７２は、入力層７１と出力層７３を中継する、１層又は複数層に構成されたネットワークである。
出力層７３は、学習データとしての帳票から抽出された単語数を次元（要素数）とする出力ノードである。

【0046】

そして、学習データを用いた機械学習では、入力層７１から隠れ層７２への重み行列、及び隠れ層７２から出力層７３への重み行列を学習する。

【0047】

学習モデル記憶部２０は、主に標準項目名設定装置１０の記憶装置１２により実現される。
具体的には、記憶装置１２は、ニューラルネットワーク７０を構成する入力層７１、隠れ層７２、出力層７３の構成と、入力層７１から隠れ層７２への重み行列、及び隠れ層７２から出力層７３への重み行列のデータを、学習モデルのデータとして記憶する。
なお、機械学習の処理は、標準項目名設定装置１０が実行してもよいし、標準項目名設定装置１０は、他のコンピュータで実行された機械学習の結果得られた学習モデルのデータを、通信用インターフェース１３を介して取得するようにしてもよい。

【0048】

［項目名取得部２１の説明］
項目名取得部２１は、複数の帳票に記載された複数の項目名を取得する。

【0049】

「複数の帳票」とは、標準項目名を設定する対象とする帳票である。すなわち、形式の異なる複数種類の帳票が上記の「複数の帳票」に相当する。また、上記の「複数の帳票」は、学習データとして用いる帳票と一致していてもよい。

【0050】

「複数の項目名」とは、処理の対象とする「複数の帳票」に記載された項目名である。例えば、処理の対象とする「複数の帳票」に含まれる全項目名が上記の「複数の項目名」に相当する。

【0051】

項目名取得部２１は、主に標準項目名設定装置１０のプロセッサ１１、記憶装置１２及び通信用インターフェース１３により実現される。
具体的には、プロセッサ１１は、通信用インターフェース１３を介して帳票処理装置３０から処理の対象とする複数の帳票の解析結果を取得する。ここで、複数の帳票の解析結果には、帳票から光学文字認識により得た１以上の項目名の文字列データを含む。

【0052】

［特徴ベクトル生成部２２の説明］
特徴ベクトル生成部２２は、複数の項目名のそれぞれの特徴ベクトルを生成する。

【0053】

「特徴ベクトル」とは、項目名の特徴をベクトルとして表したものである。例えば、「特徴ベクトル」は、学習データとして用いる帳票に含まれる全単語の数を次元数とするベクトルである。そして、項目名の特徴ベクトルは、項目名を構成する単語のベクトルを合成したベクトルである。

【0054】

具体的には、特徴ベクトル生成部２２は、項目名を分解した各単語の学習モデルに基づくベクトルを合成して、項目名の特徴ベクトルを生成する。
なお、学習モデルでは、機械学習の結果、各単語のベクトルの情報を記憶している。具体的には、単語のベクトルの情報は、入力層７１から隠れ層７２への重み行列に含まれる。そして、特徴ベクトル生成部２２は、項目名を構成する各単語のベクトルを学習モデルから取得し、項目名の特徴ベクトルを生成する。

【0055】

ここで、図６を参照しながら、項目名の特徴ベクトルの生成処理について説明する。
図６の（ａ）には、項目名の一例（「受給者の変更前の住所」）を示した。これに対し、特徴ベクトル生成部２２は、項目名に対して形態素解析を実行し、図６（ｂ）に示されるように、項目名を単語に分解する。この例では、「受給者の変更前の住所」は、「受給者」、「変更前」、「住所」、及び「の」に分解される。

【0056】

ここで、「受給者」、「変更前」、「住所」、及び「の」のそれぞれの単語ベクトル（ｖ１〜ｖ４）は、学習モデル記憶部２０に記憶される学習モデルの重み行列から得られる。
そして、「受給者」、「変更前」、「住所」、及び「の」のそれぞれの単語ベクトル（ｖ１〜ｖ４）を合成することで、「受給者の変更前の住所」の特徴ベクトルが生成される。

【0057】

特徴ベクトル生成部２２は、主に標準項目名設定装置１０のプロセッサ１１及び記憶装置１２により実現される。
具体的には、プロセッサ１１は、項目名取得部２１により取得したそれぞれの項目名について以下のように特徴ベクトルを生成する。まず、プロセッサ１１は、項目名に対して形態素解析を実行し、項目名を単語に分解する。次に、プロセッサ１１は、学習モデル記憶部２０に記憶される学習モデルに基づいて、項目名を構成する単語のベクトルを合成した項目名の特徴ベクトルを生成する。

【0058】

［クラスタリング部２３の説明］
クラスタリング部２３は、複数の項目名を複数のクラスタのいずれかに分類する。

【0059】

「クラスタ」とは、複数の項目名を振り分ける先の分類である。換言すれば、複数の項目名のうち特徴ベクトルが類似するもの同士をグループ化した場合の各グループに相当する。

【0060】

クラスタリング部２３は、複数の項目名のそれぞれの特徴ベクトルの類似度に基づいて、複数の項目名を複数のクラスタに分類する。

【0061】

「特徴ベクトルの類似度」とは、２つの特徴ベクトルの類似性を表す指標である。具体的には、２つの特徴ベクトルのコサイン類似度が上記の「特徴ベクトルの類似度」の一例に相当する。また、ピアソンの相関係数や偏差パターン類似度等も上記の「特徴ベクトルの類似度」の一例に相当する。

【0062】

クラスタリング部２３は、主に標準項目名設定装置１０のプロセッサ１１及び記憶装置１２により実現される。
具体的には、プロセッサ１１は、特徴ベクトル生成部２２により生成した複数の項目名の特徴ベクトルの類似度を計算し、計算した類似度に基づいて、複数の項目名の特徴ベクトルを複数のクラスタに分類する。
なお、クラスタリングには、最短距離法、最長距離法、群平均法、ウォード法等の公知の手法を用いることができる。

【0063】

［マッチングパターン記憶部２４の説明］
マッチングパターン記憶部２４は、複数のタイプごとに、キーワード、正規表現のうち少なくとも一方を含むマッチングパターンを対応付けて記憶する。

【0064】

「タイプ」とは、クラスタの特性である。換言すれば、「タイプ」とは、クラスタに属する項目名の特徴を示すデータである。より具体的には、１つのクラスタに属する項目名が、複数のタイプのそれぞれに定められたマッチングパターンのうちいずれを満足するかに基づいて、そのクラスタのタイプが決定される。

【0065】

「キーワード」とは、予め指定された文字列である。文字列は、１つの単語からなってもよいし、複数の単語からなってもよい。
「正規表現」とは、文字列の集合を一つの文字列で表現する方法の一つである。具体的には、「正規表現」は、文字とワイルドカード等の条件が定められた記号列との組み合わせにより表される。

【0066】

「マッチングパターン」とは、クラスタのタイプに対応して定められた文字列のマッチング条件である。「マッチングパターン」には、１以上の正規表現と、１以上のキーワードを含むこととしてよい。

【0067】

マッチングパターン記憶部２４は、主に標準項目名設定装置１０の記憶装置１２により実現される。具体的には、標準項目名設定装置１０の記憶装置１２は、マッチングパターンを格納したマッチングパターンテーブルＴ１を記憶する。

【0068】

図７には、マッチングパターンテーブルＴ１の一例を示す。図７に示されるように、マッチングパターンテーブルＴ１は、項目タイプ（タイプ）、キーワード、正規表現を関連付けて格納する。例えば、「項目タイプ」には、「ｎａｍｅ（名前）」、「ｄａｔｅ（日付）」、「ａｄｄｒｅｓｓ（住所）」等が含まれることとし、各項目タイプに対してキーワード、正規表現が関連付けられる。

【0069】

具体的には、項目タイプが「ｎａｍｅ」である場合には、例えばキーワードや正規表現として「氏名」、「ふりがな」、「名称」等を関連付けることとしてよい。
また、項目タイプが「ｄａｔｅ」である場合には、例えばキーワードや正規表現として「＊年＊月＊日」、「＊月＊日」等を関連付けることとしてよい。ここで、「＊」はワイルドカード（任意の文字列）である。
また、項目タイプが「ａｄｄｒｅｓｓ」である場合には、例えばキーワードや正規表現として「住所」、「所在地」、「＊先」等を関連付けることとしてよい。

【0070】

また、マッチングパターン記憶部２４は、項目タイプに対して、正規表現とキーワードのうちいずれか一方を記憶するようにしても構わない。

【0071】

［タイプ決定部２５の説明］
タイプ決定部２５は、複数のクラスタのうちの注目クラスタに分類された項目名に基づいて、当該注目クラスタのタイプを複数のタイプの中から決定する。

【0072】

「注目クラスタ」とは、複数のクラスタのうちから選択される、処理対象とする１つのクラスタである。換言すれば、「注目クラスタ」は、複数のクラスタのうちから選択される任意のクラスタである。すなわち、複数のクラスタの全てが「注目クラスタ」となり得る。例えば、複数のクラスタの中から注目クラスタを順次選択することで、複数のクラスタの各々を注目クラスタとして処理することが可能である。

【0073】

「複数のタイプ」とは、予め定められた複数のタイプである。具体的には、「ｎａｍｅ」、「ｄａｔｅ」、「ａｄｄｒｅｓｓ」等が上記の「複数のタイプ」に相当する。

【0074】

タイプ決定部２５は、注目クラスタに分類された項目名にマッチするマッチングパターンに基づいて、複数のタイプのうちから注目クラスタのタイプを決定する。

【0075】

「項目名にマッチするマッチングパターン」とは、複数のタイプにそれぞれ関連付けられた複数のマッチングパターンのうち、注目クラスタに分類された項目名が満足するマッチングパターンである。
例えば、マッチングパターンがキーワードと正規表現を複数含んでいる場合には、注目クラスタに含まれる所定数の項目名が、上記のマッチングパターンに含まれるキーワードと正規表現のうちいずれかを満足する場合に、注目クラスタに属する項目名が、上記のマッチングパターンを満足しているものと判定される。

【0076】

タイプ決定部２５は、主に標準項目名設定装置１０のプロセッサ１１及び記憶装置１２により実現される。
具体的には、プロセッサ１１は、複数のクラスタの中から１つのクラスタを注目クラスタとして設定し、以下の処理を実行する。
まず、プロセッサ１１は、マッチングパターン記憶部２４に記憶されるマッチングパターンテーブルＴ１に記憶される項目タイプに関連付けられるマッチングパターンのうち、マッチングパターンが注目クラスタに分類された項目名とマッチするものを検索する。そして、プロセッサ１１は、上記検索されたマッチングパターンに対応する項目タイプを、注目クラスタの項目タイプとする。

【0077】

［項目名候補生成部２６の説明］
項目名候補生成部２６は、タイプ決定部により決定したタイプに対応するルールに基づいて、注目クラスタに分類された項目名を共通の文字列を有する項目名からなるサブクラスタに細分化するとともに、当該サブクラスタに属する項目名について前記共通の文字列以外の文字列に基づく複数の項目名候補を生成する。

【0078】

「タイプに対応するルール」とは、タイプに対応付けて定められた注目クラスタの細分化ルールである。例えば、上記の細分化ルールは、マッチングパターンに定められたキーワードや正規表現に該当する文字列以外の文字列（例えば修飾語）ごとに、注目クラスタを細分化するというルールとしてよい。
具体的には、タイプ「ｎａｍｅ」の注目クラスタに分類された項目名において、「氏名」、「ふりがな」、「名称」といったキーワード以外の文字列として、修飾語「１」（申請者の＊）、修飾語「２」（妊婦の＊）、修飾語「３」（受給者の変更前の＊）という３つの修飾語が抽出されたとする。この場合に、項目名候補生成部２６は、注目クラスタを修飾語「１」〜修飾語「３」をそれぞれ含む項目名からなるサブクラスタ「１」〜サブクラスタ「３」に細分化する。

【0079】

「共通の文字列」とは、注目クラスタに分類された項目名において、注目クラスタのタイプを表す文字列以外の文字列であって、複数の項目名において共通する文字列である。
例えば、クラスタに分類された項目名における修飾語が「共通の文字列」に相当する。

【0080】

「サブクラスタ」とは、上記の細分化ルールによって細分化された注目クラスタである。すなわち、注目クラスタを細分化した集合の各々が上記の「サブクラスタ」となる。

【0081】

「サブクラスタに属する項目名」とは、サブクラスタに振り分けられた項目名である。すなわち、集合としてのサブクラスタの要素が上記の「サブクラスタに属する項目名」となる。

【0082】

「共通の文字列以外の文字列」とは、サブクラスタに振り分けられた項目名において、サブクラスタの細分化の際に用いられた文字列（例えば修飾語）以外の文字列である。
例えば、修飾語により修飾される被修飾語が上記の「共通の文字列以外の文字列」に相当する。

【0083】

「項目名候補」とは、サブクラスタに分類された項目名を、第１文字列（共通の文字列）、第２文字列（共通の文字列以外の文字列）として構成した場合における、第１文字列と第２文字列の組み合わせの候補である。すなわち、サブクラスタに分類された項目名の中に、第１文字列が共通し、第２文字列が異なる項目名があるとすると、これらの組み合わせが、上記の「項目名候補」となる。なお、第２文字列のバリエーションを、上記の「項目名候補」としてもよい。

【0084】

項目名候補生成部２６は、注目クラスタに分類された項目名のうち、注目クラスタのタイプに対応付けて記憶されたマッチングパターンに該当する文字列以外から共通の文字列を設定する。

【0085】

「注目クラスタのタイプに対応付けて記憶されたマッチングパターンに該当する文字列」とは、注目クラスタのタイプに対応するマッチングパターンが満足する文字列である。すなわち、マッチングパターンが複数のキーワードを含む場合には、それらの複数のキーワードが上記の「注目クラスタのタイプに対応付けて記憶されたマッチングパターンに該当する文字列」に相当する。

【0086】

項目名候補生成部２６は、主に標準項目名設定装置１０のプロセッサ１１及び記憶装置１２により実現される。
具体的には、プロセッサ１１は、注目クラスタに含まれる項目名を、注目クラスタのタイプに応じたマッチングパターンに該当する文字列以外の修飾語に応じてサブクラスタにグループ化する。すなわち、プロセッサ１１は、注目クラスタに含まれる項目名を、修飾語ごとにサブクラスタに分ける。
次に、プロセッサ１１は、サブクラスタに分けられた項目名について、サブクラスタに対応する修飾語以外で相違する文字列を抽出し、当該抽出した文字列に基づいて項目名候補を生成する。

【0087】

［標準項目名設定部２７の説明］
標準項目名設定部２７は、サブクラスタの複数の項目名候補の中から所定の基準に基づいて選択した項目名候補を、サブクラスタに対応する標準項目名として設定する。

【0088】

「所定の基準」とは、サブクラスタの複数の項目名候補の評価基準である。例えば、上記の評価基準は、サブクラスタにおける出現頻度としてよい。すなわち、標準項目名設定部２７は、サブクラスタの複数の項目名候補のうち、サブクラスタにおいて最も出現頻度が高い項目名候補を、サブクラスタに対応する標準項目名として設定することとする。

【0089】

「サブクラスタに対応する標準項目名」とは、サブクラスタから導き出された標準項目名である。すなわち、サブクラスタに対応する第１文字列（共通文字列）と、サブクラスタにおいて最も出現頻度が大きい第２文字列とを組み合わせた項目名が、サブクラスタに対応する標準項目名となる。
ここで、標準項目名とは、種類の異なる帳票において意味、用途が対応する項目名について、標準的に用いる項目名である。

【0090】

標準項目名設定部２７は、サブクラスタについての複数の項目名候補のうち、サブクラスタにおける出現頻度が最も高い項目名候補を標準項目名として設定する。

【0091】

「出現頻度」とは、サブクラスタに属する項目名のうち、項目名候補の文字列を含む項目名の数である。

【0092】

標準項目名設定部２７は、主に標準項目名設定装置１０のプロセッサ１１、記憶装置１２及び通信用インターフェース１３により実現される。
具体的には、プロセッサ１１は、サブクラスタについて項目名候補生成部２６で生成した項目名候補のそれぞれの出現頻度を計数し、出現頻度が最大の項目名候補を、標準項目名として設定する。以下、プロセッサ１１による標準項目名設定処理の具体例について、図８を参照しながら説明する。

【0093】

図８には、プロセッサ１１により生成される項目名候補テーブルＴ２の一例を示した。図８に示されるように、プロセッサ１１は、項目名候補（ここでは項目名候補「１」〜項目名候補「３」とする）のそれぞれの出現頻度を計数する。
そして、プロセッサ１１は、出現頻度が最大の項目名候補「１」を標準項目名に設定する。図８に示す例では、項目名候補「１」について標準項目フラグを真（Ｔ）にそれ以外の候補については標準項目フラグを偽（Ｆ）に設定する。
なお、プロセッサ１１は、項目名候補「３」及び「２」についても、標準項目名を代替する第１候補、第２候補に設定してもよい。

【0094】

また、標準項目名設定装置１０は、複数のクラスタのそれぞれについて、タイプ決定部２５と、項目名候補生成部２６と、標準項目名設定部２７による処理を実行して、複数の標準項目名を設定する。
すなわち、標準項目名設定装置１０は、複数のクラスタうちから１つを注目クラスタに順次設定して、設定した注目クラスタに基づき標準項目名の設定処理を実行することとする。

【0095】

［標準項目名設定装置１０による処理の流れ］
次に、図９及び図１０を参照しながら、標準項目名設定装置１０により実行される処理の流れについて説明する。

【0096】

［項目名のクラスタリング処理］
まず、図９に示すフロー図を参照しながら、項目名のクラスタリング処理の流れについて説明する。なお、以下においては、標準項目名設定装置１０は、項目名Ｉ_１〜項目名Ｉ_Ｎを含む項目名リスト６０を帳票処理装置３０から取得していることとする。なお、Ｎは項目名の数とする。

【0097】

図９に示されるように、標準項目名設定装置１０は、変数ｉを１に初期化して（Ｓ１）、項目名Ｉ_ｉを、形態素解析により単語に分解する（Ｓ２）。
そして、標準項目名設定装置１０は、項目名Ｉ_ｉを構成する単語のベクトルを合成して、項目名Ｉ_ｉの特徴ベクトルＶ_ｉを生成する（Ｓ３）。

【0098】

ここで、変数ｉがＮに達していない場合には（Ｓ４：Ｎｏ）、標準項目名設定装置１０は変数ｉに１を加算して（Ｓ５）、Ｓ２に戻る。

【0099】

一方、変数ｉがＮに達している場合には（Ｓ４：Ｙｅｓ）、標準項目名設定装置１０は、特徴ベクトルＶ_１〜特徴ベクトルＶ_Ｎの類似度を計算する（Ｓ６）。
そして、標準項目名設定装置１０は計算した類似度に基づいて、特徴ベクトルＶ_１〜特徴ベクトルＶ_ＮをクラスタＣ_１〜Ｃ_Ｍにクラスタリングする（Ｓ７）。ここで、Ｍはクラスタ数とする。
以上の処理により、項目名Ｉ_１〜項目名Ｉ_Ｎを意味のまとまりに基づいて分類することができる。

【0100】

［標準項目名設定処理］
次に、図１０に示すフロー図を参照しながら、標準項目名設定処理の流れについて説明する。以下に説明する処理は、上記説明したクラスタリング処理に続いて行われる処理である。

【0101】

図１０に示されるように、標準項目名設定装置１０は、変数ｊと変数ｌをそれぞれ１に初期化して（Ｓ１１）、クラスタＣ_ｊを注目クラスタに設定する（Ｓ１２）。

【0102】

次に、標準項目名設定装置１０は、注目クラスタであるクラスタＣ_ｊの項目タイプを決定する（Ｓ１３）。このクラスタＣ_ｊの項目タイプの決定処理は、タイプ決定部２５により実行されるものである。

【0103】

次に、標準項目名設定装置１０は、クラスタＣ_ｊを項目タイプに応じてサブクラスタＣ_ｊ１〜Ｃ_ｊＬに細分化する（Ｓ１４）。ここで、Ｌは、クラスタＣ_ｊのサブクラスタの数とする。

【0104】

次に、標準項目名設定装置１０は、サブクラスタＣ_ｊｌに分類される項目名に基づいて、項目名候補を生成する（Ｓ１５）。そして、標準項目名設定装置１０は、項目名候補についての出現頻度を計数し（Ｓ１６）、出現頻度が最も高い項目名候補を標準項目名に設定する（Ｓ１７）。

【0105】

ここで、変数ｌがＬに達していない場合には（Ｓ１８：Ｎｏ）、標準項目名設定装置１０は、変数ｌに１を加算して（Ｓ１９）、Ｓ１５に戻る。

【0106】

一方、変数ｌがＬに達している場合には（Ｓ１８：Ｙｅｓ）、標準項目名設定装置１０は、さらに変数ｊがＭに達しているか否かを判定する（Ｓ２０）。
ここで、変数ｊがＭに達していない場合には（Ｓ２０：Ｎｏ）、標準項目名設定装置１０は、変数ｊに１を加算して（Ｓ２１）、Ｓ１２に戻る。

【0107】

一方、変数ｊがＭに達している場合には（Ｓ２０：Ｙｅｓ）、標準項目名設定装置１０は、以上の処理で設定した標準項目名のデータ（標準項目データ）を出力して（Ｓ２２）、処理を終了する。
Ｓ２２において、標準項目名設定装置１０は、例えば標準項目名とその代替候補の情報を纏めたデータを上記の標準項目データとして、帳票処理装置３０に送信することとしてよい。

【0108】

［まとめ］
標準項目名設定装置１０は、複数の帳票に記載された複数の項目名を取得する項目名取得部２１と、複数の項目名を複数のクラスタのいずれかに分類するクラスタリング部２３と、複数のクラスタのうちの注目クラスタに分類された項目名に基づいて、当該注目クラスタのタイプを複数のタイプの中から決定するタイプ決定部２５と、タイプ決定部２５により決定したタイプに対応するルールに基づいて、注目クラスタに分類された項目名を共通の文字列を有する項目名からなるサブクラスタに細分化するとともに、当該サブクラスタに属する項目名について共通の文字列以外の文字列（例えば修飾語）に基づく複数の項目名候補を生成する項目名候補生成部２６と、サブクラスタの複数の項目名候補の中から所定の基準に基づいて選択した項目名候補を、サブクラスタに対応する標準項目名として設定する標準項目名設定部２７と、を備える。

【0109】

標準項目名設定装置１０によれば、複数の帳票において対応する項目名に対して１つの標準的な項目名を設定することができる。これにより、対応する複数の項目名を１つの項目名にまとめる労力を軽減できる。

【0110】

標準項目名設定装置１０では、複数の項目名のそれぞれの特徴ベクトルを生成する特徴ベクトル生成部２２を備え、クラスタリング部２３は、複数の項目名のそれぞれの特徴ベクトルの類似度に基づいて、複数の項目名を複数のクラスタに分類する。
こうすることで、帳票に記載の互いに類似する複数の項目名に対して１つの標準的な項目名を設定することができる。これにより、複数の類似する項目名を１つの項目名にまとめる労力を軽減できる。

【0111】

標準項目名設定装置１０では、学習データとしての１以上の帳票に出現する単語を機械学習した学習モデルを記憶する学習モデル記憶部２０を備え、特徴ベクトル生成部２２は、項目名を分解した各単語の学習モデルに基づくベクトルを合成して、項目名の特徴ベクトルを生成する。
こうすることで、類似する項目名をまとめて分類する精度を向上できる。

【0112】

標準項目名設定装置１０では、複数のタイプごとに、キーワード、正規表現のうち少なくとも一方を含むマッチングパターンを対応付けて記憶したマッチングパターン記憶部２４を備え、タイプ決定部２５は、注目クラスタに分類された項目名にマッチするマッチングパターンに基づいて、複数のタイプのうちから注目クラスタのタイプを決定する。
こうすることで、クラスタのタイプの判定精度を向上できる。

【0113】

標準項目名設定装置１０では、項目名候補生成部２６は、注目クラスタに分類された項目名のうち、注目クラスタのタイプに対応付けて記憶されたマッチングパターンに該当する文字列以外から共通の文字列を設定する。
こうすることで、１つのクラスタを１以上のサブクラスタに分類する基準を簡易に定めることができる。

【0114】

標準項目名設定装置１０では、標準項目名設定部２７は、サブクラスタについての複数の項目名候補のうち、サブクラスタにおける出現頻度が最も高い項目名候補を標準項目名として設定する。
こうすることで、同一のサブクラスタに分類された項目名のうち、最も良く使用されている表現に基づいて標準項目名を設定できる。

【0115】

標準項目名設定装置１０では、複数のクラスタのそれぞれについて、タイプ決定部２５と、項目名候補生成部２６と、標準項目名設定部２７による処理を実行して、複数の標準項目名を設定する。
こうすることで、帳票の多様な項目名について標準項目名を設定できる。これにより、帳票から標準項目名を設定する労力を軽減できる。

【0116】

[その他の実施形態]
本発明は上記の実施形態に限定されるものではない。
標準項目名設定装置１０と帳票処理装置３０を１つの装置として構成してもよい。
また、標準項目名設定装置１０は、１台のコンピュータに限られず、複数台のコンピュータから構成されてもよい。

【0117】

また、タイプに対するキーワードの設定は上記の例に限定されない。例えば、マッチングパターン記憶部２４において、タイプに対し、ｋｅｙｗｏｒｄに加えて、ｋｅｙｗｏｒｄ＿ａｎｄを定義してもよい。この場合、ｋｅｙｗｏｒｄ＿ａｎｄとｋｅｙｗｏｒｄの両方に、項目名に含まれるキーワードが存在する場合に、ｋｅｙｗｏｒｄ＿ａｎｄとｋｅｙｗｏｒｄに対応するタイプがマッチングすると判定される。

【0118】

また、ｋｅｙｗｏｒｄの代わりにｋｅｙｗｏｒｄ＿ｃｏｍｍｏｎを用いてもよい。これは全手続き共通の情報として、いくつかのキーワードのセットを予め定義しておき、それを手続きごとの定義で参照する機能である。
例えばｋｅｙｗｏｒｄ＿ｃｏｍｍｏｎ：ｃｈｉｌｄとし、共通定義にｃｈｉｌｄ．ｋｅｙｗｏｒｄ：［子ども，子供，こども，児童］とした場合に、ｋｅｙｗｏｒｄ＿ｃｏｍｍｏｎ：ｃｈｉｌｄはｋｅｙｗｏｒｄ：［子ども，子供，こども，児童］と同義となる。
このように、キーワードの指定には各種の方法を用いることができる。

【符号の説明】

【0119】

１情報処理システム
１０標準項目名設定装置
１１プロセッサ
１２記憶装置
１３通信用インターフェース
２０学習モデル記憶部
２１項目名取得部
２２特徴ベクトル生成部
２３クラスタリング部
２４マッチングパターン記憶部
２５タイプ決定部
２６項目名候補生成部
２７標準項目名設定部
３０帳票処理装置
４０スキャナ
５０Ａ第１項目名
５０Ｂ第２項目名
５０Ｃ第３項目名
６０項目名リスト
７０ニューラルネットワーク（学習モデル）
７１入力層
７２隠れ層
７３出力層
Ａ１項目名候補
Ａ２項目名候補
ＡＬ項目名候補
Ｃ１クラスタ
Ｃ２クラスタ
ＣＭクラスタ
Ｐ帳票
ＰＡ第１帳票
ＰＢ第２帳票
ＰＣ第３帳票
ＲＩ標準項目名
Ｔ１マッチングパターンテーブル
Ｔ２項目名候補テーブル

【図1】