(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024100448
(43)【公開日】2024-07-26
(54)【発明の名称】パターン抽出方法及びパターン抽出プログラム
(51)【国際特許分類】
G06Q 40/12 20230101AFI20240719BHJP
G06Q 50/18 20120101ALI20240719BHJP
【FI】
G06Q40/12 410
G06Q50/18
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023004458
(22)【出願日】2023-01-16
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110003421
【氏名又は名称】弁理士法人フィールズ国際特許事務所
(72)【発明者】
【氏名】前田 一穂
(72)【発明者】
【氏名】遠藤 進
(72)【発明者】
【氏名】大塚 浩
【テーマコード(参考)】
5L040
5L049
5L050
5L055
【Fターム(参考)】
5L040BB63
5L049CC32
5L050CC32
5L055BB63
(57)【要約】
【課題】本質的パターンを効率的に抽出することを可能とするパターン抽出方法及びパターン抽出プログラムを提供する。
【解決手段】複数の書類のそれぞれに含まれる複数の項目に記入される情報間の関係をそれぞれ示す複数のパターンごとに、各パターンに対応する複数の項目間における意味の類似度を算出し、複数のパターンに含まれる第1パターンに対応する類似度が複数のパターンに含まれる第2パターンに対応する類似度よりも大きい場合、第1パターンを第2パターンよりも優先して出力する。
【選択図】
図16
【特許請求の範囲】
【請求項1】
複数の書類のそれぞれに含まれる複数の項目に記入される情報間の関係をそれぞれ示す複数のパターンごとに、各パターンに対応する前記複数の項目間における意味の類似度を算出し、
前記複数のパターンに含まれる第1パターンに対応する前記類似度が前記複数のパターンに含まれる第2パターンに対応する前記類似度よりも大きい場合、前記第1パターンを前記第2パターンよりも優先して出力する、
処理をコンピュータが実行することを特徴とするパターン抽出方法。
【請求項2】
請求項1において、
前記複数のパターンのそれぞれは、各パターンに対応する前記複数の項目に記入された各情報のうちのいずれかについての修正が行われたパターンである、
ことを特徴とするパターン抽出方法。
【請求項3】
請求項1において、
前記出力する処理では、前記類似度を用いて算出された補正信頼度が大きい順に前記複数のパターンを出力する、
ことを特徴とするパターン抽出方法。
【請求項4】
請求項3において、
前記出力する処理では、前記複数のパターンに含まれる特定のパターンに対応する正例のうち、前記出力する処理において前記特定のパターンよりも前に出力された前記複数のパターンのうちの少なくともいずれかのパターンに対応しない正例の数が所定の条件を満たさない場合、前記特定のパターンの出力を行わない、
ことを特徴とするパターン抽出方法。
【請求項5】
複数の書類のそれぞれに含まれる複数の項目に記入される情報間の関係をそれぞれ示す複数のパターンごとに、各パターンに対応する前記複数の項目間における意味の類似度を算出し、
前記複数のパターンに含まれる第1パターンに対応する前記類似度が前記複数のパターンに含まれる第2パターンに対応する前記類似度よりも大きい場合、前記第1パターンを前記第2パターンよりも優先して出力する、
処理をコンピュータに実行させることを特徴とするパターン抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、パターン抽出方法及びパターン抽出プログラムに関する。
【背景技術】
【0002】
例えば、市役所等の行政機関(以下、単に行政機関とも呼ぶ)には、住民税の計算に用いられる申請書類を含む多くの書類(以下、単に書類とも呼ぶ)が提出される。そして、このような行政機関の職員(以下、単に職員とも呼ぶ)は、例えば、提出された複数の書類の突き合せ(以下、突合処理とも呼ぶ)を行うことにより、複数の書類間において記入内容の不整合が存在するか否かについてのチェックを行う。
【0003】
その結果、例えば、複数の書類間において記入内容の不整合が特定された場合、職員は、当該不整合を解消するための記入内容の修正を手作業によって行う(例えば、特許文献1乃至3参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2022-079352号公報
【特許文献2】特開2010-182183号公報
【特許文献3】特開平8-287152号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、上記のような記入内容の不整合を特定する方法として、例えば、複数の書類間において不整合が存在していると判断可能な記入内容の組合せ(以下、不整合パターンとも呼ぶ)を予め形式化し、当該不整合パターンを用いることによって記入内容の不整合が存在するか否かのチェックを行うことが考えられる。不整合パターンは、例えば、複数の書類間における記入内容の関係を示す1以上の条件からなるパターンのうち、全ての条件が満たされる場合に、複数の書類間における記入内容に不整合が存在すると判断可能なパターンである。
【0006】
しかしながら、上記のような不整合パターンの形式化には、多くの工数を要する場合があり、職員の作業負担が大きくなる場合がある。そのため、職員は、この場合、例えば、書類における記入内容の修正を効率的に行うことができない可能性がある。
【0007】
さらに、上記のような不整合パターンの形式化では、職員が認識していない不整合パターンについての形式化が行われない。そのため、職員は、この場合、例えば、記入内容の不整合の特定を精度良く行うことができない可能性がある。
【0008】
これに対し、職員は、例えば、アソシエーションルール分析等の機械学習の手法を用いることによって不整合パターンを予め自動的に抽出し、抽出した不整合パターンを用いることによって記入内容に不整合が存在するか否かのチェックを行う場合がある。
【0009】
しかしながら、上記のような不整合パターンの抽出を行う場合、例えば、職員が自身の経験に基づく業務の背景知識(以下、単に背景知識とも呼ぶ)から不整合が存在していることを理解可能な不整合パターン(以下、本質的パターンとも呼ぶ)だけでなく、職員が背景知識に基づいても不整合が存在していることを理解することができない不整合パターン(以下、見かけパターンとも呼ぶ)についても抽出される場合がある。
【0010】
そのため、職員は、この場合、例えば、抽出された不整合パターンのそれぞれを検証し、抽出された不整合パターンから記入内容の修正に用いる不整合パターン(本質的パターン)を特定する必要がある。したがって、職員は、例えば、この場合においても、各書類における記入内容の修正を効率的に行うことができない可能性がある。
【0011】
そこで、一つの側面では、本発明は、本質的パターンを効率的に抽出することを可能とするパターン抽出方法及びパターン抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
実施の形態の一態様では、複数の書類のそれぞれに含まれる複数の項目に記入される情報間の関係をそれぞれ示す複数のパターンごとに、各パターンに対応する前記複数の項目間における意味の類似度を算出し、前記複数のパターンに含まれる第1パターンに対応する前記類似度が前記複数のパターンに含まれる第2パターンに対応する前記類似度よりも大きい場合、前記第1パターンを前記第2パターンよりも優先して出力する、処理をコンピュータに実行させる。
【発明の効果】
【0013】
一つの側面によれば、本質的パターンを効率的に抽出することが可能になる。
【図面の簡単な説明】
【0014】
【
図1】
図1は、情報処理システム10の構成について説明する図である。
【
図2】
図2は、突合処理の具体例について説明する図である。
【
図3】
図3は、突合処理の具体例について説明する図である。
【
図4】
図4は、突合処理の具体例について説明する図である。
【
図5】
図5は、情報処理装置1のハードウエア構成を説明する図である。
【
図6】
図6は、情報処理装置1の機能について説明する図である。
【
図7】
図7は、第1の実施の形態におけるパターン抽出処理の概略を説明するフローチャート図である。
【
図8】
図8は、第1の実施の形態におけるパターン抽出処理の概略を説明する図である。
【
図9】
図9は、第1の実施の形態におけるパターン抽出処理の詳細を説明するフローチャート図である。
【
図10】
図10は、第1の実施の形態におけるパターン抽出処理の詳細を説明するフローチャート図である。
【
図11】
図11は、第1の実施の形態におけるパターン抽出処理の詳細を説明するフローチャート図である。
【
図12】
図12は、第1パターン候補情報133の具体例について説明する図である。
【
図13】
図13は、第2パターン候補情報134の具体例について説明する図である。
【
図14】
図14は、パターン情報135の具体例について説明する図である。
【
図15】
図15は、特定結果情報136の具体例について説明する図である。
【
図16】
図16は、第1の実施の形態におけるパターン抽出処理の詳細を説明する図である。
【発明を実施するための形態】
【0015】
[第1の実施の形態における情報処理システムの構成]
初めに、情報処理システム10の構成について説明を行う。
図1は、情報処理システム10の構成について説明する図である。
【0016】
図1に示す情報処理システム10は、例えば、情報処理装置1と、職員が必要な情報の入力等を行う操作端末5とを有する。
図1に示す例において、情報処理装置1及び操作端末5は、例えば、インターネット等のネットワークNWを介して互いにアクセスが可能である。
【0017】
情報処理装置1は、例えば、1以上の物理マシンまたは1以上の仮想マシンであり、住民についての複数の書類(以下、帳票とも呼ぶ)の突合処理を行うとともに、複数の書類間における記入内容の不整合を特定する。以下、突合処理の具体例について説明を行う。
【0018】
[突合処理の具体例]
図2から
図4は、突合処理の具体例について説明する図である。具体的に、
図2は、住民自身や住民が勤務する企業等から提出された帳票D1、帳票D2及び帳票D3の間における突合処理の具体例を説明する図である。なお、
図2から
図4に示す例において、帳票D1は、確定申告書に対応し、帳票D2及び帳票D3のそれぞれは、給与支払報告書(以下、単に給報とも呼ぶ)に対応する。
【0019】
図2に示すように、帳票D1、帳票D2及び帳票D3のそれぞれは、例えば、「甲欄給与収入」と「社会保険料控除」とを項目として有する。
【0020】
具体的に、
図2に示す例において、帳票D1には、「甲欄給与収入」として「200(万円)」が記入されており、「社会保険料控除」として「200(万円)」が記入されている。また、帳票D2には、「甲欄給与収入」として「150(万円)」が記入されており、「社会保険料控除」として「100(万円)」が記入されている。さらに、帳票D3には、「甲欄給与収入」として「50(万円)」が記入されており、「社会保険料控除」として「20(万円)」が記入されている。
【0021】
ここで、例えば、帳票D2における「甲欄給与収入」の値と帳票D3における「甲欄給与収入」の値との合計値(以下、帳票D2等における「甲欄給与収入」の合計値とも呼ぶ)は、「200(万円)」である。そのため、職員Sは、例えば、「帳票D1における甲欄給与収入の値と帳票D2等における甲欄給与収入の合計値とが不一致であること」が不整合パターンであると認識している場合、帳票D1、帳票D2及び帳票D3の「甲欄給与収入」のそれぞれに対して正しい値が記入されているものと判断する。
【0022】
一方、例えば、帳票D1及び帳票D2のそれぞれにおける「社会保険料控除」には、「200万円」及び「100万円」のそれぞれが記入されている。そのため、職員Sは、例えば、「帳票D1における社会保険料控除の値と帳票D2における社会保険料控除の値とが不一致であること」が不整合パターンであると認識している場合、帳票D1及び帳票D2における「社会保険料控除」のうちの少なくともいずれかを修正する必要があるものと判断する。
【0023】
すなわち、
図3に示すように、例えば、事象である社会保険料F1に対応する内容が帳票D1の社会保険料控除の欄において正しく記入されている一方、帳票D2の社会保険料控除の欄において正しく記入されていない場合、職員Sは、自身が認識している不整合パターンに基づいて、帳票D1及び帳票D2における社会保険料控除の記入内容に不整合が存在していると判断する。そして、職員Sは、この場合、例えば、帳票D1及び帳票D2における社会保険料控除のうちの少なくともいずれかを修正することにより、帳票D1における記入内容と帳票D2における記入内容との不整合を解消する作業を行う。
【0024】
ここで、上記のような記入内容の不整合を特定する方法として、例えば、上記のような不整合パターンを予め形式化しておき、さらに、当該不整合パターンを用いることによって不整合が存在するか否かのチェックを行う方法が考えられる。
【0025】
しかしながら、上記のような不整合パターンの形式化には、多くの工数を要する場合があり、職員の作業負担が大きくなる場合がある。そのため、職員Sは、この場合、例えば、書類における記入内容の修正を効率的に行うことができない可能性がある。
【0026】
さらに、上記のような不整合パターンの形式化では、職員Sが認識していない不整合パターンについての形式化が行われない。そのため、職員Sは、この場合、例えば、記入内容の不整合の特定を精度良く行うことができない可能性がある。
【0027】
これに対し、職員Sは、例えば、アソシエーションルール分析等の機械学習の手法を用いることによって不整合パターンを予め自動的に抽出し、抽出した不整合パターンを用いることによって記入内容に不整合が存在するか否かのチェックを行う場合がある。
【0028】
しかしながら、上記のような不整合パターンの抽出(以下、比較例におけるパターン抽出とも呼ぶ)を行う場合、例えば、職員Sが背景知識から不整合が存在していることを理解可能な不整合パターン(本質的パターン)だけでなく、職員が背景知識に基づいても不整合が存在していることを理解することができない不整合パターン(見かけパターン)についても抽出される場合がある。
【0029】
すなわち、例えば、統計的に相関の高い複数の項目が存在する場合、比較例におけるパターン抽出では、本質的パターンだけでなく、本質的パターンにおける一部の項目が統計的に相関の高い他の項目に置き換えられた見かけパターンについても抽出される場合がある。言い換えれば、比較例におけるパターン抽出では、例えば、本質的パターンと見かけパターンとが統計的に区別されないため、本質的パターンと見かけパターンとの両方をそれぞれ抽出される場合がある。
【0030】
具体的に、
図4に示す例では、例えば、事象である社会保険料F1に対応する内容が帳票D1の社会保険料控除の欄において正しく記入されており、かつ、事象である給与収入F2に対応する内容が帳票D2の甲欄給与収入の欄において正しく記入されているのに対し、社会保険料F1に対応する内容が帳票D2の社会保険料控除の欄において正しく記入されていない。この場合、比較例におけるパターン抽出では、例えば、「社会保険料控除」と「給与収入」との相関が高いことから、「帳票D1における社会保険料控除の値と帳票D2における社会保険料控除の値とが不一致であること」を不整合パターン(本質的パターン)として抽出するだけでなく、「帳票D2における社会保険料控除の値(の定数倍)と帳票D2における給与収入の値とが不一致であること」についても不整合パターン(見かけパターン)として出力する可能性がある。
【0031】
すなわち、比較例におけるパターン抽出では、この場合、例えば、本質的パターンに含まれる項目である「帳票D1における社会保険料控除」が相関の高い他の項目である「帳票D2における給与収入」に置き換えられた他の不整合パターン(見かけパターン)についても抽出を行う場合がある。
【0032】
そのため、職員Sは、この場合、例えば、比較例におけるパターン抽出によって抽出された不整合パターンのそれぞれを検証し、抽出された不整合パターンから記入内容の修正に用いる不整合パターン(本質的パターン)を特定する作業を行う必要がある。したがって、職員Sは、例えば、この場合においても、各書類における記入内容の修正を効率的に行うことができない可能性がある。
【0033】
そこで、本実施の形態における情報処理装置1は、例えば、不整合パターンの候補である複数のパターンごとに、各パターンを構成する複数の項目間における意味の類似度を算出する。そして、情報処理装置1は、例えば、複数のパターンに含まれるパターン(以下、第1パターンとも呼ぶ)に対応する類似度が、複数のパターンに含まれる他のパターン(以下、第2パターンとも呼ぶ)に対応する類似度よりも大きい場合、第1パターンを第2パターンよりも優先して不整合パターンとして抽出(出力)する。
【0034】
すなわち、本質的パターンは、職員が背景知識から不整合が存在していることを理解可能な不整合パターンである。これに対し、見かけパターンは、職員が背景知識に基づいても不整合が存在していることを理解できない不整合パターンであり、例えば、本質的パターンにおける一部の項目が相関(統計的な相関)の高い他の項目に置き換えられた不整合パターンである。そのため、本質的パターンを構成する複数の項目間における意味上の類似度は、例えば、見かけパターンを構成する複数の項目間における意味上の類似度よりも高いと判断することが可能である。
【0035】
したがって、本実施の形態における情報処理装置1は、例えば、不整合パターンの候補であるパターンのそれぞれに対応する複数の項目間における意味の類似度を算出する。そして、情報処理装置1は、例えば、類似度が高いパターンを類似度が低いパターンよりも優先して操作端末5に出力する。
【0036】
これにより、本実施の形態における情報処理装置1は、例えば、本質的パターンが見かけパターンよりも優先的に出力されるように制御を行うことが可能になる。言い換えれば、情報処理装置1は、例えば、見かけパターンが可能な限り出力されないように制御を行うことが可能になる。そのため、職員は、例えば、情報処理装置1から出力された各不整合パターンが本質的パターンであるか否かについての判断に要する作業負担を抑制することが可能になる。したがって、職員は、例えば、各書類における記入内容の修正に要する職員の作業負担を軽減させることが可能になる。
【0037】
[情報処理システムのハードウエア構成]
次に、情報処理システム10のハードウエア構成について説明を行う。
図5は、情報処理装置1のハードウエア構成を説明する図である。
【0038】
情報処理装置1は、
図5に示すように、例えば、プロセッサであるCPU(Central Processing Unit)101と、メモリ102と、通信装置(I/Oインタフェース)103と、ストレージ104とを有する。各部は、バス105を介して互いに接続される。
【0039】
ストレージ104は、例えば、本質的パターンの抽出を行う処理(以下、単にパターン抽出処理とも呼ぶ)を行うためのプログラム110を記憶するプログラム格納領域(図示せず)を有する。また、ストレージ104は、例えば、パターン抽出処理を行う際に用いられる情報を記憶する情報格納領域130(以下、記憶部130とも呼ぶ)を有する。なお、ストレージ104は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)であってよい。
【0040】
CPU101は、例えば、ストレージ104からメモリ102にロードされたプログラム110を実行してパターン抽出処理を行う。
【0041】
また、通信装置103は、例えば、インターネット等のネットワークNWを介して操作端末5との通信を行う。
【0042】
[情報処理装置の機能]
次に、情報処理装置1の機能について説明を行う。
図6は、情報処理装置1の機能について説明する図である。
【0043】
情報処理装置1は、
図6に示すように、例えば、CPU101やメモリ102等のハードウエアとプログラム110とが有機的に協働することにより、パターン候補特定部111と、参照値算出部112と、パターン特定部113と、パターン出力部114とを含む各種機能を実現する。
【0044】
また、情報処理装置1は、
図6に示すように、例えば、複数の帳票を含む修正前帳票131と、複数の帳票を含む修正後帳票132と、パターン候補情報133(以下、第1パターン候補情報133とも呼ぶ)と、パターン候補情報134(以下、第2パターン候補情報134とも呼ぶ)と、パターン情報135と、特定結果情報136とを情報格納領域130に記憶する。
【0045】
パターン候補特定部111は、例えば、情報格納領域130に記憶された修正前帳票131と修正後帳票132とを参照して、予め定められた1以上の条件の組合せからなるパターンのそれぞれについて、各パターンを構成する全ての条件が満たされる場合に書類の記入内容についての修正が職員によって行われているか否かを判定する。修正前帳票131は、職員によって情報処理装置1に予め入力される帳票であり、例えば、職員によって記入内容の修正が行われる前の確定申告書等の書類である。また、修正後帳票132は、職員によって情報処理装置1に予め入力される帳票であり、例えば、職員によって記入内容の修正が行われた後の確定申告書等の書類である。すなわち、パターン候補特定部111は、例えば、情報格納領域130に記憶された修正前帳票131と修正後帳票132との差異点(変更点)を参照することにより、各パターンを構成する条件の全てを満たす書類のうちの、いずれかの書類の記入内容についての修正が職員によって行われているか否かの判定を行う。
【0046】
そして、パターン候補特定部111は、例えば、予め定められた1以上の条件のパターンのうち、各パターンを構成する全ての条件が満たされる場合に書類の記入内容についての修正が職員によって行われていると判定した1以上のパターンを、1以上の不整合パターンの候補として特定する。さらに、パターン候補特定部111は、例えば、特定した1以上の不整合パターンの候補を示す第1パターン候補情報133を生成する。その後、パターン候補特定部111は、例えば、生成した第1パターン候補情報133を情報格納領域130に記憶する。
【0047】
参照値算出部112は、例えば、情報格納領域130に記憶された第1パターン候補情報133(パターン候補特定部111によって生成された第1パターン候補情報133)が示す1以上の不整合パターンの候補ごとに、各候補に含まれる複数の項目間における意味の類似度(以下、単に類似度とも呼ぶ)を算出する。
【0048】
具体的に、参照値算出部112は、例えば、各項目の項目名から分割された単語の分散表現を用いることによって算出された類似度を示す辞書情報(図示せず)を参照することにより、各候補を構成する1以上の条件に含まれる複数の項目間における意味の類似度を算出する。辞書情報は、例えば、各項目の項目名から分割された単語に対応するベクトルの平均を類似度として有するものであってよい。なお、辞書情報は、例えば、職員等によって予め定義された情報であってもよい。
【0049】
パターン特定部113は、例えば、参照値算出部112が算出した類似度を用いることによって、情報格納領域130に記憶された第1パターン候補情報133が示す1以上の不整合パターンの候補から類似度の条件を満たす1以上の不整合パターンの候補を特定する。そして、パターン特定部113は、例えば、特定した1以上の不整合パターンの候補を示す第2パターン候補情報134を生成する。その後、パターン特定部113は、例えば、生成した第2パターン候補情報134を情報格納領域130に記憶する。
【0050】
さらに、パターン特定部113は、例えば、情報格納領域130に記憶された第2パターン候補情報134が示す不整合パターンの候補(第1パターン)に対応する類似度が、情報格納領域130に記憶された第2パターン候補情報134が示す他の不整合パターンの候補(第2パターン)に対応する類似度よりも大きい場合、第1パターンが第2パターンよりも優先されるように、情報格納領域130に記憶された第2パターン候補情報134が示す1以上の不整合パターンの候補から1以上の不整合パターンを特定する。そして、パターン特定部113は、例えば、特定した1以上の不整合パターンをパターン情報135として情報格納領域130に記憶する。
【0051】
パターン出力部114は、例えば、情報格納領域130に記憶されたパターン情報135が示す1以上の不整合パターンのそれぞれを操作端末5に出力する。なお、特定結果情報136の説明については後述する。
【0052】
[第1の実施の形態におけるパターン抽出処理の概略]
次に、第1の実施の形態の概略について説明を行う。
図7は、第1の実施の形態におけるパターン抽出処理の概略を説明するフローチャート図である。また、
図8は、第1の実施の形態におけるパターン抽出処理の概略を説明する図である。
【0053】
情報処理装置1は、
図7に示すように、例えば、不整合パターンの候補である複数のパターンごとに、各パターンに対応する複数の項目間における意味の類似度を算出する(S1)。
【0054】
そして、情報処理装置1は、例えば、複数のパターンに含まれる第1パターンに対応する類似度が複数のパターンに含まれる第2パターンに対応する類似度よりも大きい場合、第1パターンを第2パターンよりも優先して出力する(S2)。
【0055】
すなわち、本質的パターンは、
図8に示すように、背景知識と整合性がある不整合パターンであって、職員が背景知識から不整合が存在していることを理解可能な不整合パターンである。これに対し、見かけパターンは、
図8に示すように、背景知識と整合性がない不整合パターンであって、職員が背景知識に基づいても不整合が存在していることを理解できない不整合パターンである。具体的に、見かけパターンは、例えば、本質的パターンにおける一部の項目が相関(統計的な相関)の高い他の項目に置き換えられた不整合パターンである。そのため、本質的パターンを構成する複数の項目間の意味上の類似度は、見かけパターンを構成する複数の項目間の意味上の類似度よりも高いと判断することが可能である。
【0056】
したがって、本実施の形態における情報処理装置1は、例えば、不整合パターンの候補であるパターンのそれぞれに対応する複数の項目間における意味の類似度を算出する。そして、情報処理装置1は、例えば、類似度が高いパターンを類似度が低いパターンよりも優先して操作端末5に出力する。
【0057】
これにより、本実施の形態における情報処理装置1は、例えば、本質的パターンが見かけパターンよりも優先的に出力されるように制御を行うことが可能になる。そのため、職員は、例えば、情報処理装置1から出力された各不整合パターンが本質的パターンであるか否かについての判断に要する作業負担を抑制することが可能になる。したがって、情報処理装置1は、例えば、各書類における記入内容の修正に要する職員の作業負担を軽減させることが可能になる。
【0058】
[第1の実施の形態におけるパターン抽出処理の詳細]
次に、第1の実施の形態の詳細について説明する。
図9から
図11は、第1の実施の形態におけるパターン抽出処理の詳細を説明するフローチャート図である。また、
図12から
図16は、第1の実施の形態におけるパターン抽出処理の詳細を説明する図である。
【0059】
パターン候補特定部111は、
図9に示すように、例えば、パターン抽出タイミングになるまで待機する(S11のNO)。パターン抽出タイミングは、例えば、職員によってパターン抽出処理を行う旨の情報が情報処理装置1に入力されたタイミングであってよい。
【0060】
そして、パターン抽出タイミングになった場合(S11のYES)、パターン候補特定部111は、例えば、修正前帳票131と修正後帳票132とに基づいて第1パターン候補情報133を特定する(S12)。その後、パターン候補特定部111は、例えば、生成した第1パターン候補情報133を情報格納領域130に記憶する。
【0061】
具体的に、パターン候補特定部111は、例えば、情報格納領域130に記憶された修正前帳票131と修正後帳票132とを参照して、予め定められた1以上の条件からなるパターンのそれぞれについて、各パターンを構成する全ての条件が満たされる場合に書類の記入内容についての修正が職員によって行われているか否かを判定する。そして、パターン候補特定部111は、例えば、予め定められた1以上の条件のパターンのうち、各パターンを構成する全ての条件が満たされる場合に書類の記入内容についての修正が職員によって行われている1以上のパターンを1以上の不整合パターンの候補として特定する。その後、パターン候補特定部111は、例えば、特定した1以上の不整合パターンの候補を示す第1パターン候補情報133を生成する。以下、第1パターン候補情報133の具体例について説明を行う。
【0062】
[第1パターン候補情報の具体例]
図12は、第1パターン候補情報133の具体例について説明する図である。
図12に示す第1パターン候補情報133は、例えば、複数の書類における不整合パターンの候補を構成する1以上の条件が設定される「条件」を項目として有する。また、
図12に示す第1パターン候補情報133は、例えば、「条件」に設定された1以上の条件が全て満たされた場合に複数の書類のうちの少なくともいずれかの記入内容が修正されたか否かを示す「修正有無」を項目として有する。
【0063】
具体的に、
図12に示す第1パターン候補情報133における1行目の情報には、例えば、「条件」として「確定申告書の給与収入<給報の給与収入の合計値」という条件と「転職無」という条件との組合せが設定され、「修正有無」として「有り」が設定されている。
【0064】
すなわち、
図12に示す第1パターン候補情報133における1行目の情報は、例えば、転職を行っていない住民に対応する給与支払報告書における給与収入の合計値が、当該住民に対応する確定申告書における給与収入の値よりも大きい場合に、当該住民に対応する書類のうちの少なくともいずれかが職員によって修正されたことを示している。
【0065】
また、
図12に示す第1パターン候補情報133における2行目の情報には、例えば、「条件」として「確定申告書の給与収入<給報の給与収入の合計値」という条件と「性別男」という条件との組合せが設定され、「修正有無」として「有り」が設定されている。
【0066】
すなわち、
図12に示す第1パターン候補情報133における2行目の情報は、例えば、男性の住民に対応する給与支払報告書における給与収入の合計値が、当該住民に対応する確定申告書における給与収入の値よりも大きい場合に、当該住民に対応する書類のうちの少なくともいずれかが職員によって修正されたことを示している。
【0067】
また、
図12に示す第1パターン候補情報133における4行目の情報には、例えば、「条件」として「給報の社会保険料控除×5<給報の給与収入の合計値」という条件と「転職無」という条件との組合せが設定され、「修正有無」として「有り」が設定されている。
【0068】
すなわち、
図12に示す第1パターン候補情報133における4行目の情報は、例えば、転職を行っていない住民に対応する給与支払報告書における給与収入の合計値が、当該住民に対応する給与支払報告書における社会保険料控除の5倍の値よりも大きい場合に、当該住民に対応する書類のうちの少なくともいずれかが修正されたことを示している。
図12に含まれる他の情報についての説明は省略する。
【0069】
図9に戻り、参照値算出部112は、例えば、S13の処理で特定した不整合パターンの候補を1つ取得する(S14)。
【0070】
そして、参照値算出部112は、例えば、S14の処理で特定した不整合パターンの候補に対応する補正信頼度を算出する(S15)。
【0071】
具体的に、参照値算出部112は、例えば、S14の処理で特定した不整合パターンの候補に含まれる複数の項目間における意味の類似度を算出し、算出した類似度を用いることによって補正信頼度を算出する。
【0072】
さらに具体的に、参照値算出部112は、例えば、以下の式(1)に従うことによって補正信頼度を算出する。
【0073】
【0074】
上記の式(1)において、I1,・・・,Inは、S14の処理で特定した不整合パターンの候補に含まれる各条件を示し、Iδは、S14の処理で特定した不整合パターンの候補に含まれる修正有無を示す。また、上記の式(1)において、P(I1,・・・,In)は、S14の処理で特定した不整合パターンの候補に対応する補正信頼度を示す。また、F(I1,・・・,In)は、I1,・・・,Inを全て含むトランザクションの数(住民の数)を示し、F(I1,・・・,In,Iδ)は、I1,・・・,In,Iδを全て含むトランザクションの数(住民の数)を示し、αi∈I1,・・・,Inは、項目αiが条件I1,・・・,条件Inのうちの少なくともいずれかに含まれることを示す。また、上記の式(1)において、|α|は、αi∈I1,・・・,Inを満たす項目αiの数を示し、r(αi,αj)は、項目αiと項目αjとの意味の類似度を示す。なお、以下、各条件の組合せとしてI1,・・・,Inを含み、修正有無としてIδとを含む不整合パターンの候補を[I1,・・・,In⇒Iδ]とも表現する。
【0075】
すなわち、上記の式(1)において、補正信頼度P(I1,・・・,In)は、r(αi,αj)が大きいほど大きくなり、r(αi,αj)が小さいほど小さくなる値である。そのため、上記の式(1)は、例えば、右辺の第2項を有しない場合の式よりも、r(αi,αj)が大きいほど補正信頼度P(I1,・・・,In)が大きくなる式である。
【0076】
図9に戻り、参照値算出部112は、例えば、S14の処理で特定した不整合パターンの候補に対応する支持度を算出する(S16)。
【0077】
具体的に、参照値算出部112は、例えば、以下の式(2)に従うことによって支持度を算出する。
【0078】
【0079】
そして、パターン特定部113は、例えば、S15の処理及びS16の処理で算出した補正信頼度と支持度とが条件を満たすか否かを判定する(S17)。
【0080】
具体的に、パターン特定部113は、例えば、以下の式(3)及び式(4)の両方を満たすか否かを判定する。
【0081】
【0082】
【0083】
上記の式(3)及び(4)において、c及びsのそれぞれは、予め定められた閾値である。
【0084】
図10に戻り、例えば、S15の処理及びS16の処理で算出した補正信頼度と支持度とが条件を満たすと判定した場合(S21のYES)、パターン特定部113は、S14の処理で特定した不整合パターンの候補を示す第2パターン候補情報134を情報格納領域130に記憶する(S22)。
【0085】
一方、例えば、S15の処理及びS16の処理で算出した補正信頼度と支持度とのうちの少なくともいずれかが条件を満たさないと判定した場合(S21のNO)、パターン特定部113は、S22の処理を行わない。
【0086】
そして、パターン特定部113は、例えば、S14の処理において不整合パターンの候補を全て特定したか否かを判定する(S23)。
【0087】
その結果、S14の処理において不整合パターンの候補を全て特定していないと判定した場合(S23のNO)、パターン特定部113は、S14以降の処理を再度行う。
【0088】
一方、S14の処理において不整合パターンの候補を全て特定したと判定した場合(S23のYES)、パターン特定部113は、S24以降の処理を行う。
【0089】
すなわち、S15の処理では、各不整合パターンに含まれる項目間における意味の類似度が小さいほど補正信頼度が小さくなるように(各不整合パターンに含まれる項目間における意味の類似度が大きいほど補正信頼度が大きくなるように)、各不整合パターンに対応する補正信頼度の算出が行われる。そのため、S21の処理では、見かけパターンよりも本質的パターンの方が条件を満たす割合が高くなる。したがって、S22の処理では、見かけパターンが情報格納領域130に記憶される割合よりも、本質的パターンが情報格納領域130に記憶される割合の方が大きくなる。
【0090】
これにより、情報処理装置1は、例えば、見かけパターンよりも本質的パターンを優先的に抽出することが可能になる。
【0091】
なお、情報処理装置1は、S15の処理において、以下の式(5)に従うことによって補正信頼度を算出するものであってもよい。
【0092】
【0093】
上記の式(5)において、Pmin(F1,F2,β)は、標本数がF1であり、標本比率がF2/F1であり、信頼係数がβある場合における母比率の信頼区間の下限である。以下、第2パターン候補情報134の具体例について説明を行う。
【0094】
[第2パターン候補情報の具体例]
図13は、第2パターン候補情報134の具体例について説明する図である。
【0095】
図13に示す第2パターン候補情報134は、例えば、
図12で説明した第1パターン候補情報133と同一の項目を有する。
【0096】
具体的に、
図13に示す第2パターン候補情報134は、例えば、
図12で説明した第1パターン候補情報133のうちの1行目の情報、2行目の情報、4行目の情報及び5行目の情報等を含む。
【0097】
すなわち、
図13に示す第2パターン候補情報134は、例えば、S21の処理において、
図12で説明した第1パターン候補情報133のうちの1行目の情報等に対応する不整合パターンの候補が各条件を満たしていると判定されたことを示している。
【0098】
図10に戻り、パターン特定部113は、例えば、情報格納領域130に記憶された第2パターン候補情報134が示す不整合パターンの候補から、S15の処理で算出した補正信頼度が大きい順に1以上の不整合パターンを特定する(S24)。そして、パターン特定部113は、例えば、特定した1以上の不整合パターンを示すパターン情報135を情報格納領域130に記憶する。以下、S24の処理の詳細について説明を行う。
【0099】
[S24の処理の詳細]
図11は、S24の処理の詳細について説明するフローチャート図である。以下、不整合パターンが[I
1,・・・,I
n⇒I
δ]である場合、当該不整合パターンに含まれるI
1,・・・,I
n,I
δの全てを含むトランザクション(住民)を不整合パターンの候補の正例とも呼ぶ。また、以下、S24の処理においてまだ特定されていない不整合パターンの候補の正例であるが、S24の処理において既に特定された不整合パターンの候補の正例でないトランザクション(住民)を非被覆正例とも呼ぶ。
【0100】
パターン特定部113は、
図11に示すように、例えば、情報格納領域130に記憶された第2パターン候補情報134が示す不整合パターンの候補を、S15の処理で算出した補正信頼度が大きい順に1つ特定する(S31)。
【0101】
すなわち、パターン特定部113は、例えば、S31の処理においてまだ特定されていない不整合パターンの候補のうち、S15の処理で算出した補正信頼度が最も大きい不整合パターンの候補を特定する。
【0102】
そして、パターン特定部113は、例えば、S31の処理で特定した不整合パターンの候補に対応する非被覆正例の数(以下、単に非被覆正例数とも呼ぶ)を特定する(S32)。
【0103】
具体的に、パターン特定部113は、例えば、情報格納領域130に記憶された修正前帳票131及び修正後帳票132を参照し、S31の処理で特定された不整合パターンの正例であるが、情報格納領域130に記憶されたパターン情報135が示す不整合パターン(後述するS34の処理において情報格納領域130に記憶された不整合パターン)のうちの少なくともいずれかの正例でないトランザクション(住民)の数を特定する。
【0104】
その後、パターン特定部113は、例えば、S32の処理で特定した非被覆正例数が条件(以下、所定の条件とも呼ぶ)を満たすか否かを判定する(S33)。
【0105】
具体的に、パターン特定部113は、この場合、例えば、S32の処理で特定した非被覆正例数が予め定められた閾値以上であるか否かを判定する。
【0106】
その結果、例えば、S32の処理で特定した非被覆正例数が条件を満たすと判定した場合(S33のYES)、パターン特定部113は、S31の処理で特定した不整合パターンの候補を示すパターン情報135を情報格納領域130に記憶する(S34)。
【0107】
すなわち、パターン特定部113は、この場合、例えば、S31の処理で特定した不整合パターンの候補を不整合パターンとして特定する。
【0108】
一方、例えば、S32の処理で特定した非被覆正例数が条件を満たさないと判定した場合(S33のNO)、パターン特定部113は、S31以降の処理を再度行う。
【0109】
すなわち、パターン特定部113は、この場合、例えば、S31の処理で特定した不整合パターンの候補を不整合パターンとして特定しない。
【0110】
そして、パターン特定部113は、例えば、S31の処理において全ての不整合パターンの候補を特定したか否かを判定する(S35)。
【0111】
その結果、S31の処理において全ての不整合パターンの候補を特定していないと判定した場合(S35のNO)、パターン特定部113は、S31以降の処理を再度行う。
【0112】
一方、S31の処理において全ての不整合パターンの候補を特定したと判定した場合(S35のYES)、パターン特定部113は、S24の処理を終了する。
【0113】
これにより、情報処理装置1は、例えば、後述するS25の処理において出力される情報(不整合パターンを示す情報)の数を抑制することが可能になる。そのため、職員は、例えば、書類の記入内容についての修正を行う際に必要な情報をより効率的に参照することが可能になる。以下、パターン情報135の具体例について説明を行う。
【0114】
[パターン情報の具体例]
図14は、パターン情報135の具体例について説明する図である。
【0115】
図14に示すパターン情報135は、例えば、
図12で説明した第1パターン候補情報133及び
図13で説明した第2パターン候補情報134と同一の項目を有する。
【0116】
具体的に、
図14に示すパターン情報135は、例えば、
図13で説明した第2パターン候補情報134のうちの1行目の情報を含む。
【0117】
すなわち、
図14に示すパターン情報135は、例えば、S24の処理において、
図13で説明した第2パターン候補情報134のうちの1行目の情報に対応する不整合パターンの候補が不整合パターン(本質的パターンである可能性が高い不整合パターン)として特定されたことを示している。
【0118】
図10に戻り、パターン出力部114は、例えば、情報格納領域130に記憶したパターン情報135が示す不整合パターンを操作端末5に出力する(S25)。
【0119】
[記入内容の不整合を特定する際の具体例]
次に、S25の処理で出力された不整合パターンを用いることによって、新たな修正前帳票131(以下、修正前帳票131aとも呼ぶ)における記入内容の不整合を特定する場合の具体例について説明を行う。
【0120】
情報処理装置1は、例えば、情報格納領域130に記憶されたパターン情報135が示す不整合パターンを参照し、情報格納領域130に記憶された修正前帳票131aに含まれる複数の帳票間における記入内容の不整合を特定する。そして、情報処理装置1は、例えば、特定した不整合に対応する不整合パターンを示す特定結果情報136を生成する。
【0121】
その後、情報処理装置1は、例えば、生成した特定結果情報136を情報格納領域130に記憶するとともに、生成した特定結果情報136に含まれる情報を操作端末5に出力する。以下、特定結果情報136の具体例について説明を行う。
【0122】
[特定結果情報の具体例]
図15は、特定結果情報136の具体例について説明する図である。
図15に示す特定結果情報136は、例えば、各住民を識別する「住民」と、各住民に対応する複数の書類における不整合パターンの候補を構成する1以上の条件が設定される「条件」とを項目として有する。
【0123】
具体的に、
図15に示す特定結果情報136における1行目の情報には、例えば、「住民」として「001」が設定され、「条件」として「確定申告書の給与収入<給報の給与収入の合計値」という条件と「転職無」という条件との組合せが設定されている。
【0124】
また、
図15に示す特定結果情報136における2行目の情報には、例えば、「住民」として「002」が設定され、「条件」として「確定申告書の給与収入<給報の給与収入の合計値」という条件と「転職無」という条件との組合せが設定されている。
【0125】
すなわち、
図15に示す特定結果情報136は、例えば、
図14に示すパターン情報135が示す不整合パターンに対応する不整合が修正前帳票131aに存在していた住民が2人存在したことを示している。
【0126】
そして、職員は、例えば、操作端末5に出力された特定結果情報136の内容を参照することによって、修正前帳票131aにおける記入内容についての修正を行い、修正前帳票131aに含まれる不整合を解消する。
【0127】
このように、本実施の形態における情報処理装置1は、例えば、不整合パターンの候補である複数のパターンごとに、各パターンを構成する複数の項目間における意味の類似度を算出する。そして、情報処理装置1は、例えば、複数のパターンに含まれる第1パターンに対応する類似度が、複数のパターンに含まれる第2パターンに対応する類似度よりも大きい場合、第1パターンを第2パターンよりも優先して抽出(出力)する。
【0128】
すなわち、本質的パターンは、職員が背景知識から不整合が存在していることを理解可能な不整合パターンである。これに対し、見かけパターンは、職員が背景知識に基づいても不整合が存在していることを理解できない不整合パターンであり、例えば、本質的パターンにおける一部の項目が相関(統計的な相関)の高い他の項目に置き換えられた不整合パターンである。そのため、本質的パターンを構成する複数の項目間における意味上の類似度は、例えば、見かけパターンを構成する複数の項目間における意味上の類似度よりも高いと判断することが可能である。
【0129】
したがって、本実施の形態における情報処理装置1は、例えば、不整合パターンの候補であるパターンのそれぞれに対応する複数の項目間における意味の類似度を算出する。そして、情報処理装置1は、例えば、類似度が高いパターンを類似度が低いパターンよりも優先して操作端末5に出力する。
【0130】
これにより、本実施の形態における情報処理装置1は、例えば、本質的パターンが見かけパターンよりも優先的に出力されるように制御を行うことが可能になる。言い換えれば、情報処理装置1は、例えば、見かけパターンが可能な限り出力されないように制御を行うことが可能になる。そのため、職員は、例えば、情報処理装置1から出力された各不整合パターンが本質的パターンであるか否かについての判断に要する作業負担を抑制することが可能になる。したがって、情報処理装置1は、例えば、各書類における記入内容の修正に要する職員の作業負担を軽減させることが可能になる。
【0131】
具体的に、例えば、
図16(A)に示す出力画面OP1のように、例えば、住民001に対応する不整合パターンとして、「確定申告書の給与収入<給報の給与収入の合計値、かつ、転職無」や「給報の社会保険料控除×5<給報の給与収入の合計値、かつ、転職無」等の本質的パターンである可能性が高い不整合パターンだけでなく、「確定申告書の給与収入<給報の給与収入の合計値、かつ、性別男」や「給報の社会保険料控除×5<給報の給与収入の合計値、かつ、性別男」等の見かけパターンである可能性が高い不整合パターンについても操作端末5に出力される場合、職員は、操作端末5に出力された不整合パターンから本質的パターンである可能性が高い不整合パターンを特定するために多くの時間を費やす必要がある。
【0132】
これに対し、例えば、情報格納領域130に記載された特定結果情報136(
図15で説明した特定結果情報136)が出力される場合、情報処理装置1は、
図16(B)に示す出力画面OP2のように、例えば、住民001に対応する不整合パターンとして、本質的パターンである可能性が高い「確定申告書の給与収入<給報の給与収入の合計値、かつ、転職無」を操作端末5の出力装置(図示せず)に出力する。
【0133】
そのため、
図16(B)の出力画面OP2を参照する職員は、この場合、例えば、出力装置に出力された各不整合パターンが本質的パターンであるか否かについての判断に要する作業負担を抑制することが可能になる。したがって、職員は、例えば、各書類における記入内容の修正に要する作業負担を軽減させることが可能になる。
【0134】
また、本実施の形態における情報処理装置1は、見かけパターンである可能性が高い不整合パターンが排除された後の不整合パターン(すなわち、本質的パターンである可能性が高い1以上の不整合パターン)を出力することで、例えば、各不整合パターンが出力(抽出)された理由を職員が背景知識から理解できる可能性の高い不整合パターンを出力することが可能になる。そのため、情報処理装置1は、例えば、出力した各不整合パターンの内容を職員に参照させることで、各不整合パターンの内容自体を、各不整合パターンが出力された理由を職員に連想させる情報(いわゆるヒント)として与えることが可能になる。
【0135】
また、本実施の形態における情報処理装置1は、出力する必要がある不整合パターンの数を抑えることが可能になることで、例えば、
図16(B)に示すように、住民を示す情報を不整合パターンごとに纏める形で出力することが可能になる。そのため、情報処理装置1は、例えば、出力した各不整合パターンの内容を職員に効率的に把握させることが可能になる。
【0136】
以上の実施の形態をまとめると、以下の付記のとおりである。
【0137】
(付記1)
複数の書類のそれぞれに含まれる複数の項目に記入される情報間の関係をそれぞれ示す複数のパターンごとに、各パターンに対応する前記複数の項目間における意味の類似度を算出し、
前記複数のパターンに含まれる第1パターンに対応する前記類似度が前記複数のパターンに含まれる第2パターンに対応する前記類似度よりも大きい場合、前記第1パターンを前記第2パターンよりも優先して出力する、
処理をコンピュータが実行することを特徴とするパターン抽出方法。
【0138】
(付記2)
付記1において、
前記複数のパターンのそれぞれは、各パターンに対応する前記複数の項目に記入された各情報のうちのいずれかについての修正が行われたパターンである、
ことを特徴とするパターン抽出方法。
【0139】
(付記3)
付記1において、
前記出力する処理では、前記類似度を用いて算出された補正信頼度が大きい順に前記複数のパターンを出力する、
ことを特徴とするパターン抽出方法。
【0140】
(付記4)
付記3において
前記補正信頼度は、前記類似度が大きいほど大きくなり、前記類似度が小さいほど小さくなる値である、
ことを特徴とするパターン抽出方法。
【0141】
(付記5)
付記4において、
前記出力する処理では、前記複数のパターンに含まれる特定のパターンに対応する正例のうち、前記出力する処理において前記特定のパターンよりも前に出力された前記複数のパターンのうちの少なくともいずれかのパターンに対応しない正例の数が所定の条件を満たさない場合、前記特定のパターンの出力を行わない、
ことを特徴とするパターン抽出方法。
【0142】
(付記6)
付記5において、
前記特定のパターンに対応する正例は、前記特定のパターンに対応する前記複数の項目の全てに対応するトランザクションである、
ことを特徴とするパターン抽出方法。
【0143】
(付記7)
複数の書類のそれぞれに含まれる複数の項目に記入される情報間の関係をそれぞれ示す複数のパターンごとに、各パターンに対応する前記複数の項目間における意味の類似度を算出し、
前記複数のパターンに含まれる第1パターンに対応する前記類似度が前記複数のパターンに含まれる第2パターンに対応する前記類似度よりも大きい場合、前記第1パターンを前記第2パターンよりも優先して出力する、
処理をコンピュータに実行させることを特徴とするパターン抽出プログラム。
【0144】
(付記8)
複数の書類のそれぞれに含まれる複数の項目に記入される情報間の関係をそれぞれ示す複数のパターンごとに、各パターンに対応する前記複数の項目間における意味の類似度を算出する参照値算出部と、
前記複数のパターンに含まれる第1パターンに対応する前記類似度が前記複数のパターンに含まれる第2パターンに対応する前記類似度よりも大きい場合、前記第1パターンを前記第2パターンよりも優先して出力するパターン出力部と、を有する、
ことを特徴とする情報処理装置。
【符号の説明】
【0145】
1:情報処理装置 5:操作端末
10:情報処理システム 101:CPU
102:メモリ 103:I/Oインタフェース
104:ストレージ 105:バス
NW:ネットワーク