IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社オービックの特許一覧

特許7397766情報処理装置、情報処理方法およびプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-05
(45)【発行日】2023-12-13
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
   G06F 16/215 20190101AFI20231206BHJP
【FI】
G06F16/215
【請求項の数】 12
(21)【出願番号】P 2020106490
(22)【出願日】2020-06-19
(65)【公開番号】P2022002005
(43)【公開日】2022-01-06
【審査請求日】2022-11-11
(73)【特許権者】
【識別番号】398040527
【氏名又は名称】株式会社オービック
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】新田 駿侍
(72)【発明者】
【氏名】前沢 諒也
(72)【発明者】
【氏名】上野 剛光
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2012-159885(JP,A)
【文献】特開2011-257854(JP,A)
【文献】特開2015-075970(JP,A)
【文献】特開2004-303037(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
制御部を備える情報処理装置であって、
クレンジング手法と類似度計算手法との手法組み合わせが名寄せ先データの項目である先項目と紐付けて格納され、且つ、名寄せ元データの項目である元項目と先項目との項目組み合わせを1つまたは複数含む名寄せ実行時に使用する項目組み合わせ集合が所定のパターンまたはレイアウトを有している名寄せ元データのテンプレートと紐付けて格納された記憶部にアクセス可能であり、
前記制御部は、
名寄せ元データと名寄せ先データを受け取る受取手段と、
前記受け取った名寄せ元データに付与されたテンプレートの識別情報に紐付く項目組み合わせ集合を、前記記憶部から取得し、取得した項目組み合わせ集合中の項目組み合わせごとに、当該項目組み合わせ中の先項目に紐付く手法組み合わせを、前記記憶部から取得する取得手段と、
1)前記取得した項目組み合わせ集合中の項目組み合わせと前記取得した手法組み合わせとの組み合わせごとに、11)前記受け取った名寄せ元データが保持する、当該項目組み合わせ中の元項目に係る値と、前記受け取った名寄せ先データが保持する、当該項目組み合わせ中の先項目に係る値と、に対する、当該手法組み合わせ中のクレンジング手法によるクレンジング処理と、12)クレンジング処理後の両値に対する、当該手法組み合わせ中の類似度計算手法による類似度計算処理と、を実行し、2)当該得られた各類似度を集計し、3)当該得られた集計値に基づく情報と、当該名寄せ先データが保持する、名寄せ先データを一意に識別するための先項目である識別先項目に係る値を、名寄せ結果として出力する名寄せ実行手段と、
を備え、さらに、
前記記憶部は、
名寄せ元データが保持する、項目組み合わせ集合中の元項目に係る値と、名寄せ先データが保持する識別先項目に係る値と、を紐付けて登録した辞書データ
を格納し、
前記制御部は、
前記受け取った名寄せ元データが保持する、前記取得した項目組み合わせ集合中の元項目に係る値が、前記辞書データに登録されたものと同じである場合に、前記辞書データに登録された識別先項目に係る値と、当該値が前記辞書データに登録されたものであることを示す情報を、名寄せ結果として出力する辞書使用名寄せ実行手段
を備え、
前記名寄せ実行手段は、前記受け取った名寄せ元データが保持する、前記取得した項目組み合わせ集合中の元項目に係る値が、前記辞書データに登録されたものと同じでなかった場合に、前記1)から前記3)の処理を実行すること、
を特徴とする情報処理装置。
【請求項2】
前記記憶部は、重み付け値を先項目と紐付けてさらに格納し、
前記取得手段は、前記取得した項目組み合わせ集合中の項目組み合わせごとに、当該項目組み合わせ中の先項目に紐付く重み付け値を、前記記憶部からさらに取得し、
前記名寄せ実行手段は、各類似度に前記取得した各重み付け値を掛け合わせて各類似度を集計すること、
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記名寄せ実行手段は、集計値と1つの閾値または互いに異なる複数の閾値との大小を比較し、比較結果に応じたコンテンツを、前記集計値に基づく情報として出力すること、
を特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記名寄せ実行手段は、前記受け取った名寄せ先データが保持する、前記取得した項目組み合わせ集合中の先項目に係る値を、名寄せ結果としてさらに出力すること、
を特徴とする請求項1から3のいずれか1つに記載の情報処理装置。
【請求項5】
前記記憶部は、
1)手法組み合わせを複数含む手法組み合わせ集合と、
2)先項目と手法組み合わせの識別情報との先項目・手法組み合わせを、名寄せ先データ中の先項目の個数分含む先項目・手法組み合わせ集合を、名寄せ先データ別に複数含む先項目・手法組み合わせ集合族と、
3)項目組み合わせ集合を1つまたは複数含む項目組み合わせ集合族と、
4)項目組み合わせ集合の識別情報と先項目・手法組み合わせ集合の識別情報との組み合わせを1つまたは複数含む第一組み合わせ集合を1つまたは複数含む第一組み合わせ集合族と、
5)第一組み合わせ集合の識別情報と名寄せ元データのテンプレートの識別情報との組み合わせを1つまたは複数含む第二組み合わせ集合と、
を格納しているものであり、
前記取得手段は、
1)前記受け取った名寄せ元データ中のテンプレートの識別情報に紐付く第一組み合わせ集合の識別情報を、前記第二組み合わせ集合から取得し、
2)前記取得した第一組み合わせ集合の識別情報で特定される第一組み合わせ集合を、前記第一組み合わせ集合族から取得し、
3)前記取得した第一組み合わせ集合中の項目組み合わせ集合の識別情報で特定される項目組み合わせ集合を、前記項目組み合わせ集合族から取得するとともに、前記取得した第一組み合わせ集合中の先項目・手法組み合わせ集合の識別情報で特定される先項目・手法組み合わせ集合を、前記先項目・手法組み合わせ集合族から取得し、
4)前記取得した先項目・手法組み合わせ集合から、前記取得した項目組み合わせ集合中の先項目に紐付く手法組み合わせを取得すること、
を特徴とする請求項1から4のいずれか1つに記載の情報処理装置。
【請求項6】
前記制御部は、
クレンジング手法を設定させるための領域と、類似度計算手法を設定させるための領域とを含む第一の設定画面を介して、オペレータに、手法組み合わせを設定させる第一設定手段と、
名寄せ先データを設定させるための領域と、設定された名寄せ先データ中の先項目を表示させるための領域と、先項目に適用する手法組み合わせを設定させるための領域と、を含む第二の設定画面を介して、オペレータに、先項目・手法組み合わせ集合を設定させる第二設定手段と、
名寄せ元データのテンプレートを設定させるための領域と、名寄せ先データを設定させるための領域と、先項目・手法組み合わせ集合を設定させるための領域と、設定された名寄せ先データ中の先項目と設定されたテンプレート中の元項目とを表示させ、項目組み合わせ集合を設定させるための領域と、を含む第三の設定画面を介して、オペレータに、項目組み合わせ集合、名寄せ元データのテンプレートおよび先項目・手法組み合わせ集合の紐付けを設定させる第三設定手段と、
をさらに備えること、
を特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記制御部は、
前記名寄せ実行手段において、前記受け取った名寄せ元データが保持する、前記取得した項目組み合わせ集合中の元項目に係る値と、前記受け取った名寄せ先データが保持する識別先項目に係る値との特定の組み合わせが、所定回数以上記録された場合、当該特定の組み合わせの前記辞書データへの登録を提案するための情報を出力する提案情報出力手段
をさらに備えること、
を特徴とする請求項に記載の情報処理装置。
【請求項8】
名寄せ元データと名寄せ先データは、ERP(Enterprise Resource Planning)に係るアプリケーションソフトウェアから転送されたものであり、
前記出力は、名寄せ元データと名寄せ先データの転送元のERPに係るアプリケーションソフトウェアを出力先とするものであること、
を特徴とする請求項1からのいずれか1つに記載の情報処理装置。
【請求項9】
名寄せ先データは、ERPに係るアプリケーションソフトウェア内に設定されたマスタであること、
を特徴とする請求項に記載の情報処理装置。
【請求項10】
名寄せ元データは、OCR(Optical Character Recognition)により電子化された、または外部取込された電子データであること、
を特徴とする請求項に記載の情報処理装置。
【請求項11】
クレンジング手法と類似度計算手法との手法組み合わせが名寄せ先データの項目である先項目と紐付けて格納され、且つ、名寄せ元データの項目である元項目と先項目との項目組み合わせを1つまたは複数含む名寄せ実行時に使用する項目組み合わせ集合が所定のパターンまたはレイアウトを有している名寄せ元データのテンプレートと紐付けて格納された記憶部にアクセス可能な、制御部を備える情報処理装置で実行される情報処理方法であって、
前記制御部で実行される、
名寄せ元データと名寄せ先データを受け取る受取ステップと、
前記受け取った名寄せ元データに付与されたテンプレートの識別情報に紐付く項目組み合わせ集合を、前記記憶部から取得し、取得した項目組み合わせ集合中の項目組み合わせごとに、当該項目組み合わせ中の先項目に紐付く手法組み合わせを、前記記憶部から取得する取得ステップと、
1)前記取得した項目組み合わせ集合中の項目組み合わせと前記取得した手法組み合わせとの組み合わせごとに、11)前記受け取った名寄せ元データが保持する、当該項目組み合わせ中の元項目に係る値と、前記受け取った名寄せ先データが保持する、当該項目組み合わせ中の先項目に係る値と、に対する、当該手法組み合わせ中のクレンジング手法によるクレンジング処理と、12)クレンジング処理後の両値に対する、当該手法組み合わせ中の類似度計算手法による類似度計算処理と、を実行し、2)当該得られた各類似度を集計し、3)当該得られた集計値に基づく情報と、当該名寄せ先データが保持する、名寄せ先データを一意に識別するための先項目である識別先項目に係る値を、名寄せ結果として出力する名寄せ実行ステップと、
を含み、さらに、
前記記憶部は、
名寄せ元データが保持する、項目組み合わせ集合中の元項目に係る値と、名寄せ先データが保持する識別先項目に係る値と、を紐付けて登録した辞書データ
を格納し、
前記制御部で実行される、
前記受け取った名寄せ元データが保持する、前記取得した項目組み合わせ集合中の元項目に係る値が、前記辞書データに登録されたものと同じである場合に、前記辞書データに登録された識別先項目に係る値と、当該値が前記辞書データに登録されたものであることを示す情報を、名寄せ結果として出力する辞書使用名寄せ実行ステップ
を含み、
前記名寄せ実行ステップは、前記受け取った名寄せ元データが保持する、前記取得した項目組み合わせ集合中の元項目に係る値が、前記辞書データに登録されたものと同じでなかった場合に、前記1)から前記3)の処理を実行すること、
を特徴とする情報処理方法。
【請求項12】
クレンジング手法と類似度計算手法との手法組み合わせが名寄せ先データの項目である先項目と紐付けて格納され、且つ、名寄せ元データの項目である元項目と先項目との項目組み合わせを1つまたは複数含む名寄せ実行時に使用する項目組み合わせ集合が所定のパターンまたはレイアウトを有している名寄せ元データのテンプレートと紐付けて格納された記憶部にアクセス可能な、制御部を備える情報処理装置に実行させるためのプログラムであって、
前記制御部に実行させるための、
名寄せ元データと名寄せ先データを受け取る受取ステップと、
前記受け取った名寄せ元データに付与されたテンプレートの識別情報に紐付く項目組み合わせ集合を、前記記憶部から取得し、取得した項目組み合わせ集合中の項目組み合わせごとに、当該項目組み合わせ中の先項目に紐付く手法組み合わせを、前記記憶部から取得する取得ステップと、
1)前記取得した項目組み合わせ集合中の項目組み合わせと前記取得した手法組み合わせとの組み合わせごとに、11)前記受け取った名寄せ元データが保持する、当該項目組み合わせ中の元項目に係る値と、前記受け取った名寄せ先データが保持する、当該項目組み合わせ中の先項目に係る値と、に対する、当該手法組み合わせ中のクレンジング手法によるクレンジング処理と、12)クレンジング処理後の両値に対する、当該手法組み合わせ中の類似度計算手法による類似度計算処理と、を実行し、2)当該得られた各類似度を集計し、3)当該得られた集計値に基づく情報と、当該名寄せ先データが保持する、名寄せ先データを一意に識別するための先項目である識別先項目に係る値を、名寄せ結果として出力する名寄せ実行ステップと、
を含み、さらに、
前記記憶部は、
名寄せ元データが保持する、項目組み合わせ集合中の元項目に係る値と、名寄せ先データが保持する識別先項目に係る値と、を紐付けて登録した辞書データ
を格納し、
前記制御部に実行させるための、
前記受け取った名寄せ元データが保持する、前記取得した項目組み合わせ集合中の元項目に係る値が、前記辞書データに登録されたものと同じである場合に、前記辞書データに登録された識別先項目に係る値と、当該値が前記辞書データに登録されたものであることを示す情報を、名寄せ結果として出力する辞書使用名寄せ実行ステップ
を含み、
前記名寄せ実行ステップは、前記受け取った名寄せ元データが保持する、前記取得した項目組み合わせ集合中の元項目に係る値が、前記辞書データに登録されたものと同じでなかった場合に、前記1)から前記3)の処理を実行すること、
を特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
昨今、電子データ(例えば、OCR(Optical Character Recognition)により電子化されたもの、または外部取込された(例えばEDI(Electronic Data Interchange)によりデータベースへ取り込まれた)もの、など)をERP(Enterprise Resource Planning)に係るアプリケーションソフトウェアに自動的に連結させることが可能となってきている。そして、外部データをERPに取り込む際に、外部データに対しERP内で使用されているコード(具体的にはERP内で使用されている各種マスタ中の主キー項目に係る値)を付与する「名寄せ」(情報処理)が必要となる。つまり、名寄せの需要が高まってきている。
【0003】
従来の名寄せシステムは、特定の名寄せ場面での使用を想定したものとなっている。従来の名寄せシステムの一例として、同一人物による債権情報を検索する目的で債権情報の名寄せを行うシステム、バージョンが異なることによるソフトウェア名の表記ゆれを吸収してソフトウェアを正しく管理する目的でソフトウェア名の名寄せを行うシステム、CRM(Customer Relationship Management)において対象の企業を企業名と周辺情報から正しく検索する目的で企業名の名寄せを行うシステム、帳票における企業名にERP内で使用されている得意先マスタ中の得意先コード(主キー項目に係る値)を付与する企業名の名寄せに係るシステム、または、注文書における商品名にERP内で使用されている商品マスタ中の商品コード(主キー項目に係る値)を付与する商品名の名寄せに係るシステムが挙げられる。
【0004】
なお、特許文献1には、ソースコードの修正を行うこと無く保険料計算式の追加、変更、削除を可能とする保険料算出システムが開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2013-065077号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、ERPでは、多種多様なデータを扱うため、名寄せ場面も多種多様となる。そのため、従来のように名寄せ場面ごとに名寄せシステムを設計・開発することは非効率であると考えられる。
【0007】
本発明は、上記に鑑みてなされたものであって、多種多様な名寄せ場面(具体的には名寄せ元データ(例:帳票データ)と名寄せ先データ(例:マスタ)との組み合わせ)に応じた名寄せフローを、名寄せ場面ごとに設計・開発することなくコーディングレスで作成・実行することができる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、本発明に係る情報処理装置は、制御部を備える情報処理装置であって、クレンジング手法と類似度計算手法との手法組み合わせが名寄せ先データの項目である先項目と紐付けて格納され、且つ、名寄せ元データの項目である元項目と先項目との項目組み合わせを1つまたは複数含む名寄せ実行時に使用する項目組み合わせ集合が名寄せ元データのテンプレートと紐付けて格納された記憶部にアクセス可能であり、前記制御部は、名寄せ元データと名寄せ先データを受け取る受取手段と、前記受け取った名寄せ元データのテンプレートに紐付く項目組み合わせ集合を、前記記憶部から取得し、取得した項目組み合わせ集合中の項目組み合わせごとに、当該項目組み合わせ中の先項目に紐付く手法組み合わせを、前記記憶部から取得する取得手段と、1)前記取得した項目組み合わせ集合中の項目組み合わせと前記取得した手法組み合わせとの組み合わせごとに、11)前記受け取った名寄せ元データが保持する、当該項目組み合わせ中の元項目に係る値と、前記受け取った名寄せ先データが保持する、当該項目組み合わせ中の先項目に係る値と、に対する、当該手法組み合わせ中のクレンジング手法によるクレンジング処理と、12)クレンジング処理後の両値に対する、当該手法組み合わせ中の類似度計算手法による類似度計算処理と、を実行し、2)当該得られた各類似度を集計し、3)当該得られた集計値に基づく情報と、当該名寄せ先データが保持する、名寄せ先データを一意に識別するための先項目である識別先項目に係る値を、名寄せ結果として出力する名寄せ実行手段と、を備えること、を特徴とする。
【0009】
また、本発明に係る情報処理装置において、前記記憶部は、重み付け値を先項目と紐付けてさらに格納し、前記取得手段は、前記取得した項目組み合わせ集合中の項目組み合わせごとに、当該項目組み合わせ中の先項目に紐付く重み付け値を、前記記憶部からさらに取得し、前記名寄せ実行手段は、各類似度に前記取得した各重み付け値を掛け合わせて各類似度を集計すること、を特徴とする。
【0010】
また、本発明に係る情報処理装置において、前記名寄せ実行手段は、集計値と1つの閾値または互いに異なる複数の閾値との大小を比較し、比較結果に応じたコンテンツを、前記集計値に基づく情報として出力すること、を特徴とする。
【0011】
また、本発明に係る情報処理装置において、前記名寄せ実行手段は、前記受け取った名寄せ先データが保持する、前記取得した項目組み合わせ集合中の先項目に係る値を、名寄せ結果としてさらに出力すること、を特徴とする。
【0012】
また、本発明に係る情報処理装置において、前記記憶部は、1)手法組み合わせを複数含む手法組み合わせ集合と、2)先項目と手法組み合わせの識別情報との先項目・手法組み合わせを、名寄せ先データ中の先項目の個数分含む先項目・手法組み合わせ集合を、名寄せ先データ別に複数含む先項目・手法組み合わせ集合族と、3)項目組み合わせ集合を1つまたは複数含む項目組み合わせ集合族と、4)項目組み合わせ集合の識別情報と先項目・手法組み合わせ集合の識別情報との組み合わせを1つまたは複数含む第一組み合わせ集合を1つまたは複数含む第一組み合わせ集合族と、5)第一組み合わせ集合の識別情報と名寄せ元データのテンプレートの識別情報との組み合わせを1つまたは複数含む第二組み合わせ集合と、を格納しているものであり、前記取得手段は、1)前記受け取った名寄せ元データ中のテンプレートの識別情報に紐付く第一組み合わせ集合の識別情報を、前記第二組み合わせ集合から取得し、2)前記取得した第一組み合わせ集合の識別情報で特定される第一組み合わせ集合を、前記第一組み合わせ集合族から取得し、3)前記取得した第一組み合わせ集合中の項目組み合わせ集合の識別情報で特定される項目組み合わせ集合を、前記項目組み合わせ集合族から取得するとともに、前記取得した第一組み合わせ集合中の先項目・手法組み合わせ集合の識別情報で特定される先項目・手法組み合わせ集合を、前記先項目・手法組み合わせ集合族から取得し、4)前記取得した先項目・手法組み合わせ集合から、前記取得した項目組み合わせ集合中の先項目に紐付く手法組み合わせを取得すること、を特徴とする。
【0013】
また、本発明に係る情報処理装置において、前記制御部は、クレンジング手法を設定させるための領域と、類似度計算手法を設定させるための領域とを含む第一の設定画面を介して、オペレータに、手法組み合わせを設定させる第一設定手段と、名寄せ先データを設定させるための領域と、設定された名寄せ先データ中の先項目を表示させるための領域と、先項目に適用する手法組み合わせを設定させるための領域と、を含む第二の設定画面を介して、オペレータに、先項目・手法組み合わせ集合を設定させる第二設定手段と、名寄せ元データのテンプレートを設定させるための領域と、名寄せ先データを設定させるための領域と、先項目・手法組み合わせ集合を設定させるための領域と、設定された名寄せ先データ中の先項目と設定されたテンプレート中の元項目とを表示させ、項目組み合わせ集合を設定させるための領域と、を含む第三の設定画面を介して、オペレータに、項目組み合わせ集合、名寄せ元データのテンプレートおよび先項目・手法組み合わせ集合の紐付けを設定させる第三設定手段と、をさらに備えること、を特徴とする。
【0014】
また、本発明に係る情報処理装置において、前記記憶部は、名寄せ元データが保持する、項目組み合わせ集合中の元項目に係る値と、名寄せ先データが保持する識別先項目に係る値と、を紐付けて登録した辞書データをさらに格納し、前記制御部は、前記受け取った名寄せ元データが保持する、前記取得した項目組み合わせ集合中の元項目に係る値が、前記辞書データに登録されたものと同じである場合に、前記辞書データに登録された識別先項目に係る値と、当該値が前記辞書データに登録されたものであることを示す情報を、名寄せ結果として出力する辞書使用名寄せ実行手段をさらに備え、前記名寄せ実行手段は、前記受け取った名寄せ元データが保持する、前記取得した項目組み合わせ集合中の元項目に係る値が、前記辞書データに登録されたものと同じでなかった場合に、前記1)から前記3)の処理を実行すること、を特徴とする。
【0015】
また、本発明に係る情報処理装置において、前記制御部は、前記名寄せ実行手段において、前記受け取った名寄せ元データが保持する、前記取得した項目組み合わせ集合中の元項目に係る値と、前記受け取った名寄せ先データが保持する識別先項目に係る値との特定の組み合わせが、所定回数以上記録された場合、当該特定の組み合わせの前記辞書データへの登録を提案するための情報を出力する提案情報出力手段をさらに備えること、を特徴とする。
【0016】
また、本発明に係る情報処理装置において、名寄せ元データと名寄せ先データは、ERP(Enterprise Resource Planning)に係るアプリケーションソフトウェアから転送されたものであり、前記出力は、名寄せ元データと名寄せ先データの転送元のERPに係るアプリケーションソフトウェアを出力先とするものであること、を特徴とする。
【0017】
また、本発明に係る情報処理装置において、名寄せ先データは、ERPに係るアプリケーションソフトウェア内に設定されたマスタであること、を特徴とする。
【0018】
また、本発明に係る情報処理装置において、名寄せ元データは、OCR(Optical Character Recognition)により電子化された、または外部取込された電子データであること、を特徴とする。
【0019】
また、本発明に係る情報処理方法は、クレンジング手法と類似度計算手法との手法組み合わせが名寄せ先データの項目である先項目と紐付けて格納され、且つ、名寄せ元データの項目である元項目と先項目との項目組み合わせを1つまたは複数含む名寄せ実行時に使用する項目組み合わせ集合が名寄せ元データのテンプレートと紐付けて格納された記憶部にアクセス可能な、制御部を備える情報処理装置で実行される情報処理方法であって、前記制御部で実行される、名寄せ元データと名寄せ先データを受け取る受取ステップと、前記受け取った名寄せ元データのテンプレートに紐付く項目組み合わせ集合を、前記記憶部から取得し、取得した項目組み合わせ集合中の項目組み合わせごとに、当該項目組み合わせ中の先項目に紐付く手法組み合わせを、前記記憶部から取得する取得ステップと、1)前記取得した項目組み合わせ集合中の項目組み合わせと前記取得した手法組み合わせとの組み合わせごとに、11)前記受け取った名寄せ元データが保持する、当該項目組み合わせ中の元項目に係る値と、前記受け取った名寄せ先データが保持する、当該項目組み合わせ中の先項目に係る値と、に対する、当該手法組み合わせ中のクレンジング手法によるクレンジング処理と、12)クレンジング処理後の両値に対する、当該手法組み合わせ中の類似度計算手法による類似度計算処理と、を実行し、2)当該得られた各類似度を集計し、3)当該得られた集計値に基づく情報と、当該名寄せ先データが保持する、名寄せ先データを一意に識別するための先項目である識別先項目に係る値を、名寄せ結果として出力する名寄せ実行ステップと、を含むこと、を特徴とする。
【0020】
また、本発明に係るプログラムは、クレンジング手法と類似度計算手法との手法組み合わせが名寄せ先データの項目である先項目と紐付けて格納され、且つ、名寄せ元データの項目である元項目と先項目との項目組み合わせを1つまたは複数含む名寄せ実行時に使用する項目組み合わせ集合が名寄せ元データのテンプレートと紐付けて格納された記憶部にアクセス可能な、制御部を備える情報処理装置に実行させるためのプログラムであって、前記制御部に実行させるための、名寄せ元データと名寄せ先データを受け取る受取ステップと、前記受け取った名寄せ元データのテンプレートに紐付く項目組み合わせ集合を、前記記憶部から取得し、取得した項目組み合わせ集合中の項目組み合わせごとに、当該項目組み合わせ中の先項目に紐付く手法組み合わせを、前記記憶部から取得する取得ステップと、1)前記取得した項目組み合わせ集合中の項目組み合わせと前記取得した手法組み合わせとの組み合わせごとに、11)前記受け取った名寄せ元データが保持する、当該項目組み合わせ中の元項目に係る値と、前記受け取った名寄せ先データが保持する、当該項目組み合わせ中の先項目に係る値と、に対する、当該手法組み合わせ中のクレンジング手法によるクレンジング処理と、12)クレンジング処理後の両値に対する、当該手法組み合わせ中の類似度計算手法による類似度計算処理と、を実行し、2)当該得られた各類似度を集計し、3)当該得られた集計値に基づく情報と、当該名寄せ先データが保持する、名寄せ先データを一意に識別するための先項目である識別先項目に係る値を、名寄せ結果として出力する名寄せ実行ステップと、を含むこと、を特徴とする。
【発明の効果】
【0021】
本発明は、多種多様な名寄せ場面(具体的には名寄せ元データ(例:帳票データ)と名寄せ先データ(例:マスタ)との組み合わせ)に応じた名寄せフローを、名寄せ場面ごとに設計・開発することなくコーディングレスで作成・実行することができる、という効果を奏する。
【図面の簡単な説明】
【0022】
図1図1は、本実施形態の概要を示す図である。
図2図2は、本実施形態の概要を示す図である。
図3図3は、本実施形態の概要を示す図である。
図4図4は、本実施形態の概要を示す図である。
図5図5は、本実施形態の概要を示す図である。
図6図6は、本実施形態の概要を示す図である。
図7図7は、本実施形態の概要を示す図である。
図8図8は、情報処理装置100の構成の一例を示す図である。
図9図9は、処理工程データ106aの一例を示す図である。
図10図10は、クレンジング適用データ106bの一例を示す図である。
図11図11は、クレンジング手法マスタ106cの一例を示す図である。
図12図12は、類似度計算手法マスタ106dの一例を示す図である。
図13図13は、マスタ-処理工程マッピングデータ106eの一例を示す図である。
図14図14は、マスタ-処理工程マッピング明細データ106fの一例を示す図である。
図15図15は、マスタ一覧マスタ106gの一例を示す図である。
図16図16は、マスタ項目マスタ106hの一例を示す図である。
図17図17は、名寄せ手法データ106iの一例を示す図である。
図18図18は、コード付与設定データ106jの一例を示す図である。
図19図19は、列マッピングデータ106kの一例を示す図である。
図20図20は、データテンプレートマスタ106mの一例を示す図である。
図21図21は、データテンプレート項目マスタ106nの一例を示す図である。
図22図22は、コード付与辞書条件データ106pの一例を示す図である。
図23図23は、コード付与辞書付与データ106qの一例を示す図である。
図24図24は、操作ログデータ106rの一例を示す図である。
図25図25は、修正ログヘッダデータ106sの一例を示す図である。
図26図26は、修正ログ明細データ106tの一例を示す図である。
図27図27は、処理工程設定画面MAの一例を示す図である。
図28図28は、マスタ-処理工程マッピング設定画面MBの一例を示す図である。
図29図29は、名寄せ手法設定画面MCの一例を示す図である。
図30図30は、名寄せ結果の一例を示す図である。
【発明を実施するための形態】
【0023】
以下に、本発明に係る情報処理装置、情報処理方法およびプログラムの実施形態を、図面に基づいて詳細に説明する。なお、本実施形態により本発明が限定されるものではない。
【0024】
[1.概要]
ここでは、本実施形態の概要について、図1から図7を参照して説明する。
【0025】
従来は、名寄せする場面に応じた名寄せシステムが作成されていたが、ERPでは名寄せする場面が多岐にわたるため、場面ごとにシステムを毎回作成することは非効率であった。
【0026】
本実施形態では、各マスタの項目に対して最適な名寄せの処理工程を定義しておくことで、オペレータは、名寄せの内部処理を意識する必要がなくなり、項目のマッピングを行うだけで適切な名寄せが自動的に実装されるようになった。処理工程は、クレンジングと類似度計算で構成されており、各処理工程のクレンジング手法と類似度計算手法は、処理工程対象値の特徴に応じて選択することが可能である。これにより、開発コストが抑えられ、コーディングを行う必要なく適切な名寄せシステムを作成できる。
【0027】
図1には、本実施形態で行われる名寄せ処理の流れが抽象化して示されている。本実施形態では、各名寄せ場面での名寄せ処理を抽象化し、処理の流れを定義した。これにより、名寄せ場面ごとでカスタマイズすべき部分を明らかにした。名寄せ処理では、まず、受け取った名寄せ元データと受け取ったマスタの項目マッピングを行い、つぎに、項目ごとにクレンジング処理と類似度計算を行い、最後に、類似度を集計してコード付与を行う。
【0028】
図2には、処理工程のまとまりおよび処理工程のマッピングの一例が示されている。クレンジングと類似度計算は、データ種類(例えば人名、住所など)ごとに異なるため、本実施形態では、これらをまとめて「処理工程」と命名し、データ種類ごとに処理工程を作成する。また、マスタの項目に適切な処理工程をマッピングすることで、マスタに応じた名寄せ処理をマッピング設定により実現可能となる。名寄せシステムにマスタの項目データを持たせるため、マスタと処理工程のマッピングの設定を名寄せシステムに記憶させることができる。これにより、当該マッピングの設定を名寄せ実行ごとに行う必要がなくなる。また、マスタへの処理工程のマッピングのみで名寄せ元データに対する処理工程も決定するため、名寄せ元データと処理工程のマッピングが必要なくなる。
【0029】
図3には、クレンジングと類似度計算の部品化の一例が示されている。本実施形態では、部品化により、処理工程の処理変更を容易に行え、処理工程の追加、クレンジングや類似度計算の手法の追加、および処理工程のカスタマイズが効率よく可能となる。本実施形態では、使用場面に応じて、各処理工程に対し必要な部品(クレンジング手法と類似度計算手法)を選択することができる。
【0030】
図4には、コード付与辞書の処理が示されている。データによっては、場面に応じて特有の表記ゆれがあり、正しいコード付与ができないものが存在する。このようなデータに対して名寄せ処理を行うのは非効率である。そこで、本実施形態では、入力データの値(名寄せ元データの項目に係る値)と付与するコード(マスタの主キー項目に係る値)の組をレコードとしたコード付与辞書を用いた処理を行う。これにより、正しいコードが付与される。さらに、名寄せ処理を行わずにコード付与できるため、名寄せ処理を高速に行うことが可能となる。つまり、場面特有の表記ゆれを辞書に登録することで、正確かつ高速に名寄せを実行することができる。
【0031】
図5には、名寄せ元データに対する名寄せ結果および一致度の記号の一例が示されている。本実施形態では、名寄せ結果には、付与したコード、一致度、および、コードに応じた周辺情報を表示する。付与したコードの一致度は、図5に示す一致度の記号で表示する。このように、辞書によるコード付与の表示を変えることで、名寄せ結果の解釈性を向上させることができる。
【0032】
図6には、類似度集計に導入する重み付け値の一例が示されている。名寄せでは、マスタや名寄せ元データの複数の項目を使用するが、名寄せにおける各項目の重要度は異なる。そこで、本実施形態では、重み付け値を導入し、類似度集計時に重み付け値を掛け合わせることで、各列(項目)の重要度を考慮したコード付与ができ、精度が向上する。
【0033】
図7には、修正ログの一例が示されている。本実施形態では、操作ログと修正ログの2種類のログが取得できる。特定の入力と修正後付与コードの組のログが複数回記録された場合、この組をコード付与辞書に登録するよう自動的に提案する。この提案に対し、辞書登録の可否をオペレータが判断できる。例えば、図7に示すように、入力が「OBIC、東京都中央区、SIer」であり、修正後付与コードが「A0002」という組のログが数回記録されている場合、「入力が『OBIC、東京都中央区、SIer』であった場合は『A0002』というコードを付与する」というルールを提案し、登録の可否をオペレータに判断させる。また、処理工程を作成する際に既存の処理工程との精度比較を行う場合、比較の基準として修正ログを用いる。修正ログにより、既存の処理工程では修正が必要であった入力に対して、新しい処理工程では正確にコード付与できるかを評価する。
【0034】
本実施形態によれば、データの種類をまとめた処理工程を保持することで、幅広い使用場面に対して名寄せを行うことができる。また、データの種類毎の処理工程の設定をマッピングのみで行え、コストを抑えることができる。また、「データ種類ごとに適した処理工程を設定すること」、「使用場面ごとに処理工程の部品を取り換えられること」および「表記ゆれをコード付与辞書で対応すること」により、精度を保った名寄せを行うことができる。また、「コード付与辞書による結果の表示を変えること」により、修正作業の補助として結果を役立てることができる。これらにより、人の手による修正作業を効率よく行うことができる。
【0035】
[2.構成・処理]
ここでは、本実施形態に係る情報処理装置の構成と処理の一例について、図8から図30を参照して説明する。
【0036】
図8は、情報処理装置(名寄せ処理装置)100の構成の一例を示すブロック図である。情報処理装置100は、市販のデスクトップ型パーソナルコンピュータである。なお、情報処理装置100は、デスクトップ型パーソナルコンピュータのような据置型情報処理装置に限らず、市販されているノート型パーソナルコンピュータ、PDA(Personal Digital Assistants)、スマートフォン、タブレット型パーソナルコンピュータなどの携帯型情報処理装置であってもよい。
【0037】
情報処理装置100は、制御部102と通信インターフェース部104と記憶部106と入出力インターフェース部108と、を備えている。情報処理装置100が備えている各部は、任意の通信路を介して通信可能に接続されている。
【0038】
通信インターフェース部104は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、情報処理装置100をネットワーク300に通信可能に接続する。通信インターフェース部104は、他の装置と通信回線を介してデータを通信する機能を有する。ここで、ネットワーク300は、情報処理装置100とERPシステム200(ERPに係るアプリケーションソフトウェアが導入された情報処理装置)とを相互に通信可能に接続する機能を有し、例えばインターネットやLAN(Local Area Network)等である。なお、情報処理装置100は、ERPに係るアプリケーションソフトウェアが導入されたものであってもよい。
【0039】
入出力インターフェース部108には、入力装置112および出力装置114が接続されている。出力装置114には、モニタ(家庭用テレビを含む)の他、スピーカやプリンタを用いることができる。入力装置112には、キーボード、マウス、及びマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。なお、以下では、出力装置114をモニタ114とし、入力装置112をキーボード112またはマウス112として記載する場合がある。
【0040】
記憶部106には、各種のデータベース、テーブルおよびファイルなどが格納される。記憶部106には、OS(Operating System)と協働してCPU(Central Processing Unit)に命令を与えて各種処理を行うためのコンピュータプログラムが記録される。記憶部106として、例えば、RAM(Random Access Memory)・ROM(Read Only Memory)等のメモリ装置、ハードディスクのような固定ディスク装置、フレキシブルディスク、および光ディスク等を用いることができる。
【0041】
[2-1.記憶部106の構成の概要]
ここでは、記憶部106の構成の概要について、説明する。記憶部106には、大まかに、クレンジング手法と類似度計算手法との手法組み合わせが、名寄せ先データの項目である先項目と紐付けて格納され、且つ、名寄せ元データの項目である元項目と先項目との項目組み合わせを1つまたは複数含む名寄せ実行時に使用する項目組み合わせ集合が、名寄せ元データのテンプレートと紐付けて格納されている。
【0042】
ここで、記憶部106は、以下の[11]から[15]のデータが格納されたものでもよい。なお、記憶部106には、重み付け値が先項目と紐付けてさらに格納されてもよい。また、記憶部106には、以下の[16]のデータがさらに格納されてもよい。
[11]手法組み合わせを複数含む手法組み合わせ集合
[12]先項目と手法組み合わせの識別情報との先項目・手法組み合わせを、名寄せ先データ中の先項目の個数分含む先項目・手法組み合わせ集合を、名寄せ先データ別に複数含む先項目・手法組み合わせ集合族
[13]項目組み合わせ集合を1つまたは複数含む項目組み合わせ集合族
[14]項目組み合わせ集合の識別情報と先項目・手法組み合わせ集合の識別情報との組み合わせを1つまたは複数含む第一組み合わせ集合を1つまたは複数含む第一組み合わせ集合族
[15]第一組み合わせ集合の識別情報と名寄せ元データのテンプレートの識別情報との組み合わせを1つまたは複数含む第二組み合わせ集合
[16]名寄せ元データが保持する、項目組み合わせ集合中の元項目に係る値と、名寄せ先データが保持する、名寄せ先データを一意に識別するための先項目である識別先項目(例:主キー項目)に係る値と、を紐付けて登録した辞書データ
【0043】
ここで、名寄せ元データは、例えば、発注書データ、見積書データ、その他の帳票データ(例えばOCRにより電子化された、または外部取込された(例えばEDIによりデータベースへ取り込まれた)電子データなど)である。名寄せ先データは、例えば、得意先マスタ、商品マスタ、その他のERPシステム200内に設定されたマスタである。
【0044】
[2-2.記憶部106の構成の具体例]
ここでは、記憶部106の構成の具体例について、図9から図26を参照して説明する。具体的には、記憶部106は、以下のデータおよびマスタが格納されたものである。
・処理工程データ106a
・クレンジング適用データ106b
・クレンジング手法マスタ106c
・類似度計算手法マスタ106d
・マスタ-処理工程マッピングデータ106e
・マスタ-処理工程マッピング明細データ106f
・マスタ一覧マスタ106g
・マスタ項目マスタ106h
・名寄せ手法データ106i
・コード付与設定データ106j
・列マッピングデータ106k
・データテンプレートマスタ106m
・データテンプレート項目マスタ106n
・コード付与辞書条件データ106p
・コード付与辞書付与データ106q
・操作ログデータ106r
・修正ログヘッダデータ106s
・修正ログ明細データ106t
【0045】
図9は、処理工程データ106aの一例を示す図である。処理工程データ106aは、処理工程識別情報(手法組み合わせの識別情報に相当)、類似度計算手法識別情報(手法組み合わせ中の類似度計算手法の識別情報に相当)およびデータ生成日付を含む。
【0046】
図10は、クレンジング適用データ106bの一例を示す図である。クレンジング適用データ106bは、処理工程識別情報(手法組み合わせの識別情報に相当)、実行順、クレンジング手法識別情報(手法組み合わせ中のクレンジング手法の識別情報に相当)、辞書データへのパスおよびデータ生成日付を含む。
【0047】
図11は、クレンジング手法マスタ106cの一例を示す図である。クレンジング手法マスタ106cは、クレンジング手法識別情報(クレンジング手法の識別情報に相当)および辞書フラグを含む。
【0048】
図12は、類似度計算手法マスタ106dの一例を示す図である。類似度計算手法マスタ106dは、類似度計算手法識別情報(類似度計算手法の識別情報に相当)およびオプションフラグを含む。
【0049】
図13は、マスタ-処理工程マッピングデータ106eの一例を示す図である。マスタ-処理工程マッピングデータ106eは、マスタ処理工程マッピング識別情報(先項目・手法組み合わせ集合の識別情報に相当)、マスタ識別情報(名寄せ先データの識別情報に相当)およびデータ生成日付を含む。
【0050】
図14は、マスタ-処理工程マッピング明細データ106fの一例を示す図である。マスタ-処理工程マッピング明細データ106fは、先項目・手法組み合わせ集合族に相当する。マスタ-処理工程マッピング明細データ106fは、マスタ処理工程マッピング識別情報(先項目・手法組み合わせ集合の識別情報に相当)、マスタ項目識別情報(先項目・手法組み合わせ中の先項目の識別情報に相当)、処理工程識別情報(先項目・手法組み合わせ中の手法組み合わせの識別情報に相当)、重み付け値およびデータ生成日付を含む。
【0051】
図15は、マスタ一覧マスタ106gの一例を示す図である。マスタ一覧マスタ106gは、マスタ識別情報(名寄せ先データの識別情報に相当)を含む。
【0052】
図16は、マスタ項目マスタ106hの一例を示す図である。マスタ項目マスタ106hは、マスタ項目識別情報(先項目の識別情報に相当)、マスタ識別情報(名寄せ先データの識別情報に相当)および主キー設定情報を含む。
【0053】
図17は、名寄せ手法データ106iの一例を示す図である。名寄せ手法データ106iは、第二組み合わせ集合に相当する。名寄せ手法データ106iは、名寄せ手法識別情報(第一組み合わせ集合の識別情報に相当)、データテンプレート識別情報(名寄せ元データのテンプレートの識別情報に相当)およびデータ生成日付を含む。
【0054】
図18は、コード付与設定データ106jの一例を示す図である。コード付与設定データ106jは、第一組み合わせ集合族に相当する。コード付与設定データ106jは、名寄せ手法データ識別情報(項目組み合わせ集合の識別情報に相当)、名寄せ手法識別情報(第一組み合わせ集合の識別情報に相当)、マスタ処理工程マッピング識別情報(先項目・手法組み合わせ集合の識別情報に相当)およびデータ生成日付を含む。
【0055】
図19は、列マッピングデータ106kの一例を示す図である。列マッピングデータ106kは、項目組み合わせ集合族に相当する。名寄せ手法データ識別情報(項目組み合わせ集合の識別情報に相当)、マスタ項目識別情報(項目組み合わせ中の先項目の識別情報に相当)およびデータ項目識別情報(項目組み合わせ中の元項目の識別情報に相当)を含む。
【0056】
図20は、データテンプレートマスタ106mの一例を示す図である。データテンプレートマスタ106mは、データテンプレート識別情報(名寄せ元データのテンプレートの識別情報に相当)を含む。
【0057】
図21は、データテンプレート項目マスタ106nの一例を示す図である。データテンプレート項目マスタ106nは、データ項目識別情報(元項目の識別情報に相当)およびデータテンプレート識別情報(名寄せ元データのテンプレートの識別情報に相当)を含む。
【0058】
図22は、コード付与辞書条件データ106pの一例を示す図である。コード付与辞書条件データ106pは、コード付与辞書レコード識別情報、データ項目識別情報および当該データ項目識別情報で特定される項目に係るコード値を含む。
【0059】
図23は、コード付与辞書付与データ106qの一例を示す図である。コード付与辞書付与データ106qは、コード付与辞書レコード識別情報、マスタ識別情報および当該マスタ識別情報で特定されるマスタが保持する主キー項目に係るコード値を含む。
【0060】
図24は、操作ログデータ106rの一例を示す図である。操作ログデータ106rは、操作ログ識別情報、データ名識別情報、名寄せ手法識別情報(第一組み合わせ集合の識別情報に相当)およびデータ生成日付を含む。
【0061】
図25は、修正ログヘッダデータ106sの一例を示す図である。修正ログヘッダデータ106sは、修正ログ識別情報、操作ログ識別情報、名寄せ手法データ識別情報(項目組み合わせ集合の識別情報に相当)、修正前コード値、修正後コード値およびデータ生成日付を含む。
【0062】
図26は、修正ログ明細データ106tの一例を示す図である。修正ログ明細データ106tは、修正ログ識別情報、データ項目識別情報(項目組み合わせ中の元項目の識別情報に相当)、当該データ項目識別情報で特定される項目に係るコード値およびデータ生成日付を含む。
【0063】
以上で、記憶部106の構成の具体例についての説明を終了する。
【0064】
図8に戻り、制御部102は、情報処理装置100を統括的に制御するCPU等である。制御部102は、OS等の制御プログラム・各種の処理手順等を規定したプログラム・所要データなどを格納するための内部メモリを有し、格納されているこれらのプログラムに基づいて種々の情報処理を実行する。
【0065】
制御部102は、機能概念的に、第一設定部102a、第二設定部102b、第三設定部102c、受取部102d、取得部102e、辞書使用名寄せ実行部102f、名寄せ実行部102gおよび提案情報出力部102hなどを備える。
【0066】
[2-3.制御部102が備える各処理部が実行する処理の概要]
ここでは、制御部102が備える各処理部が実行する処理の概要について、説明する。
【0067】
第一設定部102aは、第一の設定画面を介して、オペレータに、手法組み合わせを設定させる。第一の設定画面は、クレンジング手法を設定させるための領域と、類似度計算手法を設定させるための領域とを含む。
【0068】
第二設定部102bは、第二の設定画面を介して、オペレータに、先項目・手法組み合わせ集合を設定させる。第二の設定画面は、名寄せ先データを設定させるための領域と、設定された名寄せ先データ中の先項目を表示させるための領域と、先項目に適用する手法組み合わせを設定させるための領域と、を含む。
【0069】
第三設定部102cは、第三の設定画面を介して、オペレータに、項目組み合わせ集合、名寄せ元データのテンプレートおよび先項目・手法組み合わせ集合の紐付けを設定させる。第三の設定画面は、名寄せ元データのテンプレートを設定させるための領域と、名寄せ先データを設定させるための領域と、先項目・手法組み合わせ集合を設定させるための領域と、設定された名寄せ先データ中の先項目と設定されたテンプレート中の元項目とを表示させ、項目組み合わせ集合を設定させるための領域と、を含む。
【0070】
受取部102dは、名寄せ元データと名寄せ先データを受け取る。受取部102dは、ERPシステム200から転送された名寄せ元データと名寄せ先データを受け取ってもよい。
【0071】
取得部102eは、受取部102dで受け取った名寄せ元データのテンプレートに紐付く項目組み合わせ集合を、記憶部106から取得し、取得した項目組み合わせ集合中の項目組み合わせごとに、当該項目組み合わせ中の先項目に紐付く手法組み合わせを、記憶部106から取得する。
【0072】
取得部102eは、取得した項目組み合わせ集合中の項目組み合わせごとに、当該項目組み合わせ中の先項目に紐付く重み付け値を、記憶部106からさらに取得してもよい。
【0073】
取得部102eは、以下の[21]から[24]の処理を実行してもよい。
[21]受取部102dで受け取った名寄せ元データ中のテンプレートの識別情報に紐付く第一組み合わせ集合の識別情報を、第二組み合わせ集合から取得する。
[22][21]で取得した第一組み合わせ集合の識別情報で特定される第一組み合わせ集合を、第一組み合わせ集合族から取得する。
[23][22]で取得した第一組み合わせ集合中の項目組み合わせ集合の識別情報で特定される項目組み合わせ集合を、項目組み合わせ集合族から取得するとともに、当該取得した第一組み合わせ集合中の先項目・手法組み合わせ集合の識別情報で特定される先項目・手法組み合わせ集合を、先項目・手法組み合わせ集合族から取得する。
[24][23]で取得した先項目・手法組み合わせ集合から、[23]で取得した項目組み合わせ集合中の先項目に紐付く手法組み合わせを取得する。
【0074】
辞書使用名寄せ実行部102fは、「受取部102dで受け取った名寄せ元データが保持する、取得部102eが取得した項目組み合わせ集合(具体的には[23]で取得した項目組み合わせ集合)中の元項目に係る値」が、辞書データに登録されたものと同じである場合に、辞書データに登録された識別先項目(例:主キー項目)に係る値と、当該値が辞書データに登録されたものであることを示す情報(例:「辞」という文字情報)を、名寄せ結果として、例えば名寄せ元データと名寄せ先データの転送元のERPシステム200を出力先として出力する。
【0075】
名寄せ実行部102gは、以下の[31]から[33]の処理を実行する。
[31]「取得部102eが取得した項目組み合わせ集合(具体的には[23]で取得した項目組み合わせ集合)中の項目組み合わせ」と「取得部102eが取得した手法組み合わせ(具体的には[24]で取得した手法組み合わせ)」との組み合わせごとに、以下の[311]の処理と[312]の処理を実行する。
[311]「受取部102dで受け取った名寄せ元データが保持する、当該項目組み合わせ中の元項目に係る値」と「受取部102dで受け取った名寄せ先データが保持する、当該項目組み合わせ中の先項目に係る値」とに対する、当該手法組み合わせ中のクレンジング手法によるクレンジング処理
[312]クレンジング処理後の両値に対する、当該手法組み合わせ中の類似度計算手法による類似度計算処理
[32][31]で得られた各類似度を集計する。
[33][32]で得られた集計値に基づく情報と、当該名寄せ先データが保持する、識別先項目(例:主キー項目)に係る値を、名寄せ結果として、例えば名寄せ元データと名寄せ先データの転送元のERPシステム200を出力先として出力する。
【0076】
名寄せ実行部102gは、各類似度に取得した各重み付け値を掛け合わせて各類似度を集計してもよい。
【0077】
名寄せ実行部102gは、集計値と1つの閾値または互いに異なる複数の閾値との大小を比較し、比較結果に応じたコンテンツ(例:名寄せの精度が高いことを意味する記号(例:○)、名寄せの精度が中程度であることを意味する記号(例:△)、名寄せの精度が低いことを意味する記号(例:×))を、集計値に基づく情報として出力してもよい。
【0078】
名寄せ実行部102gは、「受取部102dで受け取った名寄せ先データが保持する、取得部102eで取得した項目組み合わせ集合(具体的には[23]で取得した項目組み合わせ集合)中の先項目に係る値」を、名寄せ結果としてさらに出力してもよい。
【0079】
名寄せ実行部102gは、「受取部102dで受け取った名寄せ元データが保持する、取得部102eで取得した項目組み合わせ集合(具体的には[23]で取得した項目組み合わせ集合)中の元項目に係る値」が、辞書データに登録されたものと同じでなかった場合に、[31]から[33]の処理を実行してもよい。
【0080】
提案情報出力部102hは、「受取部102dで受け取った名寄せ元データが保持する、取得部102eで取得した項目組み合わせ集合(具体的には[23]で取得した項目組み合わせ集合)中の元項目に係る値」と「受取部102dで受け取った名寄せ先データが保持する識別先項目(例:主キー項目)に係る値」とに関する特定の組み合わせが、名寄せ実行部102gにおいて所定回数以上記録された場合、当該特定の組み合わせの辞書データへの登録を提案するための提案情報(例えば、当該提案に関するテキスト情報)を、例えば名寄せ元データと名寄せ先データの転送元のERPシステム200を出力先として出力する。
【0081】
以上で、制御部102が備える各処理部が実行する処理の概要についての説明を終了する。
【0082】
[2-4.制御部102が備える各処理部が実行する処理の具体例]
ここでは、制御部102が備える各処理部が実行する処理の具体例について、図27から図30等を参照して説明する。
【0083】
第一設定部102aは、処理工程設定画面MAを介して、オペレータに、登録する処理工程の基となるクレンジング手法と類似度計算手法を設定させる。
【0084】
図27は、処理工程設定画面MAの一例を示す図である。処理工程設定画面MAは、登録ボタンMA1、取消ボタンMA2、戻るボタンMA3、設定領域MA4、設定領域MA5および設定領域MA6を含む。
【0085】
設定領域MA4は、登録する処理工程の処理工程識別情報を設定させるための領域である。設定領域MA5は、登録する処理工程の基となるクレンジング手法のクレンジング手法識別情報を設定させるための領域である。設定領域MA6は、登録する処理工程の基となる類似度計算手法の類似度計算手法識別情報を設定させるための領域である。
【0086】
オペレータは、設定領域MA4に、登録する処理工程を設定し、設定領域MA5と設定領域MA6に、その処理工程の基となるクレンジング手法と類似度計算手法を設定する。オペレータは、+ボタンを押下して、クレンジング手法を複数設定してもよい。設定できるクレンジング手法と類似度計算手法は、図11のクレンジング手法マスタ106cと図12の類似度計算手法マスタ106d内の手法である。登録ボタンMA1を押すと、処理工程設定画面MAの情報が、図9の処理工程データ106aと図10のクレンジング適用データ106bに登録される。図9図10に示す情報は、名寄せ処理の実行前に登録しておく。
【0087】
図8に戻り、第二設定部102bは、マスタ-処理工程マッピング設定画面MBを介して、オペレータに、登録するマスタ処理工程マッピングの基となるマスタとマスタ項目と処理工程と重み付け値を設定させる。
【0088】
図28は、マスタ-処理工程マッピング設定画面MBの一例を示す図である。マスタ-処理工程マッピング設定画面MBは、登録ボタンMB1、取消ボタンMB2、戻るボタンMB3、設定領域MB4、設定領域MB5および設定領域MB6を含む。
【0089】
設定領域MB4は、登録するマスタ処理工程マッピングの基となるマスタのマスタ識別情報を設定させるための領域である。設定領域MB5は、登録するマスタ処理工程マッピングのマスタ処理工程マッピング識別情報を設定させるための領域である。設定領域MB6は、設定領域MB4に設定されたマスタ識別情報で特定されるマスタ中のマスタ項目のマスタ項目識別情報を表示させ、マスタ項目に適用する処理工程の処理工程識別情報と重み付け値を設定させるための領域である。
【0090】
オペレータは、設定領域MB5に、登録するマスタ処理工程マッピングを設定し、設定領域MB4に、登録するマスタ処理工程マッピングの基となるマスタを設定する。設定できるマスタは、図15のマスタ一覧マスタ106g内のマスタである。設定領域MB4にマスタが設定されると、図16のマスタ項目マスタ106h内にある、当該設定されたマスタに紐付くマスタ項目が、設定領域MB6に表示される。オペレータは、設定領域MB6に、表示されたマスタ項目に適用する処理工程と重み付け値を設定する。登録ボタンMB1を押すと、マスタ-処理工程マッピング設定画面MBの情報が、図13のマスタ-処理工程マッピングデータ106eと図14のマスタ-処理工程マッピング明細データ106fに登録される。図13図14に示す情報は、名寄せ処理の実行前に登録しておく。
【0091】
図8に戻り、第三設定部102cは、名寄せ手法設定画面MCを介して、オペレータに、登録する名寄せ手法の基となるデータテンプレートと名寄せ手法データとマスタ処理工程マッピングとマスタ項目とデータ項目を設定させる。
【0092】
図29は、名寄せ手法設定画面MCの一例を示す図である。名寄せ手法設定画面MCは、登録ボタンMC1、取消ボタンMC2、戻るボタンMC3、設定領域MC4、設定領域MC5、設定領域MC6、設定領域MC7および設定領域MC8を含む。
【0093】
設定領域MC4は、登録する名寄せ手法の名寄せ手法識別情報を設定させるための領域である。設定領域MC5は、登録する名寄せ手法の基となるデータテンプレートのデータテンプレート識別情報を設定させるための領域である。設定領域MC6は、マスタを設定させるための領域である。設定領域MC7は、登録する名寄せ手法の基となるマスタ処理工程マッピングのマスタ処理工程マッピング識別情報を設定させるための領域である。設定領域MC8は、設定領域MC6に設定されたマスタ識別情報で特定されるマスタ中のマスタ項目のマスタ項目識別情報と、設定領域MC5に設定されたデータテンプレート識別情報で特定されるデータテンプレートに紐付くデータ項目のデータ項目識別情報を表示させ、1つのコード付与を行うための名寄せ手法データを設定させるための領域である。
【0094】
オペレータは、設定領域MC4に、登録する名寄せ手法を設定し、設定領域MC5に、登録する名寄せ手法の基となるデータテンプレートを設定する。設定できるデータテンプレートは、図20のデータテンプレートマスタ106m内のテンプレートである。設定領域MC5にデータテンプレートが設定されると、図21のデータテンプレート項目マスタ106n内にある、設定されたデータテンプレートに紐付くデータ項目が、設定領域MC8の「名寄せ元データ項目」と題した領域に表示される。オペレータは、設定領域MC6に、1つのコード付与に使用されるマスタを設定する。設定できるマスタは、図15のマスタ一覧マスタ106g内のマスタである。設定領域MC6にマスタが設定されると、図16のマスタ項目マスタ106h内にある、設定されたマスタに紐付くマスタ項目が、設定領域MC8の「マスタの列」と題した領域に表示される。オペレータは、選択領域MC7に、登録する名寄せ手法の基となるマスタ処理工程マッピングを設定する。オペレータは、設定領域MC8に表示されたデータ項目とマスタ項目のうち、1つのコード付与時に使用するデータ項目とマスタ項目の組み合わせを、図28に示すように線等で設定する。登録ボタンMC1を押すと、名寄せ手法設定画面MCの情報が、図17の名寄せ手法データ106i、図18のコード付与設定データ106jおよび図19の列マッピングデータ106kに登録される。図17図18および図19に示す情報は、名寄せ処理の実行前に登録しておく。
【0095】
図8に戻り、受取部102dは、ERPシステム200から転送された帳票データ(テーブル)(名寄せ元データの一例)とマスタ(テーブル)(名寄せ先データの一例)を受け取る。
【0096】
取得部102eは、以下の[41]から[46]の処理を実行する。
[41]名寄せ手法データ106iから、受取部102dで受け取った帳票データに付与されている当該帳票データのテンプレート識別情報に紐付く名寄せ手法識別情報を取得する。
[42]コード付与設定データ106jから、[41]で取得した名寄せ手法識別情報に紐付く1つまたは複数の「名寄せ手法データ識別情報とマスタ処理工程マッピング識別情報の組み合わせ」を取得する。
[43][42]で取得した名寄せ手法データ識別情報ごとに、列マッピングデータ106kから、名寄せ手法データ識別情報に紐付く1つまたは複数の「マスタ項目識別情報とデータ項目識別情報の組み合わせ」を取得する。
[44][42]で取得したマスタ処理工程マッピング識別情報ごとに、マスタ-処理工程マッピングデータ106eおよびマスタ-処理工程マッピング明細データ106fから、マスタ処理工程マッピング識別情報に紐付くマスタ識別情報と複数の「マスタ項目識別情報と処理工程識別情報と重み付け値の組み合わせ」を取得する。
[45][43]で取得したマスタ項目識別情報ごとに、[44]で取得した複数の「マスタ項目識別情報と処理工程識別情報と重み付け値の組み合わせ」から、マスタ項目識別情報に紐付く処理工程識別情報と重み付け値を取得する。
[46][45]で取得した処理工程識別情報ごとに、処理工程データ106aおよびクレンジング適用データ106bから、処理工程識別情報に紐付く「1つまたは複数のクレンジング手法識別情報と1つまたは複数の類似度計算手法識別情報の組み合わせ」を取得する。
【0097】
辞書使用名寄せ実行部102fは、i)コード付与辞書レコード識別情報を基に、コード付与辞書条件データ106pから、一致判断の条件となるデータ項目識別情報およびコード値を取得すると共に、コード付与辞書付与データ106qから、付与するコード値を取得し、ii)取得部102eが[43]で取得した各データ項目識別情報および、受取部102dで受け取った帳票データが保持する、当該各データ項目識別情報で特定される各項目に係る各値とが、i)で取得したデータ項目識別情報およびコード値と全て一致するか判断する。
【0098】
辞書使用名寄せ実行部102fは、一致すると判断した場合、i)で取得した付与するコード値と、当該値が辞書データに登録されたものであることを示す情報(例:「辞」という文字情報)を、名寄せ結果として、例えば帳票データとマスタの転送元のERPシステム200を出力先として出力する。
【0099】
名寄せ実行部102gは、例えば辞書使用名寄せ実行部102fが一致すると判断しなかった場合、以下の[51]から[53]の処理を実行する。
[51]取得部102eが[43]で取得した「マスタ項目識別情報とデータ項目識別情報の組み合わせ」と、取得部102eが[46]で取得した「1つまたは複数のクレンジング手法識別情報と1つまたは複数の類似度計算手法識別情報の組み合わせ」との組み合わせごとに、以下の[511]のクレンジング処理と、以下の[512]の類似度計算処理を実行する。
[511]「受取部102dで受け取った帳票データが保持する、当該『マスタ項目識別情報とデータ項目識別情報の組み合わせ』中のデータ項目識別情報で特定される項目に係る値」と「受取部102dで受け取ったマスタが保持する、当該『マスタ項目識別情報とデータ項目識別情報の組み合わせ』中のマスタ項目識別情報で特定される項目に係る値」とに対する、当該「1つまたは複数のクレンジング手法識別情報と1つまたは複数の類似度計算手法識別情報の組み合わせ」中のクレンジング手法識別情報で特定されるクレンジング手法によるクレンジング処理
[512]クレンジング処理後の両値に対する、当該「1つまたは複数のクレンジング手法識別情報と1つまたは複数の類似度計算手法識別情報の組み合わせ」中の類似度計算手法識別情報で特定される類似度計算手法による類似度計算処理
[52][51]で得られた各類似度に、取得部102eが[45]で取得した各重み付け値を掛け合わせて、当該各類似度を集計する。
[53][52]で得られた集計値と1つの閾値または互いに異なる複数の閾値との大小を比較し、以下の情報を、名寄せ結果として、例えば帳票データテーブルとマスタテーブルの転送元のERPシステム200を出力先として出力する。
・比較結果に応じたコンテンツ(例:名寄せの精度が高いことを意味する記号(例:○)、名寄せの精度が中程度であることを意味する記号(例:△)、名寄せの精度が低いことを意味する記号(例:×))
・受取部102dで受け取ったマスタの主キー項目と、当該主キー項目に係る値(コード)
・取得部102eが[43]で取得した「マスタ項目識別情報とデータ項目識別情報の組み合わせ」中のマスタ項目識別情報と、受取部102dで受け取ったマスタが保持する、当該マスタ項目識別情報で特定される項目に係る値
【0100】
図30は、名寄せ実行部102gが出力する名寄せ結果などの一例を示す図である。
【0101】
提案情報出力部102hは、「受取部102dで受け取った帳票データが保持する、取得部102eが[43]で取得した各『マスタ項目識別情報とデータ項目識別情報の組み合わせ』中の各データ項目識別情報で特定される各項目に係る各値」と「受取部102dで受け取ったマスタが保持する主キー項目に係る値」とに関する特定の組み合わせが、名寄せ実行部102gにおいて所定回数以上記録された場合、当該特定の組み合わせのコード付与辞書データ(具体的にはコード付与辞書条件データ106pとコード付与辞書付与データ106q)への登録を提案するための提案情報(例えば、当該提案に関するテキスト情報)を、例えば帳票データとマスタの転送元のERPシステム200を出力先として出力する。
【0102】
[3.本実施形態のまとめ]
以上、本実施形態によれば、幅広い使用場面において名寄せを低コストで行うことができる。また、データの種類ごとに適した処理工程を設定し、使用場面ごとに処理工程を細かく設定でき、コード付与辞書による結果の表示を変えることで、人力による名寄せ結果の修正作業の負担が軽減される。
【0103】
[4.他の実施形態]
本発明は、上述した実施形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施形態にて実施されてよいものである。
【0104】
例えば、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
【0105】
また、本明細書中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0106】
また、情報処理装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
【0107】
例えば、情報処理装置100が備える処理機能、特に制御部にて行われる各処理機能については、その全部または任意の一部を、CPUおよび当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、本実施形態で説明した処理を情報処理装置に実行させるためのプログラム化された命令を含む一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じて情報処理装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)などの記憶部などには、OSと協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。
【0108】
また、このコンピュータプログラムは、情報処理装置100に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0109】
また、本実施形態で説明した処理を実行するためのプログラムを、一時的でないコンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、USB(Universal Serial Bus)メモリ、SD(Secure Digital)カード、フレキシブルディスク、光磁気ディスク、ROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(登録商標)(Electrically Erasable and Programmable Read Only Memory)、CD-ROM(Compact Disk Read Only Memory)、MO(Magneto-Optical disk)、DVD(Digital Versatile Disk)、および、Blu-ray(登録商標) Disc等の任意の「可搬用の物理媒体」を含むものとする。
【0110】
また、「プログラム」とは、任意の言語または記述方法にて記述されたデータ処理方法であり、ソースコードまたはバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施形態に示した各装置において記録媒体を読み取るための具体的な構成および読み取り手順ならびに読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0111】
記憶部に格納される各種のデータベース等は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および、ウェブページ用ファイル等を格納する。
【0112】
また、情報処理装置100は、既知のパーソナルコンピュータまたはワークステーション等の情報処理装置として構成してもよく、また、任意の周辺装置が接続された当該情報処理装置として構成してもよい。また、情報処理装置100は、当該装置に本実施形態で説明した処理を実現させるソフトウェア(プログラムまたはデータ等を含む)を実装することにより実現してもよい。
【0113】
更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じてまたは機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施形態を任意に組み合わせて実施してもよく、実施形態を選択的に実施してもよい。
【産業上の利用可能性】
【0114】
本発明は、特に、名寄せ処理において有用である。
【符号の説明】
【0115】
100 情報処理装置
102 制御部
102a 第一設定部
102b 第二設定部
102c 第三設定部
102d 受取部
102e 取得部
102f 辞書使用名寄せ実行部
102g 名寄せ実行部
102h 提案情報出力部
104 通信インターフェース部
106 記憶部
106a 処理工程データ
106b クレンジング適用データ
106c クレンジング手法マスタ
106d 類似度計算手法マスタ
106e マスタ-処理工程マッピングデータ
106f マスタ-処理工程マッピング明細データ
106g マスタ一覧マスタ
106h マスタ項目マスタ
106i 名寄せ手法データ
106j コード付与設定データ
106k 列マッピングデータ
106m データテンプレートマスタ
106n データテンプレート項目マスタ
106p コード付与辞書条件データ
106q コード付与辞書付与データ
106r 操作ログデータ
106s 修正ログヘッダデータ
106t 修正ログ明細データ
108 入出力インターフェース部
112 入力装置
114 出力装置
200 ERPシステム
300 ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30