IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社アンド・ディの特許一覧

<>
  • 特開-集計表統合システムおよびプログラム 図1
  • 特開-集計表統合システムおよびプログラム 図2
  • 特開-集計表統合システムおよびプログラム 図3
  • 特開-集計表統合システムおよびプログラム 図4
  • 特開-集計表統合システムおよびプログラム 図5
  • 特開-集計表統合システムおよびプログラム 図6
  • 特開-集計表統合システムおよびプログラム 図7
  • 特開-集計表統合システムおよびプログラム 図8
  • 特開-集計表統合システムおよびプログラム 図9
  • 特開-集計表統合システムおよびプログラム 図10
  • 特開-集計表統合システムおよびプログラム 図11
  • 特開-集計表統合システムおよびプログラム 図12
  • 特開-集計表統合システムおよびプログラム 図13
  • 特開-集計表統合システムおよびプログラム 図14
  • 特開-集計表統合システムおよびプログラム 図15
  • 特開-集計表統合システムおよびプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025019754
(43)【公開日】2025-02-07
(54)【発明の名称】集計表統合システムおよびプログラム
(51)【国際特許分類】
   G06Q 99/00 20060101AFI20250131BHJP
【FI】
G06Q99/00
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023123553
(22)【出願日】2023-07-28
(11)【特許番号】
(45)【特許公報発行日】2025-01-07
(71)【出願人】
【識別番号】523287942
【氏名又は名称】株式会社アンド・ディ
(74)【代理人】
【識別番号】100114638
【弁理士】
【氏名又は名称】中野 寛也
(72)【発明者】
【氏名】佐藤 哲也
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049EE13
(57)【要約】
【課題】どのような作業者でも手間や時間をかけることなく、容易に集計表の統合を行うことができる集計表統合システムを提供する。
【解決手段】集計表統合システム10では、要素間類似度算出手段24により、異なる時点の集計表について、表頭要素間および表側要素間の類似度を算出することで、意味内容が対応している表頭要素や表側要素を決定し、その後、集合間類似度算出手段25により、意味内容が対応している表頭要素や表側要素を同一要素とみなして表頭要素集合間および表側要素集合間の類似度を算出し、異なる時点の集計表の統合の可否を判断し、統合可能と判断された場合には、統合手段26により、統合集計表を作成する。
【選択図】図1
【特許請求の範囲】
【請求項1】
異なる時点の集計表を統合する処理を実行するコンピュータにより構成された集計表統合システムであって、
集計表ファイルに書き込まれている統合対象の前記異なる時点の集計表のそれぞれの表頭部を構成する複数の表頭要素の各々の文字列間の類似度を示す表頭要素間類似度を算出し、算出した表頭要素間類似度と予め設定した閾値とを比較することにより、前記異なる時点の集計表間で意味内容が対応している表頭要素どうしを決定するとともに、統合対象の前記異なる時点の集計表のそれぞれの表側部を構成する複数の表側要素の各々の文字列間の類似度を示す表側要素間類似度を算出し、算出した表側要素間類似度と予め設定した閾値とを比較することにより、前記異なる時点の集計表間で意味内容が対応している表側要素どうしを決定する要素間類似度算出手段と、
この要素間類似度算出手段により決定した、前記異なる時点の集計表間で意味内容が対応している表頭要素どうしを同一要素とみなし、前記表頭部を構成する複数の表頭要素からなる表頭要素集合間の類似度を示す表頭要素集合間類似度を算出し、算出した表頭要素集合間類似度と予め設定した閾値とを比較するとともに、前記異なる時点の集計表間で意味内容が対応している表側要素どうしを同一要素とみなし、前記表側部を構成する複数の表側要素からなる表側要素集合間の類似度を示す表側要素集合間類似度を算出し、算出した表側要素集合間類似度と予め設定した閾値とを比較し、前記表頭要素集合間類似度および前記表側要素集合間類似度の双方が高いか否かにより前記異なる時点の集計表の統合の可否を判断する集合間類似度算出手段と、
この集合間類似度算出手段により統合可能と判断した前記異なる時点の集計表のそれぞれの集計データのうち、表頭要素および表側要素の双方について前記異なる時点の集計表間で意味内容が対応している場合の当該表頭要素および当該表側要素についての集計データどうしを、縦方向または横方向に隣接配置することにより統合集計表を作成する統合処理を実行する統合手段と
を備えたことを特徴とする集計表統合システム。
【請求項2】
前記集計表ファイルに書き込まれている前記異なる時点のそれぞれについて複数存在する集計表の中から、統合対象とする前記異なる時点の集計表を検出する統合対象検出手段を備え、
この統合対象検出手段は、
(1)前記異なる時点の集計表のそれぞれについて、前記表頭部を構成する複数の表頭要素の各々の文字列を連結した表頭要素連結文字列および/または表頭タイトルの文字列を含む表頭部文字列と、前記表側部を構成する複数の表側要素の各々の文字列を連結した表側要素連結文字列および/または表側タイトルの文字列を含む表側部文字列とを連結した表頭部・表側部連結文字列を作成し、作成した前記異なる時点の集計表の表頭部・表側部連結文字列を用いて、前記集合間類似度算出手段で使用する類似度算出用のアルゴリズムとは異なるアルゴリズムにより、前記異なる時点の集計表の表頭部および表側部の類似度を示す表頭部・表側部類似度を算出し、算出した表頭部・表側部類似度と予め設定した閾値とを比較し、前記表頭部・表側部類似度が高いか否かにより、統合対象とする前記異なる時点の集計表を検出するか、または、
(2)前記異なる時点の集計表のそれぞれの前記表頭部を構成する複数の表頭要素の各々の文字列を連結した表頭要素連結文字列および/または表頭タイトルの文字列を含む表頭部文字列を用いて、前記集合間類似度算出手段で使用する類似度算出用のアルゴリズムとは異なるアルゴリズムにより、前記異なる時点の集計表の表頭部の類似度を示す表頭部類似度を算出し、算出した表頭部類似度と予め設定した閾値とを比較するとともに、前記異なる時点の集計表のそれぞれの前記表側部を構成する複数の表側要素の各々の文字列を連結した表側要素連結文字列および/または表側タイトルの文字列を含む表側部文字列を用いて、前記異なるアルゴリズムにより、前記異なる時点の集計表の表側部の類似度を示す表側部類似度を算出し、算出した表側部類似度と予め設定した閾値とを比較し、前記表頭部類似度および前記表側部類似度の双方が高いか否かにより、統合対象とする前記異なる時点の集計表を検出する構成とされ、
前記要素間類似度算出手段は、
前記統合対象検出手段により検出した前記異なる時点の集計表を統合対象として処理を実行する構成とされている
ことを特徴とする請求項1に記載の集計表統合システム。
【請求項3】
異なる時点の集計表を統合する処理を実行するコンピュータにより構成された集計表統合システムであって、
集計表ファイルに書き込まれている前記異なる時点のそれぞれについて複数存在する集計表の中から、統合対象とする前記異なる時点の集計表を検出する統合対象検出手段と、
この統合対象検出手段により検出した統合対象の前記異なる時点の集計表のそれぞれの表頭部を構成する複数の表頭要素の各々の文字列間の類似度を示す表頭要素間類似度を算出し、算出した表頭要素間類似度と予め設定した閾値とを比較することにより、前記異なる時点の集計表間で意味内容が対応している表頭要素どうしを決定するとともに、統合対象の前記異なる時点の集計表のそれぞれの表側部を構成する複数の表側要素の各々の文字列間の類似度を示す表側要素間類似度を算出し、算出した表側要素間類似度と予め設定した閾値とを比較することにより、前記異なる時点の集計表間で意味内容が対応している表側要素どうしを決定する要素間類似度算出手段と、
前記統合対象検出手段により検出した統合対象の前記異なる時点の集計表のそれぞれの集計データのうち、表頭要素および表側要素の双方について前記異なる時点の集計表間で意味内容が対応している場合の当該表頭要素および当該表側要素についての集計データどうしを、縦方向または横方向に隣接配置することにより統合集計表を作成する統合処理を実行する統合手段とを備え、
前記統合対象検出手段は、
(1)前記異なる時点の集計表のそれぞれについて、前記表頭部を構成する複数の表頭要素の各々の文字列を連結した表頭要素連結文字列またはこの表頭要素連結文字列に表頭タイトルの文字列を加えた表頭部文字列と、前記表側部を構成する複数の表側要素の各々の文字列を連結した表側要素連結文字列またはこの表側要素連結文字列に表側タイトルの文字列を加えた表側部文字列とを連結した表頭部・表側部連結文字列を作成し、作成した前記異なる時点の集計表の表頭部・表側部連結文字列を用いて、前記異なる時点の集計表の表頭部および表側部の類似度を示す表頭部・表側部類似度を算出し、算出した表頭部・表側部類似度と予め設定した閾値とを比較し、前記表頭部・表側部類似度が高いか否かにより、統合対象とする前記異なる時点の集計表を検出するか、または、
(2)前記異なる時点の集計表のそれぞれの前記表頭部を構成する複数の表頭要素の各々の文字列を連結した表頭要素連結文字列またはこの表頭要素連結文字列に表頭タイトルの文字列を加えた表頭部文字列を用いて、前記異なる時点の集計表の表頭部の類似度を示す表頭部類似度を算出し、算出した表頭部類似度と予め設定した閾値とを比較するとともに、前記異なる時点の集計表のそれぞれの前記表側部を構成する複数の表側要素の各々の文字列を連結した表側要素連結文字列またはこの表側要素連結文字列に表側タイトルの文字列を加えた表側部文字列を用いて、前記異なる時点の集計表の表側部の類似度を示す表側部類似度を算出し、算出した表側部類似度と予め設定した閾値とを比較し、前記表頭部類似度および前記表側部類似度の双方が高いか否かにより、統合対象とする前記異なる時点の集計表を検出する構成とされていることを特徴とする集計表統合システム。
【請求項4】
前記集計表ファイルには、異なる時点のそれぞれについて複数の集計表からなる集計表群が書き込まれるとともに、これらの集計表群のそれぞれの目次情報として、前記集計表群を構成する各集計表について前記表頭部を構成する表頭タイトルと、前記表側部を構成する表側タイトルと、集計表識別情報とが対応付けられて書き込まれ、
前記目次情報を用いて、前記集計表群の中に分割可能な集計表としての合体集計表が含まれている場合に、この合体集計表を、分割することができない集計表としての単位集計表に分割する分割手段を備え、
この分割手段は、
前記目次情報の中で、同一の集計表識別情報に対応付けられた状態で、同一の表頭タイトルに複数の表側タイトルが対応付けられているか、または同一の表側タイトルに複数の表頭タイトルが対応付けられているか否かを判断することにより、前記集計表群の中に前記合体集計表が含まれているか否かを判断し、前記合体集計表が含まれていると判断した場合には、前記目次情報のうちの前記合体集計表の部分を、前記目次情報内で、1つの表頭タイトルおよび1つの表側タイトルに対応付けられた前記単位集計表に分割し、
前記異なる時点のうちの一方の時点の前記集計表群の中に含まれている前記合体集計表を前記目次情報内で分割して得られた前記単位集計表の表頭タイトルおよび表側タイトルの各文字列を連結した連結タイトル文字列と、他方の時点の前記集計表群の中に含まれている前記合体集計表を前記目次情報内で分割して得られた前記単位集計表または最初から前記単位集計表の状態になっている集計表の表頭タイトルおよび表側タイトルの各文字列を連結した連結タイトル文字列とを用いて、前記目次情報内のタイトルレベルでの前記単位集計表の類似度を示す目次内タイトル類似度を算出し、算出した目次内タイトル類似度と予め設定した閾値とを比較することにより、他方の時点の前記集計表群の中に、目次内タイトル類似度が高い前記単位集計表があるか否かを判断し、目次内タイトル類似度が高い前記単位集計表がある場合には、前記目次情報内での前記合体集計表から前記単位集計表への分割に従って、一方の時点の前記集計表群の中に含まれている前記合体集計表のデータを前記単位集計表のデータに分割する構成とされている
ことを特徴とする請求項1~3のいずれかに記載の集計表統合システム。
【請求項5】
前記要素間類似度算出手段は、
前記集合間類似度算出手段により前記異なる時点の集計表を統合することができないと判断された場合に、
前記異なる時点の集計表のうちの一方の時点の集計表について前記表頭部と前記表側部とを縦横入れ替えた状態についても、前記表頭要素間類似度および前記表側要素間類似度を算出し、算出した前記表頭要素間類似度および前記表側要素間類似度と予め設定したそれぞれの閾値とを比較することにより、前記異なる時点の集計表間で意味内容が対応している表頭要素どうしおよび表側要素どうしを決定する構成とされている
ことを特徴とする請求項1または2に記載の集計表統合システム。
【請求項6】
表頭要素または表側要素となり得る文字列であって、互いに包含関係にある上位および下位の文字列を対応付けて記憶する包含関係記憶手段を備え、
前記統合手段は、
統合する集計表の表頭要素または表側要素の中に、前記包含関係記憶手段に記憶されている互いに包含関係にある上位および下位の文字列の双方が存在する場合には、これらの上位および下位の文字列を、前記統合集計表の表頭要素として横方向に隣接配置するか、または表側要素として縦方向に隣接配置する構成とされている
ことを特徴とする請求項1~3のいずれかに記載の集計表統合システム。
【請求項7】
請求項1~3のいずれかに記載の集計表統合システムとして、コンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、異なる時点の集計表を統合する処理を実行するコンピュータにより構成された集計表統合システムおよびプログラムに係り、例えば、集計表作成システムにより異なる時点のローデータ(raw data)からそれぞれ自動作成された異なる時点の集計表のデータがあるときに、それらの集計表のデータを比較することができるように配置して統合する場合等に利用できる。
【背景技術】
【0002】
一般に、アンケート調査や物件調査等の各種の調査で収集したデータを用いて、幾つのサンプル(何人の人または何個の物)が該当するのかを示す度数表示による集計表や、何%のサンプル(何%の人または物)が該当するのかを示す割合表示による集計表が作成される。
【0003】
例えば、図16に示すように、調査後には、先ず、ローデータ(raw data)が作成される。ローデータとは、何も加工されていない状態の調査結果を示す生データという意味であり、図16の例では、1サンプル(1人の回答者)についての各調査項目に対する回答データが1行で表現され、横方向に並んでいる。具体的には、例えば、1番上の行(調査項目を記載したタイトル行を除く。)には、サンプルID=S0001(特許太郎)の回答データが並んでいて、Q1=「はじめに、あなたについて教えてください 出身高校の所在地はどちらですか」という調査項目に対し、12(東京都)という回答データが記載され、Q2=「あなた自身の、進路選びについて教えてください 偏差値の高さ」という調査項目に対し、1(大変重視していた)という回答データが記載され、Q3=「あなた自身の、進路選びについて教えてください 知名度の高さ」という調査項目に対し、3(どちらでもない)という回答データが記載され、Q4=「〇〇大学で合格した学科」という調査項目に対し、複数選択可であるから、各学科に合格したか否かを示すフラグ形式(1,0形式)の回答データが記載されている。
【0004】
また、その下側には、集計表ID(集計表識別情報)=[N0001]の集計表の例が示されている。この集計表は、表中の上端部に設けられた表頭(ひょうとう)要素および表頭タイトルにより構成される表頭部(表頭タイトルがないこともあるが、その場合でも表頭部と呼ぶものとする。)と、表中の左端部に設けられた表側(ひょうそく)要素および表側タイトルにより構成される表側部(表側タイトルがないこともあるが、その場合でも表側部と呼ぶものとする。)とを備えている。そして、横方向に並ぶ各表頭要素(青森県、東京都等)と、縦方向に並ぶ各表側要素(児童学科、英文学科等)とで形成されるマトリックス(行列)を埋める各データは、いずれも集計データであり、本願では、これらの集計データの集合またはその配置位置を、表頭部や表側部と区別して、集計データ部と呼ぶことがある。また、「集計データ」ではなく、「集計表のデータ」(「統合集計表のデータ」、「合体集計表のデータ」等も同様である。)というときは、表頭部、表側部、集計データ部を合わせた集計表全体のデータを指す。なお、この集計表は、度数表示(人数表示)による集計表の例であるが、割合表示(人数の%表示)としても、表頭部、表側部、集計データ部の呼び名は同じである。
【0005】
さらに、ローデータから作成される集計表には、単純集計表と、クロス集計表とがあり、図16の集計表は、クロス集計表の例である。
【0006】
前者の単純集計表は、アンケート調査等により収集したデータ(各調査項目に対する回答データ)を、調査項目毎に集計するものである。具体的には、図16のローデータを使用し、例えば、ある1つの集計対象の調査項目として、Q1=「はじめに、あなたについて教えてください 出身高校の所在地はどちらですか」を選択したとすると、これに対する回答データが、1(青森県)の人は何人、2(岩手県)の人は何人、3(宮城県)の人は何人、…といった集計データを作成するのが、単純集計(Grand Total)であり、それを表形式で現したものが、単純集計表(GT表)である。従って、この単純集計表の場合、表頭要素または表側要素のいずれか一方として、1(青森県)、2(岩手県)、3(宮城県)等が並ぶだけであり、表頭要素が横方向に並び、かつ、表側要素が縦方向に並ぶ状態にはならないため、本発明の適用対象の集計表にはならない。
【0007】
後者のクロス集計表は、アンケート調査等により収集したデータ(各調査項目に対する回答データ)を用いて、複数の調査項目(に対する回答)をかけ合せて集計するものである。従って、表頭要素は、ある調査項目に対する回答であり、表側要素も、別の調査項目に対する回答である。具体的には、図16の集計表に示すように、表頭要素である「千葉県」、「東京都」等は、ある調査項目に対する回答であり、表側要素である「児童学科」、「食物学科」等も、別の調査項目に対する回答であり、これらをかけ合わせた集計データが作成される。出身高校の所在地が「千葉県」の人が、全体で103人いて、そのうち「児童学科」に合格した人が14人いて、「食物学科」に合格した人が3人いる等である。また、出身高校の所在地が「東京都」の人が、全体で326人いて、そのうち「児童学科」に合格した人が28人いて、「食物学科」に合格した人が7人いる等である。
【0008】
ところで、このようなアンケート調査等は、時間の経過に伴う変化を計測するために行われるものであるから、例えば、毎年、毎月、四半期ごとに行われる等、繰り返し行われることが多く、毎回の調査目的、調査方法、調査項目等は、殆ど変わらない場合が多い。従って、時点(時期)を変えて繰り返し行われる集計表のデータを統合し、それらの異なる時点のデータを、人が目で見て比較し易いように配置した統合集計表を作成できれば便利である。
【0009】
一方、従来より、異なる時点のローデータを統合してから、集計表を作成する作業が行われている。異なる時点のローデータを統合すると、各時点のサンプル(図16の例では、回答者)が縦方向に並び、行数(サンプル数)が増えた状態になる。この場合、各時点のサンプルに重なりがないか、または重なりがあっても、違うサンプルとみなして(図16の例では、2019年のサンプルである特許太郎と、2020年のサンプルである浪人した特許太郎とは、別のサンプルであるとみなして)統合することになる。従って、統合された単純集計表(GT表)を作成する場合には、集計処理が容易になる。但し、ここで容易になると言っている集計処理は、複数の時点のローデータを通算する処理であり、例えば、2019年と2020年とのローデータとを縦方向に並べて連結し、2年間を1つにまとめた通算の人数を求めるための集計処理である。しかし、2019年の集計人数と、2020年の集計人数とを比較するための統合集計表を作成する場合には、結局、時点毎(図16の例では、年度毎)の集計処理が必要になるので、複数の時点のローデータを縦方向に並べて統合しても、効果的な集計処理を行うことができるわけではない。つまり、統合という用語の意味に、データの通算と、データの対比表示とがあるとすれば、後者の意味の統合を行う場合は、ローデータを縦方向に並べる統合は、殆ど役に立たない。
【0010】
また、各時点の集計表が、単純集計表(GT表)ではなく、クロス集計表の場合には、複数の調査項目をかけ合わせた集計を行うので、この場合も同様に、複数の時点のローデータを通算する処理を行うのであれば、複数の時点のローデータを縦方向に並べて連結してから(例えば、2019年と2020年とのローデータとを縦方向に並べて連結してから)、クロス集計表を作成する意味はある。しかし、異なる時点のクロス集計表のデータ、例えば、2019年のクロス集計表のデータと、2020年のクロス集計表のデータとを比較するための統合集計表を作成する場合には、結局、時点毎(図16の例では、年度毎)の集計処理が必要になるので、複数の時点のローデータを縦方向に並べて統合しても、効果的な集計処理を行うことができるわけではない。
【0011】
なお、表の統合を行うシステムとしては、例えば、表構造を認識し、最小矩形の属性を自動決定する帳票認識装置が知られている(特許文献1参照)。また、表頭部および表側部を利用するシステムとしては、例えば、表データにおける自然言語記述のベクトル化を可能にするデータ処理装置が知られている(特許文献2参照)。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】特開2010-61693号公報(段落[0016]、[0019]、[0042]、[0043]、[0133]、[0141])
【特許文献2】特許第7192991号掲載公報(段落[0030])
【発明の概要】
【発明が解決しようとする課題】
【0013】
前述したように、従来から、複数の時点のローデータを縦方向に並べて連結してから、集計表を作成する作業は行われているが、異なる時点の集計データを比較するための統合処理を行う場合には、複数の時点のローデータの統合は殆ど役に立たない。
【0014】
そこで、ローデータを統合するのではなく、異なる時点の集計表のデータを用いて、直接に統合集計表のデータを作成することが考えられる。しかし、この作業は、人手により行う必要があり、時間や手間がかかるうえ、データの転記ミスを生じるおそれもある。
【0015】
より詳細には、前述したように、アンケート調査等は、時間の経過に伴う変化を計測するために繰り返し行われるものであるから、毎回の調査目的、調査方法、調査項目等は、大きくは変わらない。しかし、以下の理由で、単純な統合作業にならない場合が多い。
【0016】
すなわち、調査時点(調査時期)が異なると、集計表における表頭タイトルや表側タイトルとして使用される調査項目の増減(ローデータのカラム構成の変更)や、調査項目の表現の変更(質問を構成する文字列の内容の変更)を伴うことがある。また、表頭要素や表側要素の増減(質問に対する回答の選択肢の増減)や、表頭要素や表側要素の表現の変更(回答を構成する文字列の内容の変更)、あるいは表頭要素や表側要素の並び順の変更を伴うこともある。
【0017】
さらに、表頭要素や表側要素の中には、例えば、「青森県」、「岩手県」、「秋田県」等の複数の要素の集計データをまとめて「東北」という要素の集計データにする、あるいは幾つかの要素の集計データの平均値を求めて別の要素の集計データにする等のように、ローデータの数値を単純に使用するのではなく、何らかの演算による合成処理で集計データを求める表頭要素や表側要素もあり、その合成処理の内容も、時間の経過で変化することがある。例えば、ある時点では、「東北」という要素の集計データを求める合成処理を行っていたが、別の時点では、「北海道・東北」という要素に変わる等である。
【0018】
このため、手作業での統合集計表の作成では、表頭タイトルや表側タイトルの同一性、あるいは表頭要素や表側要素の同一性を判断する必要があり、時間や手間がかかるだけではなく、統合作業を行う者の知識や経験によって同一性の判断結果が相違する場合もあり、作成された統合集計表の内容に差異が生じる場合もある。
【0019】
本発明の目的は、どのような作業者でも手間や時間をかけることなく、容易に集計表の統合を行うことができる集計表統合システムおよびプログラムを提供するところにある。
【課題を解決するための手段】
【0020】
本発明は、集計表の表頭部および表側部の各文字列、特に、表頭要素および表側要素の各文字列を利用して、異なる時点(つまり、複数の時点)の集計表の統合の可否を判断し、あるいは統合対象を検出し、統合処理を実行することを特徴とするものであり、具体的には、以下のような構成を採用することができる。
【0021】
<表頭要素間および表側要素間の類似度を算出し、意味内容が対応している表頭要素や表側要素を決定し、その後、表頭要素集合間および表側要素集合間の類似度を算出し、集計表の統合の可否を判断する構成(第1の構成)>
【0022】
本発明は、異なる時点の集計表を統合する処理を実行するコンピュータにより構成された集計表統合システムであって、
集計表ファイルに書き込まれている統合対象の異なる時点の集計表のそれぞれの表頭部を構成する複数の表頭要素の各々の文字列間の類似度を示す表頭要素間類似度を算出し、算出した表頭要素間類似度と予め設定した閾値とを比較することにより、異なる時点の集計表間で意味内容が対応している表頭要素どうしを決定するとともに、統合対象の異なる時点の集計表のそれぞれの表側部を構成する複数の表側要素の各々の文字列間の類似度を示す表側要素間類似度を算出し、算出した表側要素間類似度と予め設定した閾値とを比較することにより、異なる時点の集計表間で意味内容が対応している表側要素どうしを決定する要素間類似度算出手段と、
この要素間類似度算出手段により決定した、異なる時点の集計表間で意味内容が対応している表頭要素どうしを同一要素とみなし、表頭部を構成する複数の表頭要素からなる表頭要素集合間の類似度を示す表頭要素集合間類似度を算出し、算出した表頭要素集合間類似度と予め設定した閾値とを比較するとともに、異なる時点の集計表間で意味内容が対応している表側要素どうしを同一要素とみなし、表側部を構成する複数の表側要素からなる表側要素集合間の類似度を示す表側要素集合間類似度を算出し、算出した表側要素集合間類似度と予め設定した閾値とを比較し、表頭要素集合間類似度および表側要素集合間類似度の双方が高いか否かにより異なる時点の集計表の統合の可否を判断する集合間類似度算出手段と、
この集合間類似度算出手段により統合可能と判断した異なる時点の集計表のそれぞれの集計データのうち、表頭要素および表側要素の双方について異なる時点の集計表間で意味内容が対応している場合の当該表頭要素および当該表側要素についての集計データどうしを、縦方向または横方向に隣接配置することにより統合集計表を作成する統合処理を実行する統合手段と
を備えたことを特徴とするものである。
【0023】
ここで、「要素間類似度算出手段」における「集計表ファイルに書き込まれている統合対象の異なる時点の集計表」とは、それぞれの時点の集計表が、別々の集計表ファイルに書き込まれていてもよく、1つの集計表ファイルにまとめて書き込まれていてもよい趣旨である。前者の場合は、例えば、ある時点Taの集計表ファイルと、それよりも後の時点Tbの集計表ファイルとを用意する場合等である。後者の場合は、表計算ソフト(例えば、マイクロソフト社のエクセル(登録商標)等)の同じファイル内の別のシートに、異なる時点の集計表を書き込む場合等である。他の発明も同様である。
【0024】
なお、「統合手段」により作成した「統合集計表」を書き込む統合集計表ファイルは、統合前の個々の集計表が書き込まれた集計表ファイルとは別に用意したファイルとしてもよく、同じファイルとしてもよい。他の発明も同様である。
【0025】
また、「異なる時点の集計表を統合する処理」の「異なる時点」は、例えば、2020年と2021年のように、2時点としてもよく、2019年、2020年、2021年、…のように3以上の時点としてもよい。他の発明も同様である。
【0026】
そして、3以上の時点の集計表の統合を行う場合は、例えば、先ず、2019年と2020年とを統合し、次に、その統合集計表と、2021年の集計表とを統合するという具合に、2時点の統合処理を繰り返していくことが、演算処理が容易になるという点で好ましい。従って、「異なる時点」というときの「時点」には、複数の時点の集計表を統合した場合のそれらの複数の時点についての代表時点も含まれる。この代表時点は、例えば、2019年と2020年とを統合した場合に、それらのどちらかの時点(2019年、2020年のうち、作成基準時点として選択された時点)としてもよく、あるいは、現実には存在しない仮想の時点(例えば「2019&2020年」、「2019-2020年based on 2020年」等)としてもよい。また、例えば、2019年、2020年、2021年、2022年の4時点の集計表を統合する場合に、2019年と2020年との統合集計表を作成するとともに、2021年と2022年との統合集計表を作成し、それらの統合集計表どうしを、さらに統合してもよい。従って、「異なる時点」の統合には、代表時点(例えば「2019&2020年」等)と、代表時点(例えば「2021&2022年」等)との統合も含まれる。
【0027】
なお、2時点の統合処理を繰り返していくのではなく、3以上の時点の集計表の統合を一気に行ってもよく、その場合には、各時点間の各種の類似度を総当たりで算出することになるので、演算処理は複雑になる。つまり、統合する時点の数をNとすると、通りの2時点間の各種の類似度(表頭要素間類似度、表側要素間類似度、表頭要素集合間類似度、表側要素集合間類似度)を算出し、閾値との比較判断を行うことになる。例えば、2019年、2020年、2021年の3時点の集計表を統合する場合には、通りの各種の類似度、すなわち2019年と2020年との各種の類似度、2020年と2021年との各種の類似度、2019年と2021年との各種の類似度を算出し、それらの通りの2時点間の各種の類似度の全部について閾値との比較を行い、いずれの2時点間についても各種の類似度が高いか否かを判断することになる。
【0028】
さらに、本発明における「集計表」には、度数表示(人数、個数、件数等の表示)による集計表と、割合表示(何パーセント、何パーミル、何割等の表示)による集計表とが含まれる。なお、集計表には、単純集計表(GT表)と、クロス集計表とがあるが、本発明の適用対象は、クロス集計表である(前述した図16の説明参照)。
【0029】
このような本発明の集計表統合システムにおいては、要素間類似度算出手段により、表頭要素間および表側要素間の類似度を算出し、意味内容が対応している表頭要素や表側要素を決定し、その後、集合間類似度算出手段により、表頭要素集合間および表側要素集合間の類似度を算出し、異なる時点(つまり、複数の時点)の集計表の統合の可否を判断し、統合可能と判断された場合には、統合手段により、統合集計表を作成する。
【0030】
このため、統合作業を行う者は、表頭要素や表側要素の同一性を判断したり、集計表の統合の可否を判断する必要がなくなるので、時間や手間をかけることなく、容易に統合集計表を作成することができるようになる。また、事前に適切な閾値を設定しておけば(閾値の設定は、統合作業を行う者が行ってもよいが、他の者が行ってもよい。)、人の判断を介在させずに、統合処理を実行できるため、作業者の知識や経験によらずに、どのような作業者であっても、均質な統合集計表を作成することが可能となり、これらにより前記目的が達成される。
【0031】
<異なる時点のそれぞれについて複数存在する集計表の中から、統合対象とする異なる時点の集計表を検出し、続いて、検出した統合対象の集計表について、表頭要素間および表側要素間の類似度を算出し、意味内容が対応している表頭要素や表側要素を決定し、その後、表頭要素集合間および表側要素集合間の類似度を算出し、集計表の統合の可否を判断する構成(第2の構成)>
【0032】
また、前述した集計表統合システム(第1の構成)では、異なる時点のそれぞれについて複数の集計表が存在する場合に、統合対象とする異なる時点の集計表は、人が指定してもよく、システムで検出してもよいが、人による指定の手間を無くして省力化を図るという観点で、次のような構成(第2の構成)としてもよい。
【0033】
すなわち、前述した集計表統合システムにおいて、
集計表ファイルに書き込まれている異なる時点のそれぞれについて複数存在する集計表の中から、統合対象とする異なる時点の集計表を検出する統合対象検出手段を備え、
この統合対象検出手段は、
(1)異なる時点の集計表のそれぞれについて、表頭部を構成する複数の表頭要素の各々の文字列を連結した表頭要素連結文字列および/または表頭タイトルの文字列を含む表頭部文字列と、表側部を構成する複数の表側要素の各々の文字列を連結した表側要素連結文字列および/または表側タイトルの文字列を含む表側部文字列とを連結した表頭部・表側部連結文字列を作成し、作成した異なる時点の集計表の表頭部・表側部連結文字列を用いて、集合間類似度算出手段で使用する類似度算出用のアルゴリズムとは異なるアルゴリズムにより、異なる時点の集計表の表頭部および表側部の類似度を示す表頭部・表側部類似度を算出し、算出した表頭部・表側部類似度と予め設定した閾値とを比較し、表頭部・表側部類似度が高いか否かにより、統合対象とする異なる時点の集計表を検出するか、または、
(2)異なる時点の集計表のそれぞれの表頭部を構成する複数の表頭要素の各々の文字列を連結した表頭要素連結文字列および/または表頭タイトルの文字列を含む表頭部文字列を用いて、集合間類似度算出手段で使用する類似度算出用のアルゴリズムとは異なるアルゴリズムにより、異なる時点の集計表の表頭部の類似度を示す表頭部類似度を算出し、算出した表頭部類似度と予め設定した閾値とを比較するとともに、異なる時点の集計表のそれぞれの表側部を構成する複数の表側要素の各々の文字列を連結した表側要素連結文字列および/または表側タイトルの文字列を含む表側部文字列を用いて、集合間類似度算出手段で使用する類似度算出用のアルゴリズムとは異なるアルゴリズムにより、異なる時点の集計表の表側部の類似度を示す表側部類似度を算出し、算出した表側部類似度と予め設定した閾値とを比較し、表頭部類似度および表側部類似度の双方が高いか否かにより、統合対象とする異なる時点の集計表を検出する構成とされ、
要素間類似度算出手段は、
統合対象検出手段により検出した異なる時点の集計表を統合対象として処理を実行する構成としてもよい。
【0034】
ここで、「統合対象検出手段」における「表頭要素連結文字列および/または表頭タイトルの文字列を含む表頭部文字列」は、表頭要素連結文字列だけでもよく、表頭タイトルの文字列だけでもよく、表頭要素連結文字列および表頭タイトルの文字列の双方を含んでいてもよい趣旨である。同様に、「統合対象検出手段」における「表側要素連結文字列および/または表側タイトルの文字列を含む表側部文字列」は、表側要素連結文字列だけでもよく、表側タイトルの文字列だけでもよく、表側要素連結文字列および表側タイトルの文字列の双方を含んでいてもよい趣旨である。なお、表頭タイトルや表側タイトルの文字列だけでもよいとしているのは、最終的に、集合間類似度算出手段により異なる時点(つまり、複数の時点)の集計表の統合の可否を判断するので、統合対象検出手段による検出段階では、統合の可能性があればよいという趣旨である。
【0035】
このように統合対象検出手段を備えた構成(第2の構成)とした場合には、統合対象検出手段により、異なる時点のそれぞれについて複数存在する集計表の中から、統合対象とする異なる時点の集計表を検出し、続いて、要素間類似度算出手段により、検出した統合対象の集計表について、表頭要素間および表側要素間の類似度を算出し、意味内容が対応している表頭要素や表側要素を決定し、その後、集合間類似度算出手段により、表頭要素集合間および表側要素集合間の類似度を算出し、異なる時点(つまり、複数の時点)の集計表の統合の可否を判断し、統合可能と判断された場合には、統合手段により、統合集計表を作成する。
【0036】
このため、統合対象検出手段により統合対象の集計表が検出されるので、人が統合対象の集計表を指定する手間や時間を省くことが可能となり、省力化を図ることができるようになる。
【0037】
<異なる時点のそれぞれについて複数存在する集計表の中から、統合対象とする異なる時点の集計表を検出し、続いて、検出した統合対象の集計表について、表頭要素間および表側要素間の類似度を算出し、意味内容が対応している表頭要素や表側要素を決定する構成(第3の構成)>
【0038】
さらに、本発明は、異なる時点の集計表を統合する処理を実行するコンピュータにより構成された集計表統合システムであって、
集計表ファイルに書き込まれている異なる時点のそれぞれについて複数存在する集計表の中から、統合対象とする異なる時点の集計表を検出する統合対象検出手段と、
この統合対象検出手段により検出した統合対象の異なる時点の集計表のそれぞれの表頭部を構成する複数の表頭要素の各々の文字列間の類似度を示す表頭要素間類似度を算出し、算出した表頭要素間類似度と予め設定した閾値とを比較することにより、異なる時点の集計表間で意味内容が対応している表頭要素どうしを決定するとともに、統合対象の異なる時点の集計表のそれぞれの表側部を構成する複数の表側要素の各々の文字列間の類似度を示す表側要素間類似度を算出し、算出した表側要素間類似度と予め設定した閾値とを比較することにより、異なる時点の集計表間で意味内容が対応している表側要素どうしを決定する要素間類似度算出手段と、
統合対象検出手段により検出した統合対象の異なる時点の集計表のそれぞれの集計データのうち、表頭要素および表側要素の双方について異なる時点の集計表間で意味内容が対応している場合の当該表頭要素および当該表側要素についての集計データどうしを、縦方向または横方向に隣接配置することにより統合集計表を作成する統合処理を実行する統合手段とを備え、
統合対象検出手段は、
(1)異なる時点の集計表のそれぞれについて、表頭部を構成する複数の表頭要素の各々の文字列を連結した表頭要素連結文字列またはこの表頭要素連結文字列に表頭タイトルの文字列を加えた表頭部文字列と、表側部を構成する複数の表側要素の各々の文字列を連結した表側要素連結文字列またはこの表側要素連結文字列に表側タイトルの文字列を加えた表側部文字列とを連結した表頭部・表側部連結文字列を作成し、作成した異なる時点の集計表の表頭部・表側部連結文字列を用いて、異なる時点の集計表の表頭部および表側部の類似度を示す表頭部・表側部類似度を算出し、算出した表頭部・表側部類似度と予め設定した閾値とを比較し、表頭部・表側部類似度が高いか否かにより、統合対象とする異なる時点の集計表を検出するか、または、
(2)異なる時点の集計表のそれぞれの表頭部を構成する複数の表頭要素の各々の文字列を連結した表頭要素連結文字列またはこの表頭要素連結文字列に表頭タイトルの文字列を加えた表頭部文字列を用いて、異なる時点の集計表の表頭部の類似度を示す表頭部類似度を算出し、算出した表頭部類似度と予め設定した閾値とを比較するとともに、異なる時点の集計表のそれぞれの表側部を構成する複数の表側要素の各々の文字列を連結した表側要素連結文字列またはこの表側要素連結文字列に表側タイトルの文字列を加えた表側部文字列を用いて、異なる時点の集計表の表側部の類似度を示す表側部類似度を算出し、算出した表側部類似度と予め設定した閾値とを比較し、表頭部類似度および表側部類似度の双方が高いか否かにより、統合対象とする前記異なる時点の集計表を検出する構成とされていることを特徴とするものである。
【0039】
ここで、「統合対象検出手段」における「表頭要素連結文字列またはこの表頭要素連結文字列に表頭タイトルの文字列を加えた表頭部文字列」は、表頭要素連結文字列だけでもよく、表頭要素連結文字列および表頭タイトルの文字列の双方を含んでいてもよいが、表頭タイトルの文字列だけの場合は除く趣旨である。同様に、「統合対象検出手段」における「表側要素連結文字列またはこの表側要素連結文字列に表側タイトルの文字列を加えた表側部文字列」は、表側要素連結文字列だけでもよく、表側要素連結文字列および表側タイトルの文字列の双方を含んでいてもよいが、表側タイトルの文字列だけの場合は除く趣旨である。表頭タイトルや表側タイトルの文字列だけの場合を除くのは、この第3の構成では、集合間類似度算出手段による集計表の統合の可否判断を行わないので、統合対象検出手段による統合対象の検出段階で、統合の可否を判断するために、少なくとも表頭要素連結文字列や表側要素連結文字列を使用するという趣旨である。
【0040】
このような本発明の集計表統合システム(第3の構成)においては、統合対象検出手段により、異なる時点のそれぞれについて複数存在する集計表の中から、統合の可否の判断も兼ねて、統合対象とする異なる時点の集計表を検出し、続いて、要素間類似度算出手段により、検出した統合対象の集計表について、表頭要素間および表側要素間の類似度を算出し、意味内容が対応している表頭要素や表側要素を決定し、統合手段により、統合集計表を作成する。
【0041】
このため、統合作業を行う者は、表頭要素や表側要素の同一性を判断したり、集計表の統合の可否を判断する必要がなくなるので、時間や手間をかけることなく、容易に統合集計表を作成することができるようになる。また、事前に適切な閾値を設定しておけば(閾値の設定は、統合作業を行う者が行ってもよいが、他の者が行ってもよい。)、人の判断を介在させずに、統合処理を実行できるため、作業者の知識や経験によらずに、どのような作業者であっても、均質な統合集計表を作成することが可能となり、これらにより前記目的が達成される。
【0042】
<分割手段を備えた構成>
【0043】
また、以上に述べた構成(第1、第2、第3の構成)において、
集計表ファイルには、異なる時点のそれぞれについて複数の集計表からなる集計表群が書き込まれるとともに、これらの集計表群のそれぞれの目次情報として、集計表群を構成する各集計表について表頭部を構成する表頭タイトルと、表側部を構成する表側タイトルと、集計表識別情報とが対応付けられて書き込まれ、
目次情報を用いて、集計表群の中に分割可能な集計表としての合体集計表が含まれている場合に、この合体集計表を、分割することができない集計表としての単位集計表に分割する分割手段を備え、
この分割手段は、
目次情報の中で、同一の集計表識別情報に対応付けられた状態で、同一の表頭タイトルに複数の表側タイトルが対応付けられているか、または同一の表側タイトルに複数の表頭タイトルが対応付けられているか否かを判断することにより、集計表群の中に合体集計表が含まれているか否かを判断し、合体集計表が含まれていると判断した場合には、目次情報のうちの合体集計表の部分を、目次情報内で、1つの表頭タイトルおよび1つの表側タイトルに対応付けられた単位集計表に分割し、
異なる時点のうちの一方の時点の集計表群の中に含まれている合体集計表を目次情報内で分割して得られた単位集計表の表頭タイトルおよび表側タイトルの各文字列を連結した連結タイトル文字列と、他方の時点の集計表群の中に含まれている合体集計表を目次情報内で分割して得られた単位集計表または最初から単位集計表の状態になっている集計表の表頭タイトルおよび表側タイトルの各文字列を連結した連結タイトル文字列とを用いて、目次情報内のタイトルレベルでの単位集計表の類似度を示す目次内タイトル類似度を算出し、算出した目次内タイトル類似度と予め設定した閾値とを比較することにより、他方の時点の集計表群の中に、目次内タイトル類似度が高い単位集計表があるか否かを判断し、目次内タイトル類似度が高い単位集計表がある場合には、目次情報内での合体集計表から単位集計表への分割に従って、一方の時点の集計表群の中に含まれている合体集計表のデータを単位集計表のデータに分割する構成としてもよい。
【0044】
このように分割手段を備えた構成とした場合には、各時点の集計表群の中に合体集計表が含まれていて、かつ、それらの合体集計表どうしを統合できないときや、一方の時点の集計表群の中に合体集計表が含まれているが、他方の時点に合体集計表が含まれていないときであっても、合体集計表を単位集計表に分割することにより、集計表の統合を行うことが可能となるケースがある。
【0045】
<要素間類似度算出手段が、表頭部と表側部とを縦横入れ替える構成>
【0046】
さらに、前述した構成(第1、第2の構成)において、
集合間類似度算出手段により異なる時点の集計表を統合することができないと判断された場合に、
要素間類似度算出手段は、
異なる時点の集計表のうちの一方の時点の集計表について表頭部と表側部とを縦横入れ替えた状態についても、表頭要素間類似度および表側要素間類似度を算出し、算出した表頭要素間類似度および表側要素間類似度と予め設定したそれぞれの閾値とを比較することにより、異なる時点の集計表間で意味内容が対応している表頭要素どうしおよび表側要素どうしを決定する構成としてもよい。
【0047】
このように要素間類似度算出手段が、表頭部と表側部とを縦横入れ替える構成とした場合には、集合間類似度算出手段により異なる時点の集計表を統合することができないと判断されても、表頭部と表側部とを縦横入れ替えることで、統合が可能になるケースがある。
【0048】
<包含関係記憶手段を備えた構成>
【0049】
また、以上に述べた構成(第1、第2、第3の構成)において、
表頭要素または表側要素となり得る文字列であって、互いに包含関係にある上位および下位の文字列を対応付けて記憶する包含関係記憶手段を備え、
統合手段は、
統合する集計表の表頭要素または表側要素の中に、包含関係記憶手段に記憶されている互いに包含関係にある上位および下位の文字列の双方が存在する場合には、これらの上位および下位の文字列を、統合集計表の表頭要素として横方向に隣接配置するか、または表側要素として縦方向に隣接配置する構成としてもよい。
【0050】
このように包含関係記憶手段を備えた構成とした場合には、例えば、ある時点で、理学部と工学部とが表頭要素または表側要素になっていて、それよりも後の時点の表頭要素または表側要素が、理工学部になっているケースや、その逆のケース等のように、包含関係にある文字列が、異なる時点の集計表の表頭要素または表側要素に存在するときには、それらの要素についての集計データを統合集計表において見易く配置することが可能となる。
【0051】
<プログラムの発明>
【0052】
そして、本発明のプログラムは、以上に述べた集計表統合システム(第1、第2、第3の構成)として、コンピュータを機能させるためのものである。
【0053】
なお、上記のプログラムまたはその一部は、例えば、光磁気ディスク(MO)、コンパクトディスク(CD)、デジタル・バーサタイル・ディスク(DVD)、フレキシブルディスク(FD)、磁気テープ、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュディスク等の記録媒体に記録して保存や流通等させることが可能であるとともに、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等の有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に載せて搬送することも可能である。さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。
【発明の効果】
【0054】
以上に述べたように本発明によれば、集計表の表頭部および表側部の各文字列、特に、表頭要素および表側要素の各文字列を利用して、異なる時点(つまり、複数の時点)の集計表の統合の可否を判断し、あるいは統合対象を検出し、統合処理を実行するので、どのような作業者でも手間や時間をかけることなく、容易に集計表の統合を行うことができるという効果がある。
【図面の簡単な説明】
【0055】
図1】本発明の一実施形態の集計表統合システムの全体構成図。
図2】前記実施形態の統合対象の2時点の集計表の例示図。
図3】前記実施形態の統合集計表の例示図。
図4】前記実施形態の統合対象検出処理の説明図。
図5】前記実施形態の統合対象の事前指定、リアルタイム指定、自動検出の説明図。
図6】前記実施形態の分割可能な合体集計表の例示図。
図7】前記実施形態の分割処理の説明図。
図8】前記実施形態の包含関係にある表頭要素または表側要素の統合処理の説明図。
図9】前記実施形態の統合対象の2時点の集計表の構成図。
図10】前記実施形態の集計表の縦長統合型の統合処理の説明図。
図11】前記実施形態の集計表の横長統合型の統合処理の説明図。
図12】前記実施形態の要素間類似度および集合間類似度の算出処理の説明図。
図13】前記実施形態の集計表の統合処理の流れ(その1)を示すフローチャートの図。
図14】前記実施形態の集計表の統合処理の流れ(その2)を示すフローチャートの図。
図15】前記実施形態の分割処理の流れを示すフローチャートの図。
図16】従来から行われているローデータから集計表を作成する処理の例示図。
【発明を実施するための形態】
【0056】
以下に本発明の一実施形態について図面を参照して説明する。図1には、本実施形態の集計表統合システム10の全体構成が示されている。図2は、統合対象の2時点の集計表の例示図であり、図3は、統合集計表の例示図である。図4は、統合対象検出処理の説明図であり、図5は、統合対象の事前指定、リアルタイム指定、自動検出の説明図である。図6は、分割可能な合体集計表の例示図であり、図7は、分割処理の説明図である。図8は、包含関係にある表頭要素または表側要素の統合処理の説明図であり、図9は、統合対象の2時点の集計表の構成図であり、図10および図11は、集計表の縦長統合型および横長統合型の統合処理の説明図である。図12は、要素間類似度および集合間類似度の算出処理の説明図である。図13および図14には、集計表の統合処理の流れがフローチャートで示され、図15には、分割処理の流れがフローチャートで示されている。
【0057】
(集計表統合システム10の概要)
集計表統合システム10は、元になるローデータ(図16参照)の作成時点(調査時点、データ収集時点)が異なる複数の集計表から、統合集計表を作成する処理を実行するシステムである。作成する統合集計表は、異なる時点の集計データ(図16参照)を対比表示するものである。なお、3以上の時点の集計表を統合する場合も、既に詳述した通り、2時点の統合処理を繰り返すので、ここでは、図2に示すように、時点Ta(例えば2020年)の集計表と、時点Tb(例えば2021年)の集計表とを統合する場合を説明する。
【0058】
図2に示すように、時点Taの集計表と、時点Tbの集計表とは、各時点(各年)の調査目的や調査方法は、ほぼ同じであるが、毎回の調査項目等が若干相違している場合がある。この点は、[発明が解決しようとする課題]として、既に詳述しているので、ここでは具体例を挙げて説明する。図2の例では、表頭部の表頭タイトルが、「Q1 はじめに、あなたに・・・」と「Q1 先ず、あなたに・・・」とで相違している。また、表頭部の表頭要素が、「千葉県、東京都」の順とその逆順の「東京都、千葉県」とで相違している。さらに、時点Tbでは、表側部の表側要素に「生命科学科」が増えている。この程度の差異の場合、これらの2時点の統合対象は、集計表統合システム10により、統合可能と判断され、統合されて、図3に示すような統合集計表が自動作成される。
【0059】
なお、図2の例では、要素が増えているが、減っている要素があってもよく、あるいは、増えている要素と、減っている要素とが混在していてもよく、ある程度、共通要素が存在していれば、統合可能となる。また、要素の順序の入れ替わりだけではなく、例えば、「伊豆諸島」とその中国語訳の「伊豆群島」のように、要素の文字列が変わっていても、共通要素とみなされ、統合可否の判断が行われる場合がる。
【0060】
図3の例では、時点Ta(2020年)についての「生命科学科」の集計データは存在しないので、空欄となっている。この空欄(統合集計表内に生じる空欄)は、必ずしもブランクである必要はなく、対比する集計データがないことを示すマーク(例えば、「-」、「…」、「*」等)としてもよく、それらを含めて本願では「空欄」と呼ぶ。また、図3の例では、対比する集計データが縦方向に隣接配置される縦長統合型の統合集計表となっているが、横方向に隣接配置される横長統合型の統合集計表としてもよく、この点の詳細は、図10および図11を用いて後述する。
【0061】
また、図3の例では、統合集計表の作成基準時点は、時点Tb(2021年)とされている。この作成基準時点は、設定手段28の説明で後述するように、ユーザが自由に選択設定することができるが、デフォルトは、後の時点である時点Tbになっている。古いフォーマットを、新しいフォーマットに合わせていく趣旨である。従って、作成された統合集計表の表頭部では、時点Tb(2021年)の表頭タイトルである「Q1 先ず、あなたに・・・」が採用され、時点Tb(2021年)の表頭要素の並び順である「東京都、千葉県」が採用されている。
【0062】
(集計表統合システム10の全体構成)
図1において、集計表統合システム10は、1台または複数台のコンピュータにより構成され、本体10Aと、この本体10Aに接続されたマウスやキーボード等の入力手段60と、液晶ディスプレイ等の表示手段70とを備えて構成されている。本体10Aは、異なる時点(複数の時点)の集計表を統合する処理を実行する処理手段20と、この処理手段20による各種処理の実行に必要な各種データを記憶する記憶手段40とを備えている。また、図示は省略されているが、印刷装置を備えていてもよい。
【0063】
処理手段20は、統合対象事前指定手段21と、抽出手段22と、統合対象検出手段23と、要素間類似度算出手段24と、集合間類似度算出手段25と、統合手段26と、分割手段27と、設定手段28と、包含関係登録手段29とを含んで構成されている。また、要素間類似度算出手段24は、表頭要素間類似度算出手段24Aと、表側要素間類似度算出手段24Bとを含んで構成されている。さらに、集合間類似度算出手段25は、表頭要素集合間類似度算出手段25Aと、表側要素集合間類似度算出手段25Bと、統合可否判断手段25Cとを含んで構成されている。
【0064】
ここで、処理手段20に含まれる各手段21~29は、集計表統合システム10の本体10Aの内部に設けられた中央演算処理装置(CPU)、およびこのCPUの動作手順を規定する1つまたは複数のプログラム、並びに主メモリやキャッシュメモリ等の作業用メモリにより実現される。これらの各手段21~29の詳細は後述する。
【0065】
記憶手段40は、集計表ファイル記憶手段41と、統合対象事前指定情報記憶手段42と、抽出結果記憶手段43と、要素間類似度算出結果記憶手段44と、統合集計表記憶手段45と、統合集計表ファイル記憶手段46と、設定情報記憶手段47と、包含関係記憶手段48とを含んで構成されている。
【0066】
ここで、記憶手段40に含まれる各記憶手段41~48としては、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等を採用することができるが、揮発性メモリ(主メモリやキャッシュメモリ等の作業用メモリに一時的に確保される記憶領域)でよいものも含まれている。この点については後述する。
【0067】
(統合対象事前指定手段21の構成:図5
統合対象事前指定手段21は、統合対象となる異なる時点(ここでは2時点とする。)の集計表の組合せについて、入力手段60を操作するユーザによる指定入力を受け付け、受け付けた指定情報を、統合対象事前指定情報記憶手段42(図5参照)に記憶させるものである。指定情報は、統合対象とする2時点の集計表についての集計表識別情報(集計表ID)の組合せ情報である。なお、ここでユーザが統合対象として指定しても、必ずしも実際に統合されるとは限らず、集合間類似度算出手段25の統合可否判断手段25Cにより統合可能と判断された集計表どうしが統合される。
【0068】
本実施形態では、図5に示すように、時点Ta(例えば2019年)の集計表ファイルと、時点Taよりも後の時点である時点Tb(例えば2020年)の集計表ファイルとがあり、それぞれの集計表ファイルに、複数の集計表(集計表ID=[N0001],[N0002],[N0003],…)が書き込まれているので、指定情報は、一方の時点Taの集計表ファイルのファイル識別情報(ファイル名)およびそのファイル内の集計表IDと、他方の時点Tbの集計表ファイルのファイル識別情報(ファイル名)およびそのファイル内の集計表IDとの組合せ情報となる。具体的には、図5の例では、時点Taの集計表ファイルの集計表ID=[N0001]と、時点Tbの集計表ファイルの集計表ID=[N0001]との組合せ情報、時点Taの集計表ファイルの集計表ID=[N0002]と、時点Tbの集計表ファイルの集計表ID=[N0003]との組合せ情報等が、ユーザによる指定情報として統合対象事前指定情報記憶手段42に記憶される。
【0069】
(抽出手段22の構成)
抽出手段22は、集計表ファイル記憶手段41に記憶された集計表ファイルを読み込み、設定情報記憶手段47に記憶されている設定情報を用いて、読み込んだ集計表ファイルから、そこに書き込まれている各集計表(結果的に、統合対象として各種の類似判断を含む処理を行うことにはならない集計表を含め、全ての集計表)のデータを、表頭部、表側部、集計データ部を区別しながら抽出し、その抽出結果を抽出結果記憶手段43に記憶させる処理を実行するものである。後続の処理をあまり時間を置かずに実行するための抽出処理であるから、抽出結果記憶手段43は、主メモリでよいが、不揮発性メモリ(HDDやSSD等)に記憶しておいてもよい。
【0070】
集計表ファイルは、表計算ソフト(例えば、マイクロソフト社のエクセル(登録商標)等)のファイルである。この集計表ファイルには、例えば、図5に示すように、同じファイル内の同じシートに、同じ調査時点における複数の集計表(ローデータの収集時点が同じである複数の集計表)のデータが書き込まれている。
【0071】
なお、同じファイル内の同じシートではなく、同じファイル内の複数のシートに分散して、同じ調査時点における複数の集計表のデータが書き込まれていてもよい。また、同じファイル内ではなく、複数のファイルに分散して、同じ調査時点における複数の集計表のデータが書き込まれていてもよく、その場合には、複数の集計表ファイルを順次読み込んで抽出処理を実行する。
【0072】
通常、集計表は、上記のように調査時点毎に、1つまたは複数の集計表ファイルにまとめられる。例えば、2020年、2021年、…のように、各時点で同様な調査が繰り返し行われるので、それらの調査時点毎にローデータ(図16参照)が作成され、それらのローデータを用いて調査時点毎に集計表が作成されるからである。従って、例えば、2020年用の1つまたは複数のファイル、2021年用の1つまたは複数のファイル、…が存在する。但し、事後的なとりまとめ作業が行われた場合には、1つの集計表ファイル内に、複数の時点の集計表が書き込まれていてもよく、その場合は、例えば、同じファイル内に、時点Taの各集計表が書き込まれたシートと、時点Tbの各集計表が書き込まれた別のシートとがあってもよく、あるいは、いずれの時点の集計表であるのかを特定する情報が存在することを前提として、同じシート内に、時点Taの集計表と、時点Tbの集計表とが混在した状態で書き込まれていてもよい。
【0073】
また、ローデータを用いた集計表の作成(集計表ファイルの作成を含む)は、通常、既存の集計表作成システムにより自動的に行われるが、人が手作業で作成してもよい。本発明の適用対象となる集計表は、システムにより自動作成されたものでも、人が手作業で作成したものでもよい。
【0074】
既存の集計表作成システムは、そのプログラムの内容(作成アルゴリズム)により、幾つかのタイプに分けることができるので、作成される集計表ファイルも、幾つかのタイプがある。この集計表ファイルのタイプは、システムの提供者(製造・販売している会社や、ウェブ上で無料提供している個人等)毎に定まるが、同じ提供者でも、バージョンが異なると別のタイプとみなすことができる。
【0075】
従って、抽出手段22による各集計表を構成する表頭部、表側部、集計データ部のデータ抽出処理については、集計表ファイルのタイプ毎に、異なるアルゴリズムの処理が行われるので、ユーザは、使用する集計表ファイルのタイプを選択し、設定情報として設定情報記憶手段47に記憶させておく。
【0076】
具体的には、各抽出アルゴリズムは、例えば、α社が提供する集計表作成システムの出力ファイル(集計表ファイルのタイプα)では、シート内の第1列から集計表が始まるとか、β社の集計表作成システムの出力ファイル(集計表ファイルのタイプβ)では、表頭部の次の行に空行が入るとか、1行空行が入ったあとに1列目に文字列があったら新しい集計表が始まる等である。これらの集計表ファイルのタイプ別の抽出アルゴリズムは、それぞれのプログラム内に記述されているが、プログラムの外部に出すことができ、かつ、変更される可能性のある数値(第X列、第Y行等の数値)については、設定情報として、集計表ファイルのタイプ識別情報(例えば、α社、β社等の会社名、開発者名、バージョン情報)と関連付けて設定情報記憶手段47に記憶させておき、プログラム実行時に読み込むようにしてもよい。
【0077】
また、抽出手段22は、抽出結果を表示手段70に画面表示する。この際、抽出した場所(行列内の位置情報)を示すため、抽出した各集計表の表頭部と、表側部と、集計データ部とを、異なる色で色塗りする、異なる色で枠囲いする等により、区分け表示する。これにより、ユーザは、画面表示を見ることで、正確に抽出されたか否かを確認することができる。抽出した場所(行列内の位置情報)がずれていた場合には、ユーザは、入力手段60を操作し、表示手段70の画面上で、すなわち表示画面を見ながら、場所を修正することができるようになっている。そして、修正後の場所(表頭部、表側部、集計データ部のそれぞれの行列内での位置情報)は、システムで受け付けられ、処理中の情報として、抽出結果記憶手段43に上書き保存されるとともに、その集計表ファイルに固有の設定情報として、つまり、集計表ファイルのタイプ別の設定情報としてではなく、その集計表ファイル限りの設定情報として、集計表ファイルのファイル識別情報(例えばファイル名)と関連付けて設定情報記憶手段47に記憶される。抽出結果記憶手段43に記憶させるだけではなく、設定情報として設定情報記憶手段47にも記憶させるのは、その集計表ファイルの処理を再度行う場合に利用できることと、その集計表ファイルの抽出結果の修正後情報を、その集計表ファイルのタイプ別の設定情報に反映させる可能性(つまり、その集計表ファイル限りではなく、格上げして使用する可能性)があるからである。
【0078】
具体的には、例えば赤色で区分け表示されている表頭部の位置が、実際の位置とずれている場合に、ユーザは、画面上で、その赤色の区分け表示部分をドラッグして移動させ、または、上側、下側、右側、左側の各端縁を移動させて広げるか若しくは狭めることにより、実際の位置に一致させる修正操作を行う。システムは、この修正操作の入力を受け付けて修正操作後の位置情報を把握し、抽出結果記憶手段43に記憶させる(上書き保存する)とともに、設定情報として、集計表ファイルのファイル識別情報(例えばファイル名)および集計表ID(集計表識別情報)と関連付けて設定情報記憶手段47に記憶させる。ここで記憶させる修正操作後の位置情報は、集計表の表頭部、表側部、集計データ部のそれぞれの位置を特定する行番号や列番号であり、これらの各部の領域には、広狭や形状の相違もあるので、例えば、領域の左上および右下の各セルの行番号や列番号である。そして、例えば黄色で区分け表示されている表側部の位置や、例えば緑色で区分け表示されている集計データ部の位置も、同様にして修正し、記憶させることができる。なお、表頭部の領域は、表頭要素の領域と、表頭タイトルの領域(但し、無い場合もある。)とに分けて抽出され、修正される。表側部の領域も同様であり、表側要素の領域と、表側タイトルの領域(但し、無い場合もある。)とに分けて抽出され、修正される。
【0079】
また、実際には集計表が存在しないのに、抽出された集計表の表頭部、表側部、集計データ部の区分け表示(色塗りや枠囲い)が行われている場合には、それらの区分け表示を消すことができる。一方、集計表が存在するのに、抽出結果としての区分け表示が行われていない場合には、任意の位置に、集計表の表頭部、表側部、集計データ部のそれぞれの区分け表示を追加することができ、追加した集計表の表頭部、表側部、集計データ部のそれぞれの区分け表示の位置を、上述したドラッグ等の修正操作で修正することができる。
【0080】
(統合対象検出手段23の構成:図4
統合対象検出手段23は、集計表ファイル(図5の例では、時点Taのファイルおよび時点Tbのファイルのように、時点毎に別のファイルになっている。)に書き込まれている異なる時点(時点Taおよび時点Tb)のそれぞれについて複数存在する集計表の中から、統合対象とする異なる時点の集計表を検出する処理を実行するものである。
【0081】
従って、統合対象事前指定手段21によるユーザの事前指定や、ユーザのリアルタイム指定を行わなくても、統合対象を自動検出することができるようになっている。この統合対象検出手段23により自動検出された統合対象とする異なる時点の集計表は、ユーザの選択(この選択情報は、設定情報として設定情報記憶手段47に記憶される。)により、さらに集合間類似度算出手段25による統合可否の判断対象とされる場合(前述した本発明の第2の構成)と、その後の集合間類似度算出手段25による統合可否の判断を省略してそのまま実際に統合される場合(前述した本発明の第3の構成)とがある。
【0082】
また、統合対象検出手段23による自動検出処理の要否は、ユーザが選択し、設定手段28により設定情報として設定情報記憶手段47に記憶させる。自動検出処理は不要であるという選択設定をした場合には、ユーザは、自分自身で、統合対象事前指定手段21による事前指定を行うか、リアルタイム指定を行うことになる。
【0083】
この統合対象検出手段23による自動検出処理には、(1)表頭部と表側部とを連結して類似判断を行う処理と、(2)表頭部の類似判断と、表側部の類似判断とを別々に行い、双方の判断結果を統合する処理とがあり、これらの(1)または(2)をユーザ選択可能として設定情報にしてもよく、いずれかの処理だけを用意しておいてもよい。
【0084】
本実施形態では、図5に示すように、異なる時点(時点Taおよび時点Tb)の集計表ファイルの各々に、該当する時点の複数の集計表が書き込まれているので、統合対象検出手段23は、これらの2時点の集計表ファイル内の各集計表の類似度を総当たりで算出し、統合対象を自動検出する。すなわち、時点Tbを作成基準時点とする場合は、先ず、時点Tbの集計表ファイル内の集計表ID=[N0001]の集計表と、他方の時点Taの集計表ファイル内の集計表ID=[N0001],[N0002],[N0003],…の各集計表との間で類似度を算出し、次に、時点Tbの集計表ファイル内の集計表ID=[N0002]の集計表と、他方の時点Taの集計表ファイル内の集計表ID=[N0001],[N0002],[N0003],…の各集計表との間で類似度を算出し、・・・という具合にして集計表の類似度(より正確には、表頭部や表側部の類似度)の高い組合せの集計表を自動検出する。
【0085】
ここで、図4に示すように、時点Taの集計表ファイル内の任意の集計表Aの表頭部をAXとし、表頭タイトルをAXTとし、表頭要素をAXi(i=1~N1であり、N1は、表頭要素の要素数)とし、表側部をAYとし、表側タイトルをAYTとし、表側要素をAYj(j=1~N2であり、N2は、表側要素の要素数)とする。また、時点Tbの集計表ファイル内の任意の集計表Bの表頭部をBXとし、表頭タイトルをBXTとし、表頭要素をBXf(f=1~N3であり、N3は、表頭要素の要素数)とし、表側部をBYとし、表側タイトルをBYTとし、表側要素をBYg(g=1~N4であり、N4は、表側要素の要素数)とする。
【0086】
(1)の処理では、統合対象検出手段23は、先ず、異なる時点(時点Ta,Tb)の集計表A,Bのそれぞれについて、表頭部AX,BXを構成する複数の表頭要素AXi(i=1~N1),BXf(f=1~N3)の各々の文字列を連結した表頭要素連結文字列ΣAXi(i=1~N1),ΣBXf(f=1~N3)および/または表頭タイトルAXT,BXTの文字列を含む表頭部文字列を用意する。この際、集合間類似度算出手段25による統合可否の判断を省略することを選択する場合には、この統合対象検出手段23による類似判断の精度を上げるため、表頭要素連結文字列を含めるようにすることが好ましく、すなわち、表頭タイトルだけを用いるのは避けることが好ましく、システムとして、表頭タイトルだけを用いることを選択できないようにしてもよい。一方、集合間類似度算出手段25による統合可否の判断を行うことを選択する場合には、この統合対象検出手段23による類似判断の精度はそれ程高くしなくてもよいため、表頭タイトルだけを用いてもよい。なお、表頭タイトルが無い場合には、必然的に表頭要素連結文字列を用いることになる。
【0087】
従って、(1)の処理では、表頭部AXについては、表頭部文字列として、ΣAXi(i=1~N1)を用意するか、{ΣAXi(i=1~N1)+AXT}を用意するか、AXTだけを用意する。但し、集合間類似度算出手段25による統合可否の判断を省略する場合は、AXTだけにするのは避けることが好ましい。また、表頭部BXについては、ΣBXf(f=1~N3)を用意するか、{ΣBXf(f=1~N3)+BXT}を用意するか、BXTだけを用意する。但し、集合間類似度算出手段25による統合可否の判断を省略する場合は、BXTだけにするのは避けることが好ましい。
【0088】
また、(1)の処理では、統合対象検出手段23は、異なる時点(時点Ta,Tb)の集計表A,Bのそれぞれについて、表側部AY,BYを構成する複数の表側要素AYj(j=1~N2),BYg(g=1~N4)の各々の文字列を連結した表側要素連結文字列ΣAYj(j=1~N2),ΣBYg(g=1~N4)および/または表側タイトルAYT,BYTの文字列を含む表側部文字列を用意する。この際、集合間類似度算出手段25による統合可否の判断を省略することを選択する場合には、上述した表頭部の場合と同様に、表側要素連結文字列を含めるようにすることが好ましく、すなわち、表側タイトルだけを用いるのは避けることが好ましく、システムとして、表側タイトルだけを用いることを選択できないようにしてもよい。なお、表側タイトルが無い場合には、必然的に表側要素連結文字列を用いることになる。
【0089】
従って、(1)の処理では、表側部AYについては、表側部文字列として、ΣAYj(j=1~N2)を用意するか、{ΣAYj(j=1~N2)+AYT}を用意するか、AYTだけを用意する。但し、集合間類似度算出手段25による統合可否の判断を省略する場合は、AYTだけにするのは避けることが好ましい。また、表側部BYについては、ΣBYg(g=1~N4)を用意するか、{ΣBYg(g=1~N4)+BYT}を用意するか、BYTだけを用意する。但し、集合間類似度算出手段25による統合可否の判断を省略する場合は、BYTだけにするのは避けることが好ましい。
【0090】
そして、(1)の処理では、異なる時点(時点Ta,Tb)の集計表A,Bのそれぞれについて、このようにして用意した表頭部文字列と、表側部文字列とを連結した表頭部・表側部連結文字列を作成する。
【0091】
次に、(1)の処理では、統合対象検出手段23は、作成した異なる時点(時点Ta,Tb)の集計表A,Bの表頭部・表側部連結文字列を用いて、集合間類似度算出手段25で使用する類似度算出用のアルゴリズムとは異なるアルゴリズムにより、時点Taの集計表Aの表頭部AXおよび表側部AYについての表頭部・表側部連結文字列と、時点Tbの集計表Bの表頭部BXおよび表側部BYについての表頭部・表側部連結文字列との間の類似度を示す表頭部・表側部類似度を算出し、算出した表頭部・表側部類似度と、予め設定した閾値(設定情報として設定情報記憶手段47に記憶されている。)とを比較し、表頭部・表側部類似度が高いか否かにより、統合対象とする異なる時点(時点Ta,Tb)の集計表A,Bを検出する。すなわち、類似度が高い場合(類似度が閾値以上または閾値を超過した場合)に、それらの一対の集計表A,Bを統合対象として検出する。
【0092】
(2)の処理では、統合対象検出手段23は、先ず、異なる時点(時点Ta,Tb)の集計表A,Bのそれぞれの表頭部AX,BXを構成する複数の表頭要素AXi(i=1~N1),BXf(f=1~N3)の各々の文字列を連結した表頭要素連結文字列ΣAXi(i=1~N1),ΣBXf(f=1~N3)および/または表頭タイトルAXT,BXTの文字列を含む表頭部文字列を用いて、集合間類似度算出手段25で使用する類似度算出用のアルゴリズムとは異なるアルゴリズムにより、時点Taの集計表Aの表頭部AXと、時点Tbの集計表Bの表頭部BXとの間の類似度を示す表頭部類似度を算出する。そして、算出した表頭部類似度と、予め設定した閾値(設定情報として設定情報記憶手段47に記憶されている。)とを比較する。この際、集合間類似度算出手段25による統合可否の判断を省略することを選択する場合には、上述した(1)の処理の場合と同様に、表頭要素連結文字列を含めるようにすることが好ましく、すなわち、表頭タイトルだけを用いるのは避けることが好ましく、システムとして、表頭タイトルだけを用いることを選択できないようにしてもよい。なお、表頭タイトルが無い場合には、必然的に表頭要素連結文字列を用いることになる。
【0093】
また、(2)の処理では、統合対象検出手段23は、異なる時点(時点Ta,Tb)の集計表A,Bのそれぞれの表側部AY,BYを構成する複数の表側要素AYj(j=1~N2),BYg(g=1~N4)の各々の文字列を連結した表側要素連結文字列ΣAYj(j=1~N2),ΣBYg(g=1~N4)および/または表側タイトルAYT,BYTの文字列を含む表側部文字列を用いて、集合間類似度算出手段25で使用する類似度算出用のアルゴリズムとは異なるアルゴリズムにより、時点Taの集計表Aの表側部AYと、時点Tbの集計表Bの表側部BYとの間の類似度を示す表側部類似度を算出し、算出した表側部類似度と、予め設定した閾値(設定情報として設定情報記憶手段47に記憶されている。)とを比較する。この際、集合間類似度算出手段25による統合可否の判断を省略することを選択する場合には、上述した(1)の処理の場合と同様に、表側要素連結文字列を含めるようにすることが好ましく、すなわち、表側タイトルだけを用いるのは避けることが好ましく、システムとして、表側タイトルだけを用いることを選択できないようにしてもよい。なお、表側タイトルが無い場合には、必然的に表側要素連結文字列を用いることになる。
【0094】
次に、(2)の処理では、統合対象検出手段23は、上記の2つの比較において表頭部類似度および表側部類似度の双方が高いか否かにより、統合対象とする異なる時点(時点Ta,Tb)の集計表A,Bを検出する。すなわち、双方の類似度が高い場合(双方の類似度がそれぞれの閾値以上または閾値を超過した場合)に、それらの一対の集計表A,Bを統合対象として検出する。なお、表頭部類似度の閾値と、表側部類似度の閾値とは、異なる値に設定してもよく、表頭部類似度の閾値のほうを高く設定した場合は、比較的、表側部の相違(表側要素の要素数の相違等)を許容するようになり、一方、表側部類似度の閾値のほうを高く設定した場合は、比較的、表頭部の相違(表頭要素の要素数の相違等)を許容するようになる。
【0095】
以上の(1)の処理において、統合対象検出手段23の類似度算出用のアルゴリズムとして、例えば、集計表A,Bの各表頭部・表側部連結文字列を用いて、Doc2Vecにより、集計表A,Bの各文章ベクトルを求め、これらの文章ベクトルのコサイン類似度等を表頭部・表側部類似度とする方法を採用することができる。また、(2)の処理において、集計表A,Bの各表頭部文字列を用いて、Doc2Vecにより、集計表A,Bの各文章ベクトルを求め、これらの文章ベクトルのコサイン類似度等を表頭部類似度とするとともに、集計表A,Bの各表側部文字列を用いて、Doc2Vecにより、集計表A,Bの各文章ベクトルを求め、これらの文章ベクトルのコサイン類似度等を表側部類似度とする方法を採用することができる。本実施形態では、一例として、これらの方法をデフォルト設定のアルゴリズムとする。
【0096】
また、統合対象検出手段23の類似度算出用のアルゴリズムは、上記のDoc2Vecによる方法に限らず、目的を達成することができれば、他の方法でもよい。例えば、(1)の処理において、集計表A,Bの各表頭部・表側部連結文字列についてのTF-IDFベクトル等の単語重要度ベクトルを求め、これらの単語重要度ベクトルのコサイン類似度等を表頭部・表側部類似度とする方法を採用することができる。また、(2)の処理において、集計表A,Bの各表頭部文字列および各表側部文字列についてのTF-IDFベクトル等の単語重要度ベクトルを求め、これらの単語重要度ベクトルのコサイン類似度等を表頭部類似度および表側部類似度とする方法を採用することができる。
【0097】
この際、単語重要度ベクトルを求めるときは、比較する一対の集計表A,Bだけではなく、全ての集計表ファイルの全ての集計表(2時点だけではなく、全時点の全ての集計表)の表頭部・表側部連結文字列、あるいは表頭部文字列および表側部文字列について、形態素解析を行って単語に分解し、除去すべき不要な記号等があれば除去し、残った全ての単語(名詞だけとしてもよい。)を用いて、各集計表(各集計表の表頭部・表側部連結文字列、あるいは表頭部文字列および表側部文字列)についての各単語のTF-IDF値またはその他の単語重要度指標値からなる単語重要度ベクトルを算出し、得られた単語重要度ベクトルを、集計表ファイルのファイル識別情報(ファイル名等)および集計表ID(集計表識別情報)と関連付けて図示されない単語重要度ベクトル記憶手段に記憶させておく。
【0098】
ここで、単語重要度指標値は、TF-IDF値に限定されるものではなく、例えば、Okapi-BM25等でもよい。なお、TF(Term Frequency)は、文書(ここでは、集計表の表頭部・表側部連結文字列、あるいは表頭部文字列や表側部文字列)における単語の出現頻度であり、ある1つの文字列における各単語の出現回数を、その文字列における全単語の出現回数の和で除した値である。IDF(Inverse Document Frequency)は、逆文書頻度であり、全文書数(ここでは、集計表の表頭部・表側部連結文字列の総数、あるいは表頭部文字列の総数や表側部文字列の総数)を、各単語を含む文字列の数で除した値についてロガリズム(log)をとった値である。単語重要度ベクトルは、単語数をpとすると、p次元のベクトルとなる。
【0099】
(要素間類似度算出手段24の構成:図12
要素間類似度算出手段24の表頭要素間類似度算出手段24Aは、図12に示すように、集計表ファイルに書き込まれている統合対象の異なる時点(時点Ta,Tb)の集計表A,Bのそれぞれの表頭部AX,BXを構成する複数の表頭要素AXi(i=1~N1),BXf(f=1~N3)の各々の文字列間の類似度を示す表頭要素間類似度を算出し、算出した表頭要素間類似度と、予め設定した閾値(設定情報として設定情報記憶手段47に記憶されている。)とを比較することにより、異なる時点(時点Ta,Tb)の集計表A,B間で意味内容が対応している表頭要素どうし(AXn,BXm)を決定し、その決定結果を要素間類似度算出結果記憶手段44に記憶させる処理を実行するものである。この決定結果は、集合間類似度算出手段25による後続の処理で使用するために一時的に記憶させるので、要素間類似度算出結果記憶手段44は、主メモリでよいが、HDDやSSD等の不揮発性メモリに記憶してもよい。
【0100】
要素間類似度算出手段24の表側要素間類似度算出手段24Bは、図12に示すように、集計表ファイルに書き込まれている統合対象の異なる時点(時点Ta,Tb)の集計表A,Bのそれぞれの表側部AY,BYを構成する複数の表側要素AYj(j=1~N2),BYg(g=1~N4)の各々の文字列間の類似度を示す表側要素間類似度を算出し、算出した表側要素間類似度と、予め設定した閾値(設定情報として設定情報記憶手段47に記憶されている。)とを比較することにより、異なる時点(時点Ta,Tb)の集計表A,B間で意味内容が対応している表側要素どうし(AYh,BYk)を決定し、その決定結果を要素間類似度算出結果記憶手段44に記憶させる処理を実行するものである。
【0101】
この際、表頭要素間類似度算出手段24Aは、表頭部AXの複数の表頭要素AXi(i=1~N1)と、表頭部BXの複数の表頭要素BXf(f=1~N3)との総当たりで表頭要素間類似度を算出し、表頭要素間類似度が高い場合(閾値以上または閾値を超える場合)に、そのときの一対の表頭要素AXi,BXfを、異なる時点(時点Ta,Tb)の集計表A,B間で意味内容が対応している表頭要素どうし(AXn,BXm)として決定する。但し、総当たりと言っても、既に意味内容が対応している表頭要素として決定された共通要素については、表頭要素間類似度を算出しなくてもよい。なお、AXn,BXmは、それぞれ特定の1つの表頭要素を指す符号ではなく、意味内容が対応している共通要素としての表頭要素の全部を代表する符号(共通要素としての表頭要素のうちの任意の1つの表頭要素の符号)である。
【0102】
具体的には、例えば、時点Tbを作成基準時点とする場合は、先ず、表頭部BXの表頭要素BX1と、表頭部AXの表頭要素AX1,AX2,AX3,…との間の類似度を算出し、次に、表頭部BXの表頭要素BX2と、表頭部AXの表頭要素AX1,AX2,AX3,…との間の類似度を算出するが、このとき、既にBX1とAX1とが意味内容が対応している共通要素であると判断されている場合は、AX1は除き、表頭部BXの表頭要素BX2と、表頭部AXの表頭要素AX2,AX3,AX4,…との間の類似度を算出すればよい。続いて、既にBX2とAX2とが共通要素であると判断されている場合は、AX2も除き、表頭部BXの表頭要素BX3と、表頭部AXの表頭要素AX3,AX4,AX5,…との間の類似度を算出すればよく、表頭部BXの表頭要素BX4以降も、同様な処理を繰り返す。
【0103】
同様に、表側要素間類似度算出手段24Bは、表側部AYの複数の表頭要素AYj(j=1~N2)と、表側部BYの複数の表頭要素BYg(g=1~N4)との総当たりで表側要素間類似度を算出し、表側要素間類似度が高い場合(閾値以上または閾値を超える場合)に、そのときの一対の表側要素AYj,BYgを、異なる時点(時点Ta,Tb)の集計表A,B間で意味内容が対応している表側要素どうし(AYh,BYk)として決定する。但し、総当たりと言っても、上記の表頭要素間類似度算出手段24Aの場合と同様に、既に意味内容が対応している表側要素として決定された共通要素については、表側要素間類似度を算出しなくてもよい。なお、AYh,BYkは、それぞれ特定の1つの表側要素を指す符号ではなく、意味内容が対応している共通要素としての表側要素の全部を代表する符号(共通要素としての表側要素のうちの任意の1つの表側要素の符号)である。
【0104】
表頭要素間類似度の閾値と、表側要素間類似度の閾値とは、設定手段28による設定情報とされ、双方の閾値を異なる値に設定することも可能であるが、これらの要素間の類似度の場合は、統合対象検出手段23や集合間類似度算出手段25のように全体的な類似性を判断している場合とは異なり、短い文字列どうしの類似性を判断することになるので、通常は、同じ値に設定してよい。
【0105】
要素間類似度算出手段24の類似度算出用のアルゴリズムとしては、例えば、レーベンシュタイン距離(Levenshtein Distance)を作用することができる。なお、距離の値が大きいと、類似度は低くなり、距離の値が小さいと、類似度は高くなる。従って、距離の値が閾値以下または閾値未満になると、類似度が高いという判断になる。レーベンシュタイン距離は、ある文字列と別の文字列の最小編集距離で表される距離である。本実施形態では、一例として、レーベンシュタイン距離を、表頭要素間類似度および表側要素間類似度のデフォルトとして採用する。
【0106】
また、要素間類似度算出手段24の類似度算出用のアルゴリズムは、上記のレーベンシュタイン距離による方法に限らず、目的を達成することができれば、他の方法でもよい。例えば、ジャロ・ウィンクラー距離(Jaro-winkler Distance)、ハミング距離(Hamming distance)等を採用してもよい。
【0107】
さらに、各表頭要素の文字列や、各表側要素の文字列について形態素解析を行い、それらの各文字列を単語に分解し、1つ(任意の1つ)の表頭要素や表側要素の中でそれらの文字列を構成する各単語について、Word2vec等による単語ベクトルを求め、各表頭要素内または各表側要素の中で、それぞれの文字列を構成する各単語についての単語ベクトルの平均ベクトル等を算出することにより各表頭要素または各表側要素についての代表単語ベクトル(平均した単語ベクトル等)を求め、求めた代表単語ベクトルのコサイン類似度等を、表頭要素間類似度および表側要素間類似度として採用してもよい。なお、ある要素の文字列が1単語になっている場合は、平均等は算出できないので、その1単語についての単語ベクトルそのものが代表単語ベクトルとなる。
【0108】
(集合間類似度算出手段25の構成:図12
集合間類似度算出手段25の表頭要素集合間類似度算出手段25Aは、図12に示すように、要素間類似度算出手段24の表頭要素間類似度算出手段24Aにより決定した、異なる時点(時点Ta,Tb)の集計表A,B間で意味内容が対応している表頭要素どうし(AXn,BXm)を同一要素とみなし、表頭部AXを構成する複数の表頭要素AXi(i=1~N1)からなる表頭要素集合と、表頭部BXを構成する複数の表頭要素BXf(f=1~N3)からなる表頭要素集合との間の類似度を示す表頭要素集合間類似度を算出し、算出した表頭要素集合間類似度と、予め設定した閾値(設定情報として設定情報記憶手段47に記憶されている。)とを比較し、類似度が高い場合(閾値以上または閾値を超えている場合)に、表頭要素が集合として類似していると判断する処理を実行するものである。
【0109】
この際、図12に示すように、表頭要素間類似度算出手段24Aの決定により、表頭部AXを構成する複数(N1個)の表頭要素AXi(i=1~N1)からなる表頭要素集合については、表頭部AX,BX間で意味内容が対応しているものがある(相手側の表頭部の中に、対応する表頭要素がある)表頭要素として決定されたN5個の共通要素AXnと、表頭部AX,BX間で意味内容が対応しているものがない(相手側の表頭部の中に、対応する表頭要素がない)表頭要素であると判断された(N1-N5)個の非共通要素AXuとに分かれている。図12の例では、共通要素AXnとして決定された表頭要素は、AX1,AX2,AX3,…であり、非共通要素AXuであると判断された表頭要素は、AX13,AX14,…である。
【0110】
また、図12に示すように、表頭要素間類似度算出手段24Aの決定により、表頭部BXを構成する複数(N3個)の表頭要素BXf(f=1~N3)からなる表頭要素集合についても、表頭部AX,BX間で意味内容が対応しているものがある表頭要素として決定されたN5個の共通要素BXmと、表頭部AX,BX間で意味内容が対応しているものがない表頭要素であると判断された(N3-N5)個の非共通要素BXvとに分かれている。図12の例では、共通要素BXmとして決定された表頭要素は、BX1,BX2,BX3,…であり、非共通要素BXvであると判断された表頭要素は、BX10,BX11,…である。従って、この図12に示した表頭要素集合間の状況を利用して、表頭要素集合間類似度算出手段25Aにより、表頭要素集合間類似度を算出する。
【0111】
なお、図12の例において、N5個の共通要素について「BXm(AXn)」と記載されているのは、AXnとBXmとは、完全に一致しているか、または若干異なっている場合があり、若干異なっている場合は、原則通り、後の時点Tbが統合集計表の作成基準時点であるとすれば、統合集計表の表記としてBXmの文字列のほうが採用されるという意味である。但し、スペースがあれば、並列記載してもよい。
【0112】
集合間類似度算出手段25の表側要素集合間類似度算出手段25Bは、図12に示すように、要素間類似度算出手段24の表側要素間類似度算出手段24Bにより決定した、異なる時点(時点Ta,Tb)の集計表A,B間で意味内容が対応している表側要素どうし(AYh,BYk)を同一要素とみなし、表側部AYを構成する複数の表側要素AYj(j=1~N2)からなる表側要素集合と、表側部BYを構成する複数の表側要素BYg(g=1~N4)からなる表側要素集合との間の類似度を示す表側要素集合間類似度を算出し、算出した表側要素集合間類似度と、予め設定した閾値(設定情報として設定情報記憶手段47に記憶されている。)とを比較し、類似度が高い場合(閾値以上または閾値を超えている場合)に、表側要素が集合として類似していると判断する処理を実行するものである。
【0113】
この際、図12に示すように、表側要素間類似度算出手段24Bの決定により、表側部AYを構成する複数(N2個)の表側要素AYj(j=1~N2)からなる表側要素集合については、表側部AY,BY間で意味内容が対応しているものがある(相手側の表側部の中に、対応する表側要素がある)表側要素として決定されたN6個の共通要素AYhと、表側部AY,BY間で意味内容が対応しているものがない(相手側の表側部の中に、対応する表側要素がない)表側要素であると判断された(N2-N6)個の非共通要素AYrとに分かれている。図12の例では、共通要素AYhとして決定された表側要素は、AY1,AY2,AY3,…であり、非共通要素AYrであると判断された表側要素は、AY9,AY10,…である。
【0114】
また、図12に示すように、表側要素間類似度算出手段24Bの決定により、表側部BYを構成する複数(N4個)の表側要素BYg(g=1~N4)からなる表側要素集合についても、表側部AY,BY間で意味内容が対応しているものがある表側要素として決定されたN6個の共通要素BYkと、表側部AY,BY間で意味内容が対応しているものがない表側要素であると判断された(N4-N6)個の非共通要素BYsとに分かれている。図12の例では、共通要素BYkとして決定された表側要素は、BY1,BY2,BY3,…であり、非共通要素BYsであると判断された表側要素は、BY11,BY12,…である。従って、この図12に示した表側要素集合間の状況を利用して、表側要素集合間類似度算出手段25Bにより、表側要素集合間類似度を算出する。
【0115】
なお、図12の例において、N6個の共通要素について「BYk(AYh)」と記載されているのは、AYhとBYkとは、完全に一致しているか、または若干異なっている場合があり、若干異なっている場合は、原則通り、後の時点Tbが統合集計表の作成基準時点であるとすれば、統合集計表の表記としてBYkの文字列のほうが採用されるという意味である。但し、スペースがあれば、並列記載してもよい。
【0116】
集合間類似度算出手段25の統合可否判断手段25Cは、表頭要素集合間類似度および表側要素集合間類似度の双方が高いか否かにより異なる時点(時点Ta,Tb)の集計表A,Bの統合の可否を判断する処理を実行するものである。すなわち、双方の類似度が高い場合(双方の類似度がそれぞれの閾値以上または閾値を超える場合)に、集計表A,Bの統合が可能であると判断する。
【0117】
なお、表頭要素集合間類似度の閾値と、表側要素集合間類似度の閾値とは、異なる値に設定してもよく、表頭要素集合間類似度の閾値のほうを高く設定した場合は、比較的、表側部の相違(表側要素の要素数の相違等)を許容するようになり、一方、表側要素集合間類似度の閾値のほうを高く設定した場合は、比較的、表頭部の相違(表頭要素の要素数の相違等)を許容するようになる。
【0118】
また、集合間類似度算出手段25による判断処理を行うか否かは、設定情報として設定情報記憶手段47に記憶されている。集合間類似度算出手段25による判断処理を省略するという選択設定にする場合は、その代用として統合対象検出手段23による統合対象の検出処理を行う必要があるので、統合対象検出手段23による統合対象検出が必要であるという選択設定にする。なお、統合対象検出手段23および集合間類似度算出手段25の双方の処理を行う選択設定(本発明の第2の構成)にすることもでき、その場合には、統合対象検出手段23による統合対象の検出処理を行った後に、検出された統合対象について要素間類似度算出手段24による判断処理を行い、その後、さらに集合間類似度算出手段25による統合可否の判断処理を行うことになる。
【0119】
集合間類似度算出手段25の類似度算出用のアルゴリズムとしては、例えば、ジャッカード係数(Jaccard係数)を採用することができる。ジャッカード係数は、2つの集合に含まれている要素のうち共通要素が占める割合を表し、係数の値が大きいほど2つの集合の類似度は高い。つまり、共通要素が多いほど、集合の類似度は高い。本実施形態では、一例として、ジャッカード係数をデフォルトで設定する。
【0120】
具体的には、ジャッカード係数は、図12の例では、表頭要素集合間類似度算出手段25Aによる表頭要素集合間類似度については、表頭部AX,BXの共通要素BXm(AXn)の個数N5を、表頭部AX,BXの全体の要素数(N1+N3-N5:共通要素AXn,BXmは2重に数えるのではなく、同一の要素とみなして数える。)で除した値である。また、表側要素集合間類似度算出手段25Bによる表側要素集合間類似度については、表側部AY,BYの共通要素BYk(AYh)の個数N6を、表側部AY,BYの全体の要素数(N2+N4-N6:共通要素AYh,BYkは2重に数えるのではなく、同一の要素とみなして数える。)で除した値である。
【0121】
但し、集合間類似度算出手段25の類似度算出用のアルゴリズムは、上記のジャッカード係数による方法に限らず、目的を達成することができれば、他の方法でもよい。例えば、ダイス係数(Dice係数)やシンプソン係数(Simpson係数)等を採用してもよい。
【0122】
(統合手段26の構成:図9図10図11図12
統合手段26は、集合間類似度算出手段25により統合可能と判断された異なる時点(時点Ta,Tb)の集計表A,B、または、集合間類似度算出手段25による統合可否の判断を省略する設定とされている場合において統合対象検出手段23により統合対象として検出された異なる時点(時点Ta,Tb)の集計表A,Bのそれぞれの集計データ(集計データ部(図16参照)を構成する各データ)のうち、表頭要素AX,BXおよび表側要素AY,BYの双方について異なる時点(時点Ta,Tb)の集計表A,B間で意味内容が対応している場合の当該表頭要素AXn,BXmおよび当該表側要素AYh,BYkについての集計データどうし(図9のA(h、n),B(k,m))を、縦方向(図10参照)または横方向(図11参照)に隣接配置することにより統合集計表を作成する統合処理を行い、作成した統合集計表を、自動付与または手動付与した集計表識別情報(集計表ID)と関連付けて統合集計表記憶手段45に記憶させる処理を実行するものである。縦方向にするか、横方向にするかの選択情報は、設定情報として設定情報記憶手段47に記憶されている。
【0123】
より詳細には、図12に示すように、要素間類似度算出手段24の決定により、統合する集計表A,Bの表頭要素AXi(i=1~N1),BXf(f=1~N3)および表側要素AYj(j=1~N2),BYg(g=1~N4)は、それぞれ共通要素と非共通要素とに分けられているので、統合手段26は、この図12に示す状況を利用して統合処理を行う。
【0124】
また、図9に示すように、図中の上側の集計表Aにおいて、共通要素としての表側要素AYhの行と、共通要素としての表頭要素AXnの列とが交差するセルの集計データは、A(h,n)とする。一方、図中の下側の集計表Bにおいて、共通要素としての表側要素BYkの行と、共通要素としての表頭要素BXmの列とが交差するセルの集計データは、B(k,m)とする。このとき、集計表Aの集計データA(h,n)と、集計表Bの集計データB(k,m)とは、隣接配置する集計データである。
【0125】
さらに、図9中の上側の集計表Aにおいて、共通要素としての表側要素AYhの行と、非共通要素としての表頭要素AXuの列とが交差するセルの集計データは、A(h,u)とする。非共通要素としての表側要素AYrの行と、共通要素としての表頭要素AXnの列とが交差するセルの集計データは、A(r,n)とする。非共通要素としての表側要素AYrの行と、非共通要素としての表頭要素AXuの列とが交差するセルの集計データは、A(r,u)とする。
【0126】
同様に、図9中の下側の集計表Bにおいて、共通要素としての表側要素BYkの行と、非共通要素としての表頭要素BXvの列とが交差するセルの集計データは、B(k,v)とする。非共通要素としての表側要素BYsの行と、共通要素としての表頭要素BXmの列とが交差するセルの集計データは、B(s,m)とする。非共通要素としての表側要素BYsの行と、非共通要素としての表頭要素BXvの列とが交差するセルの集計データは、B(s,v)とする。
【0127】
なお、図9中の上側の集計表Aの表頭部AXにおいて、共通要素としての表頭要素AXnと、非共通要素としての表頭要素AXuとの並び順は、これに限らず、これらのAXn,AXuは、共通要素、非表通要素の各々としての表頭要素の代表要素(該当する表頭要素のうちの任意の1つの表頭要素)であるから、両者が混在していてもよい。また、図9中の下側の集計表Bの表頭部BXにおいて、共通要素としての表頭要素BXmと、非共通要素としての表頭要素BXvとの並び順も、これに限らず、代表要素であるから、両者が混在していてもよい。従って、図10図11の統合集計表Mの表頭部MXにおけるBXm(AXn),AXu,BXvの並び順も、これに限らず、3者が混在していてもよい。
【0128】
同様に、図9中の上側の集計表Aの表側部AYにおいて、共通要素としての表側要素AYhと、非共通要素としての表側要素AYrとの並び順は、これに限らず、これらのAYh,AYrは、共通要素、非表通要素の各々としての表側要素の代表要素(該当する表側要素のうちの任意の1つの表側要素)であるから、両者が混在していてもよい。また、図9中の下側の集計表Bの表側部BYにおいて、共通要素としての表側要素BYkと、非共通要素としての表側要素BYsとの並び順は、これに限らず、代表要素であるから、両者が混在していてもよい。従って、図10図11の統合集計表Mの表側部MYにおけるBYk(AYh),AYr,BYsの並び順も、これに限らず、3者が混在していてもよい。
【0129】
先ず、統合手段26は、統合集計表Mの表頭部MXの表頭タイトルMXTについては、縦長統合処理(図10参照)または横長統合処理(図11参照)のいずれの場合でも、集計表Aの表頭部AXの表頭タイトルAXT、または集計表Bの表頭部BXの表頭タイトルBXTのうちの作成基準時点(デフォルトでは、後の時点Tb)とされているほうの文字列を採用するが、並列記載してもよい。また、表側部MYの表側タイトルMYTについても、集計表Aの表側部AYの表側タイトルAYT、または集計表Bの表側部BYの表側タイトルBYTのうちの作成基準時点(デフォルトでは、後の時点Tb)とされているほうの文字列を採用するが、並列記載してもよい。なお、表頭タイトルMXTや表側タイトルMYTは、無くてもよい。
【0130】
次に、統合手段26は、集計表A,B間で意味内容が対応している共通要素としての表頭要素AXn,BXmの表記については、縦長統合処理(図10参照)または横長統合処理(図11参照)のいずれの場合でも、作成基準時点(デフォルトでは、後の時点Tb)とされているほうの文字列を採用するが、並列記載してもよい。一方、相手側の表頭部の中に対応する表頭要素がない非共通要素としての表頭要素AXu(相手の表頭部BXの中に、対応する表頭要素がない。)および表頭要素BXv(相手の表頭部AXの中に、対応する表頭要素がない。)の表記については、相手側の文字列がないので、自分の文字列AXu,BXvをそのまま用いる。なお、BXm(AXn),AXu,BXvの3者の並び順は、既に述べた通り、この順に限らないが、統合集計表Mの表頭部MXにおける各表頭要素の並び順は、作成基準時点(デフォルトでは、後の時点Tb)の並び順に合わせる。表頭要素間類似度算出手段24Aにより、表頭要素の並び順に関係なく総当たりで表頭要素間類似度を算出し、対応する表頭要素を探すため(図12参照)、統合後の並び順を決める基準が必要だからである。
【0131】
また、統合手段26は、集計表A,B間で意味内容が対応している共通要素としての表側要素AYh,BYkの表記については、縦長統合処理(図10参照)または横長統合処理(図11参照)のいずれの場合でも、作成基準時点(デフォルトでは、後の時点Tb)とされているほうの文字列を採用するが、並列記載してもよい。一方、相手側の表側部の中に対応する表側要素がない非共通要素としての表側要素AYr(相手の表側部BYの中に、対応する表側要素がない。)および表側要素BYs(相手の表側部AYの中に、対応する表側要素がない。)の表記については、相手側の文字列がないので、自分の文字列AYr,BYsをそのまま用いる。なお、BYk(AYh),AYr,BYsの3者の並び順は、既に述べた通り、この順に限らないが、統合集計表Mの表側部MYにおける各表側要素の並び順は、作成基準時点(デフォルトでは、後の時点Tb)の並び順に合わせる。表側要素間類似度算出手段24Bにより、表側要素の並び順に関係なく総当たりで表側要素間類似度を算出し、対応する表側要素を探すため(図12参照)、統合後の並び順を決める基準が必要だからである。
【0132】
さらに、統合手段26は、統合集計表Mの集計データ部を構成する各集計データについては、次のように配置する。図9で定義した集計データを用いて説明する。表頭要素および表側要素の双方が共通要素になっている時点Taの集計データA(h,n)および時点Tbの集計データB(k,m)については、図10に示す縦長統合型の統合処理では、縦方向に隣接配置し、図11に示す横長統合型の統合処理では、横方向に隣接配置する。
【0133】
より詳細には、図10に示す縦長統合型の統合処理では、異なる時点(時点Ta,Tb)の対応する集計データ(比較したい2時点の集計データ)を縦方向に並べるので、作成される統合集計表Mには、時点Taの行と、時点Tbの行とが縦方向に並べて設けられる。なお、時点Taの行と、その後の時点Tbの行とは、どちらを上の行にしてもよい。従って、図10の統合集計表Mにおける各集計データの配置を縦方向に見ていく。
【0134】
先ず、共通要素としての表頭要素BXm(AXn)の列を上から順番に縦方向に見ていくと、共通要素としての表側要素BYk(AYh)の行として、時点Taの行および時点Tbの行が設けられ、これらの2行と交差する2つのセルがある。そして、表頭要素BXm(AXn)、表側要素BYk(AYh)のいずれも共通要素であるため、その縦方向に並んだ2つのセルに集計データA(h,n),B(k,m)が配置される。
【0135】
その下側には、非共通要素としての表側要素AYrの行として、時点Taの行が設けられるが、表側要素AYrは、非共通要素であるため、時点Tbの行は設けられないことから、時点Taの行と交差する1つのセルがあり、そこに集計データA(r,n)が配置される。
【0136】
さらにその下側には、非共通要素としての表側要素BYsの行として、時点Tbの行が設けられるが、表側要素BYsは非共通要素であるため、時点Taの行は設けられないことから、時点Tbの行と交差する1つのセルがあり、そこに集計データB(s,m)が配置される。
【0137】
次に、非共通要素としての表頭要素AXuの列を上から順番に縦方向に見ていくと、共通要素としての表側要素BYk(AYh)についての時点Ta,Tbの2行と交差する2つのセルがあり、そこに時点Taの集計データA(h,u)が配置されるが、表頭要素AXuは非共通要素であるから、時点Tbの集計データはないので、空欄とされる。
【0138】
その下側には、非共通要素としての表側要素AYrについての時点Taの行と交差する1つのセルがあり、そこに集計データA(r,u)が配置される。表頭要素AXu、表側要素AYrのいずれも非共通要素であるが、いずれも同じ時点Taの要素であるため、時点Taの集計データは存在するからである。
【0139】
さらにその下側には、非共通要素としての表側要素BYsについての時点Tbの行と交差する1つのセルがあるが、そこに配置される集計データはなく、空欄とされる。表頭要素AXu、表側要素BYsのいずれも非共通要素であり、しかも同じ時点の要素でもないからである。
【0140】
続いて、非共通要素としての表頭要素BXvの列を上から順番に縦方向に見ていくと、共通要素としての表側要素BYk(AYh)についての時点Ta,Tbの2行と交差する2つのセルがあり、そこに時点Tbの集計データB(k,v)が配置されるが、表頭要素BXvは非共通要素であるから、時点Taの集計データはないので、空欄とされる。
【0141】
その下側には、非共通要素としての表側要素AYrについての時点Taの行と交差する1つのセルがあるが、そこに配置される集計データはなく、空欄とされる。表頭要素BXv、表側要素AYrのいずれも非共通要素であり、しかも同じ時点の要素でもないからである。
【0142】
さらにその下側には、非共通要素としての表側要素BYsについての時点Tbの行と交差する1つのセルがあり、そこに集計データB(s,v)が配置される。表頭要素BXv、表側要素BYsのいずれも非共通要素であるが、いずれも同じ時点Tbの要素であるため、時点Tbの集計データは存在するからである。
【0143】
一方、図11に示す横長統合型の統合処理では、異なる時点(時点Ta,Tb)の対応する集計データ(比較したい2時点の集計データ)を横方向に並べるので、作成される統合集計表Mには、時点Taの列と、時点Tbの列とが横方向に並べて設けられる。なお、時点Taの列と、その後の時点Tbの列とは、どちらを左の行にしてもよい。従って、図11の統合集計表Mにおける各集計データの配置を横方向に見ていく。
【0144】
先ず、共通要素としての表側要素BYk(AYh)の列を左から順番に横方向に見ていくと、共通要素としての表頭要素BXm(AXn)の列として、時点Taの列および時点Tbの列が設けられ、これらの2列と交差する2つのセルがある。そして、表側要素BYk(AYh)、表頭要素BXm(AXn)のいずれも共通要素であるため、その横方向に並んだ2つのセルに集計データA(h,n),B(k,m)が配置される。
【0145】
その右側には、非共通要素としての表頭要素AXuの列として、時点Taの列が設けられるが、表頭要素AXuは、非共通要素であるため、時点Tbの列は設けられないことから、時点Taの列と交差する1つのセルがあり、そこに集計データA(h,u)が配置される。
【0146】
さらにその右側には、非共通要素としての表頭要素BXvの列として、時点Tbの列が設けられるが、表頭要素BXvは非共通要素であるため、時点Taの列は設けられないことから、時点Tbの列と交差する1つのセルがあり、そこに集計データB(k,v)が配置される。
【0147】
次に、非共通要素としての表側要素AYrの行を左から順番に横方向に見ていくと、共通要素としての表頭要素BXm(AXn)についての時点Ta,Tbの2列と交差する2つのセルがあり、そこに時点Taの集計データA(r,n)が配置されるが、表側要素AYrは非共通要素であるから、時点Tbの集計データはないので、空欄とされる。
【0148】
その右側には、非共通要素としての表頭要素AXuについての時点Taの列と交差する1つのセルがあり、そこに集計データA(r,u)が配置される。表頭要素AXu、表側要素AYrのいずれも非共通要素であるが、いずれも同じ時点Taの要素であるため、時点Taの集計データは存在するからである。
【0149】
さらにその右側には、非共通要素としての表頭要素BXvについての時点Tbの列と交差する1つのセルがあるが、そこに配置される集計データはなく、空欄とされる。表側要素AYr、表頭要素BXvのいずれも非共通要素であり、しかも同じ時点の要素でもないからである。
【0150】
続いて、非共通要素としての表側要素BYsの行を左から順番に横方向に見ていくと、共通要素としての表頭要素BXm(AXn)についての時点Ta,Tbの2列と交差する2つのセルがあり、そこに時点Tbの集計データB(s,m)が配置されるが、表側要素BYsは非共通要素であるから、時点Taの集計データはないので、空欄とされる。
【0151】
その右側には、非共通要素としての表頭要素AXuについての時点Taの列と交差する1つのセルがあるが、そこに配置される集計データはなく、空欄とされる。表側要素BYs、表頭要素AXuのいずれも非共通要素であり、しかも同じ時点の要素でもないからである。
【0152】
さらにその右側には、非共通要素としての表頭要素BXvについての時点Tbの列と交差する1つのセルがあり、そこに集計データB(s,v)が配置される。表頭要素BXv、表側要素BYsのいずれも非共通要素であるが、いずれも同じ時点Tbの要素であるため、時点Tbの集計データは存在するからである。
【0153】
また、統合手段26は、統合集計表記憶手段45に記憶されている各統合集計表のデータを用いて、表計算ソフト(例えば、マイクロソフト社のエクセル(登録商標)等)のファイルである統合集計表ファイルを作成し、統合集計表ファイル記憶手段46に記憶させる処理も実行する。
【0154】
さらに、統合手段26は、統合する集計表A,Bの表頭要素AX,BXまたは表側要素AY,BYの中に、包含関係記憶手段48に記憶されている互いに包含関係にある上位および下位の文字列の双方が存在するか否かを判断し、双方が存在する場合には、これらの上位および下位の文字列を、統合集計表Mの表頭要素として横方向に隣接配置するか、または表側要素として縦方向に隣接配置する処理を行うようにしてもよい。
【0155】
例えば、図8に示すように、包含関係記憶手段48に、上位の文字列として「理工学部」、下位の文字列として「理学部」および「工学部」が登録されていた場合において、時点Taの表頭要素の中に、「理学部」および「工学部」があり、時点Tbの表頭要素の中に、「理工学部」があるときには、「理学部」および「工学部」と、「理工学部」とを、統合集計表Mの表頭要素として横方向に隣接配置する。また、時点Taの表側要素の中に、「理学部」および「工学部」があり、時点Tbの表側要素の中に、「理工学部」があるときには、「理学部」および「工学部」と、「理工学部」とを、統合集計表Mの表側要素として縦方向に隣接配置する。時間の経過により、「理学部」および「工学部」が統合されて「理工学部」になったと考えられるので、見やすいように近くに配置する趣旨である。なお、この例の時点Taと時間Tbとの関係は、逆転していてもよく、その場合は、時間の経過により、「理工学部」が分かれて「理学部」および「工学部」になったと考えられる。
【0156】
(分割手段27の構成:図5図6図7図15
分割手段27は、集計表ファイルに、異なる時点(時点Ta,Tb)のそれぞれについて複数の集計表からなる集計表群が書き込まれ、かつ、これらの集計表群のそれぞれの目次情報が書き込まれている場合に、それらの目次情報を用いて、集計表群の中に合体集計表(分割可能な集計表)が含まれているか否かを判断し、含まれている場合に、この合体集計表を単位集計表(それ以上、分割することができない集計表)に分割する処理を実行するものである。
【0157】
この分割手段27による分割処理は、設定情報として設定情報記憶手段47に記憶されている分割の要否情報に従って、分割が必要であるという設定が行われている場合に実行される。そして、分割が必要という設定の場合には、集計表群の中に含まれる合体集計表は分割手段27により分割されて単位集計表の状態になり、その状態で、統合対象検出手段23による統合対象の検出が行われ、あるいは集合間類似度算出手段25による統合可否の判断が行われる。一方、分割は不要という設定の場合には、集計表群の中に含まれる合体集計表は分割されず、そのままの状態で、統合対象検出手段23による統合対象の検出が行われ、あるいは集合間類似度算出手段25による統合可否の判断が行われる。なお、合体集計表は分割しなくても、相手側の集計表群の中に、同様な構成の合体集計表が含まれていれば、それらの合体集計表どうしが、統合対象検出手段23により検出される統合対象となり、あるいは、集合間類似度算出手段25により統合可能と判断されることになる。
【0158】
本実施形態では、図5に示すように、時点Taの集計表ファイルには、時点Taの複数の集計表からなる集計表群が書き込まれ、時点Tbの集計表ファイルにも、時点Tbの複数の集計表からなる集計表群が書き込まれている。また、図7に示すように、時点Ta,Tbの各集計表ファイル内には、INDEXシートが設けられ、それらのINDEXシートには、時点Ta,Tbの集計表群の目次情報が書き込まれている。
【0159】
図7において、時点Ta,Tbの各目次情報には、時点Ta,Tbのそれぞれの集計表群を構成する各集計表について、表頭部を構成する表頭タイトルと、表側部を構成する表側タイトルと、集計表識別情報([N0001]等の集計表ID)とが対応付けられて記載されている。そして、本実施形態では、INDEXシート上の目次情報と、集計表群を構成する各集計表とはリンクされていて、[N0001]等の集計表IDの部分をクリックすると、その集計表IDに対応付けられた集計表(INDEXシートとは別のシートに書き込まれた集計表群のうちの該当する集計表)が画面表示されるようになっている。
【0160】
図6に示すように、集計表群を構成する各集計表の中には、分割可能な合体集計表が含まれている。図6の例では、集計表ID=[N0001]の合体集計表は、表頭タイトルが「Q1 はじめに、あなたについて教えてください 出身高校の所在地はどちらですか」となっていて、これは、ローデータ(図16参照)における1つの調査項目に該当する。一方、表側タイトルとして、「Q4 合格学科」および「Q2 あなた自身の、進路選びについて教えてください 偏差値の高さ」があり、これらは、ローデータ(図16参照)における2つの調査項目に該当する。従って、図6に示す合体集計表は、表側タイトルが2つ分あるので、2つの単位集計表に分割することができる。
【0161】
そして、図6の下部には、この合体集計表に対応する目次情報が示されている。目次情報のNo.1の行は、表頭タイトルが調査項目Q1、表側タイトルが調査項目Q4、集計表ID=[N0001]となっている。また、No.2の行は、表頭タイトルが調査項目Q1、表側タイトルが調査項目Q2、集計表ID=[N0001]となっている。そして、いずれの行の集計表ID=[N0001]の部分をクリックしても、同じ合体集計表が画面表示されるようにリンクされている。従って、No.1、No.2の各行は、合体集計表を分割した後の単位集計表の内容に相当している。
【0162】
また、図7の例では、時点Taの集計表ファイルのINDEXシートの目次情報の中に、集計表IDが同一の[N0001]となっているNo.1、No.2、No.3の3行があり、これらの3行には、同一の表頭タイトルに対し、異なる表側タイトルが記載されているので、集計表ID=[N0001]の集計表は、3つの単位集計表に分割可能な合体集計表である。また、時点Tbの集計表ファイルのINDEXシートの目次情報の中に、集計表IDが同一の[N0001]となっているNo.1、No.2の2行があり、これらの2行には、同一の表頭タイトルに対し、異なる表側タイトルが記載されているので、集計表ID=[N0001]の集計表は、2つの単位集計表に分割可能な合体集計表である。
【0163】
図15において、分割手段27による処理の流れをフローチャートで示すと、次のようになる。先ず、分割手段27は、設定情報記憶手段47に記憶されている分割の要否情報を取得し、ユーザによる分割の要請があるか否かを判断する(ステップS401)。
【0164】
ここで、分割の要請がある場合には、分割手段27は、集計表ファイル記憶手段41に記憶された時点Ta,Tbの各集計表ファイルの目次情報の中で、同一の集計表識別情報(集計表ID)に対応付けられた状態で、同一の表頭タイトルに複数の表側タイトルが対応付けられているか、または同一の表側タイトルに複数の表頭タイトルが対応付けられているか否かを判断することにより、時点Ta,Tbの集計表群の中に合体集計表が含まれているか否かを判断する(ステップS402)。
【0165】
ここで、合体集計表が含まれていると判断した場合(ステップS403)には、目次情報のうちの合体集計表の部分を、目次情報内で、1つの表頭タイトルおよび1つの表側タイトルに対応付けられた単位集計表に分割する(ステップS404)。目次情報内で分割するというのは、合体集計表のデータ自体を分割するのではなく、目次情報を分割するという意味である。
【0166】
そして、分割手段27は、異なる時点のうちの一方の時点(例えば、時点Taとする。)の集計表群の中に含まれている合体集計表を目次情報内で分割して得られた単位集計表の表頭タイトルおよび表側タイトルの各文字列を連結した連結タイトル文字列を作成する(ステップS405)。図7の例では、時点Taの目次情報内のNo.1の行における表頭タイトルの「出身高校の所在値」という文字列と、表側タイトルの「合格学科」という文字列とを連結した連結タイトル文字列を作成する。No.2、NO.3の行についても、連結タイトル文字列を作成する。
【0167】
また、分割手段27は、他方の時点(時点Tb)の集計表群の中に含まれている合体集計表を目次情報内で分割して得られた単位集計表の表頭タイトルおよび表側タイトルの各文字列を連結した連結タイトル文字列を作成する(ステップS405)。図7の例では、時点Tbの目次情報内のNo.1の行における表頭タイトルの「出身高校の所在値」という文字列と、表側タイトルの「合格学科」という文字列とを連結した連結タイトル文字列を作成する。No.2の行についても、連結タイトル文字列を作成する。また、最初から単位集計表の状態になっている集計表の表頭タイトルおよび表側タイトルの各文字列を連結した連結タイトル文字列も作成する(ステップS405)。つまり、他方の時点(時点Tb)の集計表群の中に、単位集計表が含まれていれば、その単位集計表についての連結タイトル文字列も作成する。
【0168】
続いて、分割手段27は、作成した時点Taの連結タイトル文字列と、時点Tbの連結タイトル文字列とを用いて、目次情報内のタイトルレベルでの単位集計表の類似度を示す目次内タイトル類似度を総当たりで算出し、算出した目次内タイトル類似度と、予め設定した閾値(設定情報として設定情報記憶手段47に記憶されている。)とを比較することにより、他方の時点(時点Tb)の集計表群の中に、目次内タイトル類似度が高い単位集計表があるか否かを判断する処理を実行する(ステップS405)。
【0169】
ここで、分割手段27による目次内タイトル類似度の算出用アルゴリズムとしては、統合対象検出手段23による類似度算出用アルゴリズムと同じアルゴリズムを採用することができるが、異なるアルゴリズムを採用してもよい。従って、例えば、時点Ta,Tbの各連結タイトル文字列を用いて、Doc2Vecにより文章ベクトルを求め、これらの文章ベクトルのコサイン類似度等を、目次内タイトル類似度とする方法等を採用することができる。また、時点Ta,Tbの各連結タイトル文字列を用いて、TF-IDFベクトル等の単語重要度ベクトルを求め、これらの単語重要度ベクトルのコサイン類似度等を、目次内タイトル類似度とする方法等を採用することができる。
【0170】
それから、分割手段27は、目次内タイトル類似度が高い単位集計表がある場合(類似度が、閾値以上または閾値を超えた場合)には、目次情報内での合体集計表から単位集計表への分割に従って、一方の時点(時点Ta)の集計表群の中に含まれている合体集計表のデータを単位集計表のデータに分割する処理を実行する(ステップS406)。そして、以上の処理を、時点Taと時点Tbとを入れ替えた状態でも行い、双方の時点の合体集計表のデータについて、分割する意味がある場合(すなわち、分割して得られる単位集計表に対応する単位集計表が、相手側の集計表群の中にも最初から存在するか、または、相手側にも分割で用意することができる場合)には分割する。
【0171】
(設定手段28の構成)
設定手段28は、入力手段60を操作して統合作業を行うユーザ(作業担当者、作業管理者、システム担当者を含む)による選択入力、打鍵入力、修正操作等の操作入力を受け付け、受け付けた入力データを、設定情報記憶手段47に記憶させる処理を実行するものである。
【0172】
また、設定手段28は、入力手段60を操作して初期値(ユーザ選択が可能な値や選択肢のデフォルト状態)の設定や、その後の修正値の設定を行うシステム提供者(本システムの開発者、販売担当者、メンテナンス担当者を含む)による入力を受け付け、受け付けた入力データを、設定情報記憶手段47に記憶させる処理も実行する。
【0173】
(包含関係登録手段29の構成)
包含関係登録手段29は、互いに包含関係にある上位および下位の文字列であって表頭要素または表側要素になり得るものについて、ユーザによる入力手段60からの入力を受け付け、受け付けた上位および下位の文字列を関連付けて記憶するものである。
【0174】
(集計表ファイル記憶手段41の構成)
集計表ファイル記憶手段41は、複数の集計表ファイルを記憶するものである。この集計表ファイル記憶手段41は、HDDやSSD等の不揮発性メモリにより構成される。本実施形態では、コンピュータ内のフォルダにより形成された保存領域であり、異なる時点(例えば、時点Ta,Tb)の集計表ファイルを記憶している。なお、例えばUSBメモリやDVD-RAM等の外部の記録媒体により形成された保存領域でもよい。
【0175】
(統合対象事前指定情報記憶手段42の構成)
統合対象事前指定情報記憶手段42は、図5に示すように、統合対象事前指定手段21により受け付けたユーザによる統合対象の事前指定の情報を記憶するものである。この統合対象事前指定情報記憶手段42は、HDDやSSD等の不揮発性メモリにより構成される。統合対象の事前指定の情報については、統合対象事前指定手段21の説明で既に詳述しているので、ここでは詳しい説明を省略する。
【0176】
(抽出結果記憶手段43の構成)
抽出結果記憶手段43は、抽出手段22により抽出した集計表を構成する表頭部、表側部、集計データ部のそれぞれの位置情報(行番号、列番号)や、ユーザの修正操作で修正されたそれらの各部の位置情報を記憶するものである。この抽出結果記憶手段43は、主メモリでよいが、不揮発性メモリとしてもよい。
【0177】
(要素間類似度算出結果記憶手段44の構成)
要素間類似度算出結果記憶手段44は、要素間類似度算出手段24の表頭要素間類似度算出手段24Aおよび表側要素間類似度算出手段24Bによる決定結果を記憶するものである。この要素間類似度算出結果記憶手段44は、主メモリでよいが、不揮発性メモリとしてもよい。
【0178】
(統合集計表記憶手段45の構成)
統合集計表記憶手段45は、統合手段26による統合処理で作成された各統合集計表のデータを、各統合集計表に自動付与または手動付与した集計表識別情報(集計表ID)と関連付けて記憶するものである。この統合集計表記憶手段45は、主メモリでよいが、不揮発性メモリとしてもよい。
【0179】
(統合集計表ファイル記憶手段46の構成)
統合集計表ファイル記憶手段46は、統合集計表記憶手段45に記憶されている各統合集計表のデータをまとめて作成した統合集計表ファイルを記憶するものである。この統合集計表ファイル記憶手段46は、集計表ファイル記憶手段41と共通の保存領域(例えば、共通のフォルダ)としてもよい。統合集計表ファイルのファイル識別情報(ファイル名)は、自動付与してもよく、手動付与してもよい。
【0180】
(設定情報記憶手段47の構成)
設定情報記憶手段47は、統合作業を行うユーザ(作業担当者、作業管理者、システム担当者を含む)の選択入力、打鍵入力、修正操作等の操作入力による設定情報や、システム提供者(本システムの開発者、販売担当者、メンテナンス担当者を含む)が予め用意しておく設定情報を記憶するものである。この設定情報記憶手段47は、HDDやSSD等の不揮発性メモリにより構成される。設定情報には、設定手段28による設定情報と、抽出手段22による修正後情報とが含まれる。集計表ファイルのタイプ毎に定まる設定情報は、集計表ファイルのタイプ識別情報(例えば、α社、β社等の会社名、開発者名、バージョン情報)と関連付けて記憶され、集計表ファイル毎に定まる設定情報は、ファイル識別情報(例えば、ファイル名)と関連付けて記憶され、集計表毎に定まる設定情報は、集計表識別情報(集計表ID)と関連付けて、または、ファイル識別情報および集計表識別情報と関連付けて記憶される。
【0181】
具体的には、設定情報としては、例えば、使用する集計表ファイルのタイプの選択情報と、集計表ファイルのタイプ毎に用意されたデータ抽出用のアルゴリズムを実行するプログラム内に直接に記述されずに外部に出された読込用データと、集計表を構成する表頭部、表側部、集計データ部のそれぞれの位置情報(行番号、列番号)についての修正後情報とがあるが、これらの設定情報については、抽出手段22の説明で既に詳述しているので、ここでは詳しい説明を省略する。
【0182】
また、設定情報には、統合対象検出手段23による自動検出処理の要否情報と、統合対象検出を選択した場合の統合対象検出方法(使用する文字列、使用するアルゴリズム)の選択情報と、統合対象検出を選択した場合の表頭部・表側部類似度の閾値、または、表頭部類似度および表側部類似度の各閾値と、統合対象検出を選択した場合の集合間類似度による統合可否判断を行うか否かの選択情報とがある。
【0183】
さらに、設定情報には、要素間類似度算出手段24による要素間類似度算出方法(使用するアルゴリズム)の選択情報と、表頭要素間類似度算出手段24Aにより使用される表頭要素間類似度の閾値と、表側要素間類似度算出手段24Bにより使用される表側要素間類似度の閾値とがある。
【0184】
また、設定情報には、集合間類似度算出手段25による統合可否判断の要否情報と、集合間類似度算出手段25による集合間類似度算出方法(使用するアルゴリズム)の選択情報と、表頭要素集合間類似度算出手段25Aにより使用される表頭要素集合間類似度の閾値と、表側要素集合間類似度算出手段25Bにより使用される表側要素集合間類似度の閾値とがある。
【0185】
また、設定情報には、統合手段26により統合集計表を作成する際の作成基準時点(デフォルト=時点Tb)の選択情報(新旧いずれの時点にするかや年月日等)と、統合手段26による統合処理を縦長統合型(図10参照)とするか、横長統合型(図11参照)とするかの選択情報とがある。
【0186】
さらに、設定情報には、分割手段27による合体集計表の分割の要否情報(集計表ファイルのタイプ別、集計表ファイル別、集計表別の設定が可能)と、分割が必要であることを選択した場合の目次内タイトル類似度算出方法(使用するアルゴリズム)の選択情報と、目次内タイトル類似度の閾値とがある。
【0187】
(包含関係記憶手段48の構成)
包含関係記憶手段48は、表頭要素または表側要素となり得る文字列であって、互いに包含関係にある上位および下位の文字列を対応付けて記憶するものである。この包含関係記憶手段48は、HDDやSSD等の不揮発性メモリにより構成される。
【0188】
(統合処理の全体の流れ)
このような本実施形態においては、以下のようにして集計表統合システム10により異なる時点の集計表の統合が行われる。
【0189】
図13において、先ず、統合作業を行うユーザ(作業担当者、作業管理者、システム担当者を含む)が、入力手段60を操作し、必要な設定情報(各種の選択情報や閾値等)を入力すると、設定手段28により、これらの入力が受け付けられ、設定情報記憶手段47に記憶される(ステップS1)。なお、その前に、システム提供者(本システムの開発者、販売担当者、メンテナンス担当者を含む)が、初期値の設定を行っている。
【0190】
続いて、統合対象事前指定手段21により、集計表ファイル記憶手段41に記憶された集計表ファイルの内容を表示手段70に画面表示し、ユーザによる統合対象の事前指定を受け付け(図5参照)、受け付けた事前指定の情報(統合対象とする複数組(複数対)の集計表の指定情報)を、統合対象事前指定情報記憶手段42に記憶させる(ステップS2)。なお、ユーザは、統合対象検出手段23による統合対象の自動検出を行う場合や、1対ずつのリアルタイム指定を行う場合は、この事前指定の作業を省略することができる。
【0191】
それから、抽出手段22による処理を実行する(ステップS3)。抽出手段22は、集計表ファイル記憶手段41に記憶された集計表ファイルを読み込み、設定情報記憶手段47に記憶された設定情報を用いて、集計表ファイル内の各集計表の表頭部、表側部、集計データ部の抽出処理を実行する。この抽出結果は、表示手段70に画面表示されるとともに、集計表ファイルのファイル識別情報(ファイル名)および各集計表の集計表IDと関連付けて抽出結果記憶手段43に記憶される。また、画面表示を見たユーザによる修正入力(表頭部や表側部等の位置ずれの修正)を受け付け、修正後の情報を抽出結果記憶手段43に上書き保存するとともに、事後のメンテナンス作業に役立てるために、設定情報記憶手段47にも記憶させておく。
【0192】
さらに、分割手段27による処理を実行する(ステップS4、既に詳述した図15のステップS401~S406参照)。分割手段27は、設定情報記憶手段47に記憶された集計表の分割の要否情報を読み込み、分割の要請がある場合には、合体集計表を自動検出し、合体集計表があった場合には、対になる単位集計表が相手側の集計表群の中に最初から存在するか、または相手側の合体集計表の分割により相手側に用意できるかを判断しながら合体集計表の分割処理を実行する。合体集計表を分割して得られた単位集計表のデータ(表頭部、表側部、集計データ部の各データ)は、集計表ファイルのファイル識別情報(ファイル名)および自動付与若しくは手動付与した当該単位集計表の集計表IDと関連付けて抽出結果記憶手段43に記憶される。
【0193】
続いて、統合対象事前指定情報記憶手段42に統合対象の事前指定の情報が記憶されている場合には、それを読み込む(ステップS5)。
【0194】
それから、統合対象事前指定情報の読込を行ったか否かを判断し(ステップS6)、行っていた場合には、その統合対象事前指定情報に従って、抽出結果記憶手段43から、1対ずつ順番に、抽出済の2時点の集計表のそれぞれの表頭部、表側部の各データを取得する(ステップS7)。
【0195】
また、上記のステップS6で、統合対象事前指定情報の読込を行っていない場合には、手動指定するか否かを判断し(ステップS8)、手動指定する場合には、統合対象とする1対の集計表のリアルタイム指定のためのユーザ入力を受け付け、抽出結果記憶手段43から、指定された2時点の集計表のそれぞれの表頭部、表側部の各データを取得する(ステップS9)。
【0196】
一方、上記のステップS8で、手動指定しない場合には、統合対象検出手段23により、抽出済の各集計表のそれぞれの表頭部、表側部の各データを取得し、集計表の類似度(表頭部・表側部類似度、または、表頭部類似度および表側部類似度)を算出し、統合対象とする1対の集計表を自動決定する(ステップS10、図4参照)。
【0197】
図14に示すように、その後、要素間類似度算出手段24による処理を実行する(ステップS11)。要素間類似度算出手段24は、処理対象とされている1対の集計表について、表頭要素間の類似度を算出し、対応する表頭要素を決定するとともに、表側要素間の類似度を算出し、対応する表側要素を決定し、それらの決定結果を、要素間類似度算出結果記憶手段44に記憶させる(図12参照)。
【0198】
続いて、統合対象とされている1対の集計表は、ユーザの指定であるか否かを判断し(ステップS12)、ユーザの指定であった場合(すなわち、ユーザが事前指定またはリアルタイム指定を行った場合)には、統合対象検出手段23による統合対象の自動検出を行っていない場合であるから、集合間類似度算出手段25による処理を実行する(ステップS13)。集合間類似度算出手段25は、要素間類似度算出結果記憶手段44に記憶されている表頭要素間および表側要素間の各類似度の算出結果を用いて、表頭要素集合間および表側要素集合間の各類似度を算出し、統合可否の判断を行う(図12参照)。
【0199】
それから、集合間類似度算出手段25により統合可能と判断されたか否かを判断し(ステップS14)、統合可能な場合は、統合手段26による統合処理を行い(図9図10図11参照)、統合集計表のデータを作成し、統合集計表記憶手段45に記憶させる(ステップS15)。一方、統合可能でない場合は、統合手段26による処理は行わない。
【0200】
また、前述したステップS12で、ユーザの指定でなかった場合は、統合対象検出手段23による統合対象の自動検出処理を行った場合であるから、設定情報記憶手段47に記憶されている設定情報を用いて、さらに集合間類似度による統合可否判断を行うか否かを判断し(ステップS16)、統合可否判断を行う場合は、前述したステップS13の集合間類似度算出手段25による処理に進む。一方、統合可否判断を行わない場合は、集合間類似度算出手段25による処理を行うことなく、前述したステップS15の統合手段26による処理に進む。
【0201】
その後、統合対象が残っているか否かを判断し(ステップS17)、残っている場合には、前述した図13のステップS6の処理に戻り、残っていない場合には、統合手段26により、統合集計表記憶手段45に記憶されている各統合集計表のデータを用いて、統合集計表ファイルを作成し、統合集計表ファイル記憶手段46に記憶させ(ステップS18)、一連の処理を終了する。
【0202】
(本実施形態の効果)
このような本実施形態によれば、次のような効果がある。すなわち、集計表統合システム10は、要素間類似度算出手段24により、表頭要素間および表側要素間の類似度を算出し、意味内容が対応している表頭要素や表側要素を決定し、その後、集合間類似度算出手段25により、表頭要素集合間および表側要素集合間の類似度を算出し、異なる時点(つまり、複数の時点)の集計表の統合の可否を判断し、統合可能と判断された場合には、統合手段26により、統合集計表を作成することができる。
【0203】
このため、統合作業を行う者は、表頭要素や表側要素の同一性を判断したり、集計表の統合の可否を判断する必要がなくなるので、時間や手間をかけることなく、容易に統合集計表を作成することができる。また、事前に適切な閾値を設定しておけば、人の判断を介在させずに、統合処理を実行できるため、作業者の知識や経験によらずに、どのような作業者であっても、均質な統合集計表を作成することができる。
【0204】
また、集計表統合システム10は、統合対象検出手段23を備えているので、異なる時点のそれぞれについて複数存在する集計表(集計表群)の中から、統合対象とする異なる時点の集計表を自動検出することができる。このため、ユーザは、統合対象を事前指定したり、リアルタイム指定する必要がなくなり、手間や時間をかけることなく、容易に統合作業を行うことができる。
【0205】
さらに、統合対象検出手段23により統合対象の自動検出処理を行うことで、集合間類似度算出手段25による統合可否の判断処理を代替することもできるので、ユーザは、集合間類似度算出手段25による処理を省略する設定を行うことができる。なお、統合対象検出手段23および集合間類似度算出手段25の双方の処理を行うことにより、統合可否の判断の精度を向上させる設定を行うこともできる。
【0206】
また、集計表統合システム10は、分割手段27を備えているので、各時点の集計表群の中に合体集計表が含まれていて、かつ、それらの合体集計表どうしを統合できないときや、一方の時点の集計表群の中に合体集計表が含まれているが、他方の時点に合体集計表が含まれていないときであっても、合体集計表を単位集計表に分割することにより、集計表の統合を行うことができる。
【0207】
さらに、集計表統合システム10は、包含関係登録手段29および包含関係記憶手段48を備えているので、統合手段26は、例えば、ある時点で、理学部と工学部とが表頭要素または表側要素になっていて、それよりも後の時点の表頭要素または表側要素が、理工学部になっているケースや、その逆のケース等のように、包含関係にある文字列が、異なる時点の集計表の表頭要素または表側要素に存在するときには、それらの要素についての集計データを統合集計表において見易く配置することができる。
【0208】
<変形の形態>
【0209】
なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。
【0210】
例えば、前記実施形態の集計表統合システム10は、図1に示すように、スタンドアロンの構成で説明されていたが、サーバ・クライアントシステムとしてもよい。この際、本体10Aの機能をサーバに持たせ、入力手段60や表示手段70の機能をクライアント端末に持たせてもよく、あるいは、本体10Aの機能を、サーバとクライアント端末とで分散させてもよい。
【0211】
また、前記実施形態では、集合間類似度算出手段25により異なる時点(時点Ta,Tb)の集計表A,Bを統合することができないと一旦判断された場合には、統合集計表Mを作成することができなかったが、その場合に、要素間類似度算出手段24を、異なる時点(時点Ta,Tb)の集計表A,Bのうちの一方の時点の集計表について表頭部と表側部とを縦横入れ替えた状態についても、表頭要素間類似度および表側要素間類似度を算出し、算出した表頭要素間類似度および表側要素間類似度と、予め設定したそれぞれの閾値とを比較することにより、異なる時点の集計表間で意味内容が対応している表頭要素どうしおよび表側要素どうしを決定する構成としてもよい。このようにした場合には、表頭部と表側部とを縦横入れ替えて要素間類似度算出手段24の処理を行った後に、再び、集合間類似度算出手段25により統合可否の判断を行うと、統合可能と判断されるケースがある。統合可能と判断された場合は、当然、統合手段26による統合処理も、表頭部と表側部とを縦横入れ替えた状態で行う。
【産業上の利用可能性】
【0212】
以上のように、本発明の集計表統合システムおよびプログラムは、例えば、集計表作成システムにより異なる時点のローデータからそれぞれ自動作成された異なる時点の集計表のデータがあるときに、それらの集計表のデータを比較することができるように配置して統合する場合等に用いるのに適している。
【符号の説明】
【0213】
10 集計表統合システム
23 統合対象検出手段
24 要素間類似度算出手段
25 集合間類似度算出手段
26 統合手段
27 分割手段
48 包含関係記憶手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16