(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024126797
(43)【公開日】2024-09-20
(54)【発明の名称】情報処理システム及びプログラム
(51)【国際特許分類】
G06F 16/907 20190101AFI20240912BHJP
G06F 3/0486 20130101ALI20240912BHJP
【FI】
G06F16/907
G06F3/0486
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023035437
(22)【出願日】2023-03-08
(71)【出願人】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】高塚 洋平
【テーマコード(参考)】
5B175
5E555
【Fターム(参考)】
5B175FB03
5B175FB04
5B175GA01
5B175JA02
5E555AA08
5E555AA12
5E555BA02
5E555BA71
5E555BB02
5E555BC18
5E555CA02
5E555CB08
5E555DB41
5E555DB58
5E555DC14
5E555DD08
(57)【要約】
【課題】ファイルに付与されている属性値から得られるファイルの統計情報を二元表で表示する場合、ファイルの属性値をユーザが個々に修正する場合に比して、修正に要する手間を軽減する。
【解決手段】情報処理装置10は、文書の第1の属性の属性値を行の見出しとし、第2の属性の属性値を列の見出しとする二元表を生成する二元表生成部12と、表示されている二元表の中からドラッグ&ドロップ操作により選択された移動元の列を修正対象列とし、移動先の列を正解列として受け付ける受付部18と、修正対象列に対応する文書の属性値を、正解列の属性値で更新するデータ更新部20と、を有する。二元表生成部12は、属性値が更新されると、文書の属性を再集計して二元表を生成し、表示を更新させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
プロセッサを備え、
前記プロセッサは、
ファイルに付与されている第1の属性の属性値を各行の見出しとし、ファイルに付与されている第2の属性の属性値を各列の見出しとする二元表中に、前記第1の属性の属性値と前記第2の属性の属性値に対応するファイルの統計情報を表示し、
ユーザにより選択された前記二元表の行又は列及び当該行又は列の移動先を受け付け、
受け付けた前記二元表の行又は列に対応するファイルの統計情報を前記移動先に反映すると共に、受け付けた前記二元表の行又は列を前記二元表から削除し、
受け付けた前記二元表の行又は列に対応するファイルの属性値を前記移動先の属性値に変更する、
ことを特徴とする情報処理システム。
【請求項2】
前記プロセッサは、前記二元表の行又は列に対応するファイルの属性値を変更する前に、変更の是非を前記ユーザに問い合わせる確認画面を表示することを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記プロセッサは、前記二元表の行又は列に対応するファイルの中から属性値を変更するファイルをユーザに選択させることを特徴とする請求項1に記載の情報処理システム。
【請求項4】
前記プロセッサは、前記二元表の行又は列に対応するファイルの内容を表示することを特徴とする請求項2に記載の情報処理システム。
【請求項5】
前記プロセッサは、
前記二元表の中から属性値の修正候補となる行又は列の見出しとなっている属性値との類似度が所定の第1閾値以上となる属性値を見出しとする行又は列を選出し、
選出した行又は列を、前記修正候補となる行又は列の移動先の候補として提示する、
ことを特徴とする請求項1に記載の情報処理システム。
【請求項6】
前記修正候補となる行又は列は、前記ユーザにより選択された前記二元表の行又は列であることを特徴とする請求項5に記載の情報処理システム。
【請求項7】
前記プロセッサは、前記統計情報がファイルの数の場合、前記二元表の行又は列に対応するファイルの数が0であるセルの数が所定の第2閾値以上となる当該行または当該列を、前記属性値の修正候補となる行又は列として選出することを特徴とする請求項5に記載の情報処理システム。
【請求項8】
コンピュータに、
ファイルに付与されている第1の属性の属性値を各行の見出しとし、ファイルに付与されている第2の属性の属性値を各列の見出しとする二元表中に、前記第1の属性の属性値と前記第2の属性の属性値に対応するファイルの統計情報を表示する機能、
ユーザにより選択された前記二元表の行又は列及び当該行又は列の移動先を受け付ける機能、
受け付けた前記二元表の行又は列に対応するファイルの統計情報を前記移動先に反映すると共に、受け付けた前記二元表の行又は列を前記二元表から削除する機能、
受け付けた前記二元表の行又は列に対応するファイルの属性値を前記移動先の属性値に変更する機能、
を実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム及びプログラムに関する。
【背景技術】
【0002】
例えばデータが文書の場合、各文書には、作成日、作成者、文書種別、ページ数等複数の属性が付与される。二元表を利用すると、データベースに蓄積されている多数の文書を2つの観点、すなわち2つの属性から二次元的にまとめることが可能となる。例えば、作成者毎文書種別毎に集計することで、誰(作成者)がどのような用途(文書種別)の文書を作成したのか、またどのような種別の文書を誰が作成しているのかという文書の数を二次元的に把握することが可能となる。
【0003】
ここで、二元表の表示内容を参照したところ、文書の属性値に誤りを発見したとする。例えば、特許文献1には、データの表示領域を、データのある属性に設定されている属性値それぞれに対応させて複数のタイル領域に分割して画面表示し、属性値を変更したいデータを他のタイル領域に移動させることによって当該データの属性値を、移動先のタイル領域に対応する属性値に変更する技術が提案されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
二元表に表示する統計情報の元データとなる複数のファイルの属性値を修正した場合、ファイルの属性値をユーザが個々に修正するのは面倒である。
【0006】
本発明は、ファイルに付与されている属性値から得られるファイルの統計情報を二元表で表示する場合、ファイルの属性値をユーザが個々に修正する場合に比して、修正に要する手間を軽減することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る情報処理システムは、プロセッサを備え、前記プロセッサは、ファイルに付与されている第1の属性の属性値を各行の見出しとし、ファイルに付与されている第2の属性の属性値を各列の見出しとする二元表中に、前記第1の属性の属性値と前記第2の属性の属性値に対応するファイルの統計情報を表示し、ユーザにより選択された前記二元表の行又は列及び当該行又は列の移動先を受け付け、受け付けた前記二元表の行又は列に対応するファイルの統計情報を前記移動先に反映すると共に、受け付けた前記二元表の行又は列を前記二元表から削除し、受け付けた前記二元表の行又は列に対応するファイルの属性値を前記移動先の属性値に変更する、ことを特徴とする。
【0008】
また、前記プロセッサは、前記二元表の行又は列に対応するファイルの属性値を変更する前に、変更の是非を前記ユーザに問い合わせる確認画面を表示することを特徴とする。
【0009】
また、前記プロセッサは、前記二元表の行又は列に対応するファイルの中から属性値を変更するファイルをユーザに選択させることを特徴とする。
【0010】
また、前記プロセッサは、前記二元表の行又は列に対応するファイルの内容を表示することを特徴とする。
【0011】
また、前記プロセッサは、前記二元表の中から属性値の修正候補となる行又は列の見出しとなっている属性値との類似度が所定の第1閾値以上となる属性値を見出しとする行又は列を選出し、選出した行又は列を、前記修正候補となる行又は列の移動先の候補として提示する、ことを特徴とする。
【0012】
また、前記修正候補となる行又は列は、前記ユーザにより選択された前記二元表の行又は列であることを特徴とする。
【0013】
また、前記プロセッサは、前記統計情報がファイルの数の場合、前記二元表の行又は列に対応するファイルの数が0であるセルの数が所定の第2閾値以上となる当該行または当該列を、前記属性値の修正候補となる行又は列として選出することを特徴とする。
【0014】
本発明に係るプログラムは、コンピュータに、ファイルに付与されている第1の属性の属性値を各行の見出しとし、ファイルに付与されている第2の属性の属性値を各列の見出しとする二元表中に、前記第1の属性の属性値と前記第2の属性の属性値に対応するファイルの統計情報を表示する機能、ユーザにより選択された前記二元表の行又は列及び当該行又は列の移動先を受け付ける機能、受け付けた前記二元表の行又は列に対応するファイルの統計情報を前記移動先に反映すると共に、受け付けた前記二元表の行又は列を前記二元表から削除する機能、受け付けた前記二元表の行又は列に対応するファイルの属性値を前記移動先の属性値に変更する機能、を実現させる。
【発明の効果】
【0015】
請求項1に記載の発明によれば、ファイルに付与されている属性値から得られるファイルの統計情報を二元表で表示する場合、ファイルの属性値をユーザが個々に修正する場合に比して、修正に要する手間を軽減することができる。
【0016】
請求項2に記載の発明によれば、ファイルの属性値の変更の是非をユーザに事前に問い合わせることができる。
【0017】
請求項3に記載の発明によれば、属性値を変更するファイルをユーザに選択させることができる。
【0018】
請求項4に記載の発明によれば、ユーザは、画面表示されたファイルの内容を参照して、ファイルを属性値の変更の対象とするかどうかを判断することができる。
【0019】
請求項5に記載の発明によれば、ユーザは、二元表の中から探し出すことなく修正候補となる行又は列の移動先を知ることができる。
【0020】
請求項6に記載の発明によれば、二元表の中から行または列がユーザに選択されることに応じて移動先の候補を自動的に提示することができる。
【0021】
請求項7に記載の発明によれば、ファイルに付与されている属性値が少ない行または列を、修正候補となる行または列として二元表の中から自動的に選出することができる。
【0022】
請求項8に記載の発明によれば、ファイルに付与されている属性値から得られるファイルの統計情報を二元表で表示する場合、ファイルの属性値をユーザが個々に修正する場合に比して、修正に要する手間を軽減することができる。
【図面の簡単な説明】
【0023】
【
図1】本発明に係る情報処理システムの一実施の形態を示すブロック構成図である。
【
図2】実施の形態1におけるデータ記憶部にて保持管理されている文書の属性情報の一部の構成例を示す図である。
【
図3】実施の形態1における一括修正処理を示すフローチャートである。
【
図4】実施の形態1における二元表の表示例を示す図である。
【
図5】実施の形態1において、二元表に対するユーザ操作の一例を示す図である。
【
図6】実施の形態1におけるデータ記憶部にて保持管理されている文書のうちユーザ操作により修正対象となる文書のデータ設定例を示す図である。
【
図7】
図6に示す文書の属性値が更新された後のデータ設定例を示す図である。
【
図8】
図4に示す二元表に対するユーザ操作に応じて更新された後の二元表を示す図である。
【
図9】実施の形態1における修正確認画面の一例を示す図である。
【
図10】実施の形態1における修正確認画面の他の例を示す図である。
【
図11】実施の形態1における修正確認画面の他の例を示す図である。
【
図12】実施の形態2における情報処理システムを示すブロック構成図である。
【
図13A】本実施の形態における修正候補提示処理を示すフローチャートである。
【
図14】本実施の形態における修正候補提示処理において、二元表から選出した修正候補列の候補を示す図である。
【
図15】本実施の形態における修正候補提示処理において、二元表から選出した修正候補列と正解列との組を示す図である。
【
図16】本実施の形態における修正候補提示処理において修正候補列と正解列を提示するときの画面表示例を示す図である。
【発明を実施するための形態】
【0024】
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
【0025】
実施の形態1.
図1は、本発明に係る情報処理システムの一実施の形態を示すブロック構成図である。本実施の形態における情報処理システムは、1又は複数の情報処理装置により実現可能である。以降の説明では、1台の情報処理装置にて実現する場合を例にして説明する。
【0026】
本実施の形態における情報処理装置10は、パーソナルコンピュータ(PC)等の従前から存在する汎用的なハードウェア構成で実現できる。すなわち、本実施の形態における情報処理装置10は、CPU、ROM、RAM、ハードディスクドライブ(HDD)等の記憶手段、ネットワークインタフェース等の通信手段、マウスやキーボード等の入力手段及びディスプレイ等の表示手段を含むユーザインタフェースを含む構成にて実現できる。
【0027】
本実施の形態における情報処理装置10は、
図1に示すように、二元表生成部12、ユーザインタフェース部14、表示制御部16、受付部18、データ更新部20、修正確認画面生成部22、制御部24及びデータ記憶部26を有している。本実施の形態の説明に用いない構成要素については、図から省略している。
【0028】
データ記憶部26には、二元表に表示する統計情報の元データとなる電子文書のデータファイル(以下、単に「文書」ともいう)が蓄積されている。
【0029】
図2は、データ記憶部26にて保持管理されている文書の属性情報の一部の構成例を示す図である。各文書には、識別情報として「ID」が付与され、各IDに、当該文書の名称(「名前」)、当該文書の送付先となる取引先企業の企業名(「取引先名」)及び当該文書の文書種別が対応付けして登録される。なお、データ記憶部26には、
図2に例示する属性情報以外の属性情報を含めてよいし、文書自体の代わりに文書の格納先を特定する格納先情報を含めてもよい。
【0030】
ここで、「二元表」というのは、元のデータ(本実施の形態の場合は、「文書」)を2つの観点からまとめた二次元の表のことをいう。本実施の形態の場合は、データとして文書を取り扱い、観点として文書に付与されている属性情報を用いる。このため、本実施の形態における二元表は、文書に付与されている第1の属性の属性値を各行の見出しとし、文書に付与されている第2の属性の属性値を各列の見出しとして生成される。第1の属性と第2の属性は、異なる属性情報である。以降に説明するように、本実施の形態では、
図4等の画面表示例に示すように、第1の属性として「取引先名」を、第2の属性として「文書種別」を、それぞれ用いる。
【0031】
また、本実施の形態の場合、二元表に表示するファイルの「統計情報」というのは、文書の数である。例えば、「株式会社A」を取引先とする「依頼書」の文書の数は、対応するセルに示すとおり、データ記憶部26にて管理されている文書を取引先名毎文書種別毎に集計した結果の合計数(以下、「集計数」ともいう)20である。なお、本実施の形態では、統計情報として文書の集計数を用いて説明するが、必ずしも集計数を用いなくてもよい。例えば、平均値や割合等他の数値データを用いてもよい。また、数の大小を、「大」、「中」、「小」などの文字や「◎」、「○」、「×」などの記号にて示してもよい。
【0032】
図1に戻り、二元表生成部12は、上記のようにデータ記憶部26にて管理されている文書を第1の属性毎第2の属性毎に集計することで二元表を生成する。ユーザインタフェース(UI)部14は、情報処理装置10における入力手段及び表示手段により実現され、二元表等を表示すると共に、画面表示された二元表等をユーザに入力操作させる。表示制御部16は、ユーザインタフェース部14の表示を制御する。受付部18は、ユーザによるユーザインタフェース部14の操作を受け付ける。データ更新部20は、受付部18が受け付けたユーザ操作に応じて、データ記憶部26に設定されている、該当する文書の属性値を更新する。修正確認画面生成部22は、受付部18により一括修正指示のためのユーザ操作が受け付けられると、修正確認画面を生成する。制御部24は、本実施の形態における構成要素12~22の動作を制御する。
【0033】
情報処理装置10における各構成要素12~24は、情報処理装置10を形成するコンピュータと、コンピュータに搭載されたCPUで動作するプログラムとの協調動作により実現される。また、データ記憶部26は、情報処理装置10に搭載されたHDDにて実現される。あるいは、RAM又は外部にある記憶手段をネットワーク経由で利用してもよい。
【0034】
なお、本実施の形態では、情報処理システムを1台のコンピュータにて実現することを想定して説明するが、上記各構成要素12~24を、通信ネットワークで繋がる複数のコンピュータに分散して形成される情報処理システムとしてもよい。本実施の形態における「システム」とは、複数の装置によって構成されたもの及び単一の装置によって構成されたものの両方を含む。
【0035】
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD-ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがプログラムを順次実行することで各種処理が実現される。
【0036】
次に、本実施の形態における動作について説明する。
【0037】
本実施の形態において特徴的なことは、画面表示されている二元表に対するユーザ操作に応じて、選択されている文書の属性値を一括して修正できるようにしたことである。以下、本実施の形態における一括修正処理について、
図3に示すフローチャートを用いて説明する。
【0038】
まず、二元表生成部12は、データ記憶部26にて管理されている文書を第1の属性毎第2の属性毎に集計することで二元表を生成する(ステップ101)。表示制御部16は、生成された二元表をユーザインタフェース部14に画面表示させる(ステップ102)。このようにして生成される二元表の画面表示例を
図4に示す。
【0039】
前述したように、本実施の形態においては、「取引先名」という第1の属性の属性値を行の見出しとし、「文書種別」という第2の属性の属性値を列の見出しとして二元表を生成して表示する。行と列が交差する位置の各セルには、第1の属性の属性値及び第2の属性の属性値が付与されている文書の総数が集計値として示される。
【0040】
ユーザは、二元表を参照することで、文書に付与されている属性値に誤りを発見したとする。この場合、ユーザは、所定の操作をすることで発見した誤りを正すための一括修正を指示する。本実施の形態では、ドラッグ&ドロップ操作を所定の操作として利用する。
図5には、二元表の列において「研修書」という属性値の文書には、正しくは「検収書」という属性値を付与すべきであったことに気づき、修正したい「研修書」の列(以下、「修正対象列」)を正しい「検収書」の列(以下、「正解列」)にドラッグ&ドロップする例が示されている。
【0041】
受付部18は、このドラッグ&ドロップ操作を受け付ける(ステップ103)。続いて、データ更新部20は、受付部18が受け付けたユーザ操作からドラッグ&ドロップ操作の移動元となる修正対象列及び移動先となる正解列を特定する(ステップ103)。
【0042】
ところで、
図6には、データ記憶部26に登録されている文書のうち文書種別として「研修書」と設定されている3つの文書(ID=075,090,120)が例示されている。データ更新部20は、データ記憶部26を参照することで、文書種別が「研修書」である、IDが075,090,120の文書を修正対象列に対応する文書d(i)として特定する(ステップ104)。
【0043】
また、データ更新部20は、正解列の各文書に付与されている正しい属性値(以下、「正解値」)を取得する(ステップ105)。そして、データ更新部20は、修正対象列に対応する各文書d(i)に対し、データ記憶部26に設定されている当該文書の文書属性の属性値「研修書」を、正解値、すなわち「検収書」で更新する処理を繰り返し行う(ステップ106,107)。
【0044】
図7は、データ記憶部26に設定されている文書のうち上記更新処理により属性値が変更されたデータの設定例を示す図である。
図7に示すように、データ更新部20は、データ記憶部26に設定されている文書のうち、ドラッグ&ドロップ操作における移動元の列の属性値、すなわち修正対象列に対応する文書(ID=075,090,120)の文書種別の属性値「研修書」を、移動先となる列の属性値、すなわち正解列における文書種別の属性値「検収書」に変更することで更新する。
【0045】
データの更新が終了すると、二元表生成部12は、ステップ101と同様の方法にて、データ記憶部26にて管理されている文書の数を再集計して二元表を生成する(ステップ108)。表示制御部16は、生成された二元表をユーザインタフェース部14に画面表示させる(ステップ109)。このようにして生成される二元表の画面表示例を
図8に示す。
【0046】
図8に示すように、本実施の形態においては、ユーザによるドラッグ&ドロップ操作に応じてデータ記憶部26にて管理されている文書の属性値を一括修正する。この一括修正により、表示画面上においては、修正対象列の各セルの集計数を、正解列の当該各セルの集計数にマージすることで反映させると共に、移動元となる修正対象列を削除する。本実施の形態によれば、以上のようにして修正対象列に対応する文書の文書種別の属性値を一括して修正することができるので、修正に要する手間を軽減することができる。
【0047】
ところで、上記説明では、情報処理装置10は、ユーザ操作に応じて修正対象列に対応する文書の属性値を自動的に一括修正するようにした。ただ、二元表だけでは、属性値の修正の対象となる文書を事前に確認することができない。そこで、二元表の修正対象列に対応する文書の属性値を自動的に変更する前に、変更の是非をドロップ&ドラッグ操作したユーザに問い合わせる修正確認画面を表示することで、修正の対象となる文書をユーザに事前に知らせるようにした。
【0048】
図9は、本実施の形態における修正確認画面の一例を示す図である。
図9には、
図6に例示した修正の対象となる文書の文書名を一覧表示する修正確認画面30が示されている。受付部18が一括修正を指示するためのユーザ操作、すなわちドロップ&ドラッグ操作を受け付けると、修正確認画面生成部22は、データ記憶部26を参照することで修正対象列に対応する文書の文書名を抽出し、抽出した文書名の一覧を修正確認画面に含めて生成する。表示制御部16は、修正確認画面生成部22により生成された修正確認画面を表示させる。
【0049】
なお、本実施の形態では、修正確認画面を二元表に重畳させて表示する例を示しているが、修正確認画面の表示の方法は、これに限る必要はない。例えば、二元表とは別のウィンドウに表示してもよい。
【0050】
ユーザは、修正確認画面30を参照することで、修正対象の文書の文書種別を変更してよい場合には、「はい」ボタン32を選択する。これにより、修正対象となる文書の属性値は、上記と同様に変更され、二元表は、
図8に示すように更新される。一方、ユーザは、修正対象の文書の文書種別を変更しない場合には、「いいえ」ボタン34を選択する。これにより、修正対象となる文書の属性値は、変更されない。また、二元表の表示内容は、
図4に示したまま維持される。
【0051】
図10は、本実施の形態における修正確認画面の他の例を示す図である。
図10には、
図9と同様に修正の対象となる文書の文書名を一覧表示するが、属性値を実際に変更する文書をユーザに個々に選択できる修正確認画面36が示されている。ユーザは、
図10に示す修正確認画面36から修正する文書に対応するチェックボックスにチェックを入れてから「OK」ボタン38を選択する。これにより、データ更新部20は、選択された文書の属性値のみを更新する。なお、「キャンセル」ボタン40が選択されると、
図9において「いいえ」ボタン34が選択される場合と同様に、修正対象となる文書の属性値は、変更されない。また、二元表の表示内容は、
図4に示したまま維持される。
【0052】
図11は、本実施の形態における修正確認画面の他の例を示す図である。
図11には、
図10と同様に修正の候補となる文書の文書名の一覧の中から修正する文書を個々に選択できる修正確認画面42が示されている。そして、
図11に示す修正確認画面42には、更に修正の候補となる文書の内容を表示するための表示領域44が設けられている。表示対象とする文書は、矢印ボタン46を操作することによって選択できる。なお、本実施の形態では、文書の表示領域44を修正確認画面42に含めて表示する例を示しているが、これに限る必要はない。例えば文書の表示領域44は、修正確認画面42とは別のウィンドウに表示されてもよい。また、
図11では、一文書のみの内容を表示領域44に表示させる例を示しているが、複数の文書を同時に表示できるようにしてもよい。文書の表示の形態は、
図11に示す表示例に限定する必要はなく、修正対象の文書の数や画面サイズ等に応じて適宜決めればよい。
【0053】
なお、上記説明では、本実施の形態の特徴的な属性値の一括修正について、二元表の列を用いて説明したが、二元表の行においても同様に、移動元の行から移動先の行へのドロップ&ドラッグ操作に応じて一括修正することができる。
【0054】
実施の形態2.
上記実施の形態1では、所定のユーザ操作(具体的には、ドロップ&ドラッグ操作)に応じて移動元の行又は列に対応する文書の属性値を、移動先の行又は列の属性値に一括修正できるようにした。本実施の形態においては、移動元の行又は列から移動先の行又は列をユーザに指定させるのではなく、二元表の各セルに含まれる集計数を参照して、修正の対象となる行又は列の候補をユーザに提示できるようにした。
【0055】
なお、本実施の形態においても、二元表の行及び列のうち、列を代表させて説明する。もちろん、実施の形態1と同様に、本実施の形態における列に対する処理は、行に対しても適用可能である。
【0056】
図12は、本実施の形態における情報処理システムを示すブロック構成図である。なお、実施の形態1と同じ構成要素には、同じ符号を付け、説明を適宜省略する。本実施の形態においても、情報処理システムを1台の情報処理装置10で形成する場合を例にして説明する。
【0057】
本実施の形態における情報処理装置10は、修正確認画面生成部22に代えて修正候補選出部28を有している点が実施の形態1と異なる。修正候補選出部28は、実施の形態1においてユーザに指定されていた移動元となる修正対象列と移動先となる正解列を、ユーザに指定させることなく移動元及び移動先の候補を選出する。修正候補選出部28は、情報処理装置10を形成するコンピュータと、コンピュータに搭載されたCPUで動作するプログラムとの協調動作により実現される。
【0058】
次に、本実施の形態における動作について説明する。
【0059】
本実施の形態における修正候補を提示する処理は、上記移動元、すなわち修正候補とする列(以下、「修正候補列」)の候補を選出する処理と、上記移動先、すなわち正解とする列(以下、「正解列」)の候補を選出する処理とに大別できる。
図13Aは、前者を示すフローチャートであり、
図13Bは、後者を示すフローチャートである。まず、修正候補列の候補を選出する処理について、
図13Aに示すフローチャートを用いて説明する。
【0060】
まず、二元表生成部12は、実施の形態1と同様に、データ記憶部26にて管理されている文書を第1の属性毎第2の属性毎に集計することで二元表を生成する(ステップ121)。生成される二元表の画面表示例を
図14に示す。
図14では、各行及び各列それぞれに記号r
0~r
4、c
0~c
6を付与している。なお、前述したように、ここでは、列に着目して説明する。
【0061】
修正候補選出部28は、修正候補列の候補を選出するため、各列c0~c6につき以下の処理を繰り返し行う。
【0062】
まず、修正候補選出部28は、処理対象とする列のカウンタとするcountZero(c)を0で初期化する(ステップ123)。続いて、修正候補選出部28は、処理対象とする列c(c=c
0~c
6)において、二元表の各行に対応するセル値が0であれば(ステップ125でY)、カウンタcountZero(c)に1を加算し(ステップ126)、0でなければ(ステップ125でN)、加算しない。各列に対するセル値0の数をカウントした結果を、
図14に示す二元表の左下に示す。例えば列c
3には、3つの行r
0, r
1,r
4の各セル値が0なので、countZero(c
3)=3となる。
【0063】
続いて、修正候補選出部28は、以上の処理により算出したカウンタ値を所定の第2閾値t2と比較する。閾値t2は、列cを修正候補列の候補として選出するか否かを決めるための閾値である。ここで、修正候補選出部28は、カウンタcountZero(c)が閾値t2以上であれば(ステップ127でY)、当該列を修正候補列の候補として選出し、修正候補列1の集合に追加する(ステップ128)。一方、そうでなければ(ステップ127でN)、当該列を修正候補列の候補として選出しない。
【0064】
図14に示す二元表の各セルの数値例によると、列c
3と列c
5のカウンタ値が共に3であって閾値t2=3以上であることから修正候補列の候補として選出され、修正候補列の候補であることを示す修正候補列1の集合に登録されることになる。以上の処理の結果となる修正候補列1の集合に含まれる列を、
図14に示す二元表の右下に示す。
【0065】
続いて、修正候補列の正解列の候補を選出する処理について、
図13Bに示すフローチャートを用いて説明する。
【0066】
図15には、
図14と同じ二元表が示されている。
図15では、上記処理において修正候補列1の集合に属する列(以下、「集合列」)c
3,c
5に対し、新たに記号s
0,s
1が付与することを示している。修正候補選出部28は、各集合列sに対して以下に示す処理を実施する(ステップ131)。
【0067】
まず、修正候補選出部28は、処理対象とする集合列s(s=s0,s1)の属性値と、二元表に含まれる各列c0~c6の属性値の距離dis(s,c)を算出する(ステップ133)。属性値の距離の算出には、既存の方法を利用してよい。本実施の形態では、レーベンシュタイン距離を用い、例えば各属性値の漢字と読み仮名それぞれのレーベンシュタイン距離の和を属性値の距離として求める。
【0068】
例えば、集合列s
0の属性値「契約書」と列c
0の属性値「契約書」とを例にして説明すると、各属性値の漢字におけるレーベンシュタイン距離は2であり、読み仮名(「けいやくしょ」と「いらいしょ」)におけるレーベンシュタイン距離は5なので、これらの属性値の距離dis(s
0,c
0)は、2+5=7である。各集合列s
0,s
1の属性値と各列c
0~c
6の属性値との距離の算出結果を、
図15に示す二元表の下にそれぞれ示す。
【0069】
続いて、修正候補選出部28は、以上の処理により算出した距離を所定の第1閾値t1と比較する。閾値t1は、いずれの列を正解列の候補として選出するか否かを決めるための閾値である。ここで、修正候補選出部28は、距離dis(s,c)が0ではなく、かつ閾値t1以下であれば(ステップ134でY)、当該列cを当該集合列sの正解列の候補として選出し、正解候補列の集合に追加する(ステップ135)。一方、そうでなければ(ステップ134でN)、当該列を正解候補列の候補として選出しない。
【0070】
なお、距離が0ということは、集合列sの属性値と一致、すなわち集合列s自身との比較結果になるので、これを除外するためである。
【0071】
ところで、本実施の形態では、2つの属性値の類似度を示す指標として距離を用いている。つまり、2つの属性値の距離が小さいほど、その2つの属性値の類似度が大きくなるので、距離と類似度の大小は、逆転した関係にある。従って、距離が第1閾値t1以下ということは、類似度が第1閾値t1以上ということに等しい。そして、本実施の形態では、属性値の距離dis(s,c)が閾値t1以下であれば、その2つの属性値は類似していると判定する。
【0072】
図15に示す二元表の各セルの数値例によると、集合列s
0においては、距離が3以下となる列が存在しないので、集合列s
0に対応する正解候補列の集合は空となる。一方、集合列s
1においては、距離が3以下となる列c
6が存在するので、集合列s
1に対応する正解候補列の集合には列c
6が登録される。この選出処理において閾値t1を3とした場合の選出結果を、
図15に示す二元表の下の更に距離の下に示す。
【0073】
上記修正候補提示処理の結果、修正候補選出部28は、修正候補列において、正解列の候補となる列c6と、当該の列c6に対応する修正候補列の候補となる集合列s1、すなわち列c5との組が、修正候補列及び正解列の組として選出する。
【0074】
以上説明したように、本実施の形態においては、列内のセルに0が多く設定されている列であって、類似している属性値の列が存在する場合、列内のセルに0が多く設定されている列を修正候補列として選出する。なお、本実施の形態では、列内のセルに0が多く設定されているかどうかを判定するために第2閾値t2を、また、属性値が類似しているかどうかを判定するために第1閾値t1を、それぞれ設定し、閾値との比較による判定を行っているが、閾値との比較以外の方法にて判定してもよい。
【0075】
列内のセルに0が多く設定されているということは、それだけ当該属性値が設定されている文書が少ないということである。従って、当該属性値は、0が設定されているセルの数が少ない列より誤記の可能性が高いと考えられる。また、属性値が誤記と推定できる場合、その誤記の属性値と類似している属性値は、類似している分、設定すべき正しい属性値、つまり正解値の可能性が高いといえ、そして誤記と推定できる属性値が誤記である可能性もより高まる。本実施の形態においては、このような思想のもと、修正候補列と正解列の候補を選出している。
【0076】
図16は、本実施の形態において、修正候補選出部28が修正候補を選出した結果を提示するための二元表の表示例を示す図である。表示制御部16は、修正候補選出部28が選出した修正候補列と正解列の組が判別できるように二元表を表示させる。
図16には、修正候補列52を破線で、正解列54を一点鎖線で、それぞれ囲んで二元表を表示する例が示されている。もちろん、修正候補列52と正解列54を判別可能に表示する形態は、この例に限定されない。
【0077】
ユーザは、修正候補列52と正解列54の組がわかると、実施の形態1のように修正候補列52を修正対象列として、正解とする正解列54にドラッグ&ドロップ操作することによって、修正候補列52に対応する文書の属性値を、正解とする属性値に一括修正することができる。
【0078】
なお、本実施の形態では、便宜的に修正候補列52と正解列54が1対1の関係となる場合を例にして説明したが、1対多、多対1、あるいは1対1が複数組、更に多対多となる可能性もある。表示制御部16は、この場合にも線の種類や色等の表示形態、若しくは組を明示するテキスト情報等によって修正候補列52と正解列54の組が判別できるように二元表を表示させる。
【0079】
また、本実施の形態では、修正候補列と正解列の双方を自動的に選出するようにしたが、二元表の中から修正候補列をユーザに選択させるようにしてもよい。この場合、修正候補選出部28は、ユーザにより選択された修正候補列に対応する正解列を自動的に選出することになり、ユーザが選択した修正候補列の正解列をユーザに提示することができる。上記のように、修正候補列と正解列の組が複数存在する場合、1つの修正候補列に着目して属性値の修正処理を行うことができるので便宜である。
【0080】
上記実施の形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
【0081】
また上記実施の形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施の形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
【0082】
(付記)
(((1)))
プロセッサを備え、
前記プロセッサは、
ファイルに付与されている第1の属性の属性値を各行の見出しとし、ファイルに付与されている第2の属性の属性値を各列の見出しとする二元表中に、前記第1の属性の属性値と前記第2の属性の属性値に対応するファイルの統計情報を表示し、
ユーザにより選択された前記二元表の行又は列及び当該行又は列の移動先を受け付け、
受け付けた前記二元表の行又は列に対応するファイルの統計情報を前記移動先に反映すると共に、受け付けた前記二元表の行又は列を前記二元表から削除し、
受け付けた前記二元表の行又は列に対応するファイルの属性値を前記移動先の属性値に変更する、
ことを特徴とする情報処理システム。
(((2)))
前記プロセッサは、前記二元表の行又は列に対応するファイルの属性値を変更する前に、変更の是非を前記ユーザに問い合わせる確認画面を表示することを特徴とする(((1)))に記載の情報処理システム。
(((3)))
前記プロセッサは、前記二元表の行又は列に対応するファイルの中から属性値を変更するファイルをユーザに選択させることを特徴とする(((1)))に記載の情報処理システム。
(((4)))
前記プロセッサは、前記二元表の行又は列に対応するファイルの内容を表示することを特徴とする(((2)))に記載の情報処理システム。
(((5)))
前記プロセッサは、
前記二元表の中から属性値の修正候補となる行又は列の見出しとなっている属性値との類似度が所定の第1閾値以上となる属性値を見出しとする行又は列を選出し、
選出した行又は列を、前記修正候補となる行又は列の移動先の候補として提示する、
ことを特徴とする(((1)))に記載の情報処理システム。
(((6)))
前記修正候補となる行又は列は、前記ユーザにより選択された前記二元表の行又は列であることを特徴とする(((5)))に記載の情報処理システム。
(((7)))
前記プロセッサは、前記統計情報がファイルの数の場合、前記二元表の行又は列に対応するファイルの数が0であるセルの数が所定の第2閾値以上となる当該行または当該列を、前記属性値の修正候補となる行又は列として選出することを特徴とする(((5)))に記載の情報処理システム。
(((8)))
コンピュータに、
ファイルに付与されている第1の属性の属性値を各行の見出しとし、ファイルに付与されている第2の属性の属性値を各列の見出しとする二元表中に、前記第1の属性の属性値と前記第2の属性の属性値に対応するファイルの統計情報を表示する機能、
ユーザにより選択された前記二元表の行又は列及び当該行又は列の移動先を受け付ける機能、
受け付けた前記二元表の行又は列に対応するファイルの統計情報を前記移動先に反映すると共に、受け付けた前記二元表の行又は列を前記二元表から削除する機能、
受け付けた前記二元表の行又は列に対応するファイルの属性値を前記移動先の属性値に変更する機能、
を実現させるためのプログラム。
【0083】
(((1)))に記載の発明によれば、ファイルに付与されている属性値から得られるファイルの統計情報を二元表で表示する場合、ファイルの属性値をユーザが個々に修正する場合に比して、修正に要する手間を軽減することができる。
(((2)))に記載の発明によれば、ファイルの属性値の変更の是非をユーザに事前に問い合わせることができる。
(((3)))に記載の発明によれば、属性値を変更するファイルをユーザに選択させることができる。
(((4)))に記載の発明によれば、ユーザは、画面表示されたファイルの内容を参照して、ファイルを属性値の変更の対象とするかどうかを判断することができる。
(((5)))に記載の発明によれば、ユーザは、二元表の中から探し出すことなく修正候補となる行又は列の移動先を知ることができる。
(((6)))に記載の発明によれば、二元表の中から行または列がユーザに選択されることに応じて移動先の候補を自動的に提示することができる。
(((7)))に記載の発明によれば、ファイルに付与されている属性値が少ない行または列を、修正候補となる行または列として二元表の中から自動的に選出することができる。
(((8)))に記載の発明によれば、ファイルに付与されている属性値から得られるファイルの統計情報を二元表で表示する場合、ファイルの属性値をユーザが個々に修正する場合に比して、修正に要する手間を軽減することができる。
【符号の説明】
【0084】
10 情報処理装置、12 二元表生成部、14 ユーザインタフェース(UI)部、16 表示制御部、18 受付部、20 データ更新部、22 修正確認画面生成部、24 制御部、26 データ記憶部、28 修正候補選出部。