【文献】
原真男 他2名,日本語ワードプロセッサRupoにおける自動文書編集機能,東芝レビュー,日本,株式会社東芝,1992年11月 1日,47巻11号,874-876頁
(58)【調査した分野】(Int.Cl.,DB名)
前記調整手段は、前記変換後の先頭部分の文字列同士が一致する文字列を、同一インデントに揃える際に、当該変換後の先頭部分の文字毎に、当該文字列が最初に出現した場合のインデントに合わせて調整する
請求項1または2に記載の情報処理システム。
前記調整手段は、前記変換後の先頭部分の文字列同士が一致する文字列を、同一インデントに揃える際に、当該変換後の先頭部分の文字毎に、多数決で一番多いインデントに合わせて調整する
請求項1または2に記載の情報処理システム。
項目番号に含まれる文字の出現パターンそれぞれと、当該出現パターンそれぞれを識別する出現パターン識別子とが関連付けられて記憶されているストレージにアクセス可能なコンピュータを、
項目番号が記載された書類のデータにおいて、文の先頭部分に含まれる文字が、前記ストレージに記憶されている出現パターンに含まれる文字と一致する毎に、当該文字を、前記ストレージにおいて当該出現パターンに関連付けられた出現パターン識別子に変換する変換手段と、
変換後の文字列同士が一致する文字列を含む文を、同じスペースだけインデントするように調整する調整手段と、
前記ストレージを参照して、前記調整手段で調整後の文字列同士が一致する同一文字列毎に、当該文字列に含まれる出現パターン識別子を、当該文字列に含まれる出現パターン識別子に対応する出現パターンに含まれる複数の文字から順に取り出された文字で順に置換する置換手段と、
として機能させるためのプログラム。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、書類(例えば、契約書、規則など)によっては、「第1条」というように、アラビア数字の番号の前に「第」後に「条」を付けた項目番号(細別符号ともいう)の次の下の階層が「第1項」というように、アラビア数字の番号の前に「第」後に「項」を付けた項目番号で表記される場合もあれば、「第1条」という項目番号の次の下の階層(レベルともいう)が「1」という項目番号で表記される場合もある。このように、書類(例えば、契約書、規則など)毎に、項目番号の表記の階層構造が異なっているので、特許文献1の技術のように、予め「第1項」という文字列に対してインデント桁数を設定したとしても、「(1)」と表記されていれば、この「(1)」から始まる文章は適切にインデントされないという問題がある。
【0005】
本発明は、上記問題に鑑みてなされたものであり、項目番号が記載された書類毎に、項目番号に含まれる文字の出現パターンの階層構造が異なっていても、階層毎に適切にインデントを設定することを可能とする情報処理システム及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様に係る情報処理システムは、項目番号に含まれる文字の出現パターンそれぞれと、当該出現パターンそれぞれを識別する出現パターン識別子とが関連付けられて記憶されているストレージと、項目番号が記載された書類のデータにおいて、文の先頭部分に含まれる文字が、前記ストレージに記憶されている出現パターンに含まれる文字と一致する毎に、当該文字を、前記ストレージにおいて当該出現パターンに関連付けられた出現パターン識別子に変換する変換手段と、変換後の文字列同士が一致する文字列を含む文を、同じスペースだけインデントするように調整する調整手段と、を備える。
【0007】
この構成によれば、項目番号に含まれる文字の出現パターン毎に出現パターン識別子に変換して、変換後の文字列が一致する文字列を同じスペースだけインデントできるので、書類がどのような項目番号に含まれる文字の出現パターンの階層構造を有していたとしても、階層毎にインデントをそろえることができる。よって、項目番号が記載された書類毎に、項目番号に含まれる文字の出現パターンの階層構造が異なっていても、階層毎に適切にインデントを設定することができる。
また、書類毎に条項番号の表記の仕方が異なっていても適切にインデントすることができる。また、出現パターン毎に出現パターン識別子を設定するだけでよいので、設定の労力を低減しつつ、インデントを設定することができる。
【0008】
本発明の第2の態様に係る情報処理システムは、第1の態様に係る情報処理システムであって、前記ストレージを参照して、前記調整手段で調整後の文字列同士が一致する同一文字列毎に、当該文字列に含まれる出現パターン識別子を、当該文字列に含まれる出現パターン識別子に対応する出現パターンに含まれる複数の文字から順に取り出された文字で順に置換する置換手段を更に備える。
【0009】
この構成によれば、元の条項番号の番号もしくは文字が間違っていたとしても、出現パターンに含まれる複数の文字から順に取り出された文字で順に置換することにより、条項番号を正しい番号もしくは文字にリナンバリングすることができる。
【0010】
本発明の第3の態様に係る情報処理システムは、第1または2の態様に係る情報処理システムであって、前記データに含まれる文字列のうち、前記出現パターンが出現する前及び/または後の文字を、予め決められたルールに従って、記号に変換する記号変換手段と、前記変換手段の変換と前記調整手段の調整の後に、前記記号変換手段によって変換された記号を元の文字に復元する文字復元手段と、を備える。
【0011】
この構成によれば、出現パターンが出現する前及び/または後の文字を変換した後にインデントを付与するので、インデント付与時の処理が簡素化され、処理を効率的に行うことができる。
【0012】
本発明の第4の態様に係る情報処理システムは、第1から3のいずれかの態様に係る情報処理システムであって、前記調整手段は、前記変換後の先頭部分の文字列同士が一致する文字列を、同一インデントに揃える際に、当該変換後の先頭部分の文字毎に、当該文字列が最初に出現した場合のインデントに合わせて調整する。
【0013】
この構成によれば、インデントを適切に調整できる可能性を向上させる。
【0014】
本発明の第5の態様に係る情報処理システムは、第1から3のいずれかの態様に係る情報処理システムであって、前記調整手段は、前記変換後の先頭部分の文字列同士が一致する文字列を、同一インデントに揃える際に、当該変換後の先頭部分の文字毎に、多数決で一番多いインデントに合わせて調整する。
【0015】
この構成によれば、インデントを適切に調整できる可能性を向上させる。
【0016】
本発明の第6の態様に係る情報処理システムは、第1から5のいずれかの態様に係る情報処理システムであって、前記調整手段は、前記変換後の先頭部分の文字列同士が一致する文字列を、同一インデントに揃える際に、インデントの文字数毎にスコアを決定し、当該スコアに応じてインデントを調整する。
【0017】
この構成によれば、インデントを適切に調整できる可能性を向上させる。
【0018】
本発明の第7の態様に係る情報処理システムは、第1から6のいずれかの態様に係る情報処理システムであって、前記データから、文の先頭部分の文字列を抽出する抽出手段を備え、前記変換手段は、前記抽出された文字列に対して、処理を実行する。
【0019】
この構成によれば、条項を示す文字列に対して処理を実行することができる。
【0020】
本発明の第8の態様に係るプログラムは、項目番号に含まれる文字の出現パターンそれぞれと、当該出現パターンそれぞれを識別する出現パターン識別子とが関連付けられて記憶されているストレージにアクセス可能なコンピュータを、項目番号が記載された書類のデータにおいて、文の先頭部分に含まれる文字が、前記ストレージに記憶されている出現パターンに含まれる文字と一致する毎に、当該文字を、前記ストレージにおいて当該出現パターンに関連付けられた出現パターン識別子に変換する変換手段と、変換後の文字列同士が一致する文字列を含む文を、同じスペースだけインデントするように調整する調整手段と、として機能させるためのプログラムである。
【0021】
この構成によれば、項目番号に含まれる文字の出現パターン毎に出現パターン識別子に変換して、変換後の文字列が一致する文字列を同じスペースだけインデントできるので、書類がどのような項目番号に含まれる文字の出現パターンの階層構造を有していたとしても、階層毎にインデントをそろえることができる。よって、項目番号が記載された書類毎に、項目番号に含まれる文字の出現パターンの階層構造が異なっていても、階層毎に適切にインデントを設定することができる。
また、書類毎に条項番号の表記の仕方が異なっていても適切にインデントすることができる。また、出現パターン毎に出現パターン識別子を設定するだけでよいので、設定の労力を低減しつつ、インデントを設定することができる。
【0022】
本発明の第9の態様に係る情報処理システムは、項目番号が記載された書類のデータにおいて、文の前方の特徴を解析して、項目番号に含まれる文字の出現パターンを抽出し、当該出現パターンに出現パターン識別子を割り当てる抽出手段と、項目番号が記載された書類のデータにおいて、文の先頭部分に含まれる文字が、前記抽出された出現パターンに含まれる文字と一致する毎に、当該文字を、当該出現パターンに割り当てられた出現パターン識別子に変換する変換手段と、変換後の文字列同士が一致する文字列を含む文を、同じスペースだけインデントするように調整する調整手段と、を備える。
【0023】
この構成によれば、項目番号に含まれる文字の出現パターン毎に出現パターン識別子に変換して、変換後の文字列が一致する文字列を同じスペースだけインデントできるので、書類がどのような項目番号に含まれる文字の出現パターンの階層構造を有していたとしても、階層毎にインデントをそろえることができる。
【0024】
本発明の第10の態様に係るプログラムは、項目番号が記載された書類のデータにおいて、文の前方の特徴を解析して、項目番号に含まれる文字の出現パターンを抽出し、当該出現パターンに出現パターン識別子を割り当てる抽出手段と、項目番号が記載された書類のデータにおいて、文の先頭部分に含まれる文字が、前記抽出された出現パターンに含まれる文字と一致する毎に、当該文字を、当該出現パターンに割り当てられた出現パターン識別子に変換する変換手段と、変換後の文字列同士が一致する文字列を含む文を、同じスペースだけインデントするように調整する調整手段と、としてコンピュータを機能させるためのプログラムである。
【0025】
この構成によれば、項目番号に含まれる文字の出現パターン毎に出現パターン識別子に変換して、変換後の文字列が一致する文字列を同じスペースだけインデントできるので、書類がどのような項目番号に含まれる文字の出現パターンの階層構造を有していたとしても、階層毎にインデントをそろえることができる。
【0026】
本発明の第11の態様に係る情報処理システムは、項目番号が記載された書類のデータにおいて、文の先頭部分の文字列から、予め決められた正規表現にパターンマッチする文字列を抽出する抽出手段と、抽出された文字列を含む文を、同じスペースだけインデントするように調整する調整手段と、を備える。
【0027】
この構成によれば、予め決められた正規表現にパターンマッチする文字列を同じスペースだけインデントできるので、書類がどのような項目番号に含まれる文字の出現パターンの階層構造を有していたとしても、階層毎にインデントをそろえることができる。
【0028】
本発明の第12の態様に係るプログラムは、項目番号が記載された書類のデータにおいて、文の先頭部分の文字列から、予め決められた正規表現にパターンマッチする文字列を抽出する抽出手段と、抽出された文字列を含む文を、同じスペースだけインデントするように調整する調整手段と、としてコンピュータを機能させるためのプログラムである。
【0029】
この構成によれば、予め決められた正規表現にパターンマッチする文字列を同じスペースだけインデントできるので、書類がどのような項目番号に含まれる文字の出現パターンの階層構造を有していたとしても、階層毎にインデントをそろえることができる。
【発明の効果】
【0030】
本発明の一態様によれば、項目番号に含まれる文字の出現パターン毎に出現パターン識別子に変換して、変換後の文字列が一致する文字列を同じスペースだけインデントできるので、書類がどのような項目番号に含まれる文字の出現パターンの階層構造を有していたとしても、階層毎にインデントをそろえることができる。よって、項目番号が記載された書類毎に、項目番号に含まれる文字の出現パターンの階層構造が異なっていても、階層毎に適切にインデントを設定することができる。
また、書類毎に条項番号の表記の仕方が異なっていても適切にインデントすることができる。また、出現パターン毎に出現パターン識別子を設定するだけでよいので、設定の労力を低減しつつ、インデントを設定することができる。
【発明を実施するための形態】
【0032】
以下、各実施形態について、図面を参照しながら説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
【0033】
上記の課題に加えて、書類(例えば、契約書、規則など)によっては、「第1条」ではなく「1」もしくは「1条」もしくは「第1」などと表記される場合もある。このように書類(例えば、契約書、規則など)毎に、条項番号の表記の仕方が異なっているので、特許文献1の技術のように、予め「第1条」という文字列に対してインデント桁数を設定した場合には、「第1条」ではなく「1」と表記されていれば、この「1」から始まる文章は適切にインデントされないという問題がある。それに対して、本実施形態に係る情報処理システム及びプログラムは、書類毎に条項番号の表記の仕方が異なっていても適切にインデントする。
【0034】
更に上記の課題に加えて、特許文献1の方法では、「第1条」の文字パターンに対してインデント桁数を設定し、「第2条」の文字パターンに対しても同様にインデント桁数を設定しなければならない。すなわち、同じ階層であっても数字が違う場合、それぞれについて、インデント桁数を設定しなければいけないので設定に労力がかかるという問題がある。それに対して、本実施形態に係る情報処理システム及びプログラムは、設定の労力を低減しつつ、インデントを設定することができる。
【0035】
図1は、本実施形態に係る情報処理システムの概略構成図である。
図1に示すように、情報処理システムSは一例として、端末1−1〜1−Nと通信回路網CNを介して接続されたサーバ2を備える。情報処理システムSは一例として、端末1−1、…、1−N(Nは自然数)を備える。なお、情報処理システムSは、端末1−1、…、1−N(Nは自然数)を備えなくてもよい。
【0036】
端末1−1〜1−Nは、別々のユーザが使用する端末装置であり、例えば、多機能携帯電話(いわゆるスマートフォン)などの携帯電話、タブレット、ノートパソコン、またはデスクトップパソコンなどである。端末1−1〜1−Nは例えば、WEBブラウザを用いて、サーバ2から提供される情報を表示する。
【0037】
サーバ2は情報処理装置の一例であり、端末1−1〜1−Nに対して情報を提供する。以下、端末1−1〜1−Nを総称して端末1とも呼ぶ。
【0038】
図2は、本実施形態に係る端末の概略構成図である。
図2に示すように、端末1は例えば、入力インタフェース11と、通信回路12と、ストレージ13と、メモリ14と、出力インタフェース15と、プロセッサ16とを備える。
入力インタフェース11は、ユーザからの入力を受け付け、受け付けた入力に応じた入力信号をプロセッサ16へ出力する。
通信回路12は、通信回路網CNに接続されて、通信回路網CNに接続されているサーバ2と通信する。この通信は有線であっても無線であってもよい。
【0039】
ストレージ13には、プロセッサ16が読み出して実行するためのプログラム及び各種のデータが格納されている。
メモリ14は、データ及びプログラムを一時的に保持する。メモリ14は、揮発性メモリであり、例えばRAM(Random Access Memory)である。
【0040】
出力インタフェース15は、ディスプレイ17と接続されており、プロセッサ16の指令に従って情報をディスプレイ17に出力する。これにより、ディスプレイ17に情報が表示される。なおディスプレイ17は端末1に外付けではなく端末1に内蔵されていてもよい。
【0041】
プロセッサ16は、ストレージ13から本実施形態に係るプログラムをメモリ14にロードし、当該プログラムに含まれる一連の命令を実行する。
【0042】
図3は、本実施形態に係るサーバの概略構成図である。
図4に示すように、サーバ2は、入力インタフェース21と、通信回路22と、ストレージ23と、メモリ24と、出力インタフェース25と、プロセッサ26とを備える。
入力インタフェース21は、サーバ2の管理者からの入力を受け付け、受け付けた入力に応じた入力信号をプロセッサ26へ出力する。
通信回路22は、通信回路網CNに接続されて、通信回路網CNに接続されている端末1−1〜1−Nと通信する。この通信は有線であっても無線であってもよい。
【0043】
ストレージ23は、プロセッサ26が読み出して実行するためのプログラム及び各種のデータが格納されている。
メモリ24は、データ及びプログラムを一時的に保持する。メモリ24は、揮発性メモリであり、例えばRAM(Random Access Memory)である。
出力インタフェース25は、外部の機器(例えばディスプレイと接続されており、プロセッサ26からの指令に従って当該外部の機器に信号(例えば映像信号)を出力する。これにより、例えばディスプレイに映像信号が入力されて情報が表示される。
【0044】
プロセッサ26は、ストレージ23からプログラムをメモリ24にロードし、当該プログラムに含まれる一連の命令を実行することによって、抽出手段261、記号変換手段262、変換手段263、調整手段264、置換手段265、文字復元手段266、通信制御手段267として機能する。それぞれの処理については後述する。
【0045】
図4は、本実施形態に係るサーバのストレージに記憶されているマスタテーブルの一例である。
図4に示すように、本実施形態に係るサーバ2のストレージ23に記憶されている出現パターンマスタテーブルM1には、項目番号に含まれる文字(順番を示す文字で、例えば「1」または「あ」など)の出現パターンと、当該出現パターンそれぞれを識別する出現パターン識別子との組のレコードが蓄積されている。
例えば、出現パターン識別子が「A」である場合、当該出現パターンは、1、2、3、…とアラビア数字の順で表記される。出現パターン識別子が「B」である場合、当該出現パターンは、a、b、c、…とアルファベットの順で表記される。出現パターン識別子が「C」である場合、当該出現パターンは、あ、い、う、…と平仮名の順で表記される。出現パターン識別子が「D」である場合、当該出現パターンは、ア、イ、ウ、…とカタカナの順で表記される。出現パターン識別子が「E」である場合、当該出現パターンは、イ、ロ、ハ、…とカタカナの順で表記される。このように、ストレージ23には、項目番号に含まれる文字の出現パターンそれぞれと、当該出現パターンそれぞれを識別する出現パターン識別子とが関連付けられて記憶されている。
【0046】
図4に示すように、本実施形態に係るサーバ2のストレージ23に記憶されている記号化規則マスタテーブルM2には、文字と、文字が変換される後の記号との組のレコードが蓄積されている。
【0047】
図5は、インデント処理の一例を示す模式図である。
図6は、
図5の続きの模式図である。
図5に示すように、原文では一例として、インデントが乱れているものとする。抽出手段261は、項目番号が記載された書類(ここでは一例として原文ともいう)のデータから、文の先頭部分の文字列(例えば、「第1条」、「第1項」など)を抽出する。ここで例えば、先頭部分の文字列は、最初のスペースが検出されるまでの文字列であってもよい。
【0048】
続いて
図5に示すように、記号変換手段262は、データから抽出された、先頭部分の文字列に対して、項目番号に含まれる文字の出現パターンで使用されている文字(例えば、数字の1、2、アルファベットのa、b)の前後の文字を記号化する。ここで項目番号に含まれる文字の出現パターンで使用されている文字とは一例として、
図4の出現パターンマスタテーブルM1の出現パターンで使用されている文字である。また、記号化への変換規則は、
図4の記号化規則マスタテーブルM2の規則に従っている。
【0049】
これによって、例えば「第1条」については、「第」が「α」、「条」が「β」に変換されるので、「第1条」が「α1β」に変換される。また例えば「第1項」については、「第」が「α」、「項」が「γ」に変換されるので、「第1項」が「α1γ」に変換される。また、例えば「(a)」については、「(」が「δ」、「」」が「ε」に変換されるので、「第1項」が「δ1ε」に変換される。
【0050】
このように、記号変換手段262は、項目番号が記載された書類のデータに含まれる文字列のうち、出現パターンが出現する前及び/または後の文字を、予め決められたルールに従って、記号に変換する。
【0051】
続いて、
図5に示すように、変換手段263は、出願パターンで使用されている文字を出現パターン識別子に変換する。例えば「α1β」については「1」が「A」に変換されるので、「α1β」が「αAβ」に変換される。また例えば、「δaε」については「a」が「B」に変換されるので、「δaε」が「δBε」に変換される。
【0052】
このように、変換手段263は、項目番号が記載された書類(例えば、契約書、規則など)のデータにおいて、文の先頭部分(例えば、「第1条」)に含まれる文字(例えば、「1」)が、ストレージ23に記憶されている出現パターン(例えば、「1、2、3、…」)に含まれる文字と一致する毎に、当該文字(例えば、「1」)を、ストレージ23において当該出現パターンに関連付けられた出現パターン識別子(例えば、「A」)に変換する。なお、規則には、規定(例えば、職務発明規定)が含まれる。
【0053】
続いて
図6に示すように、調整手段264は、変換後文字列が一致するものが同一インデントに揃える。例えば、(1)最初に出現した変換後文字列のインデントが正しいと見なす場合には、例えば、「αAβ」については、最初に出現した1行目の「αAβ」のインデントが正しいとして、4行目、5行目の「αAβ」のインデントを、1行目の「αAβ」のインデントに揃える。
このように、調整手段264は、前記変換後の先頭部分の文字列同士が一致する文字列を、同一インデントに揃える際に、当該変換後の先頭部分の文字毎に、当該文字列が最初に出現した場合のインデントに合わせて調整してもよい。
【0054】
他の例としては、(2)同じ変換後文字列について多数決でインデントする文字数を決めるというものである。具体的には例えば、「αAβ」については、1行目のインデントが0文字、4行目、5行目の「αAβ」のインデントが2文字であるので、インデントが2文字である場合が最も多いので、「αAβ」のインデントが2文字にされる。
このように、調整手段264は、前記変換後の先頭部分の文字列同士が一致する文字列を、同一インデントに揃える際に、当該変換後の先頭部分の文字毎に、多数決で一番多いインデントに合わせて調整してもよい。
【0055】
他の例として、調整手段264は、同じ変換後文字列について、インデントの文字数毎にスコアをつけ、最もスコアが高いものに決定してもよい。例えば、最初の方に出現した文字列についてのインデントの文字数が重きを置くように、点数を加重平均したものをスコアとしてもよい。これにより、最初の方の出現した文字列のインデントに重きを置きながら、インデントする文字数を決定できる。
【0056】
このように、調整手段264は、前記変換後の先頭部分の文字列同士が一致する文字列を、同一インデントに揃える際に、インデントの文字数毎にスコア化を決定し、当該スコアに応じてインデントを調整する。
【0057】
このように、調整手段264は、変換手段263によって変換後の文字列同士が一致する文字列を含む文を、同じスペース(例えば、同じ文字数)だけインデントするように調整する。
【0058】
続いて
図6に示すように、置換手段265は、同一文字列毎に、当該文字列に含まれる出現パターン識別子に対応する出現パターンに含まれる複数の文字から順に取り出し、当該文字列が出現する順番に、当該文字列に含まれる出現パターン識別子を、当該文字列が出現する順番と取り出された順番が同じ文字で、当該文字列に含まれる出現パターン識別子を置換する。例えば、「αAβ」については、置換手段265は、1行目の(すなわち1番目に出現する)「αAβ」において出現パターン識別子「A」を当該出現パターンの1番目の文字「1」に置換して「α1β」を生成する。置換手段265は、次に出現する4行目の(すなわち2番目に出現する)「αAβ」において出現パターン識別子「A」を当該出現パターンの2番目の文字「2」に置換して「α2β」を生成する。置換手段265は、次に出現する5行目の(すなわち3番目に出現する)「αAβ」において出現パターン識別子「A」を当該出現パターンの3番目の文字「3」に置換して「α3β」を生成する。
【0059】
このように、置換手段265は、ストレージ23を参照して、調整手段264で調整後の文字列同士が一致する同一文字列毎に、当該文字列に含まれる出現パターン識別子を、当該文字列に含まれる出現パターン識別子に対応する出現パターンに含まれる複数の文字から順に取り出された文字で順に置換する。この構成によれば、元の条項番号の番号もしくは文字が間違っていたとしても、出現パターンに含まれる複数の文字から順に取り出された文字で順に置換することにより、条項番号を、正しい番号もしくは文字にリナンバリングすることができる。
【0060】
続いて
図6に示すように、文字復元手段266は、記号化規則マスタテーブルM2を参照して、出現パターンで使用されている文字の前後の記号を文字に復元する。例えば、「αAβ」については、文字復元手段266は、「α1β」において「α」を「第」に復元し、「β」を「条」に復元することによって、「α1β」を「第1条」に復元する。
このように、文字復元手段266は、前記変換手段263の変換と前記調整手段264の調整の後に、前記記号変換手段262によって変換された記号を元の文字に復元する。この構成により、出現パターンが出現する前及び/または後の文字を変換した後にインデントを付与するので、インデント付与時の処理が簡素化され、処理を効率的に行うことができる。
【0061】
図7は、端末1のWEBブラウザにおいて、読み込まれた就業規則が表示された画面の一例である。
図7に示すように、第5条の(1)から(10)が同じインデントにそろっている。このように、就業規則が端末1のWEBブラウザを介して、サーバ2にアップロードされた場合、サーバ2は、
図5及び
図6の処理によって、インデントを調整し、調整されたインデントで表示されるようにHTMLデータを出力して端末1へ送信する。これにより、端末1がこのHTMLデータを受信して表示することにより、端末1のブラウザにインデントが調整された就業規則が表示される。
【0062】
図8は、本実施形態に係る処理の一例を示すフローチャートである。ここでは、項目番号が記載された書類は一例として契約書もしくは規則であるものとして説明する。
【0063】
(ステップS10)まず、端末1のプロセッサ16は、契約書もしくは規則を読み取る。
【0064】
(ステップS20)次に端末1のプロセッサ16は、契約書もしくは規則をサーバ2へ通信回路12から送信する。
【0065】
(ステップS30)次にサーバ2の抽出手段261は、文の先頭部分の文字列を抽出する。
【0066】
(ステップS40)次にサーバ2の、記号変換手段262は、抽出された先頭部分の文字列について、出現パターンが出現する前及び後の文字を、予め決められたルールに従って、記号に変換する。
【0067】
(ステップS50)次にサーバ2の変換手段263は、ステップS40で変換後の文字列に含まれる文字が、ストレージ23に記憶されている出現パターンに含まれる文字と一致する毎に、当該文字を、ストレージ23において当該出現パターンに関連付けられた出現パターン識別子に変換する。
【0068】
(ステップS60)次にサーバ2の調整手段264は、ステップS50で変換後の文字列同士が一致する文字列を含む文を、同じスペース(例えば、同じ文字数)だけインデントするように調整する。
【0069】
(ステップS70)次にサーバ2の置換手段265は、ストレージ23を参照して、ステップS60で調整後の文字列同士が一致する同一文字列毎に、当該文字列に含まれる出現パターン識別子を、当該文字列に含まれる出現パターン識別子に対応する出現パターンに含まれる複数の文字から順に取り出された文字で順に置換する。
【0070】
(ステップS80)次にサーバ2の置換手段265で復元された後の文字列について、ステップS40で記号変換手段262によって変換された記号(例えば、「α」)を元の文字(例えば、「第」)に復元する。
【0071】
(ステップS90)次にサーバ2の通信制御手段267は、インデント調整後の契約書もしくは規則を表示するための情報(例えば、HTMLデータ)を通信回路22から端末1へ送信する。
【0072】
(ステップS100)次に端末1のプロセッサ16は、サーバ2から送信された情報を受信し、この情報を用いて、インデント調整後の契約書もしくは規則をディプレイ17に表示する。
【0073】
以上、本実施形態に係る情報処理システムSは、項目番号に含まれる文字の出現パターンそれぞれと、当該出現パターンそれぞれを識別する出現パターン識別子とが関連付けられて記憶されているストレージ23と、項目番号が記載された書類のデータにおいて、文の先頭部分に含まれる文字が、ストレージ23に記憶されている出現パターンに含まれる文字と一致する毎に、当該文字を、ストレージ23において当該出現パターンに関連付けられた出現パターン識別子に変換する変換手段263と、変換後の文字列同士が一致する文字列を含む文を、同じスペースだけインデントするように調整する調整手段264と、を備える。
【0074】
この構成により、項目番号に含まれる文字の出現パターン毎に出現パターン識別子に変換して、変換後の文字列が一致する文字列を同じスペースだけインデントできるので、書類がどのような項目番号に含まれる文字の出現パターンの階層構造を有していたとしても、階層毎にインデントをそろえることができる。よって、項目番号が記載された書類毎に、項目番号に含まれる文字の出現パターンの階層構造が異なっていても、階層毎に適切にインデントを設定することができる。
また、書類毎に条項番号の表記の仕方が異なっていても適切にインデントすることができる。また、出現パターン毎に出現パターン識別子を設定するだけでよいので、設定の労力を低減しつつ、インデントを設定することができる。
【0075】
なお、本実施形態では、条項番号を対象にして説明したが、見出しのレベル毎につけられる項目番号についても同様に適用できる。
また、条項番号の表記の仕方が異なっていても適切にインデントする場合について説明したが、見出しの項目番号の表記の仕方が異なっていても、適切にインデントすることができる。
【0076】
<変形例1>
上記の処理では、出現パターン(例えば、「1、2、3、…」、「あ、い、う、…」など)で使用されている文字(例えば、「1」、「あ」など)の前後の文字を記号化して、その後に、出現パターンで使用されている文字を出願パターン識別子に変換して、変換後文字列が一致するものを同一インデントにしたが、これに限ったものではない。
抽出手段261は、予め決められた正規表現「第%条」(但し、「%」には、「1、2、3、…」などの数字)にパターンマッチする文字列を抽出し、調整手段264が抽出した文字列を同じスペースだけインデントするように調整し(すなわち同一インデント化し)、置換手段265が、抽出した文字列が登場した順に、「1、2、3、…」などの数字を「%」に割り振りなおしてもよい(すなわちリナンバリングしてもよい)。なお、リナンバリングについては、項目番号が正しい場合には必ずしもしなくてもよい。このように、抽出手段261は、項目番号が記載された書類のデータにおいて、文の先頭部分の文字列から、予め決められた正規表現にパターンマッチする文字列を抽出してもよく、調整手段264は、当該抽出された文字列を含む文を、同じスペースだけインデントするように調整してもよい。この構成によれば、予め決められた正規表現にパターンマッチする文字列を同じスペースだけインデントできるので、書類がどのような項目番号に含まれる文字の出現パターンの階層構造を有していたとしても、階層毎にインデントをそろえることができる。
【0077】
<変形例2>
上記の実施形態では
図4のようにストレージ23に出現パターンマスタテーブルM1で
出現パターンが予め記憶されていたが、これに限ったものではない。特定の項目番号に含まれる文字の出現パターンが出現パターンマスタテーブルM1に登録されていない場合、もしくは項目番号に含まれる文字の出現パターンが予め全く記憶されていない場合であっても、抽出手段261は、文の前方の特徴を解析して、項目番号に含まれる文字の出現パターン(例えば、「r、t、y、u、i、…」など)を抽出してもよい。例えば、抽出手段261は、文の先頭に、「r」、「t」が順に登場していれば、項目番号に含まれる文字の出現パターンとして、「r、t、…」を抽出してもよい。
【0078】
このように、抽出手段261は、項目番号が記載された書類のデータにおいて、文の前方の特徴を解析して、項目番号に含まれる文字の出現パターンを抽出し、当該出現パターン(例えば、「r、t、y、u、i、…」)に出現パターン識別子(例えば、「F」)を割り当ててもよい。その場合、変換手段263は、項目番号が記載された書類のデータにおいて、文の先頭部分に含まれる文字(例えば、「r」)が、前記抽出された出現パターン(例えば、「r、t、y、u、i、…」)に含まれる文字と一致する毎に、当該文字(例えば、「r」)を、当該出現パターンに割り当てられた出現パターン識別子(例えば、「F」)に変換してもよい。そして、調整手段264は、変換後の文字列同士が一致する文字列を含む文を、同じスペースだけインデントするように調整してもよい。
この構成によれば、項目番号に含まれる文字の出現パターン毎に出現パターン識別子に変換して、変換後の文字列が一致する文字列を同じスペースだけインデントできるので、書類がどのような項目番号に含まれる文字の出現パターンの階層構造を有していたとしても、階層毎にインデントをそろえることができる。
【0079】
同様に、上記の実施形態では
図4のようにストレージ23に記号化規則マスタテーブルM2が予め記憶されていたが、これに限ったものではない。特定の記号化規則が記号化規則マスタテーブルM2に登録されていない場合、もしくは記号化規則が予め全く記憶されていない場合であっても、抽出手段261は、文前方の特徴を解析して、記号化規則(例えば、「第」をαに変換し「条」をβに変換するなど)を抽出してもよい。例えば抽出手段261は、文の先頭に「第1条」、「第2条」が順に登場していれば、「第」を第1の記号(ここでは一例として「α」)に変換する規則に決定し、「条」を第2の記号(例えばここでは一例として「β」)に変換する規則を抽出してもよい。ここで、第1の記号と第2の記号は異なっていればよく、順番に使用する記号が決まっていてもよいし、ランダムに記号を割り当ててもよい。このように、記号変換手段262は、データに含まれる文字列のうち、出現パターンが出現する前及び/または後の文字を、記号に変換してもよい。
【0080】
<変形例3>
先に、予め設定された設定範囲にある文それぞれを同一インデントに整え、その後、整えた後の文章に対して階層付けをし、リナンバリングを行うようにしてもよい。例えば、予め設定された設定範囲が左端から1〜3文字である場合、左端から1〜3文字の範囲でインデントされている文それぞれを、第1の同一インデント(例えば、左端から2文字インデント)に整え、予め設定された設定範囲が左端から4〜6文字である場合、第2の同一インデント(例えば、左端から5文字インデント)に整え、その後、整えた後の文章に対して、左端から2文字インデントの文を第1階層、左端から5文字インデントの文を第1階層より一つ下の第2階層に設定し、第1階層に含まれる項目番号を、登場順に番号を振りなおし、これとは別に、第2階層に含まれる項目番号を、登場順に番号を振りなおしてもよい(リナンバリングしてもよい)。なお、リナンバリングについては、項目番号が正しい場合には必ずしもしなくてもよい。
また、このようにして設定された階層間のインデント差を相対値(例えば、インデント差が2文字)でもってもよいし、階層ごとにインデントを絶対値(例えば、第1階層は左端から1文字インデント、第2階層は左端から3文字インデント)でもってもよい。
【0081】
<変形例4>
サーバ2のプロセッサ26はルール生成手段として機能してもよく、このルール生成手段は、一定のグループの中の文書の集合体から共通のインデントルール及び/またはナンバリングルール(1つとは限らない)を自動構築してもよい。この自動構築は、人工知能(AI)で実装しても、ルールベース(もしくはロジックベース)で実装してもよい。
例えば、人工知能(AI)で実装する場合、ルール生成手段は、一定のグループの中の文書を複数(望ましくは大量)に読み込んで、教師なし学習で、共通のインデントルール及び/またはナンバリングルール(1つとは限らない)を自動構築してもよい。
例えば、ルールベース(もしくはロジックベース)で実装する場合には、ルール生成手段は例えば、登場頻度が上位(例えば、最も頻度が高い)のインデントパターンを共通のインデントルールに設定し、登場頻度が上位(例えば、最も頻度が高い)ナンバリングルールを共通のナンバリングルールに設定してもよい。
【0082】
なお、上述した実施形態で説明したサーバ2の少なくとも一部の手段を、端末1が備えていてもよい。端末1で実行する場合には、ストレージ23に記憶されているテーブルが端末1のストレージ13に記憶されていてもよいし、ネットワークCN経由でアクセス可能なストレージに記憶されていてもよい。またストレージ23は、外付けであってもよいし、ネットワークを介してサーバ2に接続されていてもよい。また上述した実施形態で説明したサーバ2の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理システムSの少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD−ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
【0083】
また、サーバ2の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
【0084】
さらに、一つまたは複数の情報処理装置によってサーバ2を機能させてもよい。複数の情報処理装置を用いる場合、情報処理装置のうちの1つをコンピュータとし、当該コンピュータが所定のプログラムを実行することにより情報処理システムSの少なくとも1つの手段として機能が実現されてもよい。
【0085】
また、方法の発明においては、全ての工程(ステップ)をコンピュータによって自動制御で実現するようにしてもよい。また、各工程をコンピュータに実施させながら、工程間の進行制御を人の手によって実施するようにしてもよい。また、さらには、全工程のうちの少なくとも一部を人の手によって実施するようにしてもよい。
【0086】
以上、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【解決手段】情報処理システムにおいて、サーバは、項目番号に含まれる文字の出現パターンそれぞれと、当該出現パターンそれぞれを識別する出現パターン識別子とが関連付けられて記憶されているストレージと、項目番号が記載された書類のデータにおいて、文の先頭部分に含まれる文字が、ストレージに記憶されている出現パターンに含まれる文字と一致する毎に、当該文字を、ストレージにおいて当該出現パターンに関連付けられた出現パターン識別子に変換する変換手段及び変換後の文字列同士が一致する文字列を含む文を、同じスペースだけインデントするように調整する調整手段を含むプロセッサと、を備える。