【文献】
笠原健成 外4名,マニュアルの校閲作業における文書推敲支援ツールの実適用評価,情報処理学会論文誌,日本,情報処理学会,2001年 5月15日,第42巻第5号,pp.1242-1253
(58)【調査した分野】(Int.Cl.,DB名)
前記決定処理では、前記プロセッサは、前記第1の判断処理によって前記第1の合計値が前記修正時間よりも短いと判断された場合、前記文書内のすべての前記不適切な記載箇所を前記修正対象記載箇所に決定することを特徴とする請求項1に記載の文書校正支援装置。
前記決定処理では、前記プロセッサは、前記第2の判断処理によって前記第2の合計値が前記修正時間よりも短いと判断された場合、前記重要度がしきい値以上である不適切な記載箇所を前記修正対象記載箇所に決定することを特徴とする請求項3に記載の文書校正支援装置。
前記決定処理では、前記プロセッサは、前記第1の判断処理によって前記第1の合計値が前記修正時間よりも短いと判断された場合、前記文書内のすべての前記不適切箇所を前記修正対象記載箇所に決定することを特徴とする請求項9に記載の文書校正支援方法。
前記決定処理では、前記プロセッサは、前記第2の判断処理によって前記第2の合計値が前記修正時間よりも短いと判断された場合、前記重要度がしきい値以上である不適切な記載箇所を前記修正対象記載箇所に決定することを特徴とする請求項11に記載の文書校正支援方法。
前記決定処理では、前記プロセッサに、前記第1の判断処理によって前記第1の合計値が前記修正時間よりも短いと判断された場合、前記文書内のすべての前記不適切箇所を前記修正対象記載箇所に決定することを特徴とする請求項13に記載の文書校正支援プログラム。
【発明を実施するための形態】
【0012】
本発明の実施例を、図表を使って詳細に説明する。本実施例の文書校正支援装置1は、テキスト文章を含む文書を入力として、文書に含まれるテキスト文章を解析して、テキスト文章の出来栄えをチェックする。そして、文書校正支援装置1は、利用者が文章を修正するのに費やせる時間に応じて、修正すべき不適切な記載箇所を優先順位付けして利用者に提示する。なお、テキスト文章は日本語を前提として説明をするが、他の言語であっても問題ない。この場合、文書校正支援装置1は、その言語に応じた形態素解析を実行する。また、この文書校正支援装置1は、仕様書、論文、特許、報告書など様々な種別の文書に適用できる。さらに、文章の間に図表や写真などが挿入されていても構わない。
【0013】
<文書校正支援装置1の機能的構成例>
図1は、本実施例の文書校正支援装置1の機能的構成例を示すブロック図である。文書校正支援装置1は、文章解析部2と、文チェック部6と、出力文書生成部10と、入力文書DB(データベース)11と、単語辞書12と、重要文抽出ルール13と、文章解析結果テーブル14と、文チェック項目テーブル15と、文チェックルール16と、文章チェック結果テーブル17と、修正箇所テーブル18と、を有する。
【0014】
利用者は、入力デバイス203を介して、テキスト文章を含む文書ファイルD1と、修正に費やせる修正時間(以下、入力修正時間Tin)とを入力する。文書校正支援装置1は、入力された文書ファイルD1を、入力文書DB11に格納する。
【0015】
文章解析部2は、入力文書DB11に含まれる文書ファイルD1内のテキスト文章を解析して、その解析結果を文章解析結果テーブル14に格納する。文章解析部2は、文章抽出部3と、構文解析部4と、重要文抽出部5と、を有する。
【0016】
文章抽出部3は、入力文書DB11に含まれる文書ファイルD1内のテキスト文章を抽出する。文書ファイルD1からテキストデータを抽出する処理については既に公知であるので、これ以上言及しない。
【0017】
構文解析部4は、単語の情報や単語間の接続ルールを備えた単語辞書12を参照して、テキスト文章を単語に分割し、各単語の品詞や活用情報を取得する。また、構文解析部4は、句点や改行の情報をもとに、テキスト文章を文に分割する。すなわち、構文解析部4は、テキスト文章について形態素解析を実行する。テキスト文章を単語に分割する処理については既に公知であるので、これ以上言及しない。
【0018】
重要文抽出部5は、重要文抽出ルール13を参照して、テキスト文章を構成する文の各々の重要度を算出する。この処理方法については後述する。文章解析部2は、構文解析部4の解析結果および重要文抽出部5の抽出結果を文章解析結果テーブル14に格納する。重要文抽出部5の詳細な処理手順例については、
図9で後述する。
【0019】
文チェック部6は、文章解析結果テーブル14をもとに、テキスト文章の内容をチェックして、不適切な記載箇所を特定し、文章チェック結果テーブル17に格納する。また、文チェック部6は、入力修正時間Tinをもとに、修正すべき箇所を優先順位付けし、修正箇所テーブル18に格納する。文チェック部6は、ルール照合部7と、スコア算出部8と、修正箇所特定部9と、を有する。
【0020】
ルール照合部7は、文チェック項目テーブル15および文チェックルール16を参照して、文章解析結果テーブル14の中から、文チェックルール16に合致する記載箇所を特定する。ルール照合部7は、当該記載箇所と合致したルールと当該ルールに対して修正するのに要する予想修正時間とを、文毎に、文章チェック結果テーブル17に格納する。
【0021】
スコア算出部8は、文章チェック結果テーブル17に格納された不適切な記載箇所のデータと、文チェック項目テーブル15に定義された各文チェック項目の重要度をもとに、文章の出来栄えを定量化したスコアを算出する。スコア算出部8は、まず文単位でスコアを算出し、次に、その平均値を計算することで、文章単位のスコアを算出する。スコアの算出方法については後述する。スコア算出部8は、算出された文章単位のスコアを、文章チェック結果テーブル17に格納する。
【0022】
修正箇所特定部9は、文章チェック結果テーブル17に格納された不適切な記載箇所のデータと、利用者によって入力された入力修正時間Tinとをもとに、その入力修正時間Tin内に修正すべき記載箇所を特定する。修正すべき記載箇所の特定方法については後述する。修正箇所特定部9は、特定された記載箇所に関するデータを、修正箇所テーブル18に格納する。これにより、利用者は、限られた入力修正時間Tinの中で、文章の出来栄えを最大化できる修正箇所を、優先的に効率よく修正することができる。
【0023】
出力文書生成部10は、文章チェック結果テーブル17に格納された不適切な記載箇所に関するデータを、文書ファイルD1に埋め込む。埋め込まれた文書ファイルD1を、文チェック結果付き文書ファイルD2と称す。出力文書生成部10は、文チェック結果付き文書ファイルD2を、出力デバイス204を介して出力する。文書ファイルD1に文チェック結果を埋め込む処理については、既に実現可能であるので、これ以上言及しない。また、出力文書生成部10は、修正箇所テーブル18に格納された、優先順位付けされた修正箇所Mを、出力デバイス204を介して利用者に提示する。
【0024】
<文書校正支援装置1のハードウェア構成例>
図2は、本実施例の文書校正支援装置1のハードウェア構成例を示すブロック図である。文書校正支援装置1は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF205)と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バス206により接続される。プロセッサ201は、文書校正支援装置1を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタがある。通信IF205は、ネットワークと接続し、データを送受信する。
【0025】
図1に示した文章解析部2、文チェック部6、および出力文書生成部10は、具体的には、たとえば、記憶デバイス202に記憶されたプログラムをプロセッサ201が実行することによりその機能を実現する。また、
図1に示した入力文書DB11、単語辞書12、重要文抽出ルール13、文章解析結果テーブル14、文チェック項目テーブル15、文チェックルール16、文章チェック結果テーブル17、および修正箇所テーブル18は、具体的には、たとえば、記憶デバイス202に記憶された情報によりその機能を実現する。
【0026】
図3は、文書ファイルD1の一例を示す説明図である。文書ファイルD1は、テキスト文章を含む。文書ファイルD1は、図表を含んでもよい。また、文書ファイルD1の形式(フォーマット)は、特に限定されない。
【0027】
図4は、文書ファイルD1から抽出されたテキスト文章の一例を示す説明図である。テキスト文章400は、文章抽出部3によって、
図3の文書ファイルD1から抽出されたテキストデータである。
【0028】
図5Aは、出力文書ファイルの一例を示す説明図である。出力文書ファイルは、出力デバイス204から出力される文チェック結果付き文書ファイルD2である。文チェック結果付き文書ファイルD2を出力文書ファイルD2と称することもある。
図5Aでは、不適切な記載箇所が矩形で囲まれているが、テキスト文章400の色やフォントを変えたり、別のファイルに出力したりしてもよい。
【0029】
図5Bは、
図5Aの出力文書ファイルD2の冒頭部分の拡大図である。文書校正支援装置1は、出力文書ファイルD2をエディタから開き、利用者の操作によりマウスカーソル501を「大量の文書の集合の中」を囲む矩形502にあてると、当該記載箇所がどのように不適切であるかの説明文503である『語句「大量の」および「文書の」の修飾先が曖昧です。』をポップアップ表示する。
【0030】
図6は、入力画面の一例を示す説明図である。文書校正支援装置1は、利用者の操作により、入力画面600から文書ファイルD1の格納場所601を指定する。また、文書校正支援装置1は、利用者の操作により参照ボタン602を押下すると、文書ファイルの格納場所601を探索する。また、文書校正支援装置1は、利用者の操作により、入力画面600から、文章の修正に費やせる入力修正時間Tinを指定する。文書校正支援装置1は、利用者の操作によりチェック実行ボタン604を押下すると、格納場所601が指定された文書ファイルD1のチェックを実行する。文書校正支援装置1は、利用者の操作によりキャンセルボタン605を押下すると、格納場所601が指定された文書ファイルD1のチェック実行をキャンセルする。
【0031】
図7は、出力画面の一例を示す説明図である。
図7では、出力画面700は、出力文書ファイルD2が格納されたURL701を表示する。文書校正支援装置1は、利用者の操作によりこのURL701を指定すると、出力文書ファイルD2を開いて出力画面700に表示する。また、出力画面700は、入力修正時間Tin内に修正すべき修正箇所のデータが格納されたURL702を表示する。文書校正支援装置1は、利用者の操作によりこのURL702を指定すると、修正箇所に関するデータを開いて出力画面700に表示する。
【0032】
<重要文抽出処理>
つぎに、
図1に重要文抽出部5による重要文抽出処理について説明する。
【0033】
図8は、重要文抽出ルール13の一例を示す説明図である。重要文抽出ルール13は、あらかじめ用意されたテーブルである。重要文抽出ルール13は、フィールドとして、ルールID801と、ルール802と、ルールの重要度803と、を有し、各フィールド801〜803の値により、ルールを規定するエントリを構成する。
【0034】
ルールID801は、値として、ルールを一意に特定する識別情報を格納する記憶領域である。ルール802は、値として、ルールを格納する記憶領域である。ルールは、重要文を抽出する条件である。ルールの重要度803は、値として、ルールの重要度を格納する記憶領域である。本実施例では、重要度803の値が高いルールほど、重要なルールであることを示す。
【0035】
図9は、重要文抽出部5による重要文抽出処理の詳細な処理手順例を示すフローチャートである。まず、重要文抽出部5は、テキスト文章400において、未処理の文が残っているかを判断し(ステップS901)、残っていない場合(ステップS901:No)、ステップS907に進む。残っている場合(ステップS901:Yes)、重要文抽出部5は、未処理の文を1つ選択する(ステップS902)。重要文抽出部5は、未照合の重要文抽出ルール13が残っているかを判断する(ステップS903)。
【0036】
残っていない場合(ステップS903:No)、ステップS901に戻る。残っている場合(ステップS903:Yes)、重要文抽出部5は、選択文と未照合のルールを重要文抽出ルール13から1つ選択する(ステップS904)。そして、重要文抽出部5は、選択文が選択ルールに合致するか判断する(ステップS905)。合致しない場合(ステップS905:No)、ステップS903に戻る。合致する場合(ステップS905:Yes)、重要文抽出部5は、選択文の重要度を表す「文重要度」に、選択ルールの重要度803の値を加算し、ステップS903に戻る(ステップS906)。最後に、重要文抽出部5は、最も高い文の重要度Smaxを1に正規化し、他の文の文重要度をそれぞれ重要度Smaxで除算して正規化する(ステップS907)。なお、重要文抽出部5は、選択文ごとに、文IDと、合致したルールのルールID801の値と、正規化された重要度と、の組み合わせを、抽出結果として保持する。これにより、重要文抽出部5は、重要度抽出処理を終了する。
【0037】
<文章解析結果テーブル>
図10は、文章解析結果テーブル14の一例を示す説明図である。文章解析結果テーブル14は、文単位でデータを格納するテーブルである。文章解析結果テーブル14は、フィールドとして、文ID1001と、単語ID1002と、単語見出し1003と、品詞1004と、活用形1005と、文重要度1006と、を有し、各フィールド1001〜1006の値によりエントリを構成する。
【0038】
文ID1001は、値として、文を一意に特定する識別情報である文IDを格納する記憶領域である。文章解析部2は、重要文抽出部5によって得られた文の文IDを文ID1001に格納する。単語ID1002は、値として、単語を一意に特定する識別情報である単語IDを格納する記憶領域である。文章解析部2は、文ごとに、形態素解析された単語の各々について単語IDを割り当てて単語ID1002に格納する。
【0039】
単語見出し1003は、値として、単語を格納する記憶領域である。文章解析部2は、文ごとに、形態素解析された単語の各々を単語IDに対応付けて単語見出し1003に格納する。品詞1004は、値として、単語の品詞を格納する記憶領域である。文章解析部2は、文ごとに、形態素解析された単語の品詞の各々をその単語IDに対応付けて品詞1004に格納する。活用形1005は、値として、単語の活用形を格納する記憶領域である。文章解析部2は、文ごとに、形態素解析された単語の活用形の各々をその単語IDに対応付けて活用形1005に格納する。文重要度1006は、値として、重要文抽出部5によって得られた文の文重要度を格納する記憶領域である。文章解析部2は、文ごとに、
図9のステップS907において重要文抽出部5によって得られた文の文重要度を、その文IDに対応付けて文重要度1006に格納する。
【0040】
ここで、文重要度1006への文重要度の格納処理例について具体的に説明する。たとえば、
図4の冒頭の文を、文ID1001の値が「1」である文IDにより特定される文とする。この文ID:1の文は、段落の冒頭の文であるため、
図8に示すルールR−001を満たす。したがって、文ID:1のエントリには、ルールR−001の重要度:1.0が文重要度1006の値として仮設定される。
図4に示す文の中で文重要度が最も高い文は、5番目の文(例として文ID:5)であり、ルールR−001およびR−005を満たす。したがって、文ID:5のエントリ(
図10では不図示)には、ルールR−001およびR−005の重要度:1.8(=1.0+0.8)が文重要度1006の値として仮設定される。
【0041】
文ID:5の文重要度1006が最大値であるため、重要文抽出部5は、
図9に示した正規化処理(ステップS907)により、文ID:5である文の文重要度1006を1.0(=1.8÷1.8)に正規化し、かつ、文ID:1である文の文重要度1006を0.56(=1÷1.8)に正規化する。文章解析部2は、文ID:5である文の文重要度1006を1.0(=1.8÷1.8)に設定し、かつ、文ID:1である文の文重要度1006を0.56(=1÷1.8)に設定する。
【0042】
<文チェック項目テーブル15>
図11は、文チェック項目テーブル15の一例を示す説明図である。文チェック項目テーブル15は、あらかじめ用意されたテーブルである。文チェック項目テーブル15は、フィールドとして、文チェック項目ID1101と、文チェック項目1102と、重要度1103と、出力メッセージ雛型1104と、を有し、各フィールド1101〜1104の値によりエントリを構成する。
【0043】
文チェック項目ID1101は、値として、文チェック項目を一意に特定する識別情報である文チェック項目IDを格納する記憶領域である。文チェック項目1102は、値として、文内の不適切箇所の存在を確認する項目であるチェック項目を格納する記憶領域である。重要度1103は、値として、文を理解する際に与える影響度を定量化した値である重要度を格納する記憶領域である。出力メッセージ雛型1104は、値として、当該チェック項目に合致した記載箇所に付随して出力するメッセージデータである出力メッセージ雛型を格納する記憶領域である。たとえば、
図5Bの説明文503が出力メッセージ雛型に該当する。
【0044】
<文チェックルール>
図12は、文チェックルール16の一例を示す説明図である。文チェックルール16は、あらかじめ用意されたテーブルである。ここでは、文チェックルール16は、文チェック項目テーブル15の各々のチェック項目に対する具体的な照合ルールを定義する。文チェックルール16は、フィールドとして、文チェック項目ID1201と、文チェックルールID1202と、文チェックルール1203と、予想入力修正時間1204と、を有し、各フィールド1201〜1204の値により文チェックルールを示すエントリを構成する。
【0045】
文チェック項目ID1201は、値として、文チェック項目を一意に特定する識別情報である文チェック項目IDを格納する記憶領域である。文チェックルールID1202は、値として、文チェックルールを一意に特定する識別情報である文チェックルールIDを格納する記憶領域である。文チェックルール1203は、値として、文チェック項目1102を具体的に定義する文チェックルールを格納する記憶領域である。予想修正時間1204は、値として、文チェックルールに合致した不適切な記載箇所を修正するのに要する推定時間である予想修正時間を格納する記憶領域である。
【0046】
<文章チェック結果テーブル>
図13は、文章チェック結果テーブル17の一例を示す説明図である。文章チェック結果テーブル17は、ルール照合部7およびスコア算出部8によって生成されるテーブルである。文章チェック結果テーブル17は、文ID1301と、文重要度1302と、文スコア1303と、抽出文チェック項目1304と、を有し、各フィールド1301〜1304の値によりエントリを構成する。
【0047】
文ID1301は、値として、文を一意に特定する識別情報である文IDを格納する記憶領域である。ルール照合部7は、文章解析結果テーブル14の文ID1001の値を取得して、文ID1301に格納する。文重要度1302は、値として、文IDで特定される文の文重要度を格納する記憶領域である。ルール照合部7は、文章解析結果テーブル14の文ID1301の値に対応する文重要度1006の値を取得して、文重要度1302に格納する。
【0048】
文スコア1303は、値として、文IDで特定される文の出来栄えを定量化した値である文スコアを格納する記憶領域である。スコア算出部8は、文ごとに文スコアを算出して、文スコア1303に格納する。抽出文チェック項目1304は、値として、文IDで特定される文に合致した文チェックルール16に関する項目である抽出文チェック項目を格納する記憶領域である。抽出文チェック項目1304は、フィールドとして、文チェックルールID1341と、該当記載箇所1342と、重要度1343と、予想修正時間1344と、を有する。
【0049】
文チェックルールID1341は、値として、文チェックルールを一意に特定する識別情報である文チェックルールIDを格納する記憶領域である。ルール照合部7は、文章解析結果テーブル14を参照して、文ごとに、どの文チェック項目1101,1201のどの文チェックルール1203に該当するか判断する。そして、ルール照合部7は、該当する文チェックルール1203の文チェックルールID1202を特定し、文チェックルールID1341に格納する。
【0050】
該当記載箇所1342は、値として、文IDで特定される文中において文チェックルールに合致する記載箇所を示す文字列を格納する記憶領域である。ルール照合部7は、文章解析結果テーブル14、文チェック項目テーブル15、および文チェックルール16を参照して、文ごとに、文チェックルール1203に該当した記載箇所を特定し、該当記載箇所1342に格納する。
【0051】
重要度1343は、値として、文チェックルールに対応する文チェック項目の重要度を格納する記憶領域である。ルール照合部7は、文チェック項目テーブル15、および文チェックルール16を参照して、文ごとに、文チェックルール1203に対応する文チェック項目ID1201,1101を特定し、重要度1103を取得する。そして、ルール照合部7は、取得した重要度1103の値を重要度1343に格納する。予想修正時間1344は、値として、予想修正時間を格納する記憶領域である。ルール照合部7は、文章解析結果テーブル14、文チェック項目テーブル15、および文チェックルール16を参照して、文ごとに、文チェックルール1203に関連付けされた予想修正時間1204を取得し、予想修正時間1344に格納する。
【0052】
ここで、文章チェック結果テーブル17への格納処理例について具体的に説明する。たとえば、文ID:1のエントリでは、文チェックルールID1341の値が「C−002−CR−001」である。
図11および
図12に示したように、文チェックルールID:C−002−CR−001に対応する文チェック項目1101,1201の値は、「C−002」である。
図11に示したように、文チェック項目:C−002に対応する重要度1103および予想修正時間の値は、それぞれ「0.9」と「120秒」である。したがって、文ID:1の重要度1343には、「0.9」が格納され、予想修正時間1344には「120秒」が格納される。
【0053】
ルール照合部7は、文章解析結果テーブル14、文チェック項目テーブル15および文チェックルール16を参照して、テキスト文章400の中で、文チェックルールに合致する記載箇所を特定する。そして、ルール照合部7は、合致した文チェックルールの文チェックルールIDと、特定された記載箇所と、文チェックルールIDに対応する重要度および予想修正時間とを、文章チェック結果テーブル17の文チェックルールID1341、該当記載箇所1342、重要度1343、および予想修正時間1344に格納する。
【0054】
スコア算出部8は、文章チェック結果テーブル17に格納された不適切な記載箇所のデータと、文チェック項目テーブル15に定義された各文チェック項目の重要度とをもとに、文章の出来栄えを定量化したスコアを算出する。具体的には、たとえば、スコア算出部8は、まず文単位でスコアを算出し、次に、その平均値を計算することで、文章単位のスコアを算出する。具体的には、
図13の文章チェック結果テーブル17において、スコア算出部8は、文毎に、抽出文チェック項目1342の重要度1343の総和を算出する。例えば、
図13において、文ID:1の重要度の総和は「0.9」、文ID:2の重要度の総和は「0.2」、文ID:3の重要度の総和は「0.9」(=0.1+0.6+0.2)となる。
【0055】
スコア算出部8は、各文の重要度の総和に対して、下記式1によって文毎のスコアである文スコア1303の値(文スコア)を算出する。
【0056】
[式1]
文スコア=100・・・・・・(重要度の総和<Thの場合)
=100×Th÷重要度の総和・・・(重要度の総和≧Thの場合)
【0057】
ここで、Thは予め定義された閾値であり、利用者が自由に設定可能である(本実施例はTh=0.3とする)。
図13において、文ID:1の文スコアは33.3(=0.3÷0.9)、文ID:2の文スコアは100.0(0.2<Th(=0.3)であるため)、文ID:3の文スコアは33.3(=0.3÷0.9)となる。そして、スコア算出部8は、文スコアの平均値を算出して、文章全体としてのスコアを算出する。
図13では、文章全体のスコアは、12個の文スコアの平均値42.8となる。
【0058】
修正箇所特定部9は、利用者が入力した文章の修正に費やせる入力修正時間Tinに基づいて、文章チェック結果テーブル17に格納された不適切な記載箇所のうち、どの不適切な記載箇所をどういった順序で利用者に修正させるべきかを決定する。不適切な記載箇所を修正するパターンとして、以下の3通りが考えられる。
【0059】
(パターン1)文章の冒頭から順に修正する。
利用者が修正に費やせる入力修正時間Tinが、修正にかかる実際の時間以上である場合、文章の冒頭から修正するのが最も効率的である。なぜなら、文章の流れを把握しながら修正できるためである。しかし、入力修正時間Tinが、修正にかかる実際の時間よりも短い場合、文章の最後まで修正ができない。その結果、文章の最後の方に、文章の理解において重要な文があり、その重要文の中に重大な不適切記載があった場合、利用者は修正ができないことになる。
【0060】
(パターン2)重要な文チェック項目から順に修正する。
利用者が修正に費やせる入力修正時間Tinが、修正にかかる実際の時間よりも短い場合、利用者は、不適切な記載箇所のすべてを修正できない。この場合、より重要な文チェック項目を含む文から順に修正するのが効率的である。しかし、修正箇所が文章の中で飛び飛びに存在するので、利用者は、上記(パターン1)のように、文章の流れを把握しながら修正できない。その結果、利用者は、文章の流れに矛盾した修正を行ってしまう可能性がある。
【0061】
(パターン3)文章の中で意味的に重要な文から順に修正する。
利用者が修正に費やせる入力修正時間Tinが、修正にかかる実際の時間よりも非常に短い場合、利用者は、重大なチェック項目から順に修正することも十分にできないことがある。この場合、「文章の中で意味的に重要な文で、かつ、重要な文チェック項目を含む文」から順に修正するのが効率的である。
【0062】
しかし、利用者は、どの文が意味的に重要であるか、どの文がどのくらい不適切か、また、修正にどのくらい時間がかかるのかを把握できない。そのため、利用者は、上記3パターンのうち、どのパターンに基づいて文章を修正したらよいかが分からない。そこで、文書校正支援装置1は、利用者が文章の修正に費やせる入力修正時間Tinと文章チェック結果とから、どの記載箇所をどういった順序で修正すべきかを決定し、修正箇所テーブル18に格納する。そして、文書校正支援装置1は、出力デバイス204を介して利用者に提示する。
【0063】
以下、
図13に記載された文章チェック結果テーブル17を例に説明する。
図13では、文章の予想修正時間(各文の予想修正時間1344の総和)が17分(1020秒)と推定されている。文章の予想修正時間は、「修正にかかる実際の時間」の予測値である。
【0064】
<修正箇所テーブル>
図14Aおよび
図14Bは、修正箇所テーブル18の一例を示す説明図である。修正箇所テーブル18は、フィールドとして、修正順序1401と、修正対象文ID1402と、予想修正時間1403と、予想類型修正時間1404と、文重要度1405と、文スコア1406と、修正箇所1407とを有し、各フィールド1401〜1407の値によりエントリを構成する。また、修正箇所1407は、フィールドとして、文チェックルールID1471と、当該記載箇所1472と、予想修正時間1473と、を有する。
【0065】
修正順序1401は、値として、修正の順番を規定する値である修正順序を格納する記憶領域である。修正対象文ID1402は、値として、修正対象文の文IDを格納する記憶領域である。予想修正時間1403は、値として、修正対象文の予想修正時間を格納する記憶領域であり、同一エントリにおける1以上の予想修正時間1473の値の総和となる。予想累積修正時間1404は、値として、そのエントリまでの予想修正時間1403の累積値である予想累積修正時間を格納する記憶領域である。文重要度1405、文スコア1406、文チェックルールID1471、当該記載箇所1472、および予想修正時間1473は、
図13に示した文章チェック結果テーブル17の同一文ID1301のエントリにおける文重要度1302、文スコア1303、文チェックルールID1341、当該記載箇所1342、および予想修正時間1344からコピーされた値を格納する記憶領域である。
【0066】
図14Aおよび
図14Bは、入力修正時間Tinが30分と入力された場合の結果であり、入力修正時間Tinが、文章の予想修正時間1344(17分)よりも長い場合の一例である。この場合、上記(パターン1)に相当する。文書校正支援装置1は、修正すべき記載箇所のすべてを、文章の冒頭から順に修正箇所テーブル18に格納し、出力デバイス204を介して利用者に提示する。
【0067】
図15は、修正箇所テーブル18の他の例を示す説明図である。
図15は、入力修正時間Tinが15分と入力された場合の結果であり、入力修正時間Tinが、文章の予想修正時間1344(17分)よりも短い場合の一例である。この場合、上記(パターン2)に相当する。文書校正支援装置1は、文章チェック結果テーブル17において、ある閾値以上の重要度1343である文チェック項目を含む文にかかる記載箇所を修正箇所テーブル18に格納し、出力デバイス204を介して利用者に提示する。
図13において、仮にこの閾値を0.8とした場合、該当する文は、文ID:1、文ID:5、文ID:8、文ID:11、文ID:12であり、各文の予想修正時間1344は、それぞれ120秒、180秒、110秒、180秒、120秒であり、この5個の文の合計時間は、710秒(11分50秒)である。文書校正支援装置1は、は、入力修正時間Tinである15分以内でこの5個の文を修正すべきであると判定する。
【0068】
図16は、修正箇所テーブル18の他の例を示す説明図である。
図16は、入力修正時間Tinが5分と入力された場合の結果であり、入力修正時間Tinが、予想修正時間1344(17分)に比べて非常に短い場合の一例である。この場合、上記(パターン3)に相当する。文書校正支援装置1は、『文章の中で意味的に重要な文で、かつ、文スコアの低い文』にかかる記載箇所を修正箇所テーブル18に格納し、出力デバイス204を介して利用者に提示する。本実施例では、文書校正支援装置1は、
図13の文章チェック結果テーブル17の文重要度1302と文スコア1303の値とを用いて、『文章の中で意味的に重要な文で、かつ、文スコアの低い文』を特定する。ために、すなわち、以下の計算式によって求められる値の高い文を特定する。
【0069】
[式2]
(W×文重要度1302の値)×{(1−W)×(100−文スコア1303の値)}
【0070】
ここで、Wは、文重要度1302と文スコア1303のバランスを定義する重みであり、利用者が自由に設定可能である。
【0071】
図13において式2の値が高い文は、文ID:5、文ID:8の順であり、その予想修正時間1344は、それぞれ180秒、110秒であり、この2個の文の修正に要する合計時間は、290秒(4分50秒)である。文書校正支援装置1は、5分以内で文ID:5および文ID:8の重要文を修正すべきであると判定する。
【0072】
図17は、修正箇所特定部9の詳細な処理手順例を示すフローチャートである。まず、文書校正支援装置1は、文章チェック結果テーブル17に格納された予想修正時間1344の合計(
図13の例では1020秒)が、入力修正時間Tinよりも短いか否かを判別する(ステップS1701)。短い場合(ステップS1701:Yes)、上記パターン1に該当する。したがって、文書校正支援装置1は、文章チェック結果テーブル17に格納されたすべての不適切箇所にかかるデータとして、文ID1301、文重要度1302、文スコア1303、文チェックルールID1341、該当記載箇所1342、予想修正時間1344を、文章に記載された順に修正箇所テーブル18に格納し、処理を終了する(ステップS1702)。
【0073】
ステップS1701で短くない場合(ステップS1701:No)、文書校正支援装置1は、ある閾値以上の重要度である文チェック項目を含む文の予想修正時間1344の合計が、入力修正時間Tinよりも短いか否かを判別する(ステップS1703)。短い場合(ステップS1703:Yes)、上記パターン2に該当する。したがって、文書校正支援装置1は、文章チェック結果テーブル17に格納された、当該文にかかる不適切箇所にかかるデータとして、文ID1301、文重要度1302、文スコア1303、文チェックルールID1341、該当記載箇所1342、予想修正時間1344を、文章に記載された順に修正箇所テーブル18に格納し、処理を終了する(ステップS1704)。
【0074】
ステップS1703で短くない場合(ステップS1704:No)、上記パターン3に該当する。したがって、文書校正支援装置1は、文章チェック結果テーブル17に文IDが格納されたすべての文について、文重要度1302と文スコア1303を式2に与えて計算する(ステップS1705)。計算結果を指標値と称す。つぎに、文書校正支援装置1は、指標値が最も高い文の予想修正時間1344を、予想修正時間1344の積算値Tに加算する(ステップS1706)。そして、文書校正支援装置1は、予想修正時間1344の積算値T(初期値0)が、入力修正時間Tinを超えるか否かを判別する(ステップS1707)。
【0075】
超えない場合(ステップS1707:No)、文書校正支援装置1は、指標値が最も高い文について、文章チェック結果テーブル17に格納された、当該文にかかる不適切箇所にかかるデータである文ID1301、文重要度1302、文スコア1303、文チェックルールID1341、該当記載箇所1342、および予想修正時間1344の値を、修正箇所テーブル18に格納し、当該文の指標値を0にして、ステップS1706に戻る(ステップS1708)。一方、予想修正時間1344の積算値T(初期値0)が、入力修正時間Tinを超えた場合(ステップS1707:Yes)、文書校正支援装置1は、一連の処理を終了する。
【0076】
<出力画面例>
図18は、修正箇所テーブル18の出力画面の一例を示す説明図である。
図18では、文書校正支援装置1は、
図16の内容に基づいて表示する。出力画面1800の上部1801において、文書校正支援装置1は、修正箇所テーブル18の内容および文チェック項目テーブル15の出力メッセージ雛型1104を元に、修正箇所1802を修正順に出力する。文書校正支援装置1は、利用者の操作により修正箇所1802に記載された該当記載箇所1803をクリックすると、対応する文の記載箇所にジャンプして、出力画面1800の下部1804に対応する文の内容1805を表示する。
【0077】
図19は、入力画面の他の例を示す説明図である。
図19の入力画面1900は
図6の変形例である。
図19では、文書校正支援装置1は、利用者の操作により、第1指定領域1901において、文章チェック対象となるファイルの種別を指定し、または/および、第2指定領域1902において、文章チェック対象となるファイルの用途を指定する。ファイルの種別としては、基本仕様書、詳細仕様書、報告書、特許、論文などが挙げられる。文書校正支援装置1は、文書ファイルD1の種別に応じて、チェックすべき文チェック項目テーブル15および文チェックルール16のエントリを選択したり、重要度1103の値を変更する。
【0078】
また、ファイルの用途としては、顧客提出用、内部議論用などが挙げられる。例えば、顧客に提出する文書の場合、誤字、脱字やなど、文章の体裁にかかる不適切箇所が重要視される。この場合、文書校正支援装置1は、文書ファイルD1の用途に応じて、チェックすべき文チェック項目テーブル15および文チェックルール16のエントリを選択したり、重要度1103の値を変更する。
【0079】
なお、文書ファイルD1や、チェックすべき文チェック項目テーブル15および文チェックルール16のエントリには、その種別や用途を示す情報が付与されているものとする。このように、文書校正支援装置1は、文書ファイルD1の種別や用途に応じて、文チェック項目テーブル15および文チェックルール16を定義しておくことにより、文書校正支援装置1は、ファイルの種別および用途に応じた、最適な文章チェックを行うことができる。
【0080】
図20は、入力画面の他の例を示す説明図である。
図20の入力画面2000は
図6の変形例である。
図20では、文書校正支援装置1は、修正箇所特定部9により、文重要度および文スコアに基づいて、修正すべき文の指標値を算出する際に、利用者の操作により、文重要度および文スコアのバランス比率2001を指定する。
図20では、文書校正支援装置1は、利用者の操作により、文重要度および文スコアのバランス比率2001を1対2に指定する。この比率は、
図17のステップS1705における重みWに反映される。この場合、Wの値は0.33(=1/(1+2))となる。
【0081】
たとえば、バランス比率2001において文重要度を高めれば、重要な文チェック項目に合致するほどその文の指標値が高くなる。したがって、文書校正支援装置1は、パターン3において優先的にその文の該当記載箇所1342を修正箇所テーブル18に格納する。一方、バランス比率2001において文スコアを高めれば、意味的に重要な文の指標値が高くなる。したがって、文書校正支援装置1は、パターン3において優先的にその文の該当記載箇所1342を修正箇所テーブル18に格納する。このように、修正箇所の提示に利用者の意図を反映させることができる。
【0082】
次に、本実施例の拡張例について説明する。本実施例では、
図13で示したように、文書校正支援装置1は、予想される修正時間を、文チェックルール16の予想修正時間1344として固定的に定義する。しかし、修正にかかる時間は、利用者によってまちまちである。そこで、文書校正支援装置1は、この予想修正時間1344を初期値として扱い、利用者が実際に修正箇所を修正している時間を測定し、その平均値により予想修正時間1344を動的に更新してもよい。
【0083】
この場合、一人の利用者に特化して予想修正時間1344を算出および更新をしてもよいし、複数の利用者を対象に予想修正時間1344の平均値を算出および更新してもよい。予想修正時間1344の測定については、例えば、
図18の画面の上部の修正箇所のリストに、文チェック項目毎に、修正開始ボタンおよび修正終了ボタンを設け、文書校正支援装置1は、利用者がこれらのボタンを押下した時刻から、修正開始から修正終了までにかかる実修正時間を計測する。そして、文書校正支援装置1は、文ID1301の文ごとに計測した実修正時間で、文章チェック結果テーブル17の予想修正時間1344の値を更新する。これにより、予想修正時間1344の最適化を図ることができる。
【0084】
このように、本実施例によれば、文書校正支援装置1は、与えられた修正時間に応じた効率的な修正方法を提示することができる。
【0085】
また、利用者が修正に費やせる入力修正時間Tinが、修正にかかる時間(予想修正時間1344の総和)以上である場合、文章の冒頭からの修正を提示する(パターン1)。これにより、利用者は、最も効率的な修正をおこなうことができる。
【0086】
また、利用者が修正に費やせる入力修正時間Tinが、修正にかかる時間(予想修正時間1344の総和)よりも短い場合、利用者は、不適切な記載箇所のすべてを修正できない。この場合、文書校正支援装置1は、より重要な文チェック項目を含む文からの修正を提示する(パターン2)。これにより、利用者は、重要な文に絞り込んで、入力修正時間Tin内に修正作業をおこなうことができる。
【0087】
また、利用者が修正に費やせる入力修正時間Tinが、修正にかかる時間(予想修正時間1344の総和)よりも非常に短い場合、利用者は、重大なチェック項目から順に修正することも十分にできないことがある。この場合、文書校正支援装置1は、「文章の中で意味的に重要な文で、かつ、重要な文チェック項目を含む文」からの修正を提示する(パターン3)。これにより、利用者は、さらに、意味的にも重要な文に絞り込んで、文章の流れを把握しながら、入力修正時間Tin内に修正作業をおこなうことができる。
【0088】
なお、本実施例では、
図1において、文書校正支援装置1は、文章解析部2と、文チェック部6と、出力文書生成部10と、入力文書DB(データベース)11と、単語辞書12と、重要文抽出ルール13と、文章解析結果テーブル14と、文チェック項目テーブル15と、文チェックルール16と、文章チェック結果テーブル17と、修正箇所テーブル18と、を有する構成とした。
【0089】
これに対し、文章解析部2、ルール照合部7、スコア算出部8、入力文書DB11、単語辞書12、重要文抽出ルール13、文章解析結果テーブル14、文チェック項目テーブル15、および文チェックルール16は、外部装置に設けられてもよい。この場合、文書校正支援装置1は、当該外部装置から、修正箇所特定部9の実行に必要な情報を取得して、
図17に示した処理を実行するようにしてもよい。
【0090】
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
【0091】
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
【0092】
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
【0093】
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。