(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-05
(45)【発行日】2024-06-13
(54)【発明の名称】文書検査装置及び文書検査方法
(51)【国際特許分類】
G06F 40/253 20200101AFI20240606BHJP
【FI】
G06F40/253
(21)【出願番号】P 2020187769
(22)【出願日】2020-11-11
(62)【分割の表示】P 2020000048の分割
【原出願日】2020-01-05
【審査請求日】2022-12-05
(73)【特許権者】
【識別番号】320012543
【氏名又は名称】フロンティアアスペクト合同会社
(74)【代理人】
【識別番号】100153811
【氏名又は名称】青山 高弘
(72)【発明者】
【氏名】青山 高弘
【審査官】成瀬 博之
(56)【参考文献】
【文献】特許第6952371(JP,B2)
【文献】特開平09-325962(JP,A)
【文献】特開平09-198387(JP,A)
【文献】特開昭62-290965(JP,A)
【文献】特開昭62-290967(JP,A)
【文献】特開2012-256197(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
少なくともCPU(Central Processing Unit)を有する処理装置を備え、
前記処理装置は、
電子化された文書において、第1の検索において検索された第1語句を保存し、
前記第1語句を、第2の検索で検索されない文字列に置き換えた後、前記第2の検索を行い、前記第2の検索で検索された第2語句を保存し、
前記電子化された文書において、前記第1語句及び前記第2語句の少なくとも一方に対して強調表示を行う情報を組み込む処理を行い、
前記第2の検索の対象は、前記第1の検索の対象を含む、文書検査装置。
【請求項2】
前記第2の検索で用いる検索式は、前記第1の検索で抽出される文字列を含む文字列を抽出する検索式である、ことを特徴とする、請求項1に記載の文書検査装置。
【請求項3】
電子化された文書において、第1の検索において検索された第1語句を保存し、
前記第1語句を、第2の検索で検索されない文字列に置き換えた後、前記第2の検索を行い、前記第2の検索で検索された第2語句を保存
し、
前記電子化された文書において、前記第1語句及び前記第2語句の少なくとも一方に対して強調表示を行う情報を組み込む処理を行うことで、前記電子化された文書の電子ファイルを作成する方法であって、
前記第2の検索の対象は前記第1の検索の対象を含む、電子ファイルの作成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書検査装置及び文書検査方法に関する。
【背景技術】
【0002】
情報技術の発達に伴い、従来、人が行っていた文章の検査を情報処理装置を使って行うことが行われている。
【0003】
特許文献1は、誤りの重要度を判定する重要度判定手段を設け、情報表示手段が誤りに関する説明を重要度の大きい順に表示するように構成する学習または文書作成についての支援を行なう支援装置について開示している。
【0004】
特許文献2は、文書中から、特定の文字列と用語接尾語とを認識して特定し、文書に対して形態素解析を行い、文書中の品詞を特定し、形態素解析の結果に基づき、用語接尾語の前に連続する名詞を用語接尾語に連結することで、用語の候補である用語候補を特定し、特定された用語候補間で、特定の文字列の使用の整合性をチェックする文書チェック装置について開示している。
【先行技術文献】
【特許文献】
【0005】
【文献】特開平8-030598号公報
【文献】特開2011-118861号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述の文献に記載された文書の検査の方法は有用なものと考えられる。しかしながら、情報処理装置による文書の検査を行った場合であっても、人による検査の負担は未だ大きい場合があった。
【0007】
本開示は、上述の事情に鑑みてされたものであり、人による検査をより容易にすることのできる文書検査装置及び文書検査方法について開示する。
【課題を解決するための手段】
【0008】
本開示の文書検査装置は、処理装置を備え、前記処理装置は、文書が保存されたファイルを入力し、前記文書に含まれる語句の正否を判定し、入力されたファイルと同じファイル形式で、正しいと判定された語句に対して強調表示を行う情報を組み込んだファイルを出力する文書検査装置である。
【0009】
また、本開示の文書検査装置においては、前記処理装置は、更に、正しくないと判定された語句に対して、正しいと判定された語句の強調表示とは異なる強調表示を行う情報を組み込んだファイルを出力してもよい。
【0010】
また、本開示の文書検査装置においては、前記処理装置は、更に、前記文書内に含まれる語句のリスト、及び/又は前記文書内に含まれる語句の出現回数、に基づいて正しい語句を決定し、前記正否を判定する処理に用いることとしてもよい。
【0011】
また、本開示の文書検査装置においては、前記正しい語句を決定する処理は、第1の検索において検索された第1語句を保存し、複製された前記文書において、前記第1語句を、第2の検索で検索されない文字列に置き換えた後、第2の検索を行い、前記第2の検索で検索された第2語句を保存する処理を有してもよい。
【0012】
また、本開示の文書検査装置においては、前記処理装置は、前記ファイルの出力の際に、前記正否の判定に係る情報を表示させることとしてもよい。
【0013】
また、本開示の文書検査装置においては、前記正否の判定に係る情報は、少なくとも正しいと判定されるべき語句、又は正しくないと判定された語句の数のいずれかを含むこととしてもよい。
【0014】
また、本開示の文書検査装置においては、前記正否を判定する処理は、第1の検索において検索された第1語句を保存し、複製された前記文書において、前記第1語句を、第2の検索で検索されない文字列に置き換えた後、第2の検索を行い、前記第2の検索で検索された第2語句を保存する処理を有してもよい。
【0015】
本開示の文書検査方法は、文書が保存された電子ファイルを入力し、前記文書に含まれる語句の正否を判定し、入力されたファイルと同じファイル形式で、正しいと判定された語句に対して強調表示を行う情報を組み込んだファイルを出力する文書検査方法である。
【0016】
本開示の文書検査装置は、処理装置を備え、前記処理装置は、電子化された文書において、第1の検索において検索された第1語句を保存し、前記文書における前記第1語句を、第2の検索で検索されない文字列に置き換えた後、第2の検索を行い、前記第2の検索で検索された第2語句を保存する文書検査装置である。
【図面の簡単な説明】
【0017】
【
図1】文書検査装置のハードウェア構成の一例について示す図である。
【
図2】文書検査装置がネットワークに接続されて利用される例について示す図である。
【
図3】文書検査装置の文書検査処理の例について示すフローチャートである。
【
図4】文書検査装置の語句抽出処理の例について示すフローチャートである。
【
図5】ファイルの出力の際、表示装置に表示される画面の例について示す図である。
【
図6】出力されたファイルを表示装置に表示した際の例について示す図である。
【発明を実施するための形態】
【0018】
以下、本開示の文書検査装置1の構成及び機能について、図面を参照して説明する。説明において同様の要素には同一の符号を付して、重複する説明を適宜省略する。本開示において、「同じファイル形式」とは、例えば、同じアプリケーションによって開くことが可能であること、及び/又は例えば同じ拡張子を有するファイルを意味する。「検索」には、文字列検索における、いわゆる正規表現を用いた検索を含む。「語句」は、単語及び熟語で形成される用語を含み、形容詞が接続された用語を含む意味である。本開示において、「ファイル」は電子ファイルを意味する。
【0019】
図1は、文書検査装置1のハードウェア構成の一例について示す図である。この図に示されるように、文書検査装置1は、処理装置10及び入出力機器インタフェース15を備えている。処理装置10は、主に半導体回路素子を用いた電子回路で構成された、いわゆる情報処理装置とすることができる。例えば、CPU(Central Processing Unit)11、RAM(Random Access Memory)等の揮発性記憶部12、フラッシュメモリやハードディスク等の不揮発性記憶部13、及び通信ネットワークに接続するためのネットワークインタフェース14を有している。入出力機器インタフェース15は、表示装置、キーボード、タッチパネル等の入出力機器16を接続するためのインタフェースとなる半導体素子等を含んでいてもよい。処理装置10は、文書が保存されたファイルを入力し、文書に含まれる語句の正否を判定し、入力されたファイルと同じファイル形式で、正しいと判定された語句に対して強調表示を行う情報を組み込んだファイルを出力してもよい。また、処理装置10は、電子化された文書において、第1の検索において検索された第1語句を保存し、第1語句を、第2の検索で検索されない文字列に置き換えた後、第2の検索を行い、第2の検索で検索された第2語句を保存することとしてもよい。
【0020】
以下、文書検査装置1の具体的な処理について説明するが、文書検査装置1により行われる処理は、上述のハードウェアを動作させるソフトウェア(アプリケーション)によって実現されるものとすることができる。
【0021】
本実施形態における文書検査装置1は、文書検査装置1に保存された文書ファイルを処理する、いわゆるスタンドアロンで動作するものとしてもよいし、
図2に示されるように通信ネットワーク3に接続され、利用者端末2から通信ネットワーク3を介して接続され、利用者端末2から文書ファイルを受信して、受信した文書ファイルを処理するものであってもよい。受信した文書ファイルを処理するものである場合には、入出力機器インタフェース15及び入出力機器16を有していなくてもよい。
【0022】
図3は、文書検査装置1の文書検査処理S100の例について示すフローチャートである。このフローチャートに示されるように、処理装置10は、通信ネットワーク3を介して文書検査装置1で受信した、又は文書検査装置1に保存されたファイルを入力し、入力されたファイル内の文書に基づいて、判定に用いられる正しい語句を決定する(ステップS101)。この判定に用いられる正しい語句の決定の際には、処理装置10は、ファイルの文書内に含まれる語句のリスト、及び/又は文書内に含まれる語句の出現回数、に基づいて正しい語句を決定することとすることができる。例えば、文書が特許明細書である例では、「符号の説明」欄の記載された用語と符号との組合せを正しい語句として決定してもよく、また「発明を実施するための形態」欄に記載された符号に対する用語の組合せにおいて、出現回数の多い組合せを正しい語句として決定してもよい。処理装置10は、これらいずれかを用いてもよいし、両方を用いてもよい。
【0023】
また、例えば出現回数の多い組合せを正しい語句として決定する際に、文書から語句を抽出する必要がある。
図4は、文書検査装置1の語句抽出処理S200の例について示すフローチャートである。このフローチャートに示されるように、処理装置10は、まず第1の検索により語句を検索(抽出)する(ステップS201)。ここでの検索は、いわゆる正規表現を用いた検索式による検索としてもよい。次に、検索された語句を保存し、文書内の検索された語句を次の検索で検出されない語句に置換する(ステップS202)。置換される語句は、例えば、スペース文字等を用いることとしてもよい。この際、置換後の文字数を置換される前の文字数と同じにすることができる。
【0024】
その後、まず第2の検索により語句を検索し(ステップS203)、検索(抽出)された語句を保存する。ここで、第2の検索の後、ステップS202と同様の処理を行い、第3以降の検索を行うこととしてもよい。このような語句抽出処理とすることにより、第1の検索で検索された語句と、同じ語句が第2の検索で検出されることなく、第2の検索を行うことできる。例えば、第1の検索で漢字のみからなる文字列を検索し、第2の検索で漢字とカタカナからなる文字列を検索する場合等のように、第2の検索の対象が第1の検索を含む場合に有効である。また語句が置換される文書は、複製された文書を用いることができる。
【0025】
文書検査装置1の処理装置10は、語句抽出処理S200において、電子化された文書において、第1の検索において検索された第1語句を保存し、第1語句を、第2の検索で検索されない文字列に置き換えた後、第2の検索を行い、第2の検索で抽出された第2語句を保存することができる。このように、語句抽出処理S200により抽出された語句の中から正しい語句を決定することができる。このような語句抽出処理S200において用いられる検索処理は、所望の用語を検索する処理であるため、文章を品詞に分解するような、いわゆる形態素解析とは異なる処理である。語句抽出処理S200は、本実施形態の用途に限らず様々な用途において必要な語句抽出において用いることができる。
【0026】
図3に戻り、ステップS102において、文書内で、ステップS101で決定した正しい語句を検出したかどうかを判定する。ここで、正しい語句を検出しなかった場合には(ステップS102:No)、ステップS104に移行する。正しい語句を検出した場合には(ステップS102:Yes)、処理装置10は、ファイル内の文書の、検出された語句に対して、第1の強調表示を行う情報を組み込む(ステップS103)。第1の強調表示を行う情報は、例えば、HTML(HyperText Markup Language)やXML(Extensible Markup Language)等の標準化されたフォーマットにおいて予め定められた装飾を行う情報とすることができる。強調表示には、例えば、太字、下線、マーカーや蛍光ペンと呼ばれるハイライト表示、対象となる語句が選択されたコメント挿入等が含まれる。
【0027】
引き続き、ステップS104において、文書おいて、決定した正しい語句とは異なる正しくない語句を検出したかどうかを判定する。ここで、正しくない語句を検出しなかった場合には(ステップS104:No)、処理を終了する。正しくない語句を検出した場合には(ステップS104:Yes)、処理装置10は、ファイル内の文書の、検出された語句に対して、第1の強調表示とは異なる第2の強調表示を行う情報を組み込んで(ステップS105)、処理を終了する。第2の強調表示は、第1の強調表示と同様、太字、下線、マーカーや蛍光ペンと呼ばれるハイライト表示、対象となる語句が選択されたコメント挿入等のいずれかの強調表示とすることができるが、第1の強調表示とは異なるものとして、ファイルが表示された際に、違いを視覚的に識別できるものとすることができる。ここで、第2の強調表示については行わず、第1の強調表示のみを行う構成としてもよい。
【0028】
上述の「正しい語句の検出」及び「正しくない語句の検出」においては、例えば、
図4の語句抽出処理の「第1の検索」及び「第2の検索」をそれぞれ用いてもよい。つまり、正しい語句が検索された場合に、検索された語句を保存し、文書内の検索された語句を次の検索で検出されない語句に置換した後、その文書において、正しくない語句を検索して、保存することができる。
図3のステップS102の「正しい語句の検出」及びステップS104の「正しくない語句の検出」の順番は、いずれが先であってもよい。
【0029】
処理装置10は、第1の強調表示及び第2の強調表示が行われた文書をファイルとして出力することができる。つまり、文書検査装置1にファイルを保存したり、通信ネットワーク3に接続された利用者端末2からの要求である場合には、通信ネットワーク3を介して、利用者端末2にファイルを送信することができる。
【0030】
図5は、ファイルの出力の際、文書検査装置1の表示装置、又は利用者端末2の表示装置に表示される画面20の例について示す図である。この図に示されるように、処理装置10は、ファイルの出力の際に、正否の判定に係る情報21~22の表示を行わせることができる。
図5において、正否の判定に係る情報として、正しいと判定されるべき語句21、及び正しくないと判定された語句の数22を表示している。また、通信ネットワーク3を介して利用者端末2に送信する場合には、ダウンロードを促す表示23を含んでいてもよい。このような表示を行うことにより、利用者は、ファイルを確認する前に、文書検査において、語句が正しく認識されているか、修正を検討すべき語句の数について認識することができるため、利用者における検査済文書の修正時間を予め見積もることができる。
【0031】
図6は、出力されたファイルを、文書検査装置1の表示装置、又は利用者端末2の表示装置に表示した際の画面30の例について示す図である。出力されたファイルは、入力されたファイルと同じファイル形式であるため、同じアプリケーションを用いて開くことができる。この図に示されるように、出力されたファイルにおける文書の正しいと判定された語句「処理装置10」と、正しくないと判定された語句「処理部10」とは、強調表示31及び強調表示31とは異なる強調表示32により示される。
【0032】
従来の検査装置では、正しくない語句を検出する場合があっても、検査において正しいと判定された語句を識別して表示することができなかったため、正しいと判定されたのか、語句として検出されなかったのかが分からず、結果として人がすべての語句を検査することがあった。しかしながら、本実施形態においては、正しいと判定された語句について強調表示されるため、文書を確認する利用者は、強調表示が行われていない部分についてのみ検査することで文書の確認を行うことができるため、人による検査の負担を軽減することができる。また、更に正しくないと判定された語句を第2の強調表示を行う場合には、正しくないと判定された語句について修正の検討を行うと共に、強調表示が行われていない部分について検査することで文書の確認を行うことができるため、より人による検査の負担を軽減することができる。
【0033】
また、入力されたファイルと同じファイル形式で出力されるため、利用者は、既に認識している文章の位置関係をそのままにして、強調表示された箇所を確認することができる。また、同じファイル形式であるため、強調表示を削除しながら、強調表示された部分について修正等の再検討を行い、修正されたファイルをそのまま利用することができる。
【0034】
なお上述の実施形態の記載は一例であり、本発明の思想の範疇において、当業者が想到し得る変更及び修正が含まれる場合についても本発明の範囲に属する。例えば実施形態の構成要素に対して代替可能な構成への変更、構成要素の削除を行ったものについても、本発明の思想の範疇である限り、本発明の範囲に属するものである。
【符号の説明】
【0035】
1 文書検査装置
10 処理装置
11 CPU
12 揮発性記憶部
13 不揮発性記憶部
14 ネットワークインタフェース
15 入出力機器インタフェース
16 入出力機器