(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022175661
(43)【公開日】2022-11-25
(54)【発明の名称】校正支援装置、校正支援方法、及びプログラム
(51)【国際特許分類】
G06F 40/253 20200101AFI20221117BHJP
【FI】
G06F40/253
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021082276
(22)【出願日】2021-05-14
(71)【出願人】
【識別番号】000003193
【氏名又は名称】凸版印刷株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【弁理士】
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】金山 尚徳
(72)【発明者】
【氏名】平野 雄大
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091EA04
(57)【要約】
【課題】長文の文章であっても校正に要する時間を増大させることなく、表記ゆれの可能性がある文字列を抽出することができる校正支援装置、校正支援方法、及びプログラムを提供する。
【解決手段】校正の対象とする対象文章を取得する取得部と、前記対象文章を、少なくとも三つ以上に分割してなる分割文章を生成する分割部と、前記分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成する連結部と、前記連結文章における表記ゆれの候補となる文字列を抽出する評価部と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
校正の対象とする対象文章を取得する取得部と
前記対象文章を、少なくとも三つ以上に分割してなる分割文章を生成する分割部と、
前記分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成する連結部と、
前記連結文章における表記ゆれの候補となる文字列を抽出する評価部と、
を備える校正支援装置。
【請求項2】
前記評価部は、
前記連結文章に含まれる対象単語を、表記ゆれの有無を判定する単語の一覧を示すリスト情報に登録された登録単語と比較し、
前記対象単語が前記登録単語と一致しない又は類似しない場合、前記対象単語を前記リスト情報に登録し、
前記対象単語が前記登録単語と類似する場合、前記対象単語を前記リスト情報において前記対象単語に類似する前記登録単語の要素に追加する、
請求項1に記載の校正支援装置。
【請求項3】
前記評価部は、前記リスト情報に登録された登録単語のうち、当該登録単語と当該登録単語の要素に追加された単語を、表記ゆれの候補とする、
請求項2に記載の校正支援装置。
【請求項4】
前記連結文章のそれぞれに対応して生成された前記リスト情報に基づいて、それぞれの前記リスト情報に登録された登録単語のうち、複数の前記リスト情報に重複して登録された前記登録単語を併合させる装置制御部を更に備える、
請求項3に記載の校正支援装置。
【請求項5】
前記連結部は、互いに異なる二つの前記分割文章における全ての組合せに対応する前記連結文章を生成する、
請求項1から請求項4のいずれか一項に記載の校正支援装置。
【請求項6】
前記評価部は、前記連結文章のそれぞれについて、表記ゆれの候補となる文字列を抽出する処理を、並列に実行する、
請求項1から請求項5のいずれか一項に記載の校正支援装置。
【請求項7】
前記分割部は、前記対象文章における句点、記号又は読点のいずれかを境界として、前記対象文章を分割する、
請求項1から請求項6のいずれか一項に記載の校正支援装置。
【請求項8】
コンピュータが行う校正支援方法であって
取得部が、校正の対象とする対象文章を取得し、
分割部が、前記対象文章を、少なくとも三つ以上に分割してなる分割文章を生成し、
連結部が、前記分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成し、
評価部が、前記連結文章における表記ゆれの候補となる文字列を抽出する、
校正支援方法。
【請求項9】
コンピュータを、請求項1から請求項7のいずれか一項に記載の校正支援装置として動作させるためのプログラムであって、前記コンピュータを前記校正支援装置が備える各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、校正支援装置、校正支援方法、及びプログラムに関する。
【背景技術】
【0002】
文章の表記ゆれを校正することが行われている。例えば、特許文献1には、校正の対象とする文章から表記ゆれの候補となる文字列を抽出し、抽出した候補を他の候補の表記と比較して表記ゆれの有無を判定する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の方法では、文章から抽出した文字列を、他の全ての候補の表記と比較する。例えば、文章から抽出した文字列の数がK(Kは任意の自然数)である場合、比較する回数は、K×(K-1)となる。したがって、校正の対象とする文章が100ワード程度の短いものである場合には比較する回数は1万回程度で済むが、100万ワード程度の長い文章の場合、比較回数が1億回程度となってしまい回数が加速度的に増大してしまう。このため、長文の文章の表記ゆれをチェックするのに何日もかかってしまう場合があり現実的でないという問題があった。
【0005】
本発明は、このような状況に鑑みてなされたものであり、長文の文章であっても校正に要する時間を増大させることなく、表記ゆれの可能性がある文字列を抽出することができる校正支援装置、校正支援方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の、校正支援装置は、校正の対象とする対象文章を取得する取得部と、前記対象文章を、少なくとも三つ以上に分割してなる分割文章を生成する分割部と、前記分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成する連結部と、前記連結文章における表記ゆれの候補となる文字列を抽出する評価部と、を備える。
【0007】
本発明の、校正支援方法は、コンピュータが行う校正支援方法であって、取得部が、校正の対象とする対象文章を取得し、分割部が、前記対象文章を、少なくとも三つ以上に分割してなる分割文章を生成し、連結部が、前記分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成し、評価部が、前記連結文章における表記ゆれの候補となる文字列を抽出する。
【0008】
本発明の、プログラムは、コンピュータを上記に記載の校正支援装置として動作させるためのプログラムであって、前記コンピュータを前記校正支援装置が備える各部として機能させるためのプログラムである。
【発明の効果】
【0009】
本発明によれば、表記ゆれを見逃してしまうリスクが低く、長文の文章であっても校正に要する時間を増大させないようにすることができる。
【図面の簡単な説明】
【0010】
【
図1】実施形態による校正支援装置10が行う処理を説明する図である。
【
図2】実施形態による校正支援装置10の構成例を示すブロック図である。
【
図3】実施形態によるリスト情報120の例を示す図である。
【
図4】実施形態によるリスト情報120の例を示す図である。
【
図5】実施形態によるリスト情報120の例を示す図である。
【
図6】実施形態によるリスト情報120の例を示す図である。
【
図7】実施形態によるリスト情報120の例を示す図である。
【
図8】実施形態によるリスト情報120の例を示す図である。
【
図9】実施形態による校正支援装置10が行う処理の流れを示すフローチャートである。
【
図10A】表記ゆれ候補を抽出する処理を説明する図である。
【
図10B】表記ゆれ候補を抽出する処理を説明する図である。
【
図10C】表記ゆれ候補を抽出する処理を説明する図である。
【
図10D】表記ゆれ候補を抽出する処理を説明する図である。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態について、図面を参照して説明する。
【0012】
まず、文章から表記ゆれの候補(表記ゆれ候補)を抽出する方法について説明する。
図10A~
図10Dは、表記ゆれ候補を抽出する処理を説明する図である。
【0013】
図10Aには、文章の例が示されている。
図10Aの例に示すように、「取り扱いがあります。取り扱いは有ります。取扱いがあります。取扱はないですね。」と記載された文章から、表記ゆれ候補を抽出する場合を例示して説明する。
【0014】
図10Bには、文章を単語(形態素)ごとに区切られた文章の例が示されている。
図10Bの例に示すように、
図10Aの文章を単語ごとに区切ると、例えば、「取り扱い/が/あり/ます/。/取り扱い/は/有り/ます/。/取扱い/が/あり/ます/。/取扱/は/ない/です/ね/。」のようになる。ここでの「/」は、区切りを示す記号である。
【0015】
【0016】
図10Cの表には、単語、リスト登録単語数、評価結果、リスト登録の有無などの項目が示されている。単語は、文章に含まれる単語が順に示されている。リスト登録単語数には、リストに登録された単語の数が示されている。リストは、
図10Dの例に示すような、文章に含まれる単語を評価する際に用いられるリストである。ここでの評価とは、文章に含まれる単語が、リストに記載された単語と一致する、或いは類似するか否かを判定することである。
【0017】
評価結果は、文章に含まれる単語を評価した結果が示されている。ここでの評価結果には、文章に含まれる単語と、リストに登録された単語とが、一致する(又は類似する)か否かを判定した結果が示される。
【0018】
リスト登録の有無は、文章に含まれる単語を、リストに単語を登録したか否かが示されている。ここでは、評価結果に基づいて、文章に含まれる単語と、リストに登録された単語とが、一致する(又は類似する)しないと判定された場合に、文章に含まれる単語が、リストに登録される。
【0019】
図10Dの表には、リストNo、単語、要素1、要素2…などの項目が示されている。リストNoは、リストに登録された単語を一意に特定する番号などの識別情報である。単語は、リストNoにて特定される単語を示す。要素は、リストNoにて特定される単語に類似すると判定された単語を示す。
【0020】
まず、リストに単語が登録されていない状態で評価が開始される。すなわち、
図10Cの表の一番上に示された、「取り扱い」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。この時点においてリストに単語が登録されていない。このため、「取り扱い」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。
図10Cの例では、リストのNo.1に、「取り扱い」との単語が登録されたことが示されている。そして、
図10DのリストのNo.1に、「取り扱い」との単語が登録されている例が示されている。
【0021】
次に、「が」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」との単語のみが登録された状態であるため、「が」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。
図10Cの例では、リストのNo.2に、「が」との単語が登録されたことが示されている。そして、
図10DのリストのNo.2に、「が」との単語が登録されている例が示されている。
【0022】
次に、「あり」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」及び「が」との単語のみが登録された状態である。このため、「あり」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。
図10Cの例では、リストのNo.3に、「あり」との単語が登録されたことが示されている。そして、
図10DのリストのNo.3に、「あり」との単語が登録されている例が示されている。
【0023】
次に、「ます」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」、「が」及び「あり」との単語のみが登録された状態である。このため、「ます」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。
図10Cの例では、リストのNo.4に、「ます」との単語が登録されたことが示されている。そして、
図10DのリストのNo.4に、「ます」との単語が登録されている例が示されている。
【0024】
次に、「。」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」、「が」、「あり」及び「ます」との単語のみが登録された状態である。このため、「。」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。
図10Cの例では、リストのNo.5に、「。」との単語が登録されたことが示されている。そして、
図10DのリストのNo.5に、「。」との単語が登録されている例が示されている。
【0025】
次に、「取り扱い」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」、「が」、「あり」、「ます」及び「。」との単語のみが登録された状態である。このため、「取り扱い」との単語については、「No.1と一致」との評価結果となる。「一致あり」との評価結果が得られた単語は、リストに新規に登録されない。
【0026】
次に、「は」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」、「が」、「あり」、「ます」及び「。」との単語のみが登録された状態である。このため、「は」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。
図10Cの例では、リストのNo.6に、「は」との単語が登録されたことが示されている。そして、
図10DのリストのNo.6に、「は」との単語が登録されている例が示されている。
【0027】
次に、「有り」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」、「が」、「あり」、「ます」、「。」及び「は」との単語が登録された状態である。このため、「有り」との単語については、リストNo3の「あり」と「類似する」との評価結果となる。「類似する」との評価結果が得られた単語はリストに新規登録されない。「類似する」との評価結果が得られた単語は、類似すると判定された単語の要素に追加される。ここでは、
図10DのリストのNo.3の要素1に、「有り」との単語が追加された例が示されている。
【0028】
なお、単語同士が類似するか否かは、任意に決定されてよい。例えば、校正支援装置10により表記ゆれの候補が抽出され、ユーザにより統一した表記となるように校正するか否かが判断されるように運用される場合を考える。この場合、文章において、表記ゆれとして校正の対象となる単語同士が「類似する」と判定されることが好適である。
【0029】
例えば、
図10Aの文章では、「取り扱い」、「取扱い」、「取扱」が類似する単語と判定されることが好ましい。文章中に、「取り扱い」、「取扱い」、「取扱」の記載が混在している場合、校正担当者がこれらの記載を表記ゆれと判断して、いずれか一方の記載に統一するように校正することが通常考えられるためである。また、「あり」と「有り」が類似する単語と判定されることが好ましい。文章中に、「あり」と「有り」の記載が混在している場合、校正担当者がこれらの記載を表記ゆれと判断して、いずれか一方の記載に統一するように校正することが通常考えられるためである。
【0030】
なお、
図10Cの例では、「あり」と「ない」とが類似しない単語と判定される場合を例示している。しかしながらこれに限定されない。「あり」と「ない」と類似する単語と判定されてもよい。例えば、文章中に「あり」と「ない」とが混在している場合において、校正担当者が「あり」と「ない」の記載が表記ゆれと判断して、いずれか一方の記載に統一するように校正する可能性がある文章である場合においては、校正支援装置10が、「あり」と「ない」とを類似する単語と判定するようにプログラムされる。
【0031】
図10Cの例に示すように、表記ゆれの抽出においては、文章中の単語の評価が順に行われる。そして、評価結果に基づいて、リストに単語が登録されていく。文章中の単語を評価する時点においてリストに登録されている全ての単語と比較する処理を行う必要がある。このため、リストに登録する単語の数に応じて、評価に要する時間が増大する。例えば、
図10Cにおける「リスト登録単語数」の項目に示すように、
図10Aの例に示す文章において、最終的に、リストに登録された単語の数は「9」個となる。
【0032】
文章が短く抽出される単語の数が少ないものであれば、評価にさほど時間を要しない。しかし、文章が長くから抽出される単語の数が多い場合には評価に膨大な時間を要するため、現実的ではなくなる。
【0033】
この対策として、本実施形態では、文章を分割する。分割することで文章が短くなり、評価に要する時間を短縮することが可能となる。しかし、分割した文章を評価したのみでは、文章全体における表記ゆれの整合が取れない。例えば、文章を2つに分割した場合において、前半の文章には「取り扱い」との単語が表記ゆれすることなく記載され、後半の文章に「取扱い」との単語が表記ゆれすることなく記載されているような場合があり得る。この場合、前後に分割した文章の中では表記ゆれが生じていない。しかしながら、文章全体においては、「取り扱い」と「取扱い」の表記ゆれが生じている。分割した文章を評価したのみでは、表記ゆれを見逃してしまうリスクがある。
【0034】
この対策として、本実施形態では、分割した文章を連結させ、連結した文章を評価する。これにより、連結した文章における表記ゆれが整合するようにする。また、連結した文章の組合せについて、総当たりの組合せとすることにより、文章全体における表記ゆれが整合するようにする。
【0035】
図1は、実施形態による校正支援装置10が行う処理を説明する図である。
図1の上部には、対象文章ABCDが示されている。対象文章ABCDは、校正の対象となる文章である。この図の例では、「取り扱いがあります。取り扱いは有ります。取扱いがあります。取扱はないですね。」と記載された文章を対象文章ABCDとする。
【0036】
まず、校正支援装置10は、対象文章を分割した分割文章を生成する。この図の例では、対象文章ABCDを4つの分割文章A~Dに分割した例が示されている。
【0037】
次に、校正支援装置10は、分割文章を連結した連結文章を生成する。この図の例では、分割文章A~Dのうち、異なる2つの分割文章を連結させた連結文章AB、AC、AD、BC、BD、CDのそれぞれが生成された例が示されている。
【0038】
そして、校正支援装置10は、連結文章AB、AC、AD、BC、BD、CDのそれぞれについて評価を行い、それぞれのリスト(後述するリスト情報120)を生成する。校正支援装置10は、それぞれのリストに重複して登録されている単語がある場合、その単語とその要素群を併合させる。併合後のリストは、文章全体を評価した場合に生成されるリストと一致する。
【0039】
ここで、校正支援装置10は、連結文章AB、AC、AD、BC、BD、CDのそれぞれの評価を、並列に処理するようにしてもよい。例えば、校正支援装置10は、それぞれの連結文章の評価を並列に処理する。この場合、分割数に応じた数の評価が、並列に処理される。分割数を増やすことで、評価に要する時間を短縮させることが可能である。一方、文章全体を評価する場合と比較して、総計算数が増えることが考えられる。しかし、最近のコンピュータの性能向上により、総計算数が増えることによる処理時間へ影響はさほど大きいものではない。すなわち、総計算量が増加するとしても、並列に処理させることによる処理時間の短縮の効果が大きい。このため、長文の文章であっても校正に要する時間を増大させることがない。
【0040】
なお、校正支援装置10が、対象文章を幾つの分割文章に分割するかは任意に決定されてよい。連結させることを考慮すれば、対象文章を二つに分割し、分割した二つの文章を連結させる場合は、意味をなさない。このため、校正支援装置10は、対象文章を少なくとも三つ以上に分割すればよい。
【0041】
図2は、実施形態による校正支援装置10の構成例を示すブロック図である。校正支援装置10は、校正の対象とする文章(対象文章)における表記ゆれの候補となる文字列を抽出するコンピュータ装置である。校正支援装置10として、例えば、サーバ装置、クラウド、PC(Personal Computer)などを適用することが可能である。
【0042】
校正支援装置10は、例えば、通信部11と、記憶部12と、制御部13とを備える。通信部11は、通信ネットワークなどを介して、外部の装置と通信する。通信部11は、例えば、外部に設けられたサーバ装置などから、対象文章を示すテキスト情報などを受信する。また、通信部11は、外部に設けられたサーバ装置などに、対象文章から抽出した表記ゆれの候補となる文字列を、校正結果として送信する。
【0043】
記憶部12は、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)などの記憶媒体、あるいはこれらの組合せによって構成される。記憶部12は、校正支援装置10の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。記憶部12は、例えば、リスト情報120を記憶する。リスト情報120は、対象文章から抽出した表記ゆれの候補に関する情報である。
【0044】
制御部13は、校正支援装置10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。制御部13は、校正支援装置10を統括的に制御する。制御部13は、例えば、取得部130と、分割部131と、連結部132と、評価部133と、装置制御部134とを備える。
【0045】
取得部130は、対象文章を取得する。例えば、取得部130は、外部のサーバ装置等から通信部11を介して対象文章を示す情報を取得する。取得部130は、取得した対象文章を示す情報を、分割部131に出力する。
【0046】
分割部131は、対象文章に基づいて、分割文章を生成する。例えば、分割部131は、分割文章のそれぞれに含まれる単語の数が同程度となるように、分割文章を生成する。この場合、分割部131は、対象文章を単語ごとに区切り、対象文章に記載された単語の数を算出する。分割部131は、算出した単語の数を、分割数で除算して得られた単語数に相当する記載の前後の文字列を検索対象として、対象文章を分割する境界を探索する。
【0047】
分割部131は、例えば、句点や、記号、読点などを、対象文章を分割する境界とする。記号は、例えば、感嘆符「!」や、疑問符「?」、音符「♪」、コロン「:」などである。句点や、記号、読点などを境界とするのは、これらが表記ゆれの対象となる可能性が低いためである。分割部131は、少なくとも、単語の途中に境界を設けないようにする。例えば、「取り扱い」との単語における「取り扱」と「い」との間に境界を設定してしまうと、前の分割文章において、元々「取り扱い」との単語であったものが、「取り扱」との単語として評価されてしまい、誤った評価をしてしまう可能性があるためである。
【0048】
分割部131は、対象文章を分割する境界を決定し、決定した境界で分割することによって複数の分割文章を生成する。分割部131は、生成した分割文章を示す情報を、連結部132に出力する。
【0049】
連結部132は、連結文章を生成する。連結部132は、例えば、互いに異なる二つの分割文章の組合せとして考えられる全パターンを、連結文章として生成する。連結部132は、生成した連結文章を示す情報を、評価部133に出力する。
【0050】
評価部133は、連結文章のそれぞれを評価する。評価部133は、例えば、連結文章を単語ごとに区切り、区切った単語を順に、リスト(リスト情報120)に登録された単語と一致するか否か、及び類似するか否かを判定する。また、評価部133は、単語が、リストに登録された単語と一致も類似もしない場合、その単語をリストに登録する。また、評価部133は、単語が、リストに登録された単語と類似する場合、その単語を、リストに登録された単語(類似する単語)の要素として追加する。
【0051】
装置制御部134は、校正支援装置10を統括的に制御する。例えば、装置制御部134は、通信部11が受信した対象文章を示すテキスト情報を、取得部130に出力する。装置制御部134は、評価部133が評価した結果として生成されたリスト(リスト情報120)を併合する。装置制御部134は、併合したリストを、表記ゆれの候補を示すリストとして、外部のサーバ装置に送信する。
【0052】
図3~
図8は、実施形態によるリスト情報120の例を示す図である。
図3~
図8には、例えば、リストNo、単語、要素1、要素2…などの項目が示されている。これらの項目は、
図10Dの表に示された項目と同様であるためその説明を省略する。
【0053】
図3には、連結文章ABに対応して生成されたリストの例が、リスト情報120Aとして示されている。リスト情報120Aには、連結文章ABにおける、6-7文字目に記載された「あり」との単語と、16-17文字目に記載された「有り」との単語とが、表記ゆれの候補として抽出された例が示されている。
【0054】
図4には、連結文章ACに対応して生成されたリストの例が、リスト情報120Bとして示されている。リスト情報120Bには、連結文章ACにおける、1-4文字目に記載された「取り扱い」との単語と、21-23文字目に記載された「取扱い」との単語とが、表記ゆれの候補として抽出された例が示されている。
【0055】
図5には、連結文章ADに対応して生成されたリストの例が、リスト情報120Cとして示されている。リスト情報120Cには、連結文章ADにおける、1-4文字目に記載された「取り扱い」との単語と、30-31文字目に記載された「取扱」との単語とが、表記ゆれの候補として抽出された例が示されている。
【0056】
図6には、連結文章BCに対応して生成されたリストの例が、リスト情報120Dとして示されている。リスト情報120Dには、連結文章BCにおける、11-14文字目に記載された「取り扱い」との単語と、21-23文字目に記載された「取扱い」との単語とが、表記ゆれの候補として抽出された例が示されている。また、リスト情報120Dには、連結文章BCにおける、16-17文字目に記載された「有り」との単語と、25-26文字目に記載された「あり」との単語とが、表記ゆれの候補として抽出された例が示されている。
【0057】
図7には、連結文章BDに対応して生成されたリストの例が、リスト情報120Eとして示されている。リスト情報120Eには、連結文章BDにおける、11-14文字目に記載された「取り扱い」との単語と、30-31文字目に記載された「取扱」との単語とが、表記ゆれの候補として抽出された例が示されている。
【0058】
図8には、連結文章CDに対応して生成されたリストの例が、リスト情報120Fとして示されている。リスト情報120Fには、連結文章CDにおける、21-23文字目に記載された「取扱い」との単語と、30-31文字目に記載された「取扱」との単語とが、表記ゆれの候補として抽出された例が示されている。
【0059】
ここで、装置制御部134が、リスト(リスト情報120)を併合する方法について説明する。まず、装置制御部134は、それぞれのリストにて示された表記ゆれの候補となる単語が記載された位置を特定し、特定した位置が重複するものを併合する。
【0060】
例えば、
図3~
図8に示すようなリスト情報120A~120Fが生成された場合、装置制御部134は、リスト情報120Aにおける「あり」と「有り」の表記ゆれ、及びリスト情報120Dにおける「有り」と「あり」の表記ゆれについて、それぞれのリストにおいて単語が記載された位置を特定する。
【0061】
リスト情報120Aにおける「あり」との単語が記載された位置は、6-7文字目である。リスト情報120Aにおける「有り」との単語が記載された位置は、16-17文字目である。リスト情報120Dにおける「有り」との単語が記載された位置は、16-17文字目である。リスト情報120Dにおける「あり」との単語が記載された位置は、25-26文字目である。
【0062】
それぞれのリストにおいて「有り」との単語が記載された位置が、17-18文字目で重複するものである。この場合、装置制御部134は、リスト情報120Aにおける「あり」と「有り」の表記ゆれ、及びリスト情報120Dにおける「有り」と「あり」の表記ゆれを、同一グループとみなして併合する。この結果、7-8文字目の「あり」と、16-17文字目の「有り」と、25-26文字目の「あり」とが、対象文章における表記ゆれの候補となる。
【0063】
また、装置制御部134は、リスト情報120Bにおける「取り扱い」と「取扱い」の表記ゆれ、リスト情報120Cにおける「取り扱い」と「取扱」の表記ゆれ、リスト情報120Dにおける「取り扱い」と「取扱い」の表記ゆれ、リスト情報120Eにおける「取り扱い」と「取扱」の表記ゆれ、及びリスト情報120Fにおける「取扱い」と「取扱」の表記ゆれについて、それぞれのリストにおいて単語が記載された位置を特定する。
【0064】
リスト情報120Bにおける「取り扱い」との単語が記載された位置は、1-4文字目である。リスト情報120Bにおける「取扱い」との単語が記載された位置は、21-23文字目である。リスト情報120Cにおける「取り扱い」との単語が記載された位置は、1-4文字目である。リスト情報120Cにおける「取扱」との単語が記載された位置は、30-31文字目である。
【0065】
リスト情報120Dにおける「取り扱い」との単語が記載された位置は、11-14文字目である。リスト情報120Dにおける「取扱い」との単語が記載された位置は、21-23文字目である。リスト情報120Eにおける「取り扱い」との単語が記載された位置は、11-14文字目である。リスト情報120Eにおける「取扱」との単語が記載された位置は、30-31文字目である。
【0066】
リスト情報120Fにおける「取扱い」との単語が記載された位置は、21-23文字目である。リスト情報120Fにおける「取扱」との単語が記載された位置は、30-31文字目である。
【0067】
装置制御部134は、それぞれのリストにおいて「取り扱い」との単語が記載された位置が、1-4文字目で重複するものについて併合する。装置制御部134は、リスト情報120Bにおける「取り扱い」と「取扱い」の表記ゆれ、及びリスト情報120Cにおける「取り扱い」と「取扱」の表記ゆれを、同一グループとみなして併合する。この結果、1-4文字目の「取り扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となる。
【0068】
また、装置制御部134は、それぞれのリストにおいて「取扱い」との単語が記載された位置が、21-23文字目で重複するものについて併合する。装置制御部134は、リスト情報120Bにおける「取り扱い」と「取扱い」の表記ゆれ、リスト情報120Dにおける「取り扱い」と「取扱い」の表記ゆれ、及びリスト情報120Fにおける「取扱い」と「取扱」の表記ゆれを、同一グループとみなして併合する。この結果、1-4文字目の「取り扱い」と、11-14文字目の「取扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となる。
【0069】
また、装置制御部134は、それぞれのリストにおいて「取り扱い」との単語が記載された位置が、11-14文字目で重複するものについて併合する。装置制御部134は、リスト情報120Dにおける「取り扱い」と「取扱い」の表記ゆれ、及びリスト情報120Eにおける「取り扱い」と「取扱い」の表記ゆれを、同一グループとみなして併合する。この結果、11-14文字目の「取扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となる。
【0070】
上記より、1-4文字目の「取り扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となるリスト(第1リスト)が生成される。また、1-4文字目の「取り扱い」と、11-14文字目の「取扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となるリスト(第2リスト)が生成される。11-14文字目の「取扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となるリスト(第3リスト)が生成される。この場合、第1リストから第3リストのそれぞれの要素が互いに重複する。この場合、装置制御部134は、第1リストから第3リストを一つのリストに併合する。この結果、1-4文字目の「取り扱い」と、11-14文字目の「取扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となる。
【0071】
図9は、実施形態による校正支援装置10が行う処理の流れを示すフローチャートである。校正支援装置10は、校正対象(対象文章)を取得し(ステップS10)、取得した対象文章を分割して(ステップS11)分割文章を生成する。校正支援装置10は、分割文章を連結して(ステップS12)、連結文章を生成する。校正支援装置10は、連結文章を取得し(ステップS13)、取得した連結文章を評価することによって、連結文章における表記ゆれの候補を抽出する(ステップS14)。校正支援装置10は、全ての連結文章について評価を行ったか否かを判定し(ステップS15)、まだ評価していない連結文章がある場合にはステップS13に戻る。全ての連結文章について評価を行った場合、校正支援装置10は、評価に伴って生成されたリスト(リスト情報120)について、重複して登録された単語を併合する(ステップS16)。校正支援装置10は、併合したリストを、表記ゆれの候補を抽出した結果として、例えば、外部のサーバ装置に送信する。
【0072】
以上説明したように、実施形態の校正支援装置10は、取得部130と、分割部131と、連結部132と、評価部133とを備える。取得部130は、対象文章を取得する。分割部131は、対象文章を、少なくとも三つ以上に分割してなる分割文章を生成する。連結部132は、分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成する。評価部133は、連結文章における表記ゆれの候補となる文字列を抽出する。これにより、実施形態の校正支援装置10では、対象文章より短い連結文章における表記ゆれの候補となる文字列を抽出することができる。このため、対象文章が長文である場合であっても、対象文章より短い連結文章を校正対象とすることができる。したがって、長文の文章であっても校正に要する時間を増大させることなく、表記ゆれの候補となる文字列を抽出することが可能である。
【0073】
また、実施形態の校正支援装置10では、評価部133は、連結文章に含まれる対象単語を、表記ゆれの有無を判定する単語の一覧を示すリスト情報120に登録された登録単語と比較する。評価部133は、対象単語が登録単語と一致しない又は類似しない場合、対象単語をリスト情報120に登録する。評価部133は、対象単語が登録単語と類似する場合、対象単語をリスト情報120において対象単語に類似する登録単語の要素に追加する。評価部133は、リスト情報120に登録された登録単語のうち、当該登録単語と当該登録単語の要素に追加された単語を、表記ゆれの候補とする。これにより、実施形態の校正支援装置10は、連結文章に含まれる対象単語をリスト情報120と比較し、一致しない又は類似しない場合に登録し、類似する場合に要素に追加する、という容易な方法にて、表記ゆれの候補を抽出することが可能である。
【0074】
また、実施形態の校正支援装置10では、装置制御部134を更に備える。装置制御部134は、連結文章のそれぞれに対応して生成されたリスト情報120に基づいて、それぞれのリスト情報120に登録された登録単語のうち、複数のリスト情報120に重複して登録された登録単語を併合させる。これにより、実施形態の校正支援装置10では、連結文章のそれぞれのリスト情報120に基づいて、重複なく、対象文章における表記ゆれを抽出することができる。
【0075】
ここで、比較例を考える。評価に係る時間を短縮するための対策として、表記ゆれが発生しやすい単語のリストを用意し、リストに登録された単語のみを表記ゆれがないかチェックすることで校正の高速化を図ることが考えられる。しかし、この方法では予めリストに登録されていない単語の表記ゆれをチェックすることができない。このため、表記ゆれを見逃してしまう可能性がある。
【0076】
これに対し、本実施形態では、連結文章に対応するリスト情報120を生成する。リスト情報120は、連結文章に記載された単語が、他の単語と一致するか否か、類似するか否かに応じて作成される。このため、対応する連結文章を生成する。したがって、表記ゆれを見逃してしまう可能性を低減させて表記ゆれを見逃すリスクを低減させることが可能である。
【0077】
また、実施形態の校正支援装置10では、連結部132は、互いに異なる二つの分割文章における全ての組合せに対応する連結文章を生成する。これにより、実施形態の校正支援装置10では、全ての分割文章について、一方の分割文章において統一された表記が、他方の分割文章における表記ゆれに該当するような場合であっても、互いの表記ゆれを抽出することができ、表記ゆれを見逃すリスクを低減させることが可能である。
【0078】
また、実施形態の校正支援装置10では、評価部133は、連結文章のそれぞれについて、表記ゆれの候補となる文字列を抽出する処理を、並列に実行する。これにより、実施形態の校正支援装置10では、評価に要する時間を短縮させることが可能である。
【0079】
また、実施形態の校正支援装置10では、分割部131は、対象文章における句点、記号又は読点のいずれかを境界として、前記対象文章を分割する。これにより、実施形態の校正支援装置10では、単語の途中に境界が設定されることがなく、表記ゆれを見逃すリスクを低減させることが可能である。
【0080】
上述した実施形態における校正支援装置10の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0081】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0082】
10…校正支援装置
130…取得部
131…分割部
132…連結部
133…評価部