IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱重工業株式会社の特許一覧

特開2024-172894校正装置、校正方法、及びプログラム
<>
  • 特開-校正装置、校正方法、及びプログラム 図1
  • 特開-校正装置、校正方法、及びプログラム 図2
  • 特開-校正装置、校正方法、及びプログラム 図3
  • 特開-校正装置、校正方法、及びプログラム 図4
  • 特開-校正装置、校正方法、及びプログラム 図5
  • 特開-校正装置、校正方法、及びプログラム 図6
  • 特開-校正装置、校正方法、及びプログラム 図7
  • 特開-校正装置、校正方法、及びプログラム 図8
  • 特開-校正装置、校正方法、及びプログラム 図9
  • 特開-校正装置、校正方法、及びプログラム 図10
  • 特開-校正装置、校正方法、及びプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024172894
(43)【公開日】2024-12-12
(54)【発明の名称】校正装置、校正方法、及びプログラム
(51)【国際特許分類】
   G06F 40/253 20200101AFI20241205BHJP
   G06F 40/205 20200101ALI20241205BHJP
【FI】
G06F40/253
G06F40/205
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023090935
(22)【出願日】2023-06-01
(71)【出願人】
【識別番号】000006208
【氏名又は名称】三菱重工業株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】小林 淳一
(72)【発明者】
【氏名】太田 裕樹
(72)【発明者】
【氏名】▲高▼山 将丈
(72)【発明者】
【氏名】西澤 幸紘
(57)【要約】
【課題】文章を適切に校正する。
【解決手段】校正装置は、禁止用語と推奨用語とを取得する用語取得部と、対象テキストを取得するテキスト取得部と、禁止用語に含まれる形態素、及び対象テキストに含まれる形態素を取得する解析部と、対象テキストに含まれる少なくとも1つの形態素を含む形態素群のうちから、形態素解析の解析結果が禁止用語と一致する形態素群を、候補形態素として選択する選択部と、候補形態素に対して解析結果が一致する比較禁止用語と、候補形態素とに基づいて、対象テキストの校正箇所と校正候補とを設定する校正部と、を含む。校正部は、比較禁止用語の表現が候補形態素の表現に一致する場合には、候補形態素を校正箇所に設定し、比較禁止用語に対応付けられた推奨用語を、校正候補に設定する。
【選択図】図8
【特許請求の範囲】
【請求項1】
禁止用語と、前記禁止用語に対応付けられた推奨用語とを取得する用語取得部と、
校正対象のテキストデータである対象テキストを取得するテキスト取得部と、
前記禁止用語及び前記対象テキストに対して実行された形態素解析により導出された、前記禁止用語に含まれる形態素、及び前記対象テキストに含まれる形態素を取得する解析部と、
前記対象テキストに含まれる少なくとも1つの形態素を含む形態素群のうちから、前記形態素解析の解析結果が前記禁止用語と一致する前記形態素群を、候補形態素として選択する選択部と、
前記候補形態素に対して前記解析結果が一致する前記禁止用語である比較禁止用語と、前記候補形態素とに基づいて、前記対象テキストの校正箇所と、前記校正箇所における校正の候補となる用語である校正候補とを設定する校正部と、
を含み、
前記校正部は、前記比較禁止用語の表現が前記候補形態素の表現に一致する場合には、前記候補形態素を前記校正箇所に設定し、前記比較禁止用語に対応付けられた前記推奨用語を、前記校正候補に設定する、
校正装置。
【請求項2】
前記校正部は、前記比較禁止用語の表現が前記候補形態素の表現に一致しない場合には、前記比較禁止用語に対応付けられた前記推奨用語を、前記候補形態素の解析結果に基づいて補正して、前記候補形態素を前記校正箇所に設定しつつ、補正した前記推奨用語を前記校正候補に設定する、請求項1に記載の校正装置。
【請求項3】
前記校正部は、前記候補形態素の解析結果において、前記候補形態素が語幹である場合には、前記校正箇所及び前記校正候補を設定しない、請求項1又は請求項2に記載の校正装置。
【請求項4】
前記校正部は、前記候補形態素の表現が、前記推奨用語、又は予め設定された許可用語と一致する場合には、前記校正箇所及び前記校正候補を設定しない、請求項1又は請求項2に記載の校正装置。
【請求項5】
前記選択部は、前記形態素群の品詞及び正規形が、前記禁止用語の品詞及び正規形と一致する場合に、解析結果が一致すると判断し、
前記校正部は、前記比較禁止用語の表層形が前記候補形態素に一致する場合に、表現が一致すると判断する、請求項1又は請求項2に記載の校正装置。
【請求項6】
前記選択部は、前記形態素群のうちから、前記禁止用語の表現を含む前記形態素群を、前記候補形態素として選択し、
前記校正部は、
前記候補形態素に含まれる形態素の数が2つ以上である場合には、前記候補形態素と表現が一致する前記禁止用語に対応付けられた前記推奨用語を、前記校正候補に設定し、
前記候補形態素に含まれる形態素の数が1つであり、かつ、前記候補形態素の品詞と、前記候補形態素と表現が一致する前記禁止用語の品詞とが一致する場合には、その禁止用語に対応付けられた前記推奨用語を、前記校正候補に設定する、請求項1又は請求項2に記載の校正装置。
【請求項7】
前記校正部は、前記候補形態素の最初の文字と最後の文字の両方が、前記禁止用語とは異なる場合には、校正を行わない、請求項6に記載の校正装置。
【請求項8】
前記用語取得部は、対象用語と、前記対象用語の前又は後に位置する付加用語の形式とを取得し、
前記選択部は、前記形態素群のうちから、前記対象用語と表現が一致する前記形態素群を、前記候補形態素として選択し、
前記校正部は、前記候補形態素の前又は後に位置する付加形態素の形式と、前記付加用語の形式とが一致していない場合には、前記付加形態素を前記校正箇所に設定しつつ、前記付加形態素の形式を前記付加用語の形式に補正した用語を、前記校正候補に設定する、請求項1又は請求項2に記載の校正装置。
【請求項9】
禁止用語と、前記禁止用語に対応付けられた推奨用語とを取得するステップと、
校正対象のテキストデータである対象テキストを取得するステップと、
前記禁止用語及び前記対象テキストに対して実行された形態素解析により導出された、前記禁止用語に含まれる形態素、及び前記対象テキストに含まれる形態素を取得するステップと、
前記対象テキストに含まれる少なくとも1つの形態素を含む形態素群のうちから、前記形態素解析の解析結果が前記禁止用語と一致する前記形態素群を、候補形態素として選択するステップと、
前記候補形態素に対して前記解析結果が一致する前記禁止用語である比較禁止用語と、前記候補形態素とに基づいて、前記対象テキストの校正箇所と、前記校正箇所における校正の候補となる用語である校正候補とを設定するステップと、
を含み、
前記校正箇所と校正候補を設定するステップでは、前記比較禁止用語の表現が前記候補形態素の表現に一致する場合には、前記候補形態素を前記校正箇所に設定し、前記比較禁止用語に対応付けられた前記推奨用語を、前記校正候補に設定する、
校正方法。
【請求項10】
禁止用語と、前記禁止用語に対応付けられた推奨用語とを取得するステップと、
校正対象のテキストデータである対象テキストを取得するステップと、
前記禁止用語及び前記対象テキストに対して実行された形態素解析により導出された、前記禁止用語に含まれる形態素、及び前記対象テキストに含まれる形態素を取得するステップと、
前記対象テキストに含まれる少なくとも1つの形態素を含む形態素群のうちから、前記形態素解析の解析結果が前記禁止用語と一致する前記形態素群を、候補形態素として選択するステップと、
前記候補形態素に対して前記解析結果が一致する前記禁止用語である比較禁止用語と、前記候補形態素とに基づいて、前記対象テキストの校正箇所と、前記校正箇所における校正の候補となる用語である校正候補とを設定するステップと、
をコンピュータに実行させ、
前記校正箇所と校正候補を設定するステップでは、前記比較禁止用語の表現が前記候補形態素の表現に一致する場合には、前記候補形態素を前記校正箇所に設定し、前記比較禁止用語に対応付けられた前記推奨用語を、前記校正候補に設定する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、校正装置、校正方法、及びプログラムに関する。
【背景技術】
【0002】
文章を自動で校正する装置が知られている。例えば特許文献1には、校正対象となる入力文の解析結果と、比較対象となる用例文の解析結果とが一致しないと判定した場合に、その入力文を校正箇所としてユーザに提示する旨が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010-182181号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1のように用例文と入力文との一致に応じて校正箇所を検出する場合であっても、校正箇所を適切に特定できないなど、適切な校正には改善の余地がある。
【0005】
本開示は、文章を適切に校正可能な校正装置、校正方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示に係る移動体の校正装置は、禁止用語と、前記禁止用語に対応付けられた推奨用語とを取得する用語取得部と、校正対象のテキストデータである対象テキストを取得するテキスト取得部と、前記禁止用語及び前記対象テキストに対して実行された形態素解析により導出された、前記禁止用語に含まれる形態素、及び前記対象テキストに含まれる形態素を取得する解析部と、前記対象テキストに含まれる少なくとも1つの形態素を含む形態素群のうちから、前記形態素解析の解析結果が前記禁止用語と一致する前記形態素群を、候補形態素として選択する選択部と、前記候補形態素に対して前記解析結果が一致する前記禁止用語である比較禁止用語と、前記候補形態素とに基づいて、前記対象テキストの校正箇所と、前記校正箇所における校正の候補となる用語である校正候補とを設定する校正部と、を含み、前記校正部は、前記比較禁止用語の表現が前記候補形態素の表現に一致する場合には、前記候補形態素を前記校正箇所に設定し、前記比較禁止用語に対応付けられた前記推奨用語を、前記校正候補に設定する。
【0007】
本開示に係る校正方法は、禁止用語と、前記禁止用語に対応付けられた推奨用語とを取得するステップと、校正対象のテキストデータである対象テキストを取得するステップと、前記禁止用語及び前記対象テキストに対して実行された形態素解析により導出された、前記禁止用語に含まれる形態素、及び前記対象テキストに含まれる形態素を取得するステップと、前記対象テキストに含まれる少なくとも1つの形態素を含む形態素群のうちから、前記形態素解析の解析結果が前記禁止用語と一致する前記形態素群を、候補形態素として選択するステップと、前記候補形態素に対して前記解析結果が一致する前記禁止用語である比較禁止用語と、前記候補形態素とに基づいて、前記対象テキストの校正箇所と、前記校正箇所における校正の候補となる用語である校正候補とを設定するステップと、を含み、前記校正箇所と校正候補を設定するステップでは、前記比較禁止用語の表現が前記候補形態素の表現に一致する場合には、前記候補形態素を前記校正箇所に設定し、前記比較禁止用語に対応付けられた前記推奨用語を、前記校正候補に設定する。
【0008】
本開示に係るプログラムは、禁止用語と、前記禁止用語に対応付けられた推奨用語とを取得するステップと、校正対象のテキストデータである対象テキストを取得するステップと、前記禁止用語及び前記対象テキストに対して実行された形態素解析により導出された、前記禁止用語に含まれる形態素、及び前記対象テキストに含まれる形態素を取得するステップと、前記対象テキストに含まれる少なくとも1つの形態素を含む形態素群のうちから、前記形態素解析の解析結果が前記禁止用語と一致する前記形態素群を、候補形態素として選択するステップと、前記候補形態素に対して前記解析結果が一致する前記禁止用語である比較禁止用語と、前記候補形態素とに基づいて、前記対象テキストの校正箇所と、前記校正箇所における校正の候補となる用語である校正候補とを設定するステップと、をコンピュータに実行させ、前記校正箇所と校正候補を設定するステップでは、前記比較禁止用語の表現が前記候補形態素の表現に一致する場合には、前記候補形態素を前記校正箇所に設定し、前記比較禁止用語に対応付けられた前記推奨用語を、前記校正候補に設定する。
【発明の効果】
【0009】
本開示によれば、文章を適切に校正できる。
【図面の簡単な説明】
【0010】
図1図1は、本実施形態に係る校正装置の模式的なブロック図である。
図2図2は、辞書データの一例を示す表である。
図3図3は、形態素解析の結果の一例を示す表である。
図4図4は、形態素解析の結果の一例を示す表である。
図5図5は、形態素解析の結果の一例を示す表である。
図6図6は、形態素解析の結果の一例を示す表である。
図7図7は、形態素解析の結果の一例を示す表である。
図8図8は、第1実施形態に係る処理フローを説明するフローチャートである。
図9図9は、第2実施形態における辞書データの一例を示す表である。
図10図10は、第2実施形態に係る処理フローを説明するフローチャートである。
図11図11は、第3実施形態における辞書データの一例を示す表である。
【発明を実施するための形態】
【0011】
以下に添付図面を参照して、本開示の好適な実施形態を詳細に説明する。なお、この実施形態により本開示が限定されるものではなく、また、実施形態が複数ある場合には、各実施形態を組み合わせて構成するものも含むものである。
【0012】
(第1実施形態)
(校正装置)
本実施形態に係る校正装置10は、校正対象の対象テキストから、校正箇所と、その校正箇所における校正候補とを設定する。校正箇所とは、対象テキストに含まれる文字列のうちで、校正が必要な文字列を指す。また、校正候補とは、校正箇所の文字列に対して、校正の候補となる文字列(用語)を指す。
【0013】
図1は、本実施形態に係る校正装置の模式的なブロック図である。本実施形態に係る校正装置10は、例えばコンピュータであり、図1に示すように、入力部12と出力部14と通信部16と記憶部18と制御部20とを有する。入力部12は、ユーザの操作を受け付ける装置であり、例えばマウス、キーボード、タッチパネルなどであってよい。出力部14は、情報を出力する装置であり、例えば画像を表示するディスプレイなどであってよい。通信部16は、外部の装置などと通信するモジュールであり、例えばアンテナなどを含んでよい。通信部16による通信方式は、本実施形態では無線通信であるが、通信方式は任意であってよい。なお、校正装置10は、入力部12、出力部14及び通信部16を有さなくてもよい。また、校正装置10は、単体の装置で構成してもよいし、他の装置と一体に構成してもよいし、演算装置及びデータサーバ等の各種装置を組み合わせたシステムとして構成してもよく、特に限定されない。
【0014】
記憶部18は、制御部20の演算内容やプログラムなどの各種情報を記憶するメモリであり、例えば、RAM(Random Access Memory)と、ROM(Read Only Memory)のような主記憶装置と、HDD(Hard Disk Drive)などの外部記憶装置とのうち、少なくとも1つ含む。記憶部18が保存する制御部20用のプログラムは、校正装置10が読み取り可能な記録媒体に記憶されていてもよい。
【0015】
制御部20は、演算装置であり、例えばCPU(Central Processing Unit)などの演算回路を含む。制御部20は、用語取得部30と、テキスト取得部32と、解析部34と、選択部36と、校正部38と、出力制御部40とを含む。制御部20は、記憶部18からプログラム(ソフトウェア)を読み出して実行することで、用語取得部30とテキスト取得部32と解析部34と選択部36と校正部38と出力制御部40とを実現して、それらの処理を実行する。なお、制御部20は、1つのCPUによってこれらの処理を実行してもよいし、複数のCPUを備えて、それらの複数のCPUで、処理を実行してもよい。また、用語取得部30とテキスト取得部32と解析部34と選択部36と校正部38と出力制御部40との少なくとも一部を、ハードウェアで実現してもよい。
【0016】
以下、校正装置10の処理内容について説明する。
【0017】
(辞書データの取得)
用語取得部30は、校正に用いる辞書データを取得する。辞書データとは、校正に用いる用語集である。本実施形態においては、辞書データは、禁止用語と、その禁止用語に対応付けられた推奨用語とを含むデータである。禁止用語とは、使用すべきでない用語(文字列)であり、推奨用語とは、禁止用語の代わりに使用すべき用語(文字列)である。すなわち、禁止用語が使用されている場合には、その禁止用語の代わりに推奨用語を用いることが推奨されることになる。対応付けられた禁止用語と推奨用語とを1セットの対応用語とすると、用語取得部30は、複数セットの対応用語を含む辞書データを取得する。
【0018】
辞書データ(本実施形態では禁止用語と推奨用語)は、予め設定されており、用語取得部30は、予め設定された辞書データを取得する。辞書データの内容は、校正装置10を用いる主体などにより、適宜設定されてよい。辞書データの取得方法は任意であってよく、例えば、用語取得部30は、記憶部18に予め記憶された辞書データを読み出してよいし、通信部16を介して、他の装置(サーバなど)から辞書データを取得してもよい。
【0019】
図2は、辞書データの一例を示す表である。本実施形態においては、辞書データ(第1辞書データ)に含まれる禁止用語と推奨用語とは、読みが同じであるが、少なくとも一部の文字列で文字の種類が異なるものである。文字の種類とは、カタカナ、ひらがな、漢字、ローマ字などの、文字形態の種類を指す。図2の辞書データの例では、「掻き消す」という禁止用語と「かき消す」という推奨用語とが対応付けられており、「偉い」という禁止用語と「えらい」という推奨用語とが対応付けられており、「偉振る」という禁止用語と「偉ぶる」という推奨用語とが対応付けられている。ただし、禁止用語と推奨用語は図2の例のものに限られず、禁止用語と推奨用語の数や内容は、適宜設定されてよい。
【0020】
(対象テキストの取得)
テキスト取得部32は、対象テキストを取得する。対象テキストとは、校正対象となるテキストデータ(文字列を含むデータ)である。対象テキストの取得方法は任意であってよく、例えば、テキスト取得部32は、通信部16を介して、他の装置(サーバなど)から対象テキストを取得してもよいし、ユーザによって入力部12に入力されたテキストデータを、対象テキストとして取得してもよい。
【0021】
(形態素解析)
解析部34は、対象テキストに対して形態素解析を実行して、その解析結果を取得する。形態素解析とは、解析対象となる文字列を形態素に区分する処理を指す。本実施形態においては、形態素解析における解析結果は、解析対象の文字列に含まれる形態素と、その形態素の正規形の情報とを含む。形態素解析における解析結果は、更に、形態素の品詞と活用と辞書形との少なくとも1つ(好ましくは全て)も含むことが好ましい。形態素解析は、任意の形態素解析器を用いて実行されてよい。
【0022】
図3から図7は、形態素解析の結果の一例を示す表である。図3の(A)は、対象テキストが「話声を掻き消す。」という文字列である場合の形態素解析の結果の例を示している。この場合、対象テキストの文字列は、「話声」、「を」、「掻き消す」、「。」という4つの形態素(表層形)に区分され、形態素毎の解析結果(本例では辞書形、品詞、正規形、活用の種類、活用形)が導出される。
【0023】
また、解析部34は、禁止用語に対して実行された形態素解析の解析結果を取得する。解析部34は、辞書データに含まれるそれぞれの禁止用語についての、形態素解析の解析結果を取得する。解析部34は、禁止用語の解析結果を任意の方法で取得してよく、例えば、対象テキストが取得された際に禁止用語の形態素解析を実行することにより解析結果を取得してもよいし、予め実行された解析結果を記憶部18から読み出してもよい。なお、禁止用語は、1つの形態素のみを含んでもよいし、複数の形態素を含むものであってもよい。図3の(B)は、禁止用語である「掻き消す」の形態素解析の結果の例を示している。
【0024】
(候補形態素の選択)
選択部36は、対象テキストに含まれる形態素群のうちから、形態素解析の解析結果が禁止用語と一致する形態素群を、候補形態素として選択する。形態素群とは、対象テキストに含まれる少なくとも1つの形態素を含むものを指し、対象テキスト中の1つの形態素、又は、対象テキスト中で連続して並ぶ2つ以上の形態素を指す。例えば、図3に示す「掻き消す」は、1つの形態素からなる形態素群であり、後の図7で説明する「偉振ら」は、連続する2つの形態素(「偉」、「振ら」)からなる形態素群である。
【0025】
候補形態素の選択についてより具体的に説明する。選択部36は、対象テキストに含まれる各形態素の解析結果と、それぞれの禁止用語の解析結果とに基づいて、候補形態素と比較禁止用語とを選択する。すなわち、選択部36は、対象テキストに含まれる形態素群のうちから、それぞれの禁止用語のいずれかに対して解析結果が一致する形態素群を、候補形態素として選択する。比較禁止用語は、それぞれの禁止用語のうちで、その候補形態素に対して解析結果が一致する禁止用語といえる。ここでの解析結果とは、形態素(又は形態素群)の正規形と品詞を指す。すなわち本実施形態では、選択部36は、正規形と品詞の両方が一致した場合に、解析結果が一致すると判断し、正規形と品詞の少なくとも一方が一致しない場合には、解析結果が一致しないと判断する。
【0026】
図3の例では、「掻き消す」という禁止用語が存在するため、対象テキストに含まれる各形態素のうちで、禁止用語に対して正規形及び品詞が一致する「掻き消す」という形態素が、候補形態素として選択される。
【0027】
(校正箇所と校正候補の設定)
校正部38は、候補形態素と比較禁止用語とに基づき、対象テキストの校正箇所と、その校正箇所における校正候補とを設定する。具体的には、校正部38は、候補形態素の表現と比較禁止用語の表現とが一致するかを判断し、その判断結果に基づき、校正箇所と校正候補を設定する。候補形態素の表現とは、候補形態素の表層形を指し、比較禁止用語の表現とは、比較禁止用語の表層形を指す。
【0028】
(候補形態素と比較禁止用語の表現が一致する場合)
候補形態素の表現と比較禁止用語の表現とが一致する場合、校正部38は、対象テキストの文字列のうちの候補形態素に対応する文字列を、校正箇所に設定し、比較禁止用語に対応付けられた推奨用語を、校正候補に設定する。図3の例では、候補形態素の表現(表層形)である「掻き消す」と、比較禁止用語の表現(表層形)である「掻き消す」とが一致する。そのため、校正部38は、「話声を掻き消す。」という対象テキストのうちの「掻き消す」を校正箇所に設定する。そして、校正部38は、比較禁止用語である「掻き消す」に対応付けられた推奨用語である「かき消す」を、校正候補に設定する。
【0029】
(候補形態素と比較禁止用語の表現が一致しない場合)
一方、候補形態素の表現と比較禁止用語の表現とが一致しない場合には、校正部38は、比較禁止用語に対応付けられた推奨用語を、候補形態素の解析結果に基づいて補正する。そして、校正部38は、候補形態素を校正箇所に設定し、補正した推奨用語を校正候補に設定する。候補形態素の解析結果に基づいた推奨用語の補正方法は任意であってよいが、本実施形態では、校正部38は、候補形態素の活用に基づいて、推奨用語の表現を補正する。具体的には、校正部38は、候補形態素の活用形と同じ活用形となるように、推奨用語を補正する。以下、補正された推奨用語を、適宜、補正用語と記載する。
【0030】
図4は、対象テキストが「話声を掻き消せ。」である場合の一例を示しており、図4の(A)がその対象テキストの形態素解析結果であり、(B)が推奨用語と補正用語とを示している。図4の例では、「掻き消せ」が候補形態素とされ、「掻き消せ」と正規形が一致する「掻き消す」(図4に示さず)が比較禁止用語とされる。図4の例では、候補形態素(「掻き消せ」)と比較禁止用語(「掻き消す」)とは表層形が一致しない。そのため、校正部38は、比較禁止用語(「掻き消す」)に対応付けられた推奨用語である「かき消す」を、候補形態素の活用形(命令形一般)に補正して、補正された表現である「かき消せ」を、補正用語として設定する。校正部38は、「話声を掻き消せ。」という対象テキストのうちの「掻き消せ」を校正箇所とし、「かき消せ」を校正候補とする。
【0031】
図4の例では、補正用語が1つのみであったが、補正用語が複数存在する場合がある。この場合の処理について説明する。上述のように、校正部38は、推奨用語を候補形態素と同じ活用形に補正された推奨用語を、補正用語とする。補正用語が複数存在する場合には、すなわち、同じ活用形ではあるが異なる表現の補正用語がある場合には、校正部38は、それらの複数の補正用語のうちで、末尾の文字が、候補形態素の末尾の文字と一致する補正用語があるかを判断する。候補形態素と末尾の文字が一致する補正用語がある場合、校正部38は、複数の補正用語のうちで、末尾の文字が一致する補正用語を、校正候補として設定する。
【0032】
図5は、対象テキストが「話声を掻き消さない。」である場合の一例を示しており、図4の(A)がその対象テキストの形態素解析結果であり、(B)が推奨用語と補正用語とを示している。図5の例では、「掻き消さ」が候補形態素とされ、「掻き消さ」と正規形が一致する「掻き消す」(図5に示さず)が比較禁止用語とされる。図5の例では、候補形態素(「掻き消さ」)と比較禁止用語(「掻き消す」)とは表層形が一致しない。そのため、校正部38は、比較禁止用語(「掻き消す」)に対応付けられた推奨用語である「かき消す」を、候補形態素の活用形(未然形一般)に補正した用語を、補正用語とする。「かき消す」の未然形一般活用は、「かき消さ」と「かき消そ」との2つあるため、補正用語は、「かき消さ」と「かき消そ」との2つになる。この場合、校正部38は、「話声を掻き消さない。」という対象テキストのうちの「掻き消さ」を校正箇所とし、末尾の文字が候補形態素に一致する「かき消さ」を校正候補とする。
【0033】
なお、複数の補正用語のうちで、末尾の文字が候補形態素の末尾の文字と一致する補正用語が無い場合には、校正部38は、候補形態素を校正箇所としつつ、全ての補正用語を校正候補とする。すなわち例えば、図5の例において、補正用語である「かき消さ」と「かき消そ」との両方の末尾の文字が、候補形態素の末尾の文字に一致しない場合には、「かき消さ」と「かき消そ」との両方を校正候補とする。
【0034】
(結果の出力)
出力制御部40は、校正部38による処理結果を出力する。出力制御部40は、校正箇所と校正候補とを示す情報を出力する。出力制御部40による出力方法は任意であってよい。例えば、出力制御部40は、校正箇所と校正候補とを示す情報を、出力部14に出力させてよい(例えばディスプレイに表示させてよい)。また例えば、出力制御部40は、校正箇所と校正候補とを示す情報を、通信部16を介して別の装置に送信(出力)してもよい。
【0035】
(校正しない場合)
以上では、校正箇所と校正候補とを設定する場合を説明したが、校正装置10は、校正を行わない(校正箇所と校正候補とを設定しない)場合もある。校正を行わない場合について、以下で説明する。
【0036】
校正部38は、対象テキストに候補形態素が含まれていない場合には(すなわち対象テキスト中に、禁止用語と正規形が一致する形態素群が無い場合には)、校正しないと判断して、校正箇所及び校正候補の設定を行わなくてよい。
【0037】
校正部38は、対象テキストに候補形態素が含まれているが、その候補形態素が語幹である場合には、校正しないと判断して、校正箇所及び校正候補の設定を行わなくてよい。語幹とは、語のうちで活用しても変わらない部分を指し、形態素解析により、語幹であるかが解析される。すなわち、校正部38は、選択された候補形態素の解析結果が、その候補形態素が語幹であることを示している場合には、校正しないと判断して、校正箇所及び校正候補の設定を行わない。図6は、対象テキストが「年齢の割に偉振らず。」であり、禁止用語が「偉」である場合の一例を示している。図6の(A)は、その対象テキストの形態素解析結果の例であり、(B)は、比較禁止用語の形態素解析結果の例である。図6の例では、対象テキスト中の「偉」が候補形態素とされるが、「偉」は語幹であるため、校正部38は、校正しないと判断する。
【0038】
校正部38は、対象テキストに候補形態素が含まれているが、その候補形態素の表現が、推奨用語の表現と一致する場合には、校正しないと判断して、校正箇所及び校正候補の設定を行わなくてよい。また、校正部38は、対象テキストに候補形態素が含まれているが、その候補形態素の表現が、予め設定された許可用語の表現と一致する場合には、校正しないと判断して、校正箇所及び校正候補の設定を行わなくてよい。許可用語とは、使用が許可される用語、すなわちホワイトリストであり、予め設定される。
【0039】
(禁止用語が複数の形態素を含む場合)
図3から図6では、禁止用語及び候補形態素が1つの形態素からなる場合の例を示していたが、禁止用語が複数の形態素を含む場合があり、この場合には、候補形態素も複数の形態素を含むことになる。複数の形態素を含む場合にも、上述の説明と同様の方法で校正候補と校正箇所を設定するため、詳細な説明を省略するが、以下で、図7に基づき一例を説明する。図7は、対象テキストが「年齢の割に偉振らず。」であり、禁止用語が「偉振る」である場合の一例を示している。図6の(A)がその対象テキストの形態素解析結果であり、(B)が比較禁止用語の形態素解析結果であり、(C)が推奨用語と補正用語とを示している。図7の例では、対象テキストのうちで、比較禁止用語(「偉振る」)の各形態素に対して解析結果(正規形及び品詞)が一致する形態素群(「偉振ら」)が候補形態素として選択される。そして、図7の例では、比較禁止用語(「偉振る」)と候補形態素(「偉振ら」)の表現が一致しないため、推奨用語である「偉ぶる」を補正した「偉ぶら」が校正候補とされる。
【0040】
(処理フロー)
以上説明した校正箇所と校正候補の設定の処理フローを説明する。図8は、第1実施形態に係る処理フローを説明するフローチャートである。図8に示すように、校正装置10は、テキスト取得部32により、対象テキストを取得し(ステップS10)、解析部34により、対象テキストに対して形態素解析を実行する(ステップS12)。校正装置10は、選択部36により、対象テキストに、禁止用語と解析結果が一致する候補形態素が含まれているかを判断し(ステップS14)、候補形態素が無い場合には(ステップS14:No)、ステップS16に進み、校正しないと判断する。一方、候補形態素がある場合には(ステップS14;Yes)、校正装置10は、校正部38により、候補形態素が語幹であるかを判断し(ステップS18)、語幹である場合(ステップS18;Yes)にはステップS16に進み、語幹でない場合には(ステップS18;No)、候補形態素が推奨用語又は許可用語の表現に一致するかを判断する(ステップS20)。候補形態素が推奨用語又は許可用語に一致する場合(ステップS20;Yes)、ステップS16に進み、一致しない場合(ステップS20;No)、ステップS22に進む。ステップS22において、校正部38は、候補形態素と比較禁止用語の表現が一致するかを判断し(ステップS22)、一致する場合(ステップS22;Yes)、候補形態素を校正箇所とし、比較禁止用語に対応する推奨用語を校正候補とする(ステップS24)。一方、候補形態素と比較禁止用語の表現が一致しない場合(ステップS22;No)、校正部38は、候補形態素の活用形となるように推奨用語を補正して(ステップS26)、候補形態素を校正箇所とし、補正した推奨用語(補正用語)を構成候補とする(ステップS28)。なお、ステップS28においては、補正した推奨用語(補正用語)が複数ある場合には、上述で説明したように、ケースに応じて校正候補を設定する。
【0041】
ステップS16,S24、S28のいずれかを実行したら、ステップS30に進み、本処理を終了する場合(ステップS30;Yes)には終了し、終了しない場合(ステップS30;No)にはステップS10に戻り処理を続ける。ただし、対象テキストに候補形態素が複数含まれている場合には、全ての候補形態素について、ステップS18以降の処理を実行してから、ステップS30に進む。
【0042】
(効果)
以上説明したように、本実施形態においては、対象テキストと禁止用語の形態素解析の解析結果を比較して、候補形態素を抽出し、その候補形態素を校正箇所に設定する。そして、抽出した候補形態素と禁止用語(比較禁止用語)との表現が一致する場合には、その禁止用語に対応する推奨用語を、校正候補とする。本実施形態では、形態素解析の解析結果に基づき候補形態素を抽出するため、禁止用語に表現が完全に一致しなくても、校正箇所を発見することが可能となり、校正箇所を好適に検出できる。そのため、本実施形態によると、対象テキストから、校正すべき文字列を適切に抽出することができ、かつ、抽出した文字列を適切に校正することが可能となる。
【0043】
さらに言えば、本実施形態においては、抽出した候補形態素と比較禁止用語との表現が一致しない場合には、すなわち解析結果は同じであるが表現が異なる場合には、候補形態素の解析結果に基づき補正した推奨用語(補正用語)を、校正候補とする。従って、禁止用語に表現が完全に一致しなくても、校正箇所を発見することが可能となり、校正箇所をより好適に検出できる。また、候補形態素に合わせて補正した推奨用語を校正候補とするため、元の対象テキストに表現を合わせつつ、校正することが可能となる。
【0044】
(第2実施形態)
次に、第2実施形態について説明する。第1実施形態においては、形態素解析の解析結果から、候補形態素を選択していたが、第2実施形態においては、禁止用語の表現が含まれている形態素群を、候補形態素として選択する点で、第1実施形態とは異なる。第2実施形態において、第1実施形態と構成が共通する箇所は、説明を省略する。なお、第2実施形態と第1実施形態とを組み合わせてもよく、言い換えれば、第1実施形態で説明した処理と第2実施形態で説明する処理との両方を行ってもよい。
【0045】
(辞書データ)
図9は、第2実施形態における辞書データの一例を示す表である。第2実施形態においては、用語取得部30は、辞書データとして、複数セットの対応用語(対応付けられた禁止用語と推奨用語)を取得する。第2実施形態の辞書データ(第2辞書データ)は、推奨用語が、対応する禁止用語と同じ文字列と、その禁止用語に含まれない文字とを含む、対象用語を含む。図9では、このような対応用語の例として、禁止用語が「位置エネルギ」、推奨用語が「位置エネルギー」であるものが示されている。
【0046】
また、第2実施形態の辞書データは、禁止用語と推奨用語の読みが同じであるが少なくとも一部で文字の種類が異なる、対応用語(禁止用語と推奨用語)も含んでいてよい。読みが同じであるが少なくとも一部で文字の種類が異なる対応用語においては、その禁止用語(又は推奨用語)の品詞も設定されることが好ましい。図9では、このような対応用語の例として、禁止用語が「さる」、推奨用語が「猿」、品詞が名詞であるものが挙げられる。また例えば、禁止用語が「あくる」であり推奨用語が「明くる」であるものや、禁止用語が「ろし」であり推奨用語が「濾紙」であるものが挙げられている。
【0047】
(形態素解析)
第2実施形態においても、第1実施形態と同様の方法で、対象テキストについての、形態素解析の解析結果を取得する。第2実施形態においては、禁止用語に対しては、形態素解析の解析結果を取得しなくてもよい。
【0048】
(候補形態素の選択)
第2実施形態においては、選択部36は、対象テキストに含まれる形態素群のうちから、禁止用語の表現を含む形態素群を、候補形態素として選択する。具体的には、選択部36は、対象テキストに含まれる各形態素のうちで、いずれかの禁止用語の表現を含む形態素を、候補形態素として選択し、その候補形態素に表現が含まれる禁止用語を、比較禁止用語として選択する。なお、ここでの表現とは、第1実施形態と同様に表層形を指す。
【0049】
(校正箇所と校正候補の設定)
第2実施形態においては、校正部38は、候補形態素と比較禁止用語との形態素解析の解析結果に基づき、対象テキストの校正箇所と、その校正箇所における校正候補とを設定する。以下、具体的な設定方法を説明する。
【0050】
(候補形態素に含まれる形態素の数が複数の場合)
校正部38は、候補形態素の解析結果に示される、候補形態素に含まれる形態素の数が複数(2つ以上)である場合、候補形態素を校正箇所に設定し、比較禁止用語に対応付けられた推奨用語を、校正候補に設定する。例えば、対象テキストが「富士山の山頂は位置エネルギが大きい。」であり、「位置エネルギ」という禁止用語がある場合、校正部38は、対象テキストのうちの「位置エネルギ」を候補形態素とし、禁止用語の「位置エネルギ」を比較禁止用語とする。この場合、候補形態素である「位置エネルギ」は、「位置」、「エネルギ」という2つの形態素を含む。従って、校正部38は、対象テキストのうちの「位置エネルギ」を校正箇所として、比較禁止用語に対応付いた「位置エネルギー」を校正候補とする。
【0051】
(候補形態素に含まれる形態素の数が1つの場合)
校正部38は、候補形態素に含まれる形態素の数が1つである場合、校正部38は、候補形態素の品詞と、比較禁止用語の品詞とが一致するかを判断する。候補形態素の品詞と比較禁止用語の品詞とが一致する場合、校正部38は、候補形態素を校正箇所に設定し、比較禁止用語に対応付けられた推奨用語を、校正候補に設定する。一方、候補形態素の品詞と比較禁止用語の品詞とが一致しない場合、校正部38は、その候補形態素に対して校正を行わず、校正箇所及び校正候補を設定しない。例えば、対象テキストが「さるがさる。」であり、「さる」(品詞は名詞)という禁止用語がある場合、校正部38は、対象テキストのうちの「さる」、「さる」の2つを候補形態素とし、禁止用語の「さる」を比較禁止用語とする。この場合、1番目の候補形態素の「さる」は名詞であり、禁止用語の品詞と一致するため、1番目の候補形態素を校正箇所とし、比較禁止用語の「さる」に対応する推奨用語である「猿」を校正候補とする。一方、2番目の候補形態素の「さる」は動詞であり、禁止用語の品詞と一致しないため、2番目の候補形態素については校正しない。
【0052】
なお、辞書データにおいて比較禁止用語に品詞が設定されていない場合には、品詞同士が一致するかの判断を行わなくてよい。すなわちこの場合、校正部38は、候補形態素に含まれる形態素の数が1つであり、かつ、比較禁止用語に品詞が設定されていない場合には、候補形態素を校正箇所に設定し、比較禁止用語に対応付けられた推奨用語を、校正候補に設定する。例えば、対象テキストが「あくる日の朝。」であり、「あくる」(品詞の設定なし)という禁止用語がある場合、校正部38は、対象テキストのうちの「あくる」を候補形態素とし、禁止用語の「あくる」を比較禁止用語とする。この場合、比較禁止用語に品詞が設定されてないので、校正部38は、対象テキストのうちの「あくる」を校正箇所として、比較禁止用語に対応付いた「明くる」を校正候補とする。
【0053】
(校正を行わない場合)
第2実施形態において、候補形態素を校正しないケースについて、以下で説明する。
【0054】
校正部38は、対象テキストに候補形態素が含まれていない場合には(すなわち対象テキスト中に、禁止用語の表現を含む形態素群が無い場合には)、校正しないと判断して、校正箇所及び校正候補の設定を行わなくてよい。
【0055】
校正部38は、対象テキストに候補形態素が含まれているが、その候補形態素の表現が、推奨用語の表現と一致する場合には、校正しないと判断して、校正箇所及び校正候補の設定を行わなくてよい。また、校正部38は、対象テキストに候補形態素が含まれているが、その候補形態素の表現が、予め設定された許可用語の表現と一致する場合には、校正しないと判断して、校正箇所及び校正候補の設定を行わなくてよい。
【0056】
校正部38は、対象テキストに候補形態素が含まれているが、その候補形態素の最初の文字と最後の文字の両方が、比較禁止用語と異なる場合には、校正しないと判断して、校正箇所及び校正候補の設定を行わなくてよい。すなわち、校正部38は、候補形態素の最初の文字が比較禁止用語の最初の文字と異なり、かつ、候補形態素の最後の文字が比較禁止用語の最後の文字と異なる場合には、校正を行わない。例えば、対象テキストが「よろしくお願い致します。」であり、禁止用語に「ろし」が含まれる場合、校正部38は、対象テキストのうちの「よろしく」を候補形態素とし、禁止用語の「ろし」を比較禁止用語とする。この場合、候補形態素の最初と最後の文字の両方が、禁止用語の最初の文字と最後の文字とは異なるため、校正部38は、校正を行わない。なお、最初の文字と最後の文字とのいずれか一方のみが異なる場合には、上述で説明した方法で校正を行う。
【0057】
なお、候補形態素に、複数種類の比較禁止用語が含まれる場合においては、候補形態素に含まれる、比較禁止用語に対応するそれぞれの形態素(群)毎に、上述の方法で校正の処理を実行する。
【0058】
(処理フロー)
以上説明した校正の処理フローを説明する。図10は、第2実施形態に係る処理フローを説明するフローチャートである。図10に示すように、校正装置10は、テキスト取得部32により、対象テキストを取得し(ステップS40)、解析部34により、対象テキストに対して形態素解析を実行する(ステップS42)。校正装置10は、選択部36により、対象テキストに、禁止用語の表現を含む候補形態素が含まれているかを判断し(ステップS44)、候補形態素が無い場合には(ステップS44:No)、ステップS46に進み、校正しないと判断する。一方、候補形態素がある場合には(ステップS44;Yes)、校正装置10は、校正部38により、候補形態素が推奨用語又は許可用語の表現に一致するかを判断する(ステップS48)。候補形態素が推奨用語又は許可用語に一致する場合(ステップS48;Yes)、ステップS46に進み、一致しない場合(ステップS48;No)、ステップS50に進む。ステップS50において、校正部38は、候補形態素の最初の文字と最後の文字の両方が、比較禁止用語と異なるかを判断し(ステップS50)、両方が異なる場合(ステップS50;Yes)、ステップS46に進み、両方が異ならない場合(ステップS50;No)、ステップS52に進む。ステップS52において、校正部38は、候補形態素に含まれる形態素の数が2つ以上であるかを判断し(ステップS52)、2つ以上である場合、候補形態素を校正箇所とし、比較禁止用語に対応する推奨用語を校正候補とする(ステップS54)。一方、2つ以上でない場合(ステップS52;No)、校正部38は、候補形態素と比較禁止用語との品詞が一致するかを判断し(ステップS56)、一致する場合には(ステップS56;Yes)ステップS54に進み、一致しない場合には(ステップS56;No)ステップS46に進む。なお、比較禁止用語に品詞が設定されていない場合には、ステップS56を実行することなく、ステップS54に進んでよい。
【0059】
ステップS46,S54のいずれかを実行したら、ステップS58に進み、本処理を終了する場合(ステップS58;Yes)には終了し、終了しない場合(ステップS58;No)にはステップS40に戻り処理を続ける。
【0060】
(効果)
以上説明したように、第2実施形態においては、禁止用語の表現を含む候補形態素を抽出し、その候補形態素の数が2つ以上である場合には、その禁止用語に対応付いた推奨用語を校正候補とする。そして、候補形態素の数が1つの場合には、品詞が一致する場合に限って、その禁止用語に対応付いた推奨用語を校正候補とする。従って、上述の「さるがさる。」のように、品詞に基づいて、校正すべき用語を検出することができ、品詞が異なる用語が校正されてしまうことを抑制できる。そのため、本実施形態によると、校正を適切に実行できる。
【0061】
(第3実施形態)
第3実施形態においては、辞書データが、対象用語と、その対象用語の前又は後に位置する付加用語の形式とを含む点で、第1実施形態とは異なる。第3実施形態において、第1実施形態と構成が共通する箇所は、説明を省略する。なお、第3実施形態を、第1実施形態及び第2実施形態の少なくとも一方と、組み合わせてもよい。言い換えれば、第3実施形態で説明する処理と、第1実施形態及び第2実施形態の少なくとも一方における処理との両方を行ってもよい。
【0062】
図11は、第3実施形態における辞書データの一例を示す表である。第3実施形態においては、用語取得部30は、対象用語と付加用語の形式とを含むデータを、辞書データ(第3辞書データ)として取得する。対象用語とは、校正の対象となる用語である。付加用語は、対象用語の前又は後(直前又は直後)に位置する文字であり、付加用語の形式とは、その付加用語の文字の種類(カタカナ、ひらがな、漢字、ローマ字、数字など)を指す。対象用語、及び付加用語の形式は、校正装置10を用いる主体などにより、適宜設定されてよい。また、第3実施形態の辞書データは、対応付けられた対象用語と付加用語の形式とを、複数セット含んでもよい。
【0063】
図11の例では、対象用語が「次応力」であり、付加用語が対象用語の直前にある文字であり、付加用語の形式が数字となっている。
【0064】
(形態素解析)
第3実施形態においても、第1実施形態と同様の方法で、対象テキストについての、形態素解析の解析結果を取得する。
【0065】
(候補形態素の選択)
第3実施形態においては、選択部36は、対象テキストに含まれる形態素群のうちから、対象用語と表現が一致する形態素群を、候補形態素として選択する。具体的には、選択部36は、対象テキストに含まれる各形態素とそれぞれの対象用語とに基づいて、互いに表現が一致する対象テキストの形態素群と対象用語とを、候補形態素と比較対象用語として選択する。すなわち、選択部36は、対象テキストに含まれる形態素群のうちから、それぞれの禁止用語のいずれかに対して表現が一致する形態素群を、候補形態素として選択する。なお、ここでの表現とは、第1実施形態と同様に表層形を指す。すなわち例えば、対象テキストが「一次応力を計算する。」であり、対象用語が「次応力」である場合、校正部38は、対象テキストのうちの「次応力」を候補形態素として選択する。
【0066】
(校正箇所と校正候補の設定)
第3実施形態においては、校正部38は、候補形態素と、比較対象用語に対応する付加用語(比較付加用語)の形式とに基づき、対象テキストの校正箇所と、その校正箇所における校正候補とを設定する。以下、具体的な設定方法を説明する。
【0067】
校正部38は、候補形態素に対して、比較対象用語に対する比較付加用語の位置と同じ位置にある形態素を、付加形態素として抽出する。すなわち例えば、図11の例では、比較対象用語に対する比較付加用語の位置は、比較対象用語の直前であるため、校正部38は、対象テキスト(「一次応力を計算する。」)のうちで候補形態素の直前にある「一」を、付加形態素として抽出する。
【0068】
校正部38は、対象テキストに対する形態素解析の解析結果から、付加形態素の形式(文字の種類)を取得する。校正部38は、付加形態素の形式と、辞書データに示される比較付加用語の形式とが異なるかを判断し、異なる場合には、付加形態素を校正箇所とし、付加形態素の形式を比較付加用語の形式に補正した用語(文字)を、校正候補とする。すなわち上述の例では、付加形態素である「一」は漢字であり、比較付加用語の形式は数字であり、形式が異なる。そのため、校正部38は、対象テキストのうちの「一」を校正箇所とし、数字に変換した「1」を校正候補とする。なお、付加形態素及び候補形態素からなる用語を校正箇所とし、付加形態素及び候補形態素からなる用語のうちの、付加形態素の部分を比較付加用語の形式に補正した用語を、校正候補としてもよい。すなわち例えば、対象テキストのうちの「一次応力」を校正箇所とし、「1次応力」を校正候補としてもよい。
【0069】
なお、付加形態素の形式と、辞書データに示される比較付加用語の形式とが同じ場合には、校正を行わない。
【0070】
第3実施形態においては、対象用語と一致する候補形態素を抽出し、その候補形態素の付加形態素の形式と、比較付加用語の形式とを比較して、校正を行うかを判断する。従って、一律に形式を校正することなく、対象用語の前後にある文字を選んで校正することができるため、校正すべき用語を適切に検出して、校正することができる。
【0071】
(効果)
以上説明したように、本開示の第1態様に係る校正装置10は、用語取得部30と、テキスト取得部32と、解析部34と、選択部36と、校正部38とを含む。用語取得部30は、禁止用語と、禁止用語に対応付けられた推奨用語とを取得し、テキスト取得部32は、校正対象のテキストデータである対象テキストを取得する。解析部34は、禁止用語及び対象テキストに対して実行された形態素解析により導出された、禁止用語に含まれる形態素、及び対象テキストに含まれる形態素を取得する。選択部36は、対象テキストに含まれる少なくとも1つの形態素を含む形態素群のうちから、形態素解析の解析結果が禁止用語と一致する形態素群を、候補形態素として選択する。校正部38は、比較禁止用語と候補形態素とに基づいて、対象テキストの校正箇所と校正候補とを設定する。校正部38は、比較禁止用語の表現が候補形態素の表現に一致する場合には、候補形態素を校正箇所に設定し、比較禁止用語に対応付けられた推奨用語を、校正候補に設定する。本開示によると、対象テキストから、校正すべき文字列を適切に抽出することができ、かつ、抽出した文字列を適切に校正することが可能となる。
【0072】
本開示の第2態様に係る校正装置10は、第1態様に係る校正装置10であって、校正部38は、比較禁止用語の表現が候補形態素の表現に一致しない場合には、比較禁止用語に対応付けられた推奨用語を、候補形態素の解析結果に基づいて補正して、候補形態素を校正箇所に設定しつつ、補正した推奨用語(補正用語)を校正候補に設定する。本開示によると、対象テキストから、校正すべき文字列を適切に抽出することができ、かつ、抽出した文字列を適切に校正することが可能となる。
【0073】
本開示の第3態様に係る校正装置10は、第1態様又は第2態様に係る校正装置10であって、校正部38は、候補形態素の解析結果において、候補形態素が語幹である場合には、校正箇所及び校正候補を設定しない。語幹を校正してしまうと、意味が変わってしまう場合があるため、語幹である場合に校正しないことにより、誤った意味に校正してしまうことを抑制できる。
【0074】
本開示の第4態様に係る校正装置10は、第1態様から第3態様のいずれかに係る校正装置10であって、校正部38は、候補形態素の表現が、推奨用語、又は予め設定された許可用語と一致する場合には、校正箇所及び校正候補を設定しない。候補形態素が、推奨用語や許可用語と一致する場合に校正しないことで、意図せずに校正されてしまうことを抑制できる。
【0075】
本開示の第5態様に係る校正装置10は、第1態様から第4態様のいずれかに係る校正装置10であって、選択部36は、形態素群の品詞及び正規形が、禁止用語の品詞及び正規形と一致する場合に、解析結果が一致すると判断し、校正部38は、比較禁止用語の表層形が候補形態素に一致する場合に、表現が一致すると判断する。このような判断基準とすることで、校正箇所及び校正候補を適切に設定できる。
【0076】
本開示の第6態様に係る校正装置10は、第1態様から第5態様のいずれかに係る校正装置10であって、選択部36は、形態素群のうちから、禁止用語の表現を含む形態素群を、候補形態素として選択する。校正部38は、候補形態素に含まれる形態素の数が2つ以上である場合には、比較禁止用語に対応付けられた推奨用語を、校正候補に設定する。また、校正部38は、候補形態素に含まれる形態素の数が1つであり、かつ、候補形態素の品詞と、比較禁止用語の品詞とが一致する場合には、その比較禁止用語に対応付けられた推奨用語を、校正候補に設定する。本開示によると、品詞に基づいて、校正すべき用語を検出することができ、品詞が異なる用語が校正されてしまうことを抑制できる。そのため、本開示によると、校正を適切に実行できる。
【0077】
本開示の第7態様に係る校正装置10は、第6態様に係る校正装置10であって、校正部38は、候補形態素の最初の文字と最後の文字の両方が、比較禁止用語とは異なる場合には、校正を行わない。最初の文字と最後の文字が異なる用語に校正してしまうと、意味が変わってしまうおそれがある。それに対して、このような場合に校正しないことで、誤った意味に校正してしまうことを抑制できる。
【0078】
本開示の第8態様に係る校正装置10は、第1態様から第7態様のいずれかに係る校正装置10であって、用語取得部30は、対象用語と、対象用語の前又は後に位置する付加用語の形式とを取得する。選択部36は、形態素群のうちから、対象用語と表現が一致する形態素群を、候補形態素として選択する。校正部38は、候補形態素の前又は後に位置する付加形態素の形式と、付加用語の形式とが一致していない場合には、付加形態素を校正箇所に設定しつつ、付加形態素の形式を付加用語の形式に補正した用語を、校正候補に設定する。本開示によると、一律に形式を校正することなく、対象用語の前後にある文字を選んで校正することができるため、校正すべき用語を適切に検出して校正することができる。
【0079】
本開示の第9態様に係る校正方法は、禁止用語と、禁止用語に対応付けられた推奨用語とを取得するステップと、校正対象のテキストデータである対象テキストを取得するステップと、禁止用語及び対象テキストに対して実行された形態素解析により導出された、禁止用語に含まれる形態素、及び対象テキストに含まれる形態素を取得するステップと、対象テキストに含まれる少なくとも1つの形態素を含む形態素群のうちから、形態素解析の解析結果が禁止用語と一致する形態素群を、候補形態素として選択するステップと、候補形態素に対して解析結果が一致する禁止用語である比較禁止用語と、候補形態素とに基づいて、対象テキストの校正箇所と、校正箇所における校正の候補となる用語である校正候補とを設定するステップと、を含む。校正箇所と校正候補を設定するステップでは、比較禁止用語の表現が候補形態素の表現に一致する場合には、候補形態素を校正箇所に設定し、比較禁止用語に対応付けられた推奨用語を、校正候補に設定する。本開示によると、校正を適切に実行できる。
【0080】
本開示の第10態様に係るプログラムは、禁止用語と、禁止用語に対応付けられた推奨用語とを取得するステップと、校正対象のテキストデータである対象テキストを取得するステップと、禁止用語及び対象テキストに対して実行された形態素解析により導出された、禁止用語に含まれる形態素、及び対象テキストに含まれる形態素を取得するステップと、対象テキストに含まれる少なくとも1つの形態素を含む形態素群のうちから、形態素解析の解析結果が禁止用語と一致する形態素群を、候補形態素として選択するステップと、候補形態素に対して解析結果が一致する禁止用語である比較禁止用語と、候補形態素とに基づいて、対象テキストの校正箇所と、校正箇所における校正の候補となる用語である校正候補とを設定するステップと、コンピュータに実行させる。校正箇所と校正候補を設定するステップでは、比較禁止用語の表現が候補形態素の表現に一致する場合には、候補形態素を校正箇所に設定し、比較禁止用語に対応付けられた推奨用語を、校正候補に設定する。本開示によると、校正を適切に実行できる。
【0081】
以上、本開示の実施形態を説明したが、この実施形態の内容により実施形態が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
【符号の説明】
【0082】
10 校正装置
30 用語取得部
32 テキスト取得部
34 解析部
36 選択部
38 校正部
40 出力制御部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11