(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023083722
(43)【公開日】2023-06-16
(54)【発明の名称】文書作成システム、文書作成方法及び文書作成プログラム
(51)【国際特許分類】
G06F 40/151 20200101AFI20230609BHJP
G06F 40/237 20200101ALI20230609BHJP
G06F 40/216 20200101ALI20230609BHJP
【FI】
G06F40/151
G06F40/237
G06F40/216
【審査請求】有
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021197574
(22)【出願日】2021-12-06
(71)【出願人】
【識別番号】592131906
【氏名又は名称】みずほリサーチ&テクノロジーズ株式会社
(74)【代理人】
【識別番号】100105957
【弁理士】
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【弁理士】
【氏名又は名称】恩田 博宣
(72)【発明者】
【氏名】高橋 正樹
(72)【発明者】
【氏名】根本 裕也
【テーマコード(参考)】
5B091
5B109
【Fターム(参考)】
5B091CC02
5B109TA11
(57)【要約】
【課題】所定語をマスキングした文書を作成する文書作成システム、文書作成方法及び文書作成プログラムを提供する。
【解決手段】支援サーバ20は、ユーザ端末10に接続された制御部21を備える。制御部21が、ユーザ端末10から取得した文章の形態素分析を行なって、構成単語を特定し、構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、第1ホワイトリスト及び第2ホワイトリストに含まれない構成単語をマスキングして、ユーザ端末10に出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザ端末に接続された制御部を備えた文書作成システムであって、
前記制御部が、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、
前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、
前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力することを特徴とする文書作成システム。
【請求項2】
前記第1種類の品詞は名詞であり、
前記制御部が、前記第1方法として、教師文から抽出した名詞を用いて前記第1ホワイトリストを作成することを特徴とする請求項1に記載の文書作成システム。
【請求項3】
前記制御部が、
前記第1方法において、
前記教師文のすべての構成単語を抽出し、
前記構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第1ホワイトリストを作成することを特徴とする請求項2に記載の文書作成システム。
【請求項4】
前記第2種類の品詞は、名詞以外の何れかの品詞を含む品詞群であり、
前記第2ホワイトリストは、前記品詞群を用いて作成されていることを特徴とする請求項1~3の何れか一項に記載の文書作成システム。
【請求項5】
前記制御部が、
連続する前記構成単語を結合して再構成単語を生成し、
前記再構成単語がブラックリストに含まれる場合には、前記マスキングを行なうことを特徴とする請求項1~4の何れか一項に記載の文書作成システム。
【請求項6】
ユーザ端末に接続された制御部を備えた文書作成システムを用いて、マスキングした文章を作成する方法であって、
前記制御部が、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、
前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、
前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力することを特徴とする文書作成方法。
【請求項7】
ユーザ端末に接続された制御部を備えた文書作成システムを用いて、マスキングした文章を作成するためのプログラムであって、
前記制御部を、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、
前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、
前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力する手段として機能させるための文書作成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、所定語をマスキングした文書を作成する文書作成システム、文書作成方法及び文書作成プログラムに関する。
【背景技術】
【0002】
個人情報の保護等のため、文書に含まれる単語のマスキングを行なう場合がある。そこで、文書中から検出した固有名詞部分の確認と修正とを行なうための技術が検討されている(例えば、特許文献1を参照。)。この特許文献に記載された文書処理方法では、マスキングすべき文字列またはその一部を記憶する単語辞書を基に、入力した文書からマスキング対象箇所を検出し、この検出されたマスキング対象箇所をマスキング結果リストに記憶する。表示されたマスキング対象箇所のいずれかがユーザにより修正されると、マスキング結果リストに記憶されたマスキング対象箇所を、ユーザにより修正されたマスキング対象箇所に書き換える。
【0003】
また、プライバシ情報を保護するための技術が検討されている(例えば、特許文献2を参照。)。この特許文献に記載された技術では、提示情報は、クライアントから取得したコンテンツに対して、プライバシ情報に該当しうる候補単語等を、ユーザにより予め設定された、秘匿する単語、または単語の組合せと、公開する単語、または単語の組合せから決定する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2004-227141号公報
【特許文献2】特開2012-159939号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、単に、マスク対象単語を予めリストアップしたリストを用いてマスキングを行なっていたのでは、個人情報や特定情報の漏えい等を的確に抑制することができない。例えば、同じ単語であっても、普通名詞として使用される場合や固有名詞として使用される場合がある。この場合、単語だけでは個人情報か否かの区別が難しい。また、問題がない単語を予めリストアップしたリストを用いてマスキングを行なった場合、リストアップ数によっては、表示可能な単語が少なくなる可能性がある。
【課題を解決するための手段】
【0006】
上記課題を解決する文書作成システムは、ユーザ端末に接続された制御部を備える。そして、前記制御部が、前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力する。
【発明の効果】
【0007】
本開示によれば、所定語をマスキングした的確な文書を作成することができる。
【図面の簡単な説明】
【0008】
【
図4】本開示のホワイトリストの登録単語数と表現率との関係の説明図である。
【発明を実施するための形態】
【0009】
図1~
図6に従って、文書作成システム、文書作成方法及び文書作成プログラムを具体化した一実施形態を説明する。本実施形態では、文章に含まれる所定の単語(所定語)のマスキングを行なう場合を想定する。
図1に示すように、本実施形態の文書作成システムは、ネットワークを介して、相互に接続されたユーザ端末10、支援サーバ20、辞書サーバ30を用いる。
【0010】
(ハードウェア構成例)
図2は、ユーザ端末10、支援サーバ20、辞書サーバ30等として機能する情報処理装置H10のハードウェア構成例である。
【0011】
情報処理装置H10は、通信装置H11、入力装置H12、表示装置H13、記憶装置H14、プロセッサH15を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。
【0012】
通信装置H11は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。
【0013】
入力装置H12は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置H13は、各種情報を表示するディスプレイやタッチパネル等である。
【0014】
記憶装置H14は、ユーザ端末10、支援サーバ20、辞書サーバ30の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置H14の一例としては、ROM、RAM、ハードディスク等がある。
【0015】
プロセッサH15は、記憶装置H14に記憶されるプログラムやデータを用いて、ユーザ端末10、支援サーバ20における各処理(例えば、後述する制御部21における処理)を制御する。プロセッサH15の一例としては、例えばCPUやMPU等がある。このプロセッサH15は、ROM等に記憶されるプログラムをRAMに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサH15は、ユーザ端末10、支援サーバ20のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。
【0016】
プロセッサH15は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサH15は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路(例えば、特定用途向け集積回路:ASIC)を備えてもよい。すなわち、プロセッサH15は、以下で構成し得る。
【0017】
(1)コンピュータプログラム(ソフトウェア)に従って動作する1つ以上のプロセッサ
(2)各種処理のうち少なくとも一部の処理を実行する1つ以上の専用のハードウェア回路、或いは
(3)それらの組み合わせ、を含む回路(circuitry)
プロセッサは、CPU並びに、RAM及びROM等のメモリを含み、メモリは、処理をCPUに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。
【0018】
(ユーザ端末10、支援サーバ20及び辞書サーバ30の機能)
図1を用いて、ユーザ端末10、支援サーバ20、辞書サーバ30の機能を説明する。
ユーザ端末10は、本システムを利用するユーザが用いるコンピュータ端末である。
【0019】
支援サーバ20は、文章のマスキングを行なうコンピュータシステムである。この支援サーバ20は、制御部21、教師情報記憶部22、辞書記憶部23を備えている。
制御部21は、後述する処理(取得段階、リスト作成段階、マスク処理段階等を含む処理)を行なう。このための文書作成プログラムを実行することにより、制御部21は、取得部210、リスト作成部211、マスク処理部212等として機能する。
【0020】
取得部210は、ユーザ端末10から教師情報や、マスキングを行なう公開候補文を取得する処理を実行する。
リスト作成部211は、マスキングの要否を判定するための名詞のホワイトリスト(第1ホワイトリスト)を生成する処理を実行する。このリスト作成部211は、表現率について、第1ホワイトリストに含める名詞を判定するための基準値に関するデータを保持する。ここで、表現率とは、文を構成する全文字数に対して、マスキングされていない文字数の割合である。
マスク処理部212は、公開対象の候補文において、必要に応じてマスキングを行なった公開文を作成する処理を実行する。
【0021】
教師情報記憶部22には、名詞辞書作成処理に用いる教師情報が記録される。教師情報には、公開対象候補となる公開候補文に関するデータが記録される。この公開候補文では、単語のマスキングは行なわれていない。
【0022】
辞書記憶部23には、公開文において利用可能な単語をリストアップした第1ホワイトリストが記録される。第1ホワイトリストは、第1種類の品詞である名詞について、第1方法である名詞辞書作成処理の実行時に記録される。
【0023】
辞書サーバ30は、単語に関して品詞に関する辞書を保持するコンピュータシステムである。辞書サーバ30としては、例えば、国立国語研究所が提供するUniDic辞書を用いることができる。この辞書サーバ30のUniDic辞書は、単語の短単位で辞書を行なう。ここで、短単位は、言語の形態論的側面に着目し、最小単位を基に斉一性を重視して規定された言語単位(単位語)である。この辞書サーバ30は、第2種類の品詞である「名詞以外の品詞」の単語について、第2方法である一般辞書を用いて個人情報や特定情報に関わらない単語についての第2ホワイトリストを保持する。本実施形態では、第2種類の品詞は、少なくとも、助詞、動詞、助動詞、副詞、形容詞の何れか一つを含む。
【0024】
(名詞辞書作成処理)
次に、
図3を用いて、名詞辞書作成処理を説明する。
ここでは、支援サーバ20の制御部21は、教師情報の取得処理を実行する(ステップS11)。具体的には、制御部21の取得部210は、ユーザ端末10から、教師文を取得して、教師情報記憶部22に記録する。次に、取得部210は、教師文を形態素分析により、品詞に分けて、教師文に含まれるすべての名詞群(品詞群)を抽出する。更に、取得部210は、教師文に含まれる全文字数を算出する。
【0025】
次に、支援サーバ20の制御部21は、名詞の出現個数の算出処理を実行する(ステップS12)。具体的には、制御部21のリスト作成部211は、教師文から抽出したすべての名詞の名詞総数を算出する。次に、リスト作成部211は、教師文から抽出した名詞毎に、同じ名詞の出現個数を算出する。
【0026】
次に、支援サーバ20の制御部21は、固有名詞の除外処理を実行する(ステップS13)。具体的には、制御部21のリスト作成部211は、教師文から抽出した各名詞について、辞書サーバ30から名詞種類(普通名詞、固有名詞、数詞、形式名詞、代名詞)を取得する。そして、リスト作成部211は、教師文から抽出した名詞群から、固有名詞を除外して、使用可能な単語候補(名詞候補)を特定する。
【0027】
次に、支援サーバ20の制御部21は、出現個数が多い順番に名詞の特定処理を実行する(ステップS14)。具体的には、制御部21のリスト作成部211は、固有名詞を除外した名詞群において、出現個数が多く、出現頻度が高い名詞を特定する。
【0028】
次に、支援サーバ20の制御部21は、名詞辞書への登録処理を実行する(ステップS15)。具体的には、制御部21のリスト作成部211は、特定した名詞を、辞書記憶部23の第1ホワイトリストに登録する。
【0029】
次に、支援サーバ20の制御部21は、表現率の算出処理を実行する(ステップS16)。具体的には、制御部21のリスト作成部211は、この時点で第1ホワイトリストに登録されている各名詞の文字数に出現個数を乗算することにより、出現文字数を算出する。また、リスト作成部211は、出現文字数の総和を全文字数で除算することにより、表現率を算出する。
【0030】
ここで、
図4に示すように、第1ホワイトリストに登録された名詞が多くなる場合、マスキングされる単語が少なくなる。その結果、表現率が高くなる。ただし、第1ホワイトリストに登録された名詞が多くなると、表現率の増加割合は小さくなる。
【0031】
次に、支援サーバ20の制御部21は、表現率が基準値より高いかどうかについての判定処理を実行する(ステップS17)。具体的には、制御部21のリスト作成部211は、算出した表現率と基準値とを比較する。表現率の増加割合が小さくなる領域に、基準値を設定することにより、第1ホワイトリストに登録された名詞数の増加を抑制できる。これにより、第1ホワイトリストに登録された名詞のメンテナンスを容易にしている。
【0032】
表現率が基準値以下と判定した場合(ステップS17において「NO」の場合)、支援サーバ20の制御部21は、出現個数が多い順に名詞の特定処理(ステップS14)以降の処理を繰り返す。
一方、表現率が基準値よりも高いと判定した場合(ステップS17において「YES」の場合)、支援サーバ20の制御部21は、名詞辞書作成処理を終了する。
【0033】
(マスキング処理)
次に、
図5及び
図6を用いて、マスキング処理を説明する。この処理は、ユーザ端末10から、新たに公開候補文を取得した場合に実行される。
【0034】
まず、
図5に示すように、支援サーバ20の制御部21は、単語の分割処理を実行する(ステップS21)。具体的には、制御部21の取得部210は、公開候補文の形態素分析により、文の構成単語(短単位)に分割する。
【0035】
次に、支援サーバ20の制御部21は、文を構成する各単語を、順次、処理対象単語として特定し、以下の処理を繰り返す。
まず、支援サーバ20の制御部21は、名詞かどうかについての判定処理を実行する(ステップS22)。具体的には、制御部21のマスク処理部212は、辞書サーバ30から、各単語の品詞を取得する。そして、マスク処理部212は、処理対象単語の品詞が名詞かどうかを判定する。
【0036】
処理対象単語が名詞と判定した場合(ステップS22において「YES」の場合)、支援サーバ20の制御部21は、マスキング処理を実行する(ステップS23)。具体的には、制御部21のマスク処理部212は、公開候補文中の処理対象単語のマスキングを行なう。
【0037】
処理対象単語が助詞、動詞、助動詞、副詞、形容詞等であり、名詞でないと判定した場合(ステップS22において「NO」の場合)、支援サーバ20の制御部21は、一般辞書で作成されたホワイトリスト突合処理を実行する(ステップS24)。具体的には、制御部21のマスク処理部212は、処理対象単語と、辞書サーバ30に記録された第2ホワイトリストとを突合する。
【0038】
次に、支援サーバ20の制御部21は、マスキング対象かについての判定処理を実行する(ステップS25)。具体的には、制御部21のマスク処理部212は、処理対象単語が第2ホワイトリストに含まれない場合、マスキング対象と判定する。
【0039】
マスキング対象と判定した場合(ステップS25において「YES」の場合)、支援サーバ20の制御部21は、マスキング処理を実行する(ステップS23)。
なお、マスキング対象でないと判定した場合(ステップS25において「NO」の場合)、支援サーバ20の制御部21は、この処理対象単語についての処理を終了する。
【0040】
次に、支援サーバ20の制御部21は、名詞辞書で作成されたホワイトリスト突合処理を実行する(ステップS26)。具体的には、制御部21のマスク処理部212は、処理対象単語と、辞書記憶部23に記録された第1ホワイトリストとを突合する。
【0041】
次に、支援サーバ20の制御部21は、マスキング解除対象かどうかについての判定処理を実行する(ステップS27)。具体的には、制御部21のマスク処理部212は、処理対象単語が第1ホワイトリストに含まれる場合、マスキング解除対象と判定する。
【0042】
マスキング解除対象と判定した場合(ステップS27において「YES」の場合)、支援サーバ20の制御部21は、マスク解除処理を実行する(ステップS28)。具体的には、制御部21のマスク処理部212は、ホワイトリスト単語として、公開候補文中の処理対象単語に付されたマスクを除去する。
【0043】
一方、マスキング解除対象でないと判定した場合(ステップS27において「NO」の場合)、支援サーバ20の制御部21は、マスク解除処理(ステップS28)をスキップする。この場合、処理対象単語のマスクを維持する。
以上の処理を、文を構成するすべての単語について繰り返す。
【0044】
次に、
図6に示すように、支援サーバ20の制御部21は、単語の再構成処理を実行する(ステップS31)。具体的には、制御部21のマスク処理部212は、短単位の単語を順次、ずらして構成した結合単語(再構成単語)を生成する。
【0045】
次に、支援サーバ20の制御部21は、品詞の特定処理を実行する(ステップS32)。具体的には、制御部21のマスク処理部212は、結合単語について、辞書サーバ30から品詞を取得する。
【0046】
次に、支援サーバ20の制御部21は、ブラックリスト対象かどうかについての判定処理を実行する(ステップS33)。具体的には、制御部21のマスク処理部212は、結合単語について、辞書サーバ30から取得した品詞が固有名詞である場合には、マスキング対象であるブラックリストに含まれると判定する。
【0047】
マスキング対象と判定した場合(ステップS33において「YES」の場合)、支援サーバ20の制御部21は、ステップS23と同様に、マスキング処理を実行する(ステップS34)。
【0048】
一方、マスキング対象でないと判定した場合(ステップS33において「NO」の場合)、支援サーバ20の制御部21は、マスキング処理(ステップS34)をスキップする。
【0049】
次に、支援サーバ20の制御部21は、終了かどうかについての判定処理を実行する(ステップS35)。具体的には、制御部21のマスク処理部212は、公開候補文において、連続するすべてのホワイトリスト単語について終了したかどうかを判定する。
【0050】
終了でないと判定した場合(ステップS35において「NO」の場合)、支援サーバ20の制御部21は、単語の再構成処理(ステップS31)以降の処理を繰り返す。
一方、終了と判定した場合(ステップS35において「YES」の場合)、支援サーバ20の制御部21は、公開文の出力処理を実行する(ステップS36)。具体的には、制御部21のマスク処理部212は、公開候補文について、マスキング処理を行なった公開文を、ユーザ端末10に出力する。
【0051】
本実施形態によれば、以下のような効果を得ることができる。
(1)本実施形態においては、支援サーバ20の制御部21は、教師情報の取得処理(ステップS11)、固有名詞の除外処理(ステップS13)を実行する。これにより、固有名詞以外の名詞を抽出することができる。
【0052】
(2)本実施形態においては、支援サーバ20の制御部21は、出現個数が多い順番に名詞の特定処理(ステップS14)、名詞辞書への登録処理(ステップS15)、表現率の算出処理(ステップS16)を実行する。これにより、所定の表現率を確保したホワイトリストを作成することができる。
【0053】
(3)本実施形態においては、名詞と判定した場合(ステップS22において「YES」の場合)、支援サーバ20の制御部21は、マスキング処理を実行する(ステップS23)。これにより、すべてをマスキングした文を初期値として用いることができる。
【0054】
(4)本実施形態においては、名詞でないと判定した場合(ステップS22において「NO」の場合)、支援サーバ20の制御部21は、一般辞書で作成された第2ホワイトリスト突合処理を実行する(ステップS24)。マスキング対象と判定した場合(ステップS25において「YES」の場合)、支援サーバ20の制御部21は、マスキング処理を実行する(ステップS23)。これにより、名詞以外の単語についても、固有情報を排除することができる。
【0055】
(5)本実施形態においては、支援サーバ20の制御部21は、名詞辞書で作成されたホワイトリスト突合処理を実行する(ステップS26)。マスキング解除対象と判定した場合(ステップS27において「YES」の場合)、支援サーバ20の制御部21は、マスク解除処理を実行する(ステップS28)。これにより、マスキングした単語について、ホワイトリストを用いて、再構成することができる。更に、マスキング対象と判定した場合(ステップS25において「YES」の場合)にも、支援サーバ20の制御部21は、名詞辞書で作成されたホワイトリスト突合処理を実行する(ステップS26)。これにより、辞書サーバ30から取得した品詞が的確でない場合にも、二つのホワイトリストを用いて是正することができる。
【0056】
(6)本実施形態においては、支援サーバ20の制御部21は、単語の再構成処理(ステップS31)、品詞の特定処理(ステップS32)を実行する。マスキング対象と判定した場合(ステップS33において「YES」の場合)、支援サーバ20の制御部21は、マスキング処理を実行する(ステップS34)。これにより、連続する普通名詞により固有名詞が生成される場合にも、公開文から排除することができる。
【0057】
本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記実施形態では、ユーザ端末10、支援サーバ20、辞書サーバ30を用いるが、ハードウェア構成はこれに限定されるものではない。例えば、UniDic辞書を支援サーバ20内に保持するようにしてもよい。
【0058】
・上記実施形態では、表現率として、文を構成する全文字数に対して、マスキングされていない文字数の割合を用いた。ホワイトリスト単語により、文を表現できる割合であれば、文字数に限定されるものではない。例えば、文を構成する全単語数に対して、ホワイトリスト単語数の割合を用いてもよい。
【0059】
・上記実施形態では、辞書サーバ30としては、例えば、国立国語研究所が提供するUniDic辞書を用いたが、品詞を特定できれば、これに限定されるものではない。
・上記実施形態では、マスキング対象と判定した場合(ステップS25において「YES」の場合)にも、支援サーバ20の制御部21は、マスキング処理(ステップS23)、名詞辞書で作成されたホワイトリスト突合処理(ステップS26)を実行する。ここで、マスキング対象と判定した場合(ステップS25において「YES」の場合)、名詞辞書で作成されたホワイトリスト突合を行なうことなく、マスキング処理(ステップS23)のみを行なうようにしてもよい。
【符号の説明】
【0060】
10…ユーザ端末、20…支援サーバ、30…辞書サーバ、21…制御部、210…取得部、211…リスト作成部、212…マスク処理部、22…教師情報記憶部、23…辞書記憶部。
【手続補正書】
【提出日】2023-02-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ユーザ端末に接続された制御部を備えた文書作成システムであって、
前記制御部が、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、
前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、
前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力し、
前記第1種類の品詞は名詞であり、
前記第1方法において、
教師文のすべての構成単語を抽出し、
前記抽出した構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第1ホワイトリストを作成することを特徴とする文書作成システム。
【請求項2】
前記第2種類の品詞は、名詞以外の何れかの品詞を含む品詞群であり、
前記第2ホワイトリストは、前記品詞群を用いて作成されていることを特徴とする請求項1に記載の文書作成システム。
【請求項3】
前記制御部が、
連続する前記構成単語を結合して再構成単語を生成し、
前記再構成単語がブラックリストに含まれる場合には、前記マスキングを行なうことを特徴とする請求項1又は2に記載の文書作成システム。
【請求項4】
ユーザ端末に接続された制御部を備えた文書作成システムを用いて、マスキングした文章を作成する方法であって、
前記制御部が、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、
前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、
前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力し、
前記第1種類の品詞は名詞であり、
前記第1方法において、
教師文のすべての構成単語を抽出し、
前記抽出した構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第1ホワイトリストを作成することを特徴とする文書作成方法。
【請求項5】
ユーザ端末に接続された制御部を備えた文書作成システムを用いて、マスキングした文章を作成するためのプログラムであって、
前記制御部を、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第1種類の品詞の場合には、第1方法で作成した第1ホワイトリストと突合し、
前記構成単語が第2種類の品詞の場合には、第2方法で作成した第2ホワイトリストと突合し、
前記第1ホワイトリスト及び前記第2ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力し、
前記第1種類の品詞は名詞であり、
前記第1方法において、
教師文のすべての構成単語を抽出し、
前記抽出した構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第1ホワイトリストを作成する手段として機能させるための文書作成プログラム。