2023-83722 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-83722文書作成システム、文書作成方法及び文書作成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023083722

(43)【公開日】2023-06-16

(54)【発明の名称】文書作成システム、文書作成方法及び文書作成プログラム

(51)【国際特許分類】

G06F 40/151 20200101AFI20230609BHJP

G06F 40/237 20200101ALI20230609BHJP

G06F 40/216 20200101ALI20230609BHJP

【ＦＩ】

G06F40/151

G06F40/237

G06F40/216

【審査請求】有

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2021197574

(22)【出願日】2021-12-06

(71)【出願人】

【識別番号】592131906

【氏名又は名称】みずほリサーチ＆テクノロジーズ株式会社

(74)【代理人】

【識別番号】100105957

【弁理士】

【氏名又は名称】恩田誠

(74)【代理人】

【識別番号】100068755

【弁理士】

【氏名又は名称】恩田博宣

(72)【発明者】

【氏名】高橋正樹

(72)【発明者】

【氏名】根本裕也

【テーマコード（参考）】

5B091

5B109

【Ｆターム（参考）】

5B091CC02

5B109TA11

(57)【要約】

【課題】所定語をマスキングした文書を作成する文書作成システム、文書作成方法及び文書作成プログラムを提供する。
【解決手段】支援サーバ２０は、ユーザ端末１０に接続された制御部２１を備える。制御部２１が、ユーザ端末１０から取得した文章の形態素分析を行なって、構成単語を特定し、構成単語が第１種類の品詞の場合には、第１方法で作成した第１ホワイトリストと突合し、構成単語が第２種類の品詞の場合には、第２方法で作成した第２ホワイトリストと突合し、第１ホワイトリスト及び第２ホワイトリストに含まれない構成単語をマスキングして、ユーザ端末１０に出力する。
【選択図】図１

【特許請求の範囲】

【請求項1】

【請求項2】

前記第１種類の品詞は名詞であり、
前記制御部が、前記第１方法として、教師文から抽出した名詞を用いて前記第１ホワイトリストを作成することを特徴とする請求項１に記載の文書作成システム。

【請求項3】

前記制御部が、
前記第１方法において、
前記教師文のすべての構成単語を抽出し、
前記構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第１ホワイトリストを作成することを特徴とする請求項２に記載の文書作成システム。

【請求項4】

前記第２種類の品詞は、名詞以外の何れかの品詞を含む品詞群であり、
前記第２ホワイトリストは、前記品詞群を用いて作成されていることを特徴とする請求項１～３の何れか一項に記載の文書作成システム。

【請求項5】

前記制御部が、
連続する前記構成単語を結合して再構成単語を生成し、
前記再構成単語がブラックリストに含まれる場合には、前記マスキングを行なうことを特徴とする請求項１～４の何れか一項に記載の文書作成システム。

【請求項6】

【請求項7】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、所定語をマスキングした文書を作成する文書作成システム、文書作成方法及び文書作成プログラムに関する。

【背景技術】

【0002】

個人情報の保護等のため、文書に含まれる単語のマスキングを行なう場合がある。そこで、文書中から検出した固有名詞部分の確認と修正とを行なうための技術が検討されている（例えば、特許文献１を参照。）。この特許文献に記載された文書処理方法では、マスキングすべき文字列またはその一部を記憶する単語辞書を基に、入力した文書からマスキング対象箇所を検出し、この検出されたマスキング対象箇所をマスキング結果リストに記憶する。表示されたマスキング対象箇所のいずれかがユーザにより修正されると、マスキング結果リストに記憶されたマスキング対象箇所を、ユーザにより修正されたマスキング対象箇所に書き換える。

【0003】

また、プライバシ情報を保護するための技術が検討されている（例えば、特許文献２を参照。）。この特許文献に記載された技術では、提示情報は、クライアントから取得したコンテンツに対して、プライバシ情報に該当しうる候補単語等を、ユーザにより予め設定された、秘匿する単語、または単語の組合せと、公開する単語、または単語の組合せから決定する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００４－２２７１４１号公報

【特許文献2】特開２０１２－１５９９３９号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、単に、マスク対象単語を予めリストアップしたリストを用いてマスキングを行なっていたのでは、個人情報や特定情報の漏えい等を的確に抑制することができない。例えば、同じ単語であっても、普通名詞として使用される場合や固有名詞として使用される場合がある。この場合、単語だけでは個人情報か否かの区別が難しい。また、問題がない単語を予めリストアップしたリストを用いてマスキングを行なった場合、リストアップ数によっては、表示可能な単語が少なくなる可能性がある。

【課題を解決するための手段】

【0006】

上記課題を解決する文書作成システムは、ユーザ端末に接続された制御部を備える。そして、前記制御部が、前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、前記構成単語が第１種類の品詞の場合には、第１方法で作成した第１ホワイトリストと突合し、前記構成単語が第２種類の品詞の場合には、第２方法で作成した第２ホワイトリストと突合し、前記第１ホワイトリスト及び前記第２ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力する。

【発明の効果】

【0007】

本開示によれば、所定語をマスキングした的確な文書を作成することができる。

【図面の簡単な説明】

【0008】

【図1】本開示の文書作成システムの説明図である。

【図2】本開示のハードウェア構成の説明図である。

【図3】本開示の処理手順の説明図である。

【図4】本開示のホワイトリストの登録単語数と表現率との関係の説明図である。

【図5】本開示の処理手順の説明図である。

【図6】本開示の処理手順の説明図である。

【発明を実施するための形態】

【0009】

図１～図６に従って、文書作成システム、文書作成方法及び文書作成プログラムを具体化した一実施形態を説明する。本実施形態では、文章に含まれる所定の単語（所定語）のマスキングを行なう場合を想定する。
図１に示すように、本実施形態の文書作成システムは、ネットワークを介して、相互に接続されたユーザ端末１０、支援サーバ２０、辞書サーバ３０を用いる。

【0010】

（ハードウェア構成例）
図２は、ユーザ端末１０、支援サーバ２０、辞書サーバ３０等として機能する情報処理装置Ｈ１０のハードウェア構成例である。

【0011】

情報処理装置Ｈ１０は、通信装置Ｈ１１、入力装置Ｈ１２、表示装置Ｈ１３、記憶装置Ｈ１４、プロセッサＨ１５を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。

【0012】

通信装置Ｈ１１は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。

【0013】

入力装置Ｈ１２は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置Ｈ１３は、各種情報を表示するディスプレイやタッチパネル等である。

【0014】

記憶装置Ｈ１４は、ユーザ端末１０、支援サーバ２０、辞書サーバ３０の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置Ｈ１４の一例としては、ＲＯＭ、ＲＡＭ、ハードディスク等がある。

【0015】

プロセッサＨ１５は、記憶装置Ｈ１４に記憶されるプログラムやデータを用いて、ユーザ端末１０、支援サーバ２０における各処理（例えば、後述する制御部２１における処理）を制御する。プロセッサＨ１５の一例としては、例えばＣＰＵやＭＰＵ等がある。このプロセッサＨ１５は、ＲＯＭ等に記憶されるプログラムをＲＡＭに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサＨ１５は、ユーザ端末１０、支援サーバ２０のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。

【0016】

プロセッサＨ１５は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサＨ１５は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路（例えば、特定用途向け集積回路：ＡＳＩＣ）を備えてもよい。すなわち、プロセッサＨ１５は、以下で構成し得る。

【0017】

（１）コンピュータプログラム（ソフトウェア）に従って動作する１つ以上のプロセッサ
（２）各種処理のうち少なくとも一部の処理を実行する１つ以上の専用のハードウェア回路、或いは
（３）それらの組み合わせ、を含む回路（circuitry）
プロセッサは、ＣＰＵ並びに、ＲＡＭ及びＲＯＭ等のメモリを含み、メモリは、処理をＣＰＵに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。

【0018】

（ユーザ端末１０、支援サーバ２０及び辞書サーバ３０の機能）
図１を用いて、ユーザ端末１０、支援サーバ２０、辞書サーバ３０の機能を説明する。
ユーザ端末１０は、本システムを利用するユーザが用いるコンピュータ端末である。

【0019】

支援サーバ２０は、文章のマスキングを行なうコンピュータシステムである。この支援サーバ２０は、制御部２１、教師情報記憶部２２、辞書記憶部２３を備えている。
制御部２１は、後述する処理（取得段階、リスト作成段階、マスク処理段階等を含む処理）を行なう。このための文書作成プログラムを実行することにより、制御部２１は、取得部２１０、リスト作成部２１１、マスク処理部２１２等として機能する。

【0020】

取得部２１０は、ユーザ端末１０から教師情報や、マスキングを行なう公開候補文を取得する処理を実行する。
リスト作成部２１１は、マスキングの要否を判定するための名詞のホワイトリスト（第１ホワイトリスト）を生成する処理を実行する。このリスト作成部２１１は、表現率について、第１ホワイトリストに含める名詞を判定するための基準値に関するデータを保持する。ここで、表現率とは、文を構成する全文字数に対して、マスキングされていない文字数の割合である。
マスク処理部２１２は、公開対象の候補文において、必要に応じてマスキングを行なった公開文を作成する処理を実行する。

【0021】

教師情報記憶部２２には、名詞辞書作成処理に用いる教師情報が記録される。教師情報には、公開対象候補となる公開候補文に関するデータが記録される。この公開候補文では、単語のマスキングは行なわれていない。

【0022】

辞書記憶部２３には、公開文において利用可能な単語をリストアップした第１ホワイトリストが記録される。第１ホワイトリストは、第１種類の品詞である名詞について、第１方法である名詞辞書作成処理の実行時に記録される。

【0023】

辞書サーバ３０は、単語に関して品詞に関する辞書を保持するコンピュータシステムである。辞書サーバ３０としては、例えば、国立国語研究所が提供するUniDic辞書を用いることができる。この辞書サーバ３０のUniDic辞書は、単語の短単位で辞書を行なう。ここで、短単位は、言語の形態論的側面に着目し、最小単位を基に斉一性を重視して規定された言語単位（単位語）である。この辞書サーバ３０は、第２種類の品詞である「名詞以外の品詞」の単語について、第２方法である一般辞書を用いて個人情報や特定情報に関わらない単語についての第２ホワイトリストを保持する。本実施形態では、第２種類の品詞は、少なくとも、助詞、動詞、助動詞、副詞、形容詞の何れか一つを含む。

【0024】

（名詞辞書作成処理）
次に、図３を用いて、名詞辞書作成処理を説明する。
ここでは、支援サーバ２０の制御部２１は、教師情報の取得処理を実行する（ステップＳ１１）。具体的には、制御部２１の取得部２１０は、ユーザ端末１０から、教師文を取得して、教師情報記憶部２２に記録する。次に、取得部２１０は、教師文を形態素分析により、品詞に分けて、教師文に含まれるすべての名詞群（品詞群）を抽出する。更に、取得部２１０は、教師文に含まれる全文字数を算出する。

【0025】

次に、支援サーバ２０の制御部２１は、名詞の出現個数の算出処理を実行する（ステップＳ１２）。具体的には、制御部２１のリスト作成部２１１は、教師文から抽出したすべての名詞の名詞総数を算出する。次に、リスト作成部２１１は、教師文から抽出した名詞毎に、同じ名詞の出現個数を算出する。

【0026】

次に、支援サーバ２０の制御部２１は、固有名詞の除外処理を実行する（ステップＳ１３）。具体的には、制御部２１のリスト作成部２１１は、教師文から抽出した各名詞について、辞書サーバ３０から名詞種類（普通名詞、固有名詞、数詞、形式名詞、代名詞）を取得する。そして、リスト作成部２１１は、教師文から抽出した名詞群から、固有名詞を除外して、使用可能な単語候補（名詞候補）を特定する。

【0027】

次に、支援サーバ２０の制御部２１は、出現個数が多い順番に名詞の特定処理を実行する（ステップＳ１４）。具体的には、制御部２１のリスト作成部２１１は、固有名詞を除外した名詞群において、出現個数が多く、出現頻度が高い名詞を特定する。

【0028】

次に、支援サーバ２０の制御部２１は、名詞辞書への登録処理を実行する（ステップＳ１５）。具体的には、制御部２１のリスト作成部２１１は、特定した名詞を、辞書記憶部２３の第１ホワイトリストに登録する。

【0029】

次に、支援サーバ２０の制御部２１は、表現率の算出処理を実行する（ステップＳ１６）。具体的には、制御部２１のリスト作成部２１１は、この時点で第１ホワイトリストに登録されている各名詞の文字数に出現個数を乗算することにより、出現文字数を算出する。また、リスト作成部２１１は、出現文字数の総和を全文字数で除算することにより、表現率を算出する。

【0030】

ここで、図４に示すように、第１ホワイトリストに登録された名詞が多くなる場合、マスキングされる単語が少なくなる。その結果、表現率が高くなる。ただし、第１ホワイトリストに登録された名詞が多くなると、表現率の増加割合は小さくなる。

【0031】

次に、支援サーバ２０の制御部２１は、表現率が基準値より高いかどうかについての判定処理を実行する（ステップＳ１７）。具体的には、制御部２１のリスト作成部２１１は、算出した表現率と基準値とを比較する。表現率の増加割合が小さくなる領域に、基準値を設定することにより、第１ホワイトリストに登録された名詞数の増加を抑制できる。これにより、第１ホワイトリストに登録された名詞のメンテナンスを容易にしている。

【0032】

表現率が基準値以下と判定した場合（ステップＳ１７において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、出現個数が多い順に名詞の特定処理（ステップＳ１４）以降の処理を繰り返す。
一方、表現率が基準値よりも高いと判定した場合（ステップＳ１７において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、名詞辞書作成処理を終了する。

【0033】

（マスキング処理）
次に、図５及び図６を用いて、マスキング処理を説明する。この処理は、ユーザ端末１０から、新たに公開候補文を取得した場合に実行される。

【0034】

まず、図５に示すように、支援サーバ２０の制御部２１は、単語の分割処理を実行する（ステップＳ２１）。具体的には、制御部２１の取得部２１０は、公開候補文の形態素分析により、文の構成単語（短単位）に分割する。

【0035】

次に、支援サーバ２０の制御部２１は、文を構成する各単語を、順次、処理対象単語として特定し、以下の処理を繰り返す。
まず、支援サーバ２０の制御部２１は、名詞かどうかについての判定処理を実行する（ステップＳ２２）。具体的には、制御部２１のマスク処理部２１２は、辞書サーバ３０から、各単語の品詞を取得する。そして、マスク処理部２１２は、処理対象単語の品詞が名詞かどうかを判定する。

【0036】

処理対象単語が名詞と判定した場合（ステップＳ２２において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、マスキング処理を実行する（ステップＳ２３）。具体的には、制御部２１のマスク処理部２１２は、公開候補文中の処理対象単語のマスキングを行なう。

【0037】

処理対象単語が助詞、動詞、助動詞、副詞、形容詞等であり、名詞でないと判定した場合（ステップＳ２２において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、一般辞書で作成されたホワイトリスト突合処理を実行する（ステップＳ２４）。具体的には、制御部２１のマスク処理部２１２は、処理対象単語と、辞書サーバ３０に記録された第２ホワイトリストとを突合する。

【0038】

次に、支援サーバ２０の制御部２１は、マスキング対象かについての判定処理を実行する（ステップＳ２５）。具体的には、制御部２１のマスク処理部２１２は、処理対象単語が第２ホワイトリストに含まれない場合、マスキング対象と判定する。

【0039】

マスキング対象と判定した場合（ステップＳ２５において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、マスキング処理を実行する（ステップＳ２３）。
なお、マスキング対象でないと判定した場合（ステップＳ２５において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、この処理対象単語についての処理を終了する。

【0040】

次に、支援サーバ２０の制御部２１は、名詞辞書で作成されたホワイトリスト突合処理を実行する（ステップＳ２６）。具体的には、制御部２１のマスク処理部２１２は、処理対象単語と、辞書記憶部２３に記録された第１ホワイトリストとを突合する。

【0041】

次に、支援サーバ２０の制御部２１は、マスキング解除対象かどうかについての判定処理を実行する（ステップＳ２７）。具体的には、制御部２１のマスク処理部２１２は、処理対象単語が第１ホワイトリストに含まれる場合、マスキング解除対象と判定する。

【0042】

マスキング解除対象と判定した場合（ステップＳ２７において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、マスク解除処理を実行する（ステップＳ２８）。具体的には、制御部２１のマスク処理部２１２は、ホワイトリスト単語として、公開候補文中の処理対象単語に付されたマスクを除去する。

【0043】

一方、マスキング解除対象でないと判定した場合（ステップＳ２７において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、マスク解除処理（ステップＳ２８）をスキップする。この場合、処理対象単語のマスクを維持する。
以上の処理を、文を構成するすべての単語について繰り返す。

【0044】

次に、図６に示すように、支援サーバ２０の制御部２１は、単語の再構成処理を実行する（ステップＳ３１）。具体的には、制御部２１のマスク処理部２１２は、短単位の単語を順次、ずらして構成した結合単語（再構成単語）を生成する。

【0045】

次に、支援サーバ２０の制御部２１は、品詞の特定処理を実行する（ステップＳ３２）。具体的には、制御部２１のマスク処理部２１２は、結合単語について、辞書サーバ３０から品詞を取得する。

【0046】

次に、支援サーバ２０の制御部２１は、ブラックリスト対象かどうかについての判定処理を実行する（ステップＳ３３）。具体的には、制御部２１のマスク処理部２１２は、結合単語について、辞書サーバ３０から取得した品詞が固有名詞である場合には、マスキング対象であるブラックリストに含まれると判定する。

【0047】

マスキング対象と判定した場合（ステップＳ３３において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、ステップＳ２３と同様に、マスキング処理を実行する（ステップＳ３４）。

【0048】

一方、マスキング対象でないと判定した場合（ステップＳ３３において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、マスキング処理（ステップＳ３４）をスキップする。

【0049】

次に、支援サーバ２０の制御部２１は、終了かどうかについての判定処理を実行する（ステップＳ３５）。具体的には、制御部２１のマスク処理部２１２は、公開候補文において、連続するすべてのホワイトリスト単語について終了したかどうかを判定する。

【0050】

終了でないと判定した場合（ステップＳ３５において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、単語の再構成処理（ステップＳ３１）以降の処理を繰り返す。
一方、終了と判定した場合（ステップＳ３５において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、公開文の出力処理を実行する（ステップＳ３６）。具体的には、制御部２１のマスク処理部２１２は、公開候補文について、マスキング処理を行なった公開文を、ユーザ端末１０に出力する。

【0051】

本実施形態によれば、以下のような効果を得ることができる。
（１）本実施形態においては、支援サーバ２０の制御部２１は、教師情報の取得処理（ステップＳ１１）、固有名詞の除外処理（ステップＳ１３）を実行する。これにより、固有名詞以外の名詞を抽出することができる。

【0052】

（２）本実施形態においては、支援サーバ２０の制御部２１は、出現個数が多い順番に名詞の特定処理（ステップＳ１４）、名詞辞書への登録処理（ステップＳ１５）、表現率の算出処理（ステップＳ１６）を実行する。これにより、所定の表現率を確保したホワイトリストを作成することができる。

【0053】

（３）本実施形態においては、名詞と判定した場合（ステップＳ２２において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、マスキング処理を実行する（ステップＳ２３）。これにより、すべてをマスキングした文を初期値として用いることができる。

【0054】

（４）本実施形態においては、名詞でないと判定した場合（ステップＳ２２において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、一般辞書で作成された第２ホワイトリスト突合処理を実行する（ステップＳ２４）。マスキング対象と判定した場合（ステップＳ２５において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、マスキング処理を実行する（ステップＳ２３）。これにより、名詞以外の単語についても、固有情報を排除することができる。

【0055】

（５）本実施形態においては、支援サーバ２０の制御部２１は、名詞辞書で作成されたホワイトリスト突合処理を実行する（ステップＳ２６）。マスキング解除対象と判定した場合（ステップＳ２７において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、マスク解除処理を実行する（ステップＳ２８）。これにより、マスキングした単語について、ホワイトリストを用いて、再構成することができる。更に、マスキング対象と判定した場合（ステップＳ２５において「ＹＥＳ」の場合）にも、支援サーバ２０の制御部２１は、名詞辞書で作成されたホワイトリスト突合処理を実行する（ステップＳ２６）。これにより、辞書サーバ３０から取得した品詞が的確でない場合にも、二つのホワイトリストを用いて是正することができる。

【0056】

（６）本実施形態においては、支援サーバ２０の制御部２１は、単語の再構成処理（ステップＳ３１）、品詞の特定処理（ステップＳ３２）を実行する。マスキング対象と判定した場合（ステップＳ３３において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、マスキング処理を実行する（ステップＳ３４）。これにより、連続する普通名詞により固有名詞が生成される場合にも、公開文から排除することができる。

【0057】

本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記実施形態では、ユーザ端末１０、支援サーバ２０、辞書サーバ３０を用いるが、ハードウェア構成はこれに限定されるものではない。例えば、UniDic辞書を支援サーバ２０内に保持するようにしてもよい。

【0058】

・上記実施形態では、表現率として、文を構成する全文字数に対して、マスキングされていない文字数の割合を用いた。ホワイトリスト単語により、文を表現できる割合であれば、文字数に限定されるものではない。例えば、文を構成する全単語数に対して、ホワイトリスト単語数の割合を用いてもよい。

【0059】

・上記実施形態では、辞書サーバ３０としては、例えば、国立国語研究所が提供するUniDic辞書を用いたが、品詞を特定できれば、これに限定されるものではない。
・上記実施形態では、マスキング対象と判定した場合（ステップＳ２５において「ＹＥＳ」の場合）にも、支援サーバ２０の制御部２１は、マスキング処理（ステップＳ２３）、名詞辞書で作成されたホワイトリスト突合処理（ステップＳ２６）を実行する。ここで、マスキング対象と判定した場合（ステップＳ２５において「ＹＥＳ」の場合）、名詞辞書で作成されたホワイトリスト突合を行なうことなく、マスキング処理（ステップＳ２３）のみを行なうようにしてもよい。

【符号の説明】

【0060】

１０…ユーザ端末、２０…支援サーバ、３０…辞書サーバ、２１…制御部、２１０…取得部、２１１…リスト作成部、２１２…マスク処理部、２２…教師情報記憶部、２３…辞書記憶部。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【手続補正書】

【提出日】2023-02-13

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

ユーザ端末に接続された制御部を備えた文書作成システムであって、
前記制御部が、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第１種類の品詞の場合には、第１方法で作成した第１ホワイトリストと突合し、
前記構成単語が第２種類の品詞の場合には、第２方法で作成した第２ホワイトリストと突合し、
前記第１ホワイトリスト及び前記第２ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力し、
前記第１種類の品詞は名詞であり、
前記第１方法において、
教師文のすべての構成単語を抽出し、
前記抽出した構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第１ホワイトリストを作成することを特徴とする文書作成システム。

【請求項2】

前記第２種類の品詞は、名詞以外の何れかの品詞を含む品詞群であり、
前記第２ホワイトリストは、前記品詞群を用いて作成されていることを特徴とする請求項１に記載の文書作成システム。

【請求項3】

前記制御部が、
連続する前記構成単語を結合して再構成単語を生成し、
前記再構成単語がブラックリストに含まれる場合には、前記マスキングを行なうことを特徴とする請求項１又は２に記載の文書作成システム。

【請求項4】

ユーザ端末に接続された制御部を備えた文書作成システムを用いて、マスキングした文章を作成する方法であって、
前記制御部が、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第１種類の品詞の場合には、第１方法で作成した第１ホワイトリストと突合し、
前記構成単語が第２種類の品詞の場合には、第２方法で作成した第２ホワイトリストと突合し、
前記第１ホワイトリスト及び前記第２ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力し、
前記第１種類の品詞は名詞であり、
前記第１方法において、
教師文のすべての構成単語を抽出し、
前記抽出した構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第１ホワイトリストを作成することを特徴とする文書作成方法。

【請求項5】

ユーザ端末に接続された制御部を備えた文書作成システムを用いて、マスキングした文章を作成するためのプログラムであって、
前記制御部を、
前記ユーザ端末から取得した文章の形態素分析を行なって、構成単語を特定し、
前記構成単語が第１種類の品詞の場合には、第１方法で作成した第１ホワイトリストと突合し、
前記構成単語が第２種類の品詞の場合には、第２方法で作成した第２ホワイトリストと突合し、
前記第１ホワイトリスト及び前記第２ホワイトリストに含まれない前記構成単語をマスキングして、前記ユーザ端末に出力し、
前記第１種類の品詞は名詞であり、
前記第１方法において、
教師文のすべての構成単語を抽出し、
前記抽出した構成単語において、使用可能な名詞候補を特定し、
前記名詞候補のそれぞれの出現頻度を算出し、
前記出現頻度が高い順番に前記名詞候補を順次、特定し、前記教師文において、前記特定したすべての前記名詞候補の割合により表現率を算出し、
前記表現率が基準値以上となった場合の前記名詞候補を含めて前記第１ホワイトリストを作成する手段として機能させるための文書作成プログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版