特開2024-160621 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 横山諒一の特許一覧

特開2024-160621コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024160621

(43)【公開日】2024-11-14

(54)【発明の名称】コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム

(51)【国際特許分類】

G06F 40/151 20200101AFI20241107BHJP

G06F 40/216 20200101ALI20241107BHJP

G06F 40/279 20200101ALI20241107BHJP

G06F 21/62 20130101ALI20241107BHJP

【ＦＩ】

G06F40/151

G06F40/216

G06F40/279

G06F21/62

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023075834

(22)【出願日】2023-05-01

(71)【出願人】

【識別番号】521519102

【氏名又は名称】横山諒一

(74)【代理人】

【識別番号】100111567

【弁理士】

【氏名又は名称】坂本寛

(72)【発明者】

【氏名】横山諒一

【テーマコード（参考）】

5B109

【Ｆターム（参考）】

5B109TA11

5B109VC03

(57)【要約】

【課題】企業の営業秘密、国家機密、又はプライバシーに関する情報などを含み得る文章であっても、外部システムによる処理サービスを利用可能とする。
【解決手段】開示の方法は、第１データに含まれる第１語を第２語に変換することで第２データを生成し、前記第１語と前記第２語との対応データを記憶装置に保存し、前記第２データを外部システムへ送信し、前記外部システムから第３データを受信し、前記第３データから第４データを生成する、ことを含む。前記外部システムは、受信した前記第２データに基づいて、前記第２語を含む前記第３データを生成し、生成された前記第３データを送信するよう構成される。前記第４データを生成することは、前記第３データに含まれる前記第２語を、前記対応データに基づいて、前記第１語に変換することで前記第４データを生成することを含む。
【選択図】図４

【特許請求の範囲】

【請求項1】

コンピュータが実行するコンピュータ実装方法であって、
第１データに含まれる第１語を第２語に変換することで第２データを生成し、
前記第１語と前記第２語との対応データを記憶装置に保存し、
前記第２データを外部システムへ送信し、
前記外部システムから第３データを受信し、
前記第３データから第４データを生成する、
ことを含み、
前記外部システムは、
受信した前記第２データに基づいて、前記第２語を含む前記第３データを生成し、
生成された前記第３データを送信する
よう構成され、
前記第４データを生成することは、前記第３データに含まれる前記第２語を、前記対応データに基づいて、前記第１語に変換することで前記第４データを生成することを含む、
コンピュータ実装方法。

【請求項2】

前記第２データを生成することは、
前記第１データに含まれる前記第１語をマスクし、
前記第１語がマスクされた前記第１データを、言語モデルに与えて、マスクされた語を予測する、
ことを含み、
前記第２データに含まれる前記第２語は、前記言語モデルによって予測された語である
請求項１に記載のコンピュータ実装方法。

【請求項3】

前記第１データに含まれる前記第１語をマスクすることは、
マスクすべき語を示す辞書データに基づいて、前記第１データに含まれる語の中から、マスクすべき語を選択し、
選択された語をマスクする、
ことを含む、
請求項２に記載のコンピュータ実装方法。

【請求項4】

マスクされた語を予測することは、
前記第１語がマスクされた前記第１データを、前記言語モデルを用いてマスクされた語を予測する予測システムへ送信し、
前記言語モデルを用いて予測された語を前記第２語として含む前記第２データを、前記予測システムから受信する
ことを含む、
請求項２に記載のコンピュータ実装方法。

【請求項5】

前記外部システムが生成する前記第３データは、前記第２データの要約を含む
請求項１から請求項４のいずれか１項に記載のコンピュータ実装方法。

【請求項6】

コンピュータシステムであって、
第１データに含まれる第１語を第２語に変換することで第２データを生成し、
前記第１語と前記第２語との対応データを記憶装置に保存し、
前記第２データを外部システムへ送信し、
前記外部システムから第３データを受信し、
前記第３データから第４データを生成する、
ことを含む処理を実行するよう構成され、
前記外部システムは、
受信した前記第２データに基づいて、前記第２語を含む前記第３データを生成し、
生成された前記第３データを送信する
よう構成され、
前記第４データを生成することは、前記第３データに含まれる前記第２語を、前記対応データに基づいて、前記第１語に変換することで前記第４データを生成することを含む、
コンピュータシステム。

【請求項7】

コンピュータに処理を実行させるコンピュータプログラムであって、
前記処理は、
第１データに含まれる第１語を第２語に変換することで第２データを生成し、
前記第１語と前記第２語との対応データを記憶装置に保存し、
前記第２データを外部システムへ送信し、
前記外部システムから第３データを受信し、
前記第３データから第４データを生成する、
ことを含み、
前記外部システムは、
受信した前記第２データに基づいて、前記第２語を含む前記第３データを生成し、
生成された前記第３データを送信する
よう構成され、
前記第４データを生成することは、前記第３データに含まれる前記第２語を、前記対応データに基づいて、前記第１語に変換することで前記第４データを生成することを含む、
コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、コンピュータ実装方法、コンピュータシステム及びコンピュータプログラムに関する。

【背景技術】

【0002】

特許文献１は、ＧＰＴ（Generative Pre-trained Transformer）などの言語モデルを用いた文書要約方法を開示している。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２３－０５３８６７号公報

【発明の概要】

【0004】

ＧＰＴなどの言語モデルは、要約・文書生成・翻訳など様々な言語処理への利用が期待されている。

【0005】

しかし、ＧＰＴなどの言語モデルは、第三者によって運営・管理されることが多い。このため、ＧＰＴなどの言語モデルを利用するには、第三者が運営・管理する外部システムへ文章を送信する必要がある。例えば、第三者が有する外部システムによって、文章の要約を生成する場合、要約の対象となる文章を、その外部システムへ送信する必要がある。

【0006】

しかし、企業の営業秘密、国家機密、又はプライバシーに関する情報などを含む文章を外部へ送信するのは、好ましくない。このような文章については、外部システムによる言語処理などの処理サービスの利用が困難である。

【0007】

したがって、上記のような情報を含み得る文章であっても、外部システムによる処理サービスを利用可能とすることが望まれる。

【0008】

本開示のある側面は、コンピュータが実行するコンピュータ実装方法である。開示の方法は、第１データに含まれる第１語を第２語に変換することで第２データを生成し、前記第１語と前記第２語との対応データを記憶装置に保存し、前記第２データを外部システムへ送信し、前記外部システムから第３データを受信し、前記第３データから第４データを生成する、ことを含み、前記外部システムは、受信した前記第２データに基づいて、前記第２語を含む前記第３データを生成し、生成された前記第３データを送信するよう構成され、前記第４データを生成することは、前記第３データに含まれる前記第２語を、前記対応データに基づいて、前記第１語に変換することで前記第４データを生成することを含む。

【0009】

本開示の他の側面は、コンピュータシステム又はコンピュータプログラムである。更なる詳細は、後述の実施形態として説明される。

【図面の簡単な説明】

【0010】

【図1】図１は、実施形態に係るコンピュータシステム及び外部システムの構成図である。

【図2】図２は、実施形態に係るコンピュータシステム（文書作成支援システム）の構成図である。

【図3】図３は、外部システムの機能ブロック図及びデータフローを示す図である。

【図4】図４は、コンピュータシステムによる文書作成の手順を示すフローチャートである。

【図5】図５は、第１データから第４データの例を示す図である。

【図6】図６は、対応データの例を示す図である。

【発明を実施するための形態】

【0011】

＜１．コンピュータ実装方法、コンピュータシステム及びコンピュータプログラムの概要＞

【0012】

（１）実施形態に係る方法は、コンピュータが実行するコンピュータ実装方法であり得る。コンピュータ実装方法は、第１データに含まれる第１語を第２語に変換することで第２データを生成し、前記第１語と前記第２語との対応データを記憶装置に保存し、前記第２データを外部システムへ送信し、前記外部システムから第３データを受信し、前記第３データから第４データを生成する、ことを含み得る。

【0013】

前記外部システムは、受信した前記第２データに基づいて、前記第２語を含む前記第３データを生成し、生成された前記第３データを送信するよう構成され得る。前記第４データを生成することは、前記第３データに含まれる前記第２語を、前記対応データに基づいて、前記第１語に変換することで前記第４データを生成することを含み得る。

【0014】

実施形態に係る方法によれば、外部へ送信するのが好ましくないデータを外部システムへ送信することなく、外部システムによる処理サービスを利用することができる。

【0015】

（２）前記第２データを生成することは、前記第１データに含まれる前記第１語をマスクし、前記第１語がマスクされた前記第１データを、言語モデルに与えて、マスクされた語を予測する、ことを含み得る。前記第２データに含まれる前記第２語は、前記言語モデルによって予測された語であり得る。

【0016】

（３）前記第１データに含まれる前記第１語をマスクすることは、マスクすべき語を示す辞書データに基づいて、前記第１データに含まれる語の中から、マスクすべき語を選択し、選択された語をマスクする、ことを含み得る。

【0017】

（４）マスクされた語を予測することは、前記第１語がマスクされた前記第１データを、前記言語モデルを用いてマスクされた語を予測する予測システムへ送信し、前記言語モデルを用いて予測された語を前記第２語として含む前記第２データを、前記予測システムから受信することを含み得る。

【0018】

（５）前記外部システムが生成する前記第３データは、前記第２データの要約を含み得る。

【0019】

（６）実施形態に係るシステムは、コンピュータシステムであり得る。実施形態に係るシステムは、第１データに含まれる第１語を第２語に変換することで第２データを生成し、前記第１語と前記第２語との対応データを記憶装置に保存し、前記第２データを外部システムへ送信し、前記外部システムから第３データを受信し、前記第３データから第４データを生成する、ことを含む処理を実行するよう構成され得る。

【0020】

【0021】

実施形態に係るプログラムは、コンピュータに処理を実行させるコンピュータプログラムであり得る。前記処理は、第１データに含まれる第１語を第２語に変換することで第２データを生成し、前記第１語と前記第２語との対応データを記憶装置に保存し、前記第２データを外部システムへ送信し、前記外部システムから第３データを受信し、前記第３データから第４データを生成する、ことを含み得る。

【0022】

【0023】

コンピュータプログラムは、コンピュータ読み取り可能な、非一時的な記憶媒体に格納され得る。

【0024】

＜２．コンピュータ実装方法、コンピュータシステム及びコンピュータプログラムの例＞

【0025】

図１は、実施形態に係るコンピュータシステム１０Ａ，１０Ｂを示している。コンピュータシステム１０Ａ，１０Ｂは、文章に関連する処理を実行し得る。実施形態に係るコンピュータシステム１０Ａ，１０Ｂは、外部システム１００を利用し得る。

【0026】

コンピュータシステム１０Ａ，１０Ｂは、それぞれ、例えば、個人又は組織などのユーザの施設５０Ａ，５０Ｂに設置され得る。組織は、例えば、企業、国、地方公共団体、専門職事務所、又は医療機関などである。施設５０Ａ，５０Ｂは、例えば、住宅、ビル、オフィス、店舗、病院などである。

【0027】

コンピュータシステム１０Ａ，１０Ｂは、例えば、サーバコンピュータによって構成され得る。コンピュータシステム１０Ａ，１０Ｂは、個人又は組織の施設５０Ａ，５０Ｂ又は個人又は組織が管理する場所に設置されたオンプレミスのコンピュータであってもよいし、個人又は組織が利用するクラウドコンピュータであってもよい。

【0028】

図１では、一例として、コンピュータシステム１０Ａは、第１の組織の施設５０Ａに設置され、コンピュータシステム１０Ｂは、第１の組織とは別の第２の組織の施設５０Ｂに設置される。コンピュータシステム１０Ａは、第１の組織に属する者又は第１の組織に関係する者のみによって使用され得る。コンピュータシステム１０Ｂは、第２の組織に属する者又は第２の組織に関係する者のみによって使用され得る。

【0029】

コンピュータシステム１０Ａ，１０Ｂは、ネットワーク３０を介して、端末２０に接続され得る。ネットワーク３０は、例えば、ローカルエリアネットワーク（ＬＡＮ）を含み得る。ＬＡＮ３０は、例えば、施設５０Ａ，５０Ｂ内のコンピュータネットワークである。端末２０は、ユーザによって使用され得る。端末２０は、例えば、パーソナルコンピュータ、スマートフォン、又はタブレットである。ユーザは、端末２０を操作して、コンピュータシステム１０Ａ，１０Ｂを利用し得る。なお、ユーザは、直接、コンピュータシステム１０Ａ，１０Ｂを操作してもよい。すなわち、コンピュータシステム１０Ａ，１０Ｂは端末２０を兼ねてもよい。

【0030】

なお、以下では、複数のコンピュータシステム１０Ａ，１０Ｂそれぞれを特に区別しない場合、個々のコンピュータシステム１０Ａ，１０Ｂを、「コンピュータシステム１０」と呼ぶ。

【0031】

コンピュータシステム１０は、プロセッサ１１及びプロセッサ１１に接続された記憶装置１２を備えるコンピュータによって構成され得る。コンピュータシステム１０は、１又は複数のコンピュータによって構成され得る。記憶装置１２は、例えば、一次記憶装置及び二次記憶装置を備える（後述の記憶装置１０２も同様）。一次記憶装置は、例えば、ＲＡＭである。二次記憶装置は、例えば、ハードディスクドライブ（ＨＤＤ）又はソリッドステートドライブ（ＳＳＤ）である。記憶装置１２は、プロセッサ１１によって実行されるコンピュータプログラム１２Ｈ（図２参照）を備え得る。プロセッサ１１は、記憶装置１２に格納されたコンピュータプログラム１２Ｈを読み出して実行する。記憶装置１２のコンピュータプログラム１２Ｈは、コンピュータを、実施形態に係るコンピュータシステム１０として動作させるための命令を示すプログラムコードを有する。

【0032】

外部システム１００は、１又は複数のコンピュータによって構成される。外部システムを構成するコンピュータは、プロセッサ１０１とプロセッサ１０１に接続された記憶装置１０２を備える。記憶装置１０２は、プロセッサ１０１によって実行されるコンピュータプログラムを備え得る。プロセッサ１０１は、記憶装置１０２に格納されたコンピュータプログラムを読み出して実行する。記憶装置１０２のコンピュータプログラムは、コンピュータを、実施形態に係る外部システム１００として動作させるための命令を示すプログラムコードを有する。

【0033】

また、外部システム１００は、言語モデルを用いてマスクされた語を予測する予測システムとして機能し得る。外部システム１００の詳細については後述される。

【0034】

図２に示すように、実施形態のコンピュータシステム１０は、例えば、文書作成支援システムであり得る。実施形態のコンピュータシステム１０は、一例として、初期の文章データ１２Ｃから目的の文章データ１２Ｇを生成し得る。コンピュータシステム１０は、例えば、要約文の作成を支援し得る。すなわち、コンピュータシステム１０は、初期の文章データ１２Ｃの要約を、目的の文章データ１２Ｇとして生成し得る。なお、コンピュータシステム１０は、要約以外のその他の文章の作成を支援してもよい。その他の文章の生成は、例えば、初期の文章データから生成された新たな文章、初期の文章データの様式又は体裁の変換、初期の文章データの翻訳などである。

【0035】

図２に示すように、記憶装置１２は、辞書データ１２Ａを備え得る。辞書データ１２Ａ、後述のマスク処理１１Ｃによってマスクされる語を選択するために用いられ得る。辞書データ１２Ａは、企業の営業秘密、国家機密、又はプライバシーに関する情報など（以下、「機敏情報」という）を示す語を含み得る。文章に含まれる語のうち、辞書データ１２Ａに含まれる語は、マスク処理によってマスクされる。

【0036】

機敏情報を有する語は、個人又は組織などのユーザが属する専門分野における専門用語又は業界用語を含み得る。辞書データ１２Ａは、個人又は組織などのユーザによって異なり得る。辞書データ１２Ａに含まれる語は、ユーザによって登録・編集され得る。コンピュータシステム１０は、同一のユーザによって利用され得る複数の辞書データ１２Ａを有し、用途等に応じて、ユーザが辞書データ１２Ａを選択して使い分けてもよい。

【0037】

辞書データ１２Ａは、マスクされるべき特定の語の一覧を有しているだけでなく、マスクされるべき「語の種類」の一覧を有していてもよい。ここでの「語の種類」とは、例えば、人又は組織の名前・地名などの「固有名」、「肩書」、「日時を示す語」、「数量を示す語」、「行為を表す語」である。語の種類は、固有名の認識処理、または、日時を示す語の認識処理、数量を示す語の認識処理、意味解析などの自然言語処理によって認識され得る。例えば、文章中に人名を示す「横山」という語が存在する場合、固有名の認識処理によって、「横山」は「人の名前」であると認識される。この場合、辞書データ１２Ａに「語の種類」として「人の名前」が登録されていれば、「横山」がマスクされる。つまり、「横山」という語自体が、辞書データ１２Ａに登録されていなくても、「横山」がマスクされる。

【0038】

記憶装置１２は、対応データ１２Ｂを備え得る。対応データは、マスク処理によってマスクされた部分（マスク語）と、マスクされた部分の補完内容（補完語）と、の対応関係を示す。例えば、「横山」という語がマスクされ、そのマスク部分が「佐藤」という語によって補完された場合、対応データ１２Ｂでは、「横山」と「佐藤」とが対応付けて記録される。

【0039】

記憶装置１２は、初期データであるオリジナルデータ１２Ｃ（第１データ）と、コンピュータシステム１０によって生成される目的データ１２Ｇ（第４データ）と、を格納し得る。目的データ１２Ｇは、図２に示すように、例えば、オリジナルデータ１２Ｃの要約である。オリジナルデータ１２Ｃは、文章データを含み得る。オリジナルデータ１２Ｃは、文章データ以外の図形データ・画像データなどを含んでもよい。

【0040】

オリジナルデータ１２Ｃは、機敏情報を示す語（以下、「機敏語」という）を含み得る。以下では、機敏語を含むデータを「機敏データ」と呼ぶ。オリジナルデータ１２Ｃ（第１データ）は機敏データであり得る。機敏データは、組織のポリシー又は個人情報の保護のため、コンピュータシステム１０外への送信が禁止されている、または、ユーザがコンピュータシステム１０外への送信を望まない場合がある。

【0041】

実施形態に係るコンピュータシステム１０は、機敏データを外部へ送信することなく、外部システム１００を利用して、機敏データであるオリジナルデータ１２Ｃに基づく目的データ１２Ｇを生成することができる。なお、目的データ１２Ｇ（第４データ）も機敏データであり得る。

【0042】

記憶装置１２は、初期データ１２Ｃから目的データ１２Ｇが生成されるまでの間に生成される中間データ１２Ｄ，１２Ｅ，１２Ｆを格納し得る。中間データ１２Ｄ，１２Ｅ，１２Ｆは、例えば、マスクデータ１２Ｄ、第２データ１２Ｅ、及び第３データ１２Ｆを含み得る。

【0043】

マスクデータ１２Ｄは、オリジナルデータ１２Ｃに含まれる特定の語をマスクしたものである。すなわち、マスクデータ１２Ｄは、オリジナルデータ１２Ｃの一部をマスクした虫食い文章である。マスクは、前述のように、辞書データ１２Ａに基づいて行われる。マスクされた語は、機敏語であり得る。機敏語がマスクされていることで、マスクデータ１２Ｄは、非機敏データになる。

【0044】

第２データ１２Ｅは、オリジナルデータである第１データ１２Ｃから生成されたデータである。図２では、第２データ１２Ｅは、補完データ１２Ｅとして示されている。第２データ１２Ｅは、第１データ１２Ｃに含まれる第１語を、第２語に変換することで生成される。第１語は、機敏語であり得る。第１語は、辞書データ１２Ａに基づいて選択され得る。第２語は、非機敏語であり得る。第２語は辞書データ１２Ａに基づいて選択されなかった語であり得る。

【0045】

実施形態においては、一例として、第２データ１２Ｅは、第１データ１２Ｃから生成されたマスクデータ１２Ｄに基づいて生成される。この場合、第１語から第２語への変換は、第１データ１２Ｃに含まれる第１語をマスクし、マスクされた語を補完（予測）することで行われ得る。補完（予測）された語が第２語になる。

【0046】

ここでの補完又は予測は、不正確な補完又は不正確な予測であるほうが、機敏情報を隠蔽できるという観点で好ましい。つまり、補完又は予測の処理は、いい加減なものでもよい。また、マスクされる語の数を多くすることで、オリジナルデータにおける文章の意味が分かりにくくなるため、補完又は予測の精度を大きく低下させて、機敏情報を隠蔽することができる。

【0047】

なお、補完又は予測された語（第２語）が、偶然、マスクされた第１語と一致することがあり得るため、第１語と第２語とは、文章全体で完全に一致してなければ、部分的に一致していてもよい。つまり、マスクされた複数の語（第１語）のうち、一部の語（第１語）に対応する第２語は、第１語と同じものであってもよい。一部の語において、第１語と第２語とが偶然共通していても、単なる偶然であれば、その第２語は、機敏情報を示していないため、文章データ全体としては、機敏情報が隠蔽されたものとなる。

【0048】

第２データ１２Ｅにおいては、第１データ１２Ｃに含まれる機敏語である第１語が、非機敏語である第２語に変換される。このため、第２データ１２Ｅは、非機敏データになる。第２データ１２Ｅは、マスクデータ１２Ｄと同様に、機敏語を有しないが、マスクされた語が補完されている。このため、第２データ１２Ｅは、マスクデータ１２Ｄに比べて、文章の意味が分かりやすい。したがって、第２データ１２Ｅに基づく自然言語処理は、マスクデータ１２Ｄに対する自然言語処理に比べて、適切に行われ易くなる。

【0049】

第３データ１２Ｆは、第２データ１２Ｅから生成される。図２において、第３データ１２Ｆは、第２データ１２Ｅである補完データの要約として示されている。非機敏データである第２データ１２Ｅの要約である第３データ１２Ｆも、非機敏データである。

【0050】

プロセッサ１１は、コンピュータプログラム１２Ｈの命令に従って、様々な処理１１Ａ，１１Ｂ，１１Ｃ，１１Ｄ，１１Ｅ，１１Ｆを実行可能である。

【0051】

プロセッサ１１が実行する処理は、リクエスト送信１１Ａを含み得る。リクエスト送信１１Ａは、外部システム１００に対して、何らかの処理をリクエストすることである。リクエストは、コンピュータシステム１０から外部システム１００へ送信される。リクエストは、後述の補完処理のリクエスト、又は、文章加工処理のリクエストを含み得る。プロセッサ１１は、リクエストを、外部システム１００における処理に用いられるデータとともに、外部システム１００へ送信し得る。

【0052】

プロセッサ１１が実行する処理は、応答受信１１Ｂを含み得る。応答受信１１Ｂは、前述のリクエストに対する外部システム１００の応答を受信することである。応答は、リクエストに基づいて外部システム１００が実行した実行結果を含み得る。応答は、後述の補完処理の処理結果の通知、又は、文章加工処理の処理結果の通知を含み得る。応答は、外部システム１００における処理によって生成されたデータとともに、外部システム１００から送信され得る。プロセッサ１１は、生成されたデータを含む応答を外部システム１００から受信し得る。

【0053】

プロセッサ１１が実行する処理は、マスク処理１１Ｃを含み得る。マスク処理１１Ｃは、第１データ１２Ｃに含まれる語をマスクすることを含む。プロセッサ１１は、辞書データ１２Ａを参照し、第１データ１２Ｃに含まれる語のうち、マスクすべき語を選択する。マスクすべき語は、例えば、辞書データ１２Ａに含まれる語、又は、辞書データ１２Ａに含まれる「語の種類」と一致する種類の語である。マスク処理１１Ｃによって、第１データ１２Ｃに含まれる複数の語の一部がマスクされたマスクデータ１２Ｄが生成される。

【0054】

プロセッサ１１が実行する処理は、オリジナルデータである第１データ１２Ｃを取得する処理１１Ｄを含み得る。取得処理１１Ｄは、第１データ１２Ｃを外部から取得することである。例えば、プロセッサ１１は、取得処理１１Ｄとして、端末２０に入力された文章を含む第１データ１２Ｃを、ネットワーク３０を介して、受信する。また、プロセッサ１１は、取得処理１１Ｄとして、端末２０などの他のコンピュータから送信された第１データ１２Ｃを受信する。なお、第１データ１２Ｃは、記憶装置１２に予め保存されていてもよい。

【0055】

プロセッサ１１が実行する処理は、データ出力処理１１Ｅを含み得る。出力処理１１Ｅは、例えば、記憶装置１２に格納されたデータ１２Ａ，１２Ｂ，１２Ｃ，１２Ｄ，１２Ｅ，１２Ｆ，１２Ｇを、コンピュータシステム１０のディスプレイ又は端末２０のディスプレイ等に出力することである。出力処理１１Ｅによって、ユーザは、データ１２Ａ，１２Ｂ，１２Ｃ，１２Ｄ，１２Ｅ，１２Ｆ，１２Ｇを参照することができる。なお、出力処理１１Ｅは、他のコンピュータへのデータ送信であってもよい。

【0056】

プロセッサ１１が実行する処理は、データ編集処理１１Ｆを含み得る。編集処理１１Ｆは、例えば、記憶装置１２に格納されたデータ１２Ａ，１２Ｂ，１２Ｃ，１２Ｄ，１２Ｅ，１２Ｆ，１２Ｇを、ユーザが編集する環境をユーザに提示することである。例えば、プロセッサ１１は、出力処理１１Ｅによって表示されたデータ１２Ａ，１２Ｂ，１２Ｃ，１２Ｄ，１２Ｅ，１２Ｆ，１２Ｇに対する編集操作を受け付け、編集後のデータ１２Ａ，１２Ｂ，１２Ｃ，１２Ｄ，１２Ｅ，１２Ｆ，１２Ｇを記憶装置１２に保存することができる。

【0057】

データ編集は、例えば、オリジナルデータ１２Ｃの編集、生成されたマスクデータ１２Ｄの編集、生成された第２データ１２Ｅの編集、生成された第３データ１２Ｆの編集、及び生成された第４データ１２Ｇの編集を含み得る。

【0058】

図３は、外部システム１００の構成を示している。外部システム１００は、コンピュータシステム１０のユーザ又はそのユーザが属する又は関連する組織以外の第三者によって管理され得る。ここで、外部システム１００における「外部」とは、コンピュータシステム１０の第１データ１２Ｃが送信されるべきでない範囲をいう。「外部」は、典型的には、コンピュータシステム１０を有する個人又は組織外の範囲であるが、それに限られない。例えば、ある組織において、情報遮断措置がとられた第１グループと第２グループが存在する場合、第１グループからみて第２グループは、「外部」であり得る。なお、以下では、外部システム１００を単に、システム１００ということがある。

【0059】

システム１００は、一例として、言語モデル１２０を備え得る。言語モデル１２０は、一例として、機械学習されたＡＩ言語モデルである。言語モデルは、文章の認識・生成・要約などに用いられる。コンピュータに実装された言語モデルに、ある文章が与えられると、与えられた文章の要約を生成したり、与えられた文章に対する回答を生成したり、新たな文章を生成したりすることができる。

【0060】

言語モデル１２０は、例えば、Generative Pretrained Transformer（ＧＰＴ）１２１である。ＧＰＴ１２１は、文章生成モデルである。言語モデル１２０は、マスク言語モデル（Masked Language Model：ＭＬＭ）１２２であってもよい。マスク言語モデルは、マスクされた文章の補完処理（虫食い文章の穴埋め処理）に用いられる。なお、ＧＰＴ１２１は、補完処理も可能であるため、ＧＰＴ１２１と別にマスク言語モデルを用意する必要はない。

【0061】

ＧＰＴ１２１は、大規模なデータセットを用いた、教師なし学習によって、機械学習された言語モデルである。機械学習のためのデータセットは、データベース１１２に保存される。

【0062】

システム１００は、インターフェース１１１を介して、文章データを受信する。受信する文章データは、例えば、マスクデータ１２Ｄ又は補完データ１２Ｅである。システム１００は、受信した文章データを、言語モデル１２０に入力する。言語モデル１２０は、入力された文章データに基づいて、適宜の文章を生成し、出力する。

【0063】

システム１００は、生成した文章データを、インターフェース１１１を介して、送信する。送信する文章データは、例えば、補完データ１２Ｅ又は補完データ１２Ｅの要約１２Ｆである。

【0064】

インターフェース１１１は、システム１００が外部とのコミュニケーションを実施するための機能であり、例えば、チャットのためのインターフェースとして実装される。チャットのためのインターフェース１１１は、システム１００外部から、文章の入力を受け付け、入力された文章に基づき言語モデル１２０によって生成された文章を、外部へ出力する。

【0065】

実施形態においては、一例として、コンピュータシステム１０は、チャットのためのインターフェース１１１に対して、文章生成のリクエスト送信１１Ａを実行するとともに、そのインターフェース１１１から出力された文章の受信を、リクエストに対する応答受信１１Ｂとして実行する。

【0066】

システム１００は、受信したデータを、言語モデル１２０に与えるほか、データベース１１２に保存することができる。システム１００は、保存されたデータに基づいて、言語モデル１２０の機械学習をし直して、言語モデル１２０の機能・性能を向上させることができる。

【0067】

図４は、初期データである第１データ１２Ｃから、目的データである第４データ１２Ｇを生成する手順を示している。なお、図３には、図４に示す手順に従ったデータの流れも示されている。図５及び図６は、図４に示す手順によって生成されるデータの一例を示している。

【0068】

図３に示す手順は、一例として、外部システム１００を利用して、プロセッサ１１によって実行される。ここでは、一例として、図５に示すオリジナルデータ（原文）１２Ｃから、図５に示す要約１２Ｇが生成される。

【0069】

図４に示すように、プロセッサ１１は、まず、マスク処理を実行する（ステップＳ４１）。プロセッサ１１は、記憶装置１２に保存された第１データ１２Ｃに含まれる語のうち、辞書データ１２Ａに基づいて選択された語をマスクすることでマスクデータ１２Ｄを生成する。マスクデータ１２Ｄは、第１データ１２Ｃに含まれる語の一部をマスクしたものである。図５に示すマスクデータ１２Ｄでは、マスクされた部分が、「＊」で示されている。マスクされていない部分については、マスクデータ１２Ｄと第１データ１２Ｃとは共通している。

【0070】

図５に示すように、マスクデータ１２Ｄは、第１データ１２Ｃと同様の文章の骨格を有しているが、機敏語がマスクされているため、全体として、機敏情報は隠蔽されている。

【0071】

ユーザは、生成されたマスクデータ１２Ｄに対する編集操作を行って、生成されたマスクデータ１２Ｄにおいてマスクされていない語を追加でマスクしたり、マスクを取りやめるため、マスクされた語を元に戻したりしてもよい。編集による追加でのマスクによって、辞書データ１２Ａによってはマスクされなかった語を、ユーザ判断でマスクすることができる。また、編集によるマスクの取りやめによって、非機敏語にされたマスクを取り除くことができる。編集されたマスクデータ１２Ｄは、保存される。編集された場合には、編集後のマスクデータ１２Ｄが、後述の補完処理に用いられる。

【0072】

プロセッサ１１は、マスクデータ１２Ｄに対する補完処理を実行する（ステップＳ４２）。補完処理は、マスクデータ１２Ｄにおいてマスクされた部分を予測する処理（虫食い文章の穴埋め処理）である。

【0073】

図３に示すように、プロセッサ１１は、補完処理として、マスクデータ１２Ｄの補完を、マスク部分を予測する予測システムとしての外部システム１００に対してリクエストし、外部システム１００によって生成された補完データ１２Ｅを受信する。マスクデータ１２Ｄは、機敏語を含まない非機敏データであるため、外部システム１００へ送信しても問題ない。

【0074】

外部システム１００のインターフェースがチャットインターフェース１１１である場合、補完のためのリクエストとして、コンピュータシステム１０のプロセッサ１１は、例えば、図５に示すマスクデータ１２Ｄの文章の前に、「次の文章を穴埋めして下さい。」のようにマスク補完を要求する文章を付加したリクエストメッセージを生成する。

【0075】

プロセッサ１１は、生成したリクエストメッセージを、外部システム１００のインターフェース１１１へ送信する。外部システム１００は、インターフェース１１１を介して受信したリクエストメッセージを、言語モデル１２０に与える。言語モデル１２０は、リクエストメッセージの意味解析を行い、「次の文章を穴埋めして下さい。」の文章に従って、その文章に続くマスクデータ１２Ｄの文章のマスク補完（穴埋め；マスク部分の語の予測）をした文章（図５の補完データ１２Ｅ）を出力する。

【0076】

外部システム１００は、出力された補完データ（第２データ）１２Ｅを、コンピュータシステム１０へ送信する。コンピュータシステム１０のプロセッサ１１は、送信された補完データ１２Ｅを受信して記憶装置１２に保存する。図５に示すように、補完データ１２Ｅは、マスクデータ１２Ｄにおけるマスク部分が適当に予測された語で補完されているため、文章の骨格は、オリジナルデータ１２Ｃと共通するが、機敏情報は隠蔽されたものとなっている。また、補完データ１２Ｅは、マスクデータ１２Ｄに比べて、自然な文章であるため、外部システム１００による意味解析に適している。

【0077】

プロセッサ１１は、オリジナルデータ１２Ｃと補完データ１２Ｅとに基づいて、対応データ１２Ｂを生成する。対応データ１２Ｂの生成には、必要であればマスクデータ１２Ｄを用いてもよい。図６は、対応データ１２Ｂの一例を示している。図６に示す対応データ１２Ｂは、図５に示す補完データ１２Ｅとマスクデータ１２Ｄとに基づいて生成されたものである。図６において、左側は、第１データ１２Ｃに含まれる語（第１語）の一覧を示しており、右側は、第２データ１２Ｅに含まれる語（第２語）の一覧を示している。対応データ１２Ｂは、第１語と、その第１語がどのような第２語によって変換されているかの対応関係を示している。例えば、オリジナルデータ１２Ｃにおける第１語としての「岸田首相」は、補完データ１２Ｅにおいて第２語としての「田中氏」に変換されている。この場合、対応データ１２Ｂには、第１語としての「岸田首相」と第２語としての「田中氏」とが対応付けて記録されている。

【0078】

プロセッサ１１は、対応データ１２Ｂの生成のため、オリジナルデータ１２Ｃと補完データ１２Ｅとを対比し、オリジナルデータ１２Ｃにおける語（第１語）が、補完データ１２Ｅにおけるどの語（第２語）で置き換えられているかを識別する。なお、オリジナルデータ１２Ｃ及び／又は補完データ１２Ｅにおいて、第１語から第２語に置き換えられている箇所の識別のため、マスクデータ１２Ｄが用いられてもよい。

【0079】

なお、言語モデル１２０は、マスクデータ１２Ｄを補完する際に、生成される補完データ１２Ｅの文章を自然なものにするため、マスクされた部分以外の文章も変更することがある。この場合、プロセッサ１１は、マスクされた部分以外の文章の変更も対応データ１２Ｂに記録し得る。

【0080】

ユーザは、生成された補完データ１２Ｅに対する編集操作を行ってもよい。補完された語（第２語）が、元の第１語と偶然同じである場合、ユーザ編集操作によって、補完された第２語を、別の第２語に変更してもよい。また、補完データ１２Ｅの文章が不自然な場合には、ユーザ編集操作によって、文章を編集してもよい。プロセッサ１１は、ユーザ編集後の補完データ１２Ｅの語（第２語）とオリジナルデータ１２Ｃの語（第１語）との対応関係も、対応データ１２Ｂに記録する。

【0081】

プロセッサ１１は、生成した対応データ１２Ｂを記憶装置１２に保存する（ステップＳ４３）。

【0082】

なお、図４に示す補完処理（ステップＳ４２）を省略して、適宜のアルゴリズム又はユーザ編集操作によって、第１データ１２Ｃから、直接、第２データ１２Ｅを生成してもよい。つまり、第１データ１２Ｃに含まれる第１語は、適宜のアルゴリズム又はユーザ編集操作によって、第２語に変換されてもよい。

【0083】

続いて、図４に示すように、プロセッサ１１は、文書加工処理を実行する（ステップＳ４４）。図３に示すように、プロセッサ１１は、文章加工処理として、第２データ１２Ｅの文章加工を、外部システム１００に対してリクエストし、外部システム１００によって生成された第３データ１２Ｆを受信する。第２データ１２Ｅは機敏語を含まない非機敏データであるため、外部システム１００へ送信しても問題ない。

【0084】

文章加工が、要約の生成である場合、要約生成のためのリクエストとして、コンピュータシステム１０のプロセッサは、例えば、図５に示す補完データ１２Ｅの文章の前に、「次の文章を要約して下さい。」のように文章加工（文章要約）を要求する文章を付加したリクエストメッセージを生成する。

【0085】

プロセッサ１１は、要約生成のため、生成したリクエストメッセージを、外部システム１００のインターフェース１１１へ送信する。外部システム１００は、インターフェース１１１を介して受信したリクエストメッセージを、言語モデル１２０に与える。言語モデル１２０は、リクエストメッセージの意味解析を行い、「次の文章を要約して下さい。」の文章に従って、その文章に続く第２データ１２Ｅの文章を要約した文章（図５の補完データの要約１２Ｆ）を出力する。第２データ１２Ｅは、マスクデータ１２Ｄとは異なり自然な文章であるため、言語モデル１２０は、第２データ１２Ｅの意味解析を適切に行うことができ、その結果、適切な要約を生成できる。

【0086】

外部システム１００は、出力された要約（第３データ）１２Ｆを、コンピュータシステム１０へ送信する。コンピュータシステム１０のプロセッサ１１は、送信された要約１２Ｆを受信して記憶装置１２に保存する。非機敏データである第２データ１２Ｅを要約した第３データ１２Ｆは、非機敏データであるため、外部システム１００とコンピュータシステム１０との間でやり取りされても問題ない。

【0087】

ユーザは、生成された要約１２Ｆに対する編集操作を行ってもよい。編集された要約１２Ｆは、記憶装置１２に保存される。

【0088】

プロセッサは、第３データ１２Ｆに対する復元処理を実行して第４データ１２Ｇを生成する（ステップＳ４５）。復元処理は、第３データ１２Ｆに含まれる第２語を、第１語に変換する処理である。第２語を第１語に変換する処理は、プロセッサ１１が、対応データ１２Ｂを参照して行う。プロセッサ１１は、第３データ１２Ｆに含まれる語のうち、対応データ１２Ｂにおいて第２語として含まれる語を識別し、第３データ１２Ｆにおいて第２語として識別された語を、対応データ１２Ｂにおいて第２語に対応付けられた第１語に変換する。例えば、プロセッサ１１は、対応データ１２Ｂを参照して、第３データ１２Ｆに含まれる語のうち「田中氏」を第２語の一つとして識別する。対応データ１２Ｂにおいて「田中氏」は「岸田首相」に対応付けられている。したがって、プロセッサ１１は、第３データ１２Ｆに含まれる「田中氏」を「岸田首相」に変換する。同様に、プロセッサ１１は、第３データ１２Ｆに含まれる各第２語を、対応する第１語に変換することで、第４データ１２Ｇを生成する。

【0089】

プロセッサ１１は、復元処理によって生成した第４データ１２Ｇを記憶装置１２に保存する。ユーザは、生成された第４データ１２Ｇに対する編集操作を行ってもよい。編集された第４データ１２Ｇは、記憶装置１２に保存される。

【0090】

なお、ステップＳ４４の文章加工処理が翻訳である場合、対応データ１２Ｂは、第１語及び第２語の翻訳語を含むのが好ましい。プロセッサ１１は、翻訳文である第３データ１２Ｆにおける第２語の翻訳語を、対応データ１２Ｂに含まれる第１語及び第２語の翻訳語を参照し、第１語の翻訳語に変換することで、第４データを生成し得る。

【0091】

プロセッサ１１は、第１語の翻訳を、辞書データ１２Ａから取得し得る。この場合、辞書データ１２Ａは、マスクすべき語の翻訳語も備えているのが好ましい。プロセッサ１１は、第２語の翻訳を、翻訳前の第２データ１２Ｅと翻訳後の第３データ１２Ｆとから取得し得る。プロセッサ１１は、翻訳前の第２データ１２Ｅと翻訳後の第３データ１２Ｆとを対比して、第２データ１２Ｅに含まれる第２語に対応する翻訳語を、第３データ１２Ｆから抽出することができる。プロセッサ１１は、取得した第１語及び第２の翻訳語を対応データ１２Ｂとして保存し得る。

【0092】

このように、第４データ１２Ｇの生成のため、第３データに含まれる第２語を第１語に変換することは、第２語の翻訳語を第１語の翻訳語に変換することを含み得る。

【0093】

実施形態によれば、機敏データを外部システム１００へ送信することなく、外部システム１００を利用して、機敏データである第１データ１２Ｃを加工した第４データ１２Ｇを得ることができる。

【0094】

本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。例えば、ステップＳ４１においてマスクされた部分を予測する外部システム１００と、ステップＳ４４において要約などの文章加工を行う外部システム１００と、は別々のシステムであってもよい。

【符号の説明】

【0095】

１０：コンピュータシステム
１０Ａ：コンピュータシステム
１０Ｂ：コンピュータシステム
１１：プロセッサ
１１Ａ：リクエスト送信
１１Ｂ：応答受信
１１Ｃ：マスク処理
１１Ｄ：取得処理
１１Ｅ：データ出力処理
１１Ｆ：データ編集処理
１２：記憶装置
１２Ａ：辞書データ
１２Ｂ：対応データ
１２Ｃ：第１データ
１２Ｄ：マスクデータ
１２Ｅ：第２データ
１２Ｆ：第３データ
１２Ｇ：第４データ
１２Ｈ：コンピュータプログラム
２０：端末
３０：ネットワーク
５０Ａ：施設
５０Ｂ：施設
１００：外部システム
１０１：プロセッサ
１０２：記憶装置
１１１：インターフェース
１１２：データベース
１２０：言語モデル
１２１：生成モデル
１２１：マスク言語モデル

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【手続補正書】

【提出日】2023-05-24

【手続補正1】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、コンピュータ実装方法、コンピュータシステム及びコンピュータプログラムに関する。

【背景技術】

【0002】

特許文献１は、ＧＰＴ（Generative Pre-trained Transformer）などの言語モデルを用いた文書要約方法を開示している。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２３－０５３８６７号公報

【発明の概要】

【0004】

ＧＰＴなどの言語モデルは、要約・文書生成・翻訳など様々な言語処理への利用が期待されている。

【0005】

【0006】

【0007】

したがって、上記のような情報を含み得る文章であっても、外部システムによる処理サービスを利用可能とすることが望まれる。

【0008】

【0009】

本開示の他の側面は、コンピュータシステム又はコンピュータプログラムである。更なる詳細は、後述の実施形態として説明される。

【図面の簡単な説明】

【0010】

【図1】図１は、実施形態に係るコンピュータシステム及び外部システムの構成図である。

【図2】図２は、実施形態に係るコンピュータシステム（文書作成支援システム）の構成図である。

【図3】図３は、外部システムの機能ブロック図及びデータフローを示す図である。

【図4】図４は、コンピュータシステムによる文書作成の手順を示すフローチャートである。

【図5】図５は、第１データから第４データの例を示す図である。

【図6】図６は、対応データの例を示す図である。

【発明を実施するための形態】

【0011】

＜１．コンピュータ実装方法、コンピュータシステム及びコンピュータプログラムの概要＞

【0012】

【0013】

【0014】

【0015】

【0016】

【0017】

【0018】

（５）前記外部システムが生成する前記第３データは、前記第２データの要約を含み得る。

【0019】

【0020】

【0021】

【0022】

【0023】

コンピュータプログラムは、コンピュータ読み取り可能な、非一時的な記憶媒体に格納され得る。

【0024】

＜２．コンピュータ実装方法、コンピュータシステム及びコンピュータプログラムの例＞

【0025】

【0026】

【0027】

【0028】

【0029】

【0030】

【0031】

【0032】

【0033】

【0034】

【0035】

図２に示すように、記憶装置１２は、辞書データ１２Ａを備え得る。辞書データ１２Ａ、後述のマスク処理１１Ｃによってマスクされる語を選択するために用いられ得る。辞書データ１２Ａは、企業の営業秘密、国家機密、又はプライバシーに関する情報など（以下、「機微情報」という）を示す語を含み得る。文章に含まれる語のうち、辞書データ１２Ａに含まれる語は、マスク処理によってマスクされる。

【0036】

機微情報を有する語は、個人又は組織などのユーザが属する専門分野における専門用語又は業界用語を含み得る。辞書データ１２Ａは、個人又は組織などのユーザによって異なり得る。辞書データ１２Ａに含まれる語は、ユーザによって登録・編集され得る。コンピュータシステム１０は、同一のユーザによって利用され得る複数の辞書データ１２Ａを有し、用途等に応じて、ユーザが辞書データ１２Ａを選択して使い分けてもよい。

【0037】

【0038】

【0039】

【0040】

オリジナルデータ１２Ｃは、機微情報を示す語（以下、「機微語」という）を含み得る。以下では、機微語を含むデータを「機微データ」と呼ぶ。オリジナルデータ１２Ｃ（第１データ）は機微データであり得る。機微データは、組織のポリシー又は個人情報の保護のため、コンピュータシステム１０外への送信が禁止されている、または、ユーザがコンピュータシステム１０外への送信を望まない場合がある。

【0041】

実施形態に係るコンピュータシステム１０は、機微データを外部へ送信することなく、外部システム１００を利用して、機微データであるオリジナルデータ１２Ｃに基づく目的データ１２Ｇを生成することができる。なお、目的データ１２Ｇ（第４データ）も機微データであり得る。

【0042】

【0043】

マスクデータ１２Ｄは、オリジナルデータ１２Ｃに含まれる特定の語をマスクしたものである。すなわち、マスクデータ１２Ｄは、オリジナルデータ１２Ｃの一部をマスクした虫食い文章である。マスクは、前述のように、辞書データ１２Ａに基づいて行われる。マスクされた語は、機微語であり得る。機微語がマスクされていることで、マスクデータ１２Ｄは、非機微データになる。

【0044】

第２データ１２Ｅは、オリジナルデータである第１データ１２Ｃから生成されたデータである。図２では、第２データ１２Ｅは、補完データ１２Ｅとして示されている。第２データ１２Ｅは、第１データ１２Ｃに含まれる第１語を、第２語に変換することで生成される。第１語は、機微語であり得る。第１語は、辞書データ１２Ａに基づいて選択され得る。第２語は、非機微語であり得る。第２語は辞書データ１２Ａに基づいて選択されなかった語であり得る。

【0045】

【0046】

ここでの補完又は予測は、不正確な補完又は不正確な予測であるほうが、機微情報を隠蔽できるという観点で好ましい。つまり、補完又は予測の処理は、いい加減なものでもよい。また、マスクされる語の数を多くすることで、オリジナルデータにおける文章の意味が分かりにくくなるため、補完又は予測の精度を大きく低下させて、機微情報を隠蔽することができる。

【0047】

なお、補完又は予測された語（第２語）が、偶然、マスクされた第１語と一致することがあり得るため、第１語と第２語とは、文章全体で完全に一致してなければ、部分的に一致していてもよい。つまり、マスクされた複数の語（第１語）のうち、一部の語（第１語）に対応する第２語は、第１語と同じものであってもよい。一部の語において、第１語と第２語とが偶然共通していても、単なる偶然であれば、その第２語は、機微情報を示していないため、文章データ全体としては、機微情報が隠蔽されたものとなる。

【0048】

第２データ１２Ｅにおいては、第１データ１２Ｃに含まれる機微語である第１語が、非機微語である第２語に変換される。このため、第２データ１２Ｅは、非機微データになる。第２データ１２Ｅは、マスクデータ１２Ｄと同様に、機微語を有しないが、マスクされた語が補完されている。このため、第２データ１２Ｅは、マスクデータ１２Ｄに比べて、文章の意味が分かりやすい。したがって、第２データ１２Ｅに基づく自然言語処理は、マスクデータ１２Ｄに対する自然言語処理に比べて、適切に行われ易くなる。

【0049】

第３データ１２Ｆは、第２データ１２Ｅから生成される。図２において、第３データ１２Ｆは、第２データ１２Ｅである補完データの要約として示されている。非機微データである第２データ１２Ｅの要約である第３データ１２Ｆも、非機微データである。

【0050】

【0051】

【0052】

【0053】

【0054】

【0055】

【0056】

【0057】

【0058】

【0059】

【0060】

【0061】

【0062】

【0063】

【0064】

【0065】

【0066】

【0067】

【0068】

【0069】

【0070】

図５に示すように、マスクデータ１２Ｄは、第１データ１２Ｃと同様の文章の骨格を有しているが、機微語がマスクされているため、全体として、機微情報は隠蔽されている。

【0071】

ユーザは、生成されたマスクデータ１２Ｄに対する編集操作を行って、生成されたマスクデータ１２Ｄにおいてマスクされていない語を追加でマスクしたり、マスクを取りやめるため、マスクされた語を元に戻したりしてもよい。編集による追加でのマスクによって、辞書データ１２Ａによってはマスクされなかった語を、ユーザ判断でマスクすることができる。また、編集によるマスクの取りやめによって、非機微語にされたマスクを取り除くことができる。編集されたマスクデータ１２Ｄは、保存される。編集された場合には、編集後のマスクデータ１２Ｄが、後述の補完処理に用いられる。

【0072】

【0073】

図３に示すように、プロセッサ１１は、補完処理として、マスクデータ１２Ｄの補完を、マスク部分を予測する予測システムとしての外部システム１００に対してリクエストし、外部システム１００によって生成された補完データ１２Ｅを受信する。マスクデータ１２Ｄは、機微語を含まない非機微データであるため、外部システム１００へ送信しても問題ない。

【0074】

【0075】

【0076】

外部システム１００は、出力された補完データ（第２データ）１２Ｅを、コンピュータシステム１０へ送信する。コンピュータシステム１０のプロセッサ１１は、送信された補完データ１２Ｅを受信して記憶装置１２に保存する。図５に示すように、補完データ１２Ｅは、マスクデータ１２Ｄにおけるマスク部分が適当に予測された語で補完されているため、文章の骨格は、オリジナルデータ１２Ｃと共通するが、機微情報は隠蔽されたものとなっている。また、補完データ１２Ｅは、マスクデータ１２Ｄに比べて、自然な文章であるため、外部システム１００による意味解析に適している。

【0077】

【0078】

【0079】

【0080】

【0081】

プロセッサ１１は、生成した対応データ１２Ｂを記憶装置１２に保存する（ステップＳ４３）。

【0082】

【0083】

続いて、図４に示すように、プロセッサ１１は、文書加工処理を実行する（ステップＳ４４）。図３に示すように、プロセッサ１１は、文章加工処理として、第２データ１２Ｅの文章加工を、外部システム１００に対してリクエストし、外部システム１００によって生成された第３データ１２Ｆを受信する。第２データ１２Ｅは機微語を含まない非機微データであるため、外部システム１００へ送信しても問題ない。

【0084】

【0085】

【0086】

外部システム１００は、出力された要約（第３データ）１２Ｆを、コンピュータシステム１０へ送信する。コンピュータシステム１０のプロセッサ１１は、送信された要約１２Ｆを受信して記憶装置１２に保存する。非機微データである第２データ１２Ｅを要約した第３データ１２Ｆは、非機微データであるため、外部システム１００とコンピュータシステム１０との間でやり取りされても問題ない。

【0087】

ユーザは、生成された要約１２Ｆに対する編集操作を行ってもよい。編集された要約１２Ｆは、記憶装置１２に保存される。

【0088】

【0089】

【0090】

【0091】

【0092】

【0093】

実施形態によれば、機微データを外部システム１００へ送信することなく、外部システム１００を利用して、機微データである第１データ１２Ｃを加工した第４データ１２Ｇを得ることができる。

【0094】

【符号の説明】

【0095】