(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-08-19
(45)【発行日】2025-08-27
(54)【発明の名称】抽象化システム、抽象化方法及び抽象化プログラム
(51)【国際特許分類】
G06F 40/56 20200101AFI20250820BHJP
G06F 40/16 20200101ALI20250820BHJP
G06F 40/295 20200101ALI20250820BHJP
G06F 21/62 20130101ALI20250820BHJP
【FI】
G06F40/56
G06F40/16
G06F40/295
G06F21/62 354
(21)【出願番号】P 2024108705
(22)【出願日】2024-07-05
【審査請求日】2024-07-05
【新規性喪失の例外の表示】特許法第30条第2項適用 WEB会議(会議の名称:[ACES@online]百十四銀行 石井様・池内様 AI活用に関する初回議論)、2024年6月12日10:00~11:00
【早期審査対象出願】
(73)【特許権者】
【識別番号】520008533
【氏名又は名称】株式会社ACES
(74)【代理人】
【識別番号】100207561
【氏名又は名称】柳元 八大
(74)【代理人】
【識別番号】100208959
【氏名又は名称】島田 敏史
(72)【発明者】
【氏名】武市 一成
(72)【発明者】
【氏名】久保 静真
(72)【発明者】
【氏名】與島 仙太郎
(72)【発明者】
【氏名】河村 和紀
(72)【発明者】
【氏名】安田 幸生
【審査官】成瀬 博之
(56)【参考文献】
【文献】国際公開第2019/220791(WO,A1)
【文献】特開2022-149064(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 21/62
(57)【特許請求の範囲】
【請求項1】
電子文書から固有名称を抽出する抽出部と、
前記固有名称を、対応する属性ごとに複数の抽象化レベルで階層化された抽象化レベル群における、上位の抽象化レベルである基準抽象化レベルより下位の抽象化レベルである適正抽象化レベルで抽象化した抽象名称に変換する変換部と、
言語モデル自体に、前記言語モデルが前記固有名称に関する知識を有しているか否かを判定させるためのプロンプトを入力し、その出力を取得することにより、前記言語モデルにおける前記固有名称に関する知識の有無の判定を実行する判定部と、
知識がないと判定した場合、前記固有名称に関する補足情報を検索により取得して、前記補足情報を前記固有名称の参考となる知識として前記言語モデルへ入力する補足部と、
前記電子文書に基づいて前記固有名称を前記抽象名称に置き換えた変換文書を出力する出力部と、
を備え
る抽象化システムであって、
前記抽象化システムは、前記電子文書を
前記抽出部に入力し、前記変換部により、前記固有名称を前記適正抽象化レベルに抽象化させる内容の命令書を記したプロンプト
を前記言語モデルに入力し、
前記出力部により、前記変換文書を出力する
抽象化システム。
【請求項2】
前記変換部は、前記電子文書が、共通する前記属性に分類される第1固有名称及び第2固有名称を有する場合、前記第1固有名称及び前記第2固有名称を、互いに異なる第1抽象名称及び第2抽象名称になるまで、前記抽象化レベル群において前記抽象化レベルを下位に下げていくことにより、互いに異なる前記第1抽象名称及び前記第2抽象名称に変換する
請求項1に記載の抽象化システム。
【請求項3】
前記変換部は、前記属性に応じて変わる
前記適正抽象化レベルの参考となる例を記したプロンプトを前記言語モデルへ入力し、前記言語モデルから出力された前記変換文書を取得する
請求項1又は請求項2に記載の抽象化システム。
【請求項4】
前記補足情報を前記言語モデルによって要約した要約情報を、前記プロンプトに追加して前記言語モデルに入力し、前記変換文書を出力する
請求項
1に記載の抽象化システム。
【請求項5】
電子文書から固有名称を抽出する抽出ステップと、
前記固有名称を、対応する属性ごとに複数の抽象化レベルで階層化された抽象化レベル群における、上位の抽象化レベルである基準抽象化レベルより下位の抽象化レベルである適正抽象化レベルで抽象化した抽象名称に変換する変換ステップと、
言語モデル自体に、前記言語モデルが前記固有名称に関する知識を有しているか否かを判定させるためのプロンプトを入力し、その出力を取得することにより、前記言語モデルにおける前記固有名称に関する知識の有無の判定を実行する判定ステップと、
知識がないと判定した場合、前記固有名称に関する補足情報を検索により取得して、前記補足情報を前記固有名称の参考となる知識として前記言語モデルへ入力する補足ステップと、
前記電子文書に基づいて前記固有名称を前記抽象名称に置き換えた変換文書を出力する出力ステップと、
を含
む抽象化方法であって、
前記抽象化方法は、前記電子文書を
前記抽出ステップにおいて入力し、前記変換ステップにおいて、前記固有名称を前記適正抽象化レベルに抽象化させる内容の命令書を記したプロンプト
を前記言語モデルに入力し、
前記出力ステップにおいて、前記変換文書を出力する
抽象化方法。
【請求項6】
コンピュータに、
電子文書から固有名称を抽出する機能と、
前記固有名称を、対応する属性ごとに複数の抽象化レベルで階層化された抽象化レベル群における、上位の抽象化レベルである基準抽象化レベルより下位の抽象化レベルである適正抽象化レベルで抽象化した抽象名称に変換する機能と、
言語モデル自体に、前記言語モデルが前記固有名称に関する知識を有しているか否かを判定させるためのプロンプトを入力し、その出力を取得することにより、前記言語モデルにおける前記固有名称に関する知識の有無の判定を実行する機能と、
知識がないと判定した場合、前記固有名称に関する補足情報を検索により取得して、前記補足情報を前記固有名称の参考となる知識として前記言語モデルへ入力する機能と、
前記電子文書に基づいて前記固有名称を前記抽象名称に置き換えた変換文書を出力する機能と、
を実現させる抽象化プログラムであって、
前記抽象化プログラムは、コンピュータに、前記電子文書を
入力し、前記固有名称を前記適正抽象化レベルに抽象化させる内容の命令書を記したプロンプト
を前記言語モデルに入力し、前記変換文書を出力する機
能を実現させる
抽象化プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、抽象化システム、抽象化方法及び抽象化プログラムに関するものである。
【背景技術】
【0002】
従来、テキストに含まれる個人情報等の秘密情報を秘匿化するセキュリティマスキング技術があった(例えば、特許文献1)。
【0003】
従来のセキュリティマスキング技術は、オリジナルのテキストに含まれる秘密情報を単純に抽象化して秘匿化されたテキストとして出力するものであった。そのため、秘匿化されたテキストから得られる情報は、オリジナルのテキストから得られる情報と比べて少なくなり、有用性に欠けることがあった。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、テキストから得られる情報を確保しつつ秘密情報を秘匿化できる抽象化システム、抽象化方法及び抽象化プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)本発明の一態様に係る抽象化システムは、電子文書から秘匿する固有名称を抽出する抽出部と、前記固有名称を、対応する属性ごとに階層化された抽象化レベル群における、上位の基準抽象化レベルより下位の適正抽象化レベルで抽象化した抽象名称に変換する変換部と、を備える。
(2)上記(1)において、前記変換部は、前記電子文書が、共通する前記属性に分類される第1固有名称及び第2固有名称を有する場合、前記第1固有名称及び前記第2固有名称を、互いに異なる第1抽象名称及び第2抽象名称に変換してよい。
(3)上記(1)又は(2)において、前記変換部は、言語モデルを用いて前記固有名称を前記抽象名称に変換してよい。
(4)上記(3)において、前記変換部は、前記属性に応じた変換プロンプトを前記言語モデルへ入力し、前記言語モデルからの出力を取得してよい。
(5)上記(4)において、前記言語モデルにおける前記固有名称に関する知識の有無の判定を実行する判定部と、知識がないと判定した場合、前記固有名称に関する補足情報を検索により取得して前記言語モデルへ入力する補足部と、を備えてよい。
(6)上記(5)において、前記判定部は、前記言語モデルを用いて、前記判定を実行してよい。
(7)上記(5)において、前記補足部は、前記言語モデルを用いて、前記補足情報を要約してよい。
(8)本発明の一態様に係る抽象化方法は、電子文書から秘匿する固有名称を抽出する抽出ステップと、前記固有名称を、対応する属性ごとに階層化された抽象化レベル群における、上位の基準抽象化レベルより下位の適正抽象化レベルで抽象化した抽象名称に変換する変換ステップと、を含む。
(9)本発明の一態様に係る抽象化プログラムは、コンピュータに、電子文書から秘匿する固有名称を抽出する機能と、前記固有名称を、対応する属性ごとに階層化された抽象化レベル群における、上位の基準抽象化レベルより下位の適正抽象化レベルで抽象化した抽象名称に変換する機能と、を実現させる。
【発明の効果】
【0007】
本発明によれば、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる抽象化システム、抽象化方法及び抽象化プログラムを提供できる。
【図面の簡単な説明】
【0008】
【
図4】言語モデルMが知識を有している固有名称Pを抽象化する説明図である。
【
図5】言語モデルMが知識を有していない固有名称Pを抽象化する説明図である。
【発明を実施するための形態】
【0009】
(実施形態)
以下、図面を参照して本発明の実施形態について詳細に説明する。
図1は、抽象化システム100の概要図である。
図2は抽象化レベル群Lを説明する図である。
図3は、抽象化方法の例を示す説明図である。なお、以下、共通する機能を有する部分には、同じ符号又は記号が付される場合がある。なお、以下、各部が担う動作又は機能は、抽象化プログラムによってコンピュータに実現させることができる。以下、システムを装置と読み替えてもよい。
【0010】
実施形態に係る抽象化システム100は、例えば、金融機関の社員同士で営業活動で得られた顧客情報を共有する際に、秘密情報となる顧客情報を秘匿化(マスキング)する加工(セキュリティマスキング)を施すのに好適である。また、抽象化システム100は、例えば、コンタクトセンターのログをサービス向上のために社内で共有するために、ログを秘匿化する加工を施すのに好適である。
【0011】
図1又は
図3に示すように、実施形態に係る抽象化システム100は、電子文書Toから秘匿する固有名称Pを抽出(検出)する抽出部10と、固有名称Pを抽象名称Qに変換する変換部20と、を備えている。抽象化システム100は、電子文書Toに基づいて固有名称Pを抽象名称Qに置き換えた変換文書Taを出力する出力部30と、を備えている。抽象化システム100は、適宜、検索部40、判定部50及び補足部60を備えている。抽象化システム100は、抽象化システム100で読み込み(呼び出し)可能なローカル上にある言語モデルMを備えていてよい。抽象化システム100は、抽象化システム100で読み込み(呼び出し)可能なネットワークN上にある言語モデルMを備えていてよい。抽象化システム100は、抽象化システム100で読み込み(呼び出し)可能なローカル上にある辞書、抽象化レベル群L等の情報を記憶するローカルデータベースLDを備えていてよい。抽象化システム100は、抽象化システム100で読み込み(呼び出し)可能なネットワークN上にある辞書、抽象化レベル群L等の情報を記憶するネットワークデータベースNDを備えていてよい。
【0012】
抽象化システム100は、CPU、メモリ、外部ネットワークとのデータ通信を制御するネットワークインターフェース、各機能部を相互に接続するバスを備えたコンピュータシステムであってよい。メモリは、CPUと協働して各機能部又は各部を制御するプログラムを記憶している。メモリは、各機能部又は各部の制御に必要なデータを格納したマスタを記憶している。
【0013】
電子文書Toは、電子化されたテキスト(記述、文書、文章、文節又は単語)を含んでいる。テキストは、テーブルデータの一部であってよく、テキストデータの一部であってもよい。電子文書Toは、例えば、テキスト形式、csv形式等の任意のファイル形式で構成されており、コンピュータで利用可能になっている。
【0014】
固有名称Pは、秘匿化(マスキング)対象となる秘密情報である固有名詞を含む表現である。固有名称Pは、例えば、会社名、氏名、国籍、宗教、政治的属性、住所若しくは位置(国、市、水域、山)、PHI(薬名、身体的損傷、治療、検査名)、商品、サービス等の属性(種類、カテゴリ)に分類されるものである。
【0015】
抽象名称Qは、固有名称Pから細部又は具体性を取り去り、本質的に重要な要素又は着目している側面のみを取り出して、一つの概念として定義された表現である。また、抽象名称Qは、異なる複数の抽象名称Qに共通する性質又は要素を見出し、共通点を組み合わせて汎用的な概念として構成されたものであってよい。抽象名称Qは、例えば、「株式会社ACES」という固有名称Pに対して「会社1」である。
【0016】
抽象化レベル群Lは、
図2に示すように、下位の抽象化レベル(下位概念)から上位の抽象化レベル(上位概念)まで複数の抽象化レベルが階層的に(段階的に)集まったものである。抽象化レベル群Lを構成する抽象化レベルの数(階層の数)は3以上であってよい。下位の抽象化レベルは、比較的抽象化の度合いが低い(具体性の高い)属性を表すものである。上位の抽象化レベルは、比較的抽象化の度合いが高い(具体性の低い)属性を表すものである。抽象化レベルの数が3以上の場合、中位の抽象化レベル(中位概念)は、下位の抽象化レベルと上位の抽象化レベルの間にある。抽象化レベル群Lは、あらかじめ、WordNet(登録商標)のような概念辞書を含む辞書として抽象化システム100のメモリ、ローカルデータベースLD又はネットワークデータベースNDに記憶されていてよく、WEB上の情報から言語モデルMを利用して生成されたものであってもよい。なお、言語モデルMから生成されるものは必ずしも事前に登録(ネットワークN上に記憶)される必要はない。
【0017】
言語モデルMは、大規模言語モデル(LLM)、学習済みモデル等の深層ニューラルネットワークを含む機械学習モデルであってよい。言語モデルMには、構文解析、TextRank等の自然言語処理手法を用いてもよい。言語モデルMを用いることで、完全な辞書をあらかじめ用意していなくても、固有名称Pを抽象化でき、オリジナルの電子文書Toから固有名称Pを抽象名称Qに置き換えた変換文書Taを生成できる。
【0018】
例えば、抽象化レベル群Lを構成する抽象化レベルの数が3の場合、固有名称Pが「株式会社ACES」に対応する下位の抽象化レベルは「東大発AIスタートアップ」であり、中位の抽象化レベルは「スタートアップ」であり、上位の抽象化レベルは「会社1」である。このように、固有名称Pを階層的に抽象化することにより、情報量を確保しつつ秘匿化できる。
【0019】
抽出部10は、電子文書Toから秘匿する固有名称Pを抽出する機能を有している。抽出部10は、入力となる自然文から組織、地名、製品名等の固有名詞に日時、数量等を加えた固有表現を、機械的に取り出す固有表現抽出アルゴリズムを有している。抽出部10は、固有表現抽出/NERと呼ばれる技術により秘匿対象の単語となる固有名称Pの位置及び属性を検出してよい。抽出部10は、例えば、固有表現抽出アルゴリズムを有するオープンソースソフトウェア(OSS)を利用したものであってよい。抽出部10は、例えば、「ACESをABC通信が買収」という自然文が入力されると、不要な助詞等を取り除き、「ACES」及び「ABC通信」を「組織」という属性として抽出する。なお、この抽出機能を言語モデルMで担ってよい。すなわち、例えば、抽出部10は、オリジナルの自然文をプロンプトPTとともに大規模言語モデルである言語モデルMに入力し、言語モデルMからの出力を取得してもよい。
【0020】
出力部30は、電子文書Toに基づいて固有名称Pを抽象名称Qに置き換えた変換文書Taを出力する機能を有している。出力部30は、例えば、
図3に示すように、「ACESをABC通信が買収」という自然文である電子文書Toに基づいて、「ACES」を「東大発AIスタートアップ」に、「ABC通信」を「通信企業」に置き換えて、「東大発AIスタートアップを通信企業が買収」といった変換文書Taを出力する。このように、固有名称Pが抽象化された変換文書Taが出力されるので、例えば、「<会社1>を<会社2>が買収」といったように上位に抽象化された場合と比べて、情報量が多く確保されつつ固有名称Pを秘匿化できる。
【0021】
変換部20は、固有名称Pを抽象化した抽象名称Qに変換する機能を有している。
【0022】
ここで、変換部20は、固有名称Pを、対応する属性ごとに階層化された抽象化レベル群Lにおける、上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化した抽象名称Qに変換する。言い換えると、変換部20は、固有名称Pを中位の概念の抽象化レベル(中位概念)で変換する。これにより、固有名称Pを基準抽象化レベルLr(上位概念)で抽象化する場合では、その変換文書Taから得られる情報が少なくなるのに対して、固有名称Pを適正抽象化レベルLd(中位概念)で抽象化する場合では、その変換文書Taから得られる情報が多くなる。よって、抽象化システム100によれば、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。
【0023】
具体的には、例えば、変換部20は、固有名称P(ここでは「ACES」)を、
図2に示すような、対応する属性(ここでは「組織))ごとに階層化された抽象化レベル群Lにおける、上位の基準抽象化レベルLr(ここでは「会社」)より下位の適正抽象化レベルLd(ここでは「東大発AIスタートアップ」)で抽象化した抽象名称Qに変換する。
【0024】
変換部20は、あらかじめ用意された、固有名称Pと抽象名称Qとの関係をリスト化した辞書を利用して変換してよい。
【0025】
変換部20は、言語モデルMを用いて固有名称Pを抽象名称Qに変換してよい。これにより、固有名称Pを抽象名称Qに適切に抽象化できる。変換部20は、辞書と言語モデルMを組み合わせて用いて固有名称Pを抽象名称Qに変換してよい。変換部20は、例えば、国名等の固定的な固有名称Pは辞書で変換してよい。変換部20は、例えば、国名等の固定的な固有名称Pは辞書で変換し、組織(会社名)等の流動的な固有名称Pは言語モデルMで変換するといったように、固有名称Pの属性(種類)によって変換のモデル(アルゴリズム)を変えてよい。
【0026】
変換部20は、属性に応じた変換プロンプトPTを言語モデルMへ入力し、言語モデルMからの出力を取得する。これにより、言語モデルMによって、組織(会社名)等の辞書に収録しにくい流動的な固有名称Pを抽象名称Qに適切に変換できる。
【0027】
変換部20は、電子文書Toが、共通する属性に分類される第1固有名称P1及び第2固有名称P2を有する場合、第1固有名称P1及び第2固有名称P2を、互いに異なる第1抽象名称Q1及び第2抽象名称Q2に変換してよい。具体的には、変換部20は、電子文書Toが、共通する属性に分類される第1固有名称P1及び第2固有名称P2を有する場合、第1固有名称P1及び第2固有名称P2を、互いに異なる第1抽象名称Q1及び第2抽象名称Q2になるまで、抽象化レベル群Lにおいて抽象化レベルを下位に下げていく。これにより、共通する属性に分類される第1固有名称P1及び第2固有名称P2を抽象化しても同じ抽象名称Qに変換されることなく、互いに区別できる第1抽象名称Q1及び第2抽象名称Q2に変換される。よって、情報量を確保しつつ秘匿化できる。
【0028】
具体的には、例えば、「ACESをABCバイオが買収」というオリジナルのテキスト(電子文書To)に基づいて抽出された、共通する属性(ここでは、組織)に分類される「ACES」(第1固有名称P1)及び「ABCバイオ」(第2固有名称P2)について、上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化したところ、「ACES」が「東大発ベンチャー」(抽象名称Q)に、「ABCバイオ」が「東大発ベンチャー」(抽象名称Q)に変換され得る場合、いずれも同じ抽象名称Qとなるので、情報の秘匿化がなされていても有用性は低くなる。そこで、「ACES」(第1固有名称P1)及び「ABCバイオ」(第2固有名称P2)のそれぞれについて、下位の抽象化レベルまで更に下げて変換する。例えば、変換部20は、「ACES」を「東大発AIベンチャー」(第1抽象名称Q1)に、「ABCバイオ」を「東大発バイオベンチャー」(第2抽象名称Q2)に変換する。これにより、共通する属性に分類される第1固有名称P1及び第2固有名称P2を抽象化しても同じ抽象名称Qに変換されることなく、互いに区別できる第1抽象名称Q1及び第2抽象名称Q2に変換される。よって、情報量を確保しつつ秘匿化できる。
なお、変換部20は、上述のような下位の抽象化レベルに下げて変換する処理を、異なる抽象名称Qとなるまで続けなくてもよい。例えば、同じ文章(電子文書To)中に抽象化したい単語(固有名称P)が100個あったときに、そのうちの一部となる10個が同じ抽象化された単語(抽象名称Q)となってもよい。また、例えば、オリジナルのテキスト(電子文書To)を変換した結果、同じ文章(変換文書Ta)中に同じ抽象化された単語(抽象名称Q)が複数含まれてもよい。
【0029】
なお、変換部20は、電子文書Toが、共通する属性に分類される第1固有名称P1及び第2固有名称P2を有する場合、第1固有名称P1及び第2固有名称P2を、それぞれ対応する属性ごとに階層化された抽象化レベル群Lにおける、上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化した抽象名称Qに変換する機能から、互いに異なる第1抽象名称Q1及び第2抽象名称Q2になるまで、抽象化レベル群Lにおいて抽象化レベルを下位に下げて、互いに異なる第1抽象名称Q1及び第2抽象名称Q2に変換する機能までの一連の機能を、言語モデルMにプロンプトPTにより入力して言語モデルMからの出力を一括で取得することで実行してよい。
【0030】
抽象化システム100は、言語モデルMにおける固有名称Pに関する知識の有無の判定を実行する判定部50を備えていてよい。また、抽象化システム100は、判定部50で知識がないと判定した場合、固有名称Pに関する補足情報aを検索部40で検索(例えば、辞書検索、インターネット検索等)により取得して言語モデルMへ入力する補足部60を備えていてよい。これにより、例えば、固有名称Pが新興の会社名である場合のように、言語モデルMが固有名称Pに関する知識を有していない(情報が更新されていない、学習が済んでいない)場合であっても、補足情報aを追加された言語モデルMにより、固有名称Pを抽象名称Qに適切に変換できる。
【0031】
判定部50は、言語モデルMを用いて判定を実行してよい。言い換えると、判定部50は、言語モデルM自体に、言語モデルMが固有名称Pに関する知識を有しているか否かを調べさせて、その結果を取得する。これにより、補足部60は、判定部50が言語モデルMから取得した結果にしたがって、自動的に、言語モデルMに補足情報aを入力する(又はしない)ことができる。なお、判定部50は、辞書を用いて判定を実行してもよい。すなわち、判定部50は、辞書を参照して、固有名称Pが辞書に載っているか載っていないかを調べ、辞書に載っていない場合、検索部40に検索を実行させることもできる。
【0032】
補足部60は、言語モデルMを用いて、補足情報aを要約してよい。言い換えると、言語モデルMは、補足情報aを要約してよい。すなわち、補足部60は、
図5に示すように、検索部40による検索によって取得した固有名称Pに関する検索情報Sを、言語モデルMによって要約させてから、その要約を補足情報aとして具体的には要約情報SSとしてプロンプトPTに追加して言語モデルMに入力してよい。これにより、補足情報aを言語モデルMに入力できるので、言語モデルMの知識になかった固有名称Pを、言語モデルMにより、補足情報aを要約しない場合に比べてより適切な表現で抽象化できる。なお、補足部60は、検索情報S(補足情報a)を要約せずにそのまま言語モデルMに入力してもよい。
【0033】
次に、抽象化システム100を利用した抽象化方法を、言語モデルMを利用して実行するケースについての例を説明する。
図3は、抽象化方法の例を示す説明図である。
図4は、言語モデルMが知識として有している固有名称Pを抽象化する説明図である。なお、
図4は、固有名称Pに関する情報の検索が不要なケースである。
図5は、言語モデルMが知識として有していない固有名称Pを抽象化する説明図である。なお、
図5は、固有名称Pに関する情報の検索が必要なケースである。
図6は、抽象化方法のフローを示す図である。以下、特に説明のない限り、動作又は機能の主体は抽象化システム100である。
【0034】
抽象化方法は、電子文書Toに含まれる固有名称Pを抽象名称Qに変換する方法を含む。抽象化方法は、電子文書Toを変換文書Taに変換する方法に含まれてよい。
【0035】
(1)
図3及び
図4に示すように、電子文書Toの例として、「ACESをABC通信が買収」というテキストを抽象化システム100に入力する。
【0036】
(2)次に、電子文書Toから秘匿する固有名称Pを抽出する(抽出ステップS1)。ここでは<ACES>と<ABC通信>が固有名称Pとして抽出される。
【0037】
(3)次に、固有名称Pを、対応する属性ごとに階層化された抽象化レベル群Lにおける、上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化した抽象名称Qに変換する(変換ステップS2)。
【0038】
(4)変換ステップにおいて、抽出した固有名称P(ここでは<ABC通信>)を言語モデルM(例えば、大言語モデルLLM)が知識として有している場合(
図6で「known」の場合)、
図4に示すように、「ABC通信という会社名を以下の例を参考に抽象化してください」といった内容の命令書C及び「トヨタ→大手自動車会社」、「Airbnb→新興IT企業」、「DeNA→メガベンチャー」といったような、固有名称Pを上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化して抽象名称Qを出力する際の適正抽象化レベルLdの参考となる例Eを記したプロンプトPT1を言語モデルMに入力する。なお、トヨタ、Airbnb及びDeNAは、登録商標である。
【0039】
(5)プロンプトPT1が入力されると、
図4に示すように、言語モデルMは、「大手通信企業」といった抽象名称Qを示すテキストを出力する。なお、
図4に示すように、「ABC通信→大手通信企業」といった固有名称Pと抽象名称Qの組み合わせを示すテキストを出力してもよい。すなわち、固有名称Pに対応して適正抽象化レベルLdで抽象化した抽象名称Qを出力する。
【0040】
(6)なお、抽出した固有名称Pを言語モデルMが知識として有しているか否かを、言語モデルMに判定させてよい。例えば、
図5に示すように、プロンプトPTに、固有名称Pを抽象化して抽象名称Qを出力する際の適正抽象化レベルLdの参考となる例Eとともに、「ACESという会社を知らない場合は分からないと回答してください」という内容を記したプロンプトPT2を入力する。
【0041】
(7)プロンプトPT2が入力されると、
図5に示すように、言語モデルMは、「ACESは私の知識には含まれていない・・・」といった内容を示すテキストを出力する。このように、言語モデルMに、抽象化の対象となる固有名称Pを言語モデルMが知識として有しているか否かを判定させることができる。なお、後の処理を行いやすくするため、プロンプトPT2において、言語モデルMに、抽出した固有名称Pについての知識がない場合は決められた文字列を返すように指示してよい。例えば、決められた文字列を「不明」として言語モデルMに出力させて、その出力をもって後述のように情報の検索を実行してよい。
【0042】
(8)
図3に戻り、変換ステップにおいて、抽出した固有名称P(ここでは<ACES>)を言語モデルM(例えば、大言語モデルLLM)が知識として有していない場合(
図6で「unknown」の場合)、
図5に示すように、検索部40によるその固有名称Pに関する情報(検索情報S)の検索(例えば、ローカルデータベースLD若しくはネットワークデータベースNDからの検索又はWEB検索)を実行してよい。
【0043】
(9)ここで、
図5に示すように、検索された固有名称Pに関する情報(検索情報S)は、適宜、要約されてよい。そして、要約された固有名称Pに関する情報(要約情報SS)を、命令書C及び例Eとともに、言語モデルMに入力する。これにより、言語モデルMは、検索で得られた固有名称Pに関する情報を新たな知識として参考にして、固有名称Pを抽象化する。よって、言語モデルMが固有名称Pを知識として有していなくても、固有名称Pを抽象化できる。
【0044】
(10)プロンプトPT3が入力されると、
図5に示すように、言語モデルMは、「東大AIベンチャー」といった抽象名称Qを示すテキストを出力する。すなわち、固有名称Pに対応して適正抽象化レベルLdで抽象化した抽象名称Qを出力する(出力ステップ)。
【0045】
(11)最後に、電子文書Toに基づいて、言語モデルMから出力された抽象名称Qで固有名称Pを置換した変換文書Taを出力する。
【0046】
このように、抽象化方法は、電子文書Toから秘匿する固有名称Pを抽出する抽出ステップS1と、固有名称Pを、対応する属性ごとに階層化された抽象化レベル群Lにおける、上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化した抽象名称Qに変換する変換ステップS2と、を含んでいる。よって、抽象化システム100を利用した抽象化方法を実行することで、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。
【0047】
(抽象化プログラム)
上述の抽象化方法における各ステップの動作又は機能は、抽象化プログラムによってコンピュータに実現させることができる。
【0048】
抽象化プログラムは、コンピュータに、電子文書Toから秘匿する固有名称Pを抽出する機能と、固有名称Pを、対応する属性ごとに階層化された抽象化レベル群Lにおける、上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化した抽象名称Qに変換する機能と、を実現させる。これにより、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。
【0049】
なお、本発明の技術的範囲は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。
【0050】
その他、本発明の趣旨から逸脱しない範囲で、上述の実施形態における要素を技術常識又は周知の事項に置き換えて実施することは可能である。また、本発明の趣旨から逸脱しない範囲で、上述した要素を適宜組み合わせて実施してもよい。
【0051】
以上説明したように、実施形態に係る抽象化システム100は、電子文書Toから秘匿する固有名称Pを抽出する抽出部10と、固有名称Pを、対応する属性ごとに階層化された抽象化レベル群Lにおける、上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化した抽象名称Qに変換する変換部20と、を備える。これにより、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。
【0052】
実施形態に係る抽象化方法は、電子文書Toから秘匿する固有名称Pを抽出する抽出ステップS1と、固有名称Pを、対応する属性ごとに階層化された抽象化レベル群Lにおける、上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化した抽象名称Qに変換する変換ステップS2と、を含んでいる。これにより、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。
【0053】
実施形態に係る抽象化プログラムは、コンピュータに、電子文書Toから秘匿する固有名称Pを抽出する機能と、固有名称Pを、対応する属性ごとに階層化された抽象化レベル群Lにおける、上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化した抽象名称Qに変換する機能と、を実現させる。これにより、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。
【符号の説明】
【0054】
100 抽象化システム
10 抽出部
20 変換部
30 出力部
40 検索部
50 判定部
60 補足部
C 命令書
E 例
L 抽象化レベル群
M 言語モデル
N ネットワーク
P 固有名称
P1 第1固有名称
P2 第2固有名称
PT,PT1,PT2,PT3 プロンプト
Q 抽象名称
Q1 第1抽象名称
Q2 第2抽象名称
S 検索情報
SS 要約情報
Ta 変換文書
To 電子文書
a 補足情報
S1 抽出ステップ
S2 変換ステップ
【要約】
【課題】テキストから得られる情報を確保しつつ秘密情報を秘匿化できる抽象化システムを提供する。
【解決手段】抽象化システム100は、電子文書Toから秘匿する固有名称Pを抽出する抽出部10と、固有名称Pを、対応する属性ごとに階層化された抽象化レベル群Lにおける、上位の基準抽象化レベルLrより下位の適正抽象化レベルLdで抽象化した抽象名称Qに変換する変換部20と、を備える。変換部20は、電子文書Toが、共通する属性に分類される第1固有名称P1及び第2固有名称P2を有する場合、第1固有名称P1及び第2固有名称P2を、互いに異なる第1抽象名称Q1及び第2抽象名称Q2に変換する。
【選択図】
図3