特許7730203 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＡＣＥＳの特許一覧

特許7730203抽象化システム、抽象化方法及び抽象化プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2025-08-19

(45)【発行日】2025-08-27

(54)【発明の名称】抽象化システム、抽象化方法及び抽象化プログラム

(51)【国際特許分類】

G06F 40/56 20200101AFI20250820BHJP

G06F 40/16 20200101ALI20250820BHJP

G06F 40/295 20200101ALI20250820BHJP

G06F 21/62 20130101ALI20250820BHJP

【ＦＩ】

G06F40/56

G06F40/16

G06F40/295

G06F21/62 354

【請求項の数】 6

(21)【出願番号】P 2024108705

(22)【出願日】2024-07-05

【審査請求日】2024-07-05

【新規性喪失の例外の表示】特許法第３０条第２項適用ＷＥＢ会議（会議の名称：［ＡＣＥＳ＠ｏｎｌｉｎｅ］百十四銀行石井様・池内様ＡＩ活用に関する初回議論）、２０２４年６月１２日１０：００～１１：００

【早期審査対象出願】

(73)【特許権者】

【識別番号】520008533

【氏名又は名称】株式会社ＡＣＥＳ

(74)【代理人】

【識別番号】100207561

【弁理士】

【氏名又は名称】柳元八大

(74)【代理人】

【識別番号】100208959

【弁理士】

【氏名又は名称】島田敏史

(72)【発明者】

【氏名】武市一成

(72)【発明者】

【氏名】久保静真

(72)【発明者】

【氏名】與島仙太郎

(72)【発明者】

【氏名】河村和紀

(72)【発明者】

【氏名】安田幸生

【審査官】成瀬博之

(56)【参考文献】

【文献】国際公開第２０１９／２２０７９１（ＷＯ，Ａ１）

【文献】特開２０２２－１４９０６４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／００－４０／５８

Ｇ０６Ｆ２１／６２

(57)【特許請求の範囲】

【請求項1】

電子文書から固有名称を抽出する抽出部と、
前記固有名称を、対応する属性ごとに複数の抽象化レベルで階層化された抽象化レベル群における、上位の抽象化レベルである基準抽象化レベルより下位の抽象化レベルである適正抽象化レベルで抽象化した抽象名称に変換する変換部と、
言語モデル自体に、前記言語モデルが前記固有名称に関する知識を有しているか否かを判定させるためのプロンプトを入力し、その出力を取得することにより、前記言語モデルにおける前記固有名称に関する知識の有無の判定を実行する判定部と、
知識がないと判定した場合、前記固有名称に関する補足情報を検索により取得して、前記補足情報を前記固有名称の参考となる知識として前記言語モデルへ入力する補足部と、
前記電子文書に基づいて前記固有名称を前記抽象名称に置き換えた変換文書を出力する出力部と、
を備える抽象化システムであって、
前記抽象化システムは、前記電子文書を前記抽出部に入力し、前記変換部により、前記固有名称を前記適正抽象化レベルに抽象化させる内容の命令書を記したプロンプトを前記言語モデルに入力し、前記出力部により、前記変換文書を出力する
抽象化システム。

【請求項2】

前記変換部は、前記電子文書が、共通する前記属性に分類される第１固有名称及び第２固有名称を有する場合、前記第１固有名称及び前記第２固有名称を、互いに異なる第１抽象名称及び第２抽象名称になるまで、前記抽象化レベル群において前記抽象化レベルを下位に下げていくことにより、互いに異なる前記第１抽象名称及び前記第２抽象名称に変換する
請求項１に記載の抽象化システム。

【請求項3】

前記変換部は、前記属性に応じて変わる前記適正抽象化レベルの参考となる例を記したプロンプトを前記言語モデルへ入力し、前記言語モデルから出力された前記変換文書を取得する
請求項１又は請求項２に記載の抽象化システム。

【請求項4】

前記補足情報を前記言語モデルによって要約した要約情報を、前記プロンプトに追加して前記言語モデルに入力し、前記変換文書を出力する
請求項１に記載の抽象化システム。

【請求項5】

電子文書から固有名称を抽出する抽出ステップと、
前記固有名称を、対応する属性ごとに複数の抽象化レベルで階層化された抽象化レベル群における、上位の抽象化レベルである基準抽象化レベルより下位の抽象化レベルである適正抽象化レベルで抽象化した抽象名称に変換する変換ステップと、
言語モデル自体に、前記言語モデルが前記固有名称に関する知識を有しているか否かを判定させるためのプロンプトを入力し、その出力を取得することにより、前記言語モデルにおける前記固有名称に関する知識の有無の判定を実行する判定ステップと、
知識がないと判定した場合、前記固有名称に関する補足情報を検索により取得して、前記補足情報を前記固有名称の参考となる知識として前記言語モデルへ入力する補足ステップと、
前記電子文書に基づいて前記固有名称を前記抽象名称に置き換えた変換文書を出力する出力ステップと、
を含む抽象化方法であって、
前記抽象化方法は、前記電子文書を前記抽出ステップにおいて入力し、前記変換ステップにおいて、前記固有名称を前記適正抽象化レベルに抽象化させる内容の命令書を記したプロンプトを前記言語モデルに入力し、前記出力ステップにおいて、前記変換文書を出力する
抽象化方法。

【請求項6】

コンピュータに、
電子文書から固有名称を抽出する機能と、
前記固有名称を、対応する属性ごとに複数の抽象化レベルで階層化された抽象化レベル群における、上位の抽象化レベルである基準抽象化レベルより下位の抽象化レベルである適正抽象化レベルで抽象化した抽象名称に変換する機能と、
言語モデル自体に、前記言語モデルが前記固有名称に関する知識を有しているか否かを判定させるためのプロンプトを入力し、その出力を取得することにより、前記言語モデルにおける前記固有名称に関する知識の有無の判定を実行する機能と、
知識がないと判定した場合、前記固有名称に関する補足情報を検索により取得して、前記補足情報を前記固有名称の参考となる知識として前記言語モデルへ入力する機能と、
前記電子文書に基づいて前記固有名称を前記抽象名称に置き換えた変換文書を出力する機能と、
を実現させる抽象化プログラムであって、
前記抽象化プログラムは、コンピュータに、前記電子文書を入力し、前記固有名称を前記適正抽象化レベルに抽象化させる内容の命令書を記したプロンプトを前記言語モデルに入力し、前記変換文書を出力する機能を実現させる
抽象化プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、抽象化システム、抽象化方法及び抽象化プログラムに関するものである。

【背景技術】

【0002】

従来、テキストに含まれる個人情報等の秘密情報を秘匿化するセキュリティマスキング技術があった（例えば、特許文献１）。

【0003】

従来のセキュリティマスキング技術は、オリジナルのテキストに含まれる秘密情報を単純に抽象化して秘匿化されたテキストとして出力するものであった。そのため、秘匿化されたテキストから得られる情報は、オリジナルのテキストから得られる情報と比べて少なくなり、有用性に欠けることがあった。

【先行技術文献】

【特許文献】

【0004】

【文献】特表２０１７－５０３２７８号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明は、テキストから得られる情報を確保しつつ秘密情報を秘匿化できる抽象化システム、抽象化方法及び抽象化プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

（１）本発明の一態様に係る抽象化システムは、電子文書から秘匿する固有名称を抽出する抽出部と、前記固有名称を、対応する属性ごとに階層化された抽象化レベル群における、上位の基準抽象化レベルより下位の適正抽象化レベルで抽象化した抽象名称に変換する変換部と、を備える。
（２）上記（１）において、前記変換部は、前記電子文書が、共通する前記属性に分類される第１固有名称及び第２固有名称を有する場合、前記第１固有名称及び前記第２固有名称を、互いに異なる第１抽象名称及び第２抽象名称に変換してよい。
（３）上記（１）又は（２）において、前記変換部は、言語モデルを用いて前記固有名称を前記抽象名称に変換してよい。
（４）上記（３）において、前記変換部は、前記属性に応じた変換プロンプトを前記言語モデルへ入力し、前記言語モデルからの出力を取得してよい。
（５）上記（４）において、前記言語モデルにおける前記固有名称に関する知識の有無の判定を実行する判定部と、知識がないと判定した場合、前記固有名称に関する補足情報を検索により取得して前記言語モデルへ入力する補足部と、を備えてよい。
（６）上記（５）において、前記判定部は、前記言語モデルを用いて、前記判定を実行してよい。
（７）上記（５）において、前記補足部は、前記言語モデルを用いて、前記補足情報を要約してよい。
（８）本発明の一態様に係る抽象化方法は、電子文書から秘匿する固有名称を抽出する抽出ステップと、前記固有名称を、対応する属性ごとに階層化された抽象化レベル群における、上位の基準抽象化レベルより下位の適正抽象化レベルで抽象化した抽象名称に変換する変換ステップと、を含む。
（９）本発明の一態様に係る抽象化プログラムは、コンピュータに、電子文書から秘匿する固有名称を抽出する機能と、前記固有名称を、対応する属性ごとに階層化された抽象化レベル群における、上位の基準抽象化レベルより下位の適正抽象化レベルで抽象化した抽象名称に変換する機能と、を実現させる。

【発明の効果】

【0007】

本発明によれば、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる抽象化システム、抽象化方法及び抽象化プログラムを提供できる。

【図面の簡単な説明】

【0008】

【図1】抽象化システムの概要図である。

【図2】抽象化レベル群を説明する図である。

【図3】抽象化方法の例を示す説明図である。

【図4】言語モデルＭが知識を有している固有名称Ｐを抽象化する説明図である。

【図5】言語モデルＭが知識を有していない固有名称Ｐを抽象化する説明図である。

【図6】抽象化方法のフローを示す図である。

【発明を実施するための形態】

【0009】

（実施形態）
以下、図面を参照して本発明の実施形態について詳細に説明する。
図１は、抽象化システム１００の概要図である。図２は抽象化レベル群Ｌを説明する図である。図３は、抽象化方法の例を示す説明図である。なお、以下、共通する機能を有する部分には、同じ符号又は記号が付される場合がある。なお、以下、各部が担う動作又は機能は、抽象化プログラムによってコンピュータに実現させることができる。以下、システムを装置と読み替えてもよい。

【0010】

実施形態に係る抽象化システム１００は、例えば、金融機関の社員同士で営業活動で得られた顧客情報を共有する際に、秘密情報となる顧客情報を秘匿化（マスキング）する加工（セキュリティマスキング）を施すのに好適である。また、抽象化システム１００は、例えば、コンタクトセンターのログをサービス向上のために社内で共有するために、ログを秘匿化する加工を施すのに好適である。

【0011】

図１又は図３に示すように、実施形態に係る抽象化システム１００は、電子文書Ｔｏから秘匿する固有名称Ｐを抽出（検出）する抽出部１０と、固有名称Ｐを抽象名称Ｑに変換する変換部２０と、を備えている。抽象化システム１００は、電子文書Ｔｏに基づいて固有名称Ｐを抽象名称Ｑに置き換えた変換文書Ｔａを出力する出力部３０と、を備えている。抽象化システム１００は、適宜、検索部４０、判定部５０及び補足部６０を備えている。抽象化システム１００は、抽象化システム１００で読み込み（呼び出し）可能なローカル上にある言語モデルＭを備えていてよい。抽象化システム１００は、抽象化システム１００で読み込み（呼び出し）可能なネットワークＮ上にある言語モデルＭを備えていてよい。抽象化システム１００は、抽象化システム１００で読み込み（呼び出し）可能なローカル上にある辞書、抽象化レベル群Ｌ等の情報を記憶するローカルデータベースＬＤを備えていてよい。抽象化システム１００は、抽象化システム１００で読み込み（呼び出し）可能なネットワークＮ上にある辞書、抽象化レベル群Ｌ等の情報を記憶するネットワークデータベースＮＤを備えていてよい。

【0012】

抽象化システム１００は、ＣＰＵ、メモリ、外部ネットワークとのデータ通信を制御するネットワークインターフェース、各機能部を相互に接続するバスを備えたコンピュータシステムであってよい。メモリは、ＣＰＵと協働して各機能部又は各部を制御するプログラムを記憶している。メモリは、各機能部又は各部の制御に必要なデータを格納したマスタを記憶している。

【0013】

電子文書Ｔｏは、電子化されたテキスト（記述、文書、文章、文節又は単語）を含んでいる。テキストは、テーブルデータの一部であってよく、テキストデータの一部であってもよい。電子文書Ｔｏは、例えば、テキスト形式、ｃｓｖ形式等の任意のファイル形式で構成されており、コンピュータで利用可能になっている。

【0014】

固有名称Ｐは、秘匿化（マスキング）対象となる秘密情報である固有名詞を含む表現である。固有名称Ｐは、例えば、会社名、氏名、国籍、宗教、政治的属性、住所若しくは位置（国、市、水域、山）、ＰＨＩ（薬名、身体的損傷、治療、検査名）、商品、サービス等の属性（種類、カテゴリ）に分類されるものである。

【0015】

抽象名称Ｑは、固有名称Ｐから細部又は具体性を取り去り、本質的に重要な要素又は着目している側面のみを取り出して、一つの概念として定義された表現である。また、抽象名称Ｑは、異なる複数の抽象名称Ｑに共通する性質又は要素を見出し、共通点を組み合わせて汎用的な概念として構成されたものであってよい。抽象名称Ｑは、例えば、「株式会社ＡＣＥＳ」という固有名称Ｐに対して「会社１」である。

【0016】

抽象化レベル群Ｌは、図２に示すように、下位の抽象化レベル（下位概念）から上位の抽象化レベル（上位概念）まで複数の抽象化レベルが階層的に（段階的に）集まったものである。抽象化レベル群Ｌを構成する抽象化レベルの数（階層の数）は３以上であってよい。下位の抽象化レベルは、比較的抽象化の度合いが低い（具体性の高い）属性を表すものである。上位の抽象化レベルは、比較的抽象化の度合いが高い（具体性の低い）属性を表すものである。抽象化レベルの数が３以上の場合、中位の抽象化レベル（中位概念）は、下位の抽象化レベルと上位の抽象化レベルの間にある。抽象化レベル群Ｌは、あらかじめ、ＷｏｒｄＮｅｔ（登録商標）のような概念辞書を含む辞書として抽象化システム１００のメモリ、ローカルデータベースＬＤ又はネットワークデータベースＮＤに記憶されていてよく、ＷＥＢ上の情報から言語モデルＭを利用して生成されたものであってもよい。なお、言語モデルＭから生成されるものは必ずしも事前に登録（ネットワークＮ上に記憶）される必要はない。

【0017】

言語モデルＭは、大規模言語モデル（ＬＬＭ）、学習済みモデル等の深層ニューラルネットワークを含む機械学習モデルであってよい。言語モデルＭには、構文解析、ＴｅｘｔＲａｎｋ等の自然言語処理手法を用いてもよい。言語モデルＭを用いることで、完全な辞書をあらかじめ用意していなくても、固有名称Ｐを抽象化でき、オリジナルの電子文書Ｔｏから固有名称Ｐを抽象名称Ｑに置き換えた変換文書Ｔａを生成できる。

【0018】

例えば、抽象化レベル群Ｌを構成する抽象化レベルの数が３の場合、固有名称Ｐが「株式会社ＡＣＥＳ」に対応する下位の抽象化レベルは「東大発ＡＩスタートアップ」であり、中位の抽象化レベルは「スタートアップ」であり、上位の抽象化レベルは「会社１」である。このように、固有名称Ｐを階層的に抽象化することにより、情報量を確保しつつ秘匿化できる。

【0019】

抽出部１０は、電子文書Ｔｏから秘匿する固有名称Ｐを抽出する機能を有している。抽出部１０は、入力となる自然文から組織、地名、製品名等の固有名詞に日時、数量等を加えた固有表現を、機械的に取り出す固有表現抽出アルゴリズムを有している。抽出部１０は、固有表現抽出／ＮＥＲと呼ばれる技術により秘匿対象の単語となる固有名称Ｐの位置及び属性を検出してよい。抽出部１０は、例えば、固有表現抽出アルゴリズムを有するオープンソースソフトウェア（ＯＳＳ）を利用したものであってよい。抽出部１０は、例えば、「ＡＣＥＳをＡＢＣ通信が買収」という自然文が入力されると、不要な助詞等を取り除き、「ＡＣＥＳ」及び「ＡＢＣ通信」を「組織」という属性として抽出する。なお、この抽出機能を言語モデルＭで担ってよい。すなわち、例えば、抽出部１０は、オリジナルの自然文をプロンプトＰＴとともに大規模言語モデルである言語モデルＭに入力し、言語モデルＭからの出力を取得してもよい。

【0020】

出力部３０は、電子文書Ｔｏに基づいて固有名称Ｐを抽象名称Ｑに置き換えた変換文書Ｔａを出力する機能を有している。出力部３０は、例えば、図３に示すように、「ＡＣＥＳをＡＢＣ通信が買収」という自然文である電子文書Ｔｏに基づいて、「ＡＣＥＳ」を「東大発ＡＩスタートアップ」に、「ＡＢＣ通信」を「通信企業」に置き換えて、「東大発ＡＩスタートアップを通信企業が買収」といった変換文書Ｔａを出力する。このように、固有名称Ｐが抽象化された変換文書Ｔａが出力されるので、例えば、「＜会社１＞を＜会社２＞が買収」といったように上位に抽象化された場合と比べて、情報量が多く確保されつつ固有名称Ｐを秘匿化できる。

【0021】

変換部２０は、固有名称Ｐを抽象化した抽象名称Ｑに変換する機能を有している。

【0022】

ここで、変換部２０は、固有名称Ｐを、対応する属性ごとに階層化された抽象化レベル群Ｌにおける、上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化した抽象名称Ｑに変換する。言い換えると、変換部２０は、固有名称Ｐを中位の概念の抽象化レベル（中位概念）で変換する。これにより、固有名称Ｐを基準抽象化レベルＬｒ（上位概念）で抽象化する場合では、その変換文書Ｔａから得られる情報が少なくなるのに対して、固有名称Ｐを適正抽象化レベルＬｄ（中位概念）で抽象化する場合では、その変換文書Ｔａから得られる情報が多くなる。よって、抽象化システム１００によれば、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。

【0023】

具体的には、例えば、変換部２０は、固有名称Ｐ（ここでは「ＡＣＥＳ」）を、図２に示すような、対応する属性（ここでは「組織））ごとに階層化された抽象化レベル群Ｌにおける、上位の基準抽象化レベルＬｒ（ここでは「会社」）より下位の適正抽象化レベルＬｄ（ここでは「東大発ＡＩスタートアップ」）で抽象化した抽象名称Ｑに変換する。

【0024】

変換部２０は、あらかじめ用意された、固有名称Ｐと抽象名称Ｑとの関係をリスト化した辞書を利用して変換してよい。

【0025】

変換部２０は、言語モデルＭを用いて固有名称Ｐを抽象名称Ｑに変換してよい。これにより、固有名称Ｐを抽象名称Ｑに適切に抽象化できる。変換部２０は、辞書と言語モデルＭを組み合わせて用いて固有名称Ｐを抽象名称Ｑに変換してよい。変換部２０は、例えば、国名等の固定的な固有名称Ｐは辞書で変換してよい。変換部２０は、例えば、国名等の固定的な固有名称Ｐは辞書で変換し、組織（会社名）等の流動的な固有名称Ｐは言語モデルＭで変換するといったように、固有名称Ｐの属性（種類）によって変換のモデル（アルゴリズム）を変えてよい。

【0026】

変換部２０は、属性に応じた変換プロンプトＰＴを言語モデルＭへ入力し、言語モデルＭからの出力を取得する。これにより、言語モデルＭによって、組織（会社名）等の辞書に収録しにくい流動的な固有名称Ｐを抽象名称Ｑに適切に変換できる。

【0027】

変換部２０は、電子文書Ｔｏが、共通する属性に分類される第１固有名称Ｐ１及び第２固有名称Ｐ２を有する場合、第１固有名称Ｐ１及び第２固有名称Ｐ２を、互いに異なる第１抽象名称Ｑ１及び第２抽象名称Ｑ２に変換してよい。具体的には、変換部２０は、電子文書Ｔｏが、共通する属性に分類される第１固有名称Ｐ１及び第２固有名称Ｐ２を有する場合、第１固有名称Ｐ１及び第２固有名称Ｐ２を、互いに異なる第１抽象名称Ｑ１及び第２抽象名称Ｑ２になるまで、抽象化レベル群Ｌにおいて抽象化レベルを下位に下げていく。これにより、共通する属性に分類される第１固有名称Ｐ１及び第２固有名称Ｐ２を抽象化しても同じ抽象名称Ｑに変換されることなく、互いに区別できる第１抽象名称Ｑ１及び第２抽象名称Ｑ２に変換される。よって、情報量を確保しつつ秘匿化できる。

【0028】

具体的には、例えば、「ＡＣＥＳをＡＢＣバイオが買収」というオリジナルのテキスト（電子文書Ｔｏ）に基づいて抽出された、共通する属性（ここでは、組織）に分類される「ＡＣＥＳ」（第１固有名称Ｐ１）及び「ＡＢＣバイオ」（第２固有名称Ｐ２）について、上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化したところ、「ＡＣＥＳ」が「東大発ベンチャー」（抽象名称Ｑ）に、「ＡＢＣバイオ」が「東大発ベンチャー」（抽象名称Ｑ）に変換され得る場合、いずれも同じ抽象名称Ｑとなるので、情報の秘匿化がなされていても有用性は低くなる。そこで、「ＡＣＥＳ」（第１固有名称Ｐ１）及び「ＡＢＣバイオ」（第２固有名称Ｐ２）のそれぞれについて、下位の抽象化レベルまで更に下げて変換する。例えば、変換部２０は、「ＡＣＥＳ」を「東大発ＡＩベンチャー」（第１抽象名称Ｑ１）に、「ＡＢＣバイオ」を「東大発バイオベンチャー」（第２抽象名称Ｑ２）に変換する。これにより、共通する属性に分類される第１固有名称Ｐ１及び第２固有名称Ｐ２を抽象化しても同じ抽象名称Ｑに変換されることなく、互いに区別できる第１抽象名称Ｑ１及び第２抽象名称Ｑ２に変換される。よって、情報量を確保しつつ秘匿化できる。
なお、変換部２０は、上述のような下位の抽象化レベルに下げて変換する処理を、異なる抽象名称Ｑとなるまで続けなくてもよい。例えば、同じ文章（電子文書Ｔｏ）中に抽象化したい単語（固有名称Ｐ）が１００個あったときに、そのうちの一部となる１０個が同じ抽象化された単語（抽象名称Ｑ）となってもよい。また、例えば、オリジナルのテキスト（電子文書Ｔｏ）を変換した結果、同じ文章（変換文書Ｔａ）中に同じ抽象化された単語（抽象名称Ｑ）が複数含まれてもよい。

【0029】

なお、変換部２０は、電子文書Ｔｏが、共通する属性に分類される第１固有名称Ｐ１及び第２固有名称Ｐ２を有する場合、第１固有名称Ｐ１及び第２固有名称Ｐ２を、それぞれ対応する属性ごとに階層化された抽象化レベル群Ｌにおける、上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化した抽象名称Ｑに変換する機能から、互いに異なる第１抽象名称Ｑ１及び第２抽象名称Ｑ２になるまで、抽象化レベル群Ｌにおいて抽象化レベルを下位に下げて、互いに異なる第１抽象名称Ｑ１及び第２抽象名称Ｑ２に変換する機能までの一連の機能を、言語モデルＭにプロンプトＰＴにより入力して言語モデルＭからの出力を一括で取得することで実行してよい。

【0030】

抽象化システム１００は、言語モデルＭにおける固有名称Ｐに関する知識の有無の判定を実行する判定部５０を備えていてよい。また、抽象化システム１００は、判定部５０で知識がないと判定した場合、固有名称Ｐに関する補足情報ａを検索部４０で検索（例えば、辞書検索、インターネット検索等）により取得して言語モデルＭへ入力する補足部６０を備えていてよい。これにより、例えば、固有名称Ｐが新興の会社名である場合のように、言語モデルＭが固有名称Ｐに関する知識を有していない（情報が更新されていない、学習が済んでいない）場合であっても、補足情報ａを追加された言語モデルＭにより、固有名称Ｐを抽象名称Ｑに適切に変換できる。

【0031】

判定部５０は、言語モデルＭを用いて判定を実行してよい。言い換えると、判定部５０は、言語モデルＭ自体に、言語モデルＭが固有名称Ｐに関する知識を有しているか否かを調べさせて、その結果を取得する。これにより、補足部６０は、判定部５０が言語モデルＭから取得した結果にしたがって、自動的に、言語モデルＭに補足情報ａを入力する（又はしない）ことができる。なお、判定部５０は、辞書を用いて判定を実行してもよい。すなわち、判定部５０は、辞書を参照して、固有名称Ｐが辞書に載っているか載っていないかを調べ、辞書に載っていない場合、検索部４０に検索を実行させることもできる。

【0032】

補足部６０は、言語モデルＭを用いて、補足情報ａを要約してよい。言い換えると、言語モデルＭは、補足情報ａを要約してよい。すなわち、補足部６０は、図５に示すように、検索部４０による検索によって取得した固有名称Ｐに関する検索情報Ｓを、言語モデルＭによって要約させてから、その要約を補足情報ａとして具体的には要約情報ＳＳとしてプロンプトＰＴに追加して言語モデルＭに入力してよい。これにより、補足情報ａを言語モデルＭに入力できるので、言語モデルＭの知識になかった固有名称Ｐを、言語モデルＭにより、補足情報ａを要約しない場合に比べてより適切な表現で抽象化できる。なお、補足部６０は、検索情報Ｓ（補足情報ａ）を要約せずにそのまま言語モデルＭに入力してもよい。

【0033】

次に、抽象化システム１００を利用した抽象化方法を、言語モデルＭを利用して実行するケースについての例を説明する。図３は、抽象化方法の例を示す説明図である。図４は、言語モデルＭが知識として有している固有名称Ｐを抽象化する説明図である。なお、図４は、固有名称Ｐに関する情報の検索が不要なケースである。図５は、言語モデルＭが知識として有していない固有名称Ｐを抽象化する説明図である。なお、図５は、固有名称Ｐに関する情報の検索が必要なケースである。図６は、抽象化方法のフローを示す図である。以下、特に説明のない限り、動作又は機能の主体は抽象化システム１００である。

【0034】

抽象化方法は、電子文書Ｔｏに含まれる固有名称Ｐを抽象名称Ｑに変換する方法を含む。抽象化方法は、電子文書Ｔｏを変換文書Ｔａに変換する方法に含まれてよい。

【0035】

（１）図３及び図４に示すように、電子文書Ｔｏの例として、「ＡＣＥＳをＡＢＣ通信が買収」というテキストを抽象化システム１００に入力する。

【0036】

（２）次に、電子文書Ｔｏから秘匿する固有名称Ｐを抽出する（抽出ステップＳ１）。ここでは＜ＡＣＥＳ＞と＜ＡＢＣ通信＞が固有名称Ｐとして抽出される。

【0037】

（３）次に、固有名称Ｐを、対応する属性ごとに階層化された抽象化レベル群Ｌにおける、上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化した抽象名称Ｑに変換する（変換ステップＳ２）。

【0038】

（４）変換ステップにおいて、抽出した固有名称Ｐ（ここでは＜ＡＢＣ通信＞）を言語モデルＭ（例えば、大言語モデルＬＬＭ）が知識として有している場合（図６で「ｋｎｏｗｎ」の場合）、図４に示すように、「ＡＢＣ通信という会社名を以下の例を参考に抽象化してください」といった内容の命令書Ｃ及び「トヨタ→大手自動車会社」、「Ａｉｒｂｎｂ→新興ＩＴ企業」、「ＤｅＮＡ→メガベンチャー」といったような、固有名称Ｐを上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化して抽象名称Ｑを出力する際の適正抽象化レベルＬｄの参考となる例Ｅを記したプロンプトＰＴ１を言語モデルＭに入力する。なお、トヨタ、Ａｉｒｂｎｂ及びＤｅＮＡは、登録商標である。

【0039】

（５）プロンプトＰＴ１が入力されると、図４に示すように、言語モデルＭは、「大手通信企業」といった抽象名称Ｑを示すテキストを出力する。なお、図４に示すように、「ＡＢＣ通信→大手通信企業」といった固有名称Ｐと抽象名称Ｑの組み合わせを示すテキストを出力してもよい。すなわち、固有名称Ｐに対応して適正抽象化レベルＬｄで抽象化した抽象名称Ｑを出力する。

【0040】

（６）なお、抽出した固有名称Ｐを言語モデルＭが知識として有しているか否かを、言語モデルＭに判定させてよい。例えば、図５に示すように、プロンプトＰＴに、固有名称Ｐを抽象化して抽象名称Ｑを出力する際の適正抽象化レベルＬｄの参考となる例Ｅとともに、「ＡＣＥＳという会社を知らない場合は分からないと回答してください」という内容を記したプロンプトＰＴ２を入力する。

【0041】

（７）プロンプトＰＴ２が入力されると、図５に示すように、言語モデルＭは、「ＡＣＥＳは私の知識には含まれていない・・・」といった内容を示すテキストを出力する。このように、言語モデルＭに、抽象化の対象となる固有名称Ｐを言語モデルＭが知識として有しているか否かを判定させることができる。なお、後の処理を行いやすくするため、プロンプトＰＴ２において、言語モデルＭに、抽出した固有名称Ｐについての知識がない場合は決められた文字列を返すように指示してよい。例えば、決められた文字列を「不明」として言語モデルＭに出力させて、その出力をもって後述のように情報の検索を実行してよい。

【0042】

（８）図３に戻り、変換ステップにおいて、抽出した固有名称Ｐ（ここでは＜ＡＣＥＳ＞）を言語モデルＭ（例えば、大言語モデルＬＬＭ）が知識として有していない場合（図６で「ｕｎｋｎｏｗｎ」の場合）、図５に示すように、検索部４０によるその固有名称Ｐに関する情報（検索情報Ｓ）の検索（例えば、ローカルデータベースＬＤ若しくはネットワークデータベースＮＤからの検索又はＷＥＢ検索）を実行してよい。

【0043】

（９）ここで、図５に示すように、検索された固有名称Ｐに関する情報（検索情報Ｓ）は、適宜、要約されてよい。そして、要約された固有名称Ｐに関する情報（要約情報ＳＳ）を、命令書Ｃ及び例Ｅとともに、言語モデルＭに入力する。これにより、言語モデルＭは、検索で得られた固有名称Ｐに関する情報を新たな知識として参考にして、固有名称Ｐを抽象化する。よって、言語モデルＭが固有名称Ｐを知識として有していなくても、固有名称Ｐを抽象化できる。

【0044】

（１０）プロンプトＰＴ３が入力されると、図５に示すように、言語モデルＭは、「東大ＡＩベンチャー」といった抽象名称Ｑを示すテキストを出力する。すなわち、固有名称Ｐに対応して適正抽象化レベルＬｄで抽象化した抽象名称Ｑを出力する（出力ステップ）。

【0045】

（１１）最後に、電子文書Ｔｏに基づいて、言語モデルＭから出力された抽象名称Ｑで固有名称Ｐを置換した変換文書Ｔａを出力する。

【0046】

このように、抽象化方法は、電子文書Ｔｏから秘匿する固有名称Ｐを抽出する抽出ステップＳ１と、固有名称Ｐを、対応する属性ごとに階層化された抽象化レベル群Ｌにおける、上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化した抽象名称Ｑに変換する変換ステップＳ２と、を含んでいる。よって、抽象化システム１００を利用した抽象化方法を実行することで、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。

【0047】

（抽象化プログラム）
上述の抽象化方法における各ステップの動作又は機能は、抽象化プログラムによってコンピュータに実現させることができる。

【0048】

抽象化プログラムは、コンピュータに、電子文書Ｔｏから秘匿する固有名称Ｐを抽出する機能と、固有名称Ｐを、対応する属性ごとに階層化された抽象化レベル群Ｌにおける、上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化した抽象名称Ｑに変換する機能と、を実現させる。これにより、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。

【0049】

なお、本発明の技術的範囲は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。

【0050】

その他、本発明の趣旨から逸脱しない範囲で、上述の実施形態における要素を技術常識又は周知の事項に置き換えて実施することは可能である。また、本発明の趣旨から逸脱しない範囲で、上述した要素を適宜組み合わせて実施してもよい。

【0051】

以上説明したように、実施形態に係る抽象化システム１００は、電子文書Ｔｏから秘匿する固有名称Ｐを抽出する抽出部１０と、固有名称Ｐを、対応する属性ごとに階層化された抽象化レベル群Ｌにおける、上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化した抽象名称Ｑに変換する変換部２０と、を備える。これにより、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。

【0052】

実施形態に係る抽象化方法は、電子文書Ｔｏから秘匿する固有名称Ｐを抽出する抽出ステップＳ１と、固有名称Ｐを、対応する属性ごとに階層化された抽象化レベル群Ｌにおける、上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化した抽象名称Ｑに変換する変換ステップＳ２と、を含んでいる。これにより、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。

【0053】

実施形態に係る抽象化プログラムは、コンピュータに、電子文書Ｔｏから秘匿する固有名称Ｐを抽出する機能と、固有名称Ｐを、対応する属性ごとに階層化された抽象化レベル群Ｌにおける、上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化した抽象名称Ｑに変換する機能と、を実現させる。これにより、テキストから得られる情報量を確保しつつ秘密情報を秘匿化できる。

【符号の説明】

【0054】

１００抽象化システム
１０抽出部
２０変換部
３０出力部
４０検索部
５０判定部
６０補足部
Ｃ命令書
Ｅ例
Ｌ抽象化レベル群
Ｍ言語モデル
Ｎネットワーク
Ｐ固有名称
Ｐ１第１固有名称
Ｐ２第２固有名称
ＰＴ，ＰＴ１，ＰＴ２，ＰＴ３プロンプト
Ｑ抽象名称
Ｑ１第１抽象名称
Ｑ２第２抽象名称
Ｓ検索情報
ＳＳ要約情報
Ｔａ変換文書
Ｔｏ電子文書
ａ補足情報
Ｓ１抽出ステップ
Ｓ２変換ステップ

【要約】

【課題】テキストから得られる情報を確保しつつ秘密情報を秘匿化できる抽象化システムを提供する。
【解決手段】抽象化システム１００は、電子文書Ｔｏから秘匿する固有名称Ｐを抽出する抽出部１０と、固有名称Ｐを、対応する属性ごとに階層化された抽象化レベル群Ｌにおける、上位の基準抽象化レベルＬｒより下位の適正抽象化レベルＬｄで抽象化した抽象名称Ｑに変換する変換部２０と、を備える。変換部２０は、電子文書Ｔｏが、共通する属性に分類される第１固有名称Ｐ１及び第２固有名称Ｐ２を有する場合、第１固有名称Ｐ１及び第２固有名称Ｐ２を、互いに異なる第１抽象名称Ｑ１及び第２抽象名称Ｑ２に変換する。
【選択図】図３

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版