IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧 ▶ ボッシュ グローバル ソフトウェア テクノロジーズ プライヴェット リミテッドの特許一覧

特開2024-120890大規模基盤モデルの悪用を阻止するためのシステム及びその方法
<>
  • 特開-大規模基盤モデルの悪用を阻止するためのシステム及びその方法 図1
  • 特開-大規模基盤モデルの悪用を阻止するためのシステム及びその方法 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024120890
(43)【公開日】2024-09-05
(54)【発明の名称】大規模基盤モデルの悪用を阻止するためのシステム及びその方法
(51)【国際特許分類】
   G06F 21/55 20130101AFI20240829BHJP
   G10L 15/22 20060101ALI20240829BHJP
   G10L 15/16 20060101ALI20240829BHJP
   G06N 20/00 20190101ALI20240829BHJP
   G06F 40/56 20200101ALI20240829BHJP
   G06F 40/44 20200101ALI20240829BHJP
【FI】
G06F21/55
G10L15/22 300Z
G10L15/16
G06N20/00
G06F40/56
G06F40/44
【審査請求】未請求
【請求項の数】17
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024025935
(22)【出願日】2024-02-22
(31)【優先権主張番号】202341012707
(32)【優先日】2023-02-24
(33)【優先権主張国・地域又は機関】IN
(31)【優先権主張番号】202341037509
(32)【優先日】2023-05-31
(33)【優先権主張国・地域又は機関】IN
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(71)【出願人】
【識別番号】524071861
【氏名又は名称】ボッシュ グローバル ソフトウェア テクノロジーズ プライヴェット リミテッド
【氏名又は名称原語表記】Bosch Global Software Technologies Private Limited
【住所又は居所原語表記】123, Industrial Layout, Hosur Road, Koramangala, Bangalore - 560 095 Karnataka, India
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】マノジュクマール ソマブハイ パルマール
(72)【発明者】
【氏名】ユヴァライ ゴヴィンダラジュール
(57)【要約】
【課題】本開示は、大規模言語基盤モデルの悪用を阻止するためのシステム(100)及びその方法を提案する。
【解決手段】本システム(100)は、モデレーションモジュール(101)と、第2の大規模基盤モデルと、少なくとも1つのメモリモジュール(103)と、を備える。モデレーションモジュール(101)は、入力プロンプトを受信し、モデレーション出力を生成するように構成されている。第2の大規模基盤モデルは、応答を取得するために入力及びモデレーション出力を一緒に処理するように構成されている。応答は、悪用を阻止するために、大規模基盤モデルに関連付けられた入力フィルタ(1021)又は出力フィルタ(1022)のうちの少なくとも1つに通信される。
【選択図】図1
【特許請求の範囲】
【請求項1】
大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)であって、
前記LLMは、入力を処理し、出力を供給するように構成されており、
前記LLMは、入力フィルタ(1021)及び少なくとも1つの出力フィルタ(1022)をさらに備えるLLMモジュール(102)内に配備されている、システム(100)において、
前記システム(100)は、
前記入力を受信し、少なくとも1つのモデレーション出力を生成するように構成されたモデレーションモジュール(101)と、
前記入力及び前記モデレーション出力を受信し、応答を取得するために前記入力及び前記モデレーション出力を処理し、前記LLMの悪用を阻止するために前記入力フィルタ(1021)、前記出力フィルタ(1022)のうちの少なくとも1つに前記応答を通信するように構成された第2の大規模言語モデル(LLM’)と、
前記LLM’の処理された前記応答を格納するように構成されたメモリモジュール(103)と、
を特徴とする、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項2】
前記システム(100)は、前記LLMモジュール(102)に対して並列に配備されている、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項3】
前記モデレーションモジュール(101)は、複数のモデレーションモデルを含み、
それぞれのモデレーションモデルは、前記入力における少なくとも1つの制限された属性を識別するように構成されている、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項4】
前記モデレーション出力は、少なくとも1つの制限された属性の識別情報を含む、
請求項3に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項5】
前記モデレーションモジュール(101)は、前記入力をテキストに変換し、前記モデレーション出力として質問プロンプトを生成するように構成されている、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項6】
前記LLM’の処理された前記応答は、推論応答及び分類応答をさらに含む、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項7】
前記入力は、前記LLM’から受信した通信に基づいて、前記入力フィルタ(1021)によってブロックされる、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項8】
前記出力フィルタ(1022)は、前記LLMによって生成された前記出力を、前記LLM’から受信した通信に基づいて修正又はブロックする、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項9】
前記入力フィルタ(1021)及び前記出力フィルタ(1022)は、前記メモリモジュール(103)に格納されている応答に基づいて更新される、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項10】
大規模基盤モデル(LLM)の悪用を阻止するための方法(200)であって、
前記LLMは、入力を処理し、出力を供給するように構成されており、
前記LLMは、入力フィルタ(1021)及び少なくとも1つの出力フィルタ(1022)をさらに備えるLLMモジュール(102)内に配備されている、方法において、
前記方法は、
モデレーションモジュール(101)によって少なくとも1つのモデレーション出力を生成すること(201)と、
前記入力及び前記モデレーション出力を第2の大規模基盤モデル(LLM’)に送信すること(202)と、
応答を取得するために前記入力及び前記モデレーション出力を前記LLM’によって処理すること(203)と、
前記LLMの悪用を阻止するために前記入力フィルタ(1021)、前記出力フィルタ(1022)のうちの少なくとも1つに前記応答を通信すること(204)と、
処理された前記応答をメモリモジュール(103)に格納すること(205)と、
を含む、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項11】
前記モデレーションモジュール(101)は、複数のモデレーションモデルを含み、
それぞれのモデレーションモデルは、前記入力における少なくとも1つの制限された属性を識別するように構成されている、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項12】
前記モデレーション出力は、少なくとも1つの制限された属性の識別情報を含む、
請求項11に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項13】
前記モデレーションモジュール(101)は、前記入力をテキストに変換し、前記モデレーション出力として質問プロンプトを生成するように構成されている、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項14】
前記LLM’の処理された前記応答は、推論応答及び分類応答をさらに含む、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項15】
前記応答を通信することは、前記入力フィルタ(1021)によって前記入力プロンプトをブロックすることをさらに含む、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項16】
前記応答を通信することは、前記LLMによって生成された前記出力を、前記出力フィルタ(1022)によってブロック又は修正することをさらに含む、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項17】
前記入力フィルタ(1021)及び前記出力フィルタ(1022)は、前記メモリモジュール(103)に格納されている応答に基づいて更新される、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の信用性、信頼性及び安全性の分野に関する。特に、本発明は、大規模基盤モデルの悪用を阻止するためのシステム及びその方法を提案する。
【背景技術】
【0002】
発明の背景
データサイエンスの登場に伴って、データ処理及び意思決定システムは、人工知能モジュールを使用して実装される。人工知能モジュールは、機械学習、ニューラルネットワーク、深層学習等のような種々異なる技術を使用する。ほとんどのAIに基づくシステムは、大量のデータを受信し、このデータを処理してAIモデルを訓練する。訓練済みのAIモデルは、ユーザによって要求されたユースケースに基づいて出力を生成する。典型的には、AIシステムは、コンピュータビジョン、音声認識、自然言語処理、音声認識、ヘルスケア、自動運転、製造、ロボティクス等の分野で使用されており、ここで、AIシステムは、訓練を介して獲得した特定の規則/知能に基づいて、必要とされる出力を生成するためにデータを処理する。
【0003】
基盤モデルは、膨大な量のラベルなしデータに基づいて訓練された大規模人工知能モデルであり、その結果として、多種多様なタスクを実施するように適合可能なモデルが得られる。基盤モデルの最もよく知られた例は、大規模言語モデル(Large language model:LLM)である。LLMは、ディープラーニング及びニューラルネットワークを使用する自然言語処理のために使用されるAIモデルに基づいたコンピュータプログラムである。BERT、GPT-2、Luminous及びGPT-3のような大規模言語モデル(LLM)は、特定の言語でテキストを生成するように特別に訓練されており、大量のテキストデータに基づいて訓練されており、その情報を使用して、文法的に正しく意味論的に意味のあるテキスト文を生成する。同様の大規模音声/視覚モデル(LVM)は、テキストを処理して音声データ又は視覚データを生成する。
【0004】
生成されるテキストのコンテンツ及び品質を制御するために、全てのこれらの大規模基盤モデルは、入力フィルタ及び出力フィルタを使用し、又は、ポリシーが使用される。これらのフィルタの目標は、生成されたテキストが安全かつ適当であって、かつ、意図されたユースケースに関連していることを保証することである。使用することができる入力フィルタ及び出力フィルタ又はポリシーには、以下のものを含むいくつかの種類が存在する:
・コンテンツフィルタ:これらのフィルタは、モデルによって生成することが許可されているコンテンツの種類を制限するために使用される。例えば、コンテンツフィルタを使用して、ヘイトスピーチ、ポルノ、又は、他の種類の攻撃的な題材が含まれるテキストがモデルによって生成されることを阻止することができる。
・品質フィルタ:これらのフィルタは、生成されたテキストが文法的に正しいものである、又は、意味論的に意味があるなど、一定の品質のものであることを保証するために使用される。品質フィルタを使用して、生成されたテキストの一貫性及び整合性と、その全体的な可読性及び理解可能性とをチェックすることができる。
・関連性フィルタ:これらのフィルタは、生成されたテキストが特定のトピック又はテーマに関連していることを保証するために使用される。例えば、関連性フィルタを使用して、特定のニュースイベント又は特定の製品に関連するテキストを生成することができる。
・スタイルフィルタ:これらのフィルタは、生成されるテキストのスタイル及びトーンを制御するために使用される。例えば、スタイルフィルタを使用して、ユーモラス若しくはシリアスのような特定のスタイルでテキストを生成することができ、又は、特定の著者若しくはジャンルのスタイルを模倣することができる。
【0005】
これらのポリシーは、定期的に又は必要に応じて更新される。更新の必要性は、社会規範及び価値観の変化、技術的進歩、法律上及び規制上の変化、又は、ユーザのフィードバックを含み得る。これらのポリシーは、複数の悪意のある行為者によって侵害される。ハッカー又は悪意のある行為者は、大規模基盤モデルに課されている制限を修正又は除去して、脱獄(ジェイルブレイク)と称されるイベントにおいて、訓練済みの基盤モデルがポリシーフィルタを無効にすることを可能にすることが多い。LLM、すなわち、ChatGPTのための脱獄バージョンの著名な例のうちの1つは、DAN(Do Anything Now)である。このような迅速な攻撃の数が増加するにつれて、ポリシーをより頻繁かつより自律的に更新することが必要となる。また、特定のケースにおいては、組織の特定の主観的なポリシー及び組織のユーザのみに対する影響のように、汎用のフィルタでは不十分である。
【発明の概要】
【発明が解決しようとする課題】
【0006】
発明の概要
仮明細書において述べたように、本発明の課題は、大規模基盤モデルにおける脱獄のような悪用に対する保護のために配備される防御システムを提供することである。大規模基盤モデルは、入力プロンプト/入力を処理し、出力を供給するように構成されている。大規模基盤モデルは、内部又は外部の入力フィルタ及び出力フィルタをさらに含み得る。入力フィルタ及び出力フィルタは、有害なコンテンツの発生を阻止し、それによって法的指針、公序、良俗、人的安全性の保証を実施するように構成されたプログラムである。
【課題を解決するための手段】
【0007】
大規模基盤モデルに対する悪用及びそのような攻撃を阻止するためのシステムは、モデレーション(moderation)モジュールとしても知られる質問プロンプト(question prompt:QP)モジュールと、第2の大規模基盤モデルと、少なくとも1つのメモリモジュールとを備えている。本システムは、大規模基盤モデルに対して並列に配備されており、大規模基盤モデルの利用に対するラッパーとして機能する。質問プロンプト(QP)モジュール又はモデレーションモジュールは、入力プロンプトを受信し、少なくとも1つの質問プロンプト/モデレーション出力を生成するように構成されている。
【0008】
質問プロンプト/モデレーション出力の特性は、大規模基盤モデルのカテゴリーに応じて適合させられており、完全明細書において詳細に説明される。例えば、LLMの場合には、質問プロンプトは、質問タグであるものとしてよい(プロンプトが有害であるか?プロンプトがポリシーに違反しているか?プロンプトが(特定のポリシーセットに対して)有害であるか?)。LVMの場合には、質問プロンプト/モデレーション出力は、禁止されたカテゴリーについて画像を分析することができ、又は、テキストプロンプトと共に隠れたノイズについて画像を分析することができる。QP/モデレーションモジュールは、大規模基盤モデルが配備されているアプリケーション及びシナリオに基づいて、カスタマイズされた質問プロンプトを生成する。
【0009】
メモリモジュールに格納されているクエリ及び応答は、入力ポリシー及び出力ポリシーのさらなるラベル付け、再訓練及び更新のためにさらに検査される。AIに基づくポリシー/フィルタを使用する本開示の他の実施形態においては、クエリ及び応答のペアは、これらのAIに基づくポリシー/フィルタを訓練及び更新するためのデータセットとして機能する。これらのフィルタを、組織固有のポリシー/フィルタのような特定のポリシーによってさらに微調整するものとしてもよい。
【図面の簡単な説明】
【0010】
図面の簡単な説明
本発明の一実施形態を、以下の添付図面を参照しながら説明する。
図1】大規模基盤モデル(large foundation model:LLM)の悪用を阻止するためのシステム(100)を示す図である。
図2】大規模基盤モデル(LLM)の悪用を阻止するための方法ステップ(200)を示す図である。
【発明を実施するための形態】
【0011】
図面の詳細な説明
図1は、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)を示す。LLMは、入力を処理し、出力を供給するように構成されている。入力は、テキスト又は画像又は音声/ビデオ又はそれらの組合せのような入力プロンプトであるものとしてよい。大規模基盤モデルは、膨大な量のラベルなしデータに基づいて訓練された大規模人工知能モデルであり、その結果として、多種多様なタスクを実施するように適合可能なモデルが得られる。本発明においては、LLMは、チャットGPTのような大規模言語モデル、又は、大規模視覚モデル若しくは大規模音声モデル、又は、これらの組合せであるものとしてよい。
【0012】
LLMは、入力フィルタ(1021)及び少なくとも1つの出力フィルタ(1022)をさらに備えるLLMモジュール(102)内に配備されている。入力フィルタ及び出力フィルタは、LLMによって遵守されることが期待されているポリシー関連のフィルタを実装する。これらのフィルタは、有害なコンテンツの発生を阻止し、それによって法的指針、公序、良俗、人的安全性の保証を実施するように構成された訓練済みのプログラムである。
【0013】
そのようなLLMの悪用を阻止するためのシステム(100)は、モデレーション(moderation)モジュール(101)と、第2の大規模基盤モデルと、少なくとも1つのメモリモジュール(103)とを備えている。
【0014】
モデレーションモジュール(101)は、入力を受信し、少なくとも1つのモデレーション出力を生成するように構成されている。本発明の一実施形態においては、モデレーションモジュール(101)は、複数のモデレーションモデルを含み、それぞれのモデレーションモデルは、入力における少なくとも1つの制限された属性を識別するように構成されている。そのようなモデレーションモデルは、二値分類器モデルのバッグであるものとしてよく、それぞれの分類器は、制限された属性を識別するように訓練され、例えば、ある分類器は、入力(画像/音声/ビデオ)をわいせつ物として分類し、他の分類器は、入力を暴力として分類するなどである。モデレーション出力は、制限された属性の識別情報を含む。本発明の他の実施形態においては、モデレーションモジュール(101)は、入力をテキストに変換し、モデレーション出力として質問プロンプトを生成するように構成されている。したがって、モデレーションモジュール(101)は、質問プロンプト(QP)モジュールであるものとしてもよい。
【0015】
LLM’は、要求又は配備の可能性に基づいてカスタマイズされている。本発明の例示的な実施形態においては、LLM’は、LLMの代理モデル又はダウンサイズされたクローンである。LLM’は、LLMと同一であるものとしてもよいし、又は、機能的に等価な(代理)モデルであるものとしてもよい。本開示の他の実施形態においては、LLM’は、通常、ポリシーのために特殊化されたダウンサイズされたモデルである。LLM’は、組織内部の信頼できる実行環境において訓練される。
【0016】
LLM’は、入力及び前述のモデレーション出力を受信し、応答を取得するために入力及びモデレーション出力を処理し、LLMの悪用を阻止するために入力フィルタ(1021)、出力フィルタ(1022)のうちの少なくとも1つに応答を通信するように構成されている。LLM’の処理された応答は、推論応答及び分類応答をさらに含む。入力は、LLM’から受信した通信に基づいて、入力フィルタ(1021)によってブロックされる。出力フィルタ(1022)は、LLMによって生成された出力を、LLM’から受信した通信に基づいて修正又はブロックする。メモリモジュール(103)は、LLM’の処理された応答を格納するように構成されている。メモリモジュール(103)は、システム(100)の固有の部分であるものとしてもよいし、又は、クラウド上若しくはサーバ上でホストされる別個のデータベースであるものとしてもよい。
【0017】
本願で使用される「コンポーネント」、「システム(100)(101)」、「モジュール」、「インタフェース」という用語は、コンピュータ関連のエンティティを指すこと、又は、1つ又は複数の特定の機能を備えた演算装置に関連するエンティティ又はその一部であるエンティティを指すことを意図しており、そのようなエンティティは、ハードウェア、ハードウェアとソフトウェアとの組合せ、ソフトウェア、又は、実行中のソフトウェアのいずれかであるものとしてよい。さらにまた他の例として、インタフェースは、入力/出力(I/O)コンポーネント及び関連するプロセッサ、アプリケーション、又は、アプリケーションプログラミングインタフェース(API)コンポーネントを含み得る。システム(100)は、これらのモジュールのハードウェアの組合せであるものとしてもよいし、又は、クラウド上若しくはサーバ上にリモートで配備されるものとしてもよい。同様に、LLMモジュール(102)は、これらのモジュールのハードウェア若しくはソフトウェアの組合せであるものとしてもよいし、又は、クラウド上若しくはサーバ上にリモートで配備されるものとしてもよい。これらの種々異なるモジュールは、単一のチップに埋め込まれたソフトウェアであるものとしてもよいし、又は、ソフトウェアとハードウェアとの組合せであるものとしてもよく、それぞれのモジュール及びその機能は、システム(100)として機能するために相互に接続された別個の独立したチップによって実行される。
【0018】
例示的な実施形態が、図面に示されており、かつ、以下において説明されているが、本開示は、図面に示されておりかつ以下に説明されているこれらの例示的な実装形態及び技術に決して限定されるべきものではないということが、まず始めに理解されるべきである。
【0019】
図2は、大規模基盤モデル(LLM)の悪用を阻止するための方法ステップを示す。大規模基盤モデルは、入力フィルタ(1021)及び少なくとも1つの出力フィルタ(1022)をさらに備えるLLMモジュール(102)内に配備されている。入力フィルタ及び出力フィルタ(1022)は、LLMによって遵守されることが期待されているポリシー関連のフィルタを実装する。そのようなLLMの悪用を阻止するためのシステム(100)及びそのコンポーネント(モデレーションモジュール(101)、第2の大規模基盤モデル、及び、少なくとも1つのメモリモジュール(103))については、図1に従って説明されている。方法ステップは、これらのコンポーネントを使用して実施される。
【0020】
方法ステップ201は、モデレーションモジュール(101)によって少なくとも1つのモデレーション出力を生成することを含む。方法ステップの一実装形態においては、モデレーションモジュール(101)は、複数のモデレーションモデルを含み、それぞれのモデレーションモデルは、入力における少なくとも1つの制限された属性を識別するように構成されている。モデレーション出力は、少なくとも1つの制限された属性の識別情報を含む。方法ステップの他の実装形態においては、モデレーションモジュール(101)は、入力をテキストに変換し、モデレーション出力として質問プロンプトを生成するように構成されている。例えば、入力が「爆弾の作り方を教えて」であるとしよう。この入力は、モデレーションモデルのうちの1つによって、一般の人々に有害であるとして識別される。第2の実施態様においては、生成される質問プロンプトは、「一般の人々に有害であるか-イエス」となるだろう。
【0021】
方法ステップ202は、入力及び前述のモデレーション出力を第2の大規模基盤モデル(LLM’)に送信することを含む。元々の入力プロンプトは、モデレーション出力と連結され、LLM’に供給される。方法ステップ203は、応答を取得するために入力及び前述のモデレーション出力をLLM’によって処理することを含む。LLM’の処理された応答は、推論応答及び分類応答をさらに含む。分類出力(二値-イエス又はノー)は、入力プロンプトが有害であるかどうかを示す。推論出力は、行われた分類の決定に関する推論を提供する。先の例に倣うと、モデレーション出力(一般の人々に有害である)と、入力(爆弾の作り方)とがLLM’に供給される。LLM’の応答は、「禁止された入力です」と言うような類のものとなろう。したがって、入力の分類は、禁止されたカテゴリー内にあり、このような分類に対する推論は、この入力が一般の人々に有害であるということ又は暴力を伴うということである。
【0022】
方法ステップ204は、LLMの悪用を阻止するために入力フィルタ(1021)、出力フィルタ(1022)のうちの少なくとも1つに応答を通信することを含む。応答を通信することは、入力フィルタ(1021)によって入力プロンプトをブロックすることをさらに含む。応答を通信することは、LLMによって生成された出力を、出力フィルタ(1022)によってブロック又は修正することをさらに含む。LLM’から受信した分類の応答が「イエス」と言っている場合、すなわち、禁止された入力である場合には、その入力及び質問したユーザは、LLMからの出力を受信することからブロックされる。同様に、応答を通信することは、LLMによって生成された出力を、出力フィルタ(1022)によってブロック又は修正することをさらに含む。
【0023】
方法ステップ205は、処理された応答をメモリモジュール(103)に格納することを含む。入力フィルタ(1021)及び出力フィルタ(1022)は、メモリモジュール(103)に格納されている応答に基づいて更新される。入力が「爆弾の作り方」であった上述の例を続けると、この入力は、今や禁止された入力として分類され、メモリモジュール(103)に格納される。LLMの入力フィルタ(1021)は、そのような入力に次回遭遇した場合にこの入力をブロックするように、メモリモジュール(103)から更新可能である。
【0024】
当業者であれば、これらの方法ステップが、目的を達成するための一連のステップのみを説明している一方で、本発明のコアコンセプト及び範囲から逸脱することなく、システム(100)及び方法に対する修正及びカスタマイズを伴ってこれらの方法を実現するものとしてもよいことを理解するであろう。提案される着想は、大規模基盤モデルの既存の能力及び知識を利用して、プロンプト及び応答のフィルタリング及びポリシー制御を改善する。LLM’は、顧客管理クラウド上に配備されるものとしてもよいし(推論のためのセキュアエンクレーブ)、又は、セキュリティ管理を統合するためのWebアプリケーションファイアウォール内に組み込まれるものとしてもよい。顧客管理クラウドは、特にLLMが、データベース、サーバ又はプロプライエタリデータに接続されている場合に、セキュアエンクレーブを提供する。管理されたクラウドにより、そのようなシステムから取得されたクエリ、応答、データ及び知識が組織内部に残存することが保証される。このコンセプトにおいて、ドメイン固有及びユースケース固有のポリシーを適当に制御及び管理することができる。典型的な例においては、ポリシーは、組織内部での役割にタグ付けされている。したがって、役割に基づくポリシー制御が可能である。
【0025】
上記の詳細な説明において説明した実施形態が、単なる例示に過ぎず、本発明の範囲を限定するものではないことが理解されなければならない。大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)及びその方法(200)に対するあらゆる修正が想定され、本発明の一部を形成する。本発明の範囲は、特許請求の範囲によってのみ限定される。
図1
図2
【手続補正書】
【提出日】2024-06-24
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)であって、
前記LLMは、入力を処理し、出力を供給するように構成されており、
前記LLMは、入力フィルタ(1021)及び少なくとも1つの出力フィルタ(1022)をさらに備えるLLMモジュール(102)内に配備されている、システム(100)において、
前記システム(100)は、
前記入力を受信し、少なくとも1つのモデレーション出力を生成するように構成されたモデレーションモジュール(101)と、
前記入力及び前記モデレーション出力を受信し、応答を取得するために前記入力及び前記モデレーション出力を処理し、前記LLMの悪用を阻止するために前記入力フィルタ(1021)、前記出力フィルタ(1022)のうちの少なくとも1つに前記応答を通信するように構成された第2の大規模言語モデル(LLM’)と、
前記LLM’の処理された前記応答を格納するように構成されたメモリモジュール(103)と、
を備えていることを特徴とする、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項2】
前記システム(100)は、前記LLMモジュール(102)に対して並列に配備されている、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項3】
前記モデレーションモジュール(101)は、複数のモデレーションモデルを含み、
それぞれのモデレーションモデルは、前記入力における少なくとも1つの制限された属性を識別するように構成されている、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項4】
前記モデレーション出力は、少なくとも1つの制限された属性の識別情報を含む、
請求項3に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項5】
前記モデレーションモジュール(101)は、前記入力をテキストに変換し、前記モデレーション出力として質問プロンプトを生成するように構成されている、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項6】
前記LLM’の処理された前記応答は、推論応答及び分類応答をさらに含む、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項7】
前記入力は、前記LLM’から受信した通信に基づいて、前記入力フィルタ(1021)によってブロックされる、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項8】
前記出力フィルタ(1022)は、前記LLMによって生成された前記出力を、前記LLM’から受信した通信に基づいて修正又はブロックする、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項9】
前記入力フィルタ(1021)及び前記出力フィルタ(1022)は、前記メモリモジュール(103)に格納されている応答に基づいて更新される、
請求項1に記載の、大規模基盤モデル(LLM)の悪用を阻止するためのシステム(100)。
【請求項10】
大規模基盤モデル(LLM)の悪用を阻止するための方法(200)であって、
前記LLMは、入力を処理し、出力を供給するように構成されており、
前記LLMは、入力フィルタ(1021)及び少なくとも1つの出力フィルタ(1022)をさらに備えるLLMモジュール(102)内に配備されている、方法において、
前記方法は、
モデレーションモジュール(101)によって少なくとも1つのモデレーション出力を生成すること(201)と、
前記入力及び前記モデレーション出力を第2の大規模基盤モデル(LLM’)に送信すること(202)と、
応答を取得するために前記入力及び前記モデレーション出力を前記LLM’によって処理すること(203)と、
前記LLMの悪用を阻止するために前記入力フィルタ(1021)、前記出力フィルタ(1022)のうちの少なくとも1つに前記応答を通信すること(204)と、
処理された前記応答をメモリモジュール(103)に格納すること(205)と、
を含む、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項11】
前記モデレーションモジュール(101)は、複数のモデレーションモデルを含み、
それぞれのモデレーションモデルは、前記入力における少なくとも1つの制限された属性を識別するように構成されている、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項12】
前記モデレーション出力は、少なくとも1つの制限された属性の識別情報を含む、
請求項11に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項13】
前記モデレーションモジュール(101)は、前記入力をテキストに変換し、前記モデレーション出力として質問プロンプトを生成するように構成されている、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項14】
前記LLM’の処理された前記応答は、推論応答及び分類応答をさらに含む、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項15】
前記応答を通信することは、前記入力フィルタ(1021)によって前記入力ブロックすることをさらに含む、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項16】
前記応答を通信することは、前記LLMによって生成された前記出力を、前記出力フィルタ(1022)によってブロック又は修正することをさらに含む、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【請求項17】
前記入力フィルタ(1021)及び前記出力フィルタ(1022)は、前記メモリモジュール(103)に格納されている応答に基づいて更新される、
請求項10に記載の、大規模基盤モデル(LLM)の悪用を阻止するための方法(200)。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0024
【補正方法】変更
【補正の内容】
【0024】
当業者であれば、これらの方法ステップが、目的を達成するための一連のステップのみを説明している一方で、本発明のコアコンセプト及び範囲から逸脱することなく、システム(100)及び方法に対する修正及びカスタマイズを伴ってこれらの方法を実現するものとしてもよいことを理解するであろう。提案される着想は、LLMの既存の能力及び知識を利用して、プロンプト及び応答のフィルタリング及びポリシー制御を改善する。LLM’は、顧客管理クラウド上に配備されるものとしてもよいし(推論のためのセキュアエンクレーブ)、又は、セキュリティ管理を統合するためのWebアプリケーションファイアウォール内に組み込まれるものとしてもよい
【外国語明細書】