特開2024-120890 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト　ボツシユ　ゲゼルシヤフト　ミツト　ベシユレンクテル　ハフツングの特許一覧 ▶ ボッシュグローバルソフトウェアテクノロジーズプライヴェットリミテッドの特許一覧

特開2024-120890大規模基盤モデルの悪用を阻止するためのシステム及びその方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024120890

(43)【公開日】2024-09-05

(54)【発明の名称】大規模基盤モデルの悪用を阻止するためのシステム及びその方法

(51)【国際特許分類】

G06F 21/55 20130101AFI20240829BHJP

G10L 15/22 20060101ALI20240829BHJP

G10L 15/16 20060101ALI20240829BHJP

G06N 20/00 20190101ALI20240829BHJP

G06F 40/56 20200101ALI20240829BHJP

G06F 40/44 20200101ALI20240829BHJP

【ＦＩ】

G06F21/55

G10L15/22 300Z

G10L15/16

G06N20/00

G06F40/56

G06F40/44

【審査請求】未請求

【請求項の数】17

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024025935

(22)【出願日】2024-02-22

(31)【優先権主張番号】202341012707

(32)【優先日】2023-02-24

(33)【優先権主張国・地域又は機関】IN

(31)【優先権主張番号】202341037509

(32)【優先日】2023-05-31

(33)【優先権主張国・地域又は機関】IN

(71)【出願人】

【識別番号】390023711

【氏名又は名称】ローベルトボツシユゲゼルシヤフトミツトベシユレンクテルハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

【住所又は居所原語表記】Ｓｔｕｔｔｇａｒｔ，Ｇｅｒｍａｎｙ

(71)【出願人】

【識別番号】524071861

【氏名又は名称】ボッシュグローバルソフトウェアテクノロジーズプライヴェットリミテッド

【氏名又は名称原語表記】ＢｏｓｃｈＧｌｏｂａｌＳｏｆｔｗａｒｅＴｅｃｈｎｏｌｏｇｉｅｓＰｒｉｖａｔｅＬｉｍｉｔｅｄ

【住所又は居所原語表記】１２３，ＩｎｄｕｓｔｒｉａｌＬａｙｏｕｔ，ＨｏｓｕｒＲｏａｄ，Ｋｏｒａｍａｎｇａｌａ，Ｂａｎｇａｌｏｒｅ－５６００９５Ｋａｒｎａｔａｋａ，Ｉｎｄｉａ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】マノジュクマールソマブハイパルマール

(72)【発明者】

【氏名】ユヴァライゴヴィンダラジュール

(57)【要約】

【課題】本開示は、大規模言語基盤モデルの悪用を阻止するためのシステム（１００）及びその方法を提案する。
【解決手段】本システム（１００）は、モデレーションモジュール（１０１）と、第２の大規模基盤モデルと、少なくとも１つのメモリモジュール（１０３）と、を備える。モデレーションモジュール（１０１）は、入力プロンプトを受信し、モデレーション出力を生成するように構成されている。第２の大規模基盤モデルは、応答を取得するために入力及びモデレーション出力を一緒に処理するように構成されている。応答は、悪用を阻止するために、大規模基盤モデルに関連付けられた入力フィルタ（１０２１）又は出力フィルタ（１０２２）のうちの少なくとも１つに通信される。
【選択図】図１

【特許請求の範囲】

【請求項1】

大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）であって、
前記ＬＬＭは、入力を処理し、出力を供給するように構成されており、
前記ＬＬＭは、入力フィルタ（１０２１）及び少なくとも１つの出力フィルタ（１０２２）をさらに備えるＬＬＭモジュール（１０２）内に配備されている、システム（１００）において、
前記システム（１００）は、
前記入力を受信し、少なくとも１つのモデレーション出力を生成するように構成されたモデレーションモジュール（１０１）と、
前記入力及び前記モデレーション出力を受信し、応答を取得するために前記入力及び前記モデレーション出力を処理し、前記ＬＬＭの悪用を阻止するために前記入力フィルタ（１０２１）、前記出力フィルタ（１０２２）のうちの少なくとも１つに前記応答を通信するように構成された第２の大規模言語モデル（ＬＬＭ’）と、
前記ＬＬＭ’の処理された前記応答を格納するように構成されたメモリモジュール（１０３）と、
を特徴とする、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）。

【請求項2】

前記システム（１００）は、前記ＬＬＭモジュール（１０２）に対して並列に配備されている、
請求項１に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）。

【請求項3】

前記モデレーションモジュール（１０１）は、複数のモデレーションモデルを含み、
それぞれのモデレーションモデルは、前記入力における少なくとも１つの制限された属性を識別するように構成されている、
請求項１に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）。

【請求項4】

前記モデレーション出力は、少なくとも１つの制限された属性の識別情報を含む、
請求項３に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）。

【請求項5】

前記モデレーションモジュール（１０１）は、前記入力をテキストに変換し、前記モデレーション出力として質問プロンプトを生成するように構成されている、
請求項１に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）。

【請求項6】

前記ＬＬＭ’の処理された前記応答は、推論応答及び分類応答をさらに含む、
請求項１に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）。

【請求項7】

前記入力は、前記ＬＬＭ’から受信した通信に基づいて、前記入力フィルタ（１０２１）によってブロックされる、
請求項１に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）。

【請求項8】

前記出力フィルタ（１０２２）は、前記ＬＬＭによって生成された前記出力を、前記ＬＬＭ’から受信した通信に基づいて修正又はブロックする、
請求項１に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）。

【請求項9】

前記入力フィルタ（１０２１）及び前記出力フィルタ（１０２２）は、前記メモリモジュール（１０３）に格納されている応答に基づいて更新される、
請求項１に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）。

【請求項10】

大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法（２００）であって、
前記ＬＬＭは、入力を処理し、出力を供給するように構成されており、
前記ＬＬＭは、入力フィルタ（１０２１）及び少なくとも１つの出力フィルタ（１０２２）をさらに備えるＬＬＭモジュール（１０２）内に配備されている、方法において、
前記方法は、
モデレーションモジュール（１０１）によって少なくとも１つのモデレーション出力を生成すること（２０１）と、
前記入力及び前記モデレーション出力を第２の大規模基盤モデル（ＬＬＭ’）に送信すること（２０２）と、
応答を取得するために前記入力及び前記モデレーション出力を前記ＬＬＭ’によって処理すること（２０３）と、
前記ＬＬＭの悪用を阻止するために前記入力フィルタ（１０２１）、前記出力フィルタ（１０２２）のうちの少なくとも１つに前記応答を通信すること（２０４）と、
処理された前記応答をメモリモジュール（１０３）に格納すること（２０５）と、
を含む、大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法（２００）。

【請求項11】

前記モデレーションモジュール（１０１）は、複数のモデレーションモデルを含み、
それぞれのモデレーションモデルは、前記入力における少なくとも１つの制限された属性を識別するように構成されている、
請求項１０に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法（２００）。

【請求項12】

前記モデレーション出力は、少なくとも１つの制限された属性の識別情報を含む、
請求項１１に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法（２００）。

【請求項13】

前記モデレーションモジュール（１０１）は、前記入力をテキストに変換し、前記モデレーション出力として質問プロンプトを生成するように構成されている、
請求項１０に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法（２００）。

【請求項14】

前記ＬＬＭ’の処理された前記応答は、推論応答及び分類応答をさらに含む、
請求項１０に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法（２００）。

【請求項15】

前記応答を通信することは、前記入力フィルタ（１０２１）によって前記入力プロンプトをブロックすることをさらに含む、
請求項１０に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法（２００）。

【請求項16】

前記応答を通信することは、前記ＬＬＭによって生成された前記出力を、前記出力フィルタ（１０２２）によってブロック又は修正することをさらに含む、
請求項１０に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法（２００）。

【請求項17】

前記入力フィルタ（１０２１）及び前記出力フィルタ（１０２２）は、前記メモリモジュール（１０３）に格納されている応答に基づいて更新される、
請求項１０に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法（２００）。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、人工知能の信用性、信頼性及び安全性の分野に関する。特に、本発明は、大規模基盤モデルの悪用を阻止するためのシステム及びその方法を提案する。

【背景技術】

【0002】

発明の背景
データサイエンスの登場に伴って、データ処理及び意思決定システムは、人工知能モジュールを使用して実装される。人工知能モジュールは、機械学習、ニューラルネットワーク、深層学習等のような種々異なる技術を使用する。ほとんどのＡＩに基づくシステムは、大量のデータを受信し、このデータを処理してＡＩモデルを訓練する。訓練済みのＡＩモデルは、ユーザによって要求されたユースケースに基づいて出力を生成する。典型的には、ＡＩシステムは、コンピュータビジョン、音声認識、自然言語処理、音声認識、ヘルスケア、自動運転、製造、ロボティクス等の分野で使用されており、ここで、ＡＩシステムは、訓練を介して獲得した特定の規則／知能に基づいて、必要とされる出力を生成するためにデータを処理する。

【0003】

基盤モデルは、膨大な量のラベルなしデータに基づいて訓練された大規模人工知能モデルであり、その結果として、多種多様なタスクを実施するように適合可能なモデルが得られる。基盤モデルの最もよく知られた例は、大規模言語モデル（Large language model：ＬＬＭ）である。ＬＬＭは、ディープラーニング及びニューラルネットワークを使用する自然言語処理のために使用されるＡＩモデルに基づいたコンピュータプログラムである。ＢＥＲＴ、ＧＰＴ－２、Ｌｕｍｉｎｏｕｓ及びＧＰＴ－３のような大規模言語モデル（ＬＬＭ）は、特定の言語でテキストを生成するように特別に訓練されており、大量のテキストデータに基づいて訓練されており、その情報を使用して、文法的に正しく意味論的に意味のあるテキスト文を生成する。同様の大規模音声／視覚モデル（ＬＶＭ）は、テキストを処理して音声データ又は視覚データを生成する。

【0004】

生成されるテキストのコンテンツ及び品質を制御するために、全てのこれらの大規模基盤モデルは、入力フィルタ及び出力フィルタを使用し、又は、ポリシーが使用される。これらのフィルタの目標は、生成されたテキストが安全かつ適当であって、かつ、意図されたユースケースに関連していることを保証することである。使用することができる入力フィルタ及び出力フィルタ又はポリシーには、以下のものを含むいくつかの種類が存在する：
・コンテンツフィルタ：これらのフィルタは、モデルによって生成することが許可されているコンテンツの種類を制限するために使用される。例えば、コンテンツフィルタを使用して、ヘイトスピーチ、ポルノ、又は、他の種類の攻撃的な題材が含まれるテキストがモデルによって生成されることを阻止することができる。
・品質フィルタ：これらのフィルタは、生成されたテキストが文法的に正しいものである、又は、意味論的に意味があるなど、一定の品質のものであることを保証するために使用される。品質フィルタを使用して、生成されたテキストの一貫性及び整合性と、その全体的な可読性及び理解可能性とをチェックすることができる。
・関連性フィルタ：これらのフィルタは、生成されたテキストが特定のトピック又はテーマに関連していることを保証するために使用される。例えば、関連性フィルタを使用して、特定のニュースイベント又は特定の製品に関連するテキストを生成することができる。
・スタイルフィルタ：これらのフィルタは、生成されるテキストのスタイル及びトーンを制御するために使用される。例えば、スタイルフィルタを使用して、ユーモラス若しくはシリアスのような特定のスタイルでテキストを生成することができ、又は、特定の著者若しくはジャンルのスタイルを模倣することができる。

【0005】

これらのポリシーは、定期的に又は必要に応じて更新される。更新の必要性は、社会規範及び価値観の変化、技術的進歩、法律上及び規制上の変化、又は、ユーザのフィードバックを含み得る。これらのポリシーは、複数の悪意のある行為者によって侵害される。ハッカー又は悪意のある行為者は、大規模基盤モデルに課されている制限を修正又は除去して、脱獄（ジェイルブレイク）と称されるイベントにおいて、訓練済みの基盤モデルがポリシーフィルタを無効にすることを可能にすることが多い。ＬＬＭ、すなわち、ＣｈａｔＧＰＴのための脱獄バージョンの著名な例のうちの１つは、ＤＡＮ（Do Anything Now）である。このような迅速な攻撃の数が増加するにつれて、ポリシーをより頻繁かつより自律的に更新することが必要となる。また、特定のケースにおいては、組織の特定の主観的なポリシー及び組織のユーザのみに対する影響のように、汎用のフィルタでは不十分である。

【発明の概要】

【発明が解決しようとする課題】

【0006】

発明の概要
仮明細書において述べたように、本発明の課題は、大規模基盤モデルにおける脱獄のような悪用に対する保護のために配備される防御システムを提供することである。大規模基盤モデルは、入力プロンプト／入力を処理し、出力を供給するように構成されている。大規模基盤モデルは、内部又は外部の入力フィルタ及び出力フィルタをさらに含み得る。入力フィルタ及び出力フィルタは、有害なコンテンツの発生を阻止し、それによって法的指針、公序、良俗、人的安全性の保証を実施するように構成されたプログラムである。

【課題を解決するための手段】

【0007】

大規模基盤モデルに対する悪用及びそのような攻撃を阻止するためのシステムは、モデレーション（moderation）モジュールとしても知られる質問プロンプト（question prompt：ＱＰ）モジュールと、第２の大規模基盤モデルと、少なくとも１つのメモリモジュールとを備えている。本システムは、大規模基盤モデルに対して並列に配備されており、大規模基盤モデルの利用に対するラッパーとして機能する。質問プロンプト（ＱＰ）モジュール又はモデレーションモジュールは、入力プロンプトを受信し、少なくとも１つの質問プロンプト／モデレーション出力を生成するように構成されている。

【0008】

質問プロンプト／モデレーション出力の特性は、大規模基盤モデルのカテゴリーに応じて適合させられており、完全明細書において詳細に説明される。例えば、ＬＬＭの場合には、質問プロンプトは、質問タグであるものとしてよい（プロンプトが有害であるか？プロンプトがポリシーに違反しているか？プロンプトが（特定のポリシーセットに対して）有害であるか？）。ＬＶＭの場合には、質問プロンプト／モデレーション出力は、禁止されたカテゴリーについて画像を分析することができ、又は、テキストプロンプトと共に隠れたノイズについて画像を分析することができる。ＱＰ／モデレーションモジュールは、大規模基盤モデルが配備されているアプリケーション及びシナリオに基づいて、カスタマイズされた質問プロンプトを生成する。

【0009】

メモリモジュールに格納されているクエリ及び応答は、入力ポリシー及び出力ポリシーのさらなるラベル付け、再訓練及び更新のためにさらに検査される。ＡＩに基づくポリシー／フィルタを使用する本開示の他の実施形態においては、クエリ及び応答のペアは、これらのＡＩに基づくポリシー／フィルタを訓練及び更新するためのデータセットとして機能する。これらのフィルタを、組織固有のポリシー／フィルタのような特定のポリシーによってさらに微調整するものとしてもよい。

【図面の簡単な説明】

【0010】

図面の簡単な説明
本発明の一実施形態を、以下の添付図面を参照しながら説明する。

【図1】大規模基盤モデル（large foundation model：ＬＬＭ）の悪用を阻止するためのシステム（１００）を示す図である。

【図2】大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法ステップ（２００）を示す図である。

【発明を実施するための形態】

【0011】

図面の詳細な説明
図１は、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）を示す。ＬＬＭは、入力を処理し、出力を供給するように構成されている。入力は、テキスト又は画像又は音声／ビデオ又はそれらの組合せのような入力プロンプトであるものとしてよい。大規模基盤モデルは、膨大な量のラベルなしデータに基づいて訓練された大規模人工知能モデルであり、その結果として、多種多様なタスクを実施するように適合可能なモデルが得られる。本発明においては、ＬＬＭは、チャットＧＰＴのような大規模言語モデル、又は、大規模視覚モデル若しくは大規模音声モデル、又は、これらの組合せであるものとしてよい。

【0012】

ＬＬＭは、入力フィルタ（１０２１）及び少なくとも１つの出力フィルタ（１０２２）をさらに備えるＬＬＭモジュール（１０２）内に配備されている。入力フィルタ及び出力フィルタは、ＬＬＭによって遵守されることが期待されているポリシー関連のフィルタを実装する。これらのフィルタは、有害なコンテンツの発生を阻止し、それによって法的指針、公序、良俗、人的安全性の保証を実施するように構成された訓練済みのプログラムである。

【0013】

そのようなＬＬＭの悪用を阻止するためのシステム（１００）は、モデレーション（moderation）モジュール（１０１）と、第２の大規模基盤モデルと、少なくとも１つのメモリモジュール（１０３）とを備えている。

【0014】

モデレーションモジュール（１０１）は、入力を受信し、少なくとも１つのモデレーション出力を生成するように構成されている。本発明の一実施形態においては、モデレーションモジュール（１０１）は、複数のモデレーションモデルを含み、それぞれのモデレーションモデルは、入力における少なくとも１つの制限された属性を識別するように構成されている。そのようなモデレーションモデルは、二値分類器モデルのバッグであるものとしてよく、それぞれの分類器は、制限された属性を識別するように訓練され、例えば、ある分類器は、入力（画像／音声／ビデオ）をわいせつ物として分類し、他の分類器は、入力を暴力として分類するなどである。モデレーション出力は、制限された属性の識別情報を含む。本発明の他の実施形態においては、モデレーションモジュール（１０１）は、入力をテキストに変換し、モデレーション出力として質問プロンプトを生成するように構成されている。したがって、モデレーションモジュール（１０１）は、質問プロンプト（ＱＰ）モジュールであるものとしてもよい。

【0015】

ＬＬＭ’は、要求又は配備の可能性に基づいてカスタマイズされている。本発明の例示的な実施形態においては、ＬＬＭ’は、ＬＬＭの代理モデル又はダウンサイズされたクローンである。ＬＬＭ’は、ＬＬＭと同一であるものとしてもよいし、又は、機能的に等価な（代理）モデルであるものとしてもよい。本開示の他の実施形態においては、ＬＬＭ’は、通常、ポリシーのために特殊化されたダウンサイズされたモデルである。ＬＬＭ’は、組織内部の信頼できる実行環境において訓練される。

【0016】

ＬＬＭ’は、入力及び前述のモデレーション出力を受信し、応答を取得するために入力及びモデレーション出力を処理し、ＬＬＭの悪用を阻止するために入力フィルタ（１０２１）、出力フィルタ（１０２２）のうちの少なくとも１つに応答を通信するように構成されている。ＬＬＭ’の処理された応答は、推論応答及び分類応答をさらに含む。入力は、ＬＬＭ’から受信した通信に基づいて、入力フィルタ（１０２１）によってブロックされる。出力フィルタ（１０２２）は、ＬＬＭによって生成された出力を、ＬＬＭ’から受信した通信に基づいて修正又はブロックする。メモリモジュール（１０３）は、ＬＬＭ’の処理された応答を格納するように構成されている。メモリモジュール（１０３）は、システム（１００）の固有の部分であるものとしてもよいし、又は、クラウド上若しくはサーバ上でホストされる別個のデータベースであるものとしてもよい。

【0017】

本願で使用される「コンポーネント」、「システム（１００）（１０１）」、「モジュール」、「インタフェース」という用語は、コンピュータ関連のエンティティを指すこと、又は、１つ又は複数の特定の機能を備えた演算装置に関連するエンティティ又はその一部であるエンティティを指すことを意図しており、そのようなエンティティは、ハードウェア、ハードウェアとソフトウェアとの組合せ、ソフトウェア、又は、実行中のソフトウェアのいずれかであるものとしてよい。さらにまた他の例として、インタフェースは、入力／出力（Ｉ／Ｏ）コンポーネント及び関連するプロセッサ、アプリケーション、又は、アプリケーションプログラミングインタフェース（ＡＰＩ）コンポーネントを含み得る。システム（１００）は、これらのモジュールのハードウェアの組合せであるものとしてもよいし、又は、クラウド上若しくはサーバ上にリモートで配備されるものとしてもよい。同様に、ＬＬＭモジュール（１０２）は、これらのモジュールのハードウェア若しくはソフトウェアの組合せであるものとしてもよいし、又は、クラウド上若しくはサーバ上にリモートで配備されるものとしてもよい。これらの種々異なるモジュールは、単一のチップに埋め込まれたソフトウェアであるものとしてもよいし、又は、ソフトウェアとハードウェアとの組合せであるものとしてもよく、それぞれのモジュール及びその機能は、システム（１００）として機能するために相互に接続された別個の独立したチップによって実行される。

【0018】

例示的な実施形態が、図面に示されており、かつ、以下において説明されているが、本開示は、図面に示されておりかつ以下に説明されているこれらの例示的な実装形態及び技術に決して限定されるべきものではないということが、まず始めに理解されるべきである。

【0019】

図２は、大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法ステップを示す。大規模基盤モデルは、入力フィルタ（１０２１）及び少なくとも１つの出力フィルタ（１０２２）をさらに備えるＬＬＭモジュール（１０２）内に配備されている。入力フィルタ及び出力フィルタ（１０２２）は、ＬＬＭによって遵守されることが期待されているポリシー関連のフィルタを実装する。そのようなＬＬＭの悪用を阻止するためのシステム（１００）及びそのコンポーネント（モデレーションモジュール（１０１）、第２の大規模基盤モデル、及び、少なくとも１つのメモリモジュール（１０３））については、図１に従って説明されている。方法ステップは、これらのコンポーネントを使用して実施される。

【0020】

方法ステップ２０１は、モデレーションモジュール（１０１）によって少なくとも１つのモデレーション出力を生成することを含む。方法ステップの一実装形態においては、モデレーションモジュール（１０１）は、複数のモデレーションモデルを含み、それぞれのモデレーションモデルは、入力における少なくとも１つの制限された属性を識別するように構成されている。モデレーション出力は、少なくとも１つの制限された属性の識別情報を含む。方法ステップの他の実装形態においては、モデレーションモジュール（１０１）は、入力をテキストに変換し、モデレーション出力として質問プロンプトを生成するように構成されている。例えば、入力が「爆弾の作り方を教えて」であるとしよう。この入力は、モデレーションモデルのうちの１つによって、一般の人々に有害であるとして識別される。第２の実施態様においては、生成される質問プロンプトは、「一般の人々に有害であるか－イエス」となるだろう。

【0021】

方法ステップ２０２は、入力及び前述のモデレーション出力を第２の大規模基盤モデル（ＬＬＭ’）に送信することを含む。元々の入力プロンプトは、モデレーション出力と連結され、ＬＬＭ’に供給される。方法ステップ２０３は、応答を取得するために入力及び前述のモデレーション出力をＬＬＭ’によって処理することを含む。ＬＬＭ’の処理された応答は、推論応答及び分類応答をさらに含む。分類出力（二値－イエス又はノー）は、入力プロンプトが有害であるかどうかを示す。推論出力は、行われた分類の決定に関する推論を提供する。先の例に倣うと、モデレーション出力（一般の人々に有害である）と、入力（爆弾の作り方）とがＬＬＭ’に供給される。ＬＬＭ’の応答は、「禁止された入力です」と言うような類のものとなろう。したがって、入力の分類は、禁止されたカテゴリー内にあり、このような分類に対する推論は、この入力が一般の人々に有害であるということ又は暴力を伴うということである。

【0022】

方法ステップ２０４は、ＬＬＭの悪用を阻止するために入力フィルタ（１０２１）、出力フィルタ（１０２２）のうちの少なくとも１つに応答を通信することを含む。応答を通信することは、入力フィルタ（１０２１）によって入力プロンプトをブロックすることをさらに含む。応答を通信することは、ＬＬＭによって生成された出力を、出力フィルタ（１０２２）によってブロック又は修正することをさらに含む。ＬＬＭ’から受信した分類の応答が「イエス」と言っている場合、すなわち、禁止された入力である場合には、その入力及び質問したユーザは、ＬＬＭからの出力を受信することからブロックされる。同様に、応答を通信することは、ＬＬＭによって生成された出力を、出力フィルタ（１０２２）によってブロック又は修正することをさらに含む。

【0023】

方法ステップ２０５は、処理された応答をメモリモジュール（１０３）に格納することを含む。入力フィルタ（１０２１）及び出力フィルタ（１０２２）は、メモリモジュール（１０３）に格納されている応答に基づいて更新される。入力が「爆弾の作り方」であった上述の例を続けると、この入力は、今や禁止された入力として分類され、メモリモジュール（１０３）に格納される。ＬＬＭの入力フィルタ（１０２１）は、そのような入力に次回遭遇した場合にこの入力をブロックするように、メモリモジュール（１０３）から更新可能である。

【0024】

当業者であれば、これらの方法ステップが、目的を達成するための一連のステップのみを説明している一方で、本発明のコアコンセプト及び範囲から逸脱することなく、システム（１００）及び方法に対する修正及びカスタマイズを伴ってこれらの方法を実現するものとしてもよいことを理解するであろう。提案される着想は、大規模基盤モデルの既存の能力及び知識を利用して、プロンプト及び応答のフィルタリング及びポリシー制御を改善する。ＬＬＭ’は、顧客管理クラウド上に配備されるものとしてもよいし（推論のためのセキュアエンクレーブ）、又は、セキュリティ管理を統合するためのＷｅｂアプリケーションファイアウォール内に組み込まれるものとしてもよい。顧客管理クラウドは、特にＬＬＭが、データベース、サーバ又はプロプライエタリデータに接続されている場合に、セキュアエンクレーブを提供する。管理されたクラウドにより、そのようなシステムから取得されたクエリ、応答、データ及び知識が組織内部に残存することが保証される。このコンセプトにおいて、ドメイン固有及びユースケース固有のポリシーを適当に制御及び管理することができる。典型的な例においては、ポリシーは、組織内部での役割にタグ付けされている。したがって、役割に基づくポリシー制御が可能である。

【0025】

上記の詳細な説明において説明した実施形態が、単なる例示に過ぎず、本発明の範囲を限定するものではないことが理解されなければならない。大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）及びその方法（２００）に対するあらゆる修正が想定され、本発明の一部を形成する。本発明の範囲は、特許請求の範囲によってのみ限定される。

【図1】

【図2】

【手続補正書】

【提出日】2024-06-24

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）であって、
前記ＬＬＭは、入力を処理し、出力を供給するように構成されており、
前記ＬＬＭは、入力フィルタ（１０２１）及び少なくとも１つの出力フィルタ（１０２２）をさらに備えるＬＬＭモジュール（１０２）内に配備されている、システム（１００）において、
前記システム（１００）は、
前記入力を受信し、少なくとも１つのモデレーション出力を生成するように構成されたモデレーションモジュール（１０１）と、
前記入力及び前記モデレーション出力を受信し、応答を取得するために前記入力及び前記モデレーション出力を処理し、前記ＬＬＭの悪用を阻止するために前記入力フィルタ（１０２１）、前記出力フィルタ（１０２２）のうちの少なくとも１つに前記応答を通信するように構成された第２の大規模言語モデル（ＬＬＭ’）と、
前記ＬＬＭ’の処理された前記応答を格納するように構成されたメモリモジュール（１０３）と、
を備えていることを特徴とする、大規模基盤モデル（ＬＬＭ）の悪用を阻止するためのシステム（１００）。

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

前記応答を通信することは、前記入力フィルタ（１０２１）によって前記入力をブロックすることをさらに含む、
請求項１０に記載の、大規模基盤モデル（ＬＬＭ）の悪用を阻止するための方法（２００）。

【請求項16】

【請求項17】

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】００２４

【補正方法】変更

【補正の内容】

【0024】

当業者であれば、これらの方法ステップが、目的を達成するための一連のステップのみを説明している一方で、本発明のコアコンセプト及び範囲から逸脱することなく、システム（１００）及び方法に対する修正及びカスタマイズを伴ってこれらの方法を実現するものとしてもよいことを理解するであろう。提案される着想は、ＬＬＭの既存の能力及び知識を利用して、プロンプト及び応答のフィルタリング及びポリシー制御を改善する。ＬＬＭ’は、顧客管理クラウド上に配備されるものとしてもよいし（推論のためのセキュアエンクレーブ）、又は、セキュリティ管理を統合するためのＷｅｂアプリケーションファイアウォール内に組み込まれるものとしてもよい。

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版