IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ロバスト インテリジェンス インコーポレイテッドの特許一覧

特表2024-507626人工知能モデルを安全に配備するための方法及びシステム
<>
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図1
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図2
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図3
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図4
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図5
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図6
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図7
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図8
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図9
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図10
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図11
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図12
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図13
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図14
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図15
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図16
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図17
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図18
  • 特表-人工知能モデルを安全に配備するための方法及びシステム 図19
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-21
(54)【発明の名称】人工知能モデルを安全に配備するための方法及びシステム
(51)【国際特許分類】
   G06F 21/55 20130101AFI20240214BHJP
   G06F 21/57 20130101ALI20240214BHJP
   G06N 20/00 20190101ALI20240214BHJP
【FI】
G06F21/55
G06F21/57 370
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023535844
(86)(22)【出願日】2022-02-25
(85)【翻訳文提出日】2023-08-23
(86)【国際出願番号】 US2022017982
(87)【国際公開番号】W WO2022183041
(87)【国際公開日】2022-09-01
(31)【優先権主張番号】63/153,667
(32)【優先日】2021-02-25
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
(71)【出願人】
【識別番号】522029316
【氏名又は名称】ロバスト インテリジェンス インコーポレイテッド
【氏名又は名称原語表記】Robust Intelligence, Inc.
(74)【代理人】
【識別番号】100073184
【弁理士】
【氏名又は名称】柳田 征史
(74)【代理人】
【識別番号】100175042
【弁理士】
【氏名又は名称】高橋 秀明
(74)【代理人】
【識別番号】100163050
【弁理士】
【氏名又は名称】小栗 眞由美
(74)【代理人】
【識別番号】100224775
【弁理士】
【氏名又は名称】南 毅
(72)【発明者】
【氏名】チェイス,ハリソン
(72)【発明者】
【氏名】大柴 行人
(72)【発明者】
【氏名】シンガー,ヤロン
(57)【要約】
人工知能(AI)モデルを安全に配備するための方法及びシステム。本システムはAIモデルの1つ以上の欠陥を特定し、その特定に基づいて前記AIモデルを外部データによって攻撃されることから保護できる。本システムは表形式データに基づく詐欺検出、音声認証、顔認識、物体検出、又はそれらの組み合わせに使用されうる。
【特許請求の範囲】
【請求項1】
人工知能(AI)モデルを安全に配備するための方法であって、
前記AIモデルの1つ以上の欠陥を特定するステップと、
前記特定するステップに基づいて前記AIモデルを外部データによって攻撃されることから保護するステップと
を含む方法。
【請求項2】
前記特定するステップは、模擬された攻撃データによる前記AIモデルへの1つ以上の攻撃を模擬することを含み、前記模擬することは、
複数の並列攻撃を模擬し、それらの攻撃に対する前記AIモデルの欠陥を組合わせアルゴリズムに基づいて特定するステップと、
前記AIモデルを再現するように構成された少なくとも1つの代替モデルを攻撃するステップと
のうち少なくとも1つを含む、請求項1記載の方法。
【請求項3】
前記代替モデルに供給される入力データをフィルタリング又は変更するステップと、
前記入力データにラベル付けするステップと、
前記代替モデルが改善された前記AIモデルとなるように前記ラベル付けされた入力データを使って前記代替モデルを訓練するステップと
を更に含む、請求項2記載の方法。
【請求項4】
前記特定するステップは、
モデル性能及び訓練データプロファイルの1つ以上のベースラインを確立するステップと、
前記確立するステップに基づいて前記AIモデルの性能と1つ以上の代替モデルを比較して前記AIモデル及び前記代替モデルからモデルを本稼働配備のために選択するステップと
を含み、
前記保護するステップは、前記外部データに関連する一人以上のユーザーを前記AIモデルへの前記ユーザーの問い合わせの挙動パターンに基づいて阻止することを含むか、又は
前記保護するステップは、前記AIモデルへの攻撃を検出するために最大エントロピー法を使用することを含み、前記最大エントロピー法は複数の検出器を生成すること及びそれらの応答を集約することを含む、請求項1~3のいずれかに記載の方法。
【請求項5】
前記外部データはユーザー商取引履歴、アカウント履歴、アカウントデータ、ユーザーデータ、商取引情報、又はそれらの組み合わせに関連する表形式データを含む、請求項1~4のいずれかに記載の方法。
【請求項6】
前記特定するステップは、1つ以上のデータ点を含むサンプル入力データと前記AIモデルに基づいて前記データ点に付けられたラベルを含むサンプル出力データとに基づき、前記各ラベルは前記データ点が不正か不正でないかの決定を含むか、又は
前記特定するステップは、状態空間を探索する高速サブモジュールサンプリングに基づく、請求項5記載の方法。
【請求項7】
前記保護するステップは、前記外部データが前記AIモデルを騙す1つ以上の攻撃を含むか否かを示すための警報レベルを前記特定するステップに基づいて生成することを含む、請求項5又は6記載の方法。
【請求項8】
前記外部データが不正である確率を生成するステップを更に含み、前記確率を生成するステップは2値分類のために1つ以上の機械学習(ML)枠組みを使用することを含み、前記ML枠組みは、ブーストツリー、神経回路網、又はそれらの組み合わせを含む、請求項5~7のいずれかに記載の方法。
【請求項9】
前記保護するステップは、
商取引に関連するデータフィードから前記外部データを受け取るステップであって、前記外部データは主体のリスク属性を規定する表形式データを含む、ステップと、
前記表形式データを入力形式に変換するステップと、
前記表形式データ内の1つ以上の要素の操作を特定し偽陽性結果を生成するステップと、
前記表形式データを操作されたデータセットとして拒絶するステップと
を含む、請求項5~8のいずれかに記載の方法。
【請求項10】
前記保護するステップは、
前記表形式データを含む前記外部データを受け取るステップと、
前記表形式データの操作を検出し偽陽性結果を特定するステップと、
前記偽陽性結果が前記AIモデル内で発生するだろうと判断するステップと、
前記AIモデルに警報し、人による見直しのために前記表形式データセットにフラッグを立てるステップと
を含む、請求項5~9のいずれかに記載の方法。
【請求項11】
前記外部データは音声データを含み、前記AIモデルは前記外部データが指定された人のであると分類されたか否かを検出するための音声認証モデルを含み、前記特定するステップ、前記保護するステップ、又はそれらの両方が、
2値分類機械学習モデルを訓練して前記音声データが偽ものか偽ものでないかを示す出力ラベルを生成すること、
畳み込み神経回路網ベース・アーキテクチャを前記検出のために使用すること、
前記検出に適した様々な音響特徴を抽出すること、又は
データ増強を使用して本物の音声データから合成音声データを生成すること
に基づく、請求項1~10のいずれかに記載の方法。
【請求項12】
前記特定するステップは、1つ以上のサンプル音声ファイルを含むサンプル入力データと前記AIモデルに基づいて前記サンプル音声ファイルに付けられたラベルを含むサンプル出力データとに基づき、前記各ラベルは一個人を示し、前記特定するステップは前記サンプル音声ファイルのうちの合成音声データを含み前記指定された人のであると前記AIモデルによって受け付けられた少なくとも1つを特定することを含むか、又は
前記特定するステップは第1の人の本物の音声データと加えられたノイズの両方を含む赤組音声ファイルを生成することを含み、前記ノイズは、前記AIモデルが前記選択されたサンプル音声ファイルを前記第1の人と違う第2の人のであると認識するよう構成されるように前記本物の音声データに加えられる、請求項11記載の方法。
【請求項13】
前記保護するステップは前記外部データに提示された声が合成か否かを検出することを含む、請求項11又は12記載の方法。
【請求項14】
前記外部データは少なくとも1つの画像ファイルを含み、前記AIモデルは前記画像ファイルが指定された人の顔を示すか否かを検出するための顔認識モデルを含み、前記特定するステップ、前記保護するステップ、又はそれらの両方が、
神経回路網ベース顔埋め込み、
顔画像をより低い次元の埋め込みに圧縮すること、
より低い次元の埋め込みを顔認識のためにカテゴリーに分けること、
顔画像にノイズを加えることで前記AIモデルを攻撃すること、又は
敵対的生成ネットワークを使用することで、ノイズから特定の顔画像を取り出す神経回路網
に基づく、請求項1~13のいずれかに記載の方法。
【請求項15】
前記特定するステップは、1つ以上の顔のサンプル画像ファイルを含むサンプル入力データと前記AIモデルに基づいて前記サンプル画像ファイルに付けられたラベルを含むサンプル出力データとに基づき、前記各ラベルは一個人を示し、前記特定するステップは前記サンプル画像ファイルのうちの前記AIモデルによって誤分類された少なくとも1つを特定することを含むか、又は
前記特定するステップは対象の人の1つ以上の画像に基づいて少なくとも部分的に写真のようにリアルな1つ以上の画像を生成することを含む、請求項14記載の方法。
【請求項16】
前記外部データは前記画像に付けられたラベルを更に含み、前記保護するステップは前記ラベルが前記画像に正しく付けられているかを示すことを含むか、又は
前記保護するステップは前記画像ファイル内の顔が本物か機械生成されたかを示すことを含む、請求項14又は15記載の方法。
【請求項17】
前記外部データは少なくとも1つの画像を含み、前記AIモデルは前記画像内の少なくとも1つの物体を分類するための物体検出モデルを含む、請求項1~16のいずれかに記載の方法。
【請求項18】
前記特定するステップは、1つ以上のサンプル画像ファイルを含むサンプル入力データと、1つ以上の物体と前記各サンプル画像ファイル内のそれらの位置とを含むサンプル出力データとに基づき、前記特定するステップは前記サンプル画像ファイルのうちの前記AIモデルによって誤分類された少なくとも1つを特定することを含むか、又は
前記特定するステップは前記AIモデルが誤分類するように操作された画像を生成することを含む、請求項17記載の方法。
【請求項19】
前記保護するステップは前記画像がデジタル敵対的攻撃、物理的敵対的攻撃、又はそれらの組み合わせにより前記AIモデルを騙すように操作されているかを示すことを含む、請求項17又は18記載の方法。
【請求項20】
人工知能(AI)モデルを安全に配備するためのシステムであって、
少なくとも1つのハードウェアプロセッサと、
命令群を記憶する持続性コンピュータ読取可能媒体と
を備え、前記命令群は前記少なくとも1つのハードウェアプロセッサによって実行されると前記少なくとも1つのハードウェアプロセッサに
前記AIモデルの1つ以上の欠陥を特定するステップと、
前記特定するステップに基づいて前記AIモデルを外部データによって攻撃されることから保護するステップと
を含む動作を実行させる、システム。
【発明の詳細な説明】
【関連出願】
【0001】
本出願は、2021年2月25日に出願された米国仮特許出願第63/153667号に対する優先権を主張する。その開示全体を全ての目的のために本明細書に引用する。
【技術分野】
【0002】
開示される実施形態は、人工知能(AI)に概ね関し、特に、AIモデルを安全に配備するための方法及びシステムに関するがこれに限られない。
【背景技術】
【0003】
人工知能(AI)は多くの産業において普及しつつある。しかし、自動化の利益はAIに本質的な脆弱性を容易に隠しうり、現在のAI開発実行はしばしば組織をシステミックリスクに曝す。AIの研究は前進し大きな飛躍をしつつあるが、AI技術の保全性及び信頼性は後に残されている。「AI攻撃」が新しいタイプのデータ攻撃として市場で発生している。コードのバグ又は人的ミスによって引き起こされる従来のサイバー攻撃と違って、AI攻撃は基礎を成すAIアルゴリズムの容易には検出も修正もされえない本質的な限界によって可能にされる。AI脆弱性は、組織の中核AI能力の開発に労力を費やすのでなく、データ科学チームがAIの使用に関連する無数の脆弱性に対処するためにその場しのぎの解決策を考え出すのに貴重な開発サイクルを費やしていることを意味する。
【0004】
AI技術は電子メールスパム、金融詐欺、又は偽アカウント生成などの初期のやり方で攻撃されてきた。しかし、これらの事例を越えて、近年のAIの採用、自動攻撃、及び産業の実践はAI保全性を更により緊急の問題にする。例えば、AIは主要な消費者向け技術企業以外の産業内に急速に広がっている。スパム及びクリック詐欺に対する保護はかつては大きなインターネットサービス提供会社に特有の問題であったが、今は全てのビジネス、例えば銀行、保険会社、行政の問題である。また、AIシステムを攻撃するための方法は急速に進歩している。今は、詐欺師はAIにアルゴリズム攻撃を実行している。それらの攻撃は自動化され、詐欺師が防御更新にずっとより速く対抗するのを可能にする。それらの攻撃はAIモデルを騙すだけでなく、機密ユーザーデータ又はAIシステムに関する情報を盗むのにも使用されうる。更にまた、AI産業における新しい動向は、多くの開発者及び研究者が彼らの最先端の「事前訓練された」モデル及びデータセットを公に利用可能にしていること、及び多くの会社がデータを集めラベル付けするのにクラウドソーシングに頼っていることを含む。このような動向は詐欺師及び敵対者がマルウェアモデルを広げる又はモデル開発に使用されるデータを汚染するのをかなりより容易にする。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記状況を考慮すると、AIモデルの安全な配備のための改善されたシステム及び方法であって、既存の解決策の欠点を克服するシステム及び方法が必要とされている。
【課題を解決するための手段】
【0006】
本書に開示された第1態様によれば、人工知能(AI)モデルを安全に配備するための方法が明記され、本方法は
前記AIモデルの1つ以上の欠陥を特定するステップと、
前記特定するステップに基づいて前記AIモデルを外部データによって攻撃されることから保護するステップと
を含む。
【0007】
開示された方法の幾つかの実施形態では、前記特定するステップは、模擬された攻撃データによる前記AIモデルへの1つ以上の攻撃を模擬することを含み、前記模擬することは、
複数の並列攻撃を模擬し、それらの攻撃に対する前記AIモデルの欠陥を組合わせアルゴリズムに基づいて特定するステップと、
前記AIモデルを再現するように構成された少なくとも1つの代替モデルを攻撃するステップと
のうち少なくとも1つを含む。
【0008】
開示された方法の幾つかの実施形態では、本方法は
前記代替モデルに供給される入力データをフィルタリング又は変更するステップと、
前記入力データにラベル付けするステップと、
前記代替モデルが改善された前記AIモデルとなるように前記ラベル付けされた入力データを使って前記代替モデルを訓練するステップと
を更に含む。
【0009】
開示された方法の幾つかの実施形態では、前記特定するステップは、
モデル性能及び訓練データプロファイルの1つ以上のベースラインを確立するステップと、
前記確立するステップに基づいて前記AIモデルの性能と1つ以上の代替モデルを比較して前記AIモデル及び前記代替モデルからモデルを本稼働配備のために選択するステップと
を含み、
前記保護するステップは、前記外部データに関連する一人以上のユーザーを前記AIモデルへの前記ユーザーの問い合わせの挙動パターンに基づいて阻止することを含むか、又は
前記保護するステップは、前記AIモデルへの攻撃を検出するために最大エントロピー法を使用することを含み、前記最大エントロピー法は複数の検出器を生成すること及びそれらの応答を集約することを含む。
【0010】
開示された方法の幾つかの実施形態では、前記外部データはユーザー商取引履歴、アカウント履歴、アカウントデータ、ユーザーデータ、商取引情報、又はそれらの組み合わせに関連する表形式データを含む。
【0011】
開示された方法の幾つかの実施形態では、
前記特定するステップは、1つ以上のデータ点を含むサンプル入力データと前記AIモデルに基づいて前記データ点に付けられたラベルを含むサンプル出力データとに基づき、前記各ラベルは前記データ点が不正か不正でないかの決定を含むか、又は
前記特定するステップは、状態空間を探索する高速サブモジュールサンプリングに基づく。
【0012】
開示された方法の幾つかの実施形態では、前記保護するステップは、前記外部データが前記AIモデルを騙す1つ以上の攻撃を含むか否かを示すための警報レベルを前記特定するステップに基づいて生成することを含む。
【0013】
開示された方法の幾つかの実施形態では、本方法は前記外部データが不正である確率を生成するステップを更に含み、前記確率を生成するステップは2値分類のために1つ以上の機械学習(ML)枠組みを使用することを含み、前記ML枠組みは、ブーストツリー、神経回路網、又はそれらの組み合わせを含む。
【0014】
開示された方法の幾つかの実施形態では、前記保護するステップは、
商取引に関連するデータフィードから前記外部データを受け取るステップであって、前記外部データは主体のリスク属性を規定する表形式データを含む、ステップと、
前記表形式データを入力形式に変換するステップと、
前記表形式データ内の1つ以上の要素の操作を特定し偽陽性結果を生成するステップと、
前記表形式データを操作されたデータセットとして拒絶するステップと
を含む。
【0015】
開示された方法の幾つかの実施形態では、前記保護するステップは、
前記表形式データを含む前記外部データを受け取るステップと、
前記表形式データの操作を検出し偽陽性結果を特定するステップと、
前記偽陽性結果が前記AIモデル内で発生するだろうと判断するステップと、
前記AIモデルに警報し、人による見直しのために前記表形式データセットにフラッグを立てるステップと
を含む。
【0016】
開示された方法の幾つかの実施形態では、前記外部データは音声データを含み、前記AIモデルは前記外部データが指定された人のであると分類されたか否かを検出するための音声認証モデルを含み、前記特定するステップ、前記保護するステップ、又はそれらの両方が、
2値分類機械学習モデルを訓練して前記音声データが偽ものか偽ものでないかを示す出力ラベルを生成すること、
畳み込み神経回路網ベース・アーキテクチャを前記検出のために使用すること、
前記検出に適した様々な音響特徴を抽出すること、又は
データ増強を使用して本物の音声データから合成音声データを生成すること
に基づく。
【0017】
開示された方法の幾つかの実施形態では、
前記特定するステップは、1つ以上のサンプル音声ファイルを含むサンプル入力データと前記AIモデルに基づいて前記サンプル音声ファイルに付けられたラベルを含むサンプル出力データとに基づき、前記各ラベルは一個人を示し、前記特定するステップは前記サンプル音声ファイルのうちの合成音声データを含み前記指定された人のであると前記AIモデルによって受け付けられた少なくとも1つを特定することを含むか、又は
前記特定するステップは第1の人の本物の音声データと加えられたノイズの両方を含む赤組音声ファイルを生成することを含み、前記ノイズは、前記AIモデルが前記選択されたサンプル音声ファイルを前記第1の人と違う第2の人のであると認識するよう構成されるように前記本物の音声データに加えられる。
【0018】
開示された方法の幾つかの実施形態では、前記保護するステップは前記外部データに提示された声が合成か否かを検出することを含む。
【0019】
開示された方法の幾つかの実施形態では、前記外部データは少なくとも1つの画像ファイルを含み、前記AIモデルは前記画像ファイルが指定された人の顔を示すか否かを検出するための顔認識モデルを含み、前記特定するステップ、前記保護するステップ、又はそれらの両方が、
神経回路網ベース顔埋め込み、
顔画像をより低い次元の埋め込みに圧縮すること、
より低い次元の埋め込みを顔認識のためにカテゴリーに分けること、
顔画像にノイズを加えることで前記AIモデルを攻撃すること、又は
敵対的生成ネットワークを使用することで、ノイズから特定の顔画像を取り出す神経回路網
に基づく。
【0020】
開示された方法の幾つかの実施形態では、
前記特定するステップは、1つ以上の顔のサンプル画像ファイルを含むサンプル入力データと前記AIモデルに基づいて前記サンプル画像ファイルに付けられたラベルを含むサンプル出力データとに基づき、前記各ラベルは一個人を示し、前記特定するステップは前記サンプル画像ファイルのうちの前記AIモデルによって誤分類された少なくとも1つを特定することを含むか、又は
前記特定するステップは対象の人の1つ以上の画像に基づいて少なくとも部分的に写真のようにリアルな1つ以上の画像を生成することを含む。
【0021】
開示された方法の幾つかの実施形態では、
前記外部データは前記画像に付けられたラベルを更に含み、前記保護するステップは前記ラベルが前記画像に正しく付けられているかを示すことを含むか、又は
前記保護するステップは前記画像ファイル内の顔が本物か機械生成されたかを示すことを含む。
【0022】
開示された方法の幾つかの実施形態では、前記外部データは少なくとも1つの画像を含み、前記AIモデルは前記画像内の少なくとも1つの物体を分類するための物体検出モデルを含む。
【0023】
開示された方法の幾つかの実施形態では、
前記特定するステップは、1つ以上のサンプル画像ファイルを含むサンプル入力データと、1つ以上の物体と前記各サンプル画像ファイル内のそれらの位置とを含むサンプル出力データとに基づき、前記特定するステップは前記サンプル画像ファイルのうちの前記AIモデルによって誤分類された少なくとも1つを特定することを含むか、又は
前記特定するステップは前記AIモデルが誤分類するように操作された画像を生成することを含む。
【0024】
開示された方法の幾つかの実施形態では、前記保護するステップは前記画像がデジタル敵対的攻撃、物理的敵対的攻撃、又はそれらの組み合わせにより前記AIモデルを騙すように操作されているかを示すことを含む。
【0025】
本書に開示された別の態様によれば、人工知能(AI)モデルを安全に配備するためのシステムが明記され、本システムは
少なくとも1つのハードウェアプロセッサと、
命令群を記憶する持続性コンピュータ読取可能媒体と
を備え、前記命令群は前記少なくとも1つのハードウェアプロセッサによって実行されると前記少なくとも1つのハードウェアプロセッサに
前記AIモデルの1つ以上の欠陥を特定するステップと、
前記特定するステップに基づいて前記AIモデルを外部データによって攻撃されることから保護するステップと
を含む動作を実行させる。
【0026】
本発明の追加の特徴は、添付図面と併せて下記の詳細な説明からより容易に明らかとなろう。
【図面の簡単な説明】
【0027】
図1】AIモデルをAI動作環境内に安全に配備するためのモデル保全システムの代表的な実施形態を示す略図である。
図2図1のモデル保全システムを使用するAIモデルを安全に配備するための方法の代表的な実施形態を示すフローチャートである。
図3図1のシステムの代替の代表的な実施形態を示す略図であり、このシステムはサンプル入力データを受信するためのモデル評価エンジンを備える。
図4図1のシステムの別の代替の代表的な実施形態を示す略図であり、このシステムは外部データを受信するためのファイアウォールを備える。
図5図1のシステムの別の代替の代表的な実施形態を示す略図であり、このシステムは外部データを受信するための詐欺検出エンジンを備える。
図6図3のシステムの代替の代表的な実施形態を示す略図であり、サンプル入力データは表形式データを含む。
図7図4のシステムの代替の代表的な実施形態を示す略図であり、外部データは表形式データを含む。
図8図5のシステムの代替の代表的な実施形態を示す略図であり、外部データは表形式データを含む。
図9図3のシステムの別の代替の代表的な実施形態を示す略図であり、サンプル入力データは音声データを含む。
図10図4のシステムの別の代替の代表的な実施形態を示す略図であり、外部データは音声データを含む。
図11図3のシステムの別の代替の代表的な実施形態を示す略図であり、サンプル入力データは1つ以上の顔認識用画像を含む。
図12図4のシステムの別の代替の代表的な実施形態を示す略図であり、外部データは1つ以上の顔認識用画像を含む。
図13図3のシステムの別の代替の代表的な実施形態を示す略図であり、サンプル入力データは1つ以上の物体検出用画像を含む。
図14図4のシステムの別の代替の代表的な実施形態を示す略図であり、外部データは1つ以上の物体検出用画像を含む。
図15図1のモデル保全システムの代表的なデータ処理を示す略図である。
図16図1のモデル保全システムの代表的な訓練を示す略図である。
図17図1のシステムの別の代替の代表的な実施形態を示す略図であり、このシステムは殺菌剤マシンを備える。
図18図1のモデル保全システムを実現するためのソフトウェアアーキテクチャの代表的な実施形態を示す略図である。
図19図1のモデル保全システムを実現するためのマシンの代表的な実施形態を示す略図である。
【0028】
図は一定の縮尺で描かれておらず、説明の目的のために全ての図を通して類似の構造又は機能の要素は類似の符号で概ね表されることに注意されたい。また、図は好適な実施形態の説明を容易にするようにだけ意図されていることにも注意されたい。図は説明される実施形態の全ての態様は示しておらず、本開示の範囲を限定しない。
【発明を実施するための形態】
【0029】
機械学習(ML)アルゴリズムは商用AIプラットフォームへの攻撃に対して防御するのに使用されてきた。機械学習アルゴリズムは幾つかの場合、初期に組織によって使用された、人による見直し及びルールベース方法より良い。しかし、柔軟性及び包括性の欠如、大きな訓練データセットの欠如、及びデータ及びデータフィード内の繋がりの認識不足の故に、既存の機械学習手法はAIモデルを防御するための容量が制限されている。より具体的には、既存のMLモデルは実世界データ分布ドラフトの基本的な変化及び/又はデータ概念ドリフトに非常に敏感であるという短所を有する。既存のMLモデルは非常に複雑なシステム内で不可避なデータ誤りに非常に敏感であるという別の短所を有する。上述したそれらの分野における研究の欠如は商用AIシステムを弱点利用に脆弱にする。
【0030】
商用AIシステムへの既存の安全性脅威への解決策であって、詐欺検出システムが、商用AIシステムの実験又は部分的知識によって発見されるかも知れない弱点利用にパッチを当てるためにほぼ連続する一組の試験をどのように要求するかを理解することを含む解決策が必要とされる。不幸にも、大多数の従来のAIシステムは詐欺を防止するよう設計されておらず、しばしば他の弱点利用を発生時に捉え阻止するのに十分柔軟でありえない。多くのAIシステム弱点利用は、単一のデータフィード弱点利用ではなく複数の独立したデータフィードに亘る小さな乱れを中心とする。データフィードは巧妙な不正操作を検出するのを助ける複数の相互連結を通常有する。
【0031】
AIモデルを配備するための現在入手可能なシステム及び方法はAIモデルの脆弱性を検出できず、AI攻撃に対して効果的に防御できないので、AIモデルを安全に配備するための改善されたシステム及び方法であって、上述した欠点を克服できるシステム及び方法は、望ましいと判明し、広範囲の用途、例えば商用AIの攻撃からの積極防御、金融及び/又は電子商取引会社のための詐欺検出(又はそれらの会社の詐欺検出AIモデルを保護すること)、生体認証、保全システムのための物体検出、及び/又は自律車両などのための基盤を提供しうる。
【0032】
図1はAIモデル300をAI動作環境100内に安全に配備するためのモデル保全システム200の概略図である。AIモデル300は、同じ情報から専門家がするであろう決定をその情報に基づいて複製するようにデータ及び/又は人専門家入力を使って訓練される1つ以上のコンピュータ実行数学的アルゴリズムを含みうる。代表的なAIモデル300はこれらに限定されないが、専門家システム、場合ベース推論、行動ベース人工知能、進化的計算法、分類器、統計モデル、確率モデル、神経回路網、決定木、隠れたマルコフモデル、サポートベクターマシン、ファジイ論理、ベイズ分類器、又はこれらの任意の組み合わせを含みうる。
【0033】
モデル保全システム200はモデル評価エンジン220及びファイアウォール240を備えるとして示されている。モデル評価エンジン220はAIモデル300の1つ以上の欠陥(及び/又は脆弱性)を特定するように構成されうる。少し異なる言い方では、モデル評価エンジン220はAIモデル300を攻撃できるデータを決定できる。AIモデル300を攻撃することはAIモデル300を騙すことを含みうる。少し異なる言い方では、攻撃は、AIモデル300を騙し誤った決定を下させること、AIモデルが不正なデータを不正でないデータと認識させること、合成(又は偽造された又は改竄された)データを真正のデータと認識させること、又はそれらの組み合わせを含みうる。攻撃はAIモデル300を攻撃するように構成されたデータを含みうる。1つの実施形態では、モデル評価エンジン220はAIモデル300の脆弱性を要約する報告を出力しうる。
【0034】
ファイアウォール240は、モデル評価エンジン220によって特定された欠陥に基づいてAIモデル300を外部データ400によって騙されることから保護できる。外部データ400は、ファイアウォール240が確立されていない場合にAIモデル300に入力されるどんなデータも含みうる。少し異なる言い方では、ファイアウォール240はモデル評価エンジン220によって特定された抜け穴にパッチを当て、外部データ400とAIモデル300の間の追加の保全層を作りうる。幾つかの実施形態では、ファイアウォール240は外部データ400内に攻撃を検出すると警報を生成できる。様々な実施形態では、ファイアウォール240は、外部データ400に誤り又は何らかで非最適であるとフラッグを立てる能力を有しうる。加えて及び/又は或いは、ファイアウォール240はAIモデル300が訓練された訓練データを自動的にプロファイルすることで、外部データ400内の誤りにフラッグを立てることができる。従って、訓練データの分布の外であると見える外部データ400のどれでも特定されうる。加えて及び/又は或いは、ファイアウォール240はAIモデル300が正しい予測を与えそうにない外部データ400にフラッグを立てることができる。加えて及び/又は或いは、ファイアウォール240は外部データ400のプロファイルに応答してAIモデル300の性能を改善する是正措置の提案をユーザーに提供できる。
【0035】
幾つかの実施形態では、モデル保全システム200はアプリケーション・プログラミング・インターフェース(API)によって少なくとも部分的に駆動され、AIモデル300の前の外部データ400のデータ供給路に挿入されうる。モデル保全システム200はクリーンで弱点利用のないデータをAIモデル300に返し及び/又は出力しうる。様々な実施形態では、AIモデル300はそのままでも及び/又は変更されなくてもよい。有利にも、モデル保全システム200はAIモデル300をAIモデル300の大規模な更新なしに保護できる。
【0036】
図1は例示目的だけのためにモデル評価エンジン220及びファイアウォール240を別々のユニットであるとして示しているが、モデル評価エンジン220及びファイアウォール240は少なくとも部分的に制限なく統合及び/又は組み合わされうる。例えば、モデル評価エンジン220及びファイアウォール240はそれぞれコンピュータハードウェア、ファームウェア、及び/又はソフトウェアで実現されうる。従って、モデル評価エンジン220及びファイアウォール240は1つ以上のコンピュータシステム上に記憶されたコード化された命令として実現されうる。モデル評価エンジン220及びファイアウォール240に関連するコード化された命令群は別々の及び/又は統合されたプログラムのでありえ、モデル評価エンジン220及びファイアウォール240は別々のハードウェアで必ずしも実現されない。
【0037】
図2を参照すると、AIモデル300を安全に配備するための代表的な方法700が示されている。AIモデル300の1つ以上の欠陥がステップ710で特定されうる。様々な実施形態では、モデル評価エンジン220(図1に示す)がステップ710を実行できる。
【0038】
AIモデル300はステップ720において、ステップ710での特定に基づき外部データ400(図1に示す)による攻撃から保護されうる。様々な実施形態では、ファイアウォール240(図2に示す)はステップ720を実行しうる。ファイアウォール240による保護は有利にもAIモデル300用にカスタマイズされ、従って効果的でありうる。既存の脆弱性評価ツールと比較して、モデル評価エンジン220はMLモデルの脆弱性をより広範囲に測定しうり、モデル評価エンジン220の包括的一組のストレス試験がずっとより多くのエッジケースを試験しAIモデル300のずっとより多くの弱点を特定できる。
【0039】
図3を参照すると、モデル評価エンジン220の動作を例示する代表的な図が示されている。幾つかの実施形態では、モデル評価エンジン220は模擬攻撃データ222を決定できる。模擬攻撃データ222はAIモデル300を攻撃できるどんなデータも含みうる。モデル評価エンジン220は模擬攻撃データ222を人である操作員(例えば、技術者及び/又はデータ科学者)及び/又はコンピュータシステムに出力できる。
【0040】
モデル評価エンジン220はAIモデル300に関連するサンプル入力データ320及びサンプル出力データ340を受信するとして示されている。サンプル入力データ320はAIモデル300の試用及び/又は実際の使用時にAIモデル300に入力されるどんなデータも含みうる。代表的なサンプル入力データ320は表形式データ、生体データ、音声ファイル、顔画像、物体画像などを含みうる。サンプル出力データ340はサンプル入力データ320に基づくAIモデル300の決定を含むデータを含みうる。代表的なサンプル出力データ340はサンプル入力データ320が不正か否かの推断、音声ファイル及び/又は顔画像に関連する人を示すラベル(及び/又は分類)、物体画像内で検出された物体(及びその場所)などを含みうる。
【0041】
加えて及び/又は或いは、モデル評価エンジン220は、例えば特定のデータをAIモデル300に入力してAIモデル300の脆弱性を露出させることを含む完全な分析のためにAIモデル300と直接対話できるように、AIモデル300にアクセスできる。例えば、モデル評価エンジン220はAIモデル300へのブラックボックス及び/又はAPIアクセスをすることができる。ブラックボックスアクセスは、モデル評価エンジン220が機能(入力及び出力)をAIモデル300の内部構造又は機構にアクセスすることなく検査するのを許すアクセスを含みうる。
【0042】
様々な実施形態では、モデル評価エンジン220は、サンプル入力データ320及びサンプル出力データ340に少なくとも部分的に基づいて模擬攻撃データ222を決定しうる。1つの実施形態では、模擬攻撃データ222はサンプル入力データ320の少なくとも一部を含みうる。少し異なる言い方をすると、モデル評価エンジン220はAIモデル300を攻撃できる及び/又は攻撃したサンプル入力データ320を特定できる。別の実施形態では、モデル評価エンジン220はサンプル入力データ320の一部ではない模擬攻撃データ222を生成できる。
【0043】
1つの実施形態では、モデル評価エンジン220はAIモデル300への1つ以上の攻撃を模擬攻撃データ222を使って模擬できる。従って、モデル評価エンジン220は模擬攻撃データ222がAIモデル300をうまく攻撃できることを確認できる。1つの例では、モデル評価エンジン220は模擬攻撃データ222をAIモデル300に入力しAIモデル300の出力に基づいて模擬攻撃データ222がAIモデル300を攻撃するか否か及び/又はどのように攻撃するかを分析できる。別の例では、モデル評価エンジン220は模擬攻撃データ222をAIモデル300の代わりである代理モデル(不図示)に入力し代理モデルの出力に基づいて模擬攻撃データ222がAIモデル300を攻撃するか否か及び/又はどのように攻撃するかを分析できる。別の実施形態では、モデル評価エンジン220は、AIモデル300又は代理モデルに必ずしも入力することなく模擬攻撃データ222を決定できる。
【0044】
様々な実施形態では、モデル評価エンジン220は並行攻撃を組合わせアルゴリズムのために使用できる。例えば、幾つかの攻撃は、非決定性多項式時間(NP)困難である組合わせアルゴリズムを含みうる。モデル評価エンジン220は組合わせアルゴリズムの問題を並列化を使って解決できる。1つの実施形態では、モデル評価エンジン220は複数のデータ点(例えば、模擬攻撃データ222及び/又はサンプル入力データ320内の)の1サンプルについて複数の特徴値を同時に活発に変更できる試験を実行して本稼働(例えば、外部データ400との相互作用)におけるそのような変更に遭遇する影響を推定できる。
【0045】
様々な実施形態では、上述したように、モデル評価エンジン220は代理モデルを攻撃のために使用できる。少し異なる言い方をすると、モデル評価エンジン220は模擬攻撃を受けうるAIモデル300を少なくとも部分的に複製できる。
【0046】
様々な実施形態では、代理モデルは補正レンズとして使用されうる。少し異なる言い方をすると、モデル評価エンジン220はAIモデル300を改善及び/又はカスタマイズできる。例えば、モデル保全システム200はAIモデル300に供給される及び/又は巻き付けられた入力データをフィルターし追加のラベル付けをしてそれらのラベルを使ってAIモデル300より良い可能性のあるモデルを訓練する。言い換えると、モデル保全システム200は論理フィルターを提供して入力データを整理しユーザーに通知する。加えて及び/又は或いは、モデル保全システム200は入力データを変更しユーザーに通知できる。
【0047】
様々な実施形態では、モデル評価エンジン220は基準モデル検出を使用できる。様々な実施形態では、モデル評価エンジン220はモデル性能及び訓練データプロファイル(範囲、タイプなど)のベースラインを確立できる。ベースラインを使用することで、モデル保全システム200及び/又は操作員は複数のAIモデル300の性能を比較し本稼働配備のための最良モデルを決定できる。
【0048】
前述したように、詐欺師はしばしばAIモデル300を騙そうと試みる。従って、詐欺師及び開発者は常に進化している追いつ追われつのゲームをする。少し異なる言い方をすると、詐欺検出会社はAIモデル300を作成する。詐欺師は最初は阻止されるが、結局は回避できる。詐欺検出会社はAIモデル300を再訓練して新しいタイプの詐欺を捉え、詐欺師は再び阻止され、回避するよう再び働かなければならない。モデル評価エンジン220は有利にもAIモデル300の脆弱性を詐欺師がする前に発見するAIモデル評価の唯一の解決策でありうり、AIモデル300が将来タイプの攻撃から防御するのを可能にする。
【0049】
図4を参照すると、AI動作環境100の更なる詳細が示されている。ファイアウォール240は外部データ400の攻撃からAIモデル300を防御できる。例えば、ファイアウォール240は外部データ400がAIモデル300を騙すように操作されているか判断できる。
【0050】
様々な実施形態では、ファイアウォール240は類似のデータ要求を検出することで、AIモデル300を防御できる。少し異なる言い方をすると、ファイアウォール240は悪意のあるユーザーをAIモデル300への問い合わせの挙動パターンに基づいて阻止できる。
【0051】
様々な実施形態では、ファイアウォール240は攻撃を検出するために最大エントロピー法を使用できる。少し異なる言い方をすると、ファイアウォール240は複数の検出器を作成しそれらの応答を集約できる。
【0052】
様々な実施形態では、ファイアウォール240は検出エンジン260(図5に示す)として機械学習モデルを使用できる。
【0053】
図5を参照すると、モデル保全システム200が詐欺検出エンジン260を含むとして示されている。詐欺検出エンジン260は外部データ400を受信し外部データ400が攻撃を含むかを判断できる。幾つかの実施形態では、詐欺検出エンジン260はAPIの形態の、終端間に容易にプラグ接続可能なエンジンを含みうる。そのAPIは外部データ400を取り込み、様々な特徴工作手法を自動的に適用し、外部データ400が詐欺であるか詐欺でないかの推断を出力できる。
【0054】
詐欺検出エンジン260を含むことで、モデル保全システム200はモデル評価エンジン220又はファイアウォール240を任意選択で含みうる。しかし、モデル保全システム200はモデル評価エンジン220及びファイアウォール240の両方又は一方を含むか又はいずれも含まなくてもよい。様々な実施形態では、詐欺検出エンジン260はAIモデル300を必要としない単独システムとして詐欺を検出するように機能しうる。しかし、 様々な実施形態では、詐欺検出エンジン260を開発するためのプロセスは、モデル保全システム200及び/又はその任意の部品のAIモデル300との相互作用に少なくとも部分的に基づいてもよい。
【0055】
表形式データに基づく詐欺検出
モデル保全システム200は様々な分野で適用されうる。代表的な分野は商取引詐欺、例えば不正な情報を使って商取引を行う場合である。モデル保全システム200は金融機関及び電子商取引会社両方によってクレジット及びデビットカード支払い、銀行預金口座支払い、電子支払い、及び携帯財布支払いにおいて広範囲に使用されうる。
【0056】
別の代表的な分野は口座乗っ取り詐欺、例えば詐欺師が別のユーザーの預金口座に悪意を持ってアクセスする場合である。モデル保全システム200は金融機関及び電子商取引会社両方によって広範囲に使用されうる。
【0057】
更に別の代表的な分野は商取引詐欺に類似するが追加の情報を伴う小切手詐欺である。モデル保全システム200に、例えば問題の小切手の画像及び/又は商取引記録履歴を入力しうる。
【0058】
モデル保全システム200が使用する手法は一般的な表形式データ問題にも適用されうる。
【0059】
図6を参照すると、サンプル入力データ320が表形式データを含むとして示されている。表形式データは行及び/又は列に構成された情報を含みうる。典型的な表形式データは数字、アルファベット、文字、記号などの形態でありうる。従って、AIモデル300は外部データ400(図7に示す)内の不正を検出するための詐欺検出モデルを含みうる。
【0060】
1つの実施形態では、サンプル入力データ320は1つ以上のデータ点を含みうる。各データ点はユーザー、アカウント、商取引、又はそれらの組み合わせに関連する一組の表形式データを含みうる。サンプル出力データ340はAIモデル300に基づいてデータ点に付けられるラベルを含みうる。例えば、各ラベルはそのデータ点が詐欺か詐欺でないかの決定を含みうる。加えて及び/又は或いは、モデル評価エンジン220はAIモデル300にアクセスできる。1つの実施形態では、モデル評価エンジン220はAIモデル300の脆弱性をまとめた報告を出力しうる。
【0061】
様々な実施形態では、モデル評価エンジン220は詐欺師として働く自動エンジンを含みうる。モデル評価エンジン220は詐欺師が試みることがある攻撃を模擬し、詐欺師がする前に脆弱性を発見できる。
【0062】
様々な実施形態では、AIモデル300は表形式データに基づくので、モデル評価エンジン220は異なる列に亘る特徴依存を知ることで、攻撃を模擬する様々な手法を使用できる。
【0063】
様々な実施形態では、モデル評価エンジン220は表形式データに対してアルゴリズム攻撃を使用できる。1つの実施形態では、モデル評価エンジン220は高速サブモジュールサンプリングを使用して状態空間を探索できる。
【0064】
様々な実施形態では、モデル評価エンジン220は特徴依存を扱うために新規の方法を適用できる。
【0065】
様々な実施形態では、モデル評価エンジン220は分類別特徴を扱うために新規の方法を適用できる。
【0066】
様々な実施形態では、モデル評価エンジン220はAIモデル300の脆弱性を発見するために複数のアルゴリズムを使用できる。敵対的MLが研究されてきたが、モデル評価エンジン220によるMLの詐欺検出への適用は、少なくとも、モデル評価エンジン220が必ずしも画像を含まない表形式データで訓練されたAIモデル300を攻撃するので、独自である。表形式データは既存の手法によってまだ対処されていない様々な複雑化要因を提示しうる。複雑化要因は、例えば部類別変数及び/又は特徴依存を含む。少なくともモデル評価エンジン220はそのような複雑化要因に対処するので、モデル評価エンジン220は新規である。
【0067】
図7を参照すると、外部データ400は表形式データを含みうる。1つの実施形態では、ファイアウォール240は外部データ400がモデル評価エンジン220によって特定されている何か攻撃を含むかを示しうる。従って、ファイアウォール240は警報のカスタマイズされたレベル群に基づいて選択されたレベルの警報を生成できる。例えば、警報のカスタマイズされたレベル群は重大さ及び/又はユーザー好みに基づいて決定されうる。
【0068】
様々な実施形態では、ファイアウォール240はモデル評価エンジン220が特定した抜け穴にパッチを当て、AIモデル300の前に位置する追加の保全層を生成できる。少し異なる言い方をすると、外部データ400はAIモデル300を通る前に先ずファイアウォール240を通りうる。ファイアウォール240が攻撃などの疑わしいデータを外部データ400内に検出すると、ファイアウォール240はその疑わしいデータにフラッグを立てうる。ファイアウォール240は詐欺師の動的に進化する行動に対して技術者及び/又はデータ科学者に詐欺検出を最新に保つように警報を出しうる。
【0069】
図8を参照すると、詐欺検出エンジン260が表形式データを含む外部データ400を受信しているとして示されている。代表的な外部データ400はユーザー商取引履歴、ユーザーデータ、アカウント履歴、アカウントデータ、商取引情報、又はそれらの組み合わせを含みうる。1つの実施形態では、詐欺検出エンジン260は外部データ400が不正である確率を出力できる。
【0070】
様々な実施形態では、詐欺検出エンジン260は2値分類のためのML枠組みを使用できる。代表的なML枠組みは、ブーストツリー、神経回路網などを含みうる。2値分類モデルは様々な生及び/又は加工された特徴で訓練されうる。2値分類モデルはAPIを介して露出され、2値分類モデルに要求されたデータを送信することで呼び出されうる。基底の2値分類モデルは深層学習手法を使ってより正確な結果を達成できる。APIは明確に単純で使い易いように設計されうる。
【0071】
様々な実施形態では、詐欺検出エンジン260は特徴設計及び/又は特徴選択を使用できる。1つの実施形態では、詐欺検出エンジン260はユーザーデータに基づくどのユーザーデータが詐欺を検出するために関係するかを選択するための特徴を含みうる。
【0072】
音声認証
音声認証は生体認証システムの一形態であり、個人の入力音声をその人の登録された音声と比較して音声が類似しているか認証し検証する。音声認証は声紋を(例えば、声の複数の主要特性を音声波形として)抽出し様々な音響統計的手法を使って類似性を測定することで行われうる。
【0073】
音声認証はコールセンター、消費者銀行及びスマートホーム装置のためのユーザー認証などの場所で使用されうる。音声認証の手を使わない性質及び組み込み易さ(例えば、カメラを必要とせず電話で可能)は音声認証を有用にする。
【0074】
しかし、音声認証は様々な形態の攻撃に脆弱である。例えば、詐欺師はその人として認証されたいと望む人の声をまねることができる。まねることは(1)才能のある声優がその被害者の声をまねる、又は(2)その被害者の声を記録し音声認証システムの前で再生する(再生攻撃)の形態でありうる。しかし、まねることは難しい、なぜなら(1)の場合、適切な人材を見つけることを必要とする手作業であり、(2)の場合、動的会話又は特定の語句を必要とする音声認証では、記録された声を使用するのは困難であるからである。
【0075】
最近、音声詐欺は音声合成を益々使用するようになっている。音声合成は誰かの音声記録から偽の音声を生成する技術である。技術の最近の進歩により、詐欺師はたった数分の被害者の記録から本物のように聞こえる音声を生成できる。偽の音声を使って、詐欺師はその被害者のふりをして音声認証システム又は人さえ騙しうる。例えば、詐欺師は多額の金をその詐欺師の銀行口座に振り込むように同僚を騙しうる。
【0076】
モデル保全システム200(図1に示す)は上述したような合成音声を検出する技術に基づいている。
【0077】
モデル保全システム200は様々な分野で適用されうる。代表的な分野はコールセンター認証を騙すことである。従来、コールセンターは知識ベース認証を使用し、オペレータが様々な質問(例えば、誕生日)を電話をかけてきた人に尋ねていた。最近、幾つかのコールセンターは一体認証のためにAIモデル300の使用に移行した。音声認証は電話をかけてきた人が話す時に声紋を使って自動的に認証することで、通話時間を節約できる。しかし、AIモデル300は話し手の声を話し手がそれと認識されるのを望む対象者の声に変換する即時音声変換モデルを使って騙されうる。
【0078】
別の代表的な分野は音声認証を騙すことである。例えば、幾つかの銀行はAIモデル300を使用してユーザーを預金口座へ認証し、金を送金し、金融商品を購入する。AIモデル300は合成音声で騙されうる。
【0079】
更に別の代表的な分野は同僚への電話である。合成音声は、例えば多額の金をハッカーに電信で振り込むように人々を騙すのに使用されうる。
【0080】
上記の全ての分野はモデル保全システム200のファイアウォール240(図1に示す)で防御されうる。
【0081】
図9を参照すると、サンプル入力データ320は音声データを含むとして示されている。音声データは任意の適切なファイル形式のデジタル音声データを含みうる。典型的なファイル形式は非圧縮音声形式(例えば、波形音声ファイル形式(WAV)、音声交換ファイル形式(AIFF)、Auファイル形式、又は生ヘッダーなしパルスコード変調(PCM)、可逆圧縮形式(例えば、フリー可逆音声コーデック(FLAC)、モンキ―の音声(ファイル名拡張子.ape)、WavPack(ファイル名拡張子.wv)、トゥルー音声(TTA)、適応変換音響符号化(ATRAC)高度可逆、動画エキスパートグループ(MPEG)‐4、及びショートゥン(SHN))、及び/又は不可逆圧縮形式、例えばOpus、MP3、Vorbis、Musepack、高度音声符号化(AAC)、ATRAC、及びWindowsメディア音声不可逆(WMA不可逆))を含みうる。従って、AIモデル300は外部データ400(図10に示す)が特定の人のであると分類され及び/又はラベル付けされるか検出するための音声認証モデルを含みうる。
【0082】
1つの実施形態では、サンプル入力データ320は1つ以上のサンプル音声ファイルを含みうる。サンプル出力データ340はAIモデル300に基づいてサンプル音声ファイルに付けられたラベルを含みうる。例えば、ラベルは人(例えば、ユーザー)を示しうる。AIモデル300はサンプル音声ファイルをその人のであるとして受け付ける。加えて及び/又は或いは、モデル評価エンジン220はAIモデル300へアクセスできる。
【0083】
1つの実施形態では、モデル評価エンジン220はサンプル音声ファイルのうち合成音声データを含む少なくとも1つを特定できる。少し異なる言い方をすると、模擬攻撃データ222は合成音声データを含むサンプル音声ファイルを含みうる。
【0084】
加えて及び/又は或いは、モデル評価エンジン220は少なくとも1つの赤組音声ファイルを生成しうる。赤組音声ファイルは選択されノイズが加えられたサンプル音声ファイルを含みうる。AIモデル300は選択されたサンプル音声ファイルを第1の人のであると認識する。AIモデル300が赤組音声ファイルを第1の人と異なる第2の人のであると認識するように、ノイズがその選択されたサンプル音声に加えられる。少し異なる言い方をすると、模擬攻撃データ222は赤組音声ファイルを含みうる。加えて及び/又は或いは、赤組音声ファイルはサンプル音声ファイルに基づくことなくモデル評価エンジン220によって生成されうる。
【0085】
様々な実施形態では、モデル評価エンジン220は合成音声を生成し及び/又はノイズを音声データに加えてAIモデル300を騙して人Aの声を人Bの声として誤分類させうる。幾つかの実施形態では、ノイズはAIモデル300にとって感知不能でありうる。
【0086】
図10を参照すると、外部データ400は音声データを含みうる。1つの実施形態では、外部データ400は合成の又は本物の1つ以上の音声ファイルを含みうる。様々な実施形態では、合成であることは完全に合成であること及び/又は少なくとも部分的に合成であることを含みうる。合成でないことは本物、実際、合法、又は無修正であること、又は改竄されてない、改変されてないこと、又はそれらの組み合わせを含みうる。1つの実施形態では、ファイアウォール240は外部データ400内に提示された声が合成か否かを示しうる。
【0087】
加えて及び/又は或いは、外部データ400は各音声ファイルに付けられた識別及び/又はラベルを更に含みうる。1つの実施形態では、ファイアウォール240は識別及び/又はラベルが正しく音声ファイルに付けられているかを示しうる。少し異なる言い方をすると、ファイアウォール240は音声ファイル内の音声の誤った識別を含むどんな外部データ400にも容易に影響されない分類器を含みうる。誤った識別は敵対的でAIモデル300を攻撃できる。
【0088】
様々な実施形態では、ファイアウォール240はスピーチデータからの様々な特徴抽出法及び/又は音声合成検出モデルに特有の微調整されたアーキテクチャを使用する音声合成検出モデルを含みうる。
【0089】
様々な実施形態では、ファイアウォール240は音声データが偽りであるか否かを示す出力ラベルを生成するように訓練された2値分類機械学習モデルを含みうる。
【0090】
様々な実施形態では、ファイアウォール240は畳み込み神経回路網ベース・アーキテクチャを音声合成検出モデルに使用できる。
【0091】
様々な実施形態では、ファイアウォール240は特徴抽出を実行できる。音声データをそのまま音声合成検出モデルに供給できない時、ファイアウォール240は音声合成検出に適した様々な音響特徴を抽出できる。
【0092】
様々な実施形態では、ファイアウォール240は実際の音声から合成音声を生成するデータ増加手法を有しうる。
【0093】
音声合成検出モデルは学習するのに本物(又は良好)でない特徴又は特性を間違って取得しうり、そのような特徴又は特性は必ずしも偽りではない。例えば、本物の音声ファイルが男性の声より多くの女性の声をたまたま有している場合、音声合成検出モデルは音声データが女性のである時、その音声データが本物であると予測するように訓練されうる。しかし、そのような結果は訓練に使用されたデータの単に偶然の一致である。様々な実施形態では、ファイアウォール240は、音声合成検出モデルがそのようなデータ分布パターンを間違って拾い上げないように、音声合成検出モデルを調整する方法を有しうる。
【0094】
様々な実施形態では、ファイアウォール240はかなりの量の本物及び合成音声データセットで訓練される検出器を含みうる。加えて及び/又は或いは、検出器は最先端の合成音声生成手法及び/又はその改良版(合成音声検出の特定の例におけるデータ増加に適した)を使って生成された追加の音声データで訓練されうる。
【0095】
加えて及び/又は或いは、ソフトウェアは配備のためにその検出器の周りに展開されうる。そのソフトウェアは合成音声検出を本稼働させるために特定の音声認証システムにインストールするのに容易で継ぎ目がない場合がある。
【0096】
様々な実施形態では、モデル保全システム200は電話の偽りの音声を95%検出精度と0.01%誤判定率で検出でき、従来のシステムの性能を超える。
【0097】
顔認識
顔認識アルゴリズムはどの人が与えられた写真に居るかを判断するのに使用されうる。顔認識アルゴリズムは顔検出アルゴリズムの拡張でありうる。顔検出アルゴリズムは人が居るか否かを身元情報があればその個人の身元を確認することなく判断できる。幾つかの実施形態では、ファイアウォール240は画像が人の顔を含んでいるかを判断できる。
【0098】
顔認識アルゴリズムは特徴の抽出と特徴の分類を含みうる。例えば、顔目印分析は特徴、例えば鼻、目、頬の周りの特徴(又は人の顔を他の物体から区別できる任意の特徴)を抽出し特徴を点として返すことができる。
【0099】
別の特徴抽出アルゴリズムは局所2進パターンと顔の数値記述としてベクトル又は配列を返す固有顔とを含みうる。ヒストグラム又は主成分分析などの統計的方法を使用して特徴ベクトルを分け、それに応じて複数の顔を互いに区別することができる。他の代わりの手法は加速された頑健な特徴(SURF)とスケール不変特徴変換(SIFT)を含みうる。
【0100】
幾つかのコンピュータ視覚手法は深層学習モデルを使用して画像から特徴ベクトル(又は埋め込み)を生成できる。特徴ベクトルを分けるように進歩がなされた。少し異なる言い方をすると、異なる人々に属する特徴ベクトルがより良く分けられると、そのベクトルが属する人の身元はより確実に判断されうる。
【0101】
顔認識能力を提供するためのクラウドサービスは上記のコンピュータ視覚手法を使用できる。モデル保全システム200はクラウドサービスが配備するAIモデル300の脆弱性を露出させ保護できる。モデル保全システム200は、どんなモデルが攻撃で使用されているかの知識なしに、AIモデル300が個人を誤認しうるように感知不能なノイズを加えることができる。モデル保全システム200は、AIモデル300に供給される又は供給予定の画像がクリーンか改竄されているかを判断できる検出器を配備できる。
【0102】
モデル保全システム200は様々な分野で適用されうる。様々な実施形態では、境界検問所において、モデル保全システム200は守られた境界を横切っている、例えば空港を通る着目する個人を特定できる。
【0103】
様々な実施形態では、銀行個人識別の場合、モデル保全システム200は個人を特定し関連する銀行情報と照合して、迅速な引き出しと個人のお金への容易なアクセスを許しうる。
【0104】
様々な実施形態では、法律執行の場合、モデル保全システム200は監視カメラ及び交通カメラの画面内の着目する個人を探し特定することができる。
【0105】
様々な実施形態では、旅行認可の場合、モデル保全システム200は旅行検問所を通る人を特定しその人が信用できるか否か検査でき、信用できるなら、モデル保全システム200は旅行検問所処理を速めうる。
【0106】
様々な実施形態では、非接触のチェックアウトの場合、モデル保全システム200は店に入る個人を特定しその個人が購入した品物に対してその個人に自動的に請求できる。
【0107】
様々な実施形態では、スポーツ行事の場合、モデル保全システム200はフィールド上の選手を追跡し即時追跡及び情報及び/又は統計値を提供できる。
【0108】
図11を参照すると、サンプル入力データ320は1つ以上の顔画像を含むとして示されている。画像はコンピュータ読取可能静止画像及び/又は任意の適切なファイル形式の映像を含みうる。代表的なファイル形式はJoint Photographic Experts Group(JPEG)、Graphics Interchange Format(GIF)、ビットマップ(BMP)、Tagged Image File Format(TIFF)、及び/又はPortable Network Graphics(PNG)を含みうる。従って、AIモデル300は外部データ400(図12に示す)が特定の人の顔を示すかを検出するための顔認識モデルを含みうる。
【0109】
様々な実施形態では、サンプル入力データ320は1つ以上のサンプル画像ファイルを含みうる。サンプル出力データ340はAIモデル300に基づいてサンプル画像ファイルに付けられたラベルを含みうる。例えば、ラベルは人(例えば、ユーザー)を示しうる。AIモデル300は画像音声ファイルをその人のであると受け付ける。加えて及び/又は或いは、モデル評価エンジン220はAIモデル300にアクセスできる。
【0110】
1つの実施形態では、モデル評価エンジン220はAIモデル300によって誤分類及び/又は誤ったラベル付けされた少なくとも1つのサンプル画像ファイルを特定できる。誤分類は特定のラベル(例えば、攻撃者によって選択又は指定された特定のラベル)へ誤分類すること及び/又は元のラベルと異なるラベルへ誤分類することを含みうる。少し異なる言い方をすると、模擬攻撃データ222は誤分類されるサンプル画像ファイルを含みうる。
【0111】
加えて及び/又は或いは、モデル評価エンジン220は目標人物の1つ以上の画像を得ることができる。目標人物は任意の選択された人でありうる。典型的な目標人物は攻撃者によってサンプル出力データ340から選択されたラベルを含みうる。少し異なる言い方をすると、目標人物は誤分類されたラベル及び/又は誤分類されたサンプル画像ファイルの元のラベルを含みうる。様々な実施形態では、モデル評価エンジン220は目標人物の画像を含む1つ以上の赤組画像ファイルを生成できる。赤組画像ファイルは合成でありうる。1つの例では、赤組画像ファイルは少なくとも部分的に写真のようにリアルでありうる。別の例では、赤組画像ファイルは目標人物のノイズが加えられた画像を含みうる。様々な実施形態では、モデル評価エンジン220はAIモデル300を騙すように働きうる任意の形式の画像を生成しうる。幾つかの生成された画像は写真のようにリアルな要素を有しうるが、全ての生成された画像が写真のようにリアルな画像に限定されるわけではない。AIモデル300は赤組画像ファイルを目標人物と異なる人のであると認識できる。少し異なる言い方をすると、模擬攻撃データ222はその赤組画像ファイルを含みうる。加えて及び/又は或いは、赤組画像ファイルは目標人物の画像にもサンプル画像ファイルにも基づかずにモデル評価エンジン220によって生成されうる。
【0112】
様々な実施形態では、モデル評価エンジン220は顔類似性を検出するためのAIモデル300を攻撃できる。少し異なる言い方をすると、AIモデル300は2つの顔の写真A、Bを与えられ、写真Aと写真Bが類似しているか否かを判断できる。加えて及び/又は或いは、モデル評価エンジン220は顔識別を検出するためのAIモデル300を攻撃できる。少し異なる言い方をすると、AIモデル300は顔の写真を与えられ、その顔を特定の人に分類できる。両タイプのAIモデル300の場合、AIモデル300が最先端のものであっても、モデル評価エンジン220はAIモデル300を騙すために小さなノイズを加えることができる。
【0113】
様々な実施形態では、モデル評価エンジン220はアルゴリズム攻撃を使って最先端の攻撃へのAIモデル300の頑健性を測定し評価できる。
【0114】
様々な実施形態では、モデル評価エンジン220による評価に基づいて、モデル評価エンジン220はユーザーがAIモデル300がどれだけ脆弱であるかを容易に評価でき、AIモデル300のどの態様が最も脆弱かを理解できるように報告を作成できる。報告は平易で説明可能でありうる。
【0115】
様々な実施形態では、モデル評価エンジン220は、AIモデル300が最先端のMLモデルを含んでいても、アルゴリズム攻撃を使用してAIモデル300を騙すことができる。
【0116】
図12を参照すると、外部データ400は1つ以上の顔の画像を含みうる。外部データ400は各画像に付けられた識別及び/又はラベルを更に含みうる。1つの実施形態では、ファイアウォール240はその識別及び/又はラベルが画像に正しく付けられているかを示しうる。少し異なる言い方をすると、ファイアウォール240は画像の誤った識別情報を含むどんな外部データ400にも容易に影響されない頑健性分類器を含みうる。誤った識別情報は敵対的でAIモデル300を攻撃できる。
【0117】
加えて及び/又は或いは、外部データ400は合成(又は機械生成又は機械操作された)又は本物である1つ以上の画像ファイルを含みうる。少し異なる言い方をすると、画像ファイルは実際の顔の写真、又は合成された(又は機械生成された)顔の画像を含みうる。外部データ400は画像ファイルが属する部類を更に含みうる。1つの実施形態では、それらの部類は「実際の顔」と「機械生成された顔」を含みうる。様々な実施形態では、ファイアウォール240は画像ファイル内の顔が実際か機械生成されたかを示しうる。例えば、ファイアウォール240は画像ファイルの正しい部類を決定するための頑健な検出器を含みうる。
【0118】
様々な実施形態では、ファイアウォール240はモデル評価エンジン220が特定したAIモデル300の欠陥に対してAIモデル300を保護できる。
【0119】
様々な実施形態では、ファイアウォール240は外部データ400を受信し外部データ400が合法の顔画像か攻撃を受けた顔画像かを出力できる。
【0120】
様々な実施形態では、ファイアウォール240は顔認識及び/又は画像認識用に特に構成されたモデルを使用できる。そのモデルは合法の顔画像及び攻撃を受けた画像の大きな集団に亘って訓練されうる。攻撃を受けた画像はAIモデル300を攻撃するために部分的に変更された本物の画像を含みうる。1つの実施形態では、攻撃を受けた画像はモデル評価エンジン220によって生成されうる。
【0121】
様々な実施形態では、ファイアウォール240は活性検出を実行しうる。例えば、ファイアウォール240は、外部データ400が顔の静止画像であるならば、その顔を本物と認識しないか又はその顔のマスクをかぶった他の人を検出する(そのような画像は両方ともカメラには顔と見えうるけれども)。ファイアウォール240はそのようなタイプの攻撃(即ち、個人の写真を提示する及び/又は個人のマスクをかぶる)の両方を検出できる。
【0122】
様々な実施形態では、ファイアウォール240は、潜在的に敵対的な入力がAIモデル300に供給される前にファイアウォール層として働くようにソフトウェアプラットフォームを敷地内及び/又はクラウド内に配備できる。ファイアウォール240は、入力が敵対的か又は無害かを判断し操作員に応答を返しうる検出器として働く深層学習モデルでカスタマイズされうる。検出器は高い利用可能性と短い待ち時間で機能しうる。どの検出器、分類、及び/又はサービスにオペレータがアクセスできるかを指定するためにAPIキーをオペレータに提供できる。
【0123】
様々な実施形態では、ファイアウォール240の検出器は深層機械学習手法を使って作られうる。
【0124】
様々な実施形態では、モデル保全システム200は様々な手法を使ってAIモデル300を露出及び/又は攻撃できる。代表的な手法はオープンソース顔認識アルゴリズム、神経回路網ベース顔埋め込みアルゴリズムなどを含みうる。
【0125】
様々な実施形態では、モデル保全システム200は、顔画像を有効低次元埋め込みに圧縮することでAIモデル300を訓練するための方法を露出及び/又は攻撃できる。
【0126】
様々な実施形態では、モデル保全システム200は、顔認識アルゴリズムとして働くようにそれらの埋め込みを複数の部類に分けることでAIモデル300を訓練するための方法を露出及び/又は攻撃できる。
【0127】
様々な実施形態では、モデル保全システム200は、少量のノイズを顔の画像に加えることで顔認識アルゴリズムを騙す方法を使用できる。
【0128】
様々な実施形態では、モデル保全システム200は、(例えば、敵対的生成ネットワークで)ノイズから顔の特定の画像を取り出すために神経回路網ベース方法を使用できる。
【0129】
様々な実施形態では、モデル保全システム200は、既存の深層学習ベース顔認識モデルを偽の入力により頑健にする方法を使用できる。
【0130】
物体検出
物体検出は画像内の物体を特定するために使用されうる。代表的な物体検出は銃検出でありうる。銃検出は画像内に銃があるかを検出することである。
【0131】
幾つかの物体検出システムは深層学習手法を使用できる。機械学習モデルはモデルが検出すべき物体を含む多数の画像に亘って訓練されうる。他の画像分類手法と対照的に、物体検出モデルは検出された物体の画像内の位置を指定できる。
【0132】
クラウドサービスは物体検出成果を提供できる。例えば、クラウドサービスはユーザーがアップロードした画像内の物体を検出するAPIを提供できる。
【0133】
他のMLモデルと同様に、物体検出用のMLモデルは攻撃に脆弱である。画像に加えられた感知不能な入念に作られたノイズは、画像内の物体を検出しないようにモデルを騙しうる。モデル保全システム200はAIモデル300の脆弱性を露出させ保護できる。AIモデル300はクラウドサービスによって配備されうる。
【0134】
モデル保全システム200は様々な分野に適用されうる。様々な実施形態では、自律車両の場合、モデル保全システム200に基づく物体検出は、その車両が方向を適合させられるように他の車両、交通信号、歩行者、及び/又は他の物体を検出するのに使用されうる。
【0135】
様々な実施形態では、銃検出及び/又は警備の場合、モデル保全システム200に基づく物体検出はある場所の異常、例えば銃又は爆弾を特定するのに使用されうる。
【0136】
様々な実施形態では、人数計測の場合、モデル保全システム200に基づく物体検出は特定の場所の人々の数を推定するのに使用されうる。
【0137】
様々な実施形態では、スポーツの場合、モデル保全システム200に基づく物体検出はボール及び選手を追跡するのに使用されうる。
【0138】
図13を参照すると、サンプル入力データ320は1つ以上の物体を示す1つ以上の画像を含むとして示されている。それらの画像はコンピュータ読取可能静止画像及び/又は任意の適切なファイル形式の映像を含みうる。従って、AIモデル300は外部データ400(図14に示す)に含まれる画像内の物体を分類するための物体検出モデルを含みうる。分類することは、画像内の物体及び/又はその位置を検出することを含みうる。
【0139】
様々な実施形態では、サンプル入力データ320は1つ以上のサンプル画像ファイルを含みうる。様々な実施形態では、サンプル出力データ340はAIモデル300に基づいて各サンプル画像ファイル内の1つ以上の物体とその位置を提示しうる。加えて及び/又は或いは、モデル評価エンジン220はAIモデル300にアクセスできる。
【0140】
1つの実施形態では、モデル評価エンジン220はAIモデル300の頑健性及び/又は欠陥の報告を生成しうる。報告は平易でオペレータにとって解釈が容易でありうる。様々な実施形態では、モデル評価エンジン220は一組の予め設定された試験をAIモデル300及び関連するデータに実行できる。各試験はAIモデル300の脆弱性を特定の軸に亘って測定でき、モデル評価エンジン220はこれらの試験の結果に基づいて報告を生成できる。
【0141】
加えて及び/又は或いは、モデル評価エンジン220はAIモデル300を騙した又は騙しうるサンプル画像ファイルの少なくとも1つを特定できる。少し異なる言い方をすると、模擬攻撃データ222はモデル評価エンジン220によって特定されたサンプル画像ファイルを含みうる。
【0142】
加えて及び/又は或いは、モデル評価エンジン220はサンプル画像ファイルを操作することで赤組画像ファイルを生成できる。各赤組画像ファイルはAIモデル300を騙しうる。AIモデル300はサンプル画像ファイル内の物体を正しく分類できるが、赤組画像ファイル内の物体を正しく分類できない。少し異なる言い方をすると、模擬攻撃データ222はそのような赤組画像ファイルを含みうる。
【0143】
加えて及び/又は或いは、赤組画像ファイルはモデル評価エンジン220によってサンプル画像ファイルに基づくことなく生成されうる。少し異なる言い方をすると、模擬攻撃データ222は赤組画像ファイルを含みうる。
【0144】
様々な実施形態では、モデル評価エンジン220は画像及び映像をデジタル的かつ物理的に攻撃しAIモデル300を騙しうる。デジタル敵対的攻撃は顔認識への攻撃に類似し、AIモデル300が物体を異なる物体と分類するようにモデル評価エンジン220がその物体の画像にノイズを加えうる。そのノイズは小さくてよい。物理的で敵対的攻撃は、人々が特別なステッカーを印刷して、例えば様々な物体(例えば、銃)を身につけAIモデル300がその物体を正しく分類するのを妨げうる攻撃を含みうる。
【0145】
図14を参照すると、外部データ400は1つ以上の物体を示す1つ以上の画像を含みうる。様々な実施形態では、ファイアウォール240はモデル評価エンジン220によって特定されたAIモデル300の欠陥に対してAIモデル300を保護できる。
【0146】
加えて及び/又は或いは、外部データ400は1つ以上の画像ファイルを含みうる。ファイアウォール240は画像ファイルがAIモデル300を騙すように操作されているかを示しうる。1つの実施形態では、ファイアウォール240は画像ファイルが合法な(又は実際又は本物の)画像か、又はデジタル的及び/又は物理的敵対的攻撃によりAIモデル300を騙すように操作された画像かを示す信頼数を生成できる。
【0147】
様々な実施形態では、ファイアウォール240は物体検出用に特に構成されたモデルを使用できる。そのモデルは物体の合法な画像及び/又は攻撃を受けた画像の大きな集団に亘って訓練されうる。1つの実施形態では、攻撃を受けた画像はモデル評価エンジン220によって生成されうる。
【0148】
表形式データに基づく詐欺検出ための代表的な適用
表形式データを使ったAI攻撃は下記を含みうる。
【0149】
1)人為的に製品又は売り手の順位を上げる偽の批評及び購入
2)入会促進/特典を利用するために作成された偽のアカウント
3)商取引AIプラットフォームを一覧が表示されるのを許すように納得させ続いて買い手を騙すであろう詐欺的製品一覧
4)人為的クリック、インストレーション、及びアプリ係り合いメトリックを生成する係り合い攻撃
5)盗み取ったクレジットカードを使った詐欺商取引
6)盗まれた及び/又は偽の身分証明から詐欺クレジットカード及び銀行口座開設
全ての存在するデータの10~15%を占める表形式データが、多くの商取引の場合、承認又はアクセスの基礎として使用される。モデル保全システム200及び/又は詐欺検出エンジン260(図8に示す)は特定の商取引が詐欺か否かを検出できる。詐欺検出エンジン260に入力される外部データ400は商取引を表すデータベクトルを含みうる。詐欺検出エンジン260は幾つかのステップを実行しうる。データは正規化されうる。特徴選択が実行され特徴の数を減らしうる。例えば、深層神経回路網及び/又は勾配ブースト決定木を含む1つ以上のモデルを様々な予測を生成するのに使用できる。個々の予測は集められ最終スコアを生成できる。詐欺検出エンジン260の出力は、例えば0~100の範囲の詐欺スコアを含みうり、スコア100はその商取引は多分詐欺であることを意味する。準備、クリーニング、誤差検出、及び欠測値補完などのデータ問題が、AI環境が大規模な決定をするのに使用され、弱点の利用(又は攻撃)が行われうる事例である。
【0150】
様々な実施形態では、神経回路網は人の脳の活動をまねるための技術を含みうる。典型的な活動は、パターン認識及び/又は模擬された神経接続の様々な層を通る入力通過を含みうる。深層神経回路網は入力層、出力層、及びそれらの間の少なくとも1つの隠れた層を有する1つ以上の回路網を含みうる。各層は特徴階層処理において特定の種類の並べ替え及び/又は順序付けを実行しうる。深層学習は深層神経回路網の機能を特徴付けうる。なぜなら深層学習は一形態の機械学習を表しうり、その技術はAIを使用して単純な入力/出力プロトコルより複雑なやり方で情報を分類及び/又は順序付けするからである。
【0151】
様々な実施形態では、勾配ブースト決定木は、ブースティング法を使って個々の決定木を結合するアルゴリズムベースマシンを含みうる。ブースティングは学習アルゴリズムを直列に結合して順次接読された多くの弱い学習器から強い学習器を実現することを含みうる。勾配ブースト決定木アルゴリズムの場合、弱い学習器は決定木でありうる。各木は前の木の誤差を最小にできる。ブースティングにおける木は弱い学習器であるが、多くの木を直列に繋ぎ各木は前の木の誤差に集中することは、ブースティングを非常に効率的で正確なモデルにしうる。バギングと違い、ブースティングはブートストラップサンプリングを含まない。
【0152】
モデル保全システム200は、防御データ検出器を訓練するためのデータ増強及びデータモデリング、AI防御体が受信した全てのデータを強化するために可能ならいつでも再帰訓練との統合(入力データを他の提出されたデータ又はデータ源を使って検証するなどの手法を使用することも含む)、及び拡張可能な配備及び独自データセットの収容と多データ出力を可能にする独自システム最適化と学習局所モデルを含むシステム柔軟性の様々な態様に対処しうる。
【0153】
典型的な表形式データ弱点利用は下記を含みうる。
【0154】
銀行融資承認の場合、融資承認は銀行業機関にとって極めて重要な処理である。この処理は顧客融資申し込みを承認又は拒絶するのに使用される。融資の回収は銀行の決算書における主要因であり、従って、正しい融資申し込みを承認することは非常に重要である。AIモデル300は申し込み書に記載された顧客データ、例えば予想収益、担保価格、現在の流動性、又は年齢に基づいてこれらの決定をするのに有益でありうる。
【0155】
代表的な状況では、AIモデル300は個人からの申し込みを拒絶する。その個人は融資を承認してもらいたと思い、従って、AIモデル300を欺いて申し込みを承認させるために銀行に偽りの情報を提供する。銀行詐欺で捕まるのを回避するために、偽りの情報は人には感知不能であり、見込みのある専門家が申し込み書を検証した場合、依然として適切で信用できるべきであることが要求される。これは、弱点利用が人による点検には感知不能であるか、又は人によって捕まえるのに少なくとも時間がかかるように要求する。従って、弱点利用は使用される下位変数を操作(申し込みに人による点検のためにフラッグが立てられたなら人は通常捉えない)しなければならない。弱点利用は、AIモデル300にとってどんな特徴がより重要性が少ないかを判断するために、AIモデル300の少なくとも部分的知識を必要とすることがある。弱点利用は、詐欺を検出するための人による様々な特徴の点検がより長い時間を必要とするようにある範囲に亘ってAIモデル300にとって重要性がより少ない特徴の値を変更することに集中する。それに応じて、より重要な特徴の変更はより高い攻撃感知力を生じ、攻撃が点検者によってより容易に検出されるのを許すであろう。また、敵対的攻撃における各特徴はその元のインスタンスの関連性及び信頼性を保持することも極めて重要である。これは各変更された特徴がその固有の制約及びタイプを保存することを検証することで達成されうる。点検者は点検を幾つかの表形式データの組み合わせに基づかせそうにないので、AIモデル300でより多くの変数を使用する融資申し込みは攻撃をより受けやすい。また、攻撃は、画素データ操作では必要のない全景一貫性を維持しなければならない。弱点利用モデルがデータの相互関係を満たさないなら、点検者は結果をより容易に疑うことがある。弱点利用モデルは、AIモデル300を攻撃する外部データ400を生成するために使用される機械学習モデルを含みうる。従って、弱点利用モデルは変動するノイズ要因内に存在しなければならない(例えば、アドレスはZIPコード外ではありえない、又は職業上の肩書は教育レベル外に存在する)。少し異なる言い方をすると、点検者の場合、データの相互関係を改竄することによる詐欺はより容易に検出されうるが、変動するノイズ要因による詐欺は容易には検出されない。モデル保全システム200は、様々な変動するノイズ要因間の関係を見て特定の入力列の合法性を判断することで、そのような詐欺を防ぐことができる。
【0156】
モデル保全システム200の実施形態
図15はAIを使用してAIモデル300への詐欺の脅威を分析するモデル保全システム200を示す。代表的なAIモデル300は遠隔医療診療、電子商取引、処方システム、資金転送システム、又は変動する1つ以上の表形式データセットを受信できる他のシステム用に使用されうる。モデル保全システム200は非表形式データも受信できる。非表形式データの例は手書きサンプル、画像、音声スピーチ、及び/又は生体測定入力を含みうる。モデル保全システム200は、モデル保全システム200がクラウド基盤環境内の実体と対話する及び/又は品物スキャナーなどのオフライン装置の場合はハードウェアマシンを介して対話するのを許す1つ以上の組の動作マシンを有しうる。
【0157】
クラウド環境内では、モデル保全システム200は外部AI世界からAPIコール及び/又は配線接読によりデータを受信する取り入れマシン202を含みうる。モデル保全システム200は外部データ400のデータフィードにカスタマイズ可能な一組のモデルを配備できる。データフィードはAIモデル300によって使用されうる。モデル保全システム200は外部データ400を期待される閾値パラメータとの順守又は適合性に関して試験できる。様々な実施形態では、通常期待されるパラメータ外である外部データ400は分別マシン206に向けられうる。分別マシン206は選択されたモデルを使ってそのデータセットを誤ったデータ(又は間違ったデータ)210及び/又は疑わしいデータ212の部類に分別できる。疑わしいデータ212は点検者が識別できないデータを含みうるので、疑わしいデータ212は表示マシン216に渡され、点検者が疑わしいデータ212を適切に見直し疑わしいデータ212のソース及び帰趨を決定するのを許しうる。点検者はモデル保全システム200からの指定されたデータに関する結果を使ってその指定されたデータの有効性をより容易に判断できる。誤ったデータ210は取り入れマシン202に返され拒絶されうる。
【0158】
加えて及び/又は或いは、閾値付近データ214は試験マシン217に送信されうる。閾値付近データ214は許容できるに近い及び/又は設定された閾値を僅かに超えたデータを含みうる。試験マシン217は閾値付近データ214内のパターン及び/又は他の繰り返すデータを特定できる。各特定されたパターンは弱点利用パターン218でありうる。試験マシン217がパターンを決定すると、試験マシン217は、モデル保全システム200がこのタイプの弱点利用に脆弱かをより良く理解するためにデータパラメータを生成しそのパターンへの様々な閾値を特定できる。試験マシン217はその弱点利用パターン218をモデル評価エンジン220に渡しうる。
【0159】
従来の赤組攻撃はコンピュータシステムの試験であり、侵入試験及び脆弱性詐欺評価を伴う。赤組攻撃は可能な攻撃ベクトルを見つける練習であるが、侵入試験はそのシステムを実際に攻撃する練習である。また、従来の脆弱性詐欺評価はソフトウェアを分析し弱点利用されうる符号化欠陥を露出させることに関する。従来の脆弱性詐欺評価は主に個々のソフトウェアを調べ、符号化欠陥により集中しシステム構成及び業務処理にあまり集中せず、システム全体のより広い検討が欠けている。侵入試験の結果は実際に赤組攻撃を実施するが、侵入試験により提供される攻撃ベクトルは非常に狭く、しばしばシステム全体についてあまり多くを語らない。
【0160】
従来の赤組攻撃の手法と対照的に、モデル保全システム200は弱点利用パターン218特性及び挙動のモデル化(例えば、モデル評価エンジン220による)、AIモデル300をシステムの観点からモデル化、模擬による攻撃計画作成、及び/又は赤組攻撃を実行することに関係する問題を使用できる。本開示は、モデル評価エンジン220が孤立した脆弱性ではなくAIモデル300に亘る複数の脆弱性を利用する攻撃計画をどのように検出し立案できるかを明記する。
【0161】
本開示によれば、モデル評価は、AIモデル300を連続して試験しAIモデル300が最も弱い箇所を理解できるモデル評価エンジン220の文脈で使用されうる。AIモデル300は閾値付近データ214のレベルで最も弱いことがありうる。従って、閾値付近データ214の連続試験を実行することで、モデル保全システム200はその能力を積極的に改善し疑わしいデータ212に対する実質上のデータファイアウォールとして働きうる。
【0162】
加えて及び/又は或いは、クラウド環境において、モデル保全システム200は受信した外部データ400を見直すために多数のモデルにアクセスできる。外部データ400は、AIモデル300が外部データ400を誤った解釈及び/又は誤った分類をしうるような変更を含みうる。
【0163】
加えて及び/又は或いは、モデル保全システム200は単独モードで様々な装置のハードウェア部品として使用されうる。この構成では、モデル保全システム200は携帯装置、コンピュータ応用、及び/又は外部データ400とAIモデル300の間に上記のように配置されうるハードウェア機器に埋め込まれうる。
【0164】
図16は様々な実施形態に係るモデル保全システム200の訓練及び使用を例示する。モデル保全システム200は機械学習アルゴリズム、プログラム、及び/又はツールにより訓練され、AIモデル300(図1に示す)の詐欺又は攻撃検出に関連する動作を実行するのに使用されうる。モデル保全システム200は、出力として表されるデータ駆動予測又は決定を行い及び/又は成功する弱点利用モデル234を作るために訓練データ232からモデルを構築することで動作しうる。代表的な決定は訓練データ232を「偽陽性詐欺結果」であると判断することを含みうる。少数の機械学習ツールに関して実施形態を提示したが、本書に提示した原理は、特にAIモデル300に提示され結果を不正に変えるように意図された疑わしいデータの検出を議論する場合、他の機械学習ツールに適用されてもよい。
【0165】
モデル評価エンジン220は、訓練データ232を受け取りAI試験マシン236で試験される弱点利用モデル230を生成できる。弱点利用モデル230を試験する時、AI試験マシン236に対して陽性結果を生成する変動を評価してその陽性結果が偽陽性か又はAI試験マシン236が意図する結果かを判断できる。新しい成功した弱点利用モデル234が発見されると、ファイアウォール240は、成功した弱点利用モデル234に対して防御するように更新されうる。
【0166】
幾つかの実施形態では、1つ以上の機械学習ツールを使用できる。例えば、ロジスティック回帰(LR)、単純ベイズ、ランダムフォレスト(RF)、神経回路網(NN)、行列因数分解、及びサポートベクターマシン(SVM)ツールを、MLプログラムへの少なくとも一つのデータフィードを分類又はスコア付けして弱点利用モデル230によりAIモデル300に対してデータフィード内のデータの離散集合で攻撃を実行するために使用できる。
【0167】
MLは分類問題及び回帰問題を解決するために使用されうる。分類問題は項目を幾つかの部類値の1つに分類すること(例えば、この物体はリンゴかそれともオレンジか?)を目的とする。回帰アルゴリズムは複数の項目を定量化することを目的とする(例えば、実数である値を与えることで)。回帰分析は構造化データセット内の原因と効果の関係の強さを測定できる。回帰分析は変数の数とデータセットのサイズの故に詐欺検出に適用された時より洗練されうる。回帰分析は、より大きな詐欺戦略の一部として個々の変数又は変数の組み合わせの予測力を評価することで値を提供できる。モデル保全システム200は新しい取引が詐欺か否かを予測できる。幾つかの実施形態では、モデル保全システム200は、特定の訓練された顧客ベースに特有でありうるが、一般使用にも適用されうる。モデル保全システム200は、分類及び/又は回帰を利用して詐欺攻撃を解決策の様々な点において特定できる。
【0168】
図17において、解決策の別形で使用される機械学習ツールの別のセットは殺菌剤マシン280の形態でありうる。殺菌剤マシン280は、AIモデル300に提示されている複数のタイプのデータ間の依存を理解することで不正な及び/又は操作されたデータを検出できる。代表的な用途は複数のデータ入力に基づく金融取引でありうる。住所、電話番号、及び/又は個人のデータ入力の他の態様を含むデータ入力は取引を表すデータベクトルとして特徴記述されうる。ベクトルのデータ点は微妙に互いに関係する。例えば、未解決の住所は、その住所が住所とその電話番号が不正提出にフラッグを立てるように変化するかを判断するのを助けるために電話番号及び/又は市外局番を使用できる。殺菌剤マシン280は取引と関連する異なるデータ点間の依存を表すグラフを作成できる。モデル保全システム200は、外部データ400をそのグラフと比較し、何個の依存を外部データ400が違反しているかに依って外部データ400にフラッグを立てることができる。比較の出力は、そのデータがどれほどクリーンであるかを表す0と1の間のスコアを含みうる。
【0169】
加えて及び/又は或いは、殺菌剤マシン280はデータフィードを分析し外部データ400のデータフィードの異常な又は不正な様相を発見するために使用されうる。外部データ400の各特徴は、観測される現象の一組の個々の測定可能な特性に分解されうる。代表的な現象は閾値付近データ及び/又は閾値データフィードの組み合わせを含みうる。特徴は直線回帰などの統計手法で使用される説明変数に関係しうる。情報を与え識別し独立した特徴を選ぶことは、パターン認識、分類、及び回帰におけるMLプログラムの効果的な動作のために重要である。特徴は様々なタイプ、例えば数値特徴、ストリング、及びグラフであってよい。
【0170】
加えて及び/又は或いは、モデル保全システム200は様々な表形式及び/又は非表形式データ弱点利用を特定できる。表形式データ弱点利用は、1つ以上の重み付け法を使用でき、AIモデル300が訓練に基づき誤った結果を記録しうるように変更及び/又は壊される表形式データに基づきうる。
【0171】
図18は上述した装置のうちどんな1つ以上の装置にも導入されうるソフトウェアアーキテクチャ500を示すブロック図である。図18は単にソフトウェアアーキテクチャの非限定例であり、多くの他のアーキテクチャが本書に記載された機能を可能にするために実現されうることは理解されるであろう。様々な実施形態では、ソフトウェアアーキテクチャ500は図19のマシン600などのハードウェアによって実行される。
【0172】
この一例のアーキテクチャでは、ソフトウェアアーキテクチャ500は層の積み重ねとして概念化されうり、各層は特定の機能を提供してもよい。例えば、ソフトウェアアーキテクチャ500はオペレーティングシステム504、ライブラリ506、フレームワーク508、及びアプリケーション510などの層を含む。動作上、アプリケーション510はソフトウェアスタックを通してAPIコール512を呼び出し、APIコール512に応答してメッセージ514を受け取る。幾つかの実施形態で同じである。
【0173】
様々な実施形態では、オペレーティングシステム504はハードウェア資源を管理し、共通のサービスを提供する。オペレーティングシステム504は、例えばカーネル520、サービス522、及びドライバー524を含む。カーネル520はハードウェアと他のソフトウェア層の間の抽象層として働く。幾つかの実施形態で同じである。例えば、カーネル520はメモリ管理、プロセッサ管理(例えば、予定を組む)、装置管理、ネットワーク接続、機密保護設定、及び他の機能を提供する。サービス522は他の共通のサービスをその他のソフトウェア層に提供しうる。幾つかの実施形態によれば、ドライバー524は基盤を成すハードウェアを制御又はと接続するのを担う。例えば、ドライバー524は表示ドライバー、カメラドライバー、BLUETOOTH(登録商標)又はBLUETOOTH(登録商標)低エネルギードライバー、フラッシュメモリドライバー、シリアル通信ドライバー(例えば、ユニバーサル・シリアル・バス(USB)ドライバー)、Wi‐Fi(登録商標)ドライバー、オーディオドライバー、電力管理ドライバーなどを含みうる。
【0174】
幾つかの実施形態では、ライブラリ506はアプリケーション510が利用する低レベル共通基盤を提供する。ライブラリ506は、メモリ割り当て機能、ストリング操作機能、数学機能などの機能を提供しうるシステムライブラリ530(例えば、C標準ライブラリ)を含みうる。また、ライブラリ506はAPIライブラリ532、例えばメディアライブラリ(例えば、様々なメディア形式、例えば動画エキスパートグループ4(MPEG4)、Advanced Video Coding(H.264又はAVC)、動画エキスパートグループ層3(MP3)、Advanced Audio Coding(AAC)、Adaptive Multi‐Rate(AMR)音声コーデック、Joint Photographicエキスパートグループ(JPEG又はJPG)、又はPortable Network Graphics(PNG)の表出及び操作を支えるライブラリ)、グラフィックライブラリ(例えば、表示器上のグラフィックコンテキストに2D及び3Dで描くのに使用されるOpenGLフレームワーク)、データベースライブラリ(例えば、様々な関係型データベース機能を提供するSQLite)、ウェブライブラリ(例えば、ウェブ閲覧機能を提供するWebKit)などを含みうる。ライブラリ506はまた、多くの他のAPIをアプリケーション510に提供するために多種多様な他のライブラリ534を含みうる。
【0175】
幾つかの実施形態によれば、フレームワーク508はアプリケーション510が利用しうる高レベル共通基盤を提供する。例えば、フレームワーク508は様々なグラフィカル・ユーザ・インターフェース(GUI)機能、高レベル資源管理、高レベル位置サービスなどを提供する。フレームワーク508はアプリケーション510が利用しうる広範囲の他のAPI(そのうちの幾つかは特定のオペレーティングシステム504又はプラットフォームに特有である)を提供できる。
【0176】
1つの実施形態では、アプリケーション510はホームアプリケーション550、接触アプリケーション552、閲覧アプリケーション554、本読みアプリケーション556、位置アプリケーション558、メディアアプリケーション560、メッセージ通信アプリケーション562、ゲームアプリケーション564、及び多種多様な取りそろえの他のアプリケーション、例えば第三者アプリケーション566を含む。幾つかの実施形態によれば、アプリケーション510は自身の中に規定された機能を実行するプログラムである。様々なプログラミング言語が様々な構造を持つアプリケーション510のうち1つ以上を作成するために使用されうる。その例は、オブジェクト指向プログラミング言語(例えば、オブジェクトC、Java、又はC++)又は手続き型プログラミング言語(例えば、C又はアセンブリ言語)である。特定の実施例では、第三者アプリケーション566(例えば、ANDROID(登録商標)又はIOS(商標)ソフトウェア開発キット(SDK)を使って特定のプラットフォームのベンダー以外の主体によって開発されたアプリケーション)は携帯電話オペレーティングシステム、例えばIOS、ANDROID(登録商標)、WINDOWS(登録商標)Phone、又は別の携帯電話オペレーティングシステム上で動作する携帯電話ソフトウェアであってもよい。この例では、第三者アプリケーション566はオペレーティングシステム504が提供するAPIコール512を本書に記載の機能を可能にするために呼び出しうる。
【0177】
図19は実施形態に係るマシン600に本書に記載の方法の任意の1つ以上を実行させるために命令セットを実行するコンピュータシステムの形態のマシン600の概略を示す。具体的には、図19はコンピュータシステムの一例の形態のマシン600の概略を示し、その中でマシン600に本書に記載の方法の任意の1つ以上を実行させるための命令群616(例えば、ソフトウェア、プログラム、アプリケーション、アプレット、アプリ、又は他の実行可能コード)が実行されうる。例えば、命令群616はマシン600に図2の方法を実行させてもよい。加えて又は或いは、命令群616は図1及び図3~18を実行してもよい。命令群616はプログラムされていない汎用マシン600を、説明された機能を説明されたやり方で実行するようにプログラムされた特別なマシン600に変える。他の実施形態では、マシン600は独立した装置として動作するか又は他のマシンに結合(例えば、ネットワーク接続)されてもよい。ネットワーク接続された場合、マシン600はサーバー・クライアント・ネットワーク環境でサーバーマシン又はクライアントマシンとして、又はピアツーピア(又は分散)ネットワーク環境でピアマシンとして動作してよい。マシン600は、これらに限定されないがサーバーコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA)、娯楽メディアシステム、携帯電話、スマートフォン、携帯装置、装着可能装置(例えば、スマートウォッチ)、スマート家庭用装置(例えば、スマート器具)、他のスマート装置、ウェブ器具、ネットワークルーター、ネットワークスイッチ、ネットワークブリッジ、又はマシン600がする動作を指定する命令群616を順次又は他のやり方で実行できる任意のマシンから成ってよい。また、単一のマシン600だけが示されているが、用語「マシン」は命令群616を個々に又は共同で実行して本書に記載の方法の任意の1つ以上を実行するマシン600の集まりを含むと考えるべきである。
【0178】
マシン600は、例えばバス602を介して互いに通信するように構成された複数のプロセッサ610、メモリ630、及びI/O構成要素650を含んでよい。1つの実施形態では、複数のプロセッサ610(例えば、中央処理ユニット(CPU)、縮小命令セット計算(RISC)プロセッサ、複雑命令セット計算(CISC)プロセッサ、グラフィック処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、特定用途集積回路(ASIC)、無線周波数集積回路(RFIC)、別のプロセッサ、又はこれらの任意の適切な組み合わせ)は、例えば命令群616を実行するプロセッサ612及びプロセッサ614を含んでよい。用語「プロセッサ」は、同時に命令群616を実行する2つ以上の独立したプロセッサ(時にはコアと呼ばれる)から成るマルチコアプロセッサを含むように意図されている。図6は複数のプロセッサ610を示すが、マシン600は単一コアの単一のプロセッサ612、複数のコアの単一のプロセッサ612(例えば、マルチコアプロセッサ612)、単一コアの複数のプロセッサ612、614、複数のコアの複数のプロセッサ612、614、又はこれらの任意の組み合わせを備えてもよい。
【0179】
メモリ630は、バス602を介してプロセッサ610にそれぞれアクセスできるメインメモリ632、静的メモリ634、及び記憶ユニット636を含んでよい。メインメモリ632、静的メモリ634、及び記憶ユニット636は本書で説明した方法又は機能の任意の1つ以上を具現化する命令群616を記憶する。命令群616は、マシン600による実行中に、メインメモリ632内、静的メモリ634内、記憶ユニット636内、少なくとも1つのプロセッサ610内(例えば、プロセッサのキャッシュメモリ内)、又はそれらの任意の適切な組み合わせ内に、完全に又は部分的に存在してもよい。
【0180】
I/O構成要素650は、入力を受け取り、出力を提供し、出力を生成し、情報を送信し、情報を交換し、測定値を取り込むなどの多種多様な構成要素を含んでよい。特定のマシンに含まれる特定のI/O構成要素650は、そのマシンの種類に依存する。例えば、携帯電話などの可搬式マシンはタッチ入力デバイス又は他のそのような入力機構をたぶん含むが、ヘッドレスサーバーマシンにはそのようなタッチ入力デバイスをたぶん含まない。I/O構成要素650は、図6に示していない他の多くの構成要素を含んでよいことは理解されるであろう。I/O構成要素650は、下記の説明を単に簡単にするために機能に従ってグループ分けされ、このグループ分けは決して限定ではない。様々な実施形態では、I/O構成要素650は、出力構成要素652及び入力構成要素654を含んでよい。出力構成要素652は、視覚構成要素(例えば、プラズマディスプレイパネル(PDP)、発光ダイオード(LED)ディスプレイ、液晶ディスプレイ(LCD)、プロジェクタ、又は陰極線管(CRT)などのディスプレイ)、音響構成要素(例えば、スピーカ)、触覚構成要素(例えば、振動モータ、抵抗機構)、他の信号発生器などを含んでよい。入力構成要素654は、英数字入力構成要素(例えば、キーボード、英数字入力を受け取るように構成されたタッチスクリーン、光学式キーボード、又は他の英数字入力構成要素)、ポイントベース入力構成要素(例えば、マウス、タッチパッド、トラックボール、ジョイスティック、モーションセンサ、又は別のポインティング器具)、触知入力構成要素(例えば、物理的ボタン、タッチ又はタッチジェスチャの位置及び/又は力を提供するタッチスクリーン、又は他の触知入力構成要素)、音声入力構成要素(例えば、マイク)などを含んでよい。
【0181】
他の実施形態では、I/O構成要素650は、広範囲の他の構成要素の中でも、生体認証構成要素656、動き構成要素658、環境構成要素660、又は位置構成要素662を含んでよい。例えば、生体認証構成要素656は、表情(例えば、手の表情、顔の表情、声の表情、身体のジェスチャ、又は視線追跡)を検出し、生体信号(例えば、血圧、心拍数、体温、発汗、又は脳波)を測定し、人を識別する(例えば、音声識別、網膜識別、顔識別、指紋識別、又は脳波図に基づく識別)などの構成要素を含んでよい。動き構成要素658は、加速度センサ構成要素(例えば、加速度計)、重力センサ構成要素、回転センサ構成要素(例えば、ジャイロスコープ)などを含んでよい。環境構成要素660は、例えば照度センサ構成要素(例えば、光度計)、温度センサ構成要素(例えば、周囲温度を検出する1つ以上の温度計)、湿度センサ構成要素、圧力センサ構成要素(例えば、気圧計)、音響センサ構成要素(例えば、背景ノイズを検出する1つ以上のマイク)、近接センサ構成要素(例えば、近くの物体を検出する赤外線センサ)、ガスセンサ(例えば、安全のために又は大気中の汚染物質を測定するために有害ガスの濃度を検出するガス検出センサ)、又は周囲の物理的環境に対応する表示、測定、又は信号を提供しうる他の構成要素を含んでよい。位置構成要素662は、位置センサ構成要素(例えば、全地球測位システム(GPS)受信構成要素)、高度センサ構成要素(例えば、高度がそれから導出されうる気圧を検出する高度計又は気圧計)、方位センサ構成要素(例えば、磁力計)などを含んでよい。
【0182】
通信は、多種多様な技術を使用して実現されてよい。I/O構成要素650は、カップリング682及びカップリング672を介してマシン600をネットワーク680又はデバイス670に結合するように動作可能な通信構成要素664を含んでよい。例えば、通信構成要素664は、ネットワーク680とインターフェースするのにネットワークインターフェース構成要素又は別の適切なデバイスを含んでよい。更なる例では、通信構成要素664は、有線通信構成要素、無線通信構成要素、セルラー通信構成要素、近距離無線通信(NFC)構成要素、Bluetooth構成要素(例えば、Bluetooth低エネルギー)、Wi-Fi構成要素、及び他の方式による通信を提供する他の通信構成要素を含んでよい。デバイス670は、別のマシン又は多種多様な周辺デバイス(例えば、USBを介して結合された)のいずれであってもよい。
【0183】
また、通信構成要素664は、識別子を検出するか、又は識別子を検出するように動作可能な構成要素を含んでよい。例えば、通信構成要素664は、無線周波数識別(RFID)タグ読取構成要素、NFCスマートタグ検出構成要素、光学読取構成要素(例えば、統一商品コード(UPC)バーコードなどの1次元バーコード、QRコード(登録商標)、アズテックコード、DATA Matrix、Dataglyph、MaxiCode、PDF417、Ultra Code、UCC RSS-2Dバーコードなどの多次元バーコード、及び他の光学コードを検出する光学センサ)、又は音響検出構成要素(例えば、タグ付き音声信号を識別するマイク)を含んでよい。加えて、インターネットプロトコル(IP)地理位置情報による位置、Wi-Fi信号三角測量による位置、特定の位置を示すNFCビーコン信号の検出による位置など様々な情報を通信構成要素664を介して得てもよい。
【0184】
様々なメモリ(即ち、630、632、634及び/又はプロセッサ610のメモリ)及び/又は記憶ユニット636は、本書に説明される方法又は機能のうち任意の1つ以上を具現化する、又はそれらによって利用される命令群616及びデータ構造体(例えば、ソフトウェア)の1つ以上のセットを記憶してもよい。これらの命令(例えば、命令群616)は、プロセッサ610によって実行されると、開示された実施形態を実施する様々な動作を生じさせる。
【0185】
本書で使用されるように、用語「マシン記憶媒体」、「デバイス記憶媒体」、及び「コンピュータ記憶媒体」は同じものを意味し交換可能に使用されうる。これらの用語は、実行可能命令及び/又はデータを記憶する単一又は複数の記憶デバイス及び/又は媒体(例えば、集中型又は分散型データベース、及び/又は関連するキャッシュ及びサーバー)を指す。従って、これらの用語はこれらに限定されないが、固体メモリと光学及び磁気媒体とを含み、プロセッサの内部又は外部のメモリを含むと理解されるべきである。マシン記憶媒体、コンピュータ記憶媒体、及び/又はデバイス記憶媒体の具体的例は、例として、半導体メモリデバイス、例えば消去可能プログラマブル読取専用メモリ(EPROM)、電気的消去可能プログラマブル読取専用メモリ(EEPROM)、フィールドプログラマブルゲートアレイ(FPGA)、及びフラッシュメモリデバイスを含む不揮発性メモリと、内部ハードディスク及びリムーバブルディスクなどの磁気ディスクと、光磁気ディスクと、CD-ROM及びDVD-ROMディスクとを含む。用語「マシン記憶媒体」、「コンピュータ記憶媒体」、及び「デバイス記憶媒体」は、具体的には、搬送波、変調データ信号、及び他のそのような媒体を含まない(それらのうち少なくとも幾つかは、下記に説明される用語「信号媒体」に含まれる)。
【0186】
様々な実施形態では、ネットワーク680の1つ以上の部分は、アドホックネットワーク、イントラネット、エクストラネット、バーチャル・プライベートネットワーク(VPN)、ローカル・エリア・ネットワーク(LAN)、無線LAN(WLAN)、広域ネットワーク(WAN)、無線WAN(WWAN)、大都市圏ネットワーク(MAN)、インターネット、インターネットの一部、公衆電話交換網(PSTN)の一部、旧来の電話サービス(POTS)ネットワーク、携帯電話ネットワーク、無線ネットワーク、Wi-Fiネットワーク、別のタイプのネットワーク、又は2つ以上のそのようなネットワークの組み合わせであってもよい。例えば、ネットワーク680又はネットワーク680の一部は、無線又は携帯電話ネットワークを含んでよく、カップリング682は、符号分割多重アクセス(CDMA)接続、モバイル通信のためのグローバルシステム (GSM)接続、又は別の種類のセルラーもしくは無線カップリングであってもよい。この例では、カップリング682は、単一キャリア無線伝送技術(1xRTT)、Evolution-Data Optimized(EVDO)技術、汎用パケット無線サービス(GPRS)技術、Enhanced Data rates for GSM Evolution(EDGE)技術、3Gを含む第3世代連携プロジェクト(3GPP(登録商標))、第4世代無線(4G)ネットワーク、ユニバーサルモバイル遠隔通信システム(UMTS)、高速パケットアクセス(HSPA)、マイクロ波アクセスのための世界的相互運用(WiMAX)、長期発展(LTE)標準、様々な標準設定機関によって規定される他の標準、他の長距離プロトコル、又は、他のデータ転送技術などの様々な種類のデータ転送技術のどれでも実行してよい。
【0187】
命令群616は、ネットワークインターフェースデバイス(例えば、通信構成要素664に含まれるネットワークインターフェース構成要素)を介して伝送媒体を使用し複数の周知の転送プロトコル(例えば、Hypertext Transfer Protocol(HTTP))のどれか1つを利用してネットワーク680を通じて送信又は受信されてもよい。同様に命令616は、デバイス670へカップリング672(例えば、ピアツーピアカップリング)を介して伝送媒体を使用して送信又は受信されてもよい。用語「伝送媒体」と「信号媒体」は同じものを意味し、本開示において交換可能に使用されてよい。用語「伝送媒体」と「信号媒体」は、マシン600による実行のために命令群616を記憶し、符号化し、又は運びうる任意の無形の媒体を含み、そのようなソフトウェアの通信を可能にするデジタルもしくはアナログ通信信号又は他の無形の媒体を含むと理解されるべきである。従って、用語「伝送媒体」と「信号媒体」は任意の形態の変調データ信号、搬送波、などを含むと理解されるべきである。用語「変調データ信号」はその1つ以上の特性が情報を信号内に符号化するように設定又は変えられた信号を意味する。
【0188】
用語「マシン読取可能媒体」、「コンピュータ読取可能媒体」、及び「デバイス読取可能媒体」は同じものを意味し、本開示において交換可能に使用されうる。これらの用語はマシン記憶媒体及び伝送媒体両方を含むように定義される。従って、これらの用語は記憶デバイス/媒体及び搬送波/変調データ信号の両方を含む。
【0189】
この解決法の実施形態はハードウェア、ファームウェア、及びソフトウェアのうち1つ又は組み合わせにより実現される。実施形態はまた、少なくとも1つのプロセッサによって読み取られ実行され本書に記載した動作を実行しうるコンピュータ読取可能記憶デバイスに記憶された命令群として実現されてもよい。コンピュータ読取可能記憶デバイスはマシン(例えば、コンピュータ)により読取可能な形態の任意の非記憶情報を含んでよい。例えば、コンピュータ読取可能記憶デバイスは読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス、クラウドサーバー、又は他の記憶デバイス及び媒体を含んでよい。幾つかの実施形態は1つ以上のプロセッサを含みコンピュータ読取可能記憶デバイスに記憶された命令群を有して構成されてよい。下記の説明及び参照される図面は特定の実施形態を十分に説明し当業者がそれらを実施するのを可能にする。他の実施形態は構造上、論理上、電気に関する、プロセス上、及び他の変更を含んでもよい。幾つかの実施形態の部分及び特徴は他の実施形態のそれらに含まれるか、置き換えられてもよい。請求項に明記された実施形態はそれらの請求項の全ての有効な等価物を含む。
【0190】
1つ以上の方法ステップの記述は、追加の方法ステップ又は明示されたステップの間の中間の方法ステップの存在を排除しないことは理解されるべきである。同様に、デバイス又はシステム内の1つ以上の構成要素の記述は、追加の構成要素又は明示された構成要素の間の中間の構成要素の存在を排除しないことは理解されるべきである。
【0191】
上記説明は、詳細な説明の一部を成す添付の図面への参照を含む。図面は例示として発明が実施されうる特定の実施形態を示す。これらの実施形態はまた、本書において「実施例」とも呼ばれる。そのような実施例は示された又は記述された要素に加えて他の要素を含みうる。しかし、本発明者らは示された又は記述された要素だけが設けられた実施例も考慮している。また、本発明者らはまた、特定の実施例(又はその1つ以上の態様)に関して又は本書に示された又は記述された他の実施例(又はそれらの1つ以上の態様)に関して示された又は記述された要素(又はそれらの1つ以上の態様)の任意の組み合わせ又は並べ替えを使用する実施例も考慮している。
【0192】
本書と引用されたいずれかの文書の間の矛盾した使用法がある場合、本書の使用法が有効である。
【0193】
本書において、特許文献において普通であるが、英語の用語「a」又は「an」は、「少なくとも1つ」又は「1つ以上」の他のあらゆる使用例又は使用とは独立に、1つ又は1つ超を含むように使用される。本書において、英語の用語「or」は非排他的orを指すのに使用され、そうでないと指示されない限り、「A or B」は「A but not B(AであるがBでない)」、「B but not A」、及び「A and B」を含む。本書において、英語の用語「including」及び「in which」は、それぞれ用語「comprising」及び「wherein」の平易な英語の同義語として使用される。また、添付の請求項において、英語の用語「including」及び「comprising」はオープンエンドである、即ち、そのような用語の後に列挙された要素に加えて要素を含むシステム、デバイス、物品、組成物、配合物、又はプロセスも請求項の範囲内に入ると考えられる。また、添付の請求項において、用語「第1」、「第2」、「第3」などは単にラベルとして使用され、それらの対象物に数値要件を導入するように意図されていない。
【0194】
「平行な」、「垂直な」、「丸い」、又は「正方形の」などの幾何学用語は、文脈がそうでないと示さない場合、絶対的数学的正確さを必要とするように意図されていない。それどころか、そのような幾何学用語は製造又は等価な機能による変動を見込んでいる。例えば、要素が丸い又は概ね丸いと表現される場合、正確には円形でない要素(例えば、やや楕円形又は多辺多角形である要素)もこの表現に含まれる。
【0195】
本書で説明された方法例は、少なくとも部分的に、マシン又はコンピュータによって実行されうる。幾つかの実施例は、上記の実施例に記載された方法を実行するように電子デバイスを構成するよう動作可能な命令群が符号化されたコンピュータ読取可能媒体又はマシン読取可能媒体を含みうる。そのような方法の実施形態は、マイクロコード、アセンブリ言語コード、高水準言語コードなどのコードを含みうる。このようなコードは、様々な方法を実行するためのコンピュータ読取可能命令群を含みうる。コードは、コンピュータプログラム製品の部分を形成してよい。更に、一実施例では、コードは、例えば実行中又は他の時に、1つ以上の揮発性、持続性、又は不揮発性の有形コンピュータ読取可能媒体に記憶されうる。これらの有形コンピュータ読取可能媒体の例は、これらに限定されないが、ハードディスク、取り外し可能磁気ディスク、取り外し可能光ディスク(例えば、コンパクトディスク及びデジタルビデオディスク)、磁気カセット、メモリカード又はスティック、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)などを含みうる。
【0196】
上記の説明は、例示的であり、限定的でないように意図されている。例えば、上記で説明した実施例(又は、それらの1つ以上の態様)を、互いに組み合わせて使用してもよい。他の実施形態が、例えば当業者によって上記の説明を見直した後に使用されうる。要約書は、米国特許施行規則37CFR1.72(b)を順守し読み手が本技術的開示の本質を速やかに見つけ出すのを許すために提供される。要約書は、請求項の範囲又は意味を解釈又は限定するために用いられないことを理解して提出されている。また、上記の詳細な説明では、様々な特徴をグループ分けして、本開示を整理した場合がある。これは、請求項にない開示された特徴が、どんな請求項にも本質的であることを意図していると解釈されるべきでない。むしろ、発明の対象は、特定の開示された実施形態の全てより少ない特徴に存在することがある。従って、添付の請求項は実施例又は実施形態として詳細な説明に引用され、各請求項は、別個の実施形態として独立し、そのような実施形態は、様々な組み合わせ又は並べ替えで互いに組み合わせられうることが考慮されている。本発明の範囲は、添付の請求項をそれらの請求項が権利を持つ等価物の全範囲と共に参照して決められるべきである。
【0197】
開示された実施形態は様々な変形および代替の形態が可能であり、それらの特定の例を例として図示し本明細書に詳細に説明した。しかし、開示された実施形態は開示された特定の形態又は方法に限定されず、それどころか、これらの実施形態は、全ての変形、等価物、及び代替物を含むと理解されるべきである。
【符号の説明】
【0198】
100 AI動作環境
200 モデル保全システム
202 取り入れマシン
206 分別マシン
216 表示マシン
217 試験マシン
220 モデル評価エンジン
222 模擬攻撃データ
240 ファイアウォール
260 検出エンジン
280 殺菌剤マシン
300 AIモデル
320 サンプル入力データ
340 サンプル出力データ
400 外部データ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
【手続補正書】
【提出日】2023-08-30
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0197
【補正方法】変更
【補正の内容】
【0197】
開示された実施形態は様々な変形および代替の形態が可能であり、それらの特定の例を例として図示し本明細書に詳細に説明した。しかし、開示された実施形態は開示された特定の形態又は方法に限定されず、それどころか、これらの実施形態は、全ての変形、等価物、及び代替物を含むと理解されるべきである。
以下、本発明の好ましい実施形態を項分け記載する。
実施形態1
人工知能(AI)モデルを安全に配備するための方法であって、
前記AIモデルの1つ以上の欠陥を特定するステップと、
前記特定するステップに基づいて前記AIモデルを外部データによって攻撃されることから保護するステップと
を含む方法。
実施形態2
前記特定するステップは、模擬された攻撃データによる前記AIモデルへの1つ以上の攻撃を模擬することを含み、前記模擬することは、
複数の並列攻撃を模擬し、それらの攻撃に対する前記AIモデルの欠陥を組合わせアルゴリズムに基づいて特定するステップと、
前記AIモデルを再現するように構成された少なくとも1つの代替モデルを攻撃するステップと
のうち少なくとも1つを含む、実施形態1に記載の方法。
実施形態3
前記代替モデルに供給される入力データをフィルタリング又は変更するステップと、
前記入力データにラベル付けするステップと、
前記代替モデルが改善された前記AIモデルとなるように前記ラベル付けされた入力データを使って前記代替モデルを訓練するステップと
を更に含む、実施形態2に記載の方法。
実施形態4
前記特定するステップは、
モデル性能及び訓練データプロファイルの1つ以上のベースラインを確立するステップと、
前記確立するステップに基づいて前記AIモデルの性能と1つ以上の代替モデルを比較して前記AIモデル及び前記代替モデルからモデルを本稼働配備のために選択するステップと
を含み、
前記保護するステップは、前記外部データに関連する一人以上のユーザーを前記AIモデルへの前記ユーザーの問い合わせの挙動パターンに基づいて阻止することを含むか、又は
前記保護するステップは、前記AIモデルへの攻撃を検出するために最大エントロピー法を使用することを含み、前記最大エントロピー法は複数の検出器を生成すること及びそれらの応答を集約することを含む、実施形態1~3のいずれかに記載の方法。
実施形態5
前記外部データはユーザー商取引履歴、アカウント履歴、アカウントデータ、ユーザーデータ、商取引情報、又はそれらの組み合わせに関連する表形式データを含む、実施形態1~4のいずれかに記載の方法。
実施形態6
前記特定するステップは、1つ以上のデータ点を含むサンプル入力データと前記AIモデルに基づいて前記データ点に付けられたラベルを含むサンプル出力データとに基づき、前記各ラベルは前記データ点が不正か不正でないかの決定を含むか、又は
前記特定するステップは、状態空間を探索する高速サブモジュールサンプリングに基づく、実施形態5に記載の方法。
実施形態7
前記保護するステップは、前記外部データが前記AIモデルを騙す1つ以上の攻撃を含むか否かを示すための警報レベルを前記特定するステップに基づいて生成することを含む、実施形態5又は6に記載の方法。
実施形態8
前記外部データが不正である確率を生成するステップを更に含み、前記確率を生成するステップは2値分類のために1つ以上の機械学習(ML)枠組みを使用することを含み、前記ML枠組みは、ブーストツリー、神経回路網、又はそれらの組み合わせを含む、実施形態5~7のいずれかに記載の方法。
実施形態9
前記保護するステップは、
商取引に関連するデータフィードから前記外部データを受け取るステップであって、前記外部データは主体のリスク属性を規定する表形式データを含む、ステップと、
前記表形式データを入力形式に変換するステップと、
前記表形式データ内の1つ以上の要素の操作を特定し偽陽性結果を生成するステップと、
前記表形式データを操作されたデータセットとして拒絶するステップと
を含む、実施形態5~8のいずれかに記載の方法。
実施形態10
前記保護するステップは、
前記表形式データを含む前記外部データを受け取るステップと、
前記表形式データの操作を検出し偽陽性結果を特定するステップと、
前記偽陽性結果が前記AIモデル内で発生するだろうと判断するステップと、
前記AIモデルに警報し、人による見直しのために前記表形式データセットにフラッグを立てるステップと
を含む、実施形態5~9のいずれかに記載の方法。
実施形態11
前記外部データは音声データを含み、前記AIモデルは前記外部データが指定された人のであると分類されたか否かを検出するための音声認証モデルを含み、前記特定するステップ、前記保護するステップ、又はそれらの両方が、
2値分類機械学習モデルを訓練して前記音声データが偽ものか偽ものでないかを示す出力ラベルを生成すること、
畳み込み神経回路網ベース・アーキテクチャを前記検出のために使用すること、
前記検出に適した様々な音響特徴を抽出すること、又は
データ増強を使用して本物の音声データから合成音声データを生成すること
に基づく、実施形態1~10のいずれかに記載の方法。
実施形態12
前記特定するステップは、1つ以上のサンプル音声ファイルを含むサンプル入力データと前記AIモデルに基づいて前記サンプル音声ファイルに付けられたラベルを含むサンプル出力データとに基づき、前記各ラベルは一個人を示し、前記特定するステップは前記サンプル音声ファイルのうちの合成音声データを含み前記指定された人のであると前記AIモデルによって受け付けられた少なくとも1つを特定することを含むか、又は
前記特定するステップは第1の人の本物の音声データと加えられたノイズの両方を含む赤組音声ファイルを生成することを含み、前記ノイズは、前記AIモデルが前記選択されたサンプル音声ファイルを前記第1の人と違う第2の人のであると認識するよう構成されるように前記本物の音声データに加えられる、実施形態11に記載の方法。
実施形態13
前記保護するステップは前記外部データに提示された声が合成か否かを検出することを含む、実施形態11又は12に記載の方法。
実施形態14
前記外部データは少なくとも1つの画像ファイルを含み、前記AIモデルは前記画像ファイルが指定された人の顔を示すか否かを検出するための顔認識モデルを含み、前記特定するステップ、前記保護するステップ、又はそれらの両方が、
神経回路網ベース顔埋め込み、
顔画像をより低い次元の埋め込みに圧縮すること、
より低い次元の埋め込みを顔認識のためにカテゴリーに分けること、
顔画像にノイズを加えることで前記AIモデルを攻撃すること、又は
敵対的生成ネットワークを使用することで、ノイズから特定の顔画像を取り出す神経回路網
に基づく、実施形態1~13のいずれかに記載の方法。
実施形態15
前記特定するステップは、1つ以上の顔のサンプル画像ファイルを含むサンプル入力データと前記AIモデルに基づいて前記サンプル画像ファイルに付けられたラベルを含むサンプル出力データとに基づき、前記各ラベルは一個人を示し、前記特定するステップは前記サンプル画像ファイルのうちの前記AIモデルによって誤分類された少なくとも1つを特定することを含むか、又は
前記特定するステップは対象の人の1つ以上の画像に基づいて少なくとも部分的に写真のようにリアルな1つ以上の画像を生成することを含む、実施形態14に記載の方法。
実施形態16
前記外部データは前記画像に付けられたラベルを更に含み、前記保護するステップは前記ラベルが前記画像に正しく付けられているかを示すことを含むか、又は
前記保護するステップは前記画像ファイル内の顔が本物か機械生成されたかを示すことを含む、実施形態14又は15に記載の方法。
実施形態17
前記外部データは少なくとも1つの画像を含み、前記AIモデルは前記画像内の少なくとも1つの物体を分類するための物体検出モデルを含む、実施形態1~16のいずれかに記載の方法。
実施形態18
前記特定するステップは、1つ以上のサンプル画像ファイルを含むサンプル入力データ
と、1つ以上の物体と前記各サンプル画像ファイル内のそれらの位置とを含むサンプル
出力データとに基づき、前記特定するステップは前記サンプル画像ファイルのうちの前
記AIモデルによって誤分類された少なくとも1つを特定することを含むか、又は
前記特定するステップは前記AIモデルが誤分類するように操作された画像を生成することを含む、実施形態17に記載の方法。
実施形態19
前記保護するステップは前記画像がデジタル敵対的攻撃、物理的敵対的攻撃、又はそれらの組み合わせにより前記AIモデルを騙すように操作されているかを示すことを含む、実施形態17又は18に記載の方法。
実施形態20
人工知能(AI)モデルを安全に配備するためのシステムであって、
少なくとも1つのハードウェアプロセッサと、
命令群を記憶する持続性コンピュータ読取可能媒体と
を備え、前記命令群は前記少なくとも1つのハードウェアプロセッサによって実行されると前記少なくとも1つのハードウェアプロセッサに
前記AIモデルの1つ以上の欠陥を特定するステップと、
前記特定するステップに基づいて前記AIモデルを外部データによって攻撃されることから保護するステップと
を含む動作を実行させる、システム。
【国際調査報告】