IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネットスコープ, インク.の特許一覧

特表2024-532673オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器
<>
  • 特表-オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器 図1A
  • 特表-オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器 図1B
  • 特表-オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器 図2A
  • 特表-オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器 図2B
  • 特表-オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器 図3A
  • 特表-オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器 図3B
  • 特表-オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器 図4
  • 特表-オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器 図5
  • 特表-オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器 図6
  • 特表-オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-10
(54)【発明の名称】オンプレミスの画像内の組織の機密データを検出するためのカスタマイズされた深層学習分類器
(51)【国際特許分類】
   G06F 21/62 20130101AFI20240903BHJP
   G06T 7/00 20170101ALI20240903BHJP
   G06N 3/09 20230101ALI20240903BHJP
【FI】
G06F21/62 318
G06T7/00 350B
G06N3/09
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024504786
(86)(22)【出願日】2022-07-26
(85)【翻訳文提出日】2024-02-28
(86)【国際出願番号】 US2022038325
(87)【国際公開番号】W WO2023009511
(87)【国際公開日】2023-02-02
(31)【優先権主張番号】17/385,816
(32)【優先日】2021-07-26
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WINDOWS
2.JAVASCRIPT
(71)【出願人】
【識別番号】517325652
【氏名又は名称】ネットスコープ, インク.
【氏名又は名称原語表記】NETSKOPE, INC.
(74)【代理人】
【識別番号】100114476
【弁理士】
【氏名又は名称】政木 良文
(72)【発明者】
【氏名】ザン, イー
(72)【発明者】
【氏名】グオ, ドン
(72)【発明者】
【氏名】リャオ, イーファ
(72)【発明者】
【氏名】ヤン, シイン
(72)【発明者】
【氏名】ナラヤナスワミー, クリシュナ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA08
5L096DA02
5L096HA08
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、画像由来の組織の機密文書の損失から保護する方法が開示され、本方法は、記憶されたパラメータを有するトレーニング済み特徴マップ抽出器スタックを、組織に組織の制御下で配布することであって、組織が、画像由来の組織の機密文書から、更新されたDLスタックを生成するために使用する特徴マップを、組織が組織の機密トレーニング例の画像を転送することなく抽出できるように、また画像から導出した不可逆特徴マップと、画像用のグラウンドトゥルースラベルとを保存できるように構成されている、配布することを含む。
また、組織の機密文書から抽出した不可逆特徴マップと、グラウンドトゥルースラベルとを含む組織固有の例を受け取ることと、受け取った組織固有の例を使用して、顧客固有のDLスタック分類器を生成することも含まれる。さらに、顧客固有のDLスタック分類器を組織に送ることも含まれる。
【選択図】図3A
【特許請求の範囲】
【請求項1】
カスタマイズされた深層学習(略称DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、前記画像由来の組織の機密文書の損失から保護するコンピューター実装方法であって、
記憶されたパラメータを有するトレーニング済み特徴マップ抽出器スタックを、組織に前記組織の制御下で配布することであって、前記組織が、画像由来の組織の機密文書から、更新されたDLスタックを生成するために使用する特徴マップを、前記組織が組織の機密トレーニング例の画像を転送することなく抽出できるように、また前記画像から導出した不可逆特徴マップと、前記画像用のグラウンドトゥルースラベルとを保存できるように構成されている、配布することと、
前記組織の機密文書から抽出した前記不可逆特徴マップと、前記グラウンドトゥルースラベルとを含む組織固有の例を受け取ることと、
前記受け取った組織固有の例を使用して、顧客固有のDLスタック分類器を生成することと、を含むコンピューター実装方法。
【請求項2】
前記顧客固有のDLスタック分類器を前記組織に送ることをさらに含む、請求項1に記載のコンピューター実装方法。
【請求項3】
前記特徴マップ抽出器スタックへのアドオンとして、前記顧客固有のDLスタック分類器を前記組織に送出することをさらに含む、請求項1に記載のコンピューター実装方法。
【請求項4】
前記画像由来の組織の機密文書は身分証明書である、請求項1に記載のコンピューター実装方法。
【請求項5】
画像内の前記身分証明書は、パスポートブック、運転免許証、社会保障カード、および支払いカードのうちの1つである、請求項4に記載のコンピューター実装方法。
【請求項6】
前記画像由来の組織の機密文書は、スクリーンショット画像である、請求項1に記載のコンピューター実装方法。
【請求項7】
前記受け取った組織固有の例を遠近について歪めて、前記画像由来の組織の機密文書の第2の組を生成することと、前記受け取った組織固有の例と前記遠近について歪められた例との両方を使用して、顧客固有のDLスタック分類器を生成することとをさらに含む、請求項1に記載のコンピューター実装方法。
【請求項8】
有形の非一時的コンピューター可読記憶媒体であって、メモリ内にロードされたプログラム命令を含み、前記プログラム命令は、プロセッサ上で実行されると、前記プロセッサに、カスタマイズされた深層学習(略称DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、前記画像由来の組織の機密文書の損失から保護する方法を実施させ、前記方法は、
記憶されたパラメータを有するトレーニング済み特徴マップ抽出器スタックを、組織に前記組織の制御下で配布することであって、前記組織が、画像由来の組織の機密文書から、更新されたDLスタックを生成するために使用する特徴マップを、前記組織が組織の機密トレーニング例の画像を転送することなく抽出できるように、また前記画像から導出した不可逆特徴マップと、前記画像用のグラウンドトゥルースラベルとを保存できるように構成されている、配布することと、
前記組織の機密文書から抽出した前記不可逆特徴マップと、前記グラウンドトゥルースラベルとを含む組織固有の例を受け取ることと、
前記受け取った組織固有の例を使用して、顧客固有のDLスタック分類器を生成することと、を含む、有形の非一時的コンピューター可読記憶媒体。
【請求項9】
前記顧客固有のDLスタック分類器を前記組織に送ることをさらに含む、請求項8に記載の有形の非一時的コンピューター可読記憶媒体。
【請求項10】
前記特徴マップ抽出器スタックへのアドオンとして、前記顧客固有のDLスタック分類器を前記組織に送出することをさらに含む、請求項8に記載の有形の非一時的コンピューター可読記憶媒体。
【請求項11】
前記画像由来の組織の機密文書は、画像内の身分証明書である、請求項8に記載の有形の非一時的コンピューター可読記憶媒体。
【請求項12】
前記画像内の身分証明書は、パスポートブック、運転免許証、社会保障カード、および支払いカードのうちの1つである、請求項11に記載の有形の非一時的コンピューター可読記憶媒体。
【請求項13】
前記画像由来の組織の機密文書は、スクリーンショット画像である、請求項8に記載の有形の非一時的コンピューター可読記憶媒体。
【請求項14】
前記受け取った組織固有の例を遠近について歪めて、前記画像由来の組織の機密文書の第2の組を生成することと、前記受け取った組織固有の例と前記遠近について歪められた例との両方を使用して、顧客固有のDLスタック分類器を生成することとをさらに含む、請求項8に記載の有形の非一時的コンピューター可読記憶媒体。
【請求項15】
カスタマイズされた深層学習(略称DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、前記画像由来の組織の機密文書の損失から保護するためのシステムであって、前記システムは、プロセッサと、前記プロセッサに結合されたメモリと、コンピューター命令とを含み、前記コンピューター命令は、前記プロセッサ上で実行されると、
記憶されたパラメータを有するトレーニング済み特徴マップ抽出器スタックを、組織に前記組織の制御下で配布することであって、前記組織が、画像由来の組織の機密文書から、更新されたDLスタックを生成するために使用する特徴マップを、前記組織が組織の機密トレーニング例の画像を転送することなく抽出できるように、また前記画像から導出した不可逆特徴マップと、前記画像用のグラウンドトゥルースラベルとを保存できるように構成されている、配布することと、
前記組織の機密文書から抽出した前記不可逆特徴マップと、前記グラウンドトゥルースラベルとを含む組織固有の例を受け取ることと、
前記受け取った組織固有の例を使用して、顧客固有のDLスタック分類器を生成することと、を含む動作を実施する、システム。
【請求項16】
前記顧客固有のDLスタック分類器を前記組織に送ることをさらに含む、請求項15に記載のシステム。
【請求項17】
前記特徴マップ抽出器スタックへのアドオンとして、前記顧客固有のDLスタック分類器を前記組織に送出することをさらに含む、請求項15に記載のシステム。
【請求項18】
前記画像由来の組織の機密文書は画像内の身分証明書である、請求項15に記載のシステム。
【請求項19】
前記画像由来の組織の機密文書は、スクリーンショット画像である、請求項15に記載のシステム。
【請求項20】
前記受け取った組織固有の例を遠近について歪めて、前記画像由来の組織の機密文書の第2の組を生成することと、前記受け取った組織固有の例と前記遠近について歪んめられた例との両方を使用して、顧客固有のDLスタック分類器を生成することとをさらに含む、請求項15に記載のシステム。
【発明の詳細な説明】
【優先権出願】
【0001】
本出願は、米国非仮出願第17/385,816号(2021年7月26日に出願)、発明の名称「Customized Deep Learning Classifier For Detecting Organization Sensitive Data In Images On Premises」(代理人整理番号:NSKO1053-1)に対する優先権を主張する。
【組み込み】
【0002】
以下の資料は、この出願に参照により組み込まれている。
【0003】
米国非仮出願第17/385,816号(2021年7月26日に出願)、発明の名称「Customized Deep Learning Classifier For Detecting Organization Sensitive Data In Images On Premises」(代理人整理番号:NSKO1053-1)。
【0004】
米国非仮特許出願第17/339,768号(2021年4月13日に出願)、発明の名称「Deep Learning Stack Used in Production to Prevent Exfiltration of Image-Borne Identification Documents」(代理人整理番号NSKO1032-2)。これは、米国非仮特許出願第16/891,647号(2020年6月3日に出願)、発明の名称「Detecting Image-Borne Identification Documents for Protecting Sensitive Information」(代理人整理番号NSKO1032-1)(現在、米国特許第10,990,856号、2021年4月27日に発行)の継続出願である。
【0005】
米国非仮特許出願第17/202,075号(2021年3月15日に出願)、発明の名称「Training and Configuration of DL Stack to Detect Attempted Exfiltration of Sensitive Screenshot-Borne Data」(代理人整理番号NSKO1033-2)。これは、米国非仮特許出願第16/891,678号(2020年6月3日に出願)、発明の名称「Detecting Screenshot Images for Protecting Against Loss of Sensitive Screenshot-Borne Data」(代理人整理番号NSKO1033-1)(現在、米国特許第10,949,961号、2021年3月16日に発行)の継続出願である。
【0006】
米国非仮特許出願第17/116,862号(2020年12月9日に出願)、発明の名称「Deep Learning-Based Detection and Data Loss Prevention of Image-Borne Sensitive Documents」、(代理人整理番号NSKO1034-2)。これは、米国非仮特許出願第16/891,968号(2020年6月3日に出願)、発明の名称「Detecting Organization Image-Borne Sensitive Documents and Protecting Against Loss of the Sensitive Documents」、(代理人整理番号NSKO1034-1)(現在、米国特許第10,867,073号、2020年12月15日に発行)の継続出願である。これらの非仮出願は、すべての目的のために参照により組み込まれている。
【0007】
米国非仮出願第14/198,508号、発明の名称「SECURITY FOR NETWORK DELIVERED SERVICES」、(2014年3月05日に出願)(代理人整理番号NSKO1000-3)(現在、米国特許第9,270,765号、2016年2月23日に発行)。
【0008】
米国非仮出願第14/198,499号、発明の名称「SECURITY FOR NETWORK DELIVERED SERVICES」、(2014年3月05日に出願)(代理人整理番号NSKO1000-2)(現在、米国特許第9,398,102号、2016年7月19日に発行)。
【0009】
米国非仮出願第14/835,640号、発明の名称「SYSTEMS AND METHODS OF MONITORING AND CONTROLLING ENTERPRISE INFORMATION STORED ON A CLOUD COMPUTING SERVICE(CCS)」、(2015年8月25日に出願)(代理人整理番号NSKO1001-2)(現在、米国特許第9,928,377号、2018年3月27日に発行)。
【0010】
米国非仮出願第15/368,246号、発明の名称「MIDDLE WARE SECURITY LAYER FOR CLOUD COMPUTING SERVICES」、(2016年12月02日に出願)(代理人整理番号NSKO1003-3)。これは、米国仮出願第62/307,305号、発明の名称「SYSTEMS AND METHODS OF ENFORCING MULTI-PART POLICIES ON DATA-DEFICIENT TRANSACTIONS OF CLOUD COMPUTING SERVICES」、(2016年3月11日に出願)(代理人整理番号NSKO1003-1)の利益を主張する。
【0011】
「Cloud Security for Dummies,Netskope Special Edition」(Cheng,Ithal,Narayanaswamy,and Malmskog,John Wiley&Sons,Inc.2015)。
【0012】
「Netskope Introspection」(Netskope,Inc.)。
【0013】
「Data Loss Prevention and Monitoring in the Cloud」(Netskope,Inc.)。
【0014】
「Cloud Data Loss Prevention Reference Architecture」(Netskope,Inc.)。
【0015】
「The 5 Steps to Cloud Confidence」(Netskope,Inc.)。
【0016】
「The Netskope Active Platform」(Netskope,Inc.)。
【0017】
「The Netskope Advantage: Three『Must-Have』Requirements for Cloud Access Security Brokers」(Netskope,Inc.)。
【0018】
「The 15 Critical CASB Use Cases」(Netskope,Inc.)。
【0019】
「Netskope Active Cloud DLP」(Netskope,Inc.)。
【0020】
「Repave the Cloud-Data Breach Collision Course」(Netskope,Inc.)。
【0021】
「Netskope Cloud Confidence Index(商標)」(Netskope,Inc.)。
【0022】
これらは、本明細書において十分に説明されているものとして、すべての目的のために参照により組み込まれている。
【技術分野】
【0023】
開示した技術は全般的に、ネットワーク配信サービスに対するセキュリティに関する。詳細には、カスタマイズされた深層学習(DL)スタック分類器を構築して、組織の制御下で、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、組織が画像由来の組織の機密文書をセキュリティサービスプロバイダーとさえ共有することなく、画像由来の組織の機密文書の損失から保護することに関する。複数の異なる組織が、開示した技術を利用して、それらの組織固有の画像内の組織の機密データを検出できるため、潜在的な機密データを有する組織の画像をデータ損失防止(DLP)サービスプロバイダーと共有する必要がない。
【背景技術】
【0024】
このセクションで説明する主題は、単にこのセクションでそれが言及された結果として従来技術であると考えるべきではない。同様に、このセクションで言及した問題、または背景として提供された主題に関連する問題は、従来技術において以前に認識されていたと考えるべきではない。このセクションにおける主題は、単に異なるアプローチを表しているだけであり、アプローチ自体は、特許請求した技術の実施態様にも対応することができる。
【0025】
データ損失防止(DLP)技術は、個人を識別できる情報(PII)、保護された健康情報(PHI)、知的財産(IP)などの機密情報の漏洩を防止するために、セキュリティ業界で広く使用されている。大企業および中小組織の両方がDLP製品を使用する。そのような機密情報は、文書および画像を含む種々のソース内に存在する。任意のDLP製品に対して、文書および画像内の機密情報を高い精度および計算効率で検出できることが重要である。
【0026】
テキスト文書の場合、DLP製品は、文字列および正規表現ベースのパターンマッチングを使用して機密情報を識別する。画像の場合、光学文字認識(OCR)技術が、最初にテキスト文字を抽出するために使用されてきた。次いで、抽出した文字を同じパターンマッチングプロセスに送って、機密情報を検出する。歴史的に、OCRは、計算資源への要求が高くて精度が不十分であるため、特に画像が、ぼやけている、汚れている、回転している、または反転しているときなど、理想状態にない場合には、それほど良好には機能しない。
【0027】
トレーニングは自動化できるが、トレーニングデータを適切なフォーマットで組み立てて、十分なストレージと計算能力を備えた計算の中央ノードにデータを送るという問題が残っている。多くの分野で、個人を識別できるプライベートデータを任意の中央当局に送った場合、データセキュリティ、データ所有権、プライバシー保護、データの適切な承認および使用など、データプライバシーについての懸念が生じる。
【0028】
深層学習は、多層ネットワークをデータに適用する。近年、画像分類において、深層学習技術がますます使用されている。深層学習は、高価なOCRプロセスを経ることなく、機密情報を有する画像を検出することができる。深層学習アプローチに対する大きな課題は、実際の分布を表す多数の高品質のラベル付き画像が必要になることである。しかし、DLPの場合、残念ながら、高品質のラベル付き画像は通常、実際のパスポート画像および実際の運転免許証画像など、機密情報を有する実際の画像を利用する。これらのデータソースは、その性質上、大規模に取得することが困難である。この制限のために、深層学習ベースの画像分類をDLP製品において採用することが妨げられている。
【0029】
さらに、顧客は、保護に関心がある機密性の高い画像および文書のタイプを有する場合があり、プライバシーに対する懸念または法的制約のために、データ損失防止(DLP)セキュリティプロバイダーとデータを共有することができない。特別な人事(HR)文書および特定のタイプのIDカーが、機密性の高い画像および文書の例である。
【0030】
組織の機密データを検出するために機械学習分類器をトレーニングし、DLPセキュリティプロバイダーと機密データを共有することができない顧客向けに、画像由来の組織の機密文書内の機密データの損失から保護するために、独自の分類器のトレーニング(TYOC)を提供する機会が生じる。この機会は、安全でプライバシーを保護するメカニズムを提供することができ、結果として、SaaSを使用する顧客が利用するセキュリティシステムにおけるコストと時間が節約される可能性がある。
【0031】
図面において、同様の参照文字は全般的に、異なる図の全体を通して同様の部分を指す。また、図面は必ずしも一定の比率ではなく、その代わり全般的に、開示した技術の原理を例示することに重点が置かれている。以下の説明では、開示した技術の種々の実施態様が、以下の図面を参照して説明される。
【図面の簡単な説明】
【0032】
図1A】カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、画像由来の組織の機密文書の損失から保護するためのシステムのアーキテクチャレベルの概略図を例示する図である。
図1B図1Aに関連して説明したシステムの画像由来の組織の機密データ検出態様のブロック図である。
図2A】カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データを検出し、画像由来の組織の機密文書の損失から保護するための畳み込みニューラルネットワーク(CNN)アーキテクチャモデルを使用するためのブロック図である。
図2B図2Aのブロック図の論理ブロックを示す図である。
図3A】カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データを検出し、画像由来の組織の機密文書の損失から保護するためのブロック図の詳細である。
図3B】深層学習スタック分類器の開示した構築のための、図2Aに示したものなどのCNNアーキテクチャモデルの使用を例示する図である。
図4】カスタマイズされたDLスタック分類器を構築して、画像内の組織の機密データを検出するためのプロセスフローを例示する図である。
図5】開示したTYOCによってトレーニングされたMLモデルに対する結果と、TYOCを伴わないフルモデルに対する結果との比較を示す図である。
図6】カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、画像由来の組織の機密文書の損失から保護するためのワークフロー例を示す図である。
図7】開示した技術の一実施形態により、カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データを検出し、画像由来の組織の機密文書の損失から保護することを実施するために使用することができるコンピューターシステムの簡略化されたブロック図である。
【発明を実施するための形態】
【0033】
以下の詳細な説明を、図を参照して行う。サンプル実装は、開示した技術を例示するために説明しており、特許請求の範囲によって規定されるその範囲を限定するためではない。当業者であれば、以下の説明についての種々の等価な変形を認識するであろう。
【0034】
深層学習技術を使用することによって、文書および画像内の機密情報の検出が強化され、既存の高価なOCRプロセスを経ることなく、機密情報を有する画像が検出される。深層学習では、最適化を使用して、最適な予測を行うためのモデルに対する最適なパラメータ値を見つける。深層学習ベースの画像分類は通常、機密情報を有する多数のラベル付き画像が必要であるが、これは大規模に取得することが困難であり、この制限のために、深層学習ベースの画像分類をDLP製品において採用することが妨げられている。
【0035】
Netskope Security Cloudは、毎日数百万の文書および画像ファイルを処理し、一方で、それらは、クラウドストレージに記憶されるかまたはクラウドアプリケーションを通して転送される。これらの文書および画像の多くには、機密の法律文書および財務文書、知的財産、および顧客または従業員の個人を識別できる情報(PII)などの機密情報が含まれている。本出願人は、機械学習ベースの文書および画像分類器を、そのNetskopeクラウドアクセスセキュリティブローカー(N-CASB)、およびNextGenソフトウェアゲートウェイ(SWG)ソリューションの一部として開発した。機械学習(ML)分類器は、データ損失防止(DLP)サービス内で実行され、文書および画像を、納税申告書、特許、ソースコード、パスポート、運転免許証、支払いカード、スクリーンショットなどの種々のカテゴリに正確に分類することができる。次いで、セキュリティ管理者は、これらのカテゴリに基づいてDLPポリシーを作成することができる。ML分類器は、機密情報を識別するための迅速で効果的な方法を提供する。これらは、従来の正規表現ベースのDLPルールに対する相補的アプローチとして機能し、リアルタイムでの粒度の細かいポリシー制御を可能にし、組織がコンプライアンス規制に準拠してそれらの資産を保護するのを助ける。
【0036】
最新の深層学習技術と独自開発のトレーニングデータセットとを使用して、本出願人は、Netskope DLPサービスの一部として、予め規定された機械学習分類器の組を開発した。しかし、顧客は、保護に関心がある新しいタイプの機密性の高い画像または文書を有する場合があり、プライバシーに対する懸念または法的制約のために、分類器をトレーニングするためにセキュリティサービスと自分のデータを共有することはできない。開示した独自の分類器のトレーニング(TYOC)は、通常はオンプレミスのDockerコンテナを使用して、機械学習分類器をトレーニングするための安全でプライバシー保持するメカニズムを提供することによって、この問題を解決し、その代わりに、異なる実施態様において、アプリをその環境から分離することを可能にする他の標準化されたソフトウェアユニットを利用することができる。
【0037】
開示したTYOCは最初に、オンプレミスに展開されたコンテナ内部で、文書および画像を、入力データの抽象的表現である数値特徴に変換する。文書の場合、特徴は、テキストの埋め込みである。画像の場合、特徴は、画像のコンテンツをより良好に理解するために、形状、オブジェクト、および他の品質を表す。特徴抽出プロセスにおけるランダムおよび非線形変換により、特徴から元の入力ファイルを取得することが不可能に近くなる。データセキュリティおよびプライバシーに対する懸念は、元の機密データのコピーを得る必要なく、Dockerコンテナからのみ特徴を得ることによって対処される。
【0038】
顧客は、医療/デザイン画像、人事(HR)文書など、自分達の独自の機密性の高いトレーニングデータを使用して、開示したカスタム分類器をさらに開発する。組織においてオンプレミスで行われるランダムおよび非線形変換によって、元の画像を取得することが不可能に近くなる。特徴を、特徴がグレースケール画像に再成形されたときに個人を識別できる情報(PII)が明らかにならないように抽出する。
【0039】
カスタマイズされた深層学習(略称DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、画像由来の組織の機密文書の損失から保護するためのシステム例について、次に説明する。
【0040】
アーキテクチャ
図1Aに、カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、画像由来の組織の機密文書の損失から保護するためのシステム100のアーキテクチャレベルの概略図を示す。システム100は、機密文書を検出し、機密文書データの損失から保護することもできる。図1Aはアーキテクチャ図であるので、説明の明瞭さを向上させるために、ある特定の詳細は意図的に省略している。図1Aの説明は、以下のように整理される。最初に、図の要素について説明し、続いてそれらの相互接続について説明する。次いで、システムにおける要素の使用について、より詳細に説明する。図1Bに、システムの画像由来の機密データ検出の態様を例示し、以下に説明する。
【0041】
システム100は、組織ネットワーク102、Netskopeクラウドアクセスセキュリティブローカー(N-CASB)155を備えたデータセンタ152、およびクラウドベースのサービス108を含む。システム100は、セキュリティサービスプロバイダーの複数の加入者のための複数の組織ネットワーク104(マルチテナントネットワークとも言われる)と、複数のデータセンタ154(ブランチと言われることもある)とを含む。組織ネットワーク102は、コンピューター112a~n、タブレット122a~n、携帯電話132a~nおよびスマートウォッチ142a~nを含む。他の組織ネットワークでは、組織のユーザーが、さらなるデバイスを利用してもよい。クラウドサービス108は、クラウドベースのホスティングサービス118、ウェブ電子メールサービス128、ビデオ、メッセージングおよび音声通話サービス138、ストリーミングサービス148、ファイル転送サービス158、およびクラウドベースのストレージサービス168を含む。データセンタ152は、組織ネットワーク102およびクラウドベースのサービス108に、パブリックネットワーク145を介して接続する。
【0042】
図1Aの説明を続けると、開示した拡張Netskopeクラウドアクセスセキュリティブローカー(N-CASB)155は、BT、FTP、およびUDPベースのストリーミングプロトコル上のP2Pトラフィック、並びにSIP上のSkype、音声、ビデオ、およびメッセージングマルチメディア通信セッション、および他のプロトコル上のウェブトラフィックを安全に処理し、加えて、認可されたクラウドアプリおよび認可されていないクラウドアプリにおけるアクセスおよびアクティビティを管理し、機密データを保護してその損失を防止し、内部および外部の脅威から保護する。N-CASB155は、ID検出および機密性の高いスクリーンショット検出に機械学習分類を利用し、データ損失防止のために機密性の高い画像コンテンツを検出してポリシーを適用する機能をさらに広げる。N-CASB155は、システムのユーザーを識別し、アプリに対するポリシーを設定するアクティブアナライザ165およびイントロスペクティブアナライザ175を含む。イントロスペクティブアナライザ175は、保存中のデータを検査するために、クラウドベースのサービス108と直接やりとりする。ポーリングモードでは、イントロスペクティブアナライザ175は、APIコネクタを使用するクラウドベースのサービスを呼び出して、クラウドベースのサービスに存在するデータを巡回し、変更をチェックする。一例として、Box(商標)ストレージアプリケーションは、Box Content API(商標)と言われる管理APIを提供する。これは、Boxフォルダの監査ログなど、すべてのユーザーに対する組織のアカウントの可視性をもたらし、何らかの機密性の高いファイルが、クレデンシャルが損なわれた特定の日付後にダウンロードされたか否かを判定するために検査することができる。イントロスペクティブアナライザ175は、このAPIをポーリングして、いずれかのアカウントに加えられた任意の変更を見つける。変更が見つかった場合、Box Events API(商標)がポーリングされて、詳細なデータ変更を見つける。コールバックモデルでは、イントロスペクティブアナライザ175は、APIコネクタを介してクラウドベースのサービスに登録して、任意の重要なイベントの通知を受ける。たとえば、イントロスペクティブアナライザ175は、Microsoft Office365 Webhooks API(商標)を使用して、ファイルがいつ外部と共有されたかを知ることができる。またイントロスペクティブアナライザ175は、ディープAPIインスペクション(DAPII)、ディープパケットインスペクション(DPI)、およびログインスペクション機能を有し、DLPエンジンを含む。DLPエンジンは、ストレージ186に記憶されたポリシーおよびルールに基づいて、どの文書およびファイルが、機密性が高いかを決定するために、クラウドベースのサービスに保存中のファイルに異なるコンテンツインスペクション手法を適用する。イントロスペクティブアナライザ175による検査の結果は、ユーザーごとのデータおよびファイルごとのデータの生成である。
【0043】
図1Aの説明をさらに続けると、N-CASB155は、モニタ184をさらに含み、モニタ184は、抽出エンジン171、分類エンジン172、セキュリティエンジン173、管理プレーン174、およびデータプレーン180を含む。また、N-CASB155に含まれているものとして、ストレージ186は、深層学習スタックパラメータ183、特徴マップおよびラベル185、コンテンツポリシー187、コンテンツプロファイル188、コンテンツ検査ルール189、企業データ197、クライアント198およびユーザーID199に対する情報を含む。企業データ197は、組織データ、たとえば、限定することなく、知的財産、非公開財務、戦略計画、顧客リスト、顧客または従業員に属する(PII)個人を識別できる情報、患者の健康データ、ソースコード、企業秘密、予約情報、パートナー契約、企業計画、合併吸収文書、および他の機密データを含むことができる。詳細には、「企業データ」という用語は、文書、ファイル、フォルダ、ウェブページ、ウェブページの集合、画像、または任意の他のテキストベースの文書を指す。ユーザーIDは、ネットワークセキュリティシステムによってクライアントデバイスに、トークン、UUIDなどの一意の識別子、公開鍵証明書などの形式で提供される指標を指す。場合によっては、ユーザーIDは、特定のユーザーおよび特定のデバイスにリンクすることができる。したがって、同じ個人が、その携帯電話とそのコンピューター上で異なるユーザーIDを有することができる。ユーザーIDは、エントリーまたはユーザーID企業IDディレクトリにリンクすることができるが、それとは異なる。一実施態様では、ネットワークセキュリティによって署名された暗号証明書を、ユーザーIDとして使用する。他の実施態様では、ユーザーIDは、ユーザー唯一一意であり、デバイス間では同一とすることができる。
【0044】
また実施形態は、シングルサインオン(SSO)ソリューションおよび/または企業IDディレクトリ、たとえば、MicrosoftのActive Directoryと相互運用することができる。このような実施形態によって、カスタム属性を使用して、ポリシーを、ディレクトリ内で、たとえば、グループまたはユーザレベルのいずれかにおいて規定することができ得る。システムによって構成されるホステッドサービスも、システムを介してトラフィックを必要とするように構成される。これは、ホステッドサービスにおけるIP範囲制限をシステムのIP範囲に設定すること、および/またはシステムとSSOシステムとの間で統合することを通して行うことができる。たとえば、SSOソリューションとの統合により、サインオンを承認する前にクライアントのプレゼンス要件を適用することができる。他の実施形態では、SaaSベンダーとの「プロキシアカウント」、たとえば、サービスにサインインするための唯一のクレデンシャルを保持するシステムによって保持される専用アカウントを使用してもよい。他の実施形態では、クライアントは、ログインをホステッドサービスに渡す前にサインオンクレデンシャルを暗号化してもよく、これは、ネットワーキングセキュリティシステムがパスワードを「所有する」ことを意味する。
【0045】
ストレージ186は、1つ以上のテナントからの情報を共通データベースイメージのテーブル内に記憶して、オンデマンドデータベースサービス(ODD)を形成することができ、これは、マルチテナントデータベースシステム(MTDS)などの多くの方法で実施することができる。データベースイメージは、1つ以上のデータベースオブジェクトを含むことができる。他の実施態様では、データベースは、リレーショナルデータベース管理システム(RDBMS)、オブジェクト指向データベース管理システム(OODBMS)、分散ファイルシステム(DFS)、非スキーマデータベース、または任意の他のデータ記憶システムまたはコンピューティングデバイスとすることができる。いくつかの実施態様では、収集されたメタデータを処理および/または正規化する。場合によっては、メタデータは構造化データを含み、機能は、クラウドサービス108によって提供される特定のデータ構造を対象とする。フリーテキストなどの非構造化データも、クラウドサービス108によって提供され、再びクラウドサービス108を対象にすることができる。構造化データおよび非構造化データの両方が、イントロスペクティブアナライザ175によって集約可能である。たとえば、組み立てられたメタデータは、半構造化データ形式、たとえば、JSON(Java Script OptionNotation)、BSON(BinaryJSON)、XML、Protobuf、AvroまたはThriftオブジェクトで記憶され、これは、文字列フィールド(または列)と、数値、文字列、アレイ、オブジェクトなどの潜在的に異なるタイプの対応する値とからなる。JSONオブジェクトは、入れ子にすることができ、フィールドは、他の実施態様において、たとえば、アレイ、入れ子アレイなど、複数の値を持つことができる。これらのJSONオブジェクトは、スキーマレスまたはNoSQLキー値メタデータストア148、たとえば、Apache Cassandra(商標)158、GoogleのBigTable(商標)、HBase(商標)、Voldemort(商標)、CouchDB(商標)、Mongodb(商標)、Redis(商標)、Riak(商標)、Neo4j(商標)などに記憶され、これは、SQLにおけるデータベースと同等のキースペースを使用して、構文解析されたJSONオブジェクトを記憶する。各キースペースは、テーブルに似た列ファミリーに分割することができ、行と列の組とを含む。
【0046】
一実施態様では、イントロスペクティブアナライザ175は、メタデータパーサを含む(明瞭さを向上させるために省略)。これは、入力メタデータを分析して、受け取ったデータ内のキーワード、イベント、ユーザーID、場所、人口統計、ファイルタイプ、タイムスタンプなどを識別する。イントロスペクティブアナライザ175によって分析されるメタデータは、均一ではない(たとえば、多くの異なるソースが、多くの異なるフォーマットで存在する)ので、ある特定の実施態様では、クラウドサービスあたり少なくとも1つのメタデータパーサを使用し、場合によっては2つ以上を使用する。他の実施態様では、イントロスペクティブアナライザ175は、モニタ184を使用して、クラウドサービスを検査し、コンテンツメタデータを組み立てる。1つのユースケースでは、機密文書の識別は、文書の事前の検査に基づく。ユーザーは、文書に機密性が高いとして手動でタグ付けすることができ、この手動のタグ付けによって、クラウドサービスにおける文書メタデータが更新される。次いで、公開されたAPIを使用して、クラウドサービスから文書メタデータを取得し、それを機密性の指標として使用することができる。
【0047】
図1Aの説明をさらに続けると、システム100は、任意の数のクラウドベースのサービス108、すなわち、ポイントツーポイントストリーミングサービス、ホステッドサービス、クラウドアプリケーション、クラウドストア、クラウドコラボレーションおよびメッセージングプラットフォーム、およびクラウド顧客関係管理(CRM)プラットフォームを含むことができる。サービスは、BitTorrent(BT)、ユーザデータプロトコル(UDP)ストリーミング、およびファイル転送プロトコル(FTP)などのポータルトラフィック用のプロトコルを介した(P2P)ピアツーピアファイル共有;音声、ビデオ、およびメッセージングマルチメディア通信セッション、たとえば、インターネットプロトコル(IP)経由のインスタントメッセージ、およびSession Initiation Protocol(SIP)およびSkypeを介したLTE(VoLTE)経由の携帯電話通話を含むことができる。サービスは、インターネットトラフィック、クラウドアプリケーションデータ、および総称ルーティングカプセル化(GRE)データを取り扱うことができる。ネットワークサービスまたはアプリケーション、またはウェブベース(たとえば、統一資源位置指定子(URL)を介してアクセス)またはネイティブ、たとえば同期クライアントとすることができる。例としては、サービスとしてのソフトウェア(SaaS)オファリング、サービスとしてのプラットフォーム(PaaS)オファリング、およびサービスとしてのインフラストラクチャ(IaaS)オファリング、並びにURLを介して公開される内部エンタープライズアプリケーションが挙げられる。現在、一般的なクラウドベースのサービスの例としては、Salesforce.com(商標)、Box(商標)、Dropbox(商標)、Google Apps(商標)、Amazon AWS(商標)、Microsoft Office 365(商標)、Workday(商標)、Oracle on Demand(商標)、Taleo(商標)、Yammer(商標)、Jive(商標)、およびConcur(商標)が挙げられる。
【0048】
システム100の要素の相互接続において、ネットワーク145は、コンピューター112a~n、タブレット122a~n、携帯電話132a~n、スマートウォッチ142a~n、クラウドベースのホスティングサービス118、ウェブ電子メールサービス128、ビデオ、メッセージングおよび音声通話サービス138、ストリーミングサービス148、ファイル転送サービス158、クラウドベースのストレージサービス168、およびN-CASB155を、通信において結合する。通信経路は、パブリックおよび/またはプライベートネットワークを介したポイントツーポイントとすることができる。通信は、種々のネットワーク、たとえば、プライベートネットワーク、VPN、MPLS回路、またはインターネットを経由して行うことができ、適切なアプリケーションプログラムインターフェース(API)およびデータ交換フォーマット、たとえば、REST、JSON、XML、SOAP、および/またはJMSを使用することができる。すべての通信は暗号化することができる。この通信は一般的に、ネットワーク、たとえば、LAN(ローカルエリアネットワーク)、WAN(ワイドエリアネットワーク)、電話網(公衆交換電話網(PSTN)、セッション開始プロトコル(SIP)、無線ネットワーク、ポイントツーポイントネットワーク、スターネットワーク、トークンリングネットワーク、ハブネットワーク、インターネット(モバイルインターネットを含める)を経由して、EDGE、3G、4GLTE、Wi-Fi、およびWiMAXなどのプロトコルを介して行われる。さらに、種々の承認および認証技法、たとえば、ユーザー名/パスワード、OAuth、Kerberos、SecureID、デジタル証明書などを使用して、通信を保護することができる。
【0049】
図1Aにおけるシステムアーキテクチャの説明をさらに続けると、N-CASB155は、モニタ184およびストレージ186を含み、これらは、互いに通信して結合された1つ以上のコンピューターおよびコンピューターシステムを含むことができる。それらは、1つ以上の仮想コンピューティングおよび/またはストレージリソースとすることもできる。たとえば、モニタ184は、1つ以上のAmazon EC2インスタンスとすることができ、ストレージ186は、AmazonS3(商標)ストレージとすることができる。N-CASB155を直接の物理的なコンピューターまたは従来の仮想マシン上に実装するのではなくて、Rackspace、Heroku、またはSalesforceからのForce.comなどの、他のサービスとしてのコンピューティングプラットフォームを使用することができる。さらに、1つ以上のエンジンを使用することができ、1つ以上のポイントオブプレゼンス(POP)を確立してセキュリティ機能を実装することができる。図1Aのエンジンまたはシステムコンポーネントは、種々のタイプのコンピューティングデバイス上で実行されるソフトウェアによって実装される。デバイス例は、ワークステーション、サーバ、コンピューティングクラスタ、ブレードサーバ、およびサーバファーム、または任意の他のデータ処理システムまたはコンピューティングデバイスである。エンジンは、異なるネットワーク接続を介してデータベースに通信可能に結合することができる。たとえば、抽出エンジン171を、ネットワーク(複数可)145(たとえば、インターネット)を介して結合することができ、分類エンジン172を、直接ネットワークリンクを介して結合することができ、セキュリティエンジン173を、さらに異なるネットワーク接続によって結合することができる。開示した技術では、データプレーン180POPは、クライアントの構内でホストされるか、またはクライアントによって制御される仮想プライベートネットワーク内に配置される。
【0050】
N-CASB155は、管理プレーン174およびデータプレーン180を介して種々の機能を提供する。データプレーン180は、一実施態様により、抽出エンジン171、分類エンジン172、およびセキュリティエンジン173を含む。コントロールプレーンなどの他の機能も提供することができる。これらの機能は、共同で、クラウドサービス108と組織ネットワーク102との間の安全なインターフェースを提供する。「ネットワークセキュリティシステム」という用語を使用してN-CASB155を説明しているが、より一般的には、システムは、セキュリティだけでなくアプリケーション可視性および制御機能を提供する。一例では、35,000のクラウドアプリケーションが、組織ネットワーク102内のコンピューター112a~n、タブレット122a~n、携帯電話132a~n、およびスマートウォッチ142a~nが使用中のサーバと交差するライブラリ内に存在している。
【0051】
組織ネットワーク102内のコンピューター112a~n、タブレット122a~n、携帯電話132a~n、およびスマートウォッチ142a~nには、一実施態様により、コンテンツポリシー187を規定および管理するために、N-CASB155によって提供される安全なウェブ配信インターフェースを備えたウェブブラウザを有する管理クライアントが含まれる。N-CASB155はマルチテナントシステムであるため、いくつかの実施態様により、管理クライアントのユーザーは、その組織に関連付けられたコンテンツポリシー187のみを変更することができる。いくつかの実施態様では、APIを、ポリシーをプログラムで規定およびまたは更新するために提供することができる。そのような実施態様では、管理クライアントは、1つ以上のサーバ、たとえば、Microsoft Active Directoryなどの企業IDディレクトリを含んで、更新をプッシュし、および/またはコンテンツポリシー187に対する更新を求めるプル要求に応答することができる。両方のシステムは共存することができる。たとえば、企業によっては、企業IDディレクトリを使用して組織内のユーザーの識別を自動化し、一方で、ウェブインターフェースを使用して、ポリシーをそのニーズに合わせて調整する場合がある。管理クライアントに役割が割り当てられ、N-CASB155データへのアクセスは、役割(たとえば、読み出し専用対読み出し/書き込み)に基づいて制御される。
【0052】
ユーザーごとのデータおよびファイルごとのデータを定期的に生成し、それをメタデータストア178内で持続することに加えて、アクティブアナライザおよびイントロスペクティブアナライザ(図示せず)が、クラウドトラフィックに対してセキュリティポリシーも適用する。アクティブアナライザおよびイントロスペクティブアナライザの機能に関するさらなる情報については、たとえば、以下の文献を参照することができる。共同所有の米国特許第9,398,102号(NSKO1000-2)、第9,270,765号(NSKO1000-3)、第9,928,377号(NSKO1001-2)、および米国特許出願第15/368,246号(NSKO1003-3)、Cheng,Ithal,Narayanaswamy and Malmskog Cloud Security For Dummies,Netskope Special Edition,John Wiley&Sons,Inc.2015、「Netskope Introspection」(Netskope,Inc.)、「Data Loss Prevention and Monitoring in the Cloud」(Netskope,Inc.)、「Cloud Data Loss Prevention Reference Architecture」(Netskope,Inc.)、「The 5 Steps to Cloud Confidence」(Netskope,Inc.)、「The Netskope Active Platform」(Netskope,Inc.)、「The Netskope Advantage:Three『Must-Have』Requirements for Cloud Access Security Brokers」(Netskope,Inc.)、「The 15 Critical CASB Use Cases」(Netskope,Inc.)、「Netskope Active Cloud DLP」(Netskope,Inc.)、「Repave the Cloud-Data Breach Collision Course」(Netskope,Inc.)、および「Netskope Cloud Confidence Index(商標)」(Netskope,Inc.)。これらは、本明細書において十分に説明されているものとして、すべての目的のために参照により組み込まれている。
【0053】
システム100の場合、コントロールプレーンを、管理プレーン174およびデータプレーン180とともに、またはその代わりに使用してもよい。これらのグループ間での機能の具体的な分割は、実装上の選択である。同様に、機能を、多くのポイントオブプレゼンス(POP)にわたって高度に分散して、局所性、性能、および/またはセキュリティを向上させることができる。一実施態様では、データプレーンは、オンプレミスまたは仮想プライベートネットワーク上にあり、ネットワークセキュリティシステムの管理プレーンは、本明細書に記載するように、クラウドサービス内にまたは企業ネットワークとともに配置される。他の安全なネットワーク実施態様では、POPを、異なる方法で分散させることができる。
【0054】
システム100を、特定のブロックを参照して本明細書で説明しているが、ブロックは、説明の便宜上規定しており、コンポーネント部品の特定の物理的な配置が必要であることは意図していないことを理解されたい。さらに、ブロックは、物理的に異なるコンポーネントに対応する必要はない。物理的に異なるコンポーネントを使用する範囲で、コンポーネント間の接続は、必要に応じて有線および/または無線とすることができる。異なる要素またはコンポーネントを組み合わせて単一のソフトウェアモジュールにすることができ、複数のソフトウェアモジュールを同じハードウェア上で実行することができる。
【0055】
さらに、この技術は、互いに協働および通信する2つ以上の別個の異なるコンピューター実装システムを使用して実施することができる。この技術は、たとえば、プロセス、方法、装置、システム、デバイス、コンピューター可読媒体、たとえば、コンピューター可読命令またはコンピュータープログラムコードを記憶するコンピューター可読記憶媒体として、または、中でコンピューター可読プログラムコードが具体化されたコンピューター利用可能媒体を含むコンピュータープログラム製品として、多くの方法で実施することができる。開示した技術は、任意のコンピューター実装のシステムのコンテキストにおいて実施することができる。たとえば、データベースシステムまたはリレーショナルデータベース実装、たとえば、Oracle(商標)互換のデータベース実装、IBM DB2 Enterprise Server(商標)互換のリレーショナルデータベース実装、MySQL(商標)またはPostgre SQL(商標)互換のリレーショナルデータベース実装またはMicrosoft SQL Server(商標)互換のリレーショナルデータベース実装またはNoSQL非リレーショナルデータベース実装、たとえば、Vampire(商標)互換の非リレーショナルデータベース実装、Apache Cassandra(商標)互換の非リレーショナルデータベース実装、BigTable(商標)互換の非リレーショナルデータベース実装、またはHBase(商標)またはDynamoDB(商標)互換の非リレーショナルデータベース実装などである。加えて、開示した技術は、種々のプログラミングモデルを使用して実施することができる。たとえば、MapReduce(商標)、バルク同期プログラミング、MPIプリミティブなど、または異なるスケール変更可能なバッチおよびストリーム管理システム、たとえば、Amazon Web Services(AWS)(商標)、たとえば、Amazon Elasticsearch Service(商標)、およびAmazon Kinesis(商標)、Apache Storm(商標)、Apache Spark(商標)、Apache Kafka(商標)、Apache Flink(商標)、Truviso(商標)、IBM Info-Sphere(商標)、Borealis(商標)、およびYahoo!S4(商標)などである。
【0056】
図1Bに、組織(複数可)ネットワーク(複数可)102、データセンタ152、およびクラウドベースのサービス108とともに、前述の図1Aに関連して説明した、システム100の画像由来の組織の機密データ検出態様のブロック図を例示する。それぞれの別個の組織ネットワーク102は、システムのデータ損失防止機能とやりとりするためのユーザインターフェース103を有し、オンプレミスコンテナ162を有する。オンプレミスコンテナ162は、顧客組織が、特徴マップおよびラベルを抽出して、それらのデータの分類を行うこと、および組織が自身の画像およびスクリーンショット分類器に対する更新トレーニングを、マスタDLスタックの事前トレーニングを行ったDLPプロバイダーに画像内のその機密データを転送することなく行うこと、を可能にするためのものである。これによって、PIIデータおよび他の機密データが、データ損失防止プロバイダーにおいてアクセス可能となることから保護されるため、DLPセンターに記憶されている保存された機密データを保護するための要件が軽減される。DLスタックに対するトレーニングについて、以下でさらに説明する。
【0057】
図1Bの説明を続けると、データセンタ152は、Netskopeクラウドアクセスセキュリティブローカー(N-CASB)155を有する。これは、画像由来の機密データ検出156を含み、画像由来の機密データ検出156は、推論および逆伝搬166を有する深層学習スタック157、および画像生成ロボット167を有する。深層学習(DL)スタックパラメータ183と、特徴マップおよびラベル185とは、前述で詳細に説明したストレージ186内に保存することができる。深層学習スタック157は、以下に説明するように、顧客から受け取った抽出した特徴マップおよびラベル185を利用する。画像生成ロボット167は、一実施態様では、実際のパスポート画像およびUS運転免許証画像に加えて、深層学習スタック157をトレーニングするためにも利用できる他の画像文書の例を生成する。一例では、画像生成ロボット167は、ウェブベースの検索エンジンを介してUS運転免許証のサンプル画像を巡回し、画像を検査して、忠実度の低い画像をフィルタリングする。また画像生成ロボット167は、ウェブUI自動化に使用可能なツールを利用して、深層学習スタック157をトレーニングするための合成データを作成し、スクリーンショット画像および非スクリーンショット画像の例を収集し、例のためのラベル付けされたグラウンドトゥルースデータを作成し、収集したスクリーンショット画像例の少なくとも一部の再レンダリングを適用して、機密情報を含み得るスクリーンショットの異なるバリエーションを表す。一つのツール例は、オープンソースツールのSeleniumであり、これは、ウェブブラウザを開き、ウェブサイトを訪れ、文書を開き、ページのクリックをシミュレートする。たとえば、このツールは、プレーンなデスクトップから開始し、次いで、デスクトップの異なる場所における異なるサイズの1つまたは複数のウェブブラウザを開き、次いで、ライブウェブサイトを訪れるか、または所定のローカル文書を開くことができる。そして、これらの動作は、ブラウザウィンドウの数、ブラウザウィンドウサイズおよび位置、ブラウザウィンドウの相対位置決めなど、ランダム化されたパラメータを用いて繰り返すことができる。次いで、画像生成ロボット167は、デスクトップのスクリーンショットを撮り、スクリーンショットを再レンダリングし、たとえば、生成されたサンプル画像を、DLスタック157内に供給するためのトレーニングデータとして拡張する。たとえば、このプロセスによって、画像にノイズを加え、DLスタック157のロバスト性を高めることができる。トレーニングデータに適用される拡張には、画像の一部を切り取ること、および色相、コントラスト、および彩度を調整することが含まれる。人々がデータを密かに抽出するために使用するスクリーンショット画像を検出するために、反転または回転は画像拡張には加えられていない。異なる実施例では、反転および回転を、他の画像文書の例に加えることができる。
【0058】
図2Aに、カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データを検出し、画像由来の組織の機密文書の損失から保護するための畳み込みニューラルネットワーク(CNN)アーキテクチャモデルに対するブロック図を示す。MobileNetV2ネットワークは、この実施例では、ストライドが1の残差ブロックの3つの層、ダウンサイジング用のストライドが2のブロックからなり、これらはバッチノーマライザー層によって接続される。開示した転移学習では、元のMobileNetV2モデルの第1のn層が固定され、上部に全結合層が加えられるため、ネットワークを分離して再構築し、独自の分類器のトレーニング(TYOC)を開発することができる。CNNアーキテクチャモデル画像は、2020年4月28日に、https://towardsdatascience.com/covolutional-neural-network-cb0883dd6529からダウンロードされた。最初のCNN層への入力は、画像の特徴マップとラベルとの組であり、画像の次元と3つのカラーチャネル(赤色、緑色、および青色)とを有する3次元行列で表される。入力画像は、図2Aに示すように、224x224x3とすることができる。別の実施態様では、入力画像は、200x200x3とすることができる。結果について以下で説明する実施例では、利用する画像サイズは160x160x3で、全部で88層である。
【0059】
DLスタック157の説明を続けると、特徴抽出層は、畳み込み層245およびプーリング層255である。開示したシステムは、特徴抽出層の特徴マップおよびラベル185の出力を、畳み込み演算の多くの異なる反復を通して処理された数値として記憶し、元の画像の代わりに不可逆特徴を保存する。抽出した特徴は、元の画像の画素データに反転することはできない。すなわち、記憶された特徴は不可逆特徴である。入力画像データの代わりに、これらの抽出した特徴マップを記憶することによって、DLスタックは、個人を識別できる情報(PII)、保護された健康情報(PHI)、および知的財産(IP)などの機密情報および個人情報を運ぶ可能性がある元の画像ピクセルを記憶しない。
【0060】
図2Bに、図2Aのブロック図の論理ブロックを示し、ストライドが1の残差ブロック234と、ストライドが2のダウンサイジングブロック236とを有する。MobileNetV2ネットワークは、両方のタイプのブロックの3つの層からなり、それらはバッチノーマライザー層によって接続される。開示したTYOCコンテナを構築するために、本技術では、転移学習を利用し、顧客にオンプレミスで配信される特徴抽出器を実装する元のMobileNetV2モデルの第1のn層を固定し、カスタム分類器として全結合層を追加し、画像由来の組織の機密文書を顧客組織からDLPプロバイダーに転送しない。
【0061】
図3Aに、カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データを検出し、画像由来の組織の機密文書の損失から保護するためのブロック図の詳細を示す。ブロック図は、組織ネットワーク102およびNetskopeクラウドアクセスセキュリティブローカー(N-CASB)155を含む。組織ネットワーク102は、顧客の固有のデータセット312を取り込み、サンプル作成器332を使用してデータセットからサンプルを用意する。オンプレミスコンテナ162は、特徴マップ抽出器342と推論のための分類器362とを含む。N-CASB155は、分類器のためのトレーナー358とカスタム分類器368とを備えた分類器機械学習(ML)トレーニングプラットフォーム348と、データセット346とを含む。分類器MLトレーニングプラットフォーム348は、カスタム分類器368を、顧客固有の分類器372および/または所定の分類器382として組織に提供する。顧客固有の分類器374および所定の分類器382は、推論のための2つの分類器例362である。分類器MLトレーニングプラットフォーム348は、分類器のための専用のトレーナー358を利用して、組織のためのそれぞれのカスタム分類器368を生成する。顧客は、医療/デザイン画像、人事(HR)文書など、その独自の機密性の高いトレーニングデータを使用して、カスタム分類器を開発することができる。分類器MLトレーニングプラットフォーム348は、一実施態様では、カスタム分類器368をオンプレミスコンテナ162内の組織に、組織の制御下にある顧客固有の分類器372として送出する。顧客固有の分類器372をトレーニングして、特定のタイプのIDカード、特別なHR文書、および重要なインフラストラクチャの画像など、顧客が保護に関心がある新しいタイプの画像または文書を識別できようにすることができる。一例では、所定の画像分類器には、パスポートブック、運転免許証、スクリーンショット、社会保障カード(US)、およびクレジットおよびデビットカードに対する支払いカードのための分類器が含まれる。
【0062】
分類器MLトレーニングプラットフォーム348は、顧客から抽出した特徴を受け取り、特徴マップと画像用のグラウンドトゥルースラベルとのコーパスからのさらなるトレーニングサンプルを使用して、顧客固有の分類器372をさらにトレーニングすることができる。新しい分類器が利用可能である場合、顧客はそれを、オンプレミスコンテナ内のより多くの画像由来の組織の機密文書サンプルを用いて、テストすることができる。分類器が、テストに基づいて満足のいく精度を達成したら、顧客のテナント内のDLPサービス内に展開し、その企業トラフィック内の文書または画像内の機密情報を検出するために使用する用意が整っている。
【0063】
図3Bに、開示したカスタマイズされた深層学習(DL)スタック分類器を構築するために使用するモジュールを示し、図2Aに示したものなどの畳み込みニューラルネットワーク(CNN)アーキテクチャモデルを、開示した構築に使用することを例示する。分類器MLトレーニングプラットフォーム348は、モデル内の入力層により近い第1の組の層を利用する特徴マップ抽出器342を提供する。特徴マップ抽出器342は、オンプレミスに展開されたコンテナ内部で、文書および画像を、入力データの抽象的表現である数値特徴に変換する。文書の場合、特徴はテキストの埋め込みである。画像の場合、特徴は、画像のコンテンツをより良好に理解するために、形状、オブジェクト、および他の品質を表す。特徴抽出プロセスにおけるランダムおよび非線形変換により、特徴から元の入力ファイルを取得することは不可能に近くなる。一例では、1,000の画像の場合、抽出した特徴マップは、最大で3GBのディスク容量を占め得る。データセキュリティおよびプライバシーに対する懸念は、元の機密データのコピーを得ることなく、Dockerコンテナからのみ特徴マップとグラウンドトゥルースラベルとを得ることによって対処される。サポートされている画像フォーマットとしては、一実施態様において、以下が挙げられる。(a)Windowsビットマップ-*.bmp、*.dib、(b)JPEGファイル-*.jpeg、*.jpg、*.jpe、(c)Portable Network Graphics-*.png、(d)WebP-*.webp、ポータブル画像フォーマット-*.pbm、*.pgm、*.ppm*.pxm、*.pnm、(f)PFMファイル-*.pfm、(g)Sunラスター-*.sr、*.ras、(h)TIFFファイル-*.tiff、*.tif、(i)OpenEXR画像ファイル-*.exr、(j)RadianceHDR-*.hdr、*.pic、および(k)GDALによってサポートされているRasterおよびVector地理空間データ。異なる実施態様では、さらなる画像フォーマットをサポートすることができる。
【0064】
開示した分類器MLトレーニングプラットフォーム348は、第1のn層を第1の組の層として凍結する。事前トレーニングされた第1の組の層は、顧客の固有のデータセット312に対して特徴マップとグラウンドトゥルースラベルとを取り込む。プライベートな画像由来の識別文書およびスクリーンショット画像の場合、CNNアーキテクチャモデルは、特徴を取り込んで、第1の組の層から出力特徴マップを生成し、取り込んだ特徴マップをそれぞれのグラウンドトゥルースラベルとともに維持する。これによって、プライベートな画像由来の識別文書の画像を保持する必要が何らなくなり、個人を識別できるプライベートデータを、データ損失防止(DLP)サービスプロバイダーまたは任意の中央当局にさえ送る必要がない。
【0065】
図3Bの説明を続けると、分類器MLトレーニングプラットフォーム348は、オンプレミスコンテナから特徴マップとグラウンドトゥルースラベルとを受け取って、それらを、カスタム分類器368をトレーニングするために利用する。顧客固有の分類器372は、全結合層265およびソフトマックス層275を利用する。これらは、顧客のオンプレミス位置において画像由来の組織の機密文書を検出するためにトレーニングされて利用されるCNNモデルの入力層からより遠い第2の組の層を含む。分類器MLトレーニングプラットフォーム348は、顧客固有の分類器372を顧客に提供する。
【0066】
開示した技術は、顧客の固有のデータセット312内の生産画像から推論するために、ストレージ352内のトレーニング済み組織DLスタックのパラメータを記憶し、記憶されたパラメータを有する生産DLスタックを使用して、あるユースケースでは画像由来の組織の機密識別文書を、または別のケースでは画像由来の機密スクリーンショット画像を含むと推論することによって、生産画像を分類する。
【0067】
図4に、カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データを検出するためのプロセスフロー例を例示する。分類器MLトレーニングプラットフォーム348は、記憶されたパラメータを有するトレーニング済み特徴マップ抽出器342スタックを、組織の制御下で実行されるオンプレミスコンテナ162として配布する。また分類器MLトレーニングプラットフォーム348は、組織が、画像由来の組織の機密文書から、更新されたDLスタックを生成するために使用する特徴マップを、組織が組織の機密トレーニング例の画像を転送することなく抽出できるように、また画像から導出した不可逆特徴マップと、画像用のグラウンドトゥルースラベルとを保存できるように構成されている。サンプル作成器332は、顧客の固有のデータからトレーニングサンプルを用意し402、用意したサンプルデータを、オンプレミスコンテナ162内の顧客の固有のデータセット312に転送する412。特徴マップ抽出器342は、固有のデータセット312から特徴マップを抽出し424、抽出した特徴マップとグラウンドトゥルースラベルとを、データセットから分類器のためのトレーナー358に送出する436。
【0068】
図4に示すプロセスの説明を続けると、分類器のためのトレーナー358は、組織の機密文書から抽出した不可逆特徴マップと、グラウンドトゥルースラベルとを含む組織固有の例を受け取る。分類器MLトレーニングプラットフォーム348は、記憶したコーパスからさらなるトレーニングサンプルを加え、受け取った組織固有の例を使用して、顧客固有のDLスタック分類器368を生成するために、個々の顧客に対してカスタム分類器456をトレーニングすることができる。分類器MLトレーニングプラットフォーム348は、顧客固有のDLスタック分類器を組織に送出する478。一実施態様では、カスタム分類器368は、潜在的に、特徴マップ抽出器342へのアドオンとして送出することができる。その結果、推論のための分類器362は、画像内の組織の機密データを転送することなく、組織におけるオンプレミスの顧客データサンプルを分類することができ496、したがって、画像由来の組織の機密文書の損失から保護することができる。
【0069】
図5に、開示したTYOCによってトレーニングされたMLモデルに対する結果534と、TYOCを伴わないフルモデルに対する結果564との比較を示す。比較は、2つのモデルからほぼ同一の精度の結果を示している。
【0070】
図6に、カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、画像由来の組織の機密文書の損失から保護するためのワークフロー例600を示す。最初に、前述の図2Aに関連して説明したCNNのような、事前トレーニングされたネットワークを選択する。DLスタックは、入力層により近い少なくとも第1の組の層と、入力層からより遠い第2の組の層とを含み、第1の組の層は、特徴を抽出するために独自の分類器のトレーニング(TYOC)として事前トレーニングされている。説明する例では、画像を検出するためのMobileNet CNNを選択した。異なるCNNまたは異なるML分類器でさえも、選択することができる。
【0071】
1つ以上のコンピューターのシステムを、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせをシステム上にインストールして、動作時にシステムに動作を行わせることによって、特定の操作または動作を行うように構成することができる。1つ以上のコンピュータープログラムは、データ処理装置によって実行されると、装置に動作を行わせる命令を含むことによって、特定の操作または動作を行うように構成することができる。1つの全般的な態様には、カスタマイズされた深層学習スタック分類器を構築して、画像内の組織の機密データを検出するコンピューター実装方法が含まれる。構築するコンピューター実装方法は、記憶されたパラメータを有するトレーニング済み特徴マップ抽出器スタックを、組織に組織の制御下で配布することであって、組織が、画像由来の組織の機密文書から、更新されたdlスタックを生成するために使用する特徴マップを、組織が組織の機密トレーニング例の画像を転送することなく抽出できるように、また画像から導出した不可逆特徴マップと、画像用のグラウンドトゥルースラベルとを保存できるように構成されている、配布すること620を含む。ステップ640は、組織の機密文書から抽出した不可逆特徴マップと、グラウンドトゥルースラベルとを含む組織固有の例を受け取ることを含み、ステップ660は、受け取った組織固有の例を使用して、顧客固有のdlスタック分類器を生成することを含む。この態様の他の実施形態は、対応するコンピューターシステム、装置、および1つ以上のコンピューター記憶装置上に記録されたコンピュータープログラムを含み、それぞれ、本方法の動作を行うように構成されている。
【0072】
実施態様は、以下の特徴のうちの1つ以上を含んでいてもよい。コンピューター実装方法はさらに、顧客固有のdlスタック分類器を組織に送ること680を含む。説明した技法の実施態様は、ハードウェア、方法もしくはプロセス、またはコンピューターアクセス可能な媒体上のコンピューターソフトウェアを含んでいてもよい。ステップ690は、任意選択で、顧客固有のDLスタック分類器を使用して、顧客画像を画像由来の組織の機密文書として分類するか否かを、組織が画像をオフプレミスに転送することなく決め、画像由来の組織の機密文書の損失から保護する。
【0073】
次に、カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、画像由来の組織の機密文書の損失から保護するために使用可能なコンピューターシステム例について説明する。
【0074】
コンピューターシステム
図7は、カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、画像由来の組織の機密文書の損失から保護するために使用できるコンピューターシステム700の簡略化されたブロック図である。コンピューターシステム700は、バスサブシステム755を介していくつかの周辺デバイスと通信する少なくとも1つの中央処理ユニット(CPU)772と、本明細書に記載のネットワークセキュリティサービスを提供するためのNetskopeクラウドアクセスセキュリティブローカー(N-CASB)155と、を含む。これらの周辺デバイスには、ストレージサブシステム710(たとえば、メモリデバイスおよびファイルストレージサブシステム736を含む)、ユーザインターフェース入力デバイス738、ユーザインターフェース出力デバイス776、およびネットワークインターフェースサブシステム774を含めることができる。入力および出力デバイスは、コンピューターシステム700とのユーザーのやり取りを可能にする。ネットワークインターフェースサブシステム774は、他のコンピューターシステム内の対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
【0075】
一実施態様では、図1Aおよび図1BのNetskopeクラウドアクセスセキュリティブローカー(N-CASB)155は、ストレージサブシステム710およびユーザインターフェース入力デバイス738に通信可能にリンクされる。
【0076】
ユーザインターフェース入力デバイス738は、キーボード、ポインティングデバイス、たとえば、マウス、トラックボール、タッチパッド、またはグラフィックスタブレット、スキャナ、ディスプレイ内に組み込まれたタッチスクリーン、音声認識システムおよびマイクロフォンなどのオーディオ入力デバイス、および他のタイプの入力デバイスを含むことができる。全般的に、「入力デバイス」という用語を使用した場合、コンピューターシステム700に情報を入力するためのすべての可能なタイプのデバイスおよび方法を含むことが意図される。
【0077】
ユーザインターフェース出力デバイス776には、ディスプレイサブシステム、プリンター、ファックス装置、または非視覚的ディスプレイ、たとえばオーディオ出力デバイスを含めることができる。ディスプレイサブシステムには、LEDディスプレイ、ブラウン管(CRT)、フラットパネルデバイス、たとえば液晶ディスプレイ(LCD)、投影デバイス、または可視画像を作成するための何らかの他のメカニズムを含めることができる。またディスプレイサブシステムは、オーディオ出力デバイスなどの非視覚的ディスプレイも提供することができる。全般的に、「出力デバイス」という用語を使用した場合、コンピューターシステム700からの情報をユーザーまたは他のマシンまたはコンピューターシステムに出力するためのすべての可能なタイプのデバイスおよび方法を含むことが意図される。
【0078】
ストレージサブシステム710は、本明細書に記載のモジュールおよび方法の一部または全部の機能を提供するプログラミングおよびデータ構造を記憶する。サブシステム778は、グラフィックス処理ユニット(GPU)またはフィールドプログラマブルゲートアレイ(FPGA)とすることができる。
【0079】
ストレージサブシステム710において使用されるメモリサブシステム722は、いくつかのメモリ、たとえば、プログラム実行中に命令およびデータを記憶するためのメインランダムアクセスメモリ(RAM)732と、固定命令が記憶される読み出し専用メモリ(ROM)734とを含むことができる。ファイルストレージサブシステム736は、プログラムおよびデータファイルのための永続ストレージを提供することができ、ハードディスクドライブ、フロッピーディスクドライブとともに、関連するリムーバブルメディア、CD-ROMドライブ、光学ドライブ、またはリムーバブルメディアカートリッジを含むことができる。ある特定の実施態様の機能を実装するモジュールは、ストレージサブシステム710内のファイルストレージサブシステム736によって、またはプロセッサによってアクセス可能な他のマシン内に、記憶することができる。
【0080】
バスサブシステム755は、コンピューターシステム700の種々のコンポーネントおよびサブシステムが、意図した通りに互いに通信できるようにするためのメカニズムを提供する。バスサブシステム755を、単一のバスとして概略的に示しているが、バスサブシステムの代替的な実施態様では複数のバスを使用することができる。
【0081】
コンピューターシステム700自体は、パーソナルコンピューター、ポータブルコンピューター、ワークステーション、コンピューター端末、ネットワークコンピューター、テレビジョン、メインフレーム、サーバファーム、疎にネットワーク化されたコンピューターの広く分散されたセット、または任意の他のデータ処理システムもしくはユーザデバイスを含む種々のタイプとすることができる。コンピューターおよびネットワークの性質は絶えず変化しているため、図7に示したコンピューターシステム700の説明は、本発明の好ましい実施形態を例示するための具体的な例としてのみ意図されている。コンピューターシステム700の多くの他の構成は、図7に示したコンピューターシステムよりも多いまたは少ないコンポーネントを有することが可能である。
【0082】
特定の実施態様
カスタマイズされた深層学習(DL)スタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、画像由来の組織の機密文書の損失から保護するためのいくつかの特定の実施態様および特徴を、以下の説明において記載する。
【0083】
1つの開示した実施態様では、カスタマイズされたDLスタック分類器を構築して、画像内の組織の機密データ(画像由来の組織の機密文書と言われる)を検出し、画像由来の組織の機密文書の損失から保護する方法は、記憶されたパラメータを有するトレーニング済み特徴マップ抽出器スタックを、組織に組織の制御下で配布することであって、組織が、画像由来の組織の機密文書から、更新されたDLスタックを生成するために使用する特徴マップを、組織が組織の機密トレーニング例の画像を転送することなく抽出できるように、また画像から導出した不可逆特徴マップと、画像用のグラウンドトゥルースラベルとを保存できるように構成されている、配布することを含む。本方法はまた、組織の機密文書から抽出した不可逆特徴マップと、グラウンドトゥルースラベルとを含む組織固有の例を受け取ることと、受け取った組織固有の例を使用して、顧客固有のDLスタック分類器を生成することとを含む。
【0084】
このセクションおよび開示した技術の他のセクションで説明した方法は、以下の特徴および/または開示したさらなる方法と関連して説明した特徴のうちの1つ以上を含むことができる。簡潔さのために、本出願で開示した特徴の組み合わせは、個別に列挙しておらず、特徴の各基本セットによって繰り返してはいない。読者は、この方法で識別した特徴を、実施態様として識別した基本特徴の組と、どのように容易に組み合わせることができるかを理解するであろう。
【0085】
本方法のいくつかの開示した実施態様は、顧客固有のDLスタック分類器を組織に送ることをさらに含む。いくつかの実施態様では、顧客固有のDLスタック分類器を、特徴マップ抽出器スタックへのアドオンとして組織に送出することを含む。
【0086】
本方法のいくつかの開示した実施態様では、画像由来の組織の機密文書は、身分証明書である。場合によっては、画像内の身分証明書は、パスポートブック、運転免許証、社会保障カード、および支払いカードのうちの1つである。
【0087】
別の実施態様では、画像由来の組織の機密文書は、スクリーンショット画像である。
【0088】
本方法の1つの開示した実施態様では、画像の光学文字認識(OCR)分析を適用して、画像を身分証明書または非身分証明書としてラベル付けする。トレーニングセットにおいて使用するために、OCR分析後に、信頼性の高い分類を選択することができる。OCRおよび正規表現のマッチングは、顧客の生産画像からラベル付けされたデータ生成する自動化された方法として機能する。1つの例では、米国パスポートの場合、OCRが最初にパスポートページ上のテキストを抽出する。次いで、正規表現が、ページ上の「PASSPORT」、「UNITED STATES」、「Department of State」、「USA」、「Authority」、および他の用語とマッチすることができる。第2の例では、カリフォルニア州の運転免許証の場合、OCRが最初に、運転免許証の第一面上のテキストを抽出する。次いで、正規表現が、第1面上の「California」、「USA」、「DRIVER LICENSE」、「CLASS」、「SEX」、「HAIR」、「EYES」、および他の用語とマッチすることができる。第3の例では、カナダのパスポートの場合、OCRが最初に、パスポートページ上のテキストを抽出する。次いで、正規表現は、ページ上の「PASSPORT」、「PASSEPORT」、「CANADA」、および他の用語とマッチすることができる。
【0089】
本方法のいくつかの開示した実施態様には、受け取った組織固有の例を遠近について歪めて、画像由来の組織の機密文書の第2の組を生成することと、受け取った組織固有の例と遠近について歪められた例との両方を使用して、顧客固有のDLスタック分類器を生成することとが含まれる。
【0090】
本方法の他の開示した実施態様では、受け取った組織固有の例を回転によって歪めて、画像由来の識別文書の第3の組を生成し、第1および第3の組をラベル付けされたグラウンドトゥルースデータと組み合わせて、顧客固有のDLスタック分類器を生成する。
【0091】
本方法の1つの開示した実施態様では、受け取った組織固有の例をノイズによって歪めて、画像由来の識別文書の第4の組を生成し、第1および第4の組をラベル付けされたグラウンドトゥルースデータと組み合わせて、顧客固有のDLスタック分類器を生成する。
【0092】
本方法のいくつかの開示した実施態様では、受け取った組織固有の例の焦点について歪めて、画像由来の識別文書の第5の組を生成し、第1および第5の組をラベル付けされたグラウンドトゥルースデータと組み合わせて、顧客固有のDLスタック分類器を生成する。
【0093】
このセクションに記載の開示した技術の他の実施態様は、有形の非一時的コンピューター可読記憶媒体であって、メモリ内にロードされたプログラム命令を含み、プログラム命令は、プロセッサ上で実行されると、プロセッサに、前述したいずれかの本方法を行わせる、有形の非一時的コンピューター可読記憶媒体を含むことができる。このセクションに記載の開示した技術のさらに別の実施態様は、メモリと1つ以上のプロセッサとを含むシステムであって、プロセッサは、メモリ内に記憶されたコンピューター命令を実行して、前述したいずれかの本方法を行うように動作可能である、システムを含むことができる。
【0094】
前述の説明は、開示した技術を作り使用することを可能にするために提示されている。開示した実施態様に対する種々の変更が明らかとなり、本明細書で規定される一般原則が、開示した技術の趣旨および範囲から逸脱することなく、他の実施態様および用途に適用され得る。したがって、開示した技術は、示した実施態様に限定されることは意図しておらず、本明細書で開示した原理および特徴と一致する最も広い範囲が与えられるべきである。開示した技術の範囲は、添付の特許請求の範囲によって規定される。
図1A
図1B
図2A
図2B
図3A
図3B
図4
図5
図6
図7
【国際調査報告】