特許7404504 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特許7404504順次スパースアテンションを用いた解釈可能な表形式データ学習

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
2D
2E
2F
2G
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-15

(45)【発行日】2023-12-25

(54)【発明の名称】順次スパースアテンションを用いた解釈可能な表形式データ学習

(51)【国際特許分類】

G06N 3/04 20230101AFI20231218BHJP

【ＦＩ】

G06N3/04

【請求項の数】 16

(21)【出願番号】P 2022506655

(86)(22)【出願日】2020-08-02

(65)【公表番号】

(43)【公表日】2022-10-12

(86)【国際出願番号】 US2020044688

(87)【国際公開番号】W WO2021026045

(87)【国際公開日】2021-02-11

【審査請求日】2022-05-18

(31)【優先権主張番号】62/881,980

(32)【優先日】2019-08-02

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】アリク，セルジャン・オメール

(72)【発明者】

【氏名】フィスター，トーマス・ジョン

【審査官】北川純次

(56)【参考文献】

【文献】米国特許出願公開第２０１８／０２９３４６２（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１８／０３０７９７８（ＵＳ，Ａ１）

【文献】KE, Guolin et al.，TabNN: A Universal Neural Network Solution for Tabular Data，OpenReview.net [online]，2018年，pp. 1-14，[検索日 2023.07.18], インターネット：<URL:https://openreview.net/forum?id=r1eJssCqY7＞

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０２－３／１０

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

方法であって、
データ処理ハードウェア（１３２）上で実行する深層表形式データ学習ネットワーク（ＴａｂＮｅｔ）（２００）において、特徴（２０６、２０６ａ－ｎ）のセットを受信することと、
複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）の各々について、
前記データ処理ハードウェア（１３２）が、前記ＴａｂＮｅｔ（２００）のスパースマスク（２１４）を用いて、前記特徴（２０６、２０６ａ－ｎ）のセットのうちの関連特徴（２１６、２１６ａ－ｎ）のサブセットを選択することと、
前記データ処理ハードウェア（１３２）が、前記ＴａｂＮｅｔ（２００）の特徴トランスフォーマ（２２４）を用いて、前記関連特徴（２１６、２１６ａ－ｎ）のサブセットを処理して、前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）における次の処理ステップ（Ｓ、Ｓｉ＋１）のために決定ステップ出力（２０８）および情報（２２６）を生成することと、
前記データ処理ハードウェア（１３２）が、前記情報（２２６）を前記次の処理ステップ（Ｓ、Ｓｉ＋１）に提供することと、
前記データ処理ハードウェア（１３２）が、前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）のために生成された前記決定ステップ出力（２０８、２０８ａ－ｎ）を集約することによって、最終決定出力（２０８、２０８Ｆ）を決定することとを含み、
前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）の各々について、前記データ処理ハードウェア（１３２）が、前記ＴａｂＮｅｔ（２００）のアテンティブトランスフォーマ（２１２）を用いて、前記特徴（２０６、２０６ａ－ｎ）のセット内の各特徴（２０６）が前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）の各先行する処理ステップ（Ｓ、Ｓｉ－１）において何回処理されたかの集計を求めることをさらに含み、
前記情報（２２６）を前記次の処理ステップ（Ｓ、Ｓｉ＋１）に提供することは、提供された情報（２２６）に基づいて、前記特徴（２０６、２０６ａ－ｎ）のセット内の各特徴（２０６）が前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）の各先行する処理ステップ（Ｓ、Ｓｉ－１）において何回処理されたかの集計を求める、前記ＴａｂＮｅｔ（２００）のアテンティブトランスフォーマ（２１２）に、前記情報（２２６）を提供することを含む、方法（３００）。

【請求項2】

前記アテンティブトランスフォーマ（２１２）は、完全接続層（ＦＣ）およびバッチ正規化（ＢＮ）を含む、請求項１に記載の方法（３００）。

【請求項3】

前記特徴のセット（２０６）は、表形式データ（１２）を含む、請求項１または２に記載の方法（３００）。

【請求項4】

前記ＴａｂＮｅｔ（２００）の前記特徴トランスフォーマ（２２４）は、完全接続層（ＦＣ）と、バッチ正規化（ＢＮ）と、汎用線形ユニット（ＧＬＵ）非線形性とを各々が含む複数のニューラルネットワーク層（Ｌ、Ｌａ－ｎ）を備える、請求項１～３のいずれか１項に記載の方法（３００）。

【請求項5】

前記複数のニューラルネットワーク層（Ｌ、Ｌ１－ｎ）の第１の部分は、前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）の各々にわたって共有され、前記複数のニューラルネットワーク層（Ｌ、Ｌ１－ｎ）の残りの第２の部分は、前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）の対応する処理ステップ（Ｓ、Ｓｉ）に依存する、請求項４に記載の方法（３００）。

【請求項6】

前記関連特徴（２１６、２１６ａ－ｎ）のサブセットを処理することによって生成された前記決定ステップ出力（２０８）は、前記ＴａｂＮｅｔ（２００）の調整された線形ユニット（ＲｅＬＵ）（２４０）を通過する、請求項１～５のいずれか１項に記載の方法（３００）。

【請求項7】

前記関連特徴（２１６、２１６ａ－ｎ）のサブセットは、表形式データ（１２）の相互依存特徴列に対応する、請求項１～６のいずれか１項に記載の方法（３００）。

【請求項8】

前記データ処理ハードウェア（１３２）において、１つ以上の欠落特徴（２０６、２０６Ｍ）を含む表形式データ（１２）を受信することと、
前記データ処理ハードウェア（１３２）が、ＴａｂＮｅｔ（２００）での教師なし事前トレーニングを用いて、前記１つ以上の欠落特徴（２０６、２０６Ｍ）を予測することとをさらに含む、請求項１～７のいずれか１項に記載の方法（３００）。

【請求項9】

システム（１００）であって、
データ処理ハードウェア（１３２）と、
前記データ処理ハードウェア（１３２）と通信し、前記データ処理ハードウェア（１３２）上で実行されると前記データ処理ハードウェア（１３２）に動作を実行させる命令を記憶するメモリハードウェア（１３４）とを備え、前記動作は、
データ処理ハードウェア（１３２）上で実行する深層表形式データ学習ネットワーク（ＴａｂＮｅｔ）（２００）において、特徴（２０６、２０６ａ－ｎ）のセットを受信することと、
複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）の各々について、
前記ＴａｂＮｅｔ（２００）のスパースマスク（２１４）を用いて、前記特徴（２０６、２０６ａ－ｎ）のセットのうちの関連特徴（２１６、２１６ａ－ｎ）のサブセットを選択することと、
前記ＴａｂＮｅｔ（２００）の特徴トランスフォーマ（２２４）を用いて、前記関連特徴（２１６、２１６ａ－ｎ）のサブセットを処理して、前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）における次の処理ステップ（Ｓ、Ｓｉ＋１）のために決定ステップ出力（２０８）および情報（２２６）を生成することと、
前記情報（２２６）を前記次の処理ステップ（Ｓ、Ｓｉ＋１）に提供することと、
前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）のために生成された前記決定ステップ出力（２０８、２０８ａ－ｎ）を集約することによって、最終決定出力（２０８、２０８Ｆ）を決定することとを含み、
前記動作は、前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）の各々について、前記ＴａｂＮｅｔ（２００）のアテンティブトランスフォーマ（２１２）を用いて、前記特徴（２０６、２０６ａ－ｎ）のセット内の各特徴（２０６）が、前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）の各先行する処理ステップ（Ｓ、Ｓｉ－１）において何回処理されたかの集計を求めることをさらに含み、
前記情報（２２６）を前記次の処理ステップ（Ｓ、Ｓｉ＋１）に提供することは、提供された情報（２２６）に基づいて、前記特徴（２０６、２０６ａ－ｎ）のセット内の各特徴（２０６）が前記複数の順次処理ステップ（Ｓ、Ｓｉ－ｎ）の各先行する処理ステップ（Ｓ、Ｓｉ－１）において何回処理されたかの集計を求める、前記ＴａｂＮｅｔ（２００）のアテンティブトランスフォーマ（２１２）に、前記情報（２２６）を提供することを含む、システム（１００）。

【請求項10】

前記アテンティブトランスフォーマ（２１２）は、完全接続層（ＦＣ）およびバッチ正規化（ＢＮ）を含む、請求項９に記載のシステム（１００）。

【請求項11】

前記特徴（２０６）のセットは、表形式データ（１２）を含む、請求項９または１０に記載のシステム（１００）。

【請求項12】

前記ＴａｂＮｅｔ（２００）の前記特徴トランスフォーマ（２２４）は、完全接続層（ＦＣ）と、バッチ正規化（ＢＮ）と、汎用線形ユニット（ＧＬＵ）非線形性とを各々が含む複数のニューラルネットワーク層（Ｌ、Ｌａ－ｎ）を備える、請求項９～１１のいずれか１項に記載のシステム（１００）。

【請求項13】

【請求項14】

前記関連特徴（２１６、２１６ａ－ｎ）のサブセットを処理することによって生成された前記決定ステップ出力（２０８）は、前記ＴａｂＮｅｔ（２００）の調整された線形ユニット（ＲｅＬＵ）（２４０）を通過する、請求項９～１３のいずれか１項に記載のシステム（１００）。

【請求項15】

前記関連特徴（２１６、２１６ａ－ｎ）のサブセットは、表形式データ（１２）の相互依存特徴列に対応する、請求項９～１４のいずれか１項に記載のシステム（１００）。

【請求項16】

前記動作はさらに、
１つ以上の欠落特徴（２０６、２０６Ｍ）を含む表形式データ（１２）を受信することと、
前記ＴａｂＮｅｔ（２００）での教師なし事前トレーニングを用いて、前記１つ以上の欠落特徴（２０６、２０６Ｍ）を予測することとを含む、請求項９～１５のいずれか１項に記載のシステム（１００）。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、順次スパースアテンションを用いた解釈可能な表形式データ学習に関する。

【背景技術】

【0002】

背景
機械学習モデルは、入力を受信し、受信された入力に基づいて、出力、たとえば、予測された出力を生成する。いくつかの機械学習モデルは、パラメトリックモデルであり、受信した入力およびモデルのパラメータの値に基づいて出力を生成する。

【0003】

いくつかの機械学習モデルは、受信した入力に対する出力を生成するためにモデルの複数の層を用いる深層モデルである。たとえば、ディープニューラルネットワークは、出力層と、各々が受け取った入力に非線形変換を適用して出力を生成する１つ以上の隠れ層とを含む深層機械学習モデルである。

【発明の概要】

【発明が解決しようとする課題】

【0004】

概要
本開示の一態様は、表形式データを解釈する方法を提供する。本方法は、データ処理ハードウェア上で実行される深層表形式データ学習ネットワーク（ＴａｂＮｅｔ）で、特徴のセットを受信することを含む。本方法はまた、複数の順次処理ステップの各々について、データ処理ハードウェアが、ＴａｂＮｅｔのスパースマスクを用いて、特徴のセットのうちの関連特徴のサブセットを選択することと、データ処理ハードウェアが、ＴａｂＮｅｔの特徴トランスフォーマを用いて、関連特徴のサブセットを処理して、複数の順次処理ステップにおける次の処理ステップのための決定ステップ出力および情報を生成することと、データ処理ハードウェアが、情報を次の処理ステップに提供することとを含む。本方法はまた、データ処理ハードウェアが、複数の順次処理ステップのために生成された決定ステップ出力を集約することによって、最終決定出力を決定することを含む。

【0005】

本開示の実現例は、以下の任意選択の特徴のうちの１つ以上を含み得る。いくつかの実現例では、本方法はまた、複数の処理ステップの各々について、データ処理ハードウェアが、ＴａｂＮｅｔのアテンティブトランスフォーマを用いて、特徴のセット内の各特徴が複数の順次処理ステップの各先行する処理ステップにおいて何回処理されたかの集計を求めるステップを含む。これらの実現例では、アテンティブトランスフォーマは、完全接続層およびバッチ正規化を含み得る。

【0006】

いくつかの例では、情報を次の処理ステップに提供することは、提供された情報に基づいて、特徴のセット内の各特徴が複数の順次処理ステップの各先行する処理ステップにおいて何回処理されたかの集計を求める、ＴａｂＮｅｔのアテンティブトランスフォーマに、情報を提供することを含む。特徴のセットは、表形式データを含み得る。任意選択で、ＴａｂＮｅｔの特徴トランスフォーマは、完全接続層、バッチ正規化、および汎用線形ユニット（ＧＬＵ）非線形性を各々が含む複数のニューラルネットワーク層を含み得る。ここで、複数のニューラルネットワーク層の第１の部分は、複数の順次処理ステップの各々にわたって共有され得、複数のニューラルネットワーク層の残りの第２の部分は、複数の順次処理ステップのうちの対応する処理ステップに依存し得る。

【0007】

関連特徴のサブセットを処理することによって生成される決定ステップ出力は、ＴａｂＮｅｔの調整された線形ユニット（ＲｅＬＵ）を通過し得る。加えて、特徴のサブセットは、表形式データの相互依存特徴列に対応し得る。いくつかの実現例では、本方法はまた、データ処理ハードウェアにおいて、１つ以上のマスクされた特徴を含む表形式データを受信することと、データ処理ハードウェアが、教師なし事前トレーニングを用いて、１つ以上のマスクされた特徴を予測することとを含む。

【0008】

本開示の別の態様は、表形式データを解釈するためのシステムを提供する。本システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、データ処理ハードウェア上で実行される深層表形式データ学習ネットワーク（ＴａｂＮｅｔ）において特徴のセットを受信することを含む動作を実行させる命令を記憶する。動作はまた、複数の順次処理ステップの各々について、ＴａｂＮｅｔのスパースマスクを用いて、特徴のセットのうちの関連特徴のサブセットを選択することと、ＴａｂＮｅｔの特徴トランスフォーマを用いて、関連特徴のサブセットを処理して、複数の順次処理ステップにおける次の処理ステップのための決定ステップ出力および情報を生成することと、情報を次の処理ステップに提供することとを含む。動作はまた、複数の順次処理ステップのために生成された決定ステップ出力を集約することによって最終決定出力を決定することを含む。

【0009】

この態様は、以下の任意選択の特徴のうちの１つ以上を含むことができる。いくつかの実現例では、動作はまた、複数の処理ステップの各々について、ＴａｂＮｅｔのアテンティブトランスフォーマを用いて、特徴のセット内の各特徴が複数の順次処理ステップの各先行する処理ステップにおいて何回処理されたかの集計を求めることを含む。これらの実現例では、アテンティブトランスフォーマは、完全接続層およびバッチ正規化を含み得る。

【0010】

いくつかの例では、次の処理ステップに情報を提供することは、提供された情報に基づいて、特徴のセット内の各特徴が複数の順次処理ステップの各先行する処理ステップにおいて何回処理されたかの集計を求める、ＴａｂＮｅｔのアテンティブトランスフォーマに情報を提供することを含む。特徴のセットは、表形式データを含み得る。任意選択で、ＴａｂＮｅｔの特徴トランスフォーマは、完全接続層、バッチ正規化、および汎用線形ユニット（ＧＬＵ）非線形性を各々が含む複数のニューラルネットワーク層を含み得る。ここで、複数のニューラルネットワーク層の第１の部分は、複数の順次処理ステップの各々にわたって共有され得、複数のニューラルネットワーク層の残りの第２の部分は、複数の順次処理ステップのうちの対応する処理ステップに依存し得る。

【0011】

関連特徴のサブセットを処理することによって生成される決定ステップ出力は、ＴａｂＮｅｔの調整された線形ユニット（ＲｅＬＵ）を通過し得る。加えて、特徴のサブセットは、表形式データの相互依存特徴列に対応し得る。いくつかの実現例では、動作はまた、１つ以上のマスクされた特徴を含む表形式データを受信することと、教師なし事前トレーニングを用いて１つ以上のマスクされた特徴を予測することとを含む。

【0012】

本開示の１つ以上の実現例の詳細は、添付の図面および以下の説明に記載されている。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。

【図面の簡単な説明】

【0013】

【図1】例示的なデータ管理環境の概略図である。

【図2A】表形式データを解釈するための例示的なモデルの概略図である。

【図2B】表形式データを解釈するための例示的なモデルの概略図である。

【図2C】表形式データを解釈するための例示的なモデルの概略図である。

【図2D】表形式データを解釈するための例示的なモデルの概略図である。

【図2E】表形式データを解釈するための例示的なモデルの概略図である。

【図2F】表形式データを解釈するための例示的なモデルの概略図である。

【図2G】表形式データを解釈するための例示的なモデルの概略図である。

【図3】表形式データを解釈する方法のための動作の例示的な構成のフローチャートである。

【図4】本明細書で説明されるシステムおよび方法を実現するために用いられ得る例示的なコンピューティングデバイスの概略図である

【発明を実施するための形態】

【0014】

様々な図面における同様の参照符号は、同様の要素を示す。
詳細な説明
ニューラルネットワークは、概して、画像、テキスト、およびオーディオ等のデータタイプを処理することに成功している。計算において最も一般的なデータタイプの１つであるにもかかわらず、後れを取っているように見えるさらに１つのタイプのデータは、表形式データである。表形式データとは、表形式にあるデータである。しばしば、ニューラルネットワークを用いる代わりに、表形式データは、解釈可能で、表現的に効率的で、トレーニングするのが高速である能力に起因して、決定木を用いる傾向がある。たとえば、決定木の解釈可能性により、特定の結果を単にコンテキストなしで受け取るのではなく、決定木がその特定の結果にどのように到達したかを理解できる。決定木が解釈可能であるのは、決定が決定木のノードを介して追跡され得るからである。表形式データのレルムでは、特定の結果をもたらした決定に関する懸念として顕在化する信頼問題があり得る。たとえば、ある従業員のボーナス報酬がある数字であるべきであると決定木がどのように予測したか、またはある申請者が特定のサイズのローンについて資格があるとローン処理ツールがどのように予測したか？これらの場合、決定の前後関係を調べたい者がいるかもしれない。

【0015】

従来、ニューラルネットワークは、ニューラルネットワークを過剰パラメータ化させ得るスタックされた層に基づく。過剰にパラメータ化されることによって、従来のニューラルネットワークは、表形式決定マニホールドについて最適な解を見つけることができない傾向がある。しかしながら、ニューラルネットワークは、表形式データに適切に適合される場合、他のデータタイプに対するそれらの性能に基づいて予想されるであろう同様の利益を提供し得る。たとえば、ニューラルネットワークは、大きなデータセットに特に有用であり、目的に向けて効率的な学習を導くためにそれらの入力への逆伝播を採用することができる。表形式データ用に設計されたニューラルネットワークでは、ニューラルネットワークはまた、複数のデータタイプ（たとえば、画像）を表形式データと組み合わせて効率的に符号化し、現在、ツリーベースの表形式データ学習方法の重要な側面である特徴エンジニアリングの必要性を最小限にし、現在、決定木モデルにとって困難であることがわかっている（たとえば、決定木は、分割点を動的に適応させることに苦心している）ストリーミングデータからの学習を可能にし、そして、ドメイン適応のための表現学習、生成モデリング、および半教師あり学習を可能にする。

【0016】

ニューラルネットワークの一般的な利益を組み込みながら、表形式データに関するニューラルネットワークの既存の欠点のいくつかに対処するために、ＴａｂＮｅｔは、決定木のような様式で学習するように設計されたニューラルネットワークである。言い換えれば、ＴａｂＮｅｔは、解釈可能性およびスパースな特徴選択を提供することを目的としている。ＴａｂＮｅｔは、いかなる特徴前処理も伴わずに生の表形式データを入力し、勾配降下ベースの最適化を用いてトレーニングされて、柔軟な表現を学習し、エンドツーエンド学習への柔軟な統合を可能にする。さらに、ＴａｂＮｅｔは、順次アテンションを用いて、各決定ステップで解釈する特徴を選択し、それを解釈可能にし、顕著な特徴に焦点を当てることを可能にする。特徴選択は、エンドツーエンド学習を用いた単一のディープラーニングアーキテクチャにおいて入力ごとに（すなわち、瞬間的に）異なり得る。このアプローチを用いて、ＴａｂＮｅｔは、分類および回帰問題のための種々のデータセットに関して、他の表形式学習モデル（たとえば、決定木モデル）よりも性能が優れているかまたは同等であることが証明されている。解釈可能性に関しては、ＴａｂＮｅｔは２種類の解釈可能性を提供する。それは、入力特徴の重要性およびそれらの組み合わせ方を視覚化するローカル解釈可能性を可能にすると同時に、トレーニングされたモデルに関連して各入力特徴の寄与を定量化するグローバル解釈可能性も有する。さらに、表形式データの場合、ＴａｂＮｅｔは、欠落した特徴を予測するために教師なし事前トレーニングなどの技法を用いることができる。

【0017】

特徴選択は、概して、各特徴が所与の予測に対してどの程度有用であるかに基づいて、より大きな特徴のプールから特徴のサブセットを選択するプロセスを指す。特徴がトレーニングデータセット全体に基づいて選択されるとき、このタイプの特徴選択は、グローバル特徴選択方法と呼ばれる。対照的に、インスタンスごとの特徴選択方法は、各入力に対して個々に特徴を選択することを指す。いくつかの方法は、所与の応答変数における選択された特徴間の相互情報を最大化するようにモデルをトレーニングするが、ＴａｂＮｅｔは、単一のモデルが特徴選択および出力マッピングをあわせて実行することを可能にする、エンドツーエンド学習における制御可能なスパース性を伴うソフト特徴選択を用いる。このソフト特徴選択能力は、次いで、順次アテンションを用いて、制御可能なスパース性で埋め込まれる。さらに、表形式データを異なるデータタイプにマッピングしようとするいくつかのモデルとは異なり、ＴａｂＮｅｔは、表形式データに対する教師付き学習または自己教師付き学習に対して順次アテンションを適用することができる。ＴａｂＮｅｔは、決定境界を表すために特徴選択プロセスを用いて特徴の線形結合が選択されるツリー状の機能を有するように設計される。ＴａｂＮｅｔは、トレーニングデータセットを用いて、スパースなインスタンス単位選択を学習し、各決定ステップが、選択された特徴に基づく決定の一部に寄与することができる順次マルチステップアーキテクチャを構築し、選択された特徴の非線形処理を実行し、より高い次元およびより多くのステップを介してアンサンブルを模倣する。このアプローチを用いて、ＴａｂＮｅｔは、ニューラルネットワークの利益を、表形式データのためのツリーベースの決定モデルの利益と結合する。

【0018】

図１は、データ管理環境１００の一例を示す。ユーザ１０に関連付けられるユーザデバイス１１０は、そのコンピューティングリソース１１２（たとえば、データ処理ハードウェア１１４および／またはメモリハードウェア１１６）の実行中にユーザデータ１２を生成する。たとえば、ユーザ１０は、ユーザデバイス１１０のデータ処理ハードウェア１１４上で動作する１つ以上のアプリケーション（たとえば、リアルタイムアプリケーション）を用いて、ユーザデータ１２を生成する。いくつかの例では、ユーザデバイス１１０は、１つ以上の遠隔システム１３０と（たとえばネットワーク１２０を介して）通信する能力を有するそれ自体のコンピューティングリソース１１２を用いる（たとえばユーザ１０の位置に関連する）ローカルデバイスである。加えて、または代替として、ユーザデバイス１１０は、ユーザ１０のためにアプリケーションを動作させるために、遠隔リソース（たとえば、遠隔コンピューティングリソース１３２）へのそのアクセスを活用する。ユーザデバイス１１０の使用を通して生成されるユーザデータ１２は、最初に、（たとえば、メモリハードウェア１１６のデータストレージ１１８などに）ローカルに記憶され、次いで、遠隔システム１３０に通信されてもよく、または作成時にネットワーク１２０を通して遠隔システム１３０に送信されてもよい。たとえば、ユーザデバイス１１０は、遠隔システム１３０を用いて、ユーザデータをストレージシステム１４０に通信する。

【0019】

いくつかの例では、ユーザ１０は、遠隔システム１３０（たとえば、クラウドコンピューティング環境）のコンピューティングリソース１３２を、ユーザデータ１２の記憶および／または管理のために利用する。これらの例では、遠隔システム１３０は、ユーザデータ１２を、それが様々なユーザアプリケーションによって生成されているときに、受信することができる。ここで、ユーザデータ１２は、ユーザ１０の調整で遠隔システム１３０に送信されるユーザデータ１２のデータストリーム（たとえば、記憶および／またはさらなる処理のために遠隔システム１３０に到着するデータの連続的または概して連続的な供給）または離散セットを指し得る。ユーザデバイス１１０と同様に、遠隔システム１３０は、遠隔データ処理ハードウェア１３４（たとえば、サーバおよび／またはＣＰＵ）ならびにメモリハードウェア１３６（たとえば、ディスク、データベース、または他の形態のデータストレージ）等のコンピューティングリソース１３２を含む。

【0020】

いくつかの構成では、遠隔コンピューティングリソース１３２は、遠隔システム１３０と関連付けられ、および／または通信する、種々のシステムによって利用されるリソースである。図１は、データストレージシステム１４０およびマネージャ１５０と通信する遠隔システム１３０を示すが、遠隔システム１３０は、他のデータ関連システム（たとえば、クエリシステムおよび／または分析システム）と通信してもよい。遠隔システム１３０は、そのコンピューティングリソース１３２とともに、マネージャ１５０および／またはデータ処理モデル２００の１つ以上の機能をホストするように構成されてもよい。いくつかの実現例では、遠隔システム１３０は分散型システムであり、そのコンピューティングリソース１３２は、ネットワーク１２０を介してアクセス可能な１つ以上の位置にわたって分散される。

【0021】

いくつかの例では、ストレージシステム１４０は、ユーザ１０（または複数のユーザ）のためのデータストレージの手段としてデータウェアハウス１４２（たとえば、データストアおよび／または複数のデータベース）を動作させるように構成される。概して、データウェアハウス１４２は、１つ以上のソースからのデータを記憶し、自身のソースからのデータを分析、報告、および／または統合するように設計され得る。データウェアハウス１４２は、ユーザ（たとえば、組織ユーザ）が、中央ストレージデポジトリおよびストレージデータアクセスポイントを有することを可能にする。データウェアハウス１４２等の中央デポジトリにユーザデータ１２を含むことによって、データウェアハウス１４２は、（たとえば、分析システムによる）データ分析および／またはデータ報告等の機能のためのデータ検索を単純化してもよい。さらに、データウェアハウス１４２は、ユーザ１０（たとえば、組織ユーザ）が、大量の履歴データを記憶し、データ傾向を理解することができるように、かなりの量のデータを記憶するように構成されてもよい。データウェアハウス１４２は、ユーザのデータ１２のための主要または唯一のデータストレージデポジトリであり得るため、ストレージシステム１４０は、しばしば、ユーザ１０と関連付けられるユーザデバイス１１０から大量のデータを受信し得る。加えて、または代替として、ストレージシステム１４０として、ストレージシステム１４０および／またはストレージウェアハウス１４２は、データセキュリティ（たとえば、データ冗長性）のため、単一のデータソースからの複数のユーザ（たとえば、組織の複数の従業員）のため、および／または同時マルチユーザアクセスのために、構成され得る。いくつかの構成では、データウェアハウス１４２は、データが、デフォルトで、新たな着信データによって上書きまたは消去されないように、永続的および／または不揮発性である。

【0022】

概して言えば、データストレージシステム１４０は、表形式データと称されるテーブル形式でユーザデータ１２を受信し、ユーザデータ１２は、テーブルの行および列を埋める。表形式データでは、テーブル内のユーザデータ１２は、ユーザデータ１２に関連付けられたスキーマまたは見出しに対応する行および列を有し得る。たとえば、ユーザデータ１２は、ユーザ１０によって行われた商取引を指してもよい。この例では、ユーザデータ１２は、売り手、買い手、取引価格、取引数量、およびユーザ１０がその取引に関して収集する他のトランザクションデータに関する列を含むことができる。ここで、各行は、トランザクション番号もしくは識別子および／もしくはトランザクションに関連付けられる時間エントリなどの見出しまたはスキーマを有することができる。ストレージシステム１４０は、特定のフォーマット（たとえば、トランザクションテーブルフォーマット）でユーザデータ１２を受信し得るので、ストレージシステム１４０は、（たとえば、ユーザデータ１２にさらなるコンテキストまたは定義を提供する、）ユーザデータ１２に関連付けられたフォーマットの要素（たとえば、関係、見出し、または他のスキーマ）が、データストレージシステム１４０と通信する他のシステム（たとえば、クエリシステムまたはデータ分析システムなどのデータ検索システム）にアクセス可能であるように、ユーザデータ１２を記憶するように構成される。

【0023】

図１をさらに参照すると、データ管理環境１００はマネージャ１５０も含む。マネージャ１５０は、概して、データ記憶を調整する（たとえば、最適化する）ように構成される。マネージャ１５０は、データ処理モデル２００（ＴａｂＮｅｔ２００とも呼ばれる）を用いてデータストレージシステム１４０と通信するシステムに関連する動作を実行および／または調整することによって、この最適化を実行することができる。ここで、データ記憶を行っている間に、ＴａｂＮｅｔ２００は、マネージャ１５０において受信された表形式データの態様を学習し得る機械学習モデルとして構成される。この学習に基づいて、ＴａｂＮｅｔ２００は、様々な管理機能を支援することができる。たとえば、ＴａｂＮｅｔ２００は、ユーザデータ１２内の欠落データまたは不完全なデータ（欠落特徴と呼ばれる）を識別し、欠落データに対するデータエントリを予測または生成（または提案）するように構成される。同様に、不完全なデータのエントリを予測する代わりに、ユーザ１０は、（マネージャ１５０を介して）ＴａｂＮｅｔ２００に対して、ユーザ１０について記憶された他のデータに基づいてエントリが何であるべきかを予測することを要求することができる。たとえば、ユーザ１０は、新たな従業員に対して、その従業員の以前の経験および技能に基づいて、どれだけ支払うべきかを知りたい企業である。ここで、ＴａｂＮｅｔ２００は、ストレージシステム１４０に記憶された従業員経理ユーザデータ１２を解釈し、それは、たとえば、給与、役職、部門、経験年数等を含み、それが解釈するユーザデータ１２に基づいて、新たな従業員の給与の予測を出力するであろう。いくつかの例では、マネージャ１５０は、ユーザデータ１２の列間の関係を依然として保持しながら、ユーザデータ１２がどのように記憶され得るかを理解するために、ＴａｂＮｅｔ２００を用いてユーザデータ１２の相互依存性を解釈する。言い換えれば、ＴａｂＮｅｔ２００は、記憶目的でユーザデータ１２をどこで分割すべきかを示す分割点を識別することができる。

【0024】

図１などのいくつかの実現例では、マネージャ１５０は、ユーザ１０からユーザデータ１２を受信し、ストレージシステム１４０における記憶動作を容易にするように構成される。たとえば、マネージャ１５０は、受信時にユーザデータ１２を取り込み、ユーザデータ１２をストレージ最適化フォーマットに変換することができる。ここで、「取り込み」とは、システムが取り込まれたユーザデータを（たとえば、クエリシステムおよび／または分析システムによって）用いることを可能にするために、ユーザデータ１２をストレージシステム１４０に（たとえば、データウェアハウス１４２に）取得および／またはインポートすることを指す。取り込み中、マネージャ１５０は、ＴａｂＮｅｔ２００を用いて、ユーザデータ１２のフォーマットを検証し（たとえば、ストレージシステム１４０の許容可能なフォーマットに準拠する）、および／またはユーザデータ１２をデータウェアハウス１４２（たとえば、ユーザ１０のユーザデータ１２に対して指定されたデータウェアハウス１４２内の特定のデータ記憶位置）にルーティングすることができる。

【0025】

図２Ａ～図２Ｇを参照すると、ＴａｂＮｅｔ２００は概して、エンコーダ２０２とデコーダ２０４とを含む。ＴａｂＮｅｔ２００は、エンコーダ２０２において特徴２０６、２０６ａ－ｎのセットを受信し、各処理決定ステップＳにおいて特徴２０６ａ－ｎのサブセット２１６を決定ステップ出力２０８に処理し、決定ステップ出力２０８（すなわち、複数の処理された特徴表現）を最終決定出力２０８_Ｆに集約するように構成される。表形式データは、一般に、より一般的にはテーブルエントリと呼ばれる複数の特徴２０６ａ－ｎを有するテーブルフォーマットにおけるデータを指す。概して、テーブルフォーマットは、一連の列と、各列に対するいくつかの行エントリとを含む。特定の列に対する各行エントリは、典型的には、列の見出しに関連する。言い換えれば、「給与」の見出し（たとえば、カテゴリ的見出し）を有する列は、給与を表す数値の行エントリを有する。テーブルエントリは、本質的に数値的またはカテゴリ的であり得るので、同様に、特徴２０６は、数値的特徴２０６またはカテゴリ的特徴２０６を指し得る。たとえば、図２Ａは、ユーザデータ１２のテーブルに対応する複数の特徴２０６、２０６ａ－ｎを示し、ここで、「年齢」、「婚姻ステータス」、「学位」、「職務」、「部門」、「現在の給与」、「追加の補償」、「以前の給与」、「年次休暇」および「雇用日」の見出しはカテゴリ的特徴２０６であり、「年齢」、「現在の給与」、「前年追加補償」、「以前の給与」、「年次休暇」および「雇用日」に対応する行エントリデータのいくつかは数値的特徴２０６である。特徴２０６が数値的特徴２０６である場合、ＴａｂＮｅｔ２００は、この数値的特徴２０６をその生の形態で用いるように構成され得る。特徴２０６がカテゴリ的特徴２０６である場合、ＴａｂＮｅｔ２００は、カテゴリ的特徴２０６をトレーニング可能な埋め込みにマッピングするように構成され得る。ここで、ＴａｂＮｅｔ２００は、典型的には、特徴２０６に対してグローバルな正規化を実行せず、むしろ、処理中に（たとえば、特徴トランスフォーマ２２２および／またはアテンティブトランスフォーマ２１２で）バッチ正規化（ＢＮ）を実行する。各決定ステップＳは、同じ次元サイズの特徴２０６を受け取ることができる。

【0026】

ここで、エンコーダ２０２は、分類または回帰のいずれかを実行することができる。エンコーダ２０２は、概して、各決定ステップＳにおいて特徴セレクタ２１０および特徴プロセッサ２２０を含む。エンコーダ２０２は、Ｎ個の決定ステップＳを用いてマルチステップ処理（たとえば、図２Ｃに示される）を実行する。複数の決定ステップＳでは、現在のステップＳ_ｉに対する入力は、前のステップＳ_ｉ－１からの処理情報である。たとえば、図２Ａでは、特徴セレクタ２１０は最初に（たとえば、前のステップＳ_ｉ－１からの特徴２０６のサブセット２１６に関して）処理情報を考慮しており、特徴プロセッサ２２０は（たとえば、現在のステップＳ_ｉの特徴２０６のサブセット２１６に関して）処理情報を生成している。各決定ステップＳ_ｉ－ｎの決定出力２０８は、次いで、最終決定出力２０８_Ｆを生成するために用いられる。たとえば、図２Ａは、最終決定出力２０８_Ｆを形成する３つのステップＳからの決定出力２０８ａ－ｃを示す。

【0027】

特徴選択は、概して、応答変数（最終決定出力２０８_Ｆ）を記述するために、低減された数の説明変数（たとえば、特徴２０６）を選択するプロセスを指す。特徴選択のプロセスは、ＴａｂＮｅｔ２００が処理することを決定する変数（たとえば、特徴２０６）が実際に所望の決定出力に関連することを保証するので、特徴選択は、過剰適合に関する問題を防止するのに役立つ。特徴選択を用いることによって、ＴａｂＮｅｔ２００は、モデルが意味のある変数を用い、冗長もしくは無意味な変数を除去または無視することがわかるとき、モデルが概して解釈するのがより容易である、という事実によって、解釈可能性も獲得する。たとえば、ＴａｂＮｅｔ２００が年末ボーナス報酬を予測するように構成される場合、従業員の婚姻ステータスに対応する特徴２０６（または変数）は、現在の給与および職務役割などの特徴２０６と比較すると、あまり重要ではないか、または潜在的に意味がない。

【0028】

いくつかの例では、特徴セレクタ２１０は、複数の特徴２０６を受け取り、複数の特徴２０６から所望の決定出力に対応する顕著な特徴２０６を選択して、関連特徴２０６Ｒのサブセット２１６を形成する。たとえば、図２Ａの例では、所望の決定出力が複数の特徴２０６からの年末ボーナス報酬の予測である場合、特徴セレクタ２１０は、関連特徴２０６Ｒを、職業関連特徴２０６として特徴２０６の第１のサブセット２１６、２１６ａとして識別し、会計関連特徴２０６として特徴２０６の第２のサブセット２１６、２１６ｂとして識別する。

【0029】

いくつかの実現例では、特徴選択を実行するために、特徴セレクタ２１０は、アテンティブトランスフォーマ２１２と特徴マスク２１４とを含む。たとえば、特徴マスク２１４は、顕著な特徴２０６のソフト選択のための学習可能マスクである。いくつかの例では、特徴マスク２１４は、スパース選択（スパースマスクと呼ばれる）を用いて、決定ステップＳの学習能力が無関係の特徴２０６で無駄にならないように、最も顕著な特徴２０６（たとえば、図２Ａにおいて関連特徴２０６Ｒ、２０６Ｒａ－ｇとして示される）を選択する。これは、各特徴２０６が有意義に選択されるので、ＴａｂＮｅｔ２００がパラメータ効率的になることを可能にする。たとえば、「職業関連」および「会計関連」の第１および第２のサブセット２１６ａ－ｂは、「年齢」、「婚姻ステータス」、または「雇用日」などの他の特徴２０６と比較して、従業員の年末ボーナス報酬の値に有意義に影響を及ぼし得る。

【0030】

いくつかの構成では、アテンティブトランスフォーマ２１２は、先行するステップＳ_ｉ－１からの（たとえば、特徴プロセッサ２２０からの）処理された特徴２２２に基づいてマスク２１４を取得する。スパースマスク２１４を得るために、アテンティブトランスフォーマ２１２は、（たとえば、図２Ｃに示すように）スパースマックス正規化を用いることができる。ここで、スパースマックスとは、ソフトマックスのような従来の活性化関数に類似しているが、スパースマックスがスパース確率（すなわち、少数の非ゼロ確率と、ゼロ確率を有する大部分の項）を出力することができる点で異なる。たとえば、スパースマックスは、特徴２０６に対する確率を生成するが、（ソフトマックスのように）すべての入力特徴２０６に対して非ゼロ確率を生成する代わりに、スパースマックスは、サブセット２１６の関連特徴２０６Ｒのみに対して非ゼロ確率を生成する。残りの、または関連しない特徴２０６は、概して、スパースマックス関数がゼロに設定する小さい確率を有する特徴２０６である。したがって、スパースマックス正規化は、確率的単体上へのユークリッド投影を促進する。スパースマックス正規化は、大多数のデータセットに対するスパースな特徴選択の目標を有しながら、効率的な特徴選択性能を可能にする。たとえば、以下の式は、アテンティブトランスフォーマ２１２からのマスク関数を表し得る：

【0031】

【数1】

【0032】

ここで、Ｐ［ｉ－１］は前のスケール項であり、ｈ_ｉはトレーニング可能な関数であり、ａ［ｉ－１］は前のステップＳ_ｉ－１からの処理された特徴２２２を指す。Ｐ［ｉ］は、以下のように表され得る：

【0033】

【数2】

【0034】

ここで、ｙは緩和パラメータであり、ｙ＝１の場合、特徴２０６は１つの決定ステップＳにおいてのみ用いられるように強制される。したがって、ｙが増加すると、複数の決定ステップＳにおいて特徴２０６を用いるよう、より多くの柔軟性が存在する。いくつかの実現例では、式（１）によって示されるように、アテンティブトランスフォーマ２１２は、トレーニング可能な関数を用いることによってトレーニング可能なマスクを取得する。たとえば、アテンティブトランスフォーマ２１２は、特徴２０６を受け取り、前のスケール情報で変調される単一層Ｌ，Ｌ_１マッピングを介して特徴２０６を処理して、前の決定ステップＳにおいて特定の特徴２０６にどのくらいのアテンションが以前に集中していたかを理解する。言い換えれば、前のスケールは、すべての前のステップＳ_ｉ－１について、各特徴２０６が、現在の決定ステップＳ_ｉの前に特徴処理のために関連特徴２０６Ｒとしてエンコーダ２０２によってどれだけ用いられたかを（たとえば集約に基づいて）判断する。図２Ｃなどのいくつかの例では、アテンティブトランスフォーマ２１２の単層Ｌ_１構造は、バッチ正規化（ＢＮ）を実行する完全接続層（ＦＣ）を含む。いくつかの例では、関連特徴２０６Ｒのサブセット２１６のために選択される特徴２０６のスパース性は、エントロピーの形態でスパース性正則化を用いて制御され得る。たとえば、以下の損失方程式を用いてスパース性を制御することができる：

【0035】

【数3】

【0036】

ここで、εは数値安定性のための小さい数であり、Ｂはバッチサイズであり、Ｄは特徴２０６の次元サイズである。次いで、スパース性の実現は、ＴａｂＮｅｔ２００の全体的な損失と組み合わされてもよい。

【0037】

特徴プロセッサ２２０は、特徴２０６のサブセット２１６のフィルタリングされた特徴２０６を、処理された特徴２２２に処理して、決定ステップ出力２０８を形成するように構成される。特徴プロセッサ２２０が特徴２０６のサブセット２１６を処理された特徴２２２に処理すると、決定ステップ出力２０８、および決定ステップ情報２２６と呼ばれる、決定ステップＳに関する情報が、後続の決定ステップＳ_ｉ＋１に供給される。たとえば、図２Ｂ～図２Ｄは、特徴プロセッサ２２０の特徴トランスフォーマ２２４に続く分割を示す。図２Ｄに示されるように、分割は、現在のステップＳ_ｉ（たとえば、第１のステップＳ_１として示される）から後続のステップＳ_ｉ＋１（たとえば、第２のステップＳ_２として示される）の特徴セレクタ２１０に処理された特徴２２２を供給する。たとえば、分割は、処理された特徴２２２を第１のステップＳ_１から特徴セレクタ２１０のアテンティブトランスフォーマ２１２に供給する。アテンティブトランスフォーマ２１２は、この処理された特徴２２２を、たとえば、（たとえば、図２Ｃに示される）それの前のスケール機能において用いて、第２のステップＳ_２においてどの特徴２０６が関連特徴２０６Ｒのサブセット２１６として選択されるべきかを判断することができる。

【0038】

いくつかの例では、高容量でパラメータ効率的かつロバストな学習を保証するために、特徴プロセッサ２２０は特徴トランスフォーマ２２４を含む。特徴トランスフォーマ２２４は、複数の処理層Ｌ、Ｌ_１－ｎを含み得る。いくつかの実現例では、特徴トランスフォーマ２２４は、特徴トランスフォーマ２２４がすべての決定ステップＳ_ｉ－Ｎにわたって共有するいくつかの層Ｌ（たとえば、図２Ｃにおいて第１および第２の層Ｌ、Ｌ_１－２として示される）ならびにいくつかの決定ステップ依存層Ｌ（たとえば、図２Ｃにおいて第３および第４の層Ｌ、Ｌ_３－４として示される）とともに構成される。共有層および決定ステップ依存層Ｌを用いて、特徴トランスフォーマ２２４は、層Ｌ間の連結を実行することができる。たとえば、図２Ｃは、２つの共有層Ｌ、Ｌ_１－２を示し、各共有層Ｌは、完全接続層（ＦＣ）と、それに続くバッチ正規化ＢＮおよびゲート線形ユニット（ＧＬＵ）非線形性とを含む。ここで、特徴トランスフォーマ２２４は、各共有層Ｌ_１－２を互いに連結し、その連結を決定ステップ依存層Ｌ_３－４に供給する。この例では、特徴トランスフォーマ２２４は、２つの決定ステップ依存層Ｌ_３－４を含み、共有層Ｌと同様に、各決定ステップ依存層Ｌは、完全接続層（ＦＣ）と、それに続くバッチ正規化ＢＮおよびゲート線形ユニット（ＧＬＵ）非線形性を含む。各決定ステップ依存層Ｌ_３－４は、共用層Ｌ_１－２と連結されるとともに、互いに連結されてもよい。これらの共有された決定ステップ層Ｌおよび決定ステップ依存層Ｌを用いて、特徴トランスフォーマ２２４は、特徴２０６のサブセット２１６（たとえば、サブセット２１６の各関連特徴２０６Ｒ）を、処理された特徴２２２に処理する。

【0039】

いくつかの構成では、決定ステップＳごとに決定埋め込み２４２を判断するために、特徴プロセッサ２２０は、調整された線形ユニット（ＲＥＬＵ）２４０を含む。ＲＥＬＵは、すべての正の値の間に線形関係を生成し、すべての負の値に対してゼロを生成するタイプの活性化関数である。ここで、ＲＥＬＵ２４０は、スパースに活性化される（すなわち、正の値でのみ活性化される）ため、スパース学習に対して良好に機能する。これらの構成では、ＲＥＬＵ２４０は、処理された特徴２２２に対する決定ステップ出力２０８を受信し、決定ステップ出力２０８を表すための埋め込み（たとえば、決定ステップ埋め込み２４２）を生成する。たとえば、決定埋め込み２４２は、

【0040】

【数4】

【0041】

として構築することができ、ここで、Ｎ_{ｓｔｅｐｓ}は決定ステップの総数である。いくつかの例では、ＲＥＬＵ２４０は、現在のステップＳ_ｉからの決定ステップ埋め込み２４２を、後続および／または前の決定ステップＳからの決定ステップ埋め込み２４２と組み合わされる（たとえば連結される）よう出力して、決定埋め込み２４２を認識可能な特徴２０６に復号するために、デコーダ２０４に通信される、すべてのステップＳについての全体的な決定埋め込み２４２を形成する。

【0042】

いくつかの実現例では、ＲＥＬＵ２４０はまた、決定ステップ情報２２６をアグリゲータ２５０に渡す。ここで、アグリゲータ２５０は、各決定ステップＳから決定ステップ情報２２６を受信するように構成される。決定ステップ情報２２６を用いて、アグリゲータ２５０は、この情報を互いに連結することができる。いくつかの例では、アグリゲータ２５０は、特徴選択２１０に関する情報（たとえば、マスク２１４からのフィードバックラインとして図２Ｃおよび図２Ｄに示されている）も受信する。ここで、決定ステップ情報２２６および／または特徴選択情報の集約は、ＴａｂＮｅｔ２００が最終決定２０８_Ｆに関する何らかのコンテキストをユーザ１０またはマネージャ１５０に提供することができるように、ＴａｂＮｅｔ２００の機能へのさらなる解釈可能性のために用いられ得る。言い換えれば、ＴａｂＮｅｔ２００は、年末ボーナス報酬を予測するための関連特徴２０６Ｒが職業関連（たとえば、関連特徴２０６Ｒａ－ｃ）および会計関連（たとえば、関連特徴２０６Ｒｄ－ｇ）であったことをユーザ１０またはマネージャ１５０に知らせることができる。

【0043】

ＴａｂＮｅｔ２００のデコーダ２０４は、決定出力２０８の符号化された表現を受信し、符号化された表現を解釈可能な決定出力２０８に復号するように構成される。たとえば、デコーダ２０４は、符号化された表現が、エンコーダ機能にとって効率的なコンピュータ可読符号化表現から、決定出力２０８の人間可読復号表現（すなわち、再構築された特徴）に変換されることを可能にする。図２Ｂ、図２Ｃ、および図２Ｅを参照すると、デコーダ２０４は、エンコーダ２０２からの決定出力の符号化された表現として決定埋め込み２４２を受信し、特徴トランスフォーマ２２４を用いて決定埋め込み２４２を決定出力２０８に変換する。たとえば、デコーダ２０４は、符号化された表現（たとえば、決定埋め込み２４２）を復号するために完全接続（ＦＣ）層が後に続く１つ以上の特徴トランスフォーマ２２４を含む。いくつかの例では、エンコーダ２０２は、デコーダ２０４が各決定ステップ出力２０８を最終決定出力２０８_Ｆに組み合わせるように構成されるように、各ステップＳにおける決定埋め込み２４２をデコーダ２０４に通信する。例えば、デコーダ２０４は、線形マッピングを適用して、最終決定２０８_Ｆを取得することができる。複数ステップ例として、図２Ｅは、エンコーダ２０２が、第１のステップＳ_１および第２のステップＳ_２からの２つの決定ステップ出力２０８を最終決定出力２０８_Ｆに連結することを示す。

【0044】

図２Ｇは、ＴａｂＮｅｔ２００の機能の実世界の例を示す。ここで、ユーザ１０は、ユーザデータ１２を（たとえば、マネージャ１５０を介して）ＴａｂＮｅｔ２００に提供する。ユーザデータ１２は、年齢、資本利得、教育、職業、性別、および関係に対応する特徴２０６を有する表形式である。ここで、ユーザ１０は、ＴａｂＮｅｔ２００を用いて、データの各行に対応する個人の各々が５万ドルを超える年収を有すると予測されるかどうかを予測する。図示されていないが、ＴａｂＮｅｔ２００は、推論（すなわち、リアルタイムアプリケーション）に先立って、最初に、特徴２０６のセットに基づく収入のいくつかの局面を示す、実際の収入情報または正解ラベルを伴う、トレーニング例のセット上で、トレーニングされるであろう。一旦トレーニングプロセスがＴａｂＮｅｔ２００をトレーニングすると、ＴａｂＮｅｔ２００は、図２Ｇに示されるユーザデータ１２を複数の特徴２０６とともに受信し、ＴａｂＮｅｔ２００がユーザデータ１２から学習したことに基づいて、各個人が５万を超える収入を有するかどうかの予測（たとえば、デコーダ２０４の最終決定出力２０８_Ｆ）を生成することができる。

【0045】

概して、ＴａｂＮｅｔ２００は、特定のタスクのための教師あり学習を実行する。さらにいくつかの例では、教師あり学習の前に教師なし表現学習を実行することは、特定のタスクを教師あり学習するためのＴａｂＮｅｔ２００の機能を改善する。たとえば、ＴａｂＮｅｔ２００は、表形式データにおいて欠落した特徴２０６、２０６Ｍを予測するタスクのために用いられ得る。これは、多くの場合、実世界の表形式データセットが、同じ列または関連する相互依存列内の他の関連特徴２０６に基づいて欠落特徴２０６Ｍを予測するためにＴａｂＮｅｔ２００が理解することを学習することができる相互依存特徴列を有するため、有利であり得る。たとえば、図２Ｇは、いくつかの欠落特徴２０６、２０６Ｍ、２０６Ｍａ－ｎを有するテーブルエントリとしてユーザデータ１２を示す。ここでは、教育レベルに関する欠落エントリについて、ＴａｂＮｅｔ２００は、職業などの関連特徴２０６を用いて欠落特徴２０６Ｍを予測し得る。同様に、性別に関する欠落特徴２０６Ｍは、他の性別エントリから、関係エントリと組み合わせて予測されてもよい。教師なし表現学習を実行するために、ＴａｂＮｅｔ２００は、自己教師あり目的を事前トレーナ２６０とともに用いる。たとえば、Ｓｅ∈｛０，１｝ＢｘＤのバイナリマスクを用いて、ＴａｂＮｅｔ２００のエンコーダ２０２は、（１－Ｓ）・ｆを入力し、デコーダ２０４は、再構築された特徴Ｓ・ｆを出力する。ここで、エンコーダ２０２は、ＴａｂＮｅｔ２００が既知の特徴２０６を強調し、デコーダの完全結合層（ＦＣ）がＳで乗算されて、未知のまたは欠落した特徴２０６Ｍを単に出力するように、前のスケール項をＰ［０］＝（１－Ｓ）になるように初期化してもよい。教師なし表現学習では、正解データの母集団標準偏差での正規化は、特徴２０６について潜在的に非常に異なる値を切り捨てるために重要であり得る。

【0046】

図３は、表形式データを解釈する方法３００のための動作の例示的な構成のフローチャートである。動作３０２において、方法３００は、データ処理ハードウェア１３２上で実行される深層表形式データ学習ネットワーク（ＴａｂＮｅｔ）２００において、特徴２０６、２０６ａ－ｎのセットを受信する。動作３０４において、方法３００は、複数の順次処理ステップＳ、Ｓ_ｉ－ｎの各々に対してサブ動作３０４ａ－ｃを実行する。動作３０４ａにおいて、方法３００は、ＴａｂＮｅｔ２００のスパースマスク２１４を用いて、特徴２０６、２０６ａ－ｎのセットの関連特徴２１６、２１６ａ－ｎのサブセットを選択する。動作３０４ｂにおいて、方法３００は、ＴａｂＮｅｔ２００の特徴トランスフォーマ２２４を用いて、関連特徴２１６、２１６ａ－ｎのサブセットを処理して、複数の順次処理ステップＳ、Ｓ_ｉ－ｎにおける次の処理ステップＳ、Ｓ_ｉ＋１のために決定ステップ出力２０８および情報２２６を生成する。動作３０４ｃにおいて、方法３００は、情報２２６を次の処理ステップＳ、Ｓ_ｉ＋１に提供する。動作３０６において、方法３００は、複数の順次処理ステップＳ、Ｓ_ｉ－ｎのために生成された決定ステップ出力２０８、２０８ａ－ｎを集約することによって最終決定出力２０８、２０８_Ｆを決定する。

【0047】

図４は、本明細書で説明するシステム（たとえば、マネージャ１５０および／またはＴａｂＮｅｔ２００）ならびに方法（たとえば、方法３００）を実現するために用いられ得る例示的なコンピューティングデバイス４００の概略図である。コンピューティングデバイス４００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことが意図されている。本明細書に示された構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものにすぎず、本明細書に記載および／または特許請求される本発明の実現例を限定するものではない。

【0048】

コンピューティングデバイス４００は、プロセッサ４１０と、メモリ４２０と、ストレージデバイス４３０と、メモリ４２０および高速拡張ポート４５０に接続する高速インターフェイス／コントローラ４４０と、低速バス４７０およびストレージデバイス４３０に接続する低速インターフェイス／コントローラ４６０とを含む。コンポーネント４１０，４２０，４３０，４４０，４５０，および４６０の各々は、様々なバスを用いて相互接続され、共通のマザーボード上に、または必要に応じて他の方法で実現され得る。プロセッサ４１０は、高速インターフェイス４４０に結合されたディスプレイ４８０などの外部入力／出力装置上にグラフィカルユーザインターフェイス（ＧＵＩ）のためのグラフィカル情報を表示するために、メモリ４２０またはストレージデバイス４３０に記憶された命令を含む、コンピューティングデバイス４００内で実行するための命令を処理することができる。他の実現例では、複数のプロセッサおよび／または複数のバスが、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに用いられ得る。また、複数のコンピューティングデバイス４００が接続されてもよく、各デバイスは、（たとえば、サーババンクとして、ブレードサーバのグループとして、またはマルチプロセッサシステムとして）必要な動作の部分を提供する。

【0049】

メモリ４２０は、コンピューティングデバイス４００内で情報を非一時的に記憶する。メモリ４２０は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ４２０は、コンピューティングデバイス４００による使用のためにプログラム（たとえば、命令のシーケンス）またはデータ（たとえば、プログラム状態情報）を一時的または永続的に記憶するために用いられる物理デバイスであり得る。不揮発性メモリの例は、フラッシュメモリおよび読み出し専用メモリ（ＲＯＭ）／プログラマブル読み出し専用メモリ（ＰＲＯＭ）／消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ）／電子的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）（たとえば、ブートプログラムなどのファームウェアに典型的に用いられる）を含むが、これらに限定されない。揮発性メモリの例には、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、ならびにディスクまたはテープが含まれるが、これらに限定されない。

【0050】

ストレージデバイス４３０は、コンピューティングデバイス４００のために大容量ストレージを提供することができる。いくつかの実現例では、ストレージデバイス４３０はコンピュータ可読媒体である。様々な異なる実現例では、ストレージデバイス４３０は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであり得る。さらなる実現例では、コンピュータプログラム製品は、情報担体において有形に具現化される。コンピュータプログラム製品は、実行されると上述の方法などの１つ以上の方法を実行する命令を含む。情報担体は、メモリ４２０、ストレージデバイス４３０、もしくはプロセッサ４１０上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。

【0051】

高速コントローラ４４０は、コンピューティングデバイス４００のための帯域幅集約型動作を管理し、低速コントローラ４６０は、低帯域幅集約型動作を管理する。そのような役割の割り当ては、例示的なものにすぎない。いくつかの実現例では、高速コントローラ４４０は、メモリ４２０、ディスプレイ４８０（たとえば、グラフィックスプロセッサまたはアクセラレータを通して）、および様々な拡張カード（図示せず）を受け入れ得る高速拡張ポート４５０に結合される。いくつかの実現例では、低速コントローラ４６０は、ストレージデバイス４３０および低速拡張ポート４９０に結合される。様々な通信ポート（たとえば、ＵＳＢ、Bluetooth（登録商標）、イーサネット（登録商標）、無線イーサネット（登録商標））を含み得る低速拡張ポート４９０は、キーボード、ポインティングデバイス、スキャナ、またはスイッチもしくはルータなどのネットワーキングデバイスなどの１つ以上の入力／出力装置に、たとえばネットワークアダプタを介して結合され得る。

【0052】

コンピューティングデバイス４００は、図に示されるように、いくつかの異なる形態で実現され得る。たとえば、それは、標準的なサーバ４００ａとして、もしくはそのようなサーバ４００ａのグループにおいて複数回、ラップトップコンピュータ４００ｂとして、またはラックサーバシステム４００ｃの一部として実現され得る。

【0053】

本明細書に記載のシステムおよび技術のさまざまな実現例は、デジタル電子および／もしくは光学回路系、集積回路系、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに／またはそれらの組合せで実現され得る。これらのさまざまな実現例は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な１つ以上のコンピュータプログラムにおける実現例を含んでいてもよく、当該プロセッサは専用であっても汎用であってもよく、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信するように、かつこれらにデータおよび命令を送信するように結合されている。

【0054】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる）は、プログラム可能なプロセッサのための機械命令を含み、高水準手続き型および／もしくはオブジェクト指向型プログラミング言語で、ならびに／またはアセンブリ／機械言語で実装することができる。本明細書で使用されるとき、用語「機械可読媒体」および「コンピュータ可読媒体」は、機械命令を機械可読信号として受信する機械可読媒体を含む、機械命令および／またはデータをプログラマブルプロセッサに提供するよう使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

【0055】

本明細書に記載されるプロセスおよび論理フローは、入力データを操作し出力を生成することにより機能を実行するよう１つ以上のプログラマブルプロセッサが１つ以上のコンピュータプログラムを実行することによって実行され得る。本プロセスおよび論理フローは、専用論理回路、たとえば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によっても実行され得る。コンピュータプログラムの実行に好適であるプロセッサは、例として、汎用マイクロプロセッサおよび特殊目的マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の１つ以上のプロセッサを含んでもよい。一般に、プロセッサは、リードオンリメモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受取ることになる。コンピュータの必須要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを記憶するための１つ以上のメモリデバイスである。一般に、コンピュータはさらに、たとえば磁気ディスク、光磁気ディスクまたは光ディスクといった、データを格納するための１つ以上の大容量記憶装置を含むか、当該１つ以上の大容量記憶装置からデータを受取るかもしくは当該１つ以上の大容量記憶装置にデータを転送するよう作動的に結合されるか、またはその両方を行う。しかしながら、コンピュータはそのような装置を有する必要はない。コンピュータプログラム命令およびデータを記憶するのに好適なコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス；磁気ディスク、たとえば内蔵ハードディスクまたはリムーバブルディスク；光磁気ディスク；およびＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む、あらゆる形態の不揮発性メモリ、媒体、ならびにメモリデバイスを含む。プロセッサおよびメモリは、特殊目的論理回路によって補足され得るか、または特殊目的論理回路に組み込まれ得る。

【0056】

ユーザとの対話を提供するために、本開示の１つ以上の局面は、たとえばＣＲＴ（陰極線管）、ＬＣＤ（液晶ディスプレイ）モニタまたはタッチスクリーンといったユーザに対して情報を表示するための表示装置と、選択肢的にキーボードおよびたとえばマウス、トラックボールといったユーザがコンピュータに入力を提供可能であるポインティングデバイスとを有するコンピュータ上で実現され得る。他の種類のデバイスを用いて、ユーザとの対話を提供することもでき、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであり得、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む、任意の形態で受信することができる。加えて、コンピュータは、ユーザが使用するデバイスにドキュメントを送信し、ユーザが使用するデバイスからドキュメントを受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答してそのウェブブラウザにウェブページを送信することによって、ユーザと対話し得る。

【0057】

いくつかの実現例について説明した。それにもかかわらず、本開示の精神および範囲から逸脱することなく、様々な修正がなされ得ることが理解されるであろう。したがって、他の実現例は特許請求の範囲内にある。

【図1】