(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-26
(45)【発行日】2024-03-05
(54)【発明の名称】コード分類のためのハイブリッド機械学習モデル
(51)【国際特許分類】
G06F 16/35 20190101AFI20240227BHJP
G06N 20/00 20190101ALI20240227BHJP
【FI】
G06F16/35
G06N20/00
(21)【出願番号】P 2021515604
(86)(22)【出願日】2019-09-11
(86)【国際出願番号】 US2019050555
(87)【国際公開番号】W WO2020068421
(87)【国際公開日】2020-04-02
【審査請求日】2022-08-30
(32)【優先日】2018-09-28
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502141050
【氏名又は名称】ダウ グローバル テクノロジーズ エルエルシー
(74)【代理人】
【識別番号】100092783
【氏名又は名称】小林 浩
(74)【代理人】
【識別番号】100095360
【氏名又は名称】片山 英二
(74)【代理人】
【識別番号】100120134
【氏名又は名称】大森 規雄
(74)【代理人】
【識別番号】100104282
【氏名又は名称】鈴木 康仁
(72)【発明者】
【氏名】ワン、チュン
(72)【発明者】
【氏名】ワシック、ジョン、マーティン
(72)【発明者】
【氏名】ロスハー、ヴィッキー
(72)【発明者】
【氏名】デブ、カラヤンモイ
(72)【発明者】
【氏名】デーバー、ヤシェシュ、ディーパッククマー
(72)【発明者】
【氏名】グッドマン、エリック、デビッド
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】米国特許出願公開第2005/0004894(US,A1)
【文献】国際公開第2016/057000(WO,A1)
【文献】特開2012-118749(JP,A)
【文献】特表2018-526732(JP,A)
【文献】国際公開第2012/029152(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06N 20/00-20/20
(57)【特許請求の範囲】
【請求項1】
システムであって、
(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、前記関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器と、(ii)前記関税コードプレフィックスに関連付けられた化学成分の名前を含む複数の成分ファイル(各関税コードプレフィックスに対して1つ)と、を含むメモリと、
コンピューティングデバイスであって、
化学成分の新しいセットを取得することと、
前記化学成分の新しいセットから、主要な化学成分を決定することと、
前記化学成分の新しいセット中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、
前記複数の成分ファイルの各それぞれのファイルについて、前記化学成分の新しいセットを記述するために使用される単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記化学成分の新しいセットの類似性スコアを計算することと、
前記主要な化学成分の前記割合と前記類似性スコアから、前記化学成分の新しいセットの特徴ベクトルを生成することと、
決定木分類器のランダムフォレストを前記特徴ベクトルに適用することによって、予測関税コードプレフィックスを取得することと、
前記複数のエキスパートツリーから、前記予測関税コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することと、
前記化学成分の新しいセットに関する特性に従って前記特定のエキスパートツリーを渡り歩くことによって、予測関税コードサフィックスを取得することと、
前記予測関税コードプレフィックスと前記予測関税コードサフィックスとを連結することによって、前記化学成分の新しいセットの関税コードを生成することと、を行うように構成された、コンピューティングデバイスと、を備える、システム。
【請求項2】
前記メモリが、前記コンピューティングデバイスから物理的に分離されたデータベースデバイス内に配置されている、請求項1に記載のシステム。
【請求項3】
前記関税コードがn桁の長さであり、前記関税コードプレフィックスがj桁の長さであり、前記関税コードサフィックスがn-j桁の長さであり、jがn未満である、請求項1に記載のシステム。
【請求項4】
nが10であり、jが4である、請求項3に記載のシステム。
【請求項5】
前記関税コードプレフィックスがハーモナイズド関税スケジュールコードの単一の類によって定義される、請求項1に記載のシステム。
【請求項6】
前記化学成分の新しいセットの前記類似性スコアを計算することが、
前記化学成分の新しいセットに関する単語を決定することと、
決定された前記単語から、句読点とストップワードを削除することと、を含む、請求項1に記載のシステム。
【請求項7】
前記化学成分の新しいセットの前記類似性スコアを計算することが、
決定された前記単語において頭字語を拡張することをさらに含む、請求項6に記載のシステム。
【請求項8】
前記
それぞれのファイル中の前記単語の少なくとも1つが正規表現として表されている、請求項1に記載のシステム。
【請求項9】
前記編集距離を決定することが、前記化学成分の新しいセットを記述するために使用される前記単語と前記それぞれのファイル中の名前との間の正規化されたレーベンシュタイン距離を計算することを含む、請求項1に記載のシステム。
【請求項10】
前記類似性スコアが、前記編集距離の合計に基づいて計算される、請求項1に記載のシステム。
【請求項11】
コンピュータ実装方法であって、
コンピューティングデバイスによって、化学成分の新しいセットを取得することであって、前記コンピューティングデバイスが、(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリー
(各関税コードプレフィックスに対して1つ)を使用し
て、それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器と、(ii)前記それぞれの関税コードプレフィックスに関連付けられた化学成分の名前を含む複数の成分ファイル(各関税コードプレフィックスに対して1つ)と、へアクセスする、取得することと、
前記コンピューティングデバイスによっておよび前記化学成分の新しいセットから、主要な化学成分を決定することと、
前記コンピューティングデバイスによって、前記化学成分の新しいセット中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、
前記複数の成分ファイルの各それぞれのファイルについて、前記コンピューティングデバイスによって、前記化学成分の新しいセットを記述するために使用される単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記化学成分の新しいセットの類似性スコアを計算することと、
前記コンピューティングデバイスによって、前記主要な化学成分の前記割合と前記類似性スコアから、前記化学成分の新しいセットの特徴ベクトルを生成することと、
前記コンピューティングデバイスによって、決定木分類器のランダムフォレストを特徴ベクトルに適用することによって、予測関税コードプレフィックスを取得することと、
前記コンピューティングデバイスによっておよび前記複数のエキスパートツリーから、前記予測関税コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することと、
前記コンピューティングデバイスによって、前記化学成分の新しいセットに関する特性に従う前記特定のエキスパートツリーを渡り歩くことによって、予測関税コードサフィックスを取得することと、
前記コンピューティングデバイスによって、前記予測関税コードプレフィックスと前記予測関税コードサフィックスとを連結することによって、前記化学成分の新しいセットの関税コードを生成することと、を含む、コンピュータ実装方法。
【請求項12】
コンピューティングデバイスによる実行時に、前記コンピューティングデバイスに動作を実行させるプログラム命令を格納した、非一時的なコンピュータ可読媒体を含む製造品であって、前記動作が、
化学成分の新しいセットを取得することであって、前記コンピューティングデバイスが、(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリー
(各関税コードプレフィックスに対して1つ)を使用し
て、それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器と、(ii)前記それぞれの関税コードプレフィックスに関連付けられた化学成分の名前を含む複数の成分ファイル(各関税コードプレフィックスに対して1つ)と、へアクセスする、取得することと、
前記化学成分の新しいセットから、主要な化学成分を決定することと、
前記化学成分の新しいセット中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、
前記複数の成分ファイルの各それぞれのファイルについて、前記化学成分の新しいセットを記述するために使用される単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記化学成分の新しいセットの類似性スコアを計算することと、
前記主要な化学成分の前記割合と前記類似性スコアから、前記化学成分の新しいセットの特徴ベクトルを生成することと、
前記決定木分類器のランダムフォレストを特徴ベクトルに適用することによって、予測関税コードプレフィックスを取得することと、
前記複数のエキスパートツリーから、前記予測関税コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することと、
前記化学成分の新しいセットに関する前記特性に従う前記特定のエキスパートツリーを渡り歩くことによって、予測関税コードサフィックスを取得することと、
前記予測関税コードプレフィックスと前記予測関税コードサフィックスとを連結することによって、前記化学成分の新しいセットの関税コードを生成することと、を含む、製造品。
【請求項13】
コンピューティングデバイスであって、
プロセッサと、
メモリと、
前記メモリに格納された、前記プロセッサによる実行時にコンピューティングデバイスに動作を実行させるプログラム命令であって、前記動作が、
化学成分の新しいセットを取得することであって、前記コンピューティングデバイスが、(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリー
(各関税コードプレフィックスに対して1つ)を使用し
て、それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器と、(ii)前記それぞれの関税コードプレフィックスに関連付けられた化学成分の名前を含む複数の成分ファイル(各関税コードプレフィックスに
対して1つ)と、へアクセスする、取得することと、
前記化学成分の新しいセットから、主要な化学成分を決定することと、
前記化学成分の新しいセット中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、
前記複数の成分ファイルの各それぞれのファイルについて、前記化学成分の新しいセットを記述するために使用される単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記化学成分の新しいセットの類似性スコアを計算することと、
前記主要な化学成分の前記割合と前記類似性スコアから、前記化学成分の新しいセットの特徴ベクトルを生成することと、
決定木分類器のランダムフォレストを特徴ベクトルに適用することによって、予測関税コードプレフィックスを取得することと、
前記複数のエキスパートツリーから、前記予測関税コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することと、
前記化学成分の新しいセットに関する前記特性に従う前記特定のエキスパートツリーを渡り歩くことによって、予測関税コードサフィックスを取得することと、
前記予測関税コードプレフィックスと前記予測関税コードサフィックスとを連結することによって、前記化学成分の新しいセットの関税コードを生成することと、を含む、プログラム命令と、を含む、コンピューティングデバイス。
【請求項14】
コンピュータ実装方法であって、
コンピューティングデバイスによって、化学成分の新しいセットを取得することであって、前記コンピューティングデバイスが、ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器へとアクセスする、取得することと、
前記コンピューティングデバイスによっておよび前記化学成分の新しいセットから、前記化学成分の新しいセット中の他の化学成分と比較した主要な化学成分の割合を決定することと、
前記コンピューティングデバイスによっておよび前記化学成分の新しいセットを記述するために使用される単語と関税コードプレフィックスに関連付けられた単語との間の編集距離を決定することによって、前記化学成分の新しいセットの類似性スコアを計算することと、
前記コンピューティングデバイスによって、前記主要な化学成分の前記割合と前記類似性スコアから、前記化学成分の新しいセットの特徴ベクトルを生成することと、
前記コンピューティングデバイスによって、予測関税コードを取得することであって、予測関税コードの予測関税コードプレフィックスが、決定木分類器のランダムフォレストを特徴ベクトルに適用することによって決定され、予測関税コードの予測関税コードサフィックスが、化学成分の新しいセットに関する特性に従って特定のエキスパートツリーを渡り歩くことによって決定され、特定のエキスパートツリーが、予測関税コードプレフィックスに関連付けられている、取得することと、を含む、コンピュータ実装方法。
【請求項15】
前記化学成分の新しいセットの前記類似性スコアを計算することが、
前記化学成分の新しいセットに関する単語を決定することと、
決定された前記単語から、句読点とストップワードを削除することと、を含む、請求項14に記載のコンピュータ実装方法。
【発明の詳細な説明】
【背景技術】
【0001】
優先権
この出願は、2018年9月28日に出願された米国特許出願第62/738,482号の利益を主張し、参照によりその全体が本明細書に組み込まれる。
【0002】
国際貿易または国境を越えた取引の際、取引される製品は通関プロセスを経る。その種類、輸出入国、用途などに応じて適切な関税が課せられる。関税およびその他税を課すプロセスをより体系化するために、世界税関機構(WCO)は、各製品が、ハーモナイズド関税スケジュールコード(略してHTSまたはHSコード)と知られている特定のコードのいずれに割り当てることができるかに基づいた、コーディングスキームを採用している。このコードは、輸出入国に応じて8~12桁を含み、最初の6桁はグローバルに一貫している。米国の場合、HSコードの長さは10桁である。新製品および既存製品の関税コードを適切に指定することは、専門家にとってさえも難しい。さらに、現在の半自動化された技術は、ある程度の人間の介入を必要とする一方で、正確さを欠いている。
【発明の概要】
【0003】
本明細書の実施形態は、ハイブリッド機械学習分類器を用いて製品のHSコードを予測するための改善された技術を提供する。特に、製品の構成化学成分は、HSコードのプレフィックスを高精度で予測するために使用される。そのためには、トレーニング済みの決定木のランダムフォレストを使用する必要がある。次に、製品の追加の化学的性質を使用して、HSコードの残りの部分(サフィックス)を予測する。分類のこの側面には、エキスパートツリーを選択して追加の特性に適用することが含まれる。平均して、これらの実施形態を使用して、結果として得られる完全なHSコードを95%を超える精度で予測することができる。
【0004】
本明細書に記載の技術はまた、一般に、製品の、構成成分、物理的特性(例えば、サイズ、形状、長さ、幅、深さ)、供給源、製造技術、市場用途、梱包サイズ等に基づいて、他のタイプの製品のHSコードを予測するために使用され得る。特に、HSコードに関する1つ以上の類は、本明細書と同様の実施形態を採用し得る。さらに、ここで説明する手法は、税関コード、輸出入コード、商品コード、税コード、危険物分類、輸出管理分類番号(ECCN)、Globally Harmonized System Labeling Classificationなど、製品またはサービスに関する他のタイプのコードを予測するために使用され得る。
【0005】
したがって、第1の例示的な実施形態は、メモリから、関税コードマッピングのセットおよびサフィックスマッピングのそれぞれのセットを取得することであって、関税コードマッピングのセットが、化学成分の記述と関税コードとの間のものであり、関税コードは、関税コードプレフィックスおよび関税コードサフィックスを含み、各関税コードプレフィックスは、化学成分の記述に関する特性と関税コードサフィックスとの間のサフィックスマッピングのそれぞれのセットに関連付けられている、取得することを含み得る。第1の例示的な実施形態はまた、関税コードプレフィックスの各それぞれのプレフィックスについて、関税コードマッピングのセットから、それぞれのプレフィックスにマッピングされる化学成分の記述中の化学成分の名前を含む成分ファイルを生成することを含み得る。第1の例示的な実施形態はまた、化学成分の記述の各それぞれの記述について、(i)主要な化学成分を決定することと、(ii)それぞれの記述中の他の化学成分と比較した主要な化学成分の割合を決定することと、(iii)成分ファイルの各それぞれのファイルについて、それぞれの記述中の単語とそれぞれのファイル中の単語との間の編集距離を決定することによってそれぞれの記述の類似性スコアを計算することと、(iv)主要な化学成分と類似性スコアとの割合から、それぞれの記述の特徴ベクトルを生成することと、を含み得る。第1の例示的な実施形態はまた、それぞれの記述の特徴ベクトルを入力として、かつそれぞれの記述の関税コードプレフィックスを出力ラベルとして、決定木分類器のランダムフォレストをトレーニングすることを含み得る。第1の例示的な実施形態はまた、関税コードプレフィックスの各それぞれのプレフィックスについて、それぞれのプレフィックスのサフィックスマッピングのセットからそれぞれのエキスパートツリーマッピングを構築することであって、化学成分の記述に関する特性に関連付けられたエキスパートツリーの渡り歩き(traversal)が、サフィックスマッピングのセットにおいて特定される特定の関税コードサフィックスにつながり、ハイブリッド機械学習分類器が、ランダムフォレストとエキスパートツリーとを使用して関税コードを予測する、構築することを含み得る。
【0006】
第2の例示的な実施形態は、メモリから、化学成分の記述と関税コードとの間の関税コードマッピングのセットを取得することであって、関税コードが、関税コードプレフィックスおよび関税コードサフィックスを含む、取得することを含み得る。第2の例示的な実施形態はまた、化学成分の記述の各それぞれの記述について、(i)主要な化学成分の割合、および(ii)それぞれの記述と関税コードにそれぞれ関連付けられた単語のセットとの間の類似性スコアから、それぞれの記述の特徴ベクトルを生成することを含み得る。第2の例示的な実施形態はまた、入力としてのそれぞれの記述の特徴ベクトルと、出力ラベルとしてのそれぞれの記述の関税コードプレフィックスと、を用いて、決定木分類器のランダムフォレストをトレーニングすることを含み得る。第2の例示的な実施形態はまた、関税コードプレフィックスの各それぞれのプレフィックスについて、それぞれの記述からそれぞれのプレフィックスの関税コードサフィックスへのそれぞれのエキスパートツリーマッピングを構築することであって、ハイブリッド機械学習分類器が、ランダムフォレストおよびエキスパートツリーを使用して関税コードを予測する、構築することを含み得る。
【0007】
第3の例示的な実施形態は、化学成分の新しいセットを取得することであって、(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器と、(ii)それぞれの関税コードプレフィックスに関連付けられた化学成分の名前を含む複数の成分ファイル(各関税コードプレフィックスに対して1つ)と、へのアクセスが利用可能である、取得することを含み得る。第3の例示的な実施形態はまた、化学成分の新しいセットから、主要な化学成分を決定することを含み得る。第3の例示的な実施形態はまた、化学成分の新しいセットン内の他の化学成分と比較した主要な化学成分の割合を決定することを含み得る。第3の例示的な実施形態はまた、複数の成分ファイルの各それぞれのファイルについて、化学成分の新しいセットを記述するために使用される単語とそれぞれのファイル中の単語との間の編集距離を決定することによって、化学成分の新しいセットの類似性スコアを計算することを含み得る。第3の例示的な実施形態はまた、主要な化学成分の割合および類似性スコアから、化学成分の新しいセットの特徴ベクトルを生成することを含み得る。第3の例示的な実施形態はまた、決定木分類器のランダムフォレストを特徴ベクトルに適用することによって、予測関税コードプレフィックスを取得することを含み得る。第3の例示的な実施形態はまた、複数のエキスパートツリーから、予測関税コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することを含み得る。第3の例示的な実施形態はまた、化学成分の新しいセットに関する特性に従う特定のエキスパートツリーを渡り歩くことによって予測される関税コードサフィックスを取得することを含み得る。第3の例示的な実施形態はまた、予測関税コードプレフィックスと予測関税コードサフィックスとを連結することによって、化学成分の新しいセットの関税コードを生成することを含み得る。
【0008】
第4の例示的な実施形態は、化学成分の新しいセットを取得することであって、ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器へのアクセスが利用可能である、取得することを含み得る。第4の例示的な実施形態はまた、化学成分の新しいセットから、化学成分の新しいセット中の他の化学成分と比較した主要な化学成分の割合を決定することを含み得る。第4の例示的な実施形態はまた、化学成分の新しいセットを記述するために使用される単語と関税コードプレフィックスに関連付けられた単語との間の編集距離を決定することによって、化学成分の新しいセットの類似性スコアを計算することを含み得る。第4の例示的な実施形態はまた、主要な化学成分の割合および類似性スコアから、化学成分の新しいセットの特徴ベクトルを生成することを含み得る。第4の例示的な実施形態はまた、予測関税コードを取得することであって、予測関税コードの予測関税コードプレフィックスが、決定木分類器のランダムフォレストを特徴ベクトルに適用することによって決定され、予測関税コードの予測関税コードサフィックスが、化学成分の新しいセットに関する特性に従う特定のエキスパートツリーを渡り歩くことによって決定され、特定のエキスパートツリーが、予測関税コードプレフィックスに関連付けられている、取得することを含み得る。
【0009】
第5の例示的な実施形態では、第1、第2、第3、および/または第4の例示的な実施形態による動作を実行する方法を使用し得る。
【0010】
第6の例示的な実施形態は、コンピューティングシステムによって実行されると、コンピューティングシステムに第1、第2、第3および/または第4の例示的な実施形態による動作を実行させるプログラム命令がそこに格納した非一時的なコンピュータ可読媒体を含み得る製造品である。
【0011】
第7の例示的な実施形態は、第1、第2、第3、および/または第4の例示的な実施形態の動作のそれぞれを実行するための様々な手段を含み得るシステムである。
【0012】
これらならびに他の実施形態、態様、利点、および代替案は、添付の図面を適切に参照しながら、以下の詳細な説明を読むことにより、当業者に明らかになるであろう。さらに、この概要および本明細書で提供される他の説明および図は、例としてのみ実施形態を説明することを意図しており、したがって、多くの変形が可能である。例えば、構造要素およびプロセスステップは、特許請求される実施形態の範囲内にとどまりながら、再配置、結合、分散、排除、または他の方法で変更することができる。
【図面の簡単な説明】
【0013】
【
図1】例示的な実施形態による、コンピューティングデバイスの概略図を示す。
【
図2】例示的な実施形態による、サーバデバイスクラスタの概略図を示す。
【
図3】例示的な実施形態による、決定木を再帰的に構築するための擬似コードを示す。
【
図4A】例示的な実施形態による、部分的な決定木を示す。
【
図4B】例示的な実施形態による、完全な決定木を示す。
【
図5】例示的な実施形態による、ハーモナイズド関税スケジュールコードの米国バージョン、第39類の最初の14の小見出しを示す。
【
図6】例示的な実施形態による、フローチャートである。
【
図7】例示的な実施形態による、製品情報から特徴ベクトルを生成することを示す。
【
図8A】例示的な実施形態による、製品のPファイルを生成するための擬似コードを示す。
【
図8B】例示的な実施形態による、
図8Aの擬似コードを使用してPファイルを生成する簡単な例を示す。
【
図8C】例示的な実施形態による、例示的な単語頻度チャートを示す。
【
図9】例示的な実施形態による、特徴ベクトルの生成を示す。
【
図10A】例示的な実施形態による、製品の記述と製品のPファイルとの間の一致スコアを決定するための擬似コードを示す。
【
図10B】例示的な実施形態による、製品の記述と製品のPファイルとの間の一致スコアを決定するための正規表現を使用する擬似コードを示す。
【
図11】例示的な実施形態による、集合特徴ベクトルの構築を示す。
【
図12A】例示的な実施形態による、単語の頻度に基づいて単語の重みを決定するための擬似コードを示す。
【
図12B】例示的な実施形態による、単語およびそれらに関連付けられた重みを示す。
【
図13】例示的な実施形態による、フローチャートである。
【
図14】例示的な実施形態による、ハイブリッド機械学習分類器の概略図である。
【
図15】例示的な実施形態による、フローチャートである。
【
図16】例示的な実施形態による、フローチャートである。
【
図17】例示的な実施形態による、フローチャートである。
【
図18】例示的な実施形態による、フローチャートである。
【
図19】例示的な実施形態による、フローチャートである。
【
図20】例示的な実施形態による、分類に潜在的に関連する特性のリストである。
【
図21】例示的な実施形態による、輸出管理分類番号の例示的な決定木である。
【発明を実施するための形態】
【0014】
例示的な方法、デバイス、およびシステムを本明細書において説明する。本明細書では、「例」および「例示的」という用語は、「例、実例、または例証として機能する」ことを意味するために使用されることを理解されたい。「例」または「例示的」であるとして本明細書に説明される任意の実施形態または特徴は、そのように述べられない限り、必ずしも他の実施形態または特徴よりも好ましいまたは有利であると解釈されるべきではない。したがって、他の実施形態を利用することができ、本明細書において提示される主題の範囲から逸脱することなく、他の変更を行うことができる。
【0015】
したがって、本明細書に説明される例示的な実施形態は、限定することを意味するものではない。本明細書に概して説明され、図に示される本開示の態様は、多種多様な異なる構成で配置、置換、結合、分離、および設計され得ることが容易に理解されよう。例えば、「クライアント」コンポーネントと「サーバ」コンポーネントへの機能の分離は、様々な方法で発生し得る。
【0016】
さらに、文脈が別のことを示唆しない限り、各図に示されている特徴は、互いに組み合わせて使用され得る。したがって、図は、概して、1つ以上の全体的な実施形態の構成要素として見なされるべきであり、各実施形態にすべての図示された特徴が必要であるとは限らないことを理解されたい。
【0017】
さらに、本明細書または特許請求の範囲における要素、ブロック、またはステップの列挙は、明確にするためのものである。したがって、そのような列挙は、これらの要素、ブロック、またはステップが特定の配置に準拠している、または特定の順序で実行されることを要求または暗示するものとして解釈されるべきではない。
【0018】
I.例示的なコンピューティングデバイスおよびクラウドベースのコンピューティング環境
以下の実施形態は、開示された実装態様を使用し得る例示的なコンピューティングデバイスおよびシステムのアーキテクチャおよび動作の側面、ならびにそれらの特徴および利点を説明する。
【0019】
図1は、コンピューティングデバイス100を例示する簡略化されたブロック図であり、本明細書の実施形態に従って動作するように構成されたコンピューティングデバイスに含まれ得るいくつかの構成要素を示している。コンピューティングデバイス100は、クライアントデバイス(例えば、ユーザによって能動的に操作されるデバイス)、サーバデバイス(例えば、クライアントデバイスに計算サービスを提供するデバイス)、または他のタイプの計算プラットフォームであり得る。一部のサーバデバイスは、特定の動作を実行するためにクライアントデバイスとして動作し得、一部のクライアントデバイスにはサーバ機能が組み込まれ得る。
【0020】
この例では、コンピューティングデバイス100は、プロセッサ102、メモリ104、ネットワークインターフェース106、および入力/出力ユニット108を含み、これらはすべて、システムバス110または同様のメカニズムによって結合され得る。いくつかの実施形態では、コンピューティングデバイス100は、他の構成要素および/または周辺デバイス(例えば、取り外し可能なストレージ、プリンタなど)を含み得る。
【0021】
プロセッサ102は、中央処理装置(CPU)、コプロセッサ(例えば、数学、グラフィックス、または暗号化コプロセッサ)、デジタル信号プロセッサ(DSP)、ネットワークプロセッサ、および/またはプロセッサ動作を実行する集積回路もしくはコントローラの形式など、任意のタイプのコンピュータ処理要素のうちの1つ以上であり得る。場合によっては、プロセッサ102は、1つ以上のシングルコアプロセッサであり得る。他の場合には、プロセッサ102は、複数の独立した処理ユニットを備えた1つ以上のマルチコアプロセッサであり得る。プロセッサ102はまた、実行中の命令および関連データを一時的に格納するためのレジスタメモリ、ならびに最近使用された命令およびデータを一時的に格納するためのキャッシュメモリを含み得る。
【0022】
メモリ104は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、および不揮発性メモリを含むがこれらに限定されない、任意の形態のコンピュータ使用可能メモリであり得る。これには、ほんの数例として、フラッシュメモリ、ハードディスクドライブ、ソリッドステートドライブ、再書き込み可能なコンパクトディスク(CD)、再書き込み可能なデジタルビデオディスク(DVD)、および/またはテープストレージが含まれ得る。コンピューティングデバイス100は、固定メモリならびに1つ以上のリムーバブルメモリユニットを含み得、後者は、様々なタイプのセキュアデジタル(SD)カードを含むが、これらに限定されない。したがって、メモリ104は、メインメモリユニットと長期記憶装置の両方を表す。他のタイプのメモリには、生物学的メモリが含まれ得る。
【0023】
メモリ104は、プログラム命令および/またはプログラム命令が動作し得るデータを格納し得る。例として、メモリ104は、これらのプログラム命令を非一時的なコンピュータ可読媒体に格納し得、これにより、命令は、本明細書または添付の図面に開示される方法、プロセス、または操作のいずれかを実行するためにプロセッサ102によって実行可能になる。
【0024】
図1に示されるように、メモリ104は、ファームウェア104A、カーネル104B、および/またはアプリケーション104Cを含み得る。ファームウェア104Aは、コンピューティングデバイス100の一部または全部を起動または他の方法で開始するために使用されるプログラムコードであり得る。カーネル104Bは、メモリ管理、プロセスのスケジューリングおよび管理、入力/出力、および通信のためのモジュールを含むオペレーティングシステムであり得る。カーネル104Bはまた、オペレーティングシステムがコンピューティングデバイス100のハードウェアモジュール(例えば、メモリユニット、ネットワーキングインターフェース、ポート、およびバス)と通信することを可能にするデバイスドライバを含み得る。アプリケーション104Cは、ウェブブラウザまたは電子メールクライアントなどの1つ以上のユーザスペースソフトウェアプログラム、ならびにこれらのプログラムによって使用される任意のソフトウェアライブラリであり得る。メモリ104はまた、これらのおよび他のプログラムおよびアプリケーションによって使用されるデータを格納し得る。
【0025】
ネットワークインターフェース106は、イーサネット(例えば、ファストイーサネット、ギガビットイーサネットなど)などの1つ以上の有線インターフェースの形態をとり得る。ネットワークインターフェース106はまた、同軸ケーブルまたは電力線などの1つ以上の非イーサネット媒体を介した通信、または同期光ネットワーク(SONET)またはデジタル加入者線(DSL)技術などの広域媒体を介した通信をサポートし得る。ネットワークインターフェース106はさらに、IEEE802.11(Wifi)、BLUETOOTH(登録商標)、全地球測位システム(GPS)、または広域無線インターフェースなどの1つ以上の無線インターフェースの形態をとり得る。しかしながら、他の形態の物理層インターフェースおよび他のタイプの標準または独自の通信プロトコルが、ネットワークインターフェース106を介して使用され得る。さらに、ネットワークインターフェース106は、複数の物理インターフェースを含み得る。例えば、コンピューティングデバイス100のいくつかの実施形態は、イーサネット、BLUETOOTH(登録商標)、およびWifiインターフェースを含み得る。
【0026】
入力/出力ユニット108は、例示的なコンピューティングデバイス100とのユーザおよび周辺デバイスの相互作用を容易にし得る。入力/出力ユニット108は、キーボード、マウス、タッチスクリーンなどのような1つ以上のタイプの入力デバイスを含み得る。同様に、入力/出力ユニット108は、スクリーン、モニタ、プリンタ、および/または1つ以上の発光ダイオード(LED)などの1つ以上のタイプの出力デバイスを含み得る。追加的または代替的に、コンピューティングデバイス100は、例えば、ユニバーサルシリアルバス(USB)または高精細マルチメディアインターフェース(HDMI)ポートインターフェースを使用して他のデバイスと通信し得る。
【0027】
いくつかの実施形態では、コンピューティングデバイス100の1つ以上のインスタンスが、クラスタ化されたアーキテクチャをサポートするために展開され得る。これらのコンピューティングデバイスの正確な物理的な場所、接続、および構成は、クライアントデバイスにとって不明である、および/または重要ではないことがある。したがって、コンピューティングデバイスは、様々なリモートデータセンターの場所に収容し得る「クラウドベース」デバイスと呼ばれる場合がある。
【0028】
図2は、例示的な実施形態による、クラウドベースのサーバクラスタ200を示している。
図2では、コンピューティングデバイス(例えば、コンピューティングデバイス100)の動作は、サーバデバイス202と、データストレージ204と、ルータ206との間で分散され得、これらはすべて、ローカルクラスタネットワーク208によって接続され得る。サーバクラスタ200内のサーバデバイス202、データストレージ204、およびルータ206の数は、サーバクラスタ200に割り当てられたコンピューティングタスク(複数可)および/またはアプリケーションに依存し得る。
【0029】
例えば、サーバデバイス202は、コンピューティングデバイス100の様々なコンピューティングタスクを実行するように構成することができる。したがって、コンピューティングタスクは、サーバデバイス202のうちの1つ以上の間で分散することができる。これらのコンピューティングタスクを並行して実行できる範囲で、このようなタスクの分散により、これらのタスクを完了して結果を返すための合計時間が短縮され得る。簡単にするために、サーバクラスタ200および個々のサーバデバイス202の両方は、「サーバデバイス」と称され得る。この命名法は、1つ以上の別個のサーバデバイス、データストレージデバイス、およびクラスタルータがサーバデバイスの動作に関与し得ることを暗に意味すると理解されたい。
【0030】
データストレージ204は、ハードディスクドライブおよび/またはソリッドステートドライブのグループへの読み取りおよび書き込みアクセスを管理するように構成されたドライブアレイコントローラを含むデータストレージアレイであり得る。ドライブアレイコントローラは、単独で、またはサーバデバイス202と組み合わせて、データストレージ204に格納されたデータのバックアップまたは冗長コピーを管理して、ドライブ障害またはサーバデバイス202のうちの1つ以上がクラスタデータストレージ204のユニットにアクセスすることを妨げる他のタイプの障害から保護するように構成され得る。ドライブ以外の他のタイプのメモリも使用し得る。
【0031】
ルータ206は、サーバクラスタ200に内部および外部通信を提供するように構成されたネットワーク機器を含み得る。例えば、ルータ206は、(i)クラスタネットワーク208を介したサーバデバイス202とデータストレージ204との間のネットワーク通信および/または、(ii)ネットワーク212への通信リンク210を介したサーバクラスタ200と他のデバイスとの間のネットワーク通信と、を提供するように構成された1つ以上のパケット交換および/またはルーティングデバイス(スイッチおよび/またはゲートウェイを含む)を含み得る。
【0032】
さらに、クラスタルータ206の構成は、少なくとも部分的に、サーバデバイス202およびデータストレージ204のデータ通信要件、ローカルクラスタネットワーク208の待ち時間およびスループット、通信リンク210の待ち時間、スループット、およびコスト、および/またはシステムアーキテクチャのコスト、速度、フォールトトレランス、回復力、効率、および/または他の設計目標に寄与し得る他の要因に基づくことができる。
【0033】
取り得る例として、データストレージ204は、構造化照会言語(SQL)データベースなどの任意の形式のデータベースを含み得る。テーブル、配列、リスト、ツリー、タプルなど、様々なタイプのデータ構造がこのようなデータベースに情報を格納され得るが、これらに限定されない。さらに、データストレージ204内の任意のデータベースは、モノリシックであるか、または複数の物理デバイスに分散され得る。
【0034】
サーバデバイス202は、クラスタデータストレージ204との間でデータを送受信するように構成され得る。この送信と取得は、それぞれSQLクエリまたは他のタイプのデータベースクエリ、およびそのようなクエリの出力の形式をとり得る。追加のテキスト、画像、ビデオ、および/またはオーディオも含まれ得る。さらに、サーバデバイス202は、受信したデータをウェブページ表現に編成し得る。このような表現は、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)、またはその他の標準化された形式や独自の形式などのマークアップ言語の形式をとり得る。さらに、サーバデバイス202は、Python、PHPハイパーテキストプリプロセッサ(PHP)、Active Server Pages(ASP)、JavaScript、および/またはC++、C#、またはJavaなどの他の言語など、様々なタイプのコンピュータ化されたスクリプト言語を実行する機能を備え得る。これらの言語で記述されたコンピュータプログラムコードは、クライアントデバイスへのWebページの提供、およびWebページとのクライアントデバイスの相互作用を容易にし得る。
【0035】
II.決定木およびランダムフォレスト
決定木は、1つ以上のパラメータを使用して入力を受け取り、入力が関連付けられているラベルを予測する機械学習分類器の一種である。その名前が示すように、決定木は、木のような形式で具体化され、非リーフノードは入力パラメータの値に基づいて行われる決定を表す。非リーフノードからその子までのエッジは、非リーフノードに関連付けられた入力パラメータの取り得る値または値の範囲を表す。入力パラメータの値がルートからリーフノードへのパスで表される場合、リーフノードは予測ラベルを表す。
【0036】
決定木は、入力パラメータ(観測値)とラベルとの間のマッピングがわかっているデータのコーパスによってトレーニングされる。このトレーニングプロセスは、妥当な精度で新しい観測値のラベルを予測することが期待される決定木を構築する。
【0037】
ランダムフォレストは、特定のデータセットに対して2つ以上の決定木を構築し、これらの決定木によって最も頻繁に生成されるか、または決定木によって生成されるラベルの平均の形式であるラベルを出力するアンサンブル学習手法である。
【0038】
A.例示的な決定木
以下は、決定木の実例である。この例は、決定木をトレーニングおよび構築するための1つの可能なアプローチを提供するが、他のアプローチを使用してもよい。
【表1】
【0039】
表1は、気象条件(見通し、気温、湿度、風)の14の観測値と、それらの条件下でゴルフをすることが決定されたかどうかを示している。例えば、観測1では、見通しは晴れ、気温は高く、湿度は高く、風は弱かった。このような状況下で、ゴルフをしないことが決定された。一方、観測4では、見通しは雨、気温は暖かい、湿度は高く、風は弱かった。このような状況下で、ゴルフをすることが決定された。これらの観測値は、雨が降っていない、気温が暖かく、湿度が通常で、風が弱いときにゴルフをすることを好むことを反映している。ただし、これらの気象条件のいずれも決定的なものであるとは限らない。したがって、理想的ではないが許容できる気象条件でゴルフをすることを決定するかもしれない。
【0040】
表1の各観測値は、入力パラメータ(見通し、気温、湿度、および風の気象条件)とラベル(ゴルフをするかどうか)を関連付けている。表1および観察値を表す次の表では、ラベルの付いた列が斜体で示されている。これらの観察値は、決定木をトレーニング(構築)するために使用できる。しかしながら、そうするために、いくつかの方程式への迅速な転換が役立ち得る。これらの方程式を使用して、決定木内のどの非リーフノードがどの入力パラメータに関連付けられるかを決定することができる。
【0041】
エントロピーは、データセット内の不確実性またはランダム性の量の尺度である。このようなデータセットSが与えられると、エントロピーH(S)は次のように計算される。
【数1】
【0042】
変数sは、データセットSがとることができる値を表す。エントロピー0は、すべての値が同じであることを意味する。エントロピーが1に向かって増加するにつれて、値はますますランダムになる。
【0043】
表1のデータセットのように、入力パラメータとラベルを持つデータセットに関して、特定の入力パラメータの情報ゲインは、固定ラベルに分類された場合の特定の入力パラメータの合計エントロピーとして定義される。したがって、ラベルセットXおよび入力パラメータYに関連付けられた情報ゲインIG(X、Y)は、次のように計算される。
【数2】
【0044】
変数yは、入力パラメータYがとることができる値を表し、H(X)はXのエントロピーである。H(X|y)という用語は、入力パラメータYがyの値をとる場合のラベルの条件付きエントロピーである。直感的には、情報ゲインは、入力パラメータYがラベルセットXのエントロピーH(X)にどの程度寄与するかを表す。
【0045】
図3では、決定木を構築するための再帰関数make_node()の例を示しており、擬似コード300で示されている。擬似コード300に示されているように、make_node()は1つのパラメータ(現在の観測データセット)をとる。表1のデータを使用して、この関数と上記の式を示すことができる。
【0046】
以下の説明では、この手順を表1のデータセットに適用する。ステップ1で、データセット全体を使用してmake_node()が呼び出され、ルートノードが生成される。ステップ4で、各ラベル(「する」と「しない」)のエントロピーは次のように計算される。
【数3】
【0047】
ステップ5~6で、各入力パラメータ(見通し、気温、湿度、風)の情報ゲインが決定される。風から始めて、計算は次のようになる。
【数4】
【0048】
H(X)は既知であるため、2番目の項のみを決定する必要がある。ここでは、風は弱いか強いかのどちらかである。それぞれの確率は表1から簡単に得られ、p(weak)=8/14およびp(strong)=6/14である。
【0049】
風が弱い8つの観測のうち、6つが「する」のラベルであり、2つが「しない」のラベルである。強風のある6つの観測のうち、3つは「する」のラベルであり、3つは「しない」のラベルである。その結果、次のようになる。
【数5】
【0050】
【0051】
【0052】
他の3つの入力パラメータに対してこれらの計算を実行すると、次のようになる。
IG(X,outlook)=0.246
IG(X,temperature)=0.029
IG(X,humidity)=0.151
【0053】
ステップ7で、情報ゲインが最も高い入力パラメータが選択される。観測値の現在のセットでは、見通しに関する情報ゲインが最も高い。したがって、ステップ8で、この入力パラメータは、現在のノードに指定され、ステップ9で、データセットから削除される。ステップ10で、make_nodeは、選択されたパラメータのすべての取り得る値を反復処理する。見通しとしては、これらは晴れ、曇り、雨である。ステップ11で、現在のノードから下がるエッジがこれらの値ごとに生成される。
【0054】
ステップ12~15には、これらのエッジのいずれかがリーフノードで終了するかどうかを判断することが含まれる。これは、data_set内の残りのすべての観測値に、選択した入力パラメータの値によって完全に決定されるラベルがある場合に生じる。表1に戻ると、見通しが曇りの値になるときはいつでも、ラベルは「する」である。したがって、ステップ12および13に従って、current_nodeは、「する」と指定されたリーフノードとして返され、曇りのエッジに接続される。
【0055】
選択した入力パラメータの他の値のいずれも、ラベルを明確に決定するために使用することはできない。したがって、make_node()は、これらの値のそれぞれに対して再度呼び出され、data_setはステップ9で変更されたとおりに渡される。
【0056】
結果として得られた部分ツリーを
図4Aに示す。ノード400(ルートノード)は、見通しで指定されている。見通しの取り得る値(晴れ、曇り、および雨)ごとのエッジは、ノード400からノード402、404、および406へと降順で表される。
【表2】
【0057】
上記のように、make_node()は、ノード402に対して再帰的に呼び出される。見通しが晴れの観測値のみが考慮され、これらは表2に示されている。ラベルのエントロピーは次のように計算される。
【数8】
【0058】
次に、残りの各入力変数(湿度、気温、および風)の情報ゲインが次のように計算される。
IG(Xsunny,humidity)=0.960
IG(Xsunny,temperature)=0.570
IG(Xsunny,wind)=0.019
【0059】
湿度は情報ゲインが最も高いため、ノード402の指定として選択される。なお、湿度の値によってノード402でラベルも決定される(湿度が高い場合、ラベルは「しない」であるが、湿度が通常の場合、ラベルは「する」である)。
【表3】
【0060】
関数make_nodeは、ノード406に対しても再帰的に呼び出される。見通しが雨となる観測値のみが考慮される。これを表3に示す。ラベルのエントロピーは表2のエントロピーと同じである(3つの「する」ラベル、2つの「しない」ラベル)。
【数9】
【0061】
次に、残りの各入力変数(湿度、気温、および風)の情報ゲインが次のように計算される。
IG(Xrain,humidity)=0.526
IG(Xrain,temperature)=0.526
IG(Xrain,wind)=0.960
【0062】
風は情報ゲインが最も高いため、ノード406の指定として選択される。なお、風の値によってノード406でラベルも決定される(風が弱い場合、ラベルは「する」であるが、風が強い場合、ラベルは「しない」である)。
【0063】
結果として得られた最終決定木を
図4Bに示す。ノード408および410は、ノード402にリーフノードとして追加されており、ノード412および414は、ノード406にリーフノードとして追加されている。取り得るすべてのパスはリーフノードで終了するため、決定木トレーニングは完了する。
【0064】
図4Bの決定木は、入力パラメータの特定のセットに関連付けられたラベルを予測するために使用することができる。例えば、現在の気象条件が晴れの見通し、暖かい気温、通常の湿度、弱い風であるとする。この決定木をこれらの条件に適用すると、最初にノード400で見通しを検討する。見通しは晴れであるため、晴れと指定されたエッジを辿ってノード402へと進む。次に、湿度を考慮する。湿度は通常であるため、通常と指定されたエッジを辿ってノード410へと進む。決定木を通るこのパスに基づいて、結論はゴルフをすることになる。言い換えると、決定木の構築で明示的に考慮されなかった新しいセットの気象条件の場合でも、決定木は望ましい結果である可能性が高いラベルを予測することができる。
【0065】
なお、
図3のmake_node()関数は、決定木を構築するための1つの取り得るアルゴリズムにすぎない。C4.5、分類および回帰木(CART)、カイ2乗自動相互作用検出器(CHAID)、多変量適応回帰スプライン(MARS)などの他のアルゴリズムを使用し得る。さらに、ジニ係数や分散減少など、情報ゲイン以外の入力パラメータを選択する他の手法を使用し得る。
【0066】
B.例示的なランダムフォレスト
決定木はラベルの堅牢な予測器であるが、データセットの過剰適合に悩まされる可能性がある。ランダムフォレストは、同じデータセットの様々な部分でトレーニングされた複数の決定木の出力を検討する方法である。このアプローチは、過剰適合に関連する分散を減らし得、実際には、決定木のみよりも優れた結果を生成することが観察されている。
【0067】
特に、n個の観測値のデータセットでは、それぞれj個の観測値のi個のサブセットを選択し得る。これらのサブセットは、置換で選択され得る。次に、観測値のサブセットごとに決定木を構築する。これにより、決定木が効果的に非相関化される。これらの決定木の一部またはすべてが新しい観測値に適用され、i個の予測されたラベルが生成される。上記のように、これらのラベルのモードまたは平均をとって、最終的な予測ラベルを生成し得る。非相関化されているため、個々の決定木がノイズに敏感であっても、そのランダムフォレストの感度ははるかに低くなる。
【0068】
いくつかの実施形態では、ランダムフォレストの構築は、各非リーフノードで、考慮すべき入力パラメータのランダムサブセットを選択するmake_node()の修正バージョンを含み得る。少数の入力パラメータがラベルの強力な予測器である場合、これらの入力パラメータは多くの決定木で早期に(より高く)現れる。したがって、入力パラメータをランダム化すると、ツリーがさらに非相関化される。
【0069】
III.関税コードおよびその決定
国際貿易または国境を越えた取引の際、取引される製品は通関プロセスを経る。その種類、輸出入国、用途などに応じて適切な関税が課せられる。関税/その他税を課すプロセスをより体系化するために、WCOは、各製品が、Harmonized Tariff Schedule Code(HSコード)として知られている特定のコードのいずれに割り当てることができるかに基づいた、コーディングスキームを採用している。このコードは、輸出入国に応じて8~12桁を含み、最初の6桁はグローバルに一貫している。米国の場合、HSコードの長さは10桁である。本明細書の実施形態では、目標は、
図5に示すように、第39類の最初の14の小見出し500を含む、第39類の化学ポリマーの10桁の米国ベースのHSコードを正確に予測することである。
【表4】
【0070】
関税コードは、木のような構造になっている。例えば、第39類では、見出し3901は、一次形態のエチレンのポリマーに言及している。見出し/小見出しのペア390110は、比重が0.94未満のポリエチレンを指し、見出し/小見出しのペア390120は、比重が0.94以上のポリエチレンを指す。この規程の下でより具体的な製品成分を定義するために、さらに小見出しと静的なサフィックスが使用される。例として、見出し3901の下にあるいくつかの10桁のHSコードを表4に示す。
【0071】
これらのコードを決定するために、製品はそれぞれの名前、成分リスト、および/またはその他の説明情報に基づいて分類される。現在、この分類は手動で、多くの場合人間の専門家によって実行される。これらの手動プロセスはオントロジーベースであり、専門家はクエリベースのインターフェースを使用して整理された質問の連続セットをナビゲートし、最終的に特定の製品のHSコードを決定する。他のアプローチには、以前の分類データからの既存の知識ベースの使用が含まれる。次に、新製品がこれらの履歴分類と比較され、知識ベースから最も一致する製品に基づいてHSコードが割り当てられる。ルックアップモジュールを実装することにより、製品情報全体をキーワードのセットに分解し、HSコードのリストを推奨するとともに、べき乗サポートベクターマシン(power-mean support vector-machine)とアドホックルールベースのシステムを使用してHSコードを予測する。
【0072】
しかしながら、これらのアプローチはすべて、完全に自動化されていないという欠点がある(すなわち、何らかの形の人間の入力が必要となる)。その上、専門家でさえすべての状況で適切なルールを適用できない可能性があるため、それらは依然として間違いが起こりやすく、特に新製品の場合、95%以上の精度を一貫して達成することは困難である。結果として、多くの産業的および技術的プロセスは、関税コードの決定に関連付けられた遅延、およびこれらの決定された関税コードのかなりの部分が正しくないために弱点がある。
【0073】
IV.機械学習の実装
本明細書の実施形態は、手動介入の自律的な分類および削減(または除去)を伴う関税コードを予測する。特に、機械学習ベースの技術が、製品情報を処理し、適切なHSコードを割り当てる。自然言語処理(NLP)ベースの特徴ベクトル生成器は、提供された製品データから重要な属性(または特徴)を抽出し、これは、HSコードを予測するためのハイブリッドランダムフォレストおよびエキスパートツリーベースの分類システムへの入力として機能する。このシステムの全体的なフレームワークは、
図6のフローチャート600に概略的に表されている。特に、本明細書の実施形態は、以前は手動で使用されていなかった関税コードを予測するための新しい技術を提供し、それは一貫して95%を超える精度を提供する。
【0074】
より具体的には、本明細書の実施形態は、5つの主要なフェーズとして、前処理、特徴ベクトル生成、トレーニング、テスト、および後処理を含む。これらの各フェーズについて、以下に順番に説明する。
【0075】
A.前処理
前処理段階は、提供されたデータをフィルタリングして整理し、より体系的で構造化することで構成される。化学製品の場合、溶媒を除去した後の成分割合の正規化、一貫した単位での成分割合の表現、頭字語の拡張、コポリマーのコモノマー比の決定などが含まれる。前処理段階中は、各製品は、製品名、製品仕様番号、成分ID、成分割合、成分名、および成分ケミカル・アブストラクツ・サービス(CAS)番号の属性を持つ物体として、保管される。
【0076】
B.特徴ベクトルの生成
データが整理されると、機械学習プロセス全体の次の段階である特徴ベクトルの生成に提供される。特徴ベクトルは、製品情報が数値のベクトルとして格納されている製品の表現である。前述のように、製品情報データは、製品名と成分名に関するテキスト情報と、成分割合に関する数値情報で構成される(成分CAS番号などの他の情報は、アルゴリズム開発の後の段階で使用され得る)。特徴ベクトル生成器のタスクは、この情報を処理し、それをn次元空間のベクトルにマッピングすることである。これは、
図7の
図700に概念的に表されている。結果として得られた特徴ベクトルは、おそらく追加情報とともに、決定木のランダムフォレストへの入力として使用される。
【0077】
テキストデータを数値に変換する最初のステップは、文字列類似性スコア(次のサブセクションで説明する)を計算する際の比較の基礎として使用できる参照セットを確立することである。記事、ブログエントリ、製品の説明などのテキストデータの参照セットは、そのテキストデータを表すキーワードで構成される。各HSコードには、その特定のHSコードに関連するテキスト情報から派生した独自の代表的なキーワードの参照セットがある。HSコードごとに、キーワードの代表的な参照セットの2つのファイルを作成し得、1つは製品名のテキストを使用し、もう1つは成分名のテキストを使用する。これらのファイルは、それぞれ製品のバッグオブワード(BOW)ファイル(または略してPファイル)および成分のBOWファイル(または略してCファイル)と呼ばれる。コード3901のPファイルを作成する手順は、
図8Aに示すように擬似コード800で説明される。
【0078】
図8Bは、擬似コード800に従ってPファイルを構築するメカニズムを示している。なお、この単純な例は、単純化のための入力としてブロック810のテキストで始まるが、実際には、代わりに製品情報を使用することになる。
【0079】
擬似コード800のステップ1で、テキストデータは、例えば、ファイルT
pにいくつかの製品名を集約することによって取得される。ステップ2と3で、ストップワード(例えば、「this」、「is」、「an」、「to」、「of」、「that」、「a」)と句読点が削除され、頭字語が拡張される。
図8Bに示すように、ブロック810はステップ2と3の後でブロック812になる。
【0080】
ステップ4で、ファイルT
pに残存する各単語の頻度がカウントされる。これは、ブロック814で表される。ステップ5で、これらの頻度の平均、f
avgが決定される。ブロック814において単語頻度の場合、f
avgは1.45である。ステップ6および7で、閾値f
avgよりも高い頻度を有する単語が代表的なキーワードとして選択され、Pファイルに格納される。場合によっては、非負、非ゼロのゲインτがf
avgに適用され得、f
avgが高くなったり低くなったりする。
図8Bの例では、選択された単語がブロック816に示されている。
【0081】
図8Cは、全体的な単語の頻度に基づいてPファイルの単語を選択する別の(異なる)例を示している。
図8Cでは、棒グラフ820は、17単語の頻度、w
1...w
17を示している。特に、棒グラフ820は、単語をx軸にプロットし、それらに対応する頻度をy軸にプロットしている。ストップワードを削除し、頭字語を拡張した後、ドキュメントに17単語(w1,w2、...w17)があるとする。これらの単語のうちの10個のそれぞれの頻度は、閾値頻度よりも大きい(f
avgは、
図8Cでは水平の破線で表されている)。したがって、これらの10単語は、ソーステキストドキュメントの代表的なキーワードと見なされ、このドキュメントのPファイルに格納される。
【0082】
本明細書の実施形態では、Pファイルは、履歴データに基づいて、第39類の4桁のHSコードプレフィックスごとに生成される。さらに、製品内の成分の1つ以上の名前に基づくCファイルも、Pファイルの生成に使用されるのと同じまたは同様のプロセスを使用するが、製品の構成化学成分の名前からのテキストを使用して、HSコードプレフィックスごとに生成される。分類されている新製品の場合、検討中のHSコードプレフィックスのそれぞれのPファイルおよび/またはCファイルを使用して、HSコードプレフィックスごとに1つ(または2つ)の要素で数値の特徴ベクトルが生成される。
【0083】
このプロセスの概要を
図9に示す。所与の製品900について、製品名902および成分名904が導出される。成分名904は、製品で使用されるすべての成分の最大の割合を有する成分の名前であるという点で、主要な成分名であり得る。あるいは、複数の成分名を使用し得る。派生製品名は、HSコードプレフィックスごとにPファイル中の単語と比較され、派生成分名は、HSコードプレフィックスごとにCファイル中の単語と比較される。各比較の結果は、特徴ベクトルの要素に格納されている数値である。第39類(3901-3914)の14個のHSコードプレフィックスの場合、特徴ベクトルは14個または28個の要素(HSコードプレフィックスごとに1個または2個である)を持つことができる。Pファイルベクトル906およびCファイルベクトル908の簡略化された例が
図9に示されている。
【0084】
テキストを数値に変換するこれらの比較は、分類されている製品の製品名または成分名からのテキストと、14個のHSコードプレフィックスのそれぞれのPファイルおよび/またはCファイルとの間のレーベンシュタイン距離(編集距離)の正規化バージョンを計算することによって行われる。1つ目の文字列と2つ目の文字列との間のレーベンシュタイン距離は、1つ目の文字列を2つ目の文字列に変換するために必要な削除、挿入、置換の数である。完全に一致する場合(すなわち、比較されている2つの文字列が同一の場合)、レーベンシュタイン距離の値は0になる。レーベンシュタイン距離メトリックが持つことができる最大値は、比較対象の最長の文字列の文字列の長さである。本明細書の実施形態では、レーベンシュタイン距離スコアは、それを、比較されているものの中で最も長い文字列の文字列長で割ることによって正規化される。次に、一致スコアは、正規化されたレーベンシュタイン距離を1から引いたものとして計算される。したがって、正規化された一致スコアは0~1とすることができ、値が高いほど一致が良好であることを示す。
【0085】
図10Aは、製品名とPファイルの1つとの間のネット一致スコアを決定するための擬似コード1000を示している。つまり、製品の製品名の各単語(w)とPファイル中の単語(w
b)との間の正規化された一致スコアが計算され、Pファイル中の最も一致する単語(w
b*)を決定する。wとそれに対応するw
b*との間の一致スコアを「最一致スコア」と呼ぶ。製品名中の各単語(w)に対するこれらの「最一致スコア」の値を合計して、ネット一致スコアを決定する。このネット一致スコアは、結果の特徴ベクトルの1つの要素になる。この手順を繰り返して、製品名とすべての4桁のHSコード(または略してHS4コード)のPファイルとの間のネット一致スコア値を計算し、計算されたネット一致スコア値をスタックして、
図9に示すように、特徴ベクトル906を形成する。したがって、特徴ベクトル906の第1の要素の値は、分類されている製品の製品名とHSコードプレフィックス3901のPファイルとの間のネット一致スコアに対応し、第2の要素の値は、分類されている製品の製品名とHSコードプレフィックス3902のPファイルとの間のネット一致スコアに対応する。
【0086】
特徴ベクトル908を形成するために、同様の(しかし必ずしも同一ではない)手順が、分類されている製品の成分の記述および4桁のHSコードプレフィックスに関連付けられたCファイルに適用され得る。特に、これには、割合に基づいて分類されている製品の成分を最高から最低にソートすることが含まれる。累積シェアが50%以上の上位成分が特定される。実際には、この上位成分のセットには通常、最大2~3個の成分が含まれている。成分のこのセットから主要なポリマーまたは化学物質が決定され、この主要なポリマー/化学物質の対応する割合は、d
vとして格納される。主要な成分名がCファイルと比較されて、対応するネット一致スコア値を取得し、ベクトル908を生成する(
図9)。次に、完全な特徴ベクトルを、d
v、特徴ベクトル906(略してPベクトル)、および特徴ベクトル908(略してCベクトル)をスタックすることによって形成する。
【0087】
図11に、この手順を概略
図1100として示す。特に、特徴ベクトル906および特徴ベクトル908は、製品900に関する情報から導出される。上述したように、この製品の支配的な成分の対応する割合d
vが得られる。
図11において、d
vが97の値をとる。完全な特徴ベクトル1102は、d
v、特徴ベクトル906、および特徴ベクトル908を連結することによって形成される。いくつかの実施形態では、要素の異なるセットまたは要素の順序を使用し得る。
【0088】
C.トレーニングおよびテスト
HSコード分類を実行するために実装された機械学習アルゴリズムは、ランダムフォレスト分類器である。モデルは、最初にデータのサブセット(トレーニングデータとして知られる)を使用してトレーニングされ、次にデータの別の見えない(またはテストする)サブセットで検証される。このセクションでは、ランダムフォレスト分類器をトレーニングするために実装された実験セットアップについて簡単に説明する。簡単にするために、HSコードの最初の4桁(HS4コード)を予測するHS4分類タスクについて説明する。
【0089】
所与のクラス(例えば3901)について、そのクラスラベル(例えば3901)に対応するHS4コードを持つ製品のリストがデータベースから抽出される。クラスラベル3901の場合、このリストはL3901によって示され、L3901
trainとL3901
testとの2つのサブセットに分割される。L3901
trainには、トレーニングデータが含まれ、L3901
testには、テストデータが含まれる。トレーニングデータセットとテストデータセットにそれぞれ存在するトレーニングデータポイントとテストデータポイントの数は、6/4、7/3、8/2、9/1などに設定することができるトレイン/テスト比によって制御される。以下の結果の場合、7/3の比が使用された。この比は、サブセットL3901
trainが全データの約70%であり、L3901
testが全データの約30%であることを示す。他のクラスのトレーニングサブセットとテストサブセットは、同様の方法で生成される。これらのトレーニングサブセットとテストサブセット(Lc
trainとLc
test、ここでc=3901,3902,3903,...,3914)がマージされて、最終的なトレーニングセッとテストセットであるLc
trainとLc
testが形成される。
【0090】
次に、ランダムフォレスト分類器がL
c
trainでトレーニングされる。結果として得られた分類器はセットL
c
testでテストされる。この分類器の精度は次のように計算される。
【数10】
式中、n
correctは、テストデータL
c
test(すなわち、ランダムフォレスト分類器からの予測クラスラベルがデータベースに記録されている実際のクラスラベルと一致したデータポイント)の正しく分類されたデータポイントの数であり、n
testは、テストデータポイントの総数である。
【0091】
D.予備的な結果
毎回異なるテストデータおよびトレーニングデータを使用して、10回のランダム実験を実行した。これらの実験の平均精度スコアは、HS4分類タスク(目標がHSコードの最初の4桁を予測することである場合)、HS6分類タスク(目標がHSコードの最初の6桁を予測することである場合)、およびHS10分類タスク(目標がHSコードの最初の10桁を予測することである場合)について報告された。分類タスクでそれを考慮するために、特定のクラス(すなわち、HSコードプレフィックス)に少なくとも10個の製品があるという制約が課された。データベース内の10未満の製品のクラスは実験から除外された。つまり、このクラスのデータポイントはトレーニングセットでもテストセットでも使用されなかった。HS4、HS6、HS10分類タスクの結果を、以下の表5に提供する。
【表5】
【0092】
E.事後分析:フェーズ1
表5からわかるように、HSコードプレフィックスのより長いバージョンを予測している間、精度スコアは一貫して低下した。このような傾向の理由の1つは、低桁の予測(HS4)から高桁の予測(HS6、HS10)に移行する間に、各クラスのデータ量(すなわち、データポイント/製品の数)が減少することである。例えば、HS4コードが3901の製品が100個あったとする。これらの100個の製品は、3901見出し内で次の分布を持つことができる。30個の製品はHS6コード390110を持つことができ、30個は390120を持つことができ、20個は390130を持つことができ、20個は390190を持つことができる。したがって、HS4分類タスクと比較して、HS6分類タスクの各クラスの製品は大幅に少なくなる。HS10分類タスクの状況は悪化する。
【0093】
それに加えて、データベースで提供された情報は、一部のHS6およびHS10コードを予測するのに十分ではなかった。データベースには、HS6およびHS10コードを一意に割り当てるために必要な重要な製品機能(比重、弾性など)に関する情報が不足していた。この欠落している情報を処理する方法については、後で説明する。
【0094】
本明細書の実施形態は、階層的でハイブリッドな方法で分類を実行することによって、これらの予備的な結果の欠点に対処する。最初に、HS4分類が上記のように発生し、次に一連のエキスパートルールを使用して、HS6および/またはHS10分類の残りの数字を決定論的に予測する。HS6またはHS10コードの予測の成功は、HS4コード予測の精度に依存するため、HS4コードを予測するための分類精度をできるだけ高くすることが望ましい。HS4コードを予測するための全体的な分類精度95%を達成するという目標が設定された。
【0095】
精度の点で人間のパフォーマンスを向上させることができる自動分類ツールを開発するために、HSコード割り当ての分野の専門家からいくつかの洞察を得ることが役立つ。例えば、専門家はルールおよび/またはマッピングを使用して、新製品に適切なHSコードを提供し得る。これらのルールおよび/またはマッピングの調査は、特定のHSコードに関連する一意の属性とキーワードを決定するのに役立つ。これにより、様々なHSコードのPファイルやCファイルに新しい単語が追加された。
【0096】
図10Aに示すように、擬似コード1000を使用してネット一致スコア値を計算することができる。いくつかの実施形態では、各単語のPファイルまたはCファイルに同等の重要性を与えることができる。これは、より少ない回数で現れるいくつかの単語に対して、
図8AのT
pファイルにしばしば現れたものと同じ重み(または強調)を与えられたことを意味する。ただし、PファイルまたはCファイル内で頻繁に出現する単語の関連性が高くなることが予想される。したがって、PファイルまたはCファイル中の各単語には、その出現頻度に基づいて重みを割り当てることができ、頻度カウントが高い単語には、より高い重み値が割り当てられる。
【0097】
そのような重み値をPファイルまたはCファイル中の単語に割り当てるための手順1200を
図12Aに示す。特に、その中の各単語には、単語の頻度および/または分類における単語の重要性に関する専門家からの入力に基づいて、1~10の重み値が割り当てられる。重みが関連付けられた単語のリスト1202の例を
図12Bに示す。
【0098】
サンプル数が少ないクラスでオーバーサンプリングを実行することで、別の改善を行うことができる。これは、提供されたデータベース内のデータの分布が大きく偏っていたためであり、一部のクラスには数百の製品があり、他のクラスには数十の製品しかなかった。これは、より多くのデータを持つクラスにさらに重点を置くことにより、トレーニングフェーズ中にバイアスを課す。このバイアスを補うために、オーバーサンプリングのSMOTE法が使用された。SMOTEオーバーサンプリング法は、既知のデータポイントの周囲に合成データポイントを生成する。合成データポイントは、既存のセットから2つのデータポイントをランダムに選択し、次に、以前に選択した2つのデータポイントを接続する線分上のランダムなポイントを選択することによって生成される。このプロセスは、データポイントの総数が目的の値と一致するまで繰り返される。本明細書の実施形態では、この所望の値は、最大(size(Lc
train))に設定され、ここで、c=3901,3902,3903,...,3914であり、size(Lc
train)は、セットLc
train内のデータポイントの数である。オーバーサンプリングは、すべてのクラスで同数のトレーニングサンプルを持つために、各Lc
trainセットで実行され得る。
【0099】
キーワードの加重セットを使用して製品名および/または成分名とPファイルおよび/またはCファイルとの間のネット一致スコアを計算するという更新されたアプローチにより、HS4分類の精度スコアが85.82%から91.6%に向上した。オーバーサンプリングの有無にかかわらずほぼ同じ結果が得られ、オーバーサンプリングがランダムフォレストベースの分類器のパフォーマンスにほとんど影響を与えなかったことを示唆している。また、製品ファイルから派生したベクトル(すなわち、Pベクトル)を抑制した後に実行された実験では、精度の低下は観察されなかった。これにより、製品ファイルから派生したベクトルは、分類タスクで無視できるほどの重要性を持っていることが明らかになった。言い換えれば、製品名からのテキスト情報は、HS4コードの予測にほとんどまたはまったく影響を与えなかった。これの考えられる理由の1つは、最初の14の見出し(すなわち、3901~3914)について、HS4コードを予測するために必要なすべての情報が製品の成分名に埋め込まれていたことである。したがって、以下の実験では、製品ファイルから派生したベクトルは、製品の完全な特徴ベクトル表現から削除された。
【0100】
F.事後分析:フェーズ2
HS4分類の全体的な精度スコア91.6%は、上記の手法を使用して達成されたランダムフォレストベースの分類器で観測された最高のパフォーマンスであった。95%以上の精度を目標として、さらに事後分析を実行した。特に、誤分類(すなわち、ランダムフォレストベースの分類器によって誤って分類された製品)の分析は、特徴ベクトル生成モジュールをさらに変更するための基盤として機能した。
【0101】
誤分類とは、誤って予測されたデータポイント(この場合は化学製品)であり、すなわち、予測されたHSコードがグラウンドトゥルースHSコードと一致しない。誤分類の分析は、アルゴリズム全体のボトルネックと特性を決定するのに役立つ。
【表6】
【0102】
表6は、分類器からの予測を実際のグラウンドトゥルース値と比較する混同行列の例を示している。この表には、2つのクラス(クラスAとクラスB)があり、各クラスに合計100の製品がある。混同行列の非対角要素は誤分類である。この例では、クラスAに属する30個の要素がクラスBにあると予測され、実際にクラスBにある2個の要素がクラスAにあると予測される。したがって、クラスAは70%の精度で予測され、クラスBは98%の精度で予測される。この場合、クラスAに属する要素の予測の精度を向上させると、分類器の全体的なパフォーマンスを大幅に向上させることができる。
【0103】
図5に示すように、第39類の14個のHS4コード小見出しに対してサイズ14x14の混同行列が生成された。誤分類は、この混同行列を使用して体系的に分析され、次の4つのカテゴリに分類された:タイプ1(分類器によって誤って予測されたが、製品データベースで正しく分類された)、タイプ2(分類器によって正しく予測されたが、データベースで誤って分類された)、タイプ3(分類器によって誤って予測され、データベースで誤って分類された)、およびタイプ4(情報が不完全または欠落している製品)。
【0104】
データベースで誤って分類された製品は、誤った分類ロジックで誤って導くことにより、分類器開発のトレーニングフェーズに影響を与えた。一方、状況によっては、分類器は、データベースで誤って分類された製品のHS4コードを正しく予測できた。したがって、分類器は誤りを検知し、データベースの可能な修正を提案することが可能である。
【0105】
情報が不完全または欠落している製品では、特徴ベクトルの表現があいまいであった。これらの製品は通常、支配的なモノマーとその割合に関する情報を欠いていた。
【0106】
上記の4つのカテゴリの中で、焦点を当てるべき重要な領域は、データベースで正しく分類された製品を分類器が誤って予測したカテゴリであった。このカテゴリに該当する製品を分析したところ、それらの成分名が特定のパターンに従っていることが観察された。
【0107】
これにより、正規表現に基づく成分名のパターンマッチングアプローチが実現した。パターンベースの特徴抽出は、少数のパターンのみを使用して製品の完全なファミリをターゲットにする可能性があるため、一致するキーワードや成分名よりも一般的である。例えば、化学名が文字「ene」で終わるオレフィンクラスの化学物質は、正規表現「*ene」(*は任意の長さのテキスト文字列に一致することができる)で表すことができる。
【0108】
以下は、特定の化学ファミリに使用されるパターンと、開発されたこれらのパターンを表す対応する規則式のリストである。オレフィン(「ene」で終わる単語)、ポリオール(単語の末尾の「ol」、単語内の「oxy」+「ene」の組み合わせ、またはオレフィン+「oxide」の組み合わせ)、エステル(「ate」で終わる単語または「acid」+ポリオールの組み合わせの存在)。
【0109】
正規表現ベースの特徴抽出のもう1つの利点は、特定のパターンに対して高いバイアスを作成できることであり、これにより、化学名の一意の特徴抽出が容易になる。この考えは、次の例からよりよく理解することができる。
【0110】
小見出し3902には、主要な/支配的な成分としてオレフィンを含む製品が含まれている。実際には、すべてのオレフィン名の完全なリストを作成し、かつそれらをCファイルに格納して3902の小見出しとして単語のバッグとして格納することはできない。文献から、オレフィンは1つ以上の炭素-炭素二重結合を持つ炭化水素であり、それらの名前は通常「ene」という文字で終わることが知られている。したがって、前述のように、オレフィンベースの化学成分の名前のほとんどを表す正規表現の1つは「*ene」である。
【0111】
小見出し3902のCファイルには、「プロペン」と「ブテン」の2つの単語のみが含まれ、正規表現は含まれていないと想定する。主要な成分として「プロパン」を含む新製品がある場合、この製品は、小見出し3902のCファイルとの文字列類似性の一致スコア(またはネット一致スコア)値が高くなる(「プロペン」という単語の存在のため)。一方、支配的な成分として「ヘキセン」を含む製品は、小見出し3902のCファイルとの文字列類似性の一致スコアが比較的低くなる。したがって、「プロパン」ベースの化合物は、「ヘキセン」を成分として含む化合物よりも、HS4コード3902として分類される可能性が高くなる。
【0112】
この状況は、正規表現「*ene」を使用し、正規表現ベースのパターンマッチングを実行することで改善することができる。「ヘキセン」という単語の正規表現パターン一致スコアは1(すなわち、100%一致)であり、「プロパン」という単語の正規表現パターン一致スコアは0(すなわち、一致なし)である。正規表現ベースのパターン一致スコアをより強調するために、
図10Aの正味一致スコアを計算する際に、その値に1000の重みを掛けた。このようにして、正規表現(*ene)ベースの特徴抽出により、オレフィンベースの製品の大部分が、オレフィンを主成分とする製品から分離される。
【0113】
特に、製品の特徴ベクトル表現は同じであった。追加されたのは、Cファイルに正規表現が含まれていることであった。製品の支配的な成分名がCファイルの正規表現と一致した場合、ネット一致スコア値を1000ずつ増加させた。支配的な成分の名前を正規表現パターンと比較した後、
図10Bに示すように、そのパターン一致スコア(0または1のいずれか)に最初に重み値1000を掛けて、ネット一致スコア値に次のように追加した。
【0114】
いくつかの誤分類については、同一の支配的な成分を持つ製品が異なるHS4コードを持っていることが観察された。例えば、エテンプロペンコポリマーは、HS4コード3901および3902の製品の支配的な成分として現れた。このあいまいさに対処し、一意のHS4コードを取得するための決定的なパラメータは、コモノマー比であった。現在の例では、エタンが優勢である場合(すなわち、全体的なエタン含有量がプロペンの含有量よりも多い場合)、HS4コードは3901になり、そうでない場合は3902になる。したがって、コモノマー比に関する総合的な情報は、データベースに記載されているHS4コードが正しいことを前提として提供された。例えば、データベースのHS4コードが3901の場合、エテン含有量は手動で50%より大きい値に設定された。
【0115】
上記の変更を組み込んだ後、各HS4コードで得られた精度、およびHS4コードごとに使用されたデータポイントの数を表7に示す。
【表7】
【0116】
ランダムフォレスト分類器は、検討中の各クラスに0.0~1.0の信頼スコアを割り当てる。所与の製品の予測クラスは、最大の信頼スコアを持つクラスである。現在の製品データベースでは、すべての実験で、予測クラスの信頼スコアが他のすべてのクラスの信頼スコアよりもかなり高いことが観察された(少なくとも0.5のマージンよりも大きい)。このため、分類器からの最終出力は、所与の製品に対して1つの一意のHS4コードのみを提案する。
【0117】
ただし、複数のHS4コードを提案する手順は、提案されたフレームワークに組み込むことができる。分類器からの出力は、HS4コードとそれに対応する信頼スコアのリストであり、2段階のフィルタを通過する。フィルタの第1段階は、信頼スコアがユーザ指定の閾値TAよりも大きいHS4コードにフラグを立てる。フラグが立てられたこれらのHS4コードは、次に、最大信頼スコア値のTBマージン内の信頼スコア値を有するHS4コードが最終候補であるフィルタの第2段階を通過する。これらの最終候補のHS4コードとそれに対応する信頼スコア値は、分類器からの最終出力として機能する。
【0118】
G.HS6およびH10分類の予測
HS4コードの予測は、ランダムフォレスト手法に基づいて自動生成された決定木を使用して行われた。ランダムフォレスト分類器は、トレーニングデータでトレーニングされ、分離した個別のテストデータでテストされ得る。5桁目以降のHSコードの分類は、エキスパートツリーを使用して行うことができる。
【0119】
エキスパートツリーは、専門家の知識を使用して開発されたカスタムコード化された決定木である。それらツリーは、ノードで複雑なルールを持つことができる。所与のHS4コード内で(すなわち、HS4コードが予測されると)、完全なHSコードの他の数字を決定するための明確な一連のルールがある。これらのルールは通常、比重、弾性、粘度などの化学的性質に基づいており、本質的に2値である。
【0120】
例えば、HS4コードが3901の場合、HS6コードを390110にするか390120にするかを決定するには、製品の比重を確認する必要がある(表4を参照)。比重が0.94未満の場合、製品のHS6コードは390110になり、それ以外の場合、HS6コードは390120になる。HSコードの4桁を超える上位桁を予測する場合の考慮事項は比較的少なく、ほとんどのケース/クラスは互いに簡単に区別できる。
【0121】
したがって、HS4コードの分類が正しければ、HSコードの数字を100%正確に予測することができる。また、ルールは専門家の知識とWCOノートから事前に決定されているため、エキスパートツリーはデータドリブンではない(すなわち、モデル開発のためのトレーニングデータは必要ない)。カスタムコード化されたエキスパートルールのもう1つの利点は、変更が簡単なことである。4桁を超えるHSコードは定期的に更新することができ、これにより、一部のHSコードのルールが変更されるので、この側面は重要になる可能性がある。例えば、HSコードの最初の6桁は5年ごとに改訂される。データに依存せず、カスタムコード化されているため、エキスパートツリーは新しいルールに適応するのに十分な適合性を備えている。
【0122】
これに加えて、クエリベースのシステムもエキスパートツリーに統合される。
図13のフローチャート1300は、ハイブリッドHS4分類器およびエキスパートツリーシステムと組み合わせて使用されるクエリを示している。状況によっては、CAS番号をエキスパートルールで使用して、HS10コードを直接決定する。その他のケースでは、エキスパートルール予測を行うのに十分な情報がない場合、システムはユーザにクエリを実行し得る。クエリベースのシステムは、一連のガイド付き質問を通じて体系的に追加情報を収集するように設計された。例えば、製品の比重がわからないがHS6分類に必要な場合、システムはユーザからの入力としてこの情報を要求し得る。
【0123】
上記のように、製品データベースには典型的には、4桁を超える分類を実行し、完全なHSコードを予測するために必要な情報(例えば、比重、コモノマー比、弾性など)が不足している。したがって、概念を検証し、エキスパートツリーベースのシステムをテストするために、製品データベースにすでに分類されている製品のHSコードが正しいという仮定の下で、合成情報が人為的に生成された。例えば、製品データベースで製品にHS6コード390110が割り当てられている場合、比重は0.94未満であると見なされる。製品データベースは比重に関する情報を提供していなかったため、HS6コードが390110のすべての製品に0.94未満のランダムな値を割り当てることにより、この情報を手動で提供することができる。この情報を使用して、HSコードが不明な他の製品のHSコードを予測することができる。
【0124】
図14は、全体的な分類手順の概要を提供する
図1400である。製品情報は、HS4コードを予測するためのランダムフォレストへの入力として使用される。HS4コードが決定されると、製品情報はHS10コードの残りの6桁を予測するために使用される。これは、エキスパートツリーベースのシステムを使用して行われる。エキスパートツリーは、if-elseステートメントに基づくシーケンシャルロジックを備えたカスタムコードツリーである。提供された製品情報において固有のHS10コードを決定するための重要な情報が不足している場合、エキスパートシステムはクエリベースのインターフェースを使用して追加の入力を求める。システムはまた、情報が不足しているために1つだけに収束できない場合に、取り得るHS10コードのリストを提案する。
【0125】
例として、小見出し3901の下の製品について考えてみる。ランダムフォレスト分類器がHS4コードを正しく予測できたと仮定する。次の2桁を決定するための(すなわち、6桁のHS6コードを生成するための)小見出し3901に続く階層を以下に示す。
【0126】
390110:比重が0.94未満のポリエチレン。
【0127】
390120:比重0.94以上のポリエチレン。
【0128】
390130:エチレン-酢酸ビニルコポリマー。
【0129】
390140:比重が0.94未満のエチレン-アルファ-オレフィンコポリマー。
【0130】
390190:その他。
【0131】
エキスパートツリーの最初のレベルは、入力としてエチレン含有量を求める。提供された値は、HS6コードのリストをさらに、エチレン含有量が95%以上の390110および390120と、エチレン含有量が95%未満の390130、390140、および390190と、の2つのカテゴリに分割する。エチレン含有量の情報が欠落している場合、エキスパートツリーはユーザにエチレン含有量の入力を求めるクエリメッセージを生成する。情報が利用できない場合、エキスパートツリーは最初の4桁が3901であるすべてのHS10コードを出力として提供する。
【0132】
製品のエチレン含有量が95%を超えることがわかっているとする。前述のように、これにより、HS6コードで390110と390120の2つのケースが取り得ることになる。次に、エキスパートツリーシステムが製品の比重を確認する。比重の値が0.94より大きい場合、エキスパートツリーはHS6コードを390120と予測し、そうでない場合、エキスパートツリーはHS6コードを390110と予測する。
【0133】
製品の比重が0.98であるとすると、エキスパートツリーはそれにHS6コード390120を割り当てる。次に、3901201000(相対粘度が1.44以上の製品の場合)と3901205000(その他の製品の場合)という、2つの取り得るHS10コードがある。製品データベースに相対粘度に関する情報が欠落している場合は、ユーザ提供の入力として相対粘度の値を求めるクエリが生成される。相対粘度の情報が利用できない状況では、エキスパートツリーは最終出力として両方のHS10コード(390120100および3901205000)で終了する。
【0134】
エキスパートツリーがHS10コードを予測するために必要な特徴は、製品分類に使用されるロジックパスによって異なる。上記のテスト例では、求められた特徴は、ポリエチレン含有量、比重、および相対粘度であった(パスは3901~390120~3901201000であった)。製品にHSコード3902201000がある場合、エキスパートツリーが時系列で求める機能は、(1)HS6コードを決定するためのプロピレン含有量およびイソブチレン含有量と、(2)HS10コードを決定するための弾性度(エラストマーかどうか)である。
【0135】
製品分類プロセス全体の別のビューを
図15の
図1500に示す。製品は第39類にあり、ポリマーベースであるとする。特徴抽出段階では、製品レシピに関して提供された情報(すなわち、化学成分とそれに対応する割合のリスト)を利用して、特徴ベクトルを生成する。最終的な出力は、完全な10桁のHSコード、または推奨されるHSコードのリストのいずれかになる。
【表8】
【0136】
分類プロセスの全体的な精度を表8に示す。HS6コードおよびHS10コードの予測精度は、HS4分類が行われた後に計算され、正しいと見なされる。
【0137】
これらの結果から、機械学習ベースの自律システムが高精度のHSコード分類を実行できることが明らかである。ここでのアプローチは、混同行列を体系的に分析することにより、製品データベースの異常を感知するメカニズムとしても機能する。このアプローチは一般的であるため、そのバリエーションを使用して、ハーモナイズド関税スケジュールコードの他の類のHSコード分類、または製品またはサービスの任意の形式のコードへの分類に使用することができる。
【0138】
V.例示的な動作
図16~19は、例示的な実施形態を示すフローチャートである。
図16~19に示されるプロセスは、コンピューティングデバイス100などのコンピューティングデバイス、および/またはサーバクラスタ200などのコンピューティングデバイスのクラスタによって実行され得る。ただし、プロセスは他のタイプのデバイスまたはデバイスサブシステムによって実行することができる。例えば、プロセスは、ラップトップやタブレットデバイスなどのポータブルコンピュータで実行することができる。
【0139】
図16~19の実施形態は、そこに示されている特徴のうちのいずれか1つ以上を除去することによって簡略化され得る。さらに、これらの実施形態は、前の図のいずれかの特徴、態様、および/または実装と組み合わせることができるか、または本明細書に説明されている。
【0140】
図16のフローチャートは、ハイブリッド機械学習分類器のトレーニングに向けられ得る。したがって、ブロック1600は、メモリから、関税コードマッピングのセットおよびサフィックスマッピングのそれぞれのセットを取得することであって、関税コードマッピングのセットが、化学成分の記述と関税コードとの間のものであり、関税コードは、関税コードプレフィックスおよび関税コードサフィックスを含み、各関税コードプレフィックスは、化学成分の記述に関する特性と関税コードサフィックスとの間のサフィックスマッピングのそれぞれのセットに関連付けられている、取得することを含み得る。
【0141】
ブロック1602は、関税コードプレフィックスの各それぞれのプレフィックスについて、関税コードマッピングのセットから、それぞれのプレフィックスにマッピングされる化学成分の記述中の化学成分の名前を含む成分ファイルを生成することを含み得る。
【0142】
ブロック1604は、化学成分の記述の各それぞれの記述について、(i)主要な化学成分を決定することと、(ii)それぞれの記述中の他の化学成分と比較した主要な化学成分の割合を決定することと、(iii)成分ファイルの各それぞれのファイルについて、それぞれの記述中の単語とそれぞれのファイル中の単語との間の編集距離を決定することによって、それぞれの記述の類似性スコアを計算することと、(iv)主要な化学成分と類似性スコアとの割合から、それぞれの記述の特徴ベクトルを生成することと、を含み得る。
【0143】
ブロック1606は、それぞれの記述の特徴ベクトルを入力として、かつそれぞれの記述の関税コードプレフィックスを出力ラベルとして、決定木分類器のランダムフォレストをトレーニングすることを含み得る。
【0144】
ブロック1608は、関税コードプレフィックスの各それぞれのプレフィックスについて、それぞれのプレフィックスのサフィックスマッピングのセットからそれぞれのエキスパートツリーマッピングを構築することであって、化学成分の記述に関する特性に関連付けられたエキスパートツリーの渡り歩き(traversal)が、サフィックスマッピングのセットにおいて特定される特定の関税コードサフィックスにつながり、ハイブリッド機械学習分類器が、ランダムフォレストとエキスパートツリーとを使用して関税コードを予測する、構築することを含み得る。
【0145】
いくつかの実施形態では、メモリは、実施形態を実行するコンピューティングデバイスから物理的に分離されたデータベースデバイス内に配置される。
【0146】
いくつかの実施形態では、関税コードはn桁の長さであり、関税コードのプレフィックスはj桁の長さであり、関税コードのサフィックスはn-j桁の長さであり、jはn未満である。例えば、nは10であり得、jは4であり得る。
【0147】
いくつかの実施形態では、関税コードプレフィックスは、ハーモナイズド関税スケジュールコードの単一の類によって定義される。
【0148】
いくつかの実施形態では、成分ファイルを生成することは、成分ファイルにおいて、それぞれのプレフィックスにマッピングされる化学成分の記述中の化学成分の名前を組み合わせることと、成分ファイルから句読点およびストップワードを削除することと、を含み得る。これらの実施形態では、成分ファイルを生成することは、成分ファイル中の単語のそれぞれの頻度をカウントすることと、閾値より大きいそれぞれの頻度で成分ファイル中の単語を選択することと、選択されていない単語を成分ファイルから削除することと、をさらに含み得る。
【0149】
いくつかの実施形態では、成分ファイル中の単語の少なくとも1つは、正規表現として表される。
【0150】
いくつかの実施形態では、編集距離を決定することは、それぞれの記述中の単語とそれぞれのファイル中の単語との間の正規化されたレーベンシュタイン距離を計算することを含む。
【0151】
いくつかの実施形態では、類似性スコアは、編集距離の合計に基づいて計算される。
【0152】
図17のフローチャートは、ハイブリッド機械学習分類器のトレーニングにも向けられ得る。したがって、
図16(または他の図)の文脈で説明されている追加特徴のいずれかを、
図17のフローチャートに適用し得る。
【0153】
ブロック1700は、メモリから、化学成分の記述と関税コードとの間の関税コードマッピングのセットを取得することであって、関税コードが、関税コードプレフィックスおよび関税コードサフィックスを含む、取得することを含み得る。
【0154】
ブロック1702は、化学成分の記述の各それぞれの記述について、(i)主要な化学成分の割合、および(ii)それぞれの記述と関税コードにそれぞれ関連付けられた単語のセットとの間の類似性スコアから、それぞれの記述の特徴ベクトルを生成することを含み得る。
【0155】
ブロック1704は、それぞれの記述の特徴ベクトルを入力として、かつそれぞれの記述の関税コードプレフィックスを出力ラベルとして、決定木分類器のランダムフォレストをトレーニングすることを含み得る。
【0156】
ブロック1706は、関税コードプレフィックスの各それぞれのプレフィックスについて、それぞれの記述からそれぞれのプレフィックスの関税コードサフィックスへのそれぞれのエキスパートツリーマッピングを構築することを含み得、ハイブリッド機械学習分類器が、ランダムフォレストおよびエキスパートツリーを使用して関税コードを予測する。
【0157】
図18のフローチャートは、トレーニング済みのハイブリッド機械学習分類器を使用することに向けられ得る。したがって、ブロック1800は、化学成分の新しいセットを取得することを含み得、(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器、および(ii)それぞれの関税コードプレフィックスに関連付けられた化学成分の名前を含む複数の成分ファイル(各関税コードプレフィックスに対して1つ)へのアクセスが利用可能である。
【0158】
ブロック1802は、化学成分の新しいセットから、主要な化学成分を決定することを含み得る。
【0159】
ブロック1804は、化学成分の新しいセット中の他の化学成分と比較した主要な化学成分の割合を決定することを含み得る。
【0160】
ブロック1806は、複数の成分ファイルの各それぞれのファイルについて、化学成分の新しいセットを記述するために使用される単語とそれぞれのファイル中の単語との間の編集距離を決定することによって、化学成分の新しいセットの類似性スコアを計算することを含み得る。
【0161】
ブロック1808は、主要な化学成分の割合と類似性スコアから、化学成分の新しいセットの特徴ベクトルを生成することを含み得る。
【0162】
ブロック1810は、決定木分類器のランダムフォレストを特徴ベクトルに適用することによって、予測関税コードプレフィックスを取得することを含み得る。
【0163】
ブロック1812は、複数のエキスパートツリーから、予測関税コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することを含み得る。
【0164】
ブロック1814は、化学成分の新しいセットに関する特性に従う特定のエキスパートツリーを渡り歩くことによって、予測関税コードサフィックスを取得することを含み得る。
【0165】
ブロック1816は、予測関税コードプレフィックスと予測関税コードサフィックスを連結することによって、化学成分の新しいセットの関税コードを生成することを含み得る。
【0166】
いくつかの実施形態では、メモリは、実施形態を実行するコンピューティングデバイスから物理的に分離されたデータベースデバイス内に配置される。
【0167】
いくつかの実施形態では、関税コードはn桁の長さであり、関税コードのプレフィックスはj桁の長さであり、関税コードのサフィックスはn-j桁の長さであり、jはn未満である。いくつかの実施形態では、nは10であり得、jは4であり得る。
【0168】
いくつかの実施形態では、関税コードプレフィックスは、ハーモナイズド関税スケジュールコードの単一の類によって定義される。
【0169】
いくつかの実施形態では、化学成分の新しいセットの類似性スコアを計算することは、化学成分の新しいセットに関する単語を決定することと、決定された単語から句読点およびストップワードを削除することを含む。化学成分の新しいセットの類似性スコアを計算することは、決定された単語において頭字語を拡張することをさらに含み得る。
【0170】
いくつかの実施形態では、複数の成分ファイル中の単語の少なくとも1つは、正規表現として表される。
【0171】
いくつかの実施形態では、編集距離を決定することは、化学成分の新しいセットを記述するために使用される単語とそれぞれのファイル中の名前との間の正規化されたレーベンシュタイン距離を計算することを含む。
【0172】
いくつかの実施形態では、類似性スコアは、編集距離の合計に基づいて計算される。
【0173】
図19のフローチャートは、トレーニング済みのハイブリッド機械学習分類器を使用することにも向けられ得る。したがって、
図18(または他の図)の文脈で説明されている追加特徴のいずれかを、
図19のフローチャートに適用し得る。
【0174】
ブロック1900は、化学成分の新しいセットを取得することを含み得、コンピューティングデバイスが、ハイブリッド機械学習分類器へのアクセスを有し、ハイブリッド機械学習分類器が、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する。
【0175】
ブロック1902は、化学成分の新しいセットから、化学成分の新しいセット中の他の化学成分と比較した主要な化学成分の割合を決定することを含み得る。
【0176】
ブロック1904は、化学成分の新しいセットを記述するために使用される単語と関税コードプレフィックスに関連付けられた単語との間の編集距離を決定することによって、前化学成分の新しいセットの類似性スコアを計算することを含み得る。
【0177】
ブロック1906は、主要な化学成分の割合と類似性スコアから、化学成分の新しいセットの特徴ベクトルを生成することを含み得る。
【0178】
ブロック1908は、予測関税コードを取得することを含み得、予測関税コードの予測関税コードプレフィックスが、決定木分類器のランダムフォレストを特徴ベクトルに適用することによって決定され、予測関税コードの予測関税コードサフィックスが、化学成分の新しいセットに関する特性に従う特定のエキスパートツリーを渡り歩くことによって決定され、特定のエキスパートツリーが、予測関税コードプレフィックスに関連付けられている。
【0179】
VI.追加の実施形態
前述のように、本明細書で説明するハイブリッドアプローチは、HSコード以外の分類タスクに適用することができる。その点で、
図20は、品目をHSコード2000、危険物コード2002、および輸出管理分類番号コード(ECCN)2004に分類するために使用できる情報を示している。特に、この情報はこれらの様々なタイプのコード間で類似しており、上記のフレームワークをより広く適応できることを示唆している。例えば、ランダムフォレスト技術とエキスパートツリー技術との同様の組み合わせを使用して、様々な製品の危険物コードおよび/またはECCNコードを予測することができる。
【0180】
その点を説明するために、
図21は、ECCNコードの例示的な決定木2100を示している。この決定木は、例えば表4の情報とは異なり、エキスパートツリーとして使用することができる。
【0181】
VII.結論
本開示は、様々な態様の例示として意図されている、本出願に説明される特定の実施形態に関して限定されるべきではない。当業者には明らかであるように、その範囲から逸脱することなく、多くの修正および変形を行うことができる。本明細書で説明されたものに加えて、本開示の範囲内の機能的に同等の方法および装置は、前述の説明から当業者には明らかであろう。そのような修正および変形は、添付の特許請求の範囲内に入ることが意図されている。
【0182】
上記の詳細な説明は、添付の図を参照して、開示されたシステム、デバイス、および方法の様々な特徴および動作を説明している。本明細書および図に記載されている例示的な実施形態は、限定することを意味するものではない。本明細書に提示される主題の範囲から逸脱することなく、他の実施形態を利用することができ、他の変更を行うことができる。本明細書に概して説明され、図に示される本開示の態様は、多種多様な異なる構成で配置、置換、結合、分離、および設計され得ることが容易に理解されよう。
【0183】
図中のメッセージフロー図、シナリオ、およびフローチャートのいずれかまたはすべてに関して、本明細書で説明するように、各ステップ、ブロック、および/または通信は、例示的な実施形態に従って情報の処理および/または情報の送信を表すことができる。代替の実施形態は、これらの例示的な実施形態の範囲内に含まれる。これらの代替の実施形態では、例えば、ステップ、ブロック、送信、通信、要求、応答、および/またはメッセージとして記述される動作は、関連する機能に依存して、実質的に同時を含む、示されるまたは論じられるものとは異なる順番で、または逆の順番で、実行することができる。さらに、より多くのまたはより少ないブロックおよび/または動作を、本明細書で論じられるメッセージフロー図、シナリオ、およびフローチャートのいずれかと共に使用することができ、これらのメッセージフロー図、シナリオ、およびフローチャートは、部分的にまたは全体的に互いに組み合わせることができる。
【0184】
情報の処理を表すステップまたはブロックは、本明細書で説明する方法または技法の特定の論理機能を実行するように構成することができる回路に対応することができる。代替的または追加的に、情報の処理を表すステップまたはブロックは、モジュール、セグメント、またはプログラムコードの一部(関連データを含む)に対応することができる。プログラムコードは、方法または技法において特定の論理演算またはアクションを実装するためにプロセッサによって実行可能な1つ以上の命令を含むことができる。プログラムコードおよび/または関連データは、RAM、ディスクドライブ、ソリッドステートドライブ、または別の記憶媒体を含む記憶装置などの任意のタイプのコンピュータ可読媒体に記憶することができる。
【0185】
コンピュータ可読媒体はまた、レジスタメモリおよびプロセッサキャッシュのような短期間データを格納するコンピュータ可読媒体などの非一時的なコンピュータ可読媒体を含むことができる。コンピュータ可読媒体は、プログラムコードおよび/またはデータをより長期間保存する非一時的なコンピュータ可読媒体をさらに含むことができる。したがって、コンピュータ可読媒体は、例えば、ROM、光または磁気ディスク、ソリッドステートドライブ、コンパクトディスク読み取り専用メモリ(CD-ROM)のような二次的または永続的な長期間ストレージを含み得る。コンピュータ可読媒体はまた、他の任意の揮発性または不揮発性記憶システムとすることができる。コンピュータ可読媒体は、例えば、コンピュータ可読記憶媒体、または有形記憶デバイスと見なすことができる。
【0186】
さらに、1つ以上の情報送信を表すステップまたはブロックは、同じ物理デバイス内のソフトウェアおよび/またはハードウェアモジュール間の情報送信に対応することができる。ただし、他の情報送信は、異なる物理デバイスのソフトウェアモジュールおよび/またはハードウェアモジュール間で行うことができる。
【0187】
図に示されている特定の配置は、限定的なものと見なされるべきではない。他の実施形態は、所与の図に示される各要素の多かれ少なかれを含むことができることを理解されたい。さらに、図示された要素のいくつかは、組み合わせたり、省略したりすることができる。さらに、例示的な実施形態は、図に示されていない要素を含むことができる。
【0188】
様々な態様および実施形態が本明細書に開示されているが、他の態様および実施形態は当業者には明らかであろう。本明細書に開示される様々な態様および実施形態は、例示を目的とするものであり、限定することを意図するものではなく、真の範囲は、以下の特許請求の範囲によって示される。
本出願の発明の例として、以下のものが挙げられる。
[1] ハイブリッド機械学習分類器をトレーニングするためのシステムであって、
(i)化学成分の記述と関税コードとの間の関税コードマッピングのセットであって、前記関税コードが、関税コードプレフィックスおよび関税コードサフィックスを含む、関税コードマッピングのセットと、(ii)前記関税コードプレフィックスのそれぞれについて、前記化学成分の記述に関する特性と前記関税コードサフィックスとの間のサフィックスマッピングのそれぞれのセットと、を含む、メモリと、
コンピューティングデバイスであって、
前記メモリから、前記関税コードマッピングのセットおよび前記サフィックスマッピングのそれぞれのセットを取得することと、
前記関税コードプレフィックスの各それぞれのプレフィックスについて、前記関税コードマッピングのセットから、前記それぞれのプレフィックスにマッピングされる前記化学成分の記述中の化学成分の名前を含む成分ファイルを生成することと、
前記化学成分の記述の各それぞれの記述について、(i)主要な化学成分を決定することと、(ii)前記それぞれの記述中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、(iii)前記成分ファイルの各それぞれのファイルについて、前記それぞれの記述中の単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記それぞれの記述の類似性スコアを計算することと、(iv)前記主要な化学成分の前記割合および前記類似性スコアから、前記それぞれの記述の特徴ベクトルを生成することと、
前記それぞれの記述の前記特徴ベクトルを入力として、かつ前記それぞれの記述の前記関税コードプレフィックスを出力ラベルとして、決定木分類器のランダムフォレストをトレーニングすることと、
前記関税コードプレフィックスの各それぞれのプレフィックスについて、前記それぞれのプレフィックスの前記サフィックスマッピングのセットから各それぞれのエキスパートツリーマッピングを構築することであって、前記化学成分の記述に関する前記特性に従う前記エキスパートツリーの渡り歩きが、前記サフィックスマッピングのセットにおいて特定される特定の関税コードサフィックスにつながり、前記ハイブリッド機械学習分類器が、前記ランダムフォレストと前記エキスパートツリーとを使用して前記関税コードを予測する、構築することと、を行うように構築された、コンピューティングデバイスと、を備える、システム。
[2] 前記メモリが、前記コンピューティングデバイスから物理的に分離されたデータベースデバイス内に配置されている、請求項1に記載のシステム。
[3] 前記関税コードがn桁の長さであり、前記関税コードプレフィックスがj桁の長さであり、前記関税コードサフィックスがn-j桁の長さであり、jがn未満である、上記[1]に記載のシステム。
[4] nが10であり、jが4である、上記[3]に記載のシステム。
[5] 前記関税コードプレフィックスが、ハーモナイズド関税スケジュールコードの単一の類によって定義される、上記[1]に記載のシステム。
[6] 前記成分ファイルを生成することが、
前記成分ファイル内で、前記それぞれのプレフィックスにマッピングされている前記化学成分の記述中の化学成分の前記名前を組み合わせることと、
前記成分ファイルから、句読点とストップワードを削除することと、を含む、上記[1]に記載のシステム。
[7] 前記成分ファイルを生成することが、
前記成分ファイル中の前記単語のそれぞれの頻度をカウントすることと、
それぞれの頻度が閾値よりも大きい、前記成分ファイル中の前記単語を選択することと、
選択されていなかった単語を、前記成分ファイルから削除することと、をさらに含む、上記[6]に記載のシステム。
[8] 前記成分ファイル中の前記単語のうちの少なくとも1つが正規表現として表される、上記[1]に記載のシステム。
[9] 前記編集距離を決定することが、前記それぞれの記述中の前記単語と前記それぞれのファイル中の前記単語との間の正規化されたレーベンシュタイン距離を計算することを含む、上記[1]に記載のシステム。
[10] 前記類似性スコアが、前記編集距離の合計に基づいて計算される、上記[1]に記載のシステム。
[11] コンピュータ実装方法であって、
コンピューティングデバイスによっておよびメモリから、関税コードマッピングのセットおよびサフィックスマッピングのそれぞれのセットを取得することであって、前記関税コードマッピングのセットが、化学成分の記述と関税コードとの間のものであり、前記関税コードが、関税コードプレフィックスおよび関税コードサフィックスを含み、各関税コードプレフィックスが、前記化学成分の記述に関する特性と前記関税コードサフィックスとの間のサフィックスマッピングのそれぞれのセットに関連付けられている、取得することと、
前記関税コードプレフィックスの各それぞれのプレフィックスについて、前記コンピューティングデバイスによっておよび前記関税コードマッピングのセットから、前記それぞれのプレフィックスにマッピングされる前記化学成分の記述中の化学成分の名前を含む成分ファイルを生成することと、
前記化学成分の記述の各それぞれの記述について、前記コンピューティングデバイスであって、(i)主要な化学成分を決定することと、(ii)前記それぞれの記述中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、(iii)前記成分ファイルの各それぞれのファイルについて、前記それぞれの記述中の単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって前記それぞれの記述の類似性スコアを計算することと、(iv)前記主要な化学成分の前記割合および前記類似性スコアから、前記それぞれの記述の特徴ベクトルを生成することと、
前記コンピューティングデバイスによって、前記それぞれの記述の前記特徴ベクトルを入力として、かつ前記それぞれの記述の前記関税コードプレフィックスを出力ラベルとして、決定木分類器のランダムフォレストをトレーニングすることと、
前記関税コードプレフィックスの各それぞれのプレフィックスについて、前記コンピューティングデバイスによって、前記それぞれのプレフィックスの前記サフィックスマッピングのセットからそれぞれのエキスパートツリーマッピングを構築することであって、前記化学成分の記述に関する前記特性に従う前記エキスパートツリーの渡り歩きが、前記サフィックスマッピングのセットにおいて特定される特定の関税コードサフィックスにつながり、ハイブリッド機械学習分類器が、前記ランダムフォレストと前記エキスパートツリーとを使用して前記関税コードを予測する、構築することと、を含む、コンピュータ実装方法。
[12] コンピューティングデバイスによる実行時に、前記コンピューティングデバイスに動作を実行させるプログラム命令を格納した、非一時的なコンピュータ可読媒体を含む製造品であって、前記動作が、
メモリから、関税コードマッピングのセットおよびサフィックスマッピングのそれぞれのセットを取得することであって、前記関税コードマッピングのセットが、化学成分の記述と関税コードとの間のものであり、前記関税コードが、関税コードプレフィックスおよび関税コードサフィックスを含み、各関税コードプレフィックスが、前記化学成分の記述に関する特性と前記関税コードサフィックスとの間のサフィックスマッピングのそれぞれのセットに関連付けられている、取得することと、
前記関税コードプレフィックスの各それぞれのプレフィックスについて、前記関税コードマッピングのセットから、前記それぞれのプレフィックスにマッピングされる前記化学成分の記述中の化学成分の名前を含む成分ファイルを生成することと、
前記化学成分の記述の各それぞれの記述について、(i)主要な化学成分を決定することと、(ii)前記それぞれの記述中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、(iii)前記成分ファイルの各それぞれのファイルについて、前記それぞれの記述中の単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記それぞれの記述の類似性スコアを計算することと、(iv)前記主要な化学成分の前記割合および前記類似性スコアから、前記それぞれの記述の特徴ベクトルを生成することと、
前記それぞれの記述の前記特徴ベクトルを入力として、かつ前記それぞれの記述の前記関税コードプレフィックスを出力ラベルとして、決定木分類器のランダムフォレストをトレーニングすることと、
前記関税コードプレフィックスの各それぞれのプレフィックスについて、前記それぞれのプレフィックスの前記サフィックスマッピングのセットからそれぞれのエキスパートツリーマッピングを構築することであって、前記化学成分の記述に関する前記特性に従う前記エキスパートツリーの渡り歩きが、前記サフィックスマッピングのセットにおいて特定される特定の関税コードサフィックスにつながり、前記ハイブリッド機械学習分類器が、前記ランダムフォレストと前記エキスパートツリーとを使用して前記関税コードを予測する、構築することと、を含む、製造品。
[13] コンピューティングデバイスであって、
プロセッサと、
メモリと、
前記メモリに格納された、前記プロセッサによる実行時に前記コンピューティングデバイスに動作を実行させるプログラム命令であって、前記動作が、
前記メモリから、関税コードマッピングのセットおよびサフィックスマッピングのそれぞれのセットを取得することであって、前記関税コードマッピングのセットが、化学成分の記述と関税コードとの間のものであり、前記関税コードが、関税コードプレフィックスおよび関税コードサフィックスを含み、各関税コードプレフィックスが、前記化学成分の記述に関する特性と前記関税コードサフィックスとの間のサフィックスマッピングのそれぞれのセットに関連付けられている、取得することと、
前記関税コードプレフィックスの各それぞれのプレフィックスについて、前記関税コードマッピングのセットから、前記それぞれのプレフィックスにマッピングされる前記化学成分の記述中の化学成分の名前を含む成分ファイルを生成することと、
前記化学成分の記述の各それぞれの記述について、(i)主要な化学成分を決定することと、(ii)前記それぞれの記述中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、(iii)前記成分ファイルの各それぞれのファイルについて、前記それぞれの記述中の単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記それぞれの記述の類似性スコアを計算することと、(iv)前記主要な化学成分と前記類似性スコアとの割合から、前記それぞれの記述の特徴ベクトルを生成することと、
前記それぞれの記述の前記特徴ベクトルを入力として、かつ前記それぞれの記述の前記関税コードプレフィックスを出力ラベルとして、決定木分類器のランダムフォレストをトレーニングすることと、
前記関税コードプレフィックスの各それぞれのプレフィックスについて、前記それぞれのプレフィックスの前記サフィックスマッピングのセットからそれぞれのエキスパートツリーマッピングを構築することであって、前記化学成分の記述に関する前記特性に従う前記エキスパートツリーの渡り歩きが、前記サフィックスマッピングのセットにおいて特定される特定の関税コードサフィックスにつながり、前記ハイブリッド機械学習分類器が、前記ランダムフォレストと前記エキスパートツリーとを使用して前記関税コードを予測することと、を含む、プログラム命令と、を備える、コンピューティングデバイス。
[14] コンピュータ実装方法であって、
コンピューティングデバイスによっておよびメモリから、化学成分の記述と関税コードとの間の関税コードマッピングのセットを取得することであって、前記関税コードが、関税コードプレフィックスおよび関税コードサフィックスを含む、取得することと、
前記化学成分の記述の各それぞれの記述について、前記コンピューティングデバイスによって、(i)主要な化学成分の割合、および(ii)前記それぞれの記述と前記関税コードにそれぞれ関連付けられた単語のセットとの間の類似性スコアから、前記それぞれの記述の特徴ベクトルを生成することと、
前記コンピューティングデバイスによって、前記それぞれの記述の前記特徴ベクトルを入力として、かつ前記それぞれの記述の前記関税コードプレフィックスを出力ラベルとして、決定木分類器のランダムフォレストをトレーニングすることと、
前記関税コードプレフィックスの各それぞれのプレフィックスについて、前記コンピューティングデバイスによって、前記それぞれの記述から前記それぞれのプレフィックスの前記関税コードサフィックスへのそれぞれのエキスパートツリーマッピングを構築することであって、ハイブリッド機械学習分類器が、前記ランダムフォレストおよび前記エキスパートツリーを使用して前記関税コードを予測する、構築することと、を含む、コンピュータ実装方法。
[15] システムであって、
(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、前記それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器と、(ii)前記それぞれの関税コードプレフィックスに関連付けられた化学成分の名前を含む複数の成分ファイル(各関税コードプレフィックスに対して1つ)と、を含むメモリと、
コンピューティングデバイスであって、
化学成分の新しいセットを取得することと、
前記化学成分の新しいセットから、主要な化学成分を決定することと、
前記化学成分の新しいセット中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、
前記複数の成分ファイルの各それぞれのファイルについて、前記化学成分の新しいセットを記述するために使用される単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記化学成分の新しいセットの類似性スコアを計算することと、
前記主要な化学成分の前記割合と前記類似性スコアから、前記化学成分の新しいセットの特徴ベクトルを生成することと、
決定木分類器のランダムフォレストを特徴ベクトルに適用することによって、予測関税コードプレフィックスを取得することと、
前記複数のエキスパートツリーから、前記予測関税コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することと、
前記化学成分の新しいセットに関する特性に従って前記特定のエキスパートツリーを渡り歩くことによって、予測関税コードサフィックスを取得することと、
前記予測関税コードプレフィックスと前記予測関税コードサフィックスとを連結することによって、前記化学成分の新しいセットの関税コードを生成することと、を行うように構成された、コンピューティングデバイスと、を備える、システム。
[16] 前記メモリが、前記コンピューティングデバイスから物理的に分離されたデータベースデバイス内に配置されている、上記[15]に記載のシステム。
[17] 前記関税コードがn桁の長さであり、前記関税コードプレフィックスがj桁の長さであり、前記関税コードサフィックスがn-j桁の長さであり、jがn未満である、上記[15]に記載のシステム。
[18] nが10であり、jが4である、請求項17に記載のシステム。
[19] 前記関税コードプレフィックスがハーモナイズド関税スケジュールコードの単一の類によって定義される、上記[15]に記載のシステム。
[20] 前記化学成分の新しいセットの前記類似性スコアを計算することが、
前記化学成分の新しいセットに関する単語を決定することと、
決定された前記単語から、句読点とストップワードを削除することと、を含む、上記[15]に記載のシステム。
[21] 前記化学成分の新しいセットの前記類似性スコアを計算することが、
決定された前記単語において頭字語を拡張することをさらに含む、上記[20]に記載のシステム。
[22] 前記複数の成分ファイル中の前記単語の少なくとも1つが正規表現として表されている、上記[15]に記載のシステム。
[23] 前記編集距離を決定することが、前記化学成分の新しいセットを記述するために使用される単語と前記それぞれのファイル中の名前との間の正規化されたレーベンシュタイン距離を計算することを含む、上記[15]に記載のシステム。
[24] 前記類似性スコアが、前記編集距離の合計に基づいて計算される、上記[15]に記載のシステム。
[25] コンピュータ実装方法であって、
コンピューティングデバイスによって、化学成分の新しいセットを取得することであって、前記コンピューティングデバイスが、(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、前記それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器と、(ii)前記それぞれの関税コードプレフィックスに関連付けられた化学成分の名前を含む複数の成分ファイル(各関税コードプレフィックスに対して1つ)と、へアクセスする、取得することと、
前記コンピューティングデバイスによっておよび前記化学成分の新しいセットから、主要な化学成分を決定することと、
前記コンピューティングデバイスによって、前記化学成分の新しいセット中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、
前記複数の成分ファイルの各それぞれのファイルについて、前記コンピューティングデバイスによって、前記化学成分の新しいセットを記述するために使用される単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記化学成分の新しいセットの類似性スコアを計算することと、
前記コンピューティングデバイスによって、前記主要な化学成分の前記割合と前記類似性スコアから、前記化学成分の新しいセットの特徴ベクトルを生成することと、
前記コンピューティングデバイスによって、決定木分類器のランダムフォレストを前記特徴ベクトルに適用することによって、予測関税コードプレフィックスを取得することと、
前記コンピューティングデバイスによっておよび前記複数のエキスパートツリーから、前記予測関税コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することと、
前記コンピューティングデバイスによって、前記化学成分の新しいセットに関する特性に従う前記特定のエキスパートツリーを渡り歩くことによって、予測関税コードサフィックスを取得することと、
前記コンピューティングデバイスによって、前記予測関税コードプレフィックスと前記予測関税コードサフィックスとを連結することによって、前記化学成分の新しいセットの関税コードを生成することと、を含む、コンピュータ実装方法。
[26] コンピューティングデバイスによる実行時に、前記コンピューティングデバイスに動作を実行させるプログラム命令を格納した、非一時的なコンピュータ可読媒体を含む製造品であって、前記動作が、
化学成分の新しいセットを取得することであって、前記コンピューティングデバイスが、(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、前記それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器と、(ii)前記それぞれの関税コードプレフィックスに関連付けられた化学成分の名前を含む複数の成分ファイル(各関税コードプレフィックスに対して1つ)と、へアクセスする、取得することと、
前記化学成分の新しいセットから、主要な化学成分を決定することと、
前記化学成分の新しいセット中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、
前記複数の成分ファイルの各それぞれのファイルについて、前記化学成分の新しいセットを記述するために使用される単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記化学成分の新しいセットの類似性スコアを計算することと、
前記主要な化学成分の前記割合と前記類似性スコアから、前記化学成分の新しいセットの特徴ベクトルを生成することと、
決定木分類器のランダムフォレストを前記特徴ベクトルに適用することによって、予測関税コードプレフィックスを取得することと、
前記複数のエキスパートツリーから、前記予測関税コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することと、
前記化学成分の新しいセットに関する前記特性に従う前記特定のエキスパートツリーを渡り歩くことによって、予測関税コードサフィックスを取得することと、
前記予測関税コードプレフィックスと前記予測関税コードサフィックスとを連結することによって、前記化学成分の新しいセットの関税コードを生成することと、を含む、製造品。
[27] コンピューティングデバイスであって、
プロセッサと、
メモリと、
前記メモリに格納された、前記プロセッサによる実行時にコンピューティングデバイスに動作を実行させるプログラム命令であって、前記動作が、
化学成分の新しいセットを取得することであって、前記コンピューティングデバイスが、(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、前記それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器と、(ii)前記それぞれの関税コードプレフィックスに関連付けられた化学成分の名前を含む複数の成分ファイル(各関税コードプレフィックスに対して1つ)と、へアクセスする、取得することと、
前記化学成分の新しいセットから、主要な化学成分を決定することと、
前記化学成分の新しいセット中の他の化学成分と比較した前記主要な化学成分の割合を決定することと、
前記複数の成分ファイルの各それぞれのファイルについて、前記化学成分の新しいセットを記述するために使用される単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記化学成分の新しいセットの類似性スコアを計算することと、
前記主要な化学成分の前記割合と前記類似性スコアから、前記化学成分の新しいセットの特徴ベクトルを生成することと、
決定木分類器のランダムフォレストを前記特徴ベクトルに適用することによって、予測関税コードプレフィックスを取得することと、
前記複数のエキスパートツリーから、前記予測関税コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することと、
前記化学成分の新しいセットに関する前記特性に従う前記特定のエキスパートツリーを渡り歩くことによって、予測関税コードサフィックスを取得することと、
前記予測関税コードプレフィックスと前記予測関税コードサフィックスとを連結することによって、前記化学成分の新しいセットの関税コードを生成することと、を含むプログラム命令と、を含む、コンピューティングデバイス。
[28] コンピュータ実装方法であって、
コンピューティングデバイスによって、化学成分の新しいセットを取得することであって、前記コンピューティングデバイスが、ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルから関税コードプレフィックスを予測し、かつ複数のエキスパートツリーを使用して(各関税コードプレフィックスに対して1つ)、それぞれの関税コードプレフィックスに関連付けられた化学成分に関する特性から関税コードサフィックスを予測する、ハイブリッド機械学習分類器へとアクセスする、取得することと、
前記コンピューティングデバイスによっておよび前記化学成分の新しいセットから、前記化学成分の新しいセット中の他の化学成分と比較した主要な化学成分の割合を決定することと、
前記コンピューティングデバイスによっておよび前記化学成分の新しいセットを記述するために使用される単語と関税コードプレフィックスに関連付けられた単語との間の編集距離を決定することによって、前記化学成分の新しいセットの類似性スコアを計算することと、
前記コンピューティングデバイスによって、前記主要な化学成分の前記割合と前記類似性スコアから、前記化学成分の新しいセットの特徴ベクトルを生成することと、
前記コンピューティングデバイスによって、予測関税コードを取得することであって、予測関税コードの予測関税コードプレフィックスが、決定木分類器のランダムフォレストを前記特徴ベクトルに適用することによって決定され、予測関税コードの予測関税コードサフィックスが、化学成分の新しいセットに関する特性に従って特定のエキスパートツリーを渡り歩くことによって決定され、特定のエキスパートツリーが、予測関税コードプレフィックスに関連付けられている、取得することと、を含む、コンピュータ実装方法。
[29] ハイブリッド機械学習分類器をトレーニングするためのシステムであって、
(i)品目の記述とコードとの間のコードマッピングのセットであって、前記コードが、コードプレフィックスおよびコードサフィックスを含む、コードマッピングのセットと、(ii)前記コードプレフィックスのそれぞれについて、前記品目の記述に関する特性と前記コードサフィックスとの間のサフィックスマッピングのそれぞれのセットと、を含む、メモリと、
コンピューティングデバイスであって、
前記メモリから、前記コードマッピングのセットおよび前記サフィックスマッピングのそれぞれのセットを取得することと、
前記コードプレフィックスの各それぞれのプレフィックスについて、前記コードマッピングのセットから、前記それぞれのプレフィックスにマッピングされる前記品目の記述中の成分の名前を含む成分ファイルを生成することと、
前記品目の記述の各それぞれの記述について、(i)前記成分ファイルの各それぞれのファイルについて、前記それぞれの記述中の単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、前記それぞれの記述の類似度スコアを計算することと、(ii)前記類似スコアからそれぞれの記述の特徴ベクトルを生成することと、
前記それぞれの記述の前記特徴ベクトルを入力として、かつ前記それぞれの記述の前記コードプレフィックスを出力ラベルとして、決定木分類器のランダムフォレストをトレーニングすることと、
前記コードプレフィックスの各それぞれのプレフィックスについて、前記それぞれのプレフィックスの前記サフィックスマッピングのセットからそれぞれのエキスパートツリーマッピングを構築することであって、前記品目の記述に関する特性に従う前記エキスパートツリーの渡り歩きが、前記サフィックスマッピングのセットにおいて特定される特定のコードサフィックスにつながり、前記ハイブリッド機械学習分類器が、前記ランダムフォレストと前記エキスパートツリーとを使用して前記コードを予測する、構築することと、を行うように構成された、コンピューティングデバイスと、を備える、システム。
[30] システムであって、
(i)ハイブリッド機械学習分類器であって、決定木分類器のランダムフォレストを使用して、入力特徴ベクトルからコードサフィックスを予測し、かつ複数のエキスパートツリーを使用して(各コードプレフィックスに対して1つ)、前記それぞれのコードプレフィックスに関連付けられた成分に関する特性からコードサフィックスを予測する、ハイブリッド機械学習分類器と、(ii)前記それぞれのコードプレフィックスに関連付けられた成分の名前を含む複数の成分ファイル(各コードプレフィックスに対して1つ)と、を含むメモリと、
コンピューティングデバイスであって、
前記複数の成分ファイルの各それぞれのファイルについて、成分の新しいセットを記述するために使用される単語と前記それぞれのファイル中の単語との間の編集距離を決定することによって、成分の前記新しいセットの類似性スコアを計算することと、
前記類似スコアから、成分の前記新しいセットの特徴ベクトルを生成することと、
決定木分類器の前記ランダムフォレストを前記特徴ベクトルに適用することによって、予測コードプレフィックスを取得することと、
前記複数のエキスパートツリーから、前記予測コードプレフィックスに関連付けられた特定のエキスパートツリーを選択することと、
成分の前記新しいセットに関する特性に従う前記特定のエキスパートツリーを渡り歩くことによって、予測コードサフィックスを取得することと、
前記予測コードプレフィックスと前記予測コードサフィックスとを連結することによって、成分の前記新しいセットのコードを生成することと、を行う、コンピューティングデバイスと、を備える、システム。