(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024075662
(43)【公開日】2024-06-04
(54)【発明の名称】アイテムを分類する装置、方法及び媒体
(51)【国際特許分類】
G06F 16/906 20190101AFI20240528BHJP
【FI】
G06F16/906
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024042161
(22)【出願日】2024-03-18
(62)【分割の表示】P 2019013304の分割
【原出願日】2019-01-29
(31)【優先権主張番号】62/623,448
(32)【優先日】2018-01-29
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/243,342
(32)【優先日】2019-01-09
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】521486376
【氏名又は名称】ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー
(74)【代理人】
【識別番号】100099623
【弁理士】
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100125380
【弁理士】
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【弁理士】
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【弁理士】
【氏名又は名称】田中 祐
(72)【発明者】
【氏名】ミン‐クアン・ダニエル・ウー
(57)【要約】 (修正有)
【課題】アイテムを分類する方法、システム、装置、及び1つ以上のコンピュータプログラムで符号化される有形の非一時的なキャリア媒体を提供する。
【解決手段】方法は、クラウドソーシングシステムに参加しているワーカにラベル付けタスクを発行することを含む。ここで、ラベル付けタスクは、アイテムの説明と、分類におけるクラスラベルとに少なくとも部分的に基づいて、階層的分類タクソノミにおけるクラスラベルのうちの1つ以上を含む、推論された分類を評価することを含む。方法はまた、クラウドソーシングシステムから評価決定を受け付けることと、評価決定に基づいて分類を検証し、検証結果を得ることと、を含む。検証は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用することを含む。方法はさらに、検証結果に基づき、分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先に送ることを含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
アイテムにラベル付けを行う、コンピュータによる方法であって、
アイテムの説明を含むアイテム記録を受け付けるステップと、
前記アイテムについて、1つ以上の機械学習ベースの分類器に基づき、各クラスラベル
に関連付けられるノードの連続したレベルを有する階層的分類タクソノミにおける分類を
推論するステップであって、分類パスは前記階層的分類タクソノミにおけるクラスラベル
のうちの1つ以上を含む、ステップと、
通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカ
にラベル付けタスクを発行するステップであって、前記ラベル付けタスクは、前記アイテ
ムの説明と、前記分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて
、前記分類を評価することを含む、ステップと、
前記クラウドソーシングシステムから評価決定を受け付けるステップと、
前記分類を検証して検証結果を得るステップであって、前記検証は、受け付けられた前
記評価決定の集合に対する少なくとも1つの合意基準の適用を含む、ステップと、
前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルの
うちの1つ以上に対応するデータを各宛先へ送るステップと
を含む方法。
【請求項2】
前記推論は前記アイテム記録に基づく、請求項1に記載の方法。
【請求項3】
前記分類は、前記階層的分類タクソノミの連続したレベルにおける各クラスラベルの順
序付きシーケンスに対応する分類パスを含む、請求項1に記載の方法。
【請求項4】
前記ラベル付けタスクは、前記アイテムの説明と、前記分類パスにおけるクラスラベル
の順序付きシーケンスとに少なくとも部分的に基づいて、前記分類パスを確認することを
含む、請求項3に記載の方法。
【請求項5】
前記分類パスの確認は更に、前記アイテムの説明を含むオンライン検索クエリの結果に
基づく、請求項4に記載の方法。
【請求項6】
前記アイテム記録は前記アイテムに関連付けられる業者を含み、前記分類パスの確認は
更に前記業者に基づく、請求項4に記載の方法。
【請求項7】
前記アイテム記録は前記アイテムに関連付けられる価格を含み、前記分類パスの確認は
更に前記価格に基づく、請求項4に記載の方法。
【請求項8】
前記検証は、
第1の合意基準が満たされないときに、前記クラウドソーシングシステムに参加してい
る少なくとも1人の別のワーカに前記ラベル付けタスクを発行することと、
少なくとも1人の前記別のワーカから各評価決定を受け付けることと
を含み、
前記適用は、受け付けられた前記評価決定の集合に対して第2の合意基準を適用するこ
とを含む、請求項1に記載の方法。
【請求項9】
前記分類パスが妥当である場合に、前記分類における前記クラスラベルのうちの1つ以
上のクラスラベルが、1つ以上の前記機械学習ベースの分類器のためのトレーニングデー
タとして指定される、請求項1に記載の方法。
【請求項10】
前記分類が妥当ではない場合に、前記送るステップが、通信ネットワークを通して、ラ
ベル付替えを行う少なくとも1人のドメインエキスパートに対して前記ラベル付けタスク
を発行することを含む、請求項1に記載の方法。
【請求項11】
少なくとも1人の前記ドメインエキスパートから、前記分類における1つ以上のクラス
ラベルのうち、ラベル付替えがなされたクラスラベルを受け付けるステップと、
前記分類において前記ラベル付替えがなされたクラスラベルを、1つ以上の前記機械学
習ベースの分類器のためのトレーニングデータとして指定するステップと
を更に含む請求項10に記載の方法。
【請求項12】
重複するタスクを前記発行の前にフィルタリングにより除外するステップを更に含む請
求項1に記載の方法。
【請求項13】
推論される前記分類は、前記階層的分類タクソノミ内の1つのレベルから、前記階層的
分類タクソノミ内の連続したレベルを経て、前記階層的分類タクソノミ内の別のレベルへ
と延びるものである、請求項1に記載の方法。
【請求項14】
前記階層的分類タクソノミ内の別のレベルは、前記階層的分類タクソノミ内の葉ノード
レベルに対応するものである、請求項13に記載の方法。
【請求項15】
推論される前記分類は、前記階層的分類タクソノミ内の連続したレベルを経て延び、葉
ノードレベルの前に終了する、請求項1に記載の方法。
【請求項16】
前記アイテム記録が製品の説明を含む、請求項1に記載の方法。
【請求項17】
プロセッサにより実行される実行可能命令を記憶するメモリ部を備える、コンピュータ
により読出し可能なデータ記憶装置であって、
前記メモリ部は、
アイテムについて、1つ以上の機械学習ベースの分類器に基づき、各クラスラベルに関
連付けられるノードの連続したレベルを有する階層的分類タクソノミにおける分類を推論
するための実行可能命令であって、分類パスは前記階層的分類タクソノミにおけるクラス
ラベルのうちの1つ以上を含む、実行可能命令と、
通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカ
にラベル付けタスクを発行するための実行可能命令であって、前記ラベル付けタスクは、
前記アイテムの説明と、前記分類における1つ以上のクラスラベルとに少なくとも部分的
に基づいて、前記分類を評価することを含む、実行可能命令と、
前記クラウドソーシングシステムからラベル付けタスクに関する評価決定を受け付ける
ための実行可能命令と、
前記分類を検証して検証結果を得るための実行可能命令であって、受け付けられた前記
評価決定の集合に対して少なくとも1つの合意基準を適用するための実行可能命令を含む
実行可能命令と、
前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルの
うちの1つ以上に対応するデータを各宛先に送るための実行可能命令と
を有する、コンピュータにより読出し可能なデータ記憶装置。
【請求項18】
前記分類は、前記階層的分類タクソノミの連続したレベルにおける各クラスラベルの順
序付きシーケンスに対応する分類パスを含む、請求項17に記載のコンピュータにより読
出し可能なデータ記憶装置。
【請求項19】
通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカ
にラベル付けタスクを発行するステップであって、前記ラベル付けタスクは、階層的分類
タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスを含む、推論
された分類を、アイテムの説明と、分類パス内のクラスラベルとに少なくとも部分的に基
づいて評価することを含む、ステップと、
前記クラウドソーシングシステムから各評価決定を受け付けるステップと
を行う通信インタフェースと、
前記分類を検証して検証結果を得るステップであって、前記検証は、受け付けられた前
記評価決定の集合に対して少なくとも1つの合意基準を適用することを含む、ステップと
、
前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルの
うちの1つ以上に対応するデータを各宛先へ送るステップと
を行うプロセッサと
を備えるシステム。
【請求項20】
前記分類パスが妥当ではない場合に、前記プロセッサは、通信ネットワークを通して、
ラベル付替えを行う少なくとも1人のドメインエキスパートに前記ラベル付けタスクを送
る、請求項19に記載のシステム。
【発明の詳細な説明】
【背景技術】
【0001】
階層的分類は、入力されたデータを、出力されるクラスの分類学的階層(taxonomic hi
erarchy)へとマッピングすることを伴う。多くの階層的分類手法が提案されている。例
として、一対一(one-against-one)方式及び一対全(one-against-all)方式等の「フラ
ット」な手法がある。これらの手法は、階層構造を無視する代わりに、階層的分類を、全
ての非根ノードについて二項分類器の学習を伴う多クラス分類問題として扱うものである
。別の手法は「ローカル」な分類手法であり、この手法は、階層内の各ノード、各親ノー
ド、又は各レベルにおいて多クラス分類器をローカルにトレーニングすることを伴う。第
4の一般的な手法は「グローバル」な分類手法であり、この手法は、クラス階層全体を同
時に考慮することにより、各アイテムが階層内の1つ以上のクラスに割り当てられるよう
に、グローバル分類器をトレーニングすることを伴う。
【0002】
多くの自動化された分類手法は、特定の分類タスクを実行するためにトレーニングされ
た機械学習ベースの分類器に頼るものである。他方、このような分類器の精度は、信頼性
のある分類モデルをトレーニングするための十分なラベル付きデータを有することに依存
する。高品質で安定したトレーニングデータ(推論される真実)を収集する能力は、多く
の教師ありアルゴリズムを強化するのに不可欠である。これらのアルゴリズムは、多くの
場合、検索エンジンのランキング、画像認識、ニュースのカテゴリ分類等の現代のビジネ
スソリューションのための基礎である。
【0003】
手作業により注釈が付けられたトレーニングデータが、多くの機械学習研究の基礎とな
っている。近年、退屈で労働集約的なラベル付けのタスクをクラウドソーシングプラット
フォームのワーカへ外注する権限を研究者に与えて、トレーニングデータを生成するクラ
ウドソーシングが一般的な方法となっている。クラウドソーシングプラットフォームは、
コスト管理及び拡張性を向上させるための大規模で安価な労働力を提供する。しかし、ク
ラウドソーシングプラットフォームのワーカによってもたらされる仕事の品質が安定しな
いことが、クラウドソーシング採用者にとっての大きな懸念である。
【0004】
最近の研究により、最良の真実推論アルゴリズムはドメインごとに極めて特有のもので
あり、大部分のシナリオにおいて、1つのアルゴリズムだけが他のアルゴリズムよりも性
能が優れているわけではないことがわかっている。ときとして、期待値最大化アルゴリズ
ム等の直観的手法が現実的な解決策である可能性がある。文献においては、研究の進歩は
、タスクの困難度、ワーカのバイアス、ワーカの分散を扱うことに焦点を当てている。具
体的には、タスクの困難度は、注釈付き回答が要求される質問の曖昧度を表すのに対し、
ワーカのバイアス及びワーカの分散は、全てのタスクの困難度が等しいと仮定して、ワー
カが誤った回答をする可能性を判断するために、ワーカの資質をモデル化する。
【0005】
研究によりクラウドソーシングによるラベル付けタスクの課題が明らかになってきてい
るものの、費用対効果及び拡張性の面から、クラウドソーシングがトレーニングデータを
生成するための魅力的な手法となることは否定できない。
【発明の概要】
【0006】
本明細書にて、1つ以上の機械学習ベースの分類器及び1つ以上のクラウドソーシング
プラットフォームを用いて、分類学的階層に従ってアイテムを分類することができる1つ
以上のコンピュータプログラムを実行する1つ以上のコンピュータによって実現されるシ
ステムを説明する。
【0007】
本明細書において説明する主題の実施形態は、アイテムにラベル付けをする方法、シス
テム、装置及び1つ以上のコンピュータプログラムにより符号化された有形で非一時的な
キャリア媒体を含む。
【0008】
特定の実施形態によれば、アイテムの説明を含むアイテム記録が受け付けられる。その
アイテムについて、1つ以上の機械学習ベースの分類器に基づき、階層的分類タクソノミ
(hierarchical classification taxonomy)における分類が推論される。階層的分類タク
ソノミは、各クラスラベルに関連付けられるノードの連続したレベルを含み、分類は、階
層的分類タクソノミにおけるクラスラベルのうちの1つ以上のクラスラベルの順序付きシ
ーケンスを含む。ラベル付けのタスクが、通信ネットワークを通して、クラウドソーシン
グシステムに参加している複数のワーカに発行される。ラベル付けタスクは、アイテムの
説明と、分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、分類を
評価することを含む。クラウドソーシングシステムから評価決定が受け付けられる。分類
が検証されて検証結果が得られ、この検証は、受け付けられた評価決定の集合に対して少
なくとも1つの合意基準を適用することを含む。検証結果に基づき、分類における1つ以
上のクラスラベルに対応するデータが、通信ネットワークを通して各宛先に送られる。
【0009】
本明細書において説明される主題の特定の実施形態は、プロセッサによって実行される
実行可能命令を記憶するメモリ部を備える、コンピュータにより読出し可能なデータ記憶
装置を含む。特定の実施形態によれば、メモリ部は、アイテムについて、1つ以上の機械
学習ベースの分類器に基づき、各クラスラベルに関連付けられるノードの連続したレベル
を含む階層的分類タクソノミにおける分類を推論するための実行可能命令を含み、分類は
、階層的分類タクソノミにおけるクラスラベルのうちの1つ以上のクラスラベルの順序付
きシーケンスを含む。メモリ部は更に、通信ネットワークを通して、クラウドソーシング
システムに参加している複数のワーカにラベル付けタスクを発行するための実行可能命令
を含み、ラベル付けタスクは、アイテムの説明と、分類における1つ以上のクラスラベル
とに少なくとも部分的に基づいて、分類を評価することを含む。メモリ部は更に、ラベル
付けタスクに関する評価決定をクラウドソーシングシステムから受け付けるための実行可
能命令を含む。メモリ部は更に、分類を検証して検証結果を得るための実行可能命令を含
み、検証のための実行可能命令は、受け付けられた評価決定の集合に対して少なくとも1
つの合意基準を適用するための実行可能命令を含む。メモリ部は、検証結果に基づき、通
信ネットワークを通して、分類における1つ以上のクラスラベルに対応するデータを各宛
先に送るための実行可能命令を更に含む。
【0010】
特定の実施形態に基づくシステムは、通信インタフェースとプロセッサとを備える。通
信インタフェースは、通信ネットワークを通して、クラウドソーシングシステムに参加し
ている複数のワーカにラベル付けタスクを発行するものであり、ラベル付けタスクは、ア
イテムの説明と、分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて
、階層的分類タクソノミの連続したレベルにおける1つ以上のクラスラベルの順序付きシ
ーケンスを含む、推論された分類を評価することを含む。クラウドソーシングシステムか
ら各評価決定が受け付けられる。プロセッサは、分類を検証して検証結果を取得し、この
検証は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用するこ
とと、検証結果に基づき、通信ネットワークを通して、分類における1つ以上のクラスラ
ベルに対応するデータを各宛先に送ることとを含む。
【0011】
本明細書において説明される主題の他の特徴、態様、目的及び利点は、説明、図面及び
特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0012】
【
図1】木に対応する、ノードの例示的な分類学的階層の説明図である。
【
図2】統合されたデータラベル付けシステムの一例を示すブロック図である。
【
図3】アイテムにラベル付けを行うための例示的なプロセスのフロー図である。
【
図4A】
図1に示すノードの例示的な分類学的階層におけるノードの例示的な有向パスの説明図である。
【
図4B】
図4Aに示す例示的な分類パス内のノードに対応する出力クラスのシーケンスへとマッピングされる、アイテム説明に対応する入力のシーケンス図である。
【
図5】ノードの例示的な分類学的階層の説明図である。
【
図6】例示的なコンピュータ装置のブロック図である。
【発明を実施するための形態】
【0013】
以下の説明では、同様の要素を示す際に同様の符号を用いる。さらに、図面は、例示的
な実施形態の主な特徴を模式的に示すためのものである。図面は、実際の実施形態のあら
ゆる特徴を示すことを目的としたものではなく、描かれている要素の相対的な寸法を表す
ためのものでもなく、一定の縮尺で描かれているわけでもない。
【0014】
本明細書では、1つ以上のクラウドソーシングプラットフォームから得られるラベル付
きトレーニングデータの品質を向上させるための効率的なエンドツーエンドのマルチレベ
ルハイブリッド解決策の例を説明する。これらの例は、ラベル付きトレーニングデータに
基づいて、アイテムを階層的分類タクソノミに分類するためにトレーニングされる機械学
習ベースの階層的分類システムとの関係で説明する。
【0015】
図1に例示的な分類学的階層10を示す。この分類学的階層10は、1つの根ノード1
2と複数の非根ノードとを有する木構造として構成される。各非根ノードは、別の単一の
ノードからの有向エッジにより接続される。末端の非根ノードは葉ノード(又は葉)と呼
ばれ、その他の非根ノードは内部ノードと呼ばれる。木構造は、根ノード12からの非根
ノードの深さに応じてレベル14、16、18及び20に編成され、同じ深さにあるノー
ドは分類学的階層において同じレベルにある。各非根ノードは、分類学的階層内の各クラ
スを表す。他の例では、分類学的階層は、有向非巡回グラフとして構成することができる
。一般に、分類学的階層10を用いて、数多くの異なるタイプのデータアイテムを異なる
分類学的クラスに分類することができる。
【0016】
いくつかの例において、各データアイテムは、分類学的階層10内の1つ以上のレベル
を通るそれぞれのパスに沿って分類される。これらの例のうちのいくつかにおいて、1以
上の上位レベルの広いクラスから、0個又は1つ以上の徐々に狭くなるクラスを経て、葉
ノードレベルのクラスへと至るまでの階層内の各レベルにつき1つのノードを含むパスに
沿って、アイテムが分類される。他の例では、分類学的階層10を通る複数のパスに沿っ
て、アイテムが分類される。いくつかの例において、分類学的階層10内の異なるレベル
を横切るノードからなる部分的なパス又はセグメントに沿って、アイテムが分類される。
これらの例のうちのいくつかにおいて、パス情報により分類の性能が向上する。
【0017】
他の例において、それぞれの分類器(例えば、単語埋込み及びテキスト分類を学習する
ためのニューラルネットワークベースの分類器等の機械学習分類器)により、分類学的階
層10内の各レベルにおいて、他のレベルから独立して、データアイテムが分類される。
これらの例のうちのいくつかにおいて、各機械学習モデルは、分類学的階層10内のそれ
ぞれのレベルに関連するそれぞれのトレーニングデータ(例えば、アイテム説明データ)
の組に関してトレーニングされる。
【0018】
本システムは、クラウドソーシングワーカ及びドメインエキスパート双方の強みを動的
に、かつ高いコスト効率で活用する品質管理方式により、高品質のラベル付きトレーニン
グデータが得られるように設計される。このようにして、機械学習モデルは、クラウドソ
ースによるラベルとエキスパートによるラベルとの組み合わせに関してトレーニングされ
る。
【0019】
第1の運用段階では、バイアス及び分散が大きい可能性がある回答を受ける可能性が低
くなるように設計された方法により、クラウドソーシングのワーカから、コスト効果の高
い真実推論が収集される。いくつかの例において、解決手段の実施形態は、分類学的階層
内の単一のノード(例えば、あるアイテムタイプに対応する葉ノード)に対してアイテム
説明を評価するようクラウドソーシングワーカに要求するのではなく、分類学的階層内の
連続したレベルを通る完全又は部分的な分類パスを評価するようワーカに要求する。この
手法は、アイテム説明(及び潜在的には、そのアイテムに関連付けられる他のデータ)を
評価するための分類コンテキストを増やし、それにより、クラウドソーシングコストを上
げずに、高品質で安定したトレーニングデータを受ける可能性を高めるものである。
【0020】
第2の運用段階では、特定のタスクに関するワーカからの回答の集合において合意が得
られない場合に、当該タスクは1人以上の熟練したドメインエキスパートに渡される。こ
のドメインエキスパートは、当人が受けるトレーニング及び報奨金により、ワーカのバイ
アス及びワーカの分散が小さいラベル付けタスクを行うことが期待される。熟練したエキ
スパートは、分類学的階層内のアイテム分類と、任意の所与の製品アイテムに最も適した
アイテムカテゴリラベルを割り当てるための指針とを熟知している。いくつかの例におい
て、ドメインエキスパートは、曖昧な事例を回避するために、高難度のタスクを「解決不
可能」と明示するように指示されている。
【0021】
いくつかの例において、手作業で注釈を付けられた高品質のトレーニングデータを提供
するために、自動化された統合データラベル付けエンジン(integrated data labeling e
ngine, IDLE)によって、十分に熟練したドメインエキスパートとクラウドソーシン
グワーカとの間の協調が促進される。IDLEフレームワークは、ラベル付きデータを(
クラウドソーシングによって)フィルタリングするプロセスと、フィルタ処理されたデー
タに(インハウスのドメインエキスパートによって)ラベル付替えを行うプロセスとを自
動化することによって、高品質のトレーニングデータを生成するためのワークフローを効
率化する。また、IDLEフレームワークは、IDLEシステムによって生成される分類
結果の品質を評価するためだけでなく、トレーニングデータ生成タスクを管理するための
統合環境も提供する。
【0022】
図2に、IDLEシステムアーキテクチャ30の一例を示す。データラベル付けフレー
ムワーク内に以下の4つの主要な構成要素がある。
(1)ドメインエキスパート34及び1つ以上のクラウドソーシングプラットフォーム3
6に対し、アダプタ38を通してタスクを割り当て、ワーカ資質評価40及び回答集約4
2をも行うマルチレベルワーカプラットフォーム32
(2)ジョブ依頼者が種々のサンプリング方式の中から選択できるようにする、統合ユー
ザインタフェースを備えるサンプリング方式インタフェース44
(3)ジョブ依頼者が種々のタイプのジョブ(例えば、フィルタジョブ48、ラベル付替
えジョブ50及び監査ジョブ52)をローンチできるようにするジョブ処理インタフェー
ス46
(4)クラウドソーシングからの集約結果及び機械学習モデル56の向上を表示するデー
タレポータダッシュボード54
【0023】
マルチレベルワーカプラットフォーム32は、ジョブ依頼者が1つ以上のアダプタを通
してMTurk及びCrowdflower等の種々のクラウドソーシングプラットフォ
ームにジョブを提示できるようにする統合インタフェースを有する。さらに、ジョブ依頼
者は、難しいラベル付けジョブをドメインエキスパートに割り当てることができ、ドメイ
ンエキスパートは、自らのIDLEシステムアカウントにサインインして、データにラベ
ル付けをする。また、マルチレベルワーカプラットフォーム32は、ワーカ除外及び回答
集約等の、種々のクラウドソーシングプラットフォーム36にわたって共通の機能に関す
る、統一された機能インタフェースを含む。
【0024】
1つ以上のアダプタ38は、(1)ジョブのローンチ、(2)ジョブの停止、及び(3
)結果取得のために、サポートされるクラウドソーシングプラットフォームのアプリケー
ションプログラミングインタフェース(例えば、MTurk API)にジョブ依頼者が
接続できるようにする各インタフェースを提供する。アダプタは、ユーザ体験又はIDL
Eシステム30の他の部分に大幅な変更を加えることなく、複数のクラウドソーシングプ
ラットフォームを容易に統合できるようにする。
【0025】
複数のクラウドソーシングワーカから返される回答は必ずしも一致しているとは限らず
、ワーカ資質は様々である(例えば、MTurkにおけるマスターワーカと非マスターワ
ーカ)。これらの課題に対処するために、回答集約部42は、特定のタスクに対してワー
カから受けた応答を集約し、返された回答からグラウンドトゥルースを推論する能力を向
上させる。いくつかの例において、以下のアルゴリズム、すなわち、多数決、重み付き多
数決及びベイズ投票のうちの1つ以上を用いて、タスク応答を集約し、合意を評価する。
さらに、IDLEシステム30の開発者が、カスタマイズされた回答集約アルゴリズムを
容易に実施できるようにするために、回答集約インタフェースが設けられる。いくつかの
例において、ジョブ依頼者は、最終回答を決定するために、[#answer,#yes
]形式の合意規則を定めることができる。いくつかの例において、規則テンプレートは、
総#answer回答数における#yes/#answerの合意レベルに関して合意基
準を定める。合意規則のシーケンスを通して、より複雑な回答集約方式を表すことができ
る。例えば、合意基準規則[3,3]と後続の規則[4,3]とによって、まず3つの回
答の中での完全合意([3,3])を探すよう本システムに指示し、回答が最初の合意基
準を満たさない質問については、第2の[4,3]合意基準に基づいて本システムは別の
回答(#answer=3+1)を求める。いくつかの例において、クラウドソーシング
ジョブについて受け付けられたワーカの評価決定に、3つ以上の連続した合意基準が適用
される。
【0026】
ワーカ資質評価部40は、ワーカ資質を評価する。ワーカの資質は、クラウドソーシン
グプラットフォームにおいて非常に多様である。この資質が事前にはわからないという事
実により、ワーカの資質を評価することが更に重要になる。例となるIDLEシステム3
0は、ワーカの資質を推定するために、グラウンドトゥルース回答を有する集められた質
問群(「ゴールデンタスク(golden task)」と呼ばれる)から質問をランダムに選択す
る。種々の異なる方式を用いて、ワーカ資質を評価することができる。いくつかの例にお
いて、IDLEシステム30は、ジョブを実行する前にまずゴールデンタスクに合格する
ようワーカに要求する認定試験を実行する。いくつかの例において、IDLEシステム3
0は、ゴールデンタスクを正規ジョブの質問と混在させる隠れ試験(hidden test)を実
行し、ジョブが完了した後にゴールデンタスクに基づいて、ワーカの資質を評価する。い
くつかの例において、ジョブ依頼者は、ワーカの資質を推定するために、一方又は両方の
方式を使用することができる。
【0027】
サンプリング方式インタフェース44は、ジョブ依頼者が、種々の統計的サンプリング
方式の中から選択できるようにする。IDLEシステム30は、要求されたサンプリング
方式を開発者が実現できるようにする汎用インタフェースを含む。その目的は、ジョブ依
頼者が多様なデータセットからサンプリングデータを取得することである。いくつかの例
において、IDLEシステム30は、データクラスタリング及びその後の層化されたサン
プリングと、トピックモデリング及びその後の層化されたサンプリングとを含む、いくつ
かの階層的なサンプリング方式を含む。
【0028】
ジョブ処理インタフェース46は、ジョブ依頼者が、種々のタイプのジョブ(例えば、
フィルタジョブ48、ラベル付替えジョブ50及び監査ジョブ52)をローンチできるよ
うにする。
【0029】
フィルタジョブ48においては、あらかじめラベルが付けられたデータから小さいデー
タセットがサンプリングされ、1つ以上のクラウドソーシングプラットフォームに送られ
てそれらのラベルが確認される。いくつかの例において、フィルタジョブ質問は、イエス
/ノー質問(例えば、「与えられたラベルがこのデータと一致するか?」)又は多肢選択
質問(例えば、「以下のラベルのうちのどれがこのデータと最も一致するか?」)のいず
れかとして提示される。また、フィルタジョブは、資質が低いワーカを特定し、そのジョ
ブに参加させないようにするために、1つ以上のゴールデンタスク質問を含むこともでき
る。ワーカが自分の回答を提出した後に、それらの結果は回答集約部42により収集され
、回答集約部において、それらの結果が所定の手法に従って集約され、集約された結果が
、上記のように1つ以上の合意基準に従って評価される。高い信頼水準に関連付けられる
結果は、機械学習モデル56のための新たなトレーニングデータとして使用される。(フ
ィルタリングにより除外された)残りのデータは、不正ラベル付きデータ(mislabeled d
ata)として扱われ、上記のように、ドメインエキスパートによって処理されるラベル付
替えジョブのための入力データとなる。クラウドソーシングワーカにとって自明なデータ
は直ちに通過することができ、ラベル付けをするのが難しいデータはフィルタリングによ
り除外されることが期待され、それゆえ、「フィルタ」ジョブと呼ばれる。ドメインエキ
スパートのコストはクラウドソーシングワーカよりはるかに高く、そのため、最初にクラ
ウドソーシングによる労働力に大量の自明の質問に関するフィルタジョブを実行させ、そ
の後、少数の難しいラベル付替えジョブをドメインエキスパートに委ねる方が、コスト効
率が良い。
【0030】
データがフィルタジョブ部48を通過した後に、IDLEシステム30は、フィルタリ
ングにより除外された不正ラベル付きデータを自動的に収集し、その不正ラベル付きデー
タを、ドメインエキスパートがラベル付替えのために入手できるようにする。上述のよう
に、ドメインエキスパートは、不正ラベル付きデータに正しいラベルを割り当てることに
熟練している。したがって、ドメインエキスパートによってラベルが付け替えられるデー
タは、機械学習モデル56のためのトレーニングデータとする前に、品質管理又は真実推
論の措置が必要ない。それでも、ドメインエキスパートでさえもラベル付けができないデ
ータが存在する場合があり、これらのデータは拒否されたデータと見なされ、更なる解析
のために記録される。
【0031】
いくつかの例において、フィルタジョブ及びラベル付替えジョブが完了した後に、サン
プリングされた全てのデータが、機械学習モデルのための新たなトレーニングデータとし
て、又は解析のための拒否データとして特定される。新たなトレーニングデータを用いて
分類エンジンにおいて機械学習モデル56を再トレーニングした後に、そのモデルは、新
たなトレーニングデータを処理し、製品カテゴリラベルを更新する。いくつかの例におい
て、再トレーニングされた機械学習モデルの精度を評価するために、監査ジョブ52が実
行される。フィルタジョブと同様に、正確にラベル付けがされたデータを識別するために
、小さいデータセットがサンプリングされ、1つ以上のクラウドソーシングプラットフォ
ーム36に送られる。高い信頼水準を有するデータを識別し、不正ラベル付きデータを単
に破棄しながらモデル精度を計算するために、クラウドソーシングによる回答に回答集約
部42が適用される。
【0032】
クラウドソーシングの有効性を最大限にし、コストを最小限にするために、IDLEシ
ステム30はデータレポータ54を備える。このデータレポータは、管理者及び解析者が
クラウドソーシングの有効性及び機械学習アルゴリズムの性能を評価するためのデータ視
覚化ダッシュボードを有する。例えば、データレポータ54は、解析者が、ラベル付替え
ジョブによって取り扱う必要のあるフィルタジョブ質問の比率を決定できるようにする。
いくつかの例において、データレポータ54は、クラウドソーシング報告及び機械学習モ
デル報告を含む。
【0033】
クラウドソーシング報告は、クラウドソーシングの有効性及び効率の評価を提供する。
クラウドソーシング報告は、回答分布及び処理時間等の洞察が与えられるように設計され
る。クラウドソーシング報告には、クラウドソーシングジョブの統計値及び結果が含まれ
る。フィルタジョブ及び監査ジョブの場合、統計値は、イエス、ノーの比、及びジョブ完
了時間を含む。ラベル付替えジョブの場合、報告は、ラベル付替え率とジョブ完了時間と
の比を示す。ジョブごとにクラウドソーシングの全体的性能を推定するために、ダッシュ
ボードは、全処理時間に加えて、不正ラベル付きデータと高い信頼水準を有するデータと
の比も示す。
【0034】
機械学習報告は、機械学習モデルに関する改善率を追跡する。したがって、機械学習報
告は、モデルのための精度の履歴だけではなく、クラウドソーシングを通して処理される
データの比率をも示す。
【0035】
図3は、分類学的クラスラベルを用いてアイテムにラベル付けをするためにIDLEシ
ステム30によって実行される例示的なプロセス60のフロー図である。アイテムは、分
類学的クラスラベルを用いてラベル付けをすることができる任意のタイプのものとするこ
とができる。いくつかの例において、アイテムは製品に対応する。
【0036】
このプロセスによれば、
図2に示したIDLEシステム30内のトレーニングデータの
データベース部62が、アイテムの説明を含むアイテム記録を受け付ける(
図3、ブロッ
ク64)。このアイテム記録は、ジョブ処理部46又は他の何らかの供給源から受け取る
ことができる。いくつかの例において、アイテム記録は複数の、属性と値とのペアを含む
。アイテム記録属性(データフィールドタイプとも呼ばれる)の例は、業者名、業者ウェ
ブアドレス、アイテム説明、アイテム名、アイテム量、アイテム価格、アイテム画像、及
び業者ウェブサイト上のアイテム画像へのハイパーリンクのうちの1つ以上を含む。
【0037】
1つ以上の機械学習ベースの分類器に基づいて、IDLEシステム30の機械学習部5
6は、当該アイテムに関して、それぞれのクラスラベルに関連付けられるノードの連続し
たレベルを含む階層的分類タクソノミにおける分類パスを推論し、ここで、この分類は、
階層的分類タクソノミ内のクラスラベルのうちの1つ以上のクラスラベルの順序付きシー
ケンスを含む(
図3、ブロック64)。いくつかの例において、機械学習部56が、アイ
テム説明と、潜在的にアイテム記録に含まれる1つ以上の他の属性値とから、分類を推論
する。
【0038】
図4Aに、分類学的階層10の木構造内の非根ノードの、例示的な構造化された分類パ
ス70を示す。ノードの構造化された分類パス70は、ノード1とノード1.2とノード
1.2.2とノード1.2.2.2との順序付きシーケンスからなる。この例において、
各非根ノードは、分類学的階層10内の異なるそれぞれのレベルに対応する。
【0039】
図4Bに示すように、いくつかの例において、機械学習部56は、階層的分類タクソノ
ミの根からレベルごとに葉レベルに至るまで、1つ以上のアイテム記録値72(例えば、
製品説明)に関する階層的分類(例えば、単純ベイズの機械学習モデルを使用する)を行
って、構造化された階層的分類パス70内のノードのシーケンスを推論することに対応す
る出力{Y1,Y2,...,Y4}のシーケンス74を生成する。この例において、入
力のシーケンス72は、製品の説明(すなわち、「女性用デニムシャツライトデニムL」
)に対応し、分類学的階層10は、階層的な製品分類体系を定める。図示の例では、階層
的分類体系30は、入力された(複数の)アイテム記録値を、出力されるノードのクラス
ラベルの有向階層シーケンス(「衣類及びアクセサリ」、「衣類」、「トップス及びTシ
ャツ」、及び「女性用」)へと変換する。他の例では、機械学習部56は、葉ノードカテ
ゴリを予測し、分類学的階層10に基づいて、構造化された分類パス70を推論する。
【0040】
階層的分類構造を通る単一の個別の分類パスをアイテム記録ごとに推論することに加え
て、例となる機械学習部56は、アイテムに関連付けられる1つ以上の記録値72(例え
ば、製品説明)に基づいて、アイテムを階層的分類構造における複数のパスに分類するよ
うにトレーニングすることもできる(すなわち、マルチラベル分類)。例えば、
図5に、
分類学的階層構造75内の異なるクラスに対応する2つのノード77、79及び2つの異
なるパスにアイテムがマッピングされる例を示す。上述の手法に類似の手法を用いて、機
械学習部56をトレーニングし、入力に関連付けられる全てのクラスラベルを取り込む出
力分類を生成することができる。
【0041】
図2に戻ると、図示の例において、当該アイテムに関して階層的分類タクソノミ内の分
類を推論した後に(
図3、ブロック64)、機械学習部56はデータ記録をロードする。
このデータ記録は、推論された分類と、アイテム記録値72のうちの1つ以上とを、あら
かじめラベル付けがされたデータとしてデータベース80内に含む。いくつかの例におい
て、ジョブ依頼者が、サンプリング方式インタフェース44を用いて、フィルタジョブを
生成する。このプロセスにおいて、ジョブ依頼者は、フィルタジョブに関するサンプリン
グ方式及びサンプル数を選択する。また、ジョブ依頼者は、クラウドソーシングタスクの
パラメータ、例えば、業務当たりの報酬、及びHIT(ヒューマンインテリジェンスタス
ク)当たりの業務数も設定する。いくつかの例において、ジョブ依頼者は、クラウドソー
シングワーカへの分類の提示を調整することができる。例えば、ジョブ依頼者は、分類タ
クソノミの上位部分、下位部分又は中間部分内の1つ以上のノード等の、推論された分類
内のレベルの一部のみを提示することを選ぶ場合がある。他の例では、ジョブ依頼者は、
分類の修正版を提示することに決める場合があり、そのバージョンでは、ワーカに提示さ
れる分類内で、複数のノードが組み合わされて単一のノードとされる(例えば、連続した
ノードを組み合わせて単一のノードとすることによる)。ワーカの資質を推定するために
、本システムは、ジョブ内にゴールデンタスク(例えば、品質管理質問)を自動的に含む
ように構成することもできる。いくつかの例において、ジョブ生成前に、クラウドソーシ
ングジョブの設定が再検討され、確認される。
【0042】
図3に戻ると、クラウドソーシングジョブが確認された後に、IDLEシステム30の
ジョブ処理部46は、通信ネットワークを通して、クラウドソーシングシステムに参加し
ている複数のワーカにラベル付けタスクを発行し、ここで、ラベル付けタスクは、アイテ
ムの説明と、提示される分類パス内のクラスラベルとに少なくとも部分的に基づいて、提
示される分類を評価することを含む(
図3、ブロック82)。いくつかの例において、ラ
ベル付けタスクは、アイテムの説明と、分類内のクラスラベルの順序付きシーケンスとに
少なくとも部分的に基づいて、分類を確認することを伴う。これらの例のうちのいくつか
において、分類の確認は、アイテムの説明を含むオンライン検索クエリの結果に更に基づ
く。いくつかの例において、アイテム記録は、当該アイテムに関連付けられる業者を含み
、分類パスの確認は業者に更に基づく。いくつかの例において、アイテム記録は、当該ア
イテムに関連付けられる価格を含み、提示される分類パスの確認は価格に更に基づく。
【0043】
いくつかの例において、IDLEシステム30は、ワーカのそれぞれのコンピューティ
ングデバイス上にラベル付けタスクを提示し、ラベル付けタスクに対するワーカの応答(
例えば、妥当であるとの応答又は妥当ではないとの応答)を受け付けるためのインタフェ
ース仕様を発行する。
【0044】
1つ以上のクラウドソーシングプラットフォーム36にジョブを発行した後に、IDL
Eシステム30のジョブ処理部46は、1つ以上のクラウドソーシングシステムから評価
決定を受け付ける(
図3、ブロック84)。受け付けられる評価決定のタイプは、クラウ
ドソーシングシステムに提示されるラベル付けタスクによって決まる。いくつかの例にお
いて、フィルタジョブは、イエス/ノー質問(例えば、「与えられたラベルがこのデータ
と一致するか?」)として提示される質問に回答するラベル付けタスクを含む。いくつか
の例において、フィルタジョブが、多肢選択質問(例えば、「以下のラベルのうちのどれ
がこのデータと最も一致するか?」)として提示される質問に回答するラベル付けタスク
を含む。いくつかの例において、フィルタジョブは、アイテムに対する代替分類を与える
ラベル付けタスクを含む。
【0045】
クラウドソーシングジョブに関する評価決定を受け付けた後に、ジョブ処理部46は、
分類を検証して検証結果を取得し、ここで、検証は、受け付けられた評価決定の集合に対
して少なくとも1つの合意基準を適用することを含む(
図3、ブロック86)。いくつか
の例において、IDLEシステム30のジョブ処理部46は、クラウドソーシングワーカ
から評価決定を受け付けると、回答集約を自動的に実行する。上記の合意手法のいずれか
を含む、多種多様の異なる回答集約アルゴリズムを用いて、検証結果が得られる。
【0046】
いくつかの例において、検証結果は、以下の分類、すなわち、妥当な分類と、妥当では
ない分類と、不確定な分類とのうちの1つとすることができる。いくつかの例において、
検証は、最初の合意基準が満たされない場合に、クラウドソーシングシステムに参加して
いる少なくとも1人の別のワーカにラベル付けタスクを発行することと、当該少なくとも
1人の別のワーカから各評価決定を受け付けることとを含む。これらの例において、少な
くとも1人の別のワーカから受けた評価決定を含む、受け付けられた評価決定の集合に対
して第2の合意基準が適用される。上述のように、いくつかの例においては、クラウドソ
ーシングジョブに関して受け付けられたワーカの評価決定に対して3つ以上の連続した合
意基準が適用される。
【0047】
分類の検証後、IDLEシステム30のジョブ処理部46は、検証結果に基づいて、通
信ネットワークを通して、分類内の1つ以上のクラスラベルに対応するデータを各宛先に
送る(
図3、ブロック88)。いくつかの例では、分類パスが妥当な場合に、分類パス内
のクラスラベルのうちの1つ以上が、機械学習ベースの分類器のうちの1つ以上のための
トレーニングデータとして指定され、トレーニングデータのデータベースへ送られる。い
くつかの例においては、分類パスが妥当ではない場合に、ラベル付けタスクは、通信ネッ
トワークを通して、ラベル付けに関する少なくとも1人のドメインエキスパートへ送られ
る。少なくとも1人のドメインエキスパートから、分類パス内のクラスラベルのうちの1
つ以上のクラスラベルのラベル付替え済みバージョンを受け付けられた後に、分類パス内
の1つ以上のクラスラベルのラベル付替え済みバージョンは、機械学習ベースの分類器の
うちの1つ以上のためのトレーニングデータとして指定され、トレーニングデータのデー
タベースに送られる。
【0048】
図6に、本明細書において説明される階層的アイテム分類システムのうちの1つ以上を
実現するように構成されるコンピュータ装置の例示的な実施形態を示す。コンピュータ装
置320は、処理ユニット322と、システムメモリ324と、処理ユニット322をコ
ンピュータ装置320内の様々な構成要素に接続するシステムバス326とを備える。処
理ユニット322は、1つ以上のデータプロセッサを含むことができ、それらのデータプ
ロセッサのそれぞれは、様々な市販のコンピュータプロセッサのうちの任意の1つの形態
とすることができる。システムメモリ324は、通常、ソフトウェアアプリケーションに
利用可能なアドレスを定めるソフトウェアアプリケーションアドレス指定空間に関連付け
られた1つ以上の、コンピュータにより読出し可能な媒体を含む。システムメモリ324
は、コンピュータ装置320の起動ルーチンを含む基本入出力システム(BIOS)を記
憶する読み出し専用メモリ(ROM)と、ランダムアクセスメモリ(RAM)とを備える
ことができる。システムバス326は、メモリバス、周辺バス又はローカルバスとするこ
とができ、PCI、VESA、Microchannel(マイクロチャネル)、ISA
、及びEISAを含む様々なバスプロトコルのうちの任意のものと互換性を有することが
できる。コンピュータ装置320は、永続的記憶メモリ328(例えば、ハードドライブ
、フロッピードライブ、CD ROMドライブ、磁気テープドライブ、フラッシュメモリ
デバイス、及びデジタルビデオディスク)をも備える。この永続的記憶メモリは、システ
ムバス326に接続され、データ、データ構造体及びコンピュータ実行可能命令の不揮発
性記憶装置又は永続的記憶装置を提供する1つ以上の、コンピュータにより読出し可能な
媒体ディスクを含む。
【0049】
ユーザは、1つ以上の入力デバイス330(例えば、1つ以上のキーボード、コンピュ
ータマウス、マイクロフォン、カメラ、ジョイスティック、物理運動センサ、及びタッチ
パッド)を用いて、コンピュータ装置320とインタラクトする(例えば、コマンド又は
データを入力する)ことができる。情報は、表示コントローラ334によって制御される
表示モニタ332上でユーザに提示されるグラフィカルユーザインタフェース(GUI)
を通じて示すことができる。コンピュータ装置320は、他の入出力ハードウェア(例え
ば、スピーカ及びプリンタ等の周辺出力デバイス)も備えていてもよい。コンピュータ装
置320は、ネットワークアダプタ336(「ネットワークインタフェースカード」又は
NICとも呼ばれる)を通じて他のネットワークノードに接続する。
【0050】
アプリケーションプログラミングインタフェース338(API)と、オペレーティン
グシステム(OS)340(例えば、マイクロソフト社(米国ワシントン州レドモンド)
から市販されるWindows(登録商標)オペレーティングシステム)と、本明細書に
おいて説明される階層的分類システムにおけるステップ、タスク、動作又はプロセスのう
ちの1つ以上を実行するようにコンピュータ装置320をプログラミングする1つ以上の
ソフトウェアアプリケーションを含むソフトウェアアプリケーション341と、ドライバ
342(例えば、GUIドライバ)と、ネットワークトランスポートプロトコル344と
、データ346(例えば、入力データ、出力データ、プログラムデータ、レジストリ、及
び構成設定)とを含む複数のプログラムモジュールを、システムメモリ324に記憶する
ことができる。
【0051】
開示されるシステム、方法、プロセス、機能動作及び論理フローを含む、本明細書にお
いて説明される主題の例は、入力に関する処理を行い、出力を生成することによって機能
を実行するように動作可能なデータ処理装置(例えば、コンピュータハードウェア及びデ
ジタル電子回路)において実現することができる。また、本明細書において説明される主
題の例は、データ処理装置によって実行するための、1つ以上の有形の非一時的なキャリ
ア媒体(例えば、機械可読記憶デバイス、基板又はシーケンシャルアクセスメモリデバイ
ス)上に符号化される一組以上のコンピュータ命令として、ソフトウェア又はファームウ
ェアにおいて有形に具現化することができる。
【0052】
本明細書において説明される具体的な実施態様の詳細は、特定の発明の特定の実施形態
に特有な場合があり、特許請求される任意の発明の範囲に関する限定と解釈されるべきで
はない。例えば、別々の実施形態との関連で説明される特徴は、単一の実施形態に組み込
むこともでき、単一の実施形態との関連で説明される特徴は、複数の別々の実施形態にお
いて実現することもできる。さらに、特定の順序において実行されるステップ、タスク、
動作又はプロセスの開示は必ずしも、その特定の順序においてそれらのステップ、タスク
、動作又はプロセスが実行されることを要するものではない。代わりに、場合によっては
、開示されるステップ、タスク、動作及びプロセスのうちの1つ以上が、別の順序で、又
はマルチタスクスケジュールに従って、又は並列に実行される場合がある。
【0053】
他の実施形態は特許請求の範囲に含まれる。
【手続補正書】
【提出日】2024-03-28
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
アイテム記録を取得するインタフェース回路と、
機械可読命令と、
前記機械可読命令によってプログラムされた少なくとも1つのプロセッサ回路と
を備えてなる装置であって、
前記少なくとも1つのプロセッサ回路は、
機械学習モデルを実行して、前記アイテム記録に関連付けられたアイテムの分類を推論し、該分類の1つは階層的分類タクソノミの1つ以上のクラスラベルを含むものであり、
通信ネットワークを介して1つ以上のクラウドソーシングシステムに第1のジョブを送信し、該第1のジョブは前記分類の評価を含むものであり、
前記分類の検証結果を生成し、該検証結果の第1のものは、前記分類の第1のものに対応する評価決定の集合に対する合意基準の適用に基づくものであり、該評価決定は、1つ以上のクラウドソーシングシステムから受信された、前記分類の第1のものに対応するものであり、
前記機械学習モデルに関連する精度情報を含み、前記検証結果に基づく前記機械学習モデルに対応する報告を生成することによって、前記機械学習モデルの学習を改善するものである、装置。
【請求項2】
前記精度情報は、前記機械学習モデルに関連する現在及び過去の精度を含む、請求項1に記載の装置。
【請求項3】
前記検証結果の第1のものは、妥当な分類、妥当ではない分類、または不確定な分類のうちの1つである、請求項1に記載の装置。
【請求項4】
前記検証結果の第1のものが、前記妥当ではない分類または前記不確定な分類である場合、1つ以上の前記少なくとも1つのプロセッサ回路が、再ラベル付けのために、前記少なくとも1つのドメインエキスパートに前記分類の第1のものを送信する、請求項3に記載の装置。
【請求項5】
前記ドメインエキスパートが前記分類の第1のものを再ラベル付けすることに失敗したことに応じて、1つ以上の前記少なくとも1つのプロセッサ回路は、前記分類のうちの第1のものを拒否されたデータとして識別する、請求項4に記載の装置。
【請求項6】
前記第1のジョブはフィルタジョブであり、前記分類は第1の分類セットであり、1つ以上の前記少なくとも1つのプロセッサ回路は、サンプリング方式及びサンプル数に基づいて前記第1の分類セットを選択する、請求項1に記載の装置。
【請求項7】
前記合意基準は、合意規則のシーケンスを有するカスタマイズされた集約アルゴリズムを含む、請求項1に記載の装置。
【請求項8】
機械可読命令を含むコンピュータ可読媒体であって、
機械学習モデルを実行して、アイテム記録に関連付けられたアイテムの分類を推論し、該分類の1つは、階層的分類タクソノミの1つ以上のクラスラベルを含むものであり、
通信ネットワークを介して1つ以上のクラウドソーシングシステムに第1のジョブを送信し、該第1のジョブは前記分類の評価を含むものであり、
前記分類の検証結果を生成し、該検証結果の第1のものは、前記分類の第1のものに対応する評価決定の集合に対する合意基準の適用に基づくものであり、該評価決定は、1つ以上のクラウドソーシングシステムから受信された、前記分類の第1のものに対応するものであり、
前記機械学習モデルに関連する精度情報を含み、前記検証結果に基づく前記機械学習モデルに対応する報告を生成することによって、前記機械学習モデルの学習を改善する
ことを実行させる、コンピュータ可読媒体。
【請求項9】
前記精度情報は、前記機械学習モデルに関連する現在及び過去の精度を含む、請求項8に記載のコンピュータ可読媒体。
【請求項10】
前記検証結果の第1のものは、妥当な分類、妥当ではない分類、または不確定な分類のうちの1つである、請求項8に記載のコンピュータ可読媒体。
【請求項11】
前記検証結果の第1のものが、前記妥当ではない分類または前記不確定な分類である場合、前記機械可読命令は、1つ以上の前記少なくとも1つのプロセッサ回路に対し、再ラベル付けのために、少なくとも1人のドメインエキスパートに前記分類の第1のものを送信させる、請求項10に記載のコンピュータ可読媒体。
【請求項12】
前記ドメインエキスパートが前記分類のうちの第1のものを再ラベル付けすることに失敗したことに応じて、前記機械可読命令は、1つ以上の前記少なくとも1つのプロセッサ回路に対し、前記分類のうちの第1のものを拒否されたデータとして識別させる、請求項11に記載のコンピュータ可読媒体。
【請求項13】
前記第1のジョブはフィルタジョブであり、前記分類は第1の分類セットであり、前記機械可読命令は、1つ以上の前記少なくとも1つのプロセッサ回路に対し、サンプリング方式及びサンプル数に基づいて前記第1の分類セットを選択させる、請求項8に記載のコンピュータ可読媒体。
【請求項14】
前記合意基準は、合意規則のシーケンスを有するカスタマイズされた集約アルゴリズムを含む、請求項8に記載のコンピュータ可読媒体。
【請求項15】
機械学習モデルを実行して、アイテム記録に関連付けられたアイテムの分類を推論するステップであって、該分類の1つは階層的分類タクソノミの1つ以上のクラスラベルを含むものである、ステップと、
通信ネットワークを介して1つ以上のクラウドソーシングシステムに送信される第1のジョブを実行するステップであって、該第1のジョブは前記分類の評価を含むものである、ステップと、
前記分類の検証結果を生成するステップであって、前記検証結果の第1のものは、前記分類の第1のものに対応する評価決定の集合に対する合意基準の適用に基づくものであり、該評価決定は、1つ以上のクラウドソーシングシステムから受信された、前記分類の第1のものに対応するものである、ステップと、
前記機械学習モデルに関連する精度情報を含み、前記検証結果に基づく前記機械学習モデルに対応する報告を生成することによって、前記機械学習モデルの学習を改善するステップと
を含んでなる方法。
【請求項16】
前記精度情報は、前記機械学習モデルに関連する現在及び過去の精度を含む、請求項15に記載の方法。
【請求項17】
前記検証結果の第1のものは、妥当な分類、妥当ではない分類、または不確定な分類のうちの1つである、請求項15に記載の方法。
【請求項18】
前記検証結果の第1のものが、前記妥当ではない分類または前記不確定な分類である場合、再ラベル付けのために、少なくとも1つのドメインエキスパートに前記分類の第1のものを送信するステップをさらに含む、請求項17に記載の方法。
【請求項19】
前記ドメインエキスパートが、前記分類の第1のものを再ラベル付けするのに失敗したことに応じて、前記分類の第1のものを拒否されたデータとして識別するステップをさらに含む、請求項18に記載の方法。
【請求項20】
前記第1のジョブはフィルタジョブであり、前記分類は第1の分類セットであり、サンプリング方式及びサンプル数に基づいて前記第1の分類セットを選択するステップをさらに含む、請求項15に記載の方法。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0053
【補正方法】変更
【補正の内容】
【0053】
他の実施形態は特許請求の範囲に含まれる。
なお、本願の出願当初の開示事項を維持するために、本願の出願当初の請求項1~20の記載内容を以下に追加する。
(請求項1)
アイテムにラベル付けを行う、コンピュータによる方法であって、
アイテムの説明を含むアイテム記録を受け付けるステップと、
前記アイテムについて、1つ以上の機械学習ベースの分類器に基づき、各クラスラベルに関連付けられるノードの連続したレベルを有する階層的分類タクソノミにおける分類を推論するステップであって、分類パスは前記階層的分類タクソノミにおけるクラスラベルのうちの1つ以上を含む、ステップと、
通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するステップであって、前記ラベル付けタスクは、前記アイテムの説明と、前記分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、前記分類を評価することを含む、ステップと、
前記クラウドソーシングシステムから評価決定を受け付けるステップと、
前記分類を検証して検証結果を得るステップであって、前記検証は、受け付けられた前記評価決定の集合に対する少なくとも1つの合意基準の適用を含む、ステップと、
前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先へ送るステップと
を含む方法。
(請求項2)
前記推論は前記アイテム記録に基づく、請求項1に記載の方法。
(請求項3)
前記分類は、前記階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスに対応する分類パスを含む、請求項1に記載の方法。
(請求項4)
前記ラベル付けタスクは、前記アイテムの説明と、前記分類パスにおけるクラスラベルの順序付きシーケンスとに少なくとも部分的に基づいて、前記分類パスを確認することを含む、請求項3に記載の方法。
(請求項5)
前記分類パスの確認は更に、前記アイテムの説明を含むオンライン検索クエリの結果に基づく、請求項4に記載の方法。
(請求項6)
前記アイテム記録は前記アイテムに関連付けられる業者を含み、前記分類パスの確認は更に前記業者に基づく、請求項4に記載の方法。
(請求項7)
前記アイテム記録は前記アイテムに関連付けられる価格を含み、前記分類パスの確認は更に前記価格に基づく、請求項4に記載の方法。
(請求項8)
前記検証は、
第1の合意基準が満たされないときに、前記クラウドソーシングシステムに参加している少なくとも1人の別のワーカに前記ラベル付けタスクを発行することと、
少なくとも1人の前記別のワーカから各評価決定を受け付けることと
を含み、
前記適用は、受け付けられた前記評価決定の集合に対して第2の合意基準を適用することを含む、請求項1に記載の方法。
(請求項9)
前記分類パスが妥当である場合に、前記分類における前記クラスラベルのうちの1つ以上のクラスラベルが、1つ以上の前記機械学習ベースの分類器のためのトレーニングデータとして指定される、請求項1に記載の方法。
(請求項10)
前記分類が妥当ではない場合に、前記送るステップが、通信ネットワークを通して、ラベル付替えを行う少なくとも1人のドメインエキスパートに対して前記ラベル付けタスクを発行することを含む、請求項1に記載の方法。
(請求項11)
少なくとも1人の前記ドメインエキスパートから、前記分類における1つ以上のクラスラベルのうち、ラベル付替えがなされたクラスラベルを受け付けるステップと、
前記分類において前記ラベル付替えがなされたクラスラベルを、1つ以上の前記機械学習ベースの分類器のためのトレーニングデータとして指定するステップと
を更に含む請求項10に記載の方法。
(請求項12)
重複するタスクを前記発行の前にフィルタリングにより除外するステップを更に含む請求項1に記載の方法。
(請求項13)
推論される前記分類は、前記階層的分類タクソノミ内の1つのレベルから、前記階層的分類タクソノミ内の連続したレベルを経て、前記階層的分類タクソノミ内の別のレベルへと延びるものである、請求項1に記載の方法。
(請求項14)
前記階層的分類タクソノミ内の別のレベルは、前記階層的分類タクソノミ内の葉ノードレベルに対応するものである、請求項13に記載の方法。
(請求項15)
推論される前記分類は、前記階層的分類タクソノミ内の連続したレベルを経て延び、葉ノードレベルの前に終了する、請求項1に記載の方法。
(請求項16)
前記アイテム記録が製品の説明を含む、請求項1に記載の方法。
(請求項17)
プロセッサにより実行される実行可能命令を記憶するメモリ部を備える、コンピュータにより読出し可能なデータ記憶装置であって、
前記メモリ部は、
アイテムについて、1つ以上の機械学習ベースの分類器に基づき、各クラスラベルに関連付けられるノードの連続したレベルを有する階層的分類タクソノミにおける分類を推論するための実行可能命令であって、分類パスは前記階層的分類タクソノミにおけるクラスラベルのうちの1つ以上を含む、実行可能命令と、
通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するための実行可能命令であって、前記ラベル付けタスクは、前記アイテムの説明と、前記分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、前記分類を評価することを含む、実行可能命令と、
前記クラウドソーシングシステムからラベル付けタスクに関する評価決定を受け付けるための実行可能命令と、
前記分類を検証して検証結果を得るための実行可能命令であって、受け付けられた前記評価決定の集合に対して少なくとも1つの合意基準を適用するための実行可能命令を含む実行可能命令と、
前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先に送るための実行可能命令と
を有する、コンピュータにより読出し可能なデータ記憶装置。
(請求項18)
前記分類は、前記階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスに対応する分類パスを含む、請求項17に記載のコンピュータにより読出し可能なデータ記憶装置。
(請求項19)
通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するステップであって、前記ラベル付けタスクは、階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスを含む、推論された分類を、アイテムの説明と、分類パス内のクラスラベルとに少なくとも部分的に基づいて評価することを含む、ステップと、
前記クラウドソーシングシステムから各評価決定を受け付けるステップと
を行う通信インタフェースと、
前記分類を検証して検証結果を得るステップであって、前記検証は、受け付けられた前記評価決定の集合に対して少なくとも1つの合意基準を適用することを含む、ステップと、
前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先へ送るステップと
を行うプロセッサと
を備えるシステム。
(請求項20)
前記分類パスが妥当ではない場合に、前記プロセッサは、通信ネットワークを通して、ラベル付替えを行う少なくとも1人のドメインエキスパートに前記ラベル付けタスクを送る、請求項19に記載のシステム。
【外国語明細書】