IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニーの特許一覧

特許7458148ラベル付きトレーニングデータの品質向上
<>
  • 特許-ラベル付きトレーニングデータの品質向上 図1
  • 特許-ラベル付きトレーニングデータの品質向上 図2
  • 特許-ラベル付きトレーニングデータの品質向上 図3
  • 特許-ラベル付きトレーニングデータの品質向上 図4A
  • 特許-ラベル付きトレーニングデータの品質向上 図4B
  • 特許-ラベル付きトレーニングデータの品質向上 図5
  • 特許-ラベル付きトレーニングデータの品質向上 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-21
(45)【発行日】2024-03-29
(54)【発明の名称】ラベル付きトレーニングデータの品質向上
(51)【国際特許分類】
   G06F 16/906 20190101AFI20240322BHJP
   G06F 16/907 20190101ALI20240322BHJP
   G06F 16/9038 20190101ALI20240322BHJP
【FI】
G06F16/906
G06F16/907
G06F16/9038
【請求項の数】 20
【外国語出願】
(21)【出願番号】P 2019013304
(22)【出願日】2019-01-29
(65)【公開番号】P2019164761
(43)【公開日】2019-09-26
【審査請求日】2021-12-22
(31)【優先権主張番号】62/623,448
(32)【優先日】2018-01-29
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/243,342
(32)【優先日】2019-01-09
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】521486376
【氏名又は名称】ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー
(74)【代理人】
【識別番号】100099623
【弁理士】
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100125380
【弁理士】
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【弁理士】
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【弁理士】
【氏名又は名称】田中 祐
(74)【代理人】
【識別番号】100180231
【弁理士】
【氏名又は名称】水島 亜希子
(72)【発明者】
【氏名】ミン‐クアン・ダニエル・ウー
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特表2017-505964(JP,A)
【文献】特表2014-509002(JP,A)
【文献】米国特許出願公開第2014/0314311(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
アイテムにラベル付けを行う、コンピュータによる方法であって、
アイテムの説明を含むアイテム記録を受け付けるステップと、
前記アイテムについて、機械学習モデルに基づき、各クラスラベルに関連付けられるノードの連続したレベルを含む階層的分類タクソノミにおける分類を推論するステップであって、前記分類は、前記階層的分類タクソノミにおけるクラスラベルのうちの1つ以上を含むものである、ステップと、
通信ネットワークを通して、少なくとも1つのクラウドソーシングシステムに参加しているワーカに第1のラベル付けタスクを発行するステップであって、前記第1のラベル付けタスクは、前記アイテムの説明と、前記分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、前記分類を評価することを含む、ステップと、
前記少なくとも1つのクラウドソーシングシステムから、前記第1のラベル付けタスクに対応する評価決定を受け付けるステップと、
前記第1のラベル付けタスクに対応する前記評価決定を集めるステップと、
前記評価決定の集合に対する第1の合意基準の適用によって、前記分類の検証結果を生成するステップと、
前記検証結果に基づき、通信ネットワークを通して、前記分類における前記1つ以上のクラスラベルに対応するデータを各宛先へ送るステップと、
前記機械学習モデルに対応する報告を生成するステップであって、前記報告は、前記機械学習モデルの現在及び過去の精度と、前記少なくとも1つのクラウドソーシングシステムによって処理された前記機械学習モデルをトレーニングするために使用されたデータに対応する比率とを含むものである、生成するステップと
を含む方法。
【請求項2】
前記推論は前記アイテム記録に基づく、請求項1に記載の方法。
【請求項3】
前記分類は、前記階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスに対応する分類パスを含む、請求項1に記載の方法。
【請求項4】
前記ラベル付けタスクは、前記アイテムの説明と、前記分類パスにおけるクラスラベルの順序付きシーケンスとに少なくとも部分的に基づいて、前記分類パスを確認することを含む、請求項3に記載の方法。
【請求項5】
前記分類パスの確認は更に、前記アイテムの説明を含むオンライン検索クエリの結果に基づく、請求項4に記載の方法。
【請求項6】
前記アイテム記録は前記アイテムに関連付けられる業者を含み、前記分類パスの確認は更に前記業者に基づく、請求項4に記載の方法。
【請求項7】
前記アイテム記録は前記アイテムに関連付けられる価格を含み、前記分類パスの確認は更に前記価格に基づく、請求項4に記載の方法。
【請求項8】
前記評価決定の集合は、第1の集合であり、
前記検証結果を生成するステップは、
前記第1の合意基準が満たされないときに、前記少なくとも1つのクラウドソーシングシステムに参加している少なくとも1人の別のワーカに前記ラベル付けタスクを発行することと、
少なくとも1人の前記別のワーカから各評価決定を受け付けることと
を含み、
前記適用は、前記評価決定の第2の集合に対して第2の合意基準を適用することを含み、前記第2の集合は、前記評価決定の前記第1の集合と、少なくとも1人の前記別のワーカからの前記各評価決定とを含む、請求項1に記載の方法。
【請求項9】
前記分類妥当である場合に、前記分類における前記クラスラベルのうちの前記1つ以上のクラスラベルが、前記機械学習モデルのためのトレーニングデータとして指定されるステップを更に含む、請求項1に記載の方法。
【請求項10】
前記分類が妥当ではない場合に、通信ネットワークを通して、ラベル付替えを行う少なくとも1人のドメインエキスパートに対して前記ラベル付けタスクを発行するステップを更に含む、請求項1に記載の方法。
【請求項11】
少なくとも1人の前記ドメインエキスパートから、前記分類における1つ以上のクラスラベルのうち、ラベル付替えがなされたクラスラベルを受け付けるステップと、
前記分類において前記ラベル付替えがなされたクラスラベルを、1つ以上の前記機械学習モデルのためのトレーニングデータとして指定するステップと
を更に含む請求項10に記載の方法。
【請求項12】
重複するタスクを前記発行の前にフィルタリングにより除外するステップを更に含む請求項1に記載の方法。
【請求項13】
前記分類は、前記階層的分類タクソノミ内の第1のレベルから、前記階層的分類タクソノミ内の第2のレベルへと延びるものである、請求項1に記載の方法。
【請求項14】
前記階層的分類タクソノミ内の第2のレベルは、前記階層的分類タクソノミ内の葉ノードレベルに対応するものである、請求項13に記載の方法。
【請求項15】
前記分類は、前記階層的分類タクソノミ内の連続したレベルを経て延び、葉ノードレベルの前に終了する、請求項1に記載の方法。
【請求項16】
実行可能命令を備える、コンピュータにより読出し可能なデータ記憶装置であって、前記実行可能命令は、プロセッサに対し、
アイテムについて、階層的分類タクソノミにおける分類を推論させ、前記階層的分類タクソノミは、各クラスラベルに関連付けられるノードの連続したレベルを含み、前記分類は、1つ以上の機械学習ベースの分類器に基づき、前記分類は、前記階層的分類タクソノミにおけるクラスラベルのうちの1つ以上を含むものであり、
通信ネットワークを通して、1つ以上のクラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行させ、前記ラベル付けタスクは、前記アイテムの説明と、前記分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、前記分類を評価することを含むものであり、
前記1つ以上のクラウドソーシングシステムからラベル付けタスクに関する評価決定を受け付けさせ、
前記ベル付けタスクに対応する前記評価決定を集めさせ、
前記評価決定の集合に対する第1の合意基準の適用によって、前記分類に対応する検証結果を生成させ、
前記検証結果に基づき、通信ネットワークを通して、前記分類における前記1つ以上のクラスラベルに対応するデータを各宛先に送らせ、
前記1つ以上の機械学習ベースの分類器に対応する報告を生成させ、前記報告は、前記1つ以上の機械学習ベースの分類器の現在及び過去の精度と、前記以上のクラウドソーシングシステムによって処理された前記1つ以上の機械学習ベースの分類器をトレーニングするために使用されたデータに対応する比率とを含むものである、
コンピュータにより読出し可能なデータ記憶装置。
【請求項17】
前記分類は、前記階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスに対応する分類パスを含む、請求項16に記載のコンピュータにより読出し可能なデータ記憶装置。
【請求項18】
通信ネットワークを通して、クラウドソーシングシステムに参加しているワーカにラベル付けタスクを発行することであって、前記ラベル付けタスクは、機械学習モデルによって推論された分類を評価することを含み、前記分類は、階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスを含み、前記評価は、アイテムの説明と、分類パス内のクラスラベルとに少なくとも部分的に基づくものである、発行することと、
前記クラウドソーシングシステムから、前記ラベル付けタスクに対応する各評価決定を受け付けることと
を行う通信インタフェースと、
前記ラベル付けタスクに対応する前記評価決定を集めることと、
前記評価決定の集合に対する少なくとも1つの合意基準の適用によって、前記分類の検証結果を生成することと、
前記検証結果に基づき、通信ネットワークを通して、前記分類における前記1つ以上のクラスラベルに対応するデータを各宛先へ送ることと、
前記機械学習モデルに対応する報告を生成することであって、前記報告は、前記機械学習モデルの現在及び過去の精度と、前記クラウドソーシングシステムによって処理された前記機械学習モデルをトレーニングするために使用されたデータに対応する比率とを含むものである、生成することと
を行うプロセッサ回路と
を備えるシステム。
【請求項19】
前記分類パスが妥当ではない場合に、前記プロセッサ回路は、通信ネットワークを通して、ラベル付替えを行う少なくとも1人のドメインエキスパートに前記ラベル付けタスクを送るものである、請求項18に記載のシステム。
【請求項20】
前記検証結果は、前記機械学習モデルによって推論された前記類についての信頼値を示すものである、請求項1に記載の方法。
【発明の詳細な説明】
【背景技術】
【0001】
階層的分類は、入力されたデータを、出力されるクラスの分類学的階層(taxonomic hierarchy)へとマッピングすることを伴う。多くの階層的分類手法が提案されている。例として、一対一(one-against-one)方式及び一対全(one-against-all)方式等の「フラット」な手法がある。これらの手法は、階層構造を無視する代わりに、階層的分類を、全ての非根ノードについて二項分類器の学習を伴う多クラス分類問題として扱うものである。別の手法は「ローカル」な分類手法であり、この手法は、階層内の各ノード、各親ノード、又は各レベルにおいて多クラス分類器をローカルにトレーニングすることを伴う。第4の一般的な手法は「グローバル」な分類手法であり、この手法は、クラス階層全体を同時に考慮することにより、各アイテムが階層内の1つ以上のクラスに割り当てられるように、グローバル分類器をトレーニングすることを伴う。
【0002】
多くの自動化された分類手法は、特定の分類タスクを実行するためにトレーニングされた機械学習ベースの分類器に頼るものである。他方、このような分類器の精度は、信頼性のある分類モデルをトレーニングするための十分なラベル付きデータを有することに依存する。高品質で安定したトレーニングデータ(推論される真実)を収集する能力は、多くの教師ありアルゴリズムを強化するのに不可欠である。これらのアルゴリズムは、多くの場合、検索エンジンのランキング、画像認識、ニュースのカテゴリ分類等の現代のビジネスソリューションのための基礎である。
【0003】
手作業により注釈が付けられたトレーニングデータが、多くの機械学習研究の基礎となっている。近年、退屈で労働集約的なラベル付けのタスクをクラウドソーシングプラットフォームのワーカへ外注する権限を研究者に与えて、トレーニングデータを生成するクラウドソーシングが一般的な方法となっている。クラウドソーシングプラットフォームは、コスト管理及び拡張性を向上させるための大規模で安価な労働力を提供する。しかし、クラウドソーシングプラットフォームのワーカによってもたらされる仕事の品質が安定しないことが、クラウドソーシング採用者にとっての大きな懸念である。
【0004】
最近の研究により、最良の真実推論アルゴリズムはドメインごとに極めて特有のものであり、大部分のシナリオにおいて、1つのアルゴリズムだけが他のアルゴリズムよりも性能が優れているわけではないことがわかっている。ときとして、期待値最大化アルゴリズム等の直観的手法が現実的な解決策である可能性がある。文献においては、研究の進歩は、タスクの困難度、ワーカのバイアス、ワーカの分散を扱うことに焦点を当てている。具体的には、タスクの困難度は、注釈付き回答が要求される質問の曖昧度を表すのに対し、ワーカのバイアス及びワーカの分散は、全てのタスクの困難度が等しいと仮定して、ワーカが誤った回答をする可能性を判断するために、ワーカの資質をモデル化する。
【0005】
研究によりクラウドソーシングによるラベル付けタスクの課題が明らかになってきているものの、費用対効果及び拡張性の面から、クラウドソーシングがトレーニングデータを生成するための魅力的な手法となることは否定できない。
【発明の概要】
【0006】
本明細書にて、1つ以上の機械学習ベースの分類器及び1つ以上のクラウドソーシングプラットフォームを用いて、分類学的階層に従ってアイテムを分類することができる1つ以上のコンピュータプログラムを実行する1つ以上のコンピュータによって実現されるシステムを説明する。
【0007】
本明細書において説明する主題の実施形態は、アイテムにラベル付けをする方法、システム、装置及び1つ以上のコンピュータプログラムにより符号化された有形で非一時的なキャリア媒体を含む。
【0008】
特定の実施形態によれば、アイテムの説明を含むアイテム記録が受け付けられる。そのアイテムについて、1つ以上の機械学習ベースの分類器に基づき、階層的分類タクソノミ(hierarchical classification taxonomy)における分類が推論される。階層的分類タクソノミは、各クラスラベルに関連付けられるノードの連続したレベルを含み、分類は、階層的分類タクソノミにおけるクラスラベルのうちの1つ以上のクラスラベルの順序付きシーケンスを含む。ラベル付けのタスクが、通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカに発行される。ラベル付けタスクは、アイテムの説明と、分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、分類を評価することを含む。クラウドソーシングシステムから評価決定が受け付けられる。分類が検証されて検証結果が得られ、この検証は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用することを含む。検証結果に基づき、分類における1つ以上のクラスラベルに対応するデータが、通信ネットワークを通して各宛先に送られる。
【0009】
本明細書において説明される主題の特定の実施形態は、プロセッサによって実行される実行可能命令を記憶するメモリ部を備える、コンピュータにより読出し可能なデータ記憶装置を含む。特定の実施形態によれば、メモリ部は、アイテムについて、1つ以上の機械学習ベースの分類器に基づき、各クラスラベルに関連付けられるノードの連続したレベルを含む階層的分類タクソノミにおける分類を推論するための実行可能命令を含み、分類は、階層的分類タクソノミにおけるクラスラベルのうちの1つ以上のクラスラベルの順序付きシーケンスを含む。メモリ部は更に、通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するための実行可能命令を含み、ラベル付けタスクは、アイテムの説明と、分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、分類を評価することを含む。メモリ部は更に、ラベル付けタスクに関する評価決定をクラウドソーシングシステムから受け付けるための実行可能命令を含む。メモリ部は更に、分類を検証して検証結果を得るための実行可能命令を含み、検証のための実行可能命令は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用するための実行可能命令を含む。メモリ部は、検証結果に基づき、通信ネットワークを通して、分類における1つ以上のクラスラベルに対応するデータを各宛先に送るための実行可能命令を更に含む。
【0010】
特定の実施形態に基づくシステムは、通信インタフェースとプロセッサとを備える。通信インタフェースは、通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するものであり、ラベル付けタスクは、アイテムの説明と、分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、階層的分類タクソノミの連続したレベルにおける1つ以上のクラスラベルの順序付きシーケンスを含む、推論された分類を評価することを含む。クラウドソーシングシステムから各評価決定が受け付けられる。プロセッサは、分類を検証して検証結果を取得し、この検証は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用することと、検証結果に基づき、通信ネットワークを通して、分類における1つ以上のクラスラベルに対応するデータを各宛先に送ることとを含む。
【0011】
本明細書において説明される主題の他の特徴、態様、目的及び利点は、説明、図面及び特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0012】
図1】木に対応する、ノードの例示的な分類学的階層の説明図である。
図2】統合されたデータラベル付けシステムの一例を示すブロック図である。
図3】アイテムにラベル付けを行うための例示的なプロセスのフロー図である。
図4A図1に示すノードの例示的な分類学的階層におけるノードの例示的な有向パスの説明図である。
図4B図4Aに示す例示的な分類パス内のノードに対応する出力クラスのシーケンスへとマッピングされる、アイテム説明に対応する入力のシーケンス図である。
図5】ノードの例示的な分類学的階層の説明図である。
図6】例示的なコンピュータ装置のブロック図である。
【発明を実施するための形態】
【0013】
以下の説明では、同様の要素を示す際に同様の符号を用いる。さらに、図面は、例示的な実施形態の主な特徴を模式的に示すためのものである。図面は、実際の実施形態のあらゆる特徴を示すことを目的としたものではなく、描かれている要素の相対的な寸法を表すためのものでもなく、一定の縮尺で描かれているわけでもない。
【0014】
本明細書では、1つ以上のクラウドソーシングプラットフォームから得られるラベル付きトレーニングデータの品質を向上させるための効率的なエンドツーエンドのマルチレベルハイブリッド解決策の例を説明する。これらの例は、ラベル付きトレーニングデータに基づいて、アイテムを階層的分類タクソノミに分類するためにトレーニングされる機械学習ベースの階層的分類システムとの関係で説明する。
【0015】
図1に例示的な分類学的階層10を示す。この分類学的階層10は、1つの根ノード12と複数の非根ノードとを有する木構造として構成される。各非根ノードは、別の単一のノードからの有向エッジにより接続される。末端の非根ノードは葉ノード(又は葉)と呼ばれ、その他の非根ノードは内部ノードと呼ばれる。木構造は、根ノード12からの非根ノードの深さに応じてレベル14、16、18及び20に編成され、同じ深さにあるノードは分類学的階層において同じレベルにある。各非根ノードは、分類学的階層内の各クラスを表す。他の例では、分類学的階層は、有向非巡回グラフとして構成することができる。一般に、分類学的階層10を用いて、数多くの異なるタイプのデータアイテムを異なる分類学的クラスに分類することができる。
【0016】
いくつかの例において、各データアイテムは、分類学的階層10内の1つ以上のレベルを通るそれぞれのパスに沿って分類される。これらの例のうちのいくつかにおいて、1以上の上位レベルの広いクラスから、0個又は1つ以上の徐々に狭くなるクラスを経て、葉ノードレベルのクラスへと至るまでの階層内の各レベルにつき1つのノードを含むパスに沿って、アイテムが分類される。他の例では、分類学的階層10を通る複数のパスに沿って、アイテムが分類される。いくつかの例において、分類学的階層10内の異なるレベルを横切るノードからなる部分的なパス又はセグメントに沿って、アイテムが分類される。これらの例のうちのいくつかにおいて、パス情報により分類の性能が向上する。
【0017】
他の例において、それぞれの分類器(例えば、単語埋込み及びテキスト分類を学習するためのニューラルネットワークベースの分類器等の機械学習分類器)により、分類学的階層10内の各レベルにおいて、他のレベルから独立して、データアイテムが分類される。これらの例のうちのいくつかにおいて、各機械学習モデルは、分類学的階層10内のそれぞれのレベルに関連するそれぞれのトレーニングデータ(例えば、アイテム説明データ)の組に関してトレーニングされる。
【0018】
本システムは、クラウドソーシングワーカ及びドメインエキスパート双方の強みを動的に、かつ高いコスト効率で活用する品質管理方式により、高品質のラベル付きトレーニングデータが得られるように設計される。このようにして、機械学習モデルは、クラウドソースによるラベルとエキスパートによるラベルとの組み合わせに関してトレーニングされる。
【0019】
第1の運用段階では、バイアス及び分散が大きい可能性がある回答を受ける可能性が低くなるように設計された方法により、クラウドソーシングのワーカから、コスト効果の高い真実推論が収集される。いくつかの例において、解決手段の実施形態は、分類学的階層内の単一のノード(例えば、あるアイテムタイプに対応する葉ノード)に対してアイテム説明を評価するようクラウドソーシングワーカに要求するのではなく、分類学的階層内の連続したレベルを通る完全又は部分的な分類パスを評価するようワーカに要求する。この手法は、アイテム説明(及び潜在的には、そのアイテムに関連付けられる他のデータ)を評価するための分類コンテキストを増やし、それにより、クラウドソーシングコストを上げずに、高品質で安定したトレーニングデータを受ける可能性を高めるものである。
【0020】
第2の運用段階では、特定のタスクに関するワーカからの回答の集合において合意が得られない場合に、当該タスクは1人以上の熟練したドメインエキスパートに渡される。このドメインエキスパートは、当人が受けるトレーニング及び報奨金により、ワーカのバイアス及びワーカの分散が小さいラベル付けタスクを行うことが期待される。熟練したエキスパートは、分類学的階層内のアイテム分類と、任意の所与の製品アイテムに最も適したアイテムカテゴリラベルを割り当てるための指針とを熟知している。いくつかの例において、ドメインエキスパートは、曖昧な事例を回避するために、高難度のタスクを「解決不可能」と明示するように指示されている。
【0021】
いくつかの例において、手作業で注釈を付けられた高品質のトレーニングデータを提供するために、自動化された統合データラベル付けエンジン(integrated data labeling engine, IDLE)によって、十分に熟練したドメインエキスパートとクラウドソーシングワーカとの間の協調が促進される。IDLEフレームワークは、ラベル付きデータを(クラウドソーシングによって)フィルタリングするプロセスと、フィルタ処理されたデータに(インハウスのドメインエキスパートによって)ラベル付替えを行うプロセスとを自動化することによって、高品質のトレーニングデータを生成するためのワークフローを効率化する。また、IDLEフレームワークは、IDLEシステムによって生成される分類結果の品質を評価するためだけでなく、トレーニングデータ生成タスクを管理するための統合環境も提供する。
【0022】
図2に、IDLEシステムアーキテクチャ30の一例を示す。データラベル付けフレームワーク内に以下の4つの主要な構成要素がある。
(1)ドメインエキスパート34及び1つ以上のクラウドソーシングプラットフォーム36に対し、アダプタ38を通してタスクを割り当て、ワーカ資質評価40及び回答集約42をも行うマルチレベルワーカプラットフォーム32
(2)ジョブ依頼者が種々のサンプリング方式の中から選択できるようにする、統合ユーザインタフェースを備えるサンプリング方式インタフェース44
(3)ジョブ依頼者が種々のタイプのジョブ(例えば、フィルタジョブ48、ラベル付替えジョブ50及び監査ジョブ52)をローンチできるようにするジョブ処理インタフェース46
(4)クラウドソーシングからの集約結果及び機械学習モデル56の向上を表示するデータレポータダッシュボード54
【0023】
マルチレベルワーカプラットフォーム32は、ジョブ依頼者が1つ以上のアダプタを通してMTurk及びCrowdflower等の種々のクラウドソーシングプラットフォームにジョブを提示できるようにする統合インタフェースを有する。さらに、ジョブ依頼者は、難しいラベル付けジョブをドメインエキスパートに割り当てることができ、ドメインエキスパートは、自らのIDLEシステムアカウントにサインインして、データにラベル付けをする。また、マルチレベルワーカプラットフォーム32は、ワーカ除外及び回答集約等の、種々のクラウドソーシングプラットフォーム36にわたって共通の機能に関する、統一された機能インタフェースを含む。
【0024】
1つ以上のアダプタ38は、(1)ジョブのローンチ、(2)ジョブの停止、及び(3)結果取得のために、サポートされるクラウドソーシングプラットフォームのアプリケーションプログラミングインタフェース(例えば、MTurk API)にジョブ依頼者が接続できるようにする各インタフェースを提供する。アダプタは、ユーザ体験又はIDLEシステム30の他の部分に大幅な変更を加えることなく、複数のクラウドソーシングプラットフォームを容易に統合できるようにする。
【0025】
複数のクラウドソーシングワーカから返される回答は必ずしも一致しているとは限らず、ワーカ資質は様々である(例えば、MTurkにおけるマスターワーカと非マスターワーカ)。これらの課題に対処するために、回答集約部42は、特定のタスクに対してワーカから受けた応答を集約し、返された回答からグラウンドトゥルースを推論する能力を向上させる。いくつかの例において、以下のアルゴリズム、すなわち、多数決、重み付き多数決及びベイズ投票のうちの1つ以上を用いて、タスク応答を集約し、合意を評価する。さらに、IDLEシステム30の開発者が、カスタマイズされた回答集約アルゴリズムを容易に実施できるようにするために、回答集約インタフェースが設けられる。いくつかの例において、ジョブ依頼者は、最終回答を決定するために、[#answer,#yes]形式の合意規則を定めることができる。いくつかの例において、規則テンプレートは、総#answer回答数における#yes/#answerの合意レベルに関して合意基準を定める。合意規則のシーケンスを通して、より複雑な回答集約方式を表すことができる。例えば、合意基準規則[3,3]と後続の規則[4,3]とによって、まず3つの回答の中での完全合意([3,3])を探すよう本システムに指示し、回答が最初の合意基準を満たさない質問については、第2の[4,3]合意基準に基づいて本システムは別の回答(#answer=3+1)を求める。いくつかの例において、クラウドソーシングジョブについて受け付けられたワーカの評価決定に、3つ以上の連続した合意基準が適用される。
【0026】
ワーカ資質評価部40は、ワーカ資質を評価する。ワーカの資質は、クラウドソーシングプラットフォームにおいて非常に多様である。この資質が事前にはわからないという事実により、ワーカの資質を評価することが更に重要になる。例となるIDLEシステム30は、ワーカの資質を推定するために、グラウンドトゥルース回答を有する集められた質問群(「ゴールデンタスク(golden task)」と呼ばれる)から質問をランダムに選択する。種々の異なる方式を用いて、ワーカ資質を評価することができる。いくつかの例において、IDLEシステム30は、ジョブを実行する前にまずゴールデンタスクに合格するようワーカに要求する認定試験を実行する。いくつかの例において、IDLEシステム30は、ゴールデンタスクを正規ジョブの質問と混在させる隠れ試験(hidden test)を実行し、ジョブが完了した後にゴールデンタスクに基づいて、ワーカの資質を評価する。いくつかの例において、ジョブ依頼者は、ワーカの資質を推定するために、一方又は両方の方式を使用することができる。
【0027】
サンプリング方式インタフェース44は、ジョブ依頼者が、種々の統計的サンプリング方式の中から選択できるようにする。IDLEシステム30は、要求されたサンプリング方式を開発者が実現できるようにする汎用インタフェースを含む。その目的は、ジョブ依頼者が多様なデータセットからサンプリングデータを取得することである。いくつかの例において、IDLEシステム30は、データクラスタリング及びその後の層化されたサンプリングと、トピックモデリング及びその後の層化されたサンプリングとを含む、いくつかの階層的なサンプリング方式を含む。
【0028】
ジョブ処理インタフェース46は、ジョブ依頼者が、種々のタイプのジョブ(例えば、フィルタジョブ48、ラベル付替えジョブ50及び監査ジョブ52)をローンチできるようにする。
【0029】
フィルタジョブ48においては、あらかじめラベルが付けられたデータから小さいデータセットがサンプリングされ、1つ以上のクラウドソーシングプラットフォームに送られてそれらのラベルが確認される。いくつかの例において、フィルタジョブ質問は、イエス/ノー質問(例えば、「与えられたラベルがこのデータと一致するか?」)又は多肢選択質問(例えば、「以下のラベルのうちのどれがこのデータと最も一致するか?」)のいずれかとして提示される。また、フィルタジョブは、資質が低いワーカを特定し、そのジョブに参加させないようにするために、1つ以上のゴールデンタスク質問を含むこともできる。ワーカが自分の回答を提出した後に、それらの結果は回答集約部42により収集され、回答集約部において、それらの結果が所定の手法に従って集約され、集約された結果が、上記のように1つ以上の合意基準に従って評価される。高い信頼水準に関連付けられる結果は、機械学習モデル56のための新たなトレーニングデータとして使用される。(フィルタリングにより除外された)残りのデータは、不正ラベル付きデータ(mislabeled data)として扱われ、上記のように、ドメインエキスパートによって処理されるラベル付替えジョブのための入力データとなる。クラウドソーシングワーカにとって自明なデータは直ちに通過することができ、ラベル付けをするのが難しいデータはフィルタリングにより除外されることが期待され、それゆえ、「フィルタ」ジョブと呼ばれる。ドメインエキスパートのコストはクラウドソーシングワーカよりはるかに高く、そのため、最初にクラウドソーシングによる労働力に大量の自明の質問に関するフィルタジョブを実行させ、その後、少数の難しいラベル付替えジョブをドメインエキスパートに委ねる方が、コスト効率が良い。
【0030】
データがフィルタジョブ部48を通過した後に、IDLEシステム30は、フィルタリングにより除外された不正ラベル付きデータを自動的に収集し、その不正ラベル付きデータを、ドメインエキスパートがラベル付替えのために入手できるようにする。上述のように、ドメインエキスパートは、不正ラベル付きデータに正しいラベルを割り当てることに熟練している。したがって、ドメインエキスパートによってラベルが付け替えられるデータは、機械学習モデル56のためのトレーニングデータとする前に、品質管理又は真実推論の措置が必要ない。それでも、ドメインエキスパートでさえもラベル付けができないデータが存在する場合があり、これらのデータは拒否されたデータと見なされ、更なる解析のために記録される。
【0031】
いくつかの例において、フィルタジョブ及びラベル付替えジョブが完了した後に、サンプリングされた全てのデータが、機械学習モデルのための新たなトレーニングデータとして、又は解析のための拒否データとして特定される。新たなトレーニングデータを用いて分類エンジンにおいて機械学習モデル56を再トレーニングした後に、そのモデルは、新たなトレーニングデータを処理し、製品カテゴリラベルを更新する。いくつかの例において、再トレーニングされた機械学習モデルの精度を評価するために、監査ジョブ52が実行される。フィルタジョブと同様に、正確にラベル付けがされたデータを識別するために、小さいデータセットがサンプリングされ、1つ以上のクラウドソーシングプラットフォーム36に送られる。高い信頼水準を有するデータを識別し、不正ラベル付きデータを単に破棄しながらモデル精度を計算するために、クラウドソーシングによる回答に回答集約部42が適用される。
【0032】
クラウドソーシングの有効性を最大限にし、コストを最小限にするために、IDLEシステム30はデータレポータ54を備える。このデータレポータは、管理者及び解析者がクラウドソーシングの有効性及び機械学習アルゴリズムの性能を評価するためのデータ視覚化ダッシュボードを有する。例えば、データレポータ54は、解析者が、ラベル付替えジョブによって取り扱う必要のあるフィルタジョブ質問の比率を決定できるようにする。いくつかの例において、データレポータ54は、クラウドソーシング報告及び機械学習モデル報告を含む。
【0033】
クラウドソーシング報告は、クラウドソーシングの有効性及び効率の評価を提供する。クラウドソーシング報告は、回答分布及び処理時間等の洞察が与えられるように設計される。クラウドソーシング報告には、クラウドソーシングジョブの統計値及び結果が含まれる。フィルタジョブ及び監査ジョブの場合、統計値は、イエス、ノーの比、及びジョブ完了時間を含む。ラベル付替えジョブの場合、報告は、ラベル付替え率とジョブ完了時間との比を示す。ジョブごとにクラウドソーシングの全体的性能を推定するために、ダッシュボードは、全処理時間に加えて、不正ラベル付きデータと高い信頼水準を有するデータとの比も示す。
【0034】
機械学習報告は、機械学習モデルに関する改善率を追跡する。したがって、機械学習報告は、モデルのための精度の履歴だけではなく、クラウドソーシングを通して処理されるデータの比率をも示す。
【0035】
図3は、分類学的クラスラベルを用いてアイテムにラベル付けをするためにIDLEシステム30によって実行される例示的なプロセス60のフロー図である。アイテムは、分類学的クラスラベルを用いてラベル付けをすることができる任意のタイプのものとすることができる。いくつかの例において、アイテムは製品に対応する。
【0036】
このプロセスによれば、図2に示したIDLEシステム30内のトレーニングデータのデータベース部62が、アイテムの説明を含むアイテム記録を受け付ける(図3、ブロック64)。このアイテム記録は、ジョブ処理部46又は他の何らかの供給源から受け取ることができる。いくつかの例において、アイテム記録は複数の、属性と値とのペアを含む。アイテム記録属性(データフィールドタイプとも呼ばれる)の例は、業者名、業者ウェブアドレス、アイテム説明、アイテム名、アイテム量、アイテム価格、アイテム画像、及び業者ウェブサイト上のアイテム画像へのハイパーリンクのうちの1つ以上を含む。
【0037】
1つ以上の機械学習ベースの分類器に基づいて、IDLEシステム30の機械学習部56は、当該アイテムに関して、それぞれのクラスラベルに関連付けられるノードの連続したレベルを含む階層的分類タクソノミにおける分類パスを推論し、ここで、この分類は、階層的分類タクソノミ内のクラスラベルのうちの1つ以上のクラスラベルの順序付きシーケンスを含む(図3、ブロック64)。いくつかの例において、機械学習部56が、アイテム説明と、潜在的にアイテム記録に含まれる1つ以上の他の属性値とから、分類を推論する。
【0038】
図4Aに、分類学的階層10の木構造内の非根ノードの、例示的な構造化された分類パス70を示す。ノードの構造化された分類パス70は、ノード1とノード1.2とノード1.2.2とノード1.2.2.2との順序付きシーケンスからなる。この例において、各非根ノードは、分類学的階層10内の異なるそれぞれのレベルに対応する。
【0039】
図4Bに示すように、いくつかの例において、機械学習部56は、階層的分類タクソノミの根からレベルごとに葉レベルに至るまで、1つ以上のアイテム記録値72(例えば、製品説明)に関する階層的分類(例えば、単純ベイズの機械学習モデルを使用する)を行って、構造化された階層的分類パス70内のノードのシーケンスを推論することに対応する出力{Y1,Y2,...,Y4}のシーケンス74を生成する。この例において、入力のシーケンス72は、製品の説明(すなわち、「女性用デニムシャツライトデニムL」)に対応し、分類学的階層10は、階層的な製品分類体系を定める。図示の例では、階層的分類体系30は、入力された(複数の)アイテム記録値を、出力されるノードのクラスラベルの有向階層シーケンス(「衣類及びアクセサリ」、「衣類」、「トップス及びTシャツ」、及び「女性用」)へと変換する。他の例では、機械学習部56は、葉ノードカテゴリを予測し、分類学的階層10に基づいて、構造化された分類パス70を推論する。
【0040】
階層的分類構造を通る単一の個別の分類パスをアイテム記録ごとに推論することに加えて、例となる機械学習部56は、アイテムに関連付けられる1つ以上の記録値72(例えば、製品説明)に基づいて、アイテムを階層的分類構造における複数のパスに分類するようにトレーニングすることもできる(すなわち、マルチラベル分類)。例えば、図5に、分類学的階層構造75内の異なるクラスに対応する2つのノード77、79及び2つの異なるパスにアイテムがマッピングされる例を示す。上述の手法に類似の手法を用いて、機械学習部56をトレーニングし、入力に関連付けられる全てのクラスラベルを取り込む出力分類を生成することができる。
【0041】
図2に戻ると、図示の例において、当該アイテムに関して階層的分類タクソノミ内の分類を推論した後に(図3、ブロック64)、機械学習部56はデータ記録をロードする。このデータ記録は、推論された分類と、アイテム記録値72のうちの1つ以上とを、あらかじめラベル付けがされたデータとしてデータベース80内に含む。いくつかの例において、ジョブ依頼者が、サンプリング方式インタフェース44を用いて、フィルタジョブを生成する。このプロセスにおいて、ジョブ依頼者は、フィルタジョブに関するサンプリング方式及びサンプル数を選択する。また、ジョブ依頼者は、クラウドソーシングタスクのパラメータ、例えば、業務当たりの報酬、及びHIT(ヒューマンインテリジェンスタスク)当たりの業務数も設定する。いくつかの例において、ジョブ依頼者は、クラウドソーシングワーカへの分類の提示を調整することができる。例えば、ジョブ依頼者は、分類タクソノミの上位部分、下位部分又は中間部分内の1つ以上のノード等の、推論された分類内のレベルの一部のみを提示することを選ぶ場合がある。他の例では、ジョブ依頼者は、分類の修正版を提示することに決める場合があり、そのバージョンでは、ワーカに提示される分類内で、複数のノードが組み合わされて単一のノードとされる(例えば、連続したノードを組み合わせて単一のノードとすることによる)。ワーカの資質を推定するために、本システムは、ジョブ内にゴールデンタスク(例えば、品質管理質問)を自動的に含むように構成することもできる。いくつかの例において、ジョブ生成前に、クラウドソーシングジョブの設定が再検討され、確認される。
【0042】
図3に戻ると、クラウドソーシングジョブが確認された後に、IDLEシステム30のジョブ処理部46は、通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行し、ここで、ラベル付けタスクは、アイテムの説明と、提示される分類パス内のクラスラベルとに少なくとも部分的に基づいて、提示される分類を評価することを含む(図3、ブロック82)。いくつかの例において、ラベル付けタスクは、アイテムの説明と、分類内のクラスラベルの順序付きシーケンスとに少なくとも部分的に基づいて、分類を確認することを伴う。これらの例のうちのいくつかにおいて、分類の確認は、アイテムの説明を含むオンライン検索クエリの結果に更に基づく。いくつかの例において、アイテム記録は、当該アイテムに関連付けられる業者を含み、分類パスの確認は業者に更に基づく。いくつかの例において、アイテム記録は、当該アイテムに関連付けられる価格を含み、提示される分類パスの確認は価格に更に基づく。
【0043】
いくつかの例において、IDLEシステム30は、ワーカのそれぞれのコンピューティングデバイス上にラベル付けタスクを提示し、ラベル付けタスクに対するワーカの応答(例えば、妥当であるとの応答又は妥当ではないとの応答)を受け付けるためのインタフェース仕様を発行する。
【0044】
1つ以上のクラウドソーシングプラットフォーム36にジョブを発行した後に、IDLEシステム30のジョブ処理部46は、1つ以上のクラウドソーシングシステムから評価決定を受け付ける(図3、ブロック84)。受け付けられる評価決定のタイプは、クラウドソーシングシステムに提示されるラベル付けタスクによって決まる。いくつかの例において、フィルタジョブは、イエス/ノー質問(例えば、「与えられたラベルがこのデータと一致するか?」)として提示される質問に回答するラベル付けタスクを含む。いくつかの例において、フィルタジョブが、多肢選択質問(例えば、「以下のラベルのうちのどれがこのデータと最も一致するか?」)として提示される質問に回答するラベル付けタスクを含む。いくつかの例において、フィルタジョブは、アイテムに対する代替分類を与えるラベル付けタスクを含む。
【0045】
クラウドソーシングジョブに関する評価決定を受け付けた後に、ジョブ処理部46は、分類を検証して検証結果を取得し、ここで、検証は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用することを含む(図3、ブロック86)。いくつかの例において、IDLEシステム30のジョブ処理部46は、クラウドソーシングワーカから評価決定を受け付けると、回答集約を自動的に実行する。上記の合意手法のいずれかを含む、多種多様の異なる回答集約アルゴリズムを用いて、検証結果が得られる。
【0046】
いくつかの例において、検証結果は、以下の分類、すなわち、妥当な分類と、妥当ではない分類と、不確定な分類とのうちの1つとすることができる。いくつかの例において、検証は、最初の合意基準が満たされない場合に、クラウドソーシングシステムに参加している少なくとも1人の別のワーカにラベル付けタスクを発行することと、当該少なくとも1人の別のワーカから各評価決定を受け付けることとを含む。これらの例において、少なくとも1人の別のワーカから受けた評価決定を含む、受け付けられた評価決定の集合に対して第2の合意基準が適用される。上述のように、いくつかの例においては、クラウドソーシングジョブに関して受け付けられたワーカの評価決定に対して3つ以上の連続した合意基準が適用される。
【0047】
分類の検証後、IDLEシステム30のジョブ処理部46は、検証結果に基づいて、通信ネットワークを通して、分類内の1つ以上のクラスラベルに対応するデータを各宛先に送る(図3、ブロック88)。いくつかの例では、分類パスが妥当な場合に、分類パス内のクラスラベルのうちの1つ以上が、機械学習ベースの分類器のうちの1つ以上のためのトレーニングデータとして指定され、トレーニングデータのデータベースへ送られる。いくつかの例においては、分類パスが妥当ではない場合に、ラベル付けタスクは、通信ネットワークを通して、ラベル付けに関する少なくとも1人のドメインエキスパートへ送られる。少なくとも1人のドメインエキスパートから、分類パス内のクラスラベルのうちの1つ以上のクラスラベルのラベル付替え済みバージョンを受け付けられた後に、分類パス内の1つ以上のクラスラベルのラベル付替え済みバージョンは、機械学習ベースの分類器のうちの1つ以上のためのトレーニングデータとして指定され、トレーニングデータのデータベースに送られる。
【0048】
図6に、本明細書において説明される階層的アイテム分類システムのうちの1つ以上を実現するように構成されるコンピュータ装置の例示的な実施形態を示す。コンピュータ装置320は、処理ユニット322と、システムメモリ324と、処理ユニット322をコンピュータ装置320内の様々な構成要素に接続するシステムバス326とを備える。処理ユニット322は、1つ以上のデータプロセッサを含むことができ、それらのデータプロセッサのそれぞれは、様々な市販のコンピュータプロセッサのうちの任意の1つの形態とすることができる。システムメモリ324は、通常、ソフトウェアアプリケーションに利用可能なアドレスを定めるソフトウェアアプリケーションアドレス指定空間に関連付けられた1つ以上の、コンピュータにより読出し可能な媒体を含む。システムメモリ324は、コンピュータ装置320の起動ルーチンを含む基本入出力システム(BIOS)を記憶する読み出し専用メモリ(ROM)と、ランダムアクセスメモリ(RAM)とを備えることができる。システムバス326は、メモリバス、周辺バス又はローカルバスとすることができ、PCI、VESA、Microchannel(マイクロチャネル)、ISA、及びEISAを含む様々なバスプロトコルのうちの任意のものと互換性を有することができる。コンピュータ装置320は、永続的記憶メモリ328(例えば、ハードドライブ、フロッピードライブ、CD ROMドライブ、磁気テープドライブ、フラッシュメモリデバイス、及びデジタルビデオディスク)をも備える。この永続的記憶メモリは、システムバス326に接続され、データ、データ構造体及びコンピュータ実行可能命令の不揮発性記憶装置又は永続的記憶装置を提供する1つ以上の、コンピュータにより読出し可能な媒体ディスクを含む。
【0049】
ユーザは、1つ以上の入力デバイス330(例えば、1つ以上のキーボード、コンピュータマウス、マイクロフォン、カメラ、ジョイスティック、物理運動センサ、及びタッチパッド)を用いて、コンピュータ装置320とインタラクトする(例えば、コマンド又はデータを入力する)ことができる。情報は、表示コントローラ334によって制御される表示モニタ332上でユーザに提示されるグラフィカルユーザインタフェース(GUI)を通じて示すことができる。コンピュータ装置320は、他の入出力ハードウェア(例えば、スピーカ及びプリンタ等の周辺出力デバイス)も備えていてもよい。コンピュータ装置320は、ネットワークアダプタ336(「ネットワークインタフェースカード」又はNICとも呼ばれる)を通じて他のネットワークノードに接続する。
【0050】
アプリケーションプログラミングインタフェース338(API)と、オペレーティングシステム(OS)340(例えば、マイクロソフト社(米国ワシントン州レドモンド)から市販されるWindows(登録商標)オペレーティングシステム)と、本明細書において説明される階層的分類システムにおけるステップ、タスク、動作又はプロセスのうちの1つ以上を実行するようにコンピュータ装置320をプログラミングする1つ以上のソフトウェアアプリケーションを含むソフトウェアアプリケーション341と、ドライバ342(例えば、GUIドライバ)と、ネットワークトランスポートプロトコル344と、データ346(例えば、入力データ、出力データ、プログラムデータ、レジストリ、及び構成設定)とを含む複数のプログラムモジュールを、システムメモリ324に記憶することができる。
【0051】
開示されるシステム、方法、プロセス、機能動作及び論理フローを含む、本明細書において説明される主題の例は、入力に関する処理を行い、出力を生成することによって機能を実行するように動作可能なデータ処理装置(例えば、コンピュータハードウェア及びデジタル電子回路)において実現することができる。また、本明細書において説明される主題の例は、データ処理装置によって実行するための、1つ以上の有形の非一時的なキャリア媒体(例えば、機械可読記憶デバイス、基板又はシーケンシャルアクセスメモリデバイス)上に符号化される一組以上のコンピュータ命令として、ソフトウェア又はファームウェアにおいて有形に具現化することができる。
【0052】
本明細書において説明される具体的な実施態様の詳細は、特定の発明の特定の実施形態に特有な場合があり、特許請求される任意の発明の範囲に関する限定と解釈されるべきではない。例えば、別々の実施形態との関連で説明される特徴は、単一の実施形態に組み込むこともでき、単一の実施形態との関連で説明される特徴は、複数の別々の実施形態において実現することもできる。さらに、特定の順序において実行されるステップ、タスク、動作又はプロセスの開示は必ずしも、その特定の順序においてそれらのステップ、タスク、動作又はプロセスが実行されることを要するものではない。代わりに、場合によっては、開示されるステップ、タスク、動作及びプロセスのうちの1つ以上が、別の順序で、又はマルチタスクスケジュールに従って、又は並列に実行される場合がある。
【0053】
他の実施形態は特許請求の範囲に含まれる。
なお、本願の出願当初の開示事項を維持するために、本願の出願当初の請求項1~20の記載内容を以下に追加する。
(請求項1)
アイテムにラベル付けを行う、コンピュータによる方法であって、
アイテムの説明を含むアイテム記録を受け付けるステップと、
前記アイテムについて、1つ以上の機械学習ベースの分類器に基づき、各クラスラベルに関連付けられるノードの連続したレベルを有する階層的分類タクソノミにおける分類を推論するステップであって、分類パスは前記階層的分類タクソノミにおけるクラスラベルのうちの1つ以上を含む、ステップと、
通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するステップであって、前記ラベル付けタスクは、前記アイテムの説明と、前記分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、前記分類を評価することを含む、ステップと、
前記クラウドソーシングシステムから評価決定を受け付けるステップと、
前記分類を検証して検証結果を得るステップであって、前記検証は、受け付けられた前記評価決定の集合に対する少なくとも1つの合意基準の適用を含む、ステップと、
前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先へ送るステップと
を含む方法。
(請求項2)
前記推論は前記アイテム記録に基づく、請求項1に記載の方法。
(請求項3)
前記分類は、前記階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスに対応する分類パスを含む、請求項1に記載の方法。
(請求項4)
前記ラベル付けタスクは、前記アイテムの説明と、前記分類パスにおけるクラスラベルの順序付きシーケンスとに少なくとも部分的に基づいて、前記分類パスを確認することを含む、請求項3に記載の方法。
(請求項5)
前記分類パスの確認は更に、前記アイテムの説明を含むオンライン検索クエリの結果に基づく、請求項4に記載の方法。
(請求項6)
前記アイテム記録は前記アイテムに関連付けられる業者を含み、前記分類パスの確認は更に前記業者に基づく、請求項4に記載の方法。
(請求項7)
前記アイテム記録は前記アイテムに関連付けられる価格を含み、前記分類パスの確認は更に前記価格に基づく、請求項4に記載の方法。
(請求項8)
前記検証は、
第1の合意基準が満たされないときに、前記クラウドソーシングシステムに参加している少なくとも1人の別のワーカに前記ラベル付けタスクを発行することと、
少なくとも1人の前記別のワーカから各評価決定を受け付けることと
を含み、
前記適用は、受け付けられた前記評価決定の集合に対して第2の合意基準を適用することを含む、請求項1に記載の方法。
(請求項9)
前記分類パスが妥当である場合に、前記分類における前記クラスラベルのうちの1つ以上のクラスラベルが、1つ以上の前記機械学習ベースの分類器のためのトレーニングデータとして指定される、請求項1に記載の方法。
(請求項10)
前記分類が妥当ではない場合に、前記送るステップが、通信ネットワークを通して、ラベル付替えを行う少なくとも1人のドメインエキスパートに対して前記ラベル付けタスクを発行することを含む、請求項1に記載の方法。
(請求項11)
少なくとも1人の前記ドメインエキスパートから、前記分類における1つ以上のクラスラベルのうち、ラベル付替えがなされたクラスラベルを受け付けるステップと、
前記分類において前記ラベル付替えがなされたクラスラベルを、1つ以上の前記機械学習ベースの分類器のためのトレーニングデータとして指定するステップと
を更に含む請求項10に記載の方法。
(請求項12)
重複するタスクを前記発行の前にフィルタリングにより除外するステップを更に含む請求項1に記載の方法。
(請求項13)
推論される前記分類は、前記階層的分類タクソノミ内の1つのレベルから、前記階層的分類タクソノミ内の連続したレベルを経て、前記階層的分類タクソノミ内の別のレベルへと延びるものである、請求項1に記載の方法。
(請求項14)
前記階層的分類タクソノミ内の別のレベルは、前記階層的分類タクソノミ内の葉ノードレベルに対応するものである、請求項13に記載の方法。
(請求項15)
推論される前記分類は、前記階層的分類タクソノミ内の連続したレベルを経て延び、葉ノードレベルの前に終了する、請求項1に記載の方法。
(請求項16)
前記アイテム記録が製品の説明を含む、請求項1に記載の方法。
(請求項17)
プロセッサにより実行される実行可能命令を記憶するメモリ部を備える、コンピュータにより読出し可能なデータ記憶装置であって、
前記メモリ部は、
アイテムについて、1つ以上の機械学習ベースの分類器に基づき、各クラスラベルに関連付けられるノードの連続したレベルを有する階層的分類タクソノミにおける分類を推論するための実行可能命令であって、分類パスは前記階層的分類タクソノミにおけるクラスラベルのうちの1つ以上を含む、実行可能命令と、
通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するための実行可能命令であって、前記ラベル付けタスクは、前記アイテムの説明と、前記分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、前記分類を評価することを含む、実行可能命令と、
前記クラウドソーシングシステムからラベル付けタスクに関する評価決定を受け付けるための実行可能命令と、
前記分類を検証して検証結果を得るための実行可能命令であって、受け付けられた前記評価決定の集合に対して少なくとも1つの合意基準を適用するための実行可能命令を含む実行可能命令と、
前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先に送るための実行可能命令と
を有する、コンピュータにより読出し可能なデータ記憶装置。
(請求項18)
前記分類は、前記階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスに対応する分類パスを含む、請求項17に記載のコンピュータにより読出し可能なデータ記憶装置。
(請求項19)
通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するステップであって、前記ラベル付けタスクは、階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスを含む、推論された分類を、アイテムの説明と、分類パス内のクラスラベルとに少なくとも部分的に基づいて評価することを含む、ステップと、
前記クラウドソーシングシステムから各評価決定を受け付けるステップと
を行う通信インタフェースと、
前記分類を検証して検証結果を得るステップであって、前記検証は、受け付けられた前記評価決定の集合に対して少なくとも1つの合意基準を適用することを含む、ステップと、
前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先へ送るステップと
を行うプロセッサと
を備えるシステム。
(請求項20)
前記分類パスが妥当ではない場合に、前記プロセッサは、通信ネットワークを通して、ラベル付替えを行う少なくとも1人のドメインエキスパートに前記ラベル付けタスクを送る、請求項19に記載のシステム。
図1
図2
図3
図4A
図4B
図5
図6