IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エムロ・カンパニー・リミテッドの特許一覧

特許7351544機械学習基盤アイテムを分類する方法および装置
<>
  • 特許-機械学習基盤アイテムを分類する方法および装置 図1
  • 特許-機械学習基盤アイテムを分類する方法および装置 図2
  • 特許-機械学習基盤アイテムを分類する方法および装置 図3
  • 特許-機械学習基盤アイテムを分類する方法および装置 図4
  • 特許-機械学習基盤アイテムを分類する方法および装置 図5
  • 特許-機械学習基盤アイテムを分類する方法および装置 図6
  • 特許-機械学習基盤アイテムを分類する方法および装置 図7
  • 特許-機械学習基盤アイテムを分類する方法および装置 図8
  • 特許-機械学習基盤アイテムを分類する方法および装置 図9
  • 特許-機械学習基盤アイテムを分類する方法および装置 図10
  • 特許-機械学習基盤アイテムを分類する方法および装置 図11
  • 特許-機械学習基盤アイテムを分類する方法および装置 図12
  • 特許-機械学習基盤アイテムを分類する方法および装置 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-19
(45)【発行日】2023-09-27
(54)【発明の名称】機械学習基盤アイテムを分類する方法および装置
(51)【国際特許分類】
   G06F 16/35 20190101AFI20230920BHJP
   G06F 40/284 20200101ALI20230920BHJP
【FI】
G06F16/35
G06F40/284
【請求項の数】 10
(21)【出願番号】P 2021189432
(22)【出願日】2021-11-22
(65)【公開番号】P2022082522
(43)【公開日】2022-06-02
【審査請求日】2021-11-22
(31)【優先権主張番号】10-2020-0158141
(32)【優先日】2020-11-23
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】521511715
【氏名又は名称】エムロ・カンパニー・リミテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ジェ・ミン・ソン
(72)【発明者】
【氏名】クァン・ソプ・キム
(72)【発明者】
【氏名】ホ・ジン・ファン
(72)【発明者】
【氏名】ジョン・フィ・パク
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2020-160867(JP,A)
【文献】特開2020-071534(JP,A)
【文献】特開2020-086548(JP,A)
【文献】特開2003-186888(JP,A)
【文献】中国特許出願公開第111753079(CN,A)
【文献】中国特許出願公開第110162630(CN,A)
【文献】高橋 寛治、外1名,部署役職テキストの自動分割,言語処理学会第25回年次大会 発表論文集 [online],日本,言語処理学会,2019年04月18日,p.1245-1248
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
アイテム分類のための装置によって実行される機械学習基盤アイテムを分類する方法であって、
前記アイテム分類のための装置によって、複数のアイテムに関する情報が受信されると、前記アイテムに関する情報それぞれに対して単語単位にトークン化を遂行する段階と、
前記アイテム分類のための装置によって、機械学習を通じて各単語よりも長さが短いサブワードに対応するサブワードベクトルを生成する段階と、
前記アイテム分類のための装置によって、機械学習を通じて前記サブワードベクトルに第1の加重値を割り当てる段階と、
前記アイテム分類のための装置によって、前記サブワードベクトルおよび前記第1の加重値に基づいて、前記各単語に対応する単語ベクトルおよび前記アイテムに関する情報それぞれに対応する文章ベクトルを生成する段階と、
前記アイテム分類のための装置によって、前記文章ベクトル間の類似度に基づいて、前記複数のアイテムに関する情報を分類する段階と、を含む、機械学習基盤アイテムを分類する方法。
【請求項2】
前記アイテム分類のための装置によって、前記トークン化が遂行された少なくとも一つの単語に第2の加重値を割り当てる段階をさらに含み、
前記文章ベクトルは、前記第2の加重値によって生成されるものである、請求項1に記載の機械学習基盤アイテムを分類する方法。
【請求項3】
前記第2の加重値は、前記アイテムに関する情報に含まれた属性項目の数によって変わる、請求項2に記載の機械学習基盤アイテムを分類する方法。
【請求項4】
前記単語ベクトルは、前記サブワードベクトルの和または平均のうち少なくとも一つに基づいて生成されるものである、請求項1に記載の機械学習基盤アイテムを分類する方法。
【請求項5】
前記アイテム分類のための装置によって、前記各単語に対応するベクトルとして構成された単語エンベディングベクトルテーブルを生成する段階をさらに含む、請求項1に記載の機械学習基盤アイテムを分類する方法。
【請求項6】
前記複数のアイテムに関する情報を分類する段階は、
前記アイテム分類のための装置によって、類似度が第1臨界値を超える前記複数のアイテムに関する情報を抽出する段階を含む、請求項1に記載の機械学習基盤アイテムを分類する方法。
【請求項7】
前記アイテムに関する情報それぞれに対してトークン化を遂行する前に、
前記アイテム分類のための装置によって、前記アイテムに関する情報に含まれた空白または既設定された文字のうち少なくとも一つに基づいて、前記アイテムに関する情報を少なくとも一つのタギングのための文字列に分ける段階と、
前記アイテム分類のための装置によって、機械学習を通じて前記少なくとも一つのタギングのための文字列それぞれにタグを追加する段階と、
前記アイテム分類のための装置によって、前記タグに基づいて、前記少なくとも一つのタギングのための文字列のうち一つ以上の前記タギングのための文字列をトークンとして決定する段階と、をさらに含む、請求項1に記載の機械学習基盤アイテムを分類する方法。
【請求項8】
前記タグは、開始タグ、連続タグ、および終了タグを含み、
前記一つ以上のタギングのための文字列をトークンとして決定する段階は、
前記開始タグが追加されたトークンから次の開始タグが追加されたトークン前のトークンまたは終了タグが追加されたトークンまで文字列を併合することで一つのトークンとして決定する段階である、請求項7に記載の機械学習基盤アイテムを分類する方法。
【請求項9】
少なくとも一つの命令語(instruction)を保存するメモリ(memory)と、
前記少なくとも一つの命令語を実行して、
複数のアイテムに関する情報が受信されると、アイテムに関する情報それぞれに対して単語単位にトークン化を遂行し、
機械学習を通じて各単語よりも長さが短いサブワードに対応するサブワードベクトルを生成し、
機械学習を通じて前記サブワードベクトルに第1の加重値を割り当て、
前記サブワードベクトルおよび前記第1の加重値に基づいて、前記各単語に対応する単語ベクトルおよび前記アイテムに関する情報それぞれに対応する文章ベクトルを生成し、
前記文章ベクトル間の類似度に基づいて、前記複数のアイテムに関する情報を分類するプロセッサー(processor)を含む、機械学習基盤アイテムを分類する装置。
【請求項10】
機械学習基盤アイテムを分類する方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な非一時的記憶媒体であって、
前記機械学習基盤アイテムを分類する方法は、
複数のアイテムに関する情報が受信されると、アイテムに関する情報それぞれに対して単語単位にトークン化を遂行する段階と、
機械学習を通じて各単語よりも長さが短いサブワードに対応するサブワードベクトルを生成する段階と、
機械学習を通じて前記サブワードベクトルに第1の加重値を割り当てる段階と、
前記サブワードベクトルおよび前記第1の加重値に基づいて、前記各単語に対応する単語ベクトルおよび前記アイテムに関する情報それぞれに対応する文章ベクトルを生成する段階と、
前記文章ベクトル間の類似度に基づいて、前記複数のアイテムに関する情報を分類する段階と、を含む、非一時的記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、機械学習基盤アイテムを分類する方法および装置に関する。より具体的には、本開示は、分類対象のアイテム情報を機械学習を通じて生成された学習モデルを使用して分類する方法およびこれを用いた装置に関する。
【背景技術】
【0002】
自然言語処理(Natural Language Processing,NLP)は、人間の言語現象をコンピュータのような機械を用いて模写することができるよう研究し、これを具現する人工知能の主要分野のうち一つである。最近の機械学習およびディープラーニング技術が発展することによって、機械学習およびディープランニング基盤の自然語処理を通じて膨大なテキストから意味のある情報を抽出し、活用するための言語処理研究開発が活発に進められている。
【0003】
先行文献:韓国登録特許公報10-1939106
【0004】
先行文献は、学習システムを用いた在庫管理システムおよび在庫管理方法に関して開示している。このように、企業は、業務の効率および生産性を向上させるために、企業において算出される各種情報を標準化して統合および管理することが要求される。例えば、企業において購入するアイテムの場合、体系的な管理がなされなければ、購入の重複が発生することがあり、既存の購入内訳の検索が困難になり得る。先行文献の場合、予測モデルを作成し、これに基づいて在庫管理を遂行する技術的特徴を開示しているが、具体的な予測モデルの生成方法や在庫管理に特化したアイテム分類方法に関しては開示していない。
【0005】
企業において既存で使用していたアイテムに関連した各種情報は、別途の項目分類がされていないローテキスト(raw text)である場合が多いため、自然言語処理基盤のアイテムに関する情報を管理する方法およびシステムに関する必要性が存在する。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本実施形態が解決しようとする課題は、複数のアイテムに関する情報に基づいて、アイテムを分類し、複数のアイテムの中から類似したり、重複するアイテムに関する情報を出力する方法および装置を提供することにある。
【0007】
本実施形態が解決しようとする課題は、アイテム情報に関連した学習モデルを使用してアイテムに関連したテキスト情報から複数のアイテムを分類する方法および装置を提供することにある。
【0008】
本実施形態が達成しようとする技術的課題は、前記のような技術的課題に限定されず、以下の実施形態からさらに他の技術的課題が類推され得る。
【課題を解決するための手段】
【0009】
第1実施形態によって、機械学習基盤アイテムを分類する方法は、複数のアイテムに関する情報が受信されると、アイテムに関する情報それぞれに対して単語単位にトークン化を遂行する段階、機械学習を通じて各単語よりも長さが短いサブワードに対応するサブワードベクトルを生成する段階、前記サブワードベクトルに基づいて、前記各単語に対応する単語ベクトルおよび前記アイテムに関する情報それぞれに対応する文章ベクトルを生成する段階、および前記文章ベクトル間の類似度に基づいて、前記複数のアイテムに関する情報を分類する段階を含むことができる。
【0010】
第2実施形態によって、機械学習基盤アイテムを分類する装置は、少なくとも一つの命令語(instruction)を保存するメモリ(memory)および前記少なくとも一つの命令語を実行して、複数のアイテムに関する情報が受信されると 、アイテムに関する情報それぞれ対する単語単位にトークン化を遂行し、機械学習を通じて各単語よりも長さが短いサブワードに対応するサブワードベクトルを生成し、前記サブワードベクトルに基づいて、前記各単語に対応する単語ベクトルおよび前記アイテムに関する情報それぞれに対応する文章ベクトルを生成し、前記文章ベクトル間の類似度に基づいて、前記複数のアイテムに関する情報を分類するプロセッサー(processor)を含むことができる。
【0011】
第3実施形態によって、コンピュータで読み取り可能な記憶媒体は、機械学習基盤アイテムを分類する方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な非一時的記憶媒体であって、前記機械学習基盤アイテムを分類する方法は、複数のアイテムに関する情報が受信されると、アイテムに関する情報それぞれに対して単語単位にトークン化を遂行する段階、機械学習を通じて各単語よりも長さが短いサブワードに対応するサブワードベクトルを生成する段階、前記サブワードベクトルに基づいて、前記各単語に対応する単語ベクトルおよび前記アイテムに関する情報それぞれに対応する文章ベクトルを生成する段階、および前記文章ベクトル間の類似度に基づいて、前記複数のアイテムに関する情報を分類する段階を含むことができる。
【0012】
その他、実施形態の具体的な事項は、詳細な説明および図面に含まれている。
【発明の効果】
【0013】
本開示によるアイテムを分類する方法および装置は、各単語よりも長さが短いサブワードに対応するサブワードベクトルを用いて文章ベクトルを生成するため、新規に入力された単語または誤脱字による類似度測定の性能低下が減少される効果がある。
【0014】
また、本開示によるアイテムを分類する方法および装置は、少なくとも一つ以上の単語に対して加重値を割り当てることができるため、同じアイテムに関する情報が入力されても各単語の加重値の値が変われば、異なる類似度の結果を算出できる効果がある。
【0015】
発明の効果は、以上で言及した効果に制限されず、言及されていないさらに他の効果は、請求の範囲の記載から当該技術分野の通常の技術者に明確に理解され得るだろう。
【図面の簡単な説明】
【0016】
図1】本発明の実施形態に係るアイテム管理システムを説明するための図面である。
図2】本発明の一実施形態に係るアイテムに関する情報を管理する方法を説明するための図面である。
図3】一実施形態によって、アイテムに関する情報に対してベクトル化を遂行する方法を説明するための図面である。
図4】一実施形態によって、アイテムに関する情報に対してベクトル化を遂行する方法を説明するための図面である。
図5】一実施形態によって、単語エンベディングベクトルテーブルに含まれるベクトルを生成する方法を説明するための図面である。
図6】一実施形態によってアイテム分類を遂行する前にアイテムに関する情報を前処理する方法を説明するための図面である。
図7】一実施形態によってアイテム分類に関連した学習モデルを生成するときに調整され得るパラメータを説明するための図面である。
図8】一実施形態に係るアイテム分類装置が類似または重複されるアイテムの組に関する情報を提供する方法を説明するための図面である。
図9】一実施形態によってアイテム分類した結果を説明するための図面である。
図10】一実施形態によってアイテム分類した結果を説明するための図面である。
図11】一実施形態によってアイテム分類した結果を説明するための図面である。
図12】一実施形態に係る機械学習基盤アイテムを分類する方法を説明するためのフローチャートである。
図13】一実施形態に係る機械学習基盤アイテムを分類する装置を説明するためのブロック図である。
【発明を実施するための形態】
【0017】
実施形態において使われる用語は、本開示における機能を考慮しつつ、可能な限り現在広く使われる一般的な用語を選択したが、これは当分野に従事する技術者の意図または判例、新たな技術の出現などによって変わり得る。また、特定の場合は、出願人が任意に選定した用語もあり、この場合、該当する説明の部分で詳細にその意味を記載するであろう。従って、本開示において使われる用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。
【0018】
明細書全体において、ある部分がある構成要素を「含む」とする時、これは特に反対の記載がない限り他の構成要素を除くものではなく、他の構成要素をさらに含み得ることを意味する。
【0019】
明細書全体において記載された、「a、b、およびcのうち少なくとも一つ」の表現は、「a単独」、「b単独」、「c単独」、「aおよびb」、「aおよびc」、「bおよびc」、または「a、b、cすべて」を包括することができる。
【0020】
以下では、添付した図面を参照して、本開示の実施形態に関して本開示が属する技術分野において通常の知識を有する者が容易に実施することができるよう詳細に説明する。しかし、本開示は、多様な異なる形態で具現され得、ここで説明する実施形態に限定されない。
【0021】
以下では、図面を参照して本開示の実施形態を詳細に説明する。
【0022】
図1は、本発明の実施形態に係るアイテム管理システムを説明するための図面である。
【0023】
本発明の一実施形態に係るアイテム管理システム100は、アイテムに関する情報が受信されると、各アイテムに関する情報を統一された形式に加工し、別のコードが割り当てられないアイテムに対してコードを割り当てることができ、特定アイテムに対して最初に割り当てられるコードは代表コードであり得る。実施形態においてアイテム情報は、一般的な文字列を含むことができ、少なくとも一つの区切り文字を含む文字列であり得る。実施形態において区切り文字は、空白および文章符号を含むことができ、これに限定されず、特定項目間を区別できる文字を含むことができる。
【0024】
図1を参考にすると、アイテム管理システム100は、複数の管理者111、112から購入アイテム情報を受信することができる。実施形態において購入アイテム情報は、該当アイテムを購入するための購入要請であり得、このとき、複数の管理者111、112から受信される購入アイテム情報は形式が異なり得るため、複数の購入要請を統合および管理するのに困難があり得る。
【0025】
従って、一実施形態に係るアイテム管理システム100は、既存のアイテム情報に基づいて機械学習を遂行し、これを通じて生成された学習結果に基づいて複数の管理者111、112から受信された購入アイテム情報を一定の形式に加工し、保存することができる。
【0026】
例えば、第1管理者111が提供したアイテム情報には、アイテムの具体的なモデル名(P000 903)および用途(PCBエッチング腐食用)のみが含まれているだけで、アイテムの分類に必要な情報(大分類、中分類、小分類に関する情報)が含まれていないことがある。このような場合、アイテム管理システム100は、機械学習の結果に基づいて、第1管理者111が提供したアイテムの情報を受信すると、アイテムおよびアイテムの属性情報を分類し、分類結果を保存および出力することができる。
【0027】
また、アイテム管理システム100は、第1管理者111が提供したアイテム情報に含まれた各属性項目の順序が第2管理者112が提供したアイテム情報に含まれた各属性項目の順序と異なっても、各属性項目を識別して属性情報を分類および保存することができる。一方、実施形態において第1管理者111および第2管理者112は、同一管理者であり得る。また、同一のアイテムに関する情報を誤記や表示形態によって異なるように記録した場合にも、学習モデルの学習結果によって入力されたアイテム情報間の類似度を判断し、既に入力されたアイテムとの類似度を判断したり、新たな代表コードを割り当てるなどの動作を実行することができる。
【0028】
従って、一実施形態に係るアイテム管理システム100は、各アイテムに関する情報の管理効率性を増大させることができる。
【0029】
一方、図1のアイテム管理システム100は、アイテム購入に関する情報の統合管理のためのものであることを前提として説明したが、アイテム管理システム100の用途は、アイテム購入に限定されず、既に入力されたアイテム情報に基づいて、該当情報を再度分類するのにも使用され得、本明細書の実施形態は、複数のアイテムを統合および管理するすべてのシステムに適用され得ることは、該当技術分野の通常の技術者には自明である。つまり、アイテムの購入要請のみならず、既存で保存されたアイテム情報を加工するのにも、本明細書の実施形態が活用され得ることは自明である。
【0030】
図2は、本発明の一実施形態に係るアイテムに関する情報を管理する方法を説明するための図面である。
【0031】
一実施形態に係るアイテム管理システムは、アイテムに関する情報が受信されると、各属性項目に基づいて受信された情報から属性情報を分類することができる。ここで、アイテムに関する情報は、複数の属性情報を含むことができ、属性情報は属性項目によって分類され得る。より具体的には、アイテムに関する情報は、複数の属性情報を含む文字列であり得、アイテム管理システムは、アイテムに関する情報を分類して各属性に対応する情報を導出することができる。
【0032】
図2の(a)を参考にすると、アイテム管理システムは、形式が互いに異なる複数のアイテムに関する情報を受信することができる。例えば、アイテム管理システムは、複数のアイテムに関する情報を顧客のデータベースからクローリングするか、または受信することができ、ユーザーの入力から受信することができる。このとき、アイテムに関する情報に含まれた属性(アイテム名または品目名、製造会社、OSなど)項目が識別されていない状態であり得る。
【0033】
このような場合、一実施形態に係るアイテム管理システムは、機械学習を通じてアイテムに関する情報に含まれた各属性情報を分類することができる。例えば、図2の(a)に図示されたアイテム情報210は、図2の(b)のようにアイテム名を含む複数の属性項目によって属性情報を分類することができる。実施形態において管理システムは、学習モデルによって分類された各情報がどの属性に該当するのかを判断することができ、各属性に該当する値に基づいて一つのアイテムに関する文字列がどのアイテムに関するものなのかを確認し、同一の分類のアイテムに関する情報を確認して、このようなアイテムを一括的に管理できるようにする。
【0034】
このようなアイテム管理システムによって、アイテムに関する情報から各属性に対応する情報を導出して、これを分けて整理することができ、以後、これに対応する文字列が入力される場合にも、該当文字列を分析して対応する属性値を確認し、これを分類して保存することができる。
【0035】
従って、一実施形態に係るアイテム管理システムは、アイテムに関する情報を標準化し主要属性情報を管理することができるため、類似したり重複するアイテムを分類することができ、データ整備の便宜性を増大させる効果がある。
【0036】
図3および図4は、一実施例によって、アイテムに関する情報に対してベクトル化を遂行する方法を説明するための図面である。
【0037】
一方、本開示のアイテムを分類する装置は、アイテム管理システムの一例であり得る。つまり、本開示の一実施形態は、アイテムに関する情報に基づいてアイテムを分類する装置であり得る。一方、アイテム分類装置は、アイテムに関する情報を単語単位にトークン化してベクトルを生成することができる。
【0038】
図3の(a)を参照すると、アイテムに関する情報が[GLOBE VALVE.SIZE 1-1/2”.A-105.SCR’D.800#.JIS]である場合、アイテムに関する情報は、各単語単位にトークン化され得、トークン化の結果である[GLOBE、VALVE、SIZE、1-1/2”、A-105、SCR’D、800#、JIS]に基づいて単語辞典から各トークンに対応するインデックス番号を探すことができ、該当トークン化の結果の単語辞典のインデックス番号は[21、30、77、9、83、11、125、256、1024]であり得る。
【0039】
単語辞典のインデックス番号は、全体の学習データセットから抽出された単語をインデックス化した単語辞典に基づいてアイテム情報を単語のインデックス値に羅列した情報として定義され得る。また、単語辞典のインデックス番号は、単語エンベディングベクトルテーブル(word embedding vector table)において単語のベクトル値を探すためのキー(key)値として用いられ得る。
【0040】
ここで、実施形態において単語単位のトークン化は、分かち書きおよび文章符号のうち少なくとも一つを基準として遂行され得る。このように分かち書きおよび文章符号のうち少なくとも一つを基準としてトークン化を遂行することができ、トークン化された単語は、該当アイテムを示す情報を含むことができるが、トークン化された単語は、通常的な辞典に記載された単語ではないことがあり、アイテムを示すための情報を有する単語であり得るが、これに限定されず、トークン化された単語は、実際の意味を有さない単語を含むことができる。
【0041】
このために、アイテム分類装置は、図3の(b)のような単語辞典を保存することができる。図3の(a)にGLOBEに対応するインデックス番号は、図3の(b)に図示されたように21であり得、これにより、GLOBEに対応する単語辞典のインデックス番号として21が保存され得る。 これと同様に、VALVEの場合30、SIZEの場合77がインデックス番号として保存され得る。
【0042】
一方、各単語に対応するベクトルは、アイテムに関する情報に含まれた各ワードとベクトルがマッピングされている単語エンベディングベクトルテーブルに基づいて決定され得る。単語エンベディングベクトルテーブルを生成するために、word2vecアルゴリズムが活用され得るが、ベクトルを生成する方法はこれに限定されない。word2vecアルゴリズムの中において、word2vec skip-gramアルゴリズムは、文章(sentence)を構成する各単語を通じて周辺の複数の単語を予測する技法である。例えば、word2vec skip-gramアルゴリズムのウィンドウサイズ(window size)が3であるとき、1つの単語が入力されると、計6つの単語が出力され得る。一方、実施形態において、ウィンドウサイズが異なるようにして同一のアイテム情報に対して複数の単位にベクトル値を生成することができ、生成されたベクトル値を考慮して学習を遂行してもよい。
【0043】
単語エンベディングベクトルテーブルは、図4の(a)のようにエンベディング次元で表現された複数のベクトルとして構成されたマトリックス形態であり得る。また、単語エンベディングベクトルテーブルの行の数は、複数のアイテムに関する情報に含まれた単語の数と対応され得る。単語エンベディングベクトルテーブルから該当単語のベクトル値を探すために単語のインデックス値を使用することができる。つまり、ルックアップテーブルとして活用される単語エンベディングベクトルテーブルのキー値が、単語のインデックス値であり得る。一方、各アイテムベクトルは、図4の(b)のように図示され得る。
【0044】
一方、単語単位にトークン化を遂行するとき、単語エンベディングベクトルテーブルに含まれていない単語が入力されると、対応するベクトルが存在しないため、アイテムに関する情報に対応するベクトルを生成するのに困難があり得る。また、アイテムに関する情報に単語エンベディングベクトルテーブルに存在しない単語が複数個含まれる場合、アイテム分類の性能が低下され得る。
【0045】
従って、一実施形態に係るアイテム管理システムは、アイテムに関する情報に含まれた各単語のサブワードを用いてアイテムに関する情報に関する単語エンベディングベクトルテーブルを生成することができる。
【0046】
図5は、一実施形態によって、単語エンベディングベクトルテーブルに含まれるベクトルを生成する方法を説明するための図面である。
【0047】
図5の(a)を参考にすると、単語単位にトークン化を遂行された後、各単語のサブワードに対応するサブワードベクトルが生成され得る。例えば、「GLOBE」の単語に関して2-gramのサブワードが生成される場合、4つのサブワード(GL、LO、OB、BE)が生成され得、3-gramのサブワードが生成される場合、3つのサブワード(GLO、LOB、OBE)が生成され得る。また、4-gramのサブワードが生成される場合、2つのサブワード(GLOB、LOBE)が生成され得る。
【0048】
図5の(b)を参考にすると、一実施形態に係るアイテム分類装置は、各単語のサブワードを抽出し、サブワードに関する機械学習を通じて各サブワードに対応するサブワードベクトルを生成することができる。また、各サブワードに関するベクトルを合わせることによって、各単語のベクトルを生成することができる。以後、各単語のベクトルを用いて、図5の(b)に図示された単語エンベディングベクトルデーブルを生成することができる。一方、各単語のベクトルは、サブワードベクトルの和だけではなく、平均に基づいて生成され得るが、これらに限定されない。
【0049】
一方、サブワードベクトルを用いて、各単語のベクトルを生成する場合、入力されたアイテム情報に誤記が含まれていても、アイテムの分類性能が維持され得る効果がある。
【0050】
以後、図5の(c)を参考にすると、アイテム分類装置は、各単語に対応する単語ベクトルを合わせたり、平均を計算することによって、アイテムに関する情報と対応する文章ベクトル(sentence vector)を生成することができる。この時、文章ベクトルのエンベディング次元は、各単語ベクトルのエンベディング次元と同一である。即ち、文章ベクトルの長さと各単語ベクトルの長さは同一である。
【0051】
ここで、サブワードの文字数および種類は、これに限定されず、システム設計の要求事項よって変わり得ることは、該当技術分野の通常の技術者には自明である。
【0052】
一方、一実施形態に係るアイテム分類装置は、アイテムを分類するとき、アイテムに関する情報に含まれた単語ごとに加重値を割り当ててベクトルを生成することができる。
【0053】
例えば、第1アイテムに関する情報は、[GLOBE、VALVE、SIZE、1-1/2”、FC-20、P/N:100、JIS]であり得、第2アイテムに関する情報は、[GLOVE、VALV、SIZE、1-1/3”、FC20、P/N:110、JIS]であり得る。このとき、アイテムに関する情報に含まれた属性項目のうちサイズおよびパートナンバーに関する単語に加重値を割り当て、アイテムに関する情報に対応するベクトルを生成すると、サイズおよびパートナンバーに異なる二つのアイテムに関する情報の類似度は低くなり得る。また、加重値が比較的低い項目の誤記および特殊文字などの漏れによって、アイテムに関する情報に対応するベクトルが互いに異なる場合、二つのアイテムに関する情報は比較的類似度が高くなり得る。一方、実施形態において加重値が適用される文字は、アイテムの種類によって異なって設定され得る。一例として、同一のアイテム名を有したり、属性値によって他のアイテムに分類されなければならないアイテムに関しては、該当属性値に高い加重値を割り当てて、これに基づいて類似度を判断することができる。また、学習モデルにおいて、このような高い加重値を割り当てなければならない属性値を把握することができ、分類データに基づいて同一名称を有するアイテムがそれぞれ異なる属性情報を有する場合、このような属性情報に高い加重値を割り当てることができる。
【0054】
従って、一実施形態に係るアイテム管理システムは、アイテムに関する情報に含まれた属性ごとに加重値を割り当てた後、ベクトルを生成することによって、アイテムの分類性能をより向上させ得る効果がある。
【0055】
図6は、一実施形態によってアイテム分類を遂行する前にアイテムに関する情報を前処理する方法を説明するための図面である。
【0056】
一方、アイテムに関する情報に含まれた各属性情報は、区切り文字として分類されたものであり得、区切り文字なく連続した文字として構成され得る。もし、アイテムに関する情報に含まれた各属性項目が区別されず、連続した文字として入力された場合、前処理なしには各属性項目を識別することが困難であり得る。このような場合、一実施形態に係るアイテム分類装置は、アイテム分類を遂行する前にアイテムに関する情報を前処理することができる。
【0057】
具体的には、一実施形態に係るアイテム分類装置は、アイテムに関する情報間の類似度を計算する前に、機械学習を通じてアイテムに関する情報に含まれたそれぞれの単語を識別するための前処理を遂行することができる。
【0058】
図6を参照すると、アイテムに関する情報が連続した文字列610に入力された場合、一実施形態に係るアイテム分類装置は、空白または特定文字を基準として、連続した文字列610内の文字をタギング(tagging)のための単位として分類することができる。ここで、タギングのための単位の文字列620は、トークン化単位の文字列640よりも長さが小さい文字列として定義され、開始(BEGIN_)、連続(INNER_)、および終了(O)タグを追加する単位を意味する。
【0059】
以後、アイテム分類装置は、各タギングのための単位の文字列620ごとに機械学習アルゴリズム630を用いて、タグを追加することができる。例えば、図6のGLOBEには、BEGIN_タグが追加され得、/にはINNER_タグが追加され得る。
【0060】
一方、アイテム分類装置は、開始(BEGIN_)タグが追加されたトークンから終了(O)タグが追加されたトークンまでを一単語として認識することができ、または開始(BEGIN_)タグが追加されたトークンから次の開始(BEGIN_)タグが追加されたトークン前のトークンまでを一単語として認識することができる。従って、アイテム分類装置は、連続した文字列610からトークン化単位の文字列640を認識することができるようになる。
【0061】
従って、アイテム分類装置は、図6に開示された方法によって、アイテムに関する情報に含まれた各トークンを識別した後、アイテムに関する情報を分類することができる。
【0062】
図7は、一実施形態によってアイテム分類に関連した学習モデルを生成するときに調整され得るパラメータを説明するための図面である。
【0063】
一方、一実施形態によってアイテムを分類する方法は、パラメータを調整することによって、性能を改善することができる。図7を参考にすると、アイテムを分類する方法は、システム設計の要求事項によって第1パラメータ(delimit way)ないし第11パラメータ(max ngrams)などを調整することができる。この中で、一実施形態に係るアイテムを分類する方法においては、第5パラメータ(window)ないし第11パラメータ(max ngrams)が比較的頻繁に調整され得る。
【0064】
例えば、第10パラメータ(min ngrams)が2であり、第11パラメータ(max ngrams)が5である場合、1つの単語を2文字、3文字、4文字、5文字単位に分けて学習後、ベクトル化することを意味し得る。
【0065】
一方、アイテムに関する情報を分類する方法のために調整され得るパラメータは、図7に限定されず、システム設計の要求事項によって変わり得ることは、該当技術分野の通常の技術者には自明である。
【0066】
一方、実施形態において、学習モデルを生成した後、これを通じてアイテムに関するデータを処理した結果の正確度が落ちる場合、このようなパラメータのうち少なくとも一つを調節して学習モデルを新たに生成したり、追加学習を遂行することができる。図7の説明に対応してパラメータのうち少なくとも一つを遂行して学習モデルをアップデートしたり、新たに生成することができる。
【0067】
図8は、一実施形態に係るアイテム分類装置が類似または重複されるアイテムの組に関する情報を提供する方法を説明するための図面である。
【0068】
一実施形態に係るアイテム分類装置は、複数のアイテムに関する情報を用いて機械学習を遂行し、学習モデルを使用して各アイテムに関する情報を分類することができる。
【0069】
もし、アイテムに関する情報にアイテムコードが含まれていない場合、一実施形態に係るアイテム分類装置は、機械学習を通じて各アイテムに対応するアイテムの代表コードを生成し、各アイテムを分類することができる。以後、アイテム分類装置によって生成された代表コードは、購入、実績などを管理するのに活用され得る。
【0070】
また、アイテム分類装置は、複数のアイテムに関する情報うち類似したり、重複されるアイテムに関する情報が存在する場合、これに関する情報をユーザーに提供することができる。
【0071】
図8を参考にすると、アイテムに関する情報810とそれぞれ類似したり、重複されるアイテムに関する情報820が類似度830と共にユーザーに提供され得る。一方、アイテム分類結果を表示する方法は、図8に制限されず、システム設計の要求事項によって変わり得ることは、該当技術分野の通常の技術者には自明である。
【0072】
図9ないし図11は、一実施例によってアイテム分類した結果を説明するための図面である。
【0073】
一実施形態に係るアイテムを分類する装置は、アイテムに関する情報に含まれた属性ごとに加重値を割り当てた後、ベクトルを作成し、これに基づいて類似度を計算することができる。このとき、二つのアイテムに関する情報に含まれた属性情報のうち、比較的大きな値の加重値が適用された属性項目の値が異なれば、二つのアイテムに関する情報の類似度が低くなり得る。反対に、比較的大きな値の加重値が適用された属性項目の値が同じであれば、二つのアイテムに関する情報の類似度が高くなり得る。
【0074】
図9の(a)は、各属性項目に加重値を反映しない場合の第1アイテムに関する情報と第2アイテムに関する情報の類似度を計算した結果を図示したものであり、図9の(b)および(c)は、パートナンバー(P/N)およびシリアルナンバー(S/N)項目に加重値を割り当てた後、第1アイテムに関する情報と第2アイテムに関する情報の類似度を計算した結果を図示したものである。また、図9の(b)のパートナンバー(P/N)およびシリアルナンバー(S/N)項目に割り当てられた加重値よりも、図9の(b)のパートナンバー(P/N)およびシリアルナンバー(S/N)項目に割り当てられた加重値がより大きい値である。
【0075】
先ず、加重値が割り当てられたパートナンバー(P/N)が異なるため、図9の(a)と比較して図9の(b)および(c)の類似度の結果が低くなったことを確認することができる。また、図9の(b)のパートナンバー(P/N)に割り当てられた加重値よりも、図9の(c)のパートナンバー(P/N)に割り当てられた加重値がより大きいため、図9の(c)の全体類似度の結果が比較的により低いことを確認することができる。
【0076】
一実施形態に係るアイテム分類装置によって計算された類似度の結果は、アイテムに関する情報に含まれた属性項目が多いほど、加重値の影響が減少し得る。従って、一実施形態に係るアイテム分類装置は、アイテムに関する情報に含まれた属性項目が多いほど、該当アイテムに関する情報に含まれた一部属性項目により大きな加重値を割り当てることができる。
【0077】
一方、図10の(a)および(b)を参考にすると、特殊記号の後に表示された属性項目(OTOS)に加重値が割り当てられたことを確認することができる。このとき、第1アイテムに関する情報および第2アイテムに関する情報に含まれた属性項目の数が2つであり、これは比較的少ない数であるため、類似度の結果は、加重値が割り当てられた属性項目の同一可否によって大きく変わり得る。一方、図10の(b)は、加重値が割り当てられた属性が同一の第1アイテムに関する情報と第2アイテムに関する情報の類似度を図示したものとして、類似度の結果は、加重値を割り当てていない場合に比べ大きく増加し得る。
【0078】
図11の(a)および(b)を参考にすると、特殊記号の後に表示されたサイズ(size)およびパートナンバー(P/N)属性に加重値が割り当てられたことを確認することができる。このとき、第1アイテムに関する情報および第2アイテムに関する情報が加重値が割り当てられない素材(material)の属性項目と異なる場合、二つの情報間の類似度は、加重値を割り当てていない場合に比べて増加し得る。
【0079】
図12は、一実施形態に係る機械学習基盤アイテムを分類する方法を説明するためのフローチャートである。
【0080】
段階S1210において、一実施形態に係る方法は、複数のアイテムに関する情報が受信されると、アイテムに関する情報それぞれに対して単語単位にトークン化を遂行することができる。
【0081】
段階S1220において、一実施形態に係る方法は、機械学習を通じて各単語よりも長さが短いサブワードに対応するサブワードベクトルを生成することができる。一方、実施形態において段階S1210およびS1220を一度に遂行することができる。学習を遂行するために、アイテムに関する情報を直ぐサブワード単位に分割し、分割されたサブワードに関するベクトルを生成してもよい。
【0082】
段階S1230において、一実施形態に係る方法は、サブワードベクトルに基づいて、各単語に対応する単語ベクトルおよびアイテムに関する情報それぞれに対応する文章ベクトルを生成することができる。ここで、単語ベクトルは、サブワードベクトルの和または平均のうち少なくとも一つに基づいて生成され得る。実施形態において、ベクトルの和または平均を遂行するとき、各ベクトルに加重値を適用してもよく、適用される加重値は、学習結果やユーザー入力によって変わり得、適用対象ベクトルも変わり得る。
【0083】
段階S1240において、一実施形態に係る方法は、文章ベクトル間の類似度に基づいて、複数のアイテムに関する情報を分類することができる。このとき、段階S1240は、類似度が第1臨界値を超える複数のアイテムに関する情報を抽出する段階を含むことができる。
【0084】
一方、段階S1220の前に、少なくとも一つ以上の単語に対して加重値を割り当てる段階を含むことができ、この時、文章ベクトルは加重値によって変わり得る。また、加重値は、アイテムに関する情報に含まれた属性項目の数によって変わり得る。
【0085】
また、一実施形態に係る方法は、各単語に対応するベクトルとして構成された単語エンベディングベクトルテーブルを生成する段階をさらに含むことができる。
【0086】
一方、一実施形態に係る方法は、アイテムに関する情報それぞれに対してトークン化を遂行する前に、アイテムに関する情報に含まれた空白または既設定された文字のうち少なくとも一つに基づいて、アイテムに関する情報を一つ以上のタギングのための単位の文字列に分類する段階、機械学習を通じてタギングのための単位の文字列それぞれにタグを追加する段階、およびタグに基づいて、一つ以上のタギングのための単位の文字列をトークンとして決定する段階をさらに含むことができる。実施形態においてタギングのための単位の文字列は、それぞれの長さが多様に決定され得る。
【0087】
このとき、タグは、開始タグ、連続タグ、および終了タグを含み、一つ以上のタギングのための単位の文字列をトークンとして決定する段階は、開始タグが追加されたトークンから次の開始タグが追加されたトークン前のトークンまたは終了タグが追加されたタギングのための単位の文字列までを併合して一つのトークンとして決定する段階であり得る。
【0088】
図13は、一実施形態に係る機械学習基盤アイテムを分類する装置を説明するためのブロック図である。
【0089】
アイテム分類装置1300は、一実施形態によって、メモリ(memory)1310およびプロセッサー(processor)1320を含むことができる。図13に図示されたアイテム分類装置1300は、本実施形態に関連した構成要素だけが図示されている。従って、図13に図示された構成要素のほかに、他の汎用的な構成要素がさらに含まれ得ることを、本実施形態に関連した技術分野において通常の知識を有する者であれば理解することができる。
【0090】
メモリ1310は、アイテム分類装置1300内において処理される各種データを保存するハードウェアとして、例えば、メモリ1310は、アイテム分類装置1300において処理されたデータおよび処理されるデータを保存することができる。メモリ1310は、プロセッサー1320の動作のための少なくとも一つの命令語(instruction)を保存することができる。また、メモリ1310は、アイテム分類装置1300によって駆動されるプログラムまたはアプリケーションなどを保存することができる。メモリ1310は、DRAM(dynamic random access memory)、SRAM(static random access memory)などのようなRAM(random access memory)、ROM(read-only memory)、EEPROM(electrically erasable programmable read-only memory)、CD-ROM、ブルーレイ、または他の光学ディスクストレージ、HDD(hard disk drive)、SSD(solid state drive)、またはフラッシュメモリを含むことができる。
【0091】
プロセッサー1320は、アイテム分類装置1300の全般の動作を制御し、データおよび信号を処理することができる。プロセッサー1320は、メモリ1310に保存された少なくとも一つの命令語または少なくとも一つのプログラムを実行することによって、アイテム分類装置1300を全般的に制御することができる。プロセッサー1320は、CPU(central processing unit)、GPU(graphics processing unit)、AP(application processor)などとして具現され得るが、これに限定されない。
【0092】
プロセッサー1320は、複数のアイテムに関する情報が受信されると、アイテムに関する情報それぞれに対して単語単位にトークン化を遂行し、機械学習を通じて各単語よりも長さが短いサブワードに対応するサブワードベクトルを生成することができる。また、プロセッサー1320は、サブワードベクトルに基づいて各単語に対応する単語ベクトルおよびアイテムに関する情報それぞれに対応する文章ベクトルを生成し、文章ベクトル間の類似度に基づいて複数のアイテムに関する情報を分類することができる。
【0093】
一方、プロセッサー1320は、機械学習を遂行する前に、少なくとも一つ以上の単語に対して加重値を割り当てることができるが、文章ベクトルは加重値によって変わり得る。また、加重値は、アイテムに関する情報に含まれた属性項目の数によって変わり得る。
【0094】
一方、単語ベクトルは、サブワードベクトルの和または平均のうち少なくとも一つに基づいて生成され得る。そして、プロセッサー1320は、各単語に対応するベクトルで構成された単語エンベディングベクトルテーブルを生成することができる。
【0095】
一方、プロセッサー1320は、複数のアイテムに関する情報を分類するとき、類似度が第1臨界値を超える複数のアイテムに関する情報を抽出することができる。
【0096】
また、プロセッサー1320は、アイテムに関する情報それぞれに対してトークン化を遂行する前に、アイテムに関する情報に含まれた空白または既設定された文字のうち少なくとも一つに基づいて、アイテムに関する情報をタギングのための単位に分類し、機械学習を通じてタギングのための単位それぞれにタグを追加することができる。また、タグに基づいて、一つ以上のタギングのための単位をトークンとして決定することができる。このとき、タグは、開始タグ、連続タグ、および終了タグを含むことができる。
【0097】
一方、プロセッサー1320は、一つ以上タギングのための単位をトークンとして決定することは、開始タグが追加されたトークンから次の開始タグが追加されたトークン前のトークンまたは終了タグが追加されたタギングのための単位までを一つのトークンとして決定するものであり得る。
【0098】
前述した実施形態に係るプロセッサーは、プロセッサー、プログラムデータを保存し実行するメモリ、ディスクドライブのような永久保存部(permanent storage)、外部装置と通信する通信ポート、タッチパネル、キー(key)、ボタンなどのようなユーザーインターフェース装置などを含むことができる。ソフトウェアモジュールまたはアルゴリズムで具現される方法は、前記プロセッサー上で実行可能なコンピュータで読み取り可能なコードまたはプログラム命令として、コンピュータで読み取り可能な記憶媒体上に保存され得る。ここで、コンピュータで読み取り可能な記憶媒体として、マグネチック記憶媒体(例えば、ROM(read-only memory)、RAM(random-Access memory)、フロッピーディスク、ハードディスクなど)および光学的読み取り媒体(例えば、シーディーロム(CD-ROM)、ディーブイディー(DVD:Digital Versatile Disc))などがある。コンピュータで読み取り可能な記憶媒体は、ネットワークに連結されたコンピュータシステムに分散され、分散方式でコンピュータで読み取り可能なコードが保存され実行され得る。媒体はコンピュータによって読み取り可能であり、メモリに保存され、プロセッサーで実行され得る。
【0099】
本実施形態は、機能的なブロック構成および多様な処理段階で示され得る。このような機能ブロックは、特定機能を実行する多様な個数のハードウェアまたは/およびソフトウェア構成で具現され得る。例えば、実施形態は、一つ以上のマイクロプロセッサーの制御または他の制御装置によって多様な機能を実行できる、メモリ、プロセッシング、ロジック(logic)、ルックアップテーブル(look-up table)などのような直接回路構成を採用することができる。構成要素がソフトウェアプログラミングまたはソフトウェア要素で実行され得るのと同様に、本実施形態はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含み、C、C++、ジャバ(Java)、パイソン(Python)などのようなプログラミングまたはスクリプト言語で具現され得る。しかし、このような言語は制限がなく、機械学習を具現するのに使用され得るプログラム言語は多様に使用され得る。機能的な側面は、一つ以上のプロセッサーで実行されるアルゴリズムで具現され得る。また、本実施形態は、電子的な環境設定、信号処理、および/またはデータ処理などのために従来技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は広く使われ得、機械的かつ物理的な構成として限定されるものではない。前記用語は、プロセッサーなどと連係してソフトウェアの一連の処理(routines)の意味を含むことができる。
【0100】
前述した実施形態は、一例示に過ぎず、後述する請求項の範囲内で他の実施形態が具現され得る。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13