IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エムロ・カンパニー・リミテッドの特許一覧

<>
  • 特許-機械学習基盤情報の提供方法および装置 図1
  • 特許-機械学習基盤情報の提供方法および装置 図2
  • 特許-機械学習基盤情報の提供方法および装置 図3
  • 特許-機械学習基盤情報の提供方法および装置 図4
  • 特許-機械学習基盤情報の提供方法および装置 図5
  • 特許-機械学習基盤情報の提供方法および装置 図6
  • 特許-機械学習基盤情報の提供方法および装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-15
(45)【発行日】2023-08-23
(54)【発明の名称】機械学習基盤情報の提供方法および装置
(51)【国際特許分類】
   G06F 16/906 20190101AFI20230816BHJP
   G06Q 10/10 20230101ALI20230816BHJP
【FI】
G06F16/906
G06Q10/10
【請求項の数】 9
(21)【出願番号】P 2021189435
(22)【出願日】2021-11-22
(65)【公開番号】P2022082525
(43)【公開日】2022-06-02
【審査請求日】2021-11-22
(31)【優先権主張番号】10-2020-0158144
(32)【優先日】2020-11-23
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】521511715
【氏名又は名称】エムロ・カンパニー・リミテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ジェ・ミン・ソン
(72)【発明者】
【氏名】クァン・ソプ・キム
(72)【発明者】
【氏名】ホ・ジン・ファン
(72)【発明者】
【氏名】ジョン・フィ・パク
【審査官】和田 財太
(56)【参考文献】
【文献】特許第6780888(JP,B1)
【文献】特開2020-024653(JP,A)
【文献】特開2019-125126(JP,A)
【文献】特開2020-190895(JP,A)
【文献】米国特許出願公開第2019/0377972(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00
G06Q 10/10
(57)【特許請求の範囲】
【請求項1】
電子装置による機械学習基盤情報の提供方法であって、
前記電子装置によって、第1購入アイテムに関する第1伝票データを獲得する段階と、
前記電子装置によって、前記第1伝票データに含まれた前記第1購入アイテムの業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキストを用いて、前記第1伝票データから前記第1購入アイテムの費用属性に関連した文字列を抽出する段階と、
前記電子装置によって、機械学習を通じて前記抽出された文字列に含まれた文字要素に対応するマトリックスを生成する段階と、
前記電子装置によって、少なくとも一つのフィルターを用いて前記マトリックスから前記抽出された文字列に対応する特徴ベクトルを生成する段階と、
前記電子装置によって、機械学習を通じて学習された第1学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記第1購入アイテムのうち間接費に該当する少なくとも一つのアイテムを確認する段階と、
前記電子装置によって、機械学習を通じて学習された第2学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記少なくとも一つのアイテムの費用カテゴリー情報を提供する段階と、を含む、機械学習基盤情報の提供方法。
【請求項2】
前記文字列に含まれた文字要素は、英字、ハングル文字、および特殊文字のうち少なくとも一部を含む、請求項1に記載の機械学習基盤情報の提供方法。
【請求項3】
前記電子装置によって、機械学習を通じて学習された第3学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記第1購入アイテム間の類似度情報を確認する段階と、
前記電子装置によって、前記第1購入アイテム間の類似度情報に基づいて、前記第1購入アイテムの予め設定された比率に該当する一部アイテムをサンプルアイテムとして決定する段階と、
前記電子装置によって、前記第1伝票データから前記サンプルアイテムの属性に関連したサンプル文字列を抽出する段階と、
前記電子装置によって、前記サンプルアイテムの間接費の該当可否に関する情報および前記サンプルアイテムの費用カテゴリー情報を獲得する段階と、をさらに含み、
前記第1学習モデルは、前記サンプル文字列および前記サンプルアイテムの間接費の該当可否に関する情報を第1学習データとして学習され、
前記第2学習モデルは、前記サンプル文字列および前記サンプルアイテムの費用カテゴリー情報を第2学習データとして学習された、請求項1に記載の機械学習基盤情報の提供方法。
【請求項4】
前記第1購入アイテムに関する前記第1伝票データを獲得する前に、
前記電子装置によって、第2購入アイテムに関する第2伝票データを獲得する段階と、
前記電子装置によって、前記第2購入アイテムの間接費の該当可否に関する情報および費用カテゴリー情報を獲得する段階と、
前記電子装置によって、前記第2伝票データに含まれた前記第2購入アイテムの業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキストを用いて、前記第2伝票データから前記第2購入アイテムの費用属性に関連した文字列を抽出する段階と、をさらに含み、
前記第1学習モデルは、前記第2購入アイテムの文字列および前記第2購入アイテムの間接費の該当可否に関する情報を第1学習データとして学習され、
前記第2学習モデルは、前記第2購入アイテムの文字列および前記第2購入アイテムの費用カテゴリー情報を第2学習データとして学習される、請求項1に記載の機械学習基盤情報の提供方法。
【請求項5】
前記第1学習モデルおよび前記第2学習モデルのうちの少なくとも一つは、CNN(convolution neural network)を含む、請求項1に記載の機械学習基盤情報の提供方法。
【請求項6】
前記費用カテゴリー情報は、階層化された複数のカテゴリーを含む、請求項1に記載の機械学習基盤情報の提供方法。
【請求項7】
前記電子装置によって、学習繰り返し(iteration)回数、CNNフィルターナンバー、CNNフィルター出力、CNNドロップアウト(dropout)、FCN(Fully Connection Network)隠れユニット(hidden unit)、バッチサイズ(batch size)、およびラーニングレート(learning rate)のうち少なくとも一つに対するユーザー入力を受信する段階をさらに含み、
前記第1学習モデルおよび前記第2学習モデルのうち少なくとも一つは、前記ユーザー入力に基づいて学習された、請求項1に記載の機械学習基盤情報の提供方法。
【請求項8】
電子装置であって、
メモリと、
前記メモリと電気的に連結されたプロセッサーと、を含み、
前記プロセッサーは、
購入アイテムに関する伝票データを獲得し、
前記伝票データに含まれた前記購入アイテムの業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキストを用いて、前期伝票データから前記購入アイテムの費用属性に関連した文字列を抽出し、
機械学習を通じて前記抽出された文字列に含まれた文字要素に対応するマトリックスを生成し、
少なくとも一つのフィルターを用いて前記マトリックスから前記抽出された文字列に対応する特徴ベクトルを生成し、
機械学習を通じて学習された第1学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記購入アイテムのうち間接費に該当する少なくとも一つのアイテムを確認し、
機械学習を通じて学習された第2学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記少なくとも一つのアイテムの費用カテゴリー情報を提供するように設定された、電子装置。
【請求項9】
機械学習基盤情報の提供方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な非一時的記憶媒体であって、
前記機械学習基盤情報の提供方法は、
購入アイテムに関する伝票データを獲得する段階と、
前記伝票データに含まれた前記購入アイテムの業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキストを用いて、前記伝票データから前記購入アイテムの費用属性に関連した文字列を抽出する段階と、
機械学習を通じて前記抽出された文字列に含まれた文字要素に対応するマトリックスを生成する段階と、
少なくとも一つのフィルターを用いて前記マトリックスから前記抽出された文字列に対応する特徴ベクトルを生成する段階と、
機械学習を通じて学習された第1学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記購入アイテムのうち間接費に該当する少なくとも一つのアイテムを確認する段階と、
機械学習を通じて学習された第2学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記少なくとも一つのアイテムの費用カテゴリー情報を提供する段階と、を含む、非一時的記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、機械学習に基づいて情報を提供する方法および装置に関する。特に、機械学習に基づいて伝票データに関連した情報を提供する方法および装置に関する。
【背景技術】
【0002】
自然言語処理(Natural Language Processing,NLP)は、人間の言語現象をコンピュータのような機械を用いて模写することができるよう研究し、これを具現する人工知能の主要分野のうちの一つである。最近の機械学習およびディープラーニング技術が発展することによって、機械学習およびディープランニング基盤の自然語処理を通じて膨大なテキストから意味のある情報を抽出し活用するための言語処理研究開発が活発に進められている。
【0003】
一方、企業は、業務の効率および生産性を向上させるために、企業において算出される各種情報を標準化して統合および管理することが要求される。例えば、企業において購入するアイテムの場合、体系的な管理がなされなければ、購入の重複が発生することがあり、既存の購入内訳の検索が困難になり得る。このとき、企業において算出される各種情報は、テキストである場合が多いため、自然言語処理基盤のアイテムに関する情報を提供する方法およびシステムに関する必要性が存在する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本実施形態が解決しようとする課題は、機械学習を通じて学習された少なくとも一つの学習モデルを用いて、購入アイテムに関する伝票データに基づいて前記アイテムが間接費の分類対象であるか否かに関する情報およびアイテムの費用カテゴリー情報を提供する方法および装置を提供することにある。
【0005】
本実施形態が達成しようとする技術的課題は、前記のような技術的課題に限定されず、以下の実施形態からさらに他の技術的課題が類推され得る。
【課題を解決するための手段】
【0006】
多様な実施形態によると、購入アイテムに関する伝票データを獲得する段階、前記伝票データから前記アイテムの属性関連文字列を抽出する段階、機械学習を通じて学習された第1学習モデルを用いて、前記文字列に基づいて、前記アイテムのうち間接費に該当する少なくとも一つのアイテムを確認する段階、および機械学習を通じて学習された第2学習モデルを用いて、前記文字列に基づいて、前記少なくとも一つのアイテムの費用カテゴリー情報を確認する段階を含むことができる。
【0007】
多様な実施形態に係る電子装置は、メモリおよび前記メモリと電気的に連結されたプロセッサーを含み、前記プロセッサーは、購入アイテムに関する伝票データを獲得し、前記伝票データから前記アイテムの属性に関連した文字列を抽出し、機械学習を通じて学習された少なくとも一つの学習モデルを用いて、前記特徴ベクトルから前記アイテムのうち間接費に該当する少なくとも一つのアイテムを確認し、前記少なくとも一つのアイテムの費用カテゴリーの関連情報を確認するように設定され得る。
【0008】
多様な実施形態に係る機械学習基盤情報の提供方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な非一時的記憶媒体は、前記機械学習基盤情報の提供方法は、購入アイテムに関する伝票データを獲得する段階、前記伝票データから前記アイテムの属性関連文字列を抽出する段階、機械学習を通じて学習された第1学習モデルを用いて、前記文字列に基づいて、前記アイテムのうち間接費に該当する少なくとも一つのアイテムを確認する段階、および機械学習を通じて学習された第2学習モデルを用いて、前記文字列に基づいて、前記少なくとも一つのアイテムの費用カテゴリー情報を確認する段階を含むことができる。
【0009】
その他、実施形態の具体的な事項は、詳細な説明および図面に含まれている。
【発明の効果】
【0010】
多様な実施形態によると、機械学習を通じて学習された少なくとも一つの学習モデルを用いて、購入アイテムに関する伝票データに基づいて前記アイテムが間接費の分類対象であるか否かに関する情報およびアイテムの費用カテゴリー情報を提供することができる。これを通じて、間接費の費用関連情報を効果的に分析し、間接費に関する費用削減方案を用意することができる。
【0011】
発明の効果は、以上で言及した効果に制限されず、言及されていないさらに他の効果は、請求の範囲の記載から当該技術分野の通常の技術者に明確に理解され得るだろう。
【図面の簡単な説明】
【0012】
図1】本開示の多様な実施形態に係る電子装置の構成ブロック図である。
図2】一実施形態に係る伝票データに基づいた情報獲得方法に関する図面である。
図3】本開示の一実施形態に係る電子装置の情報提供方法を説明するための図面である。
図4】本開示の一実施形態に係る電子装置の情報提供方法に関するフローチャートである。
図5】本開示の一実施形態に係る電子装置の特徴ベクトルの生成方法を説明するための概略的な図面である。
図6】本開示の一実施形態に係る電子装置の機械学習のための設定入力画面を概略的に図示した図面である。
図7】本開示の一実施形態に係る電子装置の機械学習基盤の情報提供関連のユーザーインターフェイス画面である。
【発明を実施するための形態】
【0013】
実施形態において使われる用語は、本開示における機能を考慮しつつ、可能な限り現在広く使われる一般的な用語を選択したが、これは当分野に従事する技術者の意図または判例、新たな技術の出現などによって変わり得る。また、特定の場合は、出願人が任意に選定した用語もあり、この場合、該当する説明の部分で詳細にその意味を記載するであろう。従って、本開示において使われる用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。
【0014】
明細書全体において、ある部分がある構成要素を「含む」とする時、これは特に反対の記載がない限り他の構成要素を除くものではなく、他の構成要素をさらに含み得ることを意味する。
【0015】
明細書全体において記載された、「a、b、およびcのうち少なくとも一つ」の表現は、「a単独」、「b単独」、「c単独」、「aおよびb」、「aおよびc」、「bおよびc」、または「a、b、およびcすべて」を包括することができる。
【0016】
明細書全体において記載されたノードは、無線ネットワークシステムにおいて通信の再分配地点または終端点を意味し、ネットワークの基本要素として、地域ネットワークに接続されたコンピュータ、端末、およびその中に属する装備を通称する意味として解釈され得る。
【0017】
以下では、添付した図面を参照して、本開示の実施形態に関して本開示が属する技術分野において通常の知識を有する者が容易に実施することができるよう詳細に説明する。しかし、本開示は、多様な異なる形態で具現され得、ここで説明する実施形態に限定されない。
【0018】
以下では、図面を参照して本開示の実施形態を詳細に説明する。
【0019】
図1は、本開示の多様な実施形態に係る電子装置の構成ブロック図である。
【0020】
多様な実施形態に係る電子装置100は、アイテム情報を管理するシステムとして、例えば、購入アイテムに関する伝票データに基づいて間接費のデータを分類(classify)するサービスを提供する装置に該当し得る。
【0021】
図1を参照すると、電子装置100は、プロセッサー120およびメモリ140を含むことができる。
【0022】
プロセッサー120は、電子装置100に含まれた構成要素を全般的に制御し、電子装置100に具現される多様な機能を処理するための一連の動作を遂行することができる。例えば、プロセッサー120は、学習データが入力されると、該当学習データを用いて機械学習を通じて学習モデルを学習させることができる。また、プロセッサー120は、前記機械学習を通じて学習された学習モデルを用いて、新たな伝票データが入力されると、該当データをテストデータとして前記伝票データに関連した情報を出力することができる。
【0023】
一実施形態によると、プロセッサー120は、伝票データからアイテムの属性に関連した文字列を抽出することができる。例えば、前記属性関連文字列は、伝票データに含まれた複数の項目のうち属性(例:費用属性)関連情報が含まれた項目として、業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキストから抽出され得る。
【0024】
プロセッサー120は、機械学習を通じて学習された少なくとも一つの学習モデル(例:第1学習モデル)を用いて、伝票データから間接費に該当するアイテムと直接費に該当するアイテムを区別して分類することができる。
【0025】
また、プロセッサー120は、前記機械学習を通じて学習された少なくとも一つの学習モデル(例:第2学習モデル)を用いて、前記伝票データからアイテムの費用カテゴリー情報を確認することができる。
【0026】
例えば、プロセッサー120は、複数の購入アイテムに関する伝票データから抽出された文字列に基づいて、前記第1学習モデルを通じて、間接費に該当する少なくとも一つのアイテムを確認することができる。また、前記文字列に基づいて、前記第2学習モデルを通じて、間接費に分類された少なくとも一つのアイテムに関する費用カテゴリー情報を確認することができる。
【0027】
プロセッサー120は、伝票データから抽出した文字列を所定の学習モデルに入力させるために、前記文字列を構成する文字要素を確認し、それぞれの文字要素に対応するベクトル情報に基づいてマトリックスを生成することができる。また、プロセッサー120は、設定された少なくとも一つのフィルターを用いて、前記マトリックスから文字列に対応する特徴ベクトルを生成することができる。プロセッサー120は、前記特徴ベクトルを学習データまたはテストデータとして、前記学習モデルに入力させることができる。
【0028】
プロセッサー120は、前記文字列を構成するそれぞれの文字要素に基づいて、文字(character)単位にエンベディングして特徴ベクトルを生成し、これを通じて、アイテム関連情報を確認することによって、前記文字列を構成する文字要素の種類(例:英字、ハングル文字、特殊文字、または空白)に関係なく、アイテム関連情報を提供することができる。また、文字列に一部の誤脱字が含まれていても、正確度の高いデータ(例:アイテム関連情報)を算出することができる。
【0029】
一方、一実施形態によると、プロセッサー120は、機械学習を通じて少なくとも一つの学習モデル(例:第1学習モデルおよび第2学習モデル)を学習させるための方法として、第2購入アイテムに関する第2伝票データと前記第2アイテムが間接費に属するか否かに関する情報、前記第2アイテムの費用カテゴリー情報をそれぞれ獲得して学習データとして用いることができる。このとき、前記第2購入アイテムに関する第2伝票データは、特定企業の前年度の伝票データに該当し得る。即ち、プロセッサー120は、特定企業の今年度の伝票データを分析する前に、前年度の伝票データおよびこれに関連した情報(例:各アイテムの間接費の該当可否に関する情報および費用カテゴリー情報)を予め獲得し、これを通じて、少なくとも一つの学習モデルを学習させることができ、学習された学習モデルを通じて今年度の伝票データを分析して情報を提供することができる。
【0030】
一方、プロセッサー120は、前記前年度の伝票データのうち所定の比率の一部アイテム(例えば、80%のアイテム)に対応する伝票データは、学習データとして使用し、残りのアイテム(例:残り20%のアイテム)に対応する伝票データは、前記学習データを通じて学習した学習モデルの信頼性を検証する検証用データとして使用してもよい。
【0031】
他の実施形態によると、プロセッサー120は、前年度の伝票データに関連した別の情報を獲得することができない場合、前記分析を遂行し情報を確認しようとする今年度の伝票データの一部を用いて全体の伝票データの分析に使用される学習モデルを学習させることができる。例えば、プロセッサー120は、複数の購入アイテム間の類似度情報を、機械学習を通じて学習された第3学習モデルを通じて確認し、前記類似度情報に基づいて、複数のアイテムから一部のサンプルアイテム(例:20%のアイテム)を決定することができる。プロセッサー120は、前記一部のサンプルアイテムに関する間接費関連情報を獲得し、これを学習データとして学習モデルを学習させることができ、前記サンプルアイテムを除いた残りのアイテムに対応する伝票データに関する分析を遂行してもよい。
【0032】
メモリ140は、前記プロセッサー120と電気的に連結され、プロセッサー120の動作に関連した命令語を保存することができる。また、電子装置100において使用される多様なデータ(例:学習データ、機械学習のための命令語、学習モデル関連データ(例:第1学習モデル、第2学習モデル、パラメータ関連データ)、学習モデルを用いて獲得した情報(例:特徴ベクトル関連情報、間接費データ、間接費アイテムの費用カテゴリー情報など)を保存することができる。
【0033】
図1に図示されていないが、多様な実施形態に係る電子装置100は、メモリ140に保存された情報またはプロセッサー120によって処理された所定の情報を他の装置に伝送したり、または他の装置から電子装置100に所定の情報を受信する機能を遂行する通信モジュール、各種ユーザー入力を受信する入力モジュール、および電子装置100において処理された情報や電子装置100から提供されるユーザーインターフェイスを表示するディスプレイのうち少なくとも一部をさらに含むことができる。
【0034】
図2は、一実施形態に係る伝票データに基づいて情報を獲得する方法を説明するために図示した図面である。
【0035】
図2を参照すると、特定企業において購入したアイテムに関する情報を含む伝票データは、直接費項目と間接費項目を含むことができる。間接費は、企業全体の支出のうち少なくない比重を占め、間接費の細部項目に関する分析を通じて各類型別に費用を削減し得る可能性が高いため、企業においては、前記間接費に該当する購入アイテムを詳細カテゴリー別に管理し検討しようとすることができる。
【0036】
このために、企業において間接費項目の情報を確認しなければならない担当者(または、作業者)は、前記伝票データを用いて間接費に関する情報を獲得し、間接費に該当するそれぞれの購入アイテムが具体的にどの費用カテゴリーに属するかを分類する作業を通じて、間接費に該当する購入アイテムに関連した情報を分析し管理することができる。このように、伝票データから間接費項目を抽出し、各アイテム項目の費用カテゴリーを区別する作業は、一般的には複数の担当者によって手作業で遂行され得る。
【0037】
例えば、特定企業の購買関連の伝票データ210a、210bには、該当企業の会社名(法人名)(例:図2のP社、P社の系列会社など)または部署名、各アイテムを供給した供給業者名(例:図2のA社、B社など)、購入アイテムに関連した勘定名(例:図2の「ソフトウェアClearing」、「建設中資産-ソフトウェアClearing」、「工機具備品仕入Clearing」など)、そして、前記購入アイテムの購入目的などが記載された勘定摘要(または費用description)(例:図2のAIを活用した知能型チャットボット開発の実効性検証」、「税務調査対策ノートパソコン購入」など)の項目などに関する情報が含まれ得る。このほかにも、伝票データには、業者コード、部署コード、送状日付、送状摘要、会計日付などの各種情報がされに含まれ得る。
【0038】
複数の担当者(例:図2の担当者A、担当者B、担当者C、担当者D)は、前記伝票データ210a、210bの購入アイテムに関する情報を確認し、各アイテムが間接費の項目に該当するかどうか識別し、また、間接費項目に該当する場合、具体的には、各アイテムがどの費用カテゴリーに対応しているかに関する情報230a、230bを記入することができる。例えば、前記費用カテゴリーは、大分類、中分類、および小分類のように、複数の階層化された細部カテゴリーを含むことができる。例えば、中分類カテゴリーは、前記大分類カテゴリーの下位カテゴリーに該当し、小分類カテゴリーは、前記中分類カテゴリーの下位カテゴリーに該当し得る。
【0039】
前述したように、伝票データから間接費に該当するアイテムに関連した費用カテゴリー情報を導出する作業は、複数の担当者によって手作業で遂行され得る。この場合、特定アイテムがどの費用カテゴリーに属するかが不明確な場合が発生することがあり、担当者によって、同一のアイテム関連の伝票データを見ても、他のカテゴリーに属するものと誤って判断する可能性があり得る。例えば、勘定摘要情報が、「AIを活用した知能型チャットボット開発の実効性検証」として同一の場合にも、担当者Aは、該当アイテムを「情報通信>>ソフトウェア>>ソフトウェア」の項目に分類し、担当者Bは「情報通信>>SM>>SM(システム維持保守)」の項目に分類し得る。このように、不明確な基準によって分類されたデータは、正確度が落ちて間接費の支出費用分析の障害要因となり得る。
【0040】
図3は、本開示の一実施形態に係る電子装置の情報提供方法を説明するための図面である。
【0041】
図3を参照すると、多様な実施形態に係る電子装置100は、機械学習を通じて学習された少なくとも一つの学習モデル(例:第1学習モデル302、第2学習モデル304)を用いて、複数の購入アイテムに関する伝票データ310から間接費に関連した間接費データ320を獲得することができ、また、これらの間接費データ320に属する購入アイテムの費用カテゴリー情報330を確認し、該当情報を提供することができる。
【0042】
前述したように、伝票データ310には、特定企業において購入した複数のアイテムの購入に関連した情報が含まれ得、これら複数のアイテムは、直接費と間接費に区分され得る。
【0043】
電子装置100は、第1学習モデル302を用いて前記伝票データ310に対応する複数の購入アイテムのうち間接費に関連した少なくとも一部の購入アイテムのデータ320を獲得することができる。例えば、電子装置100は、伝票データ310に含まれた多様な項目の情報のうちアイテムの属性に関連した項目として業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキスト情報を抽出することができる。また、電子装置100は、前記業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキスト情報を一つの文字列(character string)に構成した後、前記文字列に対応する特徴ベクトルを生成することができ、前記第1学習モデル302を用いて前記特徴ベクトルに相応する間接費関連情報320を確認することができる。
【0044】
また、電子装置100は、複数のアイテムのうち間接費に該当するアイテムの伝票データ320から、前記アイテムの費用カテゴリー情報を確認することができる。
【0045】
例えば、電子装置100は、前記アイテムの属性に関連したテキスト情報から抽出した文字列に対応する特徴ベクトルを用いて、第2学習モデル304を用いて前記特徴ベクトルに相応する費用カテゴリー情報を確認することができる。費用カテゴリー情報に関連して、図3においては、一つのカテゴリーのみを含む実施形態が図示されているが、本発明の多様な実施形態によると、前記費用カテゴリー情報は、大分類、中分類、小分類のように階層化された複数のカテゴリーに該当するする情報を含むことができることは、前述した通りである。
【0046】
このように、電子装置100は、機械学習を通じて決定された一定の基準に基づいて伝票データを分析して間接費可否の分類および費用カテゴリー情報を提供するため、間接費の支出分析に関連したデータの信頼性が確保され得る。
【0047】
以下、図4を参照して、本発明の多様な実施形態に係る電子装置100の情報提供方法に関する具体的な動作方法に関して説明する。
【0048】
図4は、本開示の一実施形態に係る電子装置の情報提供方法に関するフローチャートである。より具体的には、図4は、電子装置100において機械学習基盤として情報を提供する方法に関する図面である。
【0049】
図4を参照すると、多様な実施形態に係る情報提供方法は、先ず、段階410において、伝票データ(例:図3の伝票データ310)からアイテムの属性に関連した文字列を抽出する段階を含むことができる。
【0050】
電子装置100は、段階410を遂行する前に、所定の購入アイテムに関する伝票データを獲得することができる。例えば、前記伝票データは、間接費に該当する購入アイテムを選別し、該当アイテムの費用カテゴリーを決定する作業を遂行すべき作業対象の非定型化された形態のテキスト情報を含む伝票データに対応し得る。
【0051】
伝票データには、購入したアイテムに関連した多様な情報が含まれ得る。段階410において、電子装置100は、伝票データに含まれた複数の非定型化されたテキスト情報のうち少なくとも一部からアイテムの属性に関連した所定の文字列を抽出することができる。例えば、電子装置100は、伝票データに含まれた様々な項目のうち該当アイテムの業者名情報と勘定摘要情報に含まれたテキスト情報を引き継ぐ形式として、前記アイテムの属性に関連した所定の文字列を抽出することができる。
【0052】
段階420において、電子装置100は、前記抽出された文字列に含まれた文字要素(characters)を用いて、学習モデルに関する入力データ(例:学習データまたはテストデータ)として使用される特徴ベクトルを生成することができる。即ち、電子装置100は、段階420において獲得する特徴ベクトルを学習データとして入力して、機械学習を通じて特定学習モデルを学習させることができ、または機械学習を通じて学習された特定学習モデルに前記特徴ベクトルをテストデータとして入力して前記特徴ベクトルに対応する結果情報(例:間接費の関連可否に関する情報、費用カテゴリー情報)を確認することができる。
【0053】
例えば、段階410において抽出された前記文字列に含まれた文字要素は、英字(alphabet character)、音節単位のハングル文字、および特殊文字のうちの少なくとも一部を含むことができ、空白を含めてもよい。電子装置100は、段階420において前記文字列を構成する各文字要素に対応するインデックス番号を確認し、前記インデックス番号に対応するベクトル情報を確認することができ、前記ベクトル情報に基づいて、機械学習を通じて、前記文字列に相応する特徴ベクトルを生成することができる。段階420の特徴ベクトルを生成する過程に関連したより具体的な説明は、図5を参照して後述するようにする。
【0054】
次に、段階430において、電子装置100は、機械学習を通じて学習された少なくとも一つの学習モデル(例:第1学習モデル302、図3参照)を用いて、特徴ベクトルに対応する購入アイテムが間接費の分類対象か否かを識別することができる。即ち、電子装置100は、前記段階420において生成した特徴ベクトルをテストデータとして、第1学習モデル302に入力し、これから前記特徴ベクトルに対応するアイテムが間接費項目に該当するか否かを確認することができる。前記第1学習モデル302は、特定購入アイテムに関する伝票データと前記購入アイテムが間接費項目であるか否かを示す情報を学習データとして、機械学習を通じて予め学習された学習モデルに該当し得る。
【0055】
また、電子装置100は、段階440において、機械学習を通じて学習された少なくとも一つの学習モデル(例:第2学習モデル304、図3参照)を用いて前記特徴ベクトルに該当するアイテムの費用カテゴリー情報を確認することができる。例えば、電子装置100は、前記段階420において生成した特徴ベクトルをテストデータとして第2学習モデル304に入力し、これから前記特徴ベクトルに対応するアイテムの費用カテゴリー情報を獲得することができる。前記第2学習モデル304は、特定購入アイテムに関する伝票データと前記購入アイテムが属する費用カテゴリー情報を学習データとして、機械学習を通じて予め学習されたものであり得る。
【0056】
図5は、本開示の一実施形態に係る電子装置において特徴ベクトルを生成する方法を説明するための概略的な図面である。
【0057】
図5を参照すると、電子装置100は、伝票データからアイテムの属性に関連した所定の文字列を抽出することができる。
【0058】
一例を挙げると、電子装置100は、図5に図示されたように「GLOBE VALVE SIZE1-1/2”FC-20FLG」という文字列500を前記伝票データに含まれた属性関連情報として抽出することができる。このとき、抽出された文字列500は、空白および特殊文字を含みX個(例:300個)以下の文字要素に構成され得る。
【0059】
電子装置100は、それぞれの文字要素に対応するインデックス番号と前記文字要素がマッピングされたインデックス辞典(または、テーブル)をメモリ140に予め保存することができる。電子装置100は、前記インデックス辞典を用いて、文字列500を機械学習を遂行することができる所定の形態に変換する前処理作業を遂行することができ、特定ベクトル情報が意味する文字要素が何であるかを確認することができるキー(key)値として利用してもよい。
【0060】
前記文字要素または前記文字要素に対応するそれぞれのインデックス番号は、エンベディング過程を通じて多次元の特徴ベクトルを抽出するのに用いられ得る。
【0061】
例えば、文字列500を構成する文字要素(例:「G」、「L」、「O」、「B」、「E」など)は、各文字要素に対応するインデックス番号(未図示)の形態に変換され得、前記インデックス番号(未図示)は、再びY次元のベクトル情報(例:30次元のembedding sizeベクトル)(例:500a、500b、500c、500d、500eなど)として変換されて表現され得る。電子装置100は、機械学習を通じて前記文字要素(またはインデックス番号)に対応するベクトル情報(例:500a、500b、500c、500d、500eなど)の最適化された組み合わせを決定することができる。これにより、文字列500は、図5に図示されたように、X×Yのマトリックス形態として表現され得る。
【0062】
一方、電子装置100は、前記マトリックスに対して、CNNアルゴリズムを適用することができる。具体的には、電子装置100は、任意のフィルターを設定し、前記フィルターを用いて前記マトリックスの特徴を学習することによって、特定の次元の特徴ベクトル(例:図5に図示された256次元の特徴ベクトル505)を獲得することができる。
【0063】
例えば、本開示の一実施形態において、電子装置100は、前記フィルターのナンバー(CNN filter numbers)を[2、3、4、5]に設定して、前記文字列をなす文字要素のうち少なくとも一部(例えば、文字列において互いに隣接する2個、3個、4個、および5個単位の文字要素の組み合わせ)に対応するベクトル情報に該当する特徴(例:501、502、503、504)を学習することができる。
【0064】
また、電子装置100は、それぞれのフィルターを用いて学習する特徴(例:501、502、503、504)の次元数に該当するチャンネル(channel)の数(例:「channel=64」)を設定することができる。これにより、前記それぞれのフィルターを用いて獲得する特徴(例:501、502、503、504)は、各チャンネルに対応する次元(例:64次元)のベクトルとして具現され得る。
【0065】
また、電子装置100は、これらの特徴をチャンネル方向に連結(concatenation)して、最終的に文字列に対応する一つの特徴ベクトルを獲得することができる。前記特徴ベクトルは、フィルターの数(例:「2」、「3」、「4」、および「5」のナンバーを有するフィルターである場合、4個)とチャンネルの数(例:64次元の)の積に該当する次元(例:256次元)に対応し得る。
【0066】
多様な実施形態に係る電子装置100は、テキスト形態の学習データ(例えば、伝票データから抽出された文字列)を前述したような方式で特徴ベクトル505に表現し、前記特徴ベクトル505を用いて少なくとも一つの学習モデル(例:第1学習モデルおよび第2学習モデル)を学習するのに使用することができる。
【0067】
また、電子装置100は、テキスト形態のテストデータ(例:伝票データから抽出された文字列)も前述したような方式で特徴ベクトル505に表現され得、前記少なくとも一つの学習モデル(例:第1学習モデルおよび第2学習モデル)を用いて所定の情報(即ち、間接費の該当可否に関する情報、費用カテゴリー情報)を提供することができる。
【0068】
図6は、本開示の一実施形態に係る電子装置の機械学習のためのユーザー設定入力画面を概略的に図示した図面である。
【0069】
図6を参照すると、多様な実施形態に係る電子装置100は、機械学習のための学習データおよび前記機械学習条件に関連した学習パラメータに関するユーザー入力を受信することができる。電子装置100は、前記ユーザー入力に基づいて、前記学習パラメータを調節することによって学習モデルの性能を改善することができる。
【0070】
例えば、電子装置100は、前記学習パラメータとして、epoch数(例:30回)、Max word length(例:300個)、Max number of words(例:1)、Embedding size(例:30次元)、CNNフィルターナンバー(例:[2、3、4、5])、CNNフィルター出力(例:64次元)、CNN dropout(例:0.8)、FNN hidden units(例:512個)、batch size(例:1024)、learning rate(例:0.009)のうち少なくとも一つを含むことができる。
【0071】
特に、本開示の多様な実施形態に係る電子装置100は、伝票データから間接費の該当可否を確認したり、費用カテゴリー情報を確認するための学習モデルと関連して、「epoch数」、「CNNフィルターナンバー」、「CNNフィルター出力」、「CNN dropout」、「FNC hidden units」、「batch size」、および「learning rate」の項目を主要パラメータとして調節することによって、学習モデルの性能を改善することができる。
【0072】
例えば、epochは、学習反復回数に関するものとして、電子装置100は、学習データ(例えば、購入アイテムに関する伝票データおよび前記伝票アイテムに対応する各アイテムに関する間接費の可否に関する情報、費用カテゴリー関連情報)の数が多いと、前記epoch数を大きく設定することができる。CNNフィルターナンバーは、分析する文字要素の文字数(n-gram)に対応し、もし、フィルターナンバーが2である場合、電子装置100が文字列に含まれた文字要素を二文字単位で分析して特徴を抽出するということを意味し得る。CNNフィルター出力は、フィルターを通じて抽出した特徴を表現するベクトルの次元数に対応し得る。CNN dropoutは、過大適合(overfitting)を防止するために学習ノードを一部の比率程度に減らして学習することを意味し得る。FNC hidden unitsは、fully connection network基盤の学習時にhidden unitの個数に該当し得、batch sizeは、前記学習時に並列的に処理されるデータの数に該当し得る。learning rateは、学習速度を調節する変数として学習データが多く学習データ間の差が微細なほど小さい値として設定することができる。
【0073】
この他にも、学習パラメータとしては、学習モデルの検証を行うか否か、学習モデルの検証を遂行するデータの比率、または前記学習モデルの検証開始epochのうち少なくとも一つをさらに含むことができ、その他のシステム設計の要求によってさらに他のパラメータが調節可能なように用意され得る。
【0074】
図7は、本開示の一実施形態に係る電子装置の機械学習基盤の情報提供に関連したユーザーインターフェイス画面の例示的な図面である。
【0075】
図7を参照すると、電子装置100は、一つ以上の購入アイテムに関する伝票データ710を獲得することができ、これからアイテムの属性に関連したテキスト(例:業者名(例:「Supplier」)情報711、勘定摘要(例:「Description」)情報712から所定の文字列720を抽出することができる。前記文字列は、各アイテムに対応する文字列のセットに該当し得る。
【0076】
一実施形態において、電子装置100は、情報提供のための実行ボタン(例:「分析予測実行」)725に対するユーザー入力を受信することができる。また、電子装置100は、前記ユーザー入力に基づいて、本開示の多様な実施形態に係る機械学習基盤の情報提供のための動作を遂行することができ、各購入アイテム(ら)に関する分類予測結果情報730を画面を通じて提供することができる。
【0077】
例えば、電子装置100は、複数の購入アイテムのうち間接費に該当するアイテムを区分し、分類予測結果情報730として、前記間接費に該当する各アイテムの費用カテゴリー情報を提供することができる。
【0078】
また、電子装置100は、前記提供された費用カテゴリー情報の分類予測結果に関連した正確度情報(例:99.2%、100%)を算出して、前記費用カテゴリー情報と共に併記して提供してもよい。一実施形態において、電子装置100は、伝票データに基づいてアイテム間の類似度情報を確認することができ、前記類似度情報に基づいて前記正確度関連情報を提供することができる。例えば、電子装置100は、機械学習を通じて学習された第3学習モデルを用いて前記アイテム間の類似度情報を確認して前記正確度関連情報を提供することができる。
【0079】
前述した本開示の多様な実施形態に係るプロセッサー(例:プロセッサー120)は、プロセッサー、プログラムデータを保存し実行するメモリ、ディスクドライブのような永久保存部(permanent storage)、外部装置と通信する通信ポート、タッチパネル、キー(key)、ボタンなどのようなユーザーインターフェイス装置などを含むことができる。
【0080】
一方、本開示の多様な実施形態によるソフトウェアモジュールまたはアルゴリズムで具現される方法は、前述したプロセッサー上で実行可能なコンピュータで読み取り可能なコードまたはプログラム命令として、コンピュータで読み取り可能な記憶媒体上に保存され得る。ここで、コンピュータで読み取り可能な記憶媒体として磁気記憶媒体(例えば、ROM(read-only memory)、RAM(random-Access memory)、フロッピーディスク、ハードディスクなど)、および光学的読み取り媒体(例えば、シーディーロム(CD-ROM)、ディーブイディー(DVD:Digital Versatile Disc))などがある。コンピュータで読み取り可能な記憶媒体は、ネットワークに接続されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードが保存され実行され得る。媒体は、コンピュータによって読み取り可能であり、メモリに保存され、プロセッサー上で実行され得る。
【0081】
本実施形態は、機能的なブロック構成および多様な処理段階で示され得る。このような機能ブロックは、特定機能を実行する多様な個数のハードウェアまたは/およびソフトウェア構成で具現され得る。例えば、実施形態は、一つ以上のマイクロプロセッサーの制御または他の制御装置によって多様な機能を実行できる、メモリ、プロセッシング、ロジック(logic)、ルックアップテーブル(look-up table)などのような直接回路構成を採用することができる。構成要素がソフトウェアプログラミングまたはソフトウェア要素で実行され得るのと同様に、本実施形態はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含み、C、C++、ジャバ(Java)、パイソン(Python)などのようなプログラミングまたはスクリプト言語で具現され得る。しかし、このような言語は制限がなく、機械学習を具現するのに使用され得るプログラム言語は多様に使用され得る。機能的な側面は、一つ以上のプロセッサーで実行されるアルゴリズムで具現され得る。また、本実施形態は、電子的な環境設定、信号処理、および/またはデータ処理などのために従来技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は広く使われ得、機械的かつ物理的な構成として限定されるものではない。前記用語は、プロセッサーなどと連係してソフトウェアの一連の処理(routines)の意味を含むことができる。
【0082】
前述した実施形態は、一例示に過ぎず、後述する請求項の範囲内で他の実施形態が具現され得る。
図1
図2
図3
図4
図5
図6
図7