IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザックダン カンパニーの特許一覧

特開2024-16283機械学習を利用した客体画像提供方法及び装置
<>
  • 特開-機械学習を利用した客体画像提供方法及び装置 図1
  • 特開-機械学習を利用した客体画像提供方法及び装置 図2a
  • 特開-機械学習を利用した客体画像提供方法及び装置 図2b
  • 特開-機械学習を利用した客体画像提供方法及び装置 図2c
  • 特開-機械学習を利用した客体画像提供方法及び装置 図2d
  • 特開-機械学習を利用した客体画像提供方法及び装置 図3
  • 特開-機械学習を利用した客体画像提供方法及び装置 図4
  • 特開-機械学習を利用した客体画像提供方法及び装置 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024016283
(43)【公開日】2024-02-06
(54)【発明の名称】機械学習を利用した客体画像提供方法及び装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240130BHJP
   G06V 10/82 20220101ALN20240130BHJP
【FI】
G06T7/00 350C
G06V10/82
【審査請求】有
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023198484
(22)【出願日】2023-11-22
(62)【分割の表示】P 2022519820の分割
【原出願日】2020-07-17
(31)【優先権主張番号】10-2019-0120261
(32)【優先日】2019-09-29
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2020-0015042
(32)【優先日】2020-02-07
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】522123946
【氏名又は名称】ザックダン カンパニー
【氏名又は名称原語表記】ZACKDANG COMPANY
【住所又は居所原語表記】1407,17 Seocho-daero 77-gil, Seocho-gu, Seoul 06614, Republic of Korea
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際弁理士法人
(72)【発明者】
【氏名】キム,ジェ ヒョン
(57)【要約】      (修正有)
【課題】機械学習を通じて画像内客体を検出して利用することにより、画像コンテンツを提供する際により豊かで活用度のあるサービスを提供でき、画像内多様な製品が用いられている現象が分かり、特定ブランドや製品がどれだけ画像で所要されるかを特定でき、顧客の疑問を解決することができ、長い画像内特定製品が露出された箇所に直ちに進入させるサービスが可能な機械学習を利用した画像内客体認識方法及び装置を提供する。
【解決手段】客体認識方法は、客体関連画像を獲得するステップS101と、客体認識ディープラーニングモデルを利用して、前記獲得された客体関連画像から前記客体及び客体表示時間を認識するステップとS103と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
(a)認識しようとする製品に対する客体と関連した客体関連画像を獲得するステップと、
(b)客体認識ディープラーニングモデルを利用して、前記獲得された客体関連画像から前記客体及び客体表示時間を認識し、前記客体表示時間は、前記客体関連画像から前記客体が表示されるフレームに対する時間であるステップと
(c)前記客体及び前記客体表示時間に基づいた客体関連画像をディスプレーするステップとを含むことを特徴とする、客体画像提供方法
【請求項2】
前記認識しようとする製品に対する客体は、化粧品、アクセサリ、及びファッション雑貨からなる群より選択される一つの製品に対する客体であることを特徴とする、請求項1に記載の客体画像提供方法。
【請求項3】
前記(a)ステップに次いで、
前記獲得された客体関連画像を複数のフレームに分割するステップをさらに含み、
前記(b)ステップは、前記客体認識ディープラーニングモデルを利用して、前記決められたフレーム含まれる客体と、該客体が表示されるフレームに対する時間を認識するステップを含むことを特徴とする、請求項1に記載の客体画像提供方法
【請求項4】
前記ディスプレーするステップは、前記客体表示時間に対する入力の回数が閾値以上又は前記客体表示時間へのタイムワープの回数が所定数以上である客体については、前記客体と関連する客体関連画像のリストをさらに提供するステップを含むことを特徴とする、請求項1に記載の客体画像提供方法。
【請求項5】
前記客体認識ディープラーニングモデルは、予めタギングされた客体の学習イメージを利用して、予め学習されたモデルであり、
前記(b)ステップは、前記(a)ステップにて獲得された客体関連画像を予め学習されたモデルに入力して得られる前記客体関連画像に対する特徴ベクトルを利用して、客体を認識するステップを含むことを特徴とする、請求項1に記載の客体画像提供方法。
【請求項6】
前記特徴ベクトルを利用して、客体を認識するステップは、
前記客体関連画像に対する特徴ベクトルと、前記学習イメージに対する特徴ベクトルが一致するか否かを考慮し、客体を認識するステップを含み、
前記客体関連画像に対する特徴ベクトルと、前記学習イメージに対する特徴ベクトルが一致しない場合、前記客体関連画像に含まれる客体を新しい客体として登録することができるように保存するステップをさらに含むことを特徴とする、請求項5に記載の客体画像提供方法。
【請求項7】
認識しようとする製品に対する客体に関する客体関連画像を獲得する通信部と、
客体認識ディープラーニングモデルを利用して、前記獲得された客体関連画像から前記客体及び客体表示時間を認識する制御部と、ここで前記客体表示時間は、前記客体関連画像から前記客体が表示されるフレームに対する時間であり、及び
前記客体及び前記客体表示時間に基づいた客体関連画像をディスプレーする表示部を含むことを特徴とする、客体画像提供装置
【請求項8】
前記認識しようとする製品に対する客体は、化粧品、アクセサリ、及びファッション雑貨からなる群から選択される1つの製品に対する客体であることを特徴とする、請求項7に記載の客体画像提供装置。
【請求項9】
記制御部は、前記獲得した客体関連画像を複数のフレームに分割し、
前記客体認識ディープラーニングモデルを利用して、前記決められたフレームに含まれる客体と、該客体が表示されるフレームに対する時間を認識することを特徴とする、請求項7に記載の客体画像提供装置
【請求項10】
前記表示部は、前記客体表示時間に対する入力の回数が閾値以上又は前記客体表示時間へのタイムワープ回数が所定回数以上である客体については、前記客体に関連する客体関連画像のリストをさらに提供することを特徴とする、請求項7に記載の客体画像提供装置。
【請求項11】
前記客体認識ディープラーニングモデルは、予めタギングされた客体の学習イメージを利用して、予め学習されたモデルであり、前記制御部は、前記通信部から獲得された客体関連画像を予め学習されたモデルに入力して得られる前記客体関連画像に対する特徴ベクトルを利用して、客体を認識することを特徴とする、請求項7に記載の客体画像提供装置。
【請求項12】
前記制御部が前記特徴ベクトルを利用して客体を認識することは、前記客体関連画像に対する特徴ベクトルと、前記学習イメージに対する特徴ベクトルが一致するか否かを考慮し、客体を認識をし、前記客体関連画像に対する特徴ベクトルと、前記学習イメージに対する特徴ベクトルが一致しない場合、前記客体関連画像に含まれる客体を新しい客体として登録することができるように保存することを特徴とする、請求項11に記載の客体画像提供装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習を利用した画像内客体認識方法及び装置に関するもので、より詳しくは、機械学習を利用して客体及び客体表示時間を認識するための方法及び装置に関する。
【背景技術】
【0002】
最近、個人のノーハウを共有する方法がTEXT中心から画像中心に移動している傾向である。このような画像で用いた事物を判別することができれば、多様なビジネスモデルを用いることができ、コンテンツを豊富に加工することができる基本にあり得る。これを具現するために、人が人為的に代入する方式は多くの時間と資本労動が必要となり、一定の品質管理を保持しにくいという短所がある。これを活用すれば、画像を加工する人や、画像を通じてノーハウを受ける人々に有益な情報としての意味があるはずである。
【0003】
ただ、画像の中で客体を認知することができるようにする過程で多量のイメージ学習データを収集してタギングしなければならない初期データ収集努力が大きすぎるという問題点がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、前述の問題点を解決するために創出されたもので、機械学習を利用した画像内客体認識方法及び装置を提供することをその目的とする。
【0005】
また、本発明は、人工知能を取り入れて画像の中で客体を見つけ出すために、人の手作業が大量投入されてこそ学習することができる従来の状況を改善することを目的とする。
【0006】
また、本発明は、最初数百個程度の少ない数から始めて製品学習を始めることができるスパイラル学習モデルを取り入れて早い時間内に客体の特性上、画像の中で客体を認識することができるようにする装置及び方法を提供することをその目的とする。
【0007】
本発明の目的は、以上で言及した目的に制限されず、言及しなかったまた他の目的は以下の記載から明確に理解され得るはずである。
【課題を解決するための手段】
【0008】
前記した目的を達するために、本発明の一実施例に係る客体認識方法は、(a)客体関連画像を獲得するステップと、(b)客体認識ディープラーニングモデルを利用して、前記獲得された客体関連画像から前記客体及び客体表示時間を認識するステップと、を含むことができる。
【0009】
実施例において、前記(a)ステップは、前記客体関連画像を獲得するステップと、前記客体関連画像を複数のフレームに分割するステップと、前記複数のフレームの中で前記客体が含まれたフレームを決めるステップと、を含むことができる。
【0010】
実施例において、前記(b)ステップは、予めタギングされた客体の学習イメージから前記客体認識ディープラーニングモデルを学習させるステップと、前記学習された客体認識ディープラーニングモデルを利用して前記客体関連画像に含まれた客体をタギングするステップと、を含むことができる。
【0011】
実施例において、前記学習させるステップは、前記予めタギングされた客体の学習イメージから特徴(feature)を決めるステップと、前記決められた特徴をベクトル(vector)値に変換するステップと、を含むことができる。
【0012】
実施例において、前記客体認識方法は、前記客体及び客体表示時間に基づいて前記客体関連画像をディスプレーするステップをさらに含むことができる。
【0013】
実施例において、前記客体認識方法は、前記客体表示時間に対する入力を獲得するステップと、前記複数のフレームのうち、前記客体表示時間に対応する前記客体が含まれたフレームをディスプレーするステップと、をさらに含むことができる。
【0014】
実施例において、客体認識装置は、客体関連画像を獲得する通信部と、客体認識ディープラーニングモデルを利用して、前記獲得された客体関連画像から前記客体及び客体表示時間を認識する制御部と、を含むことができる。
【0015】
実施例において、前記通信部は、前記客体関連画像を獲得し、前記制御部は、前記客体関連画像を複数のフレームに分割し、前記複数のフレームの中で前記客体が含まれたフレームを決めることができる。
【0016】
実施例において、前記制御部は、予めタギングされた客体の学習イメージから前記客体認識ディープラーニングモデルを学習させ、前記学習された客体認識ディープラーニングモデルを利用して前記客体関連画像に含まれた客体をタギングすることができる。
【0017】
実施例において、前記制御部は、前記予めタギングされた客体の学習イメージから特徴(feature)を決め、前記決められた特徴をベクトル(vector)値に変換することができる。
【0018】
実施例において、前記客体認識装置は、前記客体及び客体表示時間に基づいて前記客体関連画像をディスプレーする表示部をさらに含むことができる。
【0019】
実施例において、前記客体認識装置は、前記客体表示時間に対する入力を獲得する入力部と、前記複数のフレームのうち、前記客体表示時間に対応する前記客体が含まれたフレームをディスプレーする表示部と、をさらに含むことができる。
【0020】
前記目的を達するための具体的な事項は、添付図面とともに詳細に後述される実施例を参照すれば明確になり得るはずである。
【0021】
しかしながら、本発明は、以下で開示される実施例に限定されるのではなく、互いに異なる多様な形態で構成されることができ、本発明の開示が完全になるようにし、本発明が属する技術分野において通常の知識を有する者(以下、「当業者」)に発明の範疇を完全に知らせるために提供されるのである。
【発明の効果】
【0022】
本発明の一実施例に係ると、機械学習を通じて画像内客体を検出して利用することにより、画像コンテンツを提供する際において、より豊かで活用度のあるサービスを提供することができる。
【0023】
また、本発明の一実施例に係ると、画像内多様な製品が用いられている現象を分かることができ、特定ブランドや製品がどれだけ画像で所要されるかを特定することができる。
【0024】
また、本発明の一実施例に係ると、顧客の疑問を解決することができ、長い画像内特定製品が露出された箇所に直ちに進入させるサービスが可能である。
【0025】
本発明の効果は、前述の効果に制限されず、本発明の技術的特徴によって期待される暫定的な効果は、以下の記載から明確に理解され得るはずである。
【図面の簡単な説明】
【0026】
図1】本発明の一実施例に係る客体認識方法を示した図面である。
図2a】本発明の一実施例に係る画像収集の例を示した図面である。
図2b】本発明の一実施例に係る客体認識ディープラーニングモデル学習の例を示した図面である。
図2c】本発明の一実施例に係る客体認識の例を示した図面である。
図2d】本発明の一実施例に係る客体認識の例を示した図面である。
図3】本発明の一実施例に係る客体認識のための事前準備動作方法を示した図面である。
図4】本発明の一実施例に係る客体認識のための認識抽出動作方法を示した図面である。
図5】本発明の一実施例に係る客体認識装置の機能的構成を示した図面である。
【発明を実施するための形態】
【0027】
本発明は、多様な変更を施すことができ、さまざまな実施形態を有することができ、特定の実施例を図面に例示してこれについて詳しく説明する。
【0028】
特許請求範囲に開示された発明の多様な特徴は、図面及び詳細な説明を考慮してより理解され得るはずである。明細書に開示された装置、方法、製法及び多様な実施例は例示のために提供されるのである。開示された構造及び機能上の特徴は、当業者にとって多様な実施例を具体的に実施することができるようにするためのもので、発明の範囲を制限するのではない。開示された用語及び文章は開示された発明の多様な特徴を容易に理解するために説明するもので、発明の範囲を制限するのではない。
【0029】
本発明を説明する際において、係わる公知技術に対する具体的な説明が本発明の要旨を不必要に曖昧にする虞があると判断される場合、その詳細な説明を省略する。
【0030】
以下、本発明の一実施例に係る機械学習を利用した画像内客体認識方法及び装置について説明する。
【0031】
図1は、本発明の一実施例に係る客体認識方法を示した図面である。図2aは、本発明の一実施例に係る画像収集の例を示した図面である。図2bは、本発明の一実施例に係る客体認識ディープラーニングモデル学習の例を示した図面である。図2c及び2dは、本発明の一実施例に係る客体認識の例を示した図面である。
【0032】
図1を参照すると、S101ステップは、客体関連画像を獲得するステップである。一実施例において、図2aを参照すると、客体関連画像201を獲得し、客体関連画像201を複数のフレームに分割し、複数のフレームの中で客体が含まれたフレーム203を決めることができる。
【0033】
例えば、複数のフレームは、客体関連画像201を1秒単位に分割して生成されることができる。
【0034】
S103ステップは、客体認識ディープラーニングモデルを利用して、客体関連画像から客体及び客体表示時間を認識するステップである。
【0035】
一実施例において、図2bを参照すると、予めタギングされた客体の学習イメージから客体認識ディープラーニングモデル210を学習させることができる。例えば、予めタギングされた客体の学習イメージから特徴(feature)を決め、決められた特徴をベクトル(vector)値に変換することができる。
【0036】
一実施例において、図2c及び2dを参照すると、客体ID220及び当該客体が表示される画面に対する客体表示時間を決めることができる。
【0037】
一実施例において、客体及び客体表示時間に基づいて客体関連画像をディスプレーすることができる。
【0038】
一実施例において、客体表示時間に対する入力を獲得し、複数のフレームのうち客体表示時間に対応する客体が含まれたフレームをディスプレーすることができる。
【0039】
一実施例において、使用者による客体表示時間に対する入力の回数が閾値以上の場合、前記客体表示時間に対応する客体が含まれる少なくとも一つの客体関連画像のリストをディスプレーすることができる。
【0040】
すなわち、当該客体表示時間へのタイムワープの回数が所定数以上である場合、当該客体に対する使用者の選好度が高いことと判断し、当該客体に関する多様な画像のリストを使用者に提供することにより、使用者の客体検索活用性を高めることができる。
【0041】
例えば、前記客体は、化粧品、アクセサリ、ファッション雑貨など多様な製品を含むことができるが、これに制限されない。
【0042】
図3は、本発明の一実施例に係る客体認識のための事前準備動作方法を示した図面である。
【0043】
図3を参照すると、S301ステップは、自ら確保したアルゴリズムで学習画像を収集するステップである。ここで、学習画像は客体認識ディープラーニングモデルの学習のための画像を含むことができる。
【0044】
一実施例において、学習画像に存在するキーワードを把握し、キーワードが自ら確保したアルゴリズムを利用して、画像として用いることができる画像と用いることのできない画像を区分することができる。
【0045】
S303ステップは、学習画像から客体イメージを抽出するステップである。例えば、ブラー現象と滲み現象に対する問題を最小化するために、1秒単位で客体イメージを抽出して学習画像を細分化することができる。
【0046】
S305ステップは、客体イメージから客体認識ディープラーニングモデル210を学習させるステップである。この場合、客体イメージは客体の学習イメージを含むことができる。
【0047】
この場合、学習イメージの客体は、使用者によって予めタギングされることができる。すなわち、最初使用者の介入で客体をタギングし、最小化させることができる最小数量を求めて取り入れることができる。
【0048】
その後、客体のイメージの中で特徴を把握してベクトル形態を計算することができる。例えば、客体認識ディープラーニングモデル210は、YOLOアルゴリズム、SSD(Single Shot Multibox Detector)アルゴリズム及びCNNアルゴリズムなどがあるが、他のアルゴリズムの適用を排除するのではない。
【0049】
S307ステップは、客体認識ディープラーニングモデル210の学習によって計算された学習ファイルを保存するステップである。この場合、学習ファイルは、抽出するサーバに移動して抽出の適正性を測定することができる。
【0050】
S309ステップは、学習ファイルを活用して客体関連画像で客体を自動タギングするステップである。すなわち、新たに流入された客体関連画像での客体を学習することができるデータとして自動に流入されることができるようにする自動タギングステップである。
【0051】
一実施例において、良質の学習イメージをたくさん手に入れて学習をさせるほど認識率がたくさん上がるので、これを繰り返し学習して所望の認識率が出るまでS305ステップ乃至S309ステップを繰り返すことができる。
【0052】
図4は、本発明の一実施例に係る客体認識のための認識抽出動作方法を示した図面である。
【0053】
図4を参照すると、S401ステップは、客体関連画像を獲得するステップである。すなわち、新しい画像を入力することができる。一実施例において、新しい画像は、図3のS301ステップと同じ方式で獲得されることができる。
【0054】
S403ステップは、客体関連画像から客体イメージを抽出することができる。すなわち、客体関連画像から客体が含まれたフレームを抽出することができる。例えば、客体イメージが入力されることができるように1秒単位イメージで抽出することができる。
【0055】
S405ステップは、客体イメージと客体認識ディープラーニングモデルによって生成された学習ファイルの一致可否を判断するステップである。すなわち、客体イメージと学習ファイルを有し、客体の種類を見つけ出すことができる。ここで、学習ファイルは既存客体DB(database)を含むことができる。
【0056】
S407ステップは、客体イメージと客体認識ディープラーニングモデルによって生成された学習ファイルが一致する場合、客体イメージに対応する客体のID(identification)及び客体表示時間(time)を抽出するステップである。
【0057】
S409ステップは、客体イメージと客体認識ディープラーニングモデルによって生成された学習ファイルが一致しない場合、新しい客体を登録することができるように客体イメージを保存するステップである。
【0058】
すなわち、マッチングできないデータは、また手動でタギングして客体認識ディープラーニングモデルの学習に利用して、次回の認識抽出ステップでは、客体DBとマッチングされることができるように、先循環サイクル(Circle)が円滑に行われるようにシステムを構成することができる。
【0059】
図5は、本発明の一実施例に係る客体認識装置500の機能的構成を示した図面である。
【0060】
図5を参照すると、客体認識装置500は、通信部510、制御部520、表示部530、入力部540及び保存部550を含むことができる。
【0061】
通信部510は、客体関連画像を獲得することができる。
【0062】
一実施例において、通信部510は、有線通信モジュール及び無線通信モジュールの少なくとも一つを含むことができる。通信部510の全部または一部は、「送信部」、「受信部」または「送受信部(transceiver)」に指称されることができる。
【0063】
制御部520は、客体認識ディープラーニングモデルを利用して、客体関連画像から客体及び客体表示時間を認識することができる。
【0064】
一実施例において、制御部520は、ビューティ関連クリエータ及び関連画像を収集する画像収集部522、収集された画像を集めて深化学習(Deep Learning)し、既学習した学習データを活用して新規製品を自動にタギングして学習する事物学習部524、及び特定のイメージを提示した時、学習された製品の中でこの製品が何なのかを区分する事物抽出部526を含むことができる。
【0065】
一実施例において、制御部520は、少なくとも一つのプロセッサまたはマイクロ(micro)プロセッサを含むか、または、プロセッサの一部であり得る。また、制御部520は、CP(communication processor)と指称され得る。制御部520は、本発明の多様な実施例に係る客体認識装置500の動作を制御することができる。
【0066】
表示部530は、客体及び客体表示時間に基づいて客体関連画像をディスプレーすることができる。一実施例において、表示部530は、複数のフレームのうち、客体表示時間に対応する客体が含まれたフレームをディスプレーすることができる。
【0067】
一実施例において、表示部530は、客体認識装置500で処理される情報を表示することができる。例えば、表示部530は、液晶ディスプレー(LCD;Liquid Crystal Display)、発光ダイオード(LED;Light Emitting Diode)ディスプレー、有機発光ダイオード(OLED;Organic LED)ディスプレー、マイクロ電子機械システム(MEMS;Micro Electro Mechanical Systems)ディスプレー及び電子ペーパー(electronic paper)ディスプレーの少なくとも何れか一つを含むことができる。
【0068】
入力部540は、客体表示時間に対する入力を獲得することができる。一実施例において、入力部540は、使用者による客体表示時間に対する入力を獲得することができる。
【0069】
保存部550は、客体認識ディープラーニングモデル210の学習ファイル、客体関連画像、客体ID及び客体表示時間を保存することができる。
【0070】
一実施例において、保存部550は、揮発性メモリ、不揮発性メモリまたは揮発性メモリと不揮発性メモリの組み合わせで構成されることができる。そして、保存部550は、制御部520の要請によって保存されたデータを提供することができる。
【0071】
図5を参照すると、客体認識装置500は、通信部510、制御部520、表示部530、入力部540及び保存部550を含むことができる。本発明の多様な実施例において、客体認識装置500は、図5に説明された構成が必須的でないので、図5に説明された構成よりも多い構成を有するか、またはそれよりも少ない構成を有することに具現されることができる。
【0072】
本発明に係ると、最初数百個の画像で手動で学習し、学習したデータを活用して他のイメージを自動に抽出することができるようにシステムを構築した。
【0073】
また、本発明に係ると、客体イメージを取り入れると、自動にタギングすることができることは、自動にタギングされることができるようにし、自動にタギングされなかったものを別途に集めてタギングするようにシステムを構築して、人の手作業が最小化されることができる。
【0074】
また、本発明に係ると、初期データ収集を最小化することができるように、最初少量のデータを利用して学習し、この学習データを活用して自動にイメージの形態を抽出して学習データを作るのに活用し、このような過程を繰り返して高品質の学習データを学習することができる。
【0075】
以上の説明は、本発明の技術的思想を例示的に説明したことに過ぎず、当業者であれば本発明の本質的な特性から逸脱しない範囲で多様な変更及び修正が可能であり得る。
【0076】
したがって、本明細書に開示された実施例は、本発明の技術的思想を限定するためのものではなく、説明するためのもので、このような実施例によって本発明の範囲が限定されるのではない。
【0077】
本発明の保護範囲は特許請求範囲によって解釈されるべきであり、それと同等な範囲内にある全ての技術思想は、本発明の権利範囲に含まれることに理解されるべきである。
図1
図2a
図2b
図2c
図2d
図3
図4
図5