(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-06
(54)【発明の名称】階層的モデルを利用したオブジェクト識別方法及び装置
(51)【国際特許分類】
G06T 7/11 20170101AFI20241129BHJP
G06T 7/00 20170101ALI20241129BHJP
【FI】
G06T7/11
G06T7/00 350B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023571484
(86)(22)【出願日】2023-09-07
(85)【翻訳文提出日】2023-11-15
(86)【国際出願番号】 KR2023013394
(87)【国際公開番号】W WO2024101625
(87)【国際公開日】2024-05-16
(31)【優先権主張番号】10-2022-0148837
(32)【優先日】2022-11-09
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523432896
【氏名又は名称】ヌビ・ラブズ・カンパニー・リミテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】デ・フン・キム
(72)【発明者】
【氏名】ジェイ・ユン・ル
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA02
5L096DA01
5L096DA02
5L096FA06
5L096HA09
5L096JA11
(57)【要約】
本発明は、階層的モデルを利用したオブジェクト識別方法及び装置に関するものであって、本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別方法は、オブジェクト識別装置が、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出すステップと、オブジェクト管理サーバがオブジェクト種類推論モデルに基づいて前記オブジェクト識別装置から切り出したオブジェクト領域に位置したオブジェクト種類情報を識別するステップとを含む。
【特許請求の範囲】
【請求項1】
オブジェクト識別システムにより行われるオブジェクト識別方法において、
オブジェクト識別装置が、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出すステップと、
オブジェクト管理サーバがオブジェクト種類推論モデルに基づいて前記オブジェクト識別装置から切り出したオブジェクト領域に位置したオブジェクト種類情報を識別するステップと、
を含む、階層的モデルを利用したオブジェクト識別方法。
【請求項2】
前記検出されたオブジェクト領域を切り出すステップは、
前記学習されたオブジェクト領域抽出モデルに基づいて前記オブジェクトイメージから前記オブジェクトを囲んでいるボックス(Box)または前記オブジェクトが占めているピクセル(Pixel)を用いてオブジェクト領域を検出する、請求項1に記載の階層的モデルを利用したオブジェクト識別方法。
【請求項3】
前記検出されたオブジェクト領域を切り出すステップは、
前記学習されたオブジェクト領域抽出モデルの第1イメージエンコーダを介して第1特徴点を抽出し、前記抽出された第1特徴点から特徴点領域を抽出してオブジェクト領域を推論する、請求項1に記載の階層的モデルを利用したオブジェクト識別方法。
【請求項4】
前記オブジェクト識別装置が前記切り出したオブジェクト領域に位置したオブジェクト種類のカテゴリーを段階的に分類するステップをさらに含み、
前記オブジェクト種類情報を識別するステップは、前記オブジェクト管理サーバが前記分類されたカテゴリーと対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を識別する、請求項1に記載の階層的モデルを利用したオブジェクト識別方法。
【請求項5】
前記オブジェクト種類のカテゴリーを段階的に分類するステップは、
前記オブジェクト識別装置が前記切り出したオブジェクト領域に位置したオブジェクトのカテゴリーを最上位大分類から順次最下位小分類まで段階的に分類する、請求項4に記載の階層的モデルを利用したオブジェクト識別方法。
【請求項6】
前記オブジェクト種類情報を識別するステップは、
前記オブジェクト管理サーバが前記分類されたカテゴリーである最下位小分類と対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を識別する、請求項5に記載の階層的モデルを利用したオブジェクト識別方法。
【請求項7】
前記オブジェクト種類情報を識別するステップは、
前記オブジェクト管理サーバが前記オブジェクト種類情報を前記分類された最下位小分類に含まれた複数のクラスのうち、いずれか1つのクラスとして判別する、請求項5に記載の階層的モデルを利用したオブジェクト識別方法。
【請求項8】
前記オブジェクト種類情報を識別するステップは、
前記オブジェクト管理サーバが前記分類されたカテゴリーと対応するオブジェクト種類推論モデルの第2イメージエンコーダを介して第2特徴点を抽出し、前記抽出された第2特徴点を特徴点デコーダに入力させてオブジェクト種類情報を推論する、請求項4に記載の階層的モデルを利用したオブジェクト識別方法。
【請求項9】
オブジェクト識別装置により行われるオブジェクト識別方法において、
学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出すステップと、
オブジェクト種類推論モデルに基づいて前記切り出したオブジェクト領域に位置したオブジェクト種類情報を識別するステップと、
を含む、階層的モデルを利用したオブジェクト識別方法。
【請求項10】
オブジェクト管理サーバにより行われるオブジェクト識別方法において、
学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出すステップと、
オブジェクト種類推論モデルに基づいて前記切り出したオブジェクト領域に位置したオブジェクト種類情報を識別するステップと、
を含む、階層的モデルを利用したオブジェクト識別方法。
【請求項11】
オブジェクト識別システムにおいて、
学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出すオブジェクト識別装置と、
オブジェクト種類推論モデルに基づいて前記オブジェクト識別装置から切り出したオブジェクト領域に位置したオブジェクト種類情報を識別するオブジェクト管理サーバと、
を備える、階層的モデルを利用したオブジェクト識別システム。
【請求項12】
前記オブジェクト識別装置は、
前記学習されたオブジェクト領域抽出モデルに基づいて前記オブジェクトイメージから前記オブジェクトを囲んでいるボックス(Box)または前記オブジェクトが占めているピクセル(Pixel)を用いてオブジェクト領域を検出する、請求項11に記載の階層的モデルを利用したオブジェクト識別システム。
【請求項13】
前記オブジェクト識別装置は、
前記学習されたオブジェクト領域抽出モデルの第1イメージエンコーダを介して第1特徴点を抽出し、前記抽出された第1特徴点から特徴点領域を抽出してオブジェクト領域を推論する、請求項11に記載の階層的モデルを利用したオブジェクト識別システム。
【請求項14】
前記オブジェクト識別装置は、前記オブジェクト識別装置が、前記切り出したオブジェクト領域に位置したオブジェクト種類のカテゴリーを段階的に分類し、
前記オブジェクト管理サーバは、前記分類されたカテゴリーと対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を識別する、請求項11に記載の階層的モデルを利用したオブジェクト識別システム。
【請求項15】
前記オブジェクト識別装置は、
前記切り出したオブジェクト領域に位置したオブジェクトのカテゴリーを最上位大分類から順次最下位小分類まで段階的に分類する、請求項14に記載の階層的モデルを利用したオブジェクト識別システム。
【請求項16】
前記オブジェクト管理サーバは、
前記分類されたカテゴリーである最下位小分類と対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を識別する、請求項15に記載の階層的モデルを利用したオブジェクト識別システム。
【請求項17】
前記オブジェクト管理サーバは、
前記オブジェクト種類情報を前記分類された最下位小分類に含まれた複数のクラスのうち、いずれか1つのクラスとして判別する、請求項15に記載の階層的モデルを利用したオブジェクト識別システム。
【請求項18】
前記オブジェクト管理サーバは、
前記分類されたカテゴリーと対応するオブジェクト種類推論モデルの第2イメージエンコーダを介して第2特徴点を抽出し、前記抽出された第2特徴点を特徴点デコーダに入力させてオブジェクト種類情報を推論する、請求項14に記載の階層的モデルを利用したオブジェクト識別システム。
【請求項19】
オブジェクト識別装置において、
1つ以上のプログラムを格納するメモリと、
前記格納された1つ以上のプログラムを実行するプロセッサと、
を備え、
前記プロセッサは、
学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出し、
オブジェクト種類推論モデルを利用して前記切り出したオブジェクト領域に位置したオブジェクト種類情報を識別する、階層的モデルを利用したオブジェクト識別装置。
【請求項20】
オブジェクト管理サーバにおいて、
1つ以上のプログラムを格納するメモリと、
前記格納された1つ以上のプログラムを実行するプロセッサと、
を備え、
前記プロセッサは、
学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出し、
オブジェクト種類推論モデルを利用して前記切り出したオブジェクト領域に位置したオブジェクト種類情報を識別する、階層的モデルを利用したオブジェクト管理サーバ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オブジェクト識別方法及び装置に関する。
【背景技術】
【0002】
近年、健康についての関心が高まっているが、それに対し、過体重や肥満のため、苦しめられる人々も次第に増加している。このような過体重や肥満は、糖尿、高血圧など、各種疾患の原因になる深刻な問題である。
【0003】
したがって、このような過体重や肥満を解決するためには、自分の食習慣を分析することが先行されなければならない。一般に、本人の好き嫌いオブジェクトに対して知っているが、実際に摂取するオブジェクトの種類と回数を記憶してはいない。したがって、自分の食習慣を分析するために、実際に摂取するオブジェクトを把握し、把握したオブジェクトに関する情報に応じて個人の食習慣を分析する必要がある。
【0004】
しかし、現在公開されたほとんどの技術は、カメラを介して撮影されたオブジェクトイメージを単純イメージ検索するのにとどめているため、その正確度が顕著に落ちる。また、イメージ検索でオブジェクト種類識別の正確度が落ちていたら、カロリー計算などのような次の段階では、より大きい誤差が発生するという問題点がある。
【0005】
一例として、実際に摂取するオブジェクトを把握するために、ユーザがモバイル端末や入力装置を利用してオブジェクト情報を入力しなければならない。ここで、ユーザは、モバイル端末に実行されたオブジェクト関連アプリケーションや一般撮影モードを実行してオブジェクトを撮影する。このとき、ユーザは、オブジェクト関連アプリケーションで撮影されたオブジェクトイメージを検索し、再度、これに対するオブジェクト情報を入力しなければならないという不便さがある。または、一般撮影モードで撮影した場合、ユーザは、アルバムから撮影したオブジェクトイメージを探し、探したオブジェクトイメージをオブジェクト関連アプリケーションに載せ、載せたオブジェクトイメージを再度探してオブジェクト情報を入力しなければならないという不便さがある。したがって、オブジェクト撮影とオブジェクト識別とが別の動作でなされて不便であるため、ユーザは、いくつのオブジェクトイメージを撮影した後には、オブジェクト情報を載せる頻度が急激に低くなる。
【0006】
仮りに、ユーザがオブジェクトを撮影ばかりし、後でオブジェクト情報を入力することになる場合が発生しうる。オブジェクトイメージを撮影した期間が長く経過した場合、ユーザは、撮影する際に入力しようとしたオブジェクト情報を記憶しておらず、オブジェクト情報を記録できないか、誤ったオブジェクト情報を載せて、食習慣分析でエラーが発生しうる。また、ユーザが撮影されたオブジェクトイメージに対して種々のオブジェクト情報を入力することを望んでも、アプリケーション毎に設定されたいくつの固定されたオブジェクト情報のみ入力せざるをえない。このような場合、オブジェクト情報の個数が制限されて、ユーザ食習慣分析が正確になされないことがある。このように、ユーザの不便が加重されることで、オブジェクト識別を介して一例として個人の食習慣を分析するサービスに対する満足度が低下している実情である。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の実施形態等は、オブジェクト識別装置でオブジェクト領域を識別し、オブジェクト管理サーバでオブジェクト種類情報を識別することで、オブジェクト識別速度を増加させるための、階層的モデルを利用したオブジェクト識別方法及び装置を提供しようとする。
【0008】
本発明の実施形態等は、オブジェクト領域抽出モデルとオブジェクト種類推論モデルとを利用してオブジェクトのカテゴリーを段階的に分類し、オブジェクト種類情報を識別することで、オブジェクトイメージで位置したオブジェクトを速かに決定するための、階層的モデルを利用したオブジェクト識別方法及び装置を提供しようとする。
【0009】
ただし、本発明の解決しようとする課題は、これに限定されるものではなく、本発明の思想及び領域から逸脱しない範囲の環境でも様々に拡張されることができるであろう。
【課題を解決するための手段】
【0010】
本発明の一実施形態によれば、オブジェクト識別システムにより行われるオブジェクト識別方法において、オブジェクト識別装置が、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出すステップと、オブジェクト管理サーバがオブジェクト種類推論モデルに基づいて前記オブジェクト識別装置から切り出したオブジェクト領域に位置したオブジェクト種類情報を識別するステップとを含む、階層的モデルを利用したオブジェクト識別方法が提供され得る。
【0011】
前記検出されたオブジェクト領域を切り出すステップは、前記学習されたオブジェクト領域抽出モデルに基づいて前記オブジェクトイメージから前記オブジェクトを囲んでいるボックス(Box)または前記オブジェクトが占めているピクセル(Pixel)を用いてオブジェクト領域を検出できる。
【0012】
前記検出されたオブジェクト領域を切り出すステップは、前記学習されたオブジェクト領域抽出モデルの第1イメージエンコーダを介して第1特徴点を抽出し、前記抽出された第1特徴点から特徴点領域を抽出してオブジェクト領域を推論できる。
【0013】
前記方法は、前記オブジェクト識別装置が前記切り出したオブジェクト領域に位置したオブジェクト種類のカテゴリーを段階的に分類するステップをさらに含み、前記オブジェクト種類情報を識別するステップは、前記オブジェクト管理サーバが前記分類されたカテゴリーと対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を識別できる。
【0014】
前記オブジェクト種類のカテゴリーを段階的に分類するステップは、前記オブジェクト識別装置が前記切り出したオブジェクト領域に位置したオブジェクトのカテゴリーを最上位大分類から順次最下位小分類まで段階的に分類することができる。
【0015】
前記オブジェクト種類情報を識別するステップは、前記オブジェクト管理サーバが前記分類されたカテゴリーである最下位小分類と対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を識別できる。
【0016】
前記オブジェクト種類情報を識別するステップは、前記オブジェクト管理サーバが前記オブジェクト種類情報を前記分類された最下位小分類に含まれた複数のクラスのうち、いずれか1つのクラスとして判別することができる。
【0017】
前記オブジェクト種類情報を識別するステップは、前記オブジェクト管理サーバが前記分類されたカテゴリーと対応するオブジェクト種類推論モデルの第2イメージエンコーダを介して第2特徴点を抽出し、前記抽出された第2特徴点を特徴点デコーダに入力させてオブジェクト種類情報を推論できる。
【0018】
一方、本発明の他の実施形態によれば、オブジェクト識別装置により行われるオブジェクト識別方法において、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出すステップと、オブジェクト種類推論モデルに基づいて前記切り出したオブジェクト領域に位置したオブジェクト種類情報を識別するステップとを含む、階層的モデルを利用したオブジェクト識別方法が提供され得る。
【0019】
一方、本発明の他の実施形態によれば、オブジェクト管理サーバにより行われるオブジェクト識別方法において、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出すステップと、オブジェクト種類推論モデルに基づいて前記切り出したオブジェクト領域に位置したオブジェクト種類情報を識別するステップとを含む、階層的モデルを利用したオブジェクト識別方法が提供され得る。
【0020】
一方、本発明の他の実施形態によれば、オブジェクト識別システムにおいて、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出すオブジェクト識別装置と、オブジェクト種類推論モデルに基づいて前記オブジェクト識別装置から切り出したオブジェクト領域に位置したオブジェクト種類情報を識別するオブジェクト管理サーバとを備える、階層的モデルを利用したオブジェクト識別システムが提供され得る。
【0021】
前記オブジェクト識別装置は、前記学習されたオブジェクト領域抽出モデルに基づいて前記オブジェクトイメージから前記オブジェクトを囲んでいるボックス(Box)または前記オブジェクトが占めているピクセル(Pixel)を用いてオブジェクト領域を検出できる。
【0022】
前記オブジェクト識別装置は、前記学習されたオブジェクト領域抽出モデルの第1イメージエンコーダを介して第1特徴点を抽出し、前記抽出された第1特徴点から特徴点領域を抽出してオブジェクト領域を推論できる。
【0023】
前記オブジェクト識別装置は、前記オブジェクト識別装置が、前記切り出したオブジェクト領域に位置したオブジェクト種類のカテゴリーを段階的に分類し、前記オブジェクト管理サーバは、前記分類されたカテゴリーと対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を識別できる。
【0024】
前記オブジェクト識別装置は、前記切り出したオブジェクト領域に位置したオブジェクトのカテゴリーを最上位大分類から順次最下位小分類まで段階的に分類することができる。
【0025】
前記オブジェクト管理サーバは、前記分類されたカテゴリーである最下位小分類と対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を識別できる。
【0026】
前記オブジェクト管理サーバは、前記オブジェクト種類情報を前記分類された最下位小分類に含まれた複数のクラスのうち、いずれか1つのクラスとして判別することができる。
【0027】
前記オブジェクト管理サーバは、前記分類されたカテゴリーと対応するオブジェクト種類推論モデルの第2イメージエンコーダを介して第2特徴点を抽出し、前記抽出された第2特徴点を特徴点デコーダに入力させてオブジェクト種類情報を推論できる。
【0028】
一方、本発明の他の実施形態によれば、オブジェクト識別装置において、1つ以上のプログラムを格納するメモリと、前記格納された1つ以上のプログラムを実行するプロセッサとを備え、前記プロセッサは、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出し、オブジェクト種類推論モデルを利用して前記切り出したオブジェクト領域に位置したオブジェクト種類情報を識別する、階層的モデルを利用したオブジェクト識別装置が提供され得る。
【0029】
一方、本発明の他の実施形態によれば、オブジェクト管理サーバにおいて、1つ以上のプログラムを格納するメモリと、前記格納された1つ以上のプログラムを実行するプロセッサとを備え、前記プロセッサは、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出し、オブジェクト種類推論モデルを利用して前記切り出したオブジェクト領域に位置したオブジェクト種類情報を識別する、階層的モデルを利用したオブジェクト管理サーバが提供され得る。
【発明の効果】
【0030】
開示された技術は、次の効果を有することができる。ただし、特定実施形態が次の効果を全部含むべきであるか、次の効果だけを含むべきであるという意味ではないので、開示された技術の権利範囲は、これによって制限されることと理解されてはならないであろう。
【0031】
本発明の実施形態等は、オブジェクト識別装置でオブジェクト領域を識別し、オブジェクト管理サーバでオブジェクト種類情報を識別することで、オブジェクト識別速度を増加させることができる。
【0032】
本発明の実施形態等は、オブジェクト領域抽出モデルとオブジェクト種類推論モデルとを利用してオブジェクトのカテゴリーを段階的に分類し、オブジェクト種類情報を識別することで、オブジェクトイメージで位置したオブジェクトを速かに決定することができる。
【0033】
本発明の実施形態等は、分類時点のリアルタイム性やオブジェクト識別装置の資源状態や演算負荷などを考慮して、分類すべきカテゴリーを調整することにより、オブジェクト識別動作の効率性を増加させることができる。
【0034】
本発明の実施形態等は、オブジェクト識別装置が自ら行い難いオブジェクトカテゴリー分類動作やオブジェクト情報決定動作をオブジェクト管理サーバと分けて速かに行うことにより、オブジェクト識別時間やオブジェクト識別正確性を向上させることができる。
【図面の簡単な説明】
【0035】
【
図1】本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別システムの構成を示した図である。
【0036】
【
図2】本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別方法を示したフローチャートである。
【0037】
【
図3】本発明の一実施形態に使用されるオブジェクト領域推論モデルを示した図である。
【0038】
【
図4】本発明の一実施形態に使用されるオブジェクト種類推論モデルを示した図である。
【0039】
【
図5】本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別方法を示したフローチャートである。
【0040】
【
図6】本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別動作の例示を示した図である。
【0041】
【
図7】本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別動作の例示を示した図である。
【0042】
【
図8】本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別動作の例示を示した図である。
【0043】
【
図9】本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別動作の例示を示した図である。
【0044】
【
図10】本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別方法がオブジェクト管理サーバと連動する動作を示した図である。
【発明を実施するための形態】
【0045】
本発明は、様々な変更を加えることができ、種々の実施形態を有することができるところ、特定実施形態を図面に例示し、詳細な説明に具体的に説明しようとする。しかしながら、これは、本発明を特定実施形態に限定しようとするものではなく、本発明の技術的思想及び技術範囲に含まれるあらゆる変換、均等物ないし代替物を含むことと理解されることができる。本発明を説明するにあたり、関連した公知技術についての具体的な説明が本発明の要旨を濁す恐れがあると判断される場合、その詳細な説明を省略する。
【0046】
第1、第2などの用語は、様々な構成要素を説明するのに使用されることができるが、構成要素等が用語等により限定されるものではない。用語等は、1つの構成要素を他の構成要素から区別する目的としてのみ使用される。
【0047】
本発明において使用した用語は、単に特定の実施形態を説明するために使用されたものであって、本発明を限定しようとする意図ではない。本発明において使用した用語は、本発明における機能を考慮しながら、なるべく現在広く使用される一般的な用語を選択したが、これは当分野に従事する技術者の意図、判例、または新しい技術の出現などによって変わることができる。また、特定の場合は、出願人が任意に選定した用語もあり、この場合、該当する発明の説明部分で詳細にその意味を記載するであろう。したがって、本発明において使用される用語は、単純な用語の名称ではない、その用語が有する意味と本発明の全般にわたる内容を基に定義されなければならない。
【0048】
単数の表現は、文脈上明白に異なるように意味しない限り、複数の表現を含む。本明細書において「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品、またはこれらを組み合わせたものが存在することを指定しようとするものであり、1つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、またはこれらを組み合わせたものなどの存在または付加可能性を予め排除しないことと理解されるべきである。
【0049】
以下、本発明の実施形態を添付図面を参照して詳細に説明し、添付図面を参照して説明するにあたり、同一であるか、対応する構成要素は、同じ図面番号を付与し、これについての重複する説明を省略する。
【0050】
図1は、本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別システムの構成を示した図である。
【0051】
まず、
図1に示すように、本発明に係るオブジェクト識別システム10は、オブジェクト識別装置100及びオブジェクト識別装置100と通信するオブジェクト管理サーバ200を備えることができる。
【0052】
オブジェクト識別装置100は、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、検出されたオブジェクト領域を切り出すことができる。そして、オブジェクト識別装置100は、切り出したオブジェクト領域をオブジェクト管理サーバ200に送信することができる。
【0053】
オブジェクト管理サーバ200は、オブジェクト種類推論モデルに基づいてオブジェクト識別装置100から切り出したオブジェクト領域に位置したオブジェクト種類情報を識別できる。
【0054】
このように、オブジェクト種類情報を識別する動作は、オブジェクト識別装置100で行わずに、オブジェクト管理サーバ200で行われることができる。ここで、オブジェクト管理サーバ200は、クラウドサーバで実現されることができる。または、オブジェクト領域を検出する動作とオブジェクト種類情報を識別する動作とは、オブジェクト識別装置100で共に行われることができる。
【0055】
これは、オブジェクト領域検出及びオブジェクト種類識別動作の速度を上げるためである。例えば、ユーザが、オブジェクト識別装置100が含まれたモバイル端末でオブジェクト(飲食)の写真を撮影したときに撮影した原本イメージファイルが4MBであるが、4MBの原本イメージファイルをクラウドにあるオブジェクト管理サーバ200に送信すれば、容量が大き過ぎるようになる。したがって、オブジェクト識別装置100は、原本イメージからオブジェクト(飲食)領域のみ切り出して、例えば、200KBのみクラウドにあるオブジェクト管理サーバ200に送信することができる。このように、モバイル端末では、オブジェクト領域を検出する動作のみ行い、クラウドでオブジェクト種類情報を識別する動作を行うこともできる。または、モバイル端末でオブジェクト領域を検出する動作とオブジェクト種類情報を識別する動作とを共に行うこともできる。
【0056】
ここで、オブジェクト領域を検出する動作とオブジェクト種類情報を識別する動作との主体は、オブジェクト管理サーバ200に送信するデータ容量、オブジェクト識別装置100のハードウェア性能、オブジェクト管理サーバ200とオブジェクト識別装置100との間の通信速度、オブジェクト領域抽出モデルまたはオブジェクト種類推論モデルの大きさ、及びオブジェクト種類情報の識別正確度のうち、少なくとも1つに基づいて決定されることができる。例えば、予め設定された閾値よりデータ容量が小さく、ハードウェア性能が高く、通信速度が遅く、モデルの大きさが小さく、正確度が高い場合では、オブジェクト識別装置100がオブジェクト領域を検出する動作とオブジェクト種類情報を識別する動作とを行うことが有利でありうる。逆に、予め設定された閾値よりデータ容量が大きく、ハードウェア性能が低く、通信速度が速く、モデルの大きさが大きく、正確度が低い場合では、オブジェクト識別装置100がオブジェクト領域を検出する動作を行い、オブジェクト管理サーバ200がオブジェクト種類情報を識別する動作を行うことが有利でありうる。このとき、オブジェクト識別装置100は、検出されたオブジェクト領域を切り出す動作の代りに、検出されたオブジェクト領域を変換してオブジェクト管理サーバ200に送信することができる。例えば、オブジェクト識別装置100は、検出されたオブジェクト領域の解像度を低くし、サムネールに変換してオブジェクト管理サーバ200に速く送るか、オブジェクト領域が含まれたファイルを送るとき、拡張子やファイル形式を変換してオブジェクト管理サーバ200に送ることができる。
【0057】
一方、
図1に示されたように、オブジェクト識別装置100は、通信モジュール110、カメラ120、ディスプレイ130、メモリ140、及びプロセッサ150を備えることができる。オブジェクト管理サーバ200は、通信モジュール210、メモリ220、及びプロセッサ230を備えることができる。
【0058】
しかし、図示された構成要素が全て必須構成要素であるものではない。図示された構成要素より多い構成要素によりオブジェクト識別システム10が実現され得るし、それより少ない構成要素によってもオブジェクト識別システム10が実現され得る。
【0059】
以下、
図1のオブジェクト識別システム10の各構成要素の具体的な構成及び動作を説明する。
【0060】
まず、オブジェクト識別装置100の各構成要素の具体的な構成及び動作を説明する。
【0061】
通信モジュール110は、オブジェクト識別装置100と無線通信装置との間、またはオブジェクト識別装置100とオブジェクト管理サーバ200との間の通信を可能にする1つ以上のモジュールを含むことができる。また、通信モジュール110は、オブジェクト識別装置100を1つ以上のネットワークに連結する1つ以上のモジュールを含むことができる。
【0062】
カメラ120は、ユーザの操作によってイメージまたは動画を撮影できる。カメラ120は、単一カメラ、複数のカメラ、単一イメージセンサ、または複数のイメージセンサからなることができる。カメラ120は、少なくとも1つの2Dカメラ、少なくとも1つの3Dカメラ、少なくとも1つのステレオカメラ、少なくとも1つのイメージセンサのうち、少なくとも1つで構成されることができる。ここで、カメラ120は、ユーザの操作によって食事前後にオブジェクトをイメージまたは動画で撮影することができる。
【0063】
ディスプレイ130は、タッチセンサと相互レイヤ構造をなすか、一体型で形成されることによってタッチスクリーンを実現できる。このようなタッチスクリーンは、オブジェクト識別装置100とユーザとの間の入力インターフェースを提供するとともに、オブジェクト識別装置100とユーザとの間の出力インターフェースを提供することができる。
【0064】
メモリ140は、オブジェクト識別装置100の様々な機能を支援するデータを格納することができる。メモリ140は、オブジェクト識別装置100で駆動される1つ以上のプログラム、複数の応用プログラム(application program)、またはアプリケーション(application)、オブジェクト識別装置100の動作のためのデータ、命令語を格納することができる。このような応用プログラムのうち少なくとも一部は、無線通信を介してオブジェクト管理サーバ200からダウンロードされることができる。また、このような応用プログラムのうち少なくとも一部は、オブジェクト識別装置100の基本的な機能のために存在することができる。一方、応用プログラムは、メモリ140に格納され、オブジェクト識別装置100上に設けられて、プロセッサ150によりオブジェクト識別装置100の動作(または、機能)を行うように駆動されることができる。
【0065】
プロセッサ150は、前記応用プログラムと関連した動作の他にも、通常的にオブジェクト識別装置100の全般的な動作を制御できる。プロセッサ150は、上記で説明した構成要素を介して入力または出力される信号、データ、情報などを処理するか、メモリ140に格納された応用プログラムを駆動することにより、ユーザに適切な情報または機能を提供または処理することができる。
【0066】
一実施形態において、プロセッサ150は、メモリ140に格納された1つ以上のプログラムを実行することで、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、検出されたオブジェクト領域を切り出し、オブジェクト種類推論モデルに基づいて前記切り出したオブジェクト領域に位置したオブジェクト種類情報を識別する。
【0067】
実施形態等によれば、プロセッサ150は、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージから前記オブジェクトを囲んでいるボックス(Box)またはオブジェクトが占めているピクセル(Pixel)を用いてオブジェクト領域を検出できる。
【0068】
実施形態等によれば、プロセッサ150は、学習されたオブジェクト領域抽出モデルの第1イメージエンコーダを介して第1特徴点を抽出し、抽出された第1特徴点から特徴点領域を抽出してオブジェクト領域を推論できる。
【0069】
実施形態等によれば、プロセッサ150は、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、検出されたオブジェクト領域を切り出し、切り出したオブジェクト領域に位置したオブジェクト種類のカテゴリーを段階的に分類し、分類されたカテゴリーと対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を識別できる。
【0070】
実施形態等によれば、プロセッサ150は、切り出したオブジェクト領域に位置したオブジェクトのカテゴリーを最上位大分類から順次最下位小分類まで段階的に分類することができる。
【0071】
実施形態等によれば、プロセッサ150は、分類されたカテゴリーである最下位小分類と対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を識別できる。
【0072】
実施形態等によれば、プロセッサ150は、オブジェクト種類情報を前記分類された最下位小分類に含まれた複数のクラスのうち、いずれか1つのクラスとして判別することができる。
【0073】
実施形態等によれば、プロセッサ150は、分類されたカテゴリーと対応するオブジェクト種類推論モデルの第2イメージエンコーダを介して第2特徴点を抽出し、抽出された第2特徴点を特徴点デコーダに入力させてオブジェクト種類情報を推論できる。
【0074】
実施形態等によれば、オブジェクト識別装置100は、オブジェクト管理サーバ200と通信する通信モジュール210をさらに備え、プロセッサ150は、通信モジュール210を介して切り出したオブジェクト領域及び分類されたオブジェクト種類のカテゴリーをオブジェクト管理サーバ200に送信してオブジェクト種類識別を要請し、オブジェクト管理サーバ200から分類されたカテゴリーと対応するオブジェクト種類推論モデルを利用して判別されたオブジェクト種類情報を受信することができる。
【0075】
また、プロセッサ150は、メモリ140に格納された応用プログラムを駆動するために、
図1とともに説明した構成要素のうち少なくとも一部を制御できる。さらに、プロセッサ150は、前記応用プログラムの駆動のために、オブジェクト識別装置100に含まれた構成要素のうち少なくとも2つ以上を互いに組み合わせて動作させることができる。ここで、プロセッサ150についての詳細な説明は後述する。
【0076】
一方、次に、オブジェクト管理サーバ200の各構成要素の具体的な構成及び動作を説明する。
【0077】
通信モジュール210は、オブジェクト管理サーバ200と無線通信装置との間、またはオブジェクト管理サーバ200とオブジェクト識別装置100との間の通信を可能にする1つ以上のモジュールを含むことができる。また、通信モジュール210は、オブジェクト管理サーバ200を1つ以上のネットワークに連結する1つ以上のモジュールを含むことができる。
【0078】
メモリ220は、オブジェクト管理サーバ200の様々な機能を支援するデータを格納することができる。メモリ220は、オブジェクト管理サーバ200で駆動される1つ以上のプログラム、複数の応用プログラム(application program)、またはアプリケーション(application)、オブジェクト管理サーバ200の動作のためのデータ、命令語を格納することができる。このような応用プログラムのうち少なくとも一部は、無線通信によって外部通信網を介してオブジェクト管理サーバ200にダウンロードされることができる。また、このような応用プログラムのうち少なくとも一部は、オブジェクト管理サーバ200の基本的な機能のために存在することができる。一方、応用プログラムは、メモリ220に格納され、オブジェクト管理サーバ200上に設けられて、プロセッサ230によりオブジェクト管理サーバ200の動作(または、機能)を行うように駆動されることができる。
【0079】
プロセッサ230は、前記応用プログラムと関連した動作の他にも、通常的にオブジェクト管理サーバ200の全般的な動作を制御できる。プロセッサ230は、上記で説明した構成要素を介して入力または出力される信号、データ、情報などを処理するか、メモリ220に格納された応用プログラムを駆動することにより、ユーザに適切な情報または機能を提供または処理することができる。
【0080】
一実施形態において、プロセッサ230は、メモリ220に格納されたオブジェクト識別装置100と連動してオブジェクトイメージでオブジェクト情報を決定する動作と関連した1つ以上のプログラムを実行できる。一例として、プロセッサ230は、切り出したオブジェクト領域に位置したオブジェクトのカテゴリーの中でオブジェクト識別装置100で分類しなかった残りのカテゴリーを段階的に分類し、分類されたカテゴリーと対応するオブジェクト種類推論モデルを利用してオブジェクト種類情報を決定できる。
【0081】
以上、
図1を参照して、本発明に係るオブジェクト識別システム10の構成について詳細に説明した。オブジェクト識別システム10は、
図1に示された構成要素よりさらに少ない数の構成要素やさらに多くの構成要素を含むこともできる。
【0082】
以下、
図2~
図6を参照して、本発明の様々な実施形態に係るオブジェクト識別方法について説明する。
【0083】
図2は、本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別方法を示したフローチャートである。
【0084】
図2に示されたように、ステップS101において、本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別装置100は、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、検出されたオブジェクト領域を切り出す。次いで、オブジェクト識別装置100は、検出されたオブジェクト領域をオブジェクト管理サーバ200に送信する。
【0085】
ステップS102において、オブジェクト管理サーバ200は、オブジェクト種類推論モデルに基づいて切り出したオブジェクト領域に位置したオブジェクト種類情報を識別する。
【0086】
このように、本発明の一実施形態に係るオブジェクト識別装置100は、オブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、オブジェクト管理サーバ200は、オブジェクト種類推論モデルが含まれた階層的モデルを利用して階層的にオブジェクトを分類する。このような階層的オブジェクト分類の利点を説明する。すなわち、人工知能(AI)モデルを1つのステージ(one-stage)にて直ちにオブジェクトの細部クラスを把握せずに上位カテゴリーを探すことができるモデルと上位モデルが探したオブジェクトを切り出して、オブジェクトのクラスを分類するモデルとを利用してシステムを構成したときの利点は、下記のとおりである。
【0087】
一例として、飲食の場合、モデルを学習するために、飲食イメージを収集することになる。このとき、飲食の場合、米飯、白菜キムチ、カットゥギなどが相対的にかなり多く出現し、桔梗の根の和え物、わらびのナムル、いりこ炒めなどの飲食は、低い頻度で出現するようになる。すると、米飯、白菜キムチ、カットゥギ、桔梗の根の和え物、わらびのナムル、いりこ炒めなどが含まれた飲食イメージがあるとき、1つのステージ(one-stage)モデルを作るための学習データは、全ての飲食をラベリングしなければならない。
【0088】
しかし、本発明の実施形態のように、飲食を探すモデル(A)と、探した飲食を切り出して、どの飲食であるか分類するモデル(B)との2つを組み合わせた人工知能システムを作ることができる。本発明の実施形態は、飲食イメージから全ての飲食を探したら、モデル(A)は、この飲食イメージに対してはさらに学習しなくても良い。したがって、本発明の実施形態は、飲食分類のためのモデル(B)が必要なデータ(例:わらびのナムル、いりこ炒め、桔梗の根の和え物)のみラベリングし、切り出して学習を進行しても良い。
【0089】
追加的な利点では、1つのステージ(one-stage)モデルの場合に、一度もみたことのない飲食の場合には、全く認識できない場合も発生しうる。
【0090】
しかし、本発明の実施形態に係るオブジェクト識別装置100は、いろいろな飲食を「飲食」という1つのクラスとして学習したモデルを介して動作するので、飲食という全般的な(overall)特徴を学習したモデルを利用して、新しい飲食をみたときにも、飲食ということを予測できる長所を有することができる。
【0091】
更には、本発明の実施形態は、飲食ドメインだけでなく、自律走行ドメインにも適用されることができる。自動車が認知すべき移動手段対象をカテゴリーに括り(例えば、自動車、自転車、耕運機等)、その後、細部カテゴリーを分類したら、自動車を十分によく捕まえるモデルがあるときは、自動車をラベリングする費用を減らし、耕運機をラベリングするのにさらにリソースを多く使うことができる。したがって、効率的なラベリング及び早いモデル開発になることができる。また、本発明の実施形態がトラクターを初めてみる場合にも、「移動手段」ということと認知する可能性を増加させることができる。
【0092】
図3は、本発明の一実施形態に使用されるオブジェクト領域推論モデルを示した図である。
【0093】
図3に示されたように、オブジェクト識別装置100は、オブジェクト領域推論モデル300を基本にオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出できる。
【0094】
オブジェクト識別装置100で実行されるオブジェクト領域推論モデル300は、入力されたオブジェクトイメージを第1エンコーダ310に入れて第1エンコード動作を行う。オブジェクト領域推論モデル300は、第1エンコード動作を介してオブジェクトイメージに対する特徴点を抽出する。ここで、オブジェクト領域推論モデル300は、複数の第1エンコーダ310と複数の特徴点抽出ブロック320とが順序通りに連結されている構造を有することができる。
【0095】
そして、オブジェクト領域推論モデル300は、抽出された複数の特徴点を利用して特徴点領域を抽出し(330)、抽出された特徴点領域を利用してオブジェクトイメージからオブジェクト領域を推論する(340)。
【0096】
その後、オブジェクト領域推論モデル300は、推論されたオブジェクト領域を切り出し、切り出したオブジェクト領域を出力する。
【0097】
図4は、本発明の一実施形態に使用されるオブジェクト種類推論モデルを示した図である。
【0098】
図4に示されたように、オブジェクト識別装置100は、分類されたカテゴリーと対応するオブジェクト種類推論モデル400を利用してオブジェクト種類情報を識別できる。
【0099】
オブジェクト識別装置100で実行されるオブジェクト種類推論モデル400は、入力された切り出したオブジェクト領域イメージを第2エンコーダ410に入れて第2エンコード動作を行う。オブジェクト種類推論モデル400は、第2エンコード動作を介して切り出したオブジェクト領域イメージに対する特徴点を抽出する(420)。ここで、オブジェクト種類推論モデル400は、オブジェクト領域推論モデル300と異なり、1つの第2エンコーダ410と特徴点デコーダ430とを備えることができる。
【0100】
そして、オブジェクト種類推論モデル400は、抽出された切り出したオブジェクト領域に対する特徴点を特徴点デコーダ430に入力させて特徴点デコード動作を行う。次いで、オブジェクト種類推論モデル400は、特徴点デコード結果を利用して、切り出したオブジェクト領域に位置したオブジェクト種類を推論する(440)。
【0101】
その後、オブジェクト種類推論モデル400は、推論されたオブジェクト種類を出力する。
【0102】
一方、一般的な人工知能(AI)技法でオブジェクトを分析する場合、オブジェクト位置判別(例えば、ボックスまたはピクセル)動作と、オブジェクト種類判別動作とが1つのモデルで同時に起こるようになる。
【0103】
本発明の一実施形態に係るオブジェクト識別装置100は、オブジェクト領域推論モデル300に基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、オブジェクト種類推論モデル400に基づいてオブジェクト種類情報を識別できる。すなわち、オブジェクト識別装置100は、オブジェクトイメージからオブジェクトを探すオブジェクト領域推論モデル300とオブジェクトイメージから探したオブジェクトの種類を分析するオブジェクト種類推論モデル400とを備える。
【0104】
ここで、オブジェクト識別装置100は、切り出したオブジェクト領域に位置したオブジェクト種類のカテゴリーを分類し、オブジェクト種類を分析することができる。または、オブジェクト識別装置100は、切り出したオブジェクト領域に位置したオブジェクト種類のカテゴリーを分類せずに、オブジェクト種類を分析することができる。
【0105】
このように、オブジェクト領域推論モデル300とオブジェクト種類推論モデル400とを分離する場合、下記のような長所を得るようになることができる。
【0106】
第1に、オブジェクト領域推論モデル300とオブジェクト種類推論モデル400とが分離されているので、各モデルでの学習データが分離され得る。オブジェクトモデルを1つのモデルとして使用する場合、学習データを作るために、オブジェクトイメージを収集する。そして、オブジェクトイメージ内にある新規オブジェクトと以前に知っているオブジェクトとがあるとき、知っているオブジェクトであってもラベリングしなければならない。仮りに、ラベリングしない場合、オブジェクトモデルがそのオブジェクトに対して忘却するようになることができる。逆に、本発明の一実施形態のようにオブジェクトモデルを分離する場合は、新規オブジェクトのみラベリングすることができる。オブジェクトイメージからオブジェクト領域が位置した当該領域のみ切り出して学習するので、オブジェクト識別装置100は、知っているオブジェクトに対してラベリングしなくても良い。
【0107】
第2に、オブジェクト領域推論モデル300とオブジェクト種類推論モデル400とが分離されているので、オブジェクトイメージに表れることができる新規オブジェクトに対して認識性能が上昇され得る。オブジェクトモデルを1つのモデルとして使用する場合は、自分が知っているオブジェクトのみ探すため、新規オブジェクトを認知できない可能性が高い。逆に、本発明の一実施形態のようにオブジェクトモデルを分離する場合は、種々のオブジェクトをみて、オブジェクトイメージでオブジェクトという特徴点を学習したオブジェクトモデルである。したがって、オブジェクト領域推論モデル300は、オブジェクトイメージで初めてみるオブジェクトが表れた場合にも、オブジェクト種類を正確に認識できなくてもオブジェクトということを認知し、感知することができる。
【0108】
図5は、本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別方法を示したフローチャートである。
【0109】
図5に示されたように、ステップS201において、本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別装置100は、オブジェクト領域抽出モデルに基づいてオブジェクトイメージから少なくとも1つのオブジェクトが位置したオブジェクト領域を検出する。
【0110】
ステップS202において、オブジェクト識別装置100は、検出オブジェクト領域を切り出し、切り出したオブジェクト領域に位置したオブジェクトのカテゴリーを分類する。
【0111】
ステップS203において、オブジェクト識別装置100は、分類されたカテゴリーと対応するオブジェクト種類推論モデルを利用してオブジェクトを決定する。
【0112】
図6~
図9は、本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別動作の例示を示した図である。
【0113】
オブジェクト識別装置100は、オブジェクトイメージでどのオブジェクトがあるか区別するために、
図6~
図9に示された動作を介してオブジェクト情報を決定できる。
【0114】
図6に示されたように、オブジェクト識別装置100は、オブジェクトイメージ510を受信することができる。このようなオブジェクトイメージ510は、オブジェクト511が含まれた原本イメージであることができる。オブジェクトイメージ510は、オブジェクト識別装置100に備えられたカメラを介して撮影されたオブジェクトイメージまたは現在カメラを介してオブジェクトを撮影して画面にディスプレイされているオブジェクトイメージであることができる。オブジェクトイメージ510には、少なくとも1つのオブジェクト511が含まれ得る。オブジェクトイメージ510には、食器やトレーなどにオブジェクト511が入れられていることができる。
【0115】
図7に示されたように、オブジェクト識別装置100は、学習されたオブジェクト領域抽出モデル300に基づいてオブジェクトイメージ510からオブジェクト511がどの領域にあるか確認することができる。オブジェクト識別装置100は、オブジェクトイメージ510からオブジェクトがあるオブジェクト領域512とオブジェクト以外の他のものが位置したオブジェクト以外の領域を検出できる。
【0116】
一例として、オブジェクト識別装置100は、学習されたオブジェクト領域抽出モデル300に基づいてオブジェクトイメージ510からオブジェクト511を囲んでいるボックス(box)を探すことができる。オブジェクト識別装置100は、オブジェクトを囲んでいるボックスを用いてオブジェクト領域512を検出できる。オブジェクト識別装置100は、オブジェクト511を囲んでいるボックス以外の残りの領域をオブジェクト以外の領域として検出することができる。または、オブジェクト識別装置100は、オブジェクトを囲んでいるエッジ(Edge)を検出し、検出されたエッジを連結した領域をオブジェクト領域として検出することができる。
【0117】
他の例として、オブジェクト識別装置100は、学習されたオブジェクト領域抽出モデル300に基づいてオブジェクトイメージ510からオブジェクト511が占めているピクセル(pixel)を探すことができる。オブジェクト識別装置100は、オブジェクトが占めているピクセルを用いてオブジェクト領域512を検出できる。オブジェクト識別装置100は、オブジェクトが占めているピクセル以外の残りの領域をオブジェクト以外の領域として検出することができる。
【0118】
オブジェクトイメージ510でボックスまたはピクセルに対するオブジェクト領域検出動作を説明すれば、次のとおりである。オブジェクト識別装置100は、まず、オブジェクトイメージを受信する。そして、オブジェクト識別装置100は、オブジェクトイメージでコンボリューション神経網(convolution neural network)を介してオブジェクトイメージに対する特徴マップを抽出できる。次いで、オブジェクト識別装置100は、抽出された特徴マップからオブジェクト特徴があるオブジェクト領域を抽出できる。
【0119】
図8に示されたように、オブジェクト識別装置100は、
図6で検出されたオブジェクト領域を切り出し、切り出したオブジェクト領域513に位置したオブジェクト511のカテゴリーを分類することができる。ここで、オブジェクト識別装置100は、
図6で検出されたオブジェクト領域512が含まれたボックス(box)をクロップ(crop)してオブジェクト領域512を切り出すことができる。
【0120】
このとき、オブジェクト識別装置100は、切り出したオブジェクト領域513に含まれたオブジェクト511に対してオブジェクトのカテゴリーを最上位カテゴリーから段階的に下向きにして分類することができる。一例として、オブジェクト識別装置100は、最上位カテゴリーに該当する複数の大分類のうち、特定大分類でオブジェクトのカテゴリーを分類することができる。例えば、オブジェクト識別装置100は、切り出したオブジェクト領域に含まれたオブジェクトが韓食である場合、韓食の包括的な範囲に該当するカテゴリーに分類することができる。オブジェクト識別装置100は、ご飯、汁物、どんぶり、麺、キムチ類、デザート類などの包括的な範囲の中で当該オブジェクトのカテゴリーを探すことができる。
図8において、オブジェクト識別装置100は、それぞれのクロップされたオブジェクト領域に含まれたオブジェクトがご飯種類に判別されて、ご飯のカテゴリーに分類を進行できる。当該オブジェクトが含まれた最上位カテゴリーが韓食、和食、中華、洋食である場合、最上位カテゴリーの中で当該オブジェクトカテゴリーを探すことができる。
【0121】
オブジェクトカテゴリーは、特定カテゴリーに限定されず、オブジェクト識別装置100は、オブジェクトを最優先で包括できる最上位カテゴリーから順次下向きにして分類することができる。ここで、オブジェクト識別装置100は、オブジェクトの最上位カテゴリーが大分類、次上位カテゴリーが中分類、最下位カテゴリーが小分類である場合、オブジェクト識別装置100は、オブジェクト領域に対する大分類を1次的に分類し、分類された大分類の中でオブジェクト領域に対する中分類を2次的に分類し、分類された中分類の中でオブジェクト領域に対する小分類を3次的に分類することができる。
【0122】
図9に示されたように、オブジェクト識別装置100は、オブジェクトイメージ510でオブジェクト領域512に含まれたオブジェクト全体に対して先にオブジェクト511のカテゴリーを分類し、分類されたカテゴリーと対応するオブジェクト種類推論モデル400を利用してオブジェクト情報514を最終的に決定することができる。オブジェクト識別装置100は、オブジェクト領域512のカテゴリーをご飯種類に分類した場合、ご飯種類に対応するご飯オブジェクト推論モデルを利用してオブジェクト情報514をキビご飯に決定することができる。例えば、オブジェクト識別装置100は、ご飯種類に対応するご飯オブジェクト推論モデル、すなわち、ご飯種類の中で下位分類に属する米飯、黒米ご飯、または黒豆ご飯であるかなどを区別することができるオブジェクトモデルを利用して特定ご飯を決定できる。
図8では、オブジェクト識別装置100は、ご飯種類に対応するご飯オブジェクト推論モデルを利用してオブジェクト領域に含まれたオブジェクトを最終的にキビご飯に決定することができる。
【0123】
その後、オブジェクト識別装置100は、オブジェクトイメージ510から検出されたオブジェクト領域に含まれたそれぞれのオブジェクトに対して同じオブジェクト識別方法でオブジェクト情報の決定動作を進行して、オブジェクトイメージ内にどのオブジェクトがあるかを正確に判別することができる。例えば、オブジェクト識別装置100は、オブジェクトトレーに含まれたそれぞれのオブジェクトに対して、キビご飯、ほうれん草味噌汁、牛肉及びうずらの卵醤油煮、キムチチヂミ、カットゥギ、ミカンなどにオブジェクト情報を最終的に決定することができる。このとき、オブジェクト識別装置100は、オブジェクトカテゴリーを最下位カテゴリーまで決定し、決定されたオブジェクトのカテゴリーの中でオブジェクト種類推論モデル400の種類、例えば、ご飯オブジェクト推論モデル、汁物オブジェクト推論モデル、おかずオブジェクト推論モデルなどを各々利用して最下位オブジェクトカテゴリーに該当するオブジェクト情報を決定できる。
【0124】
図10は、本発明の一実施形態に係る階層的モデルを利用したオブジェクト識別方法がオブジェクト管理サーバと連動する動作を示した図である。
【0125】
オブジェクトイメージから切り出したオブジェクト領域に含まれたオブジェクトが最上位カテゴリーから最下位カテゴリーまで大分類、中分類、小分類に区分されている場合に、オブジェクト識別装置100とオブジェクト管理サーバ200との連動動作を介してオブジェクトを識別する動作が
図7に示されている。ここで、オブジェクトカテゴリーは、階層的に特定個数の階層に限定されない。例えば、オブジェクトカテゴリーは、2個の階層、すなわち、大分類、中分類にのみ分類されることができるか、3個の階層、すなわち、大分類、中分類、小分類に分類されることができる。オブジェクトカテゴリーは、自然数n個の階層が含まれたカテゴリーに分類されることができ、特定階層に限定されない。
【0126】
このとき、オブジェクト識別装置100は、全体カテゴリー分類動作の中で予め分類しなければならないカテゴリー階層が予め設定され得る。または、オブジェクト識別装置100は、分類時点のリアルタイム性や装置資源状態や演算負荷などを考慮して、分類すべきカテゴリーが調整され得る。これと対応して、オブジェクト管理サーバ200は、オブジェクト識別装置100に比べて分類性能が高く、可用可能な資源が多いので、オブジェクト識別装置100で時間的または正確性の側面で効率が低い動作を行い、オブジェクト識別装置100に当該結果を送信することができる。
【0127】
例えば、オブジェクトイメージからオブジェクト領域を切り出し、切り出したオブジェクト領域に対する大分類、中分類、小分類に対する分類動作は、時間または負荷が少なくかかることに対し、特定オブジェクト情報を決定する動作は、演算量が多く必要であり、正確性が低くなるとき、オブジェクト管理サーバ200がこのような動作をオブジェクト識別装置100に代えて行うことができる。これを通じて、オブジェクト管理サーバ200は、オブジェクト識別装置100が自ら行い難い動作を行い、識別時間や識別正確性を向上させることができる。
【0128】
図10に示されたように、ステップS301において、オブジェクト識別装置100は、オブジェクト領域抽出モデルに基づいてオブジェクトイメージから少なくとも1つのオブジェクトが位置したオブジェクト領域を検出する。
【0129】
ステップS302において、オブジェクト識別装置100は、検出オブジェクト領域を切り出し、切り出したオブジェクト領域に位置したオブジェクトのカテゴリーを特定大分類に1次に分類する。
【0130】
ステップS303において、オブジェクト識別装置100は、特定大分類情報を利用してオブジェクト領域イメージのオブジェクトカテゴリーを特定中分類に2次に分類する。
【0131】
ステップS304において、オブジェクト識別装置100は、特定中分類情報を利用してオブジェクト領域イメージのオブジェクトカテゴリーを特定小分類に3次に分類する。
【0132】
ステップS305において、オブジェクト識別装置100は、切り出したオブジェクト領域イメージ及び分類された大分類、中分類、小分類情報を送信する。
【0133】
ステップS306において、オブジェクト管理サーバ200は、特定小分類情報と対応するオブジェクト種類推論モデルを利用してオブジェクト領域イメージのオブジェクト種類情報を決定する。
【0134】
ステップS307において、オブジェクト管理サーバ200は、決定されたオブジェクト情報をオブジェクト識別装置100に送信する。
【0135】
ステップS308において、オブジェクト識別装置100は、受信されたオブジェクト種類情報を利用してオブジェクトイメージに含まれた各オブジェクトに対してオブジェクト種類情報を確認する。
【0136】
このように、
図10のオブジェクト識別動作例示は、カテゴリー分類動作はオブジェクト識別装置100が行い、オブジェクト情報決定動作はオブジェクト管理サーバ200が行う例示である。ここで、各ステップを行う主体が固定的でないことがある。例えば、オブジェクトイメージに含まれたオブジェクトの個数、オブジェクトイメージの大きさや容量、オブジェクトイメージに含まれたオブジェクト情報に必要な時間、オブジェクト識別装置100とオブジェクト管理サーバ200との間の通信状態、オブジェクト識別装置100に格納されたオブジェクトモデルの状態などによって段階別カテゴリー分類動作とオブジェクト情報識別動作との主体が変わり得る。
【0137】
一方、プロセッサにより実行されるとき、前記プロセッサをして方法を実行させる命令語を格納するための非一時的コンピュータ読み取り可能格納媒体であって、オブジェクト識別装置が、学習されたオブジェクト領域抽出モデルに基づいてオブジェクトイメージからオブジェクトが位置したオブジェクト領域を検出し、前記検出されたオブジェクト領域を切り出すステップと、オブジェクト管理サーバがオブジェクト種類推論モデルに基づいて前記オブジェクト識別装置から切り出したオブジェクト領域に位置したオブジェクト種類情報を識別するステップとを含む、非一時的コンピュータ読み取り可能な格納媒体が提供され得る。
【0138】
一方、本発明の一実施形態によれば、以上で説明された様々な実施形態は、機器(machine)(例:コンピュータ)で読み出すことができる格納媒体(machine-readable storage media)に格納された命令語を含むソフトウェアで実現されることができる。機器は、格納媒体から格納された命令語を呼び出し、呼び出された命令語によって動作が可能な装置であって、開示された実施形態等に係る電子装置(例:電子装置(A))を含むことができる。命令がプロセッサにより実行される場合、プロセッサが直接、またはプロセッサの制御下に他の構成要素を利用して命令に該当する機能を実行できる。命令は、コンパイラーまたはインタープリターにより生成または実行されるコードを含むことができる。機器で読み出すことができる格納媒体は、非一時的(non-transitory)格納媒体の形態で提供されることができる。ここで、「非一時的」は、格納媒体が信号(signal)を含まず、実在(tangible)するということを意味し、データが格納媒体に半永久的または臨時的に格納されることを区分しない。
【0139】
また、本発明の一実施形態によれば、以上で説明された様々な実施形態に係る方法は、コンピュータプログラム製品(computer program product)に含まれて提供されることができる。コンピュータプログラム製品は、商品として販売者及び購買者間に取引されることができる。コンピュータプログラム製品は、機器で読み出すことができる格納媒体(例:compact disc read only memory(CD-ROM))の形態で、またはアプリケーションストア(例:プレイストアTM)を介してオンラインで配信されることができる。オンライン配信の場合に、コンピュータプログラム製品の少なくとも一部は、製造社のサーバ、アプリケーションストアのサーバ、または中継サーバのメモリのような格納媒体に少なくとも一時格納されるか、臨時的に生成されることができる。
【0140】
また、本発明の一実施形態によれば、以上で説明された様々な実施形態は、ソフトウェア(software)、ハードウェア(hardware)、またはこれらの組み合わせを利用してコンピュータ(computer)またはこれと類似した装置で読み出すことができる記録媒体内で実現されることができる。一部の場合において、本明細書において説明される実施形態等がプロセッサ自体で実現されることができる。ソフトウェア的な実現によれば、本明細書において説明される手順及び機能のような実施形態等は、別のソフトウェアモジュールで実現されることができる。ソフトウェアモジュールの各々は、本明細書において説明される1つ以上の機能及び動作を行うことができる。
【0141】
一方、上述した様々な実施形態に係る機器のプロセシング動作を行うためのコンピュータ命令語(computer instructions)は、非一時的コンピュータ読み取り可能媒体(non-transitory computer-readable medium)に格納されることができる。このような非一時的コンピュータ読み取り可能媒体に格納されたコンピュータ命令語は、特定機器のプロセッサにより実行されたとき、上述した様々な実施形態に係る機器での処理動作を特定機器が行うようにする。非一時的コンピュータ読み取り可能媒体とは、レジスタ、キャッシュ、メモリなどのように、短い瞬間の間データを格納する媒体でなく、半永久的にデータを格納し、機器により読み取り(reading)が可能な媒体を意味する。非一時的コンピュータ読み取り可能媒体の具体的な例では、CD、DVD、ハードディスク、ブルーレイディスク、USB、メモリカード、ROMなどがありうる。
【0142】
また、上述した様々な実施形態に係る構成要素(例:モジュールまたはプログラム)の各々は、単数または複数の個体で構成されることができ、前述した当該サブ構成要素のうち、一部サブ構成要素が省略されるか、または他のサブ構成要素が様々な実施形態にさらに含まれることができる。大体的にまたは追加的に、一部構成要素等(例:モジュールまたはプログラム)は、1つの個体で統合されて、統合される前のそれぞれの当該構成要素により行われる機能を同一または類似に行うことができる。様々な実施形態に係る、モジュール、プログラム、または他の構成要素により行われる動作は、順次的、並列的、繰り返し的、またはヒューリスティックに実行されるか、少なくとも一部動作が他の順序で実行されるか、省略されるか、または他の動作が追加され得る。
【0143】
以上では、本発明の望ましい実施形態について図示し、説明したが、本発明は、上述した特定の実施形態に限定されず、請求の範囲で請求する本発明の要旨を逸脱することなく、当該開示に属する技術分野における通常の知識を有する者により様々な変形実施が可能であることはもちろん、このような変形実施等は、本発明の技術的思想や展望から個別的に理解されてはならないであろう。
【符号の説明】
【0144】
10 オブジェクト識別システム
100 オブジェクト識別装置
110 通信モジュール
120 カメラ
130 ディスプレイ
140 メモリ
150 プロセッサ
200 オブジェクト管理サーバ
210 通信モジュール
220 メモリ
230 プロセッサ
【国際調査報告】