(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-31
(54)【発明の名称】積み重ね物体を認識する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20220124BHJP
【FI】
G06T7/00 300F
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2020530382
(86)(22)【出願日】2019-12-03
(85)【翻訳文提出日】2020-05-29
(86)【国際出願番号】 SG2019050595
(87)【国際公開番号】W WO2021061045
(87)【国際公開日】2021-04-01
(31)【優先権主張番号】201910923116.5
(32)【優先日】2019-09-27
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】520176212
【氏名又は名称】センスタイム インターナショナル ピーティーイー.リミテッド
【氏名又は名称原語表記】SenseTime International PTE.LTD.
【住所又は居所原語表記】7500A Beach Road,#05-318,The Plaza,Singapore(199591)
(74)【代理人】
【識別番号】110002468
【氏名又は名称】特許業務法人後藤特許事務所
(72)【発明者】
【氏名】リュー ユアン
(72)【発明者】
【氏名】ホウ ジュン
(72)【発明者】
【氏名】サイ シャオコーン
(72)【発明者】
【氏名】イ シュアイ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA08
5L096DA02
5L096GA30
5L096HA09
5L096HA11
5L096JA11
5L096JA18
5L096KA04
(57)【要約】
本開示は、少なくとも1つの物体を積み重ね方向に沿って積み重ねたシーケンスを含む被認識画像を取得することと、前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得することと、前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識することと、を含む積み重ね物体を認識する方法及び装置、電子機器並びに記憶媒体に関する。本開示の実施例は、積み重ね物体のカテゴリーの精確な認識を実現することができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
少なくとも1つの物体を積み重ね方向に沿って積み重ねたシーケンスを含む被認識画像を取得することと、
前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得することと、
前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識することと、を含むことを特徴とする積み重ね物体を認識する方法。
【請求項2】
前記被認識画像には、前記シーケンスを構成する物体の前記積み重ね方向に沿った面の画像が含まれることを特徴とする請求項1に記載の方法。
【請求項3】
前記シーケンス中の少なくとも1つの物体は、シート状物体であることを特徴とする請求項1又は2に記載の方法。
【請求項4】
前記積み重ね方向は、前記シーケンス中のシート状物体の厚さ方向であることを特徴とする請求項3に記載の方法。
【請求項5】
前記シーケンス中の少なくとも1つの物体は、前記積み重ね方向に沿った面に、色、模様及びパターンのうちの少なくとも1つを含む既定のマークを有することを特徴とする請求項4に記載の方法。
【請求項6】
前記被認識画像は、取得された画像から切り取ったものであり、前記被認識画像中の前記シーケンスの一端が前記被認識画像の1つのエッジと揃っていることを特徴とする請求項1-5のいずれか一項に記載の方法。
【請求項7】
前記シーケンス中の少なくとも1つの物体のカテゴリーが認識された場合に、カテゴリーと前記カテゴリーの表す価値の間の対応関係により、前記シーケンスの表す合計価値を特定することを更に含むことを特徴とする請求項1-6のいずれか一項に記載の方法。
【請求項8】
前記方法は、特徴抽出ネットワーク及び第1の分類ネットワークを含むニューラルネットワークによって実現され、
前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得することは、
前記特徴抽出ネットワークを用いて前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを得ることを含み、
前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識することは、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することを含むことを特徴とする請求項1-7のいずれか一項に記載の方法。
【請求項9】
前記ニューラルネットワークは第2の分類ネットワークを更に含み、前記第1の分類ネットワークにより前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体を分類する機構と、前記第2の分類ネットワークにより特徴マップに基づいてシーケンス中の少なくとも1つの物体を分類する機構は異なっており、前記方法は、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、を更に含むことを特徴とする請求項8に記載の方法。
【請求項10】
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することは、
前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が同じであることに応じて、前記第1の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーと前記第2の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーを比較することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが同じである場合に、この予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが異なる場合に、高い予測確率の予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することと、を含むことを特徴とする請求項9に記載の方法。
【請求項11】
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することは、
前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が異なることに応じて、前記第1の分類ネットワーク及び第2の分類ネットワークのうち、優先度が高い分類ネットワークにより予測された少なくとも1つの物体のカテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定することを更に含むことを特徴とする請求項9又は10に記載の方法。
【請求項12】
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することは、
前記第1の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第1の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第1の信頼度を得、前記第2の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第2の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第2の信頼度を得ることと、
前記第1の信頼度及び第2の信頼度のうちの高い値に対応する物体の予測カテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定することと、を含むことを特徴とする請求項9-11のいずれか一項に記載の方法。
【請求項13】
前記ニューラルネットワークをトレーニングするプロセスは、
前記特徴抽出ネットワークを用いてサンプル画像に対する特徴抽出を行って、前記サンプル画像の特徴マップを得ることと、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第1のネットワーク損失を特定することと、
前記第1のネットワーク損失に基づいて、前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項9-12のいずれか一項に記載の方法。
【請求項14】
前記ニューラルネットワークは少なくとも1つの第2の分類ネットワークを更に含み、前記ニューラルネットワークをトレーニングするプロセスは、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第2の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第2のネットワーク損失を特定することと、を更に含み、
前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整することは、
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整することを含むことを特徴とする請求項13に記載の方法。
【請求項15】
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整することは、
前記第1のネットワーク損失及び第2のネットワーク損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整することを含むことを特徴とする請求項14に記載の方法。
【請求項16】
同じシーケンスを有するサンプル画像を1つの画像群とすることと、
前記画像群中のサンプル画像に対応する特徴マップの特徴中心を取得することであって、前記特徴中心は前記画像群中のサンプル画像の特徴マップの平均特徴であることと、
前記画像群中の前記サンプル画像の特徴マップと特徴中心との間の距離に基づいて、第3の予測損失を特定することと、を更に含み、
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整することは、
前記第1のネットワーク損失、第2のネットワーク損失及び第3の予測損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整することを含むことを特徴とする請求項14に記載の方法。
【請求項17】
前記第1の分類ネットワークは、時系列分類ニューラルネットワークであることを特徴とする請求項9-16のいずれか一項に記載の方法。
【請求項18】
前記第2の分類ネットワークは、注意機構のデコードネットワークであることを特徴とする請求項9-16のいずれか一項に記載の方法。
【請求項19】
少なくとも1つの物体を積み重ね方向に沿って積み重ねたシーケンスを含む被認識画像を取得するための取得モジュールと、
前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得するための特徴抽出モジュールと、
前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識するための認識モジュールと、を含むことを特徴とする積み重ね物体を認識する装置。
【請求項20】
前記被認識画像には、前記シーケンスを構成する物体の前記積み重ね方向に沿った面の画像を含むことを特徴とする請求項19に記載の装置。
【請求項21】
前記シーケンス中の少なくとも1つの物体は、シート状物体であることを特徴とする請求項19又は20に記載の装置。
【請求項22】
前記積み重ね方向は、前記シーケンス中のシート状物体の厚さ方向であることを特徴とする請求項21に記載の装置。
【請求項23】
前記シーケンス中の少なくとも1つの物体は、前記積み重ね方向に沿った面に、色、模様及びパターンのうちの少なくとも1つを含む既定のマークを有することを特徴とする請求項22に記載の装置。
【請求項24】
前記被認識画像は、取得された画像から切り取ったものであり、前記被認識画像中の前記シーケンスの一端が前記被認識画像の1つのエッジと揃っていることを特徴とする請求項19-23のいずれか一項に記載の装置。
【請求項25】
前記認識モジュールは、更に、前記シーケンス中の少なくとも1つの物体のカテゴリーが認識された場合に、カテゴリーと前記カテゴリーの表す価値の間の対応関係により、前記シーケンスの表す合計価値を特定するために用いられることを特徴とする請求項19-24のいずれか一項に記載の装置。
【請求項26】
前記装置の機能は、前記特徴抽出モジュールの機能を実現する前記特徴抽出ネットワーク、及び前記認識モジュールの機能を実現する前記第1の分類ネットワークを含むニューラルネットワークによって実現され、
前記特徴抽出モジュールは、
前記特徴抽出ネットワークを用いて前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを得るために用いられ、
前記認識モジュールは、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定するために用いられることを特徴とする請求項19-25のいずれか一項に記載の装置。
【請求項27】
前記ニューラルネットワークは、第2の分類ネットワークを更に含み、第2の分類ネットワークも前記認識モジュールの機能を実現するためのものであり、前記第1の分類ネットワークにより前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体を分類する機構と、前記第2の分類ネットワークにより特徴マップに基づいてシーケンス中の少なくとも1つの物体を分類する機構は異なっており、前記認識モジュールは、更に、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することとに用いられることを特徴とする請求項26に記載の装置。
【請求項28】
前記認識モジュールは、更に、
前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が同じである場合に、前記第1の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーと前記第2の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーを比較することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが同じである場合に、この予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが異なる場合に、高い予測確率の予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することとに用いられることを特徴とする請求項27に記載の装置。
【請求項29】
前記認識モジュールは、更に、
前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が異なる場合に、前記第1の分類ネットワーク及び第2の分類ネットワークのうち、優先度が高い分類ネットワークにより予測された少なくとも1つの物体のカテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定するために用いられることを特徴とする請求項27又は28に記載の装置。
【請求項30】
前記認識モジュールは、更に、
前記第1の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第1の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第1の信頼度を得、前記第2の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第2の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第2の信頼度を得ることと、
前記第1の信頼度及び第2の信頼度のうちの高い値に対応する物体の予測カテゴリーを、前記シーケンスうちの少なくとも1つの物体のカテゴリーとして特定することとに用いられることを特徴とする請求項27-29のいずれか一項に記載の装置。
【請求項31】
前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを更に含み、
前記トレーニングモジュールは、
前記特徴抽出ネットワークを用いてサンプル画像に対する特徴抽出を行って、前記サンプル画像の特徴マップを得ることと、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第1のネットワーク損失を特定することと、
前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整することとに用いられることを特徴とする請求項27-30のいずれか一項に記載の装置。
【請求項32】
前記ニューラルネットワークは少なくとも1つの第2の分類ネットワークを更に含み、前記トレーニングモジュールは、更に、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第2の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第2のネットワーク損失を特定することとに用いられ、
前記トレーニングモジュールは、前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整する場合に、
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整するために用いられることを特徴とする請求項31に記載の装置。
【請求項33】
前記トレーニングモジュールは、前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整する場合に、
前記第1のネットワーク損失及び第2のネットワーク損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整するために用いられることを特徴とする請求項32に記載の装置。
【請求項34】
同じシーケンスを有するサンプル画像を1つの画像群とするための群分けモジュールと、
前記画像群中のサンプル画像に対応する特徴マップの特徴中心を取得し、前記特徴中心は前記画像群中のサンプル画像の特徴マップの平均特徴であり、前記画像群中の前記サンプル画像の特徴マップと特徴中心との間の距離に基づいて、第3の予測損失を特定するための特定モジュールと、を更に含み、
前記トレーニングモジュールは、前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整する場合に、
前記第1のネットワーク損失、第2のネットワーク損失及び第3の予測損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整するために用いられることを特徴とする請求項32に記載の装置。
【請求項35】
前記第1の分類ネットワークは、時系列分類ニューラルネットワークであることを特徴とする請求項27-34のいずれか一項に記載の装置。
【請求項36】
前記第2の分類ネットワークは、注意機構のデコードネットワークであることを特徴とする請求項27-34のいずれか一項に記載の装置。
【請求項37】
プロセッサと、
プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されているコマンドを呼び出して請求項1~18のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。
【請求項38】
コンピュータプログラムコマンドが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムコマンドはプロセッサにより実行されると、請求項1~18のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータビジョン技術に関し、特に、積み重ね物体を認識する方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0002】
関連技術では、画像認識はコンピュータビジョン及び深層学習において広範に研究されている課題の1つである。しかしながら、一般的には、画像認識は、単一の物体の認識、例えば顔認識、文字認識等に用いられる。現在、積み重ね物体の認識が盛んに研究されている。
【発明の概要】
【0003】
本開示は、画像処理の技術的解決手段を提供する。
【0004】
本開示の一方面によれば、
少なくとも1つの物体を積み重ね方向に沿って積み重ねたシーケンスを含む被認識画像を取得することと、
前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得することと、
前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識することと、を含む積み重ね物体を認識する方法を提供する。
【0005】
いくつかの可能な実施形態では、前記被認識画像には、前記シーケンスを構成する物体の前記積み重ね方向に沿った面の画像を含む。
【0006】
いくつかの可能な実施形態では、前記シーケンス中の少なくとも1つの物体は、シート状物体である。
【0007】
いくつかの可能な実施形態では、前記積み重ね方向は、前記シーケンス中のシート状物体の厚さ方向である。
【0008】
いくつかの可能な実施形態では、前記シーケンス中の少なくとも1つの物体は、前記積み重ね方向に沿った面に、色、模様及びパターンのうちの少なくとも1つを含む既定のマークを有する。
【0009】
いくつかの可能な実施形態では、前記被認識画像は、取得された画像から切り取ったものであり、前記被認識画像中の前記シーケンスの一端が前記被認識画像の1つのエッジと揃っている。
【0010】
いくつかの可能な実施形態では、前記方法は、
前記シーケンス中の少なくとも1つの物体のカテゴリーが認識された場合に、カテゴリーと前記カテゴリーの表す価値の間の対応関係により前記シーケンスの表す合計価値を特定することを更に含む。
【0011】
いくつかの可能な実施形態では、前記方法は、特徴抽出ネットワーク及び第1の分類ネットワークを含むニューラルネットワークによって実現され、
前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得することは、
前記特徴抽出ネットワークを用いて前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを得ることを含み、
前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識することは、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することを含む。
【0012】
いくつかの可能な実施形態では、前記ニューラルネットワークは少なくとも1つの第2の分類ネットワークを更に含み、前記第1の分類ネットワークにより前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体を分類する機構と、前記第2の分類ネットワークにより特徴マップに基づいてシーケンス中の少なくとも1つの物体を分類する機構は異なっており、前記方法は、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、を更に含む。
【0013】
いくつかの可能な実施形態では、前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することは、
前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が同じであることに応じて、前記第1の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーと前記第2の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーを比較することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが同じである場合に、この予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが異なる場合に、高い予測確率の予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することと、を含む。
【0014】
いくつかの可能な実施形態では、前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することは、
前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が異なることに応じて、前記第1の分類ネットワーク及び第2の分類ネットワークのうち、優先度が高い分類ネットワークにより予測された少なくとも1つの物体のカテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定することを更に含む。
【0015】
いくつかの可能な実施形態では、前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することは、
前記第1の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第1の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第1の信頼度を得、前記第2の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第2の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第2の信頼度を得ることと、
前記第1の信頼度及び第2の信頼度のうちの高い値に対応する物体の予測カテゴリーを前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定することと、を含む。
【0016】
いくつかの可能な実施形態では、前記ニューラルネットワークをトレーニングするプロセスは、
前記特徴抽出ネットワークを用いてサンプル画像に対する特徴抽出を行って、前記サンプル画像の特徴マップを得ることと、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第1のネットワーク損失を特定することと、
前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整することと、を含む。
【0017】
いくつかの可能な実施形態では、前記ニューラルネットワークは少なくとも1つの第2の分類ネットワークを更に含み、前記ニューラルネットワークをトレーニングするプロセスは、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第2の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第2のネットワーク損失を特定することと、を更に含み、
前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整することは、
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整することを含む。
【0018】
いくつかの可能な実施形態では、前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整することは、
前記第1のネットワーク損失及び第2のネットワーク損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整することを含む。
【0019】
いくつかの可能な実施形態では、前記方法は、
同じシーケンスを有するサンプル画像を1つの画像群とすることと、
前記画像群中のサンプル画像に対応する特徴マップの特徴中心を取得することであって、前記特徴中心は前記画像群中のサンプル画像の特徴マップの平均特徴であることと、
前記画像群中の前記サンプル画像の特徴マップと特徴中心との間の距離に基づいて、第3の予測損失を特定することと、を更に含み、
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整することは、
前記第1のネットワーク損失、第2のネットワーク損失及び第3の予測損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整することを含む。
【0020】
いくつかの可能な実施形態では、前記第1の分類ネットワークは、時系列分類ニューラルネットワークである。
【0021】
いくつかの可能な実施形態では、前記第2の分類ネットワークは、注意機構のデコードネットワークである。
【0022】
本開示の第2の方面によれば、
少なくとも1つの物体を積み重ね方向に沿って積み重ねたシーケンスを含む被認識画像を取得するための取得モジュールと、
前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得するための特徴抽出モジュールと、
前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識するための認識モジュールと、を含む積み重ね物体を認識する装置を提供する。
【0023】
いくつかの可能な実施形態では、前記被認識画像には、前記シーケンスを構成する物体の前記積み重ね方向に沿った面の画像を含む。
【0024】
いくつかの可能な実施形態では、前記シーケンス中の少なくとも1つの物体は、シート状物体である。
【0025】
いくつかの可能な実施形態では、前記積み重ね方向は、前記シーケンス中のシート状物体の厚さ方向である。
【0026】
いくつかの可能な実施形態では、前記シーケンス中の少なくとも1つの物体は、前記積み重ね方向に沿った面に、色、模様及びパターンのうちの少なくとも1つを含む既定のマークを有する。
【0027】
いくつかの可能な実施形態では、前記被認識画像は、取得された画像から切り取ったものであり、前記被認識画像中の前記シーケンスの一端が前記被認識画像の1つのエッジと揃っている。
【0028】
いくつかの可能な実施形態では、前記認識モジュールは、更に、前記シーケンス中の少なくとも1つの物体のカテゴリーが認識された場合に、カテゴリーと前記カテゴリーの表す価値の間の対応関係により前記シーケンスの表す合計価値を特定するために用いられる。
【0029】
いくつかの可能な実施形態では、前記装置の機能は、前記特徴抽出モジュールの機能を実現する前記特徴抽出ネットワーク、及び前記認識モジュールの機能を実現する前記第1の分類ネットワークを含むニューラルネットワークによって実現され、
前記特徴抽出モジュールは、前記特徴抽出ネットワークを用いて前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを得るために用いられ、
前記認識モジュールは、前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定するために用いられる。
【0030】
いくつかの可能な実施形態では、前記ニューラルネットワークは、前記少なくとも1つの第2の分類ネットワークを更に含み、前記第2の分類ネットワークも前記認識モジュールの機能を実現するためのものであり、前記第1の分類ネットワークにより前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体を分類する機構と、前記第2の分類ネットワークにより特徴マップに基づいてシーケンス中の少なくとも1つの物体を分類する機構は異なっており、前記認識モジュールは、更に、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することとに用いられる。
【0031】
いくつかの可能な実施形態では、前記認識モジュールは、更に、前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が同じである場合に、前記第1の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーと前記第2の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーを比較することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが同じである場合に、この予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが異なる場合に、高い予測確率の予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することとに用いられる。
【0032】
いくつかの可能な実施形態では、前記認識モジュールは、更に、前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が異なる場合に、前記第1の分類ネットワーク及び第2の分類ネットワークのうち、優先度が高い分類ネットワークにより予測された少なくとも1つの物体のカテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定するために用いられる。
【0033】
いくつかの可能な実施形態では、前記認識モジュールは、更に、前記第1の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第1の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第1の信頼度を得、前記第2の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第2の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第2の信頼度を得ることと、
前記第1の信頼度及び第2の信頼度のうちの高い値に対応する物体の予測カテゴリーを前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定することとに用いられる。
【0034】
いくつかの可能な実施形態では、前記装置は、前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを更に含み、
前記トレーニングモジュールは、
前記特徴抽出ネットワークを用いて、サンプル画像に対する特徴抽出を行って、前記サンプル画像の特徴マップを得ることと、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第1のネットワーク損失を特定することと、
前記第1のネットワーク損失に基づいて、前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整することとに用いられる。
【0035】
いくつかの可能な実施形態では、前記ニューラルネットワークは少なくとも1つの第2の分類ネットワークを更に含み、前記トレーニングモジュールは、更に、
前記第2の分類ネットワークを用いて、前記特徴マップに基づいて、前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第2の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第2のネットワーク損失を特定することとに用いられ、
前記トレーニングモジュールは、前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整する場合に、
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整するために用いられる。
【0036】
いくつかの可能な実施形態では、前記トレーニングモジュールは、更に、前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整する場合に、前記第1のネットワーク損失及び第2のネットワーク損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整するために用いられる。
【0037】
いくつかの可能な実施形態では、前記装置は、同じシーケンスを有するサンプル画像を1つの画像群とするための群分けモジュールと、
前記画像群中のサンプル画像に対応する特徴マップの特徴中心を取得し、前記特徴中心は前記画像群中のサンプル画像の特徴マップの平均特徴であり、前記画像群中の前記サンプル画像の特徴マップと特徴中心との間の距離に基づいて、第3の予測損失を特定するための特定モジュールと、を更に含み、
前記トレーニングモジュールは、更に、前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整する場合に、前記第1のネットワーク損失、第2のネットワーク損失及び第3の予測損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整するために用いられる。
【0038】
いくつかの可能な実施形態では、前記第1の分類ネットワークは、時系列分類ニューラルネットワークである。
【0039】
いくつかの可能な実施形態では、前記第2の分類ネットワークは、注意機構のデコードネットワークである。
【0040】
本開示の第3の方面によれば、
プロセッサと、
プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されているコマンドを呼び出して第1の方面のいずれか一項に記載の方法を実行するように構成される電子機器を提供する。
【0041】
本開示の第4の方面によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行されると、第1の方面のいずれか一項に記載の方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
【0042】
本開示の実施例では、被認識画像に対する特徴抽出を行うことによって被認識画像の特徴マップを得て、特徴マップの分類処理により、被認識画像中の、積み重ね物体から構成したシーケンス中の各物体のカテゴリーを得ることができる。本開示の実施例によれば、画像中の積み重ね物体を容易且つ精確に分類認識することができる。
【0043】
以上の一般な説明と以下の詳細な説明は、例示的及び説明的なものに過ぎず、本開示を制限しないものではないと理解すべきである。
【0044】
以下、図面を参考しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴および方面は明確になる。
【図面の簡単な説明】
【0045】
ここの図面は、明細書の一部として組み込まれて、本開示に適合する実施例を示すものであって、明細書と共に本開示の技術的手段を説明するために用いられる。
【0046】
【
図1】本開示の実施例に係る積み重ね物体を認識する方法のフローチャートを示す。
【
図2】本開示の実施例における被認識画像の模式図を示す。
【
図3】本開示の実施例における被認識画像の別の模式図を示す。
【
図4】本開示の実施例で第1の分類ネットワーク及び第2の分類ネットワークによる分類結果に基づいてシーケンス中の物体のカテゴリーを特定するフローチャートを示す。
【
図5】本開示の実施例で第1の分類ネットワーク及び第2の分類ネットワークによる分類結果に基づいてシーケンス中の物体のカテゴリーを特定する別のフローチャートを示す。
【
図6】本開示の実施例に係るニューラルネットワークのトレーニングのフローチャートを示す。
【
図7】本開示の実施例に係る第1のネットワーク損失の特定のフローチャートを示す。
【
図8】本開示の実施例に係る第2のネットワーク損失の特定のフローチャートを示す。
【
図9】本開示の実施例に係る積み重ね物体を認識する装置のブロック図を示す。
【
図10】本開示の実施例に係る電子機器のブロック図を示す。
【
図11】本開示の実施例に係る別の電子機器のブロック図を示す。
【発明を実施するための形態】
【0047】
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および方面を詳細に説明する。図面において、同じ符号が同じまたは類似する機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
【0048】
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例も他の実施例より好ましい又は優れるものであると理解すべきではない。
【0049】
本明細書において、用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBが同時に存在し、Bのみが存在するという3つの場合を示すことができる。また、本明細書において、用語の「少なくとも1つ」は、複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組合を示し、例えば、A、B及びCのうちの少なくとも1つを含むということは、A、B及びCで構成される集合から選択されたいずれか1つ又は複数の要素を含むことを示すことができる。
【0050】
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、何らかの具体的な詳細がなくても、本開示は同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者に既知の方法、手段、要素および回路について、詳細な説明を行わない。
【0051】
本開示の実施例は、被認識画像に含まれる物体から構成したシーケンスを効率的に認識し、物体のカテゴリーを判断することができる積み重ね物体を認識する方法を提供する。この方法は、端末装置及びサーバを含む任意の画像処理装置に利用可能であり、ここで、端末装置は、ユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ちの機器、計算装置、車載装置、ウエアラブル装置等を含むことができる。サーバは、ローカルサーバ又はクラウドサーバであってもよい。いくつかの可能な実施形態では、この積み重ね物体を認識する方法は、プロセッサによってメモリに記憶されるコンピュータ読み取り可能なコマンドを呼び出することで実現されてもよい。画像処理を実現できるものであれば、本開示の実施例の積み重ね物体を認識する方法の実行主体として用いることができる。
【0052】
図1は本開示の実施例に係る積み重ね物体を認識する方法のフローチャートを示し、
図1に示すように、前記方法は、以下のことを含む。
【0053】
S10:少なくとも1つの物体を積み重ね方向に沿って積み重ねたシーケンスを含む被認識画像を取得する。
【0054】
いくつかの可能な実施形態では、被認識画像は、少なくとも1つの物体の画像であってもよく、また、画像中の各物体は、1つの方向に沿って積み重ねて物体シーケンス(以下、単にシーケンスという)を構成するようしてもよい。ここで、被認識画像には、シーケンスを構成する物体の積み重ね方向に沿った面の画像を含む。つまり、被認識画像は、積み重ねられた状態の物体を示す画像であってもよく、積み重ねられた状態の各物体を認識することによって、各物体のカテゴリーを得る。例えば、本開示の実施例の積み重ね物体を認識する方法は、ゲーム、娯楽、競技シーンに利用可能であり、物体は当該シーンでの遊技用コイン、ゲームカード、ゲームチップ等を含んでもよく、本開示はそれについて具体的に限定しない。
図2は本開示の実施例における被認識画像の模式図を示し、
図3は本開示の実施例における被認識画像の別の模式図を示す。ここで、積み重ねられた状態の複数の物体を含み、この複数の物体からシーケンスを形成してもよく、a方向は積み重ね方向を示す。なお、本開示の実施例は、シーケンス内の各物体が
図2に示すように不規則的に積み重ねられてもよく、
図3に示すように揃って積み重ねられてもよいので、異なる画像に全面的に適用可能であり、適用性が高い。
【0055】
いくつかの可能な実施形態では、被認識画像中の物体は、一定の厚さを有するシート状物体であってもよい。シート状物体を積み重ねることによってシーケンスを形成する。ここで、物体の厚さ方向は、物体の積み重ね方向であってもよい。つまり、物体を物体の厚さ方向に沿って積み重ねてシーケンスを形成するようにしてもよい。
【0056】
いくつかの可能な実施形態では、シーケンス中の少なくとも1つの物体は、前記積み重ね方向に沿った面に既定のマークを有する。本開示の実施例では、異なる物体を区別するために、被認識画像中の物体の積み重ね方向に垂直な方向の面に異なるマークを有するようにしてもよい。ここで、この既定のマークは、既定の色、パターン、模様、数値のうちの少なくとも1つ又は複数を含んでもよい。一例において、物体はゲームチップであり、被認識画像は縦方向又は水平方向に積み重ねられた複数のゲームチップの画像であるようにしてもよい。ゲームチップは異なるチップ価値を有し、異なるチップ価値のチップは色、模様、チップ価値符号のうちの少なくとも1つが異なるので、本開示の実施例は、取得された少なくとも1つのチップを含む被認識画像に基づいて、被認識画像中のチップに対応するチップ価値のカテゴリーを検出し、チップのチップ価値の分類結果を得ることができる。
【0057】
いくつかの可能な実施形態では、被認識画像の取得方式には、画像取得装置によって被認識画像をリアルタイムに取得する方式を含んでもよく、例えば、遊技場、競技場又は他の場所に画像取得装置が取り付けられている場合、画像取得装置によって被認識画像を直接に取得することができる。画像取得装置は、ウェブカメラ、カメラ又は画像、動画等の情報を取得可能な他の装置を含んでもよい。なお、被認識画像の取得方式には、他の電子機器から伝送される被認識画像を受信したり、記憶されている被認識画像を読み取る方式を含んでもよい。つまり、本開示の実施例に係わる積み重ね物体であるチップのシーケンスを認識する認識方法を実行する装置は、他の電子機器と通信接続することによって、接続されている電子機器から伝送される被認識画像を受信してもよく、又は、受信された選択情報に基づいてメモリアドレスから被認識画像を選択してもよく、メモリアドレスは、ローカルメモリアドレス又はネットワークでのメモリアドレスであってもよい。
【0058】
いくつかの可能な実施形態では、被認識画像は、取得された画像(以下、単に取得画像という)から、取得画像の少なくとも一部を切り取ったものであってもよく、また、被認識画像におけるシーケンスの一端が前記被認識画像の1つのエッジと揃っている。ここで、取得画像の場合に、物体から構成したシーケンスに加えて、取得画像にシーン中の他の情報、例えば、人物、テーブルの上面又は他の影響要素も含むことがある。本開示の実施例は、取得画像を処理する前に、取得画像の前処理を行ってもよく、例えば、取得画像を分割して、取得画像からシーケンスを含む被認識画像を切り取ってもよく、シーケンスが被認識画像中に位置し、かつ被認識画像におけるシーケンスの一端が画像のエッジと揃っているように、取得画像の少なくとも一部を被認識画像として特定してもよい。例えば、
図2及び
図3に示すように、シーケンスの左側の一端が画像のエッジと揃っている。他の実施例では、画像中の物体以外の他の要素の影響を全面的に低減するために、被認識画像におけるシーケンスの各端をそれぞれ被認識画像の各エッジと揃わせてもよい。
【0059】
S20:前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得する。
【0060】
被認識画像が取得された場合に、この被認識画像に対する特徴抽出を行って、対応する特徴マップを得るようにしてもよい。ここで、被認識画像を特徴抽出ネットワークに入力し、特徴抽出ネットワークによって被認識画像の特徴マップを抽出するようにしてもよい。ここで、この特徴マップは被認識画像に含まれる少なくとも1つの物体の特徴情報を含んでもよい。例えば、本開示の実施例における特徴抽出ネットワークは畳み込みニューラルネットワークであり、この畳み込みニューラルネットワークによって、入力された被認識画像に対して少なくとも1層での畳み込み処理を実行して、対応する特徴マップを得るようにしてもよい。ここで、畳み込みニューラルネットワークは、トレーニングされた後、被認識画像中の物体の特徴の特徴マップを抽出することができる。畳み込みニューラルネットワークは残差畳み込みニューラルネットワーク、VGG(Visual Geometry Group Network、視覚幾何学グループ)ニューラルネットワーク又は他の任意の畳み込みニューラルネットワークを含んでもよく、本開示はこれについて具体的に限定しなく、被認識画像に対応する特徴マップを取得できるものであれば、本開示の実施例に係わる特徴抽出ネットワークとして用いることができる。
【0061】
S30:前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを認識する。
【0062】
いくつかの可能な実施形態では、被認識画像の特徴マップが得られた場合に、この特徴マップを用いて被認識画像中の物体の分類処理を実行してもよい。例えば、被認識画像におけるシーケンス中の物体の数及び物体のマークのうちの少なくとも1つを認識してもよい。ここで、被認識画像の特徴マップを更に分類ネットワークに入力して分類処理を実行して、シーケンス中の物体のカテゴリーを得るようにしてもよい。
【0063】
いくつかの可能な実施形態では、シーケンス中の各物体は、同じ物体、例えばパターン、色、模様又は大きさ等の特徴がいずれも同じものであってもよく、異なる物体、例えば、パターン、大きさ、色、模様又は他の特徴のうちの少なくとも1つが異なるものであってもよい。本開示の実施例では、物体の区別及び認識を容易にするために、同じ物体が同じカテゴリーマークを有し、異なる物体が異なるカテゴリーマークを有するように、各物体にカテゴリーマークを割り当ててもよい。上記実施例で説明したように、被認識画像に対して分類処理を実行して物体のカテゴリーを得ることができ、ここで、物体のカテゴリーは、シーケンス中の物体の数であってもよいし、シーケンス中の物体のカテゴリーマークであってもよいし、物体に対応するカテゴリーマーク及び数であってもよい。ここで、被認識画像を分類ネットワークに入力して上記分類処理の分類結果を得ることができる。
【0064】
一例において、被認識画像中の物体に対応するカテゴリーマークが事前に知られている場合に、分類ネットワークによって物体の数のみを認識するようにしてもよい。この場合に、分類ネットワークから被認識画像におけるシーケンス中の物体の数を出力することができる。ここで、被認識画像を分類ネットワークに入力してもよく、分類ネットワークは、トレーニングされて、積み重ねられた物体の数を認識可能な畳み込みニューラルネットワークであってもよい。例えば、物体がゲームシーンでの遊技用コインである場合、各遊技用コインを同じものにして、分類ネットワークによって被認識画像中の遊技用コインの数を認識することにより、遊技用コインの数及びコイン総価値を容易にカウントすることができる。
【0065】
一例において、物体のカテゴリーマーク及び数がいずれも知られていないが、シーケンス中の物体が同じものである場合に、分類することによって物体のカテゴリーマーク及び数を同時に認識するようにしてもよい。この場合に、分類ネットワークからシーケンス中の物体のカテゴリーマーク及び数を出力することができる。ここで、この分類ネットワークにより出力されるカテゴリーマークは被認識画像中の物体に対応するマークを示し、また、分類ネットワークからシーケンス中の物体の数を出力することもできる。例えば、物体はゲームチップであり、この被認識画像中の各ゲームチップは同じチップ価値を有し、つまりゲームチップは同じチップであり、分類ネットワークによって被認識画像を処理してゲームチップの特徴を検出し、対応するカテゴリーマーク及びゲームチップの数を認識することができる。上記実施例では、分類ネットワークは、トレーニングされて、被認識画像中の物体のカテゴリーマーク及び数を認識可能な畳み込みニューラルネットワークであってもよい。この構成によって、被認識画像中の物体に対応するマーク及び数の認識が容易になる。
【0066】
一例において、被認識画像におけるシーケンス中の少なくとも1つの物体が他の物体と異なる場合に、例えば、色、パターン又は模様のうちの少なくとも1つが異なる場合に、分類ネットワークを用いて各物体のカテゴリーマークを認識するようにしてもよい。この場合に、シーケンス中の各物体を特定し区別するために、分類ネットワークからシーケンス中の各物体のカテゴリーマークを出力することができる。例えば、物体はゲームチップであり、異なるチップ価値のチップの色、パターン又は模様は異なる場合があり、この場合に、異なるチップは異なるマークを有し、分類ネットワークにより被認識画像を処理して各物体の特徴を検出して、各物体に対応するカテゴリーマークを取得することができる。又は、更に、シーケンス中の物体の数を出力することもできる。上記実施例では、分類ネットワークは、トレーニングされて、被認識画像中の物体のカテゴリーマークを認識可能な畳み込みニューラルネットワークであってもよい。この構成によって、被認識画像中の物体に対応するマーク及び数の認識が容易になる。
【0067】
いくつかの可能な実施形態では、上記物体のカテゴリーマークは物体に対応する価値であってもよく、又は、本開示の実施例では、更に物体のカテゴリーマークとそれに対応する価値との間のマッピング関係を設定して、認識されたカテゴリーマークに応じて、カテゴリーマークに対応する価値を更に取得して、ひいては、シーケンス中の各物体の価値を特定するようにしてもよい。被認識画像におけるシーケンス中の各物体のカテゴリーが得られた場合に、シーケンス中の各物体のカテゴリーとそれの表す価値との間の対応関係により被認識画像におけるシーケンスの表す合計価値を特定することができ、このシーケンスの合計価値はシーケンス中の各物体の価値の合計である。この構成によれば、積み重ね物体の合計価値のカウントが容易になり、例えば積み重ねられた遊技用コイン、ゲームチップの合計価値の検出及び特定が容易になる。
【0068】
上記構成によれば、本開示の実施例は、画像中の積み重ね物体を容易且つ精確に分類認識することができる。
【0069】
以下、図面を参照しながら、本開示の実施例の各プロセスをそれぞれ説明する。まず、被認識画像を取得してもよく、ここで、上記実施例で説明したように、取得された被認識画像は、取得画像に対して前処理を実行して得られた画像であってもよい。ここで、目標検出ニューラルネットワークによって、取得画像に対して目標検出を実行して、取得画像中の目標対象に対応する検出枠を得ることができ、ここで、目標対象は、本開示の実施例に係わる物体、例えば、遊技用コイン、ゲームチップ等であってもよい。得られた検出枠に対応する画像領域を被認識画像としてもよく、又は手動で検出枠から被認識画像を選択してもよい。なお、目標検出ニューラルネットワークは、領域提案ネットワークであってもよい。以上は例示的な説明に過ぎず、本開示はこれについて具体的に限定しない。
【0070】
被認識画像が得られた場合に、被認識画像に対して特徴抽出を実行して、本開示の実施例では、特徴抽出ネットワークによって被認識画像に対する特徴抽出を行って、対応する特徴マップを得るようにしてもよい。ここで、特徴抽出ネットワークは、残差ネットワーク又は特徴抽出を実行可能な他の任意のニューラルネットワークを含んでもよく、本開示はこれについて具体的に限定しない。
【0071】
被認識画像の特徴マップが得られた場合に、特徴マップに対して分類処理を実行して、シーケンス中の各物体のカテゴリーを得るようにしてもよい。
【0072】
いくつかの可能な実施形態では、第1の分類ネットワークによって分類処理を実行し、第1の分類ネットワークを用いて前記特徴マップに基づいて、シーケンス中の少なくとも1つの物体のカテゴリーを特定するようにしてもよい。ここで、第1の分類ネットワークは、トレーニングされて、特徴マップ中の物体の特徴情報を認識し、更に物体のカテゴリーを認識することができる畳み込みニューラルネットワークであってもよく、例えば第1の分類ネットワークは、CTC(Connectionist Temporal Classification、コネクショニストの時間的分類)ニューラルネットワーク又は注意機構に基づくデコードネットワーク等であってもよい。
【0073】
一例において、被認識画像の特徴マップを第1の分類ネットワークに直接入力して、第1の分類ネットワークによって特徴マップに対して分類処理を実行して、被認識画像中の少なくとも1つの物体のカテゴリーを得るようにしてもよい。例えば、物体はゲームチップであってもよく、出力されるカテゴリーはゲームチップのカテゴリーであってもよく、このカテゴリーはチップの価値であってもよい。第1の分類ネットワークによって、シーケンス中の各物体に対応するチップのチップ価値を順次認識することができ、この場合に、第1の分類ネットワークの出力結果を被認識画像中の各物体のカテゴリーとして特定することができる。
【0074】
別の可能な実施形態では、本開示の実施例は、第1の分類ネットワーク及び第2の分類ネットワークによってそれぞれ被認識画像の特徴マップに対して分類処理を実行し、第1の分類ネットワーク及び第2の分類ネットワークによって被認識画像におけるシーケンス中の少なくとも1つの物体のカテゴリーをそれぞれ予測し、前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを最終的に特定するようにしてもよい。
【0075】
本開示の実施例は、第2の分類ネットワークによる被認識画像におけるシーケンスの分類結果も用いて、シーケンス中の各物体の最終的なカテゴリーを得るようにして、認識精度を更に高めることができる。ここで、被認識画像の特徴マップが取得された後、この特徴マップをそれぞれ第1の分類ネットワーク及び第2の分類ネットワークに入力し、第1の分類ネットワークによって、前記シーケンス中の各物体の予測カテゴリー及び対応する予測確率を含むシーケンスの第1の認識結果を得、第2の分類ネットワークによって、シーケンス中の各物体の予測カテゴリー及び対応する予測確率を含むシーケンスの第2の認識結果を得るようにしてもよい。ここで、第1の分類ネットワークはCTCニューラルネットワークであり、それに対して、第2の分類ネットワークは注意機構のデコードネットワークであるようにしてもよく、又は、別の実施例では、第1の分類ネットワークは注意機構のデコードネットワークであり、それに対して、第2の分類ネットワークはCTCニューラルネットワークであるようにしてもよいが、本開示を具体的に限定するものではなく、他の種類の分類ネットワークであってもよい。
【0076】
更に、前記第1の分類ネットワークにより得られた前記シーケンスの分類結果及び前記第2の分類ネットワークにより得られたシーケンスの分類結果に基づいて、シーケンス中の各物体の最終的なカテゴリー、即ち最終的な分類結果を得るようにしてもよい。
【0077】
図4は本開示の実施例で第1の分類ネットワーク及び第2の分類ネットワークによる分類結果に基づいてシーケンス中の物体のカテゴリーを特定するフローチャートを示し、ここで、前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することは、
前記第1の分類ネットワークにより予測された物体のカテゴリーの数及び前記第2の分類ネットワークにより予測された物体のカテゴリーの数が同じであることに応じて、前記第1の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーと前記第2の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーを比較するS31と、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが同じである場合に、この予測カテゴリーを前記同一物体に対応するカテゴリーとして特定するS32と、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが異なる場合に、高い予測確率の予測カテゴリーを前記同一物体に対応するカテゴリーとして特定するS33と、を含んでもよい。
【0078】
いくつかの可能な実施形態では、第1の分類ネットワークにより得られた第1の認識結果と第2の分類ネットワークにより得られた第2の認識結果を比較して、シーケンス中の物体のカテゴリーの数が同じであるか否か、つまり予測された物体の数が同じであるか否かを判断するようにしてもよい。同じであれば、2つの分類ネットワークによる各物体の予測カテゴリーを順次対応付けて比較してもよい。つまり、第1の分類ネットワークにより得られたシーケンス中のカテゴリーの数と第2の分類ネットワークにより得られたシーケンス中のカテゴリーの数が同じである場合、同じ物体について、予測カテゴリーが同じである場合に、この同じ予測カテゴリーを対応する物体のカテゴリーとして特定することができ、物体の予測カテゴリーが異なる場合に、高い予測確率の予測カテゴリーをこの物体のカテゴリーとして特定することができる。ここで説明したいのは、分類ネットワーク(第1の分類ネットワーク及び第2の分類ネットワーク)により、被認識画像の画像特徴に対して分類処理を実行して被認識画像におけるシーケンス中の各物体の予測カテゴリーを得ると共に、各予測カテゴリーに対応する予測確率をも取得し、予測確率は、物体が対応する予測カテゴリーとなる可能性を表すことができる。
【0079】
例えば、物体がチップである場合に、本開示の実施例は、前記第1の分類ネットワークにより得られた前記シーケンス中の各チップのカテゴリー(例えば、チップ価値)と前記第2の分類ネットワークにより得られた前記シーケンス中の各チップのカテゴリー(例えば、チップ価値)を比較して、第1の分類ネットワークにより得られた第1の認識結果と第2の分類ネットワークにより得られた第2の認識結果において同一チップの予測チップ価値が同じである場合に、この予測チップ価値を前記同一チップに対応するチップ価値として特定し、前記第1の分類ネットワークにより得られたチップシーケンスと第2の分類ネットワークにより得られたチップシーケンスにおいて同一チップの予測チップ価値が異なる場合に、高い予測確率の予測チップ価値をこの同一チップに対応するチップ価値として特定するようにしてもよい。例えば、第1の分類ネットワークにより得られた第1の認識結果が「112234」であり、第2の分類ネットワークにより得られた第2の認識結果が「112236」であり、ここで、各数字はそれぞれ各物体のカテゴリーを表す。従って、前の5つの物体の予測カテゴリーが同じであり、この場合に、前の5つの物体のカテゴリーが「11223」であると特定することができる。最後の1つの物体のカテゴリーの予測については、第1の分類ネットワークにより得られた予測確率をAとし、第2の分類ネットワークにより得られた予測確率をBとし、AがBより大きい場合に、「4」を最後の1つの物体のカテゴリーとして特定することができ、BがAより大きい場合に、「6」を最後の1つの物体に対応するカテゴリーとして特定することができる。
【0080】
各物体のカテゴリーが得られた後、各物体のカテゴリーをシーケンス中の物体の最終的なカテゴリーとして特定することができる。例えば、上記実施例では、物体がチップである場合に、AがBより大きい場合に、「112234」を最終的なチップシーケンスとして特定することができ、BがAより大きい場合に、「112236」を最終的なチップシーケンスとして特定することができる。なお、AがBと等しい場合に、両方を出力し、即ち両方を最終的なチップシーケンスとすることができる。
【0081】
上記形態によれば、第1の認識結果から認識された物体のカテゴリーの数と第2の認識結果から認識された物体のカテゴリーの数が同じである場合に最終的な物体のカテゴリーのシーケンスを特定することができ、認識精度が高いという特徴を有する。
【0082】
別の可能な実施形態では、第1の認識結果と第2の認識結果に基づいて得られた物体のカテゴリーの数が異なることがあり、この場合に、第1の分類ネットワーク及び第2の分類ネットワークのうち、優先度が高いネットワークによる認識結果を最終的な物体のカテゴリーとしてもよい。即ち、前記第1の分類ネットワークにより得られたシーケンス中の物体のカテゴリーの数と前記第2の分類ネットワークにより得られたシーケンス中の物体のカテゴリーの数が異なることに応じて、前記第1の分類ネットワーク及び第2の分類ネットワークのうち、優先度が高い分類ネットワークにより予測された物体のカテゴリーを被認識画像におけるシーケンス中の少なくとも1つの物体のカテゴリーとして特定する。
【0083】
ここで、本開示の実施例では、第1の分類ネットワーク及び第2の分類ネットワークの優先度を予め設定しておいてもよく、例えば第1の分類ネットワークの優先度を第2の分類ネットワークより高くすると、第1の認識結果と第2の認識結果のシーケンス中の物体のカテゴリーの数が異なる場合に、第1の分類ネットワークの第1の認識結果における各物体の予測カテゴリーを最終的な物体のカテゴリーとして特定し、逆に、第2の分類ネットワークの優先度を第1の分類ネットワークより高くすると、第2の分類ネットワークにより得られた第2の認識結果における各物体の予測カテゴリーを最終的な物体のカテゴリーとして特定することができる。上述のようにすることで、予め設定された優先度情報により最終的な物体のカテゴリーを特定することができ、ここで、優先度の設定は、第1の分類ネットワーク及び第2の分類ネットワークの精度に関連し、異なる種類の対象の分類認識を実現する場合に、異なる優先度を設定してもよく、当業者であれば、必要に応じて設定可能である。優先度の設定によって、認識精度が高い物体のカテゴリーを容易に選択することができる。
【0084】
別の可能な実施形態では、第1の分類ネットワークと第2の分類ネットワークにより得られた物体のカテゴリーの数を比較せず、認識結果の信頼度により最終的な物体のカテゴリーを直接特定するようにしてもよい。認識結果の信頼度は、認識結果における各物体のカテゴリーの予測確率の積であってもよい。例えば、第1の分類ネットワーク及び第2の分類ネットワークにより得られた認識結果の信頼度をそれぞれ計算し、信頼度が高い認識結果における物体の予測カテゴリーをシーケンス中の各物体の最終的なカテゴリーとして特定するようにしてもよい。
【0085】
図5は本開示の実施例で第1の分類ネットワーク及び第2の分類ネットワークによる分類結果に基づいてシーケンス中の物体のカテゴリーを特定する別のフローチャートを示す。ここで、前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することは、
前記第1の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第1の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第1の信頼度を得、前記第2の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第2の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第2の信頼度を得るS301と、
前記第1の信頼度及び第2の信頼度のうちの高い値に対応する物体の予測カテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定するS302と、を更に含んでもよい。
【0086】
いくつかの可能な実施形態では、第1の分類ネットワークにより得られた第1の認識結果における各物体の予測カテゴリーに対応する予測確率の積に基づいて、第1の認識結果の第1の信頼度を得、第2の分類ネットワークにより得られた第2の認識結果における各物体の予測カテゴリーに対応する予測確率の積に基づいて、第2の認識結果の第2の信頼度を得、次に第1の信頼度と第2の信頼度を比較し、第1の信頼度及び第2の信頼度のうちの大きい値に対応する認識結果を前記最終的な分類結果とし、即ち、信頼度が高い認識結果における各物体の予測カテゴリーを被認識画像中の各物体のカテゴリーとして特定するようにしてもよい。
【0087】
一例において、物体はゲームチップであり、物体のカテゴリーはチップ価値を表し、第1の分類ネットワークにより得られた被認識画像中のチップに対応するカテゴリーはそれぞれ「123」であり、チップ価値1の確率が0.9であり、チップ価値2の確率が0.9であり、チップ価値3の確率が0.8であると想定される場合、第1の信頼度は、0.9*0.9*0.8、即ち0.648である。第2の分類ネットワークにより得られた物体のカテゴリーはそれぞれ「1123」であり、一番目のチップ価値1の確率が0.6であり、二番目のチップ価値1の確率が0.7であり.チップ価値2の確率が0.8であり、チップ価値3の確率が0.9であると想定される場合、第2の信頼度は0.6*0.7*0.8*0.9、即ち0.3024である。第1の信頼度が第2の信頼度より大きいので、チップ価値シーケンス「123」を最終的な各物体のカテゴリーとして特定することができる。以上は例示的な説明に過ぎず、具体的に限定する意図がない。この形態によれば、物体のカテゴリーの数に応じて異なる方式で最終的な物体のカテゴリーを特定する必要がなく、簡単で便利であるという特徴を有する。
【0088】
上記実施例によれば、本開示の実施例は、1つの分類ネットワークにより被認識画像中の各物体のカテゴリーの高速検出認識を実行することができ、2つの分類ネットワークにより共同で監視して物体のカテゴリーの精確な予測を実現することもできる。
【0089】
以下、本開示の実施例の積み重ね物体を認識する方法を実現するニューラルネットワークのトレーニング構成を説明する。ここで、本開示の実施例のニューラルネットワークは特徴抽出ネットワーク及び分類ネットワークを含んでもよい。特徴抽出ネットワークにより被認識画像の特徴抽出処理を実現することができ、分類ネットワークにより被認識画像の特徴マップの分類処理を実現することができる。ここで、分類ネットワークは第1の分類ネットワークを含んでもよく、又は第1の分類ネットワーク及び少なくとも1つの第2の分類ネットワークを含んでもよい。下記トレーニングプロセスは、第1の分類ネットワークが時系列分類ニューラルネットワークであり、第2の分類ネットワークが畳み込み機構のデコードネットワークであることを例として説明するが、本開示を具体的に限定するものではない。
【0090】
図6は本開示の実施例に係るニューラルネットワークのトレーニングのフローチャートを示し、ここで、前記ニューラルネットワークをトレーニングするプロセスは、
前記特徴抽出ネットワークを用いてサンプル画像に対する特徴抽出を行って、前記サンプル画像の特徴マップを得るS41と、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定するS42と、
前記第1の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第1のネットワーク損失を特定するS43と、
前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整するS44と、を含む。
【0091】
いくつかの可能な実施形態では、サンプル画像は、ニューラルネットワークをトレーニングするためのものであり、複数のサンプル画像を含み、ラベリングされた真の物体のカテゴリーが関連付けられているようにしてもよい。例えば、サンプル画像は、積み重ねられたチップの画像であり、チップの真のチップ価値がラベリングされているようにしてもよい。サンプル画像を取得する方式は、伝送されるサンプル画像を通信の方式によって受信したり、メモリアドレスに記憶されているサンプル画像を読み取る方式であってもよく、以上は例示的な説明に過ぎず、本開示を具体的に限定するものではない。
【0092】
ニューラルネットワークをトレーニングする時に、取得されたサンプル画像を特徴抽出ネットワークに入力し、特徴抽出ネットワークによってサンプル画像に対応する特徴マップ(以下、予測特徴マップ呼んでもよい)を取得するようにしてもよい。前記予測特徴マップを分類ネットワークに入力し、分類ネットワークによって予測特徴マップを処理し、サンプル画像中の各物体の予測カテゴリーを得る。分類ネットワークにより得られたサンプル画像中の各物体の予測カテゴリー、対応する予測確率及びラベリングされた真のカテゴリーに基づいて、ネットワーク損失を得ることができる。
【0093】
ここで、分類ネットワークは第1の分類ネットワークを含み、第1の分類ネットワークによってサンプル画像の予測特徴マップに対して分類処理を実行して、予測されたサンプル画像中の各物体の予測カテゴリーを示す第1の予測結果を得て、この予測された各物体の予測カテゴリー及びラベリングされた各物体のラベリングカテゴリーに基づいて、第1のネットワーク損失を特定するようにしてもよい。次に、第1のネットワーク損失に基づいて、ニューラルネットワークのうちの特徴抽出ネットワーク及び分類ネットワークのパラメータ、例えば畳み込みパラメータをフィードバック調節して、特徴抽出ネットワーク及び分類ネットワークを絶え間なく最適化するようにしてもよい。それによって、得られた予測特徴マップがより精確になり、分類結果がより精確になる。ここで、第1のネットワーク損失が損失閾値より大きい場合にネットワークパラメータを調整し、第1のネットワーク損失が損失閾値以下である場合に、ニューラルネットワークが最適化条件を満たすことを意味し、ニューラルネットワークのトレーニングを終了するようにしてもよい。
【0094】
又は、分類ネットワークは第1の分類ネットワーク及び少なくとも1つの第2の分類ネットワークを含み、第1の分類ネットワークと同様に、第2の分類ネットワークもサンプル画像の予測特徴マップに対して分類処理を実行して、サンプル画像中の各物体の予測カテゴリーを示す第2の予測結果を得るようにしてもよい。各第2の分類ネットワークは同じであっても異なってもよく、本開示はこれについて具体的に限定しない。第2の予測結果及びサンプル画像のラベリングカテゴリーに基づいて、第2のネットワーク損失を特定するようにしてもよい。つまり、特徴抽出ネットワークにより得られたサンプル画像の予測特徴マップをそれぞれ第1の分類ネットワーク及び第2の分類ネットワークに入力し、第1の分類ネットワーク及び第2の分類ネットワークによって予測特徴マップを分類予測し、対応する第1の予測結果及び第2の予測結果を得て、更にそれぞれの損失関数を用いて、第1の分類ネットワークの第1のネットワーク損失及び第2の分類ネットワークの第2のネットワーク損失を得るようにしてもよい。更に、第1のネットワーク損失及び第2のネットワーク損失に基づいてネットワークの全体的なネットワーク損失を特定し、最終的に得られたネットワークの全体的なネットワーク損失が損失閾値より小さくなってトレーニング要求を満たし、即ち、全体的なネットワーク損失が損失閾値以下になってトレーニング要求を満たすように、この全体的なネットワーク損失に基づいて、特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータ、例えば畳み込みパラメータ、全結合層のパラメータ等を調整するようにしてもよい。
【0095】
以下、第1のネットワーク損失、第2のネットワーク損失及び全体的なネットワーク損失を特定するプロセスを詳細に説明する。
【0096】
図7は本開示の実施例に係わる第1のネットワーク損失の特定のフローチャートを示し、ここで、前記第1のネットワーク損失の特定のプロセスは、以下のことを含んでもよい。
【0097】
S431:前記第1の分類ネットワークを用いて、前記サンプル画像の特徴マップに対して領域区画処理を行って、複数の区画領域を得る。
【0098】
いくつかの可能な実施形態では、CTCネットワークは積み重ね物体のカテゴリーの認識を実行するプロセスで、サンプル画像の特徴マップに対して領域区画処理を実行し、且つ各区画領域に対応する物体のカテゴリーをそれぞれ予測する必要がある。例えば、サンプル画像が積み重ねられたチップの画像であり、物体のカテゴリーがチップ価値である場合に、第1の分類ネットワークによってチップのチップ価値を予測すると、サンプル画像の特徴マップに対して領域区画処理を実行する必要があり、ここで、特徴マップの領域を横方向又は縦方向に区画して複数の区画領域を得るようにしてもよい。例えば、サンプル画像の特徴マップXの幅がWであり、予測特徴マップXを幅方向にW等分し(Wが正整数である)、即ちX=[x1,x2,…,xw]であり、Xのうちのxiのそれぞれ(1≦i≦Wであり、且つiが整数である)はこのサンプル画像の特徴マップXの区画領域特徴のそれぞれである。
【0099】
S432:前記第1の分類ネットワークを用いて、前記複数の区画領域のうちの各区画領域の第1の分類結果を予測する。
【0100】
サンプル画像の特徴マップに対して領域区画処理を実行した後、各区画領域に対応して、各区画領域中の物体がそれぞれのカテゴリーとなる第1の確率を含む第1の分類結果を得、つまり、各区画領域が全ての可能なカテゴリーとなる第1の確率を計算するようにしてもよい。チップを例とすれば、区画領域毎にチップのチップ価値のそれぞれに対する第1の確率を得ることができる。例えば、チップ価値の数は3つ、対応するチップ価値はそれぞれ「1」、「5」及び「10」として、各区画領域を分類予測する場合に、各区画領域がチップ価値「1」、「5」及び「10」のそれぞれとなる第1の確率を得ることができる。それに対応して、特徴マップX中の各区画領域xiが各カテゴリーとなる第1の確率Zを有してもよく、ここで、Zは区画領域毎の各カテゴリーに対する第1の確率の集合を表し、ZはZ=[z1,z2,…,zw]で表してもよく、ここで、各zは対応する区画領域xiの各カテゴリーに対する第1の確率の集合を表す。
【0101】
S433:前記各区画領域の第1の分類結果における全てのカテゴリーに対する第1の確率に基づいて、前記第1のネットワーク損失を得る。
【0102】
いくつかの可能な実施形態では、第1の分類ネットワークは、真のカテゴリーに対応する予測カテゴリーの分布様子が設定されており、即ち、サンプル画像中の各物体の真のラベリングカテゴリーから構成したシーケンスとそれに対応する予測カテゴリーの可能な分布様子の間で一対多のマッピング関係を確立するようにしてもよい。このマッピング関係はC=B(Y)で表してもよく、ただし、Yは真のラベリングカテゴリーから構成したシーケンスを表し、CはYに対応するn(nが正整数である)種のカテゴリーの可能な分布シーケンスの集合を表し、C=(c1,c2,…,cn)である。例えば、真のラベリングカテゴリーのシーケンスが「123」であり、区画領域の数が4つであり、予測された可能な分布様子Cは「1123」、「1223」、「1233」等を含んでもよい。それに対応して、cjは真のラベリングカテゴリーのシーケンスに対する第j種のカテゴリーの可能な分布シーケンスである(jが1以上且つn以下の整数であり、nがカテゴリーの可能な分布様子の数である)。
【0103】
それによって、第1の予測結果における各区画領域に対応するカテゴリーの第1の確率に基づいて、各種の分布様子の確率を得ることができ、それによって第1のネットワーク損失を特定することができ、ただし、第1のネットワーク損失は以下の式(1)で表してもよい。
【数1】
ただし、L1は第1のネットワーク損失を表し、P(Y|Z)は真のラベリングカテゴリーのシーケンスYに対する予測カテゴリーの可能な分布シーケンスの確率を表し、p(cj|Z)はcjの分布様子における各カテゴリーの第1の確率の積である。
【0104】
上述のようにすることで、第1のネットワーク損失を容易に得ることができる。第1のネットワーク損失は第1のネットワーク損失の各区画領域の各カテゴリーに対する確率を全面的に反映することができ、より精確且つ全面的に予測することができる。
【0105】
図8は本開示の実施例に係わる第2のネットワーク損失の特定のフローチャートを示し、ここで、前記第2の分類ネットワークは、注意機構のデコードネットワークであり、前記予測画像特徴を前記第2の分類ネットワークに入力して前記第2のネットワーク損失を得ることは、以下のことを含んでもよい。
【0106】
S51:前記第2の分類ネットワークを用いて、前記サンプル画像の特徴マップに対して畳み込み処理を実行して複数の注意中心を得る。
【0107】
いくつかの可能な実施形態では、第2の分類ネットワークを用いて予測特徴マップに対する分類の予測結果、即ち第2の予測結果を得るようにしてもよい。ここで、第2の分類ネットワークにより予測特徴マップに対して畳み込み処理を実行して複数の注意中心(注意領域)を得ることができる。ここで、注意機構のデコードネットワークは、ネットワークパラメータによって画像特徴マップ中の重要な領域、即ち注意中心を予測することができ、トレーニングするプロセスで、ネットワークパラメータを調整することによって注意中心の精確な予測を実現することができる。
【0108】
S52:前記複数の注意中心のそれぞれの第2の予測結果を予測する。
【0109】
複数の注意中心が得られた後、分類予測によって各注意中心に対応する予測結果を特定して、対応する物体のカテゴリーを得るようにしてもよい。ここで、第2の予測結果には、注意中心が各カテゴリーとなる第2の確率Px〔k〕(Px〔k〕は予測された注意中心内の物体がカテゴリーkとなる第2の確率を表し、xは物体のカテゴリーの集合を表す)を含んでもよい。
【0110】
S53:各注意中心の第2の予測結果における各カテゴリーに対する第2の確率に基づいて、前記第2のネットワーク損失を得る。
【0111】
第2の予測結果における各カテゴリーに対する第2の確率が得られた後、サンプル画像中の各物体のカテゴリーは、各注意中心に対する第2の予測結果における第2の確率が最も高いカテゴリーとなるようにしてもよい。各注意中心の各カテゴリーに対する第2の確率によって第2のネットワーク損失を得ることができ、ここで第2の分類ネットワークに対応する第2の損失関数は、以下の式(2)になってもよい。
【数2】
ただし、L
2は第2のネットワーク損失であり、P
x〔
k〕は第2の予測結果におけるカテゴリーkに対する第2の確率を表し、P
x〔
k〕は第2の予測結果における真のラベリングカテゴリーに対応する第2の確率を表す。
【0112】
上記実施例によれば、第1のネットワーク損失及び第2のネットワーク損失を得ることができ、この第1のネットワーク損失及び第2のネットワーク損失に基づいて更に全体的なネットワーク損失を得て、ネットワークパラメータをフィードバック調節することができる。ここで、第1のネットワーク損失及び第2のネットワーク損失の加重和によりネットワークの全体的な損失を得ることができ、ここで、第1のネットワーク損失及び第2のネットワーク損失の重みは、予め設定された重みに基づいて特定し、例えば、いずれも1にしてもよく、又はそれぞれ他の重み値にしてもよく、本開示はこれについて具体的に限定しない。
【0113】
いくつかの可能な実施形態では、更に、他の損失も加味してネットワークの全体的な損失を特定してもよい。本開示の実施例において、ネットワークをトレーニングするプロセスで、同じシーケンスを有するサンプル画像を1つの画像群とすることと、前記画像群中のサンプル画像に対応する特徴マップの特徴中心を取得することと、前記画像群中の前記サンプル画像の特徴マップと特徴中心との間の距離に基づいて、第3の予測損失を特定することと、を更に含んでもよい。
【0114】
いくつかの可能な実施形態では、各サンプル画像に対応して真のラベリングカテゴリーを有してもよい。本開示の実施例は、同じ真のラベリングカテゴリーを有する物体から構成したシーケンスを同じシーケンスとして、同じシーケンスを有するサンプル画像で1つの画像群を構成して、少なくとも1つの画像群を形成するようにしてもよい。
【0115】
いくつかの可能な実施形態では、各画像群中の各サンプル画像の特徴マップの平均特徴を特徴中心とするようにしてもよい。ここで、サンプル画像の特徴マップのスケールを同じスケールに調整し、例えば、特徴マップに対してプーリング処理を実行して予め設定された規格の特徴マップを得て、同じ位置の特徴値の平均値をこの同じ位置の特徴中心値として得るようにしてもよい。同様に、各画像群の特徴中心を得ることができる。
【0116】
いくつかの可能な実施形態では、画像群の特徴中心が得られた後、更に画像群中の各特徴マップと特徴中心との間の距離を特定して、更に第3の予測損失を得るようにしてもよい。
ただし、第3の予測損失は以下の式(3)で表してもよい。
【数3】
ただし、L
3は第3の予測損失を表し、hは1以上且つm以下の整数であり、mは画像群中の特徴マップの数を表し、f
hはサンプル画像の特徴マップを表し、f
yは特徴中心を表す。第3の予測損失によってカテゴリー同士の特徴距離を大きくし、カテゴリー内の特徴距離を小さくして、予測精度を高めることができる。
【0117】
第3のネットワーク損失が得られた場合に、更に前記第1のネットワーク損失、第2のネットワーク損失及び第3の予測損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて、前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整するようにしてもよい。
【0118】
第1のネットワーク損失、第2のネットワーク損失及び第3の予測損失が得られた後、各予測損失の加重和によりネットワークの全体的な損失、即ちネットワーク損失を得て、このネットワーク損失に基づいてネットワークパラメータを調整して、ネットワーク損失が損失閾値より小さい場合に、トレーニング要求を満たすとみなして、トレーニングを終了し、ネットワーク損失が損失閾値以上である場合に、トレーニング要求を満たすまで、ネットワーク中のネットワークパラメータを調整するようにしてもよい。
【0119】
上記構成によれば、本開示の実施例は2つの分類ネットワークによって共同でネットワークの教師ありトレーニングを行うことができ、単一のネットワークのトレーニングプロセスと比べて、画像特徴及び分類の予測の精度を高め、チップ認識の精度を全体的に高めることができる。また、単一の第1の分類ネットワークによって物体のカテゴリーを得てもよく、第1の分類ネットワーク及び第2の分類ネットワークの認識結果をもとに最終的な物体のカテゴリーを得て、予測精度を高めるようにしてもよい。
【0120】
なお、本実施例の特徴抽出ネットワーク、第1の分類ネットワークをトレーニングする場合に、第1の分類ネットワーク及び第2の分類ネットワークの予測結果をもとにネットワークのトレーニングを実行することができ、即ち、ネットワークをトレーニングする場合に、更に特徴マップを第2の分類ネットワークに入力し、第1の分類ネットワーク及び第2の分類ネットワークの予測結果に基づいてネットワーク全体のネットワークパラメータをトレーニングすることができる。この形態によれば、ネットワークの精度を更に高めることができる。本開示の実施例は、ネットワークをトレーニングする時に、2つの分類ネットワークを用いて共同で教師ありトレーニングを行うことができるので、実際に適用する時に、この第1の分類ネットワーク及び第2の分類ネットワークの一方を用いて被認識画像中の物体のカテゴリーを得ることができる。
【0121】
以上のように、本開示の実施例では、被認識画像に対する特徴抽出を行うことによって被認識画像の特徴マップを得て、特徴マップの分類処理により被認識画像中の積み重ね物体から構成したシーケンス中の各物体のカテゴリーを得ることができる。本開示の実施例によれば、画像中の積み重ね物体を容易且つ精確に分類認識することができる。なお、本開示の実施例は2つの分類ネットワークによって共同でネットワークの教師ありトレーニングを行うことができ、単一のネットワークのトレーニングプロセスと比べて、画像特徴及び分類の予測の精度を高め、チップ認識の精度を全体的に高めることができる。
【0122】
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解され、紙数に限りがあるので、本開示では割愛する。
【0123】
また、本開示は、積み重ね物体を認識する装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムを更に提供し、それらのいずれも本開示で提供される積み重ね物体を認識する方法のいずれか1つを実現するために利用可能であり、それに対応する技術的解決手段及び説明については方法部分の対応する記載を参照すればよく、ここで割愛する。
【0124】
当業者であれば、具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが理解される。
【0125】
図9は本開示の実施例に係る積み重ね物体を認識する装置のブロック図を示し、
図9に示すように、前記積み重ね物体を認識する装置は、
少なくとも1つの物体を積み重ね方向に沿って積み重ねたシーケンスを含む被認識画像を取得するための取得モジュール10と、
前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得するための特徴抽出モジュール20と、
前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識するための認識モジュール30と、を含む。
【0126】
いくつかの可能な実施形態では、前記被認識画像には、前記シーケンスを構成する物体の前記積み重ね方向に沿った面の画像が含まれる。
【0127】
いくつかの可能な実施形態では、前記シーケンス中の少なくとも1つの物体は、シート状物体である。
【0128】
いくつかの可能な実施形態では、前記積み重ね方向は、前記シーケンス中のシート状物体の厚さ方向である。
【0129】
いくつかの可能な実施形態では、前記シーケンス中の少なくとも1つの物体は、前記積み重ね方向に沿った面に、色、模様及びパターンのうちの少なくとも1つを含む既定のマークを有する。
【0130】
いくつかの可能な実施形態では、前記被認識画像は、取得された画像から切り取ったものであり、前記被認識画像中の前記シーケンスの一端が前記被認識画像の1つのエッジと揃っている。
【0131】
いくつかの可能な実施形態では、前記認識モジュールは、更に、前記シーケンス中の少なくとも1つの物体のカテゴリーが認識された場合に、カテゴリーと前記カテゴリーの表す価値との間の対応関係により前記シーケンスの表す合計価値を特定するために用いられる。
【0132】
いくつかの可能な実施形態では、前記装置の機能は、前記特徴抽出モジュールの機能を実現する前記特徴抽出ネットワーク及び前記認識モジュールの機能を実現する前記第1の分類ネットワークを含むニューラルネットワークによって実現され、
前記特徴抽出モジュールは、
前記特徴抽出ネットワークを用いて前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを得るために用いられ、
前記認識モジュールは、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定するために用いられる。
【0133】
いくつかの可能な実施形態では、前記ニューラルネットワークは、前記少なくとも1つの第2の分類ネットワークを更に含み、前記第2の分類ネットワークも前記認識モジュールの機能を実現するものであり、前記第1の分類ネットワークにより前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体を分類する機構と、前記第2の分類ネットワークにより特徴マップに基づいてシーケンス中の少なくとも1つの物体を分類する機構は異なっており、前記方法は、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、を更に含む。
【0134】
いくつかの可能な実施形態では、前記認識モジュールは、更に、前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が同じである場合に、前記第1の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーと前記第2の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーを比較することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが同じである場合に、この予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが異なる場合に、高い予測確率の予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することとに用いられる。
【0135】
いくつかの可能な実施形態では、前記認識モジュールは、更に、前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が異なる場合に、前記第1の分類ネットワーク及び第2の分類ネットワークのうち、優先度が高い分類ネットワークにより予測された少なくとも1つの物体のカテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定するために用いられる。
【0136】
いくつかの可能な実施形態では、前記認識モジュールは、更に、前記第1の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第1の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第1の信頼度を得、前記第2の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第2の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第2の信頼度を得ることと、
前記第1の信頼度及び第2の信頼度のうちの高い値に対応する少なくとも1つの物体の予測カテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定することとに用いられる。
【0137】
いくつかの可能な実施形態では、前記装置は、前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを更に含み、前記トレーニングモジュールは、更に、
前記特徴抽出ネットワークを用いてサンプル画像に対する特徴抽出を行って、前記サンプル画像の特徴マップを得ることと、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第1のネットワーク損失を特定することと、
前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整することとに用いられる。
【0138】
いくつかの可能な実施形態では、前記ニューラルネットワークは少なくとも1つの第2の分類ネットワークを更に含み、前記トレーニングモジュールは、更に、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第2の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第2のネットワーク損失を特定することとに用いられ、
前記トレーニングモジュールは、更に、前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整する場合に、
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整するために用いられる。
【0139】
いくつかの可能な実施形態では、前記トレーニングモジュールは、前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整する場合に、前記第1のネットワーク損失及び第2のネットワーク損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整するために用いられる。
【0140】
いくつかの可能な実施形態では、前記装置は、同じシーケンスを有するサンプル画像を1つの画像群とするための群分けモジュールと、
前記画像群中のサンプル画像に対応する特徴マップの特徴中心を取得し、前記特徴中心は前記画像群中のサンプル画像の特徴マップの平均特徴であり、前記画像群中の前記サンプル画像の特徴マップと特徴中心との間の距離に基づいて、第3の予測損失を特定するための特定モジュールと、を更に含み、
前記トレーニングモジュールは、前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整する場合に、
前記第1のネットワーク損失、第2のネットワーク損失及び第3の予測損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整するために用いられる。
【0141】
いくつかの可能な実施形態では、前記第1の分類ネットワークは、時系列分類ニューラルネットワークである。
【0142】
いくつかの可能な実施形態では、前記第2の分類ネットワークは、注意機構のデコードネットワークである。いくつかの実施例では、本開示の実施例で提供される装置に備えた機能又は含まれるモジュールは、上記方法実施例に記載の方法を実行することに利用可能であり、その具体的な実施については上記方法実施例の説明を参照すればよく、簡略化するために、ここで割愛する。
【0143】
本開示の実施例は、コンピュータプログラムコマンドが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体を更に提供する。コンピュータ読み取り可能な記憶媒体は、非揮発性コンピュータ読み取り可能な記憶媒体であってもよい。
【0144】
本開示の実施例は、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサは、上記方法を実現するように構成される電子機器を更に提供する。
【0145】
電子機器は、端末、サーバ又は他の形態の装置として提供されてもよい。
【0146】
図10は本開示の実施例に係る電子機器のブロック図を示す。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってもよい。
【0147】
図10を参照すると、電子機器800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
【0148】
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、命令を実行して上記方法の全てまたは一部のステップを実行するための一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
【0149】
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどのあらゆるタイプの揮発性または非揮発性記憶装置またはそれらの組み合わせによって実現できる。
【0150】
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
【0151】
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび後面カメラは固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
【0152】
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、マイク(MIC)を含み、マイク(MIC)は電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成された。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
【0153】
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
【0154】
センサコンポーネント814は電子機器800の各方面での状態評価ために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成された近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
【0155】
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルによって外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標/BT)技術および他の技術によって実現できる。
【0156】
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
【0157】
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行されると、上記方法を実行させることができる。
【0158】
図11は本開示に基づいて実施された別の電子機器のブロック図を示す。例えば、電子機器1900はサーバとして提供されてもよい。
図11を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムはそれぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって、上記方法を実行するように構成される。
【0159】
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926、電子機器1900をネットワークに接続するように構成された有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
【0160】
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は電子機器1900の処理コンポーネント1922によって実行されると、上記方法を実行させることができる。
【0161】
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各方面を実現させるためのコンピュータ読み取り可能プログラム命令を有しているコンピュータ読み取り可能記憶媒体を含んでもよい。
【0162】
コンピュータ読み取り可能記憶媒体は命令実行装置により使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
【0163】
ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理装置にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理装置内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理装置内のコンピュータ読み取り可能記憶媒体に記憶させる。
【0164】
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
【0165】
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各方面を説明しが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できると理解すべきである。
【0166】
これらのコンピュータ読み取り可能プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現するように機械を製造してもよい。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。命令を記憶しているコンピュータ読み取り可能記憶媒体には、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現するための命令を有する製品を含む。
【0167】
コンピュータ読み取り可能プログラム命令はコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードし、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ことを実行させることにより、コンピュータにより実施されるプロセスを生成し、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令によりフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
【0168】
図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は、指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は図面に付した順序と異なって実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
【0169】
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
【0170】
本開示は、2019年9月27日に中国特許局に提出された、出願番号201910923116.5、発明の名称「積み重ね物体を認識する方法及び装置、電子機器並びに記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。
【手続補正書】
【提出日】2020-05-29
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
少なくとも1つの物体を積み重ね方向に沿って積み重ねたシーケンスを含む被認識画像を取得することと、
前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得することと、
前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識することと、を含むことを特徴とする積み重ね物体を認識する方法。
【請求項2】
前記被認識画像には、前記シーケンスを構成する物体の前記積み重ね方向に沿った面の画像が含まれ
、
前記シーケンス中の少なくとも1つの物体は、シート状物体であり、
前記積み重ね方向は、前記シーケンス中のシート状物体の厚さ方向であり、
前記シーケンス中の少なくとも1つの物体は、前記積み重ね方向に沿った面に、色、模様及びパターンのうちの少なくとも1つを含む既定のマークを有することを特徴とする請求項1に記載の方法。
【請求項3】
前記被認識画像は、取得された画像から切り取ったものであり、前記被認識画像中の前記シーケンスの一端が前記被認識画像の1つのエッジと揃っていることを特徴とする請求項1又は2に記載の方法。
【請求項4】
前記シーケンス中の少なくとも1つの物体のカテゴリーが認識された場合に、カテゴリーと前記カテゴリーの表す価値の間の対応関係により、前記シーケンスの表す合計価値を特定することを更に含むことを特徴とする請求項
1~3のいずれか一項に記載の方法。
【請求項5】
前記方法は、特徴抽出ネットワーク及び第1の分類ネットワークを含むニューラルネットワークによって実現され、
前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得することは、
前記特徴抽出ネットワークを用いて前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを得ることを含み、
前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識することは、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することを含むことを特徴とする請求項
1~4のいずれか一項に記載の方法。
【請求項6】
前記ニューラルネットワークは第2の分類ネットワークを更に含み、前記第1の分類ネットワークにより前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体を分類する機構と、前記第2の分類ネットワークにより特徴マップに基づいてシーケンス中の少なくとも1つの物体を分類する機構は異なっており、前記方法は、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、を更に含むことを特徴とする請求項
5に記載の方法。
【請求項7】
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することは、
前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が同じであることに応じて、前記第1の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーと前記第2の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーを比較することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが同じである場合に、この予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが異なる場合に、高い予測確率の予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することと、を含み、及び/又は、
前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が異なることに応じて、前記第1の分類ネットワーク及び第2の分類ネットワークのうち、優先度が高い分類ネットワークにより予測された少なくとも1つの物体のカテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定することを更に含み、及び/又は、
前記第1の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第1の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第1の信頼度を得、前記第2の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第2の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第2の信頼度を得ることと、
前記第1の信頼度及び第2の信頼度のうちの高い値に対応する物体の予測カテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定することと、を含むことを特徴とする請求項
6に記載の方法。
【請求項8】
前記ニューラルネットワークをトレーニングするプロセスは、
前記特徴抽出ネットワークを用いてサンプル画像に対する特徴抽出を行って、前記サンプル画像の特徴マップを得ることと、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第1のネットワーク損失を特定することと、
前記第1のネットワーク損失に基づいて、前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項
6又は7に記載の方法。
【請求項9】
前記ニューラルネットワークは少なくとも1つの第2の分類ネットワークを更に含み、前記ニューラルネットワークをトレーニングするプロセスは、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第2の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第2のネットワーク損失を特定することと、を更に含み、
前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整することは、
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整することを含むことを特徴とする請求項8に記載の方法。
【請求項10】
同じシーケンスを有するサンプル画像を1つの画像群とすることと、
前記画像群中のサンプル画像に対応する特徴マップの特徴中心を取得することであって、前記特徴中心は前記画像群中のサンプル画像の特徴マップの平均特徴であることと、
前記画像群中の前記サンプル画像の特徴マップと特徴中心との間の距離に基づいて、第3の予測損失を特定することと、を更に含み、
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整することは、
前記第1のネットワーク損失、第2のネットワーク損失及び第3の予測損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整することを含むことを特徴とする請求項9に記載の方法。
【請求項11】
少なくとも1つの物体を積み重ね方向に沿って積み重ねたシーケンスを含む被認識画像を取得するための取得モジュールと、
前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを取得するための特徴抽出モジュールと、
前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体のカテゴリーを認識するための認識モジュールと、を含むことを特徴とする積み重ね物体を認識する装置。
【請求項12】
前記被認識画像は、取得された画像から切り取ったものであり、前記被認識画像中の前記シーケンスの一端が前記被認識画像の1つのエッジと揃っていることを特徴とする請求項11に記載の装置。
【請求項13】
前記認識モジュールは、更に、前記シーケンス中の少なくとも1つの物体のカテゴリーが認識された場合に、カテゴリーと前記カテゴリーの表す価値の間の対応関係により、前記シーケンスの表す合計価値を特定するために用いられることを特徴とする請求項11又は12に記載の装置。
【請求項14】
前記装置の機能は、前記特徴抽出モジュールの機能を実現する前記特徴抽出ネットワーク、及び前記認識モジュールの機能を実現する前記第1の分類ネットワークを含むニューラルネットワークによって実現され、
前記特徴抽出モジュールは、
前記特徴抽出ネットワークを用いて前記被認識画像に対する特徴抽出を行って、前記被認識画像の特徴マップを得るために用いられ、
前記認識モジュールは、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定するために用いられることを特徴とする請求項11~13のいずれか一項に記載の装置。
【請求項15】
前記ニューラルネットワークは、第2の分類ネットワークを更に含み、第2の分類ネットワークも前記認識モジュールの機能を実現するためのものであり、前記第1の分類ネットワークにより前記特徴マップに基づいて前記シーケンス中の少なくとも1つの物体を分類する機構と、前記第2の分類ネットワークにより特徴マップに基づいてシーケンス中の少なくとも1つの物体を分類する機構は異なっており、前記認識モジュールは、更に、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリー及び前記第2の分類ネットワークにより特定された前記シーケンス中の少なくとも1つの物体のカテゴリーに基づいて、前記シーケンス中の少なくとも1つの物体のカテゴリーを特定することとに用いられることを特徴とする請求項14に記載の装置。
【請求項16】
前記認識モジュールは、更に、
前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が同じである場合に、前記第1の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーと前記第2の分類ネットワークにより得られた少なくとも1つの物体のカテゴリーを比較することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが同じである場合に、この予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することと、
前記第1の分類ネットワークと第2の分類ネットワークによる同一物体の予測カテゴリーが異なる場合に、高い予測確率の予測カテゴリーを前記同一物体に対応するカテゴリーとして特定することとに用いられ、及び/又は、
前記第1の分類ネットワークにより得られた物体のカテゴリーの数と前記第2の分類ネットワークにより得られた物体のカテゴリーの数が異なる場合に、前記第1の分類ネットワーク及び第2の分類ネットワークのうち、優先度が高い分類ネットワークにより予測された少なくとも1つの物体のカテゴリーを、前記シーケンス中の少なくとも1つの物体のカテゴリーとして特定するために用いられ、及び/又は、
前記第1の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第1の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第1の信頼度を得、前記第2の分類ネットワークによる少なくとも1つの物体の予測カテゴリーの予測確率の積に基づいて、前記第2の分類ネットワークによる前記シーケンス中の少なくとも1つの物体の予測カテゴリーの第2の信頼度を得ることと、
前記第1の信頼度及び第2の信頼度のうちの高い値に対応する物体の予測カテゴリーを、前記シーケンスうちの少なくとも1つの物体のカテゴリーとして特定することとに用いられることを特徴とする請求項15に記載の装置。
【請求項17】
前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを更に含み、
前記トレーニングモジュールは、
前記特徴抽出ネットワークを用いてサンプル画像に対する特徴抽出を行って、前記サンプル画像の特徴マップを得ることと、
前記第1の分類ネットワークを用いて、前記特徴マップに基づいて、前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第1の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第1のネットワーク損失を特定することと、
前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整することとに用いられることを特徴とする請求項15又は16に記載の装置。
【請求項18】
前記ニューラルネットワークは少なくとも1つの第2の分類ネットワークを更に含み、前記トレーニングモジュールは、更に、
前記第2の分類ネットワークを用いて前記特徴マップに基づいて、前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体の予測カテゴリーを特定することと、
前記第2の分類ネットワークにより特定された前記少なくとも1つの物体の予測カテゴリー、及び前記サンプル画像中の、前記シーケンスを構成する少なくとも1つの物体のラベリングカテゴリーに基づいて、第2のネットワーク損失を特定することとに用いられ、
前記トレーニングモジュールは、前記第1のネットワーク損失に基づいて前記特徴抽出ネットワーク及び前記第1の分類ネットワークのネットワークパラメータを調整する場合に、
前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整するために用いられることを特徴とする請求項17に記載の装置。
【請求項19】
同じシーケンスを有するサンプル画像を1つの画像群とするための群分けモジュールと、
前記画像群中のサンプル画像に対応する特徴マップの特徴中心を取得し、前記特徴中心は前記画像群中のサンプル画像の特徴マップの平均特徴であり、前記画像群中の前記サンプル画像の特徴マップと特徴中心との間の距離に基づいて、第3の予測損失を特定するための特定モジュールと、を更に含み、
前記トレーニングモジュールは、前記第1のネットワーク損失、前記第2のネットワーク損失に基づいて、前記特徴抽出ネットワークのネットワークパラメータ、前記第1の分類ネットワークのネットワークパラメータ及び前記第2の分類ネットワークのネットワークパラメータをそれぞれ調整する場合に、
前記第1のネットワーク損失、第2のネットワーク損失及び第3の予測損失の加重和を用いてネットワーク損失を得て、トレーニング要求を満たすまで、前記ネットワーク損失に基づいて前記特徴抽出ネットワーク、第1の分類ネットワーク及び第2の分類ネットワークのパラメータを調整するために用いられることを特徴とする請求項18に記載の装置。
【請求項20】
プロセッサと、
プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されているコマンドを呼び出して請求項1~10のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。
【請求項21】
コンピュータプログラムコマンドが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムコマンドはプロセッサにより実行されると、請求項1~10のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項22】
コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードが電子機器上で作動すると、前記電子機器におけるプロセッサに請求項1~10のいずれか一項に記載の方法を実行させるコンピュータプログラム。
【国際調査報告】