IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 阿波▲羅▼智▲聯▼(北京)科技有限公司の特許一覧

特開2022-78310画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム
<>
  • 特開-画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム 図1
  • 特開-画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム 図2
  • 特開-画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム 図3
  • 特開-画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム 図4
  • 特開-画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム 図5
  • 特開-画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム 図6
  • 特開-画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム 図7
  • 特開-画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム 図8
  • 特開-画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022078310
(43)【公開日】2022-05-24
(54)【発明の名称】画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220517BHJP
【FI】
G06T7/00 350B
【審査請求】有
【請求項の数】23
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2022041131
(22)【出願日】2022-03-16
(31)【優先権主張番号】202110620624.3
(32)【優先日】2021-06-03
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】521208273
【氏名又は名称】阿波▲羅▼智▲聯▼(北京)科技有限公司
【氏名又は名称原語表記】APOLLO INTELLIGENT CONNECTIVITY(BEIJING)TECHNOLOGY CO.,LTD.
【住所又は居所原語表記】101, 1st Floor, Building 1, Yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【弁理士】
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】シャ チュンロン
(57)【要約】      (修正有)
【課題】モデルの学習能力を高めることができる画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置及びクラウド制御プラットフォームを提供する。
【解決手段】画像分類モデル生成方法は、目標画像と、目標画像の第1のカテゴリと、目標画像の、第1のカテゴリよりもレベルが低い第2のカテゴリとを取得するステップと、目標画像の第1のカテゴリの予測確率を確定するステップと、目標画像及び第1のカテゴリと、目標画像、第1のカテゴリの予測確率及び第2のカテゴリとを用いてトレーニングして画像分類モデルを得るステップと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
目標画像と、前記目標画像の第1のカテゴリと、前記目標画像の、前記第1のカテゴリよりもレベルが低い第2のカテゴリとを取得するステップと、
前記目標画像の第1のカテゴリの予測確率を確定するステップと、
前記目標画像および前記第1のカテゴリ、並びに、前記目標画像、前記第1のカテゴリの予測確率、および前記第2のカテゴリを用いてトレーニングを実行し、画像分類モデルを取得するステップと、
を含む、画像分類モデル生成方法。
【請求項2】
目標画像と、前記目標画像の第1のカテゴリと、第2のカテゴリとを取得するステップは、
前記目標画像を取得するステップと、
前記目標画像の第1のカテゴリを取得するステップと、
前記目標画像の第1のカテゴリと前記目標画像とに基づいて、前記目標画像の第2のカテゴリを確定するステップと、
を含む、請求項1に記載の画像分類モデル生成方法。
【請求項3】
前記第1のカテゴリと前記目標画像とに基づいて、前記目標画像の第2のカテゴリを確定するステップは、
前記第1のカテゴリに基づいて、予め設定された画像ライブラリから、前記第1のカテゴリに対応するすべての画像を取得するステップと、
前記目標画像に基づいて、前記第1のカテゴリに対応するすべての画像から、前記目標画像とマッチングする画像を取得するステップと、
前記目標画像とマッチングする画像の第2のカテゴリを、前記目標画像の第2のカテゴリとして確定するステップと、
を含む、請求項2に記載の画像分類モデル生成方法。
【請求項4】
前記画像分類モデルは、第1の分類ネットワーク層を含み、
前記目標画像の第1のカテゴリの予測確率を確定するステップは、
前記目標画像を前記第1の分類ネットワーク層に入力して、前記目標画像の第1のカテゴリの予測確率を得るステップを含む、
請求項1~3のいずれか1項に記載の画像分類モデル生成方法。
【請求項5】
前記画像分類モデルは、第2の分類ネットワーク層をさらに含み、
前記目標画像および前記第1のカテゴリ、並びに、前記目標画像、前記第1のカテゴリの予測確率、および前記第2のカテゴリを用いてトレーニングを実行し、画像分類モデルを取得するステップは、
前記目標画像を前記第1の分類ネットワーク層の入力とし、前記第1のカテゴリを前記第1の分類ネットワーク層の所望出力とし、前記目標画像および前記第1のカテゴリのカテゴリ予測確率を前記第2の分類ネットワーク層の入力とし、前記第2のカテゴリを前記第2の分類ネットワーク層の所望出力とし、機械学習モデルをトレーニングして、画像分類モデルを取得するステップを含む、
請求項4に記載の画像分類モデル生成方法。
【請求項6】
前記第2のカテゴリのカテゴリ数は、すべての第2のカテゴリの中で最大のカテゴリ数であり、
前記第1のカテゴリは、すべての第2のカテゴリを含む、
請求項1~5のいずれか1項に記載の画像分類モデル生成方法。
【請求項7】
前記第1のカテゴリは親カテゴリであり、第2のカテゴリは子カテゴリである、
請求項1~6のいずれか1項に記載の画像分類モデル生成方法。
【請求項8】
分類対象画像を取得するステップと、
前記分類対象画像の画像特徴を、請求項1~7のいずれか1項に記載の画像分類モデルに入力して、前記分類対象画像に対応する第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率を取得するステップと、
前記第3のカテゴリのカテゴリ確率と前記第4のカテゴリのカテゴリ確率とに基づいて、前記分類対象画像のターゲットカテゴリを確定するステップとを含む、画像分類方法。
【請求項9】
前記分類対象画像の画像特徴を、請求項1~7のいずれか1項に記載の画像分類モデルに入力して、前記分類対象画像に対応する第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率を取得するステップは、
前記分類対象画像の画像特徴を前記画像分類モデルの第1の分類ネットワーク層に入力して、前記分類対象画像に対応する第3のカテゴリのカテゴリ確率を取得するステップと、
前記第3のカテゴリのカテゴリ確率および前記分類対象画像の画像特徴を前記画像分類モデルの第2の分類ネットワーク層に入力して、前記第4のカテゴリのカテゴリ確率を取得するステップと、
を含む、請求項8に記載の画像分類方法。
【請求項10】
目標画像と、前記目標画像の第1のカテゴリと、前記目標画像の、前記第1のカテゴリよりもレベルが低い第2のカテゴリとを取得するように構成される画像取得モジュールと、
前記目標画像の第1のカテゴリの予測確率を確定するように構成される確率確定モジュールと、
前記目標画像および前記第1のカテゴリ、並びに、前記目標画像、前記第1のカテゴリの予測確率、および前記第2のカテゴリを用いてトレーニングを実行し、画像分類モデルを取得するように構成されるモデルトレーニングモジュールと、
を備える、画像分類モデル生成装置。
【請求項11】
前記画像取得モジュールは、
前記目標画像を取得し、さらに、前記目標画像の第1のカテゴリを取得するように構成されるカテゴリ取得ユニットと、
前記目標画像の第1のカテゴリと前記目標画像とに基づいて、前記目標画像の第2のカテゴリを確定するように構成されるカテゴリ確定ユニットと、を備える、請求項10に記載の画像分類モデル生成装置。
【請求項12】
前記カテゴリ確定ユニットは、
前記第1のカテゴリに基づいて、予め設定された画像ライブラリから、前記第1のカテゴリに対応するすべての画像を取得し、
前記目標画像に基づいて、前記第1のカテゴリに対応するすべての画像から、前記目標画像とマッチングする画像を取得し、
前記目標画像とマッチングする画像の第2のカテゴリを、前記目標画像の第2のカテゴリとして確定するようにさらに構成される、
請求項11に記載の画像分類モデル生成装置。
【請求項13】
前記画像分類モデルは、第1の分類ネットワーク層を含み、
前記確率確定モジュールは、前記目標画像を前記第1の分類ネットワーク層に入力して、前記目標画像の第1のカテゴリの予測確率を得るようにさらに構成される、
請求項10~12のいずれか1項に記載の画像分類モデル生成装置。
【請求項14】
前記画像分類モデルは、第2の分類ネットワーク層をさらに含み、
前記モデルトレーニングモジュールは、前記目標画像を前記第1の分類ネットワーク層の入力とし、前記第1のカテゴリを前記第1の分類ネットワーク層の所望出力とし、前記目標画像および前記第1のカテゴリの予測確率を前記第2の分類ネットワーク層の入力とし、前記第2のカテゴリを前記第2の分類ネットワーク層の所望出力とし、機械学習モデルをトレーニングして、画像分類モデルを取得するようにさらに構成される、
請求項13に記載の画像分類モデル生成装置。
【請求項15】
前記第2のカテゴリのカテゴリ数は、すべての第2のカテゴリの中で最大のカテゴリ数であり、
前記第1のカテゴリは、すべての第2のカテゴリを含む、
請求項10~14のいずれか1項に記載の画像分類モデル生成装置。
【請求項16】
前記第1のカテゴリは親カテゴリであり、第2のカテゴリは子カテゴリである、
請求項10~15のいずれか1項に記載の画像分類モデル生成装置。
【請求項17】
分類対象画像を取得するように構成される画像取得モジュールと、
前記分類対象画像の画像特徴を、請求項1~7のいずれか1項に記載の画像分類モデルに入力して、前記分類対象画像に対応する第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率を取得するように構成される確率取得モジュールと、
前記第3のカテゴリのカテゴリ確率と前記第4のカテゴリのカテゴリ確率とに基づいて、前記分類対象画像のターゲットカテゴリを確定するように構成されるカテゴリ確定モジュールと、
を備える、画像分類装置。
【請求項18】
前記確率取得モジュールは、
前記分類対象画像の画像特徴を前記画像分類モデルの第1の分類ネットワーク層に入力して、前記分類対象画像に対応する第3のカテゴリのカテゴリ確率を取得し、前記第3のカテゴリのカテゴリ確率および前記分類対象画像の画像特徴を前記画像分類モデルの第2の分類ネットワーク層に入力して、前記第4のカテゴリのカテゴリ確率を取得するようにさらに構成される、
請求項17に記載の画像分類装置。
【請求項19】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~7のいずれか1項に記載の画像分類モデル生成方法または請求項8または9に記載の画像分類方法が実行される、電子機器。
【請求項20】
コンピュータに請求項1~7のいずれか1項に記載の画像分類モデル生成方法または請求項8または9に記載の画像分類方法を実行させるためのコンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体。
【請求項21】
プロセッサによって実行されるとき、請求項1~7のいずれか1項に記載の画像分類モデル生成方法または請求項8または9に記載の画像分類方法を実施するコンピュータプログラム。
【請求項22】
請求項19に記載の電子機器を備える路側装置。
【請求項23】
請求項19に記載の電子機器を備えるクラウド制御プラットフォーム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願の実施例は、コンピュータ分野に関し、詳しくは、高度道路交通、深層学習、およびコンピュータビジョンなどの人工知能分野に関し、特に、画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置(roadside device)、およびクラウド制御プラットフォームに関するものである。
【背景技術】
【0002】
画像分類はコンピュータビジョンの基本的なタスクの1つとして、すでに広く研究され、エキサイティングな結果を出している。しかし、きめ細かい分類のような要件の高い一部のタスクに対して、予測されるカテゴリの数を増やすだけでタスクを実行するための基本モデルは、十分とは言えない。そのため、いくつかの細かい分類方法が生まれたが、これらの方法の一部は、検出またはセグメンテーションなどの対策によって、より細分化された分類特徴を取得している。
【発明の概要】
【0003】
本出願の実施例は、画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置、およびクラウド制御プラットフォームを提供する。
【0004】
第1の態様において、本出願の実施例は、目標画像と、目標画像の第1のカテゴリと、目標画像の、第1のカテゴリよりもレベルが低い第2のカテゴリとを取得するステップと、目標画像の第1のカテゴリの予測確率を確定するステップと、目標画像および第1のカテゴリと、目標画像、第1のカテゴリの予測確率および第2のカテゴリとを用いてトレーニングを実行し、画像分類モデルを得るステップと、を含む画像分類モデル生成方法を提供する。
【0005】
第2の態様において、本出願の実施例は、分類対象画像を取得するステップと、分類対象画像の画像特徴を、第1の態様に記載の画像分類モデルに入力して、分類対象画像に対応する第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率を取得するステップと、第3のカテゴリのカテゴリ確率と第4のカテゴリのカテゴリ確率とに基づいて、分類対象画像のターゲットカテゴリを確定するステップとを含む画像分類方法を提供する。
【0006】
第3の態様において、本出願の実施例は、目標画像と、目標画像の第1のカテゴリと、目標画像の、第1のカテゴリよりもレベルが低い第2のカテゴリとを取得するように構成される画像取得モジュールと、目標画像の第1のカテゴリの予測確率を確定するように構成される確率確定モジュールと、目標画像および第1のカテゴリと、目標画像、第1のカテゴリの予測確率、および第2のカテゴリとを用いてトレーニングを実行し、画像分類モデルを取得するように構成されるモデルトレーニングモジュールと、を備える画像分類モデル生成装置を提供する。
【0007】
第4の態様において、本出願の実施例は、分類対象画像を取得するように構成される画像取得モジュールと、分類対象画像の画像特徴を、第1の態様に記載の画像分類モデルに入力して、分類対象画像に対応する第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率を取得するように構成される確率取得モジュールと、第3のカテゴリのカテゴリ確率と第4のカテゴリのカテゴリ確率とに基づいて、分類対象画像のターゲットカテゴリを確定するように構成されるカテゴリ確定モジュールとを備える画像分類装置を提供する。
【0008】
第5の態様において、本出願の実施例は、少なくとも一つのプロセッサと、少なくとも一つのプロセッサに通信可能に接続されるメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1の態様または第2の態様に記載の方法が実行される電子機器を提供する。
【0009】
第6の態様において、本出願の実施例は、コンピュータに第1の態様に記載の画像分類モデル生成方法または第2の態様に記載の画像分類方法を実行させるためのコンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体を提供する。
【0010】
第7の態様において、本出願の実施例は、プロセッサによって実行されると、第1の態様または第2の態様に記載の方法を実施するコンピュータプログラムを提供する。
【0011】
第8の態様において、本出願は、第5の態様に記載の電子機器を備える路側装置を提供する。
【0012】
第9の態様において、本出願は、第5の態様に記載の電子機器を備えるクラウド制御プラットフォームを提供する。
【0013】
本出願の実施例により提供される、画像分類モデル生成方法、路側装置およびクラウド制御プラットフォームは、最初に、目標画像と、目標画像の第1のカテゴリと、目標画像の、第1のカテゴリよりもレベルが低い第2のカテゴリとを取得し、次に、目標画像の第1のカテゴリの予測確率を確定し、最後に、目標画像および第1のカテゴリと、目標画像、第1のカテゴリの予測確率および第2のカテゴリとを用いてトレーニングを実行し、画像分類モデルを得る。目標画像および第1のカテゴリと、目標画像、前記第1のカテゴリの予測確率、および第2のカテゴリとを用いてトレーニングを実行し、画像分類モデルを得ることができる。それにより、第1のカテゴリを学習した後に第1のカテゴリと目標画像とに基づいて第2のカテゴリを確定することができ、該画像分類モデルはファジーからファインへのプロセスがあり、モデルの学習能力を高めることができる。
【0014】
本明細書により説明される内容は、本出願の実施例のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもないことを理解すべきである。本出願のその他の特徴は、以下の明細書の説明を通じて容易に理解されるようになる。
【図面の簡単な説明】
【0015】
以下、添付図面を参照し、非限定的な実施例に対する詳細な説明を閲読することにより、本出願のその他の特徴、目的および利点がより明確になる。
図面は本技術的手段をよく理解するためのものであって、本出願を限定するためのものではない。
図1】本出願が適用可能な例示的なシステムアーキテクチャを示す図である。
図2】本出願による画像分類モデル生成方法の一実施例のフローチャートである。
図3】本出願による画像分類モデル生成方法の一実施例のフローチャートである。
図4】本出願による画像分類モデル生成方法の一実施例のフローチャートである。
図5】本出願による画像分類方法の一実施例のフローチャートである。
図6】本出願による画像分類方法の応用シーンの概略図である。
図7】本出願による画像分類モデル生成装置の一実施例の概略図である。
図8】本出願による画像分類モデル生成装置の一実施例の概略図である。
図9】本出願の実施例を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0016】
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を助けるために本出願の実施例の様々な詳細が含まれており、それらは単なる例示的なものとして見なされるべきである。従って、当業者は、本出願の範囲および精神から逸脱することなく、説明された実施例に対して様々な変更および修正を行うことができることを理解すべきである。同様に、明確かつ簡潔にするために、以下の説明では周知の機能および構成の説明は省略する。
【0017】
また、本出願における実施例および実施例における特徴は、矛盾が生じない限り、互いに組み合わせ可能であることである。以下、添付図面を参照し、実施例を組み合わせて本出願を詳細に説明する。
【0018】
図1は、本出願の画像分類モデル生成方法および装置または画像分類方法および装置の実施例を適用することができる例示的なシステムアーキテクチャー100を示している。
【0019】
図1に示されるように、システムアーキテクチャー100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間に通信リンクを提供するための媒体として使用される。ネットワーク104は、例えば、有線、無線通信リンクまたは光ファイバーケーブルなど様々な接続タイプを含んでもよい。
【0020】
ユーザは、端末装置101、102、103を使用し、ネットワーク104を介してサーバ105とやりとりして、目標画像並びに目標画像の第1のカテゴリおよび第2のカテゴリなどを送受信することができる。端末装置101、102、103には、例えば、ビデオ関連ソフトウェア、画像関連ソフトウェア、画像処理アプリケーションなどの様々なクライアントアプリケーション、インテリジェントインタラクションアプリケーションがインストールされていてもよい。
【0021】
端末装置101、102、103は、ハードウェアであってもよく、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、端末装置は、キーボード、タッチパッド、ディスプレイ、タッチスクリーン、リモコン、音声対話または手書きデバイスなどの1つまたは複数の方法を介してユーザとインタラクションを行う電子製品であってもよく、例えばPC(Personal Computer、パーソナルコンピュータ)、携帯電話、スマートフォン、PDA(Personal Digital Assistant、パーソナルデジタルアシスタント)、ウェアラブルデバイス、PPC(Pocket PC、ポケットパソコン)、タブレットコンピュータ、インテリジェント車載機器、スマートテレビ、スマートスピーカー、ラップトップポータブルコンピュータ、デスクトップコンピュータなどである。端末装置101、102、103がソフトウェアである場合は、上記電子機器にインストールされてもよい。これは、複数のソフトウェアまたはソフトウェアモジュールとして実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは、具体的な限定をしない。
【0022】
サーバ105は、様々なサービスを提供することができる。例えば、サーバ105は、端末装置101、102、103上で、目標画像、目標画像の第1のカテゴリおよび第2のカテゴリを取得し、その後、目標画像の第1のカテゴリの予測確率を確定し、目標画像および第1のカテゴリと、目標画像、第1のカテゴリの予測確率および第2のカテゴリとを用いてトレーニングして、画像分類モデルを得ることができる。
【0023】
サーバ105はハードウェアであってもよく、ソフトウェアであってもよいことに注意されたい。サーバ105がハードウェアの場合、複数のサーバからなる分散型サーバクラスタとして実施されてもよく、単一のサーバとして実施されてもよい。サーバ105がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実施されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実施されてもよい。ここでは、具体的な限定をしない。
【0024】
なお、本出願の実施例による画像分類モデル生成方法または画像分類方法は一般的にサーバ105によって実行され、それに応じて、画像分類モデル生成装置または画像分類装置は一般的にサーバ105に設けられる。
【0025】
図1における端末装置、ネットワークおよびサーバの数は単なる例示的なものであることを理解すべきである。実施の必要に応じて、任意の数の端末装置、ネットワークおよびサーバを有することができる。
【0026】
続けて図2を参照し、図2は、本出願による画像分類モデル生成方法の一実施例のフローチャート200を示す。当該画像分類モデル生成方法は、以下のステップを含んでもよい。
【0027】
ステップ201では、目標画像、目標画像の第1のカテゴリおよび目標画像の第2のカテゴリを取得する。
【0028】
本実施例では、画像分類モデルを生成する実行主体(例えば、図1に示す端末装置101、102、103)は、ローカルまたは遠隔的に目標画像を取得し、例えば、撮影装置によって目標画像を撮影し、前記撮影装置は端末装置のカメラまたは外部の撮像装置であってもよく、または、画像分類モデル生成方法の実行主体(例えば、図1に示すサーバ105)は、ローカルからまたは端末装置(例えば、図1に示す端末装置101、102、103)から目標画像を取得し、その後、目標画像の第1のカテゴリおよび第2のカテゴリを取得する。選択的に、目標画像、目標画像の第1のカテゴリおよび第2のカテゴリは同時に取得されてもよい。
【0029】
前記第1のカテゴリおよび第2のカテゴリの数は複数であってもよく、「第1」および「第2」は、第1のカテゴリと第2のカテゴリを区別するためのみに使用され、第1のカテゴリおよび第2のカテゴリの数および順序を限定するためのものではない。
【0030】
ここで、第1のカテゴリのレベルは第2のカテゴリのレベルよりも高くてもよく、第1のカテゴリは少なくとも1つの第2のカテゴリを含んでもよい。前記第1のカテゴリは、複数のタイプを含み得、第2のカテゴリよりも高いレベルを有するあらゆるカテゴリであり得る。前記第2のカテゴリは、複数のタイプを含み得る。
【0031】
第1のカテゴリは、複数の画像をクラスタリングすることによって取得した複数のカテゴリであってもよいことに留意されたい。
【0032】
ステップ202では、目標画像の第1のカテゴリの予測確率を確定する。
【0033】
本実施例では、前記実行主体は、目標画像を画像分類モデルの第1の分類ネットワーク層に入力して、第1のカテゴリの予測確率を取得するか、または、目標画像を関連技術の他の分類モデルに入力して、予測確率を取得することができる。
【0034】
本実施例では、目標画像を画像分類モデルに入力して、目標画像の第1のカテゴリの予測確率を取得することができる。
【0035】
ステップ203では、目標画像および第1のカテゴリ、並びに、目標画像、第1のカテゴリの予測確率、および第2のカテゴリを用いてトレーニングして、画像分類モデルを得る。
【0036】
具体的には、前記実行主体は、目標画像および第1のカテゴリ、並びに、目標画像および第2のカテゴリを取得した後、目標画像および第1のカテゴリ、並びに、目標画像、第1のカテゴリの予測確率、および第2のカテゴリを用いて機械学習モデルをトレーニングして、画像分類モデルを得ることができる。前記機械学習モデルは、従来技術または将来に開発される技術における確率モデル、分類モデル、または他の分類器などあり得、例えば、機械学習モデルには、決定木モデル(XGBoost)、ロジスティック回帰モデル(LR)、ディープニューラルネットワークモデル(DNN)、勾配ブースティング決定木(Gradient Boosting Decision Tree: GBDT)モデルのいずれかを含んでもよい。前記画像分類モデルは、マルチタスク学習モデルであってもよい。
【0037】
一例では、画像分類モデルをトレーニングするステップは次のとおりである。
入力は、トレーニングデータおよびlabel、出力は保存されたモデルである。
ステップ1では、図2に従って、ネットワークモデルおよび初期化パラメーターを構築し、次のプロセスを繰り返して実行する。
ステップ2では、データを一括してモデルに入力して、順方向伝播を行う。
ステップ3では、ステップ2で取得した出力とlabel(ラベル、即ちカテゴリ)との間の誤差を計算する。
ステップ4では、勾配を誤差逆伝播させて重みを更新する。
ステップ5では、保存条件を満たすか否かを判断し、満たす場合、今回のモデルを保存する。
【0038】
画像分類モデルをトレーニングした後、テストプロセスに入り、テストプロセスは次のとおりである。ステップ1では、トレーニングして保存されたモデルを順次ロードする。ステップ2では、推論対象データをモデルに入力する。ステップ3では、モデルの結果を出力する。ステップ4では、1回目の予測である場合またはモデルの結果が既存の保存された結果よりも優れている場合、最終結果を今回のテストモデルおよび結果に置き換える。
【0039】
なお、本実施例では、第1のカテゴリおよび第2のカテゴリを共に用いて、画像の正確な分類を達成できる。
【0040】
本出願の実施例により提供される画像分類モデル生成方法は、まず、目標画像、目標画像の第1のカテゴリおよび目標画像の第2のカテゴリを取得し、うち、第1のカテゴリのレベルが第2のカテゴリよりも高い。次に、目標画像の第1のカテゴリの予測確率を確定する。最後に、目標画像および第1のカテゴリ、並びに、目標画像、第1のカテゴリの予測確率および第2のカテゴリを用いてトレーニングして、画像分類モデルを得る。目標画像および第1のカテゴリ、並びに、目標画像、第1のカテゴリの予測確率、および第2のカテゴリを用いてトレーニングして、画像分類モデルを得ることができる。それにより、第1のカテゴリを学習した後に、第1のカテゴリと目標画像とに基づいて第2のカテゴリを確定することができ、該画像分類モデルはファジーからファインへのプロセスがあり、モデルの学習能力が向上された。
【0041】
本実施例のいくつかのオプション的な実施形態では、目標画像、目標画像の第1のカテゴリおよび目標画像の第2のカテゴリを取得するステップは、目標画像を取得するステップと、目標画像の第1のカテゴリを取得するステップと、第1のカテゴリと目標画像とに基づいて、目標画像の第2のカテゴリを確定するステップとを含む。
【0042】
この例において、目標画像の第1のカテゴリを取得するステップは、手動によるアノテーションまたはモデル出力のステップを含んでもよい。
【0043】
この例において、第1のカテゴリと目標画像とに基づいて、目標画像の第2のカテゴリを確定するステップは、カテゴリが第1のカテゴリである画像を分類して、第2のカテゴリを得るステップを含んでもよい。前記第1のカテゴリおよび第2のカテゴリの数は複数であってもよく、「第1」および「第2」は、第1のカテゴリと第2のカテゴリを区別するのみに使用され、第1のカテゴリおよび第2のカテゴリの数および順序を限定するためのものではない。
【0044】
ここで、第1のカテゴリのレベルは第2のカテゴリのレベルよりも高くてもよく、第1のカテゴリは少なくとも1つの第2のカテゴリを含んでもよい。前記第1のカテゴリは、複数のタイプを含み得、第2のカテゴリよりも高いレベルを有するあらゆるカテゴリであり得る。前記第2のカテゴリは、複数のタイプを含み得る。
【0045】
本実施形態では、第2のカテゴリは、複数の子カテゴリをさらに含んでもよく、例えば、第2のカテゴリは、第3のカテゴリ1、第3のカテゴリ2、第3のカテゴリ3などをさらに含んでもよい。ここで、第3のカテゴリ1、第3のカテゴリ2、第3のカテゴリ3のレベルは第2のカテゴリよりも低い。
【0046】
第2のカテゴリのさらなる分類は、画像分類の精度またはユーザのニーズに応じて設定されてもよいことに留意されたい。
【0047】
本実施形態では、第1のカテゴリと第2のカテゴリを分類することにより、第1のカテゴリと第2のカテゴリとの間の階層関係をさらに確立して、画像のカテゴリ特徴を十分にマイニングすることができる。
【0048】
本実施例のいくつかのオプション的な実施形態では、第1のカテゴリと目標画像とに基づいて、目標画像の第2のカテゴリを確定するステップは、第1のカテゴリに基づいて、予め設定された画像ライブラリから、第1のカテゴリに対応するすべての画像を取得するステップと、目標画像に基づいて、第1のカテゴリに対応するすべての画像から、目標画像とマッチングする画像を取得するステップと、目標画像とマッチングする画像の第2のカテゴリを、目標画像の第2のカテゴリとして確定するステップとを含んでもよい。
【0049】
本実施例において、前記実行主体は、第1のカテゴリに基づいて、予め設定された画像ライブラリから、第1のカテゴリに対応するすべての画像を取得し、目標画像に基づいて、第1のカテゴリに対応するすべての画像から、目標画像とマッチングする画像を取得し、目標画像とマッチングする画像の第2のカテゴリを、目標画像の第2のカテゴリとして確定することができる。
【0050】
本実施形態において、前記実行主体は、第1のカテゴリおよび目標画像に基づいて、目標画像の第2のカテゴリを確定することができる。
【0051】
本実施例のいくつかのオプション的な実施形態では、画像分類モデルは、第1の分類ネットワーク層を含み得、目標画像の第1のカテゴリの予測確率を確定するステップは、目標画像を第1の分類ネットワーク層に入力して、目標画像の第1のカテゴリの予測確率を取得するステップを含み得る。
【0052】
本実施形態では、画像分類モデルの第1の分類ネットワーク層を介して、第1のカテゴリの予測確率を確定する。
【0053】
本実施例のいくつかのオプション的な実施形態において、画像分類モデルは第2の分類ネットワーク層をさらに備え、目標画像および第1のカテゴリ、並びに、目標画像、第1のカテゴリの予測確率、および第2のカテゴリを用いてトレーニングして、画像分類モデルを取得するステップは、目標画像を第1の分類ネットワーク層の入力とし、第1のカテゴリを第1の分類ネットワーク層の所望出力とする(つまり、真の値またはlabelを出力する)ステップと、目標画像および第1のカテゴリの予測確率を第2の分類ネットワーク層の入力とし、第2のカテゴリを第2の分類ネットワーク層の所望出力とし、機械学習モデルをトレーニングして、画像分類モデルを取得するステップとを含んでもよい。
【0054】
本実施形態では、前記実行主体は、目標画像を画像分類モデルの第1の分類ネットワーク層に入力して、目標画像の第1のカテゴリの予測確率を取得し、そして、目標画像の第1のカテゴリの予測確率および目標画像を画像分類モデルの第2の分類ネットワーク層に入力して、目標画像の第2のカテゴリの予測確率を取得し、そして、第1のカテゴリの予測確率および第1のカテゴリを使用して、第1の分類ネットワーク層に対応する損失関数を構築し、そして、第2のカテゴリの予測確率および第2のカテゴリを使用して、第2の分類ネットワーク層に対応する損失関数を構築し、そして、第1分類ネットワーク層に対応する損失関数および第2の分類ネットワーク層に対応する損失関数を調整して、画像分類モデルのトレーニングを実現することができる。
【0055】
本実施形態では、画像分類モデルは、マルチタスク学習モデルであってもよい。
【0056】
第1の分類ネットワーク層の数は、第1のカテゴリの種類によって確定されてもよく、第2の分類ネットワーク層の数は、第2のカテゴリの種類によって確定されてもよいことに留意されたい。選択的に、第1の分類ネットワーク層の数は、第1のカテゴリの種類の数に1対1で対応し、第2の分類ネットワーク層の数は、第2のカテゴリの種類の数に1対1で対応する。
【0057】
本実施形態では、画像分類モデルに含まれる第1の分類ネットワーク層および第2の分類ネットワーク層を使用して、画像分類モデルをトレーニングすることができる。
【0058】
本実施例のいくつかのオプション的な実施形態では、第2のカテゴリのカテゴリ数は、すべての第2のカテゴリの中で最大のカテゴリ数であり、うち、第1のカテゴリはすべての第2のカテゴリを含む。
【0059】
本実施形態では、前記第2のカテゴリのカテゴリ数は、すべての第2のカテゴリの中でカテゴリ数が最大のカテゴリ数であってもよい。
【0060】
一例では、第1のカテゴリA1は、第2のカテゴリa1、第2のカテゴリa2、第2のカテゴリa3を含み、第1のカテゴリB1は、第2のカテゴリb1、第2のカテゴリb2、第2のカテゴリb3、第2のカテゴリb4および第2のカテゴリb5を含む。その中で、第1のカテゴリB1のカテゴリ数が最大であり、第2のカテゴリのカテゴリ数を5とする。
【0061】
本実施形態では、第2のカテゴリのスクリーニングにより、影響の少ない第2のカテゴリを抑制することができるので、第2のカテゴリの画像特徴をさらに強調することができ、画像のカテゴリをより正確に確定することができる。
【0062】
本実施例のいくつかのオプション的な実施形態では、第1のカテゴリが親カテゴリであってもよく、第2のカテゴリが子カテゴリであってもよい。
【0063】
本実施形態では、前記画像分類モジュールは、まず、抽象(親)カテゴリを予測し、次に、親カテゴリの予測確率に基づいて、子カテゴリを予測する特徴を選択し、トレーニング時、ターゲットに対して漸進的な制約を行って、学習の難しさを単純化し、特に多分類タスクの場合、汎用分類100種類のように、本出願の画像分類モデル生成方法によれば、5の大分類カテゴリおよび20の小分類カテゴリに分類することができる。推論予測段階では、親カテゴリの予測結果および子カテゴリの予測結果に基づいて最終的な予測値を提供するため、予測の難しさが単純化された。利点は、(1)アルゴリズムのマルチカテゴリ分類トレーニングおよび予測の難しさが低減された。(2)追加の補助情報が不要であり、計算量およびパラメータ量を実質的に増やすことなく、汎用分類モデルの性能を向上させた。(3)従来の基本分類モデルにダメージを与えることなく埋め込んで、細分類可能なモデルを構成することができる。
【0064】
さらに図3を参照し、図3は、本出願による画像分類モデル生成方法の一実施例のフローチャート300を示す。前記画像分類モデル生成方法は、以下のステップを含んでもよい。
【0065】
ステップ301では、目標画像を取得する。
【0066】
ステップ302では、目標画像の第1のカテゴリを取得する。
【0067】
本実施例では、画像分類モデル生成方法の実行主体(例えば、図1に示す端末装置101、102、103、またはサーバ105)は、手動でアノテーションされた第1のカテゴリまたはモデルによりアノテーションされた第1のカテゴリを取得することができる。
【0068】
ステップ303では、第1のカテゴリに基づいて、予め設定された画像ライブラリから、第1のカテゴリに対応するすべての画像を取得する。
【0069】
本実施例では、前記実行主体は、第1のカテゴリに基づいて、予め設定された画像ライブラリから、第1のカテゴリに対応するすべての画像を取得することができる。
【0070】
予め設定された画像ライブラリは、第1のカテゴリに応じて複数の画像を格納してもよい。それによって第1のカテゴリに対応するすべての画像を当該予め設定された画像ライブラリからクエリすることができる。
【0071】
ステップ304では、目標画像に基づいて、第1のカテゴリに対応するすべての画像から、目標画像とマッチングする画像を取得する。
【0072】
本実施例では、前記実行主体は、目標画像に基づいて、第1のカテゴリに対応するすべての画像から、目標画像とマッチングする画像を取得することができる。前記目標画像とマッチングする画像は、目標画像と同じ画像であってもよく、または、類似度が予め設定された類似度閾値を満たす画像であってもよく、当該類似度閾値は、分類精度に基づいて設定されるか、または手動で設定され得る。
【0073】
予め設定された画像ライブラリは、第1のカテゴリ、および第1のカテゴリの第2のカテゴリに従って、画像を格納してもよいことを留意すべきである。
【0074】
一例では、「画像A」は、予め設定された画像ライブラリの第1のカテゴリにおける第2のカテゴリに対応する画像である。
【0075】
ステップ305では、目標画像とマッチングする画像の第2のカテゴリを、目標画像の第2のカテゴリとする。
【0076】
ステップ306では、目標画像の第1のカテゴリの予測確率を確定する。
【0077】
本実施例では、前記実行主体は、目標画像とマッチングする画像の第2のカテゴリを、目標画像の第2のカテゴリとして確定することができる。
【0078】
一例では、第1のカテゴリに対応するすべての画像から目標画像を検索することにより、マッチングする「画像B」を取得し、ここで、「画像B」のカテゴリは、第1のカテゴリにおける第2のカテゴリであり、その後、「画像B」のカテゴリを、目標画像の第2のカテゴリとして確定する。前記第1のカテゴリは、複数の大分類のカテゴリのうちの一つであり、第2のカテゴリは、第1のカテゴリに含まれる複数の小分類のカテゴリのうちの一つである。
【0079】
ステップ307では、目標画像および第1のカテゴリ、並びに、目標画像、第1のカテゴリの予測確率、および第2のカテゴリを用いてトレーニングして、画像分類モデルを得る。
【0080】
本実施例では、ステップ306および307の具体的な動作が、図2に示す実施例のステップ202および203ですでに詳細に説明されたので、ここではその説明を省略する。
【0081】
図3から、図2に対応する実施例に比べて、本実施例における画像分類モデル生成方法は、第2のカテゴリを確定するステップを強調していることが分かる。本実施例が説明する技術的手段は、まず、取得した第1のカテゴリに基づいて、予め設定された画像ライブラリから、第1のカテゴリに対応するすべての画像を取得し、次に、目標画像に基づいて、第1のカテゴリに対応するすべての画像から、目標画像とマッチングする画像を取得し、最後に、目標画像とマッチングする画像の第2のカテゴリを、目標画像の第2のカテゴリとして確定する。それによって、第1のカテゴリと目標画像に基づいて、目標画像の第2のカテゴリのアノテーションを実現することができて、画像分類モデルの分類精度が向上された。
【0082】
さらに図4を参照し、図4は、本出願による画像分類モデル生成方法の一実施例のフローチャート400を示す。当該画像分類モデル生成方法は、以下のステップを含んでもよい。
【0083】
ステップ401では、目標画像、目標画像の第1のカテゴリおよび第2のカテゴリを取得し、うち、第1のカテゴリのレベルが第2のカテゴリのレベルよりも高い。
【0084】
ステップ402では、目標画像の第1のカテゴリの予測確率を確定する。
【0085】
ステップ403では、目標画像を第1の分類ネットワーク層の入力とし、第1のカテゴリを第1の分類ネットワーク層の所望出力とし、目標画像および第1のカテゴリの予測確率を第2の分類ネットワーク層の入力とし、第2のカテゴリを第2の分類ネットワーク層の所望出力とし、機械学習モデルをトレーニングして、画像分類モデルを取得する。
【0086】
本実施例では、画像分類モデル生成方法の実行主体(例えば、図1に示す端末装置101、102、103、またはサーバ105)は、目標画像を第1の分類ネットワーク層の入力とし、第1のカテゴリを第1の分類ネットワーク層の所望出力とし、目標画像および第1のカテゴリを第2の分類ネットワーク層の入力とし、第2のカテゴリを第2の分類ネットワーク層の所望出力とし、機械学習モデルをトレーニングして、画像分類モデルを取得することができる。
【0087】
本実施例では、ステップ401~402の具体的な動作がそれぞれ図2に示す実施例のステップ301~302ですでに詳細に説明されたので、ここではその説明を省略する。
【0088】
図4から、図3に対応する実施例に比べて、本実施例における画像分類モデル生成方法は、モデルトレーニングのステップを強調していることが分かる。これにより、本実施例が説明する技術的手段は、目標画像を第1の分類ネットワーク層の入力とし、第1のカテゴリを第1の分類ネットワーク層の出力とし、目標画像および第1のカテゴリの予測確率を第2の分類ネットワーク層の入力とし、第2のカテゴリを第2の分類ネットワーク層の出力とし、機械学習モデルをトレーニングして、画像分類モデルに対するトレーニングを実現する。
【0089】
さらに図5を参照し、図5は、本出願による画像分類方法の一実施例のフローチャート500を示す。当該画像分類方法は、以下のステップを含んでもよい。
【0090】
ステップ501では、分類対象画像を取得する。
【0091】
本実施例では、画像分類方法の実行主体(例えば、図1に示す端末装置101、102、103、またはサーバ105)は、分類対象画像を取得することができる。前記分類対象画像は、分類が必要な画像であり得る。
【0092】
ステップ502では、分類対象画像の画像特徴を、予めトレーニングされた画像分類モデルに入力して、分類対象画像に対応する第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率を取得する。
【0093】
本実施例では、前記実行主体は、分類対象画像を、予めトレーニングされた画像分類モデルに入力して、対応する第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率を取得することができる。前記画像分類モデルは、分類対象画像の分類を確定するために使用されてもよい。それにより、分類対象画像に対する分類を実現することができる。前記第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率は、画像分類モデルによって出力された確率であり得る。
【0094】
予めトレーニングされた画像分類モデルは、画像分類モデル生成方法によってトレーニングされたモデルであり得ることに留意されたい。前記第3のカテゴリのレベルは、第4のカテゴリのレベルよりも高くてもよい。
【0095】
ステップ503では、第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率に基づいて、分類対象画像のターゲットカテゴリを確定する。
【0096】
前記画像分類モデルは、特徴抽出ネットワーク層をさらに含み得ることに留意されたい。その中、特徴抽出層は、分類対象画像の画像特徴を抽出するために使用されてもよい。
【0097】
本実施例では、前記実行主体は、第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率に基づいて、分類対象画像のターゲットカテゴリを確定することができる。前記ターゲットカテゴリは、分類対象画像のカテゴリであってもよい。
【0098】
本実施例では、画像分類モデルによって出力された第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率に基づいて、分類対象画像に対する分類を実現することができる。
【0099】
本実施例のいくつかのオプション的な実施形態において、分類対象画像の画像特徴を予めトレーニングされた画像分類モデルに入力して、分類対象画像に対応する第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率を取得するステップは、分類対象画像の画像特徴を画像分類モデルの第1の分類ネットワーク層に入力して、分類対象画像に対応する第3のカテゴリのカテゴリ確率を取得し、第3のカテゴリのカテゴリ確率および分類対象画像の画像特徴を画像分類モデルの第2の分類ネットワーク層に入力して、第4のカテゴリのカテゴリ確率を取得するステップを含む。
【0100】
本実施形態において、前記実行主体は、まず、分類対象画像の画像特徴を画像分類モデルの第1の分類ネットワーク層に入力して、分類対象画像に対応する第3のカテゴリのカテゴリ確率を取得し、次に、第3のカテゴリのカテゴリ確率および分類対象画像の画像特徴を画像分類モデルの第2の分類ネットワーク層に入力して、第4のカテゴリのカテゴリ確率を取得する。
【0101】
本実施形態では、画像分類モデルにおける第1の分類ネットワーク層および第2の分類ネットワーク層を介して、第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率を確定することができる。
【0102】
さらに図6を参照すると、図6は本出願による画像分類方法の一応用シーンの概略図である。当該応用シーンでは、画像分類モデルは、特徴抽出ネットワーク層61(backbone)を含み、特徴抽出ネットワーク層61を使用して、分類対象画像60(Image)に対して特徴抽出を実行して、分類対象画像の画像特徴を取得する。その後、プーリングネットワーク層62(AVEPool)は、分類対象画像の画像特徴に対してダウンサンプリングまたは空間特徴次元削減を実行して、グローバル特徴を取得する。その後、第1の全結合層63(FC1)は、グローバル特徴をマッピングして、第1の全結合層の入力および出力を分離する。その後、第2の全結合層64(FC2)は、第1の全結合層の出力特徴を処理して、親カテゴリの初期カテゴリ確率を取得する。さらに、Sigmoid65を介して親カテゴリの初期カテゴリ確率を正規化処理して、正規化された親カテゴリのカテゴリ確率66を取得する。その後、第3の全結合層67(FC3)は、第1の全結合層の出力に対して子カテゴリの特徴マッピングを実行する。その後、親カテゴリのカテゴリ確率と第3の全結合層の出力特徴を融合して、候補特徴を取得する。その後、第4の全結合層68(FC4)は、候補特徴を処理して、子カテゴリのカテゴリ確率を取得する。その後、子カテゴリのカテゴリ確率と親カテゴリのカテゴリ確率とに基づいて、分類対象画像のターゲットカテゴリ69を確定する。
【0103】
backboneは、Resnet、MobileNetなどの構造を選択できることを留意すべきである。その中で、図6の「C」はチャネル数であり、Mは親カテゴリのカテゴリ数であり、Nは最大の子カテゴリの数である。
【0104】
さらに図7を参照し、上記各図に示された方法の実施として、本出願は画像分類モデル生成装置の一実施例を提供し、該装置の実施例は図2に示された方法の実施例に対応し、該装置は様々な電子機器に適用可能である。
【0105】
図7に示すように、本実施例の画像分類モデル生成装置700は、画像取得モジュール701、確率確定モジュール702、およびモデルトレーニングモジュール703を備えてもよい。そのうち、画像取得モジュール701は、目標画像、目標画像の第1のカテゴリおよび目標画像の第2のカテゴリを取得するように構成され、うち、第1のカテゴリのレベルが第2のカテゴリよりも高い。確率確定モジュール702は、目標画像の第1のカテゴリの予測確率を確定するように構成され、モデルトレーニングモジュール703は、目標画像および第1のカテゴリ、並びに目標画像、第1のカテゴリの予測確率および第2のカテゴリを用いてトレーニングして、画像分類モデルを取得するように構成される。
【0106】
本実施例では、画像分類モデル生成装置700において、画像取得モジュール701、確率確定モジュール702、およびモデルトレーニングモジュール703の具体的な処理、およびそれらによってもたらされる技術的効果は、それぞれ図2の対応する実施例のステップ201~203の関連説明を参照し、ここではその説明を繰り返さない。
【0107】
本実施例のいくつかのオプション的な実施形態では、画像取得モジュールは、目標画像を取得し、前記目標画像の第1のカテゴリを取得するように構成されるカテゴリ取得ユニットと、第1のカテゴリおよび目標画像に基づいて、目標画像の第2のカテゴリを確定するように構成されるカテゴリ確定ユニットとを備える。
【0108】
本実施例のいくつかのオプション的な実施形態では、カテゴリ確定ユニットはさらに、第1のカテゴリに基づいて、予め設定された画像ライブラリから、第1のカテゴリに対応するすべての画像を取得し、目標画像に基づいて、第1のカテゴリに対応するすべての画像から、目標画像とマッチングする画像を取得し、目標画像とマッチングする画像の第2のカテゴリを、目標画像の第2のカテゴリとして確定するように構成される。
【0109】
本実施例のいくつかのオプション的な実施形態では、画像分類モデルは、第1の分類ネットワーク層と、目標画像を第1の分類ネットワーク層に入力して、目標画像の第1のカテゴリの予測確率を取得するようにさらに構成される確率確定モジュールとを備える。
【0110】
本実施例のいくつかのオプション的な実施形態では、画像分類モデルは第2の分類ネットワーク層をさらに備える。モデルトレーニングモジュールは、目標画像を第1の分類ネットワーク層の入力とし、第1のカテゴリを第1の分類ネットワーク層の所望出力とし、目標画像および第1のカテゴリの予測確率を第2の分類ネットワーク層の入力とし、第2のカテゴリを第2の分類ネットワーク層の所望出力とし、機械学習モデルをトレーニングして、画像分類モデルを取得するようにさらに構成される。
【0111】
本実施例のいくつかのオプション的な実施形態では、第2のカテゴリのカテゴリ数は、すべての第2のカテゴリの中で最大のカテゴリ数であり、うち、第1のカテゴリはすべての第2のカテゴリを含む。
【0112】
本実施例のいくつかのオプション的な実施形態では、第1のカテゴリが親カテゴリであり、第2のカテゴリが子カテゴリである。
【0113】
さらに図8を参照し、上記各図に示された方法の実施として、本出願は画像分類モデル生成装置の一実施例を提供し、該装置の実施例は図5に示された方法の実施例に対応し、該装置は様々な電子機器に適用可能である。
【0114】
図8に示すように、本実施例の画像分類装置800は、画像取得モジュール801、確率取得モジュール802、およびカテゴリ確定モジュール803を備えてもよい。うち、画像取得モジュール801は、分類対象画像を取得するように構成され、確率取得モジュール802は、分類対象画像の画像特徴を、予めトレーニングされた画像分類モデルに入力して、分類対象画像に対応する第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率を取得するように構成され、カテゴリ確定モジュール803は、第3のカテゴリのカテゴリ確率および第4のカテゴリのカテゴリ確率に基づいて、分類対象画像のターゲットカテゴリを確定するように構成される。
【0115】
本実施例では、画像分類装置800において、画像取得モジュール801、確率取得モジュール802、およびカテゴリ確定モジュール803の具体的な処理、およびそれらによってもたらされる技術的効果は、それぞれ図5の対応する実施例のステップ501~503の関連説明を参照し、ここではその説明を繰り返さない。
【0116】
本実施例のいくつかのオプション的な実施形態において、確率取得モジュール802はさらに、分類対象画像の画像特徴を画像分類モデルの第1の分類ネットワーク層に入力して、分類対象画像に対応する第3のカテゴリのカテゴリ確率を取得し、第3のカテゴリのカテゴリ確率および分類対象画像の画像特徴を画像分類モデルの第2の分類ネットワーク層に入力して、第4のカテゴリのカテゴリ確率を取得するように構成される。
【0117】
本出願の実施例によれば、本出願はさらに、電子機器、可読記憶媒体、コンピュータプログラム、路側装置、クラウド制御プラットフォームを提供する。
【0118】
図9は、本出願の実施例を実施するために使用することができる例示的な電子機器900のブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナル・デジタル・アシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、その他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナル・デジタル・アシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の類似のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されているコンポーネント、それらの接続と関係、およびそれらの機能は単なる例であり、本明細書で説明および/または要求されている本出願の実施を制限するものではない。
【0119】
図9に示すように、電子機器900は、計算ユニット901を備え、これは、読み出し専用メモリ(ROM)902に記憶されたコンピュータプログラム、または記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに従って、様々な適切な動作および処理を実行することができる。RAM903には、電子機器900の動作に必要な様々なプログラムおよびデータがさらに記憶されていてもよい。計算ユニット901、ROM902およびRAM903は、バス904を介して互いに接続されている。入/出力(I/O)インターフェース905もバス904に接続されている。
【0120】
電子機器900内の複数のコンポーネント、例えば、キーボード、マウスなどの入力ユニット906と、例えば、様々なタイプのディスプレイ、スピーカなどの出力ユニット907と、例えば、磁気ディスク、光ディスクなどの記憶ユニット908と、例えば、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット909とを含むコンポーネントはI/Oインターフェース905に接続されている。通信ユニット909は、機器900が、インターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
【0121】
計算ユニット901は、処理およびコンピューティング機能を有する様々な汎用および/または専用の処理モジュールであってもよい。計算ユニット901のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット901は、上述した各方法および処理、例えば、画像分類モデル生成方法または画像分類方法を実行する。例えば、いくつかの実施例では、画像分類モデル生成方法または画像分類方法は、例えば、記憶ユニット908のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM902および/または通信ユニット909を介して機器900にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM903にロードされ、計算ユニット901によって実行されるとき、上述した画像分類モデル生成方法または画像分類方法の1つまたは複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット901は、他の任意の適切な方法(例えば、ファームウェア)によって、画像分類モデル生成方法または画像分類方法を実行するように構成されてもよい。
【0122】
本文において、以上に説明したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップのシステム(SOC)、プレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実施され得る。これら様々な実施形態は以下を含むことができる。つまり、一つまたは複数のコンピュータプログラムにおいて実施され、該一つまたは複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行、および/または解釈されてよく、該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令を受信するとともに、データおよび指令を該ストレージシステム、該少なくとも一つの入力装置、および該少なくとも一つの出力装置に伝送することができる。
【0123】
本出願の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせを使用して書くことができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行されるときに、フローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてよい。プログラムコードは、完全に機械上で実行するか、部分的に機械上で実行してもよく、独立したソフトウェアパッケージとして機械上で一部実行し且つ一部を遠隔機械上で実行するかまたは完全に遠隔機械またはサーバ上で実行することができる。
【0124】
本出願の上下文脈では、機械可読媒体は、指令実行システム、装置または機器が使用するため、または指令実行システム、装置、または機器と組み合わせて使用するためのプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線の、または半導体のシステム、装置または機器、または上記の任意の適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例示は、1本または複数本の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、またはこれらの任意の適切な組み合わせを含んでもよい。
【0125】
ユーザとのインタラクションを提供するために、コンピュータ上で、明細書で説明したシステムおよび技術を実施してもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)、およびユーザがコンピュータに入力を提供するためのキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)を有する。他の種類の装置もユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力または触覚入力を含む)でユーザからの入力を受信してもよい。
【0126】
本明細書で説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、または、ミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、または、フロントエンドコンポーネント(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータは、ユーザが該グラフィカルユーザインターフェースまたは該ウェブブラウザを介して、本明細書で説明するシステムおよび技術の実施形態とやりとりすることができる)、または、これらのバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。また、システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続することができる。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットを含む。
【0127】
コンピュータシステムにはクライアントおよびサーバを含んでもよい。クライアントとサーバは一般に互いに離れており、通常は通信ネットワークを介してやりとりする。クライアントとサーバとの関係は、相応するコンピュータにおいて実行されるとともに互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。
【0128】
本出願の上下文脈において、路側装置は、前記電子機器を含むほか、さらに、通信部品などを含んでもよく、前記電子機器は、通信部品と一体に集積されてもよく、別体に設置されてもよい。前記電子機器は、感知機器(例えば、路側カメラ(roadside camera))のデータ、例えば、画像およびビデオなどを取得し、画像およびビデオの処理およびデータ計算を行うことができる。選択的に、前記電子機器自体が、例えば、人工知能(Artificial Intelligence,AI)カメラなどの感知データ取得機能および通信機能が備えられてもよく、当該電子機器は、取得された感知データに基づいて画像およびビデオの処理およびデータ計算を直接行ってもよい。
【0129】
本出願の上下文脈において、クラウド制御プラットフォームは、クラウドで処理を実行し、クラウド制御プラットフォームにおける前記電子機器が、感知機器(例えば路側カメラ)のデータ、例えば、画像およびビデオなどのデータを取得し、画像およびビデオの処理並びにデータ計算を行うことができ、クラウド制御プラットフォームは、車両・道路協同管理プラットフォーム、エッジ計算プラットフォーム、クラウド計算プラットフォーム、中央システム、クラウドサーバなどと称してもよい。
【0130】
人工知能は、コンピュータを研究して人間の思考プロセスとインテリジェントな行動(例えば、学習、推論、思考、計画など)をシミュレートする学科であって、ハードウェアレベルの技術もあれば、ソフトウェアレベルの技術もある。人工知能ハードウェア技術には、一般に、センサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術が含まれ、人工知能ソフトウェア技術には、主にコンピュータビジョン技術、音声認識技術、自然音声処理技術、機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術など、いくつかの主要な内容がある。
【0131】
なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番で実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。
【0132】
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件およびその他の要因に基づいて、様々な修正、組み合わせ、副次的な組み合わせおよび置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。



図1
図2
図3
図4
図5
図6
図7
図8
図9
【外国語明細書】