IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シェンチェン センスタイム テクノロジー カンパニー リミテッドの特許一覧

特表2022-534890画像処理方法及び装置、電子機器並びに記憶媒体
<>
  • 特表-画像処理方法及び装置、電子機器並びに記憶媒体 図1
  • 特表-画像処理方法及び装置、電子機器並びに記憶媒体 図2
  • 特表-画像処理方法及び装置、電子機器並びに記憶媒体 図3
  • 特表-画像処理方法及び装置、電子機器並びに記憶媒体 図4
  • 特表-画像処理方法及び装置、電子機器並びに記憶媒体 図5
  • 特表-画像処理方法及び装置、電子機器並びに記憶媒体 図6
  • 特表-画像処理方法及び装置、電子機器並びに記憶媒体 図7
  • 特表-画像処理方法及び装置、電子機器並びに記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-08-04
(54)【発明の名称】画像処理方法及び装置、電子機器並びに記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220728BHJP
【FI】
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021569572
(86)(22)【出願日】2020-11-02
(85)【翻訳文提出日】2021-11-22
(86)【国際出願番号】 CN2020125960
(87)【国際公開番号】W WO2021218095
(87)【国際公開日】2021-11-04
(31)【優先権主張番号】202010366985.5
(32)【優先日】2020-04-30
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】518209698
【氏名又は名称】シェンチェン センスタイム テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO.,LTD
(74)【代理人】
【識別番号】110001427
【氏名又は名称】特許業務法人前田特許事務所
(72)【発明者】
【氏名】グオ シャオポン
(72)【発明者】
【氏名】ワン ユージエ
(72)【発明者】
【氏名】リー チュエンチュエン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096DA02
5L096GA30
5L096HA09
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
本願の実施例は、画像処理方法及び装置、電子機器並びに記憶媒体を提供する。該方法は、処理待ち画像をニューラルネットワークモデルに入力し、ニューラルネットワークモデルにより処理待ち画像の画像特徴を出力する。ここで、ニューラルネットワークモデルは、少なくとも2つの中間層を含み、各中間層は、複数のニューロンを含み、ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであり、初期ニューラルネットワークモデルにおけるニューロンの保持確率は、所定の統計モデルに基づいて取得されたものである。
【特許請求の範囲】
【請求項1】
画像処理方法であって、
処理待ち画像をニューラルネットワークモデルに入力することと、
前記ニューラルネットワークモデルにより、前記処理待ち画像の画像特徴を出力することと、を含み、
前記ニューラルネットワークモデルは、少なくとも2つの中間層を含み、各中間層は、複数のニューロンを含み、前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであり、前記初期ニューラルネットワークモデルにおけるニューロンの保持確率は、所定の統計モデルに基づいて取得されたものである、画像処理方法。
【請求項2】
前記処理待ち画像をニューラルネットワークモデルに入力する前に、前記画像処理方法は、
初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得することと、
前記訓練待ちニューラルネットワークモデルに対して訓練を行い、前記ニューラルネットワークモデルを得ることと、を更に含むことを特徴とする
請求項1に記載の画像処理方法。
【請求項3】
前記所定の統計モデルは、マルコフモデルであり、前記初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得する前に、
前記マルコフモデルに基づいて、初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得することを更に含み、
前記マルコフモデルのいずれか一層におけるk番目のニューロンの転移確率
は、最初のk-1個のニューロンが保持された前提下でのk番目のニューロンの保持確率を表すためのものであり、kは、1以上の整数であることを特徴とする
請求項2に記載の画像処理方法。
【請求項4】
前記マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、M回目の反復訓練において、Mは、1以上且つN以下の整数であり、
M回目の反復プロセスにおいて、M-1番目の初期ニューラルネットワークモデルに対して、M-1番目のマルコフモデルに基づいて枝刈り処理を行い、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを得ることと、
M回目の反復プロセスにおいて、前記M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを訓練し、第1損失関数を取得し、前記第1損失関数により決定される第1勾配を前記M-1番目の初期ニューラルネットワークモデルに返送し、対応するニューロンを更新し、M番目の初期ニューラルネットワークモデルを得ることであって、前記第1損失関数は、前記M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルの精度を表すためのものである、ことと、
M回目の反復プロセスにおいて、前記M番目の初期ニューラルネットワークモデルにサンプル画像を入力し、前記M番目の初期ニューラルネットワークモデルの各ニューロンの出力結果と、前記M-1番目のマルコフモデルにおける対応するニューロンの保持確率と、を乗算することと、
M回目の反復プロセスにおいて、前記M番目の初期ニューラルネットワークモデルの第2損失関数を取得することであって、前記第2損失関数は、前記M番目の初期ニューラルネットワークモデルの精度及び/又は演算量を表すためのものである、ことと、
M回目の反復プロセスにおいて、前記第2損失関数により決定される第2勾配を前記M-1番目のマルコフモデルに返送し、M番目のマルコフモデルを得ることと、を更に含むことを特徴とする
請求項3に記載の画像処理方法。
【請求項5】
前記訓練待ちニューラルネットワークモデルに対して訓練を行い、前記ニューラルネットワークモデルを得る前に、
前記訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行うことを更に含むことを特徴とする
請求項2に記載の画像処理方法。
【請求項6】
前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるいずれか1つの中間層のニューロンの保持確率又は複数の中間層のニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであることを特徴とする
請求項1から5のうちいずれか一項に記載の画像処理方法。
【請求項7】
前記ニューラルネットワークモデルにより前記処理待ち画像の画像特徴を出力した後、前記画像処理方法は、
得られた前記画像特徴に基づいて、通行者検索と、顔認識と、顔位置検出と、顔キーポイント検出と、人体位置検出と、人体動作検出と、人体キーポイント検出と、ジェスチャー認識と、手位置検出と、通行者認識と、車両認識と、シーン認識と、生体検出と、のうちの少なくとも1つの処理を行うことを更に含むことを特徴とする
請求項1から5のうちいずれか一項に記載の画像処理方法。
【請求項8】
前記画像処理方法は、
前記初期ニューラルネットワークモデルにおける各中間層の枝刈りプロセスを1つのマルコフモデルと定義することと、
前記マルコフモデルに基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行い、枝刈りが完了したニューラルネットワークモデルを得ることと、
前記枝刈りが完了したニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行い、訓練待ちニューラルネットワークモデルを得ることと、
ターゲットデータ集合を利用して、前記訓練待ちニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルを得ることと、を更に含むことを特徴とする
請求項1に記載の画像処理方法。
【請求項9】
前記マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、
M回目の反復訓練において、Mは、1以上且つN以下の整数であり、前記初期ニューラルネットワークモデルに対して枝刈り処理を行い、枝刈りが完了したニューラルネットワークモデルを得ることは、
前記M-1番目のマルコフモデルに基づいて、M-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得することと、
前記M-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、M-1番目の初期ニューラルネットワークモデルから、M-1番目のマルコフモデルのサブネットワークモデルをサンプリングすることと、
訓練されたM-1番目のマルコフモデルのサブネットワークモデルにより返送された第1勾配を利用して、前記M-1番目の初期ニューラルネットワークモデルに対して更新を行い、M番目の初期ニューラルネットワークモデルを得ることと、
前記M番目の初期ニューラルネットワークモデルにサンプル画像を入力する場合、前記M番目の初期ニューラルネットワークモデルのニューロンの出力結果及びM-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、第2勾配を決定することと、
前記第2勾配を利用して、前記M-1番目のマルコフモデルに対して最適化を行い、M番目のマルコフモデルを得ることと、を含むことを特徴とする
請求項8に記載の画像処理方法。
【請求項10】
画像処理装置であって、
処理待ち画像をニューラルネットワークモデルに入力するように構成される入力モジュールと、
前記ニューラルネットワークモデルにより、前記処理待ち画像の画像特徴を出力するように構成される出力モジュールと、を備え、
前記ニューラルネットワークモデルは、少なくとも2つの中間層を含み、各中間層は、複数のニューロンを含み、前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであり、前記初期ニューラルネットワークモデルにおけるニューロンの保持確率は、所定の統計モデルに基づいて取得されたものである、画像処理装置。
【請求項11】
前記画像処理装置は、入力モジュールが処理待ち画像をニューラルネットワークモデルに入力する前に、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得し、前記訓練待ちニューラルネットワークモデルに対して訓練を行い、前記ニューラルネットワークモデルを得るように構成される処理モジュールを更に備えることを特徴とする
請求項10に記載の画像処理装置。
【請求項12】
所定の統計モデルは、マルコフモデルであり、前記処理モジュールは更に、マルコフモデルに基づいて、初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得するように構成され、前記マルコフモデルのいずれか一層におけるk番目のニューロンの転移確率
は、最初のk-1個のニューロンが保持された前提下でのk番目のニューロンの保持確率を表すためのものであり、kは、1以上の整数であることを特徴とする
請求項11に記載の画像処理装置。
【請求項13】
前記マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、M回目の反復訓練において、Mは、1以上且つN以下の整数であり、前記処理モジュールは更に、M回目の反復プロセスにおいて、M-1番目の初期ニューラルネットワークモデルに対して、M-1番目のマルコフモデルに基づいて枝刈り処理を行い、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを得て、M回目の反復プロセスにおいて、前記M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを訓練し、第1損失関数を取得し、前記第1損失関数により決定される第1勾配を前記M-1番目の初期ニューラルネットワークモデルに返送し、対応するニューロンを更新し、M番目の初期ニューラルネットワークモデルを得て、M回目の反復プロセスにおいて、前記M番目の初期ニューラルネットワークモデルにサンプル画像を入力し、前記M番目の初期ニューラルネットワークモデルの各ニューロンの出力結果と、前記M-1番目のマルコフモデルにおける対応するニューロンの保持確率と、を乗算し、M回目の反復プロセスにおいて、前記M番目の初期ニューラルネットワークモデルの第2損失関数を取得し、M回目の反復プロセスにおいて、前記第2損失関数により決定される第2勾配を前記M-1番目のマルコフモデルに返送し、M番目のマルコフモデルを得るように構成され、前記第1損失関数は、前記M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルの精度を表すためのものであり、前記第2損失関数は、前記M番目の初期ニューラルネットワークモデルの精度及び/又は演算量を表すためのものであることを特徴とする
請求項12に記載の画像処理装置。
【請求項14】
前記処理モジュールは更に、前記訓練待ちニューラルネットワークモデルに対して訓練を行い、前記ニューラルネットワークモデルを得る前に、前記訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行うように構成されることを特徴とする
請求項11に記載の画像処理装置。
【請求項15】
前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるいずれか1つの中間層のニューロンの保持確率又は複数の中間層のニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであることを特徴とする
請求項10から14のうちいずれか一項に記載の画像処理装置。
【請求項16】
前記処理モジュールは更に、前記出力モジュールが前記ニューラルネットワークモデルにより前記処理待ち画像の画像特徴を出力した後、得られた前記画像特徴に基づいて、通行者検索と、顔認識と、顔位置検出と、顔キーポイント検出と、人体位置検出と、人体動作検出と、人体キーポイント検出と、ジェスチャー認識と、手位置検出と、通行者認識と、車両認識と、シーン認識と、生体検出と、のうちの少なくとも1つの処理を行うように構成されることを特徴とする
請求項10から14のうちいずれか一項に記載の画像処理装置。
【請求項17】
前記画像処理装置は、前記初期ニューラルネットワークモデルにおける各中間層の枝刈りプロセスを1つのマルコフモデルと定義するように構成される定義モジュールと、前記マルコフモデルに基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行い、枝刈りが完了したニューラルネットワークモデルを得るように構成される枝刈りモジュールと、前記枝刈りが完了したニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行い、訓練待ちニューラルネットワークモデルを得るように構成されるランダマイズモジュールと、ターゲットデータ集合を利用して、前記訓練待ちニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルを得るように構成される訓練モジュールと、を更に備えることを特徴とする
請求項10に記載の画像処理装置。
【請求項18】
前記マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、M回目の反復訓練において、Mは、1以上且つN以下の整数であり、前記枝刈りモジュールは、M回目の反復訓練において、前記M-1番目のマルコフモデルに基づいて、M-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得するように構成される取得ユニットと、M回目の反復訓練において、前記M-1番目のマルコフモデル及び前記M-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、M-1番目の初期ニューラルネットワークモデルから、M-1番目のマルコフモデルのサブネットワークモデルをサンプリングするように構成されるサンプリングユニットと、訓練されたM-1番目のマルコフモデルのサブネットワークモデルにより返送された第1勾配を利用して、前記M-1番目の初期ニューラルネットワークモデルに対して更新を行い、M番目の初期ニューラルネットワークモデルを得るように構成される更新ユニットと、前記M番目の初期ニューラルネットワークモデルにサンプル画像を入力する場合、前記M番目の初期ニューラルネットワークモデルのニューロンの出力結果及びM-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、第2勾配を決定するように構成される決定ユニットと、前記第2勾配を利用して、前記M-1番目のマルコフモデルに対して最適化を行い、M番目のマルコフモデルを得るように構成される最適化ユニットと、を備えることを特徴とする
請求項10に記載の画像処理装置。
【請求項19】
コンピュータ実行可能な命令を記憶するメモリと、
前記メモリに記憶されている前記コンピュータ実行可能な命令を実行して、請求項1から9のうちいずれか一項に記載の画像処理方法を実行する少なくとも1つのプロセッサと、備える、電子機器。
【請求項20】
プロセッサにより実行される場合、前記プロセッサに請求項1から9のうちいずれか一項に記載の画像処理方法を実行させるためのコンピュータ実行可能な命令を記憶した、コンピュータ可読記憶媒体。
【請求項21】
電子機器で実行される場合、前記電子機器におけるプロセッサに、請求項1から9のうちいずれか一項に記載の画像処理方法を実行させるためのコンピュータ可読コードを含む、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2020年04月30日に提出された、出願番号が202010366985.5である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願の実施例は、画像処理技術分野に関し、特に画像処理方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0003】
近年では、顔認識、物体検出などのアプリケーションにおいて、一般的には、ニューラルネットワークモデルにより、処理待ち画像の画像特徴を抽出し、処理待ち画像の画像特徴に基づいて、顔認識、物体検出などを行う必要がある。顔認識、物体検出などのアプリケーションの精度を向上させるために、ニューラルネットワークモデルは一般的には、より深い方向へ進む必要があり、即ち、ニューラルネットワークモデルの層数及びニューロン数を増大させる。しかしながら、ニューラルネットワークモデルの層数が多く、ニューロン数が多いほど、ニューラルネットワークモデルの演算量が大きくなる。実際のアプリケーションにおいて、プロセッサ、内部メモリの性能の制限及びアプリケーションのリアルタイム性要件に限られて、ニューラルネットワークモデルの精度を向上させる必要があるだけでなく、ニューラルネットワークモデルの演算量を制限する必要もある。
【0004】
場合によって、モデル枝刈りの方式により、ニューラルネットワークモデルのニューロン数を減少させる必要がある。関連技術において、一般的には、閾値の方式を用いて、ニューラルネットワークモデルにおける影響精度が小さいニューロンに対して枝刈りを行うが、関連技術における方式によれば、演算量を制御する前提下で枝刈り後のニューラルネットワークモデルの精度を同時に向上させることが困難である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願は、画像処理方法及び装置、電子機器並びに記憶媒体を提供する。
【課題を解決するための手段】
【0006】
本願の実施例は、画像処理方法を提供する。前記画像処理方法は、処理待ち画像をニューラルネットワークモデルに入力することと、前記ニューラルネットワークモデルにより、前記処理待ち画像の画像特徴を出力することと、を含み、ここで、前記ニューラルネットワークモデルは、少なくとも2つの中間層を含み、各中間層は、複数のニューロンを含み、前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであり、前記初期ニューラルネットワークモデルにおけるニューロンの保持確率は、所定の統計モデルに基づいて取得されたものである。
【0007】
このように、ニューロンの保持確率は、所定の統計モデルに基づいて訓練を行うことで得られたものであるため、所定の統計モデルにより決定されたニューロンの保持確率に基づいて、所定の演算量要件下で初期ニューラルネットワークモデルに対して枝刈りを行うことができ、また、取得されたニューラルネットワークモデルは、モデルの精度を向上させることができる。
【0008】
一実施例において、処理待ち画像をニューラルネットワークモデルに入力する前に、前記画像処理方法は、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得することと、前記訓練待ちニューラルネットワークモデルに対して訓練を行い、前記ニューラルネットワークモデルを得ることと、を更に含む。
【0009】
このように、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得することによって、取得されるニューラルネットワークモデルの精度をより高くすることができる。
【0010】
一実施例において、前記所定の統計モデルは、マルコフモデルであり、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得する前に、前記マルコフモデルに基づいて、初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得することを更に含み、ここで、前記マルコフモデルのいずれか一層におけるk番目のニューロンの転移確率
は、最初のk-1個のニューロンが保持された前提下でのk番目のニューロンの保持確率を表すためのものであり、kは、1以上の整数である。
【0011】
このように、マルコフモデルを訓練するプロセスにおいて、マルコフモデルにおける確率を学習可能なパラメータと定義し、マルコフモデルと初期ニューラルネットワークモデルを整合して訓練し、マルコフモデルにおけるパラメータを最適化する。
【0012】
一実施例において、前記マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、ここで、M回目の反復訓練において、Mは、1以上且つN以下の整数であり、M回目の反復プロセスにおいて、M-1番目の初期ニューラルネットワークモデルに対して、M-1番目のマルコフモデルに基づいて枝刈り処理を行い、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを得ることと、M回目の反復プロセスにおいて、前記M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを訓練し、第1損失関数を取得し、前記第1損失関数により決定される第1勾配を前記M-1番目の初期ニューラルネットワークモデルに返送し、対応するニューロンを更新し、M番目の初期ニューラルネットワークモデルを得ることであって、前記第1損失関数は、前記M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルの精度を表すためのものである、ことと、M回目の反復プロセスにおいて、前記M番目の初期ニューラルネットワークモデルにサンプル画像を入力し、前記M番目の初期ニューラルネットワークモデルの各ニューロンの出力結果と、前記M-1番目のマルコフモデルにおける対応するニューロンの保持確率と、を乗算することと、M回目の反復プロセスにおいて、前記M番目の初期ニューラルネットワークモデルの第2損失関数を取得することであって、前記第2損失関数は、前記M番目の初期ニューラルネットワークモデルの精度及び/又は演算量を表すためのものである、ことと、M回目の反復プロセスにおいて、前記第2損失関数により決定される第2勾配を前記M-1番目のマルコフモデルに返送し、M番目のマルコフモデルを得ることと、を更に含む。
【0013】
このように、マルコフモデルを訓練するプロセスにおいて、マルコフモデルにおける確率を学習可能なパラメータと定義し、マルコフモデルと初期ニューラルネットワークモデルを整合して訓練し、マルコフモデルにおけるパラメータを最適化する。本願の実施例で提供される方法において、訓練効率が高く、訓練されたマルコフモデルを用いて初期ニューラルネットワークモデルに対して枝刈りを行った後に取得されたニューラルネットワークモデルは、所定の演算量要件を満たすと同時に、モデルの精度を向上させることができる。
【0014】
一実施例において、前記訓練待ちニューラルネットワークモデルに対して訓練を行い、前記ニューラルネットワークモデルを得る前に、前記訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行うことを更に含む。
【0015】
このように、訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行うことによって、初期ニューラルネットワークモデルにおけるニューロンのパラメータが枝刈り後に取得された訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに与える干渉を低減させることができる。
【0016】
一実施例において、前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるいずれか1つの中間層のニューロンの保持確率又は複数の中間層のニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものである。
【0017】
このように、いずれか1つの中間層のニューロンの保持確率に基づいて初期ニューラルネットワークモデルに対して枝刈り処理を行うことができるだけでなく、複数の中間層のニューロンの保持確率に基づいて初期ニューラルネットワークモデルに対して枝刈り処理を行うこともでき、それにより枝刈り処理方式の多様性を向上させることができる。
【0018】
一実施例において、前記ニューラルネットワークモデルにより前記処理待ち画像の画像特徴を出力した後、前記画像処理方法は、得られた前記画像特徴に基づいて、通行者検索と、顔認識と、顔位置検出と、顔キーポイント検出と、人体位置検出と、人体動作検出と、人体キーポイント検出と、ジェスチャー認識と、手位置検出と、通行者認識と、車両認識と、シーン認識と、生体検出と、のうちの少なくとも1つの処理を行うことを更に含む。
【0019】
このように、画像特徴に対して異なる方式の処理を行い、異なる適用シーンの需要に適応することができ、画像特徴の処理方式の適応性を向上させる。
【0020】
一実施例において、前記画像処理方法は、前記初期ニューラルネットワークモデルにおける各中間層の枝刈りプロセスを1つのマルコフモデルと定義することと、前記マルコフモデルに基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行い、枝刈りが完了したニューラルネットワークモデルを得ることと、前記枝刈りが完了したニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行い、訓練待ちニューラルネットワークモデルを得ることと、ターゲットデータ集合を利用して、前記訓練待ちニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルを得ることと、を更に含む。
【0021】
一実施例において、前記マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、ここで、M回目の反復訓練において、Mは、1以上且つN以下の整数であり、前記初期ニューラルネットワークモデルに対して枝刈り処理を行い、枝刈りが完了したニューラルネットワークモデルを得ることは、前記M-1番目のマルコフモデルに基づいて、M-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得することと、前記M-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、M-1番目の初期ニューラルネットワークモデルから、M-1番目のマルコフモデルのサブネットワークモデルをサンプリングすることと、訓練されたM-1番目のマルコフモデルのサブネットワークモデルにより返送された第1勾配を利用して、前記M-1番目の初期ニューラルネットワークモデルに対して更新を行い、M番目の初期ニューラルネットワークモデルを得ることと、前記M番目の初期ニューラルネットワークモデルにサンプル画像を入力する場合、前記M番目の初期ニューラルネットワークモデルのニューロンの出力結果及びM-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、第2勾配を決定することと、前記第2勾配を利用して、前記M-1番目のマルコフモデルに対して最適化を行い、M番目のマルコフモデルを得ることと、を含む。
【0022】
本願の実施例は、画像処理装置を提供する。前記画像処理装置は、処理待ち画像をニューラルネットワークモデルに入力するように構成される入力モジュールと、前記ニューラルネットワークモデルにより、前記処理待ち画像の画像特徴を出力するように構成される出力モジュールと、を備え、ここで、前記ニューラルネットワークモデルは、少なくとも2つの中間層を含み、各中間層は、複数のニューロンを含み、前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであり、前記初期ニューラルネットワークモデルにおけるニューロンの保持確率は、所定の統計モデルに基づいて取得されたものである。
【0023】
一実施例において、前記画像処理装置は、入力モジュールが処理待ち画像をニューラルネットワークモデルに入力する前に、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得し、前記訓練待ちニューラルネットワークモデルに対して訓練を行い、前記ニューラルネットワークモデルを得るように構成される処理モジュールを更に備える。
【0024】
一実施例において、前記所定の統計モデルは、マルコフモデルであり、前記処理モジュールは更に、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得する前に、前記マルコフモデルに基づいて、初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得するように構成され、ここで、前記マルコフモデルのいずれか一層におけるk番目のニューロンの転移確率
は、最初のk-1個のニューロンが保持された前提下でのk番目のニューロンの保持確率を表すためのものであり、kは、1以上の整数である。
【0025】
一実施例において、前記マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、ここで、M回目の反復訓練において、Mは、1以上且つN以下の整数であり、前記処理モジュールは更に、M回目の反復プロセスにおいて、M-1番目の初期ニューラルネットワークモデルに対して、M-1番目のマルコフモデルに基づいて枝刈り処理を行い、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを得て、M回目の反復プロセスにおいて、前記M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを訓練し、第1損失関数を取得し、前記第1損失関数により決定される第1勾配を前記M-1番目の初期ニューラルネットワークモデルに返送し、対応するニューロンを更新し、M番目の初期ニューラルネットワークモデルを得て、M回目の反復プロセスにおいて、前記M番目の初期ニューラルネットワークモデルにサンプル画像を入力し、前記M番目の初期ニューラルネットワークモデルの各ニューロンの出力結果と、前記M-1番目のマルコフモデルにおける対応するニューロンの保持確率と、を乗算し、M回目の反復プロセスにおいて、前記M番目の初期ニューラルネットワークモデルの第2損失関数を取得し、M回目の反復プロセスにおいて、前記第2損失関数により決定される第2勾配を前記M-1番目のマルコフモデルに返送し、M番目のマルコフモデルを得るように構成され、前記第1損失関数は、前記M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルの精度を表すためのものであり、前記第2損失関数は、前記M番目の初期ニューラルネットワークモデルの精度及び/又は演算量を表すためのものである。
【0026】
一実施例において、前記処理モジュールは更に、前記訓練待ちニューラルネットワークモデルに対して訓練を行い、前記ニューラルネットワークモデルを得る前に、前記訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行うように構成される。
【0027】
一実施例において、前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるいずれか1つの中間層のニューロンの保持確率又は複数の中間層のニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものである。
【0028】
一実施例において、前記処理モジュールは更に、前記出力モジュールが前記ニューラルネットワークモデルにより前記処理待ち画像の画像特徴を出力した後、得られた前記画像特徴に基づいて、通行者検索と、顔認識と、顔位置検出と、顔キーポイント検出と、人体位置検出と、人体動作検出と、人体キーポイント検出と、ジェスチャー認識と、手位置検出と、通行者認識と、車両認識と、シーン認識と、生体検出と、のうちの少なくとも1つの処理を行うように構成される。
【0029】
一実施例において、前記画像処理装置は、前記初期ニューラルネットワークモデルにおける各中間層の枝刈りプロセスを1つのマルコフモデルと定義するように構成される定義モジュールと、前記マルコフモデルに基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行い、枝刈りが完了したニューラルネットワークモデルを得るように構成される枝刈りモジュールと、前記枝刈りが完了したニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行い、訓練待ちニューラルネットワークモデルを得るように構成されるランダマイズモジュールと、ターゲットデータ集合を利用して、前記訓練待ちニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルを得るように構成される訓練モジュールと、を更に備える。
【0030】
一実施例において、前記マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、ここで、M回目の反復訓練において、Mは、1以上且つN以下の整数であり、前記枝刈りモジュールは、前記M-1番目のマルコフモデルに基づいて、M-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得するように構成される取得ユニットと、前記M-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、M-1番目の初期ニューラルネットワークモデルから、M-1番目のマルコフモデルのサブネットワークモデルをサンプリングするように構成されるサンプリングユニットと、訓練されたM-1番目のマルコフモデルのサブネットワークモデルにより返送された第1勾配を利用して、前記M-1番目の初期ニューラルネットワークモデルに対して更新を行い、M番目の初期ニューラルネットワークモデルを得るように構成される更新ユニットと、前記M番目の初期ニューラルネットワークモデルにサンプル画像を入力する場合、前記M番目の初期ニューラルネットワークモデルのニューロンの出力結果及びM-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、第2勾配を決定するように構成される決定ユニットと、前記第2勾配を利用して、前記M-1番目のマルコフモデルに対して最適化を行い、M番目のマルコフモデルを得るように構成される最適化ユニットと、を備える。
【0031】
本願の実施例は電子機器を提供する。前記電子機器は、少なくとも1つのプロセッサと、メモリと、を備え、前記メモリは、コンピュータ実行可能な命令を記憶し、前記少なくとも1つのプロセッサは、前記メモリに記憶されているコンピュータ実行可能な命令を実行して、いずれか一項に記載の画像処理方法を実行する。
【0032】
本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体にコンピュータ実行可能な命令が記憶されており、前記コンピュータ実行可能な命令がプロセッサにより実行される場合、プロセッサにいずれか一項に記載の画像処理方法を実現させる。
【0033】
本願の実施例は、コンピュータプログラム製品を提供する。ここで、上記コンピュータプログラム製品は、コンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体を含み、上記コンピュータプログラムは、操作を行い、コンピュータに本願の実施例の画像処理方法に記載の一部又は全てのステップを実行させることができる。該コンピュータプログラム製品は、ソフトウェアインストールパッケージであってもよい。
【0034】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
【0035】
本願の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
【図面の簡単な説明】
【0036】
図1】本願の例による画像処理方法の適用シーンを示す概略図である。
図2】本願の実施例による画像処理方法を示すフローチャートである。
図3】本願の実施例に記載の中間層を示す概略図である。
図4】本願の実施例による初期ニューラルネットワークモデルに基づいてニューラルネットワークモデルを取得することを示す概略図である。
図5】本願の実施例によるマルコフモデルのいずれか一層の転移確率を示す概略図である。
図6】本願の実施例によるマルコフモデルのM回目の反復訓練を示すフローチャートである。
図7】本願の実施例による画像処理装置の構造を示す概略図である。
図8】本願の実施例による電子機器の構造を示す概略図である。
【発明を実施するための形態】
【0037】
本願の実施例又は関連技術における技術的解決手段をより明確に説明するために、以下、実施例又は関連技術の記述に必要な図面を簡単に説明する。無論、下記記述における図面は、本願の幾つかの実施例であり、当業者は、創造的労働を行うことなく、これらの図面に基づいてその他の関連する図面を得ることもできる。
【0038】
上記図面によって本願の明確な実施例を示し、以下にさらに詳しく記述する。これらの図面及び文字的な記述は、如何なる方式により本願の概念の範囲を制限するためのものではなく、特定の実施例を参照しながら、当業者のために、本願の概念を説明する。
【0039】
本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本出願の一部の実施例である。本願の実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本願の保護の範囲に含まれる。
【0040】
本願の実施例は、端末機器、コンピュータシステム及びサーバなどの電子機器に適用可能であり、それは、多くの他の汎用又は専用コンピューティングシステム環境又は構成と共に操作することができる。端末機器、コンピュータシステム、サーバなどの電子機器と共に使用されることに適する周知の端末機器、コンピューティングシステム、環境及び/又は構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド又はラップトップ機器、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス製品、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステム及び上記如何なるシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これに限定されない。
【0041】
端末機器、コンピュータシステム、サーバなどの電子機器は、コンピュータシステムにより実行されるコンピュータシステムによる実行可能な命令(例えばプログラムモジュール)の一般的なコンテキストにおいて記述されてもよい。一般的には、プログラムモジュールは、ルーチン、プログラム、ターゲットプログラム、コンポーネント、ロジック、データ構造などを含んでもよく、それらは、特定のタスクを実行するか又は特定の抽象的データタイプを実現させる。コンピュータシステム/サーバは、分散型クラウドコンピューティング環境において実施されてもよい。分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを介してリンクされるリモート処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶機器を含むローカル又はリモートコンピューティングシステム記憶媒体に位置してもよい。
【0042】
本願の下記実施例において、方法の実施例の実行主体がいずれも端末機器であることを例として説明する。
【0043】
本願の画像処理の技術的解決手段は一般的には、画像から画像特徴を抽出する必要があるアプリケーションに適用可能である。例えば、本願の画像処理の技術的解決手段は、通行者検索、顔認識結果、顔位置検出、顔キーポイント検出、人体位置検出、人体動作検出、人体キーポイント検出、ジェスチャー認識、手位置検出、通行者認識、車両認識、シーン認識及び生体検出などのアプリケーションに適用可能である。上記から分かるように、通行者検索、顔認識、顔位置検出、顔キーポイント検出、人体位置検出、人体動作検出、人体キーポイント検出、ジェスチャー認識、手位置検出、通行者認識、車両認識、シーン認識及び生体検出などの種々のアプリケーションはいずれも、本願の枝刈りに基づいて形成されたニューラルネットワークモデルを用いることができる。本願は、画像処理の技術的解決手段及び枝刈りに基づいて形成されたニューラルネットワークモデルの適用シーンを制限しない。
【0044】
本願の適用シーンをより良好に理解するために、例示的に、図1は、本願の例による画像処理方法の適用シーンを示す概略図である。図1に示すように、端末機器11と、カメラ12と、を備え、端末機器11は、カメラ12により、カメラの前方の顔画像を収集することができ、端末機器11は、本願の画像処理方法に基づいて、収集された画像に対して処理を行い、画像における顔を認識し、後続の操作を実行することができる。例えば、収集された顔情報に基づいて端末機器をアンロックすることができる。
【0045】
本願の実施例は、画像処理方法及び装置、電子機器並びに記憶媒体を提供する。該方法において、画像特徴を取得するためのニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであり、該保持確率は、統計モデルにより決定される。本願において、該方法によれば、所定の演算量要件下で初期ニューラルネットワークモデルに対して枝刈りを行うことができ、また、取得されたニューラルネットワークモデルは、モデルの精度を向上させることができる。
【0046】
図2は、本願の実施例による画像処理方法を示すフローチャートである。図2に示すように、該方法は、以下を含んでもよい。
【0047】
S101において、処理待ち画像をニューラルネットワークモデルに入力する。
【0048】
処理待ち画像は、1枚のピクチャ又は写真であってもよく、ビデオにおける1フレームの画像であってもよい。
【0049】
処理待ち画像に含まれるコンテンツは、実際の適用シーンに応じて決定されてもよい。例えば、本願の画像処理方法は、通行者検索、顔認識、顔位置検出又は顔キーポイント検出などの、顔に関わるアプリケーションに適用される場合、該処理待ち画像は、顔を含む画像であってもよく、処理待ち画像における顔は、正面顔であってもよく、横顔であってもよい。例えば、本願の画像処理方法は、通行者検索、通行者認識、人体キーポイント検出、人体位置検出又は人体動作検出などの、人体に関わるアプリケーションに適用される場合、該処理待ち画像は、人体を含む画像であってもよい。例えば、本願の画像処理方法は、ジェスチャー検出又は手位置検出などの、手に関わるアプリケーションに適用される場合、該処理待ち画像は、手を含む画像であってもよい。例えば、本願の画像処理方法は、車両認識などの、車両に関わるアプリケーションに適用される場合、該処理待ち画像は、車両を含む画像であってもよい。例えば、本願の画像処理方法は、シーン認識などの、シーンに関わるアプリケーションに適用される場合、該処理待ち画像は、シーンを含む画像であってもよい。例えば、本願の画像処理方法は、生体検出などの、生体に関わるアプリケーションに適用される場合、該処理待ち画像は、生体(例えば、生きている人間、生きている猫、生きている犬など)を含む画像であってもよい。
【0050】
ニューラルネットワークモデルは、少なくとも2つの中間層を含み、各中間層は、複数のニューロンを含む。図3は、本願の実施例による中間層を示す概略図である。図3に示すように、中間層は、入力層と出力層との間に位置し、中間層は例えば隠れ層であってもよい。例えば、該ニューラルネットワークモデルが畳み込みニューラルネットワークモデルである場合、該中間層は、畳み込み層であってもよい。
【0051】
該ニューラルネットワークモデルは、残差ネットワーク(Residual Network:ResNet)、MobileNet、MobileNet-v2のうちのいずれか1つであってもよい。
【0052】
ここで、該ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであってもよく、初期ニューラルネットワークモデルにおけるニューロンの保持確率は、所定の統計モデルに基づいて取得されたものである。
【0053】
可能な実現形態において、ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるいずれか1つの中間層のニューロンの保持確率に基づいて、初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものである。即ち、初期ニューラルネットワークモデルにおける1つの中間層のニューロンのみに対して枝刈りを行うことができる。
【0054】
別の可能な実現形態において、ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおける複数の中間層のニューロンの保持確率に基づいて、初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものである。即ち、初期ニューラルネットワークモデルにおける2つ以上の一部の中間層のニューロンに対して枝刈りを行うことができる。ここで、2つ以上の一部の中間層は、連続したものであってもよく、連続したものではなくてもよい。初期ニューラルネットワークモデルにおける各中間層のニューロンに対して枝刈りを行うこともできる。
【0055】
初期ニューラルネットワークモデルにおいて、1つのニューロンの保持確率に基づいて、該ニューロンを保持すると決定した場合、該ニューロンを上記ニューラルネットワークモデルに保持する。1つのニューロンの保持確率に基づいて、該ニューロンを保持しないと決定した場合、該ニューロンは、上記ニューラルネットワークモデルに保持されず、即ち、該ニューロンは、枝刈りされる。ニューロンの保持確率は、所定の統計モデルに基づいて訓練を行うことで得られたものであるため、所定の統計モデルにより決定されたニューロンの保持確率に基づいて、所定の演算量要件下で初期ニューラルネットワークモデルに対して枝刈りを行うことができ、また、取得されたニューラルネットワークモデルは、モデルの精度を向上させることができる。
【0056】
S102において、ニューラルネットワークモデルにより、処理待ち画像の画像特徴を出力する。
【0057】
処理待ち画像をニューラルネットワークモデルの各層のニューロンにより処理した後、
処理待ち画像の画像特徴を出力する、該画像特徴は、例えば、処理待ち画像の特徴画像であってもよい。
【0058】
一実現形態において、ステップ102の後に、該方法は、
得られた画像特徴に基づいて、通行者検索と、顔認識と、顔位置検出と、顔キーポイント検出と、人体位置検出と、人体動作検出と、人体キーポイント検出と、ジェスチャー認識と、手位置検出と、通行者認識と、車両認識と、シーン認識と、生体検出と、のうちの少なくとも1つの処理を行うことを更に含んでもよい。処理方式は、適用シーンの需要によって決まる。
【0059】
本願の実施例で提供される画像処理方法は、処理待ち画像をニューラルネットワークモデルに入力することによって、処理待ち画像の画像特徴を取得する。ここで、ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものである。ニューロンの保持確率は、所定の統計モデルに基づいて訓練を行うことで得られたものであるため、所定の統計モデルにより決定されたニューロンの保持確率に基づいて、所定の演算量要件下で初期ニューラルネットワークモデルに対して枝刈りを行うことができ、また、取得されたニューラルネットワークモデルは、モデルの精度を向上させることができる。
【0060】
初期ニューラルネットワークモデルに基づいてニューラルネットワークモデルを取得する方法に対して、
可能な実現形態において、ステップS101の前に、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、ニューラルネットワークモデルを取得することができる。
【0061】
別の可能な実現形態において、ステップS101の前に、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得し、訓練待ちニューラルネットワークモデルに対して訓練を行い、ニューラルネットワークモデルを得ることができる。
【0062】
例示的に、サンプルデータ集合を用いて、訓練待ちニューラルネットワークモデルに対して所定の回数の訓練を行った後に、ニューラルネットワークモデルを得ることができる。
【0063】
ここで、可能な実現形態において、訓練待ちニューラルネットワークモデルに対して訓練を行い、ニューラルネットワークモデルを得る前に、訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行うこともできる。訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行うことによって、初期ニューラルネットワークモデルにおけるニューロンのパラメータが枝刈り後に取得された訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに与える干渉を低減させることができる。
【0064】
例示的に、図4は、初期ニューラルネットワークモデルに基づいてニューラルネットワークモデルを取得することを示す概略図である。図4に示すように、初期ニューラルネットワークモデルに2つの中間層(入力層及び出力層が図示されず)が含まれ、各中間層が10個のニューロンを含み、初期ニューラルネットワークモデルにおけるニューロンの初期パラメータがランダムなものであるとする。初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて初期ニューラルネットワークモデルに対して枝刈りを行うことによって取得された訓練待ちニューラルネットワークモデルは例えば2つの中間層を含み、1番目の中間層に、初期ニューラルネットワークモデルの第1層における最初の6個のニューロンが保持されており、2番目の中間層に、初期ニューラルネットワークモデルの第2層における最初の8個のニューロンが保持されている。サンプルデータ集合を用いて訓練待ちニューラルネットワークモデルに対して訓練を行うことによって、上記ニューラルネットワークモデルを得ることができる。
【0065】
上記実施例において、所定の統計モデルは、例えば、マルコフモデル、ベルヌーイ分布モデルなどであってもよい。本実施例は、マルコフモデルを例として説明する。
【0066】
上記所定の統計モデルがマルコフモデルである場合、上記実施例において、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得する前に、下記ステップを更に含んでもよい。
【0067】
マルコフモデルに基づいて、初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得する。ここで、マルコフモデルのいずれか一層におけるk番目のニューロンの転移確率
は、最初のk-1個のニューロンが保持された前提下でのk番目のニューロンの保持確率を表すためのものであり、kは、1以上の整数である。
【0068】
例示的に、図5は、マルコフモデルのいずれか一層の転移確率を示す概略図である。図5に示すように、
は、保持された最初の1つのニューロンであり、
は、保持された最初のk個のニューロンであり、
は、枝刈りされたニューロンであり、Tは、枝刈りプロセスが終了することを表し、
は、最初の1つのニューロンが保持される確率であり、
は、最初の1つのニューロンが枝刈りされる確率であり、
は、最初のk-1個のニューロンが保留された前提下でのk番目のニューロンが保持される確率であり、
は、最初のk-1個のニューロンが保持された前提下でのk番目のニューロンが枝刈りされる確率であり、ここで、
は、下記式(1)で表されてもよい。
(1)
【0069】
ここで、
は、訓練されたパラメータであり、
は、kが2以上である場合の
の値である。
【0070】
下記実施例は、マルコフモデルを如何に訓練するかに重点を置いて説明する。
【0071】
マルコフモデルは、N回の反復訓練により取得されたものであり、N回の反復訓練のうちのM回目は、M回目の反復訓練と記されてもよい。ここで、Nは、1以上の整数であり、Nの大きさは、実際の状況に応じて決定されてもよい。Mは、1以上且つN以下の整数である。
【0072】
図6は、本願の実施例によるマルコフモデルのM回目の反復訓練を示すフローチャートである。図6に示すように、該方法は以下を含んでもよい。
【0073】
S201において、M回目の反復プロセスにおいて、M-1番目の初期ニューラルネットワークモデルに対して、M-1番目のマルコフモデルに基づいて枝刈り処理を行い、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを得る。
【0074】
例えば、1回目の反復プロセスにおいて、0番目の初期ニューラルネットワークモデルは、例えば、ランダムパラメータを有する初期ニューラルネットワークモデルであってもよく、0番目のマルコフモデルは、ランダムパラメータを有するマルコフモデルであってもよい。ランダムパラメータを有するマルコフモデルに基づいて、ランダムパラメータを有する初期ニューラルネットワークモデルに対して枝刈り処理を行い、0番目の初期ニューラルネットワークモデルのサブネットワークモデルを取得する。
【0075】
例示的に、ランダムパラメータを有する初期ニューラルネットワークモデルが2つの中間層を含み、各中間層が10個のニューロンを含み、1回目の反復プロセスにおいて、枝刈りを行った後、0番目の初期ニューラルネットワークモデルのサブネットワークモデルにおいて、1番目の中間層に最初の9個のニューロンが保持されており、2番目の中間層に最初の8個のニューロンが保持されているとする。
【0076】
また例えば、2回目の反復プロセスにおいて、1回目の反復プロセスにおいて取得された1番目の初期ニューラルネットワークモデルに対して、1番目のマルコフモデルに基づいて枝刈り処理を行い、1番目の初期ニューラルネットワークモデルのサブネットワークモデルを取得する。
【0077】
例示的に、1番目の初期ニューラルネットワークモデルは2つの中間層を含み、各中間層は、10個のニューロンを含み、2回目の反復プロセスにおいて、枝刈りを行った後、1番目の初期ニューラルネットワークモデルのサブネットワークモデルにおいて、1番目の中間層に最初の8個のニューロンが保持されており、2番目の中間層に最初の7個のニューロンが保持されている。
【0078】
後続の反復プロセスは、2回目の反復プロセスと同様であり、本願の実施例は、詳細な説明を省略する。
【0079】
S202において、M回目の反復プロセスにおいて、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを訓練し、第1損失関数を取得し、第1損失関数により決定される第1勾配をM-1番目の初期ニューラルネットワークモデルに返送し、対応するニューロンを更新し、M番目の初期ニューラルネットワークモデルを得る。
【0080】
ここで、第1損失関数は、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルの精度を表すためのものである。例示的に、第1損失関数は、平均二乗誤差(mean-square error:MSE)の損失関数、クロスエントロピー(Cross Entropy)損失関数などのうちのいずれか1つであってもよい。
【0081】
例示的に、サンプルデータ集合をM-1番目の初期ニューラルネットワークモデルのサブネットワークモデルに入力し、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを訓練し、訓練が完了した後に、対応する第1損失関数を取得することができる。第1損失関数に対して微分演算を行った後に第1勾配を取得し、第1勾配を勾配降下法の方式によりM-1番目の初期ニューラルネットワークモデルに対応するニューロンに返送し、M番目の初期ニューラルネットワークモデルを得る。該M番目の初期ニューラルネットワークモデルは、M+1回の反復プロセスに用いることができる。
【0082】
2回目の反復プロセスを例として説明すると、1番目の初期ニューラルネットワークモデルのサブネットワークモデルにおいて、1番目の中間層に最初の8個のニューロンが保持されており、2番目の中間層に最初の7個のニューロンが保持されている。1番目の初期ニューラルネットワークモデルのサブネットワークモデルを訓練し、第1損失関数を取得し、第1損失関数により決定される第1勾配を1番目の初期ニューラルネットワークモデルに対応するニューロンに返送する。第1勾配を用いて1番目の初期ニューラルネットワークモデルの1番目の中間層の最初の8個のニューロンのパラメータを更新し、また、2番目の中間層の最初の7個のニューロンを更新した後、2番目の初期ニューラルネットワークモデルを得る。
【0083】
S203において、M回目の反復プロセスにおいて、M番目の初期ニューラルネットワークモデルにサンプル画像を入力し、M番目の初期ニューラルネットワークモデルの各ニューロンの出力結果と、M-1番目のマルコフモデルにおける対応するニューロンの保持確率と、を乗算する。
【0084】
2回目の反復プロセスを例として説明する。2番目の初期ニューラルネットワークモデルにサンプル画像を入力する。2番目の初期ニューラルネットワークモデルのいずれか一層に対して、該層におけるk番目のニューロンの出力結果を
と記するとすれば、該出力結果
と該層におけるk番目のニューロンの保持確率とを乗算する。即ち、式(2)に示すとおりである。
(2)
【0085】
ここで、
は、該層におけるk番目のニューロンの保持確率であり、
は、該層におけるK番目のニューロンの出力結果
と該層におけるk番目のニューロンの保持確率とを乗算した後の出力結果である。
【0086】
ここで、いずれか一層におけるk番目のニューロンの保持確率
は、いずれか一層におけるk番目のニューロンの転移確率
により決定されてもよい。これは、下記式(3)に示すとおりである。
(3)
【0087】
ここで、
は、該層におけるk-1番目のニューロンの保持確率であり、
は、該層におけるk-1番目のニューロンが保持された場合のk番目のニューロンが保持される確率であり、
は、該層におけるk-1番目のニューロンが保持されない確率であり、
は、該層におけるk-1番目のニューロンが保持されない場合のk番目のニューロンが保持される確率である。式(3)を単純化することによって、いずれか一層におけるk番目のニューロンの保持確率
と該層におけるk番目のニューロンの転移確率
との変換関係を得ることができる。
【0088】
S204において、M回目の反復プロセスにおいて、M番目の初期ニューラルネットワークモデルの第2損失関数を取得する。
【0089】
ここで、第2損失関数は、M番目の初期ニューラルネットワークモデルの精度及び/又は演算量を表すためのものである。
【0090】
例示的に、第2損失関数がM番目の初期ニューラルネットワークモデルの精度及び/又は演算量を表すためのものである場合、第2損失関数は、式(4)で表されてもよい。
(4)
【0091】
ここで、Lossは、第2損失関数であり、
は、精度の損失関数であり、
は、演算量の損失関数であり、
は、所定のパラメータであり、

を同程度にするためのものである。
【0092】
2回目の反復プロセスを例として説明すると、入力されたサンプル画像及び2番目の初期ニューラルネットワークモデルの最終的な出力結果に基づいて、2番目の初期ニューラルネットワークモデルに対応する第2損失関数を取得することができる。
【0093】
S205において、M回目の反復プロセスにおいて、第2損失関数により決定される第2勾配をM-1番目のマルコフモデルに返送し、M番目のマルコフモデルを得る。
【0094】
ここで、第2損失関数に対して微分演算を行った後に、対応する第2勾配を取得することができる。第2勾配は、下記式(5)から(7)で表されてもよい。
(5)
(6)
(7)
【0095】
ここで、式(5)から(7)における
は、式(1)における第i層の
を表し、
は、第2損失関数により上記式(1)におけるマルコフモデルにおけるパラメータの偏微分を求めたものであり、即ち、第2勾配であり、
は、第2損失関数により式(3)における出力の偏微分を求めたものであり、
は、式(3)における主力に対してマルコフモデルにおけるパラメータの偏微分を求めたものであり、
は、式(2)における第i層のk番目のニューロンの出力である。
【0096】
2回目の反復プロセスを例として説明すると、第2損失関数に基づいて決定される第2勾配を1番目のマルコフモデルに返送し、2番目のマルコフモデルを得る。
【0097】
N回目の反復プロセスにおいて、第2損失関数に基づいて決定される第2勾配をN-1番目のマルコフモデルに返送することによって得られたN番目のマルコフモデルを訓練した後に、N番目のマルコフモデルは、上記マルコフモデルである。
【0098】
本願の実施例は、マルコフモデルを訓練するプロセスにおいて、マルコフモデルにおける確率を学習可能なパラメータと定義し、マルコフモデルと初期ニューラルネットワークモデルを整合して訓練し、マルコフモデルにおけるパラメータを最適化する。本願の実施例で提供される方法において、訓練効率が高く、訓練されたマルコフモデルを用いて初期ニューラルネットワークモデルに対して枝刈りを行った後に取得されたニューラルネットワークモデルは、所定の演算量要件を満たすと同時に、モデルの精度を向上させることができる。
【0099】
深層学習は、AI(Artificial Intelligence:人工知能)に関連する製品において、極めて重要な役割を果たしている。例えば、物体検出、顔認識などである。深層学習の特徴は、パラメータ量、演算量がいずれも非常に大きい深層モデルを必要とすることである。これらの深層モデルは、実際の適用シーンにおいて、ハードウェアの演算能力、記憶空間などに制限され、それと同時に、ターゲットタスクの運行速度に関わる要件も求められる。
【0100】
モデル枝刈りは、深層モデルが大きすぎることを軽減するための検討動向の1つである。しかしながら、モデル枝刈りは、モデルの精度の損失を引き起こす。モデルのチャネル数に対して枝刈りを行った後に、モデルの演算量を減少させ、記憶スペースを減少させることができるが、モデルの精度の低下を引き起こし、それにより製品の精度要件に達することができない。
【0101】
モデル枝刈りは、多くのシーンにおいて非常に重要な役割を果たしている。例えば、防犯分野の通行者検出において、枝刈りにより記憶スペースを減少させ、運行効率を速くすることができる。顔検出認識タスクにおいて、モデル枝刈りは、大きいモデルにおける冗長なパラメータに対して枝刈りを行い、モデルを軽量化することができる。
【0102】
関連技術において、主に、幾つかの人為的に設定されたルール(例えば、パラメータノルムの大きさ)に基づいて枝刈りを行う。モデル枝刈りに、依然として大きなモデル精度損失がある。モデル検索の方式を用いた技術の効率が低く、一般的には、強化学習又は遺伝的アルゴリズムを用いる。
【0103】
本願の実施例において、モデル枝刈りをモデル検索と定義し、モデルのチャネル数を直接的に検索するという画像処理方法を提出する。モデルに対して該方法で枝刈りを行った後、モデルの演算量は、著しく低下すると同時に、精度は不変のまま保持されるか又は性能要件を満たす前提下で僅かに低下する。主に、下記ステップS301からステップS303を含む。
【0104】
ステップS301において、元モデルにおける各層の畳み込み層の枝刈りプロセスを1つのマルコフモデルと定義する。
【0105】
ここで、前記元モデルは、初期ニューラルネットワークモデルであってもよく、前記初期ニューラルネットワークモデルは、残差ネットワーク(Residual Network:ResNet)、MobileNet、MobileNet-v2などであってもよく、前記初期ニューラルネットワークモデルは、少なくとも2つの中間層を含んでもよく、各中間層は、複数のニューロンを含んでもよい。前記初期ニューラルネットワークモデルが畳み込みニューラルネットワークモデルである場合、前記中間層は、畳み込み層であってもよい。マルコフモデルにより、前記元モデルにおける各層の畳み込み層のニューロンの保持確率を取得することができる。
【0106】
図5は、一層の畳み込み層の枝刈りプロセスであるマルコフモデルを示す。図5に示すように、
は、該層に最初のk個のチャネルが保持されることを表し、
は、枝刈りされたニューロンであり、Tは、枝刈りプロセスが終了することを表す。
は、最初のk-1番目のチャネルが保持された前提下でのk番目のチャネルchannelを保持する確率を表し、
は、最初のk-1個のニューロンが保持された前提下でのk番目のニューロンが枝刈りされる確率である。
は、式(1)で表される。
(1)
【0107】
ここで、チャネルは、ニューロンと理解されてもよく、余分なチャネルは枝刈りされ、
は、学習可能な訓練されたパラメータであり、
は、kが2以上である場合の
の値である。
【0108】
ステップS302において、前記元モデルに対して枝刈り処理を行う。
【0109】
ここで、前記各層の畳み込み層のニューロンの保持確率に基づいて、前記元モデルに対して枝刈り処理を行うことができる。なお、前記元モデルにおけるいずれか一層のニューロンの保持確率のみに基づいて、前記元モデルに対して枝刈り処理を行うこともできる。更に、前記元モデルにおける多層の畳み込み層のニューロンの保持確率に基づいて、前記元モデルに対して枝刈り処理を行うこともできる。ステップS302は、下記ステップS3021と、ステップS3022と、を含んでもよい。
【0110】
ステップS3021において、構築されたマルコフモデルを利用して、元モデルからサブ構造をサンプリングし、ターゲットデータ集合上でこれらのサブ構造を訓練し、サブ構造のモデルパラメータが元モデルと共有されるため、サブ構造における返送される勾配が直接的に元モデル上に更新される。
【0111】
ここで、前記サブ構造は、前記初期ニューラルネットワークモデルのサブネットワークモデルと理解されてもよい。前記ターゲットデータ集合は、サンプルデータ集合であってもよく、前記勾配は、第1勾配であってもよい。元モデルが1番目の初期ニューラルネットワークモデルであり、前記マルコフモデルが1番目のマルコフモデルであるとすれば、1番目のマルコフモデルに基づいて、1番目の初期ニューラルネットワークモデルに対して枝刈り処理を行い、1番目の初期ニューラルネットワークモデルのサブネットワークモデルをサンプリングすることができる。サンプルデータ集合を1番目の初期ニューラルネットワークモデルのサブネットワークモデルに入力し、1番目の初期ニューラルネットワークモデルのサブネットワークモデルを訓練し、訓練が完了した後に、対応する第1損失関数を取得し、前記第1損失関数に対して微分演算を行った後に、第1勾配を取得し、前記第1勾配を勾配降下法の方式により1番目の初期ニューラルネットワークモデルに対応するニューロンに返送し、前記1番目の初期ニューラルネットワークモデルを更新し、2番目の初期ニューラルネットワークモデルを得る。
【0112】
ステップS3022において、マルコフモデルにおけるパラメータに対して下記式(3)に応じて演算を行い、各チャネルが保持される確率を得て、各ニューロンの保持確率と元モデルにおける対応するニューロンの出力結果を統合し、統合結果は、
であり、統合方式は、下記式(2)に示すように、
と畳み込み層の出力における対応するチャネルとを乗算することであり、統合後にターゲットデータ集合上で訓練を行い、
を最適化し、
を最適化する損失関数は、下記式(4)で表される。
(3)
(2)
(4)
【0113】
ここで、前記パラメータは、マルコフモデルにおけるいずれか一層におけるk番目のニューロンの転移確率であってもよく、前記転移確率は、最初のk-1個のニューロンが保持された前提下でのk番目のニューロンの保持確率を表すためのものである。マルコフモデルが1番目のマルコフモデルであるとすれば、1番目のマルコフモデルにおける対応するニューロンの保持確率の演算方式は、上記式(3)に示すとおりであってもよい。
は、該層におけるk-1番目のニューロンの保持確率であり、
は、該層におけるk-1番目のニューロンが保持された場合のk番目のニューロンが保持される確率であり、
は、該層におけるk-1番目のニューロンが保持されない確率であり、
【0114】
は、該層におけるk-1番目のニューロンが保持されない場合のk番目のニューロンが保持される確率である。式(3)を単純化することによって、いずれか一層におけるk番目のニューロンの保持確率
と該層におけるk番目のニューロンの転移確率
との変換関係を得ることができる。
【0115】
上記式(2)に示すように、2番目の初期ニューラルネットワークモデルにサンプル画像を入力し、2番目の初期ニューラルネットワークモデルにおけるk番目のニューロンの出力結果
と、1番目のマルコフモデルにおけるk番目のニューロンの保持確率
と、を乗算し、2番目の初期ニューラルネットワークモデルにおけるk番目のニューロンの最終的な出力結果
を得ることができる。
【0116】
ターゲットデータ集合がサンプル画像である場合、入力されたサンプル画像及び2番目の初期ニューラルネットワークモデルの最終的な出力結果
に基づいて、2番目の初期ニューラルネットワークモデルに対応する第2損失関数
を取得することができる。前記第2損失関数の演算方式は、上記式(3)に示すとおりである。ここで、
は、ユーザにより定義されたタスクの損失関数であり、
は、ユーザにより規定された演算量の制約関数であり、
は、所定のハイパーパラメータである。
【0117】
ステップS303において、枝刈りが完了した構造を取得し、再訓練を行う。
【0118】
ここで、
を最適化した後、第2損失関数により決定される第2勾配を1番目のマルコフモデルに返送することによって、最適化した2番目のマルコフモデルを得ることができる。同様に、ステップS3021における記述に示すように、2番目のマルコフモデルに基づいて、2番目の初期ニューラルネットワークモデルに対して枝刈り処理を行い、2番目の初期ニューラルネットワークモデルのサブネットワークモデルをサンプリングし、2番目の初期ニューラルネットワークモデルのサブネットワークモデルに対して訓練を行い、対応する損失関数を取得し、損失関数に対して微分演算を行うことによって勾配を取得し、前記勾配を2番目の初期ニューラルネットワークモデルに返送し、前記2番目の初期ニューラルネットワークモデルを更新し、3番目の初期ニューラルネットワークモデルを得る。入力されたサンプル画像及び3番目の初期ニューラルネットワークモデルの最終的な出力結果
に基づいて、3番目の初期ニューラルネットワークモデルに対応する損失関数を取得し、前記損失関数に基づいて勾配を取得し、勾配を2番目のマルコフモデルに返送し、最適化した3番目のマルコフモデルを得る。同様に、N回の反復の方式により、初期ニューラルネットワークモデル及びマルコフモデルに対して絶え間なく更新を行い、枝刈りが完了したニューラルネットワークモデルを得て、枝刈りが完了したニューラルネットワークモデルのパラメータをランダムに初期化し、元モデルと同一の構成を用いてターゲットデータ集合上でパラメータ初期化後のニューラルネットワークモデルを訓練することによって、ターゲット演算量に合致するニューラルネットワークモデルを得ることができる。前記ニューラルネットワークモデルに処理待ち画像を入力することができる。前記ニューラルネットワークモデルは、前記処理待ち画像の画像特徴を出力することができる。
【0119】
本願の実施例における方法は、モデル枝刈りを1つのモデル検索プロセスと定義し、検索法方式は、1つのマルコフモデルを構築し、マルコフプロセスによりサブ構造をサンプリングすることである。マルコフモデルにおける確率を学習可能なパラメータと定義し、元モデルに整合し、勾配降下の方式で該パラメータを最適化し、効率を大幅に向上させる。本アルゴリズムによれば、同一の演算量で、モデルの精度は、従来技術に比べて著しく向上する。ユーザにより提供される任意の演算量で、本方法は、該演算量に合致するモデルを提供することができる。一般的に用いられるモデルにおいて、同一の演算量の場合、該アルゴリズムにより得られたモデルの精度は、関連アルゴリズムに比べて明らかに向上する。
【0120】
本願の実施例で提供される画像処理方法は、防犯シーンにおける種々のタス(例えば、通行者検出、顔認識)に適用可能であり、該画像処理方法を利用して、モデルに対して枝刈りを行い、モデルの大きさを圧縮し、モデルの演算速度を速くすることができる。該画像処理方法は、演算量が低いと同時に精度が高い大量のモデルを顧客のために提供することができ、これらのモデルは、物体検出、通行者属性認識などのタスクに適用可能である。
【0121】
上記各方法の実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現されることは、当業者であれば理解されるべきである。前記プログラムは、コンピュータ可読記憶媒体に記憶されてもよい。該プログラムが実行される場合、上記各方法の実施例のステップを実行する。前記記憶媒体は、ROM、RAM、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる種々の媒体を含む。
【0122】
図7は、本願の実施例による画像処理装置の構造を示す概略図である。図7に示すように、該装置は、メモリに記憶されている入力モジュール21及び出力モジュール22というプログラムモジュールを実行するように構成されるプロセッサを備える。ここで、
入力モジュール21は、処理待ち画像をニューラルネットワークモデルに入力するように構成される。
【0123】
出力モジュール22は、ニューラルネットワークモデルにより、処理待ち画像の画像特徴を出力するように構成される。
【0124】
ここで、ニューラルネットワークモデルは、少なくとも2つの中間層を含み、各中間層は、複数のニューロンを含み、ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであり、初期ニューラルネットワークモデルにおけるニューロンの保持確率は、所定の統計モデルに基づいて取得されたものである。
【0125】
引き続き図7を参照すると、幾つかの可能な実現形態において、該装置は、処理モジュール23を更に備える。ここで、処理モジュール23は、入力モジュール21が処理待ち画像をニューラルネットワークモデルに入力する前に、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得し、訓練待ちニューラルネットワークモデルに対して訓練を行い、ニューラルネットワークモデルを得るように構成される。
【0126】
幾つかの可能な実現形態において、所定の統計モデルは、マルコフモデルであり、処理モジュール23は更に、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得する前に、マルコフモデルに基づいて、初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得するように構成され、ここで、マルコフモデルのいずれか一層におけるk番目のニューロンの転移確率
は、最初のk-1個のニューロンが保持された前提下でのk番目のニューロンの保持確率を表すためのものであり、kは、1以上の整数である。
【0127】
幾つかの可能な実現形態において、マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、ここで、M回目の反復訓練において、Mは、1以上且つN以下の整数であり、処理モジュール23は更に、M回目の反復プロセスにおいて、M-1番目の初期ニューラルネットワークモデルに対して、M-1番目のマルコフモデルに基づいて枝刈り処理を行い、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを得て、M回目の反復プロセスにおいて、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを訓練し、第1損失関数を取得し、第1損失関数により決定される第1勾配をM-1番目の初期ニューラルネットワークモデルに返送し、対応するニューロンを更新し、M番目の初期ニューラルネットワークモデルを得て、M回目の反復プロセスにおいて、M番目の初期ニューラルネットワークモデルにサンプル画像を入力し、M番目の初期ニューラルネットワークモデルの各ニューロンの出力結果と、M-1番目のマルコフモデルにおける対応するニューロンの保持確率と、を乗算し、M回目の反復プロセスにおいて、M番目の初期ニューラルネットワークモデルの第2損失関数を取得し、M回目の反復プロセスにおいて、第2損失関数により決定される第2勾配をM-1番目のマルコフモデルに返送し、M番目のマルコフモデルを得るように構成され、前記第1損失関数は、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルの精度を表すためのものであり、第2損失関数は、M番目の初期ニューラルネットワークモデルの精度及び/又は演算量を表すためのものである。
【0128】
幾つかの可能な実現形態において、処理モジュール23は更に、訓練待ちニューラルネットワークモデルに対して訓練を行い、ニューラルネットワークモデルを得る前に、訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行うように構成される。
【0129】
幾つかの可能な実現形態において、ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるいずれか1つの中間層のニューロンの保持確率又は複数の中間層のニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものである。
【0130】
幾つかの可能な実現形態において、処理モジュール23は更に、出力モジュール22がニューラルネットワークモデルにより処理待ち画像の画像特徴を出力した後、得られた画像特徴に基づいて、通行者検索と、顔認識と、顔位置検出と、顔キーポイント検出と、人体位置検出と、人体動作検出と、人体キーポイント検出と、ジェスチャー認識と、手位置検出と、通行者認識と、車両認識と、シーン認識と、生体検出と、のうちの少なくとも1つの処理を行うように構成される。
【0131】
本願の図7に示す実施例で提供される画像処理装置は、上記方法の実施例における端末機器の動作を実行することができる。例えば、該画像処理装置は、端末機器自体であってもよく、端末機器の1つのチップであってもよい。
【0132】
図8は、本願の実施例による電子機器の構造を示す概略図である。図8に示すように、該電子機器は、メモリ91と、少なくとも1つのプロセッサ92と、を備える。
【0133】
メモリ91は、プログラム命令を記憶するように構成される。
【0134】
プロセッサ92は、プログラム命令が実行される場合、本願の実施例における画像処理方法を実現させるように構成され、その実現原理は、上記実施例を参照することができ、本実施例は、ここで詳細な説明を省略する。
【0135】
該電子機器は、入力/出力インタフェース93を更に備えてもよい。
【0136】
入力/出力インタフェース93は、独立した出力インタフェース及び入力インタフェースを含んでもよく、入力と出力を集積した集積インタフェースであってもよい。ここで、出力インタフェースは、データを出力するように構成され、入力インタフェースは、入力されるデータを取得するように構成され、上記出力されるデータは、上記方法の実施例における出力の総称であり、入力されるデータは、上記方法の実施例における入力の総称である。
【0137】
本願の実施例は、可読記憶媒体を更に提供する。可読記憶媒体に実行可能な命令が記憶されており、電子機器の少なくとも1つのプロセッサが該実行可能な命令を実行し、コンピュータ実行可能な命令がプロセッサにより実行される場合、プロセッサに上記実施例における画像処理方法を実現させる。
【0138】
本願は、プログラム製品を更に提供する。該プログラム製品は、実行可能な命令を含み、該実行可能な命令は、可読記憶媒体に記憶される。画像処理装置の少なくとも1つのプロセッサは、可読記憶媒体から該実行可能な命令を読み取ることができ、少なくとも1つのプロセッサは、該実行可能な命令を実行し、画像処理装置に、上記各種の実施形態で提供される画像処理方法を実行させる。
【0139】
最後に説明しておきたいこととして、上記各実施例は本願の技術的解決手段を説明するためのものだけであり、これを限定するものではなく、本願の保護範囲はこれに制限されるものではない。前記各実施例を参照しながら、本願を詳細に説明したが、本技術分野を周知するいかなる当業者であれば、本願で開示された技術的範囲内で、前記実施例に記載の技術的解決手段に対して修正を行うことができるか又は一部の技術的特徴に対して均等物による置換を行うことができ、これらの修正又は置換は、対応する技術的解決手段の本質を本願の実施例の技術的解決手段の精神及び範囲から離脱させるものではないことは、理解すべきである。
【産業上の利用可能性】
【0140】
本願の実施例では、処理待ち画像をニューラルネットワークモデルに入力することによって、処理待ち画像の画像特徴を取得する。ここで、ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものである。ニューロンの保持確率は、所定の統計モデルに基づいて訓練を行うことで得られたものであるため、所定の統計モデルにより決定されたニューロンの保持確率に基づいて、所定の演算量要件下で初期ニューラルネットワークモデルに対して枝刈りを行うことができ、また、取得されたニューラルネットワークモデルは、モデルの精度を向上させることができる。
図1
図2
図3
図4
図5
図6
図7
図8
【手続補正書】
【提出日】2021-11-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像処理方法であって、
処理待ち画像をニューラルネットワークモデルに入力することと、
前記ニューラルネットワークモデルにより、前記処理待ち画像の画像特徴を出力することと、を含み、
前記ニューラルネットワークモデルは、少なくとも2つの中間層を含み、各中間層は、複数のニューロンを含み、前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであり、前記初期ニューラルネットワークモデルにおけるニューロンの保持確率は、所定の統計モデルに基づいて取得されたものである、画像処理方法。
【請求項2】
前記処理待ち画像をニューラルネットワークモデルに入力する前に、前記画像処理方法は、
初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得することと、
前記訓練待ちニューラルネットワークモデルに対して訓練を行い、前記ニューラルネットワークモデルを得ることと、を更に含むことを特徴とする
請求項1に記載の画像処理方法。
【請求項3】
前記所定の統計モデルは、マルコフモデルであり、前記初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、訓練待ちニューラルネットワークモデルを取得する前に、
前記マルコフモデルに基づいて、初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得することを更に含み、
前記マルコフモデルのいずれか一層におけるk番目のニューロンの転移確率
は、最初のk-1個のニューロンが保持された前提下でのk番目のニューロンの保持確率を表すためのものであり、kは、1以上の整数であることを特徴とする
請求項2に記載の画像処理方法。
【請求項4】
前記マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、M回目の反復訓練において、Mは、1以上且つN以下の整数であり、
M回目の反復プロセスにおいて、M-1番目の初期ニューラルネットワークモデルに対して、M-1番目のマルコフモデルに基づいて枝刈り処理を行い、M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを得ることと、
M回目の反復プロセスにおいて、前記M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルを訓練し、第1損失関数を取得し、前記第1損失関数により決定される第1勾配を前記M-1番目の初期ニューラルネットワークモデルに返送し、対応するニューロンを更新し、M番目の初期ニューラルネットワークモデルを得ることであって、前記第1損失関数は、前記M-1番目の初期ニューラルネットワークモデルのサブネットワークモデルの精度を表すためのものである、ことと、
M回目の反復プロセスにおいて、前記M番目の初期ニューラルネットワークモデルにサンプル画像を入力し、前記M番目の初期ニューラルネットワークモデルの各ニューロンの出力結果と、前記M-1番目のマルコフモデルにおける対応するニューロンの保持確率と、を乗算することと、
M回目の反復プロセスにおいて、前記M番目の初期ニューラルネットワークモデルの第2損失関数を取得することであって、前記第2損失関数は、前記M番目の初期ニューラルネットワークモデルの精度及び/又は演算量を表すためのものである、ことと、
M回目の反復プロセスにおいて、前記第2損失関数により決定される第2勾配を前記M-1番目のマルコフモデルに返送し、M番目のマルコフモデルを得ることと、を更に含むことを特徴とする
請求項3に記載の画像処理方法。
【請求項5】
前記訓練待ちニューラルネットワークモデルに対して訓練を行い、前記ニューラルネットワークモデルを得る前に、
前記訓練待ちニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行うことを更に含むことを特徴とする
請求項2に記載の画像処理方法。
【請求項6】
前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるいずれか1つの中間層のニューロンの保持確率又は複数の中間層のニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであることを特徴とする
請求項1から5のうちいずれか一項に記載の画像処理方法。
【請求項7】
前記ニューラルネットワークモデルにより前記処理待ち画像の画像特徴を出力した後、前記画像処理方法は、
得られた前記画像特徴に基づいて、通行者検索と、顔認識と、顔位置検出と、顔キーポイント検出と、人体位置検出と、人体動作検出と、人体キーポイント検出と、ジェスチャー認識と、手位置検出と、通行者認識と、車両認識と、シーン認識と、生体検出と、のうちの少なくとも1つの処理を行うことを更に含むことを特徴とする
請求項1から5のうちいずれか一項に記載の画像処理方法。
【請求項8】
前記画像処理方法は、
前記初期ニューラルネットワークモデルにおける各中間層の枝刈りプロセスを1つのマルコフモデルと定義することと、
前記マルコフモデルに基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行い、枝刈りが完了したニューラルネットワークモデルを得ることと、
前記枝刈りが完了したニューラルネットワークモデルにおけるニューロンのパラメータに対してランダマイズ処理を行い、訓練待ちニューラルネットワークモデルを得ることと、
ターゲットデータ集合を利用して、前記訓練待ちニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルを得ることと、を更に含むことを特徴とする
請求項1に記載の画像処理方法。
【請求項9】
前記マルコフモデルは、N回の反復訓練により取得されたものであり、Nは、1以上の整数であり、
M回目の反復訓練において、Mは、1以上且つN以下の整数であり、前記初期ニューラルネットワークモデルに対して枝刈り処理を行い、枝刈りが完了したニューラルネットワークモデルを得ることは、
前記M-1番目のマルコフモデルに基づいて、M-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率を取得することと、
前記M-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、M-1番目の初期ニューラルネットワークモデルから、M-1番目のマルコフモデルのサブネットワークモデルをサンプリングすることと、
訓練されたM-1番目のマルコフモデルのサブネットワークモデルにより返送された第1勾配を利用して、前記M-1番目の初期ニューラルネットワークモデルに対して更新を行い、M番目の初期ニューラルネットワークモデルを得ることと、
前記M番目の初期ニューラルネットワークモデルにサンプル画像を入力する場合、前記M番目の初期ニューラルネットワークモデルのニューロンの出力結果及びM-1番目の初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、第2勾配を決定することと、
前記第2勾配を利用して、前記M-1番目のマルコフモデルに対して最適化を行い、M番目のマルコフモデルを得ることと、を含むことを特徴とする
請求項8に記載の画像処理方法。
【請求項10】
画像処理装置であって、
処理待ち画像をニューラルネットワークモデルに入力するように構成される入力モジュールと、
前記ニューラルネットワークモデルにより、前記処理待ち画像の画像特徴を出力するように構成される出力モジュールと、を備え、
前記ニューラルネットワークモデルは、少なくとも2つの中間層を含み、各中間層は、複数のニューロンを含み、前記ニューラルネットワークモデルは、初期ニューラルネットワークモデルにおけるニューロンの保持確率に基づいて、前記初期ニューラルネットワークモデルに対して枝刈り処理を行うことで得られたものであり、前記初期ニューラルネットワークモデルにおけるニューロンの保持確率は、所定の統計モデルに基づいて取得されたものである、画像処理装置。
【請求項11】
コンピュータ実行可能な命令を記憶するメモリと、
前記メモリに記憶されている前記コンピュータ実行可能な命令を実行して、請求項1から9のうちいずれか一項に記載の画像処理方法を実行する少なくとも1つのプロセッサと、備える、電子機器。
【請求項12】
コンピュータに請求項1から9のうちいずれか一項に記載の画像処理方法を実行させるためのコンピュータ実行可能な命令を記憶した、コンピュータ可読記憶媒体。
【請求項13】
コンピュータに、請求項1から9のうちいずれか一項に記載の画像処理方法を実行させる、コンピュータプログラム。
【国際調査報告】