IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧

特表2022-521448交通画像認識方法、装置、コンピュータデバイスおよび媒体
<>
  • 特表-交通画像認識方法、装置、コンピュータデバイスおよび媒体 図1
  • 特表-交通画像認識方法、装置、コンピュータデバイスおよび媒体 図2a
  • 特表-交通画像認識方法、装置、コンピュータデバイスおよび媒体 図2b
  • 特表-交通画像認識方法、装置、コンピュータデバイスおよび媒体 図3
  • 特表-交通画像認識方法、装置、コンピュータデバイスおよび媒体 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-08
(54)【発明の名称】交通画像認識方法、装置、コンピュータデバイスおよび媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220401BHJP
【FI】
G06T7/00 650Z
G06T7/00 350B
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2020568528
(86)(22)【出願日】2019-08-22
(85)【翻訳文提出日】2021-07-30
(86)【国際出願番号】 CN2019102027
(87)【国際公開番号】W WO2020173056
(87)【国際公開日】2020-09-03
(31)【優先権主張番号】201910138054.7
(32)【優先日】2019-02-25
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.SMALLTALK
(71)【出願人】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】110000796
【氏名又は名称】特許業務法人三枝国際特許事務所
(72)【発明者】
【氏名】劉 ▲ヤン▼
(72)【発明者】
【氏名】王 洋
(72)【発明者】
【氏名】▲ハオ▼ 新
(72)【発明者】
【氏名】呉 月升
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA04
5L096CA02
5L096DA02
5L096EA05
5L096FA02
5L096FA25
5L096FA26
5L096HA11
5L096JA11
5L096KA04
5L096MA03
(57)【要約】
本願に係る方法は、車両によって採集されたビデオストリームを取得し、ビデオストリームのフレームごとの画像を第一画像として抽出するステップと、第一画像を入力して前処理することにより、第一画像の干渉を除去し、第二画像を出力するように構成される画像前処理モジュールであって、干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、及び単色化のうちの少なくとも2つを含むステップと、第二画像を道路標識認識モデルに入力して認識処理を行うステップとを含む。本願により、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、無人運転またはインテリジェント運転の安全性を向上させることができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するステップと、
前記第一画像を入力して前処理することにより、前記第一画像の干渉を除去し、第二画像を出力するステップであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含むステップと、
前記第二画像を道路標識認識モデルに入力して認識処理を行うステップと、を含む、
交通画像認識方法。
【請求項2】
オリジナル画像に少なくとも2種類の干渉を追加して、少なくとも2種類の干渉サンプルセットを形成するステップと、
前記干渉サンプルセットごとのサンプルペアをそれぞれ入力画像および出力画像とし、オートエンコーダに入力してトレーニングするステップと、をさらに含む、
請求項1に記載の方法。
【請求項3】
オリジナル画像に少なくとも2種類の干渉を追加して、少なくとも2種類の干渉サンプルセットを形成するステップは、
オリジナル画像を取得するステップと、
ノイズの追加、アフィン変換の追加、フィルターファジー化変換の重畳、輝度変換の重畳、および単色化変換の重畳のうちの少なくとも1つの外乱方式により、前記オリジナル画像を処理して干渉画像を形成するステップと、
オリジナル画像と干渉画像とをサンプルペアとし、少なくとも2種類のサンプルペアセットを前記干渉サンプルセットとして選択するステップと、を含む、
請求項2に記載の方法。
【請求項4】
ノイズの追加、アフィン変換の追加、フィルターファジー化変換の重畳、輝度変換の重畳、および単色化変換の重畳のうちの少なくとも1つの外乱方式により、前記オリジナル画像を処理する前に、
任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成するステップをさらに含む、
請求項3に記載の方法。
【請求項5】
任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成するステップは、
アフィン変換プロセスにおいてスケーリング比率パラメータを調整して異なるスケーリング比率の外乱を形成するステップ、
フィルターファジー化プロセスにおいてファジーコントローラの入力パラメータを調整して異なるファジー度の外乱を形成するステップ、
輝度変換において輝度値を調整して異なる輝度の外乱を形成するステップ、
および単色化変換プロセスにおいて画素点の画素値を調整して異なる色の外乱を形成するステップのうちの少なくとも1つを含む、
請求項4に記載の方法。
【請求項6】
出力画像がオリジナル画像と同じ解像度を有するように前記オートエンコーダの入力層が出力層と同じ構造である請求項2-5のいずれか一項に記載の方法。
【請求項7】
前記第一画像を干渉除去オートエンコーダに入力して前処理する前に、
前記第一画像に対して色次元の観点から圧縮処理を行うステップをさらに含む、
請求項6に記載の方法。
【請求項8】
前記干渉除去オートエンコーダはLSTMの畳み込みニューラルネットワークモデルであり、前記干渉サンプルセットは少なくとも2つの連続したフレームの画像を含む、請求項1に記載の方法。
【請求項9】
車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するように構成された画像採集モジュールと、
前記第一画像を入力して前処理することにより、前記第一画像の干渉を除去し、第二画像を出力するように構成される画像前処理モジュールであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含むように構成された画像前処理モジュールと、
前記第二画像を道路標識認識モデルに入力して認識処理を行うように構成された画像認識モジュールと、を含む、
交通画像認識装置。
【請求項10】
オリジナル画像に少なくとも2種類の干渉を追加して、少なくとも2種類の干渉サンプルセットを形成するように構成されたサンプルセット生成モジュールと、
前記干渉サンプルセットごとのサンプルペアをそれぞれ入力画像および出力画像とし、オートエンコーダに入力してトレーニングするように構成されたモデルトレーニングモジュールと、をさらに含む、
請求項9に記載の装置。
【請求項11】
少なくとも1つのプロセッサと、
少なくとも1つのプログラムが格納された記憶装置と、を含み、
前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1-8のいずれか一項に記載の交通画像認識方法を実施するようにする、
コンピュータデバイス。
【請求項12】
コンピュータプログラムがプロセッサによって実行されると、請求項1-8のいずれか一項に記載の交通画像認識方法を実行するコンピュータプログラムが格納されたコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2019年2月25日付け、出願番号201910138054.7で中国特許庁に提出された中国特許出願を基礎出願とする優先権を主張する。本願の全内容は、参照により本願に組み込まれる。
【0002】
本願の実施例は、自動運転の画像処理の技術分野、例えば、交通画像(traffic image)認識方法、装置、コンピュータデバイスおよび媒体に関する。
【背景技術】
【0003】
自動運転車は、運転中またはインテリジェント運転制御中に、交通信号機(traffic lights)、道路標識(traffic indication board)などの情報をビデオストリームの形式で取得するようになっている。例えば、運転制御システムは、カメラまたはレーダーによって取得されたビデオを前処理して、特徴情報を含む画像を取得し、さらに特徴情報を含む画像を交通信号機と道路標識の分類モデルに入力し、赤信号であるか、それとも青信号であるか、制限速度60kmの標識であるか、それとも一時停止標識であるかを判定するなどの予測を行う。
【0004】
しかし、自動運転車システムの分類モデルは通常、深層学習モデルであり、敵対的サンプルに攻撃されて誤判定しやすい。例えば、道路標識または交通信号機に小さなステッカーを貼り付け、小さなステッカーに敵対的サンプルを作成して分類モデルを誤判定させると、道路標識または交通信号機を正常に認識できなくなり、自動運転車の安全運転に影響を及ぼしてしまう。
【発明の概要】
【0005】
以下は、本明細書で詳しく説明される主題の概要である。本概要は、特許請求の範囲を限定することを意図したものではない。
【0006】
本願の実施例は、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、インテリジェント運転の安全性を向上させるための交通画像認識方法、装置、コンピュータデバイス、および媒体を提供する。
【0007】
第一様態では、本願の実施例は、交通画像認識方法を提供する。この方法は、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するステップと、前記第一画像を干渉除去オートエンコーダに入力して前処理することにより、前記第一画像の干渉をフィルタリングし、第二画像を出力するステップであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化(filter blurring)、輝度変換、および単色化のうちの少なくとも2つを含むステップと、前記第二画像を道路標識認識モデルに入力して認識処理を行うステップと、を含む。
【0008】
第二様態では、本願の実施例は、交通画像認識装置をさらに提供する。この装置は、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するように構成された画像採集モジュールと、前記第一画像を干渉除去オートエンコーダに入力して前処理することにより、前記第一画像の干渉をフィルタリングし、第二画像を出力するように構成された画像認識モジュールであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含むように構成された画像前処理モジュールと、前記第二画像を道路標識認識モデルに入力して認識処理を行うように構成された画像認識モジュールと、を含む。
【0009】
第三態様では、本願の実施例は、コンピュータデバイスをさらに提供する。このコンピュータデバイスは、1つまたは複数のプロセッサと、少なくとも1つのプログラムを格納するように構成された記憶装置と、を含み、前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが本願の実施例のいずれか1つに記載の交通画像認識方法を実施するようにする。
【0010】
第四態様では、本願の実施例は、プロセッサによって実行されると、本願の実施例のいずれか1つに記載の交通画像認識方法を実行するコンピュータプログラムが格納されたコンピュータ可読記憶媒体をさらに提供する。
【0011】
本願の実施例では、車両によって採集されたビデオストリームの画像を干渉除去オートエンコーダに入力し、干渉除去オートエンコーダにより前処理して、干渉がフィルタリングされ除去された画像を取得し、さらに干渉のない画像を道路標識認識モデルに入力して認識処理をすることにより、後続プロセスにおいて正確な車両制御コマンドの生成容易にすることができ、道路標識認識モデルが敵対的サンプルに攻撃されることによる道路標識が誤認識されるという問題を解決し、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、無人運転またはインテリジェント運転の安全性を向上させることができる。
【0012】
他の様態は、図面および詳細な説明を読んで理解すれば明らかになる。
【図面の簡単な説明】
【0013】
図1】本願の実施例1における交通画像認識方法のフローチャートである。
図2a】本願の実施例2における交通画像認識方法のフローチャートである。
図2b】本願の実施例2におけるオートエンコーダのニューラルネットワークの構造概略図である。
図3】本願の実施例3における交通画像認識装置の構造概略図である。
図4】本願の実施例4におけるコンピュータデバイスの構造概略図である。
【発明を実施するための形態】
【0014】
以下、図面および実施例を参照して本願の実施例をさらに詳細に説明する。本明細書に記載の具体的な実施例は、本願の実施例を説明するためのものであるにすぎず、本願を限定するものではないことを理解されるべきである。なお、説明の便宜上、本願の実施例に関連する構造のすべてではなく一部のみが図面に示されている。
【0015】
実施例1
図1は、本願の実施例1によって提供される交通画像認識方法のフローチャートである。本実施例は、自動運転車またはインテリジェント運転制御システムの道路標識と交通信号機の認識モデルに対する敵対的サンプルの攻撃を防御する場合に適用することができる。この方法は、交通画像認識装置が実施することができ、具体的には、装置内のソフトウェアおよび/またはハードウェア、例えば、自動運転車またはインテリジェント運転車両の車両運転制御システムが実施することができる。図1に示すように、交通画像認識方法は、具体的には以下のステップを含む。
【0016】
S110、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出する。
【0017】
ここで、車両は自動運転車、またはインテリジェント運転機能を備えた車両であり得る。上記2種類の車両には、車両の走行中に車両の前進方向と車両周辺のビデオストリームを採集するためのカメラ、レーダー、またはカメラおよびレーダーが設置される。ビデオストリームの画像コンテンツは、通常、道路標識、信号機、車線、その他の車両、歩行者、及び建築物などのコンテンツを含む。採集されたビデオストリームは車両の制御システムに送信され、制御システムはビデオストリームからフレームごとの画像、即ち第一画像をターゲット分析オブジェクトとして抽出する。上記抽出されたフレームごとの画像は、他の処理後に道路標識認識を実行すると判定されるターゲット画像として理解され得る。
【0018】
S120、前記第一画像を干渉除去オートエンコーダに入力して前処理することにより、前記第一画像の干渉をフィルタリングし、第二画像を出力する。前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含む。
【0019】
第一画像は、道路標識、信号機、または車線などの交通指示機能を有する情報を含んでもよく、含まなくてもよい。ここで、交通指示情報を含む第一画像は、通常、車両の制御において決定的な役割を果たす。いくつかの場合、道路標識、信号機、または車線などの道路標識に広告およびラベルを貼り付けたり、ステッカーを重ね合わせたりすることなどによって干渉されるために、道路標識認識モデルが道路標識を正確に認識できなくなり、交通規則に違反し、乗客の安全および公共交通機関の安全を危険にさらすことさえある。
【0020】
従って、道路標識を含む画像を道路標識認識モデルに入力する前に、画像を前処理して画像に存在し得る干渉情報をフィルタリングして除去する必要があり、画像から重要な物体情報を取り出すことに相当する。
【0021】
例えば、第一画像を干渉除去オートエンコーダに入力して前処理することができ、即ち、道路標識情報を含む第一画像に干渉情報がある場合、干渉情報をフィルタリングして除去して、第二画像、即ち干渉のない画像を取得することができる。道路標識情報が含まれていない第一画像、および道路標識情報が含まれているが干渉情報が追加されていない第一画像の場合、干渉除去オートエンコーダの前処理は該画像に対して大きな影響を及ぼさない場合、オリジナル画像に近い出力画像を取得することができる。ここで、干渉除去オートエンコーダは、少なくとも2種類の干渉サンプルセットをトレーニングすることによって得られ、単一の画像干渉処理の干渉をフィルタリングして除去するだけでなく、複数の干渉処理方法の組み合わせの干渉をフィルタリングして除去することもできるため、敵対的サンプル画像の干渉除去効果を向上させることができる。
【0022】
各種の干渉防止サンプルセットのそれぞれには、少なくとも1つのサンプルペアが含まれ、サンプルペアごとに、オリジナル画像およびこのオリジナル画像に対応する敵対的サンプルが含まれる。同一種類の干渉防止サンプルセットには、敵対的サンプルのそれぞれは、対応するオリジナル画像と比べて、同じ種類の外乱処理(disturbance processing)が行われている。同じ種類とは、採用される外乱方式の組み合わせが同じであることを意味する。外乱方式(disturbance model)の組み合わせは、単一の外乱方式を含んでもよく、または2種類以上の外乱方式の組み合わせを含んでもよい。同じ種類の干渉防止サンプルセットには、採用される外乱方式の組み合わせは同じであるが、それぞれの外乱方式で採用される具体的なパラメータは同じであってもよく異なっていてもよい。本願の実施例で採用される外乱方式は、多種多様で、オプション的であってもよい。外乱方式は、ノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含む。
【0023】
好ましい実施形態では、第一画像を干渉除去オートエンコーダに入力して前処理する前に、さらに、第一画像に対して色次元の観点から圧縮処理を実行することができ、即ち、RGB色情報、グレースケールまたはRGB色情報およびグレースケールの観点から圧縮処理を行うことができる。これは、道路標識認識が主に道路標識パターンの構造、形状、および主体となる色に依存するが、細部の色に敏感ではないためである。通常の場合では、日の当たるところと暗闇で採集された道路標識の色も異なるため、微細な色の違いが圧縮されても、道路標識パターンの認識に影響を与えることはない。画像を色次元の観点から圧縮することにより、画像処理プロセスのデータ計算量を低減させることができる。
【0024】
S130、前記第二画像を道路標識認識モデルに入力して認識処理を行う。
【0025】
ここで、道路標識認識モデルは通常、深層学習に基づくネットワークモデルである。
【0026】
道路標識認識モデルは、第二画像の特徴情報を認識し、特徴情報が速度制限標識、又は交通信号機などの交通標識に属するか否かを判定することができるため、車両運転制御システムの決定モジュールが道路標識認識モデルの認識結果に基づいて制御決定を行い、走行中の車両を制御することができる。
【0027】
本実施例の技術的解決手段では、車両によって採集されたビデオストリームの画像を干渉除去オートエンコーダに入力し、干渉除去オートエンコーダにより前処理して、干渉がフィルタリングして除去した画像を取得し、さらに干渉のない画像を道路標識認識モデルに入力して認識処理を行うことにより、後続プロセスにおいて正確な車両制御コマンドを生成することができるため、道路標識認識モデルが敵対的サンプルに攻撃されることによる道路標識が誤認識されるという問題を解決し、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、無人運転またはインテリジェント運転の安全性を向上させることができる。
【0028】
本願の実施例の技術的解決手段は、いくつかの違法ユーザが道路標識認識に使用される深層学習モデルが明確化されていない場合に発動したブラックボックス攻撃と、深層学習モデルが明確化された場合に発動されたホワイトボックス攻撃の両方に適用できる。ブラックボックス攻撃は、ホワイトボックス攻撃とは異なる。ホワイトボックス攻撃は、往々にして深層学習モデルのモデル構造および具体的なパラメータが既知である場合、高速勾配符号法(Fast Gradient Sign Method、FGSM)、CW(Clarke and Wright)、ジャコビアンベースの顕著性マップアプローチ(Jacobian-based saliency map approach、JSMA)などの敵対的サンプルアルゴリズムを目的に応じて採用してホワイトボックス攻撃を発動しているのに対して、ブラックボックス攻撃は、深層学習モデルが明確化されていない場合、ノイズ、アフィン変換、フィルターファジー化、輝度変換、単色化などの外乱方式を採用し、複雑で変化しやすいブラックボックス攻撃を発動する。本願の実施例は、ブラックボックス攻撃およびホワイトボックス攻撃を効果的に解決し、様々な外乱をフィルタリングして除去したので、交通標識認識のための深層学習モデルが認識およびフィルタリングによる除去を効果的に行うことができる。
【0029】
実施例2
図2aは、本願の実施例2によって提供される交通画像認識方法のフローチャートである。本実施例は、上記実施例における任意の解決手段のそれぞれに基づいており、干渉除去オートエンコーダのトレーニングプロセスを提供する。図2aに示すように、本願の実施例によって提供される交通画像認識方法は、以下のステップを含む。
【0030】
S210、オリジナル画像に少なくとも2種類の干渉を追加して、少なくとも2種類の干渉サンプルセットを形成する。
【0031】
ここで、オリジナル画像は干渉が追加されていない画像であり、画像コンテンツは実際の交通信号機、道路標識、車線、道路標識などのコンテンツである。オリジナル画像の取得ルートは、撮影機能を備えた端末によって撮影されて取得されてもよく、特定のビデオからスクリーンショットして取得してもよい。オリジナル画像を取得した後、サンプルセットを生成する。まず、ノイズの追加、アフィン変換の追加、フィルターファジー化変換の重畳、輝度変換の重畳、および単色化変換の重畳のうちの1つまたは複数の外乱方式により、オリジナル画像を処理して、干渉画像を形成する。次に、オリジナル画像と干渉画像とをサンプルペアとし、少なくとも2種類のサンプルペアセットを前記干渉サンプルセットとして選択する。干渉サンプルセットの種類ごとに、干渉方法の同じ組み合わせを採用する。
【0032】
例示として、第一オリジナル画像にアフィン変換およびフィルターファジー化変換を追加して、第一干渉画像を生成し、該第一オリジナル画像および該第一干渉画像を1つのサンプルペアとする。同様に、その他のオリジナル画像にアフィン変換およびフィルターファジー化変換を追加して、対応する干渉画像を生成し、複数のサンプルペアを取得する。すると、同じ変化によって取得されたサンプルペアは、同じ種類のサンプルペアセット、即ち第一サンプルペアセットに属することになる。第一オリジナル画像にフィルターファジー化変換、輝度変換、および単色化変換を重畳することにより、対応する干渉画像を生成し、対応するサンプルペアを形成することができる。この場合に取得されたサンプルペアセットは、第一サンプルペアセットと異なる第二サンプルペアセットである。同様に、オリジナル画像に異なる種類と数の干渉情報を重畳することにより、より多くの異なる種類のサンプルペアセットを取得することができる。従って、少なくとも2種類のサンプルペアセットを前記干渉サンプルセットとして選択し、トレーニングサンプルをより全面的になるようにし、より多くの外乱方式をカバーすることができるようになるため、敵対的サンプルの除去率を向上させることができる。
【0033】
別の実施形態では、ノイズの追加、アフィン変換の追加、フィルターファジー化変換の重畳、輝度変換の重畳、および単色化変換の重畳のうちの1つまたは複数の外乱方式により、前記オリジナル画像を処理する前に、さらに、任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成することにより、同じオリジナル画像に対して生成される干渉画像の数を増加させ、サンプルペアセットの数を増加させることができる。例えば、任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成するステップは、次のステップを含んでもよい。
【0034】
アフィン変換プロセスにおけるスケーリング比率パラメータを調整して異なるスケーリング比率の外乱を形成するステップ、フィルターファジー化プロセスにおけるファジーコントローラの入力パラメータを調整して異なるファジー度の外乱を形成するステップ、輝度変換における輝度値を調整して異なる輝度の外乱を形成するステップ、および、単色化変換プロセスにおける画素点の画素値を調整して異なる色の外乱を形成するステップのうちの少なくとも1つを含み得る。そのうちの1つの外乱方式が複数の外乱パラメータを含む場合、複数のパラメータ値を同時に変更して、異なる干渉画像を形成することができる。例えば、アフィン変換プロセスの回転角度パラメータおよび切断角度パラメータ、ならびに輝度変換プロセスの輝度値を同時に変更することができる。
【0035】
S220、前記干渉サンプルセットごとのサンプルペアをそれぞれ入力画像および出力画像とし、オートエンコーダに入力してトレーニングする。
【0036】
オートエンコーダ(Auto Encoders)は深層学習においてよく見られるモデルであって、出力層と同じ次元を有する入力層、隠れ層、および出力層を含む三層のニューラルネットワーク構造を有する。具体的には図2bを参照できる。具体的には、入力層および出力層はそれぞれニューラルネットワークの入力層および出力層を表し、隠れ層はエンコーダおよびデコーダの作業を担当し、エンコードプロセスは高次元の入力層から低次元の隠れ層に変換するプロセスであり、逆に、デコードプロセスは低次元の隠れ層から高次元の出力層に変換するプロセスである。従って、オートエンコーダは損失のある変換プロセスであり、損失関数は入力と出力の差を比較することによって定義される。トレーニングプロセスにおいては、データにラベルを付ける必要がなく、プロセス全体は損失関数の最小値の解を求め続けるプロセスである。
【0037】
本実施例では、任意のサンプルペアにおけるノイズを重畳した干渉画像を入力層に入力し、次にオートエンコーダの隠れ層によって復元された画像を出力層から取得し、そしてオリジナル画像を復元された画像とともに損失関数に入力し、損失関数の出力結果に基づいて、オートエンコーダを最適化する必要があるか否かを判定し、損失関数の出力結果が所定条件を満たす場合は、トレーニングプロセスを停止し、最終的に干渉除去オートエンコーダを取得する。
【0038】
別の実施形態では、車両によって採集されたビデオストリームの画像情報が時間的に連続した関連付けられた画像情報であるため、干渉除去オートエンコーダは、LSTM(Long Short-Term Memory、長短期記憶ネットワーク)の畳み込みニューラルネットワークモデルであり得る。そして、干渉サンプルセットのサンプルは、少なくとも2つの連続したフレームの画像を含む。即ち、オリジナル画像は、少なくとも2つの連続したフレームの画像からなるオリジナルサンプルグループであり、オリジナルサンプルグループに対応する干渉画像グループは、オリジナルサンプルグループを基に同じ外乱方式で重畳した画像である。ここで、同じ外乱方式とは、採用される外乱方式の組み合わせが同じであることを意味する。外乱方式の組み合わせは、単一の外乱方式を含んでもよく、または2種類以上の外乱方式の組み合わせを含んでもよい。同じ種類の干渉防止サンプルセットには、採用された外乱方式の組み合わせは同じであるが、外乱方式ごとに採用される具体的なパラメータは同じであってもよく異なっていてもよい。本願の実施例で採用される外乱方式は、多種多様で、オプション的であってもよい。外乱方式は、ノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含む。
【0039】
好ましい実施形態では、干渉除去オートエンコーダのトレーニングを行う前に、さらに、サンプルセットにおけるサンプル画像に対して色次元の観点から圧縮処理を行うことができ、即ち、RGB色情報、グレースケールまたはRGB色情報およびグレースケールの観点から圧縮処理を行うことができる。これは、道路標識認識は主に物体の構造、形状、および主体の色に依存するが、細部の色に敏感ではないためである。画像を色次元の観点から圧縮することにより、画像処理プロセスのデータ計算量を低減することができる。
【0040】
S230、車両によって採集されたビデオストリームを取得し、前記ビデオストリーム内の画像をフレームごとに取り出し第一画像として抽出する。
【0041】
S240、干渉除去オートエンコーダに、前記第一画像を入力して前処理することにより、前記第一画像の干渉をフィルタリングして除去し、第二画像を出力する。
【0042】
S250、前記第二画像を道路標識認識モデルに入力して認識処理を行う。
【0043】
S230-S250の具体的な内容については、実施例1における関連説明を参照できる。
【0044】
本実施例の技術的解決手段では、異なる外乱方式で干渉ノイズをオリジナル画像に追加して、異なる種類の干渉サンプルセットを形成し、オートエンコーダをトレーニングすることにより、複数の干渉をフィルタリングして除去できる干渉除去オートエンコーダを取得し、次に該干渉除去オートエンコーダを使用して、車両によって採集されたビデオストリームの画像に対して干渉除去の前処理を行い、干渉をフィルタリングして除去後の画像を取得し、前処理された画像を道路標識認識モデルに入力して認識処理を行うことにより、正確な車両制御コマンドを生成することができるため、道路標識認識モデルが敵対的サンプルに攻撃されることによる道路標識が誤認識されるという問題を解決し、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、無人運転またはインテリジェント運転の安全性を向上させることができる。
【0045】
実施例
図3は、本願の実施例3によって提供される交通画像認識装置の構造概略図である。本願の実施例は、自動運転車またはインテリジェント運転制御システムの道路標識と交通信号機の認識モデルに対する敵対的サンプルの攻撃に防御する場合に適用することができる。
【0046】
図3に示すように、本願の実施例における交通画像認識装置は、画像採集モジュール310と、画像前処理モジュール320と、画像認識モジュール330とを含む。
【0047】
ここで、画像採集モジュール310は、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するように構成される。画像前処理モジュール320は、前記第一画像を、干渉除去オートエンコーダに入力して前処理することにより、前記第一画像の干渉をフィルタリングして除去し、第二画像を出力するように構成され、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含む。画像認識モジュール330は、前記第二画像を道路標識認識モデルに入力して認識処理を行うように構成される。
【0048】
本実施例の技術的解決手段では、車両によって採集されたビデオストリームの画像を干渉除去オートエンコーダに入力し、干渉除去オートエンコーダにより前処理して、干渉をフィルタリングして除去した画像を取得し、さらに干渉のない画像を道路標識認識モデルに入力して認識処理を行うことにより、正確な車両制御コマンドを生成することができるため、道路標識認識モデルが敵対的サンプルに攻撃されることによる道路標識が誤認識されるという問題を解決し、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、無人運転またはインテリジェント運転の安全性を向上させることができる。
【0049】
一実施例では、交通画像認識装置は、オリジナル画像に少なくとも2種類の干渉を追加して、少なくとも2種類の干渉サンプルセットを形成するように構成されたサンプルセット生成モジュールと、前記干渉サンプルセットごとのサンプルペアをそれぞれ入力画像および出力画像とし、オートエンコーダに入力してトレーニングするように構成されたモデルトレーニングモジュールと、をさらに含む。
【0050】
一実施例では、サンプルセット生成モジュールは、オリジナル画像を取得するステップと、ノイズの追加、アフィン変換の追加、フィルターファジー化変換の重畳、輝度変換の重畳、および単色化変換の重畳のうちの1つまたは複数の外乱方式により、前記オリジナル画像を処理して、干渉画像を形成するステップと、オリジナル画像と干渉画像とをサンプルペアとし、少なくとも2種類のサンプルペアセットを前記干渉サンプルセットとして選択するステップと、を実行するように構成される。
【0051】
一実施例では、サンプルセット生成モジュールは、任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成するようにさらに構成される。
【0052】
一実施例では、任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成するステップは、アフィン変換プロセスにおいてスケーリング比率パラメータを調整して異なるスケーリング比率の外乱を形成するステップ、フィルターファジー化プロセスにおいてファジーコントローラの入力パラメータを調整して異なるファジー度の外乱を形成するステップ、輝度変換において輝度値を調整して異なる輝度の外乱を形成するステップ、および、単色化変換プロセスにおいて画素点の画素値を調整して異なる色の外乱を形成するステップのうちの少なくとも1つを含み得る。
【0053】
一実施例では、出力画像はオリジナル画像と同じ解像度を有するように、オートエンコーダの入力層が出力層と同じ構造である。
【0054】
一実施例では、交通画像認識装置は、前記第一画像を干渉除去オートエンコーダに入力して前処理する前に、前記第一画像に対して色次元の観点から圧縮処理を行うように構成された画像圧縮モジュールをさらに含む。
【0055】
一実施例では、前記干渉除去オートエンコーダはLSTMの畳み込みニューラルネットワークモデルであり、前記干渉サンプルセットは少なくとも2つの連続したフレームの画像を含む。
【0056】
本願の実施例によって提供される交通画像認識装置は、本願の任意の実施例によって提供される交通画像認識方法を実行することができ、該方法の実行に必要な機能的モジュールを有し、有益な効果を奏する。
【0057】
実施例4
図4は、本願の実施例4におけるコンピュータデバイスの構造概略図である。図4は、本願の実施形態を実施するのに適する例示的なコンピュータデバイス412のブロック図を示す。図4に示すコンピュータデバイス412は単なる例示であり、本願の実施例の機能および使用範囲にいかなる制限も課すべきものではない。
【0058】
図4に示すように、コンピュータデバイス412は、汎用コンピューティングデバイスの形態で具現化される。コンピュータデバイス412のコンポーネントは、1つまたは複数のプロセッサまたは処理ユニット416と、システムメモリ428と、異なるシステムコンポーネント(システムメモリ428および処理ユニット416を含む)を接続するバス418とを含み得るが、これらに限定されることはない。
【0059】
バス418は、メモリバスまたはメモリコントローラ、周辺バス、加速式グラフィックスポート、プロセッサ、または複数のバス構造のうちの任意のバス構造を使用するローカルバスを含む、いくつかのバス構造のうちの1つまたは複数を表す。例えば、これらのアーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MAC)バス、拡張ISAバス、ビデオエレクトロニクス規格協会(VESA)ローカルバス、および周辺コンポーネント相互接続(PCI)バスを含むが、これらに限定されない。
【0060】
コンピュータデバイス412は通常、複数のコンピュータシステム可読媒体を含む。これらの媒体は、揮発性媒体、不揮発性媒体、リムーバブル媒体および非リムーバブル媒体を含む、コンピュータデバイス412によってアクセスされ得る任意の利用可能な媒体であり得る。
【0061】
システムメモリ428は、ランダムアクセスメモリ(RAM)430および/またはキャッシュメモリ432などの揮発性メモリの形態のコンピュータシステム可読媒体を含み得る。コンピュータデバイス412は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含み得る。一例のみとして、記憶システム434は、非リムーバブルな不揮発性磁気媒体(図4には図示せず、一般に「ハードディスクドライバ」と呼ばれる)を読み書きするために使用され得る。図4には図示されていないが、それは、リムーバブルな不揮発性磁気ディスク(例えば、「フロッピーディスク」)を読み書きするための磁気ディスクドライバ、およびリムーバブルな不揮発性光学ディスク(例えば、CD-ROM、DVD-ROM、またはその他の光学媒体)を読み書きするための光学ディスクドライバを提供することができる。これらの場合、各ドライバは1つまたは複数のデータ媒体インターフェースを介してバス418に接続され得る。メモリ428は、本願の各実施例の機能を実行するように構成された一組(例えば、少なくとも1つ)のプログラムモジュールを有する少なくとも1つのプログラム製品を含み得る。
【0062】
一組(例えば、少なくとも1つ)のプログラムモジュール442を有するプログラム/ユーティリティツール440は、メモリ428などに記憶されてもよく、このプログラムモジュール442は、オペレーティングシステム、1つまたは複数のアプリケーションプラグラム、他のプログラムモジュール、およびプログラムデータを含むが、これらに限定されず、これらの例のそれぞれまたはいくつかの組み合わせは、ネットワーク環境の実装を含み得る。プログラムモジュール442は通常、本願に記載の実施例の機能および/または方法を実行する。
【0063】
コンピュータデバイス412は、1つまたは複数の外部デバイス414(例えば、キーボード、ポインティングデバイス、ディスプレイ424など)と通信することもでき、また、ユーザがこのコンピュータデバイス412と対話することを可能にする1つまたは複数のデバイスと通信することもでき、および/またはこのコンピュータデバイス412が1つまたは複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信することができる。この通信は、入力/出力(I/O)インターフェース422を介して実行され得る。また、コンピュータデバイス412は、ネットワークアダプタ420を介して1つまたは複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、および/またはインターネットなどのパブリックネットワーク)と通信することもできる。図示するように、ネットワークアダプタ420は、バス418を介してコンピュータデバイス412の他のモジュールと通信する。図4には示されていないが、マイクロコード、デバイスドライバ、冗長処理ユニット、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライバ、データバックアップ記憶システムなどを含むがこれらに限定されない、他のハードウェアおよび/またはソフトウェアモジュールは、コンピュータデバイス412と組み合わせて使用され得ることを理解されたい。
【0064】
処理ユニット416は、システムメモリ428に格納されたプログラムを実行することにより、各機能アプリケーションおよびデータ処理を実行し、例えば本願の実施例によって提供される交通画像認識方法を実現する。この方法は主に、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するステップと、前記第一画像を入力して前処理することにより、前記第一画像の干渉を除去し、第二画像を出力するステップであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含む、ステップと、前記第二画像を道路標識認識モデルに入力して認識処理を行うステップと、を含む。
【0065】
実施例5
本願の実施例5は、プロセッサによって実行されるとき、本願の実施例によって提供される交通画像認識方法を実施するコンピュータプログラムを記憶するコンピュータ可読記憶媒体をさらに提供する。この方法は主に、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するステップと、前記第一画像を入力して前処理することにより、前記第一画像の干渉を除去し、第二画像を出力するステップであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含むステップと、前記第二画像を道路標識認識モデルに入力して認識処理を行うステップと、を含む。
【0066】
本願の実施例のコンピュータ記憶媒体としては、1つまたは複数のコンピュータ可読媒体の任意の組み合わせが採用され得る。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、またはデバイス、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリーメモリ(CD-ROM)、光学メモリ、磁気メモリ、または上記の任意の適切な組み合わせを含む。本明細書では、コンピュータ可読記憶媒体は、指令実行システム、装置、またはデバイスによって使用され得るか、またはそれらと組み合わせて使用され得るプログラムを収容または記憶する任意の有形媒体であり得る。
【0067】
コンピュータ可読信号媒体は、ベースバンド内で、またはコンピュータ可読プログラムコードを担持する搬送波の一部として伝搬されるデータ信号を含み得る。この伝搬されたデータ信号としては、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態が採用され得る。コンピュータ可読信号媒体は、指令実行システム、装置またはデバイスによって使用されるか、またはそれらと組み合わせて使用されるプログラムを送信、伝搬または伝送することができる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得る。
【0068】
コンピュータ可読媒体に含まれるプログラムコードは、無線、有線、光ファイバケーブル、RFなど、または上記の任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体を介して送信され得る。
【0069】
本願の動作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む1つまたは複数のプログラミング言語、またはそれらの組み合わせで編集され得る。プログラムコードは、完全にユーザコンピュータで実行され得るか、または部分的にユーザコンピュータで実行され得るか、または独立したソフトウェアパッケージとして、部分的にユーザコンピュータで、部分的にリモートコンピュータで実行され得るか、または完全にリモートコンピュータまたはサーバで実行され得る。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のネットワークを介してユーザコンピュータに接続され得るか、または外部コンピュータに接続され得る(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続を行う)。
図1
図2a
図2b
図3
図4
【手続補正書】
【提出日】2021-07-30
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するステップと、
前記第一画像を入力して前処理することにより、前記第一画像の干渉を除去し、第二画像を出力するステップであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含むステップと、
前記第二画像を道路標識認識モデルに入力して認識処理を行うステップと、を含む、
交通画像認識方法。
【請求項2】
オリジナル画像に少なくとも2種類の干渉を追加して、少なくとも2種類の干渉サンプルセットを形成するステップと、
前記干渉サンプルセットごとのサンプルペアをそれぞれ入力画像および出力画像とし、オートエンコーダに入力してトレーニングするステップと、をさらに含む、
請求項1に記載の方法。
【請求項3】
オリジナル画像に少なくとも2種類の干渉を追加して、少なくとも2種類の干渉サンプルセットを形成するステップは、
オリジナル画像を取得するステップと、
ノイズの追加、アフィン変換の追加、フィルターファジー化変換の重畳、輝度変換の重畳、および単色化変換の重畳のうちの少なくとも1つの外乱方式により、前記オリジナル画像を処理して干渉画像を形成するステップと、
オリジナル画像と干渉画像とをサンプルペアとし、少なくとも2種類のサンプルペアセットを前記干渉サンプルセットとして選択するステップと、を含む、
請求項2に記載の方法。
【請求項4】
ノイズの追加、アフィン変換の追加、フィルターファジー化変換の重畳、輝度変換の重畳、および単色化変換の重畳のうちの少なくとも1つの外乱方式により、前記オリジナル画像を処理する前に、
任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成するステップをさらに含む、
請求項3に記載の方法。
【請求項5】
任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成するステップは、
アフィン変換プロセスにおいてスケーリング比率パラメータを調整して異なるスケーリング比率の外乱を形成するステップ、
フィルターファジー化プロセスにおいてファジーコントローラの入力パラメータを調整して異なるファジー度の外乱を形成するステップ、
輝度変換において輝度値を調整して異なる輝度の外乱を形成するステップ、
および単色化変換プロセスにおいて画素点の画素値を調整して異なる色の外乱を形成するステップのうちの少なくとも1つを含む、
請求項4に記載の方法。
【請求項6】
出力画像はオリジナル画像と同じ解像度を有するように前記オートエンコーダの入力層が出力層と同じ構造である請求項2-5のいずれか一項に記載の方法。
【請求項7】
前記第一画像を干渉除去オートエンコーダに入力して前処理する前に、
前記第一画像に対して色次元の観点から圧縮処理を行うステップをさらに含む、
請求項6に記載の方法。
【請求項8】
前記干渉除去オートエンコーダはLSTMの畳み込みニューラルネットワークモデルであり、前記干渉サンプルセットは少なくとも2つの連続したフレームの画像を含む、請求項1に記載の方法。
【請求項9】
車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するように構成された画像採集モジュールと、
前記第一画像を入力して前処理することにより、前記第一画像の干渉を除去し、第二画像を出力するように構成される画像前処理モジュールであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含むように構成された画像前処理モジュールと、
前記第二画像を道路標識認識モデルに入力して認識処理を行うように構成された画像認識モジュールと、を含む、
交通画像認識装置。
【請求項10】
オリジナル画像に少なくとも2種類の干渉を追加して、少なくとも2種類の干渉サンプルセットを形成するように構成されたサンプルセット生成モジュールと、
前記干渉サンプルセットごとのサンプルペアをそれぞれ入力画像および出力画像とし、オートエンコーダに入力してトレーニングするように構成されたモデルトレーニングモジュールと、をさらに含む、
請求項9に記載の装置。
【請求項11】
少なくとも1つのプロセッサと、
少なくとも1つのプログラムが格納された記憶装置と、を含み、
前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1-8のいずれか一項に記載の交通画像認識方法を実施するようにする、
コンピュータデバイス。
【請求項12】
コンピュータプログラムがプロセッサによって実行されると、請求項1-8のいずれか一項に記載の交通画像認識方法を実行するコンピュータプログラムが格納されたコンピュータ可読記憶媒体。
【請求項13】
コンピュータプログラムであって、
プロセッサによって実行されると、請求項1-8のいずれか一項に記載の交通画像認識方法を実行するコンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2019年2月25日付け、出願番号201910138054.7で中国特許庁に提出された中国特許出願を基礎出願とする優先権を主張する。本願の全内容は、参照により本願に組み込まれる。
【0002】
本願の実施例は、自動運転の画像処理の技術分野、例えば、交通画像(traffic image)認識方法、装置、コンピュータデバイスおよび媒体に関する。
【背景技術】
【0003】
自動運転車は、運転中またはインテリジェント運転制御中に、交通信号機(traffic lights)、道路標識(traffic indication board)などの情報をビデオストリームの形式で取得するようになっている。例えば、運転制御システムは、カメラまたはレーダーによって取得されたビデオを前処理して、特徴情報を含む画像を取得し、さらに特徴情報を含む画像を交通信号機と道路標識の分類モデルに入力し、赤信号であるか、それとも青信号であるか、制限速度60kmの標識であるか、それとも一時停止標識であるかを判定するなどの予測を行う。
【0004】
しかし、自動運転車システムの分類モデルは通常、深層学習モデルであり、敵対的サンプルに攻撃されて誤判定しやすい。例えば、道路標識または交通信号機に小さなステッカーを貼り付け、小さなステッカーに敵対的サンプルを作成して分類モデルを誤判定させると、道路標識または交通信号機を正常に認識できなくなり、自動運転車の安全運転に影響を及ぼしてしまう。
【発明の概要】
【0005】
以下は、本明細書で詳しく説明される主題の概要である。本概要は、特許請求の範囲を限定することを意図したものではない。
【0006】
本願の実施例は、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、インテリジェント運転の安全性を向上させるための交通画像認識方法、装置、コンピュータデバイス、および媒体を提供する。
【0007】
第一様態では、本願の実施例は、交通画像認識方法を提供する。この方法は、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するステップと、前記第一画像を干渉除去オートエンコーダに入力して前処理することにより、前記第一画像の干渉をフィルタリングし、第二画像を出力するステップであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化(filter blurring)、輝度変換、および単色化のうちの少なくとも2つを含むステップと、前記第二画像を道路標識認識モデルに入力して認識処理を行うステップと、を含む。
【0008】
第二様態では、本願の実施例は、交通画像認識装置をさらに提供する。この装置は、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するように構成された画像採集モジュールと、前記第一画像を干渉除去オートエンコーダに入力して前処理することにより、前記第一画像の干渉をフィルタリングし、第二画像を出力するように構成された画像認識モジュールであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含むように構成された画像前処理モジュールと、前記第二画像を道路標識認識モデルに入力して認識処理を行うように構成された画像認識モジュールと、を含む。
【0009】
第三態様では、本願の実施例は、コンピュータデバイスをさらに提供する。このコンピュータデバイスは、1つまたは複数のプロセッサと、少なくとも1つのプログラムを格納するように構成された記憶装置と、を含み、前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが本願の実施例のいずれか1つに記載の交通画像認識方法を実施するようにする。
【0010】
第四態様では、本願の実施例は、プロセッサによって実行されると、本願の実施例のいずれか1つに記載の交通画像認識方法を実行するコンピュータプログラムが格納されたコンピュータ可読記憶媒体をさらに提供する。
第五態様では、本願の実施例は、プロセッサによって実行されると、本願の実施例のいずれか1つに記載の交通画像認識方法を実行するコンピュータプログラムをさらに提供する。
【0011】
本願の実施例では、車両によって採集されたビデオストリームの画像を干渉除去オートエンコーダに入力し、干渉除去オートエンコーダにより前処理して、干渉がフィルタリングされ除去された画像を取得し、さらに干渉のない画像を道路標識認識モデルに入力して認識処理をすることにより、後続プロセスにおいて正確な車両制御コマンドの生成容易にすることができ、道路標識認識モデルが敵対的サンプルに攻撃されることによる道路標識が誤認識されるという問題を解決し、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、無人運転またはインテリジェント運転の安全性を向上させることができる。
【0012】
他の様態は、図面および詳細な説明を読んで理解すれば明らかになる。
【図面の簡単な説明】
【0013】
図1】本願の実施例1における交通画像認識方法のフローチャートである。
図2a】本願の実施例2における交通画像認識方法のフローチャートである。
図2b】本願の実施例2におけるオートエンコーダのニューラルネットワークの構造概略図である。
図3】本願の実施例3における交通画像認識装置の構造概略図である。
図4】本願の実施例4におけるコンピュータデバイスの構造概略図である。
【発明を実施するための形態】
【0014】
以下、図面および実施例を参照して本願の実施例をさらに詳細に説明する。本明細書に記載の具体的な実施例は、本願の実施例を説明するためのものであるにすぎず、本願を限定するものではないことを理解されるべきである。なお、説明の便宜上、本願の実施例に関連する構造のすべてではなく一部のみが図面に示されている。
【0015】
実施例1
図1は、本願の実施例1によって提供される交通画像認識方法のフローチャートである。本実施例は、自動運転車またはインテリジェント運転制御システムの道路標識と交通信号機の認識モデルに対する敵対的サンプルの攻撃を防御する場合に適用することができる。この方法は、交通画像認識装置が実施することができ、具体的には、装置内のソフトウェアおよび/またはハードウェア、例えば、自動運転車またはインテリジェント運転車両の車両運転制御システムが実施することができる。図1に示すように、交通画像認識方法は、具体的には以下のステップを含む。
【0016】
S110、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出する。
【0017】
ここで、車両は自動運転車、またはインテリジェント運転機能を備えた車両であり得る。上記2種類の車両には、車両の走行中に車両の前進方向と車両周辺のビデオストリームを採集するためのカメラ、レーダー、またはカメラおよびレーダーが設置される。ビデオストリームの画像コンテンツは、通常、道路標識、信号機、車線、その他の車両、歩行者、及び建築物などのコンテンツを含む。採集されたビデオストリームは車両の制御システムに送信され、制御システムはビデオストリームからフレームごとの画像、即ち第一画像をターゲット分析オブジェクトとして抽出する。上記抽出されたフレームごとの画像は、他の処理後に道路標識認識を実行すると判定されるターゲット画像として理解され得る。
【0018】
S120、前記第一画像を干渉除去オートエンコーダに入力して前処理することにより、前記第一画像の干渉をフィルタリングし、第二画像を出力する。前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含む。
【0019】
第一画像は、道路標識、信号機、または車線などの交通指示機能を有する情報を含んでもよく、含まなくてもよい。ここで、交通指示情報を含む第一画像は、通常、車両の制御において決定的な役割を果たす。いくつかの場合、道路標識、信号機、または車線などの道路標識に広告およびラベルを貼り付けたり、ステッカーを重ね合わせたりすることなどによって干渉されるために、道路標識認識モデルが道路標識を正確に認識できなくなり、交通規則に違反し、乗客の安全および公共交通機関の安全を危険にさらすことさえある。
【0020】
従って、道路標識を含む画像を道路標識認識モデルに入力する前に、画像を前処理して画像に存在し得る干渉情報をフィルタリングして除去する必要があり、画像から重要な物体情報を取り出すことに相当する。
【0021】
例えば、第一画像を干渉除去オートエンコーダに入力して前処理することができ、即ち、道路標識情報を含む第一画像に干渉情報がある場合、干渉情報をフィルタリングして除去して、第二画像、即ち干渉のない画像を取得することができる。道路標識情報が含まれていない第一画像、および道路標識情報が含まれているが干渉情報が追加されていない第一画像の場合、干渉除去オートエンコーダの前処理は該画像に対して大きな影響を及ぼさない場合、オリジナル画像に近い出力画像を取得することができる。ここで、干渉除去オートエンコーダは、少なくとも2種類の干渉サンプルセットをトレーニングすることによって得られ、単一の画像干渉処理の干渉をフィルタリングして除去するだけでなく、複数の干渉処理方法の組み合わせの干渉をフィルタリングして除去することもできるため、敵対的サンプル画像の干渉除去効果を向上させることができる。
【0022】
各種の干渉防止サンプルセットのそれぞれには、少なくとも1つのサンプルペアが含まれ、サンプルペアごとに、オリジナル画像およびこのオリジナル画像に対応する敵対的サンプルが含まれる。同一種類の干渉防止サンプルセットには、敵対的サンプルのそれぞれは、対応するオリジナル画像と比べて、同じ種類の外乱処理(disturbance processing)が行われている。同じ種類とは、採用される外乱方式の組み合わせが同じであることを意味する。外乱方式(disturbance model)の組み合わせは、単一の外乱方式を含んでもよく、または2種類以上の外乱方式の組み合わせを含んでもよい。同じ種類の干渉防止サンプルセットには、採用される外乱方式の組み合わせは同じであるが、それぞれの外乱方式で採用される具体的なパラメータは同じであってもよく異なっていてもよい。本願の実施例で採用される外乱方式は、多種多様で、オプション的であってもよい。外乱方式は、ノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含む。
【0023】
好ましい実施形態では、第一画像を干渉除去オートエンコーダに入力して前処理する前に、さらに、第一画像に対して色次元の観点から圧縮処理を実行することができ、即ち、RGB色情報、グレースケールまたはRGB色情報およびグレースケールの観点から圧縮処理を行うことができる。これは、道路標識認識が主に道路標識パターンの構造、形状、および主体となる色に依存するが、細部の色に敏感ではないためである。通常の場合では、日の当たるところと暗闇で採集された道路標識の色も異なるため、微細な色の違いが圧縮されても、道路標識パターンの認識に影響を与えることはない。画像を色次元の観点から圧縮することにより、画像処理プロセスのデータ計算量を低減させることができる。
【0024】
S130、前記第二画像を道路標識認識モデルに入力して認識処理を行う。
【0025】
ここで、道路標識認識モデルは通常、深層学習に基づくネットワークモデルである。
【0026】
道路標識認識モデルは、第二画像の特徴情報を認識し、特徴情報が速度制限標識、又は交通信号機などの交通標識に属するか否かを判定することができるため、車両運転制御システムの決定モジュールが道路標識認識モデルの認識結果に基づいて制御決定を行い、走行中の車両を制御することができる。
【0027】
本実施例の技術的解決手段では、車両によって採集されたビデオストリームの画像を干渉除去オートエンコーダに入力し、干渉除去オートエンコーダにより前処理して、干渉がフィルタリングして除去した画像を取得し、さらに干渉のない画像を道路標識認識モデルに入力して認識処理を行うことにより、後続プロセスにおいて正確な車両制御コマンドを生成することができるため、道路標識認識モデルが敵対的サンプルに攻撃されることによる道路標識が誤認識されるという問題を解決し、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、無人運転またはインテリジェント運転の安全性を向上させることができる。
【0028】
本願の実施例の技術的解決手段は、いくつかの違法ユーザが道路標識認識に使用される深層学習モデルが明確化されていない場合に発動したブラックボックス攻撃と、深層学習モデルが明確化された場合に発動されたホワイトボックス攻撃の両方に適用できる。ブラックボックス攻撃は、ホワイトボックス攻撃とは異なる。ホワイトボックス攻撃は、往々にして深層学習モデルのモデル構造および具体的なパラメータが既知である場合、高速勾配符号法(Fast Gradient Sign Method、FGSM)、CW(Clarke and Wright)、ジャコビアンベースの顕著性マップアプローチ(Jacobian-based saliency map approach、JSMA)などの敵対的サンプルアルゴリズムを目的に応じて採用してホワイトボックス攻撃を発動しているのに対して、ブラックボックス攻撃は、深層学習モデルが明確化されていない場合、ノイズ、アフィン変換、フィルターファジー化、輝度変換、単色化などの外乱方式を採用し、複雑で変化しやすいブラックボックス攻撃を発動する。本願の実施例は、ブラックボックス攻撃およびホワイトボックス攻撃を効果的に解決し、様々な外乱をフィルタリングして除去したので、交通標識認識のための深層学習モデルが認識およびフィルタリングによる除去を効果的に行うことができる。
【0029】
実施例2
図2aは、本願の実施例2によって提供される交通画像認識方法のフローチャートである。本実施例は、上記実施例における任意の解決手段のそれぞれに基づいており、干渉除去オートエンコーダのトレーニングプロセスを提供する。図2aに示すように、本願の実施例によって提供される交通画像認識方法は、以下のステップを含む。
【0030】
S210、オリジナル画像に少なくとも2種類の干渉を追加して、少なくとも2種類の干渉サンプルセットを形成する。
【0031】
ここで、オリジナル画像は干渉が追加されていない画像であり、画像コンテンツは実際の交通信号機、道路標識、車線、道路標識などのコンテンツである。オリジナル画像の取得ルートは、撮影機能を備えた端末によって撮影されて取得されてもよく、特定のビデオからスクリーンショットして取得してもよい。オリジナル画像を取得した後、サンプルセットを生成する。まず、ノイズの追加、アフィン変換の追加、フィルターファジー化変換の重畳、輝度変換の重畳、および単色化変換の重畳のうちの1つまたは複数の外乱方式により、オリジナル画像を処理して、干渉画像を形成する。次に、オリジナル画像と干渉画像とをサンプルペアとし、少なくとも2種類のサンプルペアセットを前記干渉サンプルセットとして選択する。干渉サンプルセットの種類ごとに、干渉方法の同じ組み合わせを採用する。
【0032】
例示として、第一オリジナル画像にアフィン変換およびフィルターファジー化変換を追加して、第一干渉画像を生成し、該第一オリジナル画像および該第一干渉画像を1つのサンプルペアとする。同様に、その他のオリジナル画像にアフィン変換およびフィルターファジー化変換を追加して、対応する干渉画像を生成し、複数のサンプルペアを取得する。すると、同じ変化によって取得されたサンプルペアは、同じ種類のサンプルペアセット、即ち第一サンプルペアセットに属することになる。第一オリジナル画像にフィルターファジー化変換、輝度変換、および単色化変換を重畳することにより、対応する干渉画像を生成し、対応するサンプルペアを形成することができる。この場合に取得されたサンプルペアセットは、第一サンプルペアセットと異なる第二サンプルペアセットである。同様に、オリジナル画像に異なる種類と数の干渉情報を重畳することにより、より多くの異なる種類のサンプルペアセットを取得することができる。従って、少なくとも2種類のサンプルペアセットを前記干渉サンプルセットとして選択し、トレーニングサンプルをより全面的になるようにし、より多くの外乱方式をカバーすることができるようになるため、敵対的サンプルの除去率を向上させることができる。
【0033】
別の実施形態では、ノイズの追加、アフィン変換の追加、フィルターファジー化変換の重畳、輝度変換の重畳、および単色化変換の重畳のうちの1つまたは複数の外乱方式により、前記オリジナル画像を処理する前に、さらに、任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成することにより、同じオリジナル画像に対して生成される干渉画像の数を増加させ、サンプルペアセットの数を増加させることができる。例えば、任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成するステップは、次のステップを含んでもよい。
【0034】
アフィン変換プロセスにおけるスケーリング比率パラメータを調整して異なるスケーリング比率の外乱を形成するステップ、フィルターファジー化プロセスにおけるファジーコントローラの入力パラメータを調整して異なるファジー度の外乱を形成するステップ、輝度変換における輝度値を調整して異なる輝度の外乱を形成するステップ、および、単色化変換プロセスにおける画素点の画素値を調整して異なる色の外乱を形成するステップのうちの少なくとも1つを含み得る。そのうちの1つの外乱方式が複数の外乱パラメータを含む場合、複数のパラメータ値を同時に変更して、異なる干渉画像を形成することができる。例えば、アフィン変換プロセスの回転角度パラメータおよび切断角度パラメータ、ならびに輝度変換プロセスの輝度値を同時に変更することができる。
【0035】
S220、前記干渉サンプルセットごとのサンプルペアをそれぞれ入力画像および出力画像とし、オートエンコーダに入力してトレーニングする。
【0036】
オートエンコーダ(Auto Encoders)は深層学習においてよく見られるモデルであって、出力層と同じ次元を有する入力層、隠れ層、および出力層を含む三層のニューラルネットワーク構造を有する。具体的には図2bを参照できる。具体的には、入力層および出力層はそれぞれニューラルネットワークの入力層および出力層を表し、隠れ層はエンコーダおよびデコーダの作業を担当し、エンコードプロセスは高次元の入力層から低次元の隠れ層に変換するプロセスであり、逆に、デコードプロセスは低次元の隠れ層から高次元の出力層に変換するプロセスである。従って、オートエンコーダは損失のある変換プロセスであり、損失関数は入力と出力の差を比較することによって定義される。トレーニングプロセスにおいては、データにラベルを付ける必要がなく、プロセス全体は損失関数の最小値の解を求め続けるプロセスである。
【0037】
本実施例では、任意のサンプルペアにおけるノイズを重畳した干渉画像を入力層に入力し、次にオートエンコーダの隠れ層によって復元された画像を出力層から取得し、そしてオリジナル画像を復元された画像とともに損失関数に入力し、損失関数の出力結果に基づいて、オートエンコーダを最適化する必要があるか否かを判定し、損失関数の出力結果が所定条件を満たす場合は、トレーニングプロセスを停止し、最終的に干渉除去オートエンコーダを取得する。
【0038】
別の実施形態では、車両によって採集されたビデオストリームの画像情報が時間的に連続した関連付けられた画像情報であるため、干渉除去オートエンコーダは、LSTM(Long Short-Term Memory、長短期記憶ネットワーク)の畳み込みニューラルネットワークモデルであり得る。そして、干渉サンプルセットのサンプルは、少なくとも2つの連続したフレームの画像を含む。即ち、オリジナル画像は、少なくとも2つの連続したフレームの画像からなるオリジナルサンプルグループであり、オリジナルサンプルグループに対応する干渉画像グループは、オリジナルサンプルグループを基に同じ外乱方式で重畳した画像である。ここで、同じ外乱方式とは、採用される外乱方式の組み合わせが同じであることを意味する。外乱方式の組み合わせは、単一の外乱方式を含んでもよく、または2種類以上の外乱方式の組み合わせを含んでもよい。同じ種類の干渉防止サンプルセットには、採用された外乱方式の組み合わせは同じであるが、外乱方式ごとに採用される具体的なパラメータは同じであってもよく異なっていてもよい。本願の実施例で採用される外乱方式は、多種多様で、オプション的であってもよい。外乱方式は、ノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含む。
【0039】
好ましい実施形態では、干渉除去オートエンコーダのトレーニングを行う前に、さらに、サンプルセットにおけるサンプル画像に対して色次元の観点から圧縮処理を行うことができ、即ち、RGB色情報、グレースケールまたはRGB色情報およびグレースケールの観点から圧縮処理を行うことができる。これは、道路標識認識は主に物体の構造、形状、および主体の色に依存するが、細部の色に敏感ではないためである。画像を色次元の観点から圧縮することにより、画像処理プロセスのデータ計算量を低減することができる。
【0040】
S230、車両によって採集されたビデオストリームを取得し、前記ビデオストリーム内の画像をフレームごとに取り出し第一画像として抽出する。
【0041】
S240、干渉除去オートエンコーダに、前記第一画像を入力して前処理することにより、前記第一画像の干渉をフィルタリングして除去し、第二画像を出力する。
【0042】
S250、前記第二画像を道路標識認識モデルに入力して認識処理を行う。
【0043】
S230-S250の具体的な内容については、実施例1における関連説明を参照できる。
【0044】
本実施例の技術的解決手段では、異なる外乱方式で干渉ノイズをオリジナル画像に追加して、異なる種類の干渉サンプルセットを形成し、オートエンコーダをトレーニングすることにより、複数の干渉をフィルタリングして除去できる干渉除去オートエンコーダを取得し、次に該干渉除去オートエンコーダを使用して、車両によって採集されたビデオストリームの画像に対して干渉除去の前処理を行い、干渉をフィルタリングして除去後の画像を取得し、前処理された画像を道路標識認識モデルに入力して認識処理を行うことにより、正確な車両制御コマンドを生成することができるため、道路標識認識モデルが敵対的サンプルに攻撃されることによる道路標識が誤認識されるという問題を解決し、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、無人運転またはインテリジェント運転の安全性を向上させることができる。
【0045】
実施例
図3は、本願の実施例3によって提供される交通画像認識装置の構造概略図である。本願の実施例は、自動運転車またはインテリジェント運転制御システムの道路標識と交通信号機の認識モデルに対する敵対的サンプルの攻撃に防御する場合に適用することができる。
【0046】
図3に示すように、本願の実施例における交通画像認識装置は、画像採集モジュール310と、画像前処理モジュール320と、画像認識モジュール330とを含む。
【0047】
ここで、画像採集モジュール310は、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するように構成される。画像前処理モジュール320は、前記第一画像を、干渉除去オートエンコーダに入力して前処理することにより、前記第一画像の干渉をフィルタリングして除去し、第二画像を出力するように構成され、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含む。画像認識モジュール330は、前記第二画像を道路標識認識モデルに入力して認識処理を行うように構成される。
【0048】
本実施例の技術的解決手段では、車両によって採集されたビデオストリームの画像を干渉除去オートエンコーダに入力し、干渉除去オートエンコーダにより前処理して、干渉をフィルタリングして除去した画像を取得し、さらに干渉のない画像を道路標識認識モデルに入力して認識処理を行うことにより、正確な車両制御コマンドを生成することができるため、道路標識認識モデルが敵対的サンプルに攻撃されることによる道路標識が誤認識されるという問題を解決し、交通画像における敵対的サンプルの干渉を低減させ、画像認識の精度を向上させ、無人運転またはインテリジェント運転の安全性を向上させることができる。
【0049】
一実施例では、交通画像認識装置は、オリジナル画像に少なくとも2種類の干渉を追加して、少なくとも2種類の干渉サンプルセットを形成するように構成されたサンプルセット生成モジュールと、前記干渉サンプルセットごとのサンプルペアをそれぞれ入力画像および出力画像とし、オートエンコーダに入力してトレーニングするように構成されたモデルトレーニングモジュールと、をさらに含む。
【0050】
一実施例では、サンプルセット生成モジュールは、オリジナル画像を取得するステップと、ノイズの追加、アフィン変換の追加、フィルターファジー化変換の重畳、輝度変換の重畳、および単色化変換の重畳のうちの1つまたは複数の外乱方式により、前記オリジナル画像を処理して、干渉画像を形成するステップと、オリジナル画像と干渉画像とをサンプルペアとし、少なくとも2種類のサンプルペアセットを前記干渉サンプルセットとして選択するステップと、を実行するように構成される。
【0051】
一実施例では、サンプルセット生成モジュールは、任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成するようにさらに構成される。
【0052】
一実施例では、任意の外乱方式における少なくとも1つの外乱パラメータ値を調整して、少なくとも2種類の外乱を形成するステップは、アフィン変換プロセスにおいてスケーリング比率パラメータを調整して異なるスケーリング比率の外乱を形成するステップ、フィルターファジー化プロセスにおいてファジーコントローラの入力パラメータを調整して異なるファジー度の外乱を形成するステップ、輝度変換において輝度値を調整して異なる輝度の外乱を形成するステップ、および、単色化変換プロセスにおいて画素点の画素値を調整して異なる色の外乱を形成するステップのうちの少なくとも1つを含み得る。
【0053】
一実施例では、出力画像はオリジナル画像と同じ解像度を有するように、オートエンコーダの入力層が出力層と同じ構造である。
【0054】
一実施例では、交通画像認識装置は、前記第一画像を干渉除去オートエンコーダに入力して前処理する前に、前記第一画像に対して色次元の観点から圧縮処理を行うように構成された画像圧縮モジュールをさらに含む。
【0055】
一実施例では、前記干渉除去オートエンコーダはLSTMの畳み込みニューラルネットワークモデルであり、前記干渉サンプルセットは少なくとも2つの連続したフレームの画像を含む。
【0056】
本願の実施例によって提供される交通画像認識装置は、本願の任意の実施例によって提供される交通画像認識方法を実行することができ、該方法の実行に必要な機能的モジュールを有し、有益な効果を奏する。
【0057】
実施例4
図4は、本願の実施例4におけるコンピュータデバイスの構造概略図である。図4は、本願の実施形態を実施するのに適する例示的なコンピュータデバイス412のブロック図を示す。図4に示すコンピュータデバイス412は単なる例示であり、本願の実施例の機能および使用範囲にいかなる制限も課すべきものではない。
【0058】
図4に示すように、コンピュータデバイス412は、汎用コンピューティングデバイスの形態で具現化される。コンピュータデバイス412のコンポーネントは、1つまたは複数のプロセッサまたは処理ユニット416と、システムメモリ428と、異なるシステムコンポーネント(システムメモリ428および処理ユニット416を含む)を接続するバス418とを含み得るが、これらに限定されることはない。
【0059】
バス418は、メモリバスまたはメモリコントローラ、周辺バス、加速式グラフィックスポート、プロセッサ、または複数のバス構造のうちの任意のバス構造を使用するローカルバスを含む、いくつかのバス構造のうちの1つまたは複数を表す。例えば、これらのアーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MAC)バス、拡張ISAバス、ビデオエレクトロニクス規格協会(VESA)ローカルバス、および周辺コンポーネント相互接続(PCI)バスを含むが、これらに限定されない。
【0060】
コンピュータデバイス412は通常、複数のコンピュータシステム可読媒体を含む。これらの媒体は、揮発性媒体、不揮発性媒体、リムーバブル媒体および非リムーバブル媒体を含む、コンピュータデバイス412によってアクセスされ得る任意の利用可能な媒体であり得る。
【0061】
システムメモリ428は、ランダムアクセスメモリ(RAM)430および/またはキャッシュメモリ432などの揮発性メモリの形態のコンピュータシステム可読媒体を含み得る。コンピュータデバイス412は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含み得る。一例のみとして、記憶システム434は、非リムーバブルな不揮発性磁気媒体(図4には図示せず、一般に「ハードディスクドライバ」と呼ばれる)を読み書きするために使用され得る。図4には図示されていないが、それは、リムーバブルな不揮発性磁気ディスク(例えば、「フロッピーディスク」)を読み書きするための磁気ディスクドライバ、およびリムーバブルな不揮発性光学ディスク(例えば、CD-ROM、DVD-ROM、またはその他の光学媒体)を読み書きするための光学ディスクドライバを提供することができる。これらの場合、各ドライバは1つまたは複数のデータ媒体インターフェースを介してバス418に接続され得る。メモリ428は、本願の各実施例の機能を実行するように構成された一組(例えば、少なくとも1つ)のプログラムモジュールを有する少なくとも1つのプログラム製品を含み得る。
【0062】
一組(例えば、少なくとも1つ)のプログラムモジュール442を有するプログラム/ユーティリティツール440は、メモリ428などに記憶されてもよく、このプログラムモジュール442は、オペレーティングシステム、1つまたは複数のアプリケーションプラグラム、他のプログラムモジュール、およびプログラムデータを含むが、これらに限定されず、これらの例のそれぞれまたはいくつかの組み合わせは、ネットワーク環境の実装を含み得る。プログラムモジュール442は通常、本願に記載の実施例の機能および/または方法を実行する。
【0063】
コンピュータデバイス412は、1つまたは複数の外部デバイス414(例えば、キーボード、ポインティングデバイス、ディスプレイ424など)と通信することもでき、また、ユーザがこのコンピュータデバイス412と対話することを可能にする1つまたは複数のデバイスと通信することもでき、および/またはこのコンピュータデバイス412が1つまたは複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信することができる。この通信は、入力/出力(I/O)インターフェース422を介して実行され得る。また、コンピュータデバイス412は、ネットワークアダプタ420を介して1つまたは複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、および/またはインターネットなどのパブリックネットワーク)と通信することもできる。図示するように、ネットワークアダプタ420は、バス418を介してコンピュータデバイス412の他のモジュールと通信する。図4には示されていないが、マイクロコード、デバイスドライバ、冗長処理ユニット、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライバ、データバックアップ記憶システムなどを含むがこれらに限定されない、他のハードウェアおよび/またはソフトウェアモジュールは、コンピュータデバイス412と組み合わせて使用され得ることを理解されたい。
【0064】
処理ユニット416は、システムメモリ428に格納されたプログラムを実行することにより、各機能アプリケーションおよびデータ処理を実行し、例えば本願の実施例によって提供される交通画像認識方法を実現する。この方法は主に、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するステップと、前記第一画像を入力して前処理することにより、前記第一画像の干渉を除去し、第二画像を出力するステップであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含む、ステップと、前記第二画像を道路標識認識モデルに入力して認識処理を行うステップと、を含む。
【0065】
実施例5
本願の実施例5は、プロセッサによって実行されるとき、本願の実施例によって提供される交通画像認識方法を実施するコンピュータプログラムを記憶するコンピュータ可読記憶媒体をさらに提供する。この方法は主に、車両によって採集されたビデオストリームを取得し、前記ビデオストリームのフレームごとの画像を第一画像として抽出するステップと、前記第一画像を入力して前処理することにより、前記第一画像の干渉を除去し、第二画像を出力するステップであって、前記干渉除去オートエンコーダは少なくとも2種類の干渉サンプルセットによってトレーニングされて得られ、異なる種類の干渉サンプルセットに追加される外乱方式はノイズ、アフィン変換、フィルターファジー化、輝度変換、および単色化のうちの少なくとも2つを含むステップと、前記第二画像を道路標識認識モデルに入力して認識処理を行うステップと、を含む。
【0066】
本願の実施例のコンピュータ記憶媒体としては、1つまたは複数のコンピュータ可読媒体の任意の組み合わせが採用され得る。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、またはデバイス、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリーメモリ(CD-ROM)、光学メモリ、磁気メモリ、または上記の任意の適切な組み合わせを含む。本明細書では、コンピュータ可読記憶媒体は、指令実行システム、装置、またはデバイスによって使用され得るか、またはそれらと組み合わせて使用され得るプログラムを収容または記憶する任意の有形媒体であり得る。
【0067】
コンピュータ可読信号媒体は、ベースバンド内で、またはコンピュータ可読プログラムコードを担持する搬送波の一部として伝搬されるデータ信号を含み得る。この伝搬されたデータ信号としては、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態が採用され得る。コンピュータ可読信号媒体は、指令実行システム、装置またはデバイスによって使用されるか、またはそれらと組み合わせて使用されるプログラムを送信、伝搬または伝送することができる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得る。
【0068】
コンピュータ可読媒体に含まれるプログラムコードは、無線、有線、光ファイバケーブル、RFなど、または上記の任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体を介して送信され得る。
【0069】
本願の動作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む1つまたは複数のプログラミング言語、またはそれらの組み合わせで編集され得る。プログラムコードは、完全にユーザコンピュータで実行され得るか、または部分的にユーザコンピュータで実行され得るか、または独立したソフトウェアパッケージとして、部分的にユーザコンピュータで、部分的にリモートコンピュータで実行され得るか、または完全にリモートコンピュータまたはサーバで実行され得る。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のネットワークを介してユーザコンピュータに接続され得るか、または外部コンピュータに接続され得る(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続を行う)。
【国際調査報告】