IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7500958運転行動認識に用いられる深層学習モデル、訓練装置及び方法
<>
  • 特許-運転行動認識に用いられる深層学習モデル、訓練装置及び方法 図1
  • 特許-運転行動認識に用いられる深層学習モデル、訓練装置及び方法 図2
  • 特許-運転行動認識に用いられる深層学習モデル、訓練装置及び方法 図3
  • 特許-運転行動認識に用いられる深層学習モデル、訓練装置及び方法 図4
  • 特許-運転行動認識に用いられる深層学習モデル、訓練装置及び方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-10
(45)【発行日】2024-06-18
(54)【発明の名称】運転行動認識に用いられる深層学習モデル、訓練装置及び方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240611BHJP
   G06N 3/04 20230101ALI20240611BHJP
【FI】
G06T7/00 350C
G06T7/00 650Z
G06N3/04
【請求項の数】 8
(21)【出願番号】P 2019214582
(22)【出願日】2019-11-27
(65)【公開番号】P2020119507
(43)【公開日】2020-08-06
【審査請求日】2022-08-09
(31)【優先権主張番号】201910073206.X
(32)【優先日】2019-01-25
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】イヌ・ルォイ
(72)【発明者】
【氏名】タヌ・ジミン
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2018-041319(JP,A)
【文献】国際公開第2018/163555(WO,A1)
【文献】Li Du, et al,Ego-Motion Classification for Driving Vehicle,2017 IEEE Third International Conference on Multimedia Big Data (BigMM),米国,IEEE,2017年,276-279,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7966760
【文献】小澤 洋司 YOJI OZAWA,非均質環境における誤差逆伝播法の矩形分割マッピングによる並列高速化 Parallelizing of a Back Propagation in Heterogeneous Environment Using a Rectangular Partitioning Mapping Method,情報処理学会論文誌 第46巻 第12号 IPSJ Journal,日本,社団法人情報処理学会 Information Processing Society of Japan,2005年12月15日,第46巻,p.3078-p.3088
【文献】Khurram Soomro, et al,UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild,arXiv:1212.0402v1,米国,2012年
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
G06N 3/04
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
運転行動認識に用いられる深層学習モデルであって、
時間的に連続的な複数の入力画像に対して特徴抽出を行う畳み込みニューラルネットワークであって、前記入力画像は、車両の運転視点から撮影された画像である、畳み込みニューラルネットワークと、
前記畳み込みニューラルネットワークにより抽出された特徴に対して時間及び空間の融合処理を行うリカレントニューラルネットワークと、
前記リカレントニューラルネットワークの出力結果に対して次元削減処理を行い、前記複数の入力画像に対応する複数組のカテゴリ特徴を出力する第1全結合層と、
前記第1全結合層により出力された前記複数組のカテゴリ特徴に基づいて、前記車両を運転するユーザの各カテゴリの運転行動の確率を決定して出力する確率層と、を含み、
前記リカレントニューラルネットワークは、前記複数の入力画像にそれぞれ対応する複数の長短期記憶層を有し、前記複数の長短期記憶層の出力結果を前記第1全結合層にそれぞれ入力し、
前記複数の長短期記憶層のうちの1番目の長短期記憶層について、前記畳み込みニューラルネットワークにより抽出された該長短期記憶層に対応する入力画像の特徴のみを該長短期記憶層に入力し、前記複数の長短期記憶層のうちの2番目以降の長短期記憶層について、前記畳み込みニューラルネットワークにより抽出された該長短期記憶層に対応する入力画像の特徴、及び該長短期記憶層の直前の長短期記憶層の出力結果を、該長短期記憶層に入力する、深層学習モデル。
【請求項2】
前記畳み込みニューラルネットワークは、複数の畳み込み層及び1つの第2全結合層を有する、請求項1に記載の深層学習モデル。
【請求項3】
請求項1又は2に記載の深層学習モデルの訓練装置であって、
前記深層学習モデルにおける前記畳み込みニューラルネットワークを訓練する第1訓練手段と、
前記第1訓練手段による前記畳み込みニューラルネットワークの訓練が完了した後に、前記深層学習モデルの損失が収束し、且つ検証の精度が所定閾値よりも大きくなるまで、深層学習モデル全体を訓練する第2訓練手段と、を含む、装置。
【請求項4】
前記第1訓練手段は、オープンデータセットを用いて前記畳み込みニューラルネットワークを訓練する、請求項3に記載の装置。
【請求項5】
前記第2訓練手段は、予め取得された車両の運転視点から撮影された画像を用いて深層学習モデル全体を訓練する、請求項3に記載の装置。
【請求項6】
請求項1又は2に記載の深層学習モデルの訓練方法であって、
前記深層学習モデルにおける前記畳み込みニューラルネットワークを訓練するステップと、
前記畳み込みニューラルネットワークの訓練が完了した後に、前記深層学習モデルの損失が収束し、且つ検証の精度が所定閾値よりも大きくなるまで、深層学習モデル全体を訓練するステップと、を含む、方法。
【請求項7】
前記深層学習モデルにおける前記畳み込みニューラルネットワークを訓練するステップは、
オープンデータセットを用いて前記畳み込みニューラルネットワークを訓練するステップ、を含む、請求項6に記載の方法。
【請求項8】
前記深層学習モデル全体を訓練するステップは、
予め取得された車両の運転視点から撮影された画像を用いて深層学習モデル全体を訓練するステップ、を含む、請求項6に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報技術分野に関し、特に運転行動認識に用いられる深層学習モデル、該モデルの訓練装置及び方法に関する。
【背景技術】
【0002】
近年、深層学習により、コンピュータビジョンの分野での研究が大きく進歩している。深層学習とは、階層型ニューラルネットワークにおいて各種の機器学習アルゴリズムを用いて画像やテキストなどの各種の問題を解決するアルゴリズムの集合を意味する。深層学習の核心は特徴学習であり、階層型ニューラルネットワークを介して階層型の特徴情報を取得し、従来の手動で特徴を設計する必要があるという重要な問題を解決することを目的とする。深層学習は、人工知能の様々な分野で徐々に適用されている。
【0003】
運転行動認識は、スマートドライビングの重要な部分である。従来の運転行動認識のモデルは、車両の運転パラメータを分析し、認識結果を取得する。
【0004】
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、車両の運転パラメータは通常公衆に公開されていないため、モデルを訓練するために車両の運転パラメータを取得することは困難である。このため、運転パラメータに基づく認識モデルの認識精度を確保することは困難である。
【0006】
本発明の実施例は、運転行動認識に用いられる深層学習モデル、該モデルの訓練装置及び方法を提供する。認識を行う際に、該モデルは、車両の運転視点から撮影された連続的な複数の画像に対して特徴抽出を行い、抽出された特徴に対してリカレントニューラルネットワークを用いて時間及び空間の融合を行う。また、訓練を行う際に、車両の運転視点から撮影された画像を容易に取得することができるため、該モデルを容易に訓練することができる。従って、該モデルは、各カテゴリの運転行動を正確に認識することができる。
【課題を解決するための手段】
【0007】
本発明の実施例の第1態様では、運転行動認識に用いられる深層学習モデルであって、時間的に連続的な複数の入力画像に対して特徴抽出を行う畳み込みニューラルネットワークであって、前記入力画像は、車両の運転視点から撮影された画像である、畳み込みニューラルネットワークと、前記畳み込みニューラルネットワークにより抽出された特徴に対して時間及び空間の融合処理を行うリカレントニューラルネットワークと、前記リカレントニューラルネットワークの出力結果に対して次元削減処理を行い、前記複数の入力画像に対応する複数組のカテゴリ特徴を出力する第1全結合層と、前記第1全結合層により出力された前記複数組のカテゴリ特徴に基づいて、前記車両を運転するユーザの各カテゴリの運転行動の確率を決定して出力する確率層と、を含む、深層学習モデルを提供する。
【0008】
本発明の実施例の第2態様では、本発明の実施例の第1態様に記載の深層学習モデルの訓練装置であって、前記深層学習モデルにおける前記畳み込みニューラルネットワークを訓練する第1訓練手段と、前記第1訓練手段による前記畳み込みニューラルネットワークの訓練が完了した後に、前記深層学習モデルの損失が収束し、且つ検証の精度が所定閾値よりも大きくなるまで、深層学習モデル全体を訓練する第2訓練手段と、を含む、装置を提供する。
【0009】
本発明の実施例の第3態様では、本発明の実施例の第2態様に記載の装置を含む、電子機器を提供する。
【0010】
本発明の実施例の第4態様では、本発明の実施例の第1態様に記載の深層学習モデルの訓練方法であって、前記深層学習モデルにおける前記畳み込みニューラルネットワークを訓練するステップと、前記畳み込みニューラルネットワークの訓練が完了した後に、前記深層学習モデルの損失が収束し、且つ検証の精度が所定閾値よりも大きくなるまで、深層学習モデル全体を訓練するステップと、を含む、方法を提供する。
【発明の効果】
【0011】
本発明の有益な効果としては、認識を行う際に、該モデルは、車両の運転視点から撮影された連続的な複数の画像に対して特徴抽出を行い、抽出された特徴に対してリカレントニューラルネットワークを用いて時間及び空間の融合を行う。また、訓練を行う際に、車両の運転視点から撮影された画像を容易に取得することができるため、該モデルを容易に訓練することができる。従って、該モデルは、各カテゴリの運転行動を正確に認識することができる。
【0012】
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。
【0013】
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
【0014】
なお、用語「含む/有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
【図面の簡単な説明】
【0015】
ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
図1】本発明の実施例1に係る運転行動認識に用いられる深層学習モデルを示す図である。
図2】本発明の実施例2に係る訓練装置を示す図である。
図3】本発明の実施例3に係る電子機器を示す図である。
図4】本発明の実施例3に係る電子機器のシステム構成を示すブロック図である。
図5】本発明の実施例4に係る訓練方法を示す図である。
【発明を実施するための形態】
【0016】
本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての変更、変形及び均等なものを含む。
【0017】
<実施例1>
本発明の実施例は運転行動認識に用いられる深層学習モデルを提供する。図1は本発明の実施例1に係る運転行動認識に用いられる深層学習モデルを示す図である。
【0018】
図1に示すように、運転行動認識に用いられる深層学習モデル10は、畳み込みニューラルネットワーク100、リカレントニューラルネットワーク200、第1全結合層300、及び確率層400を含む。
【0019】
畳み込みニューラルネットワーク100は、時間的に連続的な複数の入力画像に対して特徴抽出を行う。該入力画像は、車両の運転視点から撮影された画像である。
【0020】
リカレントニューラルネットワーク200は、該畳み込みニューラルネットワークにより抽出された特徴に対して時間及び空間の融合処理を行う。
【0021】
第1全結合層300は、該リカレントニューラルネットワークの出力結果に対して次元削減処理を行い、該複数の入力画像に対応する複数組のカテゴリ特徴を出力する。
【0022】
確率層400は、該第1全結合層により出力された該複数組のカテゴリ特徴に基づいて、該車両を運転するユーザの各カテゴリの運転行動の確率を決定して出力する。
【0023】
本実施例によれば、認識を行う際に、該モデルは、車両の運転視点から撮影された連続的な複数の画像に対して特徴抽出を行い、抽出された特徴に対してリカレントニューラルネットワークを用いて時間及び空間の融合を行う。また、訓練を行う際に、車両の運転視点から撮影された画像を容易に取得することができるため、該モデルを容易に訓練することができる。従って、該モデルは、各カテゴリの運転行動を正確に認識することができる。
【0024】
本実施例では、該複数の入力画像は、時間的に連続的な複数の画像、例えば、所定の時間間隔を有する一連の画像である。また、該複数の入力画像は、車両の運転視点から撮影された画像である。
【0025】
本実施例では、該複数の入力画像は、車両上の撮影装置により撮影されたものである。
【0026】
例えば、該複数の入力画像は、車両上のドライブレコーダにより撮影されたフレームシーケンスである。
【0027】
本実施例では、畳み込みニューラルネットワーク100に同時に入力される該複数の入力画像の数は、実際の需要に応じて決定されてもよい。例えば、畳み込みニューラルネットワーク100に同時に入力される入力画像の数は8個である。
【0028】
図1に示すように、畳み込みニューラルネットワーク100に同時に入力される該複数の入力画像は、番号0~fのf+1個の入力画像である。
【0029】
本実施例では、畳み込みニューラルネットワーク100は、従来のネットワーク構造を用いてもよい。
【0030】
例えば、該畳み込みニューラルネットワーク100は、AlexNetのタイプの畳み込みニューラルネットワークであってもよい。また、該畳み込みニューラルネットワーク100は、GoogleNet、VGG又はResNetなどのタイプの畳み込みニューラルネットワークであってもよい。本実施例では、AlexNetのタイプの畳み込みニューラルネットワークを一例にして説明する。
【0031】
図1に示すように、畳み込みニューラルネットワーク100は、複数の畳み込み層101-1~101-N、及び1つの第2全結合層102を有してもよい。
【0032】
本実施例では、複数の畳み込み層101-1~101-Nは従来の構造を用いてもよく、Nは2以上の整数であり、該畳み込み層の数は実際の需要に応じて設定されてもよい。例えば、該畳み込み層の数は5個である。
【0033】
図1に示すように、番号0~fの入力画像は畳み込みニューラルネットワーク100に同時に入力され、畳み込みニューラルネットワーク100は、番号0~fの入力画像を順次処理し、抽出された番号0~fの入力画像のそれぞれの特徴を取得し、抽出された番号0~fの入力画像のそれぞれの特徴をリカレントニューラルネットワーク200にそれぞれ入力する。
【0034】
本実施例では、リカレントニューラルネットワーク200は、畳み込みニューラルネットワーク100により抽出された特徴に対して時間及び空間の融合処理を行う。
【0035】
例えば、リカレントニューラルネットワーク200は、複数の入力画像に対応する複数の長短期記憶(Long Short-Term Memory:LSTM)層を有する。
【0036】
本実施例では、複数の長短期記憶層のうちの1つの長短期記憶層について、畳み込みニューラルネットワーク100により抽出された該長短期記憶層に対応する入力画像の特徴、及び該長短期記憶層の直前の長短期記憶層の出力結果を、該長短期記憶層に入力する。
【0037】
例えば、図1に示すように、リカレントニューラルネットワーク200は、番号0~fの入力画像に対応する番号0~fのf+1個のLSTM層201-0~201-fを有する。LSTM層201-0について、その入力は、畳み込みニューラルネットワーク100により抽出された該LSTM層に対応する入力画像(即ち、番号0の入力画像)の特徴である。LSTM層201-1について、その入力は、畳み込みニューラルネットワーク100により抽出された該LSTM層に対応する入力画像(即ち、番号1の入力画像)の特徴、及びLSTM層201-0の出力結果である。他のLSTM層について同様である。このように、対応する入力画像の特徴と直前のLSTM層3000の出力結果を組み合わせることで、該複数の入力画像の特徴の時間及び空間の十分な融合を実現することができる。
【0038】
本実施例では、第1全結合層300は、リカレントニューラルネットワーク200の出力結果に対して次元削減処理を行い、該複数の入力画像に対応する複数組のカテゴリ特徴を出力する。第1全結合層300は、従来の構造を用いてもよい。
【0039】
図1に示すように、リカレントニューラルネットワーク200、各LSTM層を介してその出力結果を第1全結合層300にそれぞれ入力する。
【0040】
例えば、f+1個のLSTM層は1×256個の特徴を出力し、第1全結合層300は、f+1個のLSTM層により出力された1×256×(f+1)個の特徴に対して次元削減処理を行い、1×m×(f+1)個の特徴を取得する。
【0041】
ここで、mは運転行動のカテゴリの数を表し、2以上であり、その具体的な数は実際の需要に応じて設定されてもよい。例えば、運転行動は、正常運転、車線変更、右折、左折及び待ちによる停車という5種類のカテゴリを含む。
【0042】
即ち、第1全結合層300により出力された複数組のカテゴリ特徴のうちの各組のカテゴリ特徴はm種類のカテゴリの特徴を含み、ここで、各カテゴリの特徴の数値は0以上の任意の値であってもよい。
【0043】
本実施例では、確率層400は、第1全結合層300により出力された該複数組のカテゴリ特徴に基づいて、該車両を運転するユーザの各カテゴリの運転行動の確率を決定して出力する。ここで、確率層400は従来の構造を用いてもよい。
【0044】
例えば、確率層400はsoftmax層であり、0~1の数値で表される各カテゴリの運転行動の確率を出力する。
【0045】
例えば、確率層400の出力結果は、正常運転:0.00、車線変更:0.00、右折:0.01、左折:0.99、待ちによる停車:0.00である。
【0046】
本実施例では、カテゴリの確率が閾値よりも大きい場合、運転行動が該カテゴリに属すると決定してもよい。例えば、カテゴリの確率が0.9よりも大きい場合、現在の運転行動が該カテゴリに属すると決定してもよい。
【0047】
本実施例では、深層学習モデル10は独立した装置又は機器として認識機能を実現してもよいし、深層学習モデル10は運転行動認識装置に含まれてもよい。
【0048】
本実施例では、現在の運転行動が認識された後に、様々な用途に適用してもよい。例えば、認識された運転行動に基づいて、ユーザへの安全注意喚起又はユーザの運転行動の分析などを行ってもよい。
【0049】
本実施例によれば、認識を行う際に、該モデルは、車両の運転視点から撮影された連続的な複数の画像に対して特徴抽出を行い、抽出された特徴に対してリカレントニューラルネットワークを用いて時間及び空間の融合を行う。また、訓練を行う際に、車両の運転視点から撮影された画像を容易に取得することができるため、該モデルを容易に訓練することができる。従って、該モデルは、各カテゴリの運転行動を正確に認識することができる。
【0050】
<実施例2>
本発明の実施例は、実施例1に記載の運転行動認識に用いられる深層学習モデルの訓練装置をさらに提供する。該深層学習モデルの構造は図1に示すものであり、該深層学習モデル10は、畳み込みニューラルネットワーク100、リカレントニューラルネットワーク200、第1全結合層300、及び確率層400を含む。
【0051】
図2は本発明の実施例2に係る訓練装置を示す図である。図2に示すように、訓練装置1000は、第1訓練部1001及び第2訓練部1002を含む。
【0052】
第1訓練部1001は、深層学習モデル10における畳み込みニューラルネットワーク100を訓練する。
【0053】
第2訓練部1002は、第1訓練部1001による畳み込みニューラルネットワーク100の訓練が完了した後に、深層学習モデル10の損失が収束し、且つ検証の精度が所定閾値よりも大きくなるまで、深層学習モデル10全体を訓練する。
【0054】
本実施例では、第1訓練部1001は、オープンデータセットを用いて畳み込みニューラルネットワーク100を訓練してもよい。例えば、ImageNetにおける大量の画像を用いて畳み込みニューラルネットワーク100を訓練する。
【0055】
本実施例では、第1訓練部1001は、従来の方法を用いて、深層学習モデル10における畳み込みニューラルネットワーク100を訓練してもよい。
【0056】
第1訓練部1001による畳み込みニューラルネットワーク100の訓練が完了した後に、第2訓練部1002は、深層学習モデル10の損失が収束し、且つ検証の精度が所定閾値よりも大きくなるまで、深層学習モデル10全体を訓練する。
【0057】
本実施例では、第2訓練部1002は、予め取得された車両の運転視点から撮影された画像を用いて深層学習モデル全体を訓練してもよい。
【0058】
例えば、ネットワークから収集された車両の運転視点から撮影された画像、及び運転中に記録された画像を用いて訓練を行ってもよい。
【0059】
例えば、第2訓練部1002により用いられる訓練データセットと検証データセットとテストデータセットの比率は6:2:2である。
【0060】
本実施例では、該所定閾値は実際の需要に応じて設定されてもよく、例えば、該所定閾値は95%である。
【0061】
本実施例によれば、段階的な訓練により、畳み込みニューラルネットワークを訓練するためのサンプルの量が大きく、モデル全体を訓練するためのサンプルを容易に取得することができるため、実施例1に記載の深層学習モデルを容易に訓練することができ、該深層学習モデルの認識精度を確保することができる。
【0062】
<実施例3>
本発明の実施例は電子機器をさらに提供し、図3は本発明の実施例3に係る電子機器を示す図である。図3に示すように、電子機器3000は訓練装置3001を含み、該訓練装置3001は実施例1に記載の深層学習モデルを訓練するために用いられ、該訓練装置3001の構成及び機能は実施例2に記載されたものと同じであり、ここでその説明を省略する。
【0063】
図4は本発明の実施例3に係る電子機器のシステム構成を示すブロック図である。図4に示すように、電子機器4000は、中央処理装置(中央制御装置)4001及び記憶装置4002を含んでもよく、記憶装置4002は中央処理装置4001に接続される。該図は単なる例示的なものであり、電気通信機能又は他の機能を実現するように、他の種類の構成を用いて、該構成を補充又は代替してもよい。
【0064】
図4に示すように、電子機器4000は、入力部4003、ディスプレイ4004及び電源4005をさらに含んでもよい。
【0065】
1つの態様では、実施例2の訓練装置の機能は中央処理装置4001に統合されてもよい。ここで、中央処理装置4001は、深層学習モデルにおける畳み込みニューラルネットワークを訓練し、畳み込みニューラルネットワークの訓練が完了した後に、深層学習モデルの損失が収束し、且つ検証の精度が所定閾値よりも大きくなるまで、深層学習モデル全体を訓練するように構成されてもよい。
【0066】
例えば、該深層学習モデルにおける畳み込みニューラルネットワークを訓練するステップは、オープンデータセットを用いて畳み込みニューラルネットワークを訓練するステップ、を含む。
【0067】
例えば、該深層学習モデル全体を訓練するステップは、予め取得された車両の運転視点から撮影された画像を用いて深層学習モデル全体を訓練するステップ、を含む。
【0068】
もう1つの態様では、実施例2に記載の訓練装置は中央処理装置4001とそれぞれ構成されてもよく、例えば該訓練装置は中央処理装置4001に接続されたチップであり、中央処理装置4001の制御により該訓練装置の機能を実現してもよい。
【0069】
本実施例における電子機器4000は、図4に示されている全ての構成部を含まなくてもよい。
【0070】
図4に示すように、中央処理装置4001は、コントローラ又は操作制御部とも称され、マイクロプロセッサ又は他の処理装置及び/又は論理装置を含んでもよく、中央処理装置4001は入力を受信し、電子機器4000の各部の操作を制御する。
【0071】
記憶装置4002は、例えばバッファ、フラッシュメモリ、ハードディスク、移動可能な媒体、発揮性メモリ、不発揮性メモリ、又は他の適切な装置の1つ又は複数であってもよい。また、中央処理装置4001は、記憶装置4002に記憶されたプログラムを実行し、情報の記憶又は処理などを実現してもよい。他の部材は従来技術に類似するため、ここでその説明が省略される。電子機器4000の各部は、本発明の範囲から逸脱することなく、特定のハードウェア、ファームウェア、ソフトウェア又はその組み合わせによって実現されてもよい。
【0072】
本実施例によれば、段階的な訓練により、畳み込みニューラルネットワークを訓練するためのサンプルの量が大きく、モデル全体を訓練するためのサンプルを容易に取得することができるため、実施例1に記載の深層学習モデルを容易に訓練することができ、該深層学習モデルの認識精度を確保することができる。
【0073】
<実施例4>
本発明の実施例は、実施例1に記載の運転行動認識に用いられる深層学習モデルの訓練方法をさらに提供し、該訓練方法は実施例2に記載の訓練装置に対応する。図5は本発明の実施例4に係る訓練方法を示す図である。図5に示すように、該方法は以下のステップを含む。
【0074】
ステップ5001:該深層学習モデルにおける畳み込みニューラルネットワークを訓練する。
【0075】
ステップ5002:該畳み込みニューラルネットワークの訓練が完了した後に、深層学習モデルの損失が収束し、且つ検証の精度が所定閾値よりも大きくなるまで、該深層学習モデル全体を訓練する。
【0076】
本実施例では、上記の各ステップの具体的な実現方法は実施例2に記載されたものと同じであり、ここでその説明を省略する。
【0077】
本実施例によれば、段階的な訓練により、畳み込みニューラルネットワークを訓練するためのサンプルの量が大きく、モデル全体を訓練するためのサンプルを容易に取得することができるため、実施例1に記載の深層学習モデルを容易に訓練することができ、該深層学習モデルの認識精度を確保することができる。
【0078】
本発明の実施例は、実施例1に記載の深層学習モデルを含む運転行動認識装置をさらに提供する。
【0079】
本発明の実施例は、時間的に連続的な複数の入力画像を実施例1に記載の深層学習モデルに入力し、該深層学習モデルにより出力された該車両を運転するユーザの各カテゴリの運転行動の確率を取得するステップ、を含む運転行動認識方法をさらに提供する。
【0080】
本発明の実施例は、深層学習モデルの訓練装置又は電子機器においてプログラムを実行する際に、コンピュータに、該深層学習モデルの訓練装置又は電子機器において上記実施例4に記載の深層学習モデルの訓練方法を実行させる、コンピュータ読み取り可能なプログラムをさらに提供する。
【0081】
本発明の実施例は、コンピュータに、深層学習モデルの訓練装置又は電子機器において上記実施例4に記載の深層学習モデルの訓練方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。
【0082】
本発明の実施例を参照しながら説明した深層学習モデルの訓練装置又は電子機器において実行される深層学習モデルの訓練方法は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図2に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図5に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
【0083】
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD-ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、電子機器が比較的に大きい容量のMEGA-SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA-SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
【0084】
図2に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本願に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図2に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
【0085】
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。
図1
図2
図3
図4
図5