(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-07
(45)【発行日】2023-02-15
(54)【発明の名称】イベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法
(51)【国際特許分類】
G06N 3/045 20230101AFI20230208BHJP
G06T 7/00 20170101ALI20230208BHJP
G06N 3/08 20230101ALI20230208BHJP
G06V 20/54 20220101ALI20230208BHJP
【FI】
G06N3/04 154
G06T7/00 350C
G06N3/08
G06V20/54
(21)【出願番号】P 2018177357
(22)【出願日】2018-09-21
【審査請求日】2021-06-10
(31)【優先権主張番号】201711128574.7
(32)【優先日】2017-11-15
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】イヌ・ルォイ
(72)【発明者】
【氏名】タヌ・ジミン
(72)【発明者】
【氏名】バイ・シアンホォイ
【審査官】坂庭 剛史
(56)【参考文献】
【文献】国際公開第2017/015887(WO,A1)
【文献】HUO, Z., et al.,Vehicle type classification and attribute prediction using multi-task RCNN,2016 9th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI) [online],2016年10月15日,pp. 564-569,[retrieved on 2022-06-20], Retrieved from the Internet: <URL: https://ieeexplore.ieee.org/document/7852774>,<DOI: 10.1109/CISP-BMEI.2016.7852774>
【文献】FANG, Y., et al.,Dynamic Multi-Task Learning with Convolutional Neural Network,Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17) [online],2017年08月19日,pp. 1668-1674,[retrieved on 2022-06-23], Retrieved from the Internet: <URL: https://www.ijcai.org/proceedings/2017/231>,<DOI: 10.24963/ijcai.2017/231>
【文献】ZHANG, Shanghang et al.,“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”,arXiv [online],v2,2017年08月,[2022年12月23日検索],インターネット<URL:https://arxiv.org/abs/1707.09476v2>,DOI: 10.48550/ARXIV.1707.09476
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00- 3/12
G06N 7/08-99/00
G06T 7/00
G06V 20/50-20/58
(57)【特許請求の範囲】
【請求項1】
イベント検出に用いられる深層学習ネットワークであって、
入力データを読み取るデータ層と、
前記データ層により読み取られた前記入力データから特徴を抽出する畳み込み層と、
前記畳み込み層により抽出された前記特徴に基づいて、互いに独立して異なるイベントの検出を行い、異なるイベントの検出結果をそれぞれ出力する少なくとも2つのイベント分類器と、を含
み、
各前記イベント分類器は、1つのイベントのみを検出する、深層学習ネットワーク。
【請求項2】
前記少なくとも2つのイベント分類器は、同一又は異なる構造を有する、請求項1に記載の深層学習ネットワーク。
【請求項3】
前記少なくとも2つのイベント分類器は、同一の構造を有し、
前記イベント分類器は、第1全結合層、第2全結合層、及び前記第1全結合層と前記第2全結合層との間に設けられる長短期記憶層を含む、請求項2に記載の深層学習ネットワーク。
【請求項4】
各前記イベント分類器は、独立して訓練し、且つ/或いは独立してパラメータを調整することができるものである、請求項1に記載の深層学習ネットワーク。
【請求項5】
前記イベント分類器は、独立して前記深層学習ネットワークに追加し、或いは前記深層学習ネットワークから削除することができるものである、請求項1に記載の深層学習ネットワーク。
【請求項6】
請求項1に記載の深層学習ネットワークの訓練装置であって、
前記深層学習ネットワークの前記畳み込み層のパラメータを訓練する第1訓練手段と、
前記深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、前記深層学習ネットワークの前記少なくとも2つのイベント分類器のパラメータを訓練する第2訓練手段と、を含む、装置。
【請求項7】
前記第2訓練手段は、前記少なくとも2つのイベント分類器のパラメータを同時に訓練し、或いは前記少なくとも2つのイベント分類器の各イベント分類器のパラメータをそれぞれ訓練する、請求項6に記載の装置。
【請求項8】
前記深層学習ネットワークにイベント分類器が追加された場合、前記畳み込み層及び前記少なくとも2つのイベント分類器のパラメータを維持したまま、前記深層学習ネットワークに追加された前記イベント分類器のパラメータを単独で訓練する第3訓練手段、をさらに含む、請求項6に記載の装置。
【請求項9】
前記少なくとも2つのイベント分類器のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、前記1つ又は複数のイベント分類器のパラメータを独立して調整する調整手段、をさらに含む、請求項6に記載の装置。
【請求項10】
前記第2訓練手段は、前記少なくとも2つのイベント分類器にそれぞれ対応する、二値化された数値で表される少なくとも2つのラベルを用いて、前記少なくとも2つのイベント分類器のパラメータを訓練する、請求項6に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報技術分野に関し、特にイベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法に関する。
【背景技術】
【0002】
近年、深層学習(deep learning)はコンピュータビジョン(computer vision)の分野に広く応用されている。深層学習により、コンピュータビジョン分野の研究方向は、画像分類から例えばイベント検出などの映像解析(video analysis)に移行している。画像分類に比べて、映像解析はより複雑なシーンに直面し、イベント検出もより高いレベルの論理的判断を学習するためのモデルを必要とする。
【0003】
図1は従来のイベント検出モデルの検出結果を示す図である。
図1に示すように、
図1に示す監視映像画面では、従来のイベント検出モデルで検出された各イベントの発生確率は、正常(Normal)0.03、事故(Accident)0.46、渋滞(Jam)0.41、駐車(Park)0.08、逆行(Reverse)0.02となる。
【0004】
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の発明者の発見によると、
図1の場合は、理想的な出力結果は事故(Accident)と渋滞(Jam)であるはずなのに、上記従来のイベント検出モデルの出力条件を0.5以上とすると、出力結果が得られなくなり、出力条件を最大確率のイベントの出力とすると、出力結果は事故(Accident)となる。即ち、従来のイベント検出モデルは、相互に排他的なイベントのみを区別することができ、複数のイベントを検出結果として出力することができなく、検出結果の正確性及び完全性を確保することができない。また、従来のイベント検出モデルは、マルチ分類器の検出モデルであるため、その訓練時間が長い。
【0006】
本発明の実施例は、イベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法を提供する。該深層学習ネットワークは、互いに独立した、異なるイベントの検出を行う少なくとも2つのイベント分類器を有し、各イベント分類器が独立して検出を行い、検出結果を出力することで、イベント検出結果の正確性及び完全性を確保できる。また、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。
【課題を解決するための手段】
【0007】
本発明の実施例の第1態様では、イベント検出に用いられる深層学習ネットワークであって、入力データを読み取るデータ層と、前記データ層により読み取られた前記入力データから特徴を抽出する畳み込み層と、前記畳み込み層により抽出された前記特徴に基づいて、互いに独立して異なるイベントの検出を行い、異なるイベントの検出結果をそれぞれ出力する少なくとも2つのイベント分類器と、を含む、深層学習ネットワークを提供する。
【0008】
本発明の実施例の第2態様では、本発明の実施例の第1態様に記載の深層学習ネットワークの訓練装置であって、前記深層学習ネットワークの前記畳み込み層のパラメータを訓練する第1訓練手段と、前記深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、前記深層学習ネットワークの前記少なくとも2つのイベント分類器のパラメータを訓練する第2訓練手段と、を含む、装置を提供する。
【0009】
本発明の実施例の第3態様では、本発明の実施例の第1態様に記載の深層学習ネットワークの訓練方法であって、前記深層学習ネットワークの前記畳み込み層のパラメータを訓練するステップと、前記深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、前記深層学習ネットワークの前記少なくとも2つのイベント分類器のパラメータを訓練するステップと、を含む、方法を提供する。
【0010】
本発明の有利な効果としては、該深層学習ネットワークは、互いに独立した、異なるイベントの検出を行う少なくとも2つのイベント分類器を有し、各イベント分類器が独立して検出を行い、検出結果を出力することで、イベント検出結果の正確性及び完全性を確保できる。また、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。
【0011】
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の変更、修正、及び均等的なものが含まれる。
【0012】
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
【0013】
なお、用語「包括/含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
【図面の簡単な説明】
【0014】
ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
【
図1】従来のイベント検出モデルの検出結果を示す図である。
【
図2】本発明の実施例1のイベント検出に用いられる深層学習ネットワークを示す図である。
【
図3】本発明の実施例1の深層学習ネットワークの検出結果を示す図である。
【
図4】本発明の実施例1のイベント分類器203を示す図である。
【
図5】本発明の実施例2の訓練装置を示す図である。
【
図6】本発明の実施例3の電子機器を示す図である。
【
図7】本発明の実施例3の電子機器のシステム構成を示すブロック図である。
【
図8】本発明の実施例4の訓練方法を示す図である。
【発明を実施するための形態】
【0015】
本発明の上記及びその他の特徴は、図面及び下記の説明により理解できるものである。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変形されたもの、及び均等なものを含む。
【0016】
<実施例1>
本発明の実施例はイベント検出に用いられる深層学習ネットワークを提供する。
図2は本発明の実施例1のイベント検出に用いられる深層学習ネットワークを示す図である。
図2に示すように、深層学習ネットワーク200は、データ層201、畳み込み層202、及び少なくとも2つのイベント分類器203を含む。
【0017】
データ層201は、入力データを読み取る。
【0018】
畳み込み層202は、該データ層により読み取られた該入力データから特徴を抽出する。
【0019】
少なくとも2つのイベント分類器203は、該畳み込み層により抽出された該特徴に基づいて、互いに独立して異なるイベントの検出を行い、異なるイベントの検出結果をそれぞれ出力する。
【0020】
上記実施例によれば、該深層学習ネットワークは、互いに独立した、異なるイベントの検出を行う少なくとも2つのイベント分類器を有し、各イベント分類器が独立して検出を行い、検出結果を出力することで、イベント検出結果の正確性及び完全性を確保できる。また、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。
【0021】
本実施例では、データ層201は、入力データを読み取る。例えば、データ層201は、監視映像を処理し、入力データを取得する。
【0022】
例えば、該入力データは、監視映像の少なくとも1つのフレームであってもよく、該監視映像は、道路の上方に設置された監視カメラにより取得されてもよい。
【0023】
本実施例では、畳み込み層202は、該データ層により読み取られた該入力データから特徴を抽出する。該畳み込み層202は、従来の構造を用いてもよい。例えば、該畳み込み層202は、従来のAlexnetネットワーク構造であってもよい。
【0024】
本実施例では、該特徴は、入力データとなる監視映像画像における各特徴、例えば輪郭、テクスチャ(texture)、輝度などであってもよい。
【0025】
本実施例では、少なくとも2つのイベント分類器203は、該畳み込み層202により抽出された該特徴に基づいて、互いに独立して異なるイベントの検出を行い、異なるイベントの検出結果をそれぞれ出力する。
【0026】
本実施例では、各イベント分類器203は異なるイベントを検出でき、且つ各イベント分類器203は1種類のイベントのみを検出し、即ち各イベント分類器203は何れも二分分類器である。
【0027】
本実施例では、イベント分類器203の数は、実際の需要に応じて設定されてもよい。例えば、検出すべきイベントの種類の数に応じて設定されてもよい。
【0028】
例えば、
図2に示すように、該深層学習ネットワーク200は、正常(Normal)、事故(Accident)、渋滞(Jam)、駐車(Park)及び逆行(Reverse)というイベントをそれぞれ検出するための5つのイベント分類器203を含んでもよい。
【0029】
本実施例では、少なくとも2つのイベント分類器203により出力された検出結果を表示してもよい。例えば、少なくとも2つのイベント分類器203により出力された異なるイベントの検出結果を監視映像画面にまとめて表示してもよい。
【0030】
図3は本発明の実施例1の深層学習ネットワークの検出結果を示す図である。
図3に示すように、
図1と同様な監視映像画面では、同様な入力映像について、該深層学習ネットワーク200により取得された検出結果は、正常(Normal)0.01、事故(Accident)0.96、渋滞(Jam)0.89、駐車(Park)0.31、逆行(Reverse)0.10となる。このように、深層学習ネットワーク200は、正常(Normal)、事故(Accident)、渋滞(Jam)、駐車(Park)及び逆行(Reverse)をそれぞれ検出するための5つのイベント分類器203を有し、各イベント分類器203が異なるイベントを独立して検出することで、イベント検出結果の正確性及び完全性を確保できる。
【0031】
本実施例では、各イベント分類器203の構造は、同一であってもよいし、異なってもよい。本実施例では、同一の構造を有するイベント分類器203を一例にして説明する。
【0032】
図4は本発明の実施例1のイベント分類器203を示す図である。
図4に示すように、イベント分類器203は、第1全結合層401、第2全結合層402、及び第1全結合層401と第2全結合層402との間に設けられる長短期記憶(LSTM:Long Short-Term Memory)層403を含む。
【0033】
本実施例では、イベント分類器にLSTM層を設けることで、経時的に有用な情報を記憶し、無用な情報を忘れるという特性を用いて、高い検出精度を得ることができる。
【0034】
本実施例では、該イベント分類器203は、該イベント分類器203により検出されたイベントの発生確率を出力するための出力層404をさらに含んでもよい。
【0035】
本実施例では、第1全結合層401、第2全結合層402、LSTM層403及び出力層404は、何れも従来の構造を用いてもよい。
【0036】
本実施例では、各イベント分類器203は、独立して訓練し、且つ/或いは独立してパラメータを調整することができるものである。このように、深層学習ネットワーク200の訓練及び/又は調整を柔軟に行うことができ、訓練及び/又は調整の時間を効果的に減らすことができる。
【0037】
本実施例では、イベント分類器203は、独立して該深層学習ネットワーク200に追加し、或いは該深層学習ネットワーク200から削除することができるものである。
【0038】
例えば、実際な状況に応じて新たなイベントを検出する場合は、該深層学習ネットワーク200に該新たなイベントを検出するためのイベント分類器を独立して追加してもよい。実際な状況に応じてイベントの検出が不要となる場合は、該深層学習ネットワーク200から該イベントを検出するためのイベント分類器を削除してもよい。
【0039】
このように、該深層学習ネットワークは、柔軟な拡張と削除の機能を有することができ、実際な需要に応じて該深層学習ネットワークにおけるイベント分類器を増減できる。
【0040】
上記実施例によれば、該深層学習ネットワークは、互いに独立した、異なるイベントの検出を行う少なくとも2つのイベント分類器を有し、各イベント分類器が独立して検出を行い、検出結果を出力することで、イベント検出結果の正確性及び完全性を確保できる。また、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。
【0041】
<実施例2>
本発明の実施例は、実施例1に記載されたイベント検出に用いられる深層学習ネットワークの訓練装置をさらに提供する。該深層学習ネットワークの構成は
図2に示すものであり、該深層学習ネットワーク200は、データ層201、畳み込み層202、及び少なくとも2つのイベント分類器203を含む。
【0042】
図5は本発明の実施例2の訓練装置を示す図である。
図5に示すように、訓練装置500は、第1訓練部501及び第2訓練部502を含む。
【0043】
第1訓練部501は、該深層学習ネットワーク200の畳み込み層202のパラメータを訓練する。
【0044】
第2訓練部502は、該深層学習ネットワーク200の畳み込み層202のパラメータを維持したまま、該深層学習ネットワーク200の少なくとも2つのイベント分類器203のパラメータを訓練する。
【0045】
このように、各イベント分類器は1種類のイベントのみを検出する必要があり、即ち各イベント分類器が何れも二分分類器であるため、必要な訓練時間が短い。
【0046】
本実施例では、第1訓練部501は、深層学習ネットワーク200の畳み込み層202のパラメータを訓練する。
【0047】
例えば、公開データセットを用いて畳み込み層202のパラメータを訓練してもよい。このように、公開データセットに百万枚以上の画像が含まれているため、モデルがパラメータを訓練するための豊富な特徴を提供でき、訓練して得られたモデルは良好な普遍性を有する。
【0048】
本実施例では、畳み込みニューラルネットワーク構造(Caffe:Convolutional Architecture for Fast Feature Embedding)において訓練を行ってもよく、該畳み込み層202のパラメータの訓練を終了させるために、通常のAlexnetネットワークの後に2つの全結合層、1つの精度(accuracy)層及び1つの損失(loss)層を追加する必要がある。訓練プロセスでは、該accuracy層及び該loss層の出力値に基づいて、モデルが収束しているか否かを判断し、収束している場合は訓練を終了させる。訓練が完了した後に、該追加された2つの全結合層、1つのaccuracy層及び1つのloss層を削除し、訓練された該畳み込み層202を取得する。
【0049】
本実施例では、該畳み込み層202の訓練が完了した後に、第2訓練部502は、該深層学習ネットワーク200の畳み込み層202のパラメータを維持したまま、該深層学習ネットワーク200の少なくとも2つのイベント分類器203のパラメータを訓練する。
【0050】
例えば、取得された監視映像のデータを用いて訓練を行ってもよい。訓練の際に、1つのaccuracy層及び1つのloss層を追加する必要があり、訓練プロセスでは、該畳み込み層202の学習率を0に設定し、即ち該畳み込み層202のパラメータを変更せずに維持する。また、各イベント分類器203のうち訓練不要なイベント分類器の学習率を0に設定してもよい。訓練プロセスでは、該accuracy層及び該loss層の出力値に基づいて、モデルが収束しているか否かを判断し、収束している場合は訓練を終了させる。訓練が完了した後に、該追加されたaccuracy層及びloss層を削除し、訓練されたイベント分類器203を取得する。
【0051】
本実施例では、第2訓練部502は、該少なくとも2つのイベント分類器にそれぞれ対応する、二値化された数値で表される少なくとも2つのラベルを用いて、該少なくとも2つのイベント分類器のパラメータを訓練してもよい。
【0052】
例えば、ラベル「1」でイベントが発生したことを表し、ラベル「0」でイベントが発生していないことを表してもよく、各ラベルは、順次に配列され、正常(Normal)、事故(Accident)、渋滞(Jam)、駐車(Park)及び逆行(Reverse)というイベントを検出するための各イベント分類器203にそれぞれ対応してもよい。例えば、
図1に示す監視映像画面では、各イベント分類器203に対応するラベルは「01100」と表されてもよい。
【0053】
本実施例では、第2訓練部502は、該少なくとも2つのイベント分類器203のパラメータを同時に訓練し、或いは該少なくとも2つのイベント分類器の各イベント分類器203のパラメータをそれぞれ訓練してもよい。
【0054】
このように、各イベント分類器203のパラメータを同時に訓練する場合は、訓練時間をさらに減らすことができ、各イベント分類器203のパラメータをそれぞれ訓練する場合は、実際の状況に応じて訓練を柔軟に行うことができる。
【0055】
本実施例では、イベント分類器203は、独立して該深層学習ネットワーク200に追加し、或いは該深層学習ネットワーク200から削除することができるものである。このため、訓練装置500は、第3訓練部503をさらに含んでもよい。
【0056】
第3訓練部503は、深層学習ネットワーク200に新たなイベント分類器203が追加された場合、畳み込み層202及び元の少なくとも2つのイベント分類器203のパラメータを維持したまま、深層学習ネットワーク200に追加された該新たなイベント分類器203のパラメータを単独で訓練する。具体的な訓練方法は、元のイベント分類器の訓練方法を参照してもよく、ここでその説明を省略する。
【0057】
これによって、新たな検出要求がある場合は、該畳み込み層202及び元の少なくとも2つのイベント分類器203を訓練し直す必要がなく、該新たなイベント分類器203のパラメータを単独で訓練すればよいため、訓練時間を効果的に減らすことができ、新たな検出要求を迅速に満たすことができる。また、新たなイベント分類器の訓練プロセスでは、元のイベント分類器に影響を与えないため、元のイベント分類器の検出精度を確保できる。
【0058】
本実施例では、訓練装置500は、調整部504をさらに含んでもよい。
【0059】
調整部504は、該少なくとも2つのイベント分類器203のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、該1つ又は複数のイベント分類器のパラメータを独立して調整する。
【0060】
本実施例では、該所定の条件は、例えばイベント分類器の検出精度が所定の閾値に達したことである。例えば、該深層学習ネットワークを用いてイベント検出を行うプロセスにおいて、イベント分類器203に入力された特徴に以前の訓練の際に使ったことがない特徴が含まれることにより、1つ又は複数のイベント分類器203の検出精度が降下し、所定の閾値よりも低くなった。このように、調整部504を用いて該1つ又は複数のイベント分類器203のパラメータを独立して調整することで、他の調整不要なイベント分類器に影響を与えず、様々な状況に応じて調整を柔軟、且つ迅速に行うことができる。
【0061】
例えば、調整プロセスでは、これらの以前の訓練の際に使ったことがない特徴を元の訓練データに追加し、調整が必要な該1つ又は複数のイベント分類器203を独立して訓練し、訓練が完了すると、該1つ又は複数のイベント分類器203のパラメータの調整が完了する。
【0062】
上記実施例によれば、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。
【0063】
<実施例3>
本発明の実施例は電子機器をさらに提供し、
図6は本発明の実施例3の電子機器を示す図である。
図6に示すように、電子機器600は訓練装置601を含み、該訓練装置601は実施例1に記載された深層学習ネットワークを訓練する。該訓練装置601の構成及び機能は実施例2に記載されたものと同じであり、ここでその説明を省略する。
【0064】
図7は本発明の実施例3の電子機器のシステム構成を示すブロック図である。
図7に示すように、電子機器700は、中央処理装置(中央制御装置)701及び記憶装置702を含んでもよく、記憶装置702は中央処理装置701に接続される。該図は単なる例示的なものであり、電気通信機能又は他の機能を実現するように、他の種類の構成を用いて、該構成を補充又は代替してもよい。
【0065】
図7に示すように、電子機器700は、入力部703、ディスプレイ704及び電源705をさらに含んでもよい。
【0066】
1つの態様では、実施例2の訓練装置の機能は中央処理装置701に統合されてもよい。ここで、中央処理装置701は、深層学習ネットワークの前記畳み込み層のパラメータを訓練し、該深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、該深層学習ネットワークの少なくとも2つのイベント分類器のパラメータを訓練するように構成されてもよい。
【0067】
例えば、該少なくとも2つのイベント分類器のパラメータを訓練するステップは、該少なくとも2つのイベント分類器のパラメータを同時に訓練し、或いは該少なくとも2つのイベント分類器の各イベント分類器のパラメータをそれぞれ訓練するステップ、を含んでもよい。
【0068】
例えば、中央処理装置701は、該深層学習ネットワークにイベント分類器が追加された場合、該畳み込み層及び該少なくとも2つのイベント分類器のパラメータを維持したまま、該深層学習ネットワークに追加された該イベント分類器のパラメータを単独で訓練するように構成されてもよい。
【0069】
例えば、中央処理装置701は、該少なくとも2つのイベント分類器のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、該1つ又は複数のイベント分類器のパラメータを独立して調整するように構成されてもよい。
【0070】
例えば、該少なくとも2つのイベント分類器のパラメータを訓練するステップは、該少なくとも2つのイベント分類器にそれぞれ対応する、二値化された数値で表される少なくとも2つのラベルを用いて、該少なくとも2つのイベント分類器のパラメータを訓練するステップ、を含んでもよい。
【0071】
もう1つの態様では、実施例2に記載された訓練装置は中央処理装置701とそれぞれ構成されてもよく、例えば訓練装置は中央処理装置701に接続されたチップであり、中央処理装置701の制御により該訓練装置の機能を実現してもよい。
【0072】
本実施例における電子機器700は、
図7に示されている全ての構成部を含まなくてもよい。
【0073】
図7に示すように、中央処理装置701は、コントローラ又は操作制御部とも称され、マイクロプロセッサ又は他の処理装置及び/又は論理装置を含んでもよく、中央処理装置701は入力を受信し、電子機器700の各部の操作を制御する。
【0074】
記憶装置702は、例えばバッファ、フラッシュメモリ、ハードディスク、移動可能な媒体、発揮性メモリ、不発揮性メモリ、又は他の適切な装置の1つ又は複数であってもよい。また、中央処理装置701は、記憶装置702に記憶されたプログラムを実行し、情報の記憶又は処理などを実現してもよい。他の部材は従来技術に類似するため、ここでその説明が省略される。電子機器700の各部は、本発明の範囲から逸脱することなく、特定のハードウェア、ファームウェア、ソフトウェア又はその組み合わせによって実現されてもよい。
【0075】
本実施例によれば、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。
【0076】
<実施例4>
本発明の実施例は実施例1のイベント検出に用いられる深層学習ネットワークの訓練方法をさらに提供し、該訓練方法は実施例2の訓練装置に対応する。
図8は本発明の実施例4の訓練方法を示す図である。
図8に示すように、該方法は以下のステップを含む。
【0077】
ステップ801:該深層学習ネットワークの該畳み込み層のパラメータを訓練する。
【0078】
ステップ802:該深層学習ネットワークの該畳み込み層のパラメータを維持したまま、該深層学習ネットワークの該少なくとも2つのイベント分類器のパラメータを訓練する。
【0079】
本実施例では、該方法は以下のステップをさらに含んでもよい。
【0080】
ステップ803:該深層学習ネットワークにイベント分類器が追加された場合、該畳み込み層及び該少なくとも2つのイベント分類器のパラメータを維持したまま、該深層学習ネットワークに追加された該イベント分類器のパラメータを単独で訓練する。
【0081】
ステップ804:該少なくとも2つのイベント分類器のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、該1つ又は複数のイベント分類器のパラメータを独立して調整する。
【0082】
本実施例では、上記の各ステップの具体的な実現方法は実施例2に記載されたものと同じであり、ここでその説明を省略する。
【0083】
本実施例によれば、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。
【0084】
本発明の実施例は、深層学習ネットワークの訓練装置又は電子機器においてプログラムを実行する際に、コンピュータに、該深層学習ネットワークの訓練装置又は電子機器において上記実施例4に記載の深層学習ネットワークの訓練方法を実行させる、コンピュータ読み取り可能なプログラムをさらに提供する。
【0085】
本発明の実施例は、コンピュータに、深層学習ネットワークの訓練装置又は電子機器において上記実施例4に記載の深層学習ネットワークの訓練方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。
【0086】
本発明の実施例を参照しながら説明した深層学習ネットワークの訓練装置又は電子機器において実行される深層学習ネットワークの訓練方法は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、
図5に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、
図8に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
【0087】
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD-ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器(例えば移動端末)が比較的に大きい容量のMEGA-SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA-SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
【0088】
図5に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本願に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。
図5に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
【0089】
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び修正を行ってもよく、これらの変形及び修正も本発明の範囲に属する。
【0090】
また、上述の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
イベント検出に用いられる深層学習ネットワークであって、
入力データを読み取るデータ層と、
前記データ層により読み取られた前記入力データから特徴を抽出する畳み込み層と、
前記畳み込み層により抽出された前記特徴に基づいて、互いに独立して異なるイベントの検出を行い、異なるイベントの検出結果をそれぞれ出力する少なくとも2つのイベント分類器と、を含む、深層学習ネットワーク。
(付記2)
前記少なくとも2つのイベント分類器は、同一又は異なる構造を有する、付記1に記載の深層学習ネットワーク。
(付記3)
前記少なくとも2つのイベント分類器は、同一の構造を有し、
前記イベント分類器は、第1全結合層、第2全結合層、及び前記第1全結合層と前記第2全結合層との間に設けられる長短期記憶層を含む、付記2に記載の深層学習ネットワーク。
(付記4)
各前記イベント分類器は、独立して訓練し、且つ/或いは独立してパラメータを調整することができるものである、付記1に記載の深層学習ネットワーク。
(付記5)
前記イベント分類器は、独立して前記深層学習ネットワークに追加し、或いは前記深層学習ネットワークから削除することができるものである、付記1に記載の深層学習ネットワーク。
(付記6)
付記1に記載の深層学習ネットワークの訓練装置であって、
前記深層学習ネットワークの前記畳み込み層のパラメータを訓練する第1訓練手段と、
前記深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、前記深層学習ネットワークの前記少なくとも2つのイベント分類器のパラメータを訓練する第2訓練手段と、を含む、装置。
(付記7)
前記第2訓練手段は、前記少なくとも2つのイベント分類器のパラメータを同時に訓練し、或いは前記少なくとも2つのイベント分類器の各イベント分類器のパラメータをそれぞれ訓練する、付記6に記載の装置。
(付記8)
前記深層学習ネットワークにイベント分類器が追加された場合、前記畳み込み層及び前記少なくとも2つのイベント分類器のパラメータを維持したまま、前記深層学習ネットワークに追加された前記イベント分類器のパラメータを単独で訓練する第3訓練手段、をさらに含む、付記6に記載の装置。
(付記9)
前記少なくとも2つのイベント分類器のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、前記1つ又は複数のイベント分類器のパラメータを独立して調整する調整手段、をさらに含む、付記6に記載の装置。
(付記10)
前記第2訓練手段は、前記少なくとも2つのイベント分類器にそれぞれ対応する、二値化された数値で表される少なくとも2つのラベルを用いて、前記少なくとも2つのイベント分類器のパラメータを訓練する、付記6に記載の装置。
(付記11)
付記1に記載の深層学習ネットワークの訓練方法であって、
前記深層学習ネットワークの前記畳み込み層のパラメータを訓練するステップと、
前記深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、前記深層学習ネットワークの前記少なくとも2つのイベント分類器のパラメータを訓練するステップと、を含む、方法。
(付記12)
前記少なくとも2つのイベント分類器のパラメータを訓練するステップは、
前記少なくとも2つのイベント分類器のパラメータを同時に訓練し、或いは前記少なくとも2つのイベント分類器の各イベント分類器のパラメータをそれぞれ訓練するステップ、を含む、付記11に記載の方法。
(付記13)
前記深層学習ネットワークにイベント分類器が追加された場合、前記畳み込み層及び前記少なくとも2つのイベント分類器のパラメータを維持したまま、前記深層学習ネットワークに追加された前記イベント分類器のパラメータを単独で訓練するステップ、をさらに含む、付記11に記載の方法。
(付記14)
前記少なくとも2つのイベント分類器のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、前記1つ又は複数のイベント分類器のパラメータを独立して調整するステップ、をさらに含む、付記11に記載の方法。
(付記15)
前記少なくとも2つのイベント分類器のパラメータを訓練するステップは、
前記少なくとも2つのイベント分類器にそれぞれ対応する、二値化された数値で表される少なくとも2つのラベルを用いて、前記少なくとも2つのイベント分類器のパラメータを訓練するステップ、を含む、付記11に記載の方法。