(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-21
(45)【発行日】2024-05-29
(54)【発明の名称】オブジェクト認識ニューラルネットワークの訓練
(51)【国際特許分類】
G06T 7/00 20170101AFI20240522BHJP
G06T 7/10 20170101ALI20240522BHJP
G06T 7/70 20170101ALI20240522BHJP
【FI】
G06T7/00 350C
G06T7/10
G06T7/70 Z
【外国語出願】
(21)【出願番号】P 2021101368
(22)【出願日】2021-06-18
【審査請求日】2023-10-19
(32)【優先日】2020-06-25
(33)【優先権主張国・地域又は機関】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208205
【氏名又は名称】アクシス アーベー
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】シル コールバリ, アダム
【審査官】佐藤 実
(56)【参考文献】
【文献】特開2019-153277(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
事前訓練されたオブジェクト認識ニューラルネットワークのためにシーン特有の訓練を提供するコンピュータ実装方法であって、
デジタルカメラの画像センサによって、前記デジタルカメラによってモニターされるシーンの画像フレームのセットを取得すること、
第1のオブジェクト認識アルゴリズムによって、前記画像フレームのセットの第1のサブセットをフィルターで取り出す(filter out)ために前記画像フレームのセットに第1の画像フィルタリングステップを実施することであって、前記第1のサブセットは、前記第1のオブジェクト認識アルゴリズム(102)によって決定されたオブジェクト認識に関連する画像フレームを備え、各オブジェクト認識は、関連する画像フレーム内の被認識オブジェクトの場所データおよびオブジェクトクラスを含む、第1の画像フィルタリングステップを実施すること、
第2のオブジェクト認識アルゴリズムによって、前記画像フレームのセットの前記第1のサブセットを前記画像フレームのセットの第2のサブセットまで減らすために画像フレームの前記第1のサブセットに第2の画像フィルタリングステップを実施することであって、前記画像フレームのセットの前記第2のサブセットは、画像フレーム間の相関するオブジェクト認識の運動が、評価されている前記オブジェクト認識の前記オブジェクトクラスに特有の所定の運動条件を満たすかどうかを決定するために、画像フレームの前記第1のサブセット内の前記オブジェクト認識を評価することによって、前記第2のオブジェクト認識アルゴリズムによって決定された検証済みオブジェクト検出に関連する画像フレームを備え、前記評価において前向きな結果を有するオブジェクト認識は検証済みオブジェクト認識を形成する、第2の画像フィルタリングステップを実施すること、
前記検証済みオブジェクト認識およびそれらに関連する画像フレームから、アノテーション付き画像フレームの訓練用セットを形成すること、ならびに
アノテーション付き画像フレームの前記訓練用セットに基づいて前記事前訓練されたオブジェクト認識ニューラルネットワークのシーン特有の訓練を提供すること
を含む、方法。
【請求項2】
前記第1のオブジェクト認識アルゴリズムは画像取り込みデバイス内に実装される、請求項1に記載の方法。
【請求項3】
前記第2のオブジェクト認識アルゴリズムはリモートサーバー内に実装される、請求項2に記載の方法。
【請求項4】
シーンをモニターする画像取り込みデバイスにおいて事前訓練されたオブジェクト認識ニューラルネットワークのためにシーン特有の訓練を提供するコンピュータ実装方法であって、
請求項1に記載の方法を実施することを含む設置フェーズを実行すること、
運用フェーズにおいて、取得される画像フレームを解析することによって、前記シーンの全体外観をモニターすること、および、
前記全体外観が変化したことを検出すると、前記設置フェーズを再び実行すること
を含む、方法。
【請求項5】
前記全体外観は、天候または季節による光条件または外観である、請求項4に記載の方法。
【請求項6】
第1のオブジェクト認識器を含むデジタルカメラおよび第2のオブジェクト認識器を含むリモートサーバーを備えるシステムであって、前記
デジタルカメラは、
前記デジタルカメラの画像センサによって、前記デジタルカメラによってモニターされるシーンの画像フレームのセットを取得し、
第1のオブジェクト認識アルゴリズムによって、前記画像フレームのセットの第1のサブセットをフィルターで取り出す(filter out)ために前記画像フレームのセットに第1の画像フィルタリングステップを実施することであって、前記第1のサブセットは、前記第1のオブジェクト認識アルゴリズムによって決定されたオブジェクト認識に関連する画像フレームを備え、各オブジェクト認識は、関連する画像フレーム内の被認識オブジェクトの場所データおよびオブジェクトクラスを含む、第1の画像フィルタリングステップを実施することによって、前記第1のオブジェクト認識器によって、前記画像フレームのセット内で複数のオブジェクト認識を決定し、
前記複数のオブジェクト認識および関連する画像フレームを前記リモートサーバーに送信する
ように構成され、
前記リモートサーバーは、
前記第2のオブジェクト認識器内の第2のオブジェクト認識アルゴリズムによって、前記画像フレームのセットの前記第1のサブセットを前記画像フレームのセットの第2のサブセットまで減らすために画像フレームの前記第1のサブセットに第2の画像フィルタリングステップを実施することであって、前記画像フレームのセットの前記第2のサブセットは、画像フレーム間の相関するオブジェクト認識の運動が、評価されている前記オブジェクト認識の前記オブジェクトクラスに特有の所定の運動条件を満たすかどうかを決定するために、画像フレームの前記第1のサブセット内の前記オブジェクト認識を評価することによって、前記第2のオブジェクト認識アルゴリズムによって決定された検証済みオブジェクト認識に関連する画像フレームを備え、前記評価において前向きな結果を有するオブジェクト認識は検証済みオブジェクト認識を形成する、第2の画像フィルタリングステップを実施することによって、検証済みオブジェクト認識を決定し、
前記検証済みオブジェクト認識に関連する画像フレームを含むアノテーション付き画像の訓練用セットを形成する
ように構成される、システム。
【請求項7】
前記リモートサーバーは、前記アノテーション付き画像の前記訓練用セットに基づいて
、事前訓練されたオブジェクト認識ニューラルネットワークのシーン特有の訓練を始動するようにさらに構成される、請求項6に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オブジェクト認識用のニューラルネットワークの訓練の分野に関する。特に、本発明は、画像取り込みデバイスにおいて使用するためのオブジェクト認識ニューラルネットワークの転移学習に関する。
【背景技術】
【0002】
ニューラルネットワークは、今日、種々の画像解析タスクのために一般に使用されている。1つのタスクは、オブジェクト検出、オブジェクト位置特定、オブジェクト姿勢推定、およびオブジェクトセグメンテーションを含むオブジェクト認識である。オブジェクト認識用のニューラルネットワークは、典型的には、特定のオブジェクトを認識した確率を決定する。オブジェクト認識候補は、その後、高い確率を有するオブジェクト認識を抽出するためにフィルタリングされる。なぜならば、これらのオブジェクト認識が、正しく識別される可能性が最も高いからである。フィルタリングするために使用される値は、しばしば閾値と呼ばれる。より低い閾値は、より多くの検出をもたらすことになり、より多くの偽陽性を含み、より高い閾値は、より少数の検出をもたらすことになり、実際のオブジェクトが検出されない悪影響の可能性を伴う。ニューラルネットワークは、閾値に基づいてフィルタリングされたオブジェクト認識を出力する。
【0003】
オブジェクト認識用のニューラルネットワークの訓練は、異なる外観のオブジェクトおよびシーンを描写するアノテーション付き画像をニューラルネットワークに給送することを含む。異なるオブジェクト認識用途についての良好な適合であるために、既製のニューラルネットワークは、典型的には、広範囲の環境およびオブジェクトをカバーするために選択される画像を用いて事前訓練される。そのような訓練に関する欠点は、ニューラルネットワークが、特定のシーンの画像に関して運用する(operate)ようにセットアップされると、ニューラルネットワークがそのシーンに適合しないことである。特に、オブジェクト認識が重要な役割を果たす監視用途の場合、ニューラルネットワークのシーン特有の訓練を有することが所望される。
【0004】
最初から特定のシーンについてニューラルネットワークを訓練することは、扱いにくい解決策であることになる。さらに、それは、全てのシーンの変動、例えば、光変動、植生の変動(室外シーンにおける)、あるいは、天候または季節による他の外観の変動をカバーする、シーンからの画像を収集する広範囲の仕事を必要とする。したがって、オブジェクト認識ニューラルネットワークのシーン特有の訓練を達成するために複雑でない解決策見出すことについての必要性が存在する。
【発明の概要】
【0005】
本発明の目標は、オブジェクト認識ニューラルネットワーク用のシーン特有の訓練を提供する方法を達成することである。方法は、好ましくは、時間効率的であり、低い処理能力を必要とし、実装するのが容易であるべきである。
【0006】
訓練用データとしてのアノテーション付き画像のスマートな生成を用いる転移学習の使用によって、オブジェクト認識用の事前訓練式ニューラルネットワークの特定の設置に対する適合が、効率的かつ自動的な方法で達成することができることを本発明者は認識した。アノテーション付き画像のスマートな生成は、特定のシーンについての画像をフィルターで取り出す(filter out)ために異なる認識アルゴリズムを用いるマルチパートオブジェクト認識を含む。
【0007】
第1の態様によれば、本発明は、オブジェクト認識ニューラルネットワークを転移学習させる(transfer learn)方法である。方法は、
・画像フレームのセットを取得する行為、
・オブジェクト認識ニューラルネットワークを実装する第1のオブジェクト認識アルゴリズムによって、画像フレームのセット内で複数のオブジェクト認識を決定する行為であって、各オブジェクト認識は、関連する画像フレーム内の被認識オブジェクトの場所データを含む、決定する行為、
・第1と異なる第2のオブジェクト認識アルゴリズムによって複数のオブジェクト認識を評価することによって、検証済みオブジェクト認識を決定する行為であって、上記評価において前向きな結果を有するオブジェクト認識は検証済みオブジェクト認識を形成する、決定する行為、
・検証済みオブジェクト認識に関連する画像フレームを含むアノテーション付き画像の訓練用セットを形成する行為、
・アノテーション付き画像の訓練用セットに基づいてオブジェクト認識ニューラルネットワークの転移学習を実施する行為
を含む。
【0008】
そのため、方法は、ニューラルネットワークを用いて実施される第1のオブジェクト認識アルゴリズムを用いる第1のオブジェクト認識と、それに続く、第2の異なるオブジェクト認識アルゴリズムによる第2のオブジェクト認識を含む。画像は、アルゴリズムによって、画像のセットから順次フィルターで取り出され、アノテートされ、ニューラルネットワークの転移学習を実施するために使用される。初めから、ニューラルネットワークは、典型的には、種々の環境およびオブジェクト外観を扱うことができるための一般的な訓練を有する。提案される方法においてフィルタターで取り出される画像の訓練用セットを用いる転移学習によって、ニューラルネットワークは、ニューラルネットワークがモニターしているシーン内のオブジェクトを検出するのが上手くなる。方法は、オブジェクト認識ニューラルネットワークを利用する画像取り込みデバイスによってモニターされているかまたはモニターされるシーンを示す画像のセットを用いて実施されることを意図される。好ましくは、方法は、画像取り込みデバイスがその意図される場所に設置されると実施される。
【0009】
ニューラルネットワークは、画像のセットの画像内で認識されたオブジェクトを示すオブジェクト認識を出力する。オブジェクト認識は、関連する画像フレーム内の被認識オブジェクトの場所データを含む。そのため、オブジェクト認識は、オブジェクトについての場所データ、および、オブジェクトがそこで認識された画像フレームに対する関連付けを含む。場所データは、画像フレームに対するメタデータとして提供することができ、それにより、場所データと画像フレームとの間の関連付けを形成する。場所データによって、画像フレーム内のオブジェクトについて、任意のタイプのニューラルネットワークによって提供される任意の形態の位置指示データが意味される。場所データは、画像座標の形態で提供することができる。
【0010】
検証済みオブジェクト認識およびそれに関連する画像フレームに基づいてアノテーション付き画像の訓練用セットを形成すると、アノテーションプロセスは、フィルタリング済み画像がアノテートされるように適用される。アノテーションプロセスは、一般に、知られており、種々の方法で実施することができる。例えば、フィルタリング済み画像は、共に本分野における従来技法である、手動レビューおよびアノテーションによってまたはアノテーション自動化によってアノテートすることができる。
【0011】
したがって、転移学習はまた、ニューラルネットワークを訓練するためのよく知られているプロセスである。転移学習によって、既に訓練済みのネットワークが、結果を変更するために、この場合、ニューラルネットワーク内のオブジェクト認識機構を特定のシーンのコンテンツに適合させるために、さらに訓練されることが意味される。ニューラルネットワークのアーキテクチャは同じままである。例として、転移学習は、ニューラルネットの一部またはすべての重みを変更することを含むことができる。転移学習は、代替的を、さらなる訓練または増分的訓練(incremental training)と呼ぶことができる。
【0012】
本明細書に含まれるオブジェクト認識の非制限的な例は、オブジェクト位置特定、オブジェクト検出、オブジェクトセグメンテーション、および姿勢推定である。使用することができるニューラルネットワークアーキテクチャの非制限的な例は、R-CNN、YOLO(You Only Look Once)、SSD(:single shot detector、シングルショット検出器)、Deeplab、U-Net、Mask R-CNN、PoseNet、OpenPose、DeepCut、およびRMPE(:Regional Multi-person Pose Estimation、領域複数人姿勢推定)である。
【0013】
第1の実施形態において、第2のオブジェクト認識は、被認識オブジェクトの運動特性に基づいて実施される。オブジェクト運動特性によって、人間オブジェクトについての歩行、走行、手振り、または、車両オブジェクトについての運転等のオブジェクト運動の品質が意味される。品質は、オブジェクト運動の、運動パターン、速度、または方向に関連するとすることができる。
【0014】
そのため、検証済みオブジェクト認識を決定するステップは、画像フレーム間の相関したオブジェクト認識の運動が所定の運動条件を満たすか否かを判定することを含むことができる。運動条件は、被認識オブジェクトの運動パターン、運動方向、または速度に基づくとすることができる。したがって、画像フレーム間でオブジェクト認識をどのように相関させるかは、知られており、例えば、オブジェクト埋め込み(object embedding)の使用によって行うことができる。
【0015】
相関したオブジェクト認識の決定された運動パターンは、運動パターンを規定する1つまたは複数のテンプレートと比較することができ、特定の閾値を超える1つまたは複数のテンプレートに対する類似度は、所定の運動条件を満たすことに対応する。
【0016】
相関したオブジェクト認識の決定された運動方向は、テンプレート方向のうちの1つのテンプレート方向または或る範囲のテンプレート方向と比較することができ、テンプレート方向のうちの1つのテンプレート方向またはその範囲のテンプレート方向に対する十分に小さい距離は、所定の運動条件を満たすことに対応する。
【0017】
相関したオブジェクト認識の決定された速度値は、テンプレート速度値のうちの1つのテンプレート速度値または或る範囲のテンプレート速度値と比較することができ、テンプレート速度値のうちの1つのテンプレート速度値またはその範囲のテンプレート速度値に対する十分に小さい距離は、所定の運動条件を満たすことに対応する。
【0018】
異なるタイプの運動条件に関連する上記で開示した変形は、所定の運動条件が、2つ以上のタイプの運動特性に基づくように組み合わすことができる。
【0019】
この実施形態の変形において、各オブジェクト認識は、所定の運動条件を設定するために第2のオブジェクト認識アルゴリズムにおいて利用されるオブジェクトクラスを含む。特に、所定の運動条件は、オブジェクトクラスに基づいて選択され、異なるオブジェクトクラスについて異なるとすることができる。画像をフィルタリングするこの手法を用いて、第1のオブジェクト認識アルゴリズムからの程度の高い偽陽性は、第2のオブジェクト認識アルゴリズムによって効率的な方法で、フィルターで取り出すことができる。
【0020】
第2の実施形態において、第2のオブジェクト認識は、被認識オブジェクトの場所に基づいて実施される。オブジェクト場所は、ニューラルネットワークによって提供されるオブジェクト認識の場所データによって与えられる。第2のアルゴリズムによって実施される、検証済みオブジェクト認識の決定において、オブジェクト認識が所定の画像エリア内に位置するか否かを判定することができる。異なる画像エリアは、異なるオブジェクトクラスのために存在することができる。そのため、画像エリアは、オブジェクト認識の一部として、第1のアルゴリズムによって提供されるオブジェクトクラスに基づいて選択することができる。
【0021】
方法の1つの実施形態において、ニューラルネットワークは、オブジェクトの過検出が達成されるように構成される。過検出によって、ニューラルネットワークが、必ずしもシーン内の実際のオブジェクトに対応しないオブジェクトを検出することが意味される。この構成によって、第1のアルゴリズムは、画像のセットの第1のフィルターとして働き、或る量の偽陽性認識と共に真陽性認識をフィルターで取り出す。第2のアルゴリズムは、異なるパラメータに関してフィルタリングすることによって真陽性認識を見出すことを目標とする。上記で例示したように、異なるパラメータは、第1のアルゴリズムから出力されるオブジェクト認識の情報、例えば、オブジェクト場所またはオブジェクトクラスに基づいて選択することができる。
【0022】
第1のオブジェクト認識アルゴリズムは、モニタリングカメラ等の画像取り込みデバイス内に実装することができる。これは有利手法である。なぜならば、転移訓練用の所望の量のオブジェクト認識を達成するために、多数の画像が第1のオブジェクト認識アルゴリズムによって処理される必要がある場合があるからである。第1のオブジェクト認識アルゴリズムがリモートサーバー上で実施された場合、多数の画像が、理由なく、リモートサーバーに送信される必要があることになる。なぜならば、おそらくはそれらの画像のほとんどがオブジェクト認識をもたらさないことになるからである。これは、使用中のオブジェクト検出モデルについて、関連するオブジェクトの外観がほとんどないシーンに特に当てはまる。そのようなシーンは、所望の量のオブジェクト認識に達する前に、長期にわたる画像取得を必要とすることになる。したがって、ネットワーク容量および時間は共に、画像取り込みデバイス内で第1のオブジェクト認識アルゴリズムを実施することによって節約することができる。
【0023】
さらに、第2のオブジェクト認識アルゴリズムはリモートサーバー内に実装することができる。そのため、オブジェクト認識を、画像取り込みデバイス内で決定し、第2のオブジェクト認識アルゴリズムによる解析のために、リモートサーバーに送信することができる。この構成は、ネットワーク利用を低く維持する利益と、画像取り込みデバイスの処理能力に過負荷をかけない利益のバランスをとる。別の利点は、画像取り込みデバイスの制限された資源によって実施することが可能でない処理要求の厳しい運用(processing-demanding operation)を第2のアルゴリズムが含むように構成することができることである。
【0024】
1日周期にわたる光条件の変動をカバーするために、画像フレームのセットは、少なくとも24時間(すなわち、1日周期)であるとすることができる所定の期間内で取得することができる。適用することができる別の条件は、代替的にまたは付加的に、所定の数のオブジェクト認識が画像フレームのセットから決定されるまで、画像フレームが取得されるべきであることである。
【0025】
1つの実施形態によれば、方法は、転移学習後のオブジェクト認識ニューラルネットワークを、同じシーンまたは同じシーンタイプの別のシーンをモニターする別の画像取り込みデバイスに転送する(transfer)さらなる行為を含む。
【0026】
第2の態様によれば、本発明は、シーンをモニターする画像取り込みデバイスにおいてオブジェクト認識ニューラルネットワークを訓練する方法である。方法は、
・第1の態様または第1の態様の実施形態の方法を実施することを含む設置フェーズ(installation phase)を実行すること、
・運用フェーズ(operation phase)において、取得される画像フレームを解析することによって、シーンの全体外観(visual appearance)をモニターすること、および、
・全体外観が変化したことを検出すると、設置フェーズを再び実行すること
を含む。
【0027】
そのため、2つのフェーズ:設置フェーズおよび運用フェーズを含む画像取り込みデバイスについての実行スキームが提供される。設置フェーズにおいて、画像のセットは、上記第1の態様について開示したようにオブジェクト認識を決定するために取得される。さらに、第2の態様によれば、シーンの全体外観をモニターするように適合される、運用フェーズにおけるモニタリング機構が提供される。シーンの全体外観が変化したことを検出すると、画像取り込みデバイスは、転移学習の別のラウンドを実施するために設置フェーズに再び入る。シーンの外観が変化するときに転移学習をトリガーすることによって、オブジェクト検出ニューラルネットワークは、モニターされる特定のシーンの異なる変動を扱うために訓練することができる。これは、オブジェクト認識ニューラルネットワークを特定のシーンにさらに一層適合させ、オブジェクト認識ニューラルネットワークは、さらによりよく働くことができる。
【0028】
第3の態様によれば、本発明は、オブジェクト認識ニューラルネットワークを実装する第1のオブジェクト認識器および第2のオブジェクト認識器を含むリモートサーバーを備える画像取り込みデバイスを備えるシステムである。画像取り込みデバイスは、
・画像フレームのセットを取得するように配置され、
・第1のオブジェクト認識器によって、画像フレームのセット内で複数のオブジェクト認識を決定するように配置され、各オブジェクト認識は、関連する画像フレーム内の被認識オブジェクトの座標を含み、
・複数のオブジェクト認識および関連する画像フレームをリモートサーバーに送信するように配置される。
【0029】
リモートサーバーは、
・第2のオブジェクト認識器内の第1と異なる第2のオブジェクト認識アルゴリズムによって複数のオブジェクト認識を評価することによって、検証済みオブジェクト認識を決定するように配置され、前向きな結果を有するオブジェクト認識は検証済みオブジェクト認識を形成し、
・検証済みオブジェクト認識に関連する画像フレームを含むアノテーション付き画像の訓練用セットを形成するように配置される。
【0030】
1つの実施形態において、リモートサーバーは、アノテーション付き画像の訓練用セットに基づいてオブジェクト認識ニューラルネットワークの転移学習を始動するようにさらに配置される。
【0031】
第3の態様の変形および利点について、上記第1の態様の議論に対して参照が行われる。これらは、第3の態様にも当てはまる。
【0032】
本発明の適用性のさらなる範囲は、以下で示す詳細な説明から明らかになるであろう。しかしながら、本発明の範囲内の種々の変更および修正が、この詳細な説明から当業者に明らかになるため、詳細な説明および特定の例が、本発明の好ましい実施形態を示しながら、例証としてのみ示されることが理解されるべきである。
【0033】
したがって、本発明が、述べるデバイスの特定のコンポーネント部品または述べる方法のステップに限定されず、なぜならば、そのようなデバイスおよび方法が変動する場合があるからであることが理解される。本明細書で使用される用語が特定の実施形態を述べるためのものに過ぎず、制限的であることを意図されないことも理解される。本明細書および添付特許請求の範囲で使用するとき、冠詞「1つの(a)」、「1つの(an)」、「その(the)」、および「(said)」が、別段に文脈が明確に指示しない限り、要素の1つまたは複数が存在することを意味することを意図されることが留意されなければならない。そのため、例えば、「1つのオブジェクト(an object)」または「そのオブジェクト(the object)」に対する参照は、幾つかのオブジェクトおよび同様なものを含むことができる。さらに、語「備えている(comprising)」は、他の要素またはステップを排除しない。
【0034】
本発明は、ここで、例としてまた添付概略的図面を参照してより詳細に述べられる。
【図面の簡単な説明】
【0035】
【
図1】実施形態による転移学習の方法の一般的な概要の図である。
【
図2】実施形態による方法を実装する画像取り込みデバイスを有するシステムを示す図である。
【
図3】実施形態による画像取り込みデバイスについての異なる実行モードを有る方法を示す図である。
【発明を実施するための形態】
【0036】
オブジェクト認識ニューラルネットワーク用の転移学習プロセスの実施形態がここで開示される。
図1は、プロセスの概要を提供する。プロセスは、
図1に示すコンポーネントによって実施される。画像フレームは、画像取得部100によって取り込まれる。特に、画像フレームのセット101が取得される。画像フレームのセット101は、その後、異なるオブジェクト認識アルゴリズムによる2つのステップでフィルタリングされる。フィルタリングされる、によって、フィルタリング基準に基づいて画像のセット101において選択が行われることが意味される。オブジェクト認識アルゴリズムは異なるフィルタリング基準を適用する。そのため、画像フレームのセット101は、
図1の画像フレームのセット101のステップごとのテーパー付き形状によって示すように、各フィルタリングステップによって減少する。
【0037】
2つのステップの第1のステップは、オブジェクト認識ニューラルネットワークを実装する第1のオブジェクト認識アルゴリズム102によって実施される。実装によって、オブジェクト認識を実施するために、ニューラルネットワークが画像フレームのセット101を給送されることが意味される。第1のオブジェクト認識アルゴリズム102は、ニューラルネットワークによるオブジェクト認識に対して前処理または後処理を含むことができる。
【0038】
本明細書に含まれるオブジェクト認識タイプの非制限的な例は、オブジェクト位置特定、オブジェクト検出、オブジェクトセグメンテーション、および姿勢推定である。オブジェクト位置特定はオブジェクト位置を決定することを含み;オブジェクト検出はオブジェクトクラスと共にオブジェクト位置を決定することを含み;オブジェクトセグメンテーションはオブジェクトエリアを決定することを含み;そして、姿勢推定はオブジェクト形状、例えば、人の腕および脚がどのように配置されているかを決定することを含む。これらのタイプのオブジェクト認識の任意のオブジェクト認識をどのように実施するかは、本分野においてよく知られている。そのため、オブジェクト認識プロセスの詳細は、本明細書でこれ以上論じられない。
【0039】
第1のオブジェクト認識アルゴリズム102で使用されるネットワークアーキテクチャに応じて、オブジェクト認識103の形態の出力は異なる形態でもたらされる。オブジェクト認識103は、例えば、境界ボックス表現、キーポイントベクトル、または、セマンティックセグメンテーションによって見出されるセグメントの座標を含むことができる。
【0040】
出力されるオブジェクト認識103について共通であるのは、それらが、関連する画像フレームについて1つまたは複数の被認識オブジェクトの場所を、何らかの形態で示す場所データを含むことである。出力されるオブジェクト認識103は、各被認識オブジェクトについて決定されたオブジェクトクラスを含むこともできる。
【0041】
オブジェクト認識103は、第2のオブジェクト認識アルゴリズム104によって実施される、2つのステップの第2のステップに、画像フレームのセット101の第1のサブセットと共に入力される。オブジェクト認識103および関連する画像フレームは、運動特性またはオブジェクト場所に基づくとすることができる第2の選択基準を使用して評価される。前向きな結果を持って評価される、すなわち、第2の選択基準を満たすオブジェクト認識は、検証済みオブジェクト認識105になる。そのため、画像フレームのセット101の第1のサブセットは、画像フレームのセット101の第1より小さい第2のサブセットまで再び減少する。
【0042】
第2のオブジェクト認識アルゴリズム104の詳細を述べると、このアルゴリズムについて異なる実施形態が存在する。実施形態間の差は、評価中のオブジェクト認識がどの選択基準に基づくかに主にある。実施形態について共通であるものは、オブジェクト認識103を検証するために、或るタイプのオブジェクト認識が実施されることである。
【0043】
第1の実施形態において、第2のオブジェクト認識アルゴリズム104のオブジェクト認識は、評価中であるオブジェクト認識における被認識オブジェクトの運動特性に基づいて実施される。オブジェクト運動特性によって、人間オブジェクトについての歩行、走行、手振り、または、車両オブジェクトについての運転等のオブジェクト運動の品質が意味される。品質は、オブジェクト運動の、運動パターン、速度、または方向に関連するとすることができる。オブジェクト運動特性に基づいて検証済みオブジェクト認識105を決定するために、第2のオブジェクト認識アルゴリズム104は、画像フレーム間の相関したオブジェクト認識の運動が所定の運動条件を満たすか否かを判定することを含むことができる。そのため、第2のオブジェクト認識アルゴリズム104は、オブジェクト認識のオブジェクト運動特性を決定するために幾つかの画像フレームを考慮することができる。幾つかの画像フレームは、連続する画像シーケンスであり、第2のオブジェクト認識アルゴリズム104によって解析されるオブジェクト認識の画像フレームを含むことができる。連続する画像シーケンスは、オブジェクト認識の画像フレームの前のまたは後の画像フレームあるいは前と後の両方の画像フレームを含むことができる。運動特性を決定するために、異なる画像フレームのオブジェクト認識が相関される必要がある場合がある。これは、例えば、本分野における従来技法であるオブジェクト埋め込みによって行うことができる。換言すれば、オブジェクト埋め込みは、異なる画像内のどのオブジェクト認識が互いに相関するかを決定するために使用することができる。
【0044】
所定の運動条件は、運動パターン、運動方向、または速度に基づくとすることができる。
【0045】
第1の例として、相関したオブジェクト認識の決定された運動パターンは、運動パターンを規定する1つまたは複数のテンプレートと比較することができ、特定の閾値を超える1つまたは複数のテンプレートに対する類似度は、所定の運動条件を満たすことに対応する。
【0046】
第2の例として、相関したオブジェクト認識の決定された運動方向は、テンプレート方向のうちの1つのテンプレート方向または或る範囲のテンプレート方向と比較することができ、テンプレート方向のうちの1つのテンプレート方向またはその範囲のテンプレート方向に対する十分に小さい距離は、所定の運動条件を満たすことに対応する。
【0047】
第3の例として、相関したオブジェクト認識の決定された速度値は、テンプレート速度値のうちの1つのテンプレート速度値または或る範囲のテンプレート速度値と比較することができ、テンプレート速度値のうちの1つのテンプレート速度値またはその範囲のテンプレート速度値に対する十分に小さい距離は、所定の運動条件を満たすことに対応する。
【0048】
異なるタイプの運動条件に関連する上記で開示した変形は、所定の運動条件が、2つ以上のタイプの運動特性に基づくように組み合わすことができる。
【0049】
この実施形態の変形において、オブジェクト認識103内の各オブジェクト認識は、所定の運動条件を設定するために第2のオブジェクト認識アルゴリズム104において利用されるオブジェクトクラス(オブジェクト認識ニューラルネットワークによって決定される)を含む。特に、所定の運動条件は、オブジェクトクラスに基づいて選択され、異なるオブジェクトクラスについて異なるとすることができる。例えば、オブジェクトクラスが「人(person)」である場合、所定の運動条件は、歩行または走行運動に対応する運動パターンであるとすることができる。代替的に、所定の運動条件は、歩行または走行速度に対応する速度であるとすることができる。さらに、オブジェクトクラス「車両(vehicle)」について、所定の運動条件は、運転中の自動車に対応する運動パターンであるかまたは移動中の車両に対応する速度であるとすることができる。この概念は、当業者によって他のオブジェクトクラスおよび他のタイプの運動条件に適合することができる。画像をフィルタリングするこの手法を用いて、第1のオブジェクト認識アルゴリズムからの程度の高い偽陽性は、第2のオブジェクト認識アルゴリズム104によって効率的な方法で、フィルターで取り出すことができる。なぜならば、そのオブジェクトクラスについて予想される運動条件に従って移動するオブジェクトのみが真陽性と考えられることになるからである。この実施形態において、ニューラルネットワークは、多数の偽陽性と共に全ての真陽性を取り込むために、第1のオブジェクト認識アルゴリズム102において低い閾値をセットすることができ、一方、第2のオブジェクト認識アルゴリズム104は、第1のオブジェクト認識アルゴリズム102によって決定されるオブジェクトクラスに基づいて効率的な第2のフィルタリングを実施する。
【0050】
第2の実施形態において、第2のオブジェクト認識アルゴリズム104の第2のオブジェクト認識は、被認識オブジェクトの場所に基づいて実施される。オブジェクト場所は、オブジェクト認識ニューラルネットワークによって提供されるオブジェクト認識の場所データによって与えられる。検証済みオブジェクト認識105は、オブジェクト認識が所定の画像エリア内に位置すると判定することによって決定することができる。例えば、所定の画像エリアは、移動オブジェクトが予想される、または、照準を合わせるのに関心がある特定のタイプのオブジェクトが見出されるのが予想されるシーンのエリアに対応する画像エリアとして設定することができる。シーンエリアは、歩道、道路、自転車レーン、入口/出口ドア等を含むことができる。画像エリアは、前もって手作業で設定することができる、または、自動化方法で、例えば、道路、ドア等を含むエリアを検出することによって設定することができる。代替的に、画像エリアは、オブジェクト運動がどこに存在するかを決定するために同じシーンの直前の画像フレームを解析し、それらのエリアに画像エリアを設定することによって決定することができる。特に関心のあるオブジェクトクラスのオブジェクト運動を決定することができる。画像エリアは、決定されたオブジェクト運動の場所に基づいて設定することができる。異なる画像エリアは、異なるオブジェクトクラスのために存在することができる。そのため、1つの実施形態において、オブジェクト認識103の各オブジェクト認識は、被認識オブジェクトのオブジェクトクラスを含むことができ、第2のオブジェクト認識アルゴリズム104において利用される所定の画像エリアは、評価されているオブジェクト認識のオブジェクトクラスに対して特有であるとすることができる。画像エリアの形状、サイズ、および場所は、手作業でまたは自動化方法で決定することができる。
【0051】
図1の概要に戻ると、検証済みオブジェクト認識105は、それらの関連する画像フレームと共に、訓練用セットコンパイラー106に入力される。訓練用セットコンパイラー106は、入力から、アノテーション付き画像107の訓練用セットを形成する。アノテーションは、手作業でまたは自動的に実施することができ、共に、画像にアノテートする確立した方法である。アノテーション付き画像107は、トレーナー108に入力され、トレーナー108の目的は、109に示すように第1のオブジェクト認識アルゴリズムを転移訓練する(transfer train)ことである。したがって、転移学習は、ニューラルネットワークの訓練を形作るかまたは調整するためのよく知られている技法である。そのため、転移学習の詳細は、本明細書では詳述されない。
【0052】
複数の異なるオブジェクト認識アルゴリズムを使用して画像をフィルターで取り出すことによって、プロセスは、頑健かつそれぞれのアルゴリズムの認識感度の構成に対して感度が低くになる。さらに、転移訓練のプロセスはまた、オブジェクト認識が異なるデバイス間で分割することができる点でより柔軟になる。第1のオブジェクト認識アルゴリズム102は、1つのデバイスで、例えば、エッジデバイス(カメラ)で実施することができ、第2のオブジェクト認識アルゴリズム104は、リモートデバイス、例えば、リモートサーバーで実施することができる。そのため、プロセスは、両方のデバイスの処理資源を利用することができる。これは、シーン内に存在することができる好ましくは全ての種類のオブジェクトをカバーする訓練用セットについて画像を収集することが重要である転移学習方法にとって特に有利である。このため、また、実施形態によれば、オブジェクト検出ニューラルネットワークは、オブジェクトの過検出が達成されるように構成される。過検出によって、ニューラルネットワークが、シーン内に実際に存在するオブジェクトに加えて、シーン内の実際のオブジェクトに対応しないオブジェクトも検出することが意味される。そのため、ニューラルネットワークは、シーン内の非オブジェクトを移動オブジェクトとして識別する。そのため、ニューラルネットワークから出力されるオブジェクト認識は、真陽性認識と偽陽性認識の両方を含む。ニューラルネットワークの過検出は、低閾値を有するニューラルネットワークを構成することによって達成することができ、それは、異なるタイプのオブジェクト検出ニューラルネットワークのよく知られている構成である。第2のオブジェクト認識アルゴリズム104によって、検証済みオブジェクト認識が決定され、それは、真陽性認識にとってさらなる制限である。第2のオブジェクト認識アルゴリズム104を、そのフィルタリングを最適化するために、構成し微調整することができる。第2のオブジェクト認識アルゴリズム104がリモートサーバー上に位置する状態で、第1のオブジェクト認識アルゴリズム102を構成するためのエッジデバイス(カメラ)に接続することについての必要性は存在しない。幾つかの実装において、そのような接続をすることは、望ましくないかまたはさらに可能でない場合がある。
【0053】
図1が、コンポーネント間の任意の物理的分割を示すことを意図されないことが留意される。換言すれば、異なるコンポーネントは、単一のまたは異なる物理的デバイス内に実装することができる。実装の実施形態は、ここで
図2を参照して開示される。
【0054】
デジタルカメラ20は、画像センサ22、例えば、従来のCMOSセンサによってシーン21をモニターしている。シーン22は、典型的には、その外観を規定する環境およびオブジェクトを含む室外シーンである。この例では、シーン21は、移動中の人21a(影のトレースで示す)および木21bを含む。カメラ20の画像プロセッサ23は、取り込まれる画像を、認識器23aを含む異なる処理アルゴリズム23によって処理する。他の非制限的な例は、ホワイトバランサー23b、露出コントローラ23c、およびノイズフィルター23dを含む。
【0055】
認識器23aは、
図1のアルゴリズム102に対応する第1のオブジェクト認識アルゴリズムを実施する。すなわち、認識器23aは、シーン21の取り込まれる画像内でオブジェクト認識を決定するためにオブジェクト検出ニューラルネットワークを実装する。これらのオブジェクト認識は、画像フレームに対するメタデータとして含むことによって、画像フレームに関連付けることができる。関連付けは、カメラ20のエンコーダー24によって実施される後続のエンコーディングプロセスを通して維持することができる。
【0056】
カメラ20は、
図2の丸数字1および2で示すように、カメラ20からの異なる出力を有する2つの異なる実行モードで動作(operate)するように適合される。第1の実行モード1で、カメラ20、特に、エンコーダー20は、25aで示すオブジェクト認識を有するエンコード済み画像フレームを出力する。出力は、カメラ20から遠隔に位置するサーバー26によって受信される。サーバー26は、受信されたオブジェクト認識およびそれらの関連する画像フレームを評価することによって、検証済みオブジェクト認識を決定するように配置されたプロセッサ26aを備える。サーバー26は、他の処理コンポーネントを備えることができる。
【0057】
検証済みオブジェクト認識およびそれらの関連する画像フレームは、その後、アノテーション付き画像の訓練用セットに形成される。このステップは、サーバー26内で、例えば、その別のコンポーネントによってまたは別個の訓練用デバイス27によって実施することができる。アノテーション付き画像は、認識器23a内に実装されるオブジェクト認識ニューラルネットワークの転移学習のために使用される。このため、サーバー26またはトレーナー27は、有線または無線接続によってカメラ20の認識器23aに接続されるように適合することができる。
【0058】
第2の実行モード2で、カメラ20は、25bで示すエンコード済み画像フレームを、例えば、レコーダーまたはストリーマーであるリモートデバイス28に出力する。第2の実行モード2は、カメラ20が、使用時に意図されるように動作しているモードを示す。すなわち、カメラ20は、記録および/またはライブビューイングのために画像/ビデオを撮り込み、受信機に送信している。オブジェクト検出ニューラルネットワークは、カメラ20内での内部画像処理のためにおよび/または別個のデバイス内での事象解析等の外部解析のために使用することができるオブジェクト認識を決定することによってアクティブであるとすることができる。そのため、オブジェクト認識は、第2の実行モード2において、カメラ20の画像ストリームと共に送信することができる。オブジェクト検出ニューラルネットワークは、好ましくは、異なる実行モードにおいて異なる閾値を持つように構成される。特に、オブジェクト検出ニューラルネットワークは、好ましくは、カメラ20が第1の実行モード1に設定されると、論じた過検出を達成するために、低い閾値を設定される。さらに、オブジェクト検出ニューラルネットワークは、好ましくは、カメラ20が第2の実行モード2に設定されると、より高い閾値を設定される。この動作モードにおいて、オブジェクト検出ニューラルネットワークは、特定のシーンについて或る程度調整され、関連するオブジェクトを高い確率で検出すべきである。
【0059】
2つの実行モードの概念は、異なる実行モードの間でシフトする方法を示す
図3においてさらに示される。設置フェーズ301にて、カメラ20は、
図2の第1の実行モード1で働く。すなわち、オブジェクト認識が、カメラ内で決定され、評価のためにサーバー26に送信され、検証済みオブジェクト検出が決定される。1日周期にわたって光条件の変動をカバーするために、画像フレームのセットは、少なくとも24時間(すなわち、1日周期)であるとすることができる所定の期間内で取得することができる。適用することができる別の条件は、所定の数のオブジェクト認識が画像フレームのセットから決定されるまで、画像フレームが取得されるべきであることである。画像フレームを、オブジェクト認識ニューラルネットワークによって絶えず評価することができ、所定の数のオブジェクト認識に達すると、画像取得を終了することができ、第2のオブジェクト認識アルゴリズムによるオブジェクト認識の解析を始動することができる。オブジェクト認識の所定の数は、好ましくは1000以上である。必要とされるオブジェクト認識の数は、オブジェクト検出ニューラルネットワークのタイプおよびサイズに依存するとすることができる。
【0060】
設置フェーズ301においてオブジェクト認識ニューラルネットワークの転移学習を終了させると、カメラ20は運用フェーズ302に入る。
【0061】
運用フェーズ302におけるカメラ20の画像取得の通常機能以外に、モニタリング機構が設けられる。モニタリング機構の目的は、シーン21の全体外観をモニターすることである。全体外観のモニタリングは、画像解析によって、または、光センサ等のセンサ(示さず)による測定によって実施することができる。モニタリング機構は、画像プロセッサ23のコンポーネントの使用によって実施することができる。シーンの全体外観が変化したことを検出すると、カメラ20は、転移学習の別のラウンドを実施するために、304で示すように設置フェーズ301に再び入る。シーンの外観が変化するときに転移学習をトリガーすることによって、第1のオブジェクト認識アルゴリズム102のオブジェクト検出ニューラルネットワークを、モニターされる特定のシーン21の異なる変動を扱うために訓練することができる。
【0062】
全体シーン外観変化に対する原因は天候および季節を含む。例えば、室外シーンの植生は、夏の間および冬の間、特に、季節変化が大きい領域において非常に異なるとすることができる。シーン内の運動中のオブジェクトの量およびタイプは、季節に応じて異なるとすることもできる。例えば、マリーナは、典型的には、夏季中、ボートおよび人々の運動で満ちているが、1年の残りの間、全く静かであるとすることができる。そのため、1年じゅううまく働くことができるように、両方の期間からの画像を用いてオブジェクト認識ニューラルネットワークを訓練することが有利である。同じ理由付けは、シーン内の運動およびその外観が、異なる天候条件、例えば、雪天候、雨天、または晴天で異なるとすることができる天候シフトに当てはまる。室内シーンにおいて、家具の再編成は、更なる訓練が必要とされる程度までシーンを変化させる場合がある。
【0063】
論じたように、オブジェクト認識ニューラルネットワークの転移学習の目的は、ニューラルネットワークの構成を、所有する画像に対してその構成がうまく働くように適合させることである。同様のまたはさらに同じシーンをモニターするオブジェクト認識ニューラルネットワークを有する他のカメラは、転移学習から利益を得ることもできる。シーンが、厳密に同じであるのではなく、同じシーンタイプである場合でも、転移学習は、標準的な画像訓練式ニューラルネットワークについての改善となるとすることができる。このため、また、1つの実施形態によれば、カメラ20のオブジェクト認識ニューラルネットワークは、転移学習後にさらなるカメラに転送することができる。オブジェクト認識ニューラルネットワークを転送することによって、他の画像取り込みデバイスにおける実装のためにニューラルネットワークのコピーを配置することが意味される。代替的にまたは付加的に、ネットワークは、同じシーンまたはシーンタイプをモニターする将来のカメラセットのための資源になるために、記憶デバイスに(例えば、クラウドサーバー上に)転送することができる。同じシーンタイプによって、シーンが、環境(室外/室内)、コンテンツ(被検出オブジェクトクラス)、または地理的場所に関する類似度を有することが本明細書で意味される。
【0064】
本明細書で論じる実施形態による転移学習のための方法ステップの概要が
図4に提供される。最初に、画像のセットが取得されるS401。この画像のセットから、オブジェクト認識が決定されS402、したがって、オブジェクト認識ニューラルネットワークによって検出されるオブジェクト認識を含む画像フレームをフィルターで取り出す。先行するステップS402にて、検証済みオブジェクト認識は、ステップS402のオブジェクト認識から決定される。そのため、第2の画像フィルタリングが実施される。検証済みオブジェクト認識に関連する画像フレームは、ステップS404にてアノテートされる。その後、アノテーション付き画像の訓練用セットが、ステップS405にて形成される。オブジェクト認識ニューラルネットワークの転移学習は、その後、アノテーション付き画像を用いて実施される。方法ステップS401~S406は、上記で論じたように、カメラ用の設置フェーズで実施することができる。方法ステップS401~S406は、モニターされるシーンの全体シーン外観が上記で例示したように変化するような条件に基づいて、再び実施されるようにトリガーすることができる。そのため、反復ステップS407が含まれ、反復ステップS407をトリガーすることができる。代替的に、反復ステップS407は、定期的に、例えば、3か月ごとにまたは1年に1回、実施されるように構成することができる。さらなる代替法として、反復ステップS407は、オペレータによって手作業でトリガーすることができる。トリガー機構は、もちろん、単一実施形態において、組み合わすことができる。
【0065】
図1および
図2における示され開示されるコンポーネントが、ハードウェア、ソフトウェア、またはその組み合わせとして実装することができることが理解される。
【0066】
コンポーネントのハードウェア実装において、コンポーネントは、部品の機能を提供するために専用でありかつ特別に設計される回路要素(circuitry)に対応することができる。回路要素は、1つまたは複数の特定用途向け集積回路あるいは1つまたは複数のフィールドプログラマブルゲートアレイ等の1つまたは複数の集積回路の形態であるとすることができる。
【0067】
コンポーネントのソフトウェア実装において、回路要素は、代わりに、マイクロプロセッサ等のプロセッサの形態であるとすることができ、プロセッサは、不揮発性メモリ等の(非一時的)コンピュータ可読媒体上に記憶されるコンピュータコード命令と関連して、本明細書で開示される任意の方法(の一部)を画像プロセッサ23に実施させる。不揮発性メモリの例は、読み出し専用メモリ、フラッシュメモリ、強誘電体RAM、磁気コンピュータ記憶デバイス、光ディスク、および同様なものを含む。例えば、ソフトウェアの場合、認識器23aは、プロセッサによって実行されると、コンポーネントの機能を画像プロセッサ23に実施させる、コンピュータ可読媒体上に記憶されたコンピュータコード命令の一部分に対応することができる。
【0068】
本発明が、上述した好ましい実施形態に決して限定されないことを当業者は認識する。逆に、多くの修正および変形が、添付特許請求項の範囲内で可能である。例えば、転移学習の開示する概念は、異なるタイプの撮像技術、例えば、サーマルカメラに基づくカメラにおいて適用することができる。第2の認識アルゴリズムを、記録済みオブジェクト認識に対して実施するかまたはカメラからライブで流されるオブジェクト認識に対して実施することができることも留意される。第1の変形において、記録済みオブジェクト認識は、関連する画像フレームと共に、サーバー等の記憶デバイス上に記憶することができる。
図2を参照すると、記憶デバイスは、カメラ20とサーバー26との間に位置することができる。