【課題を解決するための手段】
【0006】
第1の態様によれば、本発明は、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするための方法により実現される。方法は、複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第1の画像解析アルゴリズムを使用することにより複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することによって、トレーニングデータセットを決定することと、複数のデジタルトレーニング画像およびラベルをトレーニングデータセットとして含めることと、ニューラルネットワークのトレーニングのためにトレーニングデータセットを使用することとを含む。
【0007】
「ニューラルネットワーク」という用語は、本明細書のコンテキストでは、脳内のニューロンの巨大なネットワークと類似した、相互接続されたノード群として理解されたい。ニューラルネットワークはまた、「人工ニューラルネットワーク」(ANN)と称されることもある。このコンテキストで使用され得るニューラルネットワークの特定のタイプは、畳み込みニューラルネットワーク(CNN)である。「ディープラーニング」という用語もまた一般に使用される。
【0008】
「関連度」という用語は、本明細書のコンテキストでは、画像内の対応する領域の画像コンテンツの(たとえばユーザにとっての)関心度の格付けとして理解されたい。言い換るならば、関連度は、画像内の領域(ピクセル群)に対応し、関連度は、その領域の画像コンテンツが画像の閲覧者にとってどの程度関心を引くものであるかを規定する。これは有利なことに、画像のビットレートバジェットを分配するために使用されてもよい。たとえば、関連度は、圧縮レベルの設定を通じて、対応する領域の圧縮度を制御するため、またはエンコーダがその領域のコーディングをどの程度積極的にスキップすべきかを決定するために使用されてもよい。関連度はさらに、たとえばエンコードされた画像を送信する際のエラー修正の度合いを決定するための、エラーコーディングの目的で使用されてもよい。画像の特定の領域の比較的高い関連度は、ビットレートバジェットのより大きい部分が、関連度のより低い別の画像領域と比較して、その特定の領域に費やされ得ることを意味する。
【0009】
従来技術において関連度に代わって使用されることもあるその他の用語として、「関心領域」すなわち「ROI」を挙げることができる。
【0010】
「ピクセル群に関連度を自動的にラベル付けするように構成された画像解析アルゴリズム」という表現は、本明細書のコンテキストでは、その部分の画像特性(つまり画像解析)に基づいて画像の対応する領域(たとえばマクロブロック)の画像コンテンツの(たとえばユーザにとっての)関心度を自動的に(たとえば、コンピュータを用いて、人間の補助なしに)格付けするために使用され得る任意の適切なアルゴリズムとして理解されたい。画像特性は、たとえばデジタル画像の一部に存在するエッジ、ノイズの存在、繰り返しテクスチャ加工された部分、顔認識、オブジェクト検出などのように、空間的であってもよい。画像特性はまた、たとえば動き検出のように、時間的なものであってもよい。適切な画像解析アルゴリズムの例は、Axis Communicationにより提供されるZipstreamアルゴリズムである。このアルゴリズムの一部は、たとえば欧州特許第3021583号明細書において説明されている。
【0011】
本発明者らは、上記で説明されている既存の画像解析アルゴリズムを使用してトレーニングされるニューラルネットワークを採用することがいくつかの利点を有することに注目した。たとえば、ニューラルネットワークは極めて反復的ではあるが、極めて単純な膨大な量の計算によって機能するため、ニューラルネットワークの設計は、極めて単純で、ハードウェアの実装に十分に順応することができる。さらに、モデル圧縮の分野で現在進行中の研究は、監視カメラのような組み込みプラットフォーム上に置くことが徐々に実現可能になりつつあるニューラルネットワークを利用する。このように、監視カメラのような組み込みプラットフォームでニューラルネットワークを使用することは、カメラで実際の画像解析アルゴリズムを実行することよりも有利となり得る。
【0012】
一部の実施形態によれば、第1の画像解析アルゴリズムは、ピクセル群の空間的統計測定値を計算することと、複数のデジタルトレーニング画像の画像シーケンスに時間フィルタリングを適用することによって、ピクセル群の時間的統計測定値を計算することであって、画像シーケンスは特定のデジタルトレーニング画像を含む、ピクセル群の時間的統計測定値を計算することと、を行うことにより、ピクセル群に関連度を自動的にラベル付けするように構成される。
【0013】
次いで、2つの統計測定値は、ピクセル群の時間的統計測定値および空間的統計測定値を重み付けすることによって重み付け統計測定値を計算して、重み付け統計測定値に基づいてピクセル群に関連度をラベル付けするために使用され得る。使用される重みは、たとえば0.5、0.3、0.7のような静的な重みであってもよく、または関与する画像領域の画像特性に応じて異なっていてもよい。
【0014】
一部の実施形態によれば、トレーニングデータセットを決定することは、第2の複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第2の画像解析アルゴリズムを使用することにより、第2の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することを含み、第2の画像解析アルゴリズムは第1の画像解析アルゴリズムとは異なる。
【0015】
たとえば、(より少ない)複数の画像について、より複雑または特殊化された画像解析アルゴリズムが、たとえばデジタル画像の特定のコンテンツに関係するトレーニングデータをニューラルネットワークに提供するために採用されてもよい。そのような特定のコンテンツの例は、交通量を示す画像コンテンツか、または多くの人々がカメラのそばを通り過ぎるエントランスを示す画像コンテンツなどであってもよい。
【0016】
本発明の実施形態の利点は、ニューラルネットワークが、正しくトレーニングされる場合、第1の画像解析アルゴリズムのような手作りのアルゴリズムと比較して、はるかに優れたパフォーマンスを有する可能性があることである。本発明の実施形態の利点は、膨大な量のトレーニングデータが、第1の画像解析アルゴリズムとの間で生成されて、そのアルゴリズムと同程度で実行するためのアルゴリズムを迅速に獲得できることである。その後、ニューラルネットワークは、第2の複数の画像およびそのレベル(第2の画像解析アルゴリズムによって決定される)のような、その他のより「高度な」トレーニングデータで微調整されてもよい。また、微調整が必要とするデータは通常、初期トレーニング(つまり、第1の複数の画像を使用すること)よりもはるかに少なくてすむ。言い換えるならば、第2のトレーニングを行う目的は、ユーザ固有の関連度を提供することである。画像のある区域は、一部のユーザにとっては重要であるが、その他のタイプの使用事例では関心を引くものではない。この第2のトレーニング(第2の複数の画像および第2の画像解析アルゴリズムを使用する)を追加することで、ビットレートバジェットはユーザの関連分野で容易に費やすことができる。
【0017】
第2の複数のデジタルトレーニング画像は、第1の複数のデジタルトレーニング画像の一部である少なくとも1つのデジタルトレーニング画像を備えることができる。第2の複数のデジタルトレーニング画像は、たとえば、第1の複数のデジタルトレーニング画像のサブセットで構成されてもよい。第2の複数のデジタルトレーニング画像はまた、第1の複数のデジタルトレーニング画像の一部ではない少なくとも1つのデジタルトレーニング画像を備えることができる、つまり第2の複数のデジタルトレーニング画像は第1の複数のデジタルトレーニング画像のサブセットではない。
【0018】
一部の実施形態によれば、トレーニングデータセットは、第1の複数のデジタルトレーニング画像の中の少なくとも1つのデジタルトレーニング画像のピクセル群に関連度を手動でラベル付けすることによってさらに決定される。その他の実施形態によれば、トレーニングデータセットは、第2の複数のデジタルトレーニング画像の中の少なくとも1つのデジタルトレーニング画像のピクセル群に関連度を手動でラベル付けすることによってさらに決定される。トレーニングデータセットの画像の中のピクセル群に手動でラベル付けすることは、トレーニングデータセットを微調整するために使用されてもよい。第2の複数の画像および第2の画像解析アルゴリズムの使用と併せて、上記で説明されているものと同じ論拠を使用すると、この実施形態では、ビットレートバジェットはユーザの関連分野で容易に費やすことができる。
【0019】
第2の態様において、本発明は、処理機能を有するデバイスによって実行されるとき、第1の態様の方法を遂行するように適合された命令を伴うコンピュータ可読記憶媒体を備えるコンピュータプログラム製品を提供する。
【0020】
第3の態様によれば、本発明は、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするように構成されたプロセッサを備えるコンピュータを提供する。ニューラルネットワークのトレーニングは、複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第1の画像解析アルゴリズムを使用することにより複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することによって、トレーニングデータセットを決定することと、複数のデジタルトレーニング画像およびラベルをトレーニングデータセットとして含めることと、ニューラルネットワークのトレーニングのためにトレーニングデータセットを使用することとを含む。
【0021】
第4の態様において、本発明は、ビデオカメラおよびコンピュータを備えるシステムを提供する。コンピュータは、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするように構成されたプロセッサを有し、ニューラルネットワークのトレーニングは、複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第1の画像解析アルゴリズムを使用することにより複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することによって、トレーニングデータセットを決定することと、複数のデジタルトレーニング画像およびラベルをトレーニングデータセットとして含めることと、ニューラルネットワークのトレーニングのためにトレーニングデータセットを使用することとを含む。プロセッサは、結果として得られたトレーニングされたニューラルネットワークをカメラに提供するようにさらに構成され、カメラは、トレーニングされたニューラルネットワークを受信するように構築される。カメラは、複数のデジタル画像を取り込み、複数のデジタル画像の画像データをトレーニングされたニューラルネットワークに提供し、複数のデジタル画像の各特定のデジタル画像について、特定のデジタル画像のピクセル群に各々対応する複数の関連度を取得するように、さらに構築される。
【0022】
「トレーニングされたニューラルネットワーク」という用語は、本明細書のコンテキストでは、たとえば、ニューラルネットワーク内のノードのセットアップ(ノードが相互接続される方法)、およびニューラルネットワークにおいて使用される重み(フィルタ、重みバンクなど)を指定するテキストファイルとして理解されたい。たとえばバイナリファイルを介するなど、コンピュータとカメラとの間でトレーニングされたニューラルネットワークを提供するその他の方法が、同様に可能である。
【0023】
一部の実施形態によれば、カメラは、取得された関連度に従って特定のデジタル画像の圧縮度を制御することによって特定のデジタル画像をエンコードするようにさらに構築される。
【0024】
圧縮度は、画像の特定の部分(領域、区域など)について圧縮比を設定することによって制御されてもよい。圧縮比は、たとえば0〜51(H.264)、1〜255(VP9)、または1〜100の範囲の、量子化パラメータ値、QP値によって具現化されてもよい。この説明において、「圧縮度」、「圧縮比」、および「圧縮レベル」という用語は、広い意味で、元の、圧縮解除された、ピクセルの表現よりも少ないビットを使用するピクセルのエンコーディングを示すために同義的に使用されることに留意されたい。上記で説明されているように、エンコーディングプロセスのその他の部分は、たとえば関連度に基づいてエンコードされた画像を送信する際のエラー修正の度合いを決定するために、エラーコーディングのような、関連度に基づいてもよい。
【0025】
第2、第3、および第4の態様は概して、第1の態様と同じ特徴および利点を有することができる。
【0026】
本発明の上記、ならびに追加の目的、特徴、および利点は、同じ参照番号が類似する要素について使用される添付の図面を参照して、本発明の実施形態の以下の例示的かつ非限定的な詳細な説明を通じてさらに深く理解されるであろう。