(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024125917
(43)【公開日】2024-09-19
(54)【発明の名称】ビデオ処理装置、ビデオ処理方法及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/277 20170101AFI20240911BHJP
G06T 7/00 20170101ALI20240911BHJP
G06V 10/82 20220101ALI20240911BHJP
【FI】
G06T7/277
G06T7/00 350C
G06V10/82
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023034050
(22)【出願日】2023-03-06
【新規性喪失の例外の表示】新規性喪失の例外適用申請有り
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【弁理士】
【氏名又は名称】廣田 浩一
(72)【発明者】
【氏名】汪 留安
(72)【発明者】
【氏名】孫 俊
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096DA02
5L096FA69
5L096GA30
5L096HA04
5L096HA11
5L096KA04
(57)【要約】
【課題】本発明は、ビデオ処理装置、ビデオ処理方法及びマシン可読記憶媒体を提供する。
【解決手段】ビデオ処理装置は、ビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいて、オプティカルフローを計算するオプティカルフロー計算ユニット;及び、オプティカルフロー及び第一画像フレームに基づいて第二時刻の第一予測の特徴情報を推定する第一推定ユニットを含み、特徴情報は画像フレームにおける1つ又は複数の目標を検出するために用いられる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ビデオ処理装置であって、
ビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいて、オプティカルフローを計算するオプティカルフロー計算ユニット;及び
前記オプティカルフロー及び前記第一画像フレームに基づいて前記第二時刻の第一予測の特徴情報を推定する第一推定ユニットであって、前記特徴情報は画像フレームにおける1つ又は複数の目標を検出するために用いられる、第一推定ユニットを含む、ビデオ処理装置。
【請求項2】
請求項1に記載のビデオ処理装置であって、さらに、
前記第一予測の特徴情報の次元を変換する変換ユニット;及び
次元変換後の第一予測の特徴情報に基づいて、ニューラルネットワークにより、第二予測の特徴情報を得る第一計算ユニットを含む、ビデオ処理装置。
【請求項3】
請求項2に記載のビデオ処理装置であって、さらに、
前記第二画像フレームに基づいて前記第二時刻の特徴情報を計算する第二計算ユニット;及び
計算された前記第二時刻の特徴情報、前記第一予測の特徴情報、及び前記第二予測の特徴情報に基づいて、前記特徴情報に関する損失関数を計算する第三計算ユニットを含む、ビデオ処理装置。
【請求項4】
請求項3に記載のビデオ処理装置であって、さらに、
前記特徴情報に関する損失関数、目標枠に関する損失関数、及び目標標識特徴に関する損失関数に基づいて組み合わせ損失関数を得る組み合わせユニットであって、前記組み合わせ損失関数はニューラルネットワークを訓練するために用いられる、組み合わせユニットを含む、ビデオ処理装置。
【請求項5】
請求項4に記載のビデオ処理装置であって、
前記ビデオがテスト用のビデオである場合、前記ビデオ処理装置は、さらに、
前記オプティカルフロー、前記第一画像フレーム、及び前記第一画像フレームにおける各検出目標の信頼度に基づいて、前記第二時刻のテスト用の先験的特徴情報を推定する第二推定ユニットを含む、ビデオ処理装置。
【請求項6】
請求項5に記載のビデオ処理装置であって、
前記先験的特徴情報を推定するときに、前記第二推定ユニットは、前記第一画像フレームにおける各検出目標について、前記信頼度とスケーリング因子との乗積及び1のうちの比較的小さい値を新しい信頼度として使用する、ビデオ処理装置。
【請求項7】
請求項5又は6に記載のビデオ処理装置であって、
前記第二時刻のテスト用の先験的特徴情報は、前記第二時刻の第二画像フレームにおける1つ又は複数の目標を検出するために、訓練済みのニューラルネットワークに適用される、ビデオ処理装置。
【請求項8】
請求項7に記載のビデオ処理装置であって、
前記第二画像フレームにおいて検出された1つ又は複数の目標に対しての追跡結果は、前記第二時刻の後続時刻の画像フレームにおける1つ又は複数の目標の検出に用いられ、前記後続時刻は前記第二時刻プラス前記第二時刻と前記第一時刻との時間差に等しい、ビデオ処理装置。
【請求項9】
ビデオ処理方法であって、
ビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいて、オプティカルフローを計算し;及び
前記オプティカルフロー及び前記第一画像フレームに基づいて、前記第二時刻の第一予測の特徴情報を推定し、前記特徴情報は画像フレームにおける1つ又は複数の目標を検出するために用いられることを含む、ビデオ処理方法。
【請求項10】
コンピュータに、請求項9に記載のビデオ処理方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオ処理の技術分野に関し、特に、多目標追跡のためのビデオ処理装置、ビデオ処理方法及びマシン可読記憶媒体に関する。
【背景技術】
【0002】
多目標追跡(MOT(Multiple Object Tracking))はリアル世界で困難なタスクの1つであり、それは複数の目標(オブジェクト)が互いに相互作用したり、環境と相互作用したりするなどに関する。例えば、MOTは歩行者検出、ビヘイビア分析などにおいて幅広く応用されている。今のところ、MOT技術は主に目標検出及び目標追跡の2つの段階を含む。最も一般的な追跡方法は主に、検出-追跡方法を採用して、検出された目標枠を追跡する、例えば、
図1における(a)に示す構成である。また、
図1における(b)に示すように、オプティカルフローを使用する方法もあり、それはオプティカルフローを用いて検出結果における目標をマッチすることで目標標識(識別)番号を確定する。しかし、このような方法はオプティカルフロー情報を使用しているが、検出部分のパフォーマンスがそれによって向上しないので、このような場合、検出段階は追跡段階から恩恵を受けることがない。
【0003】
一方、深層学習の発展に伴い、より正確な目標検出、代表的な特徴及び高度な追跡技術により、MOTのパフォーマンスが大幅に改善されている。しかし、検出器を開発するにつれて、訓練データ集合への様々な程度の過剰適合は依然として避けられない。例えば、画素の微小変化によって、同じ標識番号の境界枠の存在に関する信頼度が大幅に低下し、検出の欠失を招くことがある。これらの問題有りの検出も追跡のパフォーマンスに不利である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述の問題に鑑み、本発明の目的は、少なくとも、多目標追跡のためのビデオ処理装置、ビデオ処理方法及びマシン可読記憶媒体を提供することにある。
【課題を解決するための手段】
【0005】
本発明の一側面によれば、ビデオ処理装置が提供され、それは、
ビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいて、オプティカルフローを計算するオプティカルフロー計算ユニット;及び
オプティカルフロー及び第一画像フレームに基づいて第二時刻の第一予測の特徴情報を推定する第一推定ユニットであって、前記特徴情報は画像フレームにおける1つ又は複数の目標を検出するために用いられる、第一推定ユニットを含む。
【0006】
本発明のもう1つの側面によれば、ビデオ処理方法が提供され、それは、
ビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいて、オプティカルフローを計算し;及び
オプティカルフロー及び第一画像フレームに基づいて第二時刻の第一予測の特徴情報を推定し、前記特徴情報は画像フレームにおける1つ又は複数の目標を検出するために用いられることを含む。
【0007】
本発明のもう1つの側面によれば、マシン可読記憶媒体が提供され、その中にはマシン可読命令コードを記憶しているプログラムプロダクトがキャリー(carry)されており、前記命令コードはコンピュータにより読み取られ実行されるときに、前記コンピュータに、本発明によるビデオ処理方法を実行させるができる。
【発明の効果】
【0008】
本発明に係るビデオ処理装置、ビデオ処理方法及びマシン可読記憶媒体により、オプティカルフローを導入することで画像フレームにおける1つ又は複数の目標を検出するための特徴情報を更新及び強化することができるため、目標検出及び目標追跡のパフォーマンスをさらに向上させることができる。
【図面の簡単な説明】
【0009】
【
図1】従来技術の多目標追跡方法と本発明の多目標追跡方法との相違点を示す図である。
【
図2】本発明の実施例におけるビデオ処理装置の構成を示すブロック図である。
【
図3】本発明のもう1つの実施例におけるビデオ処理装置の構成を示すブロック図である。
【
図4】本発明の実施例におけるビデオ処理装置の原理を示す図である。
【
図5】本発明の実施例におけるビデオ処理装置の一部の原理を示す図である。
【
図6】本発明の実施例におけるビデオ処理方法のフローチャートである。
【
図7】本発明の実施例におけるもう1つのビデオ処理方法の訓練段階のフローチャートである。
【
図8】本発明の実施例におけるもう1つのビデオ処理方法の推論段階のフローチャートである。
【
図9】本発明の実施例におけるビデオ処理装置及び方法を実現し得る汎用パーソナルコンピュータの例示的な構成を示すブロック図である。
【発明を実施するための形態】
【0010】
以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、このような実施例は例示に過ぎず、本発明を限定するものではない。
【0011】
以下、
図1を参照しながら本発明の多目標追跡方法と従来技術の多目標追跡方法との相違点を説明する。
図1において、I、D、Tはそれぞれ画像フレーム、検出枠、追跡枠を表す。よって、I
t-1、I
t及びI
t+1はそれぞれ3つの連続時間の画像フレームを表し、D
t-1、D
t及びD
t+1、あるいは、
(外1)
はそれぞれ3つの連続時間の検出枠の検出又は推定結果を表し、T
t-1、T
t及びT
t+1、あるいは、
(外2)
はそれぞれ3つの連続時間の追跡枠の検出又は推定結果を表す。
【0012】
背景技術の部分に述べたように、ほとんどの検出-追跡アルゴリズムはその構成が
図1における(a)に従い、このような構成では検出が現在のフレーム入力からのみ予測され、検出はパフォーマンスのボトルネックになり、検出器における過剰適合の問題は追跡のパフォーマンスに悪影響を直接与え得る。過剰適合の問題を軽減し、より正確な検出を得るために、検出器の1つのオプションは追加情報、例えば、時間情報を参照することである。純粋な検出タスクに比べて、ビデオフレームは連続したものであり、隣接するフレームの間には時間的相関性がある。追跡段階で時間的関係が考慮されているが、ほとんどの場合、それは検出段階に利益を与えることがない。また、追跡から検出までの間に情報のギャップ(間隔)が存在する。
【0013】
本発明では、オプティカルフロー及び追跡結果を使用して先験的ヒートマップ(heatmap)を計算することで、目標の位置を推定することが提案されている。先験的ヒートマップ及び画像フレームは検出器の入力とされることで、検出のパフォーマンスを向上させることができる。本発明による多目標追跡方法の構成は
図1の(c)に示すとおりであり、そのうち、履歴追跡情報は検出器に渡され、情報のギャップはオプティカルフローによって除去される。なお、
図1における(c)に示すのは3つの連続時間t-1、t及びt+1であるが、以下の実施例を参照して詳細に説明するように、本発明は3つの連続時間に限定されず、即ち、本発明は連続画像フレーム以外の場合にも適用できる。
【0014】
図1における(b)に示す多目標追跡方法と比較して、
図1における(b)に示す多目標追跡方法はオプティカルフローを使用しているが、オプティカルフローは追跡段階で次の1つのフレームの境界枠を推測するためにのみ用いられ、検出結果に役立たず、検出のパフォーマンスを向上させることはできない。
【0015】
以下、
図2をもとに本発明の実施例におけるビデオ処理装置の詳細な構成を説明する。
図2は本発明の実施例におけるビデオ処理装置の構成を示すブロック図である。
図2に示すように、本発明の実施例におけるビデオ処理装置100はオプティカルフロー計算ユニット110及び第一推定ユニット120を含み得る。
【0016】
オプティカルフロー計算ユニット110はビデオにおける第一時刻の第一画像フレームと、第一時刻の後の第二時刻の第二画像フレームとに基づいて、オプティカルフローを計算し、そして、計算したオプティカルフローを第一推定ユニット120に提供できる。
【0017】
さらに、第一推定ユニット120はオプティカルフロー計算ユニット110により提供されたオプティカルフロー及び第一画像フレームに基づいて、第二時刻の第一予測の特徴情報を推定できる。特徴情報は画像フレームにおける1つ又は複数の目標を検出するために用いられる。一例として、特徴情報はヒートマップであっても良い。
【0018】
ここで、ヒートマップは物体の先験的知識と見なすことができる。これにより、本発明によるビデオ処理装置100は、オプティカルフローを導入することでヒートマップを更新及び強化することにより、目標検出及び目標追跡のパフォーマンスをさらに向上させることができる。
【0019】
また、好ましいビデオ処理装置として、
図3は本発明のもう1つの実施例におけるビデオ処理装置の構成を示している。
図3に示すように、本発明のもう1つの実施例におけるビデオ処理装置200はオプティカルフロー計算ユニット210、第一推定ユニット220、変換ユニット230、第一計算ユニット240、第二計算ユニット250、第三計算ユニット260、組み合わせユニット270及び第二推定ユニット280を含んで良い。なお、
図3に示すオプティカルフロー計算ユニット210及び第一推定ユニット220は
図2に示すオプティカルフロー計算ユニット110及び第一推定ユニット120に対応する。
【0020】
図3に示すビデオ処理装置200が実行する処理は2つの段階、即ち、訓練段階と推論段階に分けることができる。
図3に示すように、点線の上の部分は訓練段階に対応し、点線の下の部分は推論段階に対応する。なお、訓練段階で使用されるのは真の値(真値)を有する訓練ビデオ集合であり、推論段階で使用されるのは真の値を有しないテストビデオ集合である。以下、この2つの段階から本発明のもう1つの実施例におけるビデオ処理装置200の詳細な構成を説明する。
【0021】
<訓練(training)>
オプティカルフロー計算ユニット210は、訓練用のビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいて、オプティカルフローを計算し、そして、計算したオプティカルフローを第一推定ユニット220に提供できる。
【0022】
さらに、第一推定ユニット220は、オプティカルフロー計算ユニット210が提供したオプティカルフロー、及び第一画像フレームに基づいて、第二時刻の第一予測の特徴情報を推定できる。特徴情報は、画像フレームにおける1つ又は複数の目標を検出するために用いられ得る。一例として、特徴情報はヒートマップであり得る。
【0023】
具体的には、第一推定ユニット220は、第一画像フレームにおける検出目標枠の中心点とオプティカルフローとの和を第二時刻の予測の目標枠の中心点として使用することで、第一予測の特徴情報を計算する。また、第一推定ユニット220は、計算した第二時刻の第一予測の特徴情報を変換ユニット230及び第三計算ユニット260に提供できる。
【0024】
さらに、変換ユニット230は第一予測の特徴情報の次元を、ニューラルネットワークの特徴抽出ネットワークから出力されるベクトルの次元と同じになるように変換できる。また、変換ユニット230は、次元変換後の第一予測の特徴情報を第一計算ユニット240に提供できる。
【0025】
さらに、第一計算ユニット240は次元変換後の第一予測の特徴情報に基づいて、ニューラルネットワークにより第二予測の特徴情報を取得し、かつ第二予測の特徴情報を第三計算ユニット260に提供できる。
【0026】
さらに、第二計算ユニット250は第二画像フレームに基づいて第二時刻の特徴情報を計算し、かつ第二時刻の特徴情報を第三計算ユニット260に提供できる。
【0027】
さらに、第三計算ユニット260は、第二計算ユニット250が計算した第二時刻の特徴情報、第一推定ユニット220が計算した第一予測の特徴情報、及び第一計算ユニット240が計算した第二予測の特徴情報に基づいて、特徴情報に関する損失関数を計算できる。
【0028】
さらに、組み合わせユニット270は、第三計算ユニット260が計算した、特徴情報に関する損失関数、目標枠に関する損失関数、及び目標標識特徴に関する損失関数に基づいて、組み合わせ損失関数を得ることができる。組み合わせ損失関数はニューラルネットワークを訓練するために用いることができる。
【0029】
これにより、本発明のもう1つの実施例におけるビデオ処理装置200は、予測の特徴情報、例えば、ヒートマップとオプティカルフローとの間の損失関数を設計することで、ニューラルネットワークを訓練でき、このようにして、ニューラルネットワークが有用な情報をより良く学習し得るようにさせることができる。
【0030】
<推論>
テストビデオの第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームについて、第二推定ユニット280はオプティカルフローを計算し、そして、オプティカルフロー、第一画像フレーム、及び第一画像フレームにおける各検出目標の信頼度に基づいて、第二時刻のテストのための先験的特徴情報を推定できる。具体的には、この先験的特徴情報を推定するときに、第二推定ユニット280は第一画像フレームにおける各検出目標について、信頼度とスケーリング因子(Scaling Factor)との積、及び、1のうちの、比較的小さい値を新しい信頼度とすることができる。
【0031】
推定された第二時刻のテスト用の先験的特徴情報は、上述の訓練済みのニューラルネットワークに適用されることで、第二時刻の第二画像フレームにおいて検出目標に関する境界枠を検出し、即ち、第二画像フレームにおける1つ又は複数の目標を検出する。
【0032】
また、
図3に示されないが、ビデオ処理装置200はさらに、第二画像フレームにおいて検出された1つ又は複数の目標を追跡できる。さらに、第二画像フレームにおける目標に対しての追跡結果は、第二時刻の後続時刻の画像フレームの先験的ヒートマップの推理のための計算に適用でき、又は、第二時刻の後続時刻の画像フレーム中の1つ又は複数の目標の検出に使用できる。例えば、後続時刻は第二時刻プラス第二時刻と第一時刻との時間差に等しい。
【0033】
これにより、本発明の実施例におけるビデオ処理装置200は、以前のフレームの追跡結果の履歴情報を使用して現在の検出結果における不確定性を低減し、検出のパフォーマンスを向上させることができる。また、対応して、追跡のパフォーマンスを向上させることもできる。
【0034】
本発明では、オプティカルフローによって、多目標追跡タスクにおける目標検出と目標追跡との関係を確立し、両者が相互に促進されるようにさせることで、多目標追跡タスクにおける目標検出及び目標追跡を改善し、多目標追跡の全体的なパフォーマンスを向上させることができる。
【0035】
本発明の技術案をより良く理解し得るために、以下、
図4及び
図5と併せて本発明のビデオ処理装置についてより詳しく説明する。
図4は本発明の実施例におけるビデオ処理装置の原理を示す図である。
図5は本発明の実施例におけるビデオ処理装置の一部の原理を示す図である。
【0036】
<関連物理量>
ビデオフレームが離散時間ステップ長tで記録され、t=1,…,Lであり、そのうち、Lはビデオフレームシーケンスの長さである。時間ステップ長tにおいて、画像フレームをI
tと表し、i番目の予測境界枠を
【数1】
と表し、かつj番目の予測軌跡を
(外3)
と表す。ここで、軌跡は境界枠が時間の経過に伴う移動軌跡を表す。そうすると、予測の検出集合を
【数2】
と表し、かつ予測軌跡の集合を
【数3】
と表すことができ、そのうち、
(外4)
はそれぞれ時間tにおける境界枠の数及び保持の軌跡の数を表す。追跡期間中に予測された検出に対してフィルタリング及び更新を行い、得られた検出集合は、
【数4】
と表される。
【0037】
同様に、
【数5】
を真値検出集合と表す。U
t,kを用いて2つのフレーム{I
t,I
t+k}の間のオプティカルフローを表し、そのうち、kは2つの画像フレームの間のフレーム間隔である。2つのフレームの間の画素値は以下の式(1)に示すような関係を有する。
【数6】
【0038】
式(1)では、p=(x,y)は画像における画素の座標を表す。
【0039】
<FairMOTモデル>
図4における実線接続の部分はFairMOTモデルと称されても良い。
図4の左端は、ビデオの異なる時刻t及びt-kの2つの画像フレームであり、特徴抽出ネットワークはニューラルネットワークの主幹ネットワークであり、かつ画像における特徴情報を抽出するために用いられ、それは符号器-復号器と称されても良い。
図4にはさらに、ヒートマップモジュール、枠サイズモジュール、中心偏移モジュール及びRe-ID嵌入(埋め込み)モジュールが示されている。ヒートマップモジュールは検出目標のヒートマップを予測でき、枠サイズモジュールは境界枠サイズを予測でき、中心偏移モジュールは目標中心の偏移(offset)を、検出精度を上げるために予測でき、Re-ID嵌入モジュールは各目標の標識特徴ベクトルを出力できる。
【0040】
よって、FairMOTモデルでは、ヒートマップモジュール、枠サイズモジュール及び中心偏移モジュールの出力に基づいて目標の境界枠を計算できる。Re-ID嵌入モジュールは目標標識ベクトルを、追跡プロセスにおける目標識別(認識)を助けるために出力できる。
【0041】
FairMOTモデルでは、モデルはヒートマップにおける目標中心を予測し、そのうち、各座標pにおける値は目標中心になる確率を表す。FairMOTモデルでは、ヒートマップのサイズが入力フレームの1/4であるので、境界枠を1/4スケーリングする。各目標が真値検出集合D
tにおける境界枠b
t
iに対応し、スケーリング後の境界枠1/4b
t
iの目標中心は座標
【数7】
により表される。座標p=(x,y)における真値ヒートマップM
tは、
【数8】
と計算される。
【0042】
式(2)では、σ
iは境界枠のサイズに比例する対象中心c
iの標準偏差を表す。
図5にはM
tの例が示されている。
【0043】
<FlowMOTモデル>
本発明では、オプティカルフローをFairMOTモデルに統合することで、新しいFlowMOTモデルを形成する。本発明によるFlowMOTモデルのネットワークアーキテクチャは
図4に示すとおりであり、FairMOTモデルとの差異は点線で示されている。
図4の左上の点線部分は、オプティカルフロー計算ユニット210がオプティカルフロー(
図4における例では、U
t-k,kである)を計算し、第一推定ユニット220が第二時刻の第一予測の特徴情報(
図4における例では、
(外5)
である)を推定し、並びに、変換ユニット230及び第一計算ユニット240が第二予測の特徴情報(
図4における例では、
(外6)
である)を計算することを示している。
図4の右上の点線部分から分かるように、t-kフレーム画像の下での追跡結果の更新はt番目のフレームの下での目標検出に適用される。
【0044】
具体的には、画像フレームI
t-k及びI
kに基づいてオプティカルフローU
t-k,kを計算し、そして、それを1/4スケーリングすることで、
(外7)
を得る。オプティカルフロー
(外8)
及び、D
t-kに基づいて算出された目標中心
(外9)
を用いて、以下の式(3)により、t時刻の予測の目標中心
(外10)
を得ることができる。
【数9】
【0045】
そうすると、以下の(4)により、t時刻におけるヒートマップを推定できる。
【数10】
【0046】
ここで、
(外11)
は目標中心に関する先験と見なすことができる。
図5は各物理量を示す図である。
図5により、推定されたヒートマップが達成する効果をより明らかに説明できる。
図5では、t-k時刻の画像I
t-k及びt時刻の画像I
kに基づいてオプティカルフローU
t-k,kを得ることができ、M
t-kはt-k時刻の真値ヒートマップであり、M
tはt時刻の真値ヒートマップであり、
(外12)
は上述の計算方法により得られたt時刻の推定ヒートマップである。
図5に示すように、
(外13)
はM
tに良く近似しており、また、検出の不確定性を減少させるための情報を含む。
【0047】
次に、引き続き
図4を参照する。畳み込み層を用いて、
(外14)
を、特徴出力と同様の次元に変換し、その後、変換後の特徴図(特徴マップ)をニューラルネットワークに入力して最終予測のヒートマップ
(外15)
を得ることができる。これは変換ユニット230及び第一計算ユニット240により実現され得る。
【0048】
具体的には、先験的ヒートマップに対して追加の畳み込み層を適用し、その後、変換後の特徴マップと、特徴抽出ネットワークの特徴出力O
tとの加算を行い、そして、それらの総和をヒートマップモジュールhにフィードバックして予測のヒートマップ
(外16)
を、以下の式(5)に示すように取得する。
【数11】
【0049】
なお、ビデオシーケンスにおいて、オプティカルフローU
t-k,kが最初のkフレームについて不可用なものであるため、t<k+1の場合は、
(外17)
をゼロヒートマップFM
zeroと設定して良い。また、ネットワークは、特徴抽出ネットワークからの情報の利用を断念し、代わりに、直接、先験的ヒートマップ
(外18)
を
(外19)
としてコピーする可能性がある。このような場合を避けるために、確率γを以って、ランダムに、
(外20)
をゼロマッピングと設定でき、これは先験のドロップと称され、かつγはドロップ率である。
【0050】
<全体損失関数計算>
以下の式(6)により、予測ヒートマップ
(外21)
と、第二計算ユニット250が算出したt時刻の真値ヒートマップM
tとの間の損失を計算する。
【数12】
【0051】
式(6)では、α及びβは正のサンプルと負のサンプルとの間の損失のバランスをとるためのハイパーパラメータである。
【0052】
先験的ヒートマップから有用な情報を得るために、ヒートマップ予測値と先験との間の損失関数を設計することで、新しいヒートマップを導入できる。具体的には、予測ヒートマップ
(外22)
と先験的ヒートマップ
(外23)
との間に正規化損失を導入できる。
(外24)
における情報が完全に信頼できるものでないので、ネットワークは、特徴抽出ネットワークの出力O
tに含まれる情報により
(外25)
おける有用な情報を識別する必要がある。この目標を実現するために、新しいヒートマップM
t
mixを使用し、それは、
(外26)
とM
tの両者の混合である。
(外27)
の幾つかの部分(区域)において、
(外28)
の値と、M
tにおける同じ部分の値とがすべて閾値εよりも高い場合、M
t
mixを、
(外29)
に等しく設定する。その後、M
t
mixの残りの部分を、M
tと同じになるように設定する。つまり、以下の式(7)に示すとおりである。
【数13】
【0053】
そうすると、正規化損失は以下のように定義され得る。
【数14】
式(8)では、m
t
mixはM
t
mixに存在する目標中心の数を示し、かつ目標中心は、その値が1に等しい座標により表される。括弧内の条件が真である場合、演算子
(外30)
の結果は1になり、そうでない場合、0になる。M
t
mixの正規化損失により、モデルが
(外31)
における有用な情報の区別(区分)を学習するに役立つことができるだけでなく、
(外32)
を直接コピーすることを避けることもできる。ここで、ヒートマップモジュールの総損失は以下のとおりである。
【数15】
【0054】
式(9)では、λはLheatとLmixのバランスをとるための係数である。該ヒートマップモジュールの総損失は第三計算ユニット260により計算できる。
【0055】
その後、合計の損失関数又は組み合わせ損失関数は次のようになる。
【数16】
【0056】
ここで、Lboxは境界枠の偏移及びサイズの回帰損失を示し、Lidはre-ID損失を示し、w1及びw2は検出損失とre-ID損失のバランスをとるためのパラメータである。
【0057】
組み合わせ損失関数は
図3における組み合わせユニット270により計算され得る。L
boxは目標枠に関する損失関数の一例であり、L
idは目標標識特徴に関する損失関数の一例である。公式(10)に基づいて算出される組み合わせ損失関数はニューラルネットワークを訓練するために用いられ得る。
【0058】
これにより、予測の特徴情報、例えば、ヒートマップとオプティカルフローの間の損失関数を設計してニューラルネットワークを訓練することで、ニューラルネットワークが有用な情報をより良く学習し得るようにさせることができる。
【0059】
<推論>
推論プロセスでは、真値検出がないので、
(外33)
において追跡する目標を選択して先験的ヒートマップを計算する。各検出が信頼度conf(c
i)と関連付けられるため、その信頼度を用いて各検出に対して加重(重み付け)を行う。検出の信頼度が追跡後に増加すべきであることを考慮して、追加のスケーリング因子sを導入して信頼度を上げることで、追跡のパフォーマンスを大幅に向上させることができる。テスト期間の最終的な推論先験的ヒートマップは以下の式(11)により計算され得る。
【数17】
【0060】
式(11)では、
(外34)
は、上述の式(3)により、スケーリング後の境界枠
(外35)
の目標中心
(外36)
及びオプティカルフローU
t-k,kに基づいて計算される予測目標中心である。
【0061】
上述のことから分かるように、本発明では、予測ヒートマップとオプティカルフローヒートマップとの間の損失関数に基づいてニューラルネットワークを訓練することが提案されている。これは次のような利点を有し、即ち、まず、オプティカルフローを用いて、多目標追跡タスクにおける目標の検出と追跡との間の関係を確立することで、両者が互いに促進されるようにさせ、次に、予測ヒートマップとオプティカルフローとの間の損失関数を設計してニューラルネットワークを訓練することで、ニューラルネットワークが有用な情報をより良く学習し得るようにさせることができる。
【0062】
以下、
図6をベースに本発明の実施例におけるビデオ処理方法を説明する。
【0063】
図6に示すように、本発明の実施例におけるビデオ処理方法はステップS110でスタートする。ステップS110では、ビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいて、オプティカルフローを計算する。
【0064】
続いて、ステップS120において、オプティカルフロー及び第一画像フレームに基づいて第二時刻の第一予測の特徴情報を推定し、特徴情報は画像フレームにおける1つ又は複数の目標を検出するために用いられる。例えば、特徴情報はヒートマップである。この後に、プロセスは終了する。
【0065】
これにより、本発明によるビデオ処理方法は、オプティカルフローを導入してヒートマップを更新及び強化することで、目標検出及び目標追跡のパフォーマンスをさらに向上させることができる。
【0066】
以下、
図7及び
図8に基づいて本発明のもう1つの実施例におけるビデオ処理方法を説明する。
図7は本発明の実施例におけるもう1つのビデオ処理方法の訓練段階のフローチャートである。
【0067】
図7に示すように、本発明の実施例におけるビデオ処理方法はステップS210でスタートする。ステップS210において、訓練用のビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいてオプティカルフローを計算する。
【0068】
続いて、ステップS220において、オプティカルフロー及び第一画像フレームに基づいて第二時刻の第一予測の特徴情報を推定し、特徴情報は画像フレームにおける1つ又は複数の目標を検出するために用いられる。例えば、特徴情報はヒートマップである。
【0069】
続いて、ステップS230において、第一予測の特徴情報の次元を変換し、かつ次元変換後の第一予測の特徴情報に基づいて、ニューラルネットワークにより、第二予測の特徴情報を取得する。
【0070】
続いて、ステップS240において、第二画像フレームに基づいて第二時刻の特徴情報を計算し、かつ計算した第二時刻の特徴情報、第一予測の特徴情報及び第二予測の特徴情報に基づいて特徴情報に関する損失関数を計算する。
【0071】
続いて、ステップS250において、特徴情報に関する損失関数、目標枠に関する損失関数、及び目標標識特徴に関する損失関数の組み合わせ損失関数に基づいて、ニューラルネットワークを訓練する。その後、プロセスは終了する。
【0072】
これにより、本発明のもう1つの実施例におけるビデオ処理方法は、予測の特徴情報、例えば、ヒートマップとオプティカルフローとの間の損失関数を設計してニューラルネットワークを訓練することで、ニューラルネットワークが有用な情報をより良く学習し得るようにさせることができる。
【0073】
図8は本発明の実施例におけるもう1つのビデオ処理方法の推論段階のフローチャートである。
【0074】
図8に示すように、本発明の実施例におけるビデオ処理方法はステップS310でスタートする。ステップS310において、テストビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいてオプティカルフローを計算する。
【0075】
続いて、ステップS320において、オプティカルフロー、第一画像フレーム、及び第一画像フレームにおける各検出目標の信頼度に基づいて、第二時刻のテスト用の先験的特徴情報を推定する。
【0076】
続いて、ステップS330において、第二時刻のテスト用の先験的特徴情報を訓練済みのニューラルネットワークに適用することで、第二画像フレームにおける1つ又は複数の目標を検出する。
【0077】
続いて、ステップS340において、テストビデオの第二画像フレームにおいて検出した1つ又は複数の目標に対して追跡を行う。その後、プロセスは終了する。
【0078】
なお、以上、第一時刻及び第二時刻の画像フレームのみについて本発明に係るビデオ処理方法の実施例を説明したが、実際の処理では、これは1つの循環的かつ継続的に進行するプロセスである。言い換えれば、第二時刻は次の第一時刻とされても良く、即ち、第二時刻の画像フレームにおける目標に対しての追跡結果は、第二時刻の後続時刻の画像フレームの推論先験的ヒートマップの計算に用いることができ、又は、第二時刻の後続時刻の画像フレームにおける1つ又は複数の目標の検出に用いることができる。例えば、後続時刻は第二時刻プラス第二時刻と第一時刻との時間差に等しい。
【0079】
これにより、本発明のもう1つの実施例におけるビデオ処理方法は、オプティカルフローを用いて多目標追跡タスクにおける目標の検出と追跡との間の関係を確立することで、両者が互いに促進されるようにさせることができ、このようにして、多目標追跡における目標検出及び目標追跡を改善し、多目標追跡のパフォーマンスを全体的に向上させることができる。
【0080】
なお、本発明の実施例におけるビデオ処理方法における上述のステップの様々な具体的な実施方式については既に詳細に説明したので、ここではその詳しい説明を省略する。
【0081】
明らかのように、本発明に係るビデオ処理方法の各操作のプロセスは、様々なマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムにより実現できる。
【0082】
また、本発明の目的は次のような方式で実現することもでき、即ち、上述の実行可能なプログラムコードを記憶している記憶媒体をシステム又は装置に直接又は間接的に提供し、かつ該システム又は装置におけるコンピュータ又は中央処理ユニット(CPU)は上述のプログラムコードを読み出して実行する。このときに、該システム又は装置がプログラムを実行する機能を有すれば、本発明の実施形態はプログラムに限定されず、かつ該プログラムは任意の形式、例えば、目標プログラム、インタプリタ実行可能なプログラム、オペレーティングシステムに提供するスクリプトプログラムなどであっても良い。
【0083】
なお、上述のマシン可読記憶媒体は、様々な記憶器及び記憶ユニット、半導体装置、磁気ディスクユニット例えば光、磁気及び光磁気ディスク、情報の記憶に適した他の媒体などであっても良い。
【0084】
また、コンピュータはインターネット上の対応するサイトに接続され、かつ本発明によるコンピュータプログラムコードをコンピュータにダウンロードしてインストールした後に該プログラムを実行することで、本発明の技術案を実現することもできる。
【0085】
上述の装置における各構成コンポーネントやユニットなどは、ソフトウェア、ファームウェア、ハードウェア又はその組み合わせの方式で構成されても良い。なお、構成に使用される具体的な手段や方法は当業者にとって周知のものであるため、ここではその詳しい説明を省略する。ソフトウェア又はファームウェアにより実現される場合、記憶媒体又はネットワークから専用ハードウェア構成を有するコンピュータ(例えば、
図9に示す汎用コンピュータ900)に該ソフトウェアを構成するプログラムをインストールし、該コンピュータは各種のプログラムがインストールされているときに、各種の機能などを実現することができる。
【0086】
図9は、本発明の実施例における方法及び装置を実現し得るハードウェア構成(汎用コンピュータ)900の構成図である。
【0087】
汎用コンピュータ900は、例えば、コンピュータシステムであっても良い。なお、汎用コンピュータ900は例示に過ぎず、本発明による方法及び装置の適用範囲又は機能について限定しない。また、汎用コンピュータ900は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせにも依存しない。
【0088】
図9では、中央処理装置(CPU)901は、ROM902に記憶されるプログラム又は記憶部908からRAM903にロッドされているプログラムに基づいて各種の処理を行う。RAM903では、ニーズに応じて、CPU901が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU901、ROM902及びRAM903は、バス904を経由して互いに接続される。入力/出力インターフェース905もバス904に接続される。
【0089】
また、入力/出力インターフェース905には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部906、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部907、ハードディスクなどを含む記憶部908、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部909である。通信部909は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。ドライブ910は、ニーズに応じて、入力/出力インターフェース905に接続されても良い。取り外し可能な媒体911、例えば、半導体メモリなどは、必要に応じて、ドライブ910にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部908にインストールすることができる。
【0090】
また、本発明は、さらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も、本発明に含まれる。
【0091】
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
【0092】
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されるコンピュータ実行可能なプログラムの方式で実現することもできる。
【0093】
また、以上の実施例などに関し、さらに以下のように付記として開示する。
【0094】
(付記1)
ビデオ処理装置であって、
ビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいて、オプティカルフローを計算するオプティカルフロー計算ユニット;及び
前記オプティカルフロー及び前記第一画像フレームに基づいて前記第二時刻の第一予測の特徴情報を推定する第一推定ユニットであって、前記特徴情報は画像フレームにおける1つ又は複数の目標を検出するために用いられる、第一推定ユニットを含む、装置。
【0095】
(付記2)
付記1に記載のビデオ処理装置であって、さらに、
前記第一予測の特徴情報の次元を変換する変換ユニット;及び
次元変換後の第一予測の特徴情報に基づいて、ニューラルネットワークにより、第二予測の特徴情報を得る第一計算ユニットを含む、装置。
【0096】
(付記3)
付記2に記載のビデオ処理装置であって、さらに、
前記第二画像フレームに基づいて前記第二時刻の特徴情報を計算する第二計算ユニット;及び
計算された前記第二時刻の特徴情報、前記第一予測の特徴情報、及び前記第二予測の特徴情報に基づいて、前記特徴情報に関する損失関数を計算する第三計算ユニットを含む、装置。
【0097】
(付記4)
付記3に記載のビデオ処理装置であって、さらに、
前記特徴情報に関する損失関数、目標枠に関する損失関数、及び目標標識特徴に関する損失関数に基づいて組み合わせ損失関数を得る組み合わせユニットであって、前記組み合わせ損失関数はニューラルネットワークを訓練するために用いられる、組み合わせユニットを含む、装置。
【0098】
(付記5)
付記4に記載のビデオ処理装置であって、
前記ビデオがテスト用のビデオである場合、前記ビデオ処理装置は、さらに、
前記オプティカルフロー、前記第一画像フレーム、及び前記第一画像フレームにおける各検出目標の信頼度に基づいて、前記第二時刻のテスト用の先験的特徴情報を推定する第二推定ユニットを含む、装置。
【0099】
(付記6)
付記5に記載のビデオ処理装置であって、
前記先験的特徴情報を推定するときに、前記第二推定ユニットは、前記第一画像フレームにおける各検出目標について、前記信頼度とスケーリング因子との乗積及び1のうちの比較的小さい値を新しい信頼度として使用する、装置。
【0100】
(付記7)
付記5又は6に記載のビデオ処理装置であって、
前記第二時刻のテスト用の先験的特徴情報は、前記第二時刻の第二画像フレームにおける1つ又は複数の目標を検出するために、訓練済みのニューラルネットワークに適用される、装置。
【0101】
(付記8)
付記7に記載のビデオ処理装置であって、
前記第二画像フレームにおいて検出された1つ又は複数の目標に対しての追跡結果は、前記第二時刻の後続時刻の画像フレームにおける1つ又は複数の目標の検出に用いられ、前記後続時刻は前記第二時刻プラス前記第二時刻と前記第一時刻との時間差に等しい、装置。
【0102】
(付記9)
ビデオ処理方法であって、
ビデオにおける第一時刻の第一画像フレーム及び第一時刻の後の第二時刻の第二画像フレームに基づいて、オプティカルフローを計算し;及び
前記オプティカルフロー及び前記第一画像フレームに基づいて、前記第二時刻の第一予測の特徴情報を推定し、前記特徴情報は画像フレームにおける1つ又は複数の目標を検出するために用いられることを含む、方法。
【0103】
(付記10)
付記9に記載の方法であって、
前記特徴情報はヒートマップである、方法。
【0104】
(付記11)
付記9に記載の方法であって、さらに、
前記第一予測の特徴情報の次元を変換し;及び
次元変換後の第一予測の特徴情報に基づいて、ニューラルネットワークにより、第二予測の特徴情報を得ることを含む、方法。
【0105】
(付記12)
付記11に記載の方法であって、さらに、
前記第二画像フレームに基づいて、前記第二時刻の特徴情報を計算し;及び
計算した前記第二時刻の特徴情報、前記第一予測の特徴情報、及び前記第二予測の特徴情報に基づいて、前記特徴情報に関する損失関数を計算することを含む、方法。
【0106】
(付記13)
付記12に記載の方法であって、さらに、
前記特徴情報に関する損失関数、目標枠に関する損失関数、及び目標標識特徴に関する損失関数の組み合わせ損失関数に基づいて、ニューラルネットワークを訓練することを含む、方法。
【0107】
(付記14)
付記13に記載の方法であって、さらに、
前記ビデオがテスト用のビデオである場合、
前記オプティカルフロー、前記第一画像フレーム、及び前記第一画像フレームにおける各検出目標の信頼度に基づいて、前記第二時刻のテスト用の先験的特徴情報を推定することを含む、方法。
【0108】
(付記15)
付記14に記載の方法であって、
前記先験的特徴情報を推定するときに、前記第一画像フレームにおける各検出目標について、前記信頼度とスケーリング因子との乗積及び1のうちの比較的小さい値を新し信頼度として使用する、方法。
【0109】
(付記16)
付記14又は15に記載の方法であって、さらに、
前記第二時刻のテスト用の先験的特徴情報を訓練済みのニューラルネットワークに適用し、前記第二時刻の第二画像フレームにおける1つ又は複数の目標を検出することを含む、方法。
【0110】
(付記17)
付記16に記載の方法であって、さらに、
前記第二画像フレームにおいて検出された1つ又は複数の目標に対して追跡を行うことを含む、方法。
【0111】
(付記18)
付記17に記載の方法であって、
前記第二画像フレームにおいて検出された1つ又は複数の目標に対しての追跡結果は、前記第二時刻の後続時刻の画像フレームにおける1つ又は複数の目標の検出に用いられ、前記後続時刻は前記第二時刻プラス前記第二時刻と前記第一時刻との時間差に等しい、方法。
【0112】
(付記19)
付記9に記載の方法であって、
前記第一画像フレームにおける検出目標枠の中心点と前記オプティカルフローとの和を前記第二時刻の予測の目標枠の中心点として用いることで、前記第一予測の特徴情報を計算する、方法。
【0113】
(付記20)
マシン可読記憶媒体であって、
マシン可読命令コードが記憶されているプログラムプロダクトをキャリーし、そのうち、前記命令コードはコンピュータによって読み取られ実行されるときに、前記コンピュータに、付記9-19に記載のビデオ処理方法を実行させることができる、マシン可読記憶媒体。
【0114】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。