(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-19
(45)【発行日】2025-05-27
(54)【発明の名称】学習装置、学習方法、追跡装置、追跡方法、及び、記録媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20250520BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2024505688
(86)(22)【出願日】2022-03-08
(86)【国際出願番号】 JP2022009889
(87)【国際公開番号】W WO2023170772
(87)【国際公開日】2023-09-14
【審査請求日】2024-07-02
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】福井 宏
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2020-181268(JP,A)
【文献】特開2018-081545(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
1本の動画を取得する取得手段と、
前記動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出する抽出手段と、
前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出手段と、
前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付ける対応付手段と、
前記複数の組の前記対応付手段による対応付結果に基づいて、前記対応付手段に前記物体の対応付方法の学習を行わせる学習手段と
を備え、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2間隔となる第2の組とを含む
学習装置。
【請求項2】
前記抽出手段は、前記複数のフレームから、前記第1フレーム、及び前記第2フレームをランダムに選択して前記組を抽出する
請求項1に記載の学習装置。
【請求項3】
前記抽出手段は、前記第1フレームより所定フレーム前、又は後のフレームを前記第2フレームとして選択して前記組を抽出する
請求項1又は2に記載の学習装置。
【請求項4】
前記学習手段は、前記対応付結果に基づいて学習損失を算出し、当該学習損失から前記対応付手段に前記対応付方法の学習を行わせる
請求項1
又は2に記載の学習装置。
【請求項5】
前記学習手段は、前記第1フレームに含まれる物体に当該第1フレームより後のフレームである前記第2フレームに含まれる物体を対応付けた順方向対応付結果と、前記第2フレームに含まれる物体に、当該第2フレームより前のフレームである前記第1フレームに含まれる物体を対応付けた逆方向対応付結果とに基づいて、前記対応付手段に前記物体の対応付方法の学習を行わせる
請求項1
又は2に記載の学習装置。
【請求項6】
動画を取得する取得手段と、
1本の動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付けた前記複数の組の対応付結果に基づいて、前記物体の対応付方法の学習を行わせて生成された対応付手段を有し、当該対応付手段による物体の対応付けに基づいて、前記動画に含まれる物体を追跡する追跡手段と、
を備え、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2間隔となる第2の組とを含む
追跡装置。
【請求項7】
コンピュータが実行する学習方法であって、
1本の動画を取得し、
前記動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、
前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、
前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付器を用いて対応付け、
前記複数の組の前記対応付器による対応付結果に基づいて、前記対応付器に前記物体の対応付方法の学習を行わせ、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2間隔となる第2の組とを含む
学習方法。
【請求項8】
コンピューターに、
1本の動画を取得し、
前記動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、
前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、
前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付器を用いて対応付け、
前記複数の組の前記対応付器による対応付結果に基づいて、前記対応付器に前記物体の対応付方法の学習を行わせ、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2間隔となる第2の組とを含む
学習方法を実行させるためのコンピュータプログラ
ム。
【請求項9】
コンピュータが実行する追跡方法であって、
動画を取得し、
1本の動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付けた前記複数の組の対応付結果に基づいて、前記物体の対応付方法の学習を行わせて生成された対応付手段を有し、当該対応付手段による物体の対応付けに基づいて、前記動画に含まれる物体を追跡する
追跡方法であって、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2間隔となる第2の組とを含む
追跡方法。
【請求項10】
コンピューターに、
動画を取得し、
1本の動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付けた前記複数の組の対応付結果に基づいて、前記物体の対応付方法の学習を行わせて生成された対応付手段を有し、当該対応付手段による物体の対応付けに基づいて、前記動画に含まれる物体を追跡する
追跡方法であって、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2間隔となる第2の組とを含む
追跡方法を実行させるためのコンピュータプログラ
ム。
【発明の詳細な説明】
【技術分野】
【0001】
この開示は、学習装置、学習方法、追跡装置、追跡方法、及び、記録媒体の技術分野に関する。
【背景技術】
【0002】
学習用画像に関する環境情報を取得し、環境情報を用いて、学習用画像に含まれる対象物体を検出する物体検出モデルの学習を行う技術が特許文献1に記載されている。対象画像を取得し、取得した対象画像から動きに関連したベクトルを導出し、導出したベクトルを追跡することによって動き検出を行い、計算コストを増大させることなく動き検出を行う技術が特許文献2に記載されている。複数枚のフレームそれぞれから、フレームに撮像されている空間の空間的構造を特徴化した特徴マップを抽出し、複数枚のフレームそれぞれに基づいて、フレームに撮像されている対象物体を捉え、対象物体の領域を示す領域マスクとを抽出し、特徴マップと、物体候補領域と、領域マスクとに基づいて、物体候補領域の特徴を表す領域特徴をフレーム毎に抽出し、フレーム毎に抽出された複数の領域特徴を用いて、フレーム間の物体の対応付けを行い、フレーム間で精度よく同一の物体を対応付ける技術が特許文献3に記載されている。特徴量抽出器を含み、生成器を含まない画像認識器の学習に用いられる学習データを取得し、取得された学習データに含まれるラベル付きの画像を用いた教師あり学習に用いられる第1の指標と、学習データに含まれる画像に基づいて取得される2以上の画像それぞれが特徴量抽出器に入力された場合に出力される特徴量データ同士の関係に関し、教師なし学習に用いられる第2の指標と、を用いて、学習データに含まれる画像に基づいて取得される2以上の画像それぞれが画像認識器に入力された場合に出力される出力データ同士の関係に関し、教師なし学習に用いられる第3の指標を用いずに、画像認識器を学習する技術が特許文献4に記載されている。
【先行技術文献】
【特許文献】
【0003】
【文献】国際公開第2021/070324号
【文献】国際公開第2020/022362号
【文献】特開2020-181268号公報
【文献】特開2019-207561号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
この開示は、先行技術文献に記載された技術の改良を目的とする学習装置、学習方法、追跡装置、追跡方法、及び、記録媒体を提供することを課題とする。
【課題を解決するための手段】
【0005】
学習装置の一の態様は、1本の動画を取得する取得手段と、前記動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出する抽出手段と、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出手段と、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付ける対応付手段と、前記複数の組の前記対応付手段による対応付結果に基づいて、前記対応付手段に前記物体の対応付方法の学習を行わせる学習手段とを備え、前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む。
【0006】
学習方法の一の態様は、1本の動画を取得し、前記動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付器を用いて対応付け、前記複数の組の前記対応付器による対応付結果に基づいて、前記対応付器に前記物体の対応付方法の学習を行わせ、前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む。
【0007】
記録媒体の第1の態様は、コンピューターに、1本の動画を取得し、前記動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付器を用いて対応付け、前記複数の組の前記対応付器による対応付結果に基づいて、前記対応付器に前記物体の対応付方法の学習を行わせ、前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む学習方法を実行させるためのコンピュータプログラムが記録されている。
【0008】
追跡装置の一の態様は、動画を取得する取得手段と、1本の動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付けた前記複数の組の対応付結果に基づいて、前記物体の対応付方法の学習を行わせて生成された対応付手段を有し、当該対応付手段による物体の対応付けに基づいて、前記動画に含まれる物体を追跡する追跡手段と、を備え、前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む。
【0009】
追跡方法の一の態様は、動画を取得し、1本の動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付けた前記複数の組の対応付結果に基づいて、前記物体の対応付方法の学習を行わせて生成された対応付手段を有し、当該対応付手段による物体の対応付けに基づいて、前記動画に含まれる物体を追跡する追跡方法であって、前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む。
【0010】
記録媒体の第2の態様は、コンピューターに、動画を取得し、1本の動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付けた前記複数の組の対応付結果に基づいて、前記物体の対応付方法の学習を行わせて生成された対応付手段を有し、当該対応付手段による物体の対応付けに基づいて、前記動画に含まれる物体を追跡する追跡方法であって、前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む追跡方法を実行させるためのコンピュータプログラムが記録されている。
【図面の簡単な説明】
【0011】
【
図1】
図1は、第1実施形態における学習装置の構成を示すブロック図である。
【
図2】
図2は、第2実施形態における学習装置の構成を示すブロック図である。
【
図3】
図3は、第2実施形態における学習装置が行う学習動作の流れを示すフローチャートである。
【
図4】
図4は、第1のペアの抽出例の概念図である。
【
図5】
図5は、第2のペアの抽出例の概念図である。
【
図6】
図6は、第2実施形態における学習装置が行う学習動作の変形例の流れを示すフローチャートである。
【
図7】
図7は、第3実施形態における学習装置が行う学習動作の流れを示すフローチャートである。
【
図8】
図8は、順方向ペアと逆方向ペアの概念図である。
【
図9】
図9は、第3実施形態における学習装置が行う学習動作の概念図である。
【
図10】
図10は、第4実施形態における学習装置が行う学習動作の概念図である。
【
図11】
図11は、第5実施形態における学習装置が行う学習動作の概念図である。
【
図12】
図12は、第6実施形態における追跡装置の構成を示すブロック図である。
【
図13】
図13は、第6実施形態における追跡装置が行う追跡動作の流れを示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、学習装置、学習方法、追跡装置、追跡方法、及び、記録媒体の実施形態について説明する。
[1:第1実施形態]
【0013】
学習装置、学習方法、及び、記録媒体の第1実施形態について説明する。以下では、学習装置、学習方法、及び記録媒体の第1実施形態が適用された学習装置1を用いて、学習装置、学習方法、及び記録媒体の第1実施形態について説明する。
[1-1:学習装置1の構成]
【0014】
図1を参照しながら、第1実施形態における学習装置1の構成について説明する。
図1は、第1実施形態における学習装置1の構成を示すブロック図である。
【0015】
図1に示すように、第1実施形態における学習装置1は、取得部11と、抽出部12と、検出部13と、対応付部14と、学習部15とを備えている。
【0016】
取得部11は、1本の動画MVを取得する。抽出部12は、動画MVが含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出する。複数の組は、第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、第1及び第2フレームの間の時間間隔が第1間隔とは異なる第2時間間隔となる第2の組とを含む。
【0017】
検出部13は、第1フレームに含まれる物体、及び第2フレームに含まれる物体の各々を検出する。対応付部14は、第1フレームに含まれる物体と、第2フレームに含まれる物体とを対応付ける。学習部15は、複数の組の対応付部14による対応付結果に基づいて、対応付部14に物体の対応付方法の学習を行わせる。
[1-2:学習装置1の技術的効果]
【0018】
第1実施形態における学習装置1は、フレーム間の時間間隔が様々な第1及び第2フレームのペアを複数抽出する。複数のペアの各々は、対応付けの学習に用いられる学習データであってもよい。すなわち、学習装置1は、対応付けの学習に用いることができる多くのペアを用意することができる。学習装置1は、多くの第1及び第2フレームのペアを用いて、物体の対応付方法の学習をするので、精度よく物体を対応付けることができる対応付部14を得ることができる。
[2:第2実施形態]
【0019】
学習装置、学習方法、及び、記録媒体の第2実施形態について説明する。以下では、学習装置、学習方法、及び記録媒体の第2実施形態が適用された学習装置2を用いて、学習装置、学習方法、及び記録媒体の第2実施形態について説明する。
[2-1:学習装置2の構成]
【0020】
図2を参照しながら、第2実施形態における学習装置2の構成について説明する。
図2は、第2実施形態における学習装置2の構成を示すブロック図である。
【0021】
図2に示すように、学習装置2は、演算装置21と、記憶装置22とを備えている。更に、学習装置2は、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、学習装置2は、通信装置23、入力装置24及び出力装置25のうちの少なくとも1つを備えていなくてもよい。演算装置21と、記憶装置22と、通信装置23と、入力装置24と、出力装置25とは、データバス26を介して接続されていてもよい。
【0022】
演算装置21は、例えば、CPU(Central Processing Unit)、GPU(Graphics Proecssing Unit)及びFPGA(Field Programmable Gate Array)のうちの少なくとも1つを含む。演算装置21は、コンピュータプログラムを読み込む。例えば、演算装置21は、記憶装置22が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置21は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、学習装置2が備える図示しない記録媒体読み取り装置(例えば、後述する入力装置24)を用いて読み込んでもよい。演算装置21は、通信装置23(或いは、その他の通信装置)を介して、学習装置2の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、ダウンロードしてもよい又は読み込んでもよい)。演算装置21は、読み込んだコンピュータプログラムを実行する。その結果、演算装置21内には、学習装置2が行うべき動作を実行するための論理的な機能ブロックが実現される。つまり、演算装置21は、学習装置2が行うべき動作(言い換えれば、処理)を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。
【0023】
図2には、学習動作を実行するために演算装置21内に実現される論理的な機能ブロックの一例が示されている。
図2に示すように、演算装置21内には、後述する付記に記載された「取得手段」の一具体例である取得部211と、後述する付記に記載された「抽出手段」の一具体例である抽出部212と、後述する付記に記載された「検出手段」の一具体例である検出部213と、後述する付記に記載された「対応付手段」の一具体例である対応付部214と、後述する付記に記載された「学習手段」の一具体例である学習部215とが実現される。
【0024】
記憶装置22は、所望のデータを記憶可能である。例えば、記憶装置22は、演算装置21が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置22は、演算装置21がコンピュータプログラムを実行している場合に演算装置21が一時的に使用するデータを一時的に記憶してもよい。記憶装置22は、学習装置2が長期的に保存するデータを記憶してもよい。尚、記憶装置22は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも1つを含んでいてもよい。つまり、記憶装置22は、一時的でない記録媒体を含んでいてもよい。
【0025】
記憶装置22は、複数の動画MVを記憶していてもよい。動画MVは、複数のフレームを含んだ画像データであってもよい。動画MVは、学習装置2による学習動作に用いられてよい。但し、記憶装置22は、動画MVを記憶していなくてもよい。
【0026】
通信装置23は、不図示の通信ネットワークを介して、学習装置2の外部の装置と通信可能である。
【0027】
入力装置24は、学習装置2の外部からの学習装置2に対する情報の入力を受け付ける装置である。例えば、入力装置24は、学習装置2のオペレータが操作可能な操作装置(例えば、キーボード、マウス及びタッチパネルのうちの少なくとも1つ)を含んでいてもよい。例えば、入力装置24は学習装置2に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。
【0028】
出力装置25は、学習装置2の外部に対して情報を出力する装置である。例えば、出力装置25は、情報を画像として出力してもよい。つまり、出力装置25は、出力したい情報を示す画像を表示可能な表示装置(いわゆる、ディスプレイ)を含んでいてもよい。例えば、出力装置25は、情報を音声として出力してもよい。つまり、出力装置25は、音声を出力可能な音声装置(いわゆる、スピーカ)を含んでいてもよい。例えば、出力装置25は、紙面に情報を出力してもよい。つまり、出力装置25は、紙面に所望の情報を印刷可能な印刷装置(いわゆる、プリンタ)を含んでいてもよい。
[2-2:学習装置2が行う学習動作]
【0029】
図3を参照して、第2実施形態における学習装置2が行う学習動作の流れを説明する。
図3は、第2実施形態における学習装置2が行う学習動作の流れを示すフローチャートである。学習装置2が行う学習動作は、オフラインで実施される動作であってもよい。
【0030】
図3に示すように、取得部211は、1本の動画MVを取得する(ステップS20)。抽出部212は、動画MVが含む複数のフレームから、ペア群を抽出する(ステップS21)。1のペアは、第1フレーム、及び当該第1フレームとは異なる第2フレームを含んでいてもよい。抽出部212は、動画MVが含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームのペアを複数抽出する。複数のペアは、第1及び第2フレームの間の時間間隔が第1間隔となる第1のペアと、第1及び第2フレームの間の時間間隔が第1間隔とは異なる第2時間間隔となる第2のペアとを含む。ここで、第1のペアに含まれる第1フレームと、第2のペアに含まれる第1フレームとは異なるフレームであってもよい。また、第1のペアに含まれる第2フレームと、第2のペアに含まれる第2フレームとは異なるフレームであってもよい。抽出部212は、1本の動画MVに含まれる全てのフレームのうちの何れか2枚のフレームを選択してペアを生成してもよい。抽出部212は、1本の動画MVに含まれる全てのフレームを用いて、バッチ数のペアを抽出してもよい。バッチ数は、例えば、1024以上であってもよい。バッチ数は特に限定はなく、任意の値を用いることができる。
【0031】
抽出部212は、抽出したペア群から1のペアを選択する(ステップS22)。抽出部212は、抽出した複数のペアの内の第1及び第2フレームのペアを選択する。
【0032】
検出部213は、第1フレームに含まれる物体、及び第2フレームに含まれる物体の各々を検出する(ステップS23)。対応付部214は、学習可能な対応付モデルMMを用いて、第1フレームに含まれる物体と、第2フレームに含まれる物体とを対応付ける(ステップS24)。
【0033】
対応付モデルMMは、例えば、第1フレームに含まれる物体に関する情報と、第2フレームに含まれる物体に関する情報とが入力された場合に、第1フレームに含まれる物体と第2フレームに含まれる物体との対応付け結果に関する情報を出力可能なモデルであってもよい。対応付モデルMMは、典型的には、ニューラルネットワークを用いたモデルであるが、ニューラルネットワークを用いたモデルとは異なるモデルであってもよい。
【0034】
或いは、対応付モデルMMは、例えば、第1フレームと第2フレームとが入力された場合に、第1フレームに含まれる物体と第2フレームに含まれる物体との対応付け結果に関する情報を出力可能なモデルであってもよい。つまり、対応付モデルMMは、第1フレームに含まれる物体及び第2フレームに含まれる物体の各々を検出し、且つ、第1フレームに含まれる物体と第2フレームに含まれる物体とを対応付けるモデルであってもよい。この場合、検出部213は、対応付モデルMMを用いて、第1フレームに含まれる物体及び第2フレームに含まれる物体の各々を検出し、対応付部214は、学習可能な対応付モデルMMを用いて、第1フレームに含まれる物体と、第2フレームに含まれる物体とを対応付けてもよい。或いは、演算装置21は、検出部213と対応付部214とが一体化された論理的な処理ブロックを備えていてもよい。
【0035】
抽出部212は、抽出した複数の第1及び第2フレームのペアの内に、ステップS22からステップS24の処理が未処理であるペアが有るか否かを判定する(ステップS25)。未処理のペアが有る場合(ステップS25:Yes)、ステップS22に移行する。
【0036】
全てのペアについて、ステップS22からステップS24の処理を実施した場合(ステップS25:No)、学習部215は、複数のペアの対応付部214による対応付結果に基づいて、対応付部214に物体の対応付方法の学習を行わせる(ステップS26)。
【0037】
具体的に、学習部215は、対応付部214が用いる対応付モデルMMに物体の対応付方法の学習を行わせ、対応付モデルMMを構築してもよい。より具体的に、学習部215は、対応付モデルMMの動作を規定するパラメータを調整してもよい。対応付モデルMMがニューラルネットワークである場合には、対応付モデルMMの動作を規定するパラメータは、ニューラルネットワークの重み及びバイアスの少なくとも一つを含んでいてもよい。学習部215は、1本の動画MVを取得し、バッチ数のペアの対応付結果に基づいて、対応付モデルMMの動作を規定するパラメータを更新してもよい。対応付モデルMMの動作を規定するパラメータは、例えば、ニューラルネットワークの重みやバイアスであってよい。対応付モデルMMの動作を規定するパラメータは、記憶装置22に記憶されてもよい。
【0038】
学習部215は、対応付結果に基づいて学習損失を算出し、当該学習損失から対応付モデルMMに対応付方法の学習を行わせてもよい。学習部215は、対応付モデルMMに、対照学習をさせてもよい。学習部215は、フレーム間の物体のクロスエントロピー損失等の損失関数を算出し、当該対照損失が小さくなる(典型的には、最小になる)ように、対応付モデルMMに対応付方法の学習を行わせてもよい。
【0039】
学習装置2は、学習動作により、オンラインでの多物体追跡において用いることのできる対応付モデルMMを構築してもよい。
[2-3:第1のペアの抽出例]
【0040】
図4は、抽出部212による第1のペアの抽出例を例示している。抽出部212は、複数のフレームから、第1フレーム、及び第2フレームをランダムに選択してペアを抽出してもよい。
【0041】
図4は、1本の動画MVに含まれる、フレーム[1]からフレーム[10]を示している。フレーム[1]からフレーム[10]は連続するフレームであってもよい。例えば、フレーム[1]の次のフレームがフレーム[2]であり、フレーム[2]の次のフレームがフレーム[3]であってもよい。
【0042】
例えば、
図4に示すように、抽出部212は、第1フレームとしてフレーム[1]をランダムに選択し、第2フレームとしてフレーム[3]をランダムに選択してランダムにペアP1を抽出してもよい。また、抽出部212は、第1フレームとしてフレーム[2]をランダムに選択し、第2フレームとしてフレーム[6]をランダムに選択してランダムにペアP2を抽出してもよい。また、抽出部212は、第1フレームとしてフレーム[7]をランダムに選択し、第2フレームとしてフレーム[10]をランダムに選択してランダムにペアP3を抽出してもよい。また、抽出部212は、第1フレームとしてフレーム[4]をランダムに選択し、第2フレームとしてフレーム[10]をランダムに選択してランダムにペアP4を抽出してもよい。
【0043】
また、例えばフレーム[1]とフレーム[3]とのペアを「順方向ペア」と称し、フレーム[3]とフレーム[1]とのペアを「逆方向ペア」と称し、各々を別のペアとして区別してもよい。
[2-4:第2のペアの抽出例]
【0044】
図5は、抽出部212による第2のペアの抽出例を例示している。抽出部212は、第1フレームより所定フレーム前、又は後のフレームを第2フレームとして選択して組を抽出してもよい。
【0045】
図5も、1本の動画MVに含まれる、フレーム[1]からフレーム[10]を示している。フレーム[1]からフレーム[10]は連続するフレームであってもよい。
【0046】
図5に示すフレーム[1]からフレーム[10]の左側に示すように、第1フレームより2フレーム前、又は後のフレームを第2フレームとして選択して組を抽出してもよい。このように、2フレーム前、又は後のフレームを第2フレームとして選択することを、「1の飛ばし幅でフレームを選択」と称してもよい。また、
図5に示すフレーム[1]からフレーム[10]の右側に示すように、第1フレームより3フレーム前、又は後のフレームを第2フレームとして選択してペアを抽出してもよい。このように、3フレーム前、又は後のフレームを第2フレームとして選択することを、「2の飛ばし幅でフレームを選択」と称してもよい。
図5においては、1の飛ばし幅、及び2の飛ばし幅を例に挙げて説明したが、任意の数字の飛ばし幅であってよい。フレームの飛ばし幅は、自動で決定してもよいし、手動で指定してもよい。
【0047】
なお、
図6に示すように、ステップS23の検出部213による物体検出動作は、抽出部212によるペアの抽出前に行ってもよい。抽出部212は、同一のフレームを選択して、異なるペアを抽出する場合がある。このため、取得部211が取得した1本の動画MVに含まれるフレームについて、検出部213は、抽出部212によるペアの抽出前に、物体の検出を行ってもよい。
[2-5:学習装置2の技術的効果]
【0048】
第2実施形態における学習装置2は、複数のフレームから、第1フレーム、及び第2フレームをランダムに選択して組を抽出する、及び/又は、1フレームより所定フレーム前、又は後のフレームを第2フレームとして選択して組を抽出するので、様々なフレームの組み合わせを、より多く容易に生成することができる。学習装置2は、様々なフレームの組み合わせを用いるので、精度よく、且つ効率的に対応付方法を学習させることができ、精度よく対応付けができる対応付モデルMMを構築することができる。また、学習装置2は、対応付結果に基づいて学習損失を算出し、当該学習損失から対応付部214に対応付方法の学習を行わせるので、対応付けの精度を向上させることができる。
【0049】
例えば、1枚~10枚程度の少数のフレームを用いて、オンラインで学習する比較例1の学習装置は、少数のペアを用いた学習を行うので、物体同士の対応付の精度が低下しやすい。第2実施形態における学習装置2は、動画に含まれている全てのフレームを用いて学習するので、比較例1の学習装置と比較して、物体同士の対応付の精度が高い。
【0050】
また、複数の動画に含まれる全フレームを用いて、バッチに変換してオフラインで学習を実施する比較例2の学習装置は、複数の動画を配列に落とし込むので、動画のフレーム数を取捨選択して揃える必要がある。このため、計算コストが高い。また、比較例2の学習装置により学習された対応付モデルは、動画に含まれている全てのフレームを用いて、オフラインで動作する。これに対し、第2実施形態における学習装置2は、1本の動画に含まれるフレームのみをバッチに変換すればよいので、計算コストを低くすることができる。これに対し、第2実施形態における対応付モデルMMは、1本の動画に含まれるフレーム数に依存する処理がない。
【0051】
また、第2実施形態における学習装置2が構築する対応付モデルMMは、オンライン物体追跡モデルの精度を向上させることができる。
[3:第3実施形態]
【0052】
学習装置、学習方法、及び、記録媒体の第3実施形態について説明する。以下では、学習装置、学習方法、及び記録媒体の第3実施形態が適用された学習装置3を用いて、学習装置、学習方法、及び記録媒体の第3実施形態について説明する。
【0053】
第3実施形態における学習装置3は、第2実施形態における学習装置2と同様に、演算装置21と、記憶装置22とを備えている。更に、学習装置3は、学習装置2と同様に、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、学習装置3は、通信装置23、入力装置24及び出力装置25のうちの少なくとも1つを備えていなくてもよい。第3実施形態における学習装置3は、第2実施形態における学習装置2と比較して、学習部215が行う学習動作が異なる。学習装置3のその他の特徴は、学習装置2のその他の特徴と同一であってもよい。
[3-1:学習装置3が行う学習動作]
【0054】
図7は、第3実施形態における学習装置3が行う学習動作の流れを示すフローチャートである。
図7に示すように、取得部211は、1本の動画MVを取得する(ステップS20)。
【0055】
検出部213は、取得部211が取得した1本の動画MVが含むフレームに含まれる物体の各々を検出する。検出部213は、例えば順方向で物体を検出してもよい(ステップS30)。検出部213は、動画MVが含む複数のフレームの、フレームの撮像順に、物体を検出してもよい。例えば、動画MVが、フレーム[1]からフレーム[10]までを含む場合、検出部213は、まずフレーム[1]に含まれる物体を検出し、次にフレーム[2]に含まれる物体を検出し、次にフレーム[3]に含まれる物体を検出し、・・・最後にフレーム[10]に含まれる物体を検出してもよい。
【0056】
なお、検出部213は、上記順方向での物体の検出に代えて、逆方向で物体を検出してもよい。この場合、検出部213は、動画MVが含む複数のフレームの、フレームの撮像と逆順に、物体を検出してもよい。例えば、動画MVが、フレーム[1]からフレーム[10]までを含む場合、検出部213は、まずフレーム[10]に含まれる物体を検出し、次にフレーム[9]に含まれる物体を検出し、次にフレーム[8]に含まれる物体を検出し、・・・最後にフレーム[1]に含まれる物体を検出してもよい。
【0057】
抽出部212は、動画MVが含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームのペアを複数抽出する(ステップS21)。
[3-2:ペア作成例]
【0058】
図8を参照して、第3実施形態における学習装置3が行うペア抽出動作の流れを説明する。
図8に示すように、第3実施形態では、例えばフレーム[1]とフレーム[3]とのを、第1順方向ペアP1Fとして抽出し、フレーム[3]とフレーム[1]とを、第1逆方向ペアP1Bとして抽出してもよい。第1順方向ペアP1Fと第1逆方向ペアP1Bとは、別のペアとして区別してもよい。同様に、例えばフレーム[4]とフレーム[8]とのを、第2順方向ペアP2Fとして抽出し、フレーム[8]とフレーム[4]とを、第2逆方向ペアP2Bとして抽出してもよい。第2順方向ペアP2Fと第2逆方向ペアP2Bとは、別のペアとして区別してもよい。また、例えばフレーム[7]とフレーム[10]とのを、第3順方向ペアP3Fとして抽出し、フレーム[10]とフレーム[7]とを、第3逆方向ペアP3Bとして抽出してもよい。第3順方向ペアP3Fと第3逆方向ペアP3Bとは、別のペアとして区別してもよい。
【0059】
抽出部212は、抽出した複数の第1及び第2フレームのペアの内の1つのペアを選択する(ステップS22)。抽出部212は、抽出したペア群から第1及び第2フレームの1のペアを選択する。対応付部214は、順方向の対応付けを行う(ステップS24F)。対応付部214は、第1フレームに含まれる物体に、第2フレームに含まれる物体を対応付ける。対応付部214は、逆方向の対応付けを行う(ステップS24B)。対応付部214は、第2フレームに含まれる物体に、第1フレームに含まれる物体を対応付ける。
【0060】
抽出部212は、抽出したペア群の内に、ステップS22並びにステップS24F及びステップS24Bの処理が未処理であるペアが有るか否かを判定する(ステップS25)。未処理のペアが有る場合(ステップS25:Yes)、ステップS22に移行する。
【0061】
全てのペアについて、ステップS22及びステップS24の処理を実施した場合(ステップS25:No)、学習部215は、複数の組の対応付部14による対応付結果に基づいて、対応付部214に物体の対応付方法の学習を行わせる(ステップS26)。
【0062】
学習部215は、第1フレームに含まれる物体に、当該第1フレームより後のフレームである第2フレームに含まれる物体を対応付けた順方向対応付結果と、第2フレームに含まれる物体に、当該第2フレームより前のフレームである第1フレームに含まれる物体を対応付けた逆方向対応付結果とに基づいて、対応付部214に物体の対応付方法の学習を行わせてもよい。
【0063】
図9は、順方向対応付結果と、逆方向対応付結果との概念図である。
図9(a)は、第1フレームとしてのフレーム[1]より後のフレームである第2フレームとしてのフレーム[3]に含まれる物体を、フレーム[1]に含まれる物体に対応付けた順方向対応付結果を示している。
図9(b)は、第2フレームとしてのフレーム[3]より前のフレームである第1フレームとしてのフレーム[1]に含まれる物体を、フレーム[3]に含まれる物体に対応付けた逆方向対応付結果を示している。
【0064】
図9に例示する場合では、各フレームは、2種類の物体を含んでいる。順方向対応付結果を例示する
図9(a)は、対応付部214は、フレーム[3]における物体Aを、フレーム[1]における物体Aに対応付けたことを例示している。また、
図9(a)は、対応付部214は、フレーム[3]における物体Bを、フレーム[1]における物体Bに対応付けたことを例示している。
【0065】
一方、逆方向対応付結果を例示する
図9(b)は、対応付部214は、フレーム[1]における物体Aを、フレーム[3]における物体Aに対応付けたことを例示している。また、
図9(b)は、対応付部214は、フレーム[1]における物体Bを、フレーム[3]における物体Bに対応付けたことを例示している。
【0066】
図9(a)に例示する順方向対応付結果と、
図9(b)に例示する逆方向対応付結果とを比較すると、対応付部214は、順方向対応付においても、逆方向対応付結果においても、同じ対応付けを行っている。
【0067】
また、
図9(c)は、第1フレームとしてのフレーム[4]より後のフレームである第2フレームとしてのフレーム[8]に含まれる物体を、フレーム[4]に含まれる物体に対応付けた順方向対応付結果を示している。
図9(d)は、第2フレームとしてのフレーム[8]より前のフレームである第1フレームとしてのフレーム[4]に含まれる物体を、フレーム[8]に含まれる物体に対応付けた逆方向対応付結果を示している。
【0068】
順方向対応付結果を例示する
図9(c)は、対応付部214は、フレーム[8]における物体Aを、フレーム[4]における物体Aに対応付けたことを例示している。また、
図9(c)は、対応付部214は、フレーム[8]における物体Bを、フレーム[4]における物体Bに対応付けたことを例示している。
【0069】
一方、逆方向対応付結果を例示する
図9(d)は、対応付部214は、フレーム[8]における物体Aに、フレーム[4]における物体Aを対応付けたことを例示している。また、
図9(d)は、対応付部214は、フレーム[8]における物体Bに、フレーム[4]における物体Bを対応付けたことを例示している。
【0070】
図9(c)に例示する順方向対応付結果と、
図9(d)に例示する逆方向対応付結果とを比較すると、対応付部214は、順方向対応付と逆方向対応付とで、異なる対応付けを行っている。
【0071】
学習部215は、順方向対応付結果と逆方向対応付結果とが類似しないほど損失が大きくなる損失関数に基づいて、対応付部214に物体の対応付方法の学習を行わせてもよい。例えば
図9に示す場合であれば、
図9(a)に示す順方向対応付結果と、
図9(b)に示す逆方向対応付結果とが類似するので、損失関数の損失は小さくなってもよい。また、
図9(c)に示す順方向対応付結果と、
図9(d)に示す逆方向対応付結果とが類似しないので、損失関数の損失は大きくなってもよい。
【0072】
学習装置3は、順方向と逆方向とで物体の対応付けを実施し、両方向の対応付け結果のエラーが小さくなるように学習してもよい。つまり、学習装置3は、教師なし学習をしてもよい。
[3-3:学習装置3の技術的効果]
【0073】
第3実施形態における学習装置3は、第2フレームに含まれる物体を、当該第2フレームより前のフレームである第1フレームに含まれる物体に対応付けた順方向対応付結果と、第1フレームに含まれる物体を当該第1フレームより後のフレームである第2フレームに含まれる物体に対応付けた逆方向対応付結果とに基づいて、対応付部214に物体の対応付方法の学習を行わせるので、正解のデータを準備することなく、学習を行わせることができる。すなわち、学習装置3は、教師なし学習のアルゴリズムを用いることができる。
【0074】
学習装置3は、最初に各フレームにおける検出処理を行うので、抽出されたペア群におけるフレームのオーバーラップ分の検出処理を減らすことができ、計算コストを下げることができる。また、学習装置3は、逆方向に対応付けたペアを追加するので、学習に用いることのできるペア数を効率的に増やすことができる。
【0075】
また、学習装置3は、順方向対応付結果と逆方向対応付結果とが類似しないほど損失が大きくなる損失関数に基づいて、対応付部214に物体の対応付方法の学習を行わせるので、物体の対応付けの精度を向上させることができる。
[4:第4実施形態]
【0076】
学習装置、学習方法、及び、記録媒体の第4実施形態について説明する。以下では、学習装置、学習方法、及び記録媒体の第4実施形態が適用された学習装置4を用いて、学習装置、学習方法、及び記録媒体の第4実施形態について説明する。
【0077】
第4実施形態における学習装置4は、第3実施形態における学習装置3と同様に、演算装置21と、記憶装置22とを備えている。更に、学習装置4は、学習装置3と同様に、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、学習装置4は、通信装置23、入力装置24及び出力装置25のうちの少なくとも1つを備えていなくてもよい。第4実施形態における学習装置4は、第3実施形態における学習装置3と比較して、検出部213が行う検出動作、及び学習部215が行う学習動作が異なる。学習装置4のその他の特徴は、学習装置3のその他の特徴と同一であってもよい。
[4-1:学習装置4が行う学習動作]
【0078】
第4実施形態では、
図7に示すステップS30、及びステップS31において、検出部213は、第1フレームに含まれる物体、及び当該物体の位置、並びに第2フレームに含まれる物体、及び当該物体の位置の各々を検出する。検出部213は、取得部211が取得した1本の動画MVが含むフレームに含まれる物体、及び当該物体の位置の各々を検出してもよい。検出部213は、例えば順方向で物体、及び当該物体の位置の各々を検出してもよい(ステップS30)。なお、検出部213は、逆方向で物体、及び当該物体の位置の各々を検出してもよい。
【0079】
また、第4実施形態では、
図7に示すステップS32において、学習部215は、順方向対応付結果において、第1の物体が第1フレームに含まれている位置と、逆方向対応付結果において、当該第1の物体が第1フレームに含まれている位置の比較結果、及び順方向対応付結果において、第2の物体が第2フレームに含まれている位置と、逆方向対応付結果において、当該第2の物体が第2フレームに含まれている位置の比較結果の少なくとも一方に基づいて、対応付部214に物体の対応付方法の学習を行わせる。
【0080】
図10は、
図9と同様に、順方向対応付結果と、逆方向対応付結果との概念図である。
図10(a)は、フレーム[1]に含まれる物体に、フレーム[1]より後のフレームであるフレーム[3]に含まれる物体を対応付けた順方向対応付結果を示している。
図10(b)は、フレーム[3]に含まれる物体に、フレーム[3]より前のフレームであるフレーム[1]に含まれる物体を対応付けた逆方向対応付結果を示している。
【0081】
順方向対応付結果を例示する
図10(a)は、対応付部214は、フレーム[3]における物体Aを、フレーム[1]における物体Aに対応付けたことを例示している。また、
図10(a)は、対応付部214は、フレーム[3]における物体Bを、フレーム[1]における物体Bに対応付けたことを例示している。
【0082】
一方、逆方向対応付結果を例示する
図10(b)は、対応付部214は、フレーム[1]における物体Aを、フレーム[3]における物体Aに対応付けたことを例示している。また、
図10(b)は、対応付部214は、フレーム[1]における物体Bを、フレーム[3]における物体Bに対応付けたことを例示している。
【0083】
図10(c)に例示するように、学習部215は、順方向ペアP1Fの対応付結果において、第1の物体としての物体A及び物体Bが第1フレームとしての順方向ペアP1Fのフレーム[1]に含まれている位置と、逆方向対応付結果において、物体A及び物体Bが逆方向ペアP1Bのフレーム[1]に含まれている位置の比較結果に基づいて、対応付部214に物体の対応付方法の学習を行わせてもよい。
【0084】
学習部215は、対応付部214による順方向対応付けの結果と、逆方向の対応付けの結果が一致しているか否かを判定する。例えば、学習部215は、
図10(c)に例示するように、順方向ペアP1Fのフレーム[1]内の物体A及び物体Bが含まれている位置と、逆方向ペアP1Bのフレーム[1]内の物体A及び物体Bがに含まれている位置とが同じであるか否かに基づいて対応付部214による順方向対応付けの結果と、逆方向の対応付けの結果が一致しているか否かを判定してもよい。
図10(c)に例示する場合であれば、順方向ペアP1Fのフレーム[1]内の物体A及び物体Bが含まれている位置と、逆方向ペアP1Bのフレーム[1]内の物体A及び物体Bがに含まれている位置とは同じであるので、学習部215は、対応付部214の対応付けが成功したと判定してもよい。
【0085】
また、
図10(d)は、フレーム[4]に含まれる物体に、フレーム[4]より後のフレームであるフレーム[8]に含まれる物体を対応付けた順方向対応付結果を示している。
図10(e)は、フレーム[8]に含まれる物体に、フレーム[8]より前のフレームであるフレーム[4]に含まれる物体を対応付けた逆方向対応付結果を示している。
【0086】
順方向対応付結果を例示する
図10(d)は、対応付部214は、フレーム[8]における物体Aを、フレーム[4]における物体Aに対応付けたことを例示している。また、
図10(d)は、対応付部214は、フレーム[8]における物体Bを、フレーム[4]における物体Bに対応付けたことを例示している。
【0087】
一方、逆方向対応付結果を例示する
図10(e)は、対応付部214は、フレーム[8]における物体Aに、フレーム[4]における物体Aを対応付けたことを例示している。また、
図10(e)は、対応付部214は、フレーム[8]における物体Bに、フレーム[4]における物体Bを対応付けたことを例示している。
【0088】
図10(f)に例示するように、学習部215は、順方向ペアP2Fの対応付結果において、物体A及び物体Bが順方向ペアP2Fのフレーム[4]に含まれている位置と、逆方向ペアP2Bの対応付結果において、物体A及び物体Bが逆方向ペアP2Bのフレーム[4]に含まれている位置の比較結果に基づいて、対応付部214に物体の対応付方法の学習を行わせてもよい。
【0089】
例えば、学習部215は、
図10(f)に例示するように、順方向ペアP2Fのフレーム[4]内の物体A及び物体Bが含まれている位置と、逆方向ペアP2Bのフレーム[4]内の物体A及び物体Bがに含まれている位置とが同じであるか否かに基づいて対応付部214による順方向対応付けの結果と、逆方向の対応付けの結果が一致しているか否かを判定してもよい。
図10(f)に例示する場合であれば、順方向ペアP2Fのフレーム[4]内の物体A及び物体Bが含まれている位置と、逆方向ペアP2Bのフレーム[4]内の物体A及び物体Bがに含まれている位置とが異なるので、学習部215は、対応付部214の対応付けが失敗したと判定してもよい。
【0090】
学習部215は、順方向対応付結果において、第1の物体が第1フレームに含まれている位置と、逆方向対応付結果において、当該第1の物体が第1フレームに含まれている位置の重なりが大きくなるように、対応付部214に物体の対応付方法の学習を行わせてもよい。
[4-3:学習装置4の技術的効果]
【0091】
第4実施形態における学習装置4は、順方向対応付結果において、第1の物体が第1フレームに含まれている位置と、逆方向対応付結果において、当該第1の物体が第1フレームに含まれている位置の比較結果、及び順方向対応付結果において、第2の物体が第2フレームに含まれている位置と、逆方向対応付結果において、当該第2の物体が第2フレームに含まれている位置の比較結果の少なくとも一方に基づいて、対応付部214に物体の対応付方法の学習を行わせるので、正解のデータを準備することなく、学習を行わせることができる。すなわち、学習装置4は、教師無し学習のアルゴリズムを用いることができる。また、学習装置4は、物体の位置の情報を用いて対応付けを行うので、物体の位置の情報を用いない場合と比較して、精度よく物体の対応付けをすることができる。
【0092】
第4実施形態における学習装置4は、学習装置3による効果に加えて、追跡結果の整合性を、順方向と逆方向の対応付けの結果の一致度合いから学習により反映することができるので、対応付けの精度をより向上させることができる。
[5:第5実施形態]
【0093】
学習装置、学習方法、及び、記録媒体の第5実施形態について説明する。以下では、学習装置、学習方法、及び記録媒体の第5実施形態が適用された学習装置5を用いて、学習装置、学習方法、及び記録媒体の第5実施形態について説明する。
【0094】
第5実施形態における学習装置5は、第2実施形態における学習装置2から第4実施形態における学習装置4の少なくとも1つと同様に、演算装置21と、記憶装置22とを備えている。更に、学習装置5は、第2実施形態における学習装置2から第4実施形態における学習装置4の少なくとも1つと同様に、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、学習装置5は、通信装置23、入力装置24及び出力装置25のうちの少なくとも1つを備えていなくてもよい。第5実施形態における学習装置5は、第2実施形態における学習装置2から第4実施形態における学習装置4の少なくとも1つにおける学習装置4と比較して、取得部211が取得する動画MVが含む情報、及び学習部215が行う学習動作が異なる。学習装置5のその他の特徴は、学習装置2から学習装置4の少なくとも1つのその他の特徴と同一であってもよい。
[5-1:学習装置5が行う学習動作]
【0095】
第5実施形態では、
図6に示すステップS20において、取得部211は、サンプル動画、及びサンプル動画が含む複数のサンプルフレームの各々に含まれるサンプル物体がどの物体かを示す正解ラベルを含む学習情報を、動画MVとして取得する。
【0096】
ステップS23において、検出部213は、複数のサンプルフレームのうちの第1サンプルフレームに含まれるサンプル物体、及び複数のサンプルフレームのうちの第2サンプルフレームに含まれるサンプル物体の各々を検出する。
【0097】
ステップS24において、対応付部214は、第1サンプルフレームに含まれるサンプル物体と、第2サンプルフレームに含まれるサンプル物体とを対応付ける。
【0098】
学習部215は、正解ラベルと対応付部214による対応付結果に基づいて、対応付部214に物体の対応付方法の学習を行わせる。すなわち、第5実施形態における学習装置5は、教師あり学習を実施する。学習部215は、正解ラベルに基づく対応付結果と、対応付部214による対応付結果が類似しないほど損失が大きくなる損失関数に基づいて、対応付部214に物体の対応付方法の学習を行わせてもよい。
【0099】
図11は、第5実施形態における学習装置5が行う学習動作を例示する概念図である。例えば、ステップS22において選択された1ペアが、フレーム[6]とフレーム[3]のペアであったとする。
【0100】
図11(c)は、フレーム[6]に含まれる物体と、当該物体の正解ラベルとを例示している。また、
図11(d)は、フレーム[3]に含まれる物体と、当該物体の正解ラベルとを例示している。
図11(c)及び(d)に示すように、丸い物体の正解ラベルは「a」であり、四角い物体の正解ラベルは「b」である。すなわち、対応付部214は、
図11(a)と
図11(b)との間の破線の矢印が例示するように、フレーム[6]に含まれる丸い物体と、フレーム[3]に含まれる丸い物体とを対応付けた場合、対応付けは成功したと判定してもよい。
【0101】
例えば、
図11(a)と
図11(b)との間の実線の矢印が例示するように、対応付部214は、第1サンプルフレームとしてのフレーム[6]に含まれるサンプル物体Aと、第2サンプルフレームとしてのフレーム[3]に含まれるサンプル物体Aとを対応付けたとする。破線の矢印が例示する対応付結果と、実線の矢印が例示する対応付結果とが類似しないので、学習部215が用いる損失関数の損失は大きくなってもよい。
[5-3:学習装置5の技術的効果]
【0102】
第5実施形態における学習装置5は、教師あり学習により、対応付部214に物体の対応付方法の学習を行わせるので、学習精度を向上させることができる。
[6:第6実施形態]
【0103】
追跡装置、追跡方法、及び、記録媒体の第6実施形態について説明する。以下では、追跡装置、追跡方法、及び記録媒体の第6実施形態が適用された追跡装置6を用いて、追跡装置、追跡方法、及び記録媒体の第6実施形態について説明する。
[6-1:追跡装置6の構成]
【0104】
図12を参照しながら、第6実施形態における追跡装置6の構成について説明する。
図12は、第6実施形態における追跡装置6の構成を示すブロック図である。
【0105】
図12に示すように、追跡装置6は、演算装置61と、記憶装置62とを備えている。更に、追跡装置6は、通信装置63と、入力装置64と、出力装置65とを備えていてもよい。但し、追跡装置6は、通信装置63、入力装置64及び出力装置65のうちの少なくとも1つを備えていなくてもよい。演算装置61と、記憶装置62と、通信装置63と、入力装置64と、出力装置65とは、データバス66を介して接続されていてもよい。
【0106】
演算装置61は、例えば、CPU(Central Processing Unit)、GPU(Graphics Proecssing Unit)及びFPGA(Field Programmable Gate Array)のうちの少なくとも1つを含む。演算装置61は、コンピュータプログラムを読み込む。例えば、演算装置61は、記憶装置62が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置61は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、追跡装置6が備える図示しない記録媒体読み取り装置(例えば、後述する入力装置64)を用いて読み込んでもよい。演算装置61は、通信装置63(或いは、その他の通信装置)を介して、追跡装置6の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、ダウンロードしてもよい又は読み込んでもよい)。演算装置61は、読み込んだコンピュータプログラムを実行する。その結果、演算装置61内には、追跡装置6が行うべき動作を実行するための論理的な機能ブロックが実現される。つまり、演算装置61は、追跡装置6が行うべき動作(言い換えれば、処理)を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。
【0107】
図12には、学習動作を実行するために演算装置61内に実現される論理的な機能ブロックの一例が示されている。
図11に示すように、演算装置61内には、後述する付記に記載された「取得手段」の一具体例である取得部211と、後述する付記に記載された「抽出手段」の一具体例である抽出部212とが実現される。
【0108】
記憶装置62は、所望のデータを記憶可能である。例えば、記憶装置62は、演算装置61が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置62は、演算装置61がコンピュータプログラムを実行している場合に演算装置61が一時的に使用するデータを一時的に記憶してもよい。記憶装置62は、追跡装置6が長期的に保存するデータを記憶してもよい。尚、記憶装置62は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも1つを含んでいてもよい。つまり、記憶装置62は、一時的でない記録媒体を含んでいてもよい。
【0109】
記憶装置62は、対応付モデルMMの動作を規定するパラメータを記憶していてもよい。対応付モデルMMは、第2実施形態における学習装置2から第5実施形態における学習装置5の少なくとも1つによって構築された対応付モデルMMであってもよい。但し、記憶装置62は、対応付モデルMMの動作を規定するパラメータを記憶していなくてもよい。
【0110】
通信装置63は、不図示の通信ネットワークを介して、追跡装置6の外部の装置と通信可能である。通信装置63は、通信ネットワークを介して、追跡動作に用いる動画MVを撮像装置から取得してもよい。
【0111】
入力装置64は、追跡装置6の外部からの追跡装置6に対する情報の入力を受け付ける装置である。例えば、入力装置64は、追跡装置6のオペレータが操作可能な操作装置(例えば、キーボード、マウス及びタッチパネルのうちの少なくとも1つ)を含んでいてもよい。例えば、入力装置64は追跡装置6に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。
【0112】
出力装置65は、追跡装置6の外部に対して情報を出力する装置である。例えば、出力装置65は、情報を画像として出力してもよい。つまり、出力装置65は、出力したい情報を示す画像を表示可能な表示装置(いわゆる、ディスプレイ)を含んでいてもよい。例えば、出力装置65は、情報を音声として出力してもよい。つまり、出力装置65は、音声を出力可能な音声装置(いわゆる、スピーカ)を含んでいてもよい。例えば、出力装置65は、紙面に情報を出力してもよい。つまり、出力装置65は、紙面に所望の情報を印刷可能な印刷装置(いわゆる、プリンタ)を含んでいてもよい。
[6-2:追跡装置6が行う追跡動作]
【0113】
図13を参照して、第6実施形態における追跡装置6が行う追跡動作の流れを説明する。
図13は、第6実施形態における追跡装置6が行う追跡動作の流れを示すフローチャートである。第6実施形態における追跡装置6は、オンラインで物体の追跡をしてもよい。
【0114】
図12に示すように、取得部611は、動画MVを取得する(ステップS60)。取得部611は、動画MVをフレーム毎に取得してもよい。
【0115】
追跡部616は、動画MVに含まれる物体を追跡する(ステップS61)。追跡部616は、動画MVに含まれる複数の物体を追跡してもよい。
【0116】
追跡部616は、物体の対応付方法の学習を行わせて構築された対応付モデルMMを有していてもよい。追跡部616は、対応付モデルMMによる動画MVが含む各フレームに含まれる物体の対応付けに基づいて、物体を追跡してもよい。対応付モデルMMは、上述の通り、第2実施形態における学習装置2から第5実施形態における学習装置5の少なくとも1つによって構築された対応付モデルMMであってもよい。
【0117】
第6実施形態における追跡装置6は、人物を追跡する場面、特に動く人物を生体認証する場面等に適用することができる。
[6-3:追跡装置6の技術的効果]
【0118】
第6実施形態における追跡装置6は、精度よく学習された対応付モデルMMを用いて追跡を行うので、精度よく物体を追跡することができる。
[7:付記]
【0119】
以上説明した実施形態に関して、更に以下の付記を開示する。
[付記1]
1本の動画を取得する取得手段と、
前記動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出する抽出手段と、
前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出手段と、
前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付ける対応付手段と、
前記複数の組の前記対応付手段による対応付結果に基づいて、前記対応付手段に前記物体の対応付方法の学習を行わせる学習手段と
を備え、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む
学習装置。
[付記2]
前記抽出手段は、前記複数のフレームから、前記第1フレーム、及び前記第2フレームをランダムに選択して前記組を抽出する
付記1に記載の学習装置。
[付記3]
前記抽出手段は、前記第1フレームより所定フレーム前、又は後のフレームを前記第2フレームとして選択して前記組を抽出する
付記1又は2に記載の学習装置。
[付記4]
前記学習手段は、前記対応付結果に基づいて学習損失を算出し、当該学習損失から前記対応付手段に前記対応付方法の学習を行わせる
付記1~3の何れか1項に記載の学習装置。
[付記5]
前記学習手段は、前記第1フレームに含まれる物体を当該第1フレームより後のフレームである前記第2フレームに含まれる物体に対応付けた順方向対応付結果と、前記第2フレームに含まれる物体を、当該第2フレームより前のフレームである前記第1フレームに含まれる物体に対応付けた逆方向対応付結果とに基づいて、前記対応付手段に前記物体の対応付方法の学習を行わせる
付記1~4の何れか1項に記載の学習装置。
[付記6]
前記学習手段は、前記順方向対応付結果と前記逆方向対応付結果とが類似しないほど損失が大きくなる損失関数に基づいて、前記対応付手段に前記物体の対応付方法の学習を行わせる
付記5に記載の学習装置。
[付記7]
前記検出手段は、前記第1フレームに含まれる物体、及び当該物体の位置、並びに前記第2フレームに含まれる物体、及び当該物体の位置の各々を検出し、
前記学習手段は、前記順方向対応付結果において、第1の物体が前記第1フレームに含まれている位置と、前記逆方向対応付結果において、当該第1の物体が前記第1フレームに含まれている位置の比較結果、及び前記順方向対応付結果において、第2の物体が前記第2フレームに含まれている位置と、前記逆方向対応付結果において、当該第2の物体が前記第2フレームに含まれている位置の比較結果の少なくとも一方に基づいて、前記対応付手段に前記物体の対応付方法の学習を行わせる
付記5又は6に記載の学習装置。
[付記8]
前記取得手段は、サンプル動画、及び前記サンプル動画が含む複数のサンプルフレームの各々に含まれるサンプル物体がどの物体かを示す正解ラベルを含む学習情報を取得し、
前記検出手段は、前記複数のサンプルフレームのうちの第1サンプルフレームに含まれるサンプル物体、及び前記複数のサンプルフレームのうちの第2サンプルフレームに含まれるサンプル物体の各々を検出し、
前記対応付手段は、前記第1サンプルフレームに含まれるサンプル物体と、前記第2サンプルフレームに含まれるサンプル物体とを対応付け、
前記学習手段は、前記正解ラベルと前記対応付手段による対応付結果に基づいて、前記対応付手段に前記物体の対応付方法の学習を行わせる
付記1~7の何れか1項に記載の学習装置。
[付記9]
動画を取得する取得手段と、
1本の動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付けた前記複数の組の対応付結果に基づいて、前記物体の対応付方法の学習を行わせて生成された対応付手段を有し、当該対応付手段による物体の対応付けに基づいて、前記動画に含まれる物体を追跡する追跡手段と、
を備え、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む
追跡装置。
[付記10]
1本の動画を取得し、
前記動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、
前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、
前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付器を用いて対応付け、
前記複数の組の前記対応付器による対応付結果に基づいて、前記対応付器に前記物体の対応付方法の学習を行わせ、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む
学習方法。
[付記11]
コンピューターに、
1本の動画を取得し、
前記動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、
前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、
前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付器を用いて対応付け、
前記複数の組の前記対応付器による対応付結果に基づいて、前記対応付器に前記物体の対応付方法の学習を行わせ、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む
学習方法を実行させるためのコンピュータプログラムが記録されている記録媒体。
[付記12]
動画を取得し、
1本の動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付けた前記複数の組の対応付結果に基づいて、前記物体の対応付方法の学習を行わせて生成された対応付手段を有し、当該対応付手段による物体の対応付けに基づいて、前記動画に含まれる物体を追跡する
追跡方法であって、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む
追跡方法。
[付記13]
コンピューターに、
動画を取得し、
1本の動画が含む複数のフレームから、第1フレーム、及び当該第1フレームとは異なる第2フレームの組を複数抽出し、前記第1フレームに含まれる物体、及び前記第2フレームに含まれる物体の各々を検出する検出し、前記第1フレームに含まれる物体と、前記第2フレームに含まれる物体とを対応付けた前記複数の組の対応付結果に基づいて、前記物体の対応付方法の学習を行わせて生成された対応付手段を有し、当該対応付手段による物体の対応付けに基づいて、前記動画に含まれる物体を追跡する
追跡方法であって、
前記複数の組は、前記第1及び第2フレームの間の時間間隔が第1間隔となる第1の組と、前記第1及び第2フレームの間の時間間隔が前記第1間隔とは異なる第2時間間隔となる第2の組とを含む
追跡方法を実行させるためのコンピュータプログラムが記録されている記録媒体。
【0120】
上述の各実施形態の構成要件の少なくとも一部は、上述の各実施形態の構成要件の少なくとも他の一部と適宜組み合わせることができる。上述の各実施形態の構成要件のうちの一部が用いられなくてもよい。また、法令で許容される限りにおいて、上述のこの開示で引用した全ての文献(例えば、公開公報)の開示を援用してこの開示の記載の一部とする。
【0121】
この開示は、請求の範囲及び明細書全体から読み取るこのできる技術的思想に反しない範囲で適宜変更可能である。そのような変更を伴う学習装置、学習方法、追跡装置、追跡方法、及び、記録媒体もまた、この開示の技術的思想に含まれる。
【符号の説明】
【0122】
1,2,3,4,5 学習装置
11,211,611 取得部
12,212 抽出部
13,213 検出部
14,214 対応付部
15,215 学習部
MM 対応付モデル
6 追跡装置
616 追跡部