IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 住友電気工業株式会社の特許一覧

特開2022-175571注目領域検出装置、映像認識システム、注目領域検出方法、コンピュータプログラム、及びデータ構造
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022175571
(43)【公開日】2022-11-25
(54)【発明の名称】注目領域検出装置、映像認識システム、注目領域検出方法、コンピュータプログラム、及びデータ構造
(51)【国際特許分類】
   G06T 7/70 20170101AFI20221117BHJP
【FI】
G06T7/70 A
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021082092
(22)【出願日】2021-05-14
(71)【出願人】
【識別番号】000002130
【氏名又は名称】住友電気工業株式会社
(74)【代理人】
【識別番号】100123021
【弁理士】
【氏名又は名称】渥美 元幸
(74)【代理人】
【識別番号】100126538
【弁理士】
【氏名又は名称】嶺 直道
(72)【発明者】
【氏名】岳 麗
(72)【発明者】
【氏名】谷口 裕一
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA04
5L096CA04
5L096DA01
5L096EA24
5L096FA69
5L096GA30
5L096HA02
5L096HA09
5L096JA11
5L096JA18
(57)【要約】
【課題】高速かつ高精度に注目領域を検出するための注目領域検出装置を提供する。
【解決手段】注目領域検出装置は、入力映像から検出対象物体を含む注目領域を抽出する第1抽出部と、前記入力映像から検出対象物体を含む注目領域を前記第1抽出部に比べて短い時間で抽出する第2抽出部と、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する統合部とを備える。
【選択図】図3
【特許請求の範囲】
【請求項1】
入力映像から検出対象物体を含む注目領域を抽出する第1抽出部と、
前記入力映像から検出対象物体を含む注目領域を前記第1抽出部に比べて短い時間で抽出する第2抽出部と、
前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する統合部とを備える、注目領域検出装置。
【請求項2】
前記統合部は、前記第1抽出部により前記注目領域が抽出された場合の前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果に関して、前記第1抽出部による抽出結果の影響が前記第2抽出部による抽出結果の影響よりも大きい演算により、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する、請求項1に記載の注目領域検出装置。
【請求項3】
前記入力映像に基づいて、前記入力映像中のシーンチェンジを検出するシーンチェンジ検出部をさらに備え、
前記統合部は、前記シーンチェンジが検出された場合に、前記第2抽出部により抽出された注目領域を前記統合部による統合結果とする、請求項1又は請求項2に記載の注目領域検出装置。
【請求項4】
前記統合部は、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果のうち、前記第1抽出部による抽出結果を優先して、前記入力映像を構成するフレームにおける抽出結果を選択することにより、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する、請求項1から請求項3のいずれか1項に記載の注目領域検出装置。
【請求項5】
前記第1抽出部による抽出結果を保持する抽出結果保持部をさらに備え、
前記統合部は、前記抽出結果保持部に保持された抽出結果と、前記第2抽出部による抽出結果とを統合する、請求項1から請求項4のいずれか1項に記載の注目領域検出装置。
【請求項6】
前記統合部は、統合結果として、注目領域の位置情報と、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果の統合方式を示す情報とを含み、
前記統合方式は、以下の方式1から方式3のいずれかを含む、請求項1から請求項5のいずれか1項に記載の注目領域検出装置。
方式1:前記第1抽出部による最新の抽出結果及び前記第2抽出部による最新の抽出結果を統合する統合方式
方式2:前記第1抽出部による最新の抽出結果及び前記第2抽出部による最新の抽出結果のうち前記第1抽出部による最新の抽出結果を優先して一方を選択した抽出結果を前記統合部の統合結果とする統合方式
方式3:前記第1抽出部による注目領域の抽出対象とされているフレームよりも過去のフレームについての前記第1抽出部による抽出結果と、前記第2抽出部による抽出結果とを統合する統合方式
【請求項7】
前記注目領域検出装置は移動体に搭載され、
前記第1抽出部及び前記第2抽出部は、前記移動体に配置されたカメラで撮影された前記入力映像からリアルタイムで注目領域をそれぞれ抽出し、
前記統合部は、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果をリアルタイムで統合する、請求項1から請求項6のいずれか1項に記載の注目領域検出装置。
【請求項8】
請求項1から請求項7のいずれか1項に記載の注目領域検出装置と、
映像認識装置とを備え、
前記注目領域検出装置は、前記統合部による統合結果に基づいて前記入力映像を圧縮する圧縮部をさらに備え、
前記映像認識装置は、前記注目領域検出装置において圧縮された前記入力映像を認識する、映像認識システム。
【請求項9】
入力映像から検出対象物体を含む注目領域を抽出する第1抽出ステップと、
前記入力映像から検出対象物体を含む注目領域を前記第1抽出ステップに比べて短い時間で抽出する第2抽出ステップと、
前記第1抽出ステップによる抽出結果及び前記第2抽出ステップによる抽出結果を統合する統合ステップとを含む、注目領域検出方法。
【請求項10】
コンピュータを、
入力映像から検出対象物体を含む注目領域を抽出する第1抽出部、
前記入力映像から検出対象物体を含む注目領域を前記第1抽出部に比べて短い時間で抽出する第2抽出部、及び
前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する統合部、として機能させるためのコンピュータプログラム。
【請求項11】
注目領域検出装置により検出された入力映像中の注目領域を示すデータ構造であって、
前記注目領域検出装置は、
前記入力映像から検出対象物体を含む注目領域を抽出する第1抽出部と、
前記入力映像から検出対象物体を含む注目領域を前記第1抽出部に比べて短い時間で抽出する第2抽出部と、
前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する統合部とを備え、
前記データ構造は、
前記統合部による統合後の注目領域の位置情報と、
前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果の前記統合部による統合方式を示す情報とを含み、
前記統合方式は、以下の方式1から方式3のいずれかを含む、データ構造。
方式1:前記第1抽出部による最新の抽出結果及び前記第2抽出部による最新の抽出結果を統合する統合方式
方式2:前記第1抽出部による最新の抽出結果及び前記第2抽出部による最新の抽出結果のうち前記第1抽出部による最新の抽出結果を優先して一方を選択した抽出結果を前記統合部の統合結果とする統合方式
方式3:前記第1抽出部による注目領域の抽出対象とされているフレームよりも過去のフレームについての前記第1抽出部による抽出結果と、前記第2抽出部による抽出結果とを統合する統合方式
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、注目領域検出装置、映像認識システム、注目領域検出方法、コンピュータプログラム、及びデータ構造に関する。
【背景技術】
【0002】
映像から注目領域(ROI:Region of Interest)を抽出することは、映像を効率的に圧縮する上で非常に重要である。近年、AIによる画像認識にとって重要な領域を注目領域として抽出する技術が開発されている。
【0003】
例えば、非特許文献1には、画像の圧縮率を上げながらAIによる物体認識を施行し、物体を認識できる限界圧縮率をブロック単位で決定し、結果として注目領域を低圧縮率で圧縮する方法が開示されている。
【0004】
また、非特許文献2には、処理の軽量化を目的として、事前の学習により重要な領域(注目領域)と適切な画質を予測することが記載されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】久保田智規,中尾鷹詔,吉田英司,久保田真,「AI解析に適した映像データ高圧縮技術 ~クラウド・5Gでの利用に向けて~」,富士通テクニカルレビュー,2020年8月19日公開
【非特許文献2】岩井孝法,二瓶浩一,篠原悠介,逸身勇人,沢辺亜南,「NECの最先端技術 自動運転・無人運転を支える通信技術」,[online],2021年1月8日,NEC,[2021年2月4日検索],インターネット<URL:https://jpn.nec.com/rd/technologies/202101/index.html>
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献1に記載の方法によると、映像を構成する画像ごとに各ブロックの限界圧縮率を決定しなければならない。このため、処理負荷が高く、リアルタイム処理に不向きであるという課題がある。
【0007】
また、非特許文献2に記載の方法によると、処理負荷は低いものの、車載カメラから遠方に映っている歩行者のように小さい物体を含む注目領域を検出することができない可能性がある。
【0008】
本開示はこのような課題に鑑みてなされたものであり、高速かつ高精度に注目領域を検出するための注目領域検出装置、映像認識システム、注目領域検出方法、コンピュータプログラム、及びデータ構造を提供することを目的とする。
【課題を解決するための手段】
【0009】
本開示の一態様に係る注目領域検出装置は、入力映像から検出対象物体を含む注目領域を抽出する第1抽出部と、前記入力映像から検出対象物体を含む注目領域を前記第1抽出部に比べて短い時間で抽出する第2抽出部と、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する統合部とを備える。
【0010】
本開示の他の態様に係る映像認識システムは、上述の注目領域検出装置と、映像認識装置とを備え、前記注目領域検出装置は、前記統合部による統合結果に基づいて前記入力映像を圧縮する圧縮部をさらに備え、前記映像認識装置は、前記注目領域検出装置において圧縮された前記入力映像を認識する。
【0011】
本開示の他の態様に係る注目領域検出方法は、入力映像から検出対象物体を含む注目領域を抽出する第1抽出ステップと、前記入力映像から検出対象物体を含む注目領域を前記第1抽出ステップに比べて短い時間で抽出する第2抽出ステップと、前記第1抽出ステップによる抽出結果及び前記第2抽出ステップによる抽出結果を統合する統合ステップとを含む。
【0012】
本開示の他の態様に係るコンピュータプログラムは、コンピュータを、入力映像から検出対象物体を含む注目領域を抽出する第1抽出部、前記入力映像から検出対象物体を含む注目領域を前記第1抽出部に比べて短い時間で抽出する第2抽出部、及び前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する統合部、として機能させる。
【0013】
本開示の他の態様に係るデータ構造は、注目領域検出装置により検出された入力映像中の注目領域を示すデータ構造であって、前記注目領域検出装置は、前記入力映像から検出対象物体を含む注目領域を抽出する第1抽出部と、前記入力映像から検出対象物体を含む注目領域を前記第1抽出部に比べて短い時間で抽出する第2抽出部と、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する統合部とを備え、前記データ構造は、前記統合部による統合後の注目領域の位置情報と、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果の前記統合部による統合方式を示す情報とを含み、前記統合方式は、以下の方式1から方式3のいずれかを含む。
方式1:前記第1抽出部による最新の抽出結果及び前記第2抽出部による最新の抽出結果を統合する統合方式
方式2:前記第1抽出部による最新の抽出結果及び前記第2抽出部による最新の抽出結果のうち前記第1抽出部による最新の抽出結果を優先して一方を選択した抽出結果を前記統合部の統合結果とする統合方式
方式3:前記第1抽出部による注目領域の抽出対象とされているフレームよりも過去のフレームについての前記第1抽出部による抽出結果と、前記第2抽出部による抽出結果とを統合する統合方式
【0014】
なお、本開示は、注目領域検出方法に含まれる特徴的なステップをコンピュータに実行させるためのコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD-ROM(Compact Disc-Read Only Memory)等のコンピュータ読取可能な非一時的な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。また、本開示は、注目領域検出装置の一部又は全部を実現する半導体集積回路として実現することもできる。
【発明の効果】
【0015】
本開示によると、高速かつ高精度に注目領域を検出することができる。
【図面の簡単な説明】
【0016】
図1図1は、本開示の実施形態1に係る運転支援システムの全体構成を示す図である。
図2図2は、本開示の実施形態1に係る車載システムの構成の一例を示すブロック図である。
図3図3は、本開示の実施形態1に係るプロセッサの機能的な構成を示すブロック図である。
図4図4は、本開示の実施形態1に係る入力映像を構成する画像の一例を示す図である。
図5図5は、本開示の実施形態1に係る第1抽出部により抽出された注目領域の一例を示す図である。
図6図6は、本開示の実施形態1に係る複数のブロックに分割された画像の一例を示す図である。
図7図7は、本開示の実施形態1に係る第2抽出部により抽出された注目領域の一例を示す図である。
図8図8は、本開示の実施形態1に係る第1抽出部による注目領域の抽出結果、及び第2抽出部による注目領域の抽出結果の統合処理を説明するための図である。
図9A図9Aは、本開示の実施形態1に係るある時間における加算による注目領域の抽出結果の統合処理の一例を説明するための図である。
図9B図9Bは、本開示の実施形態1に係るある時間における加算による注目領域の抽出結果の統合処理の一例を説明するための図である。
図10A図10Aは、本開示の実施形態1に係るある時間における乗算による注目領域の抽出結果の統合処理の一例を説明するための図である。
図10B図10Bは、本開示の実施形態1に係るある時間における乗算による注目領域の抽出結果の統合処理の一例を説明するための図である。
図11図11は、本開示の実施形態1に係る車載システムの処理手順の一例を示すフローチャートである。
図12図12は、本開示の実施形態2に係る第1抽出部による注目領域の抽出結果、及び第2抽出部による注目領域の抽出結果の統合処理を説明するための図である。
図13図13は、本開示の実施形態3に係る第1抽出部による注目領域の抽出結果、及び第2抽出部による注目領域の抽出結果の統合処理を説明するための図である。
図14図14は、本開示の実施形態4に係るプロセッサの機能的な構成を示すブロック図である。
図15図15は、本開示の実施形態5に係る統合結果の一例を示す図である。
【発明を実施するための形態】
【0017】
[本開示の実施形態の概要]
最初に本開示の実施形態の概要を列記して説明する。
(1)本開示の一実施形態に係る注目領域検出装置は、入力映像から検出対象物体を含む注目領域を抽出する第1抽出部と、前記入力映像から検出対象物体を含む注目領域を前記第1抽出部に比べて短い時間で抽出する第2抽出部と、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する統合部とを備える。
【0018】
この構成によると、第1抽出部の方が第2抽出部よりも抽出に要する時間が長い。つまり、第1抽出部の方が第2抽出部よりも処理負荷が高い。これにより、第1抽出部は、処理負荷が高いものの高精度で注目領域を抽出することができる。一方、第2抽出部は、抽出精度は低いものの低処理負荷で注目領域を抽出することができる。統合部により、これら2つの抽出結果を統合することにより、高速かつ高精度に注目領域を検出することができる。
【0019】
(2)また、前記統合部は、前記第1抽出部により前記注目領域が抽出された場合の前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果に関して、前記第1抽出部による抽出結果の影響が前記第2抽出部による抽出結果の影響よりも大きい演算により、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合してもよい。
【0020】
この構成によると、抽出精度の高い第1抽出部による抽出結果の影響が大きくなるように抽出結果を統合することができる。これにより、高精度で注目領域を検出することができる。
【0021】
(3)また、前記注目領域検出装置は、前記入力映像に基づいて、前記入力映像中のシーンチェンジを検出するシーンチェンジ検出部をさらに備え、前記統合部は、前記シーンチェンジが検出された場合に、前記第2抽出部により抽出された注目領域を前記統合部による統合結果としてもよい。
【0022】
第1抽出部の抽出に要する時間は長いため、シーンチェンジが発生した直後はシーンチェンジ発生後の入力映像に対する第1抽出部による抽出結果が得られていない場合がある。つまり、シーンチェンジ発生直後においては、第1抽出部による抽出結果はシーンチェンジ発生前の入力映像に対するものである。このため、シーンチェンジが検出された場合には、第1抽出部による抽出結果を用いずに、第2抽出部による抽出結果を用いることにより、高精度に注目領域を検出することができる。
【0023】
(4)また、前記統合部は、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果のうち、前記第1抽出部による抽出結果を優先して、前記入力映像を構成するフレームにおける抽出結果を選択することにより、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合してもよい。
【0024】
この構成によると、第1抽出部及び第2抽出部の双方から抽出結果が得られた場合には、第1抽出部による抽出結果を優先させることができる。このため、注目領域を高精度に検出することができる。
【0025】
(5)また、前記注目領域検出装置は、前記第1抽出部による抽出結果を保持する抽出結果保持部をさらに備え、前記統合部は、前記抽出結果保持部に保持された抽出結果と、前記第2抽出部による抽出結果とを統合してもよい。
【0026】
この構成によると、高精度な第1抽出部による抽出結果を、短時間処理の第2抽出部による抽出結果で即応的に修正することができる。
【0027】
(6)また、前記統合部は、統合結果として、注目領域の位置情報と、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果の統合方式を示す情報とを含み、前記統合方式は、以下の方式1から方式3のいずれかを含んでもよい。
方式1:前記第1抽出部による最新の抽出結果及び前記第2抽出部による最新の抽出結果を統合する統合方式
方式2:前記第1抽出部による最新の抽出結果及び前記第2抽出部による最新の抽出結果のうち前記第1抽出部による最新の抽出結果を優先して一方を選択した抽出結果を前記統合部の統合結果とする統合方式
方式3:前記第1抽出部による注目領域の抽出対象とされているフレームよりも過去のフレームについての前記第1抽出部による抽出結果と、前記第2抽出部による抽出結果とを統合する統合方式
【0028】
この構成によると、統合結果には2つの抽出部による抽出結果の統合方式が含まれる。このため、抽出結果がどのような方式により統合されたかを知ることができ、統合方式に応じた処理を行うことができる。
【0029】
(7)また、前記注目領域検出装置は移動体に搭載され、前記第1抽出部及び前記第2抽出部は、前記移動体に配置されたカメラで撮影された前記入力映像からリアルタイムで注目領域をそれぞれ抽出し、前記統合部は、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果をリアルタイムで統合してもよい。
【0030】
この構成によると、移動体に配置されたカメラで撮影された入力映像からリアルタイムで注目領域を検出することができる。
【0031】
(8)本開示の他の実施形態に係る映像認識システムは、上述の注目領域検出装置と、映像認識装置とを備え、前記注目領域検出装置は、前記統合部による統合結果に基づいて前記入力映像を圧縮する圧縮部をさらに備え、前記映像認識装置は、前記注目領域検出装置において圧縮された前記入力映像を認識してもよい。
【0032】
この構成によると、高速かつ高精度で検出された注目領域を認識可能なように入力映像を圧縮し、圧縮された入力映像を認識することができる。このため、高速かつ高精度で入力映像を認識することができる。
【0033】
(9)本開示の他の実施形態に係る注目領域検出方法は、入力映像から検出対象物体を含む注目領域を抽出する第1抽出ステップと、前記入力映像から検出対象物体を含む注目領域を前記第1抽出ステップに比べて短い時間で抽出する第2抽出ステップと、前記第1抽出ステップによる抽出結果及び前記第2抽出ステップによる抽出結果を統合する統合ステップとを含む。
【0034】
この構成は、上述の注目領域検出装置における特徴的な処理をステップとして含む。このため、この構成によると、上述の注目領域検出装置と同様の作用および効果を奏することができる。
【0035】
(10)本開示の他の実施形態に係るコンピュータプログラムは、コンピュータを、入力映像から検出対象物体を含む注目領域を抽出する第1抽出部、前記入力映像から検出対象物体を含む注目領域を前記第1抽出部に比べて短い時間で抽出する第2抽出部、及び前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する統合部、として機能させるためのコンピュータプログラムである。
【0036】
この構成によると、コンピュータを、上述の注目領域検出装置として機能させることができる。このため、上述の注目領域検出装置と同様の作用および効果を奏することができる。
【0037】
(11)本開示の他の実施形態に係るデータ構造は、注目領域検出装置により検出された入力映像中の注目領域を示すデータ構造であって、前記注目領域検出装置は、前記入力映像から検出対象物体を含む注目領域を抽出する第1抽出部と、前記入力映像から検出対象物体を含む注目領域を前記第1抽出部に比べて短い時間で抽出する第2抽出部と、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果を統合する統合部とを備え、前記データ構造は、前記統合部による統合後の注目領域の位置情報と、前記第1抽出部による抽出結果及び前記第2抽出部による抽出結果の前記統合部による統合方式を示す情報とを含み、前記統合方式は、以下の方式1から方式3のいずれかを含む。
方式1:前記第1抽出部による最新の抽出結果及び前記第2抽出部による最新の抽出結果を統合する統合方式
方式2:前記第1抽出部による最新の抽出結果及び前記第2抽出部による最新の抽出結果のうち前記第1抽出部による最新の抽出結果を優先して一方を選択した抽出結果を前記統合部の統合結果とする統合方式
方式3:前記第1抽出部による注目領域の抽出対象とされているフレームよりも過去のフレームについての前記第1抽出部による抽出結果と、前記第2抽出部による抽出結果とを統合する統合方式
【0038】
この構成によると、第1抽出部の方が第2抽出部よりも抽出に要する時間が長い。つまり、第1抽出部の方が第2抽出部よりも処理負荷が高い。これにより、第1抽出部は、処理負荷が高いものの高精度で注目領域を抽出することができる。一方、第2抽出部は、抽出精度は低いものの低処理負荷で注目領域を抽出することができる。統合部により、これら2つの抽出結果を統合することにより、高速かつ高精度に注目領域を検出することができる。そして、データ構造には、統合方式が含まれる。このため、抽出結果がどのような方式により統合されたかを知ることができ、統合方式に応じた処理を行うことができる。
【0039】
[本開示の実施形態の詳細]
以下、本開示の実施形態について、図面を参照しながら説明する。なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定するものではない。また、以下の実施形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意に付加可能な構成要素である。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。
【0040】
また、同一の構成要素には同一の符号を付す。それらの機能および名称も同様であるため、それらの説明は適宜省略する。
【0041】
<実施形態1>
〔運転支援システムの全体構成〕
図1は、本開示の実施形態1に係る運転支援システムの全体構成を示す図である。
【0042】
図1を参照して、運転支援システム1は、道路上を走行する無線通信が可能な複数の車両2と、車両2と無線通信する1または複数の基地局6と、基地局6とインターネット等のネットワーク5を介して有線または無線で通信するサーバ7とを備える。
【0043】
基地局6は、マクロセル基地局、マイクロセル基地局、及びピコセル基地局などからなる。
【0044】
車両2には、通常の乗用車(自動車)だけでなく、路線バスや緊急車両などの公共車両も含まれる。また、車両2は、四輪車だけでなく、二輪車(バイク、オートバイ)であってもよい。
【0045】
各車両2は、後述するようにカメラを含む車載システム3を備えており、カメラで車両2の周囲を撮影することにより得られる映像データ(以下では、単に「映像」という)を圧縮する映像圧縮処理を施す。車載システム3は、圧縮済みの映像を基地局6及びネットワーク5を介してサーバ7に送信する。
【0046】
サーバ7は、車載システム3から送信された圧縮済み映像を復号し、復号した映像を認識する。例えば、サーバ7は、当該映像中に含まれる物体を認識する処理を実行してもよいし、認識した物体を追跡する処理を実行してもよい。また、サーバ7は、映像のシーンを認識する処理を実行してもよい。映像のシーンは、一例として、高速道路のシーン、一般道路のシーンなどの車両2の走行シーンを示すものであってもよい。サーバ7は、実行した処理の結果を、車載システム3に送信する。
【0047】
車載システム3は、サーバ7から、物体認識処理等の処理結果を受け、当該処理結果に基づいて、車両2の運転を支援する処理を実行する。例えば、車載システム3は、車両又は歩行者の認識結果を受け、車両又は歩行者との衝突を回避するように車両2の運転を支援する。
【0048】
〔車載システム3の構成〕
図2は、本開示の実施形態1に係る車載システム3の構成の一例を示すブロック図である。
【0049】
図2に示すように、車両2の車載システム3は、カメラ31と、通信部32と、制御部(ECU:Electronic Control Unit)33とを備える。
【0050】
カメラ31は、車両2に搭載され、車両2の周囲(特に、車両2の前方)の映像を取り込む画像センサよりなる。カメラ31は、単眼である。ただし、カメラ31は、複眼であってもよい。映像は、時系列の複数の画像より構成される。
【0051】
通信部32は、例えば5G(第5世代移動通信システム)対応の通信処理が可能な無線通信機よりなる。なお、通信部32は、車両2に既設の無線通信機であってもよいし、搭乗者が車両2に持ち込んだ携帯端末であってもよい。通信部32は、制御部33を基地局6を介してネットワーク5に接続するための装置である。
【0052】
搭乗者の携帯端末は、車両2の車内LAN(Local Area Network)に接続されることにより、一時的に車載の無線通信機となる。
【0053】
制御部33は、車両2のカメラ31及び通信部32を含む車両2に搭載される車載装置を制御するコンピュータ装置よりなる。車載装置には、例えば、GPS受信機、ジャイロセンサなどが含まれる。制御部33は、GPS受信機が受信したGPS信号により自車両の車両位置を求める。また、制御部33は、ジャイロセンサの検出結果に基づいて、車両2の方向を把握する。
【0054】
制御部33は、プロセッサ34と、メモリ35とを備える。
プロセッサ34は、メモリ35に格納されたコンピュータプログラムを実行するマイクロコンピュータなどの演算処理装置である。
【0055】
メモリ35は、SRAM(Static RAM)またはDRAM(Dynamic RAM)などの揮発性のメモリ素子、フラッシュメモリ若しくはEEPROM(Electrically Erasable Programmable Read Only Memory)などの不揮発性のメモリ素子、または、ハードディスクなどの磁気記憶装置などにより構成されている。メモリ35は、制御部33で実行されるコンピュータプログラムや、制御部33におけるコンピュータプログラム実行時に生成されるデータ等を記憶する。
【0056】
〔プロセッサ34の機能構成〕
図3は、本開示の実施形態1に係るプロセッサ34の機能的な構成を示すブロック図である。
【0057】
図3を参照して、プロセッサ34は、メモリ35に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、映像取得部36と、第1抽出部37と、第2抽出部38と、統合部39と、圧縮部40と、圧縮済み映像送信部41とを備える。
【0058】
映像取得部36は、カメラ31が撮影した車両2の前方の映像をリアルタイムで順次取得する。ただし、取得する映像は車両2の前方の映像に限定されるものではなく、例えば、車両2の後方の映像であってもよい。
【0059】
第1抽出部37は、映像取得部36が取得した映像(以下、「入力映像」という)を構成する画像から、検出対象物体を含む注目領域をリアルタイムで抽出する。
【0060】
図4は、本開示の実施形態1に係る入力映像を構成する画像の一例を示す図である。
例えば、画像50には、道路51上を走行する自動車52及びオートバイ53と、道路51上に設置された横断歩道54を歩行中の人間55とが含まれる。また、画像50には、横断歩道を示す道路標識56が含まれる。
【0061】
検出対象物体は、例えば、自動車52やオートバイ53などの車両、人間55、道路標識56など、車両2の走行に影響を与える物体を含む。ただし、検出対象物体は、これらに限定されるものではなく、例えば、ビルの看板の文字など車両2の走行に直接の影響を与えないものであってもよい。
【0062】
第1抽出部37は、高精度で注目領域を抽出することのできる処理部である。第1抽出部37は、例えば、入力映像を構成する画像50を第1学習モデルに入力することにより、画像50から検出対象物体を抽出する。第1抽出部37は、抽出された検出対象物体の外接矩形を注目領域として抽出する。抽出した注目領域の情報は、例えば、注目領域の左上隅座標及び右下隅座標を含む。ただし、注目領域の表現方法はこれに限定されるものではない。例えば、注目領域情報は、注目領域の左上隅座標と注目領域の横方向の画素数及び縦方向の画素数とを含んでいてもよい。
【0063】
ここで、第1学習モデルは、例えば、CNN(Convolution Neural Network)、RNN(Recurrent Neural Network)、AutoEncoderなどである。検出対象物体を含む画像を教師データとして、ディープラーニングなどの機械学習手法により、第1学習モデルの各パラメータが決定されているものとする。
【0064】
図5は、本開示の実施形態1に係る第1抽出部37により抽出された注目領域の一例を示す図である。
第1抽出部37は、例えば、画像50から、道路標識56を含む注目領域61と、人間55を含む注目領域62と、オートバイ53を含む注目領域63と、自動車52を含む注目領域64とをそれぞれ抽出する。
【0065】
なお、第1抽出部37は、画像50を所定の縮小比率に基づいて縮小し、縮小された画像を第1学習モデルに入力してもよい。これにより、画像50に含まれるノイズを除去した上で、注目領域の抽出処理を高速に行うことができる。
【0066】
第2抽出部38は、映像取得部36が取得した入力映像を構成する画像50から検出対象物体を含む抽出領域を抽出する。具体的には、第2抽出部38は、映像取得部36が取得した入力映像を構成する画像50を複数のブロックに分割する。
【0067】
図6は、本開示の実施形態1に係る複数のブロックに分割された画像50の一例を示す図である。
第2抽出部38は、画像50を複数のブロック60に分割する。図6では、一例として、画像50を64(=8×8)個のブロック60に分割した例を示している。ブロック60のサイズはあらかじめ定められており、全部が同じサイズであってもよいし、一部又は全部が異なるサイズであってもよい。また、ブロック60の個数は64個に限定されるものではない。
【0068】
第2抽出部38は、各ブロック60の像(以下、「ブロック画像」という)を第2学習モデルに入力することにより、ブロック画像中に検出対象物体が含まれるか否かをリアルタイムで判定する。
【0069】
ここで、第2学習モデルは、例えば、CNN、RNN、AutoEncoderなどである。検出対象物体を含むブロック画像を教師データとして、ディープラーニングなどの機械学習手法により、第2学習モデルの各パラメータが決定されているものとする。
【0070】
つまり、第2抽出部38は、第2学習モデルに未知のブロック画像を入力することにより、当該ブロック画像に検出対象物体が含まれることの確信度を算出する。第2抽出部38は、確信度が所定の閾値以上のブロックを注目領域として抽出する。抽出した注目領域の情報は、例えば、注目領域の左上隅座標及び右下隅座標を含む。ただし、注目領域の表現方法はこれに限定されるものではない。例えば、注目領域情報は、注目領域の左上隅座標と注目領域の横方向の画素数及び縦方向の画素数とを含んでいてもよいし、注目領域を示すブロックの識別子を含んでいてもよい。
【0071】
図7は、本開示の実施形態1に係る第2抽出部38により抽出された注目領域の一例を示す図である。
【0072】
第2抽出部38は、例えば、画像50から、道路標識56を含む注目領域71と、人間55を含む注目領域72と、オートバイ53を含む注目領域73と、自動車52を含む注目領域74~79とをそれぞれ抽出する。
【0073】
なお、第2抽出部38は、各ブロック画像を所定の縮小比率に基づいて縮小し、縮小したブロック画像を第2学習モデルに入力してもよい。これにより、ブロック画像に含まれるノイズを除去した上で、検出対象物体が含まれるか否かの判定処理を高速に行うことができる。
【0074】
第1抽出部37は、画像に基づいて検出対象物体を含む注目領域を抽出する。一方、第2抽出部38は、ブロック画像に検出対象物体が含まれるか否かを判定することにより、検出対象物体が含まれるブロック画像を注目領域として抽出する。つまり、第1抽出部37は画像全体から検出対象物体の検出しなければならないため、抽出に要する時間が長いものの、高精度で注目領域を抽出することができる。一方、第2抽出部38は、ブロック画像に検出対象物体が含まれるか否かを判定するだけであるため、第1抽出部37に比べて短い時間で注目領域を抽出することができる。ここで、第1抽出部37又は第2抽出部38による注目領域の抽出に要する時間とは、第1抽出部37又は第2抽出部38が注目領域の抽出を開始してから、他の処理部(例えば、統合部39)が注目領域の抽出結果を得られるまでの時間を含む。つまり、注目領域の抽出に要する時間は、第1抽出部37又は第2抽出部38における注目領域の抽出のための処理時間と、第1抽出部37又は第2抽出部38から他の処理部への抽出結果の伝送等に要する時間とを含む。第2抽出部38は、第1抽出部37に比べて注目領域の抽出結果の精度が低いため、短い処理時間で注目領域を抽出することができる。このため、第2抽出部38による注目領域の抽出に要する時間は、第1抽出部37による注目領域の抽出に要する時間よりも短い。
【0075】
図3を参照して、統合部39は、第1抽出部37による最新の注目領域の抽出結果と第2抽出部38による最新の注目領域の抽出結果とをリアルタイムで統合する。
【0076】
図8は、本開示の実施形態1に係る第1抽出部37による注目領域の抽出結果、及び第2抽出部38による注目領域の抽出結果の統合処理を説明するための図である。
【0077】
図8の横軸は時間を示し、縦軸は上から順に第1抽出部37による抽出結果、第2抽出部38による抽出結果、及び統合部39による統合結果を示す。各時間は一定の時間幅(例えば、1フレーム時間(映像のフレームレートの逆数))を有するものとする。
【0078】
第1抽出部37は、時間t1において取得された画像から注目領域を抽出し、時間t5において抽出結果A5を得たとする。なお、第1抽出部37は、時間t2から時間t5において取得された画像を処理対象としない。また、時間t6において取得された画像から注目領域を抽出し、時間t10において抽出結果A10を得たとする。なお、第1抽出部37は、時間t6から時間t10において取得された画像を処理対象としない。
【0079】
一方、第2抽出部38は、時間t1~t10の各時間において、取得された画像から注目領域を抽出し、抽出結果B1~B10をそれぞれ得たとする。
【0080】
統合部39は、第1抽出部37による抽出結果及び第2抽出部38による抽出結果を加算又は乗算することにより、これらの抽出結果を統合する。具体的には、統合部39は、時間ごとに、当該時間において得られた第1抽出部37による抽出結果及び第2抽出部38による抽出結果を加算又は乗算することにより、これらの抽出結果を統合する。
【0081】
例えば、時間t1において、第1抽出部37による抽出結果は得られていないが、第2抽出部38による抽出結果B1が得られている。このため、統合部39は、第2抽出部38による抽出結果B1を、時間t1における統合結果とする。
【0082】
同様に、時間t2~t4及び時間t6~t9において、第1抽出部37による抽出結果は得られていないが、第2抽出部38による抽出結果B2~B4及び抽出結果B6~B9がそれぞれ得られている。このため、統合部39は、第2抽出部38による抽出結果B2~B4及び抽出結果B6~B9を、時間t2~t4及びt6~t9のそれぞれにおける統合結果とする。
【0083】
また、時間t5において、第1抽出部37による抽出結果A5が得られ、第2抽出部38による抽出結果B5が得られている。このため、統合部39は、抽出結果A5と抽出結果B5とを加算又は乗算することにより、抽出結果A5と抽出結果B5とを統合する。図8では、抽出結果A5と抽出結果B5との統合結果を「B5+A5」と表記している。以下同様である。
【0084】
同様に、時間t10において、第1抽出部37による抽出結果A10が得られ、第2抽出部38による抽出結果B10が得られている。このため、統合部39は、抽出結果A10と抽出結果B10とを加算又は乗算することにより、抽出結果A10と抽出結果B10とを統合する。
【0085】
以下、第1抽出部37による抽出結果と第2抽出部38による抽出結果の統合処理として、加算による統合処理、及び乗算による統合処理の一例をそれぞれ説明する。
【0086】
(加算による抽出結果の統合処理)
図9A及び図9Bは、本開示の実施形態1に係るある時間における加算による注目領域の抽出結果の統合処理の一例を説明するための図である。図9A及び図9Bは、例えば、時間t5における加算による注目領域の抽出結果の統合処理を示す。
【0087】
統合部39は、画像50を構成するブロック60毎に抽出結果の統合を行う。図9Aを参照して、例えば、統合部39は、着目しているブロック60(以下、「着目ブロック」という)に、第1抽出部37により抽出された注目領域が含まれている場合には、第1抽出部37の抽出結果としてWeight1に0.5を設定し、Weight2に-0.5を設定する。
【0088】
例えば、図5及び図7を参照して、着目ブロックが注目領域71の場合には、着目ブロック(注目領域71)には注目領域61が含まれる。このため、着目ブロックにおける第1抽出部37の抽出結果としてWeight1に0.5が設定され、Weight2に-0.5が設定される。
【0089】
また、着目ブロックについての第2抽出部38による抽出結果である注目領域の確信度(以下、「注目領域確信度」という)が0.7(非注目領域の確信度(以下、「非注目領域確信度」という)が0.3)であるとする。なお、非注目領域確信度は、1-注目領域確信度により計算される。
【0090】
統合部39は、着目ブロックについてのWeight1(=0.5)と注目領域確信度(0.7)とを加算することにより、注目領域確信度を統合し、統合後の注目領域確信度を1.2と計算する。
【0091】
また、統合部39は、着目ブロックについてのWeight2(=-0.5)と非注目領域確信度(0.3)とを加算することにより、非注目領域確信度を統合し、統合後の非注目領域確信度を-0.2と計算する。
【0092】
統合部39は、統合後の注目領域確信度及び非注目領域確信度のうち、値が大きい方の確信度を採用する。ここでは、注目領域確信度の方が非注目領域確信度よりも大きいため、着目ブロックは注目領域であると決定する。
【0093】
図9Bを参照して、例えば、統合部39は、着目ブロックに、第1抽出部37により抽出された注目領域が含まれていない場合には、第1抽出部37の抽出結果としてWeight1に-0.5を設定し、Weight2に0.5を設定する。
【0094】
また、着目ブロックについての第2抽出部38による抽出結果である注目領域確信度が0.7(非注目領域確信度が0.3)であるとする。
【0095】
統合部39は、着目ブロックについてのWeight1(=-0.5)と注目領域確信度(0.7)とを加算することにより、注目領域確信度を統合し、統合後の注目領域確信度を0.2と計算する。
【0096】
また、統合部39は、着目しているブロック60についてのWeight2(=0.5)と非注目領域確信度(0.3)とを加算することにより、非注目領域確信度を統合し、統合後の非注目領域確信度を0.8と計算する。
【0097】
統合部39は、統合後の注目領域確信度及び非注目領域確信度のうち、値が大きい方の確信度を採用する。ここでは、非注目領域確信度の方が注目領域確信度よりも大きいため、着目ブロックは非注目領域であると決定する。
【0098】
上述の例において、第1抽出部37の抽出結果であるWeight1、Weight2の変動幅は-0.5から0.5までの1.0となっている。これに対して第2抽出部38の抽出部の抽出結果である確信度の変動幅は0.3から0.7までの0.4となっている。つまり、第1抽出部37の抽出結果の変動幅は、第2抽出部38の抽出結果の変動幅よりも大きくなっている。そのため、第1抽出部37による抽出結果と第2抽出部38の抽出結果を加算した結果は、第1抽出部37による抽出結果の影響をより大きく受けることになる。いうまでもなく、第1抽出部37の抽出結果であるWeight1とWeight2がほぼ等しい場合は、前記加算した結果は、第2抽出部38の抽出結果が支配的となる。いうまでもないが、変動の中心(変動の算術平均値)を0にするか0.5にするかは、任意に選びうる設計的事項である。
【0099】
(乗算による抽出結果の統合処理)
図10A及び図10Bは、本開示の実施形態1に係るある時間における乗算による注目領域の抽出結果の統合処理の一例を説明するための図である。図10A及び図10Bは、例えば、時間t5における乗算による注目領域の抽出結果の統合処理を示す。
【0100】
統合部39は、画像50を構成するブロック60毎に抽出結果の統合を行う。図10Aを参照して、例えば、統合部39は、着目ブロックに、第1抽出部37により抽出された注目領域が含まれている場合には、第1抽出部37の抽出結果としてWeight1に3を設定し、Weight2に1を設定する。
【0101】
例えば、図5及び図7を参照して、着目ブロックが注目領域71の場合には、着目ブロック(注目領域71)には注目領域61が含まれる。このため、着目ブロックにおける第1抽出部37の抽出結果としてWeight1に3が設定され、Weight2に1が設定される。
【0102】
また、着目ブロックについての第2抽出部38による抽出結果である注目領域確信度が0.7(非注目領域確信度が0.3)であるとする。
【0103】
統合部39は、着目ブロックについてのWeight1(=3)と注目領域確信度(0.7)とを乗算することにより、注目領域確信度を統合し、統合後の注目領域確信度を2.1と計算する。
【0104】
また、統合部39は、着目ブロックについてのWeight2(=1)と非注目領域確信度(0.3)とを乗算することにより、非注目領域確信度を統合し、統合後の非注目領域確信度を0.3と計算する。
【0105】
統合部39は、統合後の注目領域確信度及び非注目領域確信度のうち、値が大きい方の確信度を採用する。ここでは、注目領域確信度の方が非注目領域確信度よりも大きいため、着目ブロックは注目領域であると決定する。
【0106】
図10Bを参照して、例えば、統合部39は、着目ブロックに、第1抽出部37により抽出された注目領域が含まれていない場合には、第1抽出部37の抽出結果としてWeight1に1を設定し、Weight2に3を設定する。
【0107】
また、着目ブロックについての第2抽出部38による抽出結果である注目領域確信度が0.7(非注目領域確信度が0.3)であるとする。
【0108】
統合部39は、着目ブロックについてのWeight1(=1)と注目領域確信度(0.7)とを乗算することにより、注目領域確信度を統合し、統合後の注目領域確信度を0.7と計算する。
【0109】
また、統合部39は、着目しているブロック60についてのWeight2(=3)と非注目領域確信度(0.3)とを乗算することにより、非注目領域確信度を統合し、統合後の非注目領域確信度を0.9と計算する。
【0110】
統合部39は、統合後の注目領域確信度及び非注目領域確信度のうち、値が大きい方の確信度を採用する。ここでは、非注目領域確信度の方が注目領域確信度よりも大きいため、着目ブロックは非注目領域であると決定する。
【0111】
上述の例において、第1抽出部37の抽出結果であるWeight1、Weight2の変動幅は1から3までであるため、Weight1、Weight2の変動比は3/1=3となっている。これに対して第2抽出部38の抽出結果である確信度の変動幅は0.3から0.7までであるため、確信度の変動比は0.7/0.3=2.33となっている。つまり、第1抽出部37の抽出結果の変動比は、第2抽出部38の抽出結果の変動比よりも大きくなっている。そのため、第1抽出部37による抽出結果と第2抽出部38の抽出結果を乗算した結果は、第1抽出部37による抽出結果の影響をより大きく受けることになる。いうまでもなく、第1抽出部37の抽出結果であるWeight1とWeight2がほぼ等しい場合は、前記乗算した結果は、第2抽出部38の抽出結果が支配的となる。いうまでもないが、変動の中心(変動の幾何平均値)を1にするか、
【数1】

にするか、
【数2】

にするかは、任意に選びうる設計的事項である。
【0112】
なお、統合部39は、着目ブロックについての統合後の注目領域確信度と非注目領域確信度とが同じ値の場合には、着目ブロックを注目領域及び非注目領域のうち、あらかじめ定められた一方の領域(例えば、注目領域)と決定してもよい。
【0113】
図3を参照して、圧縮部40は、統合部39により統合された注目領域の抽出結果に基づいて、映像取得部36が取得した映像を構成する各画像をリアルタイムで圧縮する。例えば、圧縮部40は、H.264又はH.265などの動画圧縮規格に準拠して映像を圧縮する。圧縮部40は、Iフレームの画像に対して、注目領域を第1圧縮率でフレーム内圧縮(フレーム内符号化)し、注目領域以外の領域(非注目領域)を第2圧縮率でフレーム内圧縮する。ここで、第1圧縮率の方が第2圧縮率よりも圧縮率が低いものとする。
【0114】
また、圧縮部40は、Pフレーム又はBフレームの画像に対しても、統合部39により統合された注目領域の抽出結果に基づいて、圧縮処理を行う。つまり、圧縮部40は、注目領域を第3圧縮率でフレーム間圧縮(フレーム間予測符号化)し、注目領域以外の領域(非注目領域)を第4圧縮率でフレーム間圧縮する。ここで、第3圧縮率の方が第4圧縮率よりも圧縮率が低いものとする。
【0115】
圧縮済み映像送信部41は、圧縮部40で圧縮済みの映像を、通信部32を介してサーバ7に送信する。映像の送信は、リアルタイムで行うのが望ましい。
【0116】
〔車載システム3の処理の流れ〕
図11は、本開示の実施形態1に係る車載システム3の処理手順の一例を示すフローチャートである。
【0117】
映像取得部36は、カメラ31が撮影した映像を時間ごとに順次取得する(ステップS1)。
【0118】
第1抽出部37は、映像取得部36が取得した映像に基づいて、所定フレームおきの画像(図8の例では5フレームおきの画像)から注目領域を抽出する(ステップS2)。
【0119】
第2抽出部38は、映像取得部36が取得した映像を構成する各画像から、注目領域を抽出する(ステップS3)。
【0120】
統合部39は、時間ごとに、第1抽出部37による注目領域の抽出結果と第2抽出部38による注目領域の抽出結果とを統合する(ステップS4)。
【0121】
圧縮部40は、ステップS4において統合された注目領域の抽出結果に基づいて、ステップS1において取得された映像を構成する各画像を圧縮する(ステップS5)。
【0122】
圧縮済み映像送信部41は、ステップS5において各画像が圧縮された圧縮済みの映像をサーバ7に送信する(ステップS6)。
【0123】
車載システム3は、カメラ31による撮影が終了するまで図11に示す処理を繰り返し実行する。
【0124】
〔実施形態1の効果等〕
本開示の実施形態1によると、第1抽出部37の方が第2抽出部38よりも抽出に要する時間が長い。つまり、第1抽出部37の方が第2抽出部38よりも処理負荷が高い。これにより、第1抽出部37は、処理負荷が高いものの高精度で注目領域を抽出することができる。一方、第2抽出部38は、抽出精度は低いものの低処理負荷で注目領域を抽出することができる。統合部39により、これら2つの抽出結果を統合することにより、高速かつ高精度に注目領域を検出することができる。
【0125】
なお、統合部39は、抽出精度の高い第1抽出部37による抽出結果の影響が大きくなるように、第1抽出部37及び第2抽出部38の抽出結果を統合することができる。これにより、高精度で注目領域を検出することができる。
【0126】
なお、カメラ31は車両2に搭載され、車載システム3の各処理部はリアルタイムで処理を実行する。このため、車載システム3は、カメラ31で撮影された入力映像からリアルタイムで注目領域を検出することができる。
【0127】
また、車載システム3は、高速かつ高精度で検出された注目領域を認識可能なように入力映像を圧縮し、サーバ7は、圧縮された入力映像を認識することができる。このため、高速かつ高精度で入力映像を認識することができる。
【0128】
<実施形態2>
実施形態1では、第1抽出部37の抽出結果及び第2抽出部38の抽出結果を加算又は乗算することにより2つの抽出結果を統合した。実施形態2では、第1抽出部37の抽出結果及び第2抽出部38の抽出結果の一方を選択することにより抽出結果を統合する例について説明する。
【0129】
運転支援システム1及び車載システム3の構成は実施形態1と同様である。このため、その詳細な説明は繰り返さない。
【0130】
図12は、本開示の実施形態2に係る第1抽出部37による注目領域の抽出結果、及び第2抽出部38による注目領域の抽出結果の統合処理を説明するための図である。
【0131】
図12の横軸は時間を示し、縦軸は上から順に第1抽出部37による抽出結果、第2抽出部38による抽出結果、及び統合部39による統合結果を示す。各時間は一定の時間幅を有するものとする。
【0132】
第1抽出部37による抽出結果及び第2抽出部38による抽出結果は、実施形態1の図8に示したものと同様である。
【0133】
統合部39は、第1抽出部37による最新の抽出結果及び第2抽出部38による最新の抽出結果の一方を選択することにより、これらの抽出結果を統合する。ここで、統合部39は、第1抽出部37による抽出結果を優先して選択する。
【0134】
例えば、時間t1~t4において第1抽出部37による抽出結果は得られていないが、第2抽出部38による抽出結果B1~B4は得られている。このため、統合部39は、時間t1~t4における注目領域の抽出結果を、それぞれ抽出結果B1~B4とそれぞれ決定する。
【0135】
一方、時間t5において第1抽出部37による抽出結果A5が得られ、第2抽出部38による抽出結果B5が得られている。この場合、統合部39は、第1抽出部37による抽出結果A5を優先して選択し、時間t5における注目領域の抽出結果を抽出結果A5と決定する。
【0136】
上記と同様に、第2抽出部38は、時間t6~t9における注目領域の抽出結果を抽出結果B6~B9とそれぞれ決定し、時間t10における注目領域の抽出結果を抽出結果A10と決定する。
【0137】
本開示の実施形態2によると、第1抽出部37及び第2抽出部38の双方から抽出結果が得られた場合には、第1抽出部37による抽出結果を優先させることができる。このため、注目領域を高精度に検出することができる。
【0138】
<実施形態3>
実施形態1では、第1抽出部37の抽出結果及び第2抽出部38の抽出結果を統合する際に、処理対象とする時間において抽出された抽出結果のみを用いることとした。実施形態3では、処理対象とする時間(フレーム)において抽出結果が抽出されていない場合には、処理対象時間よりも前の時間(フレーム)において抽出された抽出結果を用いて抽出結果の統合を行う。
【0139】
運転支援システム1及び車載システム3の構成は実施形態1と同様である。このため、その詳細な説明は繰り返さない。
【0140】
第1抽出部37は、注目領域が抽出されるごとに、注目領域の抽出結果をメモリ35に書き込むことにより、メモリ35に第1抽出部37による抽出結果を保持させる。なお、第1抽出部37は、既にメモリ35に保持されている抽出結果を削除した後、新たな抽出結果を書き込むようにしてもよい。
【0141】
図13は、本開示の実施形態3に係る第1抽出部37による注目領域の抽出結果、及び第2抽出部38による注目領域の抽出結果の統合処理を説明するための図である。
【0142】
図13の横軸は時間を示し、縦軸は上から順に第1抽出部37による抽出結果、第2抽出部38による抽出結果、及び統合部39による統合結果を示す。各時間は一定の時間幅を有するものとする。
【0143】
第1抽出部37による抽出結果及び第2抽出部38による抽出結果は、実施形態1の図8に示したものと同様である。
【0144】
統合部39は、時間ごとに、メモリ35に保持された第1抽出部37による抽出結果と、前記第2抽出部による抽出結果とを統合する。例えば、時間t1~t4においては、メモリ35には抽出結果は保持されておらず、第1抽出部37によっても注目領域は抽出されていない。このため、統合部39は、時間t1~t4における注目領域の抽出結果を、第2抽出部38による抽出結果B1~B4とそれぞれ決定する。
【0145】
一方、時間t5において第1抽出部37による抽出結果A5が得られ、第2抽出部38による抽出結果B5が得られている。このため、統合部39は、抽出結果A5と抽出結果B5とを加算又は乗算することにより、抽出結果A5及び抽出結果B5を統合する。なお、実施形態3における乗算又は加算による抽出結果の統合方法は、実施形態1と同様である。このため、その詳細な説明は繰り返さない。なお、第1抽出部37は、抽出結果A5をメモリ35に書き込む。
【0146】
時間t6~t9においては、第1抽出部37による注目領域の抽出はされていない。このため、統合部39は、メモリ35に保持されている第1抽出部37による最も新しい抽出結果A5と、第2抽出部38による注目領域の抽出結果B6~B9とをそれぞれ加算又は乗算することにより統合し、時間t6~t9における抽出結果を得る。
【0147】
時間t10において第1抽出部37による抽出結果A10が得られ、第2抽出部38による抽出結果B10が得られている。このため、統合部39は、抽出結果A10と抽出結果B10とを加算又は乗算することにより、抽出結果A10及び抽出結果B10を統合する。なお、第1抽出部37は、抽出結果A10をメモリ35に書き込む。これにより、第1抽出部37により新たな抽出結果が得られるまでの間、メモリ35に保持された抽出結果A10を用いて、注目領域の抽出結果の統合を行う。
【0148】
本開示の実施形態3によると、高精度な第1抽出部37による抽出結果を、短時間処理の第2抽出部38による抽出結果で即応的に修正することができる。
【0149】
<実施形態4>
実施形態4では、映像取得部36が取得した入力映像からシーンチェンジを検出し、シーンチェンジの検出結果を注目領域による抽出結果の統合処理に利用する例について説明する。
運転支援システム1及び車載システム3の構成は実施形態1と同様である。
【0150】
図14は、本開示の実施形態4に係るプロセッサ34の機能的な構成を示すブロック図である。
【0151】
図14を参照して、プロセッサ34は、メモリ35に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、映像取得部36と、第1抽出部37と、第2抽出部38と、統合部39と、圧縮部40と、圧縮済み映像送信部41と、シーンチェンジ検出部42とを備える。
【0152】
実施形態4に係るプロセッサ34は、図3に示した実施形態1に係るプロセッサ34の構成に、シーンチェンジ検出部42が加わったものである。このため、以下では、実施形態1と異なる点を中心に説明する。
【0153】
シーンチェンジ検出部42は、映像取得部36が取得した入力映像中のシーンチェンジ、つまり、シーンチェンジが生じた画像を検出する。シーンチェンジの検出には様々な手法を用いることができる。例えば、シーンチェンジ検出部42は、1つ前の画像との相関値を算出し、相関値が所定の閾値よりも低い画像をシーンチェンジが生じた画像として検出してもよい。ただし、シーンチェンジの検出方法はこの方法に限定されるものではない。
【0154】
統合部39は、シーンチェンジが検出された場合には、シーンチェンジが検出された画像についての第1抽出部37による注目領域の抽出結果の有無にかかわらず、第2抽出部38により抽出された注目領域の抽出結果を統合部39による抽出結果の統合結果とする。
【0155】
また、統合部39は、シーンチェンジが検出された場合には、シーンチェンジ後の画像について第1抽出部37による注目領域の抽出結果が抽出されるまでの間は、第2抽出部38により抽出された注目領域の抽出結果を統合部39による抽出結果の統合結果とする。
【0156】
第1抽出部37の抽出に要する時間は長いため、シーンチェンジが発生した直後はシーンチェンジ発生後の入力映像に対する第1抽出部37による抽出結果が得られていない場合がある。つまり、シーンチェンジ発生直後においては、第1抽出部37による抽出結果はシーンチェンジ発生前の入力映像に対するものである。このため、シーンチェンジが検出された場合には、第1抽出部37による抽出結果を用いずに、第2抽出部38による抽出結果を用いることにより、高精度に注目領域を検出することができる。
【0157】
<実施形態5>
車載システム3は、実施形態1~3において説明した統合部39による統合処理を切り替えて実行することができることとしてもよい。
【0158】
この場合、統合部39は、統合結果として、注目領域の位置情報の他に、第1抽出部37及び第2抽出部38による抽出結果の統合方式を示す情報を含む。
【0159】
統合方式は、以下の方式1から方式3のいずれかを含む。
方式1:第1抽出部37による最新の抽出結果及び第2抽出部38による最新の抽出結果を統合する統合方式
方式2:第1抽出部37による最新の抽出結果及び第2抽出部38による最新の抽出結果のうち第1抽出部37による最新の抽出結果を優先して一方を選択した抽出結果を統合部39の統合結果とする統合方式
方式3:第1抽出部37による注目領域の抽出対象とされているフレームよりも過去のフレームについての第1抽出部37による抽出結果と、第2抽出部38による抽出結果とを統合する統合方式
【0160】
方式1~3は、実施形態1~3においてそれぞれ説明した抽出結果の統合方式である。
例えば、ユーザが事前に統合方式を設定できるようにしてもよい。
【0161】
図15は、本開示の実施形態5に係る統合結果の一例を示す図である。
統合方式は、第1抽出部37及び第2抽出部38による注目領域の抽出結果の統合方式を示す。一例として、図15は統合方式が方式1であることを示している。
【0162】
統合結果は、統合方式と位置情報とを含むデータ構造を有するデータである。位置情報は、注目領域の位置情報を示し、例えば、注目領域ごとに注目領域の左上隅座標及び右下隅座標を示したものである。一例として、1つ目の注目領域は左上隅座標が(x1,y1)であり、右下隅座標が(x2,y2)である。また、2つ目の注目領域は左上隅座標が(x3,y3)であり、右下隅座標が(x4,y4)である。また、3つ目の注目領域は左上隅座標が(x5,y5)であり、右下隅座標が(x6,y6)である。
【0163】
実施形態5によると、データ構造には、統合方式が含まれる。このため、抽出結果がどのような方式により統合されたかを知ることができ、統合方式に応じた処理を行うことができる。
【0164】
[付記]
上記の各装置を構成する構成要素の一部または全部は、1または複数のシステムLSIなどの半導体装置から構成されていてもよい。
【0165】
また、上記したコンピュータプログラムを、コンピュータ読取可能な非一時的な記録媒体、例えば、HDD、CD-ROM、半導体メモリなどに記録して流通させてもよい。また、コンピュータプログラムを、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送して流通させてもよい。
また、上記各装置は、複数のコンピュータ又は複数のプロセッサにより実現されてもよい。
【0166】
また、上記各装置の一部または全部の機能がクラウドコンピューティングによって提供されてもよい。つまり、各装置の一部または全部の機能がクラウドサーバにより実現されていてもよい。
さらに、上記実施形態および上記変形例の少なくとも一部を任意に組み合わせてもよい。
【0167】
今回開示された実施形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0168】
1 運転支援システム(映像認識システム)
2 車両(移動体)
3 車載システム
5 ネットワーク
6 基地局
7 サーバ(映像認識装置)
31 カメラ
32 通信部
33 制御部(ECU)
34 プロセッサ(注目領域検出装置)
35 メモリ(抽出結果保持部)
36 映像取得部
37 第1抽出部
38 第2抽出部
39 統合部
40 圧縮部
41 圧縮済み映像送信部
42 シーンチェンジ検出部
50 画像
51 道路
52 自動車
53 オートバイ
54 横断歩道
55 人間
56 道路標識
60 ブロック
61 注目領域
62 注目領域
63 注目領域
64 注目領域
71 注目領域
72 注目領域
73 注目領域
74 注目領域
75 注目領域
76 注目領域
77 注目領域
78 注目領域
79 注目領域
図1
図2
図3
図4
図5
図6
図7
図8
図9A
図9B
図10A
図10B
図11
図12
図13
図14
図15