(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024166749
(43)【公開日】2024-11-29
(54)【発明の名称】学習モデル生成方法、情報処理装置、シーン判定システム、学習プログラム及びシーン判定プログラム
(51)【国際特許分類】
G08G 1/16 20060101AFI20241122BHJP
G06T 7/00 20170101ALI20241122BHJP
G06N 20/00 20190101ALI20241122BHJP
G10L 25/30 20130101ALN20241122BHJP
G10L 25/18 20130101ALN20241122BHJP
G10L 21/14 20130101ALN20241122BHJP
【FI】
G08G1/16 C
G06T7/00 350B
G06N20/00 130
G10L25/30
G10L25/18
G10L21/14
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023083069
(22)【出願日】2023-05-19
(71)【出願人】
【識別番号】000237592
【氏名又は名称】株式会社デンソーテン
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】飯野 賢吾
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181BB12
5H181BB13
5H181BB20
5H181CC04
5H181CC11
5H181FF27
5H181LL01
5H181LL04
5H181LL07
5H181LL08
5H181LL09
5L096BA04
5L096BA16
5L096KA04
(57)【要約】 (修正有)
【課題】異なる種別のデータを用いた学習モデルの作成を効率化する学習モデル生成方法、情報処理装置、シーン判定システム、学習プログラム及びシーン判定プログラムを提供する。
【解決手段】画像データに対して画像データのシーンを識別する学習モデルの生成方法であって、カメラで撮影された第1の画像データの撮影時点に対応した音声取得期間に取得された音声データを可視化した第2の画像データを作成するステップS2と、第1の画像データと第2の画像データとを統合した第3の画像データを作成するステップS3と、第3の画像データに、第1の画像データに対応するシーンを正解データとして付与した学習データにより学習モデルを生成するための学習を行うステップS4と、を含む。
【選択図】
図8
【特許請求の範囲】
【請求項1】
画像データに対して前記画像データのシーンを識別する学習モデルの生成方法であって、
カメラで撮影された第1の画像データの撮影時点に対応した音声取得期間に取得された音声データを可視化した第2の画像データを作成し、
前記第1の画像データと前記第2の画像データとを統合した第3の画像データを作成し、
前記第3の画像データに、前記第1の画像データに対応するシーンを正解データとして付与した学習データにより前記学習モデルを生成するための学習を行う、
学習モデル生成方法。
【請求項2】
前記第3の画像データは、前記第1の画像データと前記第2の画像データとを重畳して作成される
請求項1に記載の学習モデル生成方法。
【請求項3】
前記第1の画像データが撮像された地点の周囲の環境に応じて、前記第1の画像データと前記第2の画像データとを重畳する割合を変更する
請求項2に記載の学習モデル生成方法。
【請求項4】
前記音声データは、異なる方向の音声を取得する複数のマイクロフォンを介して取得された複数の音声データを含み、
前記複数の音声データをそれぞれ可視化した複数の前記第2の画像データを作成し、
前記複数の第2の画像データの各々を前記第1の画像データに対して異なる位置に配置して前記第3の画像データが作成される
請求項1に記載の学習モデル生成方法。
【請求項5】
前記音声取得期間は、前記第1の画像データの撮影時点から設定時間前を開始時刻とし、前記第1の画像データの撮影時点を終了時刻とする期間である
請求項1に記載の学習モデル生成方法。
【請求項6】
前記可視化は、周波数解析の結果を表す画像を生成することにより行われる
請求項1に記載の学習モデル生成方法。
【請求項7】
画像データに対して前記画像データのシーンを識別する情報処理装置であって、
カメラで撮影された学習用の学習用画像データと、前記学習用画像データの撮影時点に対応した音声取得期間に取得された学習用の学習用音声データを可視化した音声画像データとを統合した学習用統合画像データを入力データとし、前記入力データに前記学習用画像データに対応するシーンを正解データとして付与した学習データで学習した学習済モデルを備え、
カメラが撮影した識別用の識別用画像データを取得し、
前記識別用画像データの撮影時点に対応した音声取得期間に識別用の識別用音声データを取得し、
前記識別用音声データを可視化した音声画像データと前記識別用画像データを統合した識別用統合画像データを作成し、
前記識別用統合画像データを前記学習済モデルに適用してシーンを識別する
情報処理装置。
【請求項8】
周囲の音声を取得するマイクロフォンと、
周囲を撮影するカメラと、
前記マイクロフォンの出力する音声データと、前記カメラの出力する画像データを入力して、前記画像データのシーンを識別する情報処理装置と、を含む車両に搭載されるシーン判定システムであって、
前記情報処理装置は、
カメラで撮影された学習用の学習用画像データと、前記学習用画像データの撮影時点に対応した音声取得期間に取得された学習用の学習用音声データを可視化した音声画像データとを統合した学習用統合画像データを入力データとし、前記入力データに前記学習用画像データに対応するシーンを正解データとして付与した学習データで学習した学習済モデルを備え、
カメラが撮影した識別用の識別用画像データを取得し、
前記識別用画像データの撮影時点に対応した音声取得期間に識別用の識別用音声データを取得し、
前記識別用音声データを可視化した音声画像データと前記識別用画像データを統合した識別用統合画像データを作成し、
前記識別用統合画像データを前記学習済モデルに適用してシーンを識別する
シーン判定システム。
【請求項9】
コンピュータにより実行され、画像データのシーンを識別する学習モデルを生成する学習プログラムであって、
カメラで撮影された第1の画像データの撮影時点に対応した音声取得期間に取得された音声データを可視化した第2の画像データを作成し、
前記第1の画像データと前記第2の画像データとを統合した第3の画像データを作成し、
前記第3の画像データに、前記第1の画像データに対応するシーンを正解データとして付与した学習データにより学習モデルの学習を行い、前記学習モデルを生成する
学習プログラム。
【請求項10】
コンピュータにより実行され、画像データのシーンを識別するシーン判定プログラムであって、
カメラで撮影された学習用の学習用画像データと、前記学習用画像データの撮影時点に対応した音声取得期間に取得された学習用の学習用音声データを可視化した音声画像データとを統合した学習用統合画像データを学習データとし、前記学習データに前記学習用画像データに対応するシーンを正解データとして付与した前記学習データで学習した学習済モデルを備え、
カメラが撮影した識別用の識別用画像データを取得し、
前記識別用画像データの撮影時点に対応した音声取得期間に識別用の識別用音声データを取得し、
前記識別用音声データを可視化した音声画像データと前記識別用画像データを統合した識別用統合画像データを作成し、
前記識別用統合画像データを前記学習済モデルに適用してシーンを識別する
シーン判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、シーン認識を行うための学習モデルを生成する学習モデル生成方法、シーン認識を行う情報処理装置、シーン判定システム、学習プログラム及びシーン判定プログラムに関する。
【背景技術】
【0002】
従来、複数のマイク及びセンサを搭載している複数の車両と、複数のマイクで録音された音声信号及びセンサで測定されたセンシングデータを取得する取得部を有するサーバと、を備える運転支援システムが提案されていた(例えば、特許文献1)。サーバは、音声信号及びセンシングデータに音源の危険性を表す情報を関連付けた学習データを記憶する記憶部と、学習データを用いて、音声信号及びセンシングデータに基づいて、音源の危険性を予測する学習モデルを生成するモデル生成部と、危険性を複数の車両に提供する提供部と、を有する。また、音源の画像を撮影させる撮影部をさらに有し、音源の危険性を表す情報と関連付けて学習データとして蓄積することも開示されている。すなわち、画像を用いて音源を認識し、音源の危険性を表す情報を生成する。危険性を表す情報は、学習データに対するアノテーションに用いられる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
車両から取得した音声信号及びセンシングデータ等の複数のデータを用いて学習データや学習モデルを生成する場合、様々なデータ種別やサイズ等に対応するように学習モデルの入力部分の構成を構築する必要がある。そこで、本開示は、異なる種別のデータによる学習モデルの作成の効率化を目的とする。
【課題を解決するための手段】
【0005】
本開示に係る学習モデル生成方法は、画像データに対して前記画像データのシーンを識別する学習モデルを生成するための方法である。該学習モデル生成方法は、カメラで撮影された第1の画像データの撮影時点に対応した音声取得期間に取得された音声データを可視化した第2の画像データを作成し、前記第1の画像データと前記第2の画像データとを統合した第3の画像データを作成し、前記第3の画像データに、前記第1の画像データに対応するシーンを正解データとして付与した学習データにより前記学習モデルを生成するための学習を行う。
【発明の効果】
【0006】
本技術によれば、異なる種別のデータを用いた学習モデルの作成を効率化することができる。
【図面の簡単な説明】
【0007】
【
図1】
図1は、システムの構成の一例を説明するためのブロック図である。
【
図2】
図2は、カメラで撮像された画像データの一例を示す図である。
【
図3】
図3は、音声をウェーブレット変換して作成した可視化画像の一例を示す。
【
図4】
図4は、FFTにより作成される可視化画像の一例を示す図である。
【
図6】
図6は、変形例に係る統合データを示す図である。
【
図7】
図7は、変形例に係る統合データを示す図である。
【
図8】
図8は、学習処理の一例を示す処理フロー図である。
【
図9】
図9は、シーン認識処理の一例を示す処理フロー図である。
【
図10】
図10は、出力されるシーン認識の結果を説明するための図である。
【発明を実施するための形態】
【0008】
<実施形態>
以下、図面を参照しつつ実施形態について説明する。
図1は、システムの構成の一例を説明するためのブロック図である。システム100は、車両1と情報処理装置2とを含む。車両1は、カメラにより撮像された画像データと、マイクロフォンにより取得された音声データと、情報処理装置2が機械学習を行い作成した学習済モデルとを用いて、シーン認識を行う。学習済モデルは、例えば、交差点での車や歩行者の接近といった危険な状況等のシーンを検知するための判別器である。学習済モデルは、走行中において所定の状況が生じる画像と、当該画像の撮像時点に対応する所定期間の音声とからなる入力(問題)データとして、且つシーンを表すラベル(正解データ)を教師データとして、機械学習により作成される。
【0009】
車両1は、乗用車等である。車両1は、プロセッサ11と、記憶装置12と、カメラ13と、マイクロフォン14と、ユーザインターフェース(UI)15とを備える。これらの構成要素は、バスを介して接続され、シーン判定システムを構成する。車両1は、走行中に本実施形態に係るシーン認識を行うものとする。
【0010】
プロセッサ11は、CPU(Central Processing Unit)等の演算処理装置である。プ
ロセッサ11は、プログラムを実行することにより、実施形態に係る各処理を行う。
図1の例では、プロセッサ11内に機能ブロックを示している。すなわち、プロセッサ11は、所定のプログラムを実行することにより、前処理部111及び判定部112として機能する。これらの機能部については後述する。
【0011】
記憶装置12は、RAM(Random Access Memory)やROM(Read Only Memory)等の主記憶装置、及びHDD(Hard-Disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等の補助記憶装置である。記憶装置12は、プロセッサ11が読み出すプログラムや処理対象の情報を一時的に記憶したり、プロセッサ11の作業領域を確保したりする。また、記憶装置12は、学習済モデル221を記憶しているものとする。また、記憶装置12は、カメラ13が撮像する画像データ、マイクロフォン14が取得する音声データ、又はこれらを所定の前処理によって変換したデータを記憶するものとする。
【0012】
カメラ13は、例えばCCDやCMOS等を用いたイメージセンサにより光を電気信号に変換し、画像データを作成して出力する撮像装置である。
図2は、カメラで撮像された画像データの一例を示す図である。カメラ13は、例えば車両1の進行方向を撮像したカメラ画像3を作成する。カメラ画像3は、動画を構成する1枚の静止画に相当する。すなわち、カメラ画像3は、継続的に作成される。なお、カメラ13はいわゆる広角レンズであってもよく、カメラ画像3の画角は
図2の例には限定されない。また、カメラ13は、いわゆる全天球カメラであってもよい。例えば車両1の進行方向とその反対方向に向けて車両1に搭載された2つの撮像装置を含み、進行方向と反対方向のカメラ画像の両方を出力しても良いし、スティッチングされたカメラ画像3を出力するようにしてもよい。
【0013】
マイクロフォン14は、いわゆるダイナミック型、コンデンサ型、圧電型等の方式で音声を電気信号に変換して出力する入力装置である。マイクロフォン14は、例えば車外の
音声を取得できるように車両1に搭載される。なお、マイクロフォン14の数は、特に限定されない。また、マイクロフォン14の指向性等の特性も特に限定されないが、複数のマイクロフォン14を備える場合は、比較的指向性が高いマイクロフォン14を互いに異なる方向に向けて配置することが好ましい。
【0014】
UI15は、ディスプレイ又はスピーカ等であってもよい。UI15からは、シーン認識を行った結果に応じて出力がなされるものとする。
【0015】
情報処理装置2は、ワークステーション、サーバ、PC(Personal Computer)等のコ
ンピュータである。情報処理装置2は、プロセッサ21と、記憶装置22とを備える。これらの構成要素は、バスを介して接続されている。プロセッサ21も、CPU等の演算処理装置である。情報処理装置2は、いわゆる機械学習を行い、本実施形態に係るシーン認識を行うための学習済モデルを作成する。
【0016】
プロセッサ21は、プログラムを実行することにより、実施形態に係る各処理を行う。
図1の例では、プロセッサ21内に機能ブロックを示している。すなわち、プロセッサ21は、所定のプログラムを実行することにより、前処理部211及び学習部212として機能する。これらの機能部については後述する。
【0017】
記憶装置22は、RAMやROM等の主記憶装置、及びHDDやSSD、フラッシュメモリ等の補助記憶装置である。主記憶装置は、プロセッサ21が読み出すプログラムや処理対象の情報を一時的に記憶したり、プロセッサ21の作業領域を確保したりする。補助記憶装置は、プロセッサ21が実行するプログラムや他のコンピュータから取得した情報等を記憶する。例えば、記憶装置22は、車両1が備えるカメラ13が出力した画像データ、及びマイクロフォン14が出力した音声データを、学習データとして格納しているものとする。また、学習データは、複数の車両1から収集されることが好ましい。
【0018】
車両1の前処理部111、及び情報処理装置2の前処理部211は、処理対象のデータに対する前処理を行う。前処理部111及び前処理部211は、画像データ及び音声データを、1つの画像データに統合する。すなわち、音声データについては可視化される。前処理部111及び前処理部211は、所定期間の音声データに対して、例えばウェーブレット変換、FFT(Fast Fourier Transformation)等の周波数解析を行い、結果を表す
画像を生成する。該所定期間は、例えば5秒といった車両周囲の状況を判断できる期間であれば良い。また、所定期間は、対応する画像データの撮影時点から所定時間前を開始時刻とし、該画像データの撮影時刻を終了時刻とする期間であってもよい。
図3は、音声をウェーブレット変換して作成した可視化画像4の一例を示す。
図3の縦軸は、周波数を表す。
図3の横軸は、時間を表す。
図3のカラースケールは、音声の強度を表す。なお、各軸に対応するパラメータは、このような例には限られない。
図4は、FFTにより作成される可視化画像4Aの一例を示す図である。
図4の縦軸は、音声の強度を表す。
図4の横軸は、周波数を表す。なお、縦軸と横軸のパラメータは、逆であってもよい。
【0019】
そして、前処理部111及び前処理部211は、音声データに対応する時点の画像データと統合する。なお、前処理部111及び前処理部211は、同じ方式の画像データの統合処理を行う。
図5は、統合データ5の一例を示す図である。
図5の例では、カメラ画像3と可視化画像4とが重畳されて1つの画像が形成されている。統合データ5は、カメラ画像3及び可視化画像4の一方の画像に、アルファチャンネルを所定の透過度(透明度)に変更した他方の画像を重ねて作成することができる。なお、統合データ5は、カメラ画像3及び可視化画像4を異なる位置に(すなわち重ならないように)並置したものであってもよい。
図6は、後者の統合データ作成方法に係る統合データ5Aを示す図である。
図6の例では、カメラ画像3及び可視化画像4が上下に隣接して配置され、1つの統合デー
タ5Aが形成されている。なお、
図5及び
図6の例においては、可視化画像4に代えて可視化画像4Aとカメラ画像3とを統合するようにしてもよい。また、複数のマイクロフォン14から出力された音声データを用いる場合は、例えば複数のマイクロフォン14に対応する可視化画像4が互いに重ならないように、異なる位置に配置して統合データを作成する。
図7は、この統合データ作成方法に係る統合データ5Bを示す図である。
図7の例では、例えば車両1の前方方向を撮像したカメラ画像に対しては、前方方向に向かって左側に設けられたマイクロフォン14(車両1の前方左側に指向性のあるマイクロフォン14)によって取得された音声データに基づく可視化画像4Bが、カメラ画像3の左側に重畳されている。また、車両1の前方方向に向かって右側に設けられたマイクロフォン14(車両1の前方右側に指向性のあるマイクロフォン14)によって取得された音声データに基づく可視化画像4Cが、カメラ画像3の右側に重畳されている。なお、車両1の後方方向の画像に対しても前方方向と同様に、可視化画像を重畳して統合データ5を作成してもよい。この場合、カメラ画像の左右方向と同じ方向に指向性のあるマイクロフォン14から取得された音声データに基づき作成された可視化画像がカメラ画像の左右夫々に重畳される。このように画像と音声の音源方向を合わせれば、統合データ5の画像に音源方向のデータ成分が含まれることになり、音源の方向の特徴についても学習し、判定精度を向上させることができる。
【0020】
情報処理装置2の学習部212は、前処理後の統合データ5に基づく統合学習データを用いて機械学習を行い、学習済モデル221を作成する。なお、学習データ(訓練データ)として利用される統合学習データは、統合データ5にシーンを表す正解ラベルが付与されたものとなる。例えば、
図2のカメラ画像3に対し、例えばユーザの操作に基づいて予めアノテーションが行われ、正解ラベルが付与される。この場合、正解ラベルは、統合処理時に引き継がれ、統合データ5に付与されるようにすればよい。また、カメラ画像3には表れておらず、可視化画像4(すなわち音声データ)から認識される正解ラベルも、例えばカメラ画像3又は可視化画像4に対応付けておくようにしてもよい(例えばユーザの操作に基づいて予めアノテーションが行われる)。この場合も、統合処理時に引き継がれ、統合データ5に付与されるようにすればよい。このようなカメラ画像3と可視化画像4とを統合した統合データ5を用いることで、撮像された画像データの特徴と撮像時の音声の特徴とを併せて、正解ラベルとの関係を学習することができる。
【0021】
なお、正解ラベルは、カメラ画像3又は統合データ5における物体が存在する領域を表すバウンディングボックスに対して付与されていてもよい。この場合は、例えばカメラ画像に基づく物体検出領域(物体が存在する領域)と、そのカメラ画像、そして音声の可視化画像を入力データとし、正解ラベルを正解データとする学習データでの機械学習を行うことになる。
【0022】
また、正解ラベルは、学習済モデル221の利用形態によるが、例えば車両走行に障害となる障害物の接近の有無やその程度、事故が生じる危険性の有無、又は危険性の程度等のシーンを表すもの、あるいはシーン判定の処理に用いられるデータとなる。学習部212によって作成された学習済モデル221は、運用段階においては、車両1に搭載され、車両走行支援等に用いられる。
【0023】
車両1の判定部112は、前処理後の統合データ5を用いてシーン認識を行う。運用段階においては、認識対象の統合データ5には、正解ラベルは対応付けられていない。判定部112は、統合データ5に対し、学習済モデル221を用いてシーン認識を行う。例えば、判定部112は、統合データ5から、事故が生じる危険性の有無、又は危険性の程度と言った判定対象時点のカメラ画像3に対するシーンを判定する。また、判定部112は、シーン認識の結果を、車両1のUI15を介して出力する。
【0024】
<学習処理>
図8は、学習処理の一例を示す処理フロー図である。情報処理装置2の記憶装置22には、予め複数の車両1によって収集したカメラ画像3及び音声データが蓄積されているものとする。なお、シーン判定システムを搭載した車両1に通信装置を設置し、当該車両1(シーン判定システム)がカメラ13およびマイクロフォン14で取得した画像、音声データを当該通信装置による通信で情報処理装置2に送信するデータ収集方法も可能である。また、カメラ画像3には、予めユーザ等がアノテーションを行い、撮像されたシーンを表す正解ラベルが関連づけられているものとする。なお、この学習処理は、学習済モデル221の作成担当者等が学習開始操作等を行うことにより(当該操作の検出とトリガに)、開始される。
【0025】
まず、情報処理装置2の前処理部211(プロセッサ)は、記憶装置22からカメラ画像3及び音声データを取得する(
図8:ステップS1)。また、前処理部211は、ステップS1で取得した音声データに対して、例えば周波数解析を行い音声データの特徴を表す可視化画像4を作成する(
図8:ステップS2)。周波数解析は、例えばウェーブレット変換やFFT等であってもよい。また、前処理部211は、ステップS1で取得したカメラ画像3及びステップS2で作成した可視化画像4を統合し、統合データ5を作成する(
図8:ステップS3)。なお、可視化画像4にはステップS1で取得したカメラ画像3に付与されている正解レベルが引き継がれ付与される。本ステップS3では、例えば
図5から
図7に示したような統合データ5に正解レベルが付与された統合学習データが作成される。なお、図示は省略するが、記憶装置22に記憶された学習データ作成用の各カメラ画像3及び音声データに対して、順次、ステップS1~S3の処理が行われ、複数の統合学習データの学習データセットが作成される。
【0026】
そして、情報処理装置2の学習部212(プロセッサ)は、作成された学習データセットを用いてシーンの機械学習を行い、学習済モデルを作成する(
図8:ステップS4)。機械学習は、いわゆるディープラーニングのような、ニューラルネットワークを利用した既存の手法等により行うことができる。特に、畳み込みニューラルネットワークのような、画像認識に適した手法を含むものであってもよい。また、統合学習データを用いることで、カメラ画像3だけでなく音声データの特徴によるシーン認識も併せて学習することができる。なお、本実施形態によれば、学習は画像データ(音声の可視化画像も含む)に基づき学習が行われる。画像データによる学習は比較的、研究・開発が進んでいることから、本実施形態による学習によれば、高品質な学習が期待できる。また、撮影画像の画像データと音声の可視化画像の合成画像することで、画像データだけの学習処理となるため、画像データと音声データの両方を含む学習データでの学習に比べて、処理負荷が軽くなると言った効果が期待できる。
【0027】
そして、学習部212は、学習済モデルの性能を評価する(
図8:ステップS5)。本ステップS5では、学習部212は、ステップS4において作成されたモデルを用いて、例えば統合学習データとは別のテストデータ(例えば、統合学習データを学習用と評価用のデータに分けておき、当該評価用のデータを用いる)に対してシーン認識を行い、認識の精度を検証する。なお、テストデータにも、シーン認識結果との比較のために、予め正解ラベルが対応付けられている。検証は、正答率等の既存の評価指標を算出することにより行うようにしてもよい。なお、所望の基準(正答率閾値)を満たすまで、例えば学習データ等を変更して学習処理を繰り返してもよい。
【0028】
<シーン認識処理>
図9は、運用段階において車両1が実行するシーン認識処理の一例を示す処理フロー図である。
図9の処理は、例えば車両1のACCがONにされると(あるいはエンジン起動をトリガに)開始し、車両1の走行中に繰り返し実行される。走行中において、カメラ1
3は、継続的に画像データ(カメラ画像3)を出力し、記憶装置12に格納する。同様に、マイクロフォン14は、継続的に音声データを出力し、記憶装置12に格納する。また、記憶装置12には、予め情報処理装置2によって作成された学習済モデル221が記憶されているものとする。
【0029】
まず、車両1の前処理部111(プロセッサ)は、記憶装置12からカメラ画像3及び音声データを取得する(
図9:ステップS11)。なお、車両走行支援にシーン認識結果が利用される場合は、リアルタイム性が要求されるので、カメラ13で撮影された最新の画像データが記憶装置12から取得される(あるいは、カメラ13から直接取得される(なお、バッファメモリ等を介する場合もある))ことになる。また、音声データについては、対応する画像データの撮影時刻直前の所定時間(例えば、5秒間)のデータが記憶装置12から取得されることになる。
【0030】
また、前処理部111は、例えば周波数解析を行い音声データの特徴を表す可視化画像4を作成する(
図9:ステップS12)。周波数解析は、
図8のS2と同様の手法によって実行される。例えばウェーブレット変換やFFT等が行われる(処理に用いるパラメータ等も同じとなる)。また、前処理部111は、カメラ画像3及び可視化画像4を統合し、統合データ5を作成する(
図9:ステップS13)。本ステップS13の処理は、
図8のS3と同様であるが、正解レベルの付与処理は行われない。そして、車両1の判定部112(プロセッサ)は、統合データ5を学習済モデル221に適用(入力)してシーン認識を行う(
図9:ステップS14)。本ステップS14では、学習済モデル221に対し統合データ5を入力し、出力として例えば事故が生じる危険性の有無、又は危険性の程度を表す情報が得られる。また、判定部112は、シーン認識の結果に応じた処理を行う(
図9:ステップS15)。判定部112は、例えば、識別結果を出力する。出力は、例えばディスプレイ又はスピーカ等のUI15を介して行われる。また、出力は、例えば事故が生じる危険性があると判断された場合、又は危険性の程度が所定の閾値を超えたと判断された場合に行うようにしてもよい。また、学習段階において、バウンディングボックスと対応付けられた正解ラベルを教師値とした場合は、認識(検出)物体の位置や物体種別(バウンディングボックスの領域、正解レベルの情報にも基づく認識結果データとなる)等のデータが認識結果として出力されることになる。このため、この場合は、障害物の位置に応じた障害物通知や車両運転支援等を行えることになる。また、判定部112は、識別結果を用いて、いわゆる自動運転における制御を行うようにしてもよい。なお、判定部112が出力したシーン認識結果を、別途設けられた車両制御装置が入力して、各種車両走行制御、車両運転支援制御等を行うようにしてもよい。
【0031】
図10は、出力されるシーン認識の結果を説明するための図である。
図10の例では、統合データ5を用いてシーン認識を行った結果を、カメラ画像3に重畳してUI15に表示させている。結果画像6Aは、ある時点におけるカメラ画像3に、シーン認識の結果として得られた注意すべき方向を示す矢印61が重畳されている。判定部112は、カメラ画像3には表れておらず、自車両周囲の音声の可視化画像4に基づいて認識されたシーンを表す情報を、例えば方向を示す図形や記号により出力するようにしてもよい。ここでは、左の後方から自車両に接近している車両(音声で推測)の存在を、矢印61で示している。なお、可視化画像4には表れておらず、カメラ画像3に撮像された歩行者の接近を検知することも可能である。結果画像6Bは、後の時点におけるカメラ画像3に、シーン認識の結果として得られた危険性のある被写体の存在とその位置を表すバウンディングボックス62、63が重畳されている。ここでは、左の後方から自車両を追い抜いた乗用車が、バウンディングボックス62によって示されている。また、右の前方から自車両に接近しているトラックが、バウンディングボックス63によって示されている。学習済モデル221と統合データ5とを用いて、例えばこのようなシーンが認識され、その結果がUI15のディスプレイに表示される。なお、結果の出力は、視覚的な情報でなく、スピーカ
のようなUS15を介して音声により行われるようにしてもよく、また車両走行制御や車両運転支援に用いられてもよい。
【0032】
<効果>
本実施形態によれば、カメラ画像3と音声データとを画像データに一体化した統合データに基づき機械学習を行い、また当該統合データを用いてシーン認識を行う。したがって、例えば画像用の学習モデルと音声用の学習モデルとを個別に作成し、それら両モデルを用いてシーンを判定するよりも、モデル作成およびシーン認識に係る処理の負荷及び処理に要する時間を低減させることができる。すなわち、異なる種別のデータを用いた学習モデルの作成を効率化することができる。また、学習済モデルは車両1に搭載されており、例えば通信を行うことなく判定ができる。よって、状況に応じて速やかな判定が要求されるような用途に、好適に用いることができる。
【0033】
また、統合データ5を、
図5のようにカメラ画像3と可視化画像4とを重畳させて作成すれば、画像のサイズを小さくすることができ、処理の負荷を低減させることができる。一方、統合データ5を、
図6のようにカメラ画像3及び可視化画像4を異なる位置に配置して作成すれば、カメラ画像3の特徴と可視化画像4の特徴とを混然と希釈させることなく、学習及び判定に用いることができるようになる。
【0034】
なお、カメラ画像3と可視化画像4とは、透過度を変更して重畳させるのではなく、カメラ画像3及び可視化画像4の各々に、例えばRGBのような異なる色の成分を割当てて重畳させた画像を作成してもよい。
【0035】
<変形例>
カメラ画像3と可視化画像4とを重畳した統合データ5を用いる場合、例えばカメラ画像3が撮像された地点の周囲の環境に応じて、カメラ画像3と可視化画像4とを重畳する割合を変更するようにしてもよい。周囲の環境は、例えばカメラ画像3の明るさや、撮像された場所の種別であってもよい。カメラ画像3の明るさは、例えばカメラ画像3が作成された日時や、カメラ画像3の中で空と認識された領域の色情報等に基づいて判断することができる。撮像された場所の種別は、例えばカメラ画像3の中から認識された撮像対象物や、カメラ画像3が作成された位置を示すメタ情報(衛星測位システム又はこれと接続されたカーナビゲーションシステムから得られる位置情報等をメタ情報としてカメラ画像データに付加する)に基づいて判断することができる。また、マイクロフォン14から得られる音声データに所定の閾値以上のノイズ成分が含まれると判断された場合に、可視化画像4の割合を下げるようにしてもよい。
【0036】
以上のような変形例を実施する場合は、以下のように学習処理、およびシーン認識処理を行う。
図8のステップS3においては、カメラ画像3及び可視化画像4の一方の画像に重畳する他方の画像の透過度を様々に変更して複数の統合データ5を作成し、当該統合データ5に基づき統合学習データを作成する。
図8のステップS4においては、周囲環境状態毎に各透過度条件で生成された統合学習データで学習を行う。そして、
図8のステップS5において、上記各学習処理で作成された各学習モデルについて、周囲環境毎に評価が最も高くなる透過度条件で学習された学習モデルを選択し、選択された学習モデルと、それに対応する透過度条件と、そして該当の周囲環境と対応付けたデータテーブルを生成する。そして、このデータテーブルと選択された各学習モデルとを情報処理装置2の記憶装置22に記録する。一方、
図9のステップS13においては、判定対象であるカメラ画像3が撮像された地点の周囲環境を検出し、データテーブルに基づき検出された周囲環境に対応する透過度条件と学習モデルを抽出し、シーン認識に使用する学習モデルと画像統合処理に用いる透過度情報を決定する。そして、決定された透過度に基づいて、カメラ画像3と可視化画像4とを重畳する割合を変更する。
図9のステップS14において、上記選
択された学習モデルに統合した画像を適用してシーンを識別する。
【0037】
<その他>
図示したシステム及び装置の構成は一例であり、上述の例には限定されない。例えば、情報処理装置2が備える機能部の少なくとも一部を複数の装置で分担して実行してもよいし、複数の装置で並列に実行してもよい。同様に、処理フローに示した処理は、結果が変わらない範囲で、順序を入れ替えて実行してもよく、並列に実行してもよい。
【0038】
また、学習段階の可視化画像4と、運用段階の可視化画像4とは、各軸のスケールが同一になるように描画されていることが好ましい。ただし、例えば学習段階において可視化画像4の特徴を含むアンカーボックスを設定し、アスペクト比やサイズが異なる可視化画像4からシーン認識を行うことができるようにしてもよい。
【0039】
また、本発明は、上述した処理方法を実行するコンピュータプログラム、当該プログラムを記録した、コンピュータ読み取り可能な記録媒体を含む。当該記録媒体をコンピュータに読み込ませ、記録されているプログラム実行させることにより、上述の処理が可能となる。コンピュータ読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータから取り外し可能なものとしては、フレキシブルディスク、光磁気ディスク、光ディスク、磁気テープ、メモリカード等がある。また、コンピュータに固定された記録媒体としては、ハードディスクドライブやROM等がある。
【0040】
本開示の要旨は以下の通りである。
(態様1)
画像データに対して前記画像データのシーンを識別する学習モデルの生成方法であって、
カメラで撮影された第1の画像データの撮影時点に対応した音声取得期間に取得された音声データを可視化した第2の画像データを作成し、
前記第1の画像データと前記第2の画像データとを統合した第3の画像データを作成し、
前記第3の画像データに、前記第1の画像データに対応するシーンを正解データとして付与した学習データにより前記学習モデルを生成するための学習を行う、
学習モデル生成方法。
(態様2)
前記第3の画像データは、前記第1の画像データと前記第2の画像データとを重畳して作成される
態様1に記載の学習モデル生成方法。
(態様3)
前記第1の画像データが撮像された地点の周囲の環境に応じて、前記第1の画像データと前記第2の画像データとを重畳する割合を変更する
態様2に記載の学習モデル生成方法。
(態様4)
前記音声データは、異なる方向の音声を取得する複数のマイクロフォンを介して取得された複数の音声データを含み、
前記複数の音声データをそれぞれ可視化した複数の前記第2の画像データを作成し、
前記複数の第2の画像データの各々を前記第1の画像データに対して異なる位置に配置して作成される
態様1に記載の学習モデル生成方法。
(態様5)
前記音声取得期間は、前記第1の画像データの撮影時点から設定時間前を開始時刻とし、前記第1の画像データの撮影時点を終了時刻とする期間である
態様1に記載の学習モデル生成方法。
(態様6)
前記可視化は、周波数解析の結果を表す画像を生成することにより行われる
態様1に記載の学習モデル生成方法。
(態様7)
画像データに対して前記画像データのシーンを識別する情報処理装置であって、
カメラで撮影された学習用の学習用画像データと、前記学習用画像データの撮影時点に対応した音声取得期間に取得された学習用の学習用音声データを可視化した音声画像データとを統合した学習用統合画像データを入力データとし、前記入力データに前記学習用画像データに対応するシーンを正解データとして付与した前記学習データで学習した学習済モデルを備え、
カメラが撮影した識別用の識別用画像データを取得し、
前記識別用画像データの撮影時点に対応した音声取得期間に識別用の識別用音声データを取得し、
前記識別用音声データを可視化した音声画像データと前記識別用画像データを統合した識別用統合画像データを作成し、
前記識別用統合画像データを前記学習済モデルに適用してシーンを識別する
情報処理装置。
(態様8)
周囲の音声を取得するマイクロフォンと、
周囲を撮影するカメラと、
前記マイクロフォンの出力する音声データと、前記カメラの出力する画像データを入力して、前記画像データのシーンを識別する情報処理装置と、を含む車両に搭載されるシーン判定システムであって、
前記情報処理装置は、
カメラで撮影された学習用の学習用画像データと、前記学習用画像データの撮影時点に対応した音声取得期間に取得された学習用の学習用音声データを可視化した音声画像データとを統合した学習用統合画像データを入力データとし、前記入力データに前記学習用画像データに対応するシーンを正解データとして付与した前記学習データで学習した学習済モデルを備え、
カメラが撮影した識別用の識別用画像データを取得し、
前記識別用画像データの撮影時点に対応した音声取得期間に識別用の識別用音声データを取得し、
前記識別用音声データを可視化した音声画像データと前記識別用画像データを統合した識別用統合画像データを作成し、
前記識別用統合画像データを前記学習済モデルに適用してシーンを識別する
シーン判定システム。
(態様9)
コンピュータにより実行され、画像データのシーンを識別する学習モデルを生成する学習プログラムであって、
カメラで撮影された第1の画像データの撮影時点に対応した音声取得期間に取得された音声データを可視化した第2の画像データを作成し、
前記第1の画像データと前記第2の画像データとを統合した第3の画像データを作成し、
前記第3の画像データに、前記第1の画像データに対応するシーンを正解データとして付与した学習データにより学習モデルの学習を行い、前記学習モデルを生成する
学習プログラム。
(態様10)
コンピュータにより実行され、画像データのシーンを識別するシーン判定プログラムであって、
カメラで撮影された学習用の学習用画像データと、前記学習用画像データの撮影時点に対応した音声取得期間に取得された学習用の学習用音声データを可視化した音声画像データとを統合した学習用統合画像データを学習データとし、前記学習データに前記学習用画像データに対応するシーンを正解データとして付与した前記学習データで学習した学習済モデルを備え、
カメラが撮影した識別用の識別用画像データを取得し、
前記識別用画像データの撮影時点に対応した音声取得期間に識別用の識別用音声データを取得し、
前記識別用音声データを可視化した音声画像データと前記識別用画像データを統合した識別用統合画像データを作成し、
前記識別用統合画像データを前記学習済モデルに適用してシーンを識別する
シーン判定プログラム。
【符号の説明】
【0041】
100:システム
1:車両、11:プロセッサ、111:前処理部、112:判定部、12:記憶装置、13:カメラ、14:マイクロフォン、15:ユーザインターフェース
2:情報処理装置、21:プロセッサ、211:前処理部、212:学習部、22:記憶装置、221:学習済モデル
3:カメラ画像、4(4A、4B、4C):可視化画像、5(5A、5B):統合データ、6(6A、6B):結果画像