IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インテル・コーポレーションの特許一覧

特開2022-96601車両のオーディオ‐ビジュアルおよび協調的認識
<>
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図1A
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図1B
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図1C
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図2
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図3
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図4
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図5
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図6
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図7
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図8
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図9
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図10
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図11A
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図11B
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図12
  • 特開-車両のオーディオ‐ビジュアルおよび協調的認識 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022096601
(43)【公開日】2022-06-29
(54)【発明の名称】車両のオーディオ‐ビジュアルおよび協調的認識
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220622BHJP
   G08G 1/015 20060101ALI20220622BHJP
   G10L 25/51 20130101ALI20220622BHJP
   G10L 25/30 20130101ALI20220622BHJP
   G08G 1/087 20060101ALI20220622BHJP
【FI】
G06T7/00 650B
G08G1/015 A
G06T7/00 P
G06T7/00 350C
G10L25/51
G10L25/30
G08G1/087
【審査請求】未請求
【請求項の数】24
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2021177855
(22)【出願日】2021-10-29
(31)【優先権主張番号】17/125,642
(32)【優先日】2020-12-17
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】591003943
【氏名又は名称】インテル・コーポレーション
(74)【代理人】
【識別番号】110000877
【氏名又は名称】龍華国際特許業務法人
(72)【発明者】
【氏名】ハッスナー ムスタファ
(72)【発明者】
【氏名】サティシュ クマー クッタン
(72)【発明者】
【氏名】イン ウェイ リエウ
(72)【発明者】
【氏名】サイ チュアン タン
(72)【発明者】
【氏名】チエン チェーン イエウ
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181AA12
5H181BB04
5H181BB05
5H181BB20
5H181CC02
5H181CC03
5H181CC04
5H181CC11
5H181CC14
5H181EE07
5H181FF04
5H181FF22
5H181FF24
5H181FF27
5H181FF32
5H181JJ10
5H181LL09
5L096AA06
5L096BA04
5L096BA18
5L096CA05
5L096DA02
5L096FA69
5L096GA51
5L096GA55
5L096HA09
5L096HA11
5L096JA11
5L096KA04
5L096MA07
(57)【要約】      (修正有)
【課題】多様な地理的場所において緊急車両を正確に認識するために、協調的オーディオ‐ビジュアル推論解決手段を提供する。
【解決手段】車両認識システム100Aは、オーディオ機械学習技法を使用して、キャプチャされた音声を解析し、音声イベントを識別するための音声解析回路110を備える。システムは、画像機械学習技法を使用して、キャプチャされた画像を解析し、画像イベントを識別するための画像解析回路107と、画像イベントおよび音声イベントに基づいて、車両のタイプを識別するための車両識別回路105とを備える。車両識別回路105は更に、V2VまたはV2Iアラートを使用して車両のタイプを識別し、車両タイプに基づいてV2XまたはV2Iアラートメッセージを伝達し得る。いくつかの態様において、車両のタイプは更に、車両認識システムによって検出されたライト信号に関連付けられたライトイベントに基づいて識別される。
【選択図】図1A
【特許請求の範囲】
【請求項1】
車両における緊急車両認識のためのシステムであって、前記システムは、
機械学習技法を使用してオーディオデータを解析し、音声イベントを決定するための音声検出回路であって、前記オーディオデータは、前記車両の外部のソースによって生成され、前記車両に設置されたマイクロフォンアレイによって感知される、音声検出回路と、
前記機械学習技法を使用して画像データを解析し、画像イベントを決定するための画像検出回路であって、前記画像データは、前記車両に設置されたカメラアレイによって取得される、画像検出回路と、
分類回路であって、前記分類回路は、
オーディオ‐画像アソシエーションを生成することであって、前記オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、前記音声イベントのオーディオサンプルを前記画像イベントの画像フレームと照合する、こと、および、
前記オーディオ‐画像アソシエーションに基づいて、緊急車両認識を実行すること
を行う、分類回路と、
メッセージを車両制御システムへ送信するための車両インタフェースであって、前記メッセージは前記緊急車両認識に基づく、車両インタフェースと
を備えるシステム。
【請求項2】
前記画像イベントは、前記画像フレームの少なくとも1つにおける緊急車両のビジュアル表現を検出することであり、前記音声イベントは、前記オーディオサンプルの少なくとも1つにおける、前記緊急車両に関連付けられた音声を検出することである、請求項1に記載のシステム。
【請求項3】
前記オーディオ‐画像アソシエーションを生成するために、前記分類回路は更に、前記オーディオサンプルのサンプリングレートを用いて、前記画像フレームのフレームレートを正規化して、前記複数の時間インスタンスの各時間インスタンスについて、画像フレームあたりのオーディオサンプル(ASPIF)パラメータを決定する、請求項1または2に記載のシステム。
【請求項4】
前記オーディオ‐画像アソシエーションはデータ構造であり、前記分類回路は更に、前記画像フレームの各画像フレームについて、
前記画像フレームに対応する前記複数の時間インスタンスのうちの時間インスタンスの識別子、
前記画像フレームの識別子、
前記ASPIFパラメータに基づく前記画像フレームに対応する前記オーディオサンプルのサブセットの識別子、
前記画像フレームに関連付けられた検出結果であって、前記画像イベントに基づく検出結果、および、
前記オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果であって、前記音声イベントに基づく検出結果
を前記データ構造に格納する、請求項3に記載のシステム。
【請求項5】
前記画像フレームに関連付けられた前記検出結果は、前記画像フレーム内で検出された緊急車両のタイプである、請求項4に記載のシステム。
【請求項6】
前記オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた前記検出結果は、前記オーディオサンプルに基づいて検出される緊急車両のタイプである、請求項5に記載のシステム。
【請求項7】
前記分類回路は更に、
前記オーディオサンプルのサブセットに関連付けられた前記検出結果にクラスタリング機能を適用して、前記オーディオサンプルのサブセットに関連付けられた、組み合わされた検出結果を生成する、並びに、
前記画像フレームに関連付けられた前記検出結果と、前記オーディオサンプルのサブセットに関連付けられた前記組み合わされた検出結果とのデータ融合を実行して前記緊急車両認識を実行する、請求項6に記載のシステム。
【請求項8】
前記緊急車両認識中に検出された緊急車両のタイプの予測を生成すること、および、
前記車両制御システムへの伝送のための前記メッセージを生成することであって、前記メッセージは、前記緊急車両のタイプを含む、こと
を行うよう構成される予測生成回路を更に備える、請求項1から7のいずれか一項に記載のシステム。
【請求項9】
前記車両制御システムは、前記メッセージに基づいて応答アクションを実行する、請求項8に記載のシステム。
【請求項10】
前記応答アクションは、前記緊急車両認識中に検出される前記緊急車両のタイプに基づく自律車両操縦を含む、請求項9に記載のシステム。
【請求項11】
前記機械学習技法は人工ニューラルネットワークを含む、請求項1から10のいずれか一項に記載のシステム。
【請求項12】
機械に、
機械学習技法を使用してオーディオデータを解析して、音声イベントを決定する手順であって、前記オーディオデータは、車両に設置されたマイクロフォンアレイによって感知される、手順と、
前記機械学習技法を使用して画像データを解析して、画像イベントを決定する手順であって、前記画像データは、前記車両に設置されたカメラアレイによって取得される、手順と、
オーディオ‐画像アソシエーションを生成する手順であって、前記オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、前記音声イベントのオーディオサンプルを前記画像イベントの画像フレームと照合する、手順と、
前記オーディオ‐画像アソシエーションに基づいて緊急車両認識を実行する手順と、
メッセージを前記車両の車両制御システムに出力する手順であって、前記メッセージは前記緊急車両認識に基づいており、前記車両制御システムは、前記メッセージに基づいて応答アクションを実行する、手順と
を実行させるための、プログラム。
【請求項13】
前記機械に更に、前記オーディオサンプルのサンプリングレートを用いて前記画像フレームのフレームレートを正規化して、前記複数の時間インスタンスの各時間インスタンスについて、画像フレームあたりのオーディオサンプル(ASPIF)パラメータを決定する手順を実行させるための、請求項12に記載のプログラム。
【請求項14】
前記オーディオ‐画像アソシエーションはデータ構造であり、前記プログラムは更に前記機械に、前記画像フレームの各画像フレームについて、
前記画像フレームに対応する前記複数の時間インスタンスのうちの時間インスタンスの識別子、
前記画像フレームの識別子、
前記ASPIFパラメータに基づく前記画像フレームに対応する前記オーディオサンプルのサブセットの識別子、
前記画像フレームに関連付けられた検出結果であって、前記画像イベントに基づく検出結果、および、
前記オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果であって、前記音声イベントに基づく検出結果、
を前記データ構造に格納する手順を実行させるための、請求項13に記載のプログラム。
【請求項15】
前記画像フレームに関連付けられた前記検出結果は、前記画像フレーム内で検出された緊急車両のタイプであり、前記オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた前記検出結果は、前記オーディオサンプルに基づいて検出された緊急車両のタイプであり、前記プログラムは前記機械に更に、
前記オーディオサンプルのサブセットに関連付けられた前記検出結果にクラスタリング機能を適用して、前記オーディオサンプルのサブセットに関連付けられた組み合わされた検出結果を生成する手順と、
前記画像フレームに関連付けられた前記検出結果と、前記オーディオサンプルのサブセットに関連付けられた前記組み合わされた検出結果とのデータ融合を実行して、前記緊急車両認識を実行する手順と
を実行させるための、請求項14に記載のプログラム。
【請求項16】
機械学習技法を使用してオーディオデータを解析して、音声イベントを決定するための手段であって、前記オーディオデータは、車両に設置されたマイクロフォンアレイによって感知される、手段と、
前記機械学習技法を使用して画像データを解析して、画像イベントを決定するための手段であって、前記画像データは、前記車両に設置されたカメラアレイによって取得される、手段と、
オーディオ‐画像アソシエーションを生成するための手段であって、前記オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、前記音声イベントのオーディオサンプルを前記画像イベントの画像フレームと照合する、手段と、
前記オーディオ‐画像アソシエーションに基づいて緊急車両認識を実行するための手段と、
メッセージを車両制御システムへ出力するための手段であって、前記メッセージは前記緊急車両認識に基づいており、前記車両制御システムは、前記メッセージに基づいて応答アクションを実行する、手段と
を備える装置。
【請求項17】
前記画像イベントは、前記画像フレームの少なくとも1つにおいて緊急車両のビジュアル表現を検出し、前記音声イベントは、前記オーディオサンプルの少なくとも1つにおいて、前記緊急車両に関連付けられた音声を検出する、請求項16に記載の装置。
【請求項18】
前記オーディオ‐画像アソシエーションを生成するための前記手段は、
前記オーディオサンプルのサンプリングレートを用いて、前記画像フレームのフレームレートを正規化して、前記複数の時間インスタンスの各時間インスタンスについて、画像フレームあたりのオーディオサンプル(ASPIF)パラメータを決定するための手段を含む、請求項16または17に記載の装置。
【請求項19】
前記オーディオ‐画像アソシエーションはデータ構造であり、前記装置は更に、前記画像フレームの各画像フレームについて、
前記画像フレームに対応する前記複数の時間インスタンスのうちの時間インスタンスの識別子、
前記画像フレームの識別子、
前記ASPIFパラメータに基づく前記画像フレームに対応する前記オーディオサンプルのサブセットの識別子、
前記画像フレームに関連付けられた検出結果であって、前記画像イベントに基づく検出結果、および、
前記オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果であって、前記音声イベントに基づく検出結果
を前記データ構造に格納するための手段を備える、請求項18に記載の装置。
【請求項20】
前記画像フレームに関連付けられた前記検出結果は、前記画像フレームにおいて検出された緊急車両のタイプである、請求項19に記載の装置。
【請求項21】
前記オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた前記検出結果は、前記オーディオサンプルに基づいて検出される緊急車両のタイプである、請求項20に記載の装置。
【請求項22】
前記オーディオサンプルのサブセットに関連付けられた前記検出結果にクラスタリング機能を適用して、前記オーディオサンプルのサブセットに関連付けられた組み合わされた検出結果を生成するための手段と、
前記画像フレームに関連付けられた前記検出結果と、前記オーディオサンプルのサブセットに関連付けられた前記組み合わされた検出結果とのデータ融合を実行して、前記緊急車両認識を実行するための手段と
を更に備える、請求項21に記載の装置。
【請求項23】
前記緊急車両認識中に検出される緊急車両のタイプの予測を生成するための手段と、
前記車両制御システムへの伝送のための前記メッセージを生成するための手段であって、前記メッセージは前記緊急車両のタイプを含む、段階と
を更に備える、請求項16から22のいずれか一項に記載の装置。
【請求項24】
請求項12から15のいずれか一項に記載のプログラムを記憶した非一時的機械可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書に記載される実施形態は一般に、車両認識システムに関し、特に、画像イベントおよび音声イベントに基づいて車両のタイプを識別するための車両識別回路に関する。
【背景技術】
【0002】
各国(または、特定の地理的場所)は、特定のタイプの車両(例えば緊急車両)についての特性が異なり、そのような車両の近傍にあるときに講じるルールおよび運転アクションが異なる。
【図面の簡単な説明】
【0003】
いくつかの実施形態は、添付の図面の図において、例として示されるものであって、限定するものではない。
【0004】
図1A】例示的な実施形態による、車両認識プラットフォームを使用して、音声データ、ライトデータ、および画像データに基づく緊急車両検出を提供するシステムを図示する概略図である。
【0005】
図1B】例示的な実施形態による、図1Aの車両認識プラットフォームにおける、音声データ、ライトデータ、および画像データを処理する別個の検出パイプラインのダイアグラムである。
【0006】
図1C】例示的な実施形態による、図1Aの車両認識プラットフォームにおける、音声データおよび画像データを処理する畳み込みニューラルネットワーク(CNN)ベースの検出パイプラインのダイアグラムである。
【0007】
図2】例示的な実施形態による、図1Aにおける車両認識プラットフォームの別の図を図示するダイアグラムである。
【0008】
図3】例示的な実施形態による、車両認識のために使用されるディープラーニング(DL)モデルの訓練を図示するブロックダイアグラムである。
【0009】
図4】一実施形態による、車両認識に使用され得るニューラルネットワークの構造を図示する。
【0010】
図5】例示的な実施形態による、車両認識プラットフォームにおいて使用され得るオーディオデータ処理パイプラインを図示する。
【0011】
図6】例示的な実施形態による、車両認識プラットフォームにおいて使用され得る信号‐画像変換を有するオーディオデータ処理パイプラインを図示する。
【0012】
図7】例示的な実施形態による、車両認識プラットフォームにおいて使用され得る画像データ処理パイプラインを図示する。
【0013】
図8】例示的な実施形態による、車両認識のためのオーディオ‐ビジュアル検出関連付けおよび融合のための方法を図示するフローチャートである。
【0014】
図9】例示的な実施形態による、開示された技法を使用する緊急車両認識中の車両の例示的な位置を図示する。
【0015】
図10】例示的な実施形態による、車両認識のために使用されるニューラルネットワークモデルによる継続的学習に関連して使用される転移学習のための方法を図示するフローチャートである。
【0016】
図11A】一実施形態による、緊急車両通知のためのV2V協調を図示する。
図11B】一実施形態による、緊急車両通知のためのV2I協調を図示する。
【0017】
図12】例示的な実施形態による、緊急車両認識のための方法を図示するフローチャートである。
【0018】
図13】例示的な実施形態による、本明細書において説明される任意の1または複数の技法(例えば方法)が実行され得る例示的な機械を図示するブロックダイアグラムである。
【発明を実施するための形態】
【0019】
以下の記載において、説明の目的で、いくつかの例示的な実施形態の徹底的な理解を提供するように多くの具体的な詳細が説明される。しかしながら、本開示がこれらの具体的な詳細なしで実施され得ることは当業者にとって明らかである。
【0020】
車両(自律車両またはAV、完全な自律車両でないが1または複数のセンサシステムを装備した車両、ならびに、非自律車両)が、例えば、緊急車両が存在するときなど、多様な道路状況において好適なアクション/反応を実行することは困難である。緊急車両のタイプおよび色、そのような緊急車両によって発せられたビジュアルライトアラートおよび聴覚的アラート、ならびに、緊急車両上に塗装された標示は、地理的な場所によって異なる。追加的に、1つの地理的場所において、特定のアラート(ライトがついた警察車両など)の意味は、周囲の非緊急車両によって講じられる特定のアクション(道路の端に止めるなど)を示唆し得るが、ローカルのルールに応じて、別の地理的場所では異なるアクションを示唆し得る。この課題はまた、新しい国または地理的場所を訪問するとき、および、緊急車両からの視覚的および聴覚的アラートが、運転者の車両車室内において可視的でも可聴的でもないとき、人間の運転者にとって存在する。
【0021】
自動車の文脈において、高度な運転者補助システム(ADAS)は、車両システムを自動化、適合、または強化することによって、安全性を増加させ、より良い運転を提供するために開発されたものである。そのようなシステムにおいて、運転者に潜在的問題をアラートする技術を提供することにより、衝突および事故を回避するために、または、強化された車両認識などの安全装置を実装して、(例えば、緊急車両が検出されるときに)そのような安全装置に基づいて車両の制御を引き継ぐ(または、ナビゲーションコマンドを発行する)ことによって衝突を回避するために、安全機能が設計される。
【0022】
本明細書において開示される技法は、緊急車両(例えば、パトロールカー、救急車、消防車など)の正確な認識のために使用され得、ADASを有する車両を含むAVが、適切な運転アクション(例えば、救急車/消防車のために道を空ける、警察用車両のために即座に停止する、など)を講じることを助ける。
【0023】
ADASは、物体、および、それらの動作環境の他の面を認識および検出できる様々なセンサに依存している。そのようなセンサの例には、可視光カメラ、レーダ、レーザスキャナ(例えば、LiDAR)、アコースティック(例えば、ソナー)および同様のものが含まれる。車両は、様々な前向き、横向き、および後ろ向きのセンサアレイを含み得る。センサは、レーダ、LiDAR(ライトイメージング検出および測距)、ライトセンサ、画像検出のためのカメラ、音声センサ(緊急車両検出などの車両検出に使用されるマイクロフォンまたは他の音声センサを含む)、超音波、赤外線、または他のセンサシステムを含み得る。前向きセンサは、適合型巡行制御、駐車補助、車線逸脱、衝突回避、歩行者検出および同様のものに使用され得る。後ろ向きセンサは、車線変更を実行するとき、または、遅い速度で後退するとき(例えば、駐車距離モニタ)に、潜在的な障害(例えば、車両)を運転者にアラートするために使用され得る。
【0024】
開示された技法は、多様な地理的場所において緊急車両を正確に認識するために、協調的オーディオ‐ビジュアル推論解決手段を提示する。開示された技法は、以下の機能、すなわち、(a)緊急車両の物体検出に加えて、特定の聴覚的サイレンの音声検出、(b)緊急車両におけるビジュアルアラートによって発せられるライトパターンの検出(この機能は特に、可視性が低い夜間に有用である)、(c)緊急車両のビジュアル検出および音声検出のために同時に動作するマルチモーダルのパイプライン、(d)緊急車両の正確な認識のためのオーディオおよび画像検出の関連付け、(e)オーディオ、ビジュアル、およびライト検出を通じて周囲の車両および路側ユニット(RSU)によって認識された緊急車両に関する車車間(V2V)および車両‐インフラストラクチャ間(V2I)アラートのうち1または複数を含む。
【0025】
AVおよびADAS能力を有する車両による緊急車両認識は多くの場合、オーディオ感知、および、アコースティックイベント検出を通じて実行されるが、緊急車両から距離がある場合、および、騒音が多い環境において、これは困難であり得る。いくつかの解決手段は、緊急車両を検出するために画像認識を適用する。しかしながら、そのような解決手段は複雑であり、各画像領域における緊急車両を正確に認識するために画像における複数のパターンを見つける必要がある。これに関して、オーディオまたはコンピュータビジョンを使用するユニモーダル解決手段は、天気/可視性が悪い、見通し線が無い、悪い天気に加えて道路の騒音が多いなど、厳しい条件における検出の正確度を損なう。追加的に、緊急車両がAV/ADAS能力を有する車両の視野にない場合、それを時間内に認識することは難しい。比較すると、本明細書において説明される同時のマルチモーダルのオーディオ、ライト、および画像推論技法は、推論処理を集約し、ニューラルネットワークの数を低減し、それにより、必要な計算を低減するが、ユニモーダル解決手段より高レベルの正確度を提供し得る。
【0026】
本明細書において説明される緊急車両認識技法は、マルチモーダルのオーディオ/ビジョン/ライト検出を使用する、緊急車両の正確な認識のために使用され得る。パフォーマンスの観点からは、オーディオおよびビジョンパイプライン集約は、モバイルエッジアーキテクチャ実装のユースケースにおけるエッジ推論に必要な処理を低減することを助ける。これに関して、自律車両プラットフォームまたは路側ユニット(RSU)は、プラットフォームを、より高レベルの状況認識を有するモバイル感知プラットフォームにすることによって区別および強化され得る。プラットフォームの価値は更に、衝突/事故感知および記録、空気品質モニタリングなどの追加的な感知能力を追加することによって向上され得る。
【0027】
図1Aは、一実施形態による、車両認識プラットフォームを使用して、音声データ、ライトデータ、画像データに基づいて緊急車両検出を提供するシステム100Aを図示する概略図である。図1Aは、車両104に組み込まれた車両認識プラットフォーム102を含む。車両認識プラットフォーム102は、ライトプロセッサ113、ライトパターン解析回路111、画像プロセッサ109、画像解析回路107、音声プロセッサ108、音声分析回路110、車両識別回路105、予測生成回路103、センサアレイインタフェース106、および車両インタフェース112を含む。
【0028】
「自車両」または「ホスト車両」とも称され得る車両104は、商用車両、消費者用車両、娯楽用車両、車、トラック、オートバイ、ボート、ドローン、ロボット、航空機、ホバークラフト、または、少なくとも部分的に自律モードで動作可能な任意のモバイルクラフトなど、任意のタイプの車両であり得る。車両104は、ある時には、運転者がペダル、ステアリングホイール、または他のコントロールを従来のように使用して車両104を操作するマニュアルモードで動作し得る。車両104は他の時には、車両104がユーザの干渉なしで動作する完全自律モードで動作し得る。加えて、車両104は、半自律モードで動作し得る。ここで、車両104は、運転の態様の多くを制御するが、運転者は従来の入力(例えば、ステアリングホイール)および非従来の入力(例えば、声制御)を使用して、オペレーションに干渉または影響し得る。
【0029】
車両104は、音声を車両104の内部および外部に伝えることが可能な1または複数のスピーカ114を備え得る。車両104は更に、画像キャプチャ機構115(例えば、1または複数のカメラ)および少なくとも1つのライトセンサ117を備え得る。スピーカ114、画像キャプチャ機構115、およびライトセンサ117は、スピーカドライバ(および他のスピーカコンポーネント)およびカメラレンズを外来の物体から保護しながら、音声、画像、ライトを明確に通過させることを許容するように適合されたカバー(例えば、格子)を用いて、車両104の車体における空洞に組み込まれ得る。格子は、プラスチック、カーボンファイバ、または、車両の車体に対して構造または耐候性を提供する他の剛性または半剛性の材料から構築され得る。スピーカ114、画像キャプチャ機構115、およびライトセンサ117は、車両104の任意の一部に組み込まれ得る。一実施形態において、スピーカ114、画像キャプチャ機構115、およびライトセンサ117は、車両104のルーフラインに設置され、車両104が他の車両または他の低い物体の間にあるとき(例えば、道路内にいる間)、より良く音声を伝え、より良く画像およびライトを受信する。スピーカ114、画像キャプチャ機構115、およびライトセンサ117は、音声プロセッサ108、画像プロセッサ109、およびライトプロセッサ113からセンサアレイインタフェース106を通じて信号を提供され得る。音声プロセッサ108は、協調方式でスピーカ114を駆動し、指向性のオーディオ出力を提供し得る。
【0030】
車両104はまた、車両104周囲の環境音声を検出することが可能なマイクロフォン機構116(例えば、1または複数のマイクロフォン)を備え得る。マイクロフォン機構116は、車両104の任意の部分に設置され得る。一実施形態において、マイクロフォン機構116は、車両104のルーフラインに設置される。そのような配置は、検出能力の改善を提供しながら、周囲のバックグラウンドの騒音(例えば、道路およびタイヤの騒音、排気ガスの騒音、エンジンの騒音など)を低減し得る。マイクロフォン機構116は、可変の鉛直方向の高さを有するように配置され得る。鉛直方向の差を使用することにより、マイクロフォン機構116は、水平面より上または下にある音源を区別することが可能となる。マイクロフォン機構116の配置におけるバリエーションは、3次元空間において音源を更に位置特定するために使用され得る。マイクロフォン機構116は、様々な方式で音声プロセッサ108によって制御され得る。例えば、オーディオフィードバックを低減または除去するために、マイクロフォン機構116は、スピーカ114がアクティブで音声を発しているかどうかに応じて、オンとオフが切り替えられ得る。マイクロフォン機構116は、グループ単位で、または、すべてまとめて個別に切り替えられ得る。
【0031】
センサアレイインタフェース106は、車両104に設置されたセンサアレイの1または複数のセンサから車両認識プラットフォーム102へ入力または出力信号を提供するために使用され得る。センサの例は、マイクロフォン機構116;画像キャプチャ機構115などの前向き、横向き、または後ろ向きカメラ;レーダ;LiDAR;超音波距離測定センサ;ライトセンサ117、または他のセンサを含むが、これらに限定されない。前方向きまたは前向きは、本文書において、移動の主な方向、座席が向くように配置された方向、トランスミッションがドライブにセットされたときの移動の方向、または同様のものなどを指すために使用される。従来、後方向きまたは後ろ向きは、前方向きまたは前向きのものとは大まかに反対方向に向いたセンサを説明するために使用される。いくつかの前向きカメラは、最大180°までもの相対的に広い視野を有し得ることが理解されたい。同様に、隣接する交通車線における交通を検出するために使用される、斜め(場合によっては、中心から60°)を向いた後ろ向きカメラも、前向きカメラの視野と重複し得る、相対的に広い視野を有し得る。横向きセンサは、車両104の側面から外側を向いたものである。センサアレイにおけるカメラは、狭いまたは大きい視野を有し、長距離または単距離で焦点を合わせることが可能な赤外線または可視光カメラを含み得る。これに関して、カメラは、ズームレンズ、画像安定化、シャッタ速度を含み得、車両検出に基づいて、アパーチャまたは他のパラメータを自動的に調整することが可能であり得る。
【0032】
車両104はまた、風速、屋外の温度、気圧、または雨/湿度、または同様のものを検出するために、運転者識別センサ(例えば、座席センサ、アイトラッキング、および、識別センサ、指紋スキャナ、声認識モジュールまたは同様のもの)、乗員センサ、または、様々な環境センサなど、様々な他のセンサを備え得る。
【0033】
センサデータは、車両の動作コンテキスト、環境情報、道路条件、緊急車両を含む道路上の他の車両の存在を含む移動条件、または同様のものを決定するために、本明細書において説明されるようにマルチモーダル形式で使用され得る。センサアレイインタフェース106は、センサデータを提供または取得するために、車載ナビゲーションシステムなど、車両104の別のインタフェースと通信し得る。車両認識プラットフォーム102のコンポーネントは、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、無線ネットワーク(例えば、802.11またはセルラネットワーク)、アドホックネットワーク、パーソナルエリアネットワーク(例えば、Bluetooth(登録商標))、車両ベースのネットワーク(例えば、コントローラエリアネットワーク(CAN)バス)、または、ネットワークプロトコルおよびネットワークタイプの他の組み合わせまたは順列を含み得るネットワークを使用して、車両認識プラットフォーム102の内部のコンポーネント、または、プラットフォーム102の外部のコンポーネントと通信し得る。ネットワークは、単一のローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)、または、インターネットなどのLANもしくはWANの組み合わせを含み得る。ネットワークに連結された様々なデバイスは、1または複数の有線または無線接続を介してネットワークに連結され得る。
【0034】
車両認識プラットフォーム102は、車両制御システム118と通信し得る。車両制御システム118は、車両のオペレーションの様々な態様を制御する、より大きいアーキテクチャのコンポーネントであり得る。車両制御システム118は、自律運転制御システム(例えば、ステアリング、ブレーキ、アクセルなど)、快適性システム(例えば、熱、空調、座席位置など)、ナビゲーションインタフェース(例えば、マップおよびルーティングシステム、ポジショニングシステムなど)、衝突回避システム、通信システム(例えば、車両‐インフラストラクチャ間もしくはV2I、および、車車間もしくはV2V通信、ならびに、他のタイプの通信のためのインタフェース)、セキュリティシステム、車両ステータスモニタ(例えば、タイヤ圧力モニタ、オイルレベルセンサ、速度計など)および同様のものとのインタフェースを有し得る。車両制御システム118は、車両認識プラットフォーム102を使用して、本明細書において説明される車両認識機能を実行する(例えば、音声分析回路110によって音声イベントを識別する、画像解析回路107によって画像イベントを識別する、ライトパターン解析回路111によるライトパターンの検出など、ライトイベントを識別する)ように訓練されたニューラルネットワーク(例えば、畳み込みニューラルネットワーク、または、別のタイプのニューラルネットワーク)を使用する推論に使用されるニューラルネットワーク処理サブシステム119などの1または複数のサブシステムを制御し得る。いくつかの態様において、ニューラルネットワーク処理サブシステムは、車両識別回路105の一部であり得る。車両認識に使用され得る機械学習ネットワークおよびニューラルネットワークを訓練するために使用される例示的なディープラーニングアーキテクチャは、図3および図4に関連して説明される。車両認識を目的として機械学習ネットワークのための例示的な転移学習機能は、図10に関連して説明される。
【0035】
追加的に、車両認識プラットフォーム102は、他のセンサ(例えば、カメラ、LiDAR、GPS、ライトセンサ、マイクロフォンなど)とのセンサ融合メカニズムにおいて使用され得る。オーディオデータ、画像データ、およびライトパターンデータは、車両認識、物体タイプ検出、物体識別、物体位置または起動決定および同様のものを強化、補強、または、そうでなければ補助するために使用される。
【0036】
車両104上またはその周りに設置されたマイクロフォン機構116によって検出されたオーディオデータ(例えば音声)などのセンサデータは、初期の処理のために、音声プロセッサ108に提供される。例えば、音声プロセッサ108は、ローパスフィルタ、高域フィルタリング、増幅器、アナログ‐デジタルコンバータ、または、音声プロセッサ108における他のオーディオ回路構成を実装し得る。音声プロセッサ108はまた、入力オーディオデータの特徴抽出を実行し得る。特徴は次に、識別のために音声分析回路110へ提供され得る。
【0037】
音声分析回路110は、人工ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、サポートベクタマシン(SVM)、混合ガウスモデル(GMM)、ディープラーニング、または同様のものなど、機械学習のいくつかの種類のうち1つを使用して構築され得る。音声プロセッサ108によって提供された特徴を使用して、音声分析回路110は、オーディオデータを解析して音声イベントを識別することを試行する。いくつかの態様において、音声イベントは、オーディオデータのオーディオサンプル(例えば、オーディオセグメント)内の緊急車両に関連付けられた音声を検出する。音声分析回路110は、音声イベントの指示、検出された緊急車両の指示、または、緊急車両のあり得る分類(例えば、警察用車両、救急車、消防車などの緊急車両タイプなど)を、更なる処理(例えば、予測生成回路103による特定のタイプの緊急車両の予測を生成および出力するために使用される緊急車両認識を実行する)のために音声プロセッサ108および車両識別回路105に返す。音声分析回路110は、図1Aに示される例における車両104内にあるが、分類プロセスの一部または全部は、ネットワークアクセス可能サーバ(例えばクラウドサービス)など、車両の外にあり得ることを理解されたい。例えば、クラウドサービスへ送信されるデータの量を低減するために、特徴抽出および車両認識は、車両104においてローカルで実行され得る。
【0038】
追加のセンサデータはまた、緊急車両の予測を生成および出力するために、車両認識プラットフォーム102によって使用され得る。例えば、画像キャプチャ機構115によって検出された画像データ、および、ライトセンサ117によって検出されたライト信号など、追加のセンサデータは、初期の処理のために、画像プロセッサ109およびライトプロセッサ113へそれぞれ提供される。例えば、画像プロセッサ109およびライトプロセッサ113は、ローパスフィルタ、高域フィルタリング、増幅器、アナログ‐デジタルコンバータ、または、画像プロセッサ109およびライトプロセッサ113における他のオーディオ回路構成を実装し得る。画像プロセッサ109およびライトプロセッサ113はまた、入力画像データおよびライト信号の特徴抽出を実行し得る。特徴は次に、識別のために画像解析回路107およびライトパターン解析回路111に提供され得る。
【0039】
画像解析回路107およびライトパターン解析回路111は、ANN、CNN、SVM、GMM、ディープラーニング、または同様のものなどの機械学習のいくつかの種類のうち1つを使用して構築され得る。画像プロセッサ109およびライトプロセッサ113によって提供される特徴を使用して、画像解析回路107およびライトパターン解析回路111は、画像データおよびライト信号を解析して、画像イベントおよびライトイベントをそれぞれ識別する。いくつかの態様において、画像イベントは、画像データに関連付けられた少なくとも1つの画像フレーム内の緊急車両のビジュアル表現を検出する。ライトイベントは、緊急車両によって発せられた特定のライトパターンを含み得る。このライトパターンはしたがって、緊急車両のタイプを示す。画像解析回路107およびライトパターン解析回路111は、画像イベントの指示、および、ライトパターンの指示(検出された緊急車両の指示、または、警察用車両、救急車、消防車などの緊急車両タイプなど、緊急車両のあり得る分類を含み得る)を更なる処理(例えば、予測生成回路103による特定のタイプの緊急車両の予測を生成および出力するために使用される緊急車両認識を実行する)のために画像プロセッサ108、ライトプロセッサ113、および、車両識別回路105へそれぞれ返す。図1Aに示される例では、画像解析回路107およびライトパターン解析回路111は車両104にあるが、分類プロセスの一部または全部は、ネットワークアクセス可能サーバ(例えばクラウドサービス)など、車両の外で行われ得ることを理解されたい。例えば、画像データおよび検出されたライト信号を使用する特徴抽出および車両認識は、クラウドサービスへ送信されるデータの量を低減するために、車両104においてローカルで実行される。
【0040】
車両識別回路105は、好適な回路構成、ロジック、インタフェースおよび/またはコードを含み、音声分析回路110からの音声イベント、画像解析回路107からの画像イベント、および、ライトパターン解析回路111からのライトイベントを受信し、受信されたマルチモーダルイベントデータに基づいて生成されたオーディオ‐画像アソシエーションまたはオーディオ‐画像‐ライトアソシエーションに基づいて緊急車両認識を実行するよう構成される。予測生成回路103は、車両識別回路105によって実行される緊急車両認識(例えば、車両タイプの認識)に基づいて特定のタイプの緊急車両の予測を生成する。1または複数の応答アクティビティが、緊急車両予測に応答して車両認識プラットフォーム102によって生成され得る。例示的な実施形態において、予測生成回路は、車両識別回路105の一部である。
【0041】
例えば、車両識別回路105がオーディオデータおよび画像データに基づいて警察のサイレンを識別する場合、車両識別回路105は、車両インタフェース112を通じてメッセージを送信し得る。車両インタフェース112は、車載車両インフォテインメントシステム、または、他の車両システムに直接的または間接的に接続され得る。メッセージに応答して、車両制御システム118、または、車両104における別のコンポーネントは、座席またはステアリングホイールにおける触覚フィードバックまたは同様のものを使用して、オーディオキューと共にディスプレイ上で車両104の乗員に提示される通知を生成し得る。例えば、マルチモーダルデータ(例えば、対応するセンサによって検出された、オーディオデータ、画像データ、屋外ライト信号)を使用して、警察のサイレンが車両識別回路105によって検出されるとき、アイコンまたは他のグラフィック表現は、車両104におけるダッシュボード埋め込みディスプレイ上に提示され得、緊急車両が近いことを車両104の乗員またはオペレータにアラートする。メッセージはまた、車両のオペレータに、検出された状況に注意を向けさせるために、他のアクション(音楽再生をミュートする、電話の通話に割り込む、または、道路の端の方へ車両104を自律的にナビゲートし、車両104を遅くして停止させる、など)を開始し得る。車両認識プラットフォーム102で検出されたイベントのタイプ、深刻度、場所、または他の面に応じて、他の自律車両アクションが開始され得る。車両認識プラットフォーム102の様々な構成が、図1B図1C、および図2に図示される。音声分析回路110によって実行される例示的な処理機能を、図5および図6に関連して説明する。画像解析回路107によって実行される例示的な処理機能が、図7に関連して説明される。緊急車両認識に関する追加の機能が、図8図9、および図11A図13に関連して説明される。
【0042】
例示的な実施形態において、車両検出に関連して本明細書において説明された機能は、車両(例えば、車両104)だけでなく、他のスマート構造(またはインフラストラクチャ)によっても実行され得る。例えば、そのようなスマート構造は、例えば、緊急車両を検出したときに、車両検出を実行し、信号機を制御し、または、検出された車両に基づいて、他の交通制御機能を実行し得る。
【0043】
図1Bは、一実施形態による、図1Aの車両認識プラットフォームにおける音声データ、ライトデータ、および画像データを処理する別個の検出パイプラインのダイアグラム100Bである。図1Bを参照すると、車両認識プラットフォーム102は、音声データ、ライト信号、および画像データをそれぞれ処理する3つの別個の検出パイプラインを含む。音声データ処理パイプラインは、マイクロフォン機構116、音声プロセッサ108(図1Bにおいて不図示)、および音声分析回路110を含む。ライトデータ処理パイプラインは、ライトセンサ117、ライトプロセッサ113(図1Bにおいて不図示)、および、ライトパターン解析回路111を含む。画像データ処理パイプラインは、画像キャプチャ機構115、画像プロセッサ109(図1Bにおいて不図示)、および画像解析回路107を含む。
【0044】
動作中、音声分析回路110は、オーディオデータを(例えば、図3および図4に関連して説明されるニューラルネットワークなどの機械学習技法を使用して)解析して、音声イベントを決定する。ここで、オーディオデータは、車両の外部のソースによって生成され、車両に設置されたマイクロフォンアレイ(例えば、マイクロフォン機構116)によって感知される。画像解析回路107は、機械学習技法を使用して画像データを解析し、画像イベントを決定する。ここで、画像データは、車両に設置されたカメラアレイ(例えば、画像キャプチャ機構115)によって取得される。ライトパターン解析回路111は、機械学習技法を使用してライトセンサ117から受信されたライト信号を解析し、ライトパターンイベントを決定する。いくつかの態様において、画像イベントは、画像データ内の複数の画像フレームの少なくとも1つにおける緊急車両のビジュアル表現を検出している。音声イベントは、オーディオデータ内の複数のオーディオセグメントのうち少なくとも1つにおける緊急車両に関連付けられた音声を検出する。ライトパターンイベントは、緊急車両に関連付けられたライトパターンを検出する。
【0045】
検出イベントは、検出イベントに基づいて、オーディオ‐画像‐ライトアソシエーション(AILA)130および緊急車両認識(EVR)132を実行するように構成される車両識別回路105(図1Bにおいて不図示)へ伝達される。いくつかの態様において、車両識別回路105は、AILA130の代わりに、図1CにおけるAIA140などのオーディオ‐画像アソシエーション(AIA)を実行するよう構成される。いくつかの態様において、車両識別回路105は、音声イベントのオーディオサンプルを、複数の時間インスタンスについて、画像イベントの画像フレーム、および、ライトイベントのライト信号と照合することによって、AILA130を生成するよう構成される。車両識別回路105は追加的に、(例えば、図8に関連して説明されるデータ関連付け融合を実行することによって)AILA130に基づいてEVR132を生成し、3つのパイプラインからのマルチモーダルデータを使用して認識される緊急車両のタイプを決定する。いくつかの態様において、パイプラインの少なくとも2つは、(例えば、図1Cに関連して説明される)緊急車両認識132を実行するために車両識別回路105によって使用され得る。いくつかの態様において、緊急車両認識132は更に、V2VまたはV2Iアラート信号(例えば、図11Aおよび図11Bにおいて図示される)などの外部アラート信号134によって補助され得る。
【0046】
図1Cは、一実施形態による、図1Aの車両認識プラットフォームにおいて音声データおよび画像データを処理する畳み込みニューラルネットワーク(CNN)ベースの検出パイプラインのダイアグラム100Cを図示する。図1Cを参照すると、車両認識プラットフォーム102は、音声データおよび画像データをそれぞれ処理する2つの別個の検出パイプラインを含む。音声データ処理パイプラインは、マイクロフォン機構116、音声プロセッサ108、および音声分析回路110(図1Cにおいて不図示)を含む。画像データ処理パイプラインは、画像キャプチャ機構115、画像プロセッサ109、および画像解析回路107(図1Cにおいて不図示)を含む。
【0047】
動作中、音声分析回路110は、オーディオデータを(例えば、図3および図4に関連して説明されるニューラルネットワークなどの機械学習技法を使用して)解析して、音声イベントを決定する。ここで、オーディオデータは、車両の外部のソースによって生成され、車両上に設置されたマイクロフォンアレイ(例えば、マイクロフォン機構116)によって感知される。いくつかの態様において、音声分析回路110は、画像データへの音声変換136を実行し、この画像データは、音声イベントを検出するために使用され得る。いくつかの態様において、音声変換からの取得された画像データはまた、更なる処理のために画像解析回路107に伝達され、画像イベントの検出を促進する。
【0048】
画像解析回路107は、機械学習技法を使用して画像データを解析し、(例えば、CNN画像検出138を使用することによって)画像イベントを決定する。ここで、画像データは、車両上に設置されたカメラアレイ(例えば、画像キャプチャ機構115)によって取得される。いくつかの態様において、画像イベントは、画像データ内の複数の画像フレームの少なくとも1つにおける車両(例えば緊急車両)のビジュアル表現を検出(または識別)している。音声イベントは、オーディオデータ内の複数のオーディオセグメントの少なくとも1つにおける車両に関連付けられた音声を検出(または識別)している。
【0049】
検出イベントは、検出イベントに基づいて、オーディオ‐画像アソシエーション(AIA)140および緊急車両認識(EVR)134を実行するよう構成される車両識別回路105(図1Bにおいて不図示)へ伝達される。いくつかの態様において、車両識別回路105は、複数の時間インスタンスについて、音声イベントのオーディオサンプルを、画像イベントの画像フレームと照合することによって、AIA140を生成するよう構成される。車両識別回路105は追加的に、(例えば、図8に関連して説明されるデータ関連付け融合を実行することによって)AILA130に基づいてEVR132を生成し、3つのパイプラインからのマルチモーダルデータを使用して認識される緊急車両のタイプを決定する。AIA140を生成するために、車両識別回路105は更に、オーディオサンプルのサンプリングレートを用いて画像フレームのフレームレートを正規化し、複数の時間インスタンスの各時間インスタンスについて、画像フレーム(ASPIF)パラメータあたりのオーディオサンプルを決定する。ASPIFパラメータは次に、AIA140を表すデータ構造を生成するために使用される(例示的なデータ構造を以下に図示する)。
【0050】
図2は、一実施形態による、図1Aの車両認識プラットフォーム102の別の図を図示するダイアグラム200である。図2を参照すると、車両認識プラットフォーム102は、画像解析回路107、ライトパターン解析回路111、および音声分析回路110を含み、これらはすべて、(CPU、グラフィク処理ユニット(GPU)、ビジョン処理ユニット(VPU)、または、任意のAI処理ユニットを含み得る)中央処理装置(CPU)202として構成され得る。CPU202は、センサアレイインタフェース106を介して、画像キャプチャ機構115、ライトセンサ117、およびマイクロフォン機構116と通信する。図2には不図示であるが、CPU202は更に、音声プロセッサ108、画像プロセッサ109、およびライトプロセッサ113を含み得る。図2では図示であるが、車両識別回路105は、機械学習技法(例えば、図3および図4に関連して説明されるディープラーニングアーキテクチャ(DLA)206によって提供される機械学習技法)を使用して、CPU202からの音声イベント、画像イベント、および、ライトイベントデータを有するマルチモーダル入力に基づいて、AILA130、AIA140、およびEVR132を生成するよう構成される。車両認識プラットフォーム102は更に、予測生成回路103を使用して緊急車両予測204を生成および出力する。予測204は、(例えば、通知メッセージまたはコマンドとして)車両制御システム118へ送信され得、車両の運転者に通知するか、または、予測204に基づいて車両に関連付けられた自律または半自律アクションを実行する。
【0051】
いくつかの態様において、画像キャプチャ機構115は、360°ビュー(例えば、サラウンドビュー)を構築するために使用される4つ(またはより多く)のカメラを含む。これは、すべての方向において緊急車両を検出する上で、最適なカバレッジを提供する。いくつかの態様において、マイクロフォン機構116は、すべての方向における緊急車両のサイレンを「リッスン」するために異なる位置に配置された複数のマイクロフォン(例えば、4つのマイクロフォン)を含む。マイクロフォンは、以下の目的、すなわち、(a)緊急車両がカメラ検出場所、または、ブロックされている緊急車両(例えば、図9において図示される)の見通し線より遠いときでも、音声分類アルゴリズムを使用することによって緊急車両のサイレンを認識すること、(b)マイクロフォンによって受信された音声強度または時間差のいずれかによって、近い緊急車両の到達方向を予測すること、および、(c)サイレンのドップラーシフトを解析することによって、接近する緊急車両の速度を予測することを担い得る。
【0052】
図3は、いくつかの例示的な実施形態による、車両認識のために使用され得るディープラーニング(DL)モデルの訓練を図示するブロックダイアグラム300である。いくつかの例示的な実施形態において、機械学習アルゴリズムまたはツールとも総称されるディープラーニングプログラムを含む機械学習プログラム(MLP)は、関連付けデータに関連付けられた動作、または、車両認識に関連する他の人工知能(AI)ベースの機能を実行する(例えば、車両認識に関連して、車両104におけるAIベースの推論を実行する)ために利用される。
【0053】
図3に図示されるように、ディープラーニングモデル訓練308は、訓練データ302(特徴を含み得る)に基づいてディープラーニングアーキテクチャ(DLA)306内で実行される。ディープラーニングモデル訓練308中、DLモデルの更なる訓練の目的で、訓練データ302からの特徴が評価され得る。DLモデル訓練308は、訓練済みDLモデル310をもたらす。訓練済みDLモデル310は、新しいデータ314に基づいてDL評価316を提供するために使用され得る1または複数の分類器312を含み得る。いくつかの態様において、DLA306およびディープラーニングモデル訓練は、車両104からリモートで、ネットワークにおいて実行される。しかしながら、訓練済みモデルは、車両認識プラットフォーム102または車両制御システム118の一部として含まれ得るか、または、車両104によるネットワーク場所におけるアクセス/使用のために利用可能であり得る。
【0054】
いくつかの態様において、訓練データ302は、車両認識プラットフォーム102内の画像解析回路307、音声分析回路310、およびライトパターン解析回路311によって供給された画像データ、音声データ、およびライトデータなどの入力データ303を含み得る。入力データ303および出力データ305(例えば、入力データ303に対応する緊急車両のタイプなど、緊急車両情報)は、DLモデル310を訓練するためにDLモデル訓練308中に使用される。これに関して、訓練済みDLモデル310は、新しいデータ314(例えば、音声分析回路110、画像解析回路107、およびライトパターン解析回路111から車両識別回路105によって受信されたマルチモーダルデータ)を受信し、データに基づいて特徴を抽出し、新しいデータ314を使用してイベント決定を実行する(例えば、オーディオデータに基づいて音声イベントを決定する、画像データに基づいて画像イベントを決定する、および、ライト信号に基づいてライトパターンイベントを決定する)。
【0055】
ディープラーニングは、機械学習の一部であり、明示的にプログラムされることなく学習する能力をコンピュータに付与する研究分野である。機械学習は、既存のデータから学習し得る、データを関連付け得る、新しいデータについて予測し得る、本明細書においてツールとも称されるアルゴリズムの研究および構造を検討する。そのような機械学習ツールは、出力または評価316として表現されるデータ駆動型予測または決定を行うために、例示的な訓練データ(例えば、訓練データ302)からのモデルを構築することによって動作する。いくつかの機械学習ツール(例えば、ディープラーニングアーキテクチャ)に関して例示的な実施形態が提示されるが、本明細書において提示される原理は、他の機械学習ツールに適用され得る。
【0056】
いくつかの例示的な実施形態において、異なる機械学習ツールが使用され得る。例えば、ロジスティック回帰、単純ベイズ、ランダムフォレスト、ニューラルネットワーク、行列分解、およびサポートベクタマシンツールが、ディープラーニングモデル訓練308中に(例えば、訓練データ302を関連付けるために)使用され得る。
【0057】
機械学習における問題の2つの共通するタイプは、分類問題および回帰問題である。カテゴリ化問題とも称される分類問題は、項目を複数のカテゴリ値の1つに分類することを目的とする(例えば、この物体はリンゴか、またはオレンジか?)。回帰アルゴリズムは、(例えば、実数である値を提供することによって)いくつかの項目を定量化することを目的とする。いくつかの実施形態において、DLA306は、訓練データ302を利用して、識別された特徴の中で、アウトカムに影響を与える関連付けを見つける機械学習アルゴリズムを使用するよう構成され得る。
【0058】
機械学習アルゴリズムは、新しいデータ314を解析して評価316を生成するために、訓練データ302からの特徴を利用する。特徴は、観察される、機械学習モデルを訓練するために使用される現象の個別の測定可能な特性を含む。特徴の概念は、線形回帰などの統計技法において使用される説明変数に関する。有益で、区別でき、独立した特徴を選択することは、パターン認識、分類、および回帰におけるMLPの効果的なオペレーションのために重要である。特徴は、数値的特徴、文字列、およびグラフなど、異なるタイプであり得る。いくつかの態様において、訓練データは、コンピューティングデバイスによる使用のための、数値である特徴を有する異なるタイプであり得る。
【0059】
いくつかの態様において、DLモデル訓練308中に使用される特徴は、入力データ303、出力データ305、ならびに、以下、すなわち、複数のセンサ(例えば、オーディオ、モーション、GPS、画像センサ)からのセンサデータ;複数のアクチュエータからのアクチュエータイベントデータ(例えば、無線スイッチまたは他のアクチュエータ);複数の外部ソースからの外部情報;センサ状態データに関連付けられたタイマデータ(例えば、時間センサデータが取得される)、アクチュエータイベントデータ、または、外部情報ソースデータ;ユーザ通信情報;ユーザデータ;ユーザ挙動データなどのうち1または複数を含み得る。
【0060】
機械学習アルゴリズムは、訓練データ302を利用して、識別された特徴の中で、評価316のアウトカムに影響する関連付けを見つける。いくつかの例示的な実施形態において、訓練データ302は、既知の緊急車両からの画像データ、ライトデータ、および、オーディオデータを含む(これらの情報は、出力訓練データ305として使用される)。訓練データ302(識別された特徴を含み得る)を用いて、DLモデルは、DLA306内のDLモデル訓練308を使用して訓練される。訓練の結果は、訓練済みDLモデル310(例えば、図4のニューラルネットワーク420)である。DLモデル310が、評価を実行するために使用されるとき、新しいデータ314が訓練済みDLモデル310へ入力として提供され、DLモデル310は、出力として評価316を生成する。例えば、DLA306は、車両内のコンピューティングデバイスに(例えば、車両認識プラットフォーム102の一部として)配備され得、新しいデータ314は、センサアレイインタフェース106を介して受信された画像、音声、およびライトデータを含み得る。
【0061】
図4は、例示的な実施形態による、車両認識に使用され得るニューラルネットワークの構造を図示する。ニューラルネットワーク420は、ソースドメインデータ410(例えば、車両認識プラットフォーム102内のセンサアレイインタフェース106によって取得されたオーディオデータ、画像データ、およびライト信号)を入力として取得し、入力層430、中間、隠れ層440A、440B、440C、440Dおよび440E、ならびに出力層450を使用してソースドメインデータ410を処理し、結果460を生成する。いくつかの態様において、結果460は、緊急車両認識に使用される音声イベント、画像イベント、ライトパターンイベントを含む。
【0062】
層430~450の各々は、1または複数のノード(または「ニューロン」)を含む。ニューラルネットワーク420のノードは、図4において、円または楕円として示される。各ノードは、1または複数の入力値を取得し、ゼロまたはより多くの内部変数を使用して入力値を処理し、1または複数の出力値を生成する。入力層430への入力は、ソースドメインデータ410からの値である。出力層450の出力は結果460である。中間層440A-440Eは、「隠れ」と称される。なぜなら、入力または出力のいずれとも直接的に相互作用せず、完全にニューラルネットワーク420の内部にあるからである。5つの隠れ層が図4に示されるが、より多く、または、少ない隠れ層が使用され得る。
【0063】
結果を洗練するために訓練データセットが繰り返しモデルに入力される複数のエポック(例えば反復)にわたって、訓練データセットに対してモデルが実行され得る。例えば、教師あり学習フェーズにおいて、入力の所与のセットについて、出力を予測するためのモデルが作成され、複数のエポックにわたって評価され、訓練データセットに対する最大数の入力のために、所与の入力に対応するものとして指定される出力を、より高い信頼性で提供する。別の例において、教師なし学習フェーズについて、データセットをnのグループにクラスタリングするためのモデルが作成され、所与の入力を所与のグループに配置する一貫性、および、各エポックにわたるnの所望のクラスタを生成する信頼性について、複数のエポックにわたって評価される。
【0064】
エポックが実行されると、モデルが評価され、モデルを反復的により良く洗練することを試行するように変数の値が調整される。様々な態様において、評価は、偽陰性に偏るか、偽陽性に偏るか、または、更にはモデルの全体的な正確度に関して偏る。使用される機械学習技法に応じて、値は複数の方式で調整され得る。例えば、遺伝的または進化的アルゴリズムにおいて、所望の出力の予測に関してもっとも成功するモデルのための値は、後のエポック中にモデルが使用する値を作成するために使用される。これは、追加のデータ点を提供するためのランダムなバリエーション/変異を含み得る。当業者であれば、線形回帰、ランダムフォレスト、決定木学習、ニューラルネットワーク、ディープニューラルネットワークなどを含む、本開示に適用され得る複数の他の機械学習アルゴリズムを認識するであろう。
【0065】
各モデルは、入力に影響する1または複数の変数の値を変動させることによって、複数のエポックにわたってルールまたはアルゴリズムを作成し、より近く所望の結果にマッピングするが、訓練データセットが変動し得るので、非常に大きいことが望ましく、完全な正確度および精度が達成可能でないことがあり得る。したがって、所与のモデルの正確度が十分に高い、もしくは十分に低い、または、正確度のプラトーに達したとき、学習フェーズを構成するエポックの数は、所与の数の試行、または、固定の時間/コンピューティングバジェットとして設定され得るか、または、当該数/バジェットに達する前に終結し得る。例えば、訓練フェーズがnのエポックを実行し、少なくとも95%の正確度でモデルを生成するよう設計され、当該モデルが第nのエポックより前に生成される場合、学習フェーズは早期に終結され、最終目標の正確度閾値を満たす生成されたモデルを使用し得る。同様に、所与のモデルが、ランダムチャンス閾値を満たすのに十分不正確である(例えば、所与の入力についての真/偽出力の決定において、モデルが55%のみの正確度である)場合、そのモデルの学習フェーズは、早期に終結され得るが、学習フェーズにおける他のモデルは、訓練を継続し得る。同様に、所与のモデルが複数のエポックにわたって同様の正確度を提供する、または、その結果において揺らぐ(パフォーマンスのプラトーに達した)ことを継続するとき、エポックの数/コンピューティングバジェットに達する前に、所与のモデルの学習フェーズが終結し得る。
【0066】
学習フェーズが完了すると、モデルが完成される。いくつかの例示的な実施形態において、完成されたモデルが、テスト基準に対して評価される。第1の例において、その入力についての既知の出力を含むテストデータセットが、完成されたモデルに入力され、訓練されていないデータの扱いにおけるモデルの正確度が決定される。第2の例において、偽陽性率または偽陰性率が、完成後のモデルを評価するために使用され得る。第3の例において、データクラスタリングの間の線引きが、データのそのクラスタについてのもっとも明確な境界を生成するモデルを選択するために使用される。
【0067】
ニューラルネットワーク420は、ディープラーニングニューラルネットワーク、ディープ畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、または、別のタイプのニューラルネットワークであり得る。ニューロンは、所与のニューロンに提供される入力の重みに基づいてメモリに保持される値をいつ「思い出す」か、いつ「忘れる」かを決定し得る記憶を有する、データ処理および人工知能、特に機械学習において使用されるアーキテクチャ要素である。ニューラルネットワーク420におけるニューロンの例示的なタイプは、長期短期記憶(LSTM)ノードである。本明細書において使用されるニューロンの各々は、ネットワークにおける他のニューロンから、予め定められた数の入力を受け付け、解析されるフレームの内容についての関係およびサブ関係出力を提供するよう構成される。個別のニューロンは、共に繋がれ、および/または、ニューラルネットワークの様々な構成における木構造に組織化され、発話(utterance)におけるフレームの各々が互いどのように関連するかについてのインタラクションおよび関係学習モデリングを提供し得る。
【0068】
例えば、ニューロンとして機能するLSTMは、入力ベクトル(例えば、時系列データ)、メモリセル、および出力ベクトルを扱うための複数のゲートを含む。入力ゲートおよび出力ゲートはそれぞれ、メモリセルへ流れ込む、および、そこから流れ出す情報を制御し、忘却ゲートは任意で、ニューラルネットワークにおける早期のリンクされたセルからの入力に基づいて、メモリセルから情報を除去する。様々なゲートについての重みおよびバイアスベクトルは、訓練フェーズの間に調整され、訓練フェーズが完全すると、通常のオペレーションについて、それらの重みおよびバイアスが完成される。当業者であれば、ニューロンおよびニューラルネットワークが、プログラムで(例えば、ソフトウェア命令を介して)、または、各ニューロンをリンクしてニューラルネットワークを形成する専用のハードウェアを介して構築され得ることを理解するであろう。
【0069】
人工ニューラルネットワークと称されることがあるニューラルネットワークは、動物の脳の生物学的なニューラルネットワークの考慮に基づくコンピューティングシステムである。そのようなシステムは、学習と称されるパフォーマンスを漸進的に改善し、典型的にはタスク固有のプログラムなしで、タスクを実行する。例えば、画像認識において、ニューラルネットワークは、物体の名称でタグ付けされた例示的な画像を解析し、かつ、物体および名称を学習することによって、物体を含む画像を識別するように教えられ得、分析結果を使用して、タグ付けされていない画像における物体を識別し得る。ニューラルネットワークはニューロンと呼ばれる接続単位の集合に基づいている。ここで、シナプスと呼ばれる、ニューロン間の各接続は、接続の強度と共に変動する活性化強度と共に、一方向の信号を送信し得る。受信ニューロンは、典型的には、潜在的に多くの送信ニューロンからの組み合わされた到来信号が十分な強度(強度はパラメータである)であるかどうかに基づいて、信号を活性化して、それに接続された下流のニューロンに伝搬し得る。
【0070】
ディープニューラルネットワーク(DNN)は、複数の層から構成されるスタック型ニューラルネットワークである。層は、計算が発生する場所であるノードから構成され、十分な刺激に遭遇するときに発火する人間の脳におけるニューロンを大まかに模倣する。ノードは、データからの入力を、当該入力を増幅するか、または弱める係数または重みのセットと組み合わせる。これにより、アルゴリズムが学習することを試みているタスクについての入力に対して重要性を割り当てる。これらの入力‐重みの積は合計され、和はノードの活性関数と呼ばれるものを通り、信号がネットワークを更に進行してアウトカムに影響するかどうか、および、その程度を決定する。DNNは、特徴抽出およびトランスフォーメーションのための非線形処理ユニットの一連の多くの層を使用する。連続する層の各々は、前の層からの出力を入力として使用する。より高いレベルの特徴は、より低いレベルの特徴から得られ、階層型の表現を形成する。入力層に続く層は、入力の結果をフィルタリングし、かつ、次の畳み込み層によって使用される特徴マップを生成する畳み込み層であり得る。
【0071】
DNNアーキテクチャの訓練において、変数の間の関係を推定するための統計的プロセスのセットとして構造化される回帰は、コスト関数の最小化を含み得る。コスト関数は、出力を是正するための訓練例のマッピングにおいて、ニューラルネットワークがどれほど良く実行されるかを表す数を返す関数として実装され得る。訓練において、コスト関数値が事前に決定された範囲内にない場合、既知の訓練画像に基づいて、逆伝搬が使用される。ここで、逆伝搬は、確率的勾配降下法(SGD)方法などの最適化方法と共に使用される人工ニューラルネットワークを訓練する一般的な方法である。
【0072】
逆伝搬の使用は、伝搬および重み更新を含み得る。入力がニューラルネットワークに提示されるとき、出力層に達するまで、ニューラルネットワークを通って、層を跨いで前方へ伝搬される。ニューラルネットワークの出力は次に、コスト関数を使用して所望の出力と比較され、出力層におけるノードの各々についてのエラー値が計算される。エラー値は、出力から開始して、各ノードが元の出力への寄与を大まかに表す関連付けられたエラー値を有するまで後方へ伝搬される。逆伝搬はこれらのエラー値を使用して、ニューラルネットワークにおける重みに関して、コスト関数の勾配を計算し得る。計算された勾配は、選択された最適化方法に入力され、重みを更新し、コスト関数を最小化することを試みる。
【0073】
いくつかの例示的な実施形態において、各層の構造は予め定義される。例えば、畳み込み層は、小さい畳み込みカーネル、および、それらのそれぞれの畳み込みパラメータを含み得、合計層は、2以上の値の和または加重和を計算し得る。訓練は、合計のための重み係数を定義することを補助する。
【0074】
DNNのパフォーマンスを改善する1つの方式は、特徴抽出層についてのより新しい構造を識別することであり、別の方式は、所望のタスクを達成するために異なる層においてパラメータが識別される方式を改善することによる。所与のニューラルネットワークについて、最適化される数百万のパラメータが存在し得る。これらすべてのパラメータを最初から最適化することを試みることは、利用可能なコンピューティングリソースの数、および、訓練セットにおけるデータの量に応じて、数時間、数日、または、更には数週間かかり得る。
【0075】
図5は、一実施形態による、車両認識プラットフォームにおいて使用され得るオーディオデータ処理パイプライン500を図示する。図5を参照すると、オーディオ入力502が、マイクロフォン機構116を介して受信され、音声分析回路110による処理の前に、最初に音声プロセッサ108によって処理される。より具体的には、音声分析回路110は、オーディオ入力502に関連付けられた複数のオーディオセグメントの各オーディオフレームについての特徴ベクトル506をもたらす特徴抽出504を実行する。音声分析回路110は更に、機械学習技法(例えば、ニューラルネットワーク、または、図3および図4に関連して説明されるものなど、別のタイプの機械学習技法)を使用して、各オーディオサンプルについての特徴ベクトル506に基づいて音声検出508を実行する。例示的な実施形態において、音声検出508は、機械学習フレームワーク(例えば、サポートベクタ処理、ランダムフォレスト処理など)を使用して、出力510を生成する。いくつかの態様において、出力510は、オーディオ入力502に関連付けられたオーディオセグメントの1または複数の中において、緊急車両に関連付けられた1または複数の音声を検出することを含む、音声イベントの決定を含む。
【0076】
図6は、一実施形態による、車両認識プラットフォームにおいて使用され得る信号‐画像変換を有するオーディオデータ処理パイプライン600を図示する。図6を参照すると、オーディオ入力602がマイクロフォン機構116を介して受信され、音声分析回路110による処理の前に、最初に音声プロセッサ108によって処理される。いくつかの態様において、音声分析回路110は、画像分析において使用されるCNNを利用して、オーディオ特徴抽出および検出を実行する。より具体的には、対応するスペクトログラム606を生成するためにオーディオデータ602に対して音声変換604が実行される。スペクトログラム606の特徴608は、特徴610に基づいて音声検出610を実行して出力612を生成するために、CNNへの入力として使用される。いくつかの態様において、出力612は、オーディオ入力602に関連付けられたオーディオセグメントの1または複数の中において、緊急車両に関連付けられた1または複数の音声を検出することを含む、音声イベントの決定を含む。
【0077】
図7は、一実施形態による、車両認識プラットフォームにおいて使用され得る画像データ処理パイプライン700を図示する。図7を参照すると、画像データ712が、画像キャプチャ機構115を介して入力として受信され、画像解析回路107による処理の前に、最初に画像プロセッサ109によって処理される。より具体的には、画像解析回路107は、最初の復号および前処理714を実行する。画像解析回路107は更に、機械学習技法(例えば、ニューラルネットワーク、または、図3および図4に関連して説明されるものなど、別のタイプの機械学習技法)を使用して、画像データを使用して、物体分類716および物体位置同定718を実行する。画像解析回路107は更に、機械学習技法を使用して、画像イベント(例えば、画像データの少なくとも1つの画像フレーム内で検出される緊急車両のビジュアル表現)の検出、および、緊急車両に特徴的な画像内のライトタイプまたはライトパターンの検出を含み得る画像検出720を実行する。検出された画像イベントおよびライトパターンは、出力722を生成するために使用される。
【0078】
いくつかの態様において、緊急車両ライト検出および認識が、信号処理を通じて発生し得る。ここで、ライト検出器は、受信されたライト信号を、(例えば、図1Bに図示されるデータ処理パイプラインを使用して)既存のテンプレートと照合する。他の面では、緊急車両ライト検出および認識は、画像処理を通じて発生し得る。ここで、画像におけるライトスポットが検出され、その後、(例えば、図1Cに図示されるデータ処理パイプラインを使用して)ニューラルネットワークを通じて分類が発生する。
【0079】
オーディオ‐画像アソシエーション
【0080】
オーディオ、ライト、画像イベント検出に続き、オーディオ、ライト、および画像データに基づいて緊急車両タイプを正確に認識するために、緊急車両画像と緊急車両音声との間のアソシエーションが発生する。いくつかの態様において、オーディオ‐画像アソシエーションの生成は、以下を含み得る。
【0081】
(a)オーディオ‐画像正規化およびアソシエーション。オーディオ信号サンプリングレートは、秒あたりの画像フレーム(fps)レートより大きいので、正規化が適用され、検出された画像を、検出されたオーディオと秒ごとに関連付けることを可能にする。
【0082】
(b)正規化およびアソシエーションは、経時的にオーディオサンプリング正規化を検討し、画像フレームレート、オーディオサンプルアソシエーションを、各画像フレーム、および、各画像フレームに関連付けられた音声イベントと照合し得る。下の表1は、緊急車両認識に関連して使用され得るオーディオ‐画像正規化およびアソシエーションパラメータを説明する。
【表1】
【0083】
いくつかの態様において、車両認識プラットフォーム102内の車両識別回路105は、作成され、時間と共に継続的に更新される、分析洞察のためのオーディオ‐画像アソシエーションをデータ構造(例えば表)として生成する。いくつかの態様において、オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、音声イベントのオーディオサンプルを画像イベントの画像フレームと照合することに基づいて生成される。
【0084】
表2は、各画像フレーム、および、各画像フレームに関連付けられたオーディオサンプルの各グループについての検出結果を経時的に示す例示的なオーディオ‐画像アソシエーションデータ構造を図示する。このデータ構造におけるエントリの寿命は、1または2時間に設定され得る(すなわち、サイズを節約するために、古いエントリは除去される)。
【表2】
【0085】
いくつか態様において、オーディオ‐画像アソシエーション(例えば、表2に図示される)を生成するために、車両識別回路105は、オーディオサンプルのサンプリングレートを用いて、画像フレームのフレームレートを正規化し、複数の時間インスタンスの各時間インスタンスについて、画像フレーム(ASPIF)パラメータごとのオーディオサンプルを決定する(例えば、表1に図示される)。いくつかの態様において、オーディオ‐画像アソシエーションはデータ構造であり、車両識別回路105は、(画像フレームの各画像フレームについて)データ構造に以下の情報、すなわち、画像フレームに対応する複数の時間インスタンスのうちの時間インスタンスの識別子;画像フレームの識別子;ASPIFパラメータに基づく画像フレームに対応するオーディオサンプルのサブセットの識別子;画像フレームに関連付けられた検出結果(検出結果は画像イベントに基づく);および、オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果(検出結果は音声イベントに基づく)を格納する。
【0086】
いくつかの態様において、画像フレームに関連付けられた検出結果は、画像フレーム(例えば、フレーム検出オブジェクト)内において検出された緊急車両のタイプである。いくつかの態様において、オーディオサンプル(例えば、サンプル~サンプル)のサブセットの各オーディオサンプルに関連付けられる検出結果(例えば、表2における列「オーディオサンプル検出結果」において示される)は、オーディオサンプルに基づいて検出された緊急車両のタイプである。
【0087】
いくつかの態様において、車両識別回路105は更に、オーディオサンプルのサブセットに関連付けられた検出結果にクラスタリング機能を適用し、オーディオサンプルのサブセットに関連付けられた、組み合わされた検出結果を生成する。より具体的には、車両識別回路105は、所与の画像フレームについての列「オーディオサンプル検出結果」における各オーディオサンプルについて示される検出結果にクラスタリング機能を適用する。オーディオサンプルのサブセットについての組み合わされた検出結果が生成された後に、車両識別回路105は、画像フレームに関連付けられた検出結果、および、オーディオサンプルのサブセットに関連付けられた、組み合わされた検出結果のデータ融合を実行し、緊急車両認識を実行する。
【0088】
図8は、一実施形態による、車両認識のためのオーディオ‐ビジュアル検出関連付けおよび融合の方法800を図示するフローチャートである。表2および図8を参照すると、方法800は、オペレーション802で選択される時間Tnなど、特定の時間インスタンスについて実行され得る。オペレーション804において、(例えば、表2に図示されるものなど、データ構造によって表されるオーディオ‐画像アソシエーションを参照することによって)データ構造ルックアップが実行される。オペレーション806において、ハッシュ値Tnのエントリが見つけられ、エントリにおけるデータがオペレーション808において取得される。オペレーション810および812において、対象の画像フレームについてのサブエントリが取得される。これは、時間インスタンスTnにおいて、フレームに対応するオーディオサンプルのサブセットについてのオーディオサンプルIDを決定することを含む。オペレーション814において、画像フレーム検出結果が取得される(例えば、検出結果は、検出された画像イベントを含み得る)。オペレーション816において、オーディオサンプル検出結果が取得され、時間インスタンスTnに関連付けられたすべてのオーディオサンプルについての組み合わされた検出結果が決定される(例えば、クラスタリング機能の後に決定された、検出された音声イベントは、時間インスタンスTnに関連付けられたすべてのオーディオサンプルについての検出結果に適用される)。オペレーション818において、データ関連付けまたは融合が、すべてのオーディオサンプルについての組み合わされた検出結果と、画像フレーム検出結果との間で実行され、最終検出結果を決定する。
【0089】
ライト‐画像アソシエーション
【0090】
いくつかの態様において、ライト検出が、取得された画像データにおけるライトスポット検出を通じて発生し、かつ、機械学習技法(例えば、ニューラルネットワーク)が適用される(例えば、図1Cに図示)場合、ライトおよび画像レートは、画像fpsレートに従い得る。この場合、オーディオサンプリングレートは、画像fpsに正規化される。ライト検出が、別個のパイプライン(例えば、図1Bに図示)を通じて発生する場合、オーディオサンプリング周波数および画像データfpsレートを用いてライト放射周波数を正規化するために、正規化プロセスが使用され得る。
【0091】
いくつかの態様において、人間の目の任意の攪乱を回避し、緊急の感知を伝えるために、緊急車両認識通知を生成するための警告信号設計は、1~3Hzの周波数範囲(すなわち、60~180fpm「分あたりのフラッシュ」)のフラッシュレートのオペレーションを検討する。画像データ(表1および表2に示される)に対するオーディオサンプリング正規化およびアソシエーションの同一のアプローチが、画像およびオーディオデータに対するライトサンプリング正規化およびアソシエーションに適用される。
【0092】
オーディオ/音源位置同定(SSL)モジュール
【0093】
いくつかの態様において、車両認識プラットフォーム102は、追加の特徴として、SSLモジュール(不図示)によって実行される音源位置同定を含む。SSLモジュールを有する目的は、緊急の音源の位置を自動的に推定することである。SSLモジュールの一部として推定され得るソース位置には2つのコンポーネント、すなわち、到来方向推定および距離推定がある。
【0094】
いくつかの態様において、SSLモジュールは、一連のマイクロフォンを用いて実装される、到来の時間遅延(TDOA)および到来方向(DOA)アルゴリズムに基づいて、1D,2D,3D次元位置同定技法を使用し得る。いくつかの態様において、位置同定モジュールは、緊急車両により発せられた音声におけるドップラーシフトの分析によって増強される、定期的な間隔で位置同定(TDOA/DOA)からのデータを使用して、緊急車両の相対速度を計算するよう構成される。表3は、指向性予測機能を組み込むAVの例を示す。
【表3】
【0095】
図9は、一実施形態による、開示された技法を使用する、緊急車両認識中の車両の例示的な位置のダイアグラム900を図示する。図9を参照すると、車両906は、開示された緊急車両認識技法を使用し得る。より大きい車両(例えば、トラック)904が、緊急車両902の前で運転しており、緊急車両902に対する車両906の見通しをブロックしている。しかしながら、車両906は、車両認識プラットフォーム(例えば、プラットフォーム102)を使用して、車両906上に設置されたセンサからのセンサデータを使用して、音声、ライト、および画像分類を介して、前方から来る緊急車両902を検出する。
【0096】
図10は、一実施形態による、車両認識に使用されるニューラルネットワークモデルによる継続的学習に関連して使用される転移学習のための方法1000を図示するフローチャートである。方法1000は、車両制御システム118、車両識別回路105、または、車両認識プラットフォーム102内の任意の他の回路によって、ニューラルネットワーク処理119の一部として実行され得る。代替的に、ニューラルネットワークモデル訓練は、リモート(車両104の外部)で実行され得、車両は、訓練済みニューラルネットワークモデルを用いて構成され得る(または、リモートのネットワークストレージに格納され得る訓練済みモデルへのアクセスを提供され得る)。
【0097】
いくつかの態様において、方法1000は、訓練データとしてサイレンおよび緊急車両の予めロードされたデータベースを使用し得る。追加的に、車両認識プラットフォーム102は、継続的学習モジュールを(例えば、車両識別回路105またはニューラルネットワーク処理モジュール119の一部として)使用して、訓練データの正確度をモニタリングすることを助け得る。より具体的には、継続的学習モジュールは、図10に図示され、以下で説明されるように、画像キャプチャ機構115が、任意の是正のために、システムに対する検出およびフィードバックを検証することを可能にする。
【0098】
オペレーション1002において、ニューラルネットワーク処理モジュール119は、サイレンが検出されるかどうかを決定する。サイレンが検出された場合、オペレーション1004において、オーディオ分類が実行され、音声イベントが決定される。オペレーション1006において、予め定められた遅延(例えば、30秒)が導入される。オペレーション1008において、画像イベントの存在を決定するために、画像データが解析される。オペレーション1010において、画像イベントおよび音声イベントの存在に基づいて緊急車両の特定のタイプを決定するために緊急車両認識が実行される。特定のタイプの緊急車両(例えば、救急車)が正しく認識される場合、オペレーション1012において、重みが更新され、訓練プロセスが終了する。特定のタイプの緊急車両が正しく認識されない場合、オペレーション1014において、新しい処理遅延が導入される。オペレーション1016において、合計訓練時間(例えば2分間)が経過したかどうかが決定される。合計訓練時間が経過していない場合、オペレーション1008において訓練が再開する。合計訓練時間が経過した場合、オペレーション1018において処理が再開し、訓練が失敗したと決定され、オペレーション1020において、ニューラルネットワークの重みが適宜更新される。オペレーション1016~1020は、車両検出のためにニューラルネットワークモデルを使用する推論に関する。推論の継続が失敗した場合、モデルを再訓練するために、新しいデータセットがバックエンドサーバ(またはクラウドサーバ)にフィードバックされる。次に、新しい事前訓練済みモデルが再び車両にロードされる。
【0099】
緊急車両認識技法は、本明細書において、車両内の車両認識プラットフォームによって実行されると説明されるが、本開示はこの点に限定されない。より具体的には、開示された技法は、RSU、基地局などの他のタイプのデバイスにおいて実装される認識プラットフォームによって実行され得る。
【0100】
図11Aおよび図11Bは、一実施形態による、緊急車両通知のためのV2VおよびV2I協調を図示する。図11Aは、V2V協調のダイアグラム1100Aを図示する。緊急車両1102に近い車両1104は、開示された緊急車両認識技法を使用して(例えば、感知されたオーディオ、画像、およびライトデータに基づくマルチモーダル検出を使用して)緊急車両を認識し得る。車両1104は、V2Vメッセージ1110および1112を通じて、近傍にある車両1106および1108と、緊急車両1102の存在、および、その場所および速度に関する情報を共有し得る。
【0101】
図11Bは、V2I協調のダイアグラム1100Bを図示する。緊急車両1102に近い路側ユニット(RSU)1120および1122は、開示された緊急車両認識技法を使用して(例えば、感知されたオーディオ、画像、およびライトデータに基づくマルチモーダル検出を使用して)緊急車両1102を認識し得る。RSU1120および1122は、V2Iメッセージ(例えば、メッセージ1128および1130)を通じて、近傍にある車両(例えば、車両1124および1126)と、緊急車両1102の存在、ならびに、その場所および速度に関する情報を共有し得る。
【0102】
いくつかの態様において、協調検出は、拡張された感知能力を提供し、緊急車両のマルチモーダル認識に追加する。また、道路の循環を助け、緊急車両のより大きいカバレッジにおける車両が、協調的方式で道を空け得る。
【0103】
図12は、一実施形態による、緊急車両認識のための方法1200を図示するフローチャートである。方法1200は、例えば、車両認識プラットフォーム102内の1または複数の回路によって実行され得るオペレーション1202、1204、1206、1208および1210を含む。オペレーション1202において、車両の外部の音声が(例えば、マイクロフォン機構116を介して)キャプチャされる。オペレーション1204において、キャプチャされた音声は、音声イベントを識別するためのオーディオ機械学習技法を使用して解析される。例えば、音声分析回路110は、マイクロフォン機構116から受信されたオーディオデータを解析して、音声イベントを識別する。オペレーション1206において、(例えば、画像キャプチャ機構115を使用して)車両の外部の画像がキャプチャされる。オペレーション1208において、キャプチャされた画像は、画像イベントを識別するための画像機械学習技法を使用して解析される。オペレーション1210において、車両のタイプは、画像イベントおよび音声イベントに基づいて識別される。
【0104】
いくつかの態様において、オーディオ‐画像アソシエーションは、(例えば、車両識別回路105によって)生成される。オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、音声イベントのオーディオサンプルを画像イベントの画像フレームと照合する。オーディオ‐画像アソシエーションに基づいて車両のタイプを識別するために車両認識が実行される。車両インタフェースを介してメッセージが車両制御システムへ伝達される。メッセージは車両認識に基づく。
【0105】
いくつかの態様において、画像イベントは、画像フレームの少なくとも1つにおける車両のビジュアル表現を検出することであり、音声イベントは、オーディオサンプルの少なくとも1つにおける車両に関連付けられた音声を検出することである。オーディオ‐画像アソシエーションを生成することは、オーディオサンプルのサンプリングレートを用いて、画像フレームのフレームレートを正規化し、複数の時間インスタンスの各時間インスタンスについて、画像フレームあたりのオーディオサンプル(ASPIF)パラメータを決定することを含む。
【0106】
いくつかの態様において、オーディオ‐画像アソシエーションは、データ構造であり、方法は更に、画像フレームの各画像フレームについて、以下の情報、すなわち、画像フレームに対応する複数の時間インスタンスのうちの時間インスタンスの識別子;画像フレームの識別子;ASPIFパラメータに基づいて画像フレームに対応するオーディオサンプルのサブセットの識別子:画像フレームに関連付けられた検出結果(検出結果は画像イベントに基づく);およびオーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果(検出結果は音声イベントに基づく)がデータ構造において格納され得ることを含む。
【0107】
いくつかの態様において、画像フレームに関連付けられた検出結果は、画像フレーム内で検出された車両のタイプである。オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果は、オーディオサンプルに基づいて検出された車両のタイプである。いくつかの態様において、クラスタリング機能は、オーディオサンプルのサブセットに関連付けられた検出結果に適用され、オーディオサンプルのサブセットに関連付けられた、組み合わされた検出結果を生成する。いくつかの態様において、車両認識を実行することは、画像フレームに関連付けられた検出結果、および、オーディオサンプルのサブセットに関連付けられた組み合わされた検出結果のデータ融合を実行することを含む。いくつかの態様において、メッセージは、車両制御システムへの伝送のために生成され、メッセージは車両のタイプを含む。車両のタイプは、緊急車両のタイプである。車両制御システムは、緊急車両のタイプを示すメッセージに基づいて応答アクションを実行する。
【0108】
実施形態は、ハードウェア、ファームウェア、及びソフトウェアのうち1つまたはこれらの組み合わせに実装されてよい。実施形態はまた、機械可読ストレージデバイス上に格納される命令として実装され得、それは、本明細書で説明される動作を実行すべく少なくとも1つのプロセッサにより読み出され、実行され得る。機械可読ストレージデバイスは、機械(例えば、コンピュータ)により読み出し可能な形態において情報を格納するための任意の非一時的なメカニズムを含み得る。例えば、機械可読ストレージデバイスは、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス、ならびに他のストレージデバイスおよび記憶媒体を含む機械可読媒体を含み得る。
【0109】
機械可読媒体上の命令を実行するためにプロセッササブシステムが使用され得る。プロセッササブシステムは、1または複数のプロセッサを含み得、その各々は、1または複数のコアを有する。追加的に、プロセッササブシステムは、1または複数の物理的デバイスに配置され得る。プロセッササブシステムは、グラフィク処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、または、固定機能プロセッサなど、1または複数の専用プロセッサを含み得る。
【0110】
本明細書に説明されるように、例は、ロジックまたは多数のコンポーネント、モジュールまたはメカニズムを含んでよく、またはその上で動作してよい。モジュールは、本明細書において説明されるオペレーションを実行するために1または複数のプロセッサに通信可能に連結されたハードウェア、ソフトウェア、またはファームウェアであり得る。モジュールはハードウェアモジュールであってよく、そのようなモジュールは、指定された動作を実行することの可能な有形なエンティティとみなされてよいし、特定の態様で構成され、または配置されてよい。例において、回路は、モジュールとして特定の方式で構成(例えば、内部にまたは他の回路などの外部エンティティに関し)されてよい。例において、1または複数のコンピュータシステム(例えば、スタンドアロン、クライアント、またはサーバコンピュータシステム)、または、1または複数のハードウェアプロセッサの全体または一部は、ファームウェアまたはソフトウェア(例えば、命令、アプリケーション部分、またはアプリケーション)によって、指定された動作を実行するよう動作するモジュールとして構成され得る。例において、ソフトウェアは機械可読媒体上に存在し得る。例において、ソフトウェアは、モジュールの基本的なハードウェアによる実行時、ハードウェアに対し、指定された動作を実行させる。従って、ハードウェアモジュールという用語は、有形なエンティティを包含し、指定された方式で動作するため、または、本明細書中に記載される任意の動作の一部またはすべてを実行するために、物理的に構築され、具体的に構成され(例えば、配線で接続され)、または、一時的に(例えば過渡的に)構成された(例えばプログラムされた)エンティティであると理解される。モジュールが一時的に構成される例を検討すると、モジュールの各々は、どの時点においてもインスタンス化される必要はない。例えば、モジュールが、ソフトウェアを用いて構成された汎用ハードウェアプロセッサを備える場合、この汎用ハードウェアプロセッサは、異なる時間において、異なるモジュールのそれぞれとして構成されてよい。従って、ソフトウェアは、ハードウェアプロセッサを構成し得、例えば、1つの時間インスタンスにおいて特定のモジュールを構成し、異なる時間インスタンス。において、異なるモジュールを構成する。モジュールはまた、本明細書において説明される方法を実行するように動作するソフトウェアまたはファームウェアモジュールであり得る。
【0111】
本文書において使用される回路構成または回路は、例えば、ハードワイヤード回路構成、1または複数の個別の命令処理コアを含むコンピュータプロセッサなどのプログラマブル回路構成、状態機械回路構成、および/または、プログラマブル回路構成によって実行される命令を格納するファームウェアを単体で、または、任意の組み合わせで含み得る。回路、回路構成、またはモジュールは、集合的に、または個別に、より大きいシステム、例えば、集積回路(IC)、システムオンチップ(SoC)、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、サーバ、スマートフォンなどの一部を形成する回路構成として具現化され得る。
【0112】
本明細書の任意の実施形態において使用される場合、「ロジック」という用語は、上述のオペレーションのいずれかを実行するよう構成されたファームウェアおよび/または回路構成を指し得る。ファームウェアは、メモリデバイスおよび/または回路構成にハードコーディングされた(例えば、不揮発性の)コード、命令または命令セットおよび/またはデータとして具現化されてよい。
【0113】
本明細書の任意の実施形態において使用される「回路構成」は、例えば、プログラマブル回路構成によって実行される命令を格納するハードワイヤード回路構成、プログラマブル回路構成、状態機械回路構成、ロジック、および/またはファームウェアの単体または任意の組み合わせを含み得る。回路構成は、集積回路チップなどの集積回路として具現化され得る。いくつかの実施形態において、回路構成は、少なくとも部分的に、本明細書において説明される機能に対応するコードおよび/または命令セット(例えば、ソフトウェア、ファームウェアなど)を実行するプロセッサ回路構成によって形成され得、それにより、本明細書において説明されるオペレーションの1または複数を実行するための汎用プロセッサを特定用途処理環境に変換する。いくつかの実施形態において、プロセッサ回路構成は、スタンドアロンの集積回路として具現化され得るか、または、集積回路上の複数のコンポーネントの1つとして組み込まれ得る。いくつかの実施形態において、ノードまたは他のシステムの様々なコンポーネントおよび回路構成が、システムオンチップ(SoC)アーキテクチャにおいて組み合わされ得る。
【0114】
図13は、一実施形態による、コンピュータシステム1300の例示的な形態における機械を図示するブロックダイアグラムであり、この中では、命令のセットまたはシーケンスが実行されて、本明細書において説明される方法のいずれか1つを機械に実行させ得る。代替的な実施形態において機械は、スタンドアロンのデバイスとして動作する。あるいは、その他の機械へと接続され(例えば、ネットワーク接続され)てよい。ネットワーク接続された配置において機械は、サーバ-クライアントネットワーク環境におけるサーバまたはクライアントマシンのいずれかの資格を持って動作することができる。あるいは、ピアツーピア(または分散型)ネットワーク環境におけるピアマシンとして動作することができる。機械は、車両サブシステム、パーソナルコンピュータ(PC)、タブレットPC、ハイブリッドタブレット、パーソナルデジタルアシスタント(PDA)、携帯電話、または、当該機械によって講じられるアクションを指定する命令(シーケンシャルまたは別の態様)を実行することが可能な任意の機械であり得る。更に、単一の機械のみが図示されているものの、用語"機械"はまた、本明細書に説明された任意の1または複数の方法論を実行する命令の組(または複数の組)を個別にまたは共同に実行する、機械の任意の集まりを含むと解釈されるものとする。同様に、用語"プロセッサベースのシステム"は、本明細書に説明された任意の1または複数の方法論を実行する命令を個別にまたは共同に実行する、プロセッサ(例えば、コンピュータ)によって制御されるか動作させられる1または複数の機械の任意の組を含むと解釈されるものとする。
【0115】
例示的なコンピュータシステム1300は、少なくとも1つのプロセッサ1302(例えば、中央処理装置(CPU)、グラフィク処理ユニット(GPU)、または両方、プロセッサコア、コンピューティングノードなど)、メインメモリ1304、およびスタティックメモリ1306を含み、これらはリンク1308(例えばバス)を介して互いに通信する。コンピュータシステム1300は、ビデオディスプレイユニット1310、英数字入力デバイス1312(例えば、キーボード)、およびユーザインタフェース(UI)ナビゲーションデバイス1314(例えば、マウス)を更に含んでよい。一実施形態において、ビデオディスプレイユニット1310入力デバイス1312、および、UIナビゲーションデバイス1314は、タッチスクリーン画面に組み込まれる。コンピュータシステム1300は追加的に、ストレージデバイス1316(例えば、ドライブユニット)、信号生成デバイス1318(例えば、スピーカ)、ネットワークインタフェースデバイス1320、および、グローバルポジショニングシステム(GPS)センサ、コンパス、加速度計、ジャイロメータ、磁気センサ、または他のセンサなど、1または複数のセンサ(不図時)を含み得る。いくつかの態様において、プロセッサ1302は、メインプロセッサおよびディープラーニングプロセッサ(例えば、上で説明されるニューラルネットワーク処理を含むディープラーニング機能を実行するために使用される)を含み得る。
【0116】
ストレージデバイス1316は、本明細書において説明される方法論または機能のうちの任意の1または複数を具現化し、またはこれにより利用されるデータ構造体および命令1324(例えば、ソフトウェア)の1または複数のセットが格納される、機械可読媒体1322を含む。複数の命令1324はまた、メインメモリ1304、スタティックメモリ1306、および、機械可読媒体も構成するプロセッサ1302を用いた、コンピュータシステム1300によるこれらの実行の間には、メインメモリ1304内、スタティックメモリ1306内、および/またはプロセッサ1302内に完全に、または少なくとも部分的に存在してもよい。
【0117】
例示的な実施形態において、機械可読媒体1322は、単一の媒体として図示されるが、「機械可読媒体」という用語は、1または複数の命令1324を格納する単一の媒体または複数の媒体(例えば、集中型または分散型データベース、および/または、関連付けられたキャッシュおよびサーバ)を含み得る。「機械可読媒体」という用語はまた、機械による実行のために命令を格納、符号化、または運搬することが可能であり、かつ、本開示の方法の任意の1または複数を機械に実行させる、または、そのような命令によって、または、それと関連して利用されるデータ構造を格納、符号化、または運搬すること可能な任意の有形の媒体を含むものとして解釈されるものとする。従って、「機械可読媒体」という用語は、これらに限定されるものではないが、固体メモリ、並びに光学および磁気媒体を含むものと解釈されるべきである。機械可読媒体の複数の具体的な例は、これらに限定されるものではないが、例として、半導体メモリデバイス(例えば、電気的プログラム可能読取専用メモリ(EPROM)、電気的消去可能読取専用メモリ(EEPROM))およびフラッシュメモリデバイスを含む不揮発性メモリ、内部ハードディスクおよびリムーバブルディスクのような磁気ディスク、光学磁気ディスク、および、CD-ROMおよびDVD-ROMディスクを含む。
【0118】
命令1324は、複数の周知の転送プロトコル(例えば、HTTP)の任意の1つを利用したネットワークインタフェースデバイス1320を介して、伝送媒体を用いて通信ネットワーク1326を通じて、更に送信または受信され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、携帯電話ネットワーク、基本電話サービス(POTS)ネットワーク、および、無線データネットワーク(例えば、Bluetooth、Wi-Fi(登録商標)、3G、および、4G LTE/LTE-A、5G、DSRC、またはWiMAXネットワーク)を含む。「伝送媒体」という用語は、機械による実行のために命令を格納、符号化、または運搬することが可能であり、かつ、デジタルまたはアナログ通信信号を含む任意の無形媒体、または、そのようなソフトウェアの通信を促進する他の無形媒体を含むものとして解釈されるものとする。
【0119】
追加の注記および例
【0120】
例1は、車両認識システムであって、車両に搭載され、車両の外部の音声をキャプチャするように動作可能なマイクロフォン機構と、オーディオ機械学習技法を使用して、キャプチャされた音声を解析し、音声イベントを識別するための音声分析回路と、車両に動作可能に搭載され、車両の外部の画像をキャプチャする画像キャプチャ機構と、画像機械学習技法を使用して、キャプチャされた画像を解析し、画像イベントを識別する画像解析回路と、画像イベントおよび音声イベントに基づいて、車両のタイプを識別するための車両識別回路とを備える車両認識システムである。
【0121】
例2において、例1の主題は、車両識別回路はオーディオ‐画像アソシエーションを生成することであって、オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、音声イベントのオーディオサンプルを画像イベントの画像フレームと照合すること、車両認識を実行して、オーディオ‐画像アソシエーションに基づいて車両のタイプを識別すること、および、車両インタフェースを介してメッセージを車両制御システムへ送信することであって、メッセージは車両認識に基づく、ことを行うよう構成されることを含む。
【0122】
例3において、例2の主題は、画像イベントは画像フレームの少なくとも1つにおいて車両のビジュアル表現を検出し、音声イベントは、オーディオサンプルの少なくとも1つにおいて、車両に関連付けられた音声を検出することを含む。
【0123】
例4において、例2~3の主題は、オーディオ‐画像アソシエーションを生成するために、車両識別回路は更に、オーディオサンプルのサンプリングレートを用いて画像フレームのフレームレートを正規化して、複数の時間インスタンスの各時間インスタンスについて、画像フレームあたりのオーディオサンプル(ASPIF)パラメータを決定するよう構成されることを含む。
【0124】
例5において、例4の主題は、オーディオ‐画像アソシエーションはデータ構造であり、車両識別回路は更に、画像フレームの各画像フレームについて、画像フレームに対応する複数の時間インスタンスのうちの時間インスタンスの識別子と、画像フレームの識別子と、ASPIFパラメータに基づく、画像フレームに対応するオーディオサンプルのサブセットの識別子と、画像フレームに関連付けられた検出結果であって、画像イベントに基づく検出結果と、オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果であって、音声イベントに基づく検出結果とをデータ構造に格納するよう構成されることを含む。
【0125】
例6において、例5の主題は、画像フレームに関連付けられた検出結果は、画像フレームにおいて検出された車両のタイプであることを含む。
【0126】
例7において、例6の主題は、オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果は、オーディオサンプルに基づいて検出された車両のタイプであることを含む。
【0127】
例8において、例7の主題は、車両識別回路は更に、オーディオサンプルのサブセットに関連付けられた検出結果にクラスタリング機能を適用して、オーディオサンプルのサブセットに関連付けられた組み合わされた検出結果を生成し、画像フレームに関連付けられた検出結果、および、オーディオサンプルのサブセットに関連付けられた、組み合わされた検出結果のデータ融合を実行して、車両認識を実行するよう構成されることを含む。
【0128】
例9において、例2から8の主題は、車両識別回路は更に、車両制御システムへの伝送のためのメッセージを生成することであって、メッセージは車両のタイプを含む、ことを行うよう構成されることを含む。
【0129】
例10において、例9の主題は、車両のタイプは、緊急車両のタイプであり、車両制御システムは、緊急車両のタイプを示すメッセージに基づいて応答アクションを実行することを含む。
【0130】
例11において、例10の主題は、応答アクションが、車両認識中に検出された緊急車両のタイプに基づく自律車両操縦を含むことを含む。
【0131】
例12において、例1から11の主題は、オーディオ機械学習技法および画像機械学習技法は各々人工ニューラルネットワークを含み、車両のタイプを識別することは更に、車両の外側のキャプチャされたライト信号に基づいてライトイベントを識別することに基づくことを含む。
【0132】
例13は、車両認識のための方法であって、車両の外部の音声をキャプチャする段階と、車両の1または複数のプロセッサによって、オーディオ機械学習技法を使用して、キャプチャされた音声を解析し、音声イベントを識別する段階と、車両の外部の画像をキャプチャする段階と、1または複数のプロセッサによって、画像機械学習技法を使用して、キャプチャされた画像を解析し、画像イベントを識別する段階と、1または複数のプロセッサによって、画像イベントおよび音声イベントに基づいて車両のタイプを識別する段階とを含む方法である。
【0133】
例14において、例13の主題は、1または複数のプロセッサによって、オーディオ‐画像アソシエーションを生成する段階であって、オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、音声イベントのオーディオサンプルを画像イベントの画像フレームと照合する段階と、1または複数のプロセッサによって、オーディオ‐画像アソシエーションに基づいて、車両のタイプを識別するための車両認識を実行する段階と、1または複数のプロセッサによって、車両インタフェースを介してメッセージを車両制御システムへ送信する段階であって、メッセージは車両認識に基づく、段階とを更に備える。
【0134】
例15において、例14の主題は、画像イベントは画像フレームの少なくとも1つにおいて車両のビジュアル表現を検出し、音声イベントは、オーディオサンプルの少なくとも1つにおいて、車両に関連付けられた音声を検出することを含む。
【0135】
例16において、例14から15の主題は、オーディオ‐画像アソシエーションを生成することは、1または複数のプロセッサによって、オーディオサンプルのサンプリングレートを用いて、画像フレームのフレームレートを正規化して、複数の時間インスタンスの各時間インスタンスについて、画像フレームあたりのオーディオサンプル(ASPIF)パラメータを決定することを含むことを含む。
【0136】
例17において、例16の主題は、オーディオ‐画像アソシエーションはデータ構造であり、方法は更に、画像フレームの各画像フレームについて、画像フレームに対応する複数の時間インスタンスのうちの時間インスタンスの識別子と、画像フレームの識別子と、ASPIFパラメータに基づく、画像フレームに対応するオーディオサンプルのサブセットの識別子と、画像フレームに関連付けられた検出結果であって、画像イベントに基づく検出結果と、オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果であって、音声イベントに基づく検出結果とを1または複数のプロセッサによって、データ構造に格納することを含むことを含む。
【0137】
例18において、例17の主題は、画像フレームに関連付けられた検出結果が、画像フレームにおいて検出された車両のタイプであることを含む。
【0138】
例19において、例18の主題は、オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果は、オーディオサンプルに基づいて検出された車両のタイプであることを含む。
【0139】
例20において、例19の主題は、1または複数のプロセッサによって、オーディオサンプルのサブセットに関連付けられた検出結果にクラスタリング機能を適用して、オーディオサンプルのサブセットに関連付けられた組み合わされた検出結果を生成すること、ならびに1または複数のプロセッサによって、画像フレームに関連付けられた検出結果、および、オーディオサンプルのサブセットに関連付けられた、組み合わされた検出結果のデータ融合を実行して、車両認識を実行することを含む。
【0140】
例21において、例14から20の主題は、1または複数のプロセッサによって、車両制御システムへの伝送のためのメッセージを生成する段階であって、メッセージは車両のタイプを含む、段階を含み、車両のタイプは、緊急車両のタイプであり、車両制御システムは、緊急車両のタイプを示すメッセージに基づいて応答アクションを実行する。
【0141】
例22は、車両における車両認識のための命令を含む少なくとも1つの非一時的機械可読媒体であって、命令は機械によって実行されるとき、車両の外側の音声をキャプチャすること、オーディオ機械学習技法を使用して、キャプチャされた音声を解析し、音声イベントを識別すること、車両の外部の画像をキャプチャすること、画像機械学習技法を使用して、キャプチャされた画像を解析し、画像イベントを識別すること、画像イベントおよび音声イベントに基づいて、車両のタイプを識別することを含むオペレーションを機械に実行させる、非一時的機械可読媒体である。
【0142】
例23において、例22の主題は、命令は更に、オーディオ‐画像アソシエーションを生成することであって、オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、音声イベントのオーディオサンプルを画像イベントの画像フレームと照合すること、車両認識を実行して、オーディオ‐画像アソシエーションに基づいて、車両のタイプを識別すること、車両インタフェースを介してメッセージを車両制御システムへ送信することであって、メッセージは車両認識に基づく、こと、オーディオサンプルのサンプリングレートを用いて、画像フレームのフレームレートを正規化し、複数の時間インスタンスの各時間インスタンスについて、画像フレームあたりのオーディオサンプル(ASPIF)パラメータを決定することを含むオペレーションを機械に実行させることを含む。
【0143】
例24において、例23の主題は、オーディオ‐画像アソシエーションはデータ構造であり、命令は更に、画像フレームの各画像フレームについて、画像フレームに対応する複数の時間インスタンスのうちの時間インスタンスの識別子、画像フレームの識別子、ASPIFパラメータに基づく画像フレームに対応するオーディオサンプルのサブセットの識別子、画像フレームに関連付けられた検出結果であって、画像イベントに基づく検出結果、および、オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果であって、音声イベントに基づく検出結果、をデータ構造に格納すること含むオペレーションを機械に実行させることを含む。
【0144】
例25において、例24の主題は、画像フレームに関連付けられた検出結果は、画像フレーム内で検出された車両のタイプであり、オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果は、オーディオサンプルに基づいて検出された車両のタイプであり、命令は更に、オーディオサンプルのサブセットに関連付けられた検出結果にクラスタリング機能を適用して、オーディオサンプルのサブセットに関連付けられた、組み合わされた検出結果を生成すること、画像フレームに関連付けられた検出結果、および、オーディオサンプルのサブセットに関連付けられた、組み合わされた検出結果のデータ融合を実行し、車両認識を実行することを含むオペレーションを機械に実行させることを含む。
【0145】
例26は、処理回路構成によって実行されるとき、処理回路構成に、例1から25のいずれかを実装するためのオペレーションを実行させる命令を含む少なくとも1つの機械可読媒体である。
【0146】
例27は、例1から25のいずれかを実装するための手段を含む装置である。
【0147】
例28は、例1から25のいずれかを実装するためのシステムである。
【0148】
例29は、例1から25のいずれかを実装するための方法である。
【0149】
上述の発明を実施するための形態は、発明を実施するための形態の一部を形成する添付の図面への参照を含む。図面には、例示として、実施され得る特定の実施形態が示されている。これらの実施形態を、本明細書では「例」とも呼ぶ。そのような例は、示されたもの、または、説明されたもの以外に追加の要素を含み得る。しかしながら、図示または説明された要素を含む例もまた考えられる。更に、本明細書において示される、または説明される特定の例(または、その1または複数の態様)、または、他の例(または、その1または複数の態様)に関して示される、または、説明される要素(または、それらの1または複数の態様)の任意の組み合わせまたは順列を使用する例も想定される。
【0150】
本明細書において参照される複数の出版物、複数の特許、および複数の特許文献は、参照により個別に組み込まれるかのように、それらの全体においてここで参照により組み込まれる。本明細書と参照により組み込まれるこれらの文献との間に一貫性がない使用がある場合、組み込まれる(複数の)参照における使用は、本明細書のものへの補足であり、矛盾する不一致については、本明細書における使用が支配する。
【0151】
本文書において使用される、特許文献において一般的である「a」または「an」という用語は、「少なくとも1つ」または「1または複数」という任意の他のインスタンスまたは使用と関係なく、1、または、1より多いことを含む。本文書において、「または」という用語は、非包括的であることを指すために使用され、「AまたはB」は、別段の定めが無い限り、「AであるがBでない」、「BであるがAでない」、および、「AおよびB」を含む。添付の特許請求の範囲において、「含む」および「ここにおいて」という用語は、それぞれ「comprising」および「wherein」という用語の普通の英語の同等物として使用される。また、以下の特許請求の範囲において、「含む」および「備える」という用語は、非限定型であり、すなわち、請求項における当該用語の後に列挙されるものに追加される要素を含むシステム、デバイス、物品、またはプロセスも、当該請求項の範囲に含まれるとみなされる。更に、以下の請求項において、「第1」、「第2」および「第3」などの用語は、単にラベルとして使用され、それらのオブジェクトの数値的順番を示唆する意図は無い。
【0152】
上記の説明は、限定のためではなく、例示的のためのものである。例えば、上述の複数の例(またはそれらの1または複数の態様)は、他との組み合わせで用いられてよい。上述の説明を考察すれば、当業者などは、他の実施形態を使用できよう。要約書は、読み手が技術的な開示の本質をすぐに確認するのを可能にする。要約書は、請求項の範囲または意味を解釈するまたは限定するために用いられることはないという理解で提出されている。また、上の発明を実施するための形態において、開示を合理化するために様々な特徴がグループ化され得る。しかしながら、実施形態は本明細書で開示された上記の特徴のサブセットを含んでよいので、請求項は、それらのあらゆる特徴を説明しなくてよい。更に、実施形態は、特定の例で開示されたものより少ない特徴を含んでよい。したがって、下記の複数の請求項は、これによって、別の実施形態として、それ自身に依存する請求項とともに発明を実施するための形態に組み込まれる。ここに開示された複数の実施形態の範囲は、添付の特許請求の範囲を参照して、権利が与えられるそのような特許請求の範囲の均等物の全範囲と併せて決定されるべきである。
[他の可能な請求項]
(項目1)
車両認識システムであって、
車両に搭載され、上記車両の外部の音声をキャプチャするように動作可能なマイクロフォン機構と、
オーディオ機械学習技法を使用して、上記キャプチャされた音声を解析し、音声イベントを識別するための音声分析回路と、
上記車両に動作可能に搭載され、上記車両の外部の画像をキャプチャする画像キャプチャ機構と、
画像機械学習技法を使用して、上記キャプチャされた画像を解析し、画像イベントを識別する画像解析回路と、
上記画像イベントおよび上記音声イベントに基づいて、車両のタイプを識別するための車両識別回路と
を備える車両認識システム。
(項目2)
上記車両識別回路は、
オーディオ‐画像アソシエーションを生成することであって、上記オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、上記音声イベントのオーディオサンプルを上記画像イベントの画像フレームと照合する、こと、
上記オーディオ‐画像アソシエーションに基づいて、上記車両のタイプを識別するために車両認識を実行すること、および、
車両インタフェースを介してメッセージを車両制御システムへ送信することであって、上記メッセージは上記車両認識に基づく、こと
を行うよう構成される、項目1に記載の車両認識システム。
(項目3)
上記画像イベントは、上記画像フレームの少なくとも1つにおいて車両のビジュアル表現を検出することであり、上記音声イベントは、上記オーディオサンプルの少なくとも1つにおいて、上記車両に関連付けられた音声を検出することである、項目2に記載の車両認識システム。
(項目4)
上記オーディオ‐画像アソシエーションを生成するために、上記車両識別回路は更に、
上記オーディオサンプルのサンプリングレートを用いて、上記画像フレームのフレームレートを正規化し、上記複数の時間インスタンスの各時間インスタンスについて、画像フレームあたりのオーディオサンプル(ASPIF)パラメータを決定するよう構成される、項目2に記載の車両認識システム。
(項目5)
上記オーディオ‐画像アソシエーションはデータ構造であり、上記車両識別回路は更に、
上記画像フレームの各画像フレームについて、
上記画像フレームに対応する上記複数の時間インスタンスのうちの時間インスタンスの識別子と、
上記画像フレームの識別子と、
上記ASPIFパラメータに基づく、上記画像フレームに対応する上記オーディオサンプルのサブセットの識別子と、
上記画像フレームに関連付けられた検出結果であって、上記画像イベントに基づく検出結果と、
上記オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果であって、上記音声イベントに基づく検出結果と
を上記データ構造に格納するよう構成される、項目4に記載の車両認識システム。
(項目6)
上記画像フレームに関連付けられた上記検出結果は、上記画像フレームにおいて検出される車両のタイプである、項目5に記載の車両認識システム。
(項目7)
上記オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた上記検出結果は、上記オーディオサンプルに基づいて検出された車両のタイプである、項目6に記載の車両認識システム。
(項目8)
上記車両識別回路は更に、
上記オーディオサンプルのサブセットに関連付けられた上記検出結果にクラスタリング機能を適用して、上記オーディオサンプルのサブセットに関連付けられた組み合わされた検出結果を生成し、
上記画像フレームに関連付けられた上記検出結果、および、上記オーディオサンプルのサブセットに関連付けられた、上記組み合わされた検出結果のデータ融合を実行して、上記車両認識を実行する
よう構成される、項目7に記載の車両認識システム。
(項目9)
上記車両識別回路は更に、上記車両制御システムへ伝送するための上記メッセージを生成するよう構成され、上記メッセージは上記車両のタイプを含む、項目2に記載の車両認識システム。
(項目10)
上記車両のタイプは緊急車両のタイプであり、上記車両制御システムは、上記緊急車両のタイプを示す上記メッセージに基づいて応答アクションを実行する、項目9に記載の車両認識システム。
(項目11)
上記応答アクションは、上記車両認識中に検出された上記緊急車両のタイプに基づく自律車両操縦を含む、項目10に記載の車両認識システム。
(項目12)
上記オーディオ機械学習技法および上記画像機械学習技法は各々人工ニューラルネットワークを含み、上記車両のタイプを識別することは更に、上記車両の外側のキャプチャされたライト信号に基づいてライトイベントを識別することに基づく、項目1に記載の車両認識システム。
(項目13)
車両認識のための方法であって、
車両の外部の音声をキャプチャする段階と、
上記車両の1または複数のプロセッサによって、オーディオ機械学習技法を使用して、キャプチャされた音声を解析し、音声イベントを識別する段階と、
上記車両の外部の画像をキャプチャする段階と、
上記1または複数のプロセッサによって、画像機械学習技法を使用して、上記キャプチャされた画像を解析し、画像イベントを識別する段階と、
上記1または複数のプロセッサによって、上記画像イベントおよび上記音声イベントに基づいて車両のタイプを識別する段階と
を含む方法。
(項目14)
上記1または複数のプロセッサによって、オーディオ‐画像アソシエーションを生成する段階であって、上記オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、上記音声イベントのオーディオサンプルを上記画像イベントの画像フレームと照合する段階と、
上記1または複数のプロセッサによって、上記オーディオ‐画像アソシエーションに基づいて、上記車両のタイプを識別するための車両認識を実行する段階と、
上記1または複数のプロセッサによって、車両インタフェースを介してメッセージを車両制御システムへ送信する段階であって、上記メッセージは上記車両認識に基づく、段階と
を更に備える、項目13に記載の方法。
(項目15)
上記1または複数のプロセッサによって、オーディオサンプルのサブセットに関連付けられた検出結果にクラスタリング機能を適用して、上記オーディオサンプルのサブセットに関連付けられた組み合わされた検出結果を生成する段階と、
上記1または複数のプロセッサによって、上記画像フレームに関連付けられた検出結果、および、上記オーディオサンプルのサブセットに関連付けられた、上記組み合わされた検出結果のデータ融合を実行して、上記車両認識を実行する段階と
を更に備える、項目13に記載の方法。
(項目16)
上記1または複数のプロセッサによって、上記車両制御システムへの伝送のための上記メッセージを生成する段階であって、上記メッセージは上記車両のタイプを含む、段階を更に備え、上記車両のタイプは、緊急車両のタイプであり、上記車両制御システムは、上記緊急車両のタイプを示す上記メッセージに基づいて応答アクションを実行する、項目14に記載の方法。
(項目17)
車両における車両認識のための命令を含む少なくとも1つの非一時的機械可読媒体であって、上記命令は機械によって実行されるとき、
車両の外側の音声をキャプチャすること、
オーディオ機械学習技法を使用して、上記キャプチャされた音声を解析し、音声イベントを識別すること、
上記車両の外部の画像をキャプチャすること、
画像機械学習技法を使用して、上記キャプチャされた画像を解析し、画像イベントを識別すること、
上記画像イベントおよび上記音声イベントに基づいて、車両のタイプを識別すること
を含むオペレーションを上記機械に実行させる、非一時的機械可読媒体。
(項目18)
上記命令は更に、
オーディオ‐画像アソシエーションを生成することであって、上記オーディオ‐画像アソシエーションは、複数の時間インスタンスについて、上記音声イベントのオーディオサンプルを上記画像イベントの画像フレームと照合すること、
車両認識を実行して、上記オーディオ‐画像アソシエーションに基づいて、上記車両のタイプを識別すること、
車両インタフェースを介してメッセージを車両制御システムへ送信することであって、上記メッセージは上記車両認識に基づく、こと、
上記オーディオサンプルのサンプリングレートを用いて、上記画像フレームのフレームレートを正規化し、上記複数の時間インスタンスの各時間インスタンスについて、画像フレームあたりのオーディオサンプル(ASPIF)パラメータを決定すること
を含むオペレーションを上記機械に実行させる、項目17に記載の非一時的機械可読媒体。
(項目19)
上記オーディオ‐画像アソシエーションはデータ構造であり、上記命令は更に、上記画像フレームの各画像フレームについて、
上記画像フレームに対応する上記複数の時間インスタンスのうちの時間インスタンスの識別子、
上記画像フレームの識別子、
上記ASPIFパラメータに基づく上記画像フレームに対応する上記オーディオサンプルのサブセットの識別子、
上記画像フレームに関連付けられた検出結果であって、上記画像イベントに基づく検出結果、および、
上記オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた検出結果であって、上記音声イベントに基づく検出結果、
を上記データ構造に格納すること含むオペレーションを上記機械に実行させる、項目18に記載の非一時的機械可読媒体。
(項目20)
上記画像フレームに関連付けられた上記検出結果は、上記画像フレーム内で検出された車両のタイプであり、上記オーディオサンプルのサブセットの各オーディオサンプルに関連付けられた上記検出結果は、上記オーディオサンプルに基づいて検出された車両のタイプであり、上記命令は更に、
上記オーディオサンプルのサブセットに関連付けられた上記検出結果にクラスタリング機能を適用して、上記オーディオサンプルのサブセットに関連付けられた、組み合わされた検出結果を生成すること、
上記画像フレームに関連付けられた上記検出結果、および、上記オーディオサンプルのサブセットに関連付けられた、上記組み合わされた検出結果のデータ融合を実行し、上記車両認識を実行すること
を含むオペレーションを上記機械に実行させる、項目19に記載の非一時的機械可読媒体。
図1A
図1B
図1C
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図12
図13
【外国語明細書】