(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022089774
(43)【公開日】2022-06-16
(54)【発明の名称】車両の運転者を監視する装置および方法
(51)【国際特許分類】
G08G 1/16 20060101AFI20220609BHJP
G06T 7/00 20170101ALI20220609BHJP
【FI】
G08G1/16 F
G06T7/00 660
G06T7/00 350C
【審査請求】未請求
【請求項の数】22
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2021191809
(22)【出願日】2021-11-26
(31)【優先権主張番号】17/112,967
(32)【優先日】2020-12-04
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ブルートゥース
(71)【出願人】
【識別番号】519003653
【氏名又は名称】ナウト,インコーポレイテッド
【氏名又は名称原語表記】Nauto,Inc.
(74)【代理人】
【識別番号】110001302
【氏名又は名称】特許業務法人北青山インターナショナル
(72)【発明者】
【氏名】ベンジャミン,オレン,アルパート
(72)【発明者】
【氏名】ヤツェク,ヤクブ,コニエツニー
(72)【発明者】
【氏名】シュクイ,チャン
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181BB04
5H181BB05
5H181BB20
5H181CC04
5H181FF25
5H181FF27
5H181FF35
5H181LL07
5H181LL20
5L096BA04
5L096CA02
5L096DA02
5L096FA67
5L096FA69
5L096GA51
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】運転者の目の視線方向を特定することなく、運転者が運転タスクに従事しているかどうかを判定する。
【解決手段】装置は、車両の運転者を撮るように構成されたカメラと、カメラから運転者の画像を受信するように構成された処理ユニットとを具え、この処理ユニットは、運転者の画像を処理して、運転者が運転タスクに従事しているかどうかを判定するように構成され、処理ユニットは、運転者の目の視線方向を特定することなく、画像に現れる運転者のポーズに基づいて、運転者が運転タスクに従事しているかどうかを判定するように構成される。
【選択図】
図4
【特許請求の範囲】
【請求項1】
車両の運転者を撮るように構成されたカメラと、
前記カメラから前記運転者の画像を受信するように構成された処理ユニットとを具え、
前記処理ユニットは、前記運転者の画像を処理して、前記運転者が運転タスクに従事しているかどうかを判定するように構成され、
ここで前記処理ユニットは、前記運転者の目の視線方向を特定する必要なしに、前記画像に現れる運転者のポーズに基づいて、前記運転者が運転タスクに従事しているかどうかを判定するように構成されていることを特徴とする装置。
【請求項2】
前記処理ユニットは、前記視線方向の特定を試みるように構成され、
前記処理ユニットは、ニューラルネットワークモデルを使用して、前記運転者の1以上のポーズ分類を決定するように構成され、
前記処理ユニットは、前記視線方向が特定できない場合に、前記運転者の1以上のポーズ分類に基づいて、当該運転者が運転タスクに従事しているかどうかを判定するように構成されている、請求項1に記載の装置。
【請求項3】
モデルを格納する非一時的媒体をさらに具え、前記処理ユニットは、前記モデルに基づいてドライブの画像を処理して、前記運転者が運転タスクに従事しているかどうかを判定するように構成されている、請求項1に記載の装置。
【請求項4】
前記モデルがニューラルネットワークモデルを含む、請求項3に記載の装置。
【請求項5】
前記ニューラルネットワークモデルを取得するように構成された通信ユニットをさらに含む、請求項4に記載の装置。
【請求項6】
前記ニューラルネットワークモデルは、他の運転者の画像に基づいて訓練される、請求項4に記載の装置。
【請求項7】
前記処理ユニットは、複数のそれぞれのポーズ分類についてのメトリック値を特定するように構成され、前記処理ユニットは、1以上のメトリックに基づいて、前記運転者が運転タスクに従事しているかどうかを判定するように構成される、請求項1に記載の装置。値。
【請求項8】
前記ポーズ分類は、下向きポーズ、上向きポーズ、左向きポーズ、右向きポーズ、携帯電話使用ポーズ、喫煙ポーズ、物を持つポーズ、ハンドル手放しポーズ、シートベルト非着用ポーズ、目を閉じたポーズ、前方直視ポーズ、片手ハンドルポーズ、および両手ハンドルポーズのうちの2以上を含む、請求項7に記載の装置。
【請求項9】
前記処理ユニットは、前記メトリック値を、それぞれのポーズ分類のそれぞれの閾値と比較するように構成される、請求項7に記載の装置。
【請求項10】
前記処理ユニットは、前記メトリック値の対応する1つが前記閾値の1つに一致するかそれを超える場合に、前記運転者を前記ポーズ分類の1つに属するものとして決定するように構成される、請求項9に記載の装置。
【請求項11】
前記処理ユニットは、前記1以上のメトリック値が対応する1以上の閾値に一致するかそれを超える場合に、前記運転者が運転タスクに従事している、またはいないと判定するように構成される、請求項9に記載の装置。
【請求項12】
前記装置は、車両の外側環境を撮るように構成された追加のカメラをさらに具え、
前記処理ユニットは、前記追加のカメラからの1以上の画像を処理して出力を得るように構成され、
前記処理ユニットは、前記出力に基づいて1以上の閾値を調整するように構成される、請求項11に記載の装置。
【請求項13】
前記処理ユニットはまた、前記画像を処理して、前記運転者の顔を検出できるかどうかを判定するように構成され、前記処理ユニットは、前記画像から運転者の顔が検出された場合に、当該運転者の画像を処理して、前記運転者が運転タスクに従事しているかどうかを判定するように構成される、請求項1に記載の装置。
【請求項14】
前記処理ユニットはまた、前記画像を処理して、前記運転者の目が閉じているかどうかを判定するように構成される、請求項1に記載の装置。
【請求項15】
前記処理ユニットはまた、前記視線方向を特定し、当該視線方向に基づいて前記運転者が運転タスクに従事しているかどうかを判定するように構成される、請求項1に記載の装置。
【請求項16】
前記処理ユニットはまた、前記運転者が運転タスクに従事しているかどうかに基づいて衝突リスクを決定するように構成される、請求項1に記載の装置。
【請求項17】
前記カメラおよび前記処理ユニットは、前記車両用のアフターマーケット機器の一部として統合されている、請求項1に記載の装置。
【請求項18】
さらに、前記車両の外側環境を撮るように構成された追加のカメラを具え、前記追加のカメラは前記アフターマーケット機器の一部である、請求項17に記載の装置。
【請求項19】
車両の運転者を撮るように構成されたカメラと、
前記カメラから前記運転者の画像を受信するように構成された処理ユニットとを具え、
前記処理ユニットは、前記運転者の目の視線方向の特定を試みるように構成され、
前記処理ユニットは、前記視線方向が特定できない場合に、前記運転者の1以上のポーズ分類に基づいて、前記運転者が運転タスクに従事しているかどうかを判定するように構成されることを特徴とする装置。
【請求項20】
前記処理ユニットは、前記運転者の画像を処理して、前記運転者の画像が1以上のポーズ分類を満たすかどうかを判定するように構成され、
前記処理ユニットは、前記運転者の画像が1以上のポーズ分類を満たすか否かに基づいて、当該運転者が運転タスクに従事しているかどうかを判定するように構成される、請求項19に記載の装置。
【請求項21】
前記処理ユニットは、ニューラルネットワークモデルに基づいて前記運転者の画像を処理して、前記運転者が運転タスクに従事しているかどうかを判定するように構成される、請求項19に記載の装置。
【請求項22】
装置によって実行される方法であって、
車両の運転者を撮るカメラによって生成された画像を受信するステップと、
処理ユニットによって、前記運転者の画像を処理して、当該運転者が運転タスクに従事しているかどうかを判定するステップとを含み、
ここで、前記運転者の画像は、運転者の目の視線方向を特定する必要なしに、前記画像に現れる運転者のポーズに基づいて、前記運転者が運転タスクに従事しているかどうかを判定するために処理されることを特徴とする方法。
【発明の詳細な説明】
【技術分野】
【0001】
この分野は、車両用カメラに関し、具体的には、車両の運転者を監視するように構成された車両カメラに関連する。
【背景技術】
【0002】
車両の運転者の画像を撮影するために車両カメラが用いられている。例えば、車両の運転者を監視するためにカメラが車両に設置されている。場合によっては、車両の運転者を監視する際に、カメラ画像内で運転者の目を特定し、運転者の目の視線方向を判定することが望ましい場合がある。決定された視線方向は、運転者が道路に目を向けているかどうかを判定するために使用することができる。
【0003】
しかしながら、カメラ画像からは運転者の視線方向を検出できない場合がある。例えば、車両の運転手が帽子をかぶっていて、その目が車両カメラに写らない場合がある。運転手はまた、サングラスをかけていて目の視界が遮られている場合がある。場合によっては、運転者が透明な度入り眼鏡をかけていると、眼鏡のフレームが目の視界を遮ったり、眼鏡のレンズが目の検出を不正確にしたりすることがある。
【0004】
本書では、運転者の目の視線方向を検出することなく、運転者が運転タスク(運転者が運転している車両の前方環境を見るなど)に従事しているかどうかを判断するための新しい手法について説明する。
【発明の概要】
【0005】
本装置は、車両の運転者を見るように構成されたカメラと、カメラから運転者の画像を受信するように構成された処理ユニットとを具え、処理ユニットは、運転者の画像を処理して、運転者が運転タスクに従事しているかどうかを判定するように構成され、処理ユニットは、運転者の目の視線方向を判定する必要なしに、画像に現れる運転者のポーズに基づいて、運転者が運転タスクに従事しているかどうかを判定するように構成される。
【0006】
任意で、処理ユニットは、視線方向の特定を試みるように構成されており、処理ユニットは、ニューラルネットワークモデルを使用して、運転者の1以上のポーズ分類を決定するように構成されており、処理ユニットは、視線方向が決定できない場合、運転者の1以上のポーズ分類に基づいて、運転者が運転タスクに従事しているかどうかを判定するように構成される。
【0007】
任意で、本装置は、モデルを格納する非一時的媒体をさらに含み、処理ユニットは、モデルに基づいて運転者の画像を処理して、運転者が運転タスクに従事しているかどうかを判定するように構成される。
【0008】
任意で、モデルはニューラルネットワークモデルを含む。
【0009】
任意で、本装置は、ニューラルネットワークモデルを取得するように構成された通信ユニットをさらに含む。
【0010】
任意で、ニューラルネットワークモデルは他の運転者の画像に基づいてトレーニングされている。
【0011】
任意で、処理ユニットは、複数のそれぞれのポーズ分類のメトリック値を決定するように構成され、処理ユニットは、1以上のメトリック値に基づいて、運転者が運転タスクに従事しているかどうかを判定するように構成される。
【0012】
任意で、ポーズ分類は、下向きポーズ、上向きポーズ、左向きポーズ、右向きポーズ、携帯電話使用ポーズ、喫煙ポーズ、物を持つポーズ、ハンドル手放しポーズ、シートベルト非着用ポーズ、目を閉じたポーズ、前方直視ポーズ、片手ハンドルポーズ、および両手ハンドルポーズのうちの2以上を含む。
【0013】
任意で、処理ユニットは、メトリック値をそれぞれのポーズ分類のそれぞれの閾値と比較するように構成される。
【0014】
任意で、処理ユニットは、対応するメトリック値の1つが対応する閾値の1つを満たすか超える場合に、運転者をポーズ分類の1つに属するものとして決定するように構成される。
【0015】
任意で、処理ユニットは、1以上のメトリック値が対応する1以上の閾値を満たすか超える場合に、運転者が運転タスクに従事しているかどうかを判断するように構成される。
【0016】
任意で、本装置は、車両外部の環境を見るように構成された追加のカメラをさらに具え、処理ユニットは、追加のカメラからの1以上の画像を処理して出力を得るように構成され、処理ユニットは、出力に基づいて1以上の閾値を調整するように構成される。
【0017】
任意で、処理ユニットはまた、画像を処理して運転者の顔を検出できるかどうかを判定するように構成され、処理ユニットは、運転者の顔が画像から検出された場合、運転者の画像を処理して、運転者が運転タスクに従事しているかどうかを判定するように構成される。
【0018】
任意で、処理ユニットはまた、画像を処理して、運転者の目が閉じているかどうかを判定するように構成される。
【0019】
任意で、処理ユニットはまた、視線方向を特定し、視線方向に基づいて運転者が運転タスクに従事しているかどうかを判定するように構成される。
【0020】
任意で、処理ユニットはまた、運転者が運転タスクに従事しているかどうかに基づいて衝突リスクを判定するように構成される。
【0021】
任意で、カメラと処理ユニットは、車両のアフターマーケット機器の一部として統合される。
【0022】
任意で、本装置は、車両外部の環境を見るように構成された追加のカメラをさらに含み、追加のカメラは、アフターマーケット機器の一部である。
【0023】
任意で、処理ユニットは、ニューラルネットワークモデルなどのモデルに基づいて目の可視性を判定するように構成される。
【0024】
本装置は、車両の運転者を見るように構成されたカメラと、カメラから運転者の画像を受信するように構成された処理ユニットとを含み、処理ユニットは、運転者の目の視線方向の決定を試みるように構成され、処理ユニットは、視線方向が決定できない場合、運転者の1以上のポーズ分類に基づいて、運転者が運転タスクに従事しているかどうかを判定するように構成される。
【0025】
任意で、処理ユニットは、運転者の画像を処理して、運転者の画像が1以上のポーズ分類を満たすかどうかを決定するように構成されされ、処理ユニットは、運転者の画像が1以上のポーズ分類を満たすか否かに基づいて、運転者が運転タスクに従事しているかどうかを判定するように構成される。
【0026】
任意で、処理ユニットは、ニューラルネットワークモデルに基づいて運転者の画像を処理して、運転者が運転タスクに従事しているかどうかを判定するように構成される。
【0027】
本装置によって実行される方法は、車両の運転者に向けられたカメラによって生成された画像を受信するステップと、処理ユニットによって、運転者の画像を処理して、運転者が運転タスクに従事しているかどうかを判定するステップとを含み、運転者の画像は、運転者の目の視線方向を決定する必要なしに、画像に現れる運転者のポーズに基づいて、運転者が運転タスクに従事しているかどうかを判定するように処理される。
【0028】
以下の詳細な説明を読むことにより、他のさらなる態様や特徴が明らかになるであろう。
【図面の簡単な説明】
【0029】
図面は、同様の要素は共通の参照番号によって参照される実施形態の設計および有用性を示す。利点および目的がどのように得られるかをよりよく理解するために、実施形態のより具体的な説明を、添付の図面を参照しながら説明する。これらの図面は例示的な実施形態のみを示しており、したがって、特許請求される発明の範囲を限定すると見なされるべきではないことを理解されたい。
【
図1】
図1は、いくつかの実施形態に係る装置を示す。
【
図2】
図2は、いくつかの実施例による、
図1の装置のブロック図を示す。
【
図3】
図3は、
図2の装置のカメラで撮影された画像の例を示す。
【
図5】
図5は、路面注視(eyes-on-road)または路面非注視(eyes-off-road)を判定するためのアルゴリズムを示す(視線追跡)。
【
図6】
図6は、
図1のカメラで撮影された画像の例であり、様々な分類器の出力を示す。
【
図7】
図7は、
図1のカメラで撮影された画像の別の例であり、様々な分類器の出力を示す。
【
図8】
図8は、
図1のカメラで撮影された画像の別の例であり、様々な分類器の出力を示す。
【
図9】
図9は、いくつかの実施例による、
図2の装置によって実行される方法を示す。
【
図10】
図10は、いくつかの実施例による、
図2の装置によって使用するモデルを決定する手法を示す。
【
図11】
図11は、本明細書に記載の1以上の電子機器を実装する特別な処理システムを示す。
【発明を実施するための形態】
【0030】
以下、図面を参照しながら様々な実施形態について説明する。図面は一定の縮尺で描かれている場合とそうでない場合があり、同様の構造または機能の要素は、図面全体を通して同じ参照番号で表されていることに留意されたい。これらの図は、実施形態の説明を容易にすることのみを意図するものであり、クレームされた発明の網羅的な説明として、またはクレームされた発明の範囲の制限として意図するものではないことにも留意されたい。さらに、例示された実施形態は、示された本発明のすべての態様または利点を有する必要はない。特定の実施形態に関連して説明される態様または利点は、必ずしもその実施形態に限定されるものではなく、そのように図示されていないか、またはそのように明示的に説明されていない場合でも、他の任意の実施形態で実施することができる。
【0031】
図1は、いくつかの実施形態による装置200を示す。装置200は、車両のフロントガラスや車両のバックミラーなど、車両に取り付けられるように構成される。装置200は、車両の外側を映すように構成された第1のカメラ202と、車両のキャビン内を映すように構成された第2のカメラ204とを含む。図示の実施形態では、装置200は、車両に取り付け可能な(すなわち、車両の製造プロセスとは別に)アフターマーケット機器の形態である。装置200は、装置200を車両に結合するように構成されたコネクタを含み得る。非限定的な例として、コネクタは、吸盤、接着剤、クランプ、1以上のねじなどであり得る。コネクタは、装置200を車両に取り外し可能に固定するように構成されてもよく、この場合、装置200は、必要に応じて車両から選択的に除去および/または車両に結合することができる。あるいは、コネクタは、装置200を車両に恒久的に固定するように構成されてもよい。他の実施形態では、装置200は、車両の製造プロセス中に設置される車両のコンポーネントであり得る。装置200は、実施例に示される構成を有することに限定されず、装置200は、他の実施形態において他の構成を有してもよいことに留意されたい。例えば、他の実施形態では、装置200は、異なるフォームファクタを有し得る。他の実施形態では、装置200は、1以上のカメラを有する、携帯電話、タブレットなどのエンドユーザーデバイスであり得る。
【0032】
図2は、いくつかの実施例による、
図1の装置200のブロック図を示す。装置200は、第1のカメラ202および第2のカメラ204を含む。図示されるように、装置200はまた、第1のカメラ202および第2のカメラ204に結合された処理ユニット210と、データを格納するように構成された非一時的媒体230と、処理ユニット210に結合された通信ユニット240と、処理ユニット210に結合されたスピーカ250とを含む。
【0033】
図示の実施形態では、第1のカメラ202、第2のカメラ204、処理ユニット210、非一時的媒体230、通信ユニット240、およびスピーカ250は、車両のアフターマーケット機器の一部として統合されていてもよい。他の実施形態では、第1のカメラ202、第2のカメラ204、処理ユニット210、非一時的媒体230、通信ユニット240、およびスピーカ250は、車両に統合され、車両の製造プロセスで車両に取り付けられてもよい。
【0034】
処理ユニット210は、第1のカメラ202からの画像および第2のカメラ204からの画像を取得し、第1および第2のカメラ202、204からの画像を処理するように構成される。いくつかの実施形態では、第1のカメラ202からの画像は、車両外の環境を監視するために(例えば、衝突検出、衝突防止、運転環境監視などのために)処理ユニット210で処理され得る。また、いくつかの実施形態では、第2のカメラ204からの画像は、運転者の運転行動を監視するために(例えば、運転者が気を取られているか、眠気があるか、集中しているかなど)処理ユニット210によって処理され得る。さらなる実施形態では、処理ユニット210は、第1のカメラ202および/または第2のカメラ204からの画像を処理して、衝突のリスクを判定したり、衝突を予測したり、運転者にアラートを提供したりしてもよい。他の実施形態では、装置200は第1のカメラ202を含まなくてもよい。このような場合、装置200は、車両のキャビン内の環境のみを監視するように構成される。
【0035】
装置200の処理ユニット210は、ハードウェア、ソフトウェア、またはその両方の組み合わせを含み得る。非限定的な例では、処理ユニット210のハードウェアは、1以上のプロセッサおよび/または複数の集積回路を含み得る。いくつかの実施形態では、処理ユニット210は、モジュールとして実装され、および/または任意の集積回路の一部であってもよい。
【0036】
非一時的媒体230は、処理ユニット210の動作に関連するデータを格納するように構成される。図示の実施形態では、非一時的媒体230は、処理ユニット210がアクセスして、カメラ204からの画像に現れる運転者のポーズを識別するため、および/または運転者が運転タスクに従事しているかどうかを判定するために利用できるモデルを格納するように構成される。あるいは、モデルは、処理ユニット210が運転者のポーズを識別し、および/または運転者が運転タスクに従事しているかどうかを判定できるように構成することができる。任意で、非一時的媒体230はまた、第1のカメラ202からの画像、および/または第2のカメラ204からの画像を格納するように構成され得る。また、いくつかの実施形態では、非一時的媒体230はまた、処理ユニット210によって生成されたデータを格納するように構成され得る。
【0037】
一時媒体230に格納されたモデルは、ニューラルネットワークモデルを含むがこれらに限定されない、任意の計算モデルまたは処理モデルであり得る。いくつかの実施形態では、モデルは特徴抽出パラメータを含み、これに基づいて処理ユニット210が運転者の頭、帽子、顔、鼻、目、モバイル機器などの物体を識別するために、カメラ204から提供される画像から特徴を抽出できるようにしてもよい。また、いくつかの実施形態では、モデルは、プログラム命令、コマンド、スクリプトなどを含んでもよい。一実施形態では、モデルは、装置200が無線で受信することができるアプリケーションの形態であってもよい。
【0038】
装置200の通信ユニット240は、クラウド、インターネット、ブルートゥースネットワークなどのネットワークから無線でデータを受信するように構成される。いくつかの実施形態では、通信ユニット240は、データを無線で送信するように構成されてもよい。例えば、第1のカメラ202からの画像、第2のカメラ204からの画像、処理ユニットによって生成されたデータ、またはこれらの任意の組み合わせが、通信ユニット240によって、クラウド、インターネット、ブルートゥースネットワークなどのネットワークを介して、別のデバイス(例えば、サーバ、携帯電話などのアクセサリ装置、別の車両内の別の装置200など)に送信されてもよい。いくつかの実施形態では、通信ユニット240は、1以上のアンテナを含み得る。例えば、通信240は、長距離通信を提供するように構成された第1のアンテナと、近距離無線通信(ブルートゥース経由など)を提供するように構成された第2のアンテナとを含み得る。他の実施形態では、通信ユニット240は、ケーブルまたは電気接点を介して物理的にデータを送信および/または受信するように構成され得る。そのような場合、通信ユニット240は、データ送信デバイスと結合するように構成された1以上の通信コネクタを含むことができる。例えば、通信ユニット240は、ケーブルと結合するように構成されたコネクタ、USBドライブを受け入れるように構成されたUSBスロット、メモリカードを受け入れるように構成されたメモリカードスロットなどを含み得る。
【0039】
装置200のスピーカ250は、車両の運転者に音声アラートおよび/またはメッセージを提供するように構成される。例えば、いくつかの実施形態では、処理ユニット210は、車両と車両外の物体との間の差し迫った衝突を検出するように構成され得る。そのような場合、差し迫った衝突の検出に応答して、処理ユニット210は、制御信号を生成して、スピーカ250に音声アラートおよび/またはメッセージを出力させることができる。別の例として、いくつかの実施形態では、処理ユニット210は、運転者が運転タスクに従事しているかどうかを判定するように構成され得る。運転者が運転タスクに従事していない場合、または所定の期間(例えば、2秒、3秒、4秒、5秒など)運転タスクに従事していない場合、処理ユニット210は、スピーカ250に音声アラートおよび/またはメッセージを出力させる制御信号を生成することができる。
【0040】
装置200は、第1のカメラ202および第2のカメラ204を有するものとして説明したが、他の実施形態では、装置200は第2のカメラ(キャビンカメラ)204のみを含み、第1のカメラ202を含まなくてもよい。また、他の実施形態では、装置200は車両内のキャビンを見るように構成された複数のカメラを含んでもよい。
【0041】
使用中、装置200は、第1のカメラ202が車両の外側を映し、第2のカメラ204が車両の運転者を映すように、車両に結合されている。運転者が車両を操作しているとき、第1のカメラ202は車両の外側の画像を撮影し、第2のカメラ204は車両の内側の画像を撮影する。
図3は、
図2の装置200の第2のカメラ204によって撮影された画像300の例を示す。図示するように、第2のカメラ202からの画像300は、対象車両(装置200が搭載された車両)を操作する運転者310の画像を含み得る。処理ユニット210は、カメラ202からの画像(例えば、画像300)を処理し、運転者が運転タスクに従事しているかどうかを判定するように構成される。非限定的な例として、運転タスクは、対象車両の前の道路または環境に注意を払うこと、ハンドルに手を置くことなどであり得る。
【0042】
図4に示されるように、いくつかの実施形態では、処理ユニット210は、カメラ202からの運転者の画像300を処理し、運転者が特定のポーズ分類に属するかどうかを決定するように構成される。非限定的な例として、ポーズ分類は、下向きポーズ、上向きポーズ、左向きポーズ、右向きポーズ、携帯電話使用ポーズ、喫煙ポーズ、物を持っているポーズ、ハンドル手放しポーズ、シートベルト非着用ポーズ、目を閉じているポーズ、前方注視ポーズ、片手ハンドルポーズ、および両手ハンドルポーズのうちの1つまたは複数であり得る。また、いくつかの実施形態では、処理ユニット210は、1以上のポーズ分類に基づいて、運転者が運転タスクに従事しているかどうかを判定するように構成される。例えば、運転者の頭が「下を向いて」おり、運転者が携帯電話を持っている場合、処理ユニット210は、運転者が運転タスクに従事していない(すなわち、運転者が道路や車両前方環境へ注意を払っていない)と判断することができる。別の例として、運転者の頭が右または左を「見て」おり、頭の回転角度が特定の閾値を超えている場合、処理ユニット210は、運転者が運転タスクに従事していないと判断することができる。
【0043】
いくつかの実施形態では、処理ユニット210は、運転者の目の視線方向を判定することなく、画像に現れる運転者の1以上のポーズに基づいて、運転者が運転タスクに従事しているかどうかを判定するように構成される。運転者の目の視線方向が画像に捕捉されない場合や、正確に決定できない場合があるため、この機能は有利である。例えば、車両の運転手が帽子をかぶっていて、その目が車両カメラに写らない場合がある。また運転手がサングラスをかけていると、目を撮ることが妨げられる。場合によっては、運転者が透明な度入り眼鏡をかけていると、眼鏡のフレームで目が映らなかったり、眼鏡のレンズが目の検出を不正確にしたりすることがある。したがって、運転者の目の視線方向を判定することなく、運転者が運転タスクに従事しているかどうかを判定することは有利である。運転者の目が検出できない場合、および/または視線方向を決定できない場合でも、処理ユニット210が、運転者が運転タスクに従事しているかどうかを判定することができるからである。
【0044】
いくつかの実施形態では、処理ユニット210は、コンテキストベースの分類を使用して、運転者が運転タスクに従事しているかどうか判定してもよい。例えば、運転者の頭が下を向いており、かつ運転者が運転者の頭が向いている膝元に携帯電話を持っている場合、処理ユニット210は、運転者が運転タスクに従事していないと判断することができる。処理ユニット210は、運転者の目が検出できない場合でも(例えば、
図3に示すようなキャップによって目が遮られているため)、そのような判定を行ってもよい。処理ユニット210はまた、コンテキストベースの分類を使用して、運転者の1以上のポーズを決定してもよい。例えば、運転者の頭が下向きになっている場合、処理ユニット210は、運転者の目が検出できなくても、運転者が下を向いていると判断することができる。別の例として、運転者の頭が上向きになっている場合、処理ユニット210は、運転者の目が検出できなくても、運転者が上を向いていると判断することができる。さらなる例として、運転者の頭が右向きになっている場合、処理ユニット210は、運転者の目が検出できなくても、運転者が右を向いていると判断することができる。さらなる例として、運転者の頭が左向きになっている場合、処理ユニット210は、運転者の目が検出できなくても、運転者が左を向いていると判断することができる。
【0045】
一実施形態では、処理ユニット210は、モデルを使用して、運転者の1以上のポーズを識別し、運転者が運転タスクに従事しているかどうかを判定するように構成され得る。モデルは、カメラ204からの画像を処理するために処理ユニット210によって使用され得る。いくつかの実施形態では、モデルは、非一時的媒体230に格納され得る。また、いくつかの実施形態では、モデルは、サーバから送信され、通信ユニット240を介して装置200によって受信されてもよい。
【0046】
いくつかの実施形態では、モデルはニューラルネットワークモデルであり得る。このような場合、ニューラルネットワークモデルは他の運転者の画像に基づいてトレーニングされていてもよい。例えば、ニューラルネットワークモデルは、運転者の画像を使用してトレーニングされ、下向きポーズ、上向きポーズ、左向きポーズ、右向きポーズ、携帯電話使用ポーズ、喫煙ポーズ、物を持つポーズ、ハンドル手放しポーズ、シートベルト非着用ポーズ、目を閉じたポーズ、前方注視ポーズ、片手ハンドルポーズ、両手ハンドルポーズなどの異なるポーズを識別することができる。いくつかの実施形態では、ニューラルネットワークモデルは、画像内の人物の目が検出されなくても、異なるポーズを識別するように学習されてもよい。これにより、ニューラルネットワークモデルは、様々なポーズを識別し、および/または、コンテキストに基づいて(例えば、運転者の目の視線方向以外の運転者の状態に関する画像にキャプチャされた情報に基づいて)運転者が運転タスクに従事しているかどうかを判断することができる。他の実施形態では、モデルは、ニューラルネットワークモデルとは異なる他の種類のモデルのいずれかであってもよい。
【0047】
いくつかの実施形態では、ニューラルネットワークモデルは、コンテキストに基づいてポーズを分類し、および/または運転者が運転タスクに従事しているかどうかを判定するようにトレーニングされ得る。例えば、運転者が携帯電話を持っていて、頭が携帯電話の方へ下向きになっているポーズの場合、ニューラルネットワークモデルは、運転者の目を検出する必要なしに、運転者が運転タスクに従事していない(例えば、道路または車両前方環境を見ていない)と判断してもよい。
【0048】
いくつかの実施形態では、深層学習または人工知能を使用して、運転者のポーズを識別するモデル、および/または運転者が運転タスクに従事しているかどうかを判定するモデルを開発することができる。このようなモデルは、運転タスクに従事している運転者とそうでない運転者を区別することができる。
【0049】
いくつかの実施形態では、運転者のポーズを識別するために処理ユニット210によって利用されるモデルは、畳み込みニューラルネットワークモデルであり得る。他の実施形態では、モデルは、単に任意の数学的モデルであり得る。
【0050】
図5は、運転者が運転タスクに従事しているかどうかを判定するためのアルゴリズム500を示す。例えば、アルゴリズム500は、運転者が車両前方の道路または環境に注意を払っているかどうかを判定するために利用することができる。アルゴリズム500は、いくつかの実施形態では、処理ユニット210を使用して実装および/または実行され得る。
【0051】
最初に、処理ユニット210は、カメラ204からの画像を処理して、画像に基づいて運転者の顔の検出を試みる(アイテム502)。画像内で運転者の顔を検出できない場合、処理ユニット210は、運転者が運転タスクに従事しているかどうかが不明であると判断することができる。一方、処理ユニット210が、運転者の顔が画像内に存在すると判断した場合、処理ユニット210は、次に、運転者の目が閉じているかどうかを判定することができる(アイテム504)。一実施形態では、処理ユニット210は、ニューラルネットワークモデルなどのモデルに基づいて目がどう見えるかを決定するように構成され得る。処理ユニット210が、運転者の目を閉じていると判断した場合、処理ユニット210は、運転者が運転タスクに従事していないと判断することができる。一方、処理ユニット210が運転者の目を閉じていないと判断した場合、処理ユニット210は、画像に基づいて、運転者の目の視線を検出しようと試みることができる(アイテム506)。
【0052】
アルゴリズム500の項目510を参照すると、処理ユニット210が運転者の目の視線を首尾よく検出した場合、処理ユニット210は、視線の方向を決定することができる(アイテム510)。例えば、処理ユニット210は、画像を分析して、運転者の眼の視線方向のピッチ(例えば、上下方向)および/またはヨー(例えば、左右方向)を??決定することができる。視線方向のピッチが所定のピッチ範囲内にあり、視線方向のヨーが所定のヨー範囲内にある場合、処理ユニット210は、ユーザが運転タスクに従事している(すなわち、ユーザ)と判断することができる。車両の前方の道路または環境を見ている)(アイテム512)。一方、視線方向のピッチが規定のピッチ範囲内にない場合、または視線方向のヨーが規定のヨー範囲内にない場合、処理ユニット210は、ユーザが運転タスク(アイテム514)。
【0053】
アルゴリズム500のアイテム520を参照すると、処理ユニット210が運転者の目の視線をうまく検出できない場合、処理ユニット210は、運転者の目の視線方向を決定することなく、運転者が運転タスクに従事しているかどうかを判定してもよい(アイテム520)。いくつかの実施形態では、処理ユニット210は、モデルを使用して、コンテキストに基づいて(例えば、運転者の目の視線方向以外の運転者の状態に関して画像にキャプチャされた情報に基づいて)そのような決定を行うように構成してもよい。いくつかの実施形態では、モデルは、運転者が運転タスクに従事しているかどうかを判定するためのコンテキストベースの分類を実行するように構成されたニューラルネットワークモデルであり得る。一実装形態では、モデルは、画像を処理して、運転者が1以上のポーズ分類に属するかどうかを決定するように構成される。運転者が1以上のポーズ分類に属すると判定された場合、処理ユニット210は、運転者が運転タスクに従事していないと決定することができる(アイテム522)。運転者が1以上のポーズ分類に属していないと判断された場合、処理ユニット210は、運転者が運転タスクに従事していると判定してもよいし、運転者が運転タスクに従事しているかどうかは不明であると判断してもよい(アイテム524)。
【0054】
いくつかの実施形態では、上記アイテム502、504、506、510、520は処理ユニット210によって繰り返し実行され、カメラ204によって提供される複数の画像をシーケンスで処理し、それによって運転者が車両を操作する間の運転者のリアルタイム監視を実行してもよい。
【0055】
アルゴリズム500は、説明した例に限定されず、処理ユニット210を使用して実装されたアルゴリズム500は、他の特徴および/または変更を有し得ることに留意されたい。例えば、他の実施形態では、アルゴリズム500は、アイテム502(運転者の顔の検出)を含まなくてもよい。別の例として、他の実施形態では、アルゴリズム500は、アイテム504(目を閉じた状態の検出)を含まなくてもよい。また、さらなる実施形態では、アルゴリズム500は、アイテム506(視線の検出の試み)および/またはアイテム510(視線方向の判定)を含まなくてもよい。
【0056】
また、いくつかの実施形態では、運転者の目の視線方向が処理ユニット210によって検出できる場合でも、処理ユニット210は、運転者が1以上のポーズに属するかどうかを決定するために、コンテキストベースの分類を実行してもよい。いくつかのケースでは、ポーズ分類は、運転者の目の視線方向を確認するために処理ユニット210によって使用され得る。あるいは、運転者の目の視線方向は、運転者の1以上のポーズ分類を確認(confirm)するために、処理ユニット210によって使用されてもよい。
【0057】
説明したように、いくつかの実施形態では、処理ユニット210は、カメラ204からの画像に基づいて、運転者が1以上のポーズ分類に属するかどうかを決定し、この1以上のポーズ分類に基づいて、運転者が運転タスクに従事しているかどうかを判定するように構成される。いくつかの実施形態では、処理ユニット210は、複数のそれぞれのポーズ分類のメトリック値を決定し、運転者が運転タスクに従事しているかどうかを1以上のメトリック値に基づいて判定するように構成される。
図6は、画像604aに基づいて処理ユニット210によって提供される分類出力602の例を示す。この例では、分類出力602は、それぞれの異なるポーズ分類、すなわち、「下向き」分類、「上向き」分類、「左向き」分類、「右向き」分類、「携帯電話使用」分類、「喫煙」分類、「物を持っている」分類、「目を閉じた」分類、「顔がない」分類、および「シートベルトなし」分類に対するメトリック地を含む。これらの異なるポーズ分類のメトリック値は比較的低く(例えば、0.2未満)、画像604aの運転者がこれらのポーズ分類のいずれにも適合していないことを示している。また、図示の例では、運転者の目は閉じていないため、処理ユニット210により運転者の視線方向を決定することができる。視線方向は、画像中の運転者の鼻の上に重ねられたグラフィカルオブジェクトによって表される。グラフィカルオブジェクトは、視線方向に平行なベクトルまたは線を含んでもよい。代替的または追加的に、グラフィカルオブジェクトは、視線方向に垂直な1以上のベクトルまたは1以上の線を含んでもよい。
【0058】
図7は、画像604bに基づいて処理ユニット210によって提供される分類出力602の他の例を示す。図示の例では、「下向き」ポーズのメトリック値が比較的高い値(例えば、0.6より高い)を有し、運転者が「下向き」ポーズをとっていることを示す。他のポーズのメトリック値は比較的低い値であり、画像604bの運転者がこれらのポーズ分類を満たしていないことを示している。
【0059】
図8は、画像604cに基づいて処理ユニット210によって提供される分類出力602の他の例を示す。図示の例では、「左向き」ポーズのメトリック値が比較的高い値(例えば、0.6より大きい)を有し、運転者が「左向き」ポーズをとってることを示す。他のポーズのメトリック値は比較的低い値であり、画像604cの運転者がこれらのポーズ分類を満たしていないことを示している。
【0060】
いくつかの実施形態では、処理ユニット210は、メトリック値をそれぞれのポーズ分類のそれぞれの閾値と比較するように構成される。そのような場合、処理ユニット210は、対応する1つのメトリック値が対応する1つの閾値を満たすか超える場合に、運転者をポーズ分類の1つに属するものとして決定するように構成される。例えば、様々なポーズ分類の閾値は、0.6に設定することができる。そのような場合、ポーズ分類のいずれかのメトリック値のいずれかが0.6を超えると、処理ユニット210は、運転者がそのポーズ分類に属するポーズ(すなわち、メトリック値が0.6を超えるもの)を有すると判断することができる。また、いくつかの実施形態では、ポーズ分類のいずれかのメトリック値のいずれかが事前設定された閾値(例えば、0.6)を超える場合、処理ユニット210は、運転者が運転タスクに従事していないと判断してもよい。上記の例に従って、「下向き」ポーズ、「上向き」ポーズ、「左向き」ポーズ、「右向き」ポーズ、「携帯電話使用」ポーズ、または「目を閉じた」ポーズのメトリック値が0.6よりも高い場合、処理ユニット210は、運転者が運転タスクに従事していないと判断することができる。
【0061】
上記の例では、それぞれのポーズ分類に同じ事前設定の閾値が実装されている。他の実施形態では、少なくとも2つのそれぞれのポーズ分類のための閾値のうち、少なくとも2つの閾値が異なる値を有してもよい。また、上記の例では、ポーズ分類のメトリック値の範囲は0.0から1.0であり、1.0が最も高い値である。他の実施形態では、ポーズ分類のメトリック値は、他の範囲を有してもよい。また、他の実施形態では、メトリック値の規則は逆であってもよく、低いメトリック値は運転者が特定のポーズ分類を満たしていることを示し、高いメトリック値は運転者が特定のポーズ分類を満たしていないことを示すようにしてもよい。
【0062】
また、いくつかの実施形態では、様々なポーズ分類のための閾値をチューニング手順によって調整することができ、それにより、異なるポーズ分類にそれぞれ調整された閾値を付与して、処理ユニット210が運転者の画像が特定のポーズ分類に属するかどうかを判定できるようにしてもよい。
【0063】
いくつかの実施形態では、処理ユニット210が単一のモデルを利用して、複数のポーズ分類を提供してもよい。複数のポーズ分類は、処理ユニット210によって並列にまたは順番に出力され得る。他の実施形態では、モデルは複数のサブモデルを含み、各サブモデルが、ポーズの特定の分類を検出するように構成されてもよい。例えば、顔を検出するサブモデル、視線方向を検出するサブモデル、上向きポーズを検出するサブモデル、下向きポーズを検出するサブモデル、右向きポーズを検出するサブモデル、左向きポーズを検出するサブモデル、携帯電話使用ポーズを検出するサブモデル、ハンドル手放しポーズを検出するサブモデル、シートベルト非着用ポーズを検出するモデル、目を閉じたポーズを検出するサブモデルなどがあり得る。
【0064】
上記の実施形態では、それぞれのポーズ分類のための閾値は、運転者の画像がそれぞれのポーズ分類を満たすかどうかを判定するように構成される。他の実施形態では、それぞれのポーズ分類のための閾値は、処理ユニット210が、運転者が運転タスクに従事しているかどうかを判定できるように構成され得る。そのような場合、1以上のそれぞれのポーズ分類の1以上のメトリック値が、それぞれの1以上の閾値を満たすか超える場合、処理ユニット210は、運転者が運転タスクに従事しているかどうかを判断することができる。いくつかの実施形態では、ポーズ分類は「注意散漫(distraction)」クラスに属し得る。そのような場合、ポーズ分類のいずれかの基準が満たされると、処理ユニット210は運転者が運転タスクに従事していない(例えば、運転者が気をそらしている)と判断してもよい。「注意散漫」クラスに属するポーズ分類の例としては、「左向き」のポーズ、「右向き」のポーズ、「上向き」ポーズ、「下向き」ポーズ、「携帯電話保持」ポーズなどを含む。他の実施形態では、ポーズ分類は「注意」クラスに属してもよい。そのような場合、ポーズ分類のいずれかの基準が満たされると、処理ユニット210は、運転者が運転タスクに従事している(例えば、運転者が運転に注意を払っている)と判断することができる。「注意」クラスに属するポーズ分類の例には、「前方注視」ポーズ、「ハンドル保持(hand(s)on wheel)」ポーズなどが含まれる。
【0065】
上記の例に示すように、コンテキストベースの分類は、運転者の目の視線方向が検出できない場合でも、処理ユニット210が運転タスクに従事していない運転者を識別できるので有利である。場合によっては、装置200が車両に対して非常にずれた角度で取り付けられていても(これにより、運転者がカメラ画像内で奇妙な角度および/または位置で現れ得る)、コンテキストベースの識別によって処理ユニット210が運転タスクに従事していない運転者を識別することができる。アフターマーケット製品は様々な位置に取り付けられて、目や視線を検出するのが困難な可能性がある。本明細書に記載の特徴は、装置200が運転者の目や視線を検出できないように取り付けられている場合でも、運転者が運転タスクに従事しているかどうかを判断できるので有利である。
【0066】
処理ユニット210は、ポーズ分類および/または運転者が運転タスクに従事しているかどうかを判定するためにニューラルネットワークモデルを使用することに限定されず、処理ユニット210は、ポーズ分類および/または運転者が運転タスクに従事しているかどうかを判断するために、任意の処理技術、アルゴリズム、または処理アーキテクチャを利用できることに留意されたい。非限定的な例によると、処理ユニット210は、方程式、回帰、分類、ニューラルネットワーク(例えば、畳み込みニューラルネットワーク、深層ニューラルネットワーク)、ヒューリスティック、選択(例えば、ライブラリ、グラフ、またはチャートから)、インスタンスベースの方法(例えば、最近傍法)、相関法、正則化法(例えば、リッジ回帰)、決定ツリー、ベイズ法、カーネル法、確率、決定論、または上記の2つ以上の組み合わせを用いて、カメラ204からの画像を処理してポーズ分類を決定し、および/または運転者が運転タスクに従事しているかどうかを判定することができる。ポーズ分類は、バイナリ分類またはバイナリスコア(例えば、上を見ているか否か)、スコア(例えば、連続または不連続)、分類(例えば、高、中、低)、またはポーズ分類の他の適切な尺度にすることができる。
【0067】
また、処理ユニット210は、運転者が運転タスクに従事していないことを示すポーズ(例えば、「注意散漫」クラスに属するポーズ)を検出することに限定されないことに留意されたい。他の実施形態では、処理ユニット210は、運転者が運転タスクに従事していることを示すポーズ(例えば、「注意」クラスに属するポーズ)を検出するように構成されてもよい。さらなる実施形態では、処理ユニット210は、(1)運転者が運転タスクに従事していないことを示すポーズ、および(2)運転者が運転タスクに従事していることを示すポーズの両方を検出するように構成されてもよい。
【0068】
本明細書に記載の1以上の実施形態では、処理ユニット210は、運転者が運転タスクに従事しているかどうかに基づいて衝突リスクを判定するようにさらに構成されてもよい。いくつかの実施形態では、処理ユニット210は、運転者が運転タスクに従事しているかどうかのみに基づいて衝突リスクを決定するように構成され得る。例えば、処理ユニット210は、運転者が運転タスクに従事していない場合に衝突リスクが「高い」と判定し、運転者が運転タスクに従事している場合に衝突リスクが「低い」と判定することができる。他の実施形態では、処理ユニット210は、追加の情報に基づいて衝突リスクを判定するように構成されてもよい。例えば、処理ユニット210は、運転者が運転タスクに従事していない期間を追跡するように構成することができ、「運転タスクに従事していない」状態の期間に基づいて衝突リスクのレベルを決定してもよい。別の例として、処理ユニット210は、第1のカメラ202からの画像を処理して、対象車両の前に障害物(例えば、車両、歩行者など)があるかどうかを判断し、そのような障害物の検出とポーズ分類の組み合わせに基づいて衝突リスクを判断してもよい。
【0069】
上記の実施形態では、(車両のキャビン内の環境を見る)カメラ204からのカメラ画像を利用して、運転者の運転タスクへの関与を監視している。他の実施形態では、カメラ202(車両の外部環境を見るカメラ)からのカメラ画像も利用してもよい。例えば、いくつかの実施形態では、車両の外部環境を撮影したカメラ画像が処理ユニット210によって処理され、車両が左折しているのか、直進しているのか、または右折しているのかを判断してもよい。そして、車両が走行している方向に基づいて、処理ユニット210は、運転者のポーズ分類のための1以上の閾値、および/または運転者が運転タスクに従事しているかどうかを判定するための1以上の閾値を調整してもよい。例えば、処理ユニット210が(カメラ202からの画像の処理に基づいて)車両が左折していると判断した場合、処理ユニット210は、左を向いている運転者が運転タスクに従事していないと分類されないように、「左向き」ポーズ分類の閾値を調整してもよい。一実施形態では、「左向き」ポーズ分類の閾値は、直進車両の場合は0.6の値を有し、左折車両の場合は0.9の値を有してもよい。そのような場合、処理ユニット210が、(カメラ202からの画像の処理に基づいて)車両が直進していると判断し、かつ(カメラ204からの画像の処理に基づいて)「左向き」ポーズのメトリックが0.7の値を有すると判断した場合、処理ユニット210は、運転者が運転タスクに従事していないと判断することができる(メトリック値0.7が直進車両の場合の閾値0.6を超えるため)。他方、処理ユニット210が、(カメラ202からの画像の処理に基づいて)車両が左折していると判断し、かつ(カメラ204からの画像の処理に基づいて)「左向き」ポーズのメトリックが0.7の値を有すると判断した場合、処理ユニット210は、(0.7のメトリック値が左折車両用の閾値0.9を超えないため)運転者が運転タスクに従事していると判定することができる。このように、上記の例に示されているように、ポーズ分類(例えば、「左向き」ポーズ)は、ある状況では「注意散漫」クラスに属し、別の状況では「注意」クラスに属する場合がある。いくつかの実施形態では、処理ユニット210は、カメラ202からの外部環境の画像を処理して出力を取得し、出力に基づいて1以上の閾値を調整するように構成される。非限定的な例により、出力は、運転状態の分類、外部環境の分類、環境の決定された特徴、車両の操作のコンテキストなどであり得る。
【0070】
図9は、いくつかの実施例による、
図2の装置200によって実行される方法800を示す。方法800は、車両の運転者に向いたカメラによって生成された画像を受信し(アイテム802)、処理ユニットによって、運転者の画像を処理して運転者が運転タスクに従事しているかどうかを判定すること(アイテム804)を含む。ここで、運転者の画像は、運転者の目の視線方向を判定することなく、画像に現れる運転者のポーズに基づいて、運転者が運転タスクに従事しているかどうかを判定するために処理される。
【0071】
任意で、方法800は、処理ユニットによって、視線方向の特定を試みることと、ニューラルネットワークモデルを使用して、運転者の1以上のポーズ分類を決定することをさらに含む。ここで、視線方向が特定できない場合、運転者は、運転者の1以上のポーズ分類に基づいて、運転タスクに従事しているかどうかが決定される。
【0072】
任意で、方法800は、非一時的媒体にモデルを格納することをさらに含み、運転者の画像はモデルに基づいて処理されて、運転者が運転タスクに従事しているかどうかを判定することができる。
【0073】
任意で、方法800において、モデルは、ニューラルネットワークモデルを含む。
【0074】
任意で、方法800は、通信ユニットによってニューラルネットワークモデルを取得することをさらに含む。
【0075】
任意で、方法800において、ニューラルネットワークモデルは、他の運転者の画像に基づいて訓練される。
【0076】
任意で、方法800は、複数のそれぞれのポーズ分類についてメトリック値を決定することをさらに含み、運転者は、1以上のメトリック値に基づいて、運転タスクに従事しているかどうかが判定される。
【0077】
任意で、方法800において、ポーズ分類は、下向きポーズ、上向きポーズ、左向きポーズ、右向きポーズ、携帯電話使用ポーズ、喫煙ポーズ、物を持つポーズ、ハンドル手放しポーズ、シートベルト非着用ポーズ、目を閉じたポーズ、前方注視ポーズ、片手ハンドルポーズ、および両手ハンドルポーズのうちの2以上を含む。
【0078】
任意で、方法800は、メトリック値をそれぞれのポーズ分類のためのそれぞれの閾値と比較することをさらに含む。
【0079】
任意で、方法800は、メトリック値の対応する1つが閾値の対応する1つを満たすか超える場合に、運転者をポーズ分類の1つに属するものとして決定することをさらに含む。
【0080】
任意で、方法800は、運転者の顔が検出できるかどうかを判定するために画像を処理することをさらに含み、運転者の顔が画像から検出された場合に、運転者が運転タスクに従事しているかが判定される。
【0081】
任意で、方法800は、画像を処理して運転者の目が閉じているかどうかを判定することをさらに含む。
【0082】
任意で、方法800は、視線方向を特定することと、視線方向に基づいて運転者が運転タスクに従事しているかどうかを判定することをさらに含む。
【0083】
任意で、方法800は、運転者が運転タスクに従事しているかどうかに基づいて衝突リスクを決定することをさらに含む。
【0084】
任意で、方法800において、カメラおよび処理ユニットは、車両用のアフターマーケット機器の一部として統合される。
【0085】
任意で、方法800において、アフターマーケット機器は、車両の外側環境を見るように構成された追加のカメラを含む。
【0086】
図10は、いくつかの実施形態による、装置200が使用するモデルを決定する技術を示す。図に示されるように、それぞれの装置200a~200dを有する複数の車両910a~910dが存在し得る。装置200a~200dのそれぞれは、
図2の装置200を参照して説明された構成および特徴を有し得る。使用中、車両910b~910d内の装置200b~200dのカメラは、それぞれの車両910b~910dの外側環境の画像を撮影する。画像は、直接的または間接的に、ネットワーク(例えば、クラウド、インターネットなど)を介してサーバ920に送信される。サーバ920は、車両910b~910d内の装置200b~300dからの画像を処理してモデル930を決定するように構成された処理ユニット922を含む。その後、モデル930は、サーバ920内の非一時的媒体924に格納されてもよい。サーバ920は、モデル930を直接または間接的に、ネットワーク(例えば、クラウド、インターネットなど)を介して車両910a内の装置200aに送信することができる。そして、装置200aは、モデル930を使用して、装置200aのカメラが受信した画像を処理して、カメラの関心領域を決定することができる。
【0087】
図10に示す例では、画像を提供するために3台の車両910b~910dに3つの装置200b~200dが存在する。他の例では、サーバ920に画像を提供するためにそれぞれ3台以上の車両910に3つ以上の装置200が存在してもよいし、サーバ920に画像を提供するために3台未満の車両910に3つ未満の装置200があってもよい。
【0088】
いくつかの実施形態では、サーバ920によって提供されるモデル930は、ニューラルネットワークモデルであり得る。そのような場合、サーバ920は、ニューラルネットワークであるか、ニューラルネットワークの一部であり得、装置200b~200dからの画像は、モデル930を構成するためにサーバ920によって利用され得る。特に、サーバ920の処理ユニット922は、機械学習を介してモデル930を訓練することによってモデル930を構成することができる。いくつかの場合において、異なる装置200b~200dからの画像は、対応する車両に対して異なる位置に取り付けられた異なるカメラからの豊富なデータセットを形成し、これはモデル930をトレーニングするのに有用である。本明細書で使用される「ニューラルネットワーク」の語は、入力に対する動的な状態の応答によって情報を処理する、相互接続された多数の処理要素で構成されるコンピューティングデバイス、システム、またはモジュールを指す。いくつかの実施形態では、ニューラルネットワークは、深層学習能力および/または人工知能を有し得る。いくつかの実施形態では、ニューラルネットワークは、1以上のデータセットを使用して訓練することができる単純な任意のコンピューティング要素であり得る。非限定的な例として、ニューラルネットワークは、パーセプトロン、フィードフォワードニューラルネットワーク、ラジアルベースニューラルネットワーク、ディープフィードフォワードニューラルネットワーク、リカレントニューラルネットワーク、長期/短期記憶ニューラルネットワーク、ゲート付きリカレントユニット、自動エンコーダニューラルネットワーク、変分自動エンコーダニューラルネットワーク、ノイズ除去自動エンコーダニューラルネットワーク、スパース自動エンコーダニューラルネットワーク、マルコフチェーンニューラルネットワーク、ホップフィールドニューラルネットワーク、ボルツマンマシン、制限付きボルツマンマシン、ディープビリーフネットワーク、コンボリューションネットワーク、デコンボリューションネットワーク、ディープコンボリューションインバースグラフィックスネットワーク、敵対性生成ネットワーク、リキッドステートマシン、エクストリームラーニングマシン、エコーステートネットワーク、ディープレジデントネットワーク、コホーネンネットワーク、サポートベクトルマシン、ニューラルチューリングマシン、モジュラーニューラルネットワーク、シーケンスツーシーケンスモデルなど、またはこれらの任意の組み合わせを含む。
【0089】
いくつかの実施形態では、サーバ920の処理ユニット922は、画像を使用して、運転者の特定のポーズを識別するようにモデル930を構成する(すなわち訓練する)。非限定的な例として、モデル930は、運転者が下向きポーズ、上向きポーズ、左向きポーズ、右向きポーズ、携帯電話使用ポーズ、喫煙ポーズ、物を持つポーズ、ハンドル手放しポーズ、シートベルト非着用ポーズ、目を閉じたポーズ、前方注視ポーズ、片手ハンドルポーズ、および両手ハンドルポーズなどを識別するように構成され得る。また、いくつかの実施形態では、サーバ920の処理ユニット922は、運転者が運転タスクに従事しているか否かを判定するようにモデルを構成するために画像を使用することができる。いくつかの実施形態では、運転者が運転タスクに従事しているかどうかの判定は、運転者のポーズ分類を処理する処理ユニットによって達成され得る。一実装形態では、ポーズ分類は、ニューラルネットワークモデルによって提供される出力であり得る。そのような場合、ニューラルネットワークモデルは処理ユニットに渡され、処理ユニットがニューラルネットワークモデルからのポーズ分類に基づいて、運転者が運転タスクに従事しているかどうかを判定する。他の実施形態では、ポーズ分類を受け取る処理ユニットは、別の(例えば、第2の)ニューラルネットワークモデルであってもよい。このような場合、第1のニューラルネットワークモデルがポーズ分類を出力するように構成され、第2のニューラルネットワークモデルは、第1のニューラルネットワークモデルによって出力されるポーズ分類に基づいて、運転者が運転タスクに従事しているかどうかを判定するように構成される。そのような場合、モデル930は、第1のニューラルネットワークモデルと第2のニューラルネットワークモデルの両方を有すると見なすことができる。さらなる実施形態では、モデル930は、入力として画像を受け取り、運転者が運転タスクに従事しているかどうかを示す出力を提供するように構成された単一のニューラルネットワークモデルであってもよい。
【0090】
他の実施形態では、モデル930は、ニューラルネットワークモデルではなくてもよく、他のタイプのモデルのいずれかであってもよい。そのような場合、処理ユニット922によるモデル930の構成は、機械学習を含まなくてもよく、および/または装置200b~200dからの画像が必要でなくてもよい。代わりに、処理ユニット922によるモデル930の構成は、処理ユニット922がモデル930のための処理パラメータ(例えば、特徴抽出パラメータなど)を決定する(例えば、取得する、計算するなど)ことによって達成することができる。いくつかの実施形態においてモデルは、プログラム命令、コマンド、スクリプト、パラメータ(例えば、特徴抽出パラメータ)などを含み得る。一実施形態では、モデルは、装置200によって無線で受信可能なアプリケーションの形態であり得る。
【0091】
モデル930がサーバ920によって構成されたら、このモデル930は、カメラ画像内の物体を識別するために、異なる車両910内の装置200によって使用可能となる。図示されるように、モデル930は、サーバ920から車両910a内の装置200aに送信され得る。モデル930はまた、サーバ920からそれぞれの車両910b~910d内の装置200b~200dに送信され得る。装置200aがモデル930を受け取った後、装置200aの処理ユニットは、次に、本明細書に記載されているように装置200aのカメラによって生成された画像を処理して、運転者のポーズを識別し、および/または運転者が運転タスクに従事しているかどうかを判定することができる。
【0092】
いくつかの実施形態では、サーバ920から装置200(例えば、装置200a)へのモデル930の送信は、サーバ920がモデル930を「プッシュ」することで実行され、その場合に装置200は要求する必要がない。他の実施形態では、サーバ920からモデル930の送信は、装置200によって生成および送信された信号に応答して、サーバ920によって実行されてもよい。例えば装置200の電源を入れたとき、または装置200を搭載した車両が始動されたときに、装置200が信号を生成して送信することができる。信号は、サーバ920によって受信されたら、サーバ920は、装置200による受信のためにモデル930を送信することができる。別の例として、装置200は、装置200のユーザがモデル930の要求を送信できるようにするボタンなどのユーザインターフェースを含んでもよい。このような場合、ボタンが押されると、装置200は、モデル930の要求をサーバ920に送信する。その要求に応答して、サーバ920がモデルを装置200に送信する。
【0093】
図10のサーバ920は、1つのサーバ装置である場合に限定されず、複数のサーバ装置であってもよいことに留意されたい。また、サーバ920の処理ユニット922は、1以上のプロセッサ、1以上の処理モジュールなどを含むことができる。
【0094】
他の実施形態では、サーバ920によって取得される画像は、装置200b~200dによって生成されなくてもよい。代わりに、モデル930を決定する(例えば、訓練する、構成するなど)ためにサーバ920によって使用される画像は、携帯電話、他の車両のカメラなどの他のデバイスを使用して記録されてもよい。また、他の実施形態では、モデル930を決定する(例えば、訓練する、構成するなど)ためにサーバ920が使用する画像は、サーバ920に関連付けられたデータベースや、第三者が所有するデータベースからサーバ920にダウンロードされてもよい。
【0095】
[専用処理システム]
図11は、本明細書に記載の1以上の電子装置を実装するための専用の処理システムを示す。例えば、処理システム1600は、装置200、または装置200の処理ユニット210など、装置200の少なくとも一部を実装することができる
【0096】
処理システム1600は、情報を通信するためのバス1602または他の通信メカニズムと、情報を処理するためにバス1602に結合されたプロセッサ1604とを含む。プロセッサシステム1600はまた、プロセッサ1604によって実行される情報および命令を格納するためにバス1602に結合されたランダムアクセスメモリ(RAM)または他の動的記憶装置などのメインメモリ1606を含む。メインメモリ1606は、プロセッサ1604によって実行される命令の実行中に一時的な変数や他の中間情報を記憶するために使用される。プロセッサシステム1600は、プロセッサ1604のための静的な情報や命令を記憶するためにバス1602に結合された読取専用メモリ(ROM)1608または他の静的記憶装置をさらに含む。情報および命令を記憶するために磁気ディスクや光ディスクなどのデータ記憶装置1610が提供され、バス1602に結合される。
【0097】
プロセッサシステム1600は、バス1602を介して、ユーザに情報を表示するためにスクリーンまたはフラットパネルなどのディスプレイ167に結合されてもよい。英数字や他のキーまたはタッチスクリーンを含む入力デバイス1614が、情報やコマンド選択をプロセッサ1604に通信するためにバス1602に結合される。別のタイプのユーザ入力デバイスは、方向情報およびコマンド選択をプロセッサ1604に通信し、ディスプレイ167上のカーソルの動きを制御するためのタッチパッド、タッチスクリーン、トラックボール、またはカーソル方向キーなどのカーソル制御1616である。この入力デバイスは、典型的に、第1の軸(例えばx)と第2の軸(例えばy)の2つの軸における2自由度を有し、デバイスが平面内の位置を指定することができる。
【0098】
いくつかの実施形態では、プロセッサシステム1600を使用して、本明細書に記載の様々な機能を実行することができる。いくつかの実施形態によれば、そのような使用は、メインメモリ1606に含まれる1以上の命令の1以上のシーケンスをプロセッサ1604が実行することに応答して、プロセッサシステム1600によって提供される。当業者は、本明細書に記載の機能および方法に基づいて、そのような命令を準備する方法を知るであろう。そのような命令は、記憶装置1610などの別のプロセッサ可読媒体からメインメモリ1606に読み込まれてもよい。メインメモリ1606に含まれる命令のシーケンスを実行することにより、プロセッサ1604は本明細書に記載のプロセスステップを実行する。マルチプロセッシング構成の1以上のプロセッサを使用して、メインメモリ1606に含まれる命令のシーケンスを実行してもよい。代替の実施形態では、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせてハードワイヤード回路を使用??して、本明細書に記載の様々な実施形態を実装してもよい。したがって、実施形態は、ハードウェア回路とソフトウェアの特定の組み合わせに限定されない。
【0099】
本明細書で使用される「プロセッサ可読媒体」という用語は、実行のためにプロセッサ1604に命令を提供することに関与する任意の媒体を指す。そのような媒体は、不揮発性媒体、揮発性媒体、および伝送媒体を含むがこれらに限定されない多くの形態をとることができる。不揮発性媒体は、例えば、記憶装置1610などの光学ディスクまたは磁気ディスクを含む。不揮発性媒体は、非一時的媒体の例とみなすことができる。揮発性媒体は、メインメモリ1606などの動的メモリを含む。揮発性媒体は、非一時的媒体の例とみなすことができる。伝送媒体には、バス1602を構成するワイヤを含む、ケーブル、ワイヤ、および光ファイバが含まれる。伝送媒体は、電波や赤外線データ通信中に生成されるような、音響波や光波の形態をとることもできる。
【0100】
プロセッサ可読媒体の一般的な形態には、例えば、ハードディスク、磁気媒体、CD-ROM、その他の光学媒体、RAM、PROM、およびEPROM、FLASH-EPROM、その他のメモリチップまたはカートリッジ、後述するキャリア波、その他のプロセッサ可読媒体が含まれる。
【0101】
様々な形態のプロセッサ可読媒体が、実行のために1以上の命令の1以上のシーケンスをプロセッサ1604に送られることに関与し得る。例えば、命令は、最初に、リモートコンピュータまたはリモートデバイスのストレージ上に送られてもよい。リモートコンピュータまたはデバイスは、インターネットなどのネットワークを介して命令を送信することができる。処理システム1600にある受信ユニットが、ネットワークからデータを受信し、バス1602上でデータを提供することができる。バス1602は、データをメインメモリ1606に運び、そこからプロセッサ1604が命令を取り出して実行する。メインメモリ1606に受信された命令は、任意で、プロセッサ1604による実行の前後いずれかで、記憶装置1610に記憶されてもよい。
【0102】
処理システム1600はまた、バス1602に結合された通信インターフェース1618を含む。通信インターフェース1618は、ローカルネットワーク1622に接続されたネットワークリンク1620に双方向データ通信を提供する。例えば、通信インターフェース1618は、データ通信を提供する統合サービスデジタルネットワーク(ISDN)カードであってもよい。別の例として、通信インターフェース1618は、互換性のあるLANへのデータ通信接続を提供するためのローカルエリアネットワーク(LAN)カードであってもよい。また、無線リンクが実装されてもよい。そのような実装では、通信インターフェース1618は、様々なタイプの情報を表すデータストリームを運ぶ電気信号、電磁信号、または光信号を送受信する。
【0103】
ネットワークリンク1620は、典型的に、1以上のネットワークを介して他のデバイスへのデータ通信を提供する。例えば、ネットワークリンク1620は、ローカルネットワーク1622を介して、ホストコンピュータ1624または機器1626への接続を提供することができる。ネットワークリンク1620を介して転送されるデータストリームは、電気信号、電磁信号、または光信号を含み得る。処理システム1600との間でデータを運ぶ、様々なネットワークを介した信号、ネットワークリンク1620上の信号、および通信インターフェース1618を介した信号は、情報を搬送する搬送波の例示的な形態である。処理システム1600は、ネットワーク、ネットワークリンク1620、および通信インターフェース1618を介して、メッセージを送信し、プログラムコードを含むデータを受信することができる。
【0104】
本明細書で使用される「画像」という用語は、表示される画像に限定されず、表示される画像や表示されない画像(例えば、格納されるデータまたはデジタル形式の画像)を指す場合がある。同様に、本明細書で使用される「グラフィック要素」という用語または「グラフィック識別子」などの他の類似の用語は、表示されるアイテムまたは表示されないアイテムを指してもよい。アイテムは、計算要素、グラフィカル要素/識別子を表す方程式、グラフィカル要素/識別子に関連する1以上の幾何学的パラメータであり得る。
【0105】
さらに、本明細書で使用される「モデル」という用語は、1以上のアルゴリズム、1以上の方程式、1以上の処理アプリケーション、1以上の変数、1以上の基準、1以上のパラメータ、または上記の任意の2つ以上の組み合わせを指すことができる。
【0106】
さらに、本明細書で使用される「運転者が運転タスクに従事しているかどうかを判定する」という語句、または他の類似の語句のいずれかは、必ずしも(1)「運転者が運転タスクに従事している」と(2)「運転者は運転タスクに従事していない」の両方が判定結果として得られなくてもよい。むしろ、そのような語句や類似の語句は、(1)可能な判定結果として「運転者が運転タスクに従事している」、(2)可能な判定結果として「運転者が運転タスクに従事していない」、または(3)可能な判定結果として、「運転者が運転タスクに従事している」と「運転者が運転タスクに従事していない」の両方、をカバーすることを意図している。また、上記の語句および他の類似の語句は、運転者の状態が不明であることを示す結果など、他の判定結果を除外するものではない。例えば、上記の句または他の類似の句は、2つの可能な処理結果として処理ユニットが、(1)運転者が運転タスクに従事している、または(2)運転者が運転タスクに従事しているかどうかが不明である、と判定するように構成される実施形態をカバーする(語句の最初の部分が判定結果(1)に言及しているため)。別の例として、上記の句または他の類似の句は、処理ユニットが、2つの可能な処理結果として(1)運転者が運転タスクに従事していない、または(2)運転者が運転タスクに従事していないかどうかが不明である、と判定するように構成される実施形態をカバーする(語句の後半部分が判定結果(2)に言及しているため)。
【0107】
また、本明細書で使用される「信号」という用語は、1以上の信号を指す場合がある。非限定的な例によると、信号は、1以上のデータ、1以上の情報、1以上の信号値、1以上の離散値などを含み得る。
【0108】
これまで特定の特徴を示し、説明してきたが、それらは請求項の発明を限定することを意図したものではなく、当業者には、請求項の発明の精神と範囲から逸脱することなく様々な変更や修正が可能であることは明らかであろう。したがって、本明細書および図面は、限定的な意味ではなく例示的な意味で捉えられるべきである。請求項の発明は、すべての代替品、変更および均等物をカバーすることを意図している。
【外国語明細書】