IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エスアールアイ インターナショナルの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-18
(45)【発行日】2022-01-26
(54)【発明の名称】運転行動を監視する方法及びシステム
(51)【国際特許分類】
   G06T 7/20 20170101AFI20220119BHJP
   G07C 5/00 20060101ALI20220119BHJP
   G08G 1/16 20060101ALI20220119BHJP
   G06T 7/00 20170101ALI20220119BHJP
【FI】
G06T7/20 300B
G07C5/00 Z
G08G1/16 F
G06T7/00 660A
G06T7/00 650Z
G06T7/00 350B
【請求項の数】 10
(21)【出願番号】P 2018508721
(86)(22)【出願日】2016-08-30
(65)【公表番号】
(43)【公表日】2018-09-27
(86)【国際出願番号】 US2016049480
(87)【国際公開番号】W WO2017040519
(87)【国際公開日】2017-03-09
【審査請求日】2019-08-23
(31)【優先権主張番号】62/212,272
(32)【優先日】2015-08-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】501228071
【氏名又は名称】エスアールアイ インターナショナル
【氏名又は名称原語表記】SRI International
【住所又は居所原語表記】333 Ravenswood Avenue, Menlo Park, California 94025, U.S.A.
(74)【代理人】
【識別番号】110000408
【氏名又は名称】特許業務法人高橋・林アンドパートナーズ
(72)【発明者】
【氏名】タムラカール,アミール
(72)【発明者】
【氏名】ホ,グレゴリー
(72)【発明者】
【氏名】サルター,デビッド
(72)【発明者】
【氏名】ホアン,ジーフア
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】国際公開第2014/113346(WO,A3)
【文献】特表2016-503220(JP,A)
【文献】特開2002-352228(JP,A)
【文献】特開2010-204847(JP,A)
【文献】特開2009-217633(JP,A)
【文献】米国特許出願公開第2015/0161505(US,A1)
【文献】特開2015-162087(JP,A)
【文献】松本 吉央,リアルタイム顔・視線計測システムの開発と知的インタフェースへの応用,情報処理学会論文誌,日本,社団法人情報処理学会,2006年10月15日,第47巻 No.SIG15(CVIM 16),10~21ページ
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
G07C 1/00-15/00
G08G 1/00-99/00
(57)【特許請求の範囲】
【請求項1】
メモリに格納されたプログラム命令を含む監視モジュールを介して運転状況を監視する方法であって、
前記監視モジュールが、
車両の内部又は外部を表すビデオフレームを含むビデオデータを、1以上のセンサーから受信し、
それぞれが少なくとも1つの運転状況と関連付けられた複数の特徴を、前受信したビデオデータから抽出し、
抽出された前記複数の特徴に対して回帰を実行し当該複数の特徴の少なくとも2つを相関させることにより中間特徴を生成し、
少なくとも前記中間特徴を利用することにより前記少なくとも一つの運転状況についてセマンティック意味を生成すること、
を1以上のプロセッサーに実行させる方法。
【請求項2】
安全データを受信し、
転状況についてセマンティック意味を生成するために前記中間特徴と前記安全データとを統合することをさらに含む、請求項に記載の方法。
【請求項3】
前記複数の特徴を抽出することは、
履歴にあるビデオデータを利用することにより検出器に学習させ、
前記ビデオデータから前記複数の特徴を抽出するために学習させられた前記検出器を使用することを含む、請求項に記載の方法。
【請求項4】
前記検出器に学習させることは、機械学習方法を利用して履歴にある前記ビデオデータに回帰を実行することを含む、請求項に記載の方法。
【請求項5】
前記複数の特徴を抽出することは、
受信した前記ビデオデータを使用して車両の運転手の固有性を一般化することによりカスタマイズされた検出器に学習させ、
カスタマイズされた前記検出器を使用して前記ビデオデータからの前記複数の特徴を抽出することを含む、請求項に記載の方法。
【請求項6】
前記複数の特徴を抽出することは、
履歴にあるビデオデータにおいて前記複数の特徴について識別可能な点と点の間の距離を平均することによりモデルを作成することを含み、
前記ビデオデータから前記複数の特徴を抽出するための前記モデルを使用することを含む、請求項に記載の方法。
【請求項7】
前記受信されたビデオデータから抽出された前記複数の特徴を利用することにより前記モデルを改良することをさらに含む、請求項に記載の方法。
【請求項8】
セマンティック意味を生成するために少なくとも2つの抽出された特徴を相関することをさらに含む、請求項に記載の方法。
【請求項9】
少なくとも2つの抽出された特徴を相関させることは、少なくとも2つの抽出された特徴について少なくとも2つの独立した回帰を実行することを含み、
前記セマンティック意味は少なくとも2つの独立した回帰の結果について結合回帰を実行することにより生成されることを含む、請求項に記載の方法。
【請求項10】
抽出された前記複数の特徴をユーザーインターフェースに表示することをさらに含む、請求項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願に関する相互参照
本出願は、2015年8月31日に出願された、「複数の社会的な運転手の状態及び行動分析」と題する米国仮特許出願第62/212,272号の利益を主張し、その全体を本明細書に組み込む。
【0002】
連邦政府がスポンサーとなる研究に関する声明
本発明は、連邦道路管理局が授与した契約番号DTFH6114C00005とDTFH6114C00007とに基づく政府の支援によりなされた。
【背景技術】
【0003】
全米高速道路交通安全局(national highway traffic safety administration)の統計によると、2014年には、3200人以上の人が自動車事故で死亡した。これら犠牲者を出した事故の多くは、特定の運転行動により引き起こされている可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、一定期間の運転活動を記録するビデオがあるにもかかわらず、ビデオデータを検出及び認識し、運転行動を追跡することができるための技術的課題が依然として存在する。さらに、ビデオに記録された運転手は、自身の固有性を明らかにする意志がないこともある。また、運転行動を分析するために、ビデオに記録された運転手の固有性を一般化することも重要である。このように、運転動作及び行動をビデオに保存しつつ、ビデオに記録された運転手の固有性を一般化するための技術的課題が存在する。
【図面の簡単な説明】
【0005】
図1】運転手の運転行動を監視するためのシステムの例を示す図である。
図2】キャプチャーされたビデオデータの前処理の例を示す図である。
図3】顔追跡をし、頭部の姿勢を抽出するための例を示す図である。
図4】A及びBは、顔検出をするための適合率-再現率曲線(Precision-Recall curve)を示す図である。
図5】重複率の判定を示す図である。
図6】A及びBは、顔器官を追跡するための適合率-再現率曲線を示す図である。
図7】顔器官を追跡する7つの注釈付きの点の例を示す図である。
図8】顔器官を追跡する性能分析クワッドチャート(quad chart)を示す図である。
図9】平均顔モデルの例を示す図である。
図10】カスタマイズされた顔モデルを生成するための例示的な処理を示す図である。
図11】車内の頭部/顔の姿勢の3次元追跡の例を示す図である。
図12】パン角度及びチルト角度のエラー分析の例を示す図である。
図13】コンピュータ3D視線対象ベクトル(computer 3D glance target vectors)に対する頭部/顔の姿勢の使用を示す図である。
図14】複数の視線対象の周波数の例を示す図である。
図15】瞬き検出及び瞬き割合推定の例を示す図である。
図16】取得されたビデオに基づいて構成された6つの異なる表情の例を示す図である。
図17】上半身の関節及び手を追跡するための例を示す図である。
図18】ディープポーズ分析(deep pose analysis)の例を示す図である。
図19】外部車両検出の例を示す図である。
図20】運転状況を監視するための高水準のフレームワークを示す図である。
図21】ビデオから抽出されたビデオの特徴の視覚化表現を表示するユーザーインターフェースの例を示す図である。
図22】運転行動を追跡し抽出する方法を示すフローチャートである。
図23】運転手の頭部をアバターに置き換えるために使用することができる画像処理装置の例を示す図である。
図24】顔の特徴及び頭部の姿勢を追跡するために使用されるキャプチャー画像を示す図である。
図25】生成された多数のアバターの例を示す図である。
図26】追跡画像と生成されたアバターとの間の顔器官のマッピングを示す図である。
図27】運転手の頭部との置き換えのために生成されたアバターを選択するためのユーザーインターフェースを示す図である。
図28】運転手の頭部と選択されたアバターとの間で転送する動作を示す図である。
図29】記録されたビデオにおける運転手の固有性を一般化するためのロジックを示す図である。
図30図29に示すロジックを実装する例を示す図である。
図31図30における固有性マスキング(identity masking)を実装する個々のタスクを示す図である。
図32】固有性を一般化するためのアバター置換に関する一般化された実装を示す図である。
図33】運転手の行動を監視するために使用することができるコンピュータシステムの例を示す図である。
【発明を実施するための形態】
【0006】
本開示は、一例であり、添付の図面に限定されるものではない。これらの図面は、単独又は組み合わせて、本開示の1以上実施形態を例示してもよい。図面に示された要素は、必ずしも縮尺通りには描かれていない。対応する要素又は類似する要素を示すために、図面間で同一の参照符号を付すことがある。
【0007】
本開示の概念は、様々な修正及び他の代替形態が可能であるが、それらのうち特定の実施形態は、図面を用いて例示され、以下で詳細に説明される。本開示の概念を開示された特定の形態に限定することは、意図されていない。むしろ、本開示及び添付の請求項と一致するすべての修正、均等物及び代替物を含むことが、意図されている。
【0008】
ハイウェイの安全性を向上させるには、運転行動を理解することが重要である。多くのデータが存在し、運転行動分析に利用可能である。例えば、カメラは、自動車内の運転動作を記録するために運転車両の内外に配置することができ、及び/又は、自動車を運転している間に自動車の周囲の外の景色を取り込むためにカメラが配置されてもよい。記録されたデータは、昼間、夜間、及び過渡的な光など、異なる照明条件についての運転データを含むことができる。記録されたデータは、異なる性別、年齢層、民族性、顔ひげ、アイウェア(eye wear)、ヘッドギア(head gear)など、異なる運転手の運転データも含むことができる。しかし、記録されたデータを分析し、運転行動の理解を深めるためには、特定のメカニズムを開発する必要がある。
【0009】
運転の特徴は、記録されたビデオから識別しコード化することができる。運転の特徴は、運転手の状態と運転手の動作を含むことができる。例えば、運転手の状態は、頭部の姿勢、注視、目の瞬き、口の動き、表情、手の位置及び/又は動きを含むことができる。運転手の動作は、ジェスチャーや行動を含むことができる。また、交通状況、気象条件、道路状況、歩行者の動作、自転車、車両、信号機、道路標識など、車両外の要因について追加の特徴も識別しコード化することができる。例えば、同乗者、同乗者に由来する注意散漫、ラジオ、携帯電話、トラベルマグ、ガジェットに由来する注意散漫など、車両内の運転の特徴を識別しコード化することもできる。
【0010】
識別され、コード化された特徴は、統合し、集約することができる。例えば、運転手の注視方向は、車両事故に関連することがある。包括的な運転行動の研究のために、研究は、運転手の動作及び行動を、その動作が行われる文脈で考慮することが必要であると考えられる。このように、識別され、コード化された特徴を相関させ、安全条件に関してそれらの特徴の間のセマンティック意味を発見することが好ましい。
【0011】
図1は、運転手の運転行動を監視するためのシステム100の実施例を示す図である。図1に示すように、システムは、プロセッサー130及び非一時的コンピュータ可読媒体140を含むことができる。処理命令は、非一時的コンピュータ可読媒体140に格納することができる。処理命令は抽出処理命令142を含むことができ、例えば、抽出処理命令142は、顔追跡143、頭部配置追跡144、表情追跡145、注視対象分析146、瞬き追跡147、口の状態148、及び車の外の景色149など、処理命令を含むことができる。処理命令は、統合処理命令152も含むことができ、統合処理命令152は、独立特徴学習153、セマンティック意味生成155及びディープポーズ分析157を実行するための命令を含むことができる。独立特徴学習153は、独立して追跡された特徴に関する回帰を実行し、回帰結果に基づいて追跡された特徴の意味を生成することを含むことができる。ディープポーズ分析157は、独立して抽出された2つ以上の特徴を相関させ、相関した特徴についての意味を生成することができる。例えば、ディープポーズ分析157は、注視対象分析146と自動車の外の景色149とを相関させ、これら2つの独立した特徴間の関係を見つけることができる。追跡された特徴のそれぞれについて、セマンティック意味を生成するために、独立学習及びディープポーズ分析を使用することができる。例えば、口の状態を監視することにより、運転手が運転している間に運転手が話す可能性があるかどうかのセマンティック意味を発見することができる。
【0012】
図1に示すように、システム100は、処理命令を実行する結果を表示するためのユーザーインターフェース110を含むことができる。図1では、運転手が自動車を運転している間に、1以上のビデオカメラ160を使用して未加工ビデオ170をキャプチャー(又はインポート)し、自動車の内外を記録する。キャプチャーされた未加工ビデオ170は、データベース190に保存することができ、又は、コンピュータ可読媒体140にビデオデータ158として保存することができる。キャプチャーされたビデオデータ158は、前処理159することができる。プロセッサー130は、前処理されたビデオデータ158を追跡、検出、及び/又は、抽出するための処理命令を実行することができる。また、プロセッサー130は、統合処理命令153を実行する間に前処理されたビデオデータ158も使用することができる。図1に示すデータベース190を使用して、未加工ビデオデータ170を保存することができる。また、データベース190は、前処理されたビデオデータ又は他の抽出された若しくは統合されたビデオデータの結果を保存するために使用することもできる。さらに、データベース190は、履歴から取得又は処理されたビデオデータを格納することができる。
【0013】
図1では、データコミュニケーションネットワーク120は、プロセッサー130、コンピュータ可読媒体140、ユーザーインターフェース110、1以上のビデオカメラ160、及び/又は、データベース190の間の通信を可能にするために使用される。データコミュニケーションネットワーク120は、ローカルバス又はイーサネット(登録商標)などのローカルエリアネットワーク(LAN)でもよい。データコミュニケーションネットワーク120は、ワイドエリアネットワーク(WAN)でもよいし、ワイヤレスネットワークでもよい。図1に示すように、データコミュニケーションネットワーク120を使用することに加えて、プロセッサー130及びデータベース190は、非一時的コンピュータ可読媒体140と直接通信することもできる。
【0014】
図2は、キャプチャーされたビデオデータ200の前処理の例を示す図である。図2に示すように、キャプチャーされた未加工ビデオフレーム202は、前処理されて前処理ビデオ204を形成する。図2では、未加工ビデオのコントラストが強調されている。キャプチャーされた未加工ビデオフレーム202では、顔領域210と自動車212の内部とのコントラストは、大きくはない。前処理の後、前処理されたビデオフレーム204は、大きくコントラストされた顔領域206と大きくコントラストされた自動車208の内部とを示している。窓が完全に綺麗ではないことがあるので、未加工ビデオは、場合によっては運転手の窓の外からキャプチャーされることがあり、この場合、キャプチャーされたビデオは、前処理され、窓の汚れに由来する余分なピクセルが除去される。
【0015】
前処理されたビデオデータに対して、検出、認識及び抽出を実行することができる。図3に示すように、顔追跡及び頭部姿勢抽出を実行するために、ビデオデータ306を検出及び抽出することができる。図3では、顔追跡300は、第1のパス302及び/又は第2のパス304により実行することができる。
【0016】
事前学習顔検出器308を顔検出及び追跡316に使用することができる。図3に示すように、事前学習顔検出器308は、ビデオデータ306の処理とは別個に開発される。例えば、事前学習顔検出器308は、データベース190に保存された履歴データを使用することにより、ビデオ306の顔検出及び/又は追跡するための1以上のパターン(分類指標とも呼ばれる)を生成することができる。1以上のパターンは、顔が特定の運転状態にある可能性が高いところを示すことができる。例えば、事前学習顔検出器308は、自動車が高速道路を時速60マイルの速度で走行しているときに、顔がビデオ306の真ん中にある可能性が高いことを示すパターン(又は分類指標)を生成することができる。
【0017】
1以上のパターンは、履歴データを回帰することにより生成することができる。事前学習顔検出器308は、データベース190に記憶された履歴にあるビデオデータを使用することにより回帰を実行することができる。また、事前学習顔検出器308は、運転手の顔検出及び/又は追跡するための1以上のパターン(分類指標)を生成する機械学習技術を利用することができる。一例として、畳み込みニューラルネットワーク(CNN)は、1以上の検出器を開発するために使用することができる。CNNは、複数の段階から構成することができる学習可能なアーキテクチャであり、各段階は複数の層を含むことができる。例えば、複数の層は、濾過層、非線形層及び特徴層の3つの層を含むことができる。CNNの各段階の入力と出力は、特徴図と呼ばれる一組の配列であり、最後の段階は、分類のために完全につなぎ合わされた多層パーセプトロン(MLP)でもよい。分類は、検出器のための分類指標を生成するために使用される回帰でもよい。
【0018】
専門家は、分類指標に注釈を付けることができる。例えば、CNNを使用して分類指標を生成することができる。専門家は、機械学習手法により生成された不正確な分類指標に由来する可能性があるエラーを減らすために、分類指標に注釈を付けることができる。
【0019】
生成され事前学習顔検出器は、顔検出及び追跡のために使用することができる。図3に示すように、顔検出及び追跡316は、事前学習顔検出器308を適用して、キャプチャーされたビデオデータ306を検出及び追跡することにより実行される。事前学習顔検出器308は、顔検出及び追跡のための複数のパターン又は分類指標を生成することができる。処理されたビデオ306に基づいて、入力ビデオ306から顔検出及び/又は抽出するために、1以上の適切なパターン又は分類指標が選択される。例えば、キャプチャーされたビデオ306が、運転手が電話をしていることを示すときは、事前学習顔検出器308からの適切なパターン又は分類指標が検索及び選択され、パターン又は分類指標が検索された後、検索されたパターン又は分類指標を使用してビデオ306から顔が抽出される。
【0020】
顔器官318は、追跡のためにビデオ306から抽出することができる。固定された顔の特徴の位置は、顔器官と呼ぶことができる。例えば、目、鼻、口の位置である。図3に示すように、目、鼻、口の位置を含む顔器官は、顔検出及び追跡316による抽出された顔から識別することができる。
【0021】
頭部の姿勢は、ビデオ306から抽出320することができる。図3では、平均顔モデル310が、頭部姿勢抽出320に使用されている。データベース190に記憶された履歴データは運転手の顔の例を複数提供してもよいし、各運転手の顔は異なってもよい。平均モデル310は、複数の運転手の顔の寸法を平均化することによりモデル運転手の顔を生成するために遂行することができる。例えば、複数の運転手の目の間の距離を検索し、平均距離を計算することができる。このようにして、平均顔モデル310に対する目の間の距離を得ることができる。運転手の頭部の姿勢は、運転中の異なる方向から3次元の角度を維持している。このように、平均顔モデル310は、ビデオ306から運転手の頭部を抽出するための3次元(3D)モデルを提供することができる。運転手の頭部と運転手の顔は、運転手ごとに異なるが、平均的な顔モデル310は、抽出のためのモデルを生成する1つの方法を提供する。平均顔モデル310を使用して1つのモデルのみを生成することもできる。動作中、運転手の頭部の角度及び位置を抽出し、平均顔モデル310を使用して頭部の姿勢の角度及び位置を示すことができる。このように、頭部の姿勢の分析は、異なる顔及び頭部についてそれぞれ形状及び大きさが異なるにもかかわらず実行することができる。
【0022】
頭部姿勢抽出320は、顔検出316及び顔器官追跡318の後に実行することもできる。顔検出316、顔器官追跡318及び頭部姿勢抽出320を並行して実行することができるが、プロセッサー130は、顔検出316及び顔器官追跡318が実行された後に頭部姿勢抽出320を実行することができる。このように、取得され追跡された顔及び顔器官情報は、頭部姿勢抽出320と追跡された顔及び顔器官とを相関させるために使用することができる。例えば、頭部姿勢抽出320を使用することにより、運転手は、目が特定の位置にあるときに特定の頭部姿勢を維持することを見つけることができる。
【0023】
個人化情報322は、追跡された顔316、追跡された顔器官318及び頭部姿勢抽出320を使用して取得することができる。図3に示すように、追跡された顔情報316、顔器官情報318及び頭部姿勢情報320は、運転手の個人化情報を生成するためにパーソナライゼーション(personalization)322に供給される。個人化情報は、運転中の顔の位置、顔の特徴の位置、運転手の頭部の姿勢の角度及び位置を含むことができる。図3に示すように、個人化情報は、顔検出器312をカスタマイズし、顔モデル314をカスタマイズするために使用することができる。
【0024】
運転手の行動を追跡するとき、個人の固有性を一般化することができる。運転手は、運転動作や行動を追跡しているとき、自分の識別情報を明らかにしたくないかもしれない。さらに、運転行動を追跡しているときに運転手の識別情報を明らかにすることは、運転手に安全上の問題を引き起こすことがある。そのため、運転手の運転動作や行動を追跡するとき、運転手の固有性を隠すことが重要である。運転手の固有性を隠す1つの方法は、運転手の固有性を一般化することである。例えば、運転手の固有性は、ビデオの中で頭部をアバターに置き換えたときに一般化することができる。取得された個人化情報322は、顔の位置を認識し、顔器官を学習し、運転手の頭部の姿勢を理解するために使用することができる。したがって、取得された個人化情報はアバターに転送されてもよく、アバターは、ビデオの中で運転手の頭部を取り替えた後に、運転手の顔の動作及び頭部の動きを維持することができる。アバターを使用することにより、運転手の固有性を一般化することについては、以下でより詳細に説明する。
【0025】
図3に示すように、顔検出、顔器官追跡及び頭部姿勢抽出を実行するための第2のパス304が存在してもよい。第2パス304は、第1のパス302に続けてもよい。あるいは、第2のパス304は、第1のパス302を開始した後、第1のパス302を終了する前に開始してもよい。個人化情報322は、第1のパス302で生成された顔検出316、顔器官追跡318及び頭部姿勢抽出320からのデータを使用して生成されるので、いくつかの実施形態では、第2のパス304は、第1のパス302における処理と並行して実行されなくてもよい。
【0026】
収集された個人化情報322は、第2のパス304のためにカスタマイズされた顔検出器312及びカスタマイズされた顔モデル314を生成するために使用することができる。運転手の頭部の動き及び顔の動作を学習した後、カスタマイズされた顔検出器312を生成することができる。事前学習顔検出器を生成するために使用される機械学習法もまた、カスタマイズされた顔検出器312を生成するために使用することができる。運転手の顔についての1つ若しくは複数のパターン又は分類指標は、カスタマイズされた顔検出器312を使用して生成することができる。第1のパス302から収集された個人化データ322は、1つ若しくは複数のパターン又は分類指標を生成するために使用される。いくつかの実施形態では、例えば、カスタマイズされた顔検出器312は、運転手の頭部をアバターに置き換えることにより、運転手の固有性を一般化するために使用することができる。第1のパス302から取得され、パーソナライゼーション322に記憶された運転手の頭部の動き及び顔の動作は、アバターに移すことができる。運転手の頭部の動きと顔の動作は、運転手の頭部がアバターに置き換えられた後に保持される。運転手の頭部をアバターに置き換えることについては、以下でより詳細に説明する。生成され、カスタマイズされた顔検出器は、入力ビデオ306を処理するとき、第2のパス322における顔検出及び追跡326に使用することができる。
【0027】
カスタマイズされた顔モデル314も生成することができる。図3に示すように、カスタマイズされた顔モデル314は、個人化データ322を使用することにより生成されてもよい。第1のパス302で使用された平均顔モデル310と比較して、カスタマイズされた顔モデルは、第1のパス302から取得された顔追跡、顔器官及び頭部の姿勢を使用することにより生成される。したがって、カスタマイズされた顔モデル314は、入力ビデオ306を処理するための第1のパス302で使用される平均顔モデル310よりも正確であることがある。
【0028】
図3に示すように、追跡された顔326、追跡された顔器官328及び頭部抽出姿勢330は、抽出された結果を出力することができる。追跡された顔326、追跡された顔器官328及び頭部抽出姿勢330の抽出された結果は、ユーザーインターフェース110に表示することができる。抽出結果の表示例を図21に示す。
【0029】
また、図4A及び図4Bは、顔検出400の適合性-再現率曲線(precision-recall curves)を示す。適合性-再現率分析では、適合性は、特定の条件又は閾値を満たす関連性のある例(relevant instances)の割合であり、再現率は、すべての関連性のある例の割合である。図4Aでは、再現率402は、検出されたすべてのビデオフレームの中の検出可能な顔の割合を示す。図4Aに示すように、動作点において、第1のパスにおける顔検出の再現率は79.58%であり、第1のパス302のビデオ306のすべてのビデオフレームにおける顔の79.58%が検出されることを示している。図4Bでは、動作点において、第2のパスにおける顔検出の再現率406は96.06%であり、第2のパスのビデオ306のすべてのビデオフレームの顔の96.06%が検出されることを示している。このように、第2のパス304における検出処理は、第1のパス302における検出処理よりも実質的に多くの顔検出をすることができる。
【0030】
しかし、動作点において、第1のパス302の顔検出率の適合性は、第2のパス304の顔検出率の適合性よりも少し高い適合性を示す。重複率は、第1のパス302と第2のパス304の両方の適合性を決定するための閾値として使用される。図5は、重複率500の決定方法を示す。重複率は、以下に示す数式1を用いて計算することができる。数式1に示すように、重複率は、生成ボックスの面積に対する重複面積の比率と、検出ボックスの面積に対する重複面積の比率とのうち、小さい方の比率である。図5に示すように、左顔検出502の重複率は0.92であり、右顔検出504の重複率は0.2である。また、図4A及び図4Bでは、重複率が0.5より大きいときは、適合性が計算される。このように、図4A及び図4Bに示すように、第1のパスに対する顔検出の適合性404は99.26%であり、これは重複率が0.5以上のすべてのビデオフレームのうちの第1のパスでは顔の99.26%を検出することができることを示しており、第2のパスに対する顔検出の適合性408は96.54%であり、これは重複率が0.5以上のすべてのビデオフレームのうち第2パスでは顔の96.54%を検出することができることを示している。したがって、重複率が0.5以上のビデオフレームでは、第1のパスの顔検出は99.26%であり、第2パスの顔検出は96.54%である。適合性分析では、第1のパスは、第2パスよりもやや正確に顔検出をする。
【0031】
数式1:重複率=min(重複面積/生成ボックスの面積、重複面積/検出ボックスの面積)
【0032】
以下の表1は、顔検出性能の要約を示す。表1は、異なるタイプのビデオデータ306が使用されたときの第1のパス及び第2パスにおける顔検出の比較を示す。表1に示すように、高解像度(hi-res)ビデオ及び低解像度(lo-res)ビデオが比較に使用される。表1では、高解像度は720×480の解像度を有するビデオを指し、1Xの低解像度は356×240の解像度を有するビデオを指す。低解像度ビデオは、実行時に、712×480の解像度を有する2X低解像度ビデオにリスケーリングすることができる。表1に示すように、高解像度ビデオの使用は、79.34%の成功率を達成することができ、これは、第1のパスで0.5以上の重複スコアを有する顔検出の79.34%を意味する。表1では、第1のパスにおける高解像度の場合、高解像度ビデオの顔検出の中央重複スコアは0.38であり、再現率は79.58%である。これらの数字は、第1のパスの1Xでのlo-resの数値よりもかなり高い。表1に示すように、2Xでの高解像度ビデオ及び低解像度ビデオの使用は、1Xでの低解像度の使用よりも、全体的により適合性が高い顔検出を提供することができる。
【0033】
図6A及び図6Bは、第1のパス302及び第2のパス304の顔器官600を追跡するための適合性-再現率曲線を示す。図6Aに示すように、動作点での顔器官を追跡するための第1のパス302の再現率602は61.61%であり、これは、動作点において、第1のパス302ではビデオ306の顔器官のうち61.61%を追跡することができることを示している。図6Bでは、動作点において、動作点での顔器官を追跡するための第2のパス304の再現率606は80.27%であり、これは、動作点において、第2のパス304ではビデオ306の顔器官のうち80.27%を追跡することができることを示している。再現率表によると、第2のパス304は、第1のパス302よりも実質的に多くの顔器官をうまく追跡することができる。
【0034】
【表1】
【0035】
成功基準が満たされたとき、第1のパス302及び第2のパス304は、顔器官をうまく追跡することについて大きな違いを示さないことがある。フレーム当たりの平均追跡エラーは、7つの注釈付けされた点と対応する追跡された点との間のピクセル距離の平均値を取得することにより計算することができる。図7は、7つの注釈付き点700の例を示している。図7に示すように、7つの注釈付き点702に印をつけることができる。注釈付き点を作成する1つの方法は、画像に手動で注釈を付けることである。例えば、この分野の専門家は、注釈付き点を作成するため、画像処理ツールを利用して画像に注釈を付けることができる。フレーム当たりの平均追跡エラーを取得した後、平均追跡エラーを眼の間の距離で割ることにより規格化された平均追跡エラーを定義することができる。成功基準は、検出スコアが0.3より大きく、規格化された追跡エラーが0.15未満であるときに満たされる。図6A及び図6Bに示すように、成功基準が満たされたときの顔器官を追跡する適合性は、第1のパス302では77.42%であり、第2のパス304で顔器官を追跡するときは72.11%である。
【0036】
【表2】
【0037】
表2は、顔器官を追跡するための性能の要約を示している。表2に示すように、1Xで低解像度のビデオを使用すると、追跡性能はそれほど良くない。第1のパス302では、表2は、lo-resの適合性が51.3%であり、再現率が単に32.9%に過ぎないことを示している。しかし、低解像度のビデオを1Xから2Xにリスケーリングした後は、性能が向上する。表2に示すように、第1のパス302では、2Xlo-resビデオの適合性は65.4%であり、再現率は49.1%である。これらの数字は、1Xlo-resビデオを使用したときの結果よりも非常に高い。また、表2に示すように、2Xlo-resビデオの性能は、依然として高解像度ビデオ(hi-res)の性能より約10%低い。
【0038】
顔器官を追跡するための検出スコア及びエラーをさらに分析することができる。図8は、顔器官800を追跡するための性能分析クワッドチャート(quad chart)を示している。図8に示すように、スコア閾値810は-0.3であり、エラー閾値812は0.15である。右下のクワッド804に示すように、スコアがスコア閾値-0.3より大きく、エラーがエラー閾値0.15よりも小さいときは、追跡された顔器官の結果は真陽性である。右上のクワッド802では、スコアがスコア閾値-0.3より大きく、エラーがエラー閾値0.15より大きいときは、追跡された顔器官の結果は偽陽性である。この状況では、結果は正常に表示されるが、エラーが非常に多くなる可能性がある。左下のクワッド808では、スコアがスコア閾値-0.3より小さく、エラーがエラー閾値0.15よりも小さいときは、結果は偽陰性である。このシナリオでは、エラーが多すぎないにもかかわらず、結果は悪い。左上のクワッド806では、スコアがスコア閾値-0.3より小さく、エラーがエラー閾値0.15より大きいときは、結果は真陰性である。この状況では、結果は悪く、エラーが多すぎる。クワッドチャート800は、顔器官を追跡した結果に対して異なる視点を示すことができる。
【0039】
第1のパス302では、平均モデル310は、頭部の姿勢320を抽出する前に構成することができる。図9は、第1のパス302で使用することができる平均顔モデル900の例を示している。図9に示すように、モデル顔900を生成することができる。図9では、目と鼻の寸法902、他の顔の特徴、2つの識別された位置904の間の距離が3Dモデルで示されている。モデル上の寸法902及び距離904は、データベース190から取得された履歴データから複数の利用可能な顔の寸法及び距離を平均化することにより導き出すことができる。図3の第1のパス302では、導出された平均モデル900は、頭部姿勢抽出320に使用することができる。
【0040】
頭部姿勢抽出330に使用されるカスタマイズされた顔モデルは、第1のパス302で収集されたデータを使用することにより生成することができる。図10は、カスタマイズされた顔モデル1000を開発するための例示的な処理を示している。図10では、運転手の異なる姿勢1004についての顔器官が、第1のパス302に収集される。カスタマイズされた顔モデル1002は、第1のパス302の異なる姿勢1004で収集された顔器官を使用して生成される。
【0041】
自動車内で追跡された頭部/顔姿勢のための3次元追跡を実行することができる。図11は、自動車内の頭部/顔姿勢の3次元追跡の例を示している。図11では、顔モデル1102は、平均顔モデル310又はカスタマイズされた顔モデル314のいずれかにより構成することができる。図11に示すように、ビデオ306から抽出された顔モデル1102の水平横方向1104、水平縦方向1106及び垂直方向108の動きは、図11に示すように追跡される。
【0042】
頭部姿勢追跡の正確性を評価することができる。図12は、パン角度1202及びチルト角度1204のエラー分析の一例を示している。パン角度は、固定された位置から水平方向の物体の回転を指し、チルト角度は、固定された位置から上下方向の物体の回転を指す。パン角度分析1202における追跡された頭部の姿勢と顔モデルの動きの相関は、散布図1210に示されている。チルト角度における追跡された頭部の姿勢と顔モデルの動きの相関は、チルト角度分析1204の散布図1212に示されている。また、図12は、パン角度分析1206及びチルト角度分析1208に対するエラー分布を示している。
【0043】
運転行動を分析するには、運転手の視線の対象を追跡することが重要である。例えば、自動車の運転は、運転手が見ている場所により大きく影響を受ける。しかし、キャプチャーされたビデオが頭部と顔の姿勢を示したとしても、ビデオは視線の対象を直接表示しないことがある。このように、ビデオから抽出された頭部と顔の姿勢を使用して、運転手の視線の対象を導き出すことは有用であると思われる。例えば、視線の方向は、運転手の正面の向きに対応する頭部の姿勢の角度により推定し、導出することができる。また、携帯電話のような認識可能な機能又は自動車の外の景色をキャプチャーされたビデオから抽出し、注釈を付けることもできる。抽出された特徴の3D座標を生成することができる。このように、視線の対象は、視線方向と認識可能な特徴とを関連付けることにより生成することができる。図13は、3Dの視線の対象ベクトル1300をコンピュータ生成するための頭部/顔の姿勢の使用を示している。図13に示すように、大きな3Dボックス1302を用いて車の室内を示す。さらに、大きな3Dボックス1302の中のより小さい3Dボックス1304は、運転手の頭部の体積を表す。大きな3Dボックス1302の中の青色点1306は器官点を表し、赤色点1308は取得された頭部/顔の姿勢による視線の対象点を表す。図13に示すように、青色点1306の大部分は、目、鼻、口を含む粗い顔を構成し、赤色点1308の大部分は、運転手が自動車の室内1302の前方を注視していることを示す。
【0044】
【表3】
【0045】
図14は、いくつかの視線の対象1400の周波数の例を示している。図14では、高い棒1406は、視線の対象としてのリアビューミラーの周波数を表し、低い棒1408は、視線の対象としての右フロントガラスの周波数を表す。図14に示すように、運転手がリアビューミラー1402を注視する頻度は、運転手が右フロントガラス1404を注視する頻度よりもはるかに高い。表3は、図14に示す対象1410のリストに対する視線追跡適合性の評価を示している。表3では、クラス4-前方-の視線追跡正確性は86.31%であり、クラス3-カップホルダー-の視線追跡正確性は0.06%である。したがって、表3によれば、前方(クラス4)の視線追跡は、カップホルダー(クラス3)の視線追跡よりもはるかに正確である。
【0046】
運転手の目の瞬きを検出して監視することもできる。図15は、瞬き検出及び瞬き割合推定の一例を示す。図15に示すように、目の瞬きは、追跡された器官特徴1502に基づいて検出することができる。さらに、ビデオに注釈を付けることができ、注釈付きビデオ1504は、目の瞬きを監視するための評価をすることができる。
【0047】
また、運転行動追跡は、表情分析も含むことができる。中立、怒り、軽蔑、嫌悪、恐怖、幸せ、悲しみ、驚き又は他の表情を含むいくつかの表情のクラスがあり得る。表情分析は、顔の正面に対して行うことができる。したがって、分析が実行される前に、追跡された顔は、それらを前面平行平面に投影するように調整及び回転することができる。図16は、取得されたビデオに基づいて構成された6つの異なる表情の例を示す。定性的には、運転手が助手席に座っている人とお喋りしているときに、「幸せな」表現が生じているように見える。
【0048】
運転行動分析のために、運転手の手及び上半身の姿勢を追跡及び抽出することができる。図17に示すように、上半身の関節と手が追跡される1700。場合によっては、運転手の手が異なるビデオフレームで示されるとき、完全な追跡データを取得するために異なるビデオフレームを相関させることができる。例えば、図17では、上のビデオフレーム1702と下のビデオフレーム1704の両方に追跡された手の点を見つけることができる。このように、両方のビデオフレームを相関させて、運転手の情報の全組を追跡し抽出する必要がある。
【0049】
場合によっては、無関係な事象を、運転行動分析の重要な情報を生成するために相関させることができる。例えば、顔器官は、自動車の事故による独立した特徴でもよい。しかし、交通事故は運転手が眠そうであることを示す顔器官に関連する可能性がある。このように、顔器官の独立した特徴と交通事故とを交通事故の分析に相関させることができる。ディープポーズ分析は、無関係な事象の相関関係を構築するために実施することができる。
【0050】
図18は、ディープポーズ分析1800の一例を示す。図18では、ディープニューラルネットワーク(DNN)と呼ばれる機械学習法が用いられている。DNNは、入力層と出力層の間に複数の隠れ層を有する人工ニューラルネットワークである。複雑な非線形関係をモデル化するためにDNNを使用することができる。図18では、顔1802を有するビデオフレームは、DNNを用いて分析される。DNN分析は、ビデオフレームから抽出された入力特徴に対して実行される独立学習である。同様に、交通事故に関するビデオフレーム1810もDNN1812を使用して独立に分析され、そこでは独立した学習が抽出された特徴に対して行われる。図18に示すように、結合回帰1806は、顔及び交通事故の両方のDNN1804、1812の結果に対して実行される。結果表示1808では、顔フレーム1802から抽出された特徴1814と交通事故1810のビデオから抽出された特徴とが相関される。図18に示すように、DNN及び結合回帰を利用することにより、ディープポーズ分析は、2つ以上の独立した特徴を相関させて、個々の出来事の相関関係を形成することができる。このように、ビデオフレームから抽出された独立した特徴の間の固有の相関又は関係を発見することができる。
【0051】
運転手のジェスチャーと運転中の動作を追跡して抽出することができる。例えば、運転手のジェスチャー及び動作は、「運転中」、「ミラーを調整する」及び「顔を触る」などの複数のクラスに分類され、記録されたビデオは、分類されたクラスにしたがって追跡及び抽出することができる。表4は、この運転手のジェスチャー/動作認識の結果の一例を示している。表4に示すように、運転手ジェスチャー/動作を認識するための全体的な適合性は79.83%である。認識された運転手ジェスチャー/動作は、複数のクラスに分割することができる。表4に示すように、後ろを見る/後退する(Look back - backing up)及び顔を触るは、2つのクラスの運転手のジェスチャー/動作である。後ろを見る/後退するというクラスは、全体の認識率が87.80%であり最も高い認識率を有し、顔を触るというクラスは全体の認識率が60%であり、認識率が最も低い。
【0052】
上述のように、運転手の固有性の一般化は、運転手の頭部をアバターで置き換えることにより達成することができる。しかし、運転手の固有性は、ビデオ内の運転手の視覚化表現を示すことにより一般化することができる。例えば、自動車内の運転手をビデオ内で検出し、運転手の顔追跡器官、頭部の姿勢及び上半身の姿勢の骨格を後で識別することができる。したがって、運転手の顔追跡器官、頭部の姿勢及び上半身の姿勢の骨格を使用することにより、運転手の視覚化表現を構築することができる。運転手の視覚化表現を用いて運転手を表すことができ、運転手の固有性を隠すことができる。
【0053】
場合によっては、同乗者の検出を運転行動の追跡に含むことができる。例えば、カメラは、自動車の内部の同乗者がキャプチャーされるように、車内の広い角度の視野をキャプチャーすることができる。運転手に適用される追跡及び抽出方法は、同乗者を追跡及び抽出するために適用することもできる。例えば、同乗者の顔検出、顔器官、頭部の姿勢を追跡し抽出することができる。運転手の固有性を一般化するのと同じ理由で、同乗者の固有性を一般化することができる。搭乗者の頭部をアバターと交換して同乗者の視覚化表現を生成するために、運転手と同乗者の固有性はビデオ内の画像をぼかすことにより一般化することができる。例えば、キャプチャーされた画像を処理して、車両内の人物を識別不能にするために十分にぼかしてもよい。このように、以下でより詳細に説明するように、運転手と同乗者の両方の固有性を一般化することができる。場合によっては、車内の他の特徴を抽出して追跡することもできる。例えば、ステアリングホイール検出、安全ベルト検出、及び/又は、大気分類を実行することができる。
【0054】
【表4】
【0055】
運転行動の分析には、他の車両の検出及び追跡を含むことができる。ある車両の運転行動は、道路上の他の車両の動作により影響を受けることがある。外のビデオフレームは、調査された車両に加えて他の車両を検出し識別するためにキャプチャーする。図19は、外部車両検出1900の一例を示している。図19に示すように、3台の外の車両1902が検出される。
【0056】
場合によっては、外部の特徴が運転行動に影響することがある。例えば、他の車両に加えて、外部車両のブレーキライト及びターンシグナルが、調査された車両の運転行動に影響を及ぼすことがある。したがって、外部車両のブレーキライト及びターンシグナルもキャプチャーし、検出することができる。
【0057】
図20は、運転条件2000を監視するための高い水準のフレームワークを示している。図20に示すように、ビデオデータ及び車両データ2002が提供される。ビデオデータ及び車両データ2002は、レーントラッカー(lane trackers)、加速メーター、全地球測位システム(GPS)、携帯電話記録、車両操作データ及び付随道路情報データなどの様々なリソースを介して取得することができる。図20では、例えば、ビデオデータ及び車両データ2002を前処理してコントラストを強調し、及び/又は、不要なピクセルを除去するために、ビデオデータ及び車両データが2010で前処理される。主な特徴は、主特徴抽出層2004で前処理されたビデオから抽出される。主な特徴は、顔特徴追跡、頭部配置追跡、上半身姿勢追跡、手追跡、安全ベルト検出、ハンドル検出、同乗者検出、大気分析、歩行者検出及び追跡、並びに車両検出及び追跡を含むことができるが、これらに限定されない。中間特徴は、中間特徴抽出層2006でコード化された特徴を使用するか又は集約することにより生成することができる。中間特徴は、目と注視の監視、顔の表情の分析、ジェスチャー/動作認識、歩行者行動分類、車両行動分類、ブレーキライト/右左折シグナル検出を含むことができるが、これらに限定されない。中間特徴は、特徴統合層2012において統合され、集約され、最終符号化特徴2008を生成することができる。最終的符号化特徴2008は、運転手の動作2014、運転手の状態2016、及び運転の環境2018を含むことができるが、これらに限定されない。運転手の動作2014は、携帯電話で会話すること、シートベルトをしめること、他の人に連絡すること、あくびすること、及び飲むことを含むことができるが、これらに限定されない。運転手の状態2016は、一定の方向を注視すること、不注意であること、怒ることと驚くこと、疲労を測定すること、シートベルトを着用することを含むことができるが、これらに限定されない。運転の環境2018は、天候、視界と眩しさ、ラジオ、車両の密度、車両の信号、及び車両の動作を含むことができるが、これらに限定されない。
【0058】
図21は、ビデオ2100から抽出されたビデオ特徴の視覚化表現を表示するユーザーインターフェースの一例を示している。図21に示すように、提供されるビデオ2102は、運転手追跡ビデオ2118及び車両追跡ビデオ2116を含む。抽出されたビデオ特徴は、異なる曲線又はプロットにより視覚的に表示することができる。図21では、顔追跡信頼度2104、頭部姿勢2106、表情2108、注視対象分析2110、瞬き追跡2112、及び口の状態2114の曲線又はプロットが表示されている。
【0059】
図21では、口の状態の曲線2114が表示されている。音声データは個性があり抽出することができないので、口の状態の追跡2114は、話す内容が分からないことがある。しかし、口の状態2114は、運転中に運転手が話しているか否かを示すことができる。運転中に会話をしている状態と会話をしていない状態は、運転行動を追跡するための有益な情報を提供することができる。
【0060】
図22は、運転行動を追跡及び抽出する方法2200を示すフローチャートである。図22に示すように、方法2200は、ビデオフレームが1以上のセンサーからキャプチャーされ、ビデオフレームが車両の内部及び/又は外部を表しているビデオデータを受信すること2210と、ビデオデータから1以上の特徴を抽出すること2220と(抽出することは、少なくとも1つの運転条件に関連付けられているビデオデータから1以上の特徴を検出及び認識することを含む)、抽出された特徴の中で抽出された特徴を関連づけて集約することによって中間特徴を生成すること2230と、前記中間特徴及び前記1以上の抽出された特徴を利用することによって前記少なくとも1つの運転条件についてのセマンティック意味を生成すること2240と、を含むことができる。図22は、運転行動を追跡及び抽出するために使用できる方法の一例を示すに過ぎない。上記の開示に照らして他の方法も生成することができる。
【0061】
上述したように、運転行動を追跡するために運転手(及び/又は同乗者)のプライバシーを保護することが重要である。このように、追跡されたビデオにおける運転手の固有性の一般化が必要となることがある。運転手の固有性を一般化する1つの方法は、画像処理装置を使用して運転手の固有性をマスクし、運転手の頭部をアバターで置き換えることである。図23は、運転手の頭部をアバターに置き換えるために使用することができる例示的な画像処理装置を示している。
【0062】
図23では、画像処理装置2310は、1以上のプロセッサー2320及び非一時的コンピュータ可読媒体2330を含むことができる。処理命令2340は、非一時的コンピュータ可読媒体2330に格納することができる。処理命令2340は、プロセッサー2320により実行され、プロセッサー2320に入力画像2350における顔の特徴及び運転手の頭部姿勢2342を追跡させ、頭部の位置2344を検出し、運転手の頭部を入力画像2350に処理して処理画像2360を出力する。処理画像2360では、運転手の頭部がアバターに置き換えられ、このようにして、運転手の固有性が一般化され、保護される。アバターの使用及び人の固有性のマスキングは、運転手を基準としているが、同じ方法が同乗者の固有性をマスクするために利用することができ、運転以外の他の状況、例えば小売店や他の環境でも、利用することができる。
【0063】
運転手の顔の特徴及び頭部の姿勢を追跡することができる。画像処理装置2310は、運転手を内部に有する運転中の自動車の内部イメージをキャプチャーするためのカメラを含むことができる。カメラは、運転手の前面を追跡するように調整及び方向付けすることができる。図24は、顔の特徴及び頭部の姿勢を追跡するために使用されるキャプチャー画像2400を示している。図24では、頭部の位置は、キャプチャー画像2400において識別された前面領域2402を含む。特定された前面領域2402の内部では、顔の特徴及び器官2404、2406も識別され、追跡される。顔の特徴と器官には、顔の目、鼻、口を含むことができる。図24に示すように、特徴及び器官は、点2408及び点2408を接続する線2410により識別及び追跡することができる。点2408は、専門家により注釈を付けけることができ、画像処理装置2310により識別することができる。画像処理装置2310は、画像認識処理を実行することにより、複数の点2408で特徴及び器官を識別することができる。画像認識処理は、CNNのような1以上の機械学習方法により学習させることができる。前にキャプチャーされた画像は、画像認識処理を学習するために使用することができる。画像処理装置2310は、顔の特徴及び器官を識別する点2408を接続する線2410を追加することができる。
【0064】
運転手の顔を交換するために、1以上のアバターを作成することができる。図25は、生成された例示的なアバター2500の数を示している。図25の生成されたアバターは、2次元又は3次元のいずれであってもよい。図25に示すように、生成されたアバター2502は正面を有してもよく、アバターの性別は認識可能であっても認識可能でなくてもよい。アバターの性別が認識可能であるときは、例えば、女性アバター2506は長い毛髪を有し、男性アバター2508は短い毛髪を有してもよい。図25に示すように、生成されたアバター2502にメッシュ2504を適用することができる。適用されたメッシュ2504は、生成されたアバター2504のすべての領域を覆うことができる。メッシュ密度は等しく分布していなくてもよい。例えば、生成されたアバターの一部の領域のメッシュは、他の領域のメッシュよりも密度が高くてもよい。図25では、左の生成されたアバター2514について、目の領域2512のメッシュは、毛領域2510のメッシュよりも密度が高い。生成された異なるアバターが異なる頭部の形状及び顔の特徴及び器官を有するときでも、異なるアバターに適用されるメッシュは、同じ組のメッシュの頂点を有してもよいし、類似のメッシュ密度を有してもよい。
【0065】
運転手の顔からアバターへの動きを転送するためにメッシュを使用することができる。追跡された器官点は、生成されたアバターのメッシュの頂点にマッピングすることができる。図26は、追跡された画像と生成されたアバター2600との間の顔の器官のマッピングを示している。図26に示すように、追跡画像2606内の各追跡器官点2602について、生成されたアバター2608内の最も近いメッシュ頂点2604を見つけてマッピングされる。このマッピング処理は、追跡された画像2606内のすべての追跡された器官点2602が、生成されたアバター2608内のメッシュ頂点2604にマッピングされるまで繰り返すことができる。複数のアバターが生成されると、器官点のマッピングは、生成されたアバターの各々に対して実行することができる。しかし、異なるアバターは同じ組のメッシュ頂点及び類似のメッシュ密度を有することがあるので、複数のアバターのマッピングは、あるアバターから別の生成アバターへマップをコピーするのと同程度に単純にすることができる。
【0066】
生成されたアバターの1つは、ユーザーインターフェースを利用して頭部置換のために選択することができる。図27は、運転手の頭部2700を置換するために生成されたアバターを選択するためのユーザーインターフェースを示している。図27に示すように、運転手の頭部の位置2706は、追跡された運転画像2704において識別され追跡される。生成されたアバター2702のリストがユーザーインターフェース2700に表示され、ユーザーは、識別された頭部の位置2706内で検出され、追跡されたドライバーの頭部を置き換えるために、リストに挙げられた生成アバター2702の1つを選択することができる。
【0067】
追跡されたビデオ内の運転手の動きは、選択されたアバターに転送することができる。図28は、運転手の頭部と選択されたアバター2800との間で移動させる動きを示している。図28では、運転動作を追跡するためのキャプチャーされたビデオ2802が提供されている。キャプチャーされたビデオ2802では、運転手の頭部の位置/ボックス領域2806が検出される。図28に示すように、ボックス領域2806は、運転手の頭部の位置を描いている。運転中に運転手の頭部がそれほど動かないとしても、運転手の頭部を示すボックス領域2806は静止していなくてもよい。代わりに、ボックス領域2806は、ビデオが進行するにつれて移動してもよい。
【0068】
移動ボックス領域2806は、選択されたアバターで置き換えることができる。図28に示すように、生成されたアバター2808が選択される。アバターの選択は、図27に示すユーザーインターフェースを用いて行うことができる。ボックス領域2806内の検出された運転手の頭部は、選択されたアバター2808に置き換えられて、図28に示されるように置き換えられたビデオ2804が得られる。ボックス領域は、ビデオが進むにつれて移動することができるので、置き換えられたアバター2808はビデオの置き換え2804に応じて移動する。
【0069】
キャプチャーされたビデオ2802における運転手の頭部の動きは、転送することができる。図28に示すように、顔の器官2810は、キャプチャーされたビデオ2802において識別され、追跡される。器官点が図26に示すようにアバターメッシュ上のメッシュ頂点にマッピングされると、顔器官2810の動きもまた、選択されたアバター2808に移すことができる。したがって、置き換えられたアバター2808は、ボックス領域2806の動きにしたがって移動するだけでなく、置き換えられたビデオ2804内の置き換えられたアバター2808の目、鼻、口及び表情も、キャプチャーされたビデオ2802内の顔器官の動きにしたがって移動することができる。このように、運転手の頭部2806の動きは、選択されたアバター2802に移される。運転手の頭部を生成されたアバター2808で置き換えた後、運転手の固有性が一般化される。
【0070】
図29は、記録されたビデオにおける人の固有性を一般化するためのロジック2900を示している。図29に示すように、ロジック2900は、1以上のセンサーからのビデオフレームの一組を含むビデオデータを受信するステップ2910と、ビデオフレームの一組内の人の顔における複数の器官を識別するステップ2920と、ビデオフレームの一組内の人の顔における器官と方向の移動を追跡するステップ2930と、顔画像が複数の器官に配置された複数の画像器官を含むことができるビデオフレームにおいて人の顔に顔画像をオーバーレイする(overlaying)ステップ2940と、器官の追跡された動きと人の顔の向きをビデオフレーム内の人の顔をオーバーレイする顔画像に移動させるステップ2950と、を含んでもよい。
【0071】
図29のロジック2900では、重ね合わされた顔画像は、2次元(2D)画像又は3次元(3D)画像のいずれでもよい。ロジック2900は、器官の追跡された動き及び人の顔の向きを分析して、顔の動きの状態を生成し、顔が顔画像と重なった後の顔の動きの状態を保存することをさらに含むことができる。
【0072】
ロジック2900は、複数の方法で実装することができる。図30は、ロジック2900の一実施例を示している。図30に示すように、未加工ビデオ3002は、キャプチャーされ、顔の特徴と頭部の姿勢3004を追跡、抽出、及びキャプチャーする処理に供給することができる。追跡され、抽出され、及びキャプチャーされた顔の特徴は、処理されたビデオ3012を形成するために未加工ビデオ3002に印付けされ、注釈付けされる。図30に示すように、90%を超えるビデオフレームは、顔の特徴及び頭部の姿勢を追跡し、抽出し、キャプチャーするためによく処理することができる。追跡され、抽出され、キャプチャーされた顔の特徴及び頭部の姿勢は、目の状態、表情、唇の動き、口の開き、頭部の姿勢及び動き、及び視線方向を含むことができるが、これらに限定されない。
【0073】
場合によっては、頭部の位置の補間を生成することができる。例えば、頭部の位置は、未加工ビデオ3002のいくつかのフレームから検出することができないことがある。いくつかのビデオフレームが損傷し3016、及び/又は、運転手の頭部を認識できないこと3016があり得る。したがって、頭部の位置を検出することができないビデオフレームについては、運転手の頭部の補間を生成してもよい3006。頭部の位置を検出することができないビデオフレームに近い他のビデオフレームからうまく検出された頭部の位置を利用して、補間を生成することができる。
【0074】
頭部の位置、顔の特徴、頭部の姿勢が検出され、追跡され、抽出された後、運転手の頭部はアバター3008に置き換えられる。運転手の頭部をアバター3008に置き換えることは、アバターを選択すること、未加工ビデオ3002内の運転手の頭部を特定すること、運転手の頭部を選択されたアバターで置き換えること、及び運転手の頭部の動きをアバターに移すことを含むことができる。
【0075】
場合によっては、運転手の頭部をアバターに置き換えた後、補正が必要になることがある。例えば、図30に示すように、置き換えられたアバター3020を用いたフレームごとの信頼度を算出し、信頼度が低い場合には置き換えられた後のアバターの補正が必要であり、ビデオフレームを補正することができる。補正をマニュアルで行うことができるとしても、図23に示すような画像処理装置を使用して、信頼度が低い水準のビデオフレーム内のエラーを自動的に補正することが可能である。固有性マスクされたビデオ3022は、信頼度が低い水準のビデオフレームを正しいものにするための補正が行われた後に生成される。
【0076】
図31は、図30に示した固有性マスキング実装3100の個々のタスクを示している。図31に示すように、固有性マスキング実装3100は、追跡3102、塗りつぶし(filling-in)3104、マスク3106、及びマニュアルアシスト3108のステップを含むことができる。追跡ステップ3102は、タスク1、タスク2、及びタスク3を含む。タスク1は、運転手の顔検出をし、顔の特徴点を追跡すること3110を含み、タスク2は、運転手の顔及び頭部の姿勢を抽出すること3112を含み、タスク3は、運転手の顔の動き及び注視を追跡すること3114を含む。塗りつぶしステップ3104は、検出可能なビデオフレーム3116にしたがって欠落したフレームの補間を生成することを含む。図31は、マスキングステップの3つのタスク(タスク5、タスク6、及びタスク7)を示している。タスク5は、アバター3118上での顔の動き合成を含み、タスク6は、マスキング固有性3120のためのビデオ上のアバターのレンダリングを含み、タスク7は、マスク3112を細かい塗装を含む。マニュアルアシストステップ3108において、置き換えられたアバターを有するビデオフレームの信頼水準が低いときは、置き換えられたアバターは、グラフィカルユーザーインターフェース(GUI)ツール3124を利用することによりマニュアルで修正される。GUIツールは、信頼水準の低いビデオフレームを検査して修正することができます。
【0077】
図32は、固有性一般化(identity generalization)3200について、アバター置換を一般的に実装することを示している。図32に示すように、入力ビデオ3202から、置き換えられる顔の動きが識別され、アバター3210に転送される。転送される動きは、目の状態、表情、唇の動き、口の動き、頭部の姿勢と動き、視線の方向、又はそれらの任意の組み合わせを含むことができる。転送された顔の動きは、アバター3204内で合成される。
【0078】
出力ビデオ3208を生成するためにアバターがレンダリングされる3206。レンダリングはイメージを生成する処理である。入力ビデオでの固有性一般化のためにアバターが作成、選択され、元のビデオの顔の動きが生成されたアバターに移されると、アバターの画像がレンダリングされる。アバターは、入力ビデオの置き換えられる領域にしたがってレンダリングされる。レンダリングされたアバターは、入力ビデオからの形状、視点、質感、光、及び影の情報の一部又は全部を含むことができる。レンダリングされたアバターは、出力ビデオ3208を生成するために、入力ビデオの識別された領域を置換するために使用される。置換後、動きの状態及び他の顔の情報が可能な限り保存されているときに、出力ビデオにおける固有性が一般化される。
【0079】
入力ビデオの顔領域は、アバターと完全に置き換えなくてもよい。場合によっては、元の顔領域の100%をアバターにより覆ってもよい。しかし、場合によっては、元の顔を一般化するためにアバターを使用することにより、元の顔領域の一部のみを覆うことができる。例えば、いくつかの状況では、目の領域の覆いは、入力ビデオの固有性を一般化するのに十分であることもある。元の顔領域の一部のみがアバターに置き換えられたときは、入力ビデオ3202の置き換えられた領域の動きは、アバターに転送され、出力ビデオ3208の残りの未置換の顔領域は、入力ビデオ3202の領域と同じである。このように、入力ビデオ3202の人物の固有性は一般化され、元の動作状態及び顔の特徴及び器官は可能な限り保存される。場合によっては、置き換えられる入力ビデオに複数の固有性があるときは、上記の同じ処理を使用することもできる。複数の固有性は、1以上のアバターを使用して一般化することができる。
【0080】
図33は、運転手の行動を監視し、及び/又は、ビデオの人の固有性を一般化するために使用することができるコンピューティングシステムの例を示している。図33を参照すると、コンピューティングシステム3300の例示的な実施形態は、図1、22、23、及び29の方法及びシステムにより示される1つ若しくは複数のコンポーネント、又は本明細書の本開示で論じられる方法を実行するように構成された他のシステムで使用することができる。コンピューティングシステム3300は、図示されたコンポーネントを含むものとして図33に示されているが、この発明は、図33に示されたものよりもコンピューティングシステムが少ないコンポーネント又はより多くのコンポーネントから構成されることを含む。
【0081】
コンピューティングシステム3300は、本明細書で開示される方法、処理、又はコンピュータベースの機能のうちの任意の1以上をコンピューティングシステム3300に行わせるために実行することができる命令の組3324を含むことができる。例えば、本明細書で説明されるように、運転行動を監視し又はビデオで人の固有性を一般化する装置又はシステムは、コントローラ3302により実行され、1以上の方法、処理、又はコンピュータベースの機能を行うためのコントローラ3302により実行される命令3324の組からなるプログラムでもよい。そのようなプログラムは、メインメモリ3304、スタティックメモリ3306、又はハードドライブ3316などの図33に例示されている例示的なメモリコンポーネントの1以上に、全体として又は部分の任意の組み合わせで格納することができる。
【0082】
上述のように、コンピューティングシステム3300は、モバイル装置でもよい。コンピューティングシステム3300は、ネットワーク3326を使用して他のコンピューティングシステム又は周辺装置に接続することもできる。ネットワーク化された配置では、コンピューティングシステム3300は、サーバ-クライアントユーザネットワーク環境内のサーバ又はクライアントユーザコンピュータとして、又はピアツーピア(又は分散)ネットワーク環境内のピアコンピューティングシステムとして動作することができる。
【0083】
コンピューティングシステム3300が実施される実施形態に加えて、コンピューティングシステム3300はまた、パーソナルコンピュータ(「PC」)、タブレットPC、セットトップボックス(「STB」)、パーソナルデジタルアシスタント(「PDA」)、スマートフォン又はタブレットなどのモバイル装置、パームトップコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、ネットワークルータ、スイッチ、ブリッジ、又はその機械がとるべき動作を指定する命令の一組(順次又はその他)を実行することができる他の任意の機械などの、様々な装置として実装されてもよく、あるいは、様々な装置に組み込まれてもよい。特定の実施形態では、コンピューティングシステム3300は、音声、ビデオ、又はデータ通信を提供する電子装置を使用して実装することができる。さらに、単一のコンピューティングシステム3300が示されているが、「システム」という用語はまた、1以上のコンピュータを実行するための1以上の命令の一組を個別に又は共同して実行するシステム又はサブシステムの任意の集合を含むと捉えられなければならない。
【0084】
図33に示すように、コンピューティングシステム3300は、中央処理装置(「CPU」)、グラフィックス処理装置(「GPU」)、又はその両方などの、コントローラ3302を含むことができる。さらに、コンピューティングシステム3300は、メインメモリ3304を含むことができ、さらにスタティックメモリ3306を含むことができる。2つ以上のメモリコンポーネントがコンピューティングシステム3300に含まれる実施形態では、メモリコンポーネントは、バス3308を介して互いに通信することができる。図示したように、コンピューティングシステム3300は、液晶ディスプレイ(「LCD」)、有機発光ダイオード(「OLED」)、フラットパネルディスプレイ、ソリッドステートディスプレイ、又は陰極線管(「CRT」)などの、ディスプレイユニットをさらに含んでもよい。さらに、コンピューティングシステム3300は、キーボード、プッシュボタン、スクロールホイール、画像キャプチャー及び/又は視覚コマンド認識のためのデジタルカメラ、タッチスクリーン、タッチパッド又はオーディオ入力装置(例えば、マイクロフォン)などの、1以上の入力装置3312を含んでもよい。コンピューティングシステム3300はまた、非限定的な例として、スピーカ又は遠隔制御を含むことができる触覚フィードバックコンポーネント3314及び信号生成装置3318などの、信号出力コンポーネントを含むことができる。
【0085】
特に図示していないが、コンピューティングシステム3300は、コンピューティングシステム3300の位置を識別するためのGPS(Global Positioning System)コンポーネントをさらに含むことができる。
【0086】
コンピューティングシステム3300はまた、コンピューティングシステム3300が無線又は有線通信チャネルを介して他の装置と通信することを可能にするネットワークインターフェース装置3320を含むことができる。ネットワークインターフェース装置3320は、Wi-Fi接続、ブルートゥース(登録商標)接続、近周波数通信接続、電気通信接続、インターネット接続、有線イーサネット接続などを介して別のコンピューティングシステムと通信するためのインターフェースでもよい。コンピューティングシステム3300はまた、コンピュータ可読媒体3322を受け入れるためのディスクドライブユニット3316を選択的に含むことができる。コンピュータ可読媒体3322は、コントローラ3302により実行可能な命令の一組を含むことができ、及び/又は、コンピュータ可読媒体3322は、追加メモリ記憶装置としてコンピュータシステム3300により利用することができる。
【0087】
いくつかの実施形態では図33に示すように、ハードドライブユニット3316は、ソフトウェアなどの、1以上の命令の一組3324が埋め込まれたコンピュータ可読媒体3322を含むことができる。さらに、命令3324は、本明細書で説明される方法、処理、又はロジックのうちの1以上を具体化することができる。いくつかの実施形態では、命令3324は、コンピューティングシステム3300による実行中に、メインメモリ3304、スタティックメモリ3306、及び/又はコントローラ3302内に、完全に又は少なくとも部分的に存在することができる。メインメモリ3304及びコントローラ3302は、コンピュータ可読媒体を含むこともできる。
【0088】
代替的な実施形態では、特定用途向け集積回路、プログラマブルロジックアレイ及び他のハードウェア装置を含む専用ハードウェア実装を構築して、本明細書で説明する方法の1以上を実装することができる。様々な実施形態の装置及びシステムを含むことができるアプリケーションは、広く様々な電子及びコンピューティングシステムを含むことができる。本明細書に記載される1以上の実施形態は、モジュール間で、モジュールを介して、又は特定用途向け集積回路の一部として通信することができる2つ又は複数の特定の相互接続されたハードウェアモジュールまたは関連する制御信号およびデータ信号を有する装置を使用する機能を実装することができる。したがって、本コンピューティングシステム3300は、ソフトウェア、ファームウェア、及びハードウェアの実装を含むことができる。「モジュール」又は「ユニット」という用語は、プロセッサーにより実行されるコードを記憶するメモリ(共有、専用、又はグループ)を含むことができる。
【0089】
本開示の様々な実施形態によれば、本明細書に記載の方法は、コンピューティングシステムにより実行可能なソフトウェアプログラムにより実施されてもよい。さらに、例示的で非限定的な実施形態では、実装は、分散処理、コンポーネント/オブジェクト分散処理、及び並列処理を含むことができる。
【0090】
本開示は、ネットワーク3326に接続された装置がネットワーク3326を介して、音声、ビデオ、又はデータを通信できるように、伝播信号に応答して命令3324を含むか、又は命令3324を受信して実行するコンピュータ可読媒体3322を想定している。さらに、命令3324は、ネットワークインターフェース装置3320を介してネットワーク3326を介して送信又は受信することができる。
【0091】
コンピュータ可読媒体3324は、単一の媒体として示されているが、「コンピュータ可読媒体」という用語は、集中型又は分散型データベースなどの単一又は複数の媒体、及び/又は、1以上の命令の一組を格納する関連キャッシュ及びサーバを含む。「コンピュータ可読媒体」という用語は、プロセッサーによる実行のための命令の一組を格納、コード化、または搬送することができ、又はコンピューティングシステムにこの明細書に開示されている1以上の方法又は動作を実行させる任意の有形の媒体も含むものとする。
【0092】
特定の非限定的で例示的な実施形態では、コンピュータ可読媒体3322は、フラッシュメモリなどの1以上の不揮発性読み取り専用メモリを収容するメモリカード又は他のパッケージなどのソリッドステートメモリを含むことができる。さらに、コンピュータ可読媒体3322は、ランダムアクセスメモリ又は他の揮発性再書き込み可能メモリでもよい。さらに、コンピュータ可読媒体3322は、伝送媒体を介して通信される情報をキャプチャーするために、ディスクやテープなどの光磁気媒体又は光学媒体、又は他の記憶装置を含むことができる。電子メール又はその他の内蔵情報アーカイブ又はアーカイブの一組へのデジタルファイルの添付は、有形の記憶媒体と同等の配布媒体と考えることができる。したがって、本開示は、データ又は命令を格納することができるコンピュータ可読媒体3322又は配信媒体及び他の同等物及び後継媒体のうちの任意の1以上を含むと考えられる。コンピュータ可読媒体は、一時的であっても非一時的であってもよい。
【0093】
本明細書は、ネットワーク企業及びより広範な資源及び公共機関により一般的に使用される特定の標準及びプロトコルを参照して特定の実施形態で実施することができるコンポーネント及び機能を説明するが、本発明はそのような標準及びプロトコルに限定されない。例えば、インターネット及び他のパケット交換ネットワーク伝送(例えば、TCP/IP、UDP/IP、HTML、HTTP)の標準は、従来技術の例を表している。そのような標準は、本質的に同じ機能を有するより高速又はより効率的な均等物により定期的に置き換えられる。したがって、本明細書に開示されたものと同じ又は同様の機能を有する置換標準及びプロトコルは、それらの均等物と考えられる。
【0094】
本明細書で開示される方法及びシステムは、自動車の内部又は外部の挙動を追跡及び/又は監視することを指すが、本開示は自動車のみに限定されないことを理解されたい。より具体的には、本明細書の方法及び/又はシステムのいずれも、例えば、トラック、バス、飛行機、オートバイ、又は他のどのような車両にも適用することができる。
【0095】
さらに、本明細書に開示された方法及びシステムは、車両の運転手に関して説明することができるが、本明細書で開示される方法及びシステムは、自動運転、運転席に座っている人による部分運転などの状況で利用されてもよく、その位置にかかわらず車両内の同乗者に関して利用することができる。
【0096】
本開示は、図面を参照して実施形態を説明し、同様の番号は同一又は類似の要素を表す。本明細書を通じて、「一実施形態」、「実施形態」、又は同様の言葉は、実施形態に関連して説明される特定の特徴、構造、又は特性が本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書を通じて、「一実施形態では」、「ある実施形態では」、及び類似の言葉は、必ずとまではいえないものの、すべて同じ実施形態を指している。
【0097】
実施形態の記載された特徴、構造、又は特性は、1以上の実施形態において任意の適切な方法で組み合わせることができる。この説明では、本発明の実施形態を完全に理解することができるように、多数の特定の詳細が列挙されている。しかし、当業者は、実施形態が1つ若しくは複数の特定の詳細又は他の方法、構成要素、材料などを利用することなく実施することができると認識するだろう。他の例では、本発明の態様を不明瞭にすることを避けるために、周知の構造、材料、又は動作の詳細は示されていないか、又は記載されていない。
【0098】
上記の議論は、本発明の様々な例示的な実施形態を開示しているが、当業者は、本発明の真の範囲から逸脱することなく本発明のいくつかの利点を達成する様々な変更を行うことができることは明らかである。
【0099】
他の実施例
本明細書に開示されている技術の例を以下に示す。技術の実施形態は、以下に記載されている例のうち、任意の1以上、及び任意の組み合わせを含むことができる。
【0100】
実施例1では、運転条件を監視する方法が提供され、その方法は、1以上のセンサーからビデオフレームを含むビデオデータを受信し、ビデオフレーム内の人の顔を識別し、複数の人の顔の器官を識別し、ビデオフレーム内の器官と向きの動きを追跡し、ビデオフレーム内の人の顔に顔画像をオーバーレイし、ビデオフレーム内の人の顔をオーバーレイする顔画像に器官と向きに関する追跡された動きを転送し、それぞれの特徴が少なくも一つの運転状況と関連付けられているビデオフレームから1以上の特徴を抽出し、抽出された特徴にしたがってそれらの関連付けと集計とにより中間特徴を生成し、抽出された特徴と中間特徴とを利用することにより少なくとも1つの運転状況に対してセマンティック意味を生成すること、を含むことができる。
【0101】
実施例2は、実施例1の主題を含み、顔画像は、一組の画像器官を含み、追跡された動きを転送することは、一組の顔画像の画像器官の動きに対して複数の人の顔の器官についての追跡された動作を転送することを含んでもよい。
【0102】
実施例3は、実施例1及び/又は実施例2の主題を含み、本方法は、少なくとも2つの抽出された特徴について2つの独立した回帰を実行し、2つの独立した回帰の結果について結合回帰を実行することにより、セマンティック意味を生成するための少なくとも2つの抽出された特徴を相関させることをさらに含むことができる。
【0103】
実施例4では、一組のビデオフレーム内の人の固有性をマスキングする方法が提供される。本方法は、1以上のセンサーから一組のビデオフレームを含むビデオデータを受信し、一組のビデオフレーム内の人の顔を識別し、複数の人の顔の器官及び顔の向きを識別し、一組のビデオフレーム内の器官と向きの動きを追跡し、ビデオフレーム内の人の顔に顔画像をオーバーレイし、ビデオフレーム内の人の顔をオーバーレイする顔画像に対して人の顔の器官及び向きについての追跡された動きを転送すること、を含んでもよい。
【0104】
実施例5は、実施例4の主題を含み、顔画像をオーバーレイすることは、複数の顔画像から1つの顔画像を選択することを含んでもよく、複数の顔画像は、一組の画像器官を含んでもよい。
【0105】
実施例6は、実施例4及び/又は実施例5の主題を含み、追跡された動きを転送することは、選択された顔画像に関する一組の画像器官の動きに対して複数の人の顔の器官に関する追跡された動きを転送することを含んでもよい。
【0106】
実施例7は、実施例4、実施例5及び/又は実施例6の主題を含み、本方法は、ビデオフレーム内で人の顔を識別することができないときに、識別された顔を使用することによりビデオフレームに対して人の顔の補間を生成することをさらに含んでもよい。
【0107】
実施例8は、実施例4、実施例5、実施例6及び/又は実施例7の主題を含み、本方法は、識別された器官及び方向を使用することにより顔の動き状態を生成し、顔に顔画像を重ねてから顔の動きの状態を保存することを含んでもよい。
【0108】
実施例9は、実施例4、実施例5、実施例6、実施例7及び/又は実施例8の主題を含み、本方法は、顔画像に対する信頼水準を決定することをさらに含んでもよい。
【0109】
実施例10は、実施例4、実施例5、実施例6、実施例7、実施例8及び/又は実施例9の主題を含み、重ねられた顔画像は、3次元(3D)画像でもよい。
【0110】
実施例11では、運転条件を監視する方法が提供される。本方法は、ビデオフレームが車両の内部又は外部を表す1以上のセンサーからビデオフレームを含むビデオデータを受信し、各特徴が少なくとも1つの運転条件に関連付けられているビデオデータから1以上の特徴を検出及び認識し、ビデオデータから1以上の特徴を抽出し、抽出された特徴の中でそれらを関連付け集計することにより中間特徴を生成し、中間特徴及び1以上の抽出された特徴を利用することにより少なくとも一つの運転状況に対してセマンティック意味を生成すること、を含んでもよい。
【0111】
実施例12は、実施例11の主題を含み、本方法は、安全データを受信し、運転条件のための意味を生成するために中間特徴と安全データを統合すること、をさらに含んでもよい。
【0112】
実施例13は、実施例11及び/又は実施例12の主題を含み、1以上の特徴を検出及び認識することは、履歴にあるビデオデータを利用することにより検出器に学習させ、ビデオデータから1以上の特徴を抽出するために学習させた検出器を使用すること、を含んでもよい。
【0113】
実施例14は、実施例11、実施例12及び/又は実施例13の主題を含み、検出器に学習させることは、機械学習方法を利用して履歴にあるビデオデータに回帰を実行すること、を含んでもよい。
【0114】
実施例15は、実施例11、実施例12、実施例13及び/又は実施例14の主題を含み、1以上の特徴を検出及び認識することは、車両の運転手の固有性を一般化する受信されたビデオデータを使用するカスタマイズされた検出器に学習させること、ビデオデータから1以上の特徴を抽出するためのカスタマイズされた検出器を使用すること、を含んでもよい。
【0115】
実施例16は、実施例11、実施例12、実施例13、実施例14及び/又は実施例15の主題を含み、1以上の特徴を検出及び認識することは、履歴にあるビデオデータにおける1以上の識別可能な点の間にある平均距離によりモデルを生成すること、ビデオデータから1以上の特徴を抽出するモデルを使用すること、を含んでもよい。
【0116】
実施例17は、実施例11、実施例12、実施例13、実施例14、実施例15及び/又は実施例16の主題を含み、本方法は、受信されたビデオデータから抽出された1以上の特徴を利用することによりモデルを改良すること、をさらに含んでもよい。
【0117】
実施例18は、実施例11、実施例12、実施例13、実施例14、実施例15、実施例16及び/又は実施例17の主題を含み、本方法は、セマンティック意味を生成するために少なくとも2つの抽出された特徴を相関させること、をさらに含んでもよい。
【0118】
実施例19は、実施例11、実施例12、実施例13、実施例14、実施例15、実施例16、実施例17及び/又は実施例18の主題を含み、少なくとも2つの抽出された特徴を相関させることは、少なくとも2つの抽出された特徴について少なくとも2つの独立した回帰を実行することを含み、セマンティック意味は、少なくとも2つの独立した回帰の結果に対して結合回帰を実行することにより生成されること、を含んでもよい。
【0119】
実施例20は、実施例11、実施例12、実施例13、実施例14、実施例15、実施例16、実施例17、実施例18及び/又は実施例19の主題を含み、本方法は、抽出された1以上の特徴をユーザーインターフェースに表示すること、をさらに含んでもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33