特許7011578 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エスアールアイ　インターナショナルの特許一覧

特許7011578運転行動を監視する方法及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-01-18

(45)【発行日】2022-01-26

(54)【発明の名称】運転行動を監視する方法及びシステム

(51)【国際特許分類】

G06T 7/20 20170101AFI20220119BHJP

G07C 5/00 20060101ALI20220119BHJP

G08G 1/16 20060101ALI20220119BHJP

G06T 7/00 20170101ALI20220119BHJP

【ＦＩ】

G06T7/20 300B

G07C5/00 Z

G08G1/16 F

G06T7/00 660A

G06T7/00 650Z

G06T7/00 350B

【請求項の数】 10

(21)【出願番号】P 2018508721

(86)(22)【出願日】2016-08-30

(65)【公表番号】

(43)【公表日】2018-09-27

(86)【国際出願番号】 US2016049480

(87)【国際公開番号】W WO2017040519

(87)【国際公開日】2017-03-09

【審査請求日】2019-08-23

(31)【優先権主張番号】62/212,272

(32)【優先日】2015-08-31

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】501228071

【氏名又は名称】エスアールアイインターナショナル

【氏名又は名称原語表記】ＳＲＩＩｎｔｅｒｎａｔｉｏｎａｌ

【住所又は居所原語表記】３３３ＲａｖｅｎｓｗｏｏｄＡｖｅｎｕｅ，ＭｅｎｌｏＰａｒｋ，Ｃａｌｉｆｏｒｎｉａ９４０２５，Ｕ．Ｓ．Ａ．

(74)【代理人】

【識別番号】110000408

【氏名又は名称】特許業務法人高橋・林アンドパートナーズ

(72)【発明者】

【氏名】タムラカール，アミール

(72)【発明者】

【氏名】ホ，グレゴリー

(72)【発明者】

【氏名】サルター，デビッド

(72)【発明者】

【氏名】ホアン，ジーフア

【審査官】秦野孝一郎

(56)【参考文献】

【文献】国際公開第２０１４／１１３３４６（ＷＯ，Ａ３）

【文献】特表２０１６－５０３２２０（ＪＰ，Ａ）

【文献】特開２００２－３５２２２８（ＪＰ，Ａ）

【文献】特開２０１０－２０４８４７（ＪＰ，Ａ）

【文献】特開２００９－２１７６３３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１５／０１６１５０５（ＵＳ，Ａ１）

【文献】特開２０１５－１６２０８７（ＪＰ，Ａ）

【文献】松本吉央，リアルタイム顔・視線計測システムの開発と知的インタフェースへの応用，情報処理学会論文誌，日本，社団法人情報処理学会，2006年10月15日，第４７巻Ｎｏ．ＳＩＧ１５(CVIM 16)，10～21ページ

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０７Ｃ１／００－１５／００

Ｇ０８Ｇ１／００－９９／００

(57)【特許請求の範囲】

【請求項1】

メモリに格納されたプログラム命令を含む監視モジュールを介して運転状況を監視する方法であって、
前記監視モジュールが、
車両の内部又は外部を表すビデオフレームを含むビデオデータを、１以上のセンサーから受信し、
それぞれが少なくとも１つの運転状況と関連付けられた複数の特徴を、前記受信したビデオデータから抽出し、
抽出された前記複数の特徴に対して回帰を実行し当該複数の特徴の少なくとも２つを相関させることにより中間特徴を生成し、
少なくとも前記中間特徴を利用することにより前記少なくとも一つの運転状況についてセマンティック意味を生成すること、
を１以上のプロセッサーに実行させる方法。

【請求項2】

安全データを受信し、
運転状況についてセマンティック意味を生成するために前記中間特徴と前記安全データとを統合することをさらに含む、請求項１に記載の方法。

【請求項3】

前記複数の特徴を抽出することは、
履歴にあるビデオデータを利用することにより検出器に学習させ、
前記ビデオデータから前記複数の特徴を抽出するために学習させられた前記検出器を使用することを含む、請求項１に記載の方法。

【請求項4】

前記検出器に学習させることは、機械学習方法を利用して履歴にある前記ビデオデータに回帰を実行することを含む、請求項３に記載の方法。

【請求項5】

前記複数の特徴を抽出することは、
受信した前記ビデオデータを使用して車両の運転手の固有性を一般化することによりカスタマイズされた検出器に学習させ、
カスタマイズされた前記検出器を使用して前記ビデオデータからの前記複数の特徴を抽出することを含む、請求項１に記載の方法。

【請求項6】

前記複数の特徴を抽出することは、
履歴にあるビデオデータにおいて前記複数の特徴について識別可能な点と点の間の距離を平均することによりモデルを作成することを含み、
前記ビデオデータから前記複数の特徴を抽出するための前記モデルを使用することを含む、請求項１に記載の方法。

【請求項7】

前記受信されたビデオデータから抽出された前記複数の特徴を利用することにより前記モデルを改良することをさらに含む、請求項６に記載の方法。

【請求項8】

セマンティック意味を生成するために少なくとも２つの抽出された特徴を相関することをさらに含む、請求項１に記載の方法。

【請求項9】

少なくとも２つの抽出された特徴を相関させることは、少なくとも２つの抽出された特徴について少なくとも２つの独立した回帰を実行することを含み、
前記セマンティック意味は少なくとも２つの独立した回帰の結果について結合回帰を実行することにより生成されることを含む、請求項８に記載の方法。

【請求項10】

抽出された前記複数の特徴をユーザーインターフェースに表示することをさらに含む、請求項１に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願に関する相互参照
本出願は、２０１５年８月３１日に出願された、「複数の社会的な運転手の状態及び行動分析」と題する米国仮特許出願第６２／２１２，２７２号の利益を主張し、その全体を本明細書に組み込む。

【0002】

連邦政府がスポンサーとなる研究に関する声明
本発明は、連邦道路管理局が授与した契約番号ＤＴＦＨ６１１４Ｃ００００５とＤＴＦＨ６１１４Ｃ００００７とに基づく政府の支援によりなされた。

【背景技術】

【0003】

全米高速道路交通安全局（national highway traffic safety administration）の統計によると、２０１４年には、３２００人以上の人が自動車事故で死亡した。これら犠牲者を出した事故の多くは、特定の運転行動により引き起こされている可能性がある。

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、一定期間の運転活動を記録するビデオがあるにもかかわらず、ビデオデータを検出及び認識し、運転行動を追跡することができるための技術的課題が依然として存在する。さらに、ビデオに記録された運転手は、自身の固有性を明らかにする意志がないこともある。また、運転行動を分析するために、ビデオに記録された運転手の固有性を一般化することも重要である。このように、運転動作及び行動をビデオに保存しつつ、ビデオに記録された運転手の固有性を一般化するための技術的課題が存在する。

【図面の簡単な説明】

【0005】

【図1】運転手の運転行動を監視するためのシステムの例を示す図である。

【図2】キャプチャーされたビデオデータの前処理の例を示す図である。

【図3】顔追跡をし、頭部の姿勢を抽出するための例を示す図である。

【図4】Ａ及びＢは、顔検出をするための適合率－再現率曲線(Precision-Recall curve)を示す図である。

【図5】重複率の判定を示す図である。

【図6】Ａ及びＢは、顔器官を追跡するための適合率－再現率曲線を示す図である。

【図7】顔器官を追跡する７つの注釈付きの点の例を示す図である。

【図8】顔器官を追跡する性能分析クワッドチャート（quad chart）を示す図である。

【図9】平均顔モデルの例を示す図である。

【図10】カスタマイズされた顔モデルを生成するための例示的な処理を示す図である。

【図11】車内の頭部／顔の姿勢の３次元追跡の例を示す図である。

【図12】パン角度及びチルト角度のエラー分析の例を示す図である。

【図13】コンピュータ３Ｄ視線対象ベクトル（computer 3D glance target vectors）に対する頭部／顔の姿勢の使用を示す図である。

【図14】複数の視線対象の周波数の例を示す図である。

【図15】瞬き検出及び瞬き割合推定の例を示す図である。

【図16】取得されたビデオに基づいて構成された６つの異なる表情の例を示す図である。

【図17】上半身の関節及び手を追跡するための例を示す図である。

【図18】ディープポーズ分析（deep pose analysis）の例を示す図である。

【図19】外部車両検出の例を示す図である。

【図20】運転状況を監視するための高水準のフレームワークを示す図である。

【図21】ビデオから抽出されたビデオの特徴の視覚化表現を表示するユーザーインターフェースの例を示す図である。

【図22】運転行動を追跡し抽出する方法を示すフローチャートである。

【図23】運転手の頭部をアバターに置き換えるために使用することができる画像処理装置の例を示す図である。

【図24】顔の特徴及び頭部の姿勢を追跡するために使用されるキャプチャー画像を示す図である。

【図25】生成された多数のアバターの例を示す図である。

【図26】追跡画像と生成されたアバターとの間の顔器官のマッピングを示す図である。

【図27】運転手の頭部との置き換えのために生成されたアバターを選択するためのユーザーインターフェースを示す図である。

【図28】運転手の頭部と選択されたアバターとの間で転送する動作を示す図である。

【図29】記録されたビデオにおける運転手の固有性を一般化するためのロジックを示す図である。

【図30】図２９に示すロジックを実装する例を示す図である。

【図31】図３０における固有性マスキング（identity masking）を実装する個々のタスクを示す図である。

【図32】固有性を一般化するためのアバター置換に関する一般化された実装を示す図である。

【図33】運転手の行動を監視するために使用することができるコンピュータシステムの例を示す図である。

【発明を実施するための形態】

【0006】

本開示は、一例であり、添付の図面に限定されるものではない。これらの図面は、単独又は組み合わせて、本開示の１以上実施形態を例示してもよい。図面に示された要素は、必ずしも縮尺通りには描かれていない。対応する要素又は類似する要素を示すために、図面間で同一の参照符号を付すことがある。

【0007】

本開示の概念は、様々な修正及び他の代替形態が可能であるが、それらのうち特定の実施形態は、図面を用いて例示され、以下で詳細に説明される。本開示の概念を開示された特定の形態に限定することは、意図されていない。むしろ、本開示及び添付の請求項と一致するすべての修正、均等物及び代替物を含むことが、意図されている。

【0008】

ハイウェイの安全性を向上させるには、運転行動を理解することが重要である。多くのデータが存在し、運転行動分析に利用可能である。例えば、カメラは、自動車内の運転動作を記録するために運転車両の内外に配置することができ、及び／又は、自動車を運転している間に自動車の周囲の外の景色を取り込むためにカメラが配置されてもよい。記録されたデータは、昼間、夜間、及び過渡的な光など、異なる照明条件についての運転データを含むことができる。記録されたデータは、異なる性別、年齢層、民族性、顔ひげ、アイウェア（eye wear）、ヘッドギア（head gear）など、異なる運転手の運転データも含むことができる。しかし、記録されたデータを分析し、運転行動の理解を深めるためには、特定のメカニズムを開発する必要がある。

【0009】

運転の特徴は、記録されたビデオから識別しコード化することができる。運転の特徴は、運転手の状態と運転手の動作を含むことができる。例えば、運転手の状態は、頭部の姿勢、注視、目の瞬き、口の動き、表情、手の位置及び／又は動きを含むことができる。運転手の動作は、ジェスチャーや行動を含むことができる。また、交通状況、気象条件、道路状況、歩行者の動作、自転車、車両、信号機、道路標識など、車両外の要因について追加の特徴も識別しコード化することができる。例えば、同乗者、同乗者に由来する注意散漫、ラジオ、携帯電話、トラベルマグ、ガジェットに由来する注意散漫など、車両内の運転の特徴を識別しコード化することもできる。

【0010】

識別され、コード化された特徴は、統合し、集約することができる。例えば、運転手の注視方向は、車両事故に関連することがある。包括的な運転行動の研究のために、研究は、運転手の動作及び行動を、その動作が行われる文脈で考慮することが必要であると考えられる。このように、識別され、コード化された特徴を相関させ、安全条件に関してそれらの特徴の間のセマンティック意味を発見することが好ましい。

【0011】

図１は、運転手の運転行動を監視するためのシステム１００の実施例を示す図である。図１に示すように、システムは、プロセッサー１３０及び非一時的コンピュータ可読媒体１４０を含むことができる。処理命令は、非一時的コンピュータ可読媒体１４０に格納することができる。処理命令は抽出処理命令１４２を含むことができ、例えば、抽出処理命令１４２は、顔追跡１４３、頭部配置追跡１４４、表情追跡１４５、注視対象分析１４６、瞬き追跡１４７、口の状態１４８、及び車の外の景色１４９など、処理命令を含むことができる。処理命令は、統合処理命令１５２も含むことができ、統合処理命令１５２は、独立特徴学習１５３、セマンティック意味生成１５５及びディープポーズ分析１５７を実行するための命令を含むことができる。独立特徴学習１５３は、独立して追跡された特徴に関する回帰を実行し、回帰結果に基づいて追跡された特徴の意味を生成することを含むことができる。ディープポーズ分析１５７は、独立して抽出された２つ以上の特徴を相関させ、相関した特徴についての意味を生成することができる。例えば、ディープポーズ分析１５７は、注視対象分析１４６と自動車の外の景色１４９とを相関させ、これら２つの独立した特徴間の関係を見つけることができる。追跡された特徴のそれぞれについて、セマンティック意味を生成するために、独立学習及びディープポーズ分析を使用することができる。例えば、口の状態を監視することにより、運転手が運転している間に運転手が話す可能性があるかどうかのセマンティック意味を発見することができる。

【0012】

図１に示すように、システム１００は、処理命令を実行する結果を表示するためのユーザーインターフェース１１０を含むことができる。図１では、運転手が自動車を運転している間に、１以上のビデオカメラ１６０を使用して未加工ビデオ１７０をキャプチャー（又はインポート）し、自動車の内外を記録する。キャプチャーされた未加工ビデオ１７０は、データベース１９０に保存することができ、又は、コンピュータ可読媒体１４０にビデオデータ１５８として保存することができる。キャプチャーされたビデオデータ１５８は、前処理１５９することができる。プロセッサー１３０は、前処理されたビデオデータ１５８を追跡、検出、及び／又は、抽出するための処理命令を実行することができる。また、プロセッサー１３０は、統合処理命令１５３を実行する間に前処理されたビデオデータ１５８も使用することができる。図１に示すデータベース１９０を使用して、未加工ビデオデータ１７０を保存することができる。また、データベース１９０は、前処理されたビデオデータ又は他の抽出された若しくは統合されたビデオデータの結果を保存するために使用することもできる。さらに、データベース１９０は、履歴から取得又は処理されたビデオデータを格納することができる。

【0013】

図１では、データコミュニケーションネットワーク１２０は、プロセッサー１３０、コンピュータ可読媒体１４０、ユーザーインターフェース１１０、１以上のビデオカメラ１６０、及び／又は、データベース１９０の間の通信を可能にするために使用される。データコミュニケーションネットワーク１２０は、ローカルバス又はイーサネット（登録商標）などのローカルエリアネットワーク（ＬＡＮ）でもよい。データコミュニケーションネットワーク１２０は、ワイドエリアネットワーク（ＷＡＮ）でもよいし、ワイヤレスネットワークでもよい。図１に示すように、データコミュニケーションネットワーク１２０を使用することに加えて、プロセッサー１３０及びデータベース１９０は、非一時的コンピュータ可読媒体１４０と直接通信することもできる。

【0014】

図２は、キャプチャーされたビデオデータ２００の前処理の例を示す図である。図２に示すように、キャプチャーされた未加工ビデオフレーム２０２は、前処理されて前処理ビデオ２０４を形成する。図２では、未加工ビデオのコントラストが強調されている。キャプチャーされた未加工ビデオフレーム２０２では、顔領域２１０と自動車２１２の内部とのコントラストは、大きくはない。前処理の後、前処理されたビデオフレーム２０４は、大きくコントラストされた顔領域２０６と大きくコントラストされた自動車２０８の内部とを示している。窓が完全に綺麗ではないことがあるので、未加工ビデオは、場合によっては運転手の窓の外からキャプチャーされることがあり、この場合、キャプチャーされたビデオは、前処理され、窓の汚れに由来する余分なピクセルが除去される。

【0015】

前処理されたビデオデータに対して、検出、認識及び抽出を実行することができる。図３に示すように、顔追跡及び頭部姿勢抽出を実行するために、ビデオデータ３０６を検出及び抽出することができる。図３では、顔追跡３００は、第１のパス３０２及び／又は第２のパス３０４により実行することができる。

【0016】

事前学習顔検出器３０８を顔検出及び追跡３１６に使用することができる。図３に示すように、事前学習顔検出器３０８は、ビデオデータ３０６の処理とは別個に開発される。例えば、事前学習顔検出器３０８は、データベース１９０に保存された履歴データを使用することにより、ビデオ３０６の顔検出及び／又は追跡するための１以上のパターン（分類指標とも呼ばれる）を生成することができる。１以上のパターンは、顔が特定の運転状態にある可能性が高いところを示すことができる。例えば、事前学習顔検出器３０８は、自動車が高速道路を時速６０マイルの速度で走行しているときに、顔がビデオ３０６の真ん中にある可能性が高いことを示すパターン（又は分類指標）を生成することができる。

【0017】

１以上のパターンは、履歴データを回帰することにより生成することができる。事前学習顔検出器３０８は、データベース１９０に記憶された履歴にあるビデオデータを使用することにより回帰を実行することができる。また、事前学習顔検出器３０８は、運転手の顔検出及び／又は追跡するための１以上のパターン（分類指標）を生成する機械学習技術を利用することができる。一例として、畳み込みニューラルネットワーク（ＣＮＮ）は、１以上の検出器を開発するために使用することができる。ＣＮＮは、複数の段階から構成することができる学習可能なアーキテクチャであり、各段階は複数の層を含むことができる。例えば、複数の層は、濾過層、非線形層及び特徴層の３つの層を含むことができる。ＣＮＮの各段階の入力と出力は、特徴図と呼ばれる一組の配列であり、最後の段階は、分類のために完全につなぎ合わされた多層パーセプトロン（ＭＬＰ）でもよい。分類は、検出器のための分類指標を生成するために使用される回帰でもよい。

【0018】

専門家は、分類指標に注釈を付けることができる。例えば、ＣＮＮを使用して分類指標を生成することができる。専門家は、機械学習手法により生成された不正確な分類指標に由来する可能性があるエラーを減らすために、分類指標に注釈を付けることができる。

【0019】

生成され事前学習顔検出器は、顔検出及び追跡のために使用することができる。図３に示すように、顔検出及び追跡３１６は、事前学習顔検出器３０８を適用して、キャプチャーされたビデオデータ３０６を検出及び追跡することにより実行される。事前学習顔検出器３０８は、顔検出及び追跡のための複数のパターン又は分類指標を生成することができる。処理されたビデオ３０６に基づいて、入力ビデオ３０６から顔検出及び／又は抽出するために、１以上の適切なパターン又は分類指標が選択される。例えば、キャプチャーされたビデオ３０６が、運転手が電話をしていることを示すときは、事前学習顔検出器３０８からの適切なパターン又は分類指標が検索及び選択され、パターン又は分類指標が検索された後、検索されたパターン又は分類指標を使用してビデオ３０６から顔が抽出される。

【0020】

顔器官３１８は、追跡のためにビデオ３０６から抽出することができる。固定された顔の特徴の位置は、顔器官と呼ぶことができる。例えば、目、鼻、口の位置である。図３に示すように、目、鼻、口の位置を含む顔器官は、顔検出及び追跡３１６による抽出された顔から識別することができる。

【0021】

頭部の姿勢は、ビデオ３０６から抽出３２０することができる。図３では、平均顔モデル３１０が、頭部姿勢抽出３２０に使用されている。データベース１９０に記憶された履歴データは運転手の顔の例を複数提供してもよいし、各運転手の顔は異なってもよい。平均モデル３１０は、複数の運転手の顔の寸法を平均化することによりモデル運転手の顔を生成するために遂行することができる。例えば、複数の運転手の目の間の距離を検索し、平均距離を計算することができる。このようにして、平均顔モデル３１０に対する目の間の距離を得ることができる。運転手の頭部の姿勢は、運転中の異なる方向から３次元の角度を維持している。このように、平均顔モデル３１０は、ビデオ３０６から運転手の頭部を抽出するための３次元（３Ｄ）モデルを提供することができる。運転手の頭部と運転手の顔は、運転手ごとに異なるが、平均的な顔モデル３１０は、抽出のためのモデルを生成する１つの方法を提供する。平均顔モデル３１０を使用して１つのモデルのみを生成することもできる。動作中、運転手の頭部の角度及び位置を抽出し、平均顔モデル３１０を使用して頭部の姿勢の角度及び位置を示すことができる。このように、頭部の姿勢の分析は、異なる顔及び頭部についてそれぞれ形状及び大きさが異なるにもかかわらず実行することができる。

【0022】

頭部姿勢抽出３２０は、顔検出３１６及び顔器官追跡３１８の後に実行することもできる。顔検出３１６、顔器官追跡３１８及び頭部姿勢抽出３２０を並行して実行することができるが、プロセッサー１３０は、顔検出３１６及び顔器官追跡３１８が実行された後に頭部姿勢抽出３２０を実行することができる。このように、取得され追跡された顔及び顔器官情報は、頭部姿勢抽出３２０と追跡された顔及び顔器官とを相関させるために使用することができる。例えば、頭部姿勢抽出３２０を使用することにより、運転手は、目が特定の位置にあるときに特定の頭部姿勢を維持することを見つけることができる。

【0023】

個人化情報３２２は、追跡された顔３１６、追跡された顔器官３１８及び頭部姿勢抽出３２０を使用して取得することができる。図３に示すように、追跡された顔情報３１６、顔器官情報３１８及び頭部姿勢情報３２０は、運転手の個人化情報を生成するためにパーソナライゼーション（personalization）３２２に供給される。個人化情報は、運転中の顔の位置、顔の特徴の位置、運転手の頭部の姿勢の角度及び位置を含むことができる。図３に示すように、個人化情報は、顔検出器３１２をカスタマイズし、顔モデル３１４をカスタマイズするために使用することができる。

【0024】

運転手の行動を追跡するとき、個人の固有性を一般化することができる。運転手は、運転動作や行動を追跡しているとき、自分の識別情報を明らかにしたくないかもしれない。さらに、運転行動を追跡しているときに運転手の識別情報を明らかにすることは、運転手に安全上の問題を引き起こすことがある。そのため、運転手の運転動作や行動を追跡するとき、運転手の固有性を隠すことが重要である。運転手の固有性を隠す１つの方法は、運転手の固有性を一般化することである。例えば、運転手の固有性は、ビデオの中で頭部をアバターに置き換えたときに一般化することができる。取得された個人化情報３２２は、顔の位置を認識し、顔器官を学習し、運転手の頭部の姿勢を理解するために使用することができる。したがって、取得された個人化情報はアバターに転送されてもよく、アバターは、ビデオの中で運転手の頭部を取り替えた後に、運転手の顔の動作及び頭部の動きを維持することができる。アバターを使用することにより、運転手の固有性を一般化することについては、以下でより詳細に説明する。

【0025】

図３に示すように、顔検出、顔器官追跡及び頭部姿勢抽出を実行するための第２のパス３０４が存在してもよい。第２パス３０４は、第１のパス３０２に続けてもよい。あるいは、第２のパス３０４は、第１のパス３０２を開始した後、第１のパス３０２を終了する前に開始してもよい。個人化情報３２２は、第１のパス３０２で生成された顔検出３１６、顔器官追跡３１８及び頭部姿勢抽出３２０からのデータを使用して生成されるので、いくつかの実施形態では、第２のパス３０４は、第１のパス３０２における処理と並行して実行されなくてもよい。

【0026】

収集された個人化情報３２２は、第２のパス３０４のためにカスタマイズされた顔検出器３１２及びカスタマイズされた顔モデル３１４を生成するために使用することができる。運転手の頭部の動き及び顔の動作を学習した後、カスタマイズされた顔検出器３１２を生成することができる。事前学習顔検出器を生成するために使用される機械学習法もまた、カスタマイズされた顔検出器３１２を生成するために使用することができる。運転手の顔についての１つ若しくは複数のパターン又は分類指標は、カスタマイズされた顔検出器３１２を使用して生成することができる。第１のパス３０２から収集された個人化データ３２２は、１つ若しくは複数のパターン又は分類指標を生成するために使用される。いくつかの実施形態では、例えば、カスタマイズされた顔検出器３１２は、運転手の頭部をアバターに置き換えることにより、運転手の固有性を一般化するために使用することができる。第１のパス３０２から取得され、パーソナライゼーション３２２に記憶された運転手の頭部の動き及び顔の動作は、アバターに移すことができる。運転手の頭部の動きと顔の動作は、運転手の頭部がアバターに置き換えられた後に保持される。運転手の頭部をアバターに置き換えることについては、以下でより詳細に説明する。生成され、カスタマイズされた顔検出器は、入力ビデオ３０６を処理するとき、第２のパス３２２における顔検出及び追跡３２６に使用することができる。

【0027】

カスタマイズされた顔モデル３１４も生成することができる。図３に示すように、カスタマイズされた顔モデル３１４は、個人化データ３２２を使用することにより生成されてもよい。第１のパス３０２で使用された平均顔モデル３１０と比較して、カスタマイズされた顔モデルは、第１のパス３０２から取得された顔追跡、顔器官及び頭部の姿勢を使用することにより生成される。したがって、カスタマイズされた顔モデル３１４は、入力ビデオ３０６を処理するための第１のパス３０２で使用される平均顔モデル３１０よりも正確であることがある。

【0028】

図３に示すように、追跡された顔３２６、追跡された顔器官３２８及び頭部抽出姿勢３３０は、抽出された結果を出力することができる。追跡された顔３２６、追跡された顔器官３２８及び頭部抽出姿勢３３０の抽出された結果は、ユーザーインターフェース１１０に表示することができる。抽出結果の表示例を図２１に示す。

【0029】

また、図４Ａ及び図４Ｂは、顔検出４００の適合性－再現率曲線（precision-recall curves）を示す。適合性－再現率分析では、適合性は、特定の条件又は閾値を満たす関連性のある例（relevant instances）の割合であり、再現率は、すべての関連性のある例の割合である。図４Ａでは、再現率４０２は、検出されたすべてのビデオフレームの中の検出可能な顔の割合を示す。図４Ａに示すように、動作点において、第１のパスにおける顔検出の再現率は７９．５８％であり、第１のパス３０２のビデオ３０６のすべてのビデオフレームにおける顔の７９．５８％が検出されることを示している。図４Ｂでは、動作点において、第２のパスにおける顔検出の再現率４０６は９６．０６％であり、第２のパスのビデオ３０６のすべてのビデオフレームの顔の９６．０６％が検出されることを示している。このように、第２のパス３０４における検出処理は、第１のパス３０２における検出処理よりも実質的に多くの顔検出をすることができる。

【0030】

しかし、動作点において、第１のパス３０２の顔検出率の適合性は、第２のパス３０４の顔検出率の適合性よりも少し高い適合性を示す。重複率は、第１のパス３０２と第２のパス３０４の両方の適合性を決定するための閾値として使用される。図５は、重複率５００の決定方法を示す。重複率は、以下に示す数式１を用いて計算することができる。数式１に示すように、重複率は、生成ボックスの面積に対する重複面積の比率と、検出ボックスの面積に対する重複面積の比率とのうち、小さい方の比率である。図５に示すように、左顔検出５０２の重複率は０．９２であり、右顔検出５０４の重複率は０．２である。また、図４Ａ及び図４Ｂでは、重複率が０．５より大きいときは、適合性が計算される。このように、図４Ａ及び図４Ｂに示すように、第１のパスに対する顔検出の適合性４０４は９９．２６％であり、これは重複率が０．５以上のすべてのビデオフレームのうちの第１のパスでは顔の９９．２６％を検出することができることを示しており、第２のパスに対する顔検出の適合性４０８は９６．５４％であり、これは重複率が０．５以上のすべてのビデオフレームのうち第２パスでは顔の９６．５４％を検出することができることを示している。したがって、重複率が０．５以上のビデオフレームでは、第１のパスの顔検出は９９．２６％であり、第２パスの顔検出は９６．５４％である。適合性分析では、第１のパスは、第２パスよりもやや正確に顔検出をする。

【0031】

数式１：重複率＝ｍｉｎ（重複面積／生成ボックスの面積、重複面積／検出ボックスの面積）

【0032】

以下の表１は、顔検出性能の要約を示す。表１は、異なるタイプのビデオデータ３０６が使用されたときの第１のパス及び第２パスにおける顔検出の比較を示す。表１に示すように、高解像度（hi-res）ビデオ及び低解像度（lo-res）ビデオが比較に使用される。表１では、高解像度は７２０×４８０の解像度を有するビデオを指し、１Ｘの低解像度は３５６×２４０の解像度を有するビデオを指す。低解像度ビデオは、実行時に、７１２×４８０の解像度を有する２Ｘ低解像度ビデオにリスケーリングすることができる。表１に示すように、高解像度ビデオの使用は、７９．３４％の成功率を達成することができ、これは、第１のパスで０．５以上の重複スコアを有する顔検出の７９．３４％を意味する。表１では、第１のパスにおける高解像度の場合、高解像度ビデオの顔検出の中央重複スコアは０．３８であり、再現率は７９．５８％である。これらの数字は、第１のパスの１Ｘでのlo-resの数値よりもかなり高い。表１に示すように、２Ｘでの高解像度ビデオ及び低解像度ビデオの使用は、１Ｘでの低解像度の使用よりも、全体的により適合性が高い顔検出を提供することができる。

【0033】

図６Ａ及び図６Ｂは、第１のパス３０２及び第２のパス３０４の顔器官６００を追跡するための適合性－再現率曲線を示す。図６Ａに示すように、動作点での顔器官を追跡するための第１のパス３０２の再現率６０２は６１．６１％であり、これは、動作点において、第１のパス３０２ではビデオ３０６の顔器官のうち６１．６１％を追跡することができることを示している。図６Ｂでは、動作点において、動作点での顔器官を追跡するための第２のパス３０４の再現率６０６は８０．２７％であり、これは、動作点において、第２のパス３０４ではビデオ３０６の顔器官のうち８０．２７％を追跡することができることを示している。再現率表によると、第２のパス３０４は、第１のパス３０２よりも実質的に多くの顔器官をうまく追跡することができる。

【0034】

【表1】

【0035】

成功基準が満たされたとき、第１のパス３０２及び第２のパス３０４は、顔器官をうまく追跡することについて大きな違いを示さないことがある。フレーム当たりの平均追跡エラーは、７つの注釈付けされた点と対応する追跡された点との間のピクセル距離の平均値を取得することにより計算することができる。図７は、７つの注釈付き点７００の例を示している。図７に示すように、７つの注釈付き点７０２に印をつけることができる。注釈付き点を作成する１つの方法は、画像に手動で注釈を付けることである。例えば、この分野の専門家は、注釈付き点を作成するため、画像処理ツールを利用して画像に注釈を付けることができる。フレーム当たりの平均追跡エラーを取得した後、平均追跡エラーを眼の間の距離で割ることにより規格化された平均追跡エラーを定義することができる。成功基準は、検出スコアが０．３より大きく、規格化された追跡エラーが０．１５未満であるときに満たされる。図６Ａ及び図６Ｂに示すように、成功基準が満たされたときの顔器官を追跡する適合性は、第１のパス３０２では７７．４２％であり、第２のパス３０４で顔器官を追跡するときは７２．１１％である。

【0036】

【表2】

【0037】

表２は、顔器官を追跡するための性能の要約を示している。表２に示すように、１Ｘで低解像度のビデオを使用すると、追跡性能はそれほど良くない。第１のパス３０２では、表２は、lo-resの適合性が５１．３％であり、再現率が単に３２．９％に過ぎないことを示している。しかし、低解像度のビデオを１Ｘから２Ｘにリスケーリングした後は、性能が向上する。表２に示すように、第１のパス３０２では、２Ｘlo-resビデオの適合性は６５．４％であり、再現率は４９．１％である。これらの数字は、１Ｘlo-resビデオを使用したときの結果よりも非常に高い。また、表２に示すように、２Ｘlo-resビデオの性能は、依然として高解像度ビデオ（hi-res）の性能より約１０％低い。

【0038】

顔器官を追跡するための検出スコア及びエラーをさらに分析することができる。図８は、顔器官８００を追跡するための性能分析クワッドチャート（quad chart）を示している。図８に示すように、スコア閾値８１０は－０．３であり、エラー閾値８１２は０．１５である。右下のクワッド８０４に示すように、スコアがスコア閾値－０．３より大きく、エラーがエラー閾値０．１５よりも小さいときは、追跡された顔器官の結果は真陽性である。右上のクワッド８０２では、スコアがスコア閾値－０．３より大きく、エラーがエラー閾値０．１５より大きいときは、追跡された顔器官の結果は偽陽性である。この状況では、結果は正常に表示されるが、エラーが非常に多くなる可能性がある。左下のクワッド８０８では、スコアがスコア閾値－０．３より小さく、エラーがエラー閾値０．１５よりも小さいときは、結果は偽陰性である。このシナリオでは、エラーが多すぎないにもかかわらず、結果は悪い。左上のクワッド８０６では、スコアがスコア閾値－０．３より小さく、エラーがエラー閾値０．１５より大きいときは、結果は真陰性である。この状況では、結果は悪く、エラーが多すぎる。クワッドチャート８００は、顔器官を追跡した結果に対して異なる視点を示すことができる。

【0039】

第１のパス３０２では、平均モデル３１０は、頭部の姿勢３２０を抽出する前に構成することができる。図９は、第１のパス３０２で使用することができる平均顔モデル９００の例を示している。図９に示すように、モデル顔９００を生成することができる。図９では、目と鼻の寸法９０２、他の顔の特徴、２つの識別された位置９０４の間の距離が３Ｄモデルで示されている。モデル上の寸法９０２及び距離９０４は、データベース１９０から取得された履歴データから複数の利用可能な顔の寸法及び距離を平均化することにより導き出すことができる。図３の第１のパス３０２では、導出された平均モデル９００は、頭部姿勢抽出３２０に使用することができる。

【0040】

頭部姿勢抽出３３０に使用されるカスタマイズされた顔モデルは、第１のパス３０２で収集されたデータを使用することにより生成することができる。図１０は、カスタマイズされた顔モデル１０００を開発するための例示的な処理を示している。図１０では、運転手の異なる姿勢１００４についての顔器官が、第１のパス３０２に収集される。カスタマイズされた顔モデル１００２は、第１のパス３０２の異なる姿勢１００４で収集された顔器官を使用して生成される。

【0041】

自動車内で追跡された頭部／顔姿勢のための３次元追跡を実行することができる。図１１は、自動車内の頭部／顔姿勢の３次元追跡の例を示している。図１１では、顔モデル１１０２は、平均顔モデル３１０又はカスタマイズされた顔モデル３１４のいずれかにより構成することができる。図１１に示すように、ビデオ３０６から抽出された顔モデル１１０２の水平横方向１１０４、水平縦方向１１０６及び垂直方向１０８の動きは、図１１に示すように追跡される。

【0042】

頭部姿勢追跡の正確性を評価することができる。図１２は、パン角度１２０２及びチルト角度１２０４のエラー分析の一例を示している。パン角度は、固定された位置から水平方向の物体の回転を指し、チルト角度は、固定された位置から上下方向の物体の回転を指す。パン角度分析１２０２における追跡された頭部の姿勢と顔モデルの動きの相関は、散布図１２１０に示されている。チルト角度における追跡された頭部の姿勢と顔モデルの動きの相関は、チルト角度分析１２０４の散布図１２１２に示されている。また、図１２は、パン角度分析１２０６及びチルト角度分析１２０８に対するエラー分布を示している。

【0043】

運転行動を分析するには、運転手の視線の対象を追跡することが重要である。例えば、自動車の運転は、運転手が見ている場所により大きく影響を受ける。しかし、キャプチャーされたビデオが頭部と顔の姿勢を示したとしても、ビデオは視線の対象を直接表示しないことがある。このように、ビデオから抽出された頭部と顔の姿勢を使用して、運転手の視線の対象を導き出すことは有用であると思われる。例えば、視線の方向は、運転手の正面の向きに対応する頭部の姿勢の角度により推定し、導出することができる。また、携帯電話のような認識可能な機能又は自動車の外の景色をキャプチャーされたビデオから抽出し、注釈を付けることもできる。抽出された特徴の３Ｄ座標を生成することができる。このように、視線の対象は、視線方向と認識可能な特徴とを関連付けることにより生成することができる。図１３は、３Ｄの視線の対象ベクトル１３００をコンピュータ生成するための頭部／顔の姿勢の使用を示している。図１３に示すように、大きな３Ｄボックス１３０２を用いて車の室内を示す。さらに、大きな３Ｄボックス１３０２の中のより小さい３Ｄボックス１３０４は、運転手の頭部の体積を表す。大きな３Ｄボックス１３０２の中の青色点１３０６は器官点を表し、赤色点１３０８は取得された頭部／顔の姿勢による視線の対象点を表す。図１３に示すように、青色点１３０６の大部分は、目、鼻、口を含む粗い顔を構成し、赤色点１３０８の大部分は、運転手が自動車の室内１３０２の前方を注視していることを示す。

【0044】

【表3】

【0045】

図１４は、いくつかの視線の対象１４００の周波数の例を示している。図１４では、高い棒１４０６は、視線の対象としてのリアビューミラーの周波数を表し、低い棒１４０８は、視線の対象としての右フロントガラスの周波数を表す。図１４に示すように、運転手がリアビューミラー１４０２を注視する頻度は、運転手が右フロントガラス１４０４を注視する頻度よりもはるかに高い。表３は、図１４に示す対象１４１０のリストに対する視線追跡適合性の評価を示している。表３では、クラス４－前方－の視線追跡正確性は８６．３１％であり、クラス３－カップホルダー－の視線追跡正確性は０．０６％である。したがって、表３によれば、前方（クラス４）の視線追跡は、カップホルダー（クラス３）の視線追跡よりもはるかに正確である。

【0046】

運転手の目の瞬きを検出して監視することもできる。図１５は、瞬き検出及び瞬き割合推定の一例を示す。図１５に示すように、目の瞬きは、追跡された器官特徴１５０２に基づいて検出することができる。さらに、ビデオに注釈を付けることができ、注釈付きビデオ１５０４は、目の瞬きを監視するための評価をすることができる。

【0047】

また、運転行動追跡は、表情分析も含むことができる。中立、怒り、軽蔑、嫌悪、恐怖、幸せ、悲しみ、驚き又は他の表情を含むいくつかの表情のクラスがあり得る。表情分析は、顔の正面に対して行うことができる。したがって、分析が実行される前に、追跡された顔は、それらを前面平行平面に投影するように調整及び回転することができる。図１６は、取得されたビデオに基づいて構成された６つの異なる表情の例を示す。定性的には、運転手が助手席に座っている人とお喋りしているときに、「幸せな」表現が生じているように見える。

【0048】

運転行動分析のために、運転手の手及び上半身の姿勢を追跡及び抽出することができる。図１７に示すように、上半身の関節と手が追跡される１７００。場合によっては、運転手の手が異なるビデオフレームで示されるとき、完全な追跡データを取得するために異なるビデオフレームを相関させることができる。例えば、図１７では、上のビデオフレーム１７０２と下のビデオフレーム１７０４の両方に追跡された手の点を見つけることができる。このように、両方のビデオフレームを相関させて、運転手の情報の全組を追跡し抽出する必要がある。

【0049】

場合によっては、無関係な事象を、運転行動分析の重要な情報を生成するために相関させることができる。例えば、顔器官は、自動車の事故による独立した特徴でもよい。しかし、交通事故は運転手が眠そうであることを示す顔器官に関連する可能性がある。このように、顔器官の独立した特徴と交通事故とを交通事故の分析に相関させることができる。ディープポーズ分析は、無関係な事象の相関関係を構築するために実施することができる。

【0050】

図１８は、ディープポーズ分析１８００の一例を示す。図１８では、ディープニューラルネットワーク（ＤＮＮ）と呼ばれる機械学習法が用いられている。ＤＮＮは、入力層と出力層の間に複数の隠れ層を有する人工ニューラルネットワークである。複雑な非線形関係をモデル化するためにＤＮＮを使用することができる。図１８では、顔１８０２を有するビデオフレームは、ＤＮＮを用いて分析される。ＤＮＮ分析は、ビデオフレームから抽出された入力特徴に対して実行される独立学習である。同様に、交通事故に関するビデオフレーム１８１０もＤＮＮ１８１２を使用して独立に分析され、そこでは独立した学習が抽出された特徴に対して行われる。図１８に示すように、結合回帰１８０６は、顔及び交通事故の両方のＤＮＮ１８０４、１８１２の結果に対して実行される。結果表示１８０８では、顔フレーム１８０２から抽出された特徴１８１４と交通事故１８１０のビデオから抽出された特徴とが相関される。図１８に示すように、ＤＮＮ及び結合回帰を利用することにより、ディープポーズ分析は、２つ以上の独立した特徴を相関させて、個々の出来事の相関関係を形成することができる。このように、ビデオフレームから抽出された独立した特徴の間の固有の相関又は関係を発見することができる。

【0051】

運転手のジェスチャーと運転中の動作を追跡して抽出することができる。例えば、運転手のジェスチャー及び動作は、「運転中」、「ミラーを調整する」及び「顔を触る」などの複数のクラスに分類され、記録されたビデオは、分類されたクラスにしたがって追跡及び抽出することができる。表４は、この運転手のジェスチャー／動作認識の結果の一例を示している。表４に示すように、運転手ジェスチャー／動作を認識するための全体的な適合性は７９．８３％である。認識された運転手ジェスチャー／動作は、複数のクラスに分割することができる。表４に示すように、後ろを見る／後退する（Look back - backing up）及び顔を触るは、２つのクラスの運転手のジェスチャー／動作である。後ろを見る／後退するというクラスは、全体の認識率が８７．８０％であり最も高い認識率を有し、顔を触るというクラスは全体の認識率が６０％であり、認識率が最も低い。

【0052】

上述のように、運転手の固有性の一般化は、運転手の頭部をアバターで置き換えることにより達成することができる。しかし、運転手の固有性は、ビデオ内の運転手の視覚化表現を示すことにより一般化することができる。例えば、自動車内の運転手をビデオ内で検出し、運転手の顔追跡器官、頭部の姿勢及び上半身の姿勢の骨格を後で識別することができる。したがって、運転手の顔追跡器官、頭部の姿勢及び上半身の姿勢の骨格を使用することにより、運転手の視覚化表現を構築することができる。運転手の視覚化表現を用いて運転手を表すことができ、運転手の固有性を隠すことができる。

【0053】

場合によっては、同乗者の検出を運転行動の追跡に含むことができる。例えば、カメラは、自動車の内部の同乗者がキャプチャーされるように、車内の広い角度の視野をキャプチャーすることができる。運転手に適用される追跡及び抽出方法は、同乗者を追跡及び抽出するために適用することもできる。例えば、同乗者の顔検出、顔器官、頭部の姿勢を追跡し抽出することができる。運転手の固有性を一般化するのと同じ理由で、同乗者の固有性を一般化することができる。搭乗者の頭部をアバターと交換して同乗者の視覚化表現を生成するために、運転手と同乗者の固有性はビデオ内の画像をぼかすことにより一般化することができる。例えば、キャプチャーされた画像を処理して、車両内の人物を識別不能にするために十分にぼかしてもよい。このように、以下でより詳細に説明するように、運転手と同乗者の両方の固有性を一般化することができる。場合によっては、車内の他の特徴を抽出して追跡することもできる。例えば、ステアリングホイール検出、安全ベルト検出、及び／又は、大気分類を実行することができる。

【0054】

【表4】

【0055】

運転行動の分析には、他の車両の検出及び追跡を含むことができる。ある車両の運転行動は、道路上の他の車両の動作により影響を受けることがある。外のビデオフレームは、調査された車両に加えて他の車両を検出し識別するためにキャプチャーする。図１９は、外部車両検出１９００の一例を示している。図１９に示すように、３台の外の車両１９０２が検出される。

【0056】

場合によっては、外部の特徴が運転行動に影響することがある。例えば、他の車両に加えて、外部車両のブレーキライト及びターンシグナルが、調査された車両の運転行動に影響を及ぼすことがある。したがって、外部車両のブレーキライト及びターンシグナルもキャプチャーし、検出することができる。

【0057】

図２０は、運転条件２０００を監視するための高い水準のフレームワークを示している。図２０に示すように、ビデオデータ及び車両データ２００２が提供される。ビデオデータ及び車両データ２００２は、レーントラッカー（lane trackers）、加速メーター、全地球測位システム（ＧＰＳ）、携帯電話記録、車両操作データ及び付随道路情報データなどの様々なリソースを介して取得することができる。図２０では、例えば、ビデオデータ及び車両データ２００２を前処理してコントラストを強調し、及び／又は、不要なピクセルを除去するために、ビデオデータ及び車両データが２０１０で前処理される。主な特徴は、主特徴抽出層２００４で前処理されたビデオから抽出される。主な特徴は、顔特徴追跡、頭部配置追跡、上半身姿勢追跡、手追跡、安全ベルト検出、ハンドル検出、同乗者検出、大気分析、歩行者検出及び追跡、並びに車両検出及び追跡を含むことができるが、これらに限定されない。中間特徴は、中間特徴抽出層２００６でコード化された特徴を使用するか又は集約することにより生成することができる。中間特徴は、目と注視の監視、顔の表情の分析、ジェスチャー／動作認識、歩行者行動分類、車両行動分類、ブレーキライト／右左折シグナル検出を含むことができるが、これらに限定されない。中間特徴は、特徴統合層２０１２において統合され、集約され、最終符号化特徴２００８を生成することができる。最終的符号化特徴２００８は、運転手の動作２０１４、運転手の状態２０１６、及び運転の環境２０１８を含むことができるが、これらに限定されない。運転手の動作２０１４は、携帯電話で会話すること、シートベルトをしめること、他の人に連絡すること、あくびすること、及び飲むことを含むことができるが、これらに限定されない。運転手の状態２０１６は、一定の方向を注視すること、不注意であること、怒ることと驚くこと、疲労を測定すること、シートベルトを着用することを含むことができるが、これらに限定されない。運転の環境２０１８は、天候、視界と眩しさ、ラジオ、車両の密度、車両の信号、及び車両の動作を含むことができるが、これらに限定されない。

【0058】

図２１は、ビデオ２１００から抽出されたビデオ特徴の視覚化表現を表示するユーザーインターフェースの一例を示している。図２１に示すように、提供されるビデオ２１０２は、運転手追跡ビデオ２１１８及び車両追跡ビデオ２１１６を含む。抽出されたビデオ特徴は、異なる曲線又はプロットにより視覚的に表示することができる。図２１では、顔追跡信頼度２１０４、頭部姿勢２１０６、表情２１０８、注視対象分析２１１０、瞬き追跡２１１２、及び口の状態２１１４の曲線又はプロットが表示されている。

【0059】

図２１では、口の状態の曲線２１１４が表示されている。音声データは個性があり抽出することができないので、口の状態の追跡２１１４は、話す内容が分からないことがある。しかし、口の状態２１１４は、運転中に運転手が話しているか否かを示すことができる。運転中に会話をしている状態と会話をしていない状態は、運転行動を追跡するための有益な情報を提供することができる。

【0060】

図２２は、運転行動を追跡及び抽出する方法２２００を示すフローチャートである。図２２に示すように、方法２２００は、ビデオフレームが１以上のセンサーからキャプチャーされ、ビデオフレームが車両の内部及び／又は外部を表しているビデオデータを受信すること２２１０と、ビデオデータから１以上の特徴を抽出すること２２２０と（抽出することは、少なくとも１つの運転条件に関連付けられているビデオデータから１以上の特徴を検出及び認識することを含む）、抽出された特徴の中で抽出された特徴を関連づけて集約することによって中間特徴を生成すること２２３０と、前記中間特徴及び前記１以上の抽出された特徴を利用することによって前記少なくとも１つの運転条件についてのセマンティック意味を生成すること２２４０と、を含むことができる。図２２は、運転行動を追跡及び抽出するために使用できる方法の一例を示すに過ぎない。上記の開示に照らして他の方法も生成することができる。

【0061】

上述したように、運転行動を追跡するために運転手（及び／又は同乗者）のプライバシーを保護することが重要である。このように、追跡されたビデオにおける運転手の固有性の一般化が必要となることがある。運転手の固有性を一般化する１つの方法は、画像処理装置を使用して運転手の固有性をマスクし、運転手の頭部をアバターで置き換えることである。図２３は、運転手の頭部をアバターに置き換えるために使用することができる例示的な画像処理装置を示している。

【0062】

図２３では、画像処理装置２３１０は、１以上のプロセッサー２３２０及び非一時的コンピュータ可読媒体２３３０を含むことができる。処理命令２３４０は、非一時的コンピュータ可読媒体２３３０に格納することができる。処理命令２３４０は、プロセッサー２３２０により実行され、プロセッサー２３２０に入力画像２３５０における顔の特徴及び運転手の頭部姿勢２３４２を追跡させ、頭部の位置２３４４を検出し、運転手の頭部を入力画像２３５０に処理して処理画像２３６０を出力する。処理画像２３６０では、運転手の頭部がアバターに置き換えられ、このようにして、運転手の固有性が一般化され、保護される。アバターの使用及び人の固有性のマスキングは、運転手を基準としているが、同じ方法が同乗者の固有性をマスクするために利用することができ、運転以外の他の状況、例えば小売店や他の環境でも、利用することができる。

【0063】

運転手の顔の特徴及び頭部の姿勢を追跡することができる。画像処理装置２３１０は、運転手を内部に有する運転中の自動車の内部イメージをキャプチャーするためのカメラを含むことができる。カメラは、運転手の前面を追跡するように調整及び方向付けすることができる。図２４は、顔の特徴及び頭部の姿勢を追跡するために使用されるキャプチャー画像２４００を示している。図２４では、頭部の位置は、キャプチャー画像２４００において識別された前面領域２４０２を含む。特定された前面領域２４０２の内部では、顔の特徴及び器官２４０４、２４０６も識別され、追跡される。顔の特徴と器官には、顔の目、鼻、口を含むことができる。図２４に示すように、特徴及び器官は、点２４０８及び点２４０８を接続する線２４１０により識別及び追跡することができる。点２４０８は、専門家により注釈を付けけることができ、画像処理装置２３１０により識別することができる。画像処理装置２３１０は、画像認識処理を実行することにより、複数の点２４０８で特徴及び器官を識別することができる。画像認識処理は、ＣＮＮのような１以上の機械学習方法により学習させることができる。前にキャプチャーされた画像は、画像認識処理を学習するために使用することができる。画像処理装置２３１０は、顔の特徴及び器官を識別する点２４０８を接続する線２４１０を追加することができる。

【0064】

運転手の顔を交換するために、１以上のアバターを作成することができる。図２５は、生成された例示的なアバター２５００の数を示している。図２５の生成されたアバターは、２次元又は３次元のいずれであってもよい。図２５に示すように、生成されたアバター２５０２は正面を有してもよく、アバターの性別は認識可能であっても認識可能でなくてもよい。アバターの性別が認識可能であるときは、例えば、女性アバター２５０６は長い毛髪を有し、男性アバター２５０８は短い毛髪を有してもよい。図２５に示すように、生成されたアバター２５０２にメッシュ２５０４を適用することができる。適用されたメッシュ２５０４は、生成されたアバター２５０４のすべての領域を覆うことができる。メッシュ密度は等しく分布していなくてもよい。例えば、生成されたアバターの一部の領域のメッシュは、他の領域のメッシュよりも密度が高くてもよい。図２５では、左の生成されたアバター２５１４について、目の領域２５１２のメッシュは、毛領域２５１０のメッシュよりも密度が高い。生成された異なるアバターが異なる頭部の形状及び顔の特徴及び器官を有するときでも、異なるアバターに適用されるメッシュは、同じ組のメッシュの頂点を有してもよいし、類似のメッシュ密度を有してもよい。

【0065】

運転手の顔からアバターへの動きを転送するためにメッシュを使用することができる。追跡された器官点は、生成されたアバターのメッシュの頂点にマッピングすることができる。図２６は、追跡された画像と生成されたアバター２６００との間の顔の器官のマッピングを示している。図２６に示すように、追跡画像２６０６内の各追跡器官点２６０２について、生成されたアバター２６０８内の最も近いメッシュ頂点２６０４を見つけてマッピングされる。このマッピング処理は、追跡された画像２６０６内のすべての追跡された器官点２６０２が、生成されたアバター２６０８内のメッシュ頂点２６０４にマッピングされるまで繰り返すことができる。複数のアバターが生成されると、器官点のマッピングは、生成されたアバターの各々に対して実行することができる。しかし、異なるアバターは同じ組のメッシュ頂点及び類似のメッシュ密度を有することがあるので、複数のアバターのマッピングは、あるアバターから別の生成アバターへマップをコピーするのと同程度に単純にすることができる。

【0066】

生成されたアバターの１つは、ユーザーインターフェースを利用して頭部置換のために選択することができる。図２７は、運転手の頭部２７００を置換するために生成されたアバターを選択するためのユーザーインターフェースを示している。図２７に示すように、運転手の頭部の位置２７０６は、追跡された運転画像２７０４において識別され追跡される。生成されたアバター２７０２のリストがユーザーインターフェース２７００に表示され、ユーザーは、識別された頭部の位置２７０６内で検出され、追跡されたドライバーの頭部を置き換えるために、リストに挙げられた生成アバター２７０２の１つを選択することができる。

【0067】

追跡されたビデオ内の運転手の動きは、選択されたアバターに転送することができる。図２８は、運転手の頭部と選択されたアバター２８００との間で移動させる動きを示している。図２８では、運転動作を追跡するためのキャプチャーされたビデオ２８０２が提供されている。キャプチャーされたビデオ２８０２では、運転手の頭部の位置／ボックス領域２８０６が検出される。図２８に示すように、ボックス領域２８０６は、運転手の頭部の位置を描いている。運転中に運転手の頭部がそれほど動かないとしても、運転手の頭部を示すボックス領域２８０６は静止していなくてもよい。代わりに、ボックス領域２８０６は、ビデオが進行するにつれて移動してもよい。

【0068】

移動ボックス領域２８０６は、選択されたアバターで置き換えることができる。図２８に示すように、生成されたアバター２８０８が選択される。アバターの選択は、図２７に示すユーザーインターフェースを用いて行うことができる。ボックス領域２８０６内の検出された運転手の頭部は、選択されたアバター２８０８に置き換えられて、図２８に示されるように置き換えられたビデオ２８０４が得られる。ボックス領域は、ビデオが進むにつれて移動することができるので、置き換えられたアバター２８０８はビデオの置き換え２８０４に応じて移動する。

【0069】

キャプチャーされたビデオ２８０２における運転手の頭部の動きは、転送することができる。図２８に示すように、顔の器官２８１０は、キャプチャーされたビデオ２８０２において識別され、追跡される。器官点が図２６に示すようにアバターメッシュ上のメッシュ頂点にマッピングされると、顔器官２８１０の動きもまた、選択されたアバター２８０８に移すことができる。したがって、置き換えられたアバター２８０８は、ボックス領域２８０６の動きにしたがって移動するだけでなく、置き換えられたビデオ２８０４内の置き換えられたアバター２８０８の目、鼻、口及び表情も、キャプチャーされたビデオ２８０２内の顔器官の動きにしたがって移動することができる。このように、運転手の頭部２８０６の動きは、選択されたアバター２８０２に移される。運転手の頭部を生成されたアバター２８０８で置き換えた後、運転手の固有性が一般化される。

【0070】

図２９は、記録されたビデオにおける人の固有性を一般化するためのロジック２９００を示している。図２９に示すように、ロジック２９００は、１以上のセンサーからのビデオフレームの一組を含むビデオデータを受信するステップ２９１０と、ビデオフレームの一組内の人の顔における複数の器官を識別するステップ２９２０と、ビデオフレームの一組内の人の顔における器官と方向の移動を追跡するステップ２９３０と、顔画像が複数の器官に配置された複数の画像器官を含むことができるビデオフレームにおいて人の顔に顔画像をオーバーレイする（overlaying）ステップ２９４０と、器官の追跡された動きと人の顔の向きをビデオフレーム内の人の顔をオーバーレイする顔画像に移動させるステップ２９５０と、を含んでもよい。

【0071】

図２９のロジック２９００では、重ね合わされた顔画像は、２次元（２Ｄ）画像又は３次元（３Ｄ）画像のいずれでもよい。ロジック２９００は、器官の追跡された動き及び人の顔の向きを分析して、顔の動きの状態を生成し、顔が顔画像と重なった後の顔の動きの状態を保存することをさらに含むことができる。

【0072】

ロジック２９００は、複数の方法で実装することができる。図３０は、ロジック２９００の一実施例を示している。図３０に示すように、未加工ビデオ３００２は、キャプチャーされ、顔の特徴と頭部の姿勢３００４を追跡、抽出、及びキャプチャーする処理に供給することができる。追跡され、抽出され、及びキャプチャーされた顔の特徴は、処理されたビデオ３０１２を形成するために未加工ビデオ３００２に印付けされ、注釈付けされる。図３０に示すように、９０％を超えるビデオフレームは、顔の特徴及び頭部の姿勢を追跡し、抽出し、キャプチャーするためによく処理することができる。追跡され、抽出され、キャプチャーされた顔の特徴及び頭部の姿勢は、目の状態、表情、唇の動き、口の開き、頭部の姿勢及び動き、及び視線方向を含むことができるが、これらに限定されない。

【0073】

場合によっては、頭部の位置の補間を生成することができる。例えば、頭部の位置は、未加工ビデオ３００２のいくつかのフレームから検出することができないことがある。いくつかのビデオフレームが損傷し３０１６、及び／又は、運転手の頭部を認識できないこと３０１６があり得る。したがって、頭部の位置を検出することができないビデオフレームについては、運転手の頭部の補間を生成してもよい３００６。頭部の位置を検出することができないビデオフレームに近い他のビデオフレームからうまく検出された頭部の位置を利用して、補間を生成することができる。

【0074】

頭部の位置、顔の特徴、頭部の姿勢が検出され、追跡され、抽出された後、運転手の頭部はアバター３００８に置き換えられる。運転手の頭部をアバター３００８に置き換えることは、アバターを選択すること、未加工ビデオ３００２内の運転手の頭部を特定すること、運転手の頭部を選択されたアバターで置き換えること、及び運転手の頭部の動きをアバターに移すことを含むことができる。

【0075】

場合によっては、運転手の頭部をアバターに置き換えた後、補正が必要になることがある。例えば、図３０に示すように、置き換えられたアバター３０２０を用いたフレームごとの信頼度を算出し、信頼度が低い場合には置き換えられた後のアバターの補正が必要であり、ビデオフレームを補正することができる。補正をマニュアルで行うことができるとしても、図２３に示すような画像処理装置を使用して、信頼度が低い水準のビデオフレーム内のエラーを自動的に補正することが可能である。固有性マスクされたビデオ３０２２は、信頼度が低い水準のビデオフレームを正しいものにするための補正が行われた後に生成される。

【0076】

図３１は、図３０に示した固有性マスキング実装３１００の個々のタスクを示している。図３１に示すように、固有性マスキング実装３１００は、追跡３１０２、塗りつぶし（filling-in）３１０４、マスク３１０６、及びマニュアルアシスト３１０８のステップを含むことができる。追跡ステップ３１０２は、タスク１、タスク２、及びタスク３を含む。タスク１は、運転手の顔検出をし、顔の特徴点を追跡すること３１１０を含み、タスク２は、運転手の顔及び頭部の姿勢を抽出すること３１１２を含み、タスク３は、運転手の顔の動き及び注視を追跡すること３１１４を含む。塗りつぶしステップ３１０４は、検出可能なビデオフレーム３１１６にしたがって欠落したフレームの補間を生成することを含む。図３１は、マスキングステップの３つのタスク（タスク５、タスク６、及びタスク７）を示している。タスク５は、アバター３１１８上での顔の動き合成を含み、タスク６は、マスキング固有性３１２０のためのビデオ上のアバターのレンダリングを含み、タスク７は、マスク３１１２を細かい塗装を含む。マニュアルアシストステップ３１０８において、置き換えられたアバターを有するビデオフレームの信頼水準が低いときは、置き換えられたアバターは、グラフィカルユーザーインターフェース（ＧＵＩ）ツール３１２４を利用することによりマニュアルで修正される。ＧＵＩツールは、信頼水準の低いビデオフレームを検査して修正することができます。

【0077】

図３２は、固有性一般化（identity generalization）３２００について、アバター置換を一般的に実装することを示している。図３２に示すように、入力ビデオ３２０２から、置き換えられる顔の動きが識別され、アバター３２１０に転送される。転送される動きは、目の状態、表情、唇の動き、口の動き、頭部の姿勢と動き、視線の方向、又はそれらの任意の組み合わせを含むことができる。転送された顔の動きは、アバター３２０４内で合成される。

【0078】

出力ビデオ３２０８を生成するためにアバターがレンダリングされる３２０６。レンダリングはイメージを生成する処理である。入力ビデオでの固有性一般化のためにアバターが作成、選択され、元のビデオの顔の動きが生成されたアバターに移されると、アバターの画像がレンダリングされる。アバターは、入力ビデオの置き換えられる領域にしたがってレンダリングされる。レンダリングされたアバターは、入力ビデオからの形状、視点、質感、光、及び影の情報の一部又は全部を含むことができる。レンダリングされたアバターは、出力ビデオ３２０８を生成するために、入力ビデオの識別された領域を置換するために使用される。置換後、動きの状態及び他の顔の情報が可能な限り保存されているときに、出力ビデオにおける固有性が一般化される。

【0079】

入力ビデオの顔領域は、アバターと完全に置き換えなくてもよい。場合によっては、元の顔領域の１００％をアバターにより覆ってもよい。しかし、場合によっては、元の顔を一般化するためにアバターを使用することにより、元の顔領域の一部のみを覆うことができる。例えば、いくつかの状況では、目の領域の覆いは、入力ビデオの固有性を一般化するのに十分であることもある。元の顔領域の一部のみがアバターに置き換えられたときは、入力ビデオ３２０２の置き換えられた領域の動きは、アバターに転送され、出力ビデオ３２０８の残りの未置換の顔領域は、入力ビデオ３２０２の領域と同じである。このように、入力ビデオ３２０２の人物の固有性は一般化され、元の動作状態及び顔の特徴及び器官は可能な限り保存される。場合によっては、置き換えられる入力ビデオに複数の固有性があるときは、上記の同じ処理を使用することもできる。複数の固有性は、１以上のアバターを使用して一般化することができる。

【0080】

図３３は、運転手の行動を監視し、及び／又は、ビデオの人の固有性を一般化するために使用することができるコンピューティングシステムの例を示している。図３３を参照すると、コンピューティングシステム３３００の例示的な実施形態は、図１、２２、２３、及び２９の方法及びシステムにより示される１つ若しくは複数のコンポーネント、又は本明細書の本開示で論じられる方法を実行するように構成された他のシステムで使用することができる。コンピューティングシステム３３００は、図示されたコンポーネントを含むものとして図３３に示されているが、この発明は、図３３に示されたものよりもコンピューティングシステムが少ないコンポーネント又はより多くのコンポーネントから構成されることを含む。

【0081】

コンピューティングシステム３３００は、本明細書で開示される方法、処理、又はコンピュータベースの機能のうちの任意の１以上をコンピューティングシステム３３００に行わせるために実行することができる命令の組３３２４を含むことができる。例えば、本明細書で説明されるように、運転行動を監視し又はビデオで人の固有性を一般化する装置又はシステムは、コントローラ３３０２により実行され、１以上の方法、処理、又はコンピュータベースの機能を行うためのコントローラ３３０２により実行される命令３３２４の組からなるプログラムでもよい。そのようなプログラムは、メインメモリ３３０４、スタティックメモリ３３０６、又はハードドライブ３３１６などの図３３に例示されている例示的なメモリコンポーネントの１以上に、全体として又は部分の任意の組み合わせで格納することができる。

【0082】

上述のように、コンピューティングシステム３３００は、モバイル装置でもよい。コンピューティングシステム３３００は、ネットワーク３３２６を使用して他のコンピューティングシステム又は周辺装置に接続することもできる。ネットワーク化された配置では、コンピューティングシステム３３００は、サーバ－クライアントユーザネットワーク環境内のサーバ又はクライアントユーザコンピュータとして、又はピアツーピア（又は分散）ネットワーク環境内のピアコンピューティングシステムとして動作することができる。

【0083】

コンピューティングシステム３３００が実施される実施形態に加えて、コンピューティングシステム３３００はまた、パーソナルコンピュータ（「ＰＣ」）、タブレットＰＣ、セットトップボックス（「ＳＴＢ」）、パーソナルデジタルアシスタント（「ＰＤＡ」）、スマートフォン又はタブレットなどのモバイル装置、パームトップコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、ネットワークルータ、スイッチ、ブリッジ、又はその機械がとるべき動作を指定する命令の一組（順次又はその他）を実行することができる他の任意の機械などの、様々な装置として実装されてもよく、あるいは、様々な装置に組み込まれてもよい。特定の実施形態では、コンピューティングシステム３３００は、音声、ビデオ、又はデータ通信を提供する電子装置を使用して実装することができる。さらに、単一のコンピューティングシステム３３００が示されているが、「システム」という用語はまた、１以上のコンピュータを実行するための１以上の命令の一組を個別に又は共同して実行するシステム又はサブシステムの任意の集合を含むと捉えられなければならない。

【0084】

図３３に示すように、コンピューティングシステム３３００は、中央処理装置（「ＣＰＵ」）、グラフィックス処理装置（「ＧＰＵ」）、又はその両方などの、コントローラ３３０２を含むことができる。さらに、コンピューティングシステム３３００は、メインメモリ３３０４を含むことができ、さらにスタティックメモリ３３０６を含むことができる。２つ以上のメモリコンポーネントがコンピューティングシステム３３００に含まれる実施形態では、メモリコンポーネントは、バス３３０８を介して互いに通信することができる。図示したように、コンピューティングシステム３３００は、液晶ディスプレイ（「ＬＣＤ」）、有機発光ダイオード（「ＯＬＥＤ」）、フラットパネルディスプレイ、ソリッドステートディスプレイ、又は陰極線管（「ＣＲＴ」）などの、ディスプレイユニットをさらに含んでもよい。さらに、コンピューティングシステム３３００は、キーボード、プッシュボタン、スクロールホイール、画像キャプチャー及び／又は視覚コマンド認識のためのデジタルカメラ、タッチスクリーン、タッチパッド又はオーディオ入力装置（例えば、マイクロフォン）などの、１以上の入力装置３３１２を含んでもよい。コンピューティングシステム３３００はまた、非限定的な例として、スピーカ又は遠隔制御を含むことができる触覚フィードバックコンポーネント３３１４及び信号生成装置３３１８などの、信号出力コンポーネントを含むことができる。

【0085】

特に図示していないが、コンピューティングシステム３３００は、コンピューティングシステム３３００の位置を識別するためのＧＰＳ（Global Positioning System）コンポーネントをさらに含むことができる。

【0086】

コンピューティングシステム３３００はまた、コンピューティングシステム３３００が無線又は有線通信チャネルを介して他の装置と通信することを可能にするネットワークインターフェース装置３３２０を含むことができる。ネットワークインターフェース装置３３２０は、Ｗｉ－Ｆｉ接続、ブルートゥース（登録商標）接続、近周波数通信接続、電気通信接続、インターネット接続、有線イーサネット接続などを介して別のコンピューティングシステムと通信するためのインターフェースでもよい。コンピューティングシステム３３００はまた、コンピュータ可読媒体３３２２を受け入れるためのディスクドライブユニット３３１６を選択的に含むことができる。コンピュータ可読媒体３３２２は、コントローラ３３０２により実行可能な命令の一組を含むことができ、及び／又は、コンピュータ可読媒体３３２２は、追加メモリ記憶装置としてコンピュータシステム３３００により利用することができる。

【0087】

いくつかの実施形態では図３３に示すように、ハードドライブユニット３３１６は、ソフトウェアなどの、１以上の命令の一組３３２４が埋め込まれたコンピュータ可読媒体３３２２を含むことができる。さらに、命令３３２４は、本明細書で説明される方法、処理、又はロジックのうちの１以上を具体化することができる。いくつかの実施形態では、命令３３２４は、コンピューティングシステム３３００による実行中に、メインメモリ３３０４、スタティックメモリ３３０６、及び／又はコントローラ３３０２内に、完全に又は少なくとも部分的に存在することができる。メインメモリ３３０４及びコントローラ３３０２は、コンピュータ可読媒体を含むこともできる。

【0088】

代替的な実施形態では、特定用途向け集積回路、プログラマブルロジックアレイ及び他のハードウェア装置を含む専用ハードウェア実装を構築して、本明細書で説明する方法の１以上を実装することができる。様々な実施形態の装置及びシステムを含むことができるアプリケーションは、広く様々な電子及びコンピューティングシステムを含むことができる。本明細書に記載される１以上の実施形態は、モジュール間で、モジュールを介して、又は特定用途向け集積回路の一部として通信することができる２つ又は複数の特定の相互接続されたハードウェアモジュールまたは関連する制御信号およびデータ信号を有する装置を使用する機能を実装することができる。したがって、本コンピューティングシステム３３００は、ソフトウェア、ファームウェア、及びハードウェアの実装を含むことができる。「モジュール」又は「ユニット」という用語は、プロセッサーにより実行されるコードを記憶するメモリ（共有、専用、又はグループ）を含むことができる。

【0089】

本開示の様々な実施形態によれば、本明細書に記載の方法は、コンピューティングシステムにより実行可能なソフトウェアプログラムにより実施されてもよい。さらに、例示的で非限定的な実施形態では、実装は、分散処理、コンポーネント／オブジェクト分散処理、及び並列処理を含むことができる。

【0090】

本開示は、ネットワーク３３２６に接続された装置がネットワーク３３２６を介して、音声、ビデオ、又はデータを通信できるように、伝播信号に応答して命令３３２４を含むか、又は命令３３２４を受信して実行するコンピュータ可読媒体３３２２を想定している。さらに、命令３３２４は、ネットワークインターフェース装置３３２０を介してネットワーク３３２６を介して送信又は受信することができる。

【0091】

コンピュータ可読媒体３３２４は、単一の媒体として示されているが、「コンピュータ可読媒体」という用語は、集中型又は分散型データベースなどの単一又は複数の媒体、及び／又は、１以上の命令の一組を格納する関連キャッシュ及びサーバを含む。「コンピュータ可読媒体」という用語は、プロセッサーによる実行のための命令の一組を格納、コード化、または搬送することができ、又はコンピューティングシステムにこの明細書に開示されている１以上の方法又は動作を実行させる任意の有形の媒体も含むものとする。

【0092】

特定の非限定的で例示的な実施形態では、コンピュータ可読媒体３３２２は、フラッシュメモリなどの１以上の不揮発性読み取り専用メモリを収容するメモリカード又は他のパッケージなどのソリッドステートメモリを含むことができる。さらに、コンピュータ可読媒体３３２２は、ランダムアクセスメモリ又は他の揮発性再書き込み可能メモリでもよい。さらに、コンピュータ可読媒体３３２２は、伝送媒体を介して通信される情報をキャプチャーするために、ディスクやテープなどの光磁気媒体又は光学媒体、又は他の記憶装置を含むことができる。電子メール又はその他の内蔵情報アーカイブ又はアーカイブの一組へのデジタルファイルの添付は、有形の記憶媒体と同等の配布媒体と考えることができる。したがって、本開示は、データ又は命令を格納することができるコンピュータ可読媒体３３２２又は配信媒体及び他の同等物及び後継媒体のうちの任意の１以上を含むと考えられる。コンピュータ可読媒体は、一時的であっても非一時的であってもよい。

【0093】

本明細書は、ネットワーク企業及びより広範な資源及び公共機関により一般的に使用される特定の標準及びプロトコルを参照して特定の実施形態で実施することができるコンポーネント及び機能を説明するが、本発明はそのような標準及びプロトコルに限定されない。例えば、インターネット及び他のパケット交換ネットワーク伝送（例えば、ＴＣＰ／ＩＰ、ＵＤＰ／ＩＰ、ＨＴＭＬ、ＨＴＴＰ）の標準は、従来技術の例を表している。そのような標準は、本質的に同じ機能を有するより高速又はより効率的な均等物により定期的に置き換えられる。したがって、本明細書に開示されたものと同じ又は同様の機能を有する置換標準及びプロトコルは、それらの均等物と考えられる。

【0094】

本明細書で開示される方法及びシステムは、自動車の内部又は外部の挙動を追跡及び／又は監視することを指すが、本開示は自動車のみに限定されないことを理解されたい。より具体的には、本明細書の方法及び／又はシステムのいずれも、例えば、トラック、バス、飛行機、オートバイ、又は他のどのような車両にも適用することができる。

【0095】

さらに、本明細書に開示された方法及びシステムは、車両の運転手に関して説明することができるが、本明細書で開示される方法及びシステムは、自動運転、運転席に座っている人による部分運転などの状況で利用されてもよく、その位置にかかわらず車両内の同乗者に関して利用することができる。

【0096】

本開示は、図面を参照して実施形態を説明し、同様の番号は同一又は類似の要素を表す。本明細書を通じて、「一実施形態」、「実施形態」、又は同様の言葉は、実施形態に関連して説明される特定の特徴、構造、又は特性が本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書を通じて、「一実施形態では」、「ある実施形態では」、及び類似の言葉は、必ずとまではいえないものの、すべて同じ実施形態を指している。

【0097】

実施形態の記載された特徴、構造、又は特性は、１以上の実施形態において任意の適切な方法で組み合わせることができる。この説明では、本発明の実施形態を完全に理解することができるように、多数の特定の詳細が列挙されている。しかし、当業者は、実施形態が１つ若しくは複数の特定の詳細又は他の方法、構成要素、材料などを利用することなく実施することができると認識するだろう。他の例では、本発明の態様を不明瞭にすることを避けるために、周知の構造、材料、又は動作の詳細は示されていないか、又は記載されていない。

【0098】

上記の議論は、本発明の様々な例示的な実施形態を開示しているが、当業者は、本発明の真の範囲から逸脱することなく本発明のいくつかの利点を達成する様々な変更を行うことができることは明らかである。

【0099】

他の実施例
本明細書に開示されている技術の例を以下に示す。技術の実施形態は、以下に記載されている例のうち、任意の１以上、及び任意の組み合わせを含むことができる。

【0100】

実施例１では、運転条件を監視する方法が提供され、その方法は、１以上のセンサーからビデオフレームを含むビデオデータを受信し、ビデオフレーム内の人の顔を識別し、複数の人の顔の器官を識別し、ビデオフレーム内の器官と向きの動きを追跡し、ビデオフレーム内の人の顔に顔画像をオーバーレイし、ビデオフレーム内の人の顔をオーバーレイする顔画像に器官と向きに関する追跡された動きを転送し、それぞれの特徴が少なくも一つの運転状況と関連付けられているビデオフレームから１以上の特徴を抽出し、抽出された特徴にしたがってそれらの関連付けと集計とにより中間特徴を生成し、抽出された特徴と中間特徴とを利用することにより少なくとも１つの運転状況に対してセマンティック意味を生成すること、を含むことができる。

【0101】

実施例２は、実施例１の主題を含み、顔画像は、一組の画像器官を含み、追跡された動きを転送することは、一組の顔画像の画像器官の動きに対して複数の人の顔の器官についての追跡された動作を転送することを含んでもよい。

【0102】

実施例３は、実施例１及び／又は実施例２の主題を含み、本方法は、少なくとも２つの抽出された特徴について２つの独立した回帰を実行し、２つの独立した回帰の結果について結合回帰を実行することにより、セマンティック意味を生成するための少なくとも２つの抽出された特徴を相関させることをさらに含むことができる。

【0103】

実施例４では、一組のビデオフレーム内の人の固有性をマスキングする方法が提供される。本方法は、１以上のセンサーから一組のビデオフレームを含むビデオデータを受信し、一組のビデオフレーム内の人の顔を識別し、複数の人の顔の器官及び顔の向きを識別し、一組のビデオフレーム内の器官と向きの動きを追跡し、ビデオフレーム内の人の顔に顔画像をオーバーレイし、ビデオフレーム内の人の顔をオーバーレイする顔画像に対して人の顔の器官及び向きについての追跡された動きを転送すること、を含んでもよい。

【0104】

実施例５は、実施例４の主題を含み、顔画像をオーバーレイすることは、複数の顔画像から１つの顔画像を選択することを含んでもよく、複数の顔画像は、一組の画像器官を含んでもよい。

【0105】

実施例６は、実施例４及び／又は実施例５の主題を含み、追跡された動きを転送することは、選択された顔画像に関する一組の画像器官の動きに対して複数の人の顔の器官に関する追跡された動きを転送することを含んでもよい。

【0106】

実施例７は、実施例４、実施例５及び／又は実施例６の主題を含み、本方法は、ビデオフレーム内で人の顔を識別することができないときに、識別された顔を使用することによりビデオフレームに対して人の顔の補間を生成することをさらに含んでもよい。

【0107】

実施例８は、実施例４、実施例５、実施例６及び／又は実施例７の主題を含み、本方法は、識別された器官及び方向を使用することにより顔の動き状態を生成し、顔に顔画像を重ねてから顔の動きの状態を保存することを含んでもよい。

【0108】

実施例９は、実施例４、実施例５、実施例６、実施例７及び／又は実施例８の主題を含み、本方法は、顔画像に対する信頼水準を決定することをさらに含んでもよい。

【0109】

実施例１０は、実施例４、実施例５、実施例６、実施例７、実施例８及び／又は実施例９の主題を含み、重ねられた顔画像は、３次元（３Ｄ）画像でもよい。

【0110】

実施例１１では、運転条件を監視する方法が提供される。本方法は、ビデオフレームが車両の内部又は外部を表す１以上のセンサーからビデオフレームを含むビデオデータを受信し、各特徴が少なくとも１つの運転条件に関連付けられているビデオデータから１以上の特徴を検出及び認識し、ビデオデータから１以上の特徴を抽出し、抽出された特徴の中でそれらを関連付け集計することにより中間特徴を生成し、中間特徴及び１以上の抽出された特徴を利用することにより少なくとも一つの運転状況に対してセマンティック意味を生成すること、を含んでもよい。

【0111】

実施例１２は、実施例１１の主題を含み、本方法は、安全データを受信し、運転条件のための意味を生成するために中間特徴と安全データを統合すること、をさらに含んでもよい。

【0112】

実施例１３は、実施例１１及び／又は実施例１２の主題を含み、１以上の特徴を検出及び認識することは、履歴にあるビデオデータを利用することにより検出器に学習させ、ビデオデータから１以上の特徴を抽出するために学習させた検出器を使用すること、を含んでもよい。

【0113】

実施例１４は、実施例１１、実施例１２及び／又は実施例１３の主題を含み、検出器に学習させることは、機械学習方法を利用して履歴にあるビデオデータに回帰を実行すること、を含んでもよい。

【0114】

実施例１５は、実施例１１、実施例１２、実施例１３及び／又は実施例１４の主題を含み、１以上の特徴を検出及び認識することは、車両の運転手の固有性を一般化する受信されたビデオデータを使用するカスタマイズされた検出器に学習させること、ビデオデータから１以上の特徴を抽出するためのカスタマイズされた検出器を使用すること、を含んでもよい。

【0115】

実施例１６は、実施例１１、実施例１２、実施例１３、実施例１４及び／又は実施例１５の主題を含み、１以上の特徴を検出及び認識することは、履歴にあるビデオデータにおける１以上の識別可能な点の間にある平均距離によりモデルを生成すること、ビデオデータから１以上の特徴を抽出するモデルを使用すること、を含んでもよい。

【0116】

実施例１７は、実施例１１、実施例１２、実施例１３、実施例１４、実施例１５及び／又は実施例１６の主題を含み、本方法は、受信されたビデオデータから抽出された１以上の特徴を利用することによりモデルを改良すること、をさらに含んでもよい。

【0117】

実施例１８は、実施例１１、実施例１２、実施例１３、実施例１４、実施例１５、実施例１６及び／又は実施例１７の主題を含み、本方法は、セマンティック意味を生成するために少なくとも２つの抽出された特徴を相関させること、をさらに含んでもよい。

【0118】

実施例１９は、実施例１１、実施例１２、実施例１３、実施例１４、実施例１５、実施例１６、実施例１７及び／又は実施例１８の主題を含み、少なくとも２つの抽出された特徴を相関させることは、少なくとも２つの抽出された特徴について少なくとも２つの独立した回帰を実行することを含み、セマンティック意味は、少なくとも２つの独立した回帰の結果に対して結合回帰を実行することにより生成されること、を含んでもよい。

【0119】

実施例２０は、実施例１１、実施例１２、実施例１３、実施例１４、実施例１５、実施例１６、実施例１７、実施例１８及び／又は実施例１９の主題を含み、本方法は、抽出された１以上の特徴をユーザーインターフェースに表示すること、をさらに含んでもよい。

【図1】