特開2023-110022 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テレビジョン・インサイツ、インコーポレイテッドの特許一覧

特開2023-110022視聴者関与度を評価するためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3A
3B
4A
4B
5
6
7
8A
8B
8C
8D
8E
8F
8G
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023110022

(43)【公開日】2023-08-08

(54)【発明の名称】視聴者関与度を評価するためのシステムおよび方法

(51)【国際特許分類】

H04N 21/442 20110101AFI20230801BHJP

H04N 17/00 20060101ALI20230801BHJP

H04L 65/61 20220101ALI20230801BHJP

【ＦＩ】

H04N21/442

H04N17/00 M

H04L65/61

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2023090934

(22)【出願日】2023-06-01

(62)【分割の表示】P 2022184597の分割

【原出願日】2022-11-18

(31)【優先権主張番号】17/643,565

(32)【優先日】2021-12-09

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＩＮＳＴＡＧＲＡＭ

(71)【出願人】

【識別番号】518239651

【氏名又は名称】テレビジョン・インサイツ、インコーポレイテッド

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】インダービルシドゥ

(72)【発明者】

【氏名】デヴォンエム．ブレイ

(72)【発明者】

【氏名】アール．テイラーロック

(72)【発明者】

【氏名】サミールアゲラ

(72)【発明者】

【氏名】エリックレベンサルアーセン

(57)【要約】（修正有）

【課題】回答者家庭におけるディスプレイに再生されている映像に対する視聴者関与度を定量化するための方法およびシステムを提供する。
【解決手段】ストリーミングされたコンテンツを再生している家庭内のストリーミングサービスの識別をプロセッサで判断する方法であって、プロセッサのパケット検査モジュールによって実行されたデータパケットリダイレクションを含み、パケット検査モジュールが、自体を家庭内のインターネットゲートウェイとして偽装し、データパケットリダイレクションが、パケットをキャプチャすることと、パケット内のコンテンツを解析することとを含み、解析することは、ストリーミングセッションが状態を遷移する時間を含むアウトバンドパケット情報を記録することを含む。
【選択図】図１７

【特許請求の範囲】

【請求項1】

ディスプレイに表示されている映像に対する視聴者関与度を定量化する方法であって、前記方法は、
ストリーミングされたコンテンツを再生している家庭内のストリーミングサービスの識別をプロセッサで判断する段階であって、前記プロセッサのパケット検査モジュールによって実行されたデータパケットリダイレクションを含み、前記パケット検査モジュールが、自体を前記家庭内のインターネットゲートウェイとして偽装し、前記データパケットリダイレクションが、パケットをキャプチャすることと、前記パケット内のコンテンツを解析することとを含み、前記解析することが、ストリーミングセッションが状態を遷移する時間を含むアウトバンドパケット情報を記録することを含む、
方法。

【請求項2】

回答者家庭における前記ディスプレイに前記映像が表示されている間に、前記ディスプレイの前方の視聴領域の画像を少なくとも１つのカメラで取得することであって、前記回答者家庭は、前記回答者家庭における１人または複数の回答者が対話することを選択した測定装置の位置である、取得することと、
前記ディスプレイに結合されたスピーカによって発せられる前記映像のサウンドトラックを表す音声データをマイクロフォンで取得することと、
前記音声データに少なくとも部分的に基づく前記映像の識別情報を、前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合されたプロセッサで判断することと、
請求項１に記載の方法。

【請求項3】

前記判断することが、前記ストリーミングサービスによって提供されたストリーミングアプリケーションを前記プロセッサで判断することをさらに含む、請求項１に記載の方法。

【請求項4】

ストリーミングセッションが開始、終了、一時停止、および再開する時間を前記プロセッサで判断することをさらに含む、請求項１に記載の方法。

【請求項5】

前記アウトバンドパケット情報を記録した後、前記パケットをその元の宛先に転送する、請求項１に記載の方法。

【請求項6】

応答パケットを受信するインターネットゲートウェイをさらに備え、前記応答パケットは前記インターネットゲートウェイを介してルーティングされず、むしろ適切なストリーミングデバイスに直接ルーティングされている、請求項１から５のいずれか一項に記載の方法。

【請求項7】

ディスプレイに表示される映像に対する視聴者関与度を定量化するためのシステムであって、前記システムは、
プロセッサのパケット検査モジュールによって実行されるデータパケットリダイレクションを含む、ストリーミングされたコンテンツを再生している家庭内のストリーミングサービスの識別を判断するプロセッサであって、前記パケット検査モジュールが、自体を前記家庭内のインターネットゲートウェイとして偽装し、前記データパケットリダイレクションが、パケットをキャプチャすることと、前記パケット内のコンテンツを解析することとを含み、前記解析することが、ストリーミングセッションが状態を遷移する時間を含むアウトバンドパケット情報を記録することを含むプロセッサを備える、
システム。

【請求項8】

前記プロセッサは、回答者家庭における前記ディスプレイに前記映像が表示されている間に、前記ディスプレイの前方の視聴領域の画像を少なくとも１つのカメラで取得し、前記回答者家庭は、前記回答者家庭における１人または複数の回答者が対話することを選択した測定装置の位置であり、
前記システムは、前記ディスプレイに結合されたスピーカによって発せられる前記映像のサウンドトラックを表す音声データを取得するマイクロフォンをさらに含み、
前記プロセッサは、前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合され、前記音声データに少なくとも部分的に基づいて、前記映像の識別情報を判断する、
請求項７に記載のシステム。

【請求項9】

前記ストリーミングサービスによって提供されるストリーミングアプリケーションを前記プロセッサで判断する、請求項７に記載のシステム。

【請求項10】

ストリーミングセッションが開始、終了、一時停止、および再開する時間を前記プロセッサで判断する、請求項７に記載のシステム。

【請求項11】

前記アウトバンドパケット情報が記録された後、前記パケットがその元の宛先に転送される、請求項７に記載のシステム。

【請求項12】

前記インターネットゲートウェイが応答パケットを受信し、前記応答パケットは前記インターネットゲートウェイを介してルーティングされず、むしろ適切なストリーミングデバイスに直接ルーティングされている、請求項７から１１のいずれか一項に記載のシステム。

【発明の詳細な説明】

【背景技術】

【0001】

［関連出願の相互参照］
本出願は、米国特許出願第１５／７０２，２２９号の一部継続出願であり、２０１７年１月６日に出願された、「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＡＳＳＥＳＳＩＮＧＶＩＥＷＥＲＥＮＧＡＧＥＭＥＮＴ」と題するＰＣＴ出願番号ＰＣＴ／ＵＳ２０１７／０１２５３１のバイパス継続であって、参照によりその全体を本明細書に組み込まれ、２０１６年１月６日に出願された「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＡＳＳＥＳＳＩＮＧＶＩＥＷＥＲＥＮＧＡＧＥＭＥＮＴ」と題する米国出願第６２／２７５，６９９号の優先権を主張し、その全体も参照により本明細書に組み込まれるものとする。

【0002】

従来のテレビ視聴者測定の方法は、ピープルメータおよびダイアリなどを使用して視聴者からデータを収集することを含む。これらの方法は、テレビが配置された部屋にいる人間（潜在的な視聴メンバ）を認識しようとするのが一般的である。また、この方法は、テレビで再生されている一連の画像（例えば、テレビ番組またはコマーシャル広告）をキャプチャすることも含むことができる。そして、各画像について、特定の画像が表示された時刻に部屋にいる人数を推定することができる。

【0003】

これらの方法にはいくつかの欠点がある。まず、これらの方法で収集されたデータは、通常、テレビが配置されている部屋の中にいる人数しか含まれていない。このデータは通常、視聴者が実際にテレビを見ている頻度を示すものではない（測定はテレビが点灯しているときに行われる）。第２に、収集されたデータは、人が特定のチャネルにどれくらいの頻度でチューニングしているかを示し得る。しかしながら、番組または広告に対する反応を測定するものではないので、番組または広告の効果を示すものではない。第３に、テレビの視聴率は、家庭またはコミュニティ内の特定人口統計学的集団に対して与えられているわけではない。

【図面の簡単な説明】

【0004】

当業者は、図面は主に説明のためのものであり、本明細書に記載される発明の主題の範囲を限定することを意図されるものではないことを理解するであろう。複数の図面は必ずしも原寸に比例したものではなく、幾つかの例において、本明細書に記載の発明の主題の様々な態様は、複数の異なる特徴の理解を促すべく、複数の図面において誇張または拡大して示され得る。図面において、同様の参照符号は、概して、同様の特徴（例えば、機能的に類似したおよび／または構造的に類似した要素）を指す。

【0005】

【図1】テレビ視聴者の視聴者関与度を評価するためのシステムの概略図を示す図である。

【0006】

【図2A】図１に示すシステムを使用してユーザ関与度を定量化する方法を示す図である。

【0007】

【図2B】ユーザ関与度を定量化するためのコンピュータビジョンモデルを訓練する方法を示す図である。

【0008】

【図3A】顔並びに眼球のトラッキング、顔認識、およびセンチメンタル分析を含む視聴者関与度の方法を示す図である。

【0009】

【図3B】視認性指数および注目度指数の概念を示す図である。

【0010】

【図4A】視認性指数の推定を含む視聴者関与度を評価するためのプロセスを示す図である。

【0011】

【図4B】注目度指数の推定を含む視聴者関与度を評価するためのプロセスを示す図である。

【0012】

【図5】視聴領域内の各人物の顔の向きを判断することを含む、視聴者関与度を評価するためのプロセスを示す図である。

【0013】

【図6】骨格、顔、識別情報、感情、関与度を検出するプロセスを示す図である。

【0014】

【図7】視聴者関与度評価の例示的な方法におけるデータ取得アーキテクチャの概略図を示す図である。

【0015】

【図8A】図７に示すアーキテクチャを使用して取得したコマーシャルメッセージ（ＣＭ）曲線を示す図である。

【図8B】図７に示すアーキテクチャを使用して取得したコマーシャルメッセージ（ＣＭ）曲線を示す図である。

【図8C】図７に示すアーキテクチャを使用して取得したコマーシャルメッセージ（ＣＭ）曲線を示す図である。

【図8D】図７に示すアーキテクチャを使用して取得したコマーシャルメッセージ（ＣＭ）曲線を示す図である。

【図8E】図７に示すアーキテクチャを使用して取得したコマーシャルメッセージ（ＣＭ）曲線を示す図である。

【図8F】図７に示すアーキテクチャを使用して取得したコマーシャルメッセージ（ＣＭ）曲線を示す図である。

【図8G】図７に示すアーキテクチャを使用して取得したコマーシャルメッセージ（ＣＭ）曲線を示す図である。

【0016】

【図9】サンプリングしたテレビ局のうちそれぞれのＣＭ曲線の比率を示す図である。

【0017】

【図10】決定木による分類モデルを示す図であり、決定木の判定結果は表５に示す。

【0018】

【図11】ＣＭの長さに対する視認率を示す図である。

【0019】

【図12】番組開始からの経過時間と視認率との間の相関を示す図である。

【0020】

【図13】図１～図１２に示した技術を使用して取得した視聴者関与度データの通信を示す図である。

【0021】

【図14】図１～図１２に示した技術を使用して取得した視聴者関与度データの普及および使用を示す図である。

【0022】

【図15】図１～図１２に示した技術を使用して取得した視聴者関与度データのビッグデータ分析および可視化を示す図である。

【0023】

【図16】図１～図１２に示した技術を使用して取得した視聴者関与度データを補完するための追加のデータを取得するためのモデルを示す図である。

【図17】パケット検査モジュールを含むシステム図である。

【図18】パケット検査モジュールの機能をさらに示すシステム図である。

【発明を実施するための形態】

【0024】

本明細書に開示されるシステムおよび方法は、映像（例えば、テレビショー、映画、ウェブショー、広告、または他のコンテンツ）を再生しているディスプレイ（例えば、テレビ、コンピュータ、またはタブレット）前方の視聴領域の画像データを取得する。例示的なシステムは、画像データから、視聴領域に何人いるのか、そのうちどの人が実際に映像を見ているのかを判断する。また、このシステムは、映像のサウンドトラックをマイクロフォンでサンプリングし、サウンドトラックのサンプルを使用して映像を識別する。システムは、映像に関する情報、視聴領域内の人数、および映像を視聴している人数をローカルメモリに格納（および／または存続）し、インターネットまたは他のネットワーク接続を介してリモートサーバに情報を送信する。

【0025】

本発明の実施形態は、テレビ視聴者の視聴者関与度を評価する装置、システム、および方法を含む。１つの例において、ディスプレイに再生されている映像に対する視聴者関与度を定量化するためのシステムは、ディスプレイ前方の視聴領域を撮像するように配置され、視聴領域の画像データを取得する少なくとも１つのカメラを含む。マイクロフォンは、ディスプレイに近接して配置されて、ディスプレイに結合されたスピーカによって発せられる音声データを取得する。また、システムは、プロセッサ実行可能命令を格納するために、カメラおよびマイクロフォンに動作可能に結合されたメモリと、カメラ、マイクロフォン、およびメモリに動作可能に結合されたプロセッサと、をさらに含む。プロセッサ実行可能命令が実行されると、プロセッサは、カメラから画像データを受信し、マイクロフォンから音声データを受信し、音声データの少なくとも一部に基づいて、ディスプレイに表示される映像の識別情報を判断する。また、プロセッサは、画像データに少なくとも部分的に基づいて、視聴領域に存在する第１の人数と、視聴領域で映像に関与している第２の人数とを推定する。プロセッサは、さらに、第１の人数と第２の人数とに少なくとも部分的に基づいて、映像の視聴者関与度を定量化する。

【0026】

別の例において、ディスプレイに表示される映像に対する視聴者関与度を定量化する方法は、ディスプレイに映像が表示されている間に、ディスプレイ前方の視聴領域の画像を少なくとも１つのカメラで取得する段階を含む。また、方法は、ディスプレイに結合されたスピーカによって発せられる映像のサウンドトラックを表す音声データをマイクロフォンで取得する段階を含む。方法は、カメラから画像データを受信し、マイクロフォンから音声データを受信し、音声データの少なくとも一部に基づいて、ディスプレイに表示される映像の識別情報をカメラおよびマイクロフォンに動作可能に結合されたプロセッサで判断する段階と、画像データに少なくとも部分的に基づいて、映像がディスプレイに表示されている間に視聴領域に存在する第１の人数と、視聴領域で映像に関与している第２の人数とをプロセッサで推定する段階とをさらに含む。また、方法は、映像の識別情報、第１の人数および第２の人数をプロセッサでリモートサーバに送信する段階を含む。

【0027】

さらなる別の例において、ディスプレイに再生されている映像に対する視聴者関与度を評価するためのシステムは開示される。ディスプレイは、映像のサウンドトラックを発するスピーカに結合される。システムは、ディスプレイに映像が再生されている間に、ディスプレイ前方の視聴領域の可視画像を第１のサンプル速度で取得する可視カメラを含む。赤外線カメラは、ディスプレイに映像が再生されている間に、ディスプレイ前方の視聴領域の赤外線画像を第１のサンプル速度で取得するように、システムに含まれている。マイクロフォンは、ディスプレイに映像が再生されている間に、スピーカによって発せられるサウンドトラックのサンプルを、第１のサンプル速度より低い第２のサンプル速度で取得するように、ディスプレイに近接して配置される。また、システムは、可視カメラ、赤外線カメラおよびマイクロフォンに動作可能に結合された、（ｉ）サウンドトラックのサンプルに基づいて映像を識別し、（ｉｉ）可視画像と赤外線画像とに基づいて、ディスプレイに映像が再生されている間に視聴領域内の人数と映像に関与している人数とを推定し、（ｉｉｉ）サウンドトラック、可視画像および赤外線画像のサンプルを上書き、消去および／または破棄するプロセッサを含む。また、システムは、プロセッサに動作可能に結合された、映像の識別情報、ディスプレイに映像が再生されている間に視聴領域内の人数、および映像に関与している人数の表現を格納するメモリを含む。システムは、プロセッサに動作可能に結合された、表現をサーバに送信するネットワークインタフェースをさらに含む。

【0028】

さらなる別の例において、複数の映像における一意の映像に対する視聴者関与度を定量化する方法は、複数の家庭の中のそれぞれの家庭で、ディスプレイ前方の視聴領域の画像データを取得する段階と、ディスプレイが複数の映像における映像を表示しているかどうかを判断する段階とを含む。また、方法は、複数の映像の中のそれぞれの一意の映像に対して、画像データと複数の家庭の中のそれぞれの家庭に関する人口統計学的情報とに基づく（ｉ）視聴率および（ｉｉ）観視率を推定する段階を含む。視聴率は、映像を表示するディスプレイの総数に対する視聴領域の総人数の比率を表し、観視率は、複数の家庭の総人数に対する映像を表示するディスプレイを有する家庭の総人数の比率を表している。また、方法は複数の映像の中のそれぞれの一意の映像に対して、視聴率および観視率に基づいて、視認性指数を判断する段階を含む。

【0029】

前述の概念および以下でより詳細に議論される追加の概念の全ての組み合わせ（ただし、そのような概念は相互に矛盾しない）は、本明細書に開示される発明の主題の一部として企図されることを理解されるべきである。とりわけ、本開示の最後に出てくる特許請求されている主題の全ての組み合わせが、本明細書に記載の発明の主題の一部であると考えられる。本明細書で明示的に用いられ、また、参照により任意の開示に組み込まれ得る用語は、本明細書に開示される複数の特定のコンセプトと最も一致する意味が与えられるべきであることも理解されたい。

【0030】

映像に対する視聴者関与度を測定する従来のシステムが、映像自体に埋め込まれたデジタル透かしに基づいて映像を識別するのとは異なり、本発明のシステムの例は、映像のサウンドトラックに基づいて映像を識別する。その結果、本発明のシステムは、視聴者宅のディスプレイ、セットトップボックス、またはケーブル接続に接続される必要がない。これにより、設置および撤去がより容易になる（したがって、採用されやすい）。また、これにより、誤動作、または、ディスプレイの電源がオフにする間にセットトップボックスをオンのままにすることによる「誤検出」の印象を記録する可能性が小さくなる。

【0031】

また、本発明のシステムは、ローカルに、すなわち、視聴者宅内で画像データを処理して、視聴領域内の人数および映像に関与している人数を判断する。また、音声データをローカルに処理することで、視聴領域に人がいるときに表示されている映像を識別することも可能である。このデータをローカルに、すなわち、視聴者宅内にあるローカルデバイスのメモリに、またはそれに結合されたメモリに格納する。処理された画像および音声データは、生の画像および音声データに比べてはるかに少ないメモリしか消費しないため、このローカルメモリには、より長い期間にわたる情報を格納することができる。換言すれば、本発明の装置は、生データの代わりに、処理されたデータを格納するため、より効率的にメモリを使用する。

【0032】

ローカルデバイスは、視聴者関与度を評価するために視聴領域から取得された視覚および深度情報の両方を含み得る生の画像データを処理する。ローカルデバイスは、人工知能（ＡＩ）技術および機械学習技法を使用して、視聴者の身振り、動きおよび顔向きを分析することができる。また、ローカルデバイスは、映像視聴者の個々の顔を認識し、画像データから各視聴者の感情を判断することができる。この処理において、個人の画像が個人宅の外部に送信されない。宅内のローカルデバイスで認識を実行することができる。家庭内の各個人は、その家庭のオンボーディングプロセスで一意の識別子を受信することができる。認識処理で一致した場合、この識別子を一致に割り当て、そして、この識別子をリモートサーバに送信することができる。さらに、処理はストリーミング映像または音声データ（画像を含む）上で実行される。換言すれば、映像または音声データはローカルメモリに保持されない。

【0033】

ローカルデバイスは、生音声データを音声データベースの中のサンプルと照合または比較して、視聴中の特定の映像（例えば、テレビチャネル、番組、または広告）を識別することによって、生音声データを処理する。代替的または追加的に、ローカルデバイスは、音声データに基づくクエリを、音声が属するコンテンツの識別情報を識別して返す第三者アプリケーションプログラミングインタフェース（ＡＰＩ）に提出返することができる。いくつかの場合において、データベースまたはＡＰＩは複数の可能な一致を返すことがあり、リモートサーバは、テレビのスケジュールに関する情報、後続の音声サンプル、またはセットトップボックス、ケーブル／インターネット接続、若しくはコンテンツプロバイダ自体を含むがこれらに限定されない他のソースから収集したデータを使用して最適な一致を選択することができる。

【0034】

いくつかの実装例においては、ローカルデバイスは、後で検索するために生の画像または音声データを格納しない。代わりに、ローカルデバイスは、生の画像および音声データを格納する１つまたは複数のバッファに生の画像および音声データを書き込んで処理し、その後、生の画像および音声データが処理された後にバッファを上書きまたは消去する。換言すれば、ローカルデバイスは、生の画像および音声データを処理中に単に一時的に保持する。本明細書において使用されるように、ローカルデバイスにおける生の画像および音声データの「保持」とは、これらのデータを短い時間（例えば、１００ミリ秒未満、８０ミリ秒未満、６０ミリ秒未満、５０ミリ秒未満、または４０ミリ秒未満、その間の任意の値および部分範囲を含む）、一時的に格納することを意味する。生の画像および音声データを上書きまたは消去することで、ローカルデバイスが必要とするメモリ量を削減できるなど、様々な利点は提供される。また、視聴領域またはマイクロフォンの届く範囲にいる子供を含む個人を識別することに使用できる画像または音声データを排除することで、個人情報保護法への準拠も容易になり得る。

【0035】

画像および音声データをローカルに処理および格納することで、ローカルデバイスからリモートサーバに視聴習慣に関する情報を転送するのに必要な帯域幅を削減できるという別の技術的な利点も提供される。生の画像および音声データに比べて、処理された画像および音声データはメモリ消費量が少ないため、送信のためにより狭い帯域幅が要求される。また、処理された画像および音声データは、生の画像および音声データよりもゆっくりと所与のメモリを埋めるため、リモートサーバへの送信頻度を少なくすることができる。ローカルデバイスは、深夜または早朝など、ネットワーク帯域幅の使用量が比較的少ない時間帯にバースト送信をスケジュールすることで、この柔軟性を利用することができる。また、視聴領域またはマイクロフォンの届く範囲にいる子供を含む個人を識別する情報が必ずしも含まれないように処理された画像および音声データを送信することで、個人情報保護法への準拠を保証または容易にすることができる。

【0036】

リモートサーバは、異なる家庭のローカルデバイスから処理された画像および音声データを収集する。このデータを処理し、コミュニティ内の異なる家庭から収集された視聴者関与度情報を統計的に分析することで、コミュニティ全体にわたる視聴者関与度を評価する。例えば、サーバは、各家庭から収集した粒度の高いデータから、検出された番組の全長に対する視聴者関与度の割合を定量化することができる。一実施形態において、音声フィンガープリントはローカルデバイス上で作成されるが、その後、ローカルデバイスに常駐していないデータベースと照合される。音声フィンガープリントは、６秒間の音声セグメントからローカルデバイス上で生成される。そして、このフィンガープリントは、リモートデータベースに送信され、照合される。リモートデータベースは、１または１００の一致を返すことができる。（例えば、シンプソンズのエピソードは、１つまたは複数のリニアＴＶチャネル、ｈｕｌｕ．ｃｏｍなどの複数のストリーミングサービスで再生されることができ、またはパネリストがＤＶＲデバイスから再生することができる）。返された一致は全てローカルデバイスに保存される。一実施形態において、８秒ごとに新しい音声フィンガープリントを作成し、一致のためにリモートサーバに送信して、一致を受信して格納する処理を繰り返す。１つの実施形態において、約１時間ごとに、格納された一致がリモートデータ処理インフラにアップロードされる。ここで、ローカルデバイスによってアップロードされた一致の時系列に対して、予測アルゴリズムを適用している。このアルゴリズムは、以下を含む。
１．フィンガープリントの一致については、前後の一致を使用して最も可能性の高い一致を予測する（音声フィンガープリントは複数のエピソード（同じテーマ音楽）、複数のチャネル、複数のストリーミングサービスに一致する可能性があることが上記から思い出される）。目標は、どのチャネルまたはサービスがどのコンテンツを視聴者に提示したかを可能な限り厳密に判断することである。
２．データは秒単位で報告されることが可能であるが、音声フィンガープリントは８秒ごとに採取され、各フィンガープリントは６秒の長さの期間にわたっているので、このアルゴリズムもインターリーブ秒の最も可能性の高い一致を判断し、それらの秒数にわたって発信する。

【0037】

統計解析では、さらに、映像を視聴している人および／または家庭の人の人口統計学的情報（例えば、年齢、性別、家計収入、民族性など）を考慮することができる。この全ての情報に基づいて、サーバは、視認性指数および注目度指数（両方とも以下で定義される）など、様々な指数を計算し、視聴者関与度を定量化することができる。これらの視聴者関与度指数は、視聴者の身振り、動き、視聴者の顔向きについての情報、および映像情報を含むローカルデバイスにより提供された任意のおよび全ての情報に基づくことができる。これらの量的指標は、とりわけ、（ｉ）誰がディスプレイを実際に見ているか、（ｉｉ）視聴者メンバがどれくらいの頻度でディスプレイを見るか、ならびに（ｉｉｉ）ディスプレイ上の番組および広告に対する視聴者の反応を示すことができる。

【0038】

その後、量的指標は、リモートサーバによって、テレビ広告代理およびテレビネットワークを含むがこれらに限定されない第三者が、指数、およびいくつかの場合において他のデータにアクセスすることができる中央ストレージ（例えば、クラウドベースのデータベース）に転送されることができる。代替的に、センサによって収集された生データは、本明細書に記載した方法で分析され、関心のある第三者にとって利用可能になる、クラウド上の中央ストレージに転送され得る。第三者は、システムを介して任意選択的に生データにアクセスすることができる。この例における生データは、（映像および音声ストリーム自体の代わりに）映像および音声ストリームの処理後に収集されたデータを含む。一般的に言えば、生データは、サブ秒基準（例えば、半秒以下ごと）で、視聴者の一意の識別子、視聴者の注意力、および視聴者によって視聴されている番組を含むことができる。この生データを使用して、より多くの量的指標（さらなる詳細は以下で参照）がリモートサーバで計算され得る。

【0039】

この取得および分析されたデータにより、コンテンツプロバイダまたは広告代理などの収集エンティティは、広告主にとって価値のあり得る個人のデモグラフィックに関する今までにない測定値など、映像の影響を正確に評価することができる。例えば、広告代理は、このデータを使用して、ターゲットとする視聴者に最適なコマーシャルスロットを判断することができる。人口統計学的情報でデータは視聴者のタイプに一致され得、効果的に購買行為につなげることができるため、番組への投資対効果（ＲＯＩ）を高めることができる。また、テレビネットワークも、それらのテレビ番組のより正確な評価、視聴者のタイプ、反応、広告スロットの予測値などを把握できるため、データから利益を受けることができる。これにより、特定のターゲットである人口統計学的層にとって最も価値の高い広告スロットを判断することに加えて、視聴者のタイプにより良く合わせた番組の改善、および人気のないショーの排除をさらに可能にすることができる。

【0040】

また、取得および分析されたデータは、様々なビジネスモデルを可能にする。例えば、収集エンティティは、国および／または地域の人口動態を表す選択されたユーザ家庭に設置された運動感知デバイスから収集したパフォーマンスベースのテレビ視聴率データおよび分析用生データを、テレビネットワーク、広告代理、およびその他の関心のある第三者に提供し、広告代理からデータを取得する広告主にも間接的に提供することができる。

【0041】

視聴者関与度を評価のシステム

【0042】

図１は、家庭、スポーツバー、またはディスプレイがある他の空間における、視聴者関与度を評価するためのシステム１００の概略図を示す図である。システム１００は、視聴者関与度データを収集するために各家庭に配置されたローカルデバイス１０５と、データを格納するメモリとデータを分析するプロセッサ（リモートプロセッサとも呼ばれる）とを含むクラウドストレージおよびコンピューティングデバイスなどのリモートサーバ１７０を含む。ローカルデバイス１０５は、インターネット接続などのネットワーク接続１７２を介して、リモートサーバ１７０に通信可能に結合される。例えば、ローカルデバイス１０５は、家庭ローカルエリアネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）に接続するための、ＷｉＦｉアンテナまたはイーサネット（登録商標）ポートなどのネットワークインタフェース１６５を含み得る。このＬＡＮはさらに、インターネットサービスプロバイダ（ＩＳＰ）が提供するケーブルまたは光ファイバ接続などを介して、ワイドエリアネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）に接続される。

【0043】

図１におけるローカルデバイス１０５は、テレビ（ＴＶ）、コンピュータスクリーン、タブレットまたは他のデバイスなどのディスプレイ１１前方の視聴領域１０１を赤外（ＩＲ：ｉｎｆｒａｒｅｄ）光で照明するために、ＩＲ放射器１１０を含む。このＩＲ光は、視聴領域１０１内の物体（人間の視聴者を含む）に対して散乱または反射させる照明パターンを生成するように構造化または変調され得る。また、ローカルデバイス１０５は、これらの物体によって反射または散乱されたＩＲ光を検出するＩＲセンサ１２０を含む。ＩＲ放射器１１０およびＩＲセンサ１２０に結合されたプロセッサ１５０（ローカルプロセッサ１５０とも呼ばれる）は、照明パターンおよび検出されたＩＲ光に関する情報を使用して、視聴領域１０１の１つまたは複数のＩＲ深度画像またはＩＲ深度マップを生成する。より具体的には、プロセッサ１５０は、反射ビームから導出された情報を、視聴者とセンサ１２０との間の距離を測定する深度情報に変換する。プロセッサ１５０は、これらのＩＲ深度画像を使用して、視聴領域に何人いるか、それらの人のうち誰がディスプレイを見ているかを判断する。また、プロセッサ１５０は、ディスプレイを見ている人の識別情報に関するＩＲ深度画像から情報を、場合によって、それらの顔若しくは姿勢を認識すること、またはそれらの人口統計学的情報（例えば、年齢、性別など）を判断することによって導出し得る。

【0044】

ローカルデバイス１０５は、視聴領域１０１のカラー画像をキャプチャするＲＧＢセンサ１３０（可視カメラとも呼ばれる）をさらに含む。また、プロセッサ１５０はＲＧＢセンサに結合され、カラー画像を単独で、またはＩＲ深度画像と組み合わせて使用して、視聴領域内の人数、ディスプレイに関与している人数、および視聴領域内の人に関する情報を推定し得る。また、カラー画像は顔認識に使用され得る。いくつかの場合において、プロセッサ１５０はカラー画像およびＩＲ深度画像の両方を使用して、視聴領域内の人数および映像に関与している人数の推定の忠実度を向上させる。

【0045】

また、ローカルデバイス１０５は、ディスプレイ１１に結合されたスピーカ１３によって発せられる音を検出するように位置された１つまたは複数のマイク１４０を含む。動作中、スピーカ１３はディスプレイ１１に示された映像のサウンドトラックを再生する。また、マイクロフォン１４０は、スピーカ１３によって再生されたサウンドトラックの音声サンプルをキャプチャする。マイクロフォン１４０に結合されたプロセッサ１５０は、これらの音声サンプルを使用して、映像の音声フィンガープリント（サウンドトラック）を作成し、それを、専用のまたは第三者のデータベースにおける他の音声フィンガープリントと比較してディスプレイ１１に示されている映像を識別する。一実施形態において、ローカルデバイスは、以下でさらなる詳細が記載されるパケット検査モジュール１７０２を格納し、実行する。

【0046】

システム１００は、ブルートゥース（登録商標）送信器１８５に一致したブルートゥース（登録商標）受信器１８０をさらに含み得る。いくつかの場合において、ブルートゥース（登録商標）送信器１８５は、視聴者によって着用されたリストバンドまたは腕時計に含まれ得る。動作中、ブルートゥース（登録商標）送信器１８５は、ブルートゥース（登録商標）受信器１８０によって受信される低消費電力型ブルートゥース（登録商標）ビーコンを送信する。その後、プロセッサ１５０は、受信されたブルートゥース（登録商標）ビーコンに基づいて、視聴者の、ディスプレイ１１からの距離を測定し得る。また、各ブルートゥース（登録商標）送信器１８５は、プロセッサ１５０により認識され得る固有ＩＤを有することができる。送信器ＩＤはさらに、一意の視聴者（例えば、家庭内の各視聴者が自身の送信器を有する）に関連付けられ得る。このように、視聴者の識別情報も判断され得る。

【0047】

いくつかの場合において、システム１００は、１つよりも多いブルートゥース（登録商標）受信器を含み得る。各受信器が送信器１８５から異なるブルートゥース（登録商標）信号強度を受信し得るように、これらの受信器は異なる位置に配置され得る。この構成により、プロセッサ１５０は視聴者からディスプレイ１１までの距離だけでなく、視聴者の相対的位置（例えば、ディスプレイ１１に対して左側または右側）も推定することができる。

【0048】

システム１００は、位置および運動を検出する３軸加速度計などの他の運動検知デバイスを含んでよい。運動感知デバイスは、例えば、ＵＳＢケーブルを介して、デスクトップマシンなどのデータ分析処理デバイスに接続され得る。

【0049】

図１は、データ収集コンポーネント、ここでは、ＩＲ放射器１１０、ＩＲセンサ１２０、ＲＧＢセンサ１３０およびマイクロフォン１４０をローカルデバイス１０５の一部（例えば、同じハウジング内）として示す。他の実施形態において、これらのコンポーネントのうちの１つまたは複数は、ＵＳＢ接続、ＲＳ２３２接続、イーサネット（登録商標）接続、ファイバ接続、またはＷｉＦｉ接続、ブルートゥース（登録商標）接続、他のＲＦ接続若しくは赤外接続などの１つまたは複数の無線接続などの１つまたは複数の有線接続によってプロセッサ１５０に結合された別個のデバイスとして実装され得る。例えば、ＩＲ放射器１１０およびＩＲセンサ１２０は、プロセッサ１５０に接続される、マイクロソフト・キネクトなどの市販デバイスである（またはその中にある）ことができる。同様に、マイクロフォン１４０は、視聴領域の周囲に、またはスピーカ１３の近くに配置されるマイクロフォンのアレイとして実装され得る。マイクロフォンアレイは、周囲ノイズから音声入力を抽出することができることがより好ましいであり得る。ローカルデバイス１０５はまた、他のセンサを含む、またはそれに結合されることができる。

【0050】

システム１００におけるプロセッサ１５０は、ＩＲ放射器１１０、ＩＲセンサ１２０、ＲＧＢセンサ１３０、およびマイクロフォン１４０を含むセンサによって取得された生データを処理することに採用される。処理は、プロセッサ１５０に結合されたメモリ１６０に格納されたプロセッサ実行可能命令が実行される際に行われることができる。１つの例において、ユーザは、リモートサーバ１７０からの命令をダウンロードすることによってメモリ１６０に命令を手動で格納することができる。別の例において、ローカルデバイス１０５は、リモートサーバ１７０からダウンロード可能である更新された命令があるかどうかを（定期的に）チェックするように構成され得る。ある場合、ローカルデバイス１０５は、ネットワーク接続１７２およびネットワークインタフェース１６５を介して更新を自動的にダウンロードすることができる。さらなる別の例において、更新または新しい命令のセットをダウンロードするための準備ができると、リモートサーバ１７０は、通知をローカルデバイス１０５に送信するように構成され得る。通知を受信すると、ユーザは、更新をダウンロードおよび／またはインストールするかどうかを決定することができる。さらなる別の例において、リモートサーバ１７０は、更新通知を、スマートフォンなどの別のユーザデバイスに送信するように構成され得る。通知を受信すると、ユーザは、更新をダウンロードおよび／またはインストールするかどうかを決定することができる。

【0051】

また、ローカルデバイス１０５におけるメモリ１６０は、処理されたデータ（例えば、視聴領域内の人数の推定、ディスプレイに関与している人数の推定、映像の識別、並びに生の画像および音声データから導出された人口統計学的情報または指数）を格納する。いったんメモリ１６０が十分な処理されたデータを蓄積すると、プロセッサ１５０は、処理されたデータを、アグリゲーション、さらなる処理および報告のために、ネットワークインタフェース１６５およびネットワーク接続１７２を介してリモートサーバ１７０に送信する。また、ローカルメモリ１６０は、ローカル処理中、画像および音声データを一時的に保持する。いくつかの場合において、この処理は１／４秒より短い時間で完了される。

【0052】

ローカルデバイスでの画像および音声データの収集および処理

【0053】

図２Ａは、図１に示すシステム１００と同様のシステムで取得された画像および音声データを収集および処理するためのプロセス２００を示す。上述したように、システムは、可視センサ、ＩＲセンサ、または両方を含んで、ディスプレイ前方の視聴領域を撮像する（２０２）ことができる。１つの例において、ＲＧＢセンサ１３０およびＩＲセンサ１２０は、互いに独立で動作し、センサは非同期方式で画像を取得する。別の例において、ＲＧＢセンサ１３０およびＩＲセンサ１２０による画像取得は実質的に同期される。ＲＧＢセンサ１３０が可視画像を取得するたびに、ＩＲセンサ１２０が、例えば、同時に、またはインターリーブ方式でＩＲ画像を取得する。

【0054】

ローカルプロセッサ（例えば、プロセッサ１５０）は、視聴領域の画像における人数を検出し（２０４）、また、それらの人のうちの誰がディスプレイに関与しているかを判断する（２０６）。例えば、ローカルプロセッサは、コンピュータビジョン／画像処理の技術分野において知られている、骨格検出技術、顔認識技術、および視線追跡技術を含む、以下に説明する技術を使用してよい。いくつかの場合において、ローカルプロセッサ１５０は、視聴領域に各視聴者がいる継続時間、各視聴者がディスプレイに対する関与の継続時間、表示されている映像の識別情報に関する、以下に説明するような音声データから導出され得る（２２２）さらなる指数を判断する（２０８）ことができる。

【0055】

ローカルプロセッサは、視聴領域１０１にいるように検出された各人物を、人口統計学的レベル（例えば、２５歳～３０歳の男性、１２歳～１５歳の女の子）で、さらに識別する（２１０）ことができる。ローカルプロセッサ１５０は、ローカルデバイス１０５がローカルメモリ１６０またはリモートサーバ１７０などを介して配置されている家庭についての情報へのアクセスを有する場合、それはこの人口統計学的情報を使用して、視聴領域１０１に検出された各人物の信頼性がより高い人口統計学的情報の推定を提供することができる。さらに、ローカルプロセッサは、家庭内の、視聴領域内の特定の人を識別することができる。

【0056】

また、ローカルプロセッサ１５０は、視聴領域１０１に検出された各人物の気分または感情を推定する（２１２）ことができる。プロセッサ１５０によって判断され得る感情は、例えば、楽しい、悲しいまたは中立を含むことができる。ディスプレイ１１上の映像を見ている場合、視聴者の感情の分類は、映像への視聴者の反応を測定することに使用され得るため、ターゲットを絞った広告配信を容易にする。

【0057】

各人物の気分または感情を推定するために、ローカルプロセッサ１５０は、ＲＧＢおよびＩＲチャネルの両方からリアルタイムで（例えば、視聴領域１０１の画像からの）視覚情報をキャプチャすることができる。視覚情報は、異なる気分または感情の状態のシグネチャであり得るパターンおよび特徴を抽出するようにさらに処理され得る。両方のチャネルから抽出された特徴は、統一された特徴として融合することができる。分類子は、そのような特徴を入力として扱うように訓練され得る。その後、感情／気分の推定は、各時刻での特定のパターンに対する分類子／応答に基づいて行われ得る。

【0058】

いくつかの場合において、気分または感情の推定は、以下の方法で達成され得る。方法は、とりわけ、笑顔および顔をしかめることなど、様々な感情を示す人の訓練用画像を収集する段階を含む。各感情を表す特徴は、これらの訓練用画像から（例えば、プロセッサによって）抽出される。その後、特徴および画像は、各特徴を対応する感情に相関させるように分類子を訓練することに使用される。このように、分類子は、これらの特徴を様々な感情に割り当てることができる。また、方法は、視聴者の感情をリアルタイムで認識するように、分類子をローカルデバイスに展開する段階を含む。

【0059】

システムが可視画像およびＩＲ画像を同期方式で収集する場合、可視カメラおよびＩＲカメラは、プロセッサによって使用されるコンピュータビジョンモデルを訓練するために画像を収集して人を検出し（２０４）、関与している視聴者を計数し（２０６）、人口統計学的に視聴者を識別し（２１０）、気分を推定する（２１２）ことができる。この訓練は、「グランドトゥルース」を確立するために採用することができる。ＩＲおよびＲＧＢセンサの両方からほぼ並行して画像データを収集したことで、人間が各画像で検出された人物に注釈を付けることができる。この手動データは訓練用アルゴリズムに供給されることができ、それにより２つの個別のモデルが生じ、１つは可視ＲＧＢスペクトルで訓練され、もう１つはＩＲスペクトルで訓練される。その後、「グランドトゥルース」に対する各モデルの検出レートを比較してより良く実行されるモデルを選択する。この訓練のさらなる詳細は以下に図２Ｂを参照して説明される。

【0060】

また、２つのカメラ（例えば、図１におけるセンサ１２０および１３０）の同期により、ローカルプロセッサが画像処理をダブルチェックすることができる。例えば、プロセッサ１５０は、各画像で識別された人数を比較し、または、１つの画像において可視であり、他の画像において見えにくいまたは不可視である誤差を除去することができる。結果が互いに一致する場合、プロセッサ１５０は結果を記録することができる。そうでない場合、プロセッサ１５０は、画像のうちの少なくとも１つにおける可能性がある誤差を検出することができる。代替的に、プロセッサ１５０は、人間が介入するための警告を生成することができる。また、プロセッサ１５０は、これらの２つの画像から推定されたデータに関連付けられた、このデータの信頼性がより低い可能性があることを示すフラグを生成することができる。後続の分析において、この問題となっている画像のペアの直前または直後に撮像された画像が信頼性の高い人物認識を提供できる場合は、このデータを全く使用しないことがある。

【0061】

１つの例において、ローカルデバイス１０５は常に可視センサおよびＩＲセンサ１２０および１３０を使用して画像データを取得する。別の例において、ローカルデバイス１０５は、センサ１２０または１３０のうちの１つのみを使用して画像データを取得し得る。さらなる別の例において、ローカルデバイス１０５は、１つのセンサをデフォルトのセンサとして使用し、他のセンサをバックアップセンサとして使用することができる。例えば、ローカルデバイス１０５は、撮像するために、ＲＧＢセンサ１３０をほとんどの場合に使用することができる。しかしながら、プロセッサ１５０が可視画像を満足に分析できない場合（例えば、分析が所望のように信頼できない場合）、プロセッサ１５０はバックアップとしてＩＲセンサ１２０をオンにすることができる（またはその逆も可能である）。これは、例えば、視聴領域の周辺光レベルが低い場合に発生することがある。

【0062】

また、ローカルプロセッサは、視聴領域内の人数、視聴領域内の位置、およびディスプレイ上の映像の識別情報に基づいて、可視センサ、ＩＲセンサ、またはその両方の画像取得率を調整してよい（２１４）。一般に、いずれかまたは両方のセンサの画像取得は、約１５フレーム／秒（ｆｐｓ）と実質的に等しいまたはそれより大きくなり得る（例えば、約１５ｆｐｓ、約２０ｆｐｓ、約３０ｆｐｓ、約５０ｆｐｓまたはさらに大きく、その間の任意の値および部分範囲を含む）。この画像取得率で、センサは、ローカルプロセッサが視聴者関与度を評価するために十分に良く目の動きを検出する（２０６）ことができる。

【0063】

ローカルプロセッサは、視聴領域１０１内の人数に基づいて画像取得率を増加または減少させ得る。例えば、プロセッサは、視聴領域１０１内に人がいないと判断する場合、それは画像取得率を低減して電力およびメモリの消費を削減し得る。同様に、プロセッサは、視聴者が映像に関与していない（例えば、視聴者が寝ているように見えるため）と判断する場合、それは画像取得率を低減して、電力、メモリまたはその両方を節約し得る。反対に、プロセッサは、視聴者が急速に注意を移しているように見える場合、速いペースの映像（例えば、サッカーの試合またはアクション映画）を見ている場合、チャネルを急速に変えている場合（例えば、チャネルサーフィン）、またはコンテンツが比較的急速に変わっている場合（例えば、一連の広告の間）、画像取得率を（例えば、１５ｆｐｓより大きく）増加させ得る。

【0064】

システムがＩＲセンサおよび可視画像センサの両方を含む場合、ローカルプロセッサは、照明条件または相対的な画質に基づいて画像取得を変化させることもできる。例えば、低照度状態において、ローカルプロセッサは可視画像より高速でＩＲ画像を取得することができる。同様に、ローカルプロセッサがＩＲ画像より、可視画像を処理するとより良い結果を取得する場合、それはＩＲ画像より高速で可視画像を取得することができる（または、その逆もその通りである場合、その逆も可能である）。

【0065】

また、システムはマイクロフォン１４０で映像のサウンドトラックのサンプルを記録する（２２０）。一般に、音声データ取得率または音声サンプリング率は画像取得率より低い。例えば、マイクロフォンは、３０秒ごとに一回の速度で音声サンプルを取得する。毎回の取得において、マイクロフォン１４０は、音声サンプルに関連付けられた映像の識別を可能にするように、有限の継続時間を有する音声サンプルを記録する。音声サンプルの継続時間は、実質的に５秒に等しい、またはそれより長い（例えば、約５秒、約６秒、約８秒、約１０秒、約２０秒、または約３０秒、その間の任意の値および部分範囲を含む）であり得る。

【0066】

ローカルプロセッサは、マイクロフォン１４０によって記録された音声サンプルを使用して、ディスプレイに再生されている映像を識別する（２２２）。例えば、プロセッサ１５０は、音声データのフィンガープリントを作成し、フィンガープリントを使用して、第三者アプリケーションプログラミングインタフェース（ＡＰＩ）に問い合わせることができ、ここで、ＡＰＩは音声データに関連付けられた映像の識別情報でクエリに応答する。別の例において、プロセッサ１５０は、フィンガープリントをローカルテーブルまたはメモリに対して比較して、映像の識別情報を判断することができる。

【0067】

上述したように、映像サウンドトラックのサンプルを使用して映像を識別することは、従来のテレビサーベイデバイスにより映像を識別するために使用されるデジタル透かしと比べると、いくつかの利点を提供する。それは、映像にデジタル透かしを挿入することは必要とせず、コンテンツ生成者およびプロバイダに連携する必要を排除する。これにより、コンテンツの製作および配信が簡略化され、デジタル透かしを提供できない、または提供しようとしない製作者および配信者を含む、映像コンテンツのより広い範囲の識別および評価が可能になる。そして、ローカルデバイスをケーブルまたはセットトップボックスに接続する必要を排除する。

【0068】

さらに、デジタル透かしの代わりに音声データを使用することは、「誤検出」、または、システムが、視聴領域内の人を検出し、テレビがオフになっている場合にも実際に見られていない映像を識別するインスタンスのリスクを低減させる。これは、セットトップボックスに接続された従来のシステムで、それらのテレビがオフになっていても家庭成員がそれらのセットトップボックスの電源をオンのままにしている場合に発生し得ることである。

【0069】

いくつかの例において、ローカルプロセッサは、例えば、映像の識別情報、視聴領域内の人数、映像に関与している人数などに基づいて、音声サンプリング率を調整する（２２４）。例えば、（例えば、映像サウンドトラックが多くの異なる映像サウンドトラックに出現する人気の歌を含むために）ローカルプロセッサが単一のフィンガープリントから映像を識別できない場合、ローカルプロセッサおよびマイクロフォンは、より高速で、またはより長期間でサンプルを取得して映像の任意の曖昧さを解決するように改善してよい。また、プロセッサは、視聴領域１０１に人がいない、または視聴者は映像に関与していない（例えば、視聴者は寝ているように見えるため）場合に音声サンプリング率を減少させて、電力、メモリまたはその両方を節約してよい。反対に、プロセッサは、視聴者がチャネルを急速に変えている場合（例えば、チャネルサーフィン）、またはコンテンツが比較的急速に変わっている場合（例えば、一連の広告の間）、音声サンプリング率を増加させてよい。

【0070】

実装によって、マイクロフォンは、一定間隔で（すなわち、周期的に）、または不規則間隔で（例えば、非周期的にまたは時間的に変化する周期で）、音声サンプルを記録することができる。例えば、マイクロフォンは一日中、一定の速度（例えば、１分間に約２サンプル）で音声データを取得することができる。他の場合において、テレビがオンであるときまたはオンである可能性が高いとき（例えば、夕方）、マイクロフォンはあるサンプリング速度で、テレビがオフであるときまたはオフである可能性が高いとき（例えば、早朝、真昼）は別のより低いサンプリング速度で動作することができる。ローカルプロセッサは、音声サンプルからテレビがオン（オフ）になったことを検出した場合、それに応じてサンプル速度を増加（減少）させることができる。また、ローカルプロセッサは、音声サンプルからテレビがオン（オフ）になったことを検出したことに応答して、画像センサが視聴領域の撮像の開始（停止）をトリガしてよい。

【0071】

生の画像および音声データが処理されている間にまたは処理されると、ローカルプロセッサは生の画像および音声データを上書きする、またはメモリから生の画像および音声データを消去する（２３０）。換言すれば、各画像はメモリ１５０に保持される一方、プロセッサ１５０は人間を検出および識別し、それらの関与および表情を測定する。検出、識別および関与データはフレームごとに収集され、この情報は存続され、最終的にはバックエンドサーバ１７０にアップロードされる。また、同様に、音声データはメモリ１６０に保持される一方、第三者ＡＰＩは音声フィンガープリントを処理しており、関連付けられた映像の識別情報を返している。識別情報は、以下に説明するように、格納される、および／またはバックエンドサーバ１７０にアップロードされる。

【0072】

生の画像および音声データを上書きするまたは消去（または、別の方法で破棄）することで、ローカルプロセッサは、メモリへの要求を低減し、視聴領域内の個人を識別する能力を低減または排除する。これにより、システムへ不正侵入しようとする潜在的な対象となる情報の公開が少なくなり、個人のプライバシが保たれる。また、これにより、個人の画像が第三者に送信される可能性も排除される。特に、これは、「子供のオンラインプライバシ保護法」に係る視聴領域内の子供のプライバシを保護するために有益である。

【0073】

いくつかの場合において、ローカルプロセッサは、メモリから生の画像および音声データを能動的に消去する。他の場合において、ローカルプロセッサは、所定量（例えば、１つの画像または１つの音声サンプル）よりも多くの生の画像および音声データを格納しない大きさのメモリ内の１つまたは複数のバッファにその生の画像およびデータを格納する。ローカルプロセッサは、次の画像または音声サンプルがバッファを上書きするように、サンプル間の期間において生の画像およびデータを分析する。

【0074】

また、ローカルプロセッサ１５０は、処理されたデータをメモリ１６０に格納する。処理されたデータは、必要なメモリを減らすために、カンマ区切り変数（ＣＳＶ）形式など、比較的コンパクトな形式で格納されることがある。ＣＳＶまたは他のファイルに含まれるデータは、例えば、各画像に人がいるかどうか、各画像の視聴領域１０１内の人数、視聴領域１０１内で実際にディスプレイ１１を見ている人数、各視聴者の感情の分類、各視聴者の識別情報などを示すことができる。処理されたデータは、ＩＲ画像取得率、可視画像取得率、音声サンプリング率、現在のソフトウェア／ファームウェア更新などを含むローカルデバイスの動作状態に関する指標を含むこともできる。

【0075】

ローカルプロセッサは、格納またはさらなる処理のために、処理されたデータを（例えば、ネットワークインタフェースを介して）リモートサーバに送信する（２３６）。処理されたデータは比較的コンパクトな形式であるため、生の画像および音声データをアップロードする場合と比較して、アップロード帯域が大幅に削減される。また、伝送データは視聴領域の画像または視聴者の音声を含み得る音声サンプルを含まないため、視聴者のプライバシを侵害するリスクはより低い。さらに、生の画像および音声画像がリモートサーバに送信され、処理される場合よりも、それらがローカルで処理されるため、処理されたデータの音声および画像部分が同期され、その状態を維持する可能性がより高い。

【0076】

いくつかの場合において、ローカルプロセッサは、処理されたデータが処理される間に、それをリモートに送信し得る。他の場合において、ローカルプロセッサは、例えば、利用可能なアップストリーム帯域幅、データ量などに基づいて、送信ウィンドウを識別し得る（２３４）。これらの送信ウィンドウは、予め定められてよく（例えば、東部標準時の午前２時）、ローカルデバイスの設置時に家庭成員により設定されてよく、リモートサーバにより設定されてよく（例えば、ソフトウェア若しくはファームウェアの更新を介して）、または帯域幅の測定に基づいてローカルプロセッサにより判断されてよい。

【0077】

図２Ｂは、視聴者関与度を定量化するためのコンピュータビジョンモデルを訓練する方法を示す。２４１において、ＲＧＢおよびＩＲセンサの両方は、２つのタイプの処理を受ける映像データを取得する。２４２ａにおいて、映像データに手動で注釈を付けて、各フレームにある顔を識別する。２４２ｂにおいて、現在のモデル（例えば、デフォルトのモデルまたは以前に使用したモデル）を使用して各フレームの顔を自動的に検出する。２４３ｂにおいて、プロセッサを使用して、２４２ａで取得した注釈付き映像に対する２４２ｂでの自動検出の精度を計算する。２４４において、精度が許容できる場合、方法２４０は２４５に進み、現在のモデルは、（例えば、方法２００において使用される）顔認識のための製作モデルとして設定される。精度が許容できない場合、方法２００は２４３ａに進み、映像は、映像の訓練セット（２４６ａ）と映像のテストセット（２４６ｂ）とに分割される。例えば、ＲＧＢ映像を訓練映像２４６ａとして選択することができ、ＩＲ映像をテスト映像２４６ｂとして選択することができる（または、その逆も可能である）。

【0078】

訓練映像２４６ａは、２４７ａで新しいモデルを訓練するために送信され、一方、テスト映像（２４６ｂ）は、新しいモデルをテストするために段階２４７ｂに送信される。２４７ｂにおいて、２４７ｃにおいて新しいモデルの精度を計算するために、訓練映像２４６ａおよびテスト映像２４６ｂは共に収集される。２４９において、プロセッサは新しいモデルの精度を再度計算する。精度が許容できる場合、新しいモデルは製作モデルとして設定される（２４５）。そうでない場合、方法２４０は２４８に進み、新しいモデルのパラメータはチューニングされる。代替的に、別の新しいモデルは２４８で構築され得る。任意の場合において、新しいモデルのパラメータは２４７ａに返って送信され、訓練映像２４６ａは新しいモデルの訓練に使用される。このように、新しいモデルは許容精度を有するように反復して構築され得る。

【0079】

リモートサーバの動作

【0080】

動作中、リモートサーバ１７０は、異なる家庭に配置された異なるローカルデバイス１０５から送信されたデータを収集する。リモートサーバ１７０は定期的に入力データを読み取り得る。また、リモートサーバ１７０は受信されたデータを解析し、それぞれが保存されたときのタイムスタンプを使用して、映像認識データと音声認識データとを結合することができる。

【0081】

また、リモートサーバ１７０は、誤ってラベリングされたデータを修正し得る。例えば、リモートサーバ１７０は、前後のタイムスタンプからのデータを使用して、視聴者が識別されない場合または誤認識がある場合のブリップを修正することができる。問題となっている画像に先行する画像で人が識別され、問題となっている画像に後続する画像でも人が識別される場合、リモートサーバ１７０は、この人が問題となっている画像にも出現すると判断することができる。

【0082】

また、リモートサーバ１７０はローカルデバイス１０５から受信されたデータおよび／またはリモートサーバ１７０によって処理されたデータをクエリ可能なデータベースにロードすることができる。１つの例において、リモートサーバ１７０はまた、分析のために格納されたデータを次に使用し得るユーザにアクセスを提供することもできる。別の例において、クエリ可能なデータベースにおける格納されたデータはまた、リモートサーバ１７０によって実行されるさらなる分析を容易にし得る。例えば、リモートサーバ１７０はデータベースを使用して注目度指数および視聴者指数を計算することができる。

【0083】

視聴者関与度の評価

【0084】

図３Ａ～図６は、視認性指数および注目度指数などの測定値を使用して映像に対する視聴者関与度を定量化する方法を示す。次の定義は、映像に対する視聴者関与度を定量化するための本発明の方法および装置を理解することに役立ち得る。

【0085】

番組継続時間は、一意の番組の、例えば、秒、分または時間単位での全継続時間として定義される。異なるプログラムの継続時間が比較され得る限り、使用される実際の単位（秒、分または時間）は重要でない。

【0086】

コマーシャル継続時間とは、一意のコマーシャルの（例えば、秒または分単位での）全継続時間として定義される。

【0087】

視聴継続時間（秒）は、家庭毎で一意の番組またはコマーシャルの視聴された全継続時間（秒数）として定義される。代替的に、視聴秒数は、番組の秒単位での全継続時間から、どの家庭も番組を視聴していない合計時間（秒単位）を差し引いたものとして定義され得る。

【0088】

集計視聴継続時間（秒）は、全家庭にわたる、一意の番組またはコマーシャルの全家庭で視聴された全継続時間（秒数）として定義される。

【0089】

ポジティブ継続時間比は、番組またはコマーシャル広告が視聴された割合（％）として定義される。より具体的には、番組または広告のポジティブ継続時間比は、番組または広告の全継続時間に対する集計視聴継続時間の比率に家庭数をかけたものとして計算され得る。

【0090】

視聴者カウント（ＶＣ）は、所与の番組またはコマーシャル広告に対する視聴秒数がポジティブであった全家庭にわたる、視聴領域内の視聴者の総数として定義される。

【0091】

観視率（ＷＲ）は、テレビがオンである全家庭の総人数の、全家庭にわたる総人数に対する比率として定義される。例えば、方法は総数３００人がいる１００個の家庭を考慮する場合である。１００人がいる３０の家庭がそれらのテレビセットをオンにすると、観視率は３３．３％（すなわち、１００／３００）である。しかしながら、同じの３０の家庭に１５０人がいる場合、観視率は５０％（すなわち、１５０／３００）である。

【0092】

視聴率（ＶＲ）は、全家庭の視聴領域内の総人数の、オンであるテレビの総数に対する比率として定義される。例えば、４０台の異なるテレビで定義される視聴領域（１台のテレビが１つの視聴領域を定義する）に１００人がいる場合、視聴率は２．５（すなわち、１００／４０）である。

【0093】

注目率（ＡＲ）は、全家庭でテレビに注目している人の総数の、全家庭にわたる視聴領域内の総人数に対する比率として定義される。例えば、方法で考慮した全ての個人で１００人が視聴領域にいるが、実際にテレビを見ているのは６０人（残りの４０人はテレビをオンにしたまま他のことをしている可能性がある）のみである場合、注目率は０．６または６０％である。

【0094】

視認性指数（ＶＩ）は、各番組およびコマーシャルに対する視聴率（ＶＲ）の平均値として定義される。

【0095】

注目度指数は、各番組およびコマーシャルに対する注目率（ＡＲ）の平均値として定義される。

【0096】

図３Ａは、顔および眼球のトラッキング３１０と、顔認識３２０と、センチメンタル分析３３０とを含む視聴者関与度を評価（例えば、図２Ａの方法２００におけるボックス２０６）の方法３００を示す。プロセッサ（例えば、図１に示すローカルプロセッサ１５０）は方法３００の実装に使用され得る。方法３００における入力データは、視聴領域の画像データ、音声データまたは深度データなど、図１に示すローカルデバイス１０５によって取得されたデータであり得る。顔および眼球のトラッキング３１０は、顔が移動している間に特徴データポイントを識別して追跡し、ユーザが画面を見ているかどうかを判断することに採用されている。顔認識３２０は、例えば、人工知能を使用して視聴者の識別情報を判断することに採用されている。センチメンタル分析３３０は、例えば、とりわけ、顔の特徴、姿勢および心拍数を分析するための人工知能を使用して視聴者の感情を判断することに採用されている。

【0097】

視聴者が実際に画面を見ているかどうかの情報、視聴者の識別情報および視聴者の感情を含む取得された情報は、様々な映像評価３４０を判断することに使用される。１つの例において、取得された情報は、家庭ごとの個別の映像評価の推定に使用される。別の例において、取得された情報は、人口統計学的領域ごとの個別の映像評価の推定に使用される。さらなる別の例において、取得された情報は、一群の映像に対する全体映像評価の推定に使用される。さらなる別の例において、取得された情報は、特定の映像（例えば、番組および広告）の視聴者の反応の推定に使用される。また、取得された情報は、以下に説明するように、視認性指数および注目度指数などの視聴者関与度の定量的測定の判断に使用され得る。

【0098】

方法３００における段階３１０、３２０および３３０は、パターン認識技術を使用して達成され得る。これらの技術は、例えば、１つまたは複数の人間の顔を認識することで、任意の視聴者が視聴領域にいるかどうかを判断することができる。認識された顔が確かにある場合、これらの技術はさらに、例えば、認識された顔を、映像が再生されている家庭の顔データを含むデータベースと比較することで、その視聴者が誰であるかを判断することができる。代替的に、これらの技術は、視聴者がその家庭の人ではない場合、拡張されたデータベースを使用してより多くの人（例えば、可能であればコミュニティ全体）の顔データを含み得る。また、これらの技術は、顔の動きを追跡し、顔の向きを分析することで、例えば視聴者が映像を見ているかどうかを判断することができる。

【0099】

また、人工知能、機械学習および訓練されたニューラルネットワーク学習技術は、視聴者の感情の分析に使用され得る。そのために、これらの技術は、とりわけ、身振り（一定時間で静止した姿勢）、身体運動（姿勢の変化）、顔向き、顔の方向／動き／位置、心拍数などを分析する。

【0100】

別の例において、方法３００は、まず、例えば、図１に示すＲＧＢセンサ１４０およびＩＲセンサ１２０によって取得された画像データから顔を認識することができる。また、方法２００は、面の位置を検出し、顔上の特徴点（例えば、図２Ａに示すように、眼および口の境界点）を識別し、顔が移動している間に追跡することができる。方法３００は、眼球追跡技術を使用して、視聴者が実際に映像を見ているかどうか（または、代わりに、視聴領域内に座っているだけであるが別のことをやっているかどうか）を判断することができる。そして、方法３００は、訓練されたニューラルネットワーク学習の技術を使用して、類似部位に対してデータベースからの顔の特徴を比較することによって、視聴者を家庭内の既知の人と一致させることができる。視聴者が識別されたと、方法３００は、注目すべき顔の構成について視聴者を継続的に追跡し、ユーザの気分および／または感情を判断することができる。

【0101】

また、方法３００は、（例えば、図１に示すマイクロフォン１４０によって取得された）音声データと映像（例えば、テレビショー）の音声データベースおよび他の音声とを比較し、これにより、どの映像が特定の時点で再生されているかを確認することができる。１つの例において、映像マッチングは、方法３００によって識別された視聴者によってどのテレビ局が視聴されているかを判断することができる。別の例において、映像マッチングは、どのテレビ番組が視聴者によって視聴されているかを判断することができる。さらなる別の例において、映像マッチングは、どのコマーシャル広告が視聴されているかを判断することができる。代替的または追加的に、視聴されているテレビチャネル、番組または広告は、ケーブルまたは衛星セットトップボックスまたは他の番組プロバイダのハードウェアまたは放送信号を含むが、これらに限定されない他のソースから収集したデータから判断されることができる。

【0102】

図３Ｂは、視聴者関与度を定量化するための、本明細書に記載される技術を介して推定され得る視認性指数および注目度指数の概念を示す図である。一般的に、視認性指数は、画面に表示されているものが人を部屋に呼び込む傾向を定量化する。注目度指数は、画面に表示されているものが視聴者の関心を引く傾向を定量化する。換言すれば、視認性指数は、映像（または他の表示コンテンツ）が最初に視聴者を引きつける確率とみなすことができ、注目度指数は、視聴者が既に視聴領域にいる後、映像がディスプレイ前方に視聴者を留める確率とみなすことができる。図３Ｂに示すように、視認性指数は視聴領域にいる人の数に依存し、注目度指数は実際にディスプレイを見ている人の数に依存する。

【0103】

視認性指数および注目度指数で視聴者関与度を評価する

【0104】

図４Ａは、視認性指数を使用して視聴者関与度を定量化する方法４０１を示す図である。方法４０１は、プロセッサによって実装され得る。方法４０１は段階４１１で開始し、画像データは、例えば、図１に示すシステム内のローカルデバイス１０５を設置または使用することを介して方法に参加する複数の家庭における各家庭でのプロセッサによって取得される。画像データは、映像（例えば、テレビ番組、広告、ユーザ要求映像または他の任意の映像）を再生し得るディスプレイ前方の視聴領域の画像を含む。さらに、プロセッサはまた、段階４１１でディスプレイが映像を表示しているかどうかを判断する。段階４２１において、プロセッサは、ディスプレイによって再生されている各映像に対する視聴率および観視率を推定する。視聴率は、上記で定義したように、映像を表示するディスプレイの総数に対する、視聴領域内の総人数の比率を表す。同様に、観視率は、上記で定義したように、複数の家庭内の総人数に対する、映像を表示するディスプレイを有する家庭内の総人数の比率を表す。

【0105】

視聴率および観視率の推定は、段階４１１で取得っされた画像データおよび複数のの家庭における各家庭に関する人口統計学的情報に基づく。人口統計学的情報は、プロセッサが容易に人口統計学的情報を取得し得るように、プロセッサに動作可能に結合されたメモリに格納され得る。別の例において、プロセッサは、別のサーバから人口統計学的情報を取得し得る。段階３３０において、プロセッサは、複数の映像における各一意の映像に対する、視聴率および観視率に基づいて視認性指数を判断する。視認性指数は、番組およびコマーシャルなどの各映像に対する視聴率の平均値として上記で定義される。

【0106】

方法４０１は、ディスプレイによって再生されている各映像の視聴者カウントおよびポジティブ継続時間比を推定する段階をさらに含み得る。推定は、画像データおよび複数の家庭における各家庭に関する人口統計学的情報に基づく。上記で定義したように、視聴者カウントは、各一意の映像に関与している総人数を表し、ポジティブ継続時間比は、一意の映像の継続時間に対する、一意の映像を見ている複数の家庭内の人によって消費された合計時間の比率を表す。

【0107】

視聴者カウントおよび位置継続時間比率に基づいて、バランスの取れた視認性指数は判断され得る。１つの例において、バランスの取れた視認性指数は、所与の各番組およびコマーシャルの視聴者カウントおよびポジティブ継続時間比を加味して、視認性指数（ＶＩ）の加重平均として計算され得る。別の例において、バランスの取れた視認性指数は、複数の映像における一意の映像にわたって視認性指数を正規化することによって計算され得る。

【0108】

方法４０１は、平均視認性指数を生成するために、有限の期間に対する全ての番組およびコマーシャルにわたる視認性指数を平均化する段階をさらに含み得る。各番組およびコマーシャルの視認性指数は、広告代理、テレビ局または他のコンテンツプロバイダなどのユーザのための最終視認性指数（無次元量）を生成するために、（例えば、日、週、または月単位で計算された）平均視認性指数で除算され得る。１つの例において、有限の期間は約２週間である。別の例において、有限の期間は約１ヶ月間である。さらなる別の例において、有限の期間は約３ヶ月間である。

【0109】

画像データは、様々な取得速度で取得され得る。１つの例において、画像データは毎秒５０回（５０Ｈｚ）取得され得る。１つの例において、画像データは毎秒３０回（３０Ｈｚ）取得され得る。さらなる別の例において、画像データは１秒ごとに（１Ｈｚ）取得され得る。さらなる別の例において、画像データは２秒ごとに（０．５Ｈｚ）取得され得る。さらなる別の例において、画像データは５秒ごとに（０．２Ｈｚ）取得され得る。さらに、方法３００は、家庭の人口統計学的情報を考慮して視聴者関与度情報を導出するために、視聴領域内の各視聴者に対する画像データを取得および分類し得る。

【0110】

図４Ｂは、注目度指数を使用して、映像に対するユーザ関与度を定量化する方法４０２を示す図である。方法４０２は段階４１２を含み、ここで、視聴者関与度評価に参加する各家庭に対してディスプレイ前方の視聴領域の画像データが取得される。段階４１２において、プロセッサは、（例えば、図１に示したローカルデバイス１０５内のマイクロフォン１４０によって取得された音声データを介して）画像データが取得される際に任意の映像がディスプレイに表示されているかどうかを判断する。段階４２２において、ディスプレイによって再生されている各映像に対して、プロセッサは、画像データおよび家庭に関する人口統計学的情報に基づいて注目率を推定する。上記で定義したように、注目率は、映像に関与している人の総数と視聴領域内の総人数との比率を表す。映像の注目率に基づいて、段階４３２において、注目度指数は、映像の効果を示すように判断される。

【0111】

方法４０２は、ディスプレイによって再生されている映像の視聴者カウントおよびポジティブ継続時間比を推定する段階をさらに含む。方法４０１と同様に、方法４０２は、画像データおよび各家庭に関する人口統計学的情報に基づいて、視聴者カウントおよびポジティブ継続時間比率を判断することができる。プロセッサは、視聴者カウントおよびポジティブ継続時間比率を使用すると、バランスのある注目度指数を判断することができる。方法４０２は、所与の期間（例えば、１週間または１ヶ月間）にわたって複数の映像における一意の映像に対する注目度指数を正規化することによって正規化された注目度指数を生成する段階を含み得る。

【0112】

方法４０２は、平均注目度指数を生成するために、有限の期間に対する全ての番組およびコマーシャルにわたって注目度指数を平均化する段階をさらに含み得る。広告代理、テレビ局または他のコンテンツプロバイダなどの顧客のために最終注目度指数（無次元量）を生成するように、各番組およびコマーシャルの注目度指数は、平均注目度指数で除算され得る。

【0113】

顔認識技術を使用して視聴者関与度を評価する

【0114】

図５は、顔認識技術および他の人工知能技術を使用して映像に対する視聴者関与度を評価する方法を示す図である。方法５００は段階５１０で開始し、ここで、ディスプレイ前方の視聴領域の画像は（例えば、図１に示したシステムを使用して）キャプチャされる。各取得された画像に対して、視聴領域内の人数は段階５２０で推定される。１つの例において、例えば、顔認識技術を使用して推定を実行し得る。別の例において、身体骨格検出に基づいて推定を実行し得る。

【0115】

段階５３０において、視聴領域内の各人物の顔のディスプレイに対する向きは判断される。例えば、顔の向きはディスプレイに向けることがあり、視聴者が実際にディスプレイ上の映像を見ていることを示す。代替的に、顔の向きはディスプレイから離れることがあり、視聴者自身がディスプレイの視聴領域内にいるが、映像を見ていないことを示す。したがって、視聴者の顔の向きに基づいて、プロセッサは、段階５４０において、視聴領域内の各人物が実際に映像に関与しているかどうかを評価し得る。実際に映像を見ている人を見ていない人から区別することによって、プロセッサは、映像の効果の判断を正確に下すことができる。映像の効果は、例えば、視聴者が映像に関与している状態はどのぐらい保持され得るかによって定量化され得る。

【0116】

骨格、顔、識別情報、感情および関与度を検出する

【0117】

図６は、骨格、顔、識別情報、感情および関与度を検出するための方法６００を示すフローチャートであり、方法６００はさらに上述した視聴者関与度評価のために使用され得る。方法６００は、プロセッサ（例えば、プロセッサ１５０またはリモートサーバ１７０内のプロセッサ）によって実装され得る。方法６００は段階６１０で開始し、ここで、ディスプレイ前方の視聴領域の画像データは（例えば、メモリによって、または直接に図１に示したＲＧＢセンサ１３０などの撮像デバイスから）提供される。段階６２０において、プロセッサは、画像データから骨格フレーム（すなわち、例えば、図２Ａにおける２３０などを参照して、少なくとも一人の潜在的な視聴者の画像を含む画像フレーム）を取得する。段階６３０において、処理ループが開始され、こｋどえ、プロセッサは、顔認識、感情分析および関与度判断を含むさらなる処理のための各骨格フレームに対する６つの個人骨格データポイント／セットを使用する。骨格データが処理されたと、方法６００はリフレッシュ段階６２５を介して、段階６２０における骨格フレーム取得に戻る。

【0118】

方法６００における段階６３５は決定段階であり、ここで、プロセッサは、任意の骨格が骨格フレーム内の選択された骨格データにあると検出されるかどうかを判断する。そうでない場合、方法６００は段階６３０に戻り、ここで、新しい骨格データが処理のためにピックアップされる。少なくとも１つの骨格が検出された場合、方法６００は段階６４０に進み、ここで、画像データにおける視聴者の頭領域を識別するためにバウンディングボックスが生成される。バウンディングボックスは、例えば、骨格情報に基づいて、骨格全体から頭を識別することなどによって生成され得る。

【0119】

段階６４５は再び決定段階であり、ここで、プロセッサは、バウンディングボックスが生成されたかどうか（すなわち、頭領域が検出されたかどうか）を判断する。画像が視聴者の骨格全体を含むが、視聴者の頭部が遮られるため画像には表示されていないことが可能である。この場合、方法６００は再度、プロセッサが新しい骨格データをピックアップする段階６３０に戻る。バウンディングボックスが検出された場合、方法６００は段階６５０に進み、ここで、プロセッサが第２レベルの顔認識（顔検出とも呼ばれる）を実行する。この段階において、プロセッサは、段階６４０で生成されたバウンディングボックス内の人の顔を検出しようとする。顔検出は、例えば、ＯｐｅｎＣＶにおけるＨａａｒ特徴ベースのカスケード分類器を使用して実行され得る。より多くの情報は、米国特許第８，４４７，１３９Ｂ２号に記載されており、この特許は参照によりその全体が本明細書に組み込まれる。

【0120】

段階６５５において、プロセッサは、顔が段階６５０で検出されたかどうかを判断する。そうでない場合、第１レベルの顔認識は段階６６０で実行される。この第１レベルの顔認識段階は、段階６５０で実行された第２レベルの顔認識と実質的に同様であり得る。もう一回顔検出を実行することで、顔認識技術の偶発的な失敗の可能性を減らすことができる。段階６６５は、段階６５５と同様である決定段階であり、ここで、プロセッサは、顔が検出されたかどうかを判断する。

【0121】

顔が第１レベルの顔認識または第２レベルの顔認識のいずれで検出された場合、方法６００は、段階６７０に進んで、顔の特徴検出または顔のキーポイント検出とも呼ばれる顔の目印検出を実行する。段階６７０は、顔の異なる特徴（例えば、目尻、眉、口、鼻先など）の位置の判断に採用される。顔の目印検出のより多くの情報は、米国特許公開第２０１４／００５０３５８Ａ１号および米国特許第７，７５１，５９９Ｂ２号から見つけられ、これらはその全体が本明細書に組み込まれる。

【0122】

段階６７２において、プロセッサは、任意の顔の目印が段階６７０で検出されたかどうかを判断する。そうでない場合、方法６００は段階６３０に返ってさらなる処理のための別の骨格データを選択する。少なくとも１つの顔の目印が検出された場合、プロセッサは、決定段階６７４において、任意の顔が段階６５０での第２レベルの顔認識で検出されたかどうかをさらに判断する。そうである場合、方法６００は段階６９０に進み、ここで、検出された顔は識別され（すなわち、視聴者が誰であるかが判断され）、その後、方法は段階６８０に進み、ここで、顔の目印に基づいた顔の感情は予測される。段階６７４において、プロセッサは、段階６５０で顔が検出されなかったことを発見した場合、方法６００は、プロセッサが視聴者の感情を推定するために、直接に段階６８０に進む。感情分析は、例えば、ＯｐｅｎＣＶにおけるサポートベクトルマシン（ＳＶＭ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を使用して実行され得る。より多くの情報は、米国特許第８，４８８，０２３号から見つけられ、この特許はその全体が本明細書に組み込まれる。

【0123】

１つの例において、図３Ａから図６に示す方法は、映像の継続時間または映像の視聴者カウントに関わらず、（テレビ番組および広告を含む）全ての利用可能な映像を分析する。別の例において、図３Ａから図６に示す方法は、視聴者関与度の定量分析を実行する前に、短すぎるか、視聴者カウントが少なすぎる映像を除外する予備フィルタリングを実行する。このように、定量分析は、統計的により信頼できる結果をもたらし得る。例えば、視聴時間が有限時間未満（例えば、３０秒未満、２０秒未満、または１０秒未満）の映像は除外され得る。また、有限期間（例えば、１ヶ月間、２週間、または１週間など）の視聴者が一定人数未満（例えば、２０人未満、１５人未満または１０人未満）の映像も除外され得る。

【0124】

１つの例において、図３Ａから図６に示す方法は、生放送のテレビ番組上で実行される。別の例において、図３Ａから図６に示す方法は、録画されたテレビ番組上で実行される。番組のタイミングが本来の「指作成タイムスタンプ」（例えば、テレビ局のデータベース）から１０分間より長くずれていると認識されている場合、その番組は録画視聴と判断される。そうでなければ、その番組はライブ視聴と判断される。

【0125】

コマーシャルメッセージ（ＣＭ）効果の実験的評価

【0126】

このセクションは、コマーシャルメッセージ（ＣＭ）効果管理を検証するための正確な視聴データ収集と分析について説明する。「視認性」という指数は、人が「テレビの前方」にいることを示す。視認性指数は、データを生成するこの説明および調査のために作成される。調査は２週間、３０個の家庭からの８４人をサンプルに実行した。ＣＭ曲線は、２つのシーンの間の視認率の時系列曲線を示すパターンとして定義される。シーン間のＣＭの個人視聴率は一定であり得るが、視認率は変化することがある。その結果、ＣＭ曲線には７つのパターンがあることがわかった。ＣＭの長さおよび視認率の変数がＣＭ曲線の形状に大きく寄与し得る。また、多項ロジットモデルはＣＭ曲線の判断に有用であり得る。

【0127】

この実験は、コマーシャルメッセージ（ＣＭ）、番組、人間の視聴態度の間の関係を調査した。また、実験は、上述したシステムおよび方法に特徴を付けた。放送タイミングおよびテレビ局などの番組情報と、統計的方法による視聴態度の相関は分析された。現在、日本で行われている個人視聴率調査では、テレビリモートコントロールにある色のついたボタンで人を登録し、テレビ視聴の開始時および終了時にその色のついたボタンが押される際に記録する。さらに、ピープルメータ（ＰＭ：ＰｅｏｐｌｅＭｅｔｅｒ）という指標は、テレビ視聴者が何を見たか、誰がその番組を見たかを記録するものである（ＶｉｄｅｏＲｅｓｅａｒｃｈＬｔｄ．（２０１４）："ＴＶｒａｔｉｎｇｈａｎｄｂｏｏｋ"、ＶＩＤＥＯＲ．ＣＯＭウェブサイトでＰＤＦ形式で入手可能、参照することにより本明細書に組み込まれる）。しかしながら、この視聴率調査では、たとえ視聴率を正確に捕えても、集中視聴とカジュアル視聴とを区別することはできないのが通常である。

【0128】

ＨｉｒａｋｉとＩｔｏ（Ｈｉｒａｋｉ，Ａ．＆Ｉｔｏ，Ｋ．（２０００）：Ｃｏｇｎｉｔｉｖｅａｔｔｉｔｕｄｅｓｔｏｔｅｌｅｖｉｓｉｏｎｃｏｍｍｅｒｃｉａｌｓｂａｓｅｄｏｎｅｙｅｔｒａｃｋｉｎｇａｎａｌｙｓｉｓｃｏｍｂｉｎｅｄｗｉｔｈｓｃｅｎａｒｉｏ，ＪａｐａｎｅｓｅＪｏｕｒｎａｌｏｆＨｕｍａｎＥｎｇｉｎｅｅｒｉｎｇ，Ｖｏｌ．３６，ｐｐ．２３９－２５３，ｉｎｃｏｒｐｏｒａｔｅｄｈｅｒｅｉｎｂｙｒｅｆｅｒｅｎｃｅ）は、眼球運動分析に基づく視覚情報を使用してＣＭが画像認識に与える影響を分析する方法を提案した。彼らは、視聴状況を再現した環境において、実際のＣＭを用いたＣＭ視聴実験を実行した。その結果、聴覚および視覚情報が商品理解の妨げになる可能性があることがわかった。

【0129】

この実験では、個人視聴率以外に、システムにより捕えた身体的な存在感は指標として、視聴態度を測定に使用された。例えば、人は、ＣＭ中、テレビの前方に座らずとも、席を立ち、互いに意識を向け合うことがある。そうして、ＣＭ中、視聴態度は、個人視聴率および身体的な存在感の２つの指数を使用して統計的に分析された。後者の指数は、本明細書において「視認性」と呼ばれる。

【0130】

２０１４年１１月中旬から１１月末日にかけて、３０個の家庭からの８４人を対象に視聴態度調査実験を実施した。１４日間にわたって、１日２４時間データを取得した。

【0131】

図７は、ＴＶ７０２または他のディスプレイに表示された番組または広告に対する、視聴領域内７０１の視聴者関与度を測定するデータ獲得システム７００の概略図を示す図である。システム７００は、ＴＶ７０２がオンである間に、視聴領域７０１の画像をキャプチャする画像センサ７１０を含む。また、システム７００は、画像センサ７１０からの画像データを格納および処理し、通信ネットワークを介してサーバ（図示せず）との間に生の画像データおよび／または処理された画像データを通信するコンピューティングデバイス７５０を含む。

【0132】

いくつかの場合において、コンピューティングデバイス７５０および／またはサーバは、個人視聴率の他に、視認性を測定する。視認性は「テレビの前方にいる」を示し、この用語は、テレビから約０．５ｍ～約４ｍの範囲内の距離にいて、顔がテレビの前面に向かって左右７０°の間にある視聴者について定義される。１つの例において、視認性は１秒単位で取得され、１秒間のサンプル数を全サンプル数（この場合は８４）で除算した値で示される。

【0133】

図８Ａ、図８Ｂ、図８Ｃ、図８Ｄ、図８Ｅ，図８Ｆ、図８Ｇは、視認性を個人視聴率で除算した値の遷移を示すＣＭ曲線の７つの異なる形状を示す図である。この値は、実際にテレビを見ている人の割合を示すことができる。

【0134】

ＣＭ曲線の形状にある相違点を説明するために、データの分類およびモデリングは実行され得る。この実験で採用された分析の方法は以下で議論される。まず、多項ロジットモデル（例えば、Ａｇｒｅｓｔｉ，Ａ．Ｃａｔｅｇｏｒｉｃａｌｄａｔａａｎａｌｙｓｉｓ．ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ（２０１３）は参照により本明細書に組み込まれる）をデータモデリングに採用することができる。その後、少なくともサンプルサイズ（１，０６５）が大きいため、非階層的なクラスタリングがＫ－ｍｅａｎｓ法を使用して実行され得る。次に、決定木は構築され得る。説明変数は使用され、全てのサンプルはステップワイズ・グループ化を使用して分類されている。一般に、決定木は、複数の分類ルールを木構造で表現した分類モデルである。非純度関数としてジニ係数は使用された。

【0135】

これらの方法を使用してｊしてＣＭ曲線の形状を判断する場合、ＣＭ曲線の形状判断に密接に関係する手法または変数も考慮して分析する。そうして、ＣＭ放送と実質的に同時に観測される変数も含まれ得る。

【0136】

その日の視聴率の高い時間帯からのデータは使用される。本実験において、視聴率の高い時間帯は１８：００～２４：００の６時間である。５つのテレビ局のＣＭに対する視聴態度は分析される。各テレビ局のＣＭ曲線の比率を図９に示す。

【0137】

分析において、ＣＭ曲線の形状は従属変数であり、図８Ａから図８Ｇに示すように、ＡからＧに分類される。説明変数は、ＣＭの長さ、テレビ放送局、ジャンル、番組開始からの経過時間、ＣＭの平均個人視聴率、ＣＭの平均視認率、前のシーンの平均個人視聴率、前のシーンの平均視認性、個人視聴率で除算した現在のシーンの視認率、個人視聴率で除算した前のシーンの視認率、日付および曜日である。前のシーンは、ＣＭと前のＣＭとの間のシーンを指す。

【0138】

多項ロジットモデルに基づいた判別結果を表１に示す。多項ロジットモデルでの判別率は、ランダムでの判別率より２０％高い。特にＣＭ曲線の形状がＢまたはＧの場合に判別率が高くなる。

【0139】

このモデルでは、ＣＭの長さ、テレビ局、番組開始からの経過時間、ＣＭの平均個人視聴率、視認率、個人視聴率で除算したＣＭの視認率、個人視聴率で除算した前のシーンの視認率の７つの説明変数を使用している。７つの変数のうち、ＣＭの長さおよびテレビ局が最も判別率に寄与している。

【表1】

【0140】

７つの形状の被説明変数を階層化することも可能である。階層には複数の異なる種類が考えられるが、効率的な検討のため、以下の２種類の階層を比較した。

【0141】

階層１：単調形状タイプ（Ｃ／Ｄ／Ｅ）および非単調形状タイプ（Ａ／Ｂ／Ｆ／Ｇ）。まず、極値を持たない単調形状タイプと極値を持つ非単調形状タイプとを階層化した。各グループに対して多項ロジットモデルを適用し、各グループの判別率を計算することができる。階層１の判別結果を表２に示す。単調形状タイプの判別率は５９．３４％であるが、単調形状タイプの判別率は５１．７２％であり、全体の判別率は５３．６２％であった。

【0142】

単調形状タイプと非単調形状タイプとを階層化した後、階層がない多項ロジットモデルと比較して、全体の判別率が１５％高くなった。階層がない多項ロジットモデルと比較して、ＣＭ曲線の形状による判別率の違いを正しく判断できた場合（Ｄ／Ｅ／Ｇ）と正しく判断できなかった場合（Ｃ）とがある。

【0143】

選択された説明変数は以下のとおりである。単調形状タイプでは、６つの変数、すなわち、テレビ局、番組開始からの経過時間、ＣＭの平均個人視聴率、ＣＭの視認性、前のシーンの視認性、個人視聴率で除算した前のシーンの視認性、が選択される。非単調形状タイプでは、６つの変数、すなわち、ＣＭの長さ、テレビ局、番組開始からの経過時間、ＣＭの平均個人視聴率、ＣＭの視認率、前のシーンの視認率、が選択される。階層がない多項ロジットモデルに寄与するＣＭの長さは、単調形状タイプでは選択されない。

【表2】

【0144】

階層２：単純形状タイプ（Ａ／Ｂ／Ｃ／Ｄ／Ｅ）、複雑形状タイプ（Ｆ／Ｇ）。第２に、極値を最大１つ持つ単純形状タイプと、極値を１より多く持つ複雑形状タイプを階層化することができる。階層２の判別結果を表３に示す。単純形状タイプの判別率は４６．５０％であるが、複雑形状タイプの判別率は７７．５５％であり、全体の判別率は５２．２１％であった。

【0145】

単純形状タイプについて、ＣＭの長さ、テレビ局、番組開始からの経過時間、ＣＭに対する平均個人視聴率、ＣＭの視認率、前のシーンの平均個人視聴率、視認率をＣＭの個人視聴率で除算したもの、前のシーンの視認性を平均個人視聴率で除算したもの、日付の９つの変数が選択される。さらに、複雑形状タイプについて、テレビ局の１つのみの変数が選択される。このモデルは１つの変数のみを持っているので、全てのサンプルはＦに従って分類される。単純形状タイプについて、選択された変数は、階層がない多項ロジットモデルのものと同様である。

【表3】

【0146】

説明変数を使用するクラスタ解析は実行され得る。クラスタ解析の判別結果は表４に示す。判別率は１５．７７％であり、クラスタ解析とランダム選択との判別率には違いがない。換言すれば、非階層的クラスタ解析において、ＣＭ曲線は分類され得ない。

【表4】

【0147】

図１０は、決定木を介して分類モデルを示す図である。決定木の判定結果は表５に示される。決定木の判別率は４０％である。表５から、Ｇの判別率は０％であるが、Ｄの判別率は７３％と他のＣＭ曲線より高いことがわかることができる。決定木の判別率は階層がない多項ロジットモデルの判別率よりもわずかに高い。

【0148】

図１０から、ＣＭ曲線の各形状の特性は識別され得る。形状Ａは、視認率が高い場合に発生する。形状Ｂは、視認率が低く、ＣＭの長さが長い場合に発生する。形状Ｃは、シーンの視認率が前のシーンの視認率とあまり変わらない場合に発生する。形状Ｄは、視認率が低く、ＣＭの長さが短い場合に発生する。形状Ｅは、前のシーンの視認率が低く、ＣＭの長さが短い場合に発生する。形状Ｆは、シーンの視認率が低いが、前のシーンの視認率が高い場合に発生する。

【表5】

【0149】

比較および考慮
判別率は、各方法によって表６に要約されている。階層化１の方法は、全ての方法の中で最も高い割合となっている。しかしながら、被説明変数が階層化されたため、接続全体を証明するのは不可能である。

【表6】

【0150】

階層がない多項ロジットモデルの判別率は決定木の率とほぼ同じである。決定木は、視認率が固定値より高いかどうかによって判断されるため、直感的に理解されるのは困難であり、固定値は再現されない。したがって、ＣＭ曲線を判断する最も適切な方法は階層がない多項ロジットモデルである。

【0151】

全ての方法において、ＣＭの長さの変数および視認率はＣＭ曲線を判断することに最も多く寄与している。したがって、テレビ視聴態度は、番組のジャンルおよび放送時間に依存しないが、ＣＭの長さおよび現在および前のシーンの視認率に依存する。

【0152】

これらの５つの方法において、ＣＭの長さの変数および視認率は、ＣＭ曲線の判断に大きく寄与している。そこで、１）ＣＭの長さと視認率との関係、２）どのような状況で視認率が高くなるのか、の２点に関して考慮する。

【0153】

ＣＭの長さと視認率との関係は図１１に示す。一般に、ＣＭの長さが短いほど、視認率が高くなる。人は興味がなくなるとテレビを見ることを停止するため、ＣＭが長いほど、視認率が低くなる。

【0154】

さらに、どのような状況が高い視認率につなげるかは調査された。番組が開始後（ジャンルに依存する）わずかな時間が経過する場合、視認率が高い。表７に示すように、各ジャンルの平均視認率の間には顕著な差があることがわかる。新しい番組の視認率が低いが、映画および音楽の視認率が高い。図１２は、番組開始からの経過時間と視認率との間の相関を示す図である。図１２から、番組が開始してからの経過時間がより短い場合、視認率がより高いことがわかることができる。

【表7】

【0155】

本実験研究は、本発明のハードウェアおよびソフトウェアコンポーネントの例示的な実施形態を使用し、ＣＭ、番組、および人間の視聴態度の間の関係を解明するものである。ＣＭ曲線を判断するための最も適切な方法は多項ロジットモデルである。

【0156】

ＣＭ中に観測できる変数は分析され、ＣＭ曲線とこれらの変数との関係は検証される。採用された全ての方法において、ＣＭの長さの変数および視認率はＣＭ曲線を判断することに最も多く寄与している。単調形状タイプの判別率が高いため、変化なしでも変化ありでも識別がより容易である。換言すれば、ＣＭ曲線の形状はジャンルおよび日付などの番組特徴に関連しない。これは、ＣＭ放送時間が長いほど、視聴者が見飽きることを示めす。また、番組の前のシーンが視聴者にとって面白くないであると、視聴者は次のＣＭを見ない。

【0157】

視聴者関与度データのアプリケーション

【0158】

図１３は、本明細書に記載の方法およびシステムを使用して取得されたデータの通信のシステムを示す図である。システム１３００は、運動感知デバイスを通じてテレビ視聴者パネルから取得された生データ１３１０を格納し、処理し、これは、限定はしないが、デスクトップマシンなどのコンピューティングデバイス１３２０に転送される。その後、視聴者関与度を評価の方法は、例えば、データを分析および処理するデスクトップマシン上に実行され得る。方法は、分析後のデータを、（１）誰が本当にテレビを見ているのか（誰が視聴者であるか）、（２）視聴者メンバがテレビを見る頻度、（３）テレビ番組および広告に対する視聴者の反応を判断することに使用され得るパフォーマンスベースのテレビ視聴率データに変換する。この処理されたおよび／または要約されたデータは、次に、テレビ広告代理店１３４０、テレビネットワーク１３５０、およびデータが有用であると考えられる任意の他の潜在的クライアント１３６０を含むがこれに限定されない第三者が、収集エンティティのクライアント用に特に開発された、収集エンティティのソフトウェア、アプリケーション・プログラミング・インタフェース、またはウェブポータルを通じて、いつでもデータに便利にアクセスできる、サーバなどの中央ストレージ位置１３３０に、クラウド上で転送される。代替的に、ハードウェアコンポーネントのセンサによって収集された生データ１３１０は、インターネット接続を介して直接または間接的にクラウド上の中央ストレージ１３３０に転送され、そこでソフトウェアコンポーネントによって分析され、関心のある第三者１３４０～１３６０が利用できるようにされる。第三者は、システムを介して任意選択的に生データにアクセスすることができる。

【0159】

図１４は、本明細書に記載のシステムおよび方法によって取得および分析されたデータを利用することができる例示的なシステム１４００の基本要素を示す図である。収集エンティティ１４３０（例えば、ＴＶｉｓｉｏｎＩｎｓｉｇｈｔｓ）は、補償またはボランティアと引き換えに、図１に描かれたハードウェアコンポーネントの配置をテレビ視聴率データ収集の目的で彼らの家庭内のテレビの上に配置するようにすることを許可するパネルメンバ１４１０（例えば、家庭成員）に補償を与えてもよい。パネルメンバは、クレジットカード取引データ、人口統計学的および社会経済学的情報、ソーシャルメディアアカウントのログイン、タブレット、スマートフォン、およびその他のデバイスからのデータなどを含むが、これらに限定されない追加の情報１４２０の提供を求められることがある。このデータは収集され、映像およびＩＲ画像は図１に描かれたシステムにより記録され、映像は図２Ａから図６に記載の方法によって分析され得る。分析されると、映像を説明するデータは、次にデータを広告主１４４０、テレビ局１４６０、テレビ代理１４５０および他の関心のある第三者に販売、またはそうでなければ、提供し得る収集エンティティ１４３０に送信され得る。収集エンティティ１４３０は任意選択的に、個別の分析のために生の収集されたデータへのアクセスを提供してよい。開示されたビジネスモデルの一部として、収集エンティティ１４３０は、広告主１４４０がそれらのテレビ代理１４５０にこのデータを購入するように促す動機付けを行うことができる。

【0160】

図１５は、視聴者関与度を評価の方法において取得されたデータに基づいたビッグデータ分析および可視化を示す図である。これらのモデリング１５００において、図１５に示す収集エンティティ１５２０（例えば、ＴＶｉｓｉｏｎＩＮＳＩＧＨＴＳ）は、テレビを有する家庭１５１０からデータを収集することができる。その見戻りとして、参加家庭１５１０は、収集エンティティ１５２０から金銭的補償（または他の利益）を受けることができる。その後、収集エンティティ１５２０は、ビッグデータ分析１５３０ａおよび可視化技術１５３０ｂを使用して参加家庭から収集されたデータを分析して、あるテレビ番組または広告の効果などの情報を導出する。その後、このデータは、広告主、広告代理、テレビ局または他のコンテンツプロバイダ若しくはプロモータ（集合的に顧客１５４０と呼ばれる）に提供されて、それらに番組の効果を改善するように指示し得る。１つの例において、顧客１５４０は、このデータサービスを月額使用料で収集エンティティ１５２０をサブスクライブすることができる。別の例において、顧客１５４０は、特定の映像（例えば、キャンペーン映像、スポーツイベントでの特別広告など）に関するデータを収集エンティティ１５２０から購入し得る。

【0161】

図１６は、視聴者関与度データ収集に参加する個人および家庭（テレビ視聴者）からの追加の情報１６００の集合の例を示す図である。テレビ視聴者は、関心のある第三者に有用である国および／または地域の人口動態を表し得る。収集エンティティは、映像データ１６１０および人口統計学的情報を収集し、システムによって集められたデータでパッケージ化され、テレビ視聴率に関する方法によって分析され、この情報を顧客に提供して補償を得ることができる。テレビ視聴者から収集され得る情報の例は、とりわけ、Ｔｗｉｔｔｅｒ（登録商標）、Ｉｎｓｔａｇｒａｍ、フェイスブック（登録商標）などの、これらに限定されないソーシャルメディアプロフィール１６２０を通じて取得され得る任意のまたは全ての情報を含む。情報はさらに、システムから取得された映像データおよび音声データ１６４０（テレビの音声および家庭内の個人から発される会話などの音声の両方を含む）、スマートフォンおよびタブレットの検索習慣、インターネットの検索履歴、電子メールアカウント情報、およびクレジットカード取引データ１６５０を含むマルチスクリーンデータ１６３０をさらに含むことができる。このリストは全てを網羅するものではなく、限定的に解釈されるべきものではない。

【0162】

収集された情報およびデータにより、これまでにない広告主にとって価値のある個人のデモグラフィックの測定を含む、収集エンティティはテレビ広告の影響を正確に評価することが可能になる。広告主は、データを使用してどの広告スロットがそれらのターゲットとする視聴者にとって最適であるかを判断することができる。また、視聴者のタイプに合ったメッセージを発信することで、効果的に購買行為につなげることができ、広告主の投資収益率（ＲＯＩ）を向上させることができる。

【0163】

また、テレビネットワークは、それらのテレビ番組の評価、視聴者のタイプ、反応、広告スロットの予測値などをより正確に得ることができるようになるため、開示の発明の利益を受けることができる。これにより、特定のターゲット人口統計学的層にとって最も価値の高い広告スロットを判断することに加え、視聴者のタイプに合わせた番組の改善および不人気の番組の排除が可能になる。また、データは、番組および広告の比較評価のための、同じまたは異なる時間帯に複数のチャネルで番組を比較することに使用され得る。同様に、テレビの視聴者データおよび行動を収集し、任意の所与の番組時間帯のストリーミングコンテンツと比較することができる。また、テレビパイロット番組は、本システムを使用して評価した上で、エピソードを発注することができる。図１７および図１８を参照した別の実施形態において、本発明の別の態様は、視聴された特定の番組または広告、およびそれが視聴されたプラットフォームまたはサービスを識別する能力を含む。この態様から、コンテンツを再生しているストリーミングサービス（例えば、Ｎｅｔｆｌｉｘ（登録商標）、Ｈｕｌｕ（登録商標）、Ｐａｒａｍｏｕｎｔ＋など）を特定することができる。この態様では、サービスが実行されているプラットフォーム（例えば、ＡｍａｚｏｎＦｉｒｅｓｔｉｃｋ、ＳａｍｓｕｎｇスマートＴＶ、ＡｐｐｌｅＴＶなど）、およびストリーミングセッションの開始、終了、一時停止、または再開の時刻も特定される。これは、測定装置１０５上で動作するソフトウェアモジュール１７０２によって部分的に達成される。モジュール１７０２は、映像ストリームの品質への影響を最小限に抑えながら、ストリーミングサービスからアウトバンドされるネットワークパケットを収集および観測する。モデルは、収集された実データのうちの大部分に対して訓練されている。これらのデータは、ストリーミングアプリからアウトバンドされたイーサネット（登録商標）パケットで、回答者が行った行為、また、ストリーミングアプリの様々な状態を回答者がログに記録している。回答者が行う行為には、以下のようなものが含まれる。
ａ．ストリーミングデバイスをオンにする
ｂ．デバイス上のストリーミングアプリケーションを開始する
ｃ．アプリケーション内のいくつかのコンテンツを選択する
ｄ．再生ボタンを押す
ｅ．コンテンツが再生されている間に一時停止ボタンを押す
ｆ．再生を再開する
ｇ．ホーム画面にナビゲートし戻る
回答者が記録したアプリケーション状態は、次のとおりである。
ｈ．ディスプレイ上のホーム画面
ｉ．アプリケーションのロゴが表示されている
ｊ．アプリケーションが開始された
ｋ．コンテンツ導入
ｌ．コンテンツが再生されている
ｍ．広告が再生されている
回答者がストリーミングアプリケーションでコンテンツを視聴しているときに取得したパケットと、回答者が記録した行為およびアプリケーション状態のログを使用して、アクティブなストリーミングアプリケーションを予測することができるモデルをもたらす。また、ストリーミングアプリケーションが再生、一時停止、再開などの間の状態遷移を行う時刻も利用可能である。モジュール１７０２はさらに、パネリストの家庭から収集したネットワークパケットデータに上記のモデルを適用し、任意の時点でアクティブだったストリーミングアプリケーション、ストリーミングアプリケーションが実行されていたデバイス、およびストリーミングアプリケーションがその時点で有していた状態（停止、再生、一時停止）を予測する。この分析により、任意のストリーミングコンテンツを視聴した各パネル家庭に対して、経時的昇順に並べた時系列を得る。この時系列データは、次に、モジュール１７０２によって判断されたように、全く同時にパネリストのテレビで再生されていることが検出されたコンテンツ、および視聴者の識別情報とテレビ上のコンテンツに払っていた注意のレベルと結合し、どの人口統計学的層がどのストリーミングアプリケーションをどのストリーミング対応デバイスでどのストリーミングコンテンツを視聴していたかを定義する説明を秒単位で得るために利用される。図１７はローカルデバイス１０５上のデータ収集を示す図である。ローカルデバイス１０５はまず、家庭において、様々なストリーミング対応デバイス１７０６がアクティブであることを発見する。この後：
１．一実施形態において、パケット検査モジュール１７０２は、ＡＲＰポイズニングを使用して、家庭内のインターネットゲートウェイとしてその自体を偽装する。ＡＲＰポイズニングは、促進する方法の一例であるが、他にも多くの方法が可能である。この時点で、ローカルデバイス１０５は、その位置のインターネットゲートウェイとして見られるが、そこからデータを収集する必要があるストリーミングデバイスに対してのみである。
２．ＡＲＰポイズニングの結果として、ゲートウェイに送信されると仮定されたストリーミングデバイスからの任意のパケットは、代わりにローカルデバイス１０５に送信される。
３．パケット検査モジュール１７０２は、これらのパケットに含まれるコンテンツを解析し、アウトバンド情報を記録する。通常、これらのパケットは暗号化されるが、利用可能な情報は以下を含む：
ａ．ＩＰヘッダ
ｂ．ＴＣＰヘッダ
ｃ．ルックアップ要求
ｄ．ＴＬＳハンドシェイクパケット
上記のアウトバンド情報は、ローカルデバイス１０５で利用可能であり、パケットを観測した時刻と共に記録される。
４．ネットワークパケットで利用可能な情報を記録した後、ローカルデバイス１０５は、その情報を「実」ゲートウェイ１７０８に転送する。
５．ゲートウェイ１７０８は、パケットをインターネット１７１０を介してその送信先（図示せず）に転送する。
６．その後、応答はゲートウェイ１７０８（「６」に示すように）によって受信される。
７．応答パケットは、遅延のためにストリーム品質がバッファリングされないことを保証するために、ゲートウェイを介してルーティングされていない。それは直接ストリーミングデバイス１７０６（「７」に示すように）に進む。ほとんどの場合、このパケットは、ディスプレイデバイス１７０４に表示されるべきストリーミングコンテンツを含む。
パケットの取得および転送
パケットの取得プロセスにおける第１の段階は、パネリスト家庭にあるストリーミング対応デバイスを発見する段階である。このプロセスは、モジュール１７０２が、ストリーミング対応デバイス１７０６によってブロードキャストされるｍＤＮＳパケットをリッスンする際に実行される。また、この発見プロセスは、ストリーミングデバイスのＩＰを得る。一実施形態において、ストリーミングデバイスのＩＰが取得されると、そのストリーミングデバイスのＭＡＣアドレスはＡＲＰテーブルにおけるルックアップを通じて取得される。一実施形態において、パケットの取得または方向転換処理は、ＡＲＰ偽装を使用して開始される。これは、イーサネット（登録商標）プロトコルの特徴を活用し、それに従って、ネットワーク上の各ホストが他のホストと通信するために、他のホストのＭＡＣアドレスを知っていなければならない。これらのホストが他のホストのＭＡＣアドレスを発見する唯一の方法は、他のホストにＭＡＣアドレスを尋ね、他のホストが返信したものが正確であることを信じることである。本明細書で説明したようなパケット方向転換処理を使用して、パケット検査部１７０６は、ローカルデバイス１０５のＭＡＣアドレスがインターネットゲートウェイ１７０８のものであると対象ストリーミングに確信させる。ここで、対象ストリーミングデバイス１７０６は、ローカルデバイス１０５のＭＡＣが実際にはインターネットゲートウェイ１７０８のＭＡＣアドレスであると確信しているので、インターネットゲートウェイ１７０８に向けられた全てのパケットを代わりにローカルデバイス１０５に送信する。このように、ローカルデバイス１０５上で実行しているモジュール１７０２は、ストリーミングデバイス１７０６から出ていく全てのパケットを検査し得る。モジュール１７０２はパケットを検査したと、それを家庭内のインターネットゲートウェイ１７０８に転送する。特に、１秒間に複数の映像フレームに対してコンピュータビジョンアルゴリズムを実行し、パケットヘッダを検査し、いくつかの場合において、コンテンツも検査するような高度な計算集約型のタスクを常に実行しているローカルデバイス１０５を介して、発信パケットに余分のホップを導入することにより、ストリーミングデバイス１７０６からのアウトバンドパケットの遅延が増加する可能性がある。この遅延は、パケット再送を引き起こし得、さらに最終的にはストリーミングデバイス１７０６がストリームの再生を継続するのに十分なデータを持たないという結果をもたらす。図１８を参照して、カーネル１８０４は図示されている。カーネル１８０４はデバイスソフトウェア１０５の一部である。このような上述の遅延シナリオの発生を防止するために、１８０４に示すカーネルソフトウェアを含むデバイス１０５ソフトウェアは、（一実施形態においては）ＸＤＰ（ＥｘｔｅｎｄｅｄＤａｔａＰａｔｈ）技術を活用する。これにより、モジュール１７０２を含むデバイス１０５のソフトウェアは、パケットがＴＣＰスタックを横断する前に、受信パケットを解析し、カーネル１８０４内で必要なデータを正しく収集することができる。ＴＣＰスタックを横断する代わりに、パケットは、カーネル１８０４から直接インターネットゲートウェイに転送される。その結果、これらのパケットは、ユーザ空間１８０２のコードによって処理される必要がない。パケットを検査する手段としてＸＤＰを使用することで、ＴＣＰスタックを横断し、またはデータをユーザアドレス空間に渡したりするオーバーヘッドを回避する。このパケット検査の手法は非常に効果的で、デバイス１０５のソフトウェアは、ストリームの品質に有害な影響を引き起こすことなく、複数のストリーミングデバイス１７０６からのパケットを同時に監視することができる。パケットデータの高速観測のための重要な改善点は、カーネルデータ構造内に集約されたデータを保持し、ユーザ空間プログラムが所与の頻度、通常１秒でカーネルをポーリングし、それらのデータポイントの最新値を収集することである。ユーザ空間１８０２プログラムは、各データポイントについて収集した前値と、カーネルから読み取った新しい値とを使用して、前回カーネルをポーリングしたときからそのデータポイントについての値のデルタを判断することができる。この方法は、ユーザ空間プログラムが全ての受信パケットからのデータを観測する必要を回避する。集約されたデータの一例は、ストリーミングデバイスから特定のＩＰおよびポートへのアウトバンドであるパケットのカウントである。再び図１８を参照すると、カーネル１８０４のＸＤＰフックが、段階（１）で受信パケットデータを読み取る。パケットヘッダを見ることによって、ＸＤＰフックは、パケットがゲートウェイ１７０８のためのものであるか、またはローカルデバイス１０５が確かにパケットの意図された受信先であるかどうかを判断する。ローカルデバイス１０５が意図された受信先である場合、ＸＤＰフックはデータを通常のＴＣＰスタック上に設置し、最終的には意図されたユーザプロセスへパケットを配信する。しかしながら、パケットが代わりにゲートウェイ１７０８向けである場合、ＸＤＰプログラムはまずそのカーネルデータ構造内のデータを更新し、次にアウトバンドＭＡＣアドレスをインターネットゲートウェイ１７０８のＭＡＣアドレスに変更し、パケットをＴＸ（送信）キューに乗せる。
データ収集
ほとんどのパケットコンテンツは暗号化されているため、モジュール１７０２は以下のデータポイントに着目し、各パケットから抽出する。
パケットがＴＣＰパケットであるが、ＴＬＳハンドシェイクパケットでない場合、抽出される情報は
送信先ＩＰ
ソースポート
送信先ポート
を含み、
パケットがＴＣＰパケットであり、「ｃｌｉｅｎｔｈｅｌｌｏ」ＴＬＳハンドシェイクパケットであると、ソフトウェアは、
送信先ＩＰ
ソースポート
送信先ポート
サーバ拡張からのサーバ名
を抽出し、
パケットがＵＤＰパケットであり、送信先が標準ＤＮＳポートであると、ソフトウェアは、パケットがＤＮＳの名前問い合わせを含み、
検索中のサーバ名
を抽出すると仮定する。上述したデータは、モジュール１７０２による参加でローカルデバイス１０５によって収集される。このデータはその後にローカルデバイス１０５によってリモートデータ処理サーバ１７０にアップロードされる。一実施形態において、アップロードされたデータの処理は、逆ＤＮＳの検索を実行することによって各ＩＰをその自体の組織にマッピングする段階を含む。例えば、逆ＤＮＳの検索は、当該ＩＰがｈｕｌｕ．ｃｏｍなどのストリーミングサービス、またはＡｋａｍａｉなどのＣＤＮサービスに属していることを示してよい。ＩＰが、ＩＰを所有する組織名に置き換えられたと、
様々なサービスへの全てのアウトバンドパケットの秒数
ＤＮＳ検索の秒数
ＴＬＳ接続が確立されたサーバ名
を含むデータは事前に訓練された予測モデルに供給される。そして、このモデルは、特定の家庭でデバイス１７０６を使用してコンテンツがストリーミングされた１秒ごとに、ストリーミングデバイス、ストリーミングサービス、およびストリーミングアプリの状態（前述のとおり）を判断する。

【0164】

本明細書では様々な発明的実施形態が説明および図示されたが、当業者であれば、本明細書に記載の機能を実行、および／または結果並びに／若しくは利点のうちの１つまたは複数を得るための様々な他の手段および／または構造を容易に想到し、このような変形および／または修正のうちの各々は、本明細書に記載の発明的実施形態の範囲内にあるとみなされるであろう。より一般的には、当業者は、本明細書に記載された全てのパラメータ、寸法、材料、および構成が例示的なものであることを意味し、実際のパラメータ、寸法、材料、および／または構成は、本発明の教示が用いられる／用いられる特定の用途またはアプリケーションに依存するであろうことを容易に理解するであろう。当業者は、わずかな通常の実験を使用して、本明細書に記載の複数の特定の発明の実施形態と同等の多くのことを認識し、または解明できるようになるだろう。したがって、前述の実施形態は例示としてのみ提示されており、添付の特許請求の範囲およびその均等物の範囲内で、発明的実施形態は、具体的に説明および主張されたものとは別に実施され得ることを理解されたい。本開示の複数の発明の実施形態は、本明細書に記載の個々の特徴、システム、物品、材料、キット、および／または方法を対象とする。また、このような特徴、システム、物品、材料、キット、および／または方法が相互に矛盾しないのであれば、２つ以上のこのような特徴、システム、物品、材料、キット、および／または方法の任意の組み合わせが、本開示の発明範囲内に含まれる。

【0165】

上記の実施形態は、多数の方法のうちのいずれに実装され得る。例えば、本明細書に開示された技術の設計および製造の実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせを使用して実装することができる。ソフトウェアで実装された場合、ソフトウェアコードは、単一のコンピュータに提供されているか、または複数のコンピュータに分散されているかに関わらず、任意の適切なプロセッサまたはプロセッサの集合体で実行することができる。

【0166】

さらに、コンピュータは、ラックマウントコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、またはタブレットコンピュータなど、多数の形態のいずれかで具現化され得ることを理解されたい。さらに、コンピュータは、パーソナルデジタルアシスタント（ＰＤＡ（登録商標）：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、スマートフォン、またはその他の適切な携帯型若しくは固定型の電子デバイスなど、一般にコンピュータとみなされないが適切な処理能力を有するデバイスに組み込まれてもよい。

【0167】

また、コンピュータは１つまたは複数の入力デバイスおよび出力デバイスを持つことがある。これらのデバイスは、とりわけ、本発明のユーザインタフェースに使用され得る。ユーザインタフェースを提供することに使用できる出力デバイスの例としては、出力の視覚的表現のためのプリンタまたはディスプレイスクリーン、出力の聴覚的表現のためのスピーカまたは他のサウンド生成デバイスが挙げられる。ユーザインタフェースに使用できる入力デバイスの例としては、キーボード、およびマウス、タッチパッド、デジタル化タブレットなどのポインティングデバイスが挙げられる。別の例として、コンピュータは、スピーチ認識または他の可聴形式によって入力情報を受け取ることができる。

【0168】

このようなコンピュータは、企業ネットワーク、インテリジェントネットワーク（ＩＮ：ｉｎｔｅｌｌｉｇｅｎｔｎｅｔｗｏｒｋ）またはインターネットなどのローカルエリアネットワークまたはワイドエリアネットワークを含む任意の適切な形態の１つまたは複数のネットワークによって相互接続されてもよい。このようなネットワークは、任意の適切な技術に基づくことができ、任意の適切なプロトコルに従って動作することができ、無線ネットワーク、有線ネットワークまたは光ファイバーネットワークを含むことができる。

【0169】

本明細書で概説した様々な方法またはプロセスは、様々なオペレーティングシステムまたはプラットフォームのうちの任意の１つを採用する１つまたは複数のプロセッサ上で実行可能なソフトウェアとしてコード化することができる。さらに、このようなソフトウェアは、多数の適切なプログラミング言語および／または番組若しくはスクリプトツールのいずれかを使用して書き込まれてもよく、また、フレームワークまたは仮想マシン上で実行される実行可能な機械語コードまたは中間コードとしてコンパイルされてもよい。

【0170】

この点、様々な発明概念は、１つまたは複数のコンピュータまたは他のプロセッサ上で実行されると、上述した本発明の様々な実施形態を実施する方法を実行する１つまたは複数のプログラムを符号化したコンピュータ可読記憶媒体（または複数のコンピュータ可読記憶媒体）（例えば、コンピュータメモリ、１つまたは複数のフロッピーディスク、コンパクトディスク、光ディスク、磁気テープ、フラッシュメモリ、フィールドプログラマブルゲートアレイまたは他の半導体デバイスにおける回路構成、または他の非一時的媒体または有形コンピュータ記憶媒体）として具現化することもできる。コンピュータ可読媒体または媒体は、その上に格納されたプログラムまたはプログラムを１つまたは複数の異なるコンピュータまたは他のプロセッサにロードして、上述した本発明の様々な態様を実施できるように、移動可能であることができる。

【0171】

「プログラム」または「ソフトウェア」という用語は、本明細書では、上述したような実施形態の様々な態様を実装するためにコンピュータまたは他のプロセッサをプログラムするために採用することができる任意のタイプのコンピュータコードまたはコンピュータ実行可能な命令のセットを指す一般的な意味で使用されている。さらに、一態様によれば、実行されたときに本発明の方法を実行する１つまたは複数のコンピュータプログラムは、単一のコンピュータまたはプロセッサ上に存在する必要はなく、本発明の様々な態様を実施するために多数の異なるコンピュータまたはプロセッサの間でモジュール方式で分散されてもよいことを理解されたい。

【0172】

コンピュータ実行可能な命令は、１つまたは複数のコンピュータまたは他のデバイスによって実行されるプログラムモジュールなど、多くの形態であってもよい。概して、プログラムモジュールには、特定のタスクを実行するか、または特定の抽象データ型を実施する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。典型的には、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせ、または分散させることができる。

【0173】

また、データ構造は、任意の適切な形態でコンピュータ可読媒体に格納することができる。図示を簡単にするために、データ構造は、データ構造内の位置によって関連するフィールドを持つように示されていることがある。このような関係は、フィールド間の関係を示すコンピュータ可読媒体上の位置をフィールドに対するストレージに割り当てることによっても同様に達成され得る。しかしながら、データ構造のフィールドの情報間の関係を確立するために、ポインタ、タグ、またはデータ要素間の関係を確立する他のメカニズムの使用など、任意の適切なメカニズムを使用することができる。

【0174】

また、様々な発明概念は、１つまたは複数の方法として具現化することができ、その例が提供されている。方法の一部として実行される複数の処理は、任意の適切な方法において順序づけられ得る。したがって、複数の実施形態は、複数の処理が図示されたのと異なる順序で実行され、また、複数の例示の実施形態において、複数の続いて起こる処理として示されていても、同時にいくつかの処理を実行することも含み得る。

【0175】

本明細書で定義され使用される全ての定義は、辞書の定義、参照により組み込まれる文書における定義、および／または定義された用語の通常の意味を支配すると理解されるべきである。

【0176】

本明細書において使用されるように、本明細書および特許請求の範囲で使用される不定冠詞「ａ」および「ａｎ」は、明確に反対の指示がない限り、「少なくとも１つ」を意味すると理解されるべきである。

【0177】

本明細書において使用されるように、本明細書および特許請求の範囲で使用される「および／または」という語句は、そのように結合された要素の「いずれかまたは両方」、すなわち、ある場合には接続的に存在し、他の場合には接続的に存在する要素を意味すると理解されるべきである。「および／または（ａｎｄ／ｏｒ）」で列挙される複数の要素は、同じ方法で、すなわち結合される複数の要素の「１つまたは複数（ｏｎｅｏｒｍｏｒｅ）」と解釈されるべきである。具体的に識別された複数の要素に関連しまたは関連しなくても、「および／または（ａｎｄ／ｏｒ）」の表現により具体的に識別された複数の要素の他に、複数の他の要素が任意選択的に存在し得る。従って、非限定的な例として、「Ａおよび／またはＢ（Ａａｎｄ／ｏｒＢ）」の言及は、「備える（ｃｏｍｐｒｉｓｉｎｇ）」等のオープンエンド（非制限的）な文言と共に用いられる場合、ある実施形態においては、Ａのみを指し（Ｂ以外の複数の要素を任意選択的に含む）、別の実施形態においては、Ｂのみを指し（Ａ以外の複数の要素を任意選択的に含む）、また別の実施形態においては、ＡとＢの両方を指す（他の要素を任意選択的に含む）等を指す。

【0178】

本明細書において使用されるように、本明細書および特許請求の範囲で使用される場合、「または」は、上記で定義される「および／または」と同じ意味を有すると理解されるべきである。例えば、複数の物品をリストに分離している場合、「または（ｏｒ）」または「および／または（ａｎｄ／ｏｒ）」は、含まれるものと解釈すべきである、すなわち、多数のまたは列挙された要素および任意選択的には、列挙されていない追加の物品のうち、少なくとも１つを含むが、１つまたは複数をも含む。「ｏｎｌｙｏｎｅｏｆ」若しくは「ｅｘａｃｔｌｙｏｎｅｏｆ」、または特許請求の範囲で使用される場合は「ｃｏｎｓｉｓｔｉｎｇｏｆ」など、明確に反対を示す用語のみが、要素の数またはリストのうち正確に１つの要素を含むことを指す。一般に、本明細書において使用されるように、用語「または（ｏｒ）」は、「ｅｉｔｈｅｒ」、「ｏｎｅｏｆ」、「ｏｎｌｙｏｎｅｏｆ」、または「ｅｘａｃｔｌｙｏｎｅｏｆ」のような排他性の用語が先行する場合にのみ、排他的代替（すなわち、「ｏｎｅｏｒｔｈｅｏｔｈｅｒｂｕｔｎｏｔｂｏｔｈ」）を示すものとして解釈されるものとする。特許請求の範囲において使用される場合、「Ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ」は、特許法の分野で使用される通常の意味を有するものとする。

【0179】

本明細書において使用されるように、本明細書および特許請求の範囲で使用される場合、１つまたは複数の要素のリストに言及する「少なくとも１つ」という語句は、要素のリスト内の任意の要素のうちの１つまたは複数から選択される少なくとも１つの要素を意味すると理解されるべきであるが、必ずしも要素のリスト内に具体的にリストされた各々および全ての要素のうちの少なくとも１つを含む必要はなく、要素のリスト内の要素の任意の組み合わせを除外しないものとする。また、この定義により、「少なくとも１つ（ａｔｌｅａｓｔｏｎｅ）」の表現が指す、複数の要素のリスト内に具体的に特定された複数の要素の他に、具体的に識別された複数の要素に関連しまたは関連しなかろうが、複数の要素が任意選択的に存在することが可能となる。従って、非限定的な例として、「ＡとＢのうち少なくとも１つ（ａｔｌｅａｓｔｏｎｅｏｆＡａｎｄＢ）」（または、「ＡまたはＢのうち少なくとも１つ（ａｔｌｅａｓｔｏｎｅｏｆＡｏｒＢ）」と同じく、または「Ａおよび／またはＢのうち少なくとも１つ（ａｔｌｅａｓｔｏｎｅｏｆＡａｎｄ／ｏｒＢ）」と同じく）は、ある実施形態においては少なくとも１つ、任意選択的には１よりも多くの、Ａがあるが、Ｂが存在しない（および任意選択的に、Ｂ以外の複数の要素を含む）、別の実施形態においては、少なくとも１つ、任意選択的には１よりも多くの、Ｂがあるが、Ａが存在しない（および任意選択的に、Ａ以外の複数の要素を含む）、また別の実施形態では、少なくとも１つ、任意選択的には１つよりも多くの、Ａ、１よりも多くの、Ｂ（任意選択的に複数の他の要素を含む）等を指し得る。

【0180】

特許請求の範囲において、上記明細書と同様に、「ｃｏｍｐｒｉｓｉｎｇ」、「ｉｎｃｌｕｄｉｎｇ」、「ｃａｒｒｙｉｎｇ」、「ｈａｖｉｎｇ」、「ｃｏｎｔａｉｎｉｎｇ」、「ｉｎｖｏｌｖｉｎｇ」、「ｈｏｌｄｉｎｇ」、「ｃｏｍｐｏｓｅｄｏｆ」などの全ての経過的表現は、オープンエンドであること、すなわち、含むがこれに限定されないことを意味すると理解されるものである。ただし、ＵｎｉｔｅｄＳｔａｔｅｓＰａｔｅｎｔＯｆｆｉｃｅＭａｎｕａｌｏｆＰａｔｅｎｔＥｘａｍｉｎｉｎｇＰｒｏｃｅｄｕｒｅｓ、Ｓｅｃｔｉｏｎ２１１１．０３にあるとおり、「成る（ｃｏｎｓｉｓｔｉｎｇｏｆ）」および「から本質的に成る（ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ）」という移行句のみが、それぞれクローズドまたはセミクローズドな移行句である。
［他の可能な項目］
［項目１］
ディスプレイに表示されている映像に対する視聴者関与度を定量化する方法であって、前記方法は、
回答者家庭における前記ディスプレイに前記映像が表示されている間に、前記ディスプレイ前方の視聴領域の画像を少なくとも１つのカメラで取得する段階であって、回答者家庭は、前記回答者家庭における１人または複数の回答者が対話することを選択した測定装置の位置である、段階と、
前記ディスプレイに結合されたスピーカによって発せられる前記映像のサウンドトラックを表す音声データをマイクロフォンで取得する段階と、
前記音声データに少なくとも部分的に基づいて、前記映像の識別情報を、前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合されたプロセッサで判断する段階と、
ストリーミングされたコンテンツを再生している前記家庭内のストリーミングサービスの識別をプロセッサで判断する段階と
を備える方法。
［項目２］
前記ストリーミングサービスが実行されているプラットフォームを前記プロセッサで判断する段階をさらに備える、項目１に記載の方法。
［項目３］
ストリーミングセッションが開始、終了、一時停止、および再開する時間を前記プロセッサで判断する段階をさらに備える、項目１に記載の方法。
［項目４］
前記プロセッサで、ストリーミングコンテンツを再生している家庭内のストリーミングサービスの識別を判断する段階は、前記プロセッサのパケット検査モジュールによって実行されるデータパケットリダイレクションを含む、項目１に記載の方法。
［項目５］
パケットリダイレクションは、その自体を家庭内のインターネットゲートウェイとして偽装するパケット検査モジュールを含む、項目４に記載の方法。
［項目６］
前記パケット検査モジュールは、パケットを傍受し、パケット内のコンテンツを解析する、項目５に記載の方法。
［項目７］
前記パケット内のコンテンツを解析することは、アウトバンドパケット情報を記録することと、前記パケットが傍受された時間を記録することとを含む、項目５に記載の方法。
［項目８］
前記アウトバンドパケット情報を記録した後、前記パケットをその元の宛先に転送する、項目７に記載の方法。
［項目９］
前記インターネットゲートウェイで応答パケットを受信する段階をさらに備え、前記応答パケットは前記インターネットゲートウェイを介してルーティングされず、むしろ適切なストリーミングデバイスに直接ルーティングされている、段階をさらに有する、項目８に記載の方法。
［項目１０］
ディスプレイに表示した映像に対する視聴者関与度を定量化するためのシステムであって、前記システムは、
回答者家庭に常駐するローカルデバイスであって、前記ローカルデバイスは、パケット検査モジュールを含む、複数のプロセスを実行するプロセッサを有し、前記ローカルデバイスは、
回答者家庭における前記ディスプレイに前記映像が表示されている間に、前記ディスプレイ前方の視聴領域の画像を少なくとも１つのカメラで取得することであって、回答者家庭は、前記回答者家庭における１人または複数の回答者が対話することを選択した測定装置の位置である、取得することと、
前記ディスプレイに結合されたスピーカによって発せられる前記映像のサウンドトラックを表す音声データをマイクロフォンで取得することと、
前記音声データに少なくとも部分的に基づく前記映像の識別情報を、前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合されたプロセッサで判断することと、
ストリーミングされたコンテンツを再生している家庭内のストリーミングサービスの識別を前記プロセッサで判断する、ことと
を少なくとも含む命令を実行する、ローカルデバイスを備えるシステム。
［項目１１］
実行される前記命令は、ストリーミングサービスが実行されているプラットフォームをプロセッサで判断することをさらに含む、項目１０に記載のシステム。
［項目１２］
前記実行される命令は、ストリーミングセッションが開始、終了、一時停止、および再開する時間を前記プロセッサで判断することをさらに含む、項目１０に記載のシステム。
［項目１３］
実行される前記命令は、前記プロセッサで、ストリーミングコンテンツを再生している家庭内のストリーミングサービスの識別を判断する段階をさらに含み、前記判断する段階は、前記プロセッサのパケット検査モジュールによって実行されるデータパケットリダイレクションを含む、項目１０に記載のシステム。
［項目１４］
パケットリダイレクションは、その自体を家庭内のインターネットゲートウェイとして偽装するパケット検査モジュールを含む、項目１３に記載のシステム。
［項目１５］
前記パケット検査モジュールは、パケットを傍受し、パケット内のコンテンツを解析する、項目１４に記載のシステム。
［項目１６］
前記パケット内のコンテンツを解析することは、アウトバンドパケット情報を記録することと、前記パケットが傍受された時間を記録することとを含む、項目１５に記載のシステム。
［項目１７］
前記アウトバンドパケット情報を記録した後、前記パケットをその元の宛先に転送する、項目１６に記載のシステム。
［項目１８］
前記インターネットゲートウェイで応答パケットを受信する段階をさらに有し、前記応答パケットは前記インターネットゲートウェイを介してルーティングされず、むしろ適切なストリーミングデバイスに直接ルーティングされている、段階をさらに有する、項目１７に記載のシステム。
［項目１９］
命令をその中に格納した非一時的なコンピュータ媒体であって、前記命令はプロセッサによって実行されると方法を実行し、前記方法は、
回答者家庭における前記ディスプレイに前記映像が表示されている間に、前記ディスプレイ前方の視聴領域の画像を少なくとも１つのカメラで取得する段階であって、回答者家庭は、前記回答者家庭における１人または複数の回答者が対話することを選択した測定装置の位置である、段階と、
前記ディスプレイに結合されたスピーカによって発せられる前記映像のサウンドトラックを表す音声データをマイクロフォンで取得する段階と、
前記音声データに少なくとも部分的に基づいて、前記映像の識別情報を、前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合されたプロセッサで判断する段階と、
前記プロセッサのパケット検査モジュールによって実行されるデータパケットリダイレクションを含む、ストリーミングされたコンテンツを再生している前記家庭内のストリーミングサービスの識別を前記プロセッサで判断する段階と
を有する、非一時的なコンピュータ媒体。
［項目２０］
前記ストリーミングサービスが実行されているプラットフォームを前記プロセッサで判断する段階をさらに備える、項目１９に記載の媒体。
［項目２１］
ストリーミングセッションが開始、終了、一時停止、および再開する時間を前記プロセッサで判断する段階をさらに備える、項目１９に記載の媒体。
［項目２２］
前記プロセッサで、ストリーミングコンテンツを再生している家庭内のストリーミングサービスの識別を判断する段階は、前記プロセッサのパケット検査モジュールによって実行されるデータパケットリダイレクションを含む、項目２１に記載の媒体。
［項目２３］
パケットリダイレクションは、その自体を家庭内のインターネットゲートウェイとして偽装するパケット検査モジュールを含む、項目２２に記載の媒体。
［項目２４］
前記パケット検査モジュールは、パケットを傍受し、パケット内のコンテンツを解析する、項目２３に記載の媒体。
［項目２５］
前記パケット内のコンテンツを解析することは、アウトバンドパケット情報を記録することと、前記パケットが傍受された時間を記録することとを含む、項目２３に記載の媒体。
［項目２６］
前記アウトバンドパケット情報を記録した後、前記パケットをその元の宛先に転送する、項目２５に記載の媒体。
［項目２７］
前記インターネットゲートウェイで応答パケットを受信する段階をさらに有し、前記応答パケットは前記インターネットゲートウェイを介してルーティングされず、むしろ適切なストリーミングデバイスに直接ルーティングされている、段階をさらに有する、項目２６に記載の媒体。
［項目１］
ディスプレイに表示されている映像に対する視聴者関与度を定量化する方法であって、前記方法は、
回答者家庭における前記ディスプレイに前記映像が表示されている間に、前記ディスプレイの前方の視聴領域の画像を少なくとも１つのカメラで取得する段階であって、回答者家庭は、前記回答者家庭における１人または複数の回答者が対話することを選択した測定装置の位置である、段階と、
前記ディスプレイに結合されたスピーカによって発せられる前記映像のサウンドトラックを表す音声データをマイクロフォンで取得する段階と、
前記音声データに少なくとも部分的に基づいて、前記映像の識別情報を、前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合されたプロセッサで判断する段階と、
前記プロセッサのパケット検査モジュールによって実行されるデータパケットリダイレクションを含む、ストリーミングされたコンテンツを再生している前記回答者家庭内のストリーミングサービスの識別を前記プロセッサで判断する段階であって、前記パケット検査モジュールが、それ自体を前記回答者家庭内のインターネットゲートウェイとして偽装し、前記データパケットリダイレクションが、パケットをキャプチャすることと、前記パケット内のコンテンツを解析することとを含み、前記解析することが、ストリーミングセッションが状態を遷移する時間を含むアウトバンドパケット情報を記録することを含む、段階と
を備える方法。
［項目２］
前記ストリーミングサービスによって提供されるストリーミングアプリケーションを前記プロセッサで判断する段階をさらに備える、項目１に記載の方法。
［項目３］
ストリーミングセッションが開始、終了、一時停止、および再開する時間を前記プロセッサで判断する段階をさらに備える、項目１に記載の方法。
［項目４］
前記アウトバンドパケット情報を記録した後、前記パケットをその元の宛先に転送する、項目１に記載の方法。
［項目５］
前記インターネットゲートウェイで応答パケットを受信する段階をさらに備え、前記応答パケットは前記インターネットゲートウェイを介してルーティングされず、むしろ適切なストリーミングデバイスに直接ルーティングされている、段階をさらに備える、項目１から４のいずれか一項に記載の方法。
［項目６］
ディスプレイに表示した映像に対する視聴者関与度を定量化するためのシステムであって、前記システムは、
回答者家庭に常駐するローカルデバイスであって、前記ローカルデバイスは、パケット検査モジュールを含む、複数のプロセスを実行するプロセッサを有し、前記ローカルデバイスは、
回答者家庭における前記ディスプレイに前記映像が表示されている間に、前記ディスプレイの前方の視聴領域の画像を少なくとも１つのカメラで取得することであって、回答者家庭は、前記回答者家庭における１人または複数の回答者が対話することを選択した測定装置の位置である、取得することと、
前記ディスプレイに結合されたスピーカによって発せられる前記映像のサウンドトラックを表す音声データをマイクロフォンで取得することと、
前記音声データに少なくとも部分的に基づく前記映像の識別情報を、前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合されたプロセッサで判断することと、
前記プロセッサの前記パケット検査モジュールによって実行されるデータパケットリダイレクションを含む、ストリーミングされたコンテンツを再生している家庭内のストリーミングサービスの識別を前記プロセッサで判断することであって、前記パケット検査モジュールが、それ自体を前記家庭内のインターネットゲートウェイとして偽装し、前記データパケットリダイレクションが、パケットをキャプチャすることと、前記パケット内のコンテンツを解析することとを含み、前記解析することが、ストリーミングセッションが状態を遷移する時間を含むアウトバンドパケット情報を記録することを含む、ことと
を少なくとも含む命令を実行する、ローカルデバイスを備えるシステム。
［項目７］
実行される前記命令は、前記ストリーミングサービスによって提供されるストリーミングアプリケーションを前記プロセッサで判断することをさらに含む、項目６に記載のシステム。
［項目８］
実行される前記命令は、ストリーミングセッションが開始、終了、一時停止、および再開する時間を前記プロセッサで判断することをさらに含む、項目６に記載のシステム。
［項目９］
前記アウトバンドパケット情報を記録した後、前記パケットをその元の宛先に転送する、項目６に記載のシステム。
［項目１０］
応答パケットを受信するゲートウェイをさらに備え、前記応答パケットは前記インターネットゲートウェイを介してルーティングされず、むしろ適切なストリーミングデバイスに直接ルーティングされている、項目６から９のいずれか一項に記載のシステム。
［項目１１］
命令を備えるコンピュータプログラムであって、前記命令はプロセッサによって実行されると方法を実行し、前記方法は、
回答者家庭におけるディスプレイに映像が表示されている間に、前記ディスプレイの前方の視聴領域の画像を少なくとも１つのカメラで取得する段階であって、回答者家庭は、前記回答者家庭における１人または複数の回答者が対話することを選択した測定装置の位置である、段階と、
前記ディスプレイに結合されたスピーカによって発せられる前記映像のサウンドトラックを表す音声データをマイクロフォンで取得する段階と、
前記音声データに少なくとも部分的に基づいて、前記映像の識別情報を、前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合されたプロセッサで判断する段階と、
前記プロセッサのパケット検査モジュールによって実行されるデータパケットリダイレクションを含む、ストリーミングされたコンテンツを再生している前記回答者家庭内のストリーミングサービスの識別を前記プロセッサで判断する段階であって、前記パケット検査モジュールが、それ自体を前記回答者家庭内のインターネットゲートウェイとして偽装し、前記データパケットリダイレクションが、パケットをキャプチャすることと、前記パケット内のコンテンツを解析することとを含み、前記解析することが、ストリーミングセッションが状態を遷移する時間を含むアウトバンドパケット情報を記録することを含む、段階と
を有する、コンピュータプログラム。
［項目１２］
前記ストリーミングサービスによって提供されるストリーミングアプリケーションを前記プロセッサで判断する段階をさらに有する、項目１１に記載のコンピュータプログラム。
［項目１３］
ストリーミングセッションが開始、終了、一時停止、および再開する時間を前記プロセッサで判断する段階をさらに有する、項目１１に記載のコンピュータプログラム。
［項目１４］
前記アウトバンドパケット情報を記録した後、前記パケットをその元の宛先に転送する、項目１１に記載のコンピュータプログラム。
［項目１５］
前記インターネットゲートウェイで応答パケットを受信する段階をさらに有し、前記応答パケットは前記インターネットゲートウェイを介してルーティングされず、むしろ適切なストリーミングデバイスに直接ルーティングされている、段階をさらに有する、項目１１から１４のいずれか一項に記載のコンピュータプログラム。

【図1】