(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-19
(54)【発明の名称】ビデオのストリーミングサービスにおける注意に代る視線注視
(51)【国際特許分類】
H04N 21/2662 20110101AFI20241112BHJP
H04N 21/2665 20110101ALI20241112BHJP
H04N 21/24 20110101ALI20241112BHJP
H04N 21/442 20110101ALI20241112BHJP
G06F 3/01 20060101ALI20241112BHJP
【FI】
H04N21/2662
H04N21/2665
H04N21/24
H04N21/442
G06F3/01 570
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024531050
(86)(22)【出願日】2022-11-22
(85)【翻訳文提出日】2024-06-24
(86)【国際出願番号】 US2022080327
(87)【国際公開番号】W WO2023097218
(87)【国際公開日】2023-06-01
(32)【優先日】2021-11-24
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】519379400
【氏名又は名称】フェニックス リアル タイム ソリューションズ, インコーポレイテッド
(74)【代理人】
【識別番号】110000062
【氏名又は名称】弁理士法人第一国際特許事務所
(72)【発明者】
【氏名】ブスタマンテ, ファビアン イー.
(72)【発明者】
【氏名】ビーラー, ステファン
(72)【発明者】
【氏名】ライヒバック, ロイ
【テーマコード(参考)】
5C164
5E555
【Fターム(参考)】
5C164SB41P
5C164SC03P
5C164SC04P
5C164UB41P
5C164YA12
5C164YA21
5C164YA24
5E555AA61
5E555AA68
5E555BA02
5E555BA04
5E555BA76
5E555BA87
5E555BB02
5E555BB04
5E555BD08
5E555CA42
5E555CB47
5E555CB65
5E555CC03
5E555DB03
5E555DB04
5E555DB57
5E555DC21
5E555DC83
5E555EA04
5E555FA00
(57)【要約】
【解決手段】 ユーザの視線注視を注意に代るものとして使用し、これを利用してマルチビュー、つまり、マルチパーティおよびマルチ視点のビデオのストリーミングサービスでより自然な体験を提供する方法が、開示されている。この方法は、益々強力になり安価になるカメラと関連ソフトウェアを利用して、商品の視線追跡を提供する。この方法では、ユーザの操作に関して収集されたデータも活用し、機械学習技術を使用して、個々の使用パターンに応じた応答をカスタマイズする。ストリーミングアーキテクチャ上で説明された方法を実装するためのシステムも、開示されている。
【選択図】
図3
【特許請求の範囲】
【請求項1】
ライブおよびリアルタイムメディアをストリーミングする方法であって、
マルチビューアプリケーションが、複数の参加者または視点を表すユーザデバイスの画面上に、複数のウィンドウまたはアイコンをユーザに表示し、
前記ユーザが、当該ユーザデバイスを操作しながらフォーカスウィンドウを注視しているときに、前記ユーザに面する少なくとも1つのカメラでユーザの視線注視を捕捉し、
当該ユーザの視線注視を前記ユーザの注意のフォーカスとして使用して、ユーザの注意がフォーカスされている固有のウィンドウ(単数または複数)を識別し、そして
任意の所定の時点で、そのウィンドウのフォーカス値、メインウィンドウに関連付けられた画面の解像度の割合および利用可能な最大の割当て可能な帯域幅の関数としての特定ウィンドウまたはアイコンの、合計画面サイズに対する割合および選択された解像度を決定する、
方法。
【請求項2】
当該ユーザデバイスが、ディスプレイ、計算リソース、および永続かつランダムアクセスメモリを備える、請求項1に記載の方法。
【請求項3】
当該ユーザデバイスが、前記ユーザに面する当該少なくとも1つのカメラと通信する、請求項2に記載の方法。
【請求項4】
前記ユーザデバイスが、デスクトップ、ラップトップコンピュータ、パッド、またはスマートフォンの何れかを備える、請求項1に記載の方法。
【請求項5】
当該複数のウィンドウまたはアイコンが、マルチパーティ通話および/またはイベントの複数のビューアングルで参加者の全員またはサブセットを表す、請求項1に記載の方法。
【請求項6】
当該マルチビューアプリケーションが、ウィンドウによって示される、サイズおよび解像度が異なる、異なるストリームを有するマルチビューストリーミングアプリケーションのインターフェースを備え、各ウィンドウが、サイズおよび解像度が異なる複数の異なるストリームの内の1つを備える、請求項1に記載の方法。
【請求項7】
異なるストリームが、マルチパーティアプリケーションにおける異なる参加者におよび/またはマルチ視点アプリケーションにおける異なるビューに、関連付けられている、請求項1に記載の方法。
【請求項8】
全てのウィンドウまたはアイコンが、観測期間に渡る前記ユーザの注視が特定ウィンドウまたはアイコンにフォーカスする時間の割合に比例する、関連付けられているフォーカス値
【数5】
を有する、請求項1に記載の方法。
【請求項9】
全てのウィンドウのフォーカス値の合計が
【数6】
に等しい、請求項8に記載の方法。
【請求項10】
さらに、全てのストリーム品質レベルに対して既知の帯域幅予算を提供し、
ストリーム品質の利用可能なレベルが、個別のセットを形成する、請求項1に記載の方法。
【請求項11】
メインウィンドウが前記画面のx%を備え、そして前記メインウィンドウの最大解像度が前記割当て可能な最大帯域幅のy%を必要とし、
前記画面の他の全てのウィンドウに対する画面割当ての合計が、100-x%を超えず、そして
前記画面の他の全てのウィンドウに対する帯域幅要求が、割当てられた最大帯域幅の100-y%を超えている、
請求項1に記載の方法。
【請求項12】
さらに、セッションを観測期間に分割しそして各期間のマルチビューアプリケーションインターフェイスの前記異なるビューへのユーザのフォーカスを追跡することにより、セッション中にユーザの注意がウィンドウ間でシフトしたときに、特定ウィンドウに割当てられた予算およびそれに関連付けられたストリーム品質レベルをユーザ注意の関数として動的に調整する、
請求項1に記載の方法。
【請求項13】
観測期間t中に決定された特定ウィンドウのフォーカス値が、当該特定ウィンドウの画面サイズの割合を割当てそして次の観測期間t+1中に当該特定ウィンドウの関連付けられたストリームに最適な解像度を割当てる、ために使用される、
請求項12に記載の方法。
【請求項14】
さらに、当該マルチビューアプリケーションのビューを調整して、当該ユーザの入力を明確にするために当該ユーザが利用可能な他の対話モードを補完する、
請求項12に記載の方法。
【請求項15】
さらに、ビデオ会議中またはコンテンツの閲覧中に、ユーザの注意または不注意を検出し、
前記注意/不注意に関するメトリクスを取得し、そして
前記メトリクスを使用してレポートを生成する、
請求項1に記載の方法。
【請求項16】
さらに、複数のユーザの視線注視に関する視聴者情報をリアルタイムで使用して、ほとんどの視聴者が別の視聴よりもある視聴を好むことをブロードキャスト局に知らせ、そして
前記視聴者情報を使用して、リアルタイムで世界規模のブロードキャストを決定する、
当該視聴者情報を使用して、ブロードキャストストリームを自動的に変更する、そして
前記視聴者情報を使用して、ブロードキャストストリームソースのドミナントカメラを選択する
の何れかを行う
請求項7に記載の方法。
【請求項17】
ライブおよびリアルタイムメディアをストリーミングする方法であって、
マルチビューアプリケーションが、ユーザデバイスの画面上に、複数の参加者または視点を表す複数のウィンドウまたはアイコンをユーザに表示し、
前記ユーザが当該ユーザデバイスを操作しながらフォーカスウィンドウを注視しているときに、前記ユーザに面する少なくとも1つのカメラで当該ユーザの視線注視を捕捉し、
当該ユーザの視線注視を前記ユーザの注意のフォーカスとして使用して、マルチビューアプリケーションの利用可能なビューの中から選択する、ユーザの注意がフォーカスされている固有のウィンドウ(単数または複数)を識別し、
画面サイズの割合および解像度を決定し、
初期観測期間中に、ユーザの注意がフォーカスされている前記固有のウィンドウ(単数または複数)が、初期フォーカス値に対応するときに、更新された画面サイズの割合および解像度情報を提供し、
次の観測期間中に、当該次の観測期間に対し次のフォーカス値を決定し、
前記初期観測期間の前記初期フォーカス値を、当該次の観測期間の前記次のフォーカス値で置き換え、そして
当該次の観測期間の前記次のフォーカス値に基づいて当該画面を更新する
方法。
【請求項18】
さらに、異なるユーザが 複数のウィンドウ間で視線を常にシフトするまたは特定ウィンドウにフォーカスすることにより、異なる方法で当該マルチビューアプリケーションと対話するときに、視線注視および代替入力によりユーザ対話中にデータを収集し、そして
デバイスの視線情報を入力として使用して、機械学習技術を用いて当該データをコンパイルおよび処理してフォーカス値を生成し、そして
前記フォーカス値を使用して、固有のユーザに提供される応答をカスタマイズする、
請求項17に記載の方法。
【請求項19】
利用可能な帯域幅を特定しそして更新された画面サイズおよび解像度情報を提供し、そして
現在の期間のフォーカス値の決定を入力として使用し、そして視線注視およびユーザログに保存されている代替入力により以前のユーザ対話中に収集されたデータに基づいて、フォーカスのユーザモデルを更新する、
請求項17に記載の方法。
【請求項20】
ライブおよびリアルタイムメディアをストリーミングする方法であって、
マルチビューアプリケーションが、複数の参加者または視点を表すユーザデバイスの画面上に、複数のウィンドウまたはアイコンをユーザに表示し、
前記ユーザが、前記ユーザデバイスを操作しながらフォーカスウィンドウを注視しているときに、前記ユーザに面する少なくとも1つのカメラでユーザの視線注視を捕捉し、
当該ユーザの視線注視を前記ユーザの注意のフォーカスとして使用して、マルチビューアプリケーションの利用可能なビューの中から選択する、ユーザの注意がフォーカスされている固有のウィンドウ(単数または複数)を識別し、
ユーザのフォーカスが1つのウィンドウから別のウィンドウにシフトすると、前記画面の比例的により大きな部分に新しいドミナントウィンドウを提供し、そして
当該新しいドミナントウィンドウをより高い品質レベルでストリーミングし、他方前記以前のドミナントウィンドウが、画面のより小さい部分を占め、そしてより低い品質レベルでストリーミングされる、
方法。
【請求項21】
さらに、アダプティブビットレート方式を使用して前記マルチビューアプリケーションを構成する異なるストリームをストリーミングして、品質と解像度の異なるレベル間で、前記新しいまたは古いフォーカスウィンドウのそれぞれに対しより高い品質または低い品質へのシームレスな遷移を可能にする、
請求項20に記載の方法。
【請求項22】
さらに、リアルタイムストリーミング中のシームレスな遷移のために、同じストリームの代替バージョンを異なる品質レベルで動的またはプロアクティブに生成する、
請求項21に記載の方法。
【請求項23】
さらに、ユーザのフォーカスがシフトするとき、割当てられた帯域幅予算を、当該ドミナントウィンドウの周囲の追加のバックアップストリームに分配することにより、当該ドミナントウィンドウに戻すまたはそれから離す注意のフォーカスのシームレスな移行をサポートする、
請求項22に記載の方法。
【請求項24】
さらに、ユーザの注意が他のウィンドウよりも特定ウィンドウを優先し、そしてセッション全体を通じて前記ユーザが前記優先したウィンドウに戻り続ける場合、バックアップストリームに帯域幅予算を割当てる、
請求項23に記載の方法。
【請求項25】
機械学習技術を使用して、以前のユーザ対話の収集されたデータを分析して、1つ以上のユーザ固有の注意ドミナントウィンドウと、当該ユーザ固有の注意ドミナントウィンドウに関連付けられたバックアップストリームに対する帯域幅予算の前記割当てとを特定し、当該1つ以上のユーザ固有の注意ドミナントウィンドウに戻しそしてそれから離す注意のフォーカスのシームレスな移行をサポートする、
請求項23に記載の方法。
【請求項26】
ライブおよびリアルタイムメディアをストリーミングするための装置であって、
ディスプレイ、計算リソース、および永続的なランダムアクセスメモリを備えるユーザデバイスと、
ユーザが、前記ユーザデバイスの操作中に、ユーザの視線注視を捕捉するためのフォーカスウィンドウを注視するときに、前記ユーザに面する少なくとも1つのカメラであって、当該ユーザデバイスが、前記ユーザに面する当該少なくとも1つのカメラと通信する、カメラと、
複数の参加者または視点を表す、当該ユーザデバイスの画面上に複数のウィンドウまたはアイコンをユーザに提示するように構成されているマルチビューアプリケーションと、
前記ユーザの注意のフォーカスとして当該ユーザの視線注視を使用して、ユーザの注意がフォーカスされている固有のウィンドウ(単数または複数)を識別するように構成されているプロセッサと、
を備え、そして
当該プロセッサが、任意の所定の時点で、そのウィンドウのフォーカス値、メインウィンドウに関連付けられた画面解像度の割合、および利用可能な最大の割当て可能な帯域幅の関数として、特定ウィンドウまたはアイコンの、合計画面サイズに対する割合および選択された解像度を決定する、ように構成されている、
装置。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
この出願は、2021年11月24日に出願された「ビデオのストリーミングサービスにおける注意に代る視線注視(EYE GAZE AS A PROXY OF ATTENTION FOR VIDEO STREAMING SERVICES)」という名称の米国仮特許出願第63/282,954号の優先権を主張し、この出願は、参照によりその全体が本明細書に組み込まれている。
【0002】
ここに開示される様々な実施形態は、ビデオのストリーミングサービスにおける注意に代る視線注視に関する。
【背景技術】
【0003】
インターネットストリーミングは、インターネット上でトラフィックを生成する最も有力なアプリケーションである。一般的なストリーミングサービスでは、ビデオおよび/またはオーディオデータが、一群のサーバから複数のユーザに再生のためのパケットのシーケンスとしてストリーミングされる。ビデオオンデマンドとは異なり、インターネットストリーミングコンテンツは、それが1 人以上のユーザに対して発生すると同時に記録およびブロードキャストされる。インターネットストリーミングは、ライブまたはリアルタイムで可能である。
【0004】
説明の便宜上ここでは、ライブメディアのストリーミングとは、最初に記録および保存されることなくインターネット上で送信されるストリーミングコンテンツのことを指す。ライブビデオのストリーミングサービスでは、ストリーム遅延、つまり、ストリーミングされるイベントまたはイベント内の固有のアクションが、発生してからサブスクライブしている者に配信されるまでの時間に対する許容度が、高くなる。ストリーミングサービスは、再生前にパケットを収集することが出来る大きなバッファを使用してこの遅延を利用する。AppleのHLSの様なソリューションによって提供されるライブビデオのストリーミングの場合、数十秒のストリーム遅延は珍しいことではなく、一般的にはこれは許容範囲であると考えられている。
【0005】
説明の便宜上ここでは、リアルタイムメディアのストリーミングとは、それが1 人以上のユーザに対して発生すると同時に記録およびブロードキャストされる、参加者間の自然な対話を可能にする程度に遅延が十分に小さい、メディアのオンラインストリーミングのことを指す。これらのストリーミングサービスのストリーム遅延は小さいので、参加者は、コンテンツおよび同じストリーム内の他の参加者に応答する、および/またはコンテンツと対話することが出来る。リアルタイムメディアのストリーミングの状況図では、カードがめくられている間に、出演者が、オンラインの視聴者からのまたはカードのリアルタイムストリームゲームで賭けをしているプレーヤからのリクエストに応答する様子が描かれている。この定義は、固有のレイテンシのしきい値(例えば、0.5秒未満)に関してでは無く、より一般的な、ユーザの自然な対話性をサポートするという観点で述べられていることに注意すべきである。
【0006】
ライブストリーミングおよびリアルタイムストリーミングの何れにおいても、コーデックの使用により、メディア、ネットワーク、およびアプリケーションプロトコルを圧縮し、それをローカライズし、それを転送し、そしてそれを使用する必要がある。一般的に使用されるビデオ圧縮規格には、AVC H.264、H.265、VP8およびVP9がある。
【0007】
メディアストリームは、VP8ではイントラフレーム、MPEGではキーフレームと呼ばれることもある一連のキーフレームと、VP8ではインターフレーム、MPEG用語ではPフレームと呼ばれる予測フレームとから構成される。キーフレームは、他のフレームを参照せずにシーケンスにデコードされる。つまり、デコーダは、このようなフレームをそのデフォルト状態から再構築する (
図1を参照)。キーフレームは、ビデオストリーム内のランダムアクセスポイントまたはシークポイントを提供する。予測フレームは、以前のフレーム、特に、最新のキーフレームを含む全ての以前のフレーム、を参照してエンコードされる。予測フレームが正しくデコードされるか否かは、最新のキーフレームとそれ以降の全ての予測フレームが正しくデコードされるか否かによって決まる。従って、デコードアルゴリズムでは、キーフレームの欠落は許容されない。フレームが欠落するまたは破損する可能性がある環境では、キーフレームが正しく受信されるまで、正しいデコーディングは不可能である。
【0008】
最先端のメディアのストリーミングシステムは、ソースビデオコンテンツが、そのコーディングレートが異なる代替ビットストリームでエンコードされるマルチビットレート (MBR) エンコーディングに依存している。この場合、コンテンツは、ネットワーク条件の変更に基づいて(通常は、セグメント間のビットストリームの切り替えを使用して)、異なるコーディングレートに対応する様々な品質レベルで、セグメントまたはチャンクでストリーミングされる。
【0009】
リアルタイムストリーミングの一般的なアプローチは、エンコーダが、単一のソースビデオを複数のビットレートでエンコードするアダプティブビットレートストリーミングを、使用することである。プレーヤのクライアントは、利用可能なリソースに応じて、異なるエンコーディングのストリーミングを切り替える。具体的には、ソースコンテンツは、複数のビットレートでエンコードされ、そして数秒の小さな部分に分割される可能性がある。ストリーミングクライアントは、マニフェストファイルによって、異なるビットレートで利用可能なストリームと、必要に応じて、ストリームのセグメントとを認識する。開始時に、クライアントは、適度に低いビットレートのストリームから、セグメントをサブスクライブまたは要求することができる。クライアントが、ダウンロード速度がより高いビットレートを可能とすると判断した場合、クライアントは、次のより高いビットレート (セグメント) を要求することができる。
【0010】
一方、クライアントが、ダウンロード速度がストリームのビットレートよりも低いと判断した場合、クライアントは、より低いビットレートのセグメントをサブスクライブまたは要求することができる。
【0011】
今日、数十から数百のユーザが参加し、そのユーザの多くが大画面デバイスを有するイベントでは、超高解像度ビデオは珍しいことでは無い。これらのユーザの益々高機能になっているデバイスは、マルチパーティアプリケーション(例、オンライン教育またはエンターテイメント)によって活用されている。このマルチパーティアプリケーションは、最も一般的には、残りの参加者の多くまたはほとんどに対して、瞬時に対面体験の再現を示すことにより、部屋をシェアしている体験に近づける。新しいサービスのセットは、イベントに対する代替かつ同時の視点として普及型カメラを活用することにより、ユーザ体験を根本的に再定義しようとしている。コンサートに参加して、僅かな動作で、劇場の別の席を選択する、またはステージに飛び乗ったりすることができることを想像してみよう。または、スタジアム内の複数のカメラから、お気に入りのスポーツチームが優勝ゴールを決める様子を全て同時にかつ同期して見ることを考えよう。
図2を参照すると、これは、異なるサイズと異なる解像度のストリームに対応するいくつかのウィンドウを備えたマルチビューストリーミングアプリケーションのインターフェイスを示す。そしてこれは、異なるストリームが、マルチパーティアプリケーションの異なる一人または複数の参加者、またはマルチ視点アプリケーションの異なるビュー、の何れかに関連付けることが出来ることを示す。
【0012】
マルチパーティアプリケーションの参加者の数、またはマルチ視点アプリケーションの視点の数は、数百、数千、またはそれ以上になる可能性があるが、テクノロジリソースとユーザの注意という2つの基本的な制約が存在する。アプリケーションおよびユーザの要求は、解像度がより高くなり、参加者がより多くなり、視点がより多くなり、およびパフォーマンスの低下に対するユーザの許容度がより低くなることに伴って、増大し続けている。一方、ビデオのストリーミングテクノロジでは、最適に近いアダプティブビットレートエンコーディングアルゴリズム(near-optimal adaptive bit rate encoding algorithms)およびビデオコーデックの改善は減少している。従って、十分に高い品質で同時に表示することが出来る視点または参加者の数には、制限がある。技術的な制約を超えて、例え、ハイエンドディスプレイのサイズと解像度とが向上し続け、ネットワークが、高解像度メディアのストリーミングの要求の高まりをサポートすることが出来たとしても、同時要素(例、ユーザが追跡することが出来るビュー)の数には制限がある(非特許文献1)。
【先行技術文献】
【非特許文献】
【0013】
【非特許文献1】George A Alvarez、Steven L. Franconeri; 「追跡可能なオブジェクトの数は?: リソースが制限された注意深い追跡メカニズムの証拠。(How many object can you track?: Evidence for a resource-limited attentive tracking mechanism.)」Journal of Vision 2007;7(13): 14
【非特許文献2】Bolt, R. A.; 「視線注視に合わせて調整される動的ウィンドウ。(Gaze-orchestrated Dynamic windows.)」Computer Graphics 15, 3 (Aug. 1981), 109-119. https://dLacm.org/doi /pdf/10.1145/965161.806796
【非特許文献3】Zhai, S., Morimoto, C., and Ihde, S.「手動入力および視線入力カスケード(MAGIC)ポインティング。(Manual and Gaze Input Cascaded (MAGIC) Pointing.)」、Proc. ACM CHl'99 (1999), pp. 246-253. https://dLacm.org/doi/pdf/10.1145/302979.303053
【非特許文献4】Papoutsaki, A, Sangkloy, P., Laskey, J., Daskalova, N. Huang, J. and Hays, J.: 「ユーザ対話を使用したスケーラブルなWebカメラアイトラッキング。(Scalable webcam eye tracking using user interactions.)」、In Proc. IJCAI, pp. 3839-3845, 2016
【発明の概要】
【発明が解決しようとする課題】
【0014】
マルチパーティおよびマルチ視点アプリケーション (総称してマルチビューストリーミングアプリケーションと呼ばれる) の主な課題は、これらの制約の中で、ユーザの好みに応じたリッチな体験をサポートすることである。
【0015】
現在のマルチビューアプリケーションは、この課題に次のように対処している。つまり、1つのメインビューと限られた数のセカンダリビュー(例、ズーム「スピーカ」モード)の様な、固定数 (2つまたは3つが一般的) のアプリケーションを使用して、参加者または視点の何れかに関するディスプレイ内のビューの数を制限することにより、そしてユーザが希望するモードを明示的に入力する(例、希望するモダリティのアイコンをクリックする)単純なインターフェイスに依存することにより、対処している。このアプローチでは、ユーザの注意が、一見ランダムに発言者から他の参加者又は聴衆に、またはスタジアムの一方の側から別の側に、または鳥瞰図のビューにシフトするような、対面イベント中にユーザのフォーカスが自然にシフトする状態を、捉えることは出来無い。
【0016】
(まとめ)
開示される様々な実施形態は、インターネットの様なパケット交換ネットワークを介したライブおよびリアルタイムメディアのストリーミングに関する。説明の便宜上ここでは、ライブメディアのストリーミングとは、最初に記録および保存されることなくインターネット経由で送信されるストリーミングコンテンツを指し、そしてリアルタイムメディアのストリーミングとは、それが1人以上のユーザに発生すると同時に記録およびブロードキャストされるメディアのオンラインストリーミングであって、遅延が、参加者間の自然な対話を可能にするのに十分に小さいオンラインストリーミングを指す。
【0017】
マルチビューアプリケーションの上述の必要性を動機として、本発明の実施形態は、視線追跡ハードウェアおよびソフトウェアの進歩に基づいて構築されている。コンピュータ入力のソースとして視線注視を単独でまたは他の入力と組み合わせて使用する研究は、40年以上継続して来ている。非特許文献2のR. Boltによる1981年の初期の独創的な研究は、コンピュータが、人間の自然な表現様式を捕捉しそして理解する必要があることを示唆している。彼の「Worm of Windows」は、視線によって選択可能な窓の壁を示す (非特許文献2)。この後、視線注視をマウスクリックの様な他のモードと組み合わせて使用することも、提案された。これは、ユーザ入力の曖昧さをなくしそして出力を豊かにするのに役立つ(非特許文献3)。視線追跡ハードウェアとソフトウェアの進歩により、安価なWebカメラ上に構築された汎用視線追跡インターフェイスの可能性が提案されるようになったのは、ごく最近のことである。一例として、非特許文献4のPapoutsaki等は、一般的なWebカメラのみを使用し、そして市販のアイ追跡器、Tobii EyeXによって行われた、平均誤差が128.9ピクセル、平均視角が4.17または1.6インチである予測に匹敵する予測を示すリアルタイムオンラインアイ追跡システムを発表した(非特許文献4)。
【0018】
上記考察の観点から、本発明の実施形態は、ビデオのストリーミングサービスに対するユーザの注意に代るものとしてユーザの視線注視を活用し、これによりマルチビュービデオのストリーミングサービスでより自然な体験を提供する方法を提供する。この方法は、新しく強力で安価なカメラ(例、ウェブカメラ)およびこれらのカメラを使用して商品の視線追跡を行う新しいソフトウェアを利用する。本発明の実施形態は、また、機械学習技術とのユーザ対話に関して収集されたデータを利用して、固有のユーザに対する応答をカスタマイズする。ストリーミングアーキテクチャ上で説明される方法を実装するためのシステムも規定される。
【0019】
本発明の実施形態は、最後の観測期間におけるユーザの視線注視に基づいて、ユーザの注意のウィンドウフォーカスに関する情報を受信し;ネットワーク状態の受動的な観測に基づいて、利用可能な帯域幅に関する情報を受信し;そしてそのウィンドウのフォーカス値、画面の割合、およびメインウィンドウに関連付けられた解像度および利用可能な最大割当て可能帯域幅の関数としての各ビューの全画面サイズに対する割合と選択された解像度、を選択する。
【0020】
本発明のさらなる実施形態では、ユーザの注意のフォーカスの決定は、ユーザのフォーカスの変化に関する過去の情報を用いて訓練されたユーザの機械学習モデルに基づく。
【0021】
本発明のさらに別の実施形態では、よりシームレスなフォーカスの変更が、現在のフォーカスビューの周囲のビューに必要な解像度のバックアップストリームを作成することによって、達成される。
【0022】
本発明のさらに別の実施形態では、よりシームレスなフォーカスの変更が、ユーザの機械学習モデルを活用して、ユーザが通常選択するビューを識別し、そして必要な解像度でそれらのビューのバックアップストリームを作成することによって、達成される。
【図面の簡単な説明】
【0023】
【
図1】チャンク (上) とストリーム (下) のキーフレームと予測フレームを示す。
【
図2】サイズと解像度が異なる、異なるストリームを備えたマルチビューストリーミングアプリケーションのインターフェイスを示し、そして異なるストリームが、マルチパーティアプリケーションの異なる参加者、またはマルチ視点アプリケーションの異なるビューに関連付けることが出来ることを示す。
【
図3】ユーザと、本発明の一実施形態をサポートするカメラを備えたデバイスとを示す。
【
図4】本発明の一実施形態による、特定ウィンドウまたはアイコンの、合計画面サイズに対する割合および選択された解像度を決定するために使用されるプロセスを示すフローチャートである。
【
図5】本発明の一実施形態による、ユーザの対話が記録されたデータに基づいて、所定のユーザに対して生成されたモデルを使用して、特定ウィンドウまたはアイコンの、合計画面サイズに対する割合および選択された解像度を決定するプロセスを示すフローチャートである。
【
図6】本発明の一実施形態による、ユーザの注意がフォーカスを変えるときに、より高い解像度に切り替えることを容易にするストリームの代替品質バージョンを、生成するアプローチを示す図である。
【
図7】本発明の一実施形態による、ユーザの注意がフォーカスを変えるときに、より高い解像度に切り替わることを容易にするストリームの代替品質バージョンを、ユーザの過去の対話に基づいて生成する第2のアプローチを示す図である。
【
図8】本明細書で議論される方法の内の1つ以上を機械に実行させるための命令セットを実行することができる機械の図を、コンピュータシステムの例示的な形態で示す。
【発明を実施するための形態】
【0024】
以下の詳細な説明は、マルチビュービデオのストリーミングサービスでより自然な体験を提供するために、ユーザの注意のフォーカスを捕捉および使用する方法を備える本発明の実施形態を説明する。
【0025】
本発明の実施形態は、ユーザの視線注視をユーザの注意に代わるものとして利用し、これにより、新しく強力で安価なカメラ、およびこれらのカメラを使用する新しいソフトウェアを利用して、商品視線追跡を提供する。
【0026】
本発明の実施形態は、ユーザに面する少なくとも1つのカメラに無線または有線で接続されていて、そしてディスプレイ、計算リソース、および永続的かつランダムアクセスメモリを含む、ユーザデバイスを備える。このデバイスの実施形態は、デスクトップ、ラップトップコンピュータ、パッド、またはスマートフォンの何れかの形態をとる。
【0027】
図3は、ユーザと、パーソナルデバイス32を操作しているユーザ30がフォーカスウィンドウ34を見つめ、そしてユーザの注視が視線注視追跡カメラ36によって追跡される本発明の一実施形態をサポートするカメラを備えたデバイスとを示す。
【0028】
マルチビューアプリケーションは、複数の参加者または視点を表す画面上に複数のウィンドウまたはアイコンを、ユーザに表示する。一具体例では、複数のウィンドウまたはアイコンが、マルチパーティ通話でまたはスポーツイベントの複数の画角で、参加者の全員または一部を表す。
図2は、ウィンドウ1~13で示されるように、サイズおよび解像度が異なる、異なるストリームを有するマルチビューストリーミングアプリケーションのインターフェイスを示す。ここで、各ウィンドウは、サイズおよび解像度が異なる、複数の異なるストリームの内の1つを備える。
図2は、異なるストリームが、マルチパーティアプリケーションの異なる参加者、またはマルチ視点アプリケーションの異なるビュー、の何れかに関連付けることが出来ることを示す。
【0029】
本発明の実施形態は、ユーザの注意がフォーカスされている、固有のウィンドウ(単数または複数)を識別する視線注視に基づいている。全てのウィンドウまたはアイコンには、0から100までの範囲のフォーカス値
【数1】
が関連付けられている。これは、観測期間中に、ユーザの注視が特定ウィンドウまたはアイコンにフォーカスされていた時間の割合に比例する。
【0030】
全てのウィンドウのフォーカス値の合計は、
【数2】
となる。ユーザが、例えば、
図2のウィンドウ1で過去の観測期間中、発話者のみにフォーカスしていた場合、
【数3】
となる。ユーザの注意が、2つのウィンドウ(例、
図2のウィンドウ1と2)間を行ったり来たりした場合、
【数4】
となる。
【0031】
何れの任意の時点においても、特定ウィンドウまたはアイコンの合計画面サイズに対する割合と、そのウィンドウまたはアイコンに対して選択された解像度とは、そのウィンドウのフォーカス値、メインウィンドウに関連付けられた画面解像度の割合および利用可能な最大割当て可能帯域幅の関数である。全てのストリーム品質レベルに対し既知の帯域幅予算が存在し;ストリーム品質の利用可能なレベルは、個別のセット(例、低解像度、標準解像度、高解像度)を形成する。
【0032】
ユーザデバイスのカメラと関連付けられたソフトウェアとは、十分な精度でユーザの注視を追跡して、マルチビューアプリケーションの利用可能なビューを選択する。ウィンドウに関連付けられたフォーカス値は、このデバイスの入力によって決定される。例えば、メインウィンドウが画面の40%を占め、そしてその最大解像度が、割当て可能な最大帯域幅の30%を必要とする場合、合計画面の他のウィンドウへの割当ては60%を超えることは出来ない。また、帯域幅要求の合計は、割当てられた最大帯域幅の70%を超えることは出来ない。
【0033】
(注意のフォーカスの変化)
セッション中、ユーザの注意は、おそらく異なる参加者または聴衆全体にフォーカスして、ウィンドウ間をシフトする。本発明の実施形態は、特定ウィンドウに割当てられた予算とそれに関連付けられているストリーム品質レベルとを、ユーザ注意の関数として動的に調整する。これは、セッションを(例、数秒の)観測期間に分割し、そして各期間中のマルチビューアプリケーションインターフェイスの異なるビューへのユーザのフォーカスを追跡することによって行われる。観測期間t中に決定されたウィンドウのフォーカス値は、画面サイズに対するそれの割合を割当て、そして観測期間t+1中に、関連付けられたストリームに対して最適な解像度を割当てるために、使用される。
【0034】
図4は、プロセスの開始時40に、画面サイズの割合と解像度とが決定されるプロセス42を示す。
【0035】
視線注視を使用してユーザの注意のフォーカスを特定し、そしてこれに応じてマルチビューアプリケーション内のビューを調整する本明細書に開示される方法は、マウスクリックの様なユーザが利用できる他の対話モードを補完し、ユーザ入力の曖昧さをなくすのに役立つ。これは、
図4および5では「ユーザオーバーライド」とラベル付けされている。
【0036】
この方法は、利用可能な帯域幅を特定し、そして更新された画面サイズと解像度の情報とを提供する。ディスプレイがフォーカス値に対応する場合、つまり、現在のディスプレイが真である場合46、プロセスは次の観測期間までに終了する48。次の観測期間中に、この方法は、以前の観測期間のフォーカス値に置き換わるこの期間のフォーカス値を決定し44、そしてプロセスは上述したように繰り返される。
【0037】
(ユーザ固有の注意の推定)
異なるユーザは、異なる方法でマルチビューインターフェイスを操作して、複数のウィンドウ間で視線を常にシフトする、または特定ウィンドウにフォーカスを絞ることができる。本発明の実施形態には、視線注視によっておよびマウスクリックの様な代替入力(「ユーザオーバーライド」)によって前のユーザ対話中に収集されたデータが、含まれる。これらのデータは、機械学習技術でコンパイルおよび処理されて、固有のユーザに提供される応答をカスタマイズして、デバイスの視線情報を入力とし、そしてフォーカス値を生成する。
【0038】
図5は、プロセスの開始時50に画面サイズの割合と解像度との決定が行われるプロセス52を示す。この方法は、利用可能な帯域幅を特定し、そして更新された画面サイズと解像度情報とを提供する。この方法は、また、期間のフォーカス値の決定を入力として使用し55、そして視線注視およびユーザログ56に保存されている代替入力により、以前のユーザ対話中に収集されたデータに基づいて、フォーカスのユーザモデルを更新する57。ディスプレイがフォーカス値に対応する、つまり、現在のディスプレイが真である場合54、プロセスは終了し58、次の観測期間まで、プロセスは前述のように繰り返される。
【0039】
(シームレスなフォーカス変化の改善)
ユーザのフォーカスが、1つのウィンドウから別のウィンドウにシフトすると、新しいドミナントウィンドウが、これに比例してインターフェイスのより大きな部分を占め、そしてより高い品質レベルでストリーミングされる。他方、以前のドミナントウィンドウは、インターフェイスのより小さな部分を占め、そしてより低い品質レベルでストリーミングされる。
【0040】
マルチビューアプリケーションを構成する異なるストリームは、アダプティブビットレート方式を使用してストリーミングされる。この方式により、品質と解像度の異なるレベル間で、新しいまたは古いフォーカスウィンドウに対し、それぞれより高いまたはより低い品質へのシームレスな遷移が可能になる。リアルタイムストリーミングの場合、このシームレスな移行は、異なる品質レベルで同じストリームの代替バージョンを動的にまたはプロアクティブに生成することを必要とする場合がある。マルチビューアプリケーションの潜在的に数十または数百のウィンドウに対してこれを行うことは、拡張できない可能性があるので、本発明の実施形態は、バックアップストリームに割当てられた帯域幅予算を、ドミナントウィンドウを囲むウィンドウに分配する(
図6を参照)。このアプローチでは、ユーザが、他の、おそらく近くにある視点または参加者に気づいたときに、ユーザのフォーカスがシフトし、そしてこれに応じて帯域幅予算が、バックアップストリームに割当てられることを想定している(
図6のビュー1~8を参照)。追加のバックアップストリームは、注意のフォーカスを、ドミナントウィンドウに戻すそしてそれをドミナントウィンドウから移すシームレスな遷移をサポートするために使用される。
【0041】
(ドミナントウィンドウへの注意)
時間の経過とともに、ユーザの注意は、他のウィンドウよりも特定ウィンドウ(例、発話者または友人)を優先する傾向があるので、セッション中、ユーザはそのウィンドウに戻り続ける(
図7を参照)。
【0042】
本発明の実施形態は、機械学習技術を使用して、以前のユーザ対話で収集されたデータを分析して、ユーザ固有の注意ドミナントウィンドウおよびこれらのウィンドウに関連付けられたバックアップストリームに対する帯域幅予算の割当てを特定する(
図7のビュー13および17を参照)。以前のケースと同様に、追加のバックアップストリームは、注意のフォーカスを、ドミナントウィンドウに戻すそしてこれをドミナントウィンドウから移すシームレスな移行をサポートする。
【0043】
実施形態は、また、ビデオ会議通話中、または広告、パフォーマンスの様なコンテンツの視聴中に、ユーザの注意または不注意も検出する。このような注意/不注意に関するメトリクスを取得し、そしてこれを様々なレポートの生成に使用することが出来る。このような情報を、リアルタイムで使用して、例えば、ブロードキャストサービスまたはスポーツイベントのプロモータに、彼らの視聴者のほとんどが、ある視聴を別の視聴よりも好むことを知らせることも出来る。この情報は、リアルタイムでグローバルなブロードキャストの決定を行うために使用することが出来る。これに代えて、視聴者の視線情報を使用して、ブロードキャストストリームを自動的に変更する(例えば、ストリームソースに対してドミナントカメラを選択する)ことも出来る。
【0044】
(コンピュータによる実装)
図8は、いくつかの実施形態の特定の特徴を実装するために使用することが出来るコンピュータシステムのブロック図である。このコンピュータシステムは、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ (PC)、ユーザデバイス、タブレットPC、ラップトップコンピュータ、携帯情報端末 (PDA)、携帯電話、iPhone(登録商標)、iPad(登録商標)、Blackberry、プロセッサ、電話、ウェブ機器、ウェブアプリケーション、ネットワークルータ、切り替えまたはブリッジ、コンソール、ハンドヘルドコンソール、ハンドヘルドゲームデバイス、音楽プレーヤ、携帯、モービル、ハンドヘルドデバイス、ウェアラブルデバイス、またはそのマシンが実行するアクションを指定する一連の命令 (逐次的またはその他) を実行することができる任意のマシンとすることができる。
【0045】
コンピューティングシステム80は、1つまたは複数の中央処理装置(「プロセッサ」)81、メモリ82、入出力デバイス85(例、キーボードおよびポインティングデバイス、タッチデバイス、ディスプレイデバイス)、格納デバイス84(例、ディスクドライブ)およびネットワークアダプタ86(例、相互接続83に接続されているネットワークインタフェース)を含むことができる。相互接続83は、適切なブリッジ、アダプタ、またはコントローラによって接続された任意の1つまたは複数の別個の物理バス、ポイントツーポイント接続、またはその両方を表すものを抽象的に示している。従って、相互接続83は、例えば、システムバス、周辺コンポーネント相互接続(PCI)バスまたはPCI-Expressバス、ハイパートランスポートまたは業界標準アーキテクチャ(ISA)バス、小型コンピュータシステムインターフェース(SCSI)バスユニバーサル シリアルバス(USB)、IIC(I2C)バス、または電気電子学会(IEEE)標準1394バス(Firewireとも呼ばれる)を含むことができる。
【0046】
メモリ82および格納デバイス84は、様々な実施形態の少なくとも一部を実装する命令を格納することができるコンピュータ可読格納媒体である。さらに、データ構造およびメッセージ構造(例、通信リンク上の信号)は、データ伝送媒体を介して保存または伝送させることができる。様々な通信リンク(例、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、またはポイントツーポイントダイヤルアップ接続)が使用される。従って、コンピュータ可読媒体は、コンピュータ可読格納媒(例、非一時的メディア、およびコンピュータ読取可能な伝送メディア)を含むことが出来る。
【0047】
メモリ82に格納された命令は、上述の動作を実行するようにプロセッサ81をプログラムするソフトウェアおよび/またはファームウェアとして実装させることができる。いくつかの実施形態では、このようなソフトウェアまたはファームウェアは、最初に、コンピュータシステム80を介してリモートシステムからダウンロードすることによって(例、ネットワークアダプタ86を介して)、コンピューティングシステム80に提供させることができる。
【0048】
本明細書で紹介される様々な実施形態は、例えば、プログラマブル回路網(例、ソフトウェアおよび/またはファームウェアによりプログラムされた1つまたは複数のマイクロプロセッサ、または完全に専用の配線 (プログラム不可能な) 回路、またはこのような形式の組み合わせ)によって実装させることが出来る。専用の配線回路は、例えば、1つ以上のASIC、PLD、FPGAの様な形態をとることができる。
【0049】
本明細書で使用されている言語は、主に読みやすさと説明を目的として選択されている。これは、主題を描写するまたは範囲を限定するために選択されたものではない。従って、技術の範囲は、この詳細な説明によってではなく、本明細書に基づく出願に基づいて発行される特許請求の範囲によって限定されることが、意図されている。従って、様々な実施形態の開示は、特許請求の範囲に記載の技術の範囲を限定するものではなく、例示することを意図している。
【国際調査報告】