(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示
(51)【国際特許分類】
H04N 21/431 20110101AFI20241106BHJP
【FI】
H04N21/431
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024525986
(86)(22)【出願日】2022-10-21
(85)【翻訳文提出日】2024-05-01
(86)【国際出願番号】 IB2022060148
(87)【国際公開番号】W WO2023079402
(87)【国際公開日】2023-05-11
(32)【優先日】2021-11-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100092093
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100141553
【氏名又は名称】鈴木 信彦
(74)【代理人】
【識別番号】100151987
【氏名又は名称】谷口 信行
(72)【発明者】
【氏名】キャンデロア ブラント
(72)【発明者】
【氏名】ゴールドバーグ アダム
(72)【発明者】
【氏名】ブランチャード ロバート
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164MA03S
5C164UA51S
5C164UB01S
5C164UB41S
5C164UB85P
5C164YA21
(57)【要約】
調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための電子デバイス及び方法。電子デバイスは、ビデオを含む第1のメディアストリームを受け取る。電子デバイスは、ビデオ内の手話者の位置を決定する。電子デバイスは、ビデオ内の決定された位置に対応するビデオ部分を抽出する。電子デバイスは、ディスプレイデバイス上でのビデオの再生を制御する。電子デバイスは、再生に基づいてディスプレイデバイスを制御して、ディスプレイデバイス上にUI要素をレンダリングし、UI要素内に、抽出されたビデオ部分を表示するようにする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
電子デバイスであって、
ディスプレイデバイスに通信可能に結合される回路を含み、
前記回路は、
ビデオを含む第1のメディアストリームを受け取ることと、
前記ビデオ内の手話者の位置を決定することであって、
前記手話者は、前記ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物である、ことと、
前記ビデオから、前記ビデオ内の前記手話者の前記決定された位置に対応するビデオ部分を抽出することと、
前記ディスプレイデバイス上での前記ビデオの再生を制御することと、
前記再生に基づいて前記ディスプレイデバイスを制御して、
前記ディスプレイデバイス上にユーザインターフェイス(UI)要素をレンダリングし、
前記UI要素内に、前記抽出されたビデオ部分を表示する、
ようにする、ことと、
を行うように構成される、
ことを特徴とする電子デバイス。
【請求項2】
前記UI要素は、調整可能なサイズのピクチャ・イン・ピクチャ(PiP)ウィンドウとしてレンダリングされることを特徴とする、請求項1に記載の電子デバイス。
【請求項3】
前記回路は、
前記ビデオと関連付けられるメタデータを受け取ることであって、前記メタデータは、複数のタイムスタンプにおける前記ビデオ内の前記手話者の前記位置を記述する情報を含む、ことと、
受け取った前記メタデータに基づいて、前記ビデオ内の前記手話者の前記位置を決定することと、
を行うように更に構成される、
ことを特徴とする、請求項1に記載の電子デバイス。
【請求項4】
前記決定された位置は、前記手話者を含む前記ビデオの矩形領域の隅に対応する画像座標を含み、
前記ビデオ部分は、前記ビデオの前記矩形領域から抽出される、
ことを特徴とする、請求項1に記載の電子デバイス。
【請求項5】
前記回路は、
前記ビデオのフレームへのニューラルネットワークモデルの適用に基づいて、前記ビデオ内の前記手話と関連付けられる手振り(hand signs)を検出し、
前記手振りの検出に基づいて、前記ビデオ内の前記手話者の前記位置を検出する、
ように更に構成される、
ことを特徴とする、請求項1に記載の電子デバイス。
【請求項6】
前記ビデオは、ライブビデオブロードキャスト(live video broadcast)に対応することを特徴とする、請求項5に記載の電子デバイス。
【請求項7】
前記回路は、
前記ビデオ内の領域の背景と前記ビデオの残りの部分の背景との間の差分に基づいて、前記ビデオ内の前記領域を検出し、
前記領域の検出に基づいて、前記ビデオ内の前記手話者の前記位置を検出する、
ように更に構成される、
ことを特徴とする、請求項1に記載の電子デバイス。
【請求項8】
前記回路は、
前記ビデオ内の前記手話者の周囲の境界線を検出し、
前記境界線の検出に基づいて、前記ビデオ内の前記手話者の前記位置を検出する、
ように更に構成される、
ことを特徴とする、請求項1に記載の電子デバイス。
【請求項9】
前記回路は、前記ディスプレイデバイスを制御して、前記決定された位置に基づいて、表示された前記ビデオ内の前記手話者の周囲の境界線をレンダリングするように更に構成されることを特徴とする、請求項1に記載の電子デバイス。
【請求項10】
前記回路は、
前記レンダリングされたUI要素の現在位置を、前記現在位置と異なる第1の位置に変更するための第1の入力を受け取り、
前記第1の入力に基づいて前記ディスプレイデバイスを制御して、前記ディスプレイデバイスの表示エリア内に存在する前記第1の位置に前記UI要素をレンダリングする、
ように更に構成される、
ことを特徴とする、請求項1に記載の電子デバイス。
【請求項11】
前記回路は、
前記レンダリングされたUI要素の現在のサイズを、前記現在のサイズと異なる第1のサイズに変更するための第2の入力を受け取り、
受け取った前記第2の入力に基づいて前記ディスプレイデバイスを制御して、前記レンダリングされたUI要素の前記現在のサイズを変更して、前記第1のサイズに一致するようにし、
前記ビデオ部分が前記UI要素内に表示される前に、前記ディスプレイデバイスを制御して、前記ビデオ部分をアップスケーリング又はダウンスケーリングして、前記UI要素の前記第1のサイズに一致するようにする、
ように更に構成される、
ことを特徴とする、請求項1に記載の電子デバイス。
【請求項12】
前記回路は、前記抽出されたビデオ部分を含む第2のメディアストリームを受け取るように更に構成され、前記第2のメディアストリームは、前記第1のメディアストリームと異なることを特徴とする、請求項1に記載の電子デバイス。
【請求項13】
前記回路は、前記UI要素と関連付けられる1又は2以上のユーザプリファレンスを含む第1のユーザ入力を受け取るように更に構成され、
前記UI要素は、受け取った前記第1のユーザ入力に基づいてレンダリングされる、
ことを特徴とする、請求項1に記載の電子デバイス。
【請求項14】
前記1又は2以上のユーザプリファレンスは、前記ディスプレイデバイスの表示エリア内の前記UI要素の位置のプリファレンス、前記UI要素のテーマ又は配色、前記UI要素のサイズのプリファレンス、前記UI要素を非表示にするプリファレンス、及び前記UI要素をレンダリングするスケジュール、のうちの1又は2以上を含むことを特徴とする、請求項13に記載の電子デバイス。
【請求項15】
方法であって、
ビデオを含む第1のメディアストリームを受け取るステップと、
前記ビデオ内の手話者の位置を決定するステップであって、
前記手話者は、前記ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物である、ステップと、
前記ビデオから、前記ビデオ内の前記手話者の前記決定された位置に対応するビデオ部分を抽出するステップと、
ディスプレイデバイス上での前記ビデオの再生を制御するステップと、
前記再生に基づいて前記ディスプレイデバイスを制御して、
前記ディスプレイデバイス上にユーザインターフェイス(UI)要素をレンダリングし、
前記UI要素内に、前記抽出されたビデオ部分を表示する、
ようにする、ステップと、
を含むことを特徴とする方法。
【請求項16】
前記UI要素は、調整可能なサイズのピクチャ・イン・ピクチャ(PiP)ウィンドウとしてレンダリングされることを特徴とする、請求項15に記載の方法。
【請求項17】
前記ビデオと関連付けられるメタデータを受け取るステップであって、前記メタデータは、複数のタイムスタンプにおける前記ビデオ内の前記手話者の前記位置を記述する情報を含む、ステップと、
受け取った前記メタデータに基づいて、前記ビデオ内の前記手話者の前記位置を決定するステップと、
を更に含むことを特徴とする、請求項15に記載の方法。
【請求項18】
前記決定された位置は、前記手話者を含む前記ビデオの矩形領域の隅に対応する画像座標を含み、
前記ビデオ部分は、前記ビデオの前記矩形領域から抽出される、
ことを特徴とする、請求項15に記載の方法。
【請求項19】
前記ビデオのフレームへのニューラルネットワークモデルの適用に基づいて、前記ビデオ内の前記手話と関連付けられる手振りを検出するステップと、
前記手振りの検出に基づいて、前記ビデオ内の前記手話者の前記位置を検出するステップと、
を更に含むことを特徴とする、請求項15に記載の方法。
【請求項20】
電子デバイスによって実行された時に、前記電子デバイスに動作を実行させるコンピュータ実行可能命令が記憶された非一時的コンピュータ可読媒体であって、前記動作は、
ビデオを含む第1のメディアストリームを受け取ることと、
前記ビデオ内の手話者の位置を決定することであって、
前記手話者は、前記ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物である、ことと、
前記ビデオから、前記ビデオ内の前記手話者の前記決定された位置に対応するビデオ部分を抽出することと、
ディスプレイデバイス上での前記ビデオの再生を制御することと、
前記再生に基づいて前記ディスプレイデバイスを制御して、
前記ディスプレイデバイス上にユーザインターフェイス(UI)要素をレンダリングし、
前記UI要素内に、前記抽出されたビデオ部分を表示する、
ようにする、ことと、
を含む、
ことを特徴とする非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願への相互参照/引用による組み込み〕
[0001] 本出願は、2021年11月4日に米国特許庁に出願された米国特許出願第17/453553号の優先権の利益を主張するものである。上記出願の各々は、その全体が引用により本明細書に組み入れられる。
【0002】
[0002] 本開示の様々な実施形態は、手話ビデオの表示に関する。より具体的には、本開示の様々な実施形態は、調整可能なUI要素を通じた手話ビデオの表示のための電子デバイス及び方法に関する。
【背景技術】
【0003】
[0003] 従来、ディスプレイデバイス(テレビジョン又は移動電話など)は、ビデオファイルと、ビデオファイルと同期されるオーディオファイルとを含むブロードキャストメディアコンテンツ又はストリーミングメディアコンテンツを受け取る。ビデオファイル及びオーディオファイルの両方は、ディスプレイデバイス上で同時にレンダリングされて、視聴される。いくつかの例では、メディアコンテンツ(例えば、ビデオ)は、手話(例えば、アメリカ手話(ASL))を使用して、聴覚障害を有する視聴者に対応する手話者又は通訳者も含む。しかしながら、手話者(手話ビデオ)のビデオ部分は、通常、ビデオの下隅に現れる。手話ビデオは、小さすぎて快適に視聴できない場合があるか、又は主ビデオのエリア(主ビデオ内の重要な通知など)を遮る場合がある。既存のシステムは、聴覚障害を有する視聴者がメディアコンテンツ及び手話ビデオを便利に視聴するのを支援するための簡単なユーザインターフェイス技術を提供しない。
【0004】
[0004] 当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的方法の更なる制限及び不利点が明らかになるであろう。
【発明の概要】
【発明が解決しようとする課題】
【0005】
[0005] 少なくとも1つの図に実質的に示し、及び/又はこれらの図に関連して説明し、特許請求の範囲に更に完全に示す、調整可能なUI要素を通じた手話ビデオの表示のための電子デバイス及び方法を提供する。
【0006】
[0006] 全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
【図面の簡単な説明】
【0007】
【
図1】本開示の実施形態による、調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための例示的なネットワーク環境を示す図である。
【
図2】本開示の実施形態による、調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための例示的な電子デバイスのブロック図である。
【
図3】本開示の実施形態による、メタデータに基づく調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための例示的なシナリオを示す図である。
【
図4】本開示の実施形態による、ライブビデオブロードキャストのための調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための例示的なシナリオを示す図である。
【
図5】本開示の実施形態による、手話ビデオを表示するユーザインターフェイス(UI)要素の位置の調整のための例示的なシナリオを示す図である。
【
図6】本開示の実施形態による、手話ビデオを表示するユーザインターフェイス(UI)要素のサイズの調整のための例示的なシナリオを示す図である。
【
図7】本開示の実施形態による、調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための例示的な動作を示すフローチャートである。
【発明を実施するための形態】
【0008】
[0014] 以下で説明する実装は、調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための開示される電子デバイス及び方法に見出すことができる。本開示の例示的な態様は、ディスプレイデバイスに結合することができる電子デバイス(例えば、スマートテレビジョン又はモバイルデバイス)を提供する。電子デバイスは、ビデオを含むことができるメディアストリームを受け取ることができる。電子デバイスは、ビデオ内の手話者の位置を決定することができる。手話者は、ビデオ内で手話を使用して実行することができるアニメーション化されたキャラクタ又は人物とすることができる。電子デバイスは、更に、ビデオから、ビデオ内の手話者の決定された位置に対応するビデオ部分を抽出することができる。電子デバイスは、ディスプレイデバイス上でのビデオの再生を制御することができる。電子デバイスは、再生に基づいてディスプレイデバイスを制御して、ディスプレイデバイス上にユーザインターフェイス(UI)要素をレンダリングし、UI要素内に、抽出されたビデオ部分を表示するようにすることができる。UI要素は、調整可能なサイズのピクチャ・イン・ピクチャ(PiP)ウィンドウとしてレンダリングすることができる。それによって、電子デバイスは、主ビデオと一緒に手話者のビデオを便利に視聴するための調整可能なUI要素を提供することができる。
【0009】
[0015] ある実施形態では、電子デバイスは、ビデオと関連付けられるメタデータを受け取ることができる。メタデータは、複数のタイムスタンプにおけるビデオ内の手話者の位置を記述する情報を含むことができる。電子デバイスは、受け取ったメタデータに基づいて、ビデオ内の手話者の位置を決定することができる。別の実施形態では、電子デバイスは、ビデオ内の領域の背景とビデオの残りの部分の背景との間の差分に基づいて、ビデオ内の領域を検出することができる。電子デバイスは、領域の検出に基づいて、ビデオ内の手話者の位置を検出することができる。別の実施形態では、電子デバイスは、ビデオ内の手話者の周囲の境界線を検出することができる。電子デバイスは、境界線の検出に基づいて、ビデオ内の手話者の位置を検出することができる。いくつかの実施形態では、電子デバイスは、ビデオ(例えば、ライブビデオブロードキャスト)の1又は2以上のフレームへのニューラルネットワークモデルの適用に基づいて、ビデオ内の手話と関連付けられる手振り(hand signs)を検出するように構成することができる。電子デバイスは、手振りの検出に基づいて、ビデオ内の手話者の位置を検出するように構成することができる。電子デバイスは、更に、手話者のビデオ部分を抽出し、ディスプレイデバイスを制御して、検出された手話者の位置に基づいて、ディスプレイデバイス上にUI要素(例えば、PiPウィンドウ)をレンダリングすることができる。それによって、電子デバイスは、ライブビデオブロードキャストのための手話者の位置を自動的に検出して、手話者のPiPウィンドウを生成することができる。
【0010】
[0016] ある実施形態では、電子デバイスは、ユーザプリファレンスに従って、UI要素(例えば、PiPウィンドウ)をカスタマイズする能力を提供することができる。電子デバイスは、ユーザプリファレンスに基づいて、UI要素のサイズ、UI要素の位置、UI要素のテーマ又は配色、UI要素を非表示にするプリファレンス、及びUI要素をレンダリングするスケジュールを調整するように構成することができる。例えば、電子デバイスは、PiPウィンドウの現在位置を、現在位置と異なる第1の位置に変更するための第1の入力を受け取ることができる。電子デバイスは、第1のユーザ入力に基づいてディスプレイデバイスを制御して、第1の位置にPiPウィンドウをレンダリングすることができる。別の例では、電子デバイスは、PiPウィンドウの現在のサイズを、現在のサイズと異なる第1のサイズに変更するための第2の入力を受け取ることができる。電子デバイスは、第2の入力に基づいてディスプレイデバイスを制御して、PiPウィンドウの現在のサイズを変更して、第1のサイズに一致するようにすることができる。それによって、電子デバイスは、PiPウィンドウに基づいて、手話者のビデオ部分のサイズ及び位置を調整するための簡単で使いやすいUI技術を提供することができる。PiPウィンドウの位置及びサイズの調整に基づいて、電子デバイスは、手話者のビデオの明瞭で拡大された表示を提供することができ、主ビデオ(主ビデオ内の重要な通知など)の遮るもののない表示を可能にすることができる。
【0011】
[0017]
図1は、本開示の実施形態による、調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための例示的なネットワーク環境を示す図である。
図1を参照すると、ネットワーク環境100の図が示されている。ネットワーク環境100に、電子デバイス102、ディスプレイデバイス104、及びサーバ106が示されている。電子デバイス102は、通信ネットワーク108を介して、サーバ106に通信可能に結合することができる。電子デバイス102は、直接又は通信ネットワーク108を介して、ディスプレイデバイス104に通信可能に結合することができる。
図1を参照すると、主ビデオ104Aと、手話者110のビデオを表示するUI要素112とが更に示されている。
【0012】
[0018]
図1では、電子デバイス102及びディスプレイデバイス104は、2つの別個のデバイスとして示されている。しかしながら、いくつかの実施形態では、本開示の範囲から逸脱することなく、ディスプレイデバイス104は、電子デバイス102と統合することができる。
【0013】
[0019] 電子デバイス102は、ディスプレイデバイス104上にユーザインターフェイス(UI)要素112をレンダリングするように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。電子デバイス102は、ビデオを含む第1のメディアストリームを受け取ることができる。電子デバイス102は、更に、ビデオと関連付けられるメタデータを受け取ることができる。電子デバイス102は、更に、ビデオ内の手話者110の位置と関連付けられるビデオ部分を抽出することができる。電子デバイス102は、ディスプレイデバイス104を制御して、UI要素112内に、抽出されたビデオ部分を表示するようにすることができる。電子デバイス102は、メディアコンテンツ(ビデオなど)の受信及び/又は再生が可能な適切なミドルウェア及びコーデックを含むことができる。ある実施形態では、電子デバイス102は、複数のユーザプロファイルと関連付けられることができる。複数のユーザプロファイルのうちの各ユーザプロファイルは、コンテンツアイテム、設定又はメニューオプション、ユーザプリファレンスなどの集合を含むことができる。電子デバイス102は、リモートコントロール又はタッチスクリーンインターフェイスからのユーザ入力に基づいて、グラフィカルユーザインターフェイス上の複数のユーザプロファイルの中からユーザプロファイルを選択する及び/又は切り替えることを可能にすることができる。電子デバイス102は、赤外線受信機又はBluetooth(登録商標)インターフェイスを含み、リモートコントロール上でボタンが押されることに対応してリモートコントロールから送信される制御信号を受信することができる。電子デバイス102の例としては、以下に限定されるわけではないが、スマートテレビジョン(TV)、インターネットプロトコルTV(IPTV)、デジタルメディアプレーヤ、マイクロコンソール、セットトップボックス、オーバーザトップ(OTT)プレーヤ、ストリーミングプレーヤ、メディアエクステンダ/レギュレータ、デジタルメディアハブ、スマートフォン、パーソナルコンピュータ、ラップトップ、タブレット、ウェアラブル電子デバイス、ヘッドマウントデバイス、又はケーブル又は衛星ネットワークを通じた放送信号からのコンテンツ、ストリーミングコンテンツ無線放送、インターネットベースの通信信号からのコンテンツなどを受信し、復号して再生する能力を有する他の任意のディスプレイデバイスを挙げることができる。コンテンツの例としては、以下に限定されるわけではないが、画像、アニメーション(2D/3Dアニメーション又はモーショングラフィックスなど)、オーディオ/ビデオデータ、従来のテレビ番組(伝統的な放送、ケーブル、衛星、インターネット、又は他の手段を介して提供される)、ペイパービュー番組、オンデマンド番組(ビデオオンデマンド(VOD)システムにおけるような)、又はインターネットコンテンツ(例えば、ストリーミングメディア、ダウンロード可能なメディア、ウェブキャストなど)を挙げることができる。
【0014】
[0020] ある実施形態では、電子デバイス102は、受け取った第1のメディアストリームに基づいて、UI要素112(例えば、ピクチャ・イン・ピクチャ(PiP)ウィンドウ)を生成するように構成することができる。PiPウィンドウは、ユーザ入力に基づいて、サイズ及び位置が調整可能とすることができる。PiPウィンドウは、主ビデオ内で手話を実行する手話者110を含む主ビデオ104Aの部分を表示することができる。UI要素112(例えば、PiPウィンドウ)の生成の機能は、電子デバイス102の製造者によって、電子デバイス102と統合することができるか、又はサーバ106又はアプリケーションストア/市場からのアドオンアプリケーションとしてダウンロード可能とすることができる。
【0015】
[0021] ディスプレイデバイス104は、手話者の抽出されたビデオ部分を表示するUI要素112をレンダリングするように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。ディスプレイデバイス104は、電子デバイス102によって再生されている主ビデオ104Aを表示するように更に構成することができる。ある実施形態では、ディスプレイデバイス104は、電子デバイス102に接続される外部ディスプレイデバイスとすることができる。例えば、ディスプレイデバイス104は、有線接続(高品位マルチメディアインターフェイス(HDMI(登録商標))接続など)又は無線接続(Wi-Fiなど)によって、電子デバイス102(デジタルメディアプレーヤ又はパーソナルビデオレコーダなど)に接続することができる。別の実施形態では、ディスプレイデバイス104は、電子デバイス102(スマートテレビジョンなど)と統合することができる。ディスプレイデバイス104(一体化されたオーディオスピーカを含むディスプレイ画面など)は、1又は2以上の制御可能なパラメータ、例えば、輝度、コントラスト、アスペクト比、色の飽和度、オーディオボリュームなどを含むことができる。電子デバイス102は、有線接続(HDMI(登録商標)接続など)を通じて1又は2以上の信号を送信することによって、ディスプレイデバイス104のパラメータを制御するように構成することができる。一実施形態では、ディスプレイデバイス104は、タッチ入力を介してユーザ入力を受け取ることができるタッチスクリーンとすることができる。ディスプレイデバイス104は、以下に限定されるわけではないが、液晶ディスプレイ(LCD)ディスプレイ、発光ダイオード(LED)ディスプレイ、プラズマディスプレイ、又は有機LED(OLED)ディスプレイ技術、又はその他のディスプレイデバイスのうちの少なくとも1つなどのいくつかの公知技術を通じて実現することができる。少なくとも1つの実施形態では、ディスプレイデバイス104は、スマートTVのディスプレイユニット、ヘッドマウントデバイス(HMD)、スマートグラスデバイス、シースルーディスプレイ、ヘッドアップディスプレイ(HUD)、車載インフォテインメントシステム、投影式ディスプレイ、エレクトロクロミックディスプレイ、又は透明ディスプレイとすることができる。
【0016】
[0022] サーバ106は、1又は2以上のメディアストリームを記憶するように構成できる好適なロジック、回路、インターフェイス、及び/又はコードを含むことができる。サーバ106は、1又は2以上のビデオ内の手話者の位置を決定するためのメタデータを記憶するように更に構成することができる。いくつかの実施形態では、サーバ106は、ビデオ内の手話と関連付けられる手振りの検出のためのニューラルネットワークモデルをトレーニングするように構成することができる。いくつかの実施形態では、サーバは、ニューラルネットワークモデルと、ニューラルネットワークモデルをトレーニングするためのトレーニングデータセットとを記憶するように構成することができる。サーバ106は、電子デバイス102と関連付けられるユーザプロファイル、各ユーザプロファイルのためのUI要素112と関連付けられるプリファレンス、各ユーザプロファイルのためのUI要素112の使用履歴などを記憶するように更に構成することができる。サーバ106は、クラウドサーバとして実装することができ、ウェブアプリケーション、クラウドアプリケーション、HTTP要求、リポジトリ動作、ファイル転送などを通じて動作を実行することができる。サーバ106の他の実装例としては、以下に限定されるわけではないが、データベースサーバ、ファイルサーバ、ウェブサーバ、メディアサーバ、アプリケーションサーバ、メインフレームサーバ、又はクラウドコンピューティングサーバを挙げることができる。少なくとも1つの実施形態では、サーバ106は、当業者に周知であるいくつかの技術を使用して、複数の分散クラウドベースのリソースとして実装することができる。当業者であれば、本開示の範囲を、2つの別個のエンティティとしてのサーバ106及び電子デバイス102の実装に限定することはできないと理解するであろう。特定の実施形態では、サーバ106の機能は、本開示の範囲から逸脱することなく、その全体が又は少なくとも部分的に電子デバイス102に組み込まれることができる。
【0017】
[0023] 通信ネットワーク108は、通信媒体を含むことができ、通信媒体を通じて、電子デバイス102、ディスプレイデバイス104、及びサーバ106は、互いに通信することができる。通信ネットワーク108は、有線接続又は無線接続のうちの1つとすることができる。通信ネットワーク108の例としては、以下に限定されるわけではないが、インターネット、クラウドネットワーク、セルラー又はワイヤレスモバイルネットワーク(Long-Term Evolution及び5G New Radioなど)、ワイヤレスフィデリティ(Wi-Fi)ネットワーク、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、又はメトロポリタンエリアネットワーク(MAN)を挙げることができる。ネットワーク環境100における様々なデバイスは、様々な有線及び無線通信プロトコルに従って、通信ネットワーク108に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定されるわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、IEEE 802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル、及びBluetooth(BT)通信プロトコルのうちの少なくとも1つを含むことができる。
【0018】
[0024] 動作時に、電子デバイス102は、ビデオを含むことができる第1のメディアストリームを受け取ることができる。第1のメディアストリームは、ビデオの送信のための標準デジタルコンテナフォーマットに符号化することができる。ある実施形態では、電子デバイス102は、サーバ106から第1のメディアストリームを受け取ることができる。ある実施形態では、電子デバイス102は、ビデオと関連付けられるメタデータを受け取るように更に構成することができる。メタデータは、複数のタイムスタンプにおけるビデオ内の手話者110の位置を記述する情報を含むことができる。手話者110は、ビデオ内で手話を使用して実行することができるアニメーション化されたキャラクタ又は人物とすることができる。例えば、手話者110は、ビデオ内の話し言葉を通訳して、話し言葉を手話に変換することができる人物とすることができる。
【0019】
[0025] ある実施形態では、電子デバイス102は、メタデータの受け取りに基づいて、ビデオ内の手話者110の位置を決定するように更に構成することができる。決定された位置は、手話者110を含むビデオの矩形領域の隅の画像座標を含むことができる。別の実施形態では、電子デバイス102は、ビデオにニューラルネットワークモデル(
図2に示す)を適用して、ビデオ内の手話者110の位置を決定するように構成することができる。別の実施形態では、電子デバイス102は、手話者110の周囲の領域と主ビデオ104Aとの背景の差分に基づいて、又はビデオ内の手話者110の周囲の境界線の検出に基づいて、画像分析によって、ビデオ内の手話者110の位置を決定することができる。ニューラルネットワークモデルの適用及び画像分析の詳細については、例えば
図2及び
図3に示す。ある実施形態では、電子デバイス102は、ディスプレイデバイス104を制御して、表示されたビデオ内の手話者110の周囲のハイライト表示境界線をレンダリングするように更に構成することができる。境界線は、決定された位置に基づいて、レンダリングすることができる。一例では、電子デバイス102が、ビデオからの手話者110のビデオ部分の複数の候補を識別した場合、電子デバイス102は、境界線を表示して、ビデオ内の手話者のビデオ部分のユーザ確認を得ることができる。
【0020】
[0026] 電子デバイス102は、ビデオ内の手話者110の決定された位置に対応するビデオ部分を抽出するように更に構成することができる。ビデオ部分は、ビデオの矩形領域から抽出することができる。ある実施形態では、電子デバイス102は、抽出されたビデオ部分を含む第2のメディアストリームを受け取ることができる。第2のメディアストリームは、第1のメディアストリームと異なることができる。電子デバイス102は、ディスプレイデバイス104上でのビデオ(例えば、主ビデオ104A)の再生を制御するように更に構成することができる。電子デバイス102は、ディスプレイデバイス104を制御して、ディスプレイデバイス104上にUI要素112をレンダリングし、UI要素112内に、抽出されたビデオ部分を表示するように更に構成することができる。UI要素112は、調整可能なサイズ及び位置のピクチャ・イン・ピクチャ(PiP)ウィンドウとしてレンダリングすることができる。
【0021】
[0027] ある実施形態では、電子デバイス102は、ユーザプリファレンスに従って、UI要素112(PiPウィンドウ)をカスタマイズするように構成することができる。例えば、電子デバイス102は、ユーザプリファレンスに基づいて、UI要素112のサイズ、UI要素112の位置、UI要素112のテーマ又は配色、UI要素112を非表示にするプリファレンス、及びUI要素112をレンダリングするスケジュールを調整するように構成することができる。例えば、電子デバイス102は、PiPウィンドウの現在位置を、現在位置と異なる第1の位置に変更するための第1の入力を受け取ることができる。電子デバイス102は、第1のユーザ入力に基づいてディスプレイデバイス104を制御して、第1の位置にPiPウィンドウをレンダリングすることができる。別の例では、電子デバイス102は、PiPウィンドウの現在のサイズを、現在のサイズと異なる第1のサイズに変更するための第2の入力を受け取ることができる。電子デバイス102は、第2の入力に基づいてディスプレイデバイスを制御して、PiPウィンドウの現在のサイズを変更して、第1のサイズに一致するようにすることができる。それによって、電子デバイス102は、UI要素112(PiPウィンドウなど)に基づいて、手話者のビデオ部分のサイズ及び位置を調整するための簡単で使いやすいUI技術を提供することができる。UI要素112の位置及びサイズの調整に基づいて、電子デバイス102は、手話者のビデオの明瞭で拡大された表示を提供することができ、主ビデオ104A(主ビデオ104A内の重要な通知など)の遮るもののない表示を可能にすることができる。
【0022】
[0028] 本開示の範囲から逸脱することなく、
図1に対して修正、追加、又は省略を行うことができる。例えば、ネットワーク環境100は、本開示で図示及び説明するものよりも多い又は少ない要素を含むことができる。
【0023】
[0029]
図2は、本開示の実施形態による、調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための例示的な電子デバイスのブロック図である。
図2の説明は、
図1の要素に関連して行う。
図2を参照すると、電子デバイス102のブロック
図200が示されている。電子デバイス102は、回路202と、メモリ204と、入力/出力(I/O)デバイス206と、ネットワークインターフェイス208と、ニューラルネットワークモデル210とを含むことができる。少なくとも1つの実施形態では、電子デバイス102は、ディスプレイデバイス104を含むこともできる。回路202は、メモリ204、I/Oデバイス206、ネットワークインターフェイス208、ニューラルネットワークモデル210、及びディスプレイデバイス104に通信可能に結合することができる。
【0024】
[0030] 回路202は、電子デバイス102によって実行されるべき異なる動作と関連付けられるプログラム命令を実行するように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。異なる動作は、ビデオ内の手話者の位置を決定することと、ビデオ内の手話者の決定された位置に対応するビデオ部分を抽出することと、ディスプレイデバイス104を制御して、ディスプレイデバイス104上にUI要素112をレンダリングし、UI要素112内に、抽出されたビデオ部分を表示するようにすることと、を含む。回路202は、1又は2以上の処理ユニットを含むことができ、1又は2以上の処理ユニットは、1又は2以上の処理ユニットの機能を共同で実行する統合プロセッサ又はプロセッサ群として実装することができる。回路202は、当技術分野で公知のいくつかのプロセッサ技術に基づいて実装することができる。回路202の実装の例は、x86ベースのプロセッサ、グラフィックス処理ユニット(GPU)、縮小命令セットコンピュータ(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピュータ(CISC)プロセッサ、マイクロコントローラ、中央処理装置(CPU)、及び/又はその他のコンピュータ回路とすることができる。
【0025】
[0031] メモリ204は、回路202によって実行されるべきプログラム命令を記憶するように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。ある実施形態では、メモリ204は、受け取られた第1のメディアストリームと、第2のメディアストリームと、受け取られたメタデータと、手話者110の決定された位置と、抽出されたビデオ部分とを記憶することができる。メモリ204は、電子デバイス102と関連付けられる1又は2以上のユーザプロファイル、各ユーザプロファイルのためのUI要素112と関連付けられるプリファレンス、各ユーザプロファイルのためのUI要素112の使用履歴、各ユーザプロファイルの手話のプリファレンス(例えば、アメリカ手話又はイギリス手話)などを記憶するように更に構成することができる。いくつかの実施形態では、メモリ204は、UI要素112の1又は2以上の事前設定位置及び1又は2以上の事前設定サイズを更に記憶することができる。メモリ204は、全てのユーザのためのデフォルトとして、UI要素112の1又は2以上の事前設定位置及び1又は2以上の事前設定サイズを記憶することができるか、又は各ユーザプロファイルのために、UI要素112の1又は2以上の事前設定位置及び1又は2以上の事前設定サイズを記憶することができる。メモリ204は、画像分析のための予め定められたテンプレートと、ニューラルネットワークモデル210と、サーバ106から受け取られるトレーニングデータセットとを記憶するように更に構成することができる。メモリ204の実装の例としては、以下に限定されるわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードを挙げることができる。
【0026】
[0032] I/Oデバイス206は、1又は2以上の入力を受け取り、受け取った1又は2以上の入力に基づいて1又は2以上の出力を提供するように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。様々な入力及び出力デバイスを含むI/Oデバイス206は、回路202と通信するように構成することができることができる。一例では、電子デバイス102は、I/Oデバイス206を介して、ディスプレイデバイス104上にレンダリングされるUI要素112の現在位置の変更を示すユーザ入力を受け取ることができる。別の例では、電子デバイス102は、I/Oデバイス206を介して、ディスプレイデバイス104上にレンダリングされるUI要素112の現在のサイズの変更を示すユーザ入力を受け取ることができる。I/Oデバイス206の例としては、以下に限定されるわけではないが、リモートコンソール、タッチスクリーン、キーボード、マウス、ジョイスティック、マイクロフォン、ディスプレイデバイス(ディスプレイデバイス104など)、及びスピーカを挙げることができる。
【0027】
[0033] ネットワークインターフェイス208は、通信ネットワーク108を介した回路202とサーバ106又はディスプレイデバイス104との間の通信を容易にするように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。ネットワークインターフェイス208は、電子デバイス102と通信ネットワーク108との有線又は無線通信をサポートする様々な公知技術を用いて実装することができる。ネットワークインターフェイス208としては、以下に限定されるわけではないが、アンテナ、無線周波数(RF)トランシーバ、Bluetooth(登録商標)受信機、赤外線受信機、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダ・デコーダ(CODEC)チップセット、加入者識別モジュール(SIM)カード、又はローカルバッファ回路を挙げることができる。ネットワークインターフェイス208は、インターネット、イントラネット、又はセルラー電話ネットワーク、無線ローカルエリアネットワーク(LAN)及びメトロポリタンエリアネットワーク(MAN)などの無線ネットワークなどのネットワークと無線通信を介して通信するように構成することができる。無線通信は、グローバル・システム・フォー・モバイル・コミュニケーションズ(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多元接続(W-CDMA)、ロングタームエボリューション(LTE)、符号分割多元接続(CDMA)、時分割多元接続(TDMA)、Bluetooth、ワイヤレスフィデリティ(Wi-Fi)(IEEE 802.11a、IEEE 802.11b、IEEE 802.11g又はIEEE802.11nなど)、ボイスオーバーインターネットプロトコル(VoIP)、ライトフィデリティ(Li-Fi)、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス(Wi-MAX)、電子メールプロトコル、インスタントメッセージング及びショートメッセージサービス(SMS)などの複数の通信規格、通信プロトコル及び通信技術のうちの1又は2以上を使用することができる。
【0028】
[0034] ニューラルネットワークモデル210は、ノードとして複数の層に配置される人工ニューロンの計算ネットワーク又はシステムとすることができる。ニューラルネットワークモデルの複数の層は、入力層と、1又は2以上の隠れ層と、出力層とを含むことができる。複数の層のうちの各層は、1又は2以上のノード(又は例えば、円によって表される人工ニューロン)を含むことができる。入力層における全てのノードの出力は、(単複の)隠れ層の少なくとも1つのノードに結合することができる。同様に、各隠れ層の入力は、ニューラルネットワークモデルの他の層における少なくとも1つのノードの出力に結合することができる。各隠れ層の出力は、ニューラルネットワークモデルの他の層における少なくとも1つのノードの入力に結合することができる。最終層における(単複の)ノードは、少なくとも1つの隠れ層から入力を受け取り、結果を出力することができる。層の数及び各層内のノードの数は、ニューラルネットワークモデルのハイパーパラメータから決定することができる。このようなハイパーパラメータは、トレーニングデータセットでニューラルネットワークモデル210をトレーニングする前、トレーニング中、又はトレーニング後に設定することができる。
【0029】
[0035] ニューラルネットワークモデル210の各ノードは、ネットワークのトレーニング中に調整できるパラメータセットを有する数学関数(例えば、シグモイド関数又は正規化線形ユニット)に対応することができる。パラメータセットは、例えば、重みパラメータ、正則化パラメータなどを含むことができる。各ノードは、数学関数を使用して、ニューラルネットワークモデル210の(単複の)他の層(例えば、(単複の)前の層)内のノードからの1又は2以上の入力に基づいて出力を計算することができる。ニューラルネットワークモデル210のノードの全て又はそのうちのいくつかは、同じ又は異なる数学関数に対応することができる。
【0030】
[0036] ある実施形態によれば、回路202は、ビデオに関連する1又は2以上の特徴、ビデオ内の手話者110の背景に関連する1又は2以上の特徴、ビデオ内の手話者110の手の動きに関連する1又は2以上の特徴などで、ニューラルネットワークモデル210をトレーニングして、トレーニングされたニューラルネットワークモデル210を得ることができる。ニューラルネットワークモデル210をトレーニングして、ビデオ内の手話と関連付けられる手振りを検出し、手振りの検出に基づいてビデオ内の手話者110の位置を検出することができる。別の実施形態では、ニューラルネットワークモデル210をトレーニングして、ビデオ内の手話者110の背景とビデオの他の部分とを区別し、背景に基づいてビデオ内の手話者110の位置を検出することができる。例えば、回路202は、ビデオ、手話(例えば、アメリカ手話又はイギリス手話)の所定の手振りなどを入力して、ニューラルネットワークモデル210をトレーニングすることができる。
【0031】
[0037] ニューラルネットワークモデル210のトレーニングでは、(トレーニングデータセットからの)所与の入力に対する最終層の出力が、ニューラルネットワークモデルに対する損失関数に基づく正しい結果と一致するかどうかに基づいて、ニューラルネットワークモデルの各ノードの1又は2以上のパラメータを更新することができる。損失関数の最小値に達することができ、トレーニングエラーを最小にすることができるまで、同じ又は異なる入力に対して上記のプロセスを繰り返すことができる。いくつかのトレーニング方法は、当技術分野で公知であり、例えば、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法、メタヒューリスティクスなどである。
【0032】
[0038] ニューラルネットワークモデル210は、例えば、電子デバイス102上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装することができる電子データを含むことができる。ニューラルネットワークモデル210は、回路202などの処理デバイスが実行するライブラリ、外部スクリプト、又はその他のロジック/命令に依拠することができる。ニューラルネットワークモデル210は、回路202などのコンピュータデバイスがビデオ内の手話と関連付けられる手振りの検出のための1又は2以上の動作を実行できるようにするように構成されるコード及びルーチンを含むことができる。加えて、又は代替的に、ニューラルネットワークモデル210は、プロセッサ、マイクロプロセッサ(例えば、1又は2以上の動作の実行又は実行の制御を行う)、フィールドプログラマブルゲートアレイ(FPGA)、又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。代替的に、いくつかの実施形態では、ニューラルネットワークモデル210は、ハードウェア及びソフトウェアの組み合わせを使用して実装することができる。
【0033】
[0039] ニューラルネットワークモデル210の例としては、以下に限定されるわけではないが、ディープニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)、R-CNN、Fast R-CNN、Faster R-CNN、人工ニューラルネットワーク(ANN)、(You Only Look Once) YOLOネットワーク、CNN+ANN、全結合ニューラルネットワーク、ディープベイズニューラルネットワーク、及び/又はこのようなネットワークの組み合わせを挙げることができる。特定の実施形態では、ニューラルネットワークモデル210は、複数のディープニューラルネットワーク(DNN)のハイブリッドアーキテクチャに基づくことができる。
【0034】
[0040] 画像分析プロセッサ212は、オブジェクト検出、オブジェクト認識、画像セグメンテーション、モーション検出、姿勢推定、エッジ検出、テンプレートマッチングなどの1又は2以上の画像分析技術を実行するように構成できる好適なハードウェア及びソフトウェアアルゴリズムを含むことができる。例えば、画像分析プロセッサ212は、ビデオ内の手話者110の部分の形状及びサイズと関連付けられる予め定められた特徴又はテンプレートに基づいて、テンプレートマッチングを実行することができる。別の例では、画像分析プロセッサ212は、エッジ検出を実行して、手話者110の周囲の可視境界線を検出することができる。別の例では、画像分析プロセッサ212は、モーション検出を実行して、手話者110の背後の動かない(静的)領域と、主ビデオ104Aの動く(動的)背景とを区別することができる。
【0035】
[0041]
図1で説明したような電子デバイス102によって実行される機能又は動作は、回路202によって実行することができる。回路202によって実行される動作については、例えば
図3、
図4、
図5、
図6及び
図7で詳細に説明する。
【0036】
[0042]
図3は、本開示の実施形態による、メタデータに基づく調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための例示的なシナリオを示す図である。
図3の説明は、
図1及び
図2の要素に関連して行う。
図3を参照すると、例示的なシナリオ300が示されている。例示的なシナリオ300では、受け取られたデータ302のブロックが示されている。受け取られたデータ302は、ビデオの1又は2以上のフレームを含むことができる第1のメディアストリーム304と、ビデオと関連付けられるメタデータ306とを含むことができる。ビデオは、手話者308を含むことができる。1又は2以上のフレームは、第1のフレーム304A、第2のフレーム304B、…、第Nのフレーム304Nを含むことができる。
図3を参照すると、電子デバイス102と関連付けられるディスプレイデバイス104も示されている。ディスプレイデバイス104は、ビデオ(例えば、主ビデオ310)の1又は2以上のフレームを表示するように構成することができる。
【0037】
[0043] 第1のメディアストリーム304は、ディスプレイデバイス104上にレンダリングすることができるビデオの1又は2以上のフレームを含むことができる。例えば、主ビデオ310は、第1のメディアストリーム304にカプセル化することができる。ある実施形態では、回路202は、サーバ106から第1のメディアストリーム304を受け取ることができる。別の実施形態では、回路202は、放送ネットワークと関連付けられるサーバから、第1のメディアストリーム304を受け取ることができる。このようなシナリオでは、第1のメディアストリーム304は、放送チャネルと関連付けられる電子番組ガイド(EPG)などのテキスト情報を含むことができる。
【0038】
[0044] メタデータ306は、ビデオと関連付けられる情報を含むことができ、ビデオのアナログ信号又はデジタル信号に埋め込むことができる。一例として、メタデータ306は、ビデオの継続時間と関連付けられる情報、ビデオのタイトル、ビデオの解像度、ビデオと関連付けられるコーデック及び/又はコンテナのタイプ、ビデオ(例えば、主ビデオ310)内の1又は2以上のキャラクタ312又は人物の情報などを含むことができる。ある実施形態では、メタデータ306は、ビデオ内に存在する手話者308と関連付けられる情報を含むことができる。手話者308は、ビデオ内で手話を使用して実行することができるアニメーション化されたキャラクタ又は人物とすることができる。ある実施形態では、手話者308は、ビデオ内の1又は2以上のキャラクタ312によって話される言語(例えば、英語)を、手話(例えば、アメリカ手話(ASL))に翻訳することができる。メタデータ306は、複数のタイムスタンプにおけるビデオ内の手話者308の位置を記述することができる情報を含むことができる。手話者308の位置は、手話者308を含むビデオの矩形領域の隅に対応することができる画像座標314を含むことができる。ある実施形態では、画像座標314は、ビデオの1又は2以上のフレームの画素又は画像座標に関してラベル付けすることができる。以下の表1に、異なるタイムスタンプにおいて受け取られたメタデータ306の例を示す。
異なるタイムスタンプにおけるビデオ内の手話者の位置を示すメタデータ
【表1】
【0039】
[0045] ある実施形態では、回路202は、受け取られたメタデータ306に基づいて、複数のタイムスタンプにおける手話者308の位置を決定するように構成することができる。例えば、回路202は、受け取られたメタデータ306を解析して、手話者308の位置を決定するように構成することができる。表1を参照すると、表1の第1列に記載される複数のタイムスタンプにおけるビデオ内の手話者308の位置は、表1の第3列から決定することができる。表1(第3列)は、ビデオ内の手話者308の矩形境界を示す4つの画像座標のセットを含むが、本開示はこれに限定されるものではない。メタデータ306は、手話者308の境界の形状(多角形形状など)に応じて、任意の数の座標を含むことができる。
【0040】
[0046] 回路202は、ビデオからビデオ部分316を抽出するように更に構成することができる。抽出されたビデオ部分316は、ビデオ内の決定された位置に対応することができる。例えば、ビデオ部分316は、画像座標314間のエリアに対応し、かつ手話者308を含むビデオの矩形領域から抽出することができる。回路202は、ディスプレイデバイス104上でのビデオの再生を制御するように更に構成することができる。ある実施形態では、回路202は、ユーザ入力に基づいて、ディスプレイデバイス104上でのビデオの再生を制御するように構成することができる。ある実施形態では、回路202は、ディスプレイデバイス104を制御して、抽出されたビデオ部分316に基づいて、ビデオ内の手話者308の周囲の境界線をレンダリングするように構成することができる。ディスプレイデバイス104は、ビデオ内の手話者308の決定された位置に基づいて、境界線をレンダリングすることができる。手話者308の周囲の境界線をレンダリングして、ビデオ内の手話者308と1又は2以上のキャラクタ312とを区別することができる。いくつかの実施形態では、回路202は、手話者308の周囲の境界線を、明るい色(例えば、明るい緑色)でハイライト表示して、ユーザがビデオ内の手話者308を位置決めするのを支援することができる。
【0041】
[0047] 回路202は、再生に基づいてディスプレイデバイス104を制御して、ディスプレイデバイス104上にユーザインターフェイス(UI)要素318をレンダリングするように構成することができる。UI要素318は、ピクチャ・イン・ピクチャ(PiP)ウィンドウとしてレンダリングすることができる。PiPウィンドウは、調整可能なサイズを有することができる。例えば、回路202は、1又は2以上のユーザ入力に基づいて、PiPウィンドウのサイズを調整するように構成することができる。回路202は、UI要素318(例えば、PiPウィンドウ)内に、抽出されたビデオ部分316を表示するように更に構成することができる。抽出されたビデオ部分316は、手話者308を含むことができる。ある実施形態では、回路は、画像座標314を線で接続することができ、それらの線内のビデオ部分316をリアルタイムでPiPウィンドウ内にコピーすることができる。
【0042】
[0048] ある実施形態では、回路202は、サーバ106から、第1のメディアストリーム304と異なることができる第2のメディアストリーム(例えば、第2の信号)を受け取るように構成することができる。例えば、第2のメディアストリームは、ビデオ部分316を含むことができる。このようなシナリオでは、回路202は、ディスプレイデバイス104上での第1のメディアストリーム304からのビデオの再生を制御するように構成することができる。回路202は、ディスプレイデバイス104を制御して、ディスプレイデバイス104上にUI要素318をレンダリングするように更に構成することができる。回路202は、ディスプレイデバイス104を制御して、第1のメディアストリーム304からのビデオの再生と時間同期して、UI要素318内に、受け取った第2のストリームから抽出されたビデオ部分316を表示することができる。回路202は、両方の場合、すなわち、受け取られたメタデータ306に基づいてビデオ部分316が抽出された場合、及びサーバ106から第2のメディアストリームとしてビデオ部分が受け取られた場合、PiPウィンドウのサイズを調整するように構成することができる。
【0043】
[0049] ある実施形態では、回路202は、レンダリングされたUI要素318(例えば、PiPウィンドウ)の現在位置を、現在位置と異なることができる第1の位置320に変更するための第1の入力を受け取るように更に構成することができる。回路202は、レンダリングされたUI要素318(例えば、PiPウィンドウ)の現在のサイズを、現在のサイズと異なる第1のサイズに変更するための第2の入力を受け取ることもできる。回路202は、第1の入力及び第2の入力に基づいて、ディスプレイデバイス104を制御して、第1の位置320に第1のサイズでUI要素318をレンダリングするように更に構成することができる。UI要素318の位置及びサイズの調整の詳細については、例えば
図5及び
図6に示す。ある実施形態では、回路202は、手話者308を含むUI要素318(PiPウィンドウなど)が表示された場合、ディスプレイデバイス104を制御して、主ビデオ310内の手話者308をぼやけさせるように構成することができる。別の実施形態では、回路202は、手話者308を含むUI要素318が表示された場合、ディスプレイデバイス104を制御して、主ビデオ310内の手話者308のビデオ部分を、主ビデオの背景画素に置き換えるように構成することができる。
【0044】
[0050]
図4は、本開示の実施形態による、ライブビデオブロードキャストのための調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための例示的なシナリオを示す図である。
図4の説明は、
図1~
図3の要素に関連して行う。
図4を参照すると、例示的なシナリオ400が示されている。例示的なシナリオ400では、受け取られたデータ402のブロックが示されている。受け取られたデータ402は、ライブビデオブロードキャストの1又は2以上のフレームを含む第3のメディアストリーム404を含むことができる。例示的なシナリオ400では、ライブビデオブロードキャスト内に存在することができる手話者406が更に示されている。1又は2以上のフレームは、第1のフレーム404A、第2のフレーム404B、…、第Nのフレーム404Nを含むことができる。例示的なシナリオ400では、ニューラルネットワークモデル210と、電子デバイス102と関連付けられるディスプレイデバイス104とが更に示されている。
【0045】
[0051] 第3のメディアストリーム404は、地上波又は無線放送、ストリーミング放送、衛星テレビジョン放送などの様々な媒体で放送することができるライブビデオブロードキャストを含むことができる。例えば、ライブビデオブロードキャストは、第3のメディアストリーム404にカプセル化することができる。ライブビデオブロードキャストは、1又は2以上のキャラクタ410を表す主ビデオ408を含むことができる。ある実施形態では、第3のメディアストリーム404は、サーバ106、又は放送ネットワークと関連付けられるサーバから受け取ることができる。第3のメディアストリーム404がライブビデオブロードキャストである場合、第3のメディアストリーム404と共に埋め込まれるメタデータは、ライブビデオブロードキャスト内の手話者406の位置を含まない場合がある。このような場合、回路202は、ライブビデオブロードキャストのフレームを分析して、ライブビデオブロードキャスト内の手話者406の位置を決定するように構成することができる。例えば、回路202は、ライブビデオブロードキャストの1又は2以上のフレームに対して画像分析を実行して、ビデオ内の手話者406の領域(例えば、変化しない背景領域)を検出するように構成することができる。別の例では、回路202は、ライブビデオブロードキャストの1又は2以上のフレームにニューラルネットワークモデル210を適用して、ビデオ内の手話と関連付けられる手振りを検出するように構成することができる。例えば、回路は、第1のフレーム404Aにニューラルネットワークモデル210を適用して、第1のフレーム404A内の手振りを検出するように構成することができる。回路202は、第2のフレーム404B、…、第Nのフレーム404Nにニューラルネットワークモデル210を適用して、ビデオの各フレーム内の手振りを検出するように構成することができる。別の実施形態では、回路202は、ライブビデオブロードキャストの1又は2以上のフレームにニューラルネットワークモデル210を適用して、手話者406が存在することができるビデオの部分の背景と、ビデオの他の部分とを区別するように構成することができる。ニューラルネットワークモデル210は、手振りの検出又はビデオ内の手話者406の位置に対応する背景の検出に基づいて、複数のタイムスタンプにおけるビデオ内の手話者406の位置の境界ボックスを予測するように構成することができる。
【0046】
[0052] ニューラルネットワークモデル210は、事前トレーニングされたモデルとすることができ、これをトレーニングして、手話(アメリカ手話(ASL)又はイギリス手話(BSL)など)と関連付けられる手振りを検出し、手話者406を含むビデオ部分の矩形領域の隅に対応する画像座標412を出力することができる。回路202は、画像座標412に更に基づいて、ビデオ内の手話者406の位置を検出するように更に構成することができる。それによって、電子デバイス102は、第3のメディアストリーム404に埋め込まれるメタデータが手話者406の位置を含まない場合でも、又は第3のメディアストリーム404にメタデータが存在しない場合でも、ビデオ内の手話者406の位置を識別することができる。
【0047】
[0053] 別の実施形態では、回路202は、画像分析プロセッサ212を使用して画像分析(オブジェクト検出など)を実行して、ビデオ内の手話者406を検出し、画像座標412を出力するように構成することができる。回路202は、主ビデオ408と比較される領域の背景色の差分、主ビデオ408と比較される領域の背景陰影の差分、又は手話者の周囲の予め定められた境界に基づいて、ビデオ内の手話者406の周囲の領域を検出することができる。例えば、回路202は、手話者を含むビデオの部分が、ビデオの他の部分の背景色(又は陰影)と異なる背景色(又は陰影)を有する場合、ビデオ(主ビデオ408など)内の手話者406の位置を検出するように構成することができる。別の例では、回路202は、主ビデオ408の背景と異なる、動かない(静的)背景領域を検出して、手話者406の位置を検出するように構成することができる。別の例では、回路202は、ビデオが、手話者406の周囲の予め定められた形状及び色の可視境界を含む場合、エッジ検出又はテンプレートマッチング技術を使用して、手話者406の周囲の境界線を検出することができ、検出された境界線に基づいて、ビデオ内の手話者406の位置を検出することができる。これらのシナリオでは、回路202は、ニューラルネットワークモデル210の実行と比較して、より少ない計算能力を必要とする画像分析技術に依拠することができる。
【0048】
[0054] ある実施形態では、回路202は、ディスプレイデバイス104を制御して、表示されたビデオ内の手話者406の周囲のハイライト表示境界線406Aをレンダリングするように更に構成することができる。境界線406Aは、予測された境界ボックスの画像座標412に基づいて、レンダリングすることができる。一例では、回路202は、ニューラルネットワークモデル210が、ビデオ内の手話者406のビデオ部分として複数の候補を識別した場合、境界線406Aを表示して、ビデオ内の手話者406のビデオ部分のユーザ確認を得ることができる。例えば、回路202は、ディスプレイデバイス104上に表示されるプロンプト(確認するにはOKを押してください。次の候補を表示するには右矢印
を押してください。)によって、ハイライト表示された候補に対するユーザ確認を受け取ることができる。回路202は、手話者406の検出及び/又は境界ボックスの予測の信頼スコアが閾値スコアよりも低い場合がある場合、ビデオ内の手話者406のユーザ確認を求めることができる。別の実施形態では、回路202は、画像分析プロセッサ212が、ビデオ内の手話者406のビデオ部分として複数の候補を出力した場合、ビデオ内の手話者406のユーザ確認を求めることができる。
【0049】
[0055] 回路202は、ライブビデオブロードキャストからビデオ部分414を抽出するように更に構成することができる。ある実施形態では、回路202は、ハイライト表示された候補のユーザ確認に基づいて、ライブビデオブロードキャストからビデオ部分414を抽出するように更に構成することができる。抽出されたビデオ部分414は、ライブビデオブロードキャスト内の決定された位置に対応することができる。例えば、ビデオ部分414は、ビデオの矩形領域から抽出することができる。矩形領域は、画像座標412間のエリアに対応することができ、手話者406を含むことができる。
【0050】
[0056] 回路202は、ディスプレイデバイス104上でのビデオの再生を制御するように更に構成することができる。ある実施形態では、回路202は、ユーザ入力に基づいて、ディスプレイデバイス104上でのビデオの再生を制御するように構成することができる。回路202は、再生に基づいてディスプレイデバイス104を制御するように構成することができる。回路202は、ディスプレイデバイス104を制御して、ディスプレイデバイス104上にユーザインターフェイス(UI)要素416をレンダリングすることができる。例えば、UI要素416は、調整可能なサイズのピクチャ・イン・ピクチャ(PiP)ウィンドウとしてレンダリングすることができる。回路202は、UI要素416内に、手話者406を含む抽出されたビデオ部分414を表示するように構成することができる。
【0051】
[0057]
図5は、本開示の実施形態による、手話ビデオを表示するユーザインターフェイス(UI)要素の位置の調整のための例示的なシナリオを示す図である。
図5の説明は、
図1~
図4の要素に関連して行う。
図5を参照すると、例示的なシナリオ500が示されている。例示的なシナリオ500では、電子デバイス102と、電子デバイス102と関連付けられるディスプレイデバイス104とが示されている。電子デバイス102は、ディスプレイデバイス104を制御して、表示エリア506内に主ビデオ502を表示することができる。
図5を参照すると、電子デバイス102と関連付けられるユーザ508が更に示されている。
【0052】
[0058] ある実施形態では、回路202は、ユーザ508と関連付けられるユーザプロファイルの選択を含むユーザ入力を受け取るように構成することができる。選択されたユーザプロファイルに基づいて、回路202は、手話者516の抽出されたビデオ部分512を表示することができるユーザインターフェイス(UI)要素510と関連付けられる1又は2以上のユーザプリファレンスを取り出すことができる。いくつかの実施形態では、回路202は、メモリ204から1又は2以上のユーザプリファレンスを取り出すことができる。UI要素510は、取り出された1又は2以上のユーザプリファレンスに基づいて、レンダリングすることができる。例えば、1又は2以上のユーザプリファレンスは、ディスプレイデバイス104の表示エリア506内のUI要素510の位置のプリファレンス、UI要素510のテーマ又は配色、UI要素510のサイズのプリファレンス、UI要素510を表示/非表示にするプリファレンス、UI要素510をレンダリングするスケジュール、及び手話のプリファレンス(例えば、アメリカ手話又はイギリス手話)、のうちの1又は2以上を含むことができる。
【0053】
[0059] 位置のプリファレンスは、UI要素510を表示することができる好ましい位置を含むことができる。回路202は、位置のセットから、第1の位置514のユーザプリファレンスを取り出すことができる。第1の位置514は、ユーザ508のユーザプロファイルに従ってUI要素510の表示のための好ましい位置とすることができる。一例として、第1の位置514は、ディスプレイデバイス104の表示エリア506内の右下隅に対応することができる。UI要素510のテーマ又は配色は、UI要素510の選択されたユーザプロファイルのデザイン又は色のプリファレンスに対応することができる。一例として、UI要素510のテーマ又は配色は、手話者516の背後の緑色の背景、又はUI要素510の緑色の境界線を含むことができる。UI要素510のサイズのプリファレンスは、電子デバイス102の製造者によって予め定められるデフォルトサイズを含むことができる。UI要素510を非表示にするプリファレンスは、UI要素510を非表示にすべきか又は表示すべきかどうかについてのユーザ508のプリファレンスに対応することができる。UI要素510をレンダリングするスケジュールは、UI要素510をレンダリングすることができる第1の期間と、UI要素510をレンダリングすることができない第2の期間とに対応することができる。例えば、スケジュールのユーザプリファレンスは、午前10:00~午後04:00の間にUI要素510をレンダリングすることができ、午後04:01~午後10:00の間にUI要素510を非表示にすることができることを示すことができる。別の実施形態では、ユーザプリファレンスは、主ビデオ502内のキャラクタ504のうちの1つが話している場合、UI要素510を表示し、また、主ビデオ502内に発話がない場合、UI要素510を非表示にする命令を含むことができる。
【0054】
[0060] 時間T1において、回路202は、ビデオを含むことができる第1のメディアストリームを受け取ることができる。ビデオは、キャラクタ504を表す主ビデオ502を含むことができる。回路202は、ビデオと関連付けられるメタデータを更に受け取ることができる。回路202は、更に、受け取ったメタデータに基づいて、ビデオ内の手話者516の位置を決定することができる。メタデータは、複数のタイムスタンプにおけるビデオ内の手話者516の位置を記述する情報を含むことができる。別の実施形態では、回路202は、画像分析プロセッサ212による画像分析に基づいて、又はニューラルネットワークモデル210の適用に基づいて、手話者516の位置を決定することができる。回路202は、更に、ビデオ内の手話者516の決定された位置と関連付けられるビデオ部分512を抽出することができる。抽出された位置に基づいて、回路202は、ディスプレイデバイス104上でのビデオの再生を制御することができる。回路202は、更に、ディスプレイデバイス104を制御して、取り出されたユーザプリファレンスに基づいて、ディスプレイデバイス104上の第1の位置514にUI要素510(PiPウィンドウなど)をレンダリングすることができる。回路202は、ディスプレイデバイス104を制御して、UI要素510内に、抽出されたビデオ部分512を表示することができる。いくつかの実施形態では、UI要素510の位置のユーザプリファレンスが、メモリ204において利用可能ではない場合、UI要素510は、電子デバイス102の製造者によって予め定められるデフォルト位置に従って、主ビデオ502内の手話者516の決定された位置と重なることができる。
図5に示すように、回路202は、ディスプレイデバイス104を制御して、ディスプレイデバイス104の表示エリア506の右下隅に、UI要素510をレンダリングすることができる。
【0055】
[0061] 回路202は、レンダリングされたUI要素510の現在位置(又は第1の位置514)を第2の位置520に変更するための第1の入力518を受け取ることができる。第2の位置520は、第1の位置514と異なることができる。電子デバイス102が、リモートコントロールによって制御されるテレビジョンである場合、ディスプレイデバイス104は、UI要素510を選択すると、ポップアップメニュー510A(例えば、コンテキストメニュー)を表示することができる。ポップアップメニュー510Aは、「サイズ変更」及び「移動」オプションを含むことができる。「移動」オプションを選択(グレーでハイライト表示された選択)すると、ディスプレイデバイス104は、「事前設定位置に移動」及び「ドラッグ」サブオプションを表示することができる。「事前設定位置に移動」オプションを選択(グレーでハイライト表示された選択)すると、ディスプレイデバイス104は、選択されたユーザプロファイルの記憶されたプリファレンス及び/又は電子デバイス102の製造者によって設定されるデフォルト位置に基づいて、「事前設定位置1」、「事前設定位置2」などのサブオプションを表示することができる。例えば、「事前設定位置1」は、表示エリア506の左下隅に対応することができ、「事前設定位置2」は、表示エリア506の左上隅に対応することができる。これらの事前設定位置は、選択されたユーザプロファイルの設定されたプリファレンス、及び/又は電子デバイス102の製造者によって設定されるデフォルト位置に基づいて、メモリ204に記憶することができる。サブオプションのうちの1つを選択すると、回路202は、ディスプレイデバイス104を制御して、時間T2において第2の位置520にUI要素510を表示することができる。一例として、第2の位置520は、ディスプレイデバイス104の表示エリア506内の左下隅に対応することができる。「ドラッグ」オプションを選択すると、ディスプレイデバイス104は、UI要素をハイライト表示して、UI要素510が選択されたことを示すことができ、リモートコントロール上の矢印ボタン(
)を使用して、表示エリア506内のあらゆる任意の位置にUI要素510をドラッグするためのプロンプトを表示することができる。電子デバイス102が、タッチスクリーン入力を含むスマートフォンである場合、UI要素510を選択すると、ディスプレイデバイス104は、タッチ入力によって、表示エリア506内のあらゆる任意の位置にUI要素510をドラッグして移動するためのプロンプトを表示することができる。回路202は、第1の入力518に基づいて、ディスプレイデバイス104を制御して、時間T2において第2の位置520(例えば、左下隅)にUI要素510を表示することができる。ディスプレイデバイス104は、主ビデオ502と時間同期して、UI要素510の移動の前に、UI要素510の移動中に、及びUI要素510の移動に続いて、手話者516の抽出されたビデオ部分512の再生をシームレスに継続することができる。
【0056】
[0062]
図6は、本開示の実施形態による、手話ビデオを表示するユーザインターフェイス(UI)要素のサイズの調整のための例示的なシナリオを示す図である。
図6に、例示的なシナリオ600が示されている。例示的なシナリオ600では、電子デバイス102と、電子デバイス102と関連付けられるディスプレイデバイス104とが示されている。電子デバイス102は、ディスプレイデバイス104を制御して、表示エリア606内に主ビデオ602を表示することができる。
【0057】
[0063] ある実施形態では、回路202は、ユーザプロファイルの選択を含むユーザ入力を受け取るように構成することができる。選択されたユーザプロファイルに基づいて、回路202は、手話者608の抽出されたビデオ部分を表示することができるUI要素610と関連付けられる1又は2以上のユーザプリファレンスを取り出すことができる。いくつかの実施形態では、回路202は、メモリ204から1又は2以上のユーザプリファレンスを取り出すことができる。UI要素610は、取り出された1又は2以上のユーザプリファレンスに基づいて、レンダリングすることができる。例えば、1又は2以上のユーザプリファレンスは、UI要素610のサイズのプリファレンスを含むことができる。
【0058】
[0064] 時間T1において、回路202は、ビデオを含むことができる第1のメディアストリームを受け取ることができる。ビデオは、キャラクタ604を表す主ビデオ602を含むことができる。回路202は、ビデオと関連付けられるメタデータを更に受け取ることができる。回路202は、更に、受け取ったメタデータに基づいて、ビデオ内の手話者608の位置を決定することができる。別の実施形態では、回路202は、画像分析プロセッサ212による画像分析に基づいて、又はニューラルネットワークモデル210の適用に基づいて、手話者608の位置を決定することができる。回路202は、更に、ビデオ内の決定された位置に対応することができるビデオ部分を抽出することができる。抽出された位置に基づいて、回路202は、ディスプレイデバイス104上でのビデオの再生を制御するように構成することができる。回路202は、ディスプレイデバイス104を制御して、選択されたユーザプロファイルと関連付けられる取り出されたユーザプリファレンスに基づいて、ディスプレイデバイス104上に第1のサイズ(例えば、高さH1、幅W1)でユーザインターフェイス(UI)要素610(PiPウィンドウなど)をレンダリングするように更に構成することができる。いくつかの実施形態では、UI要素610のサイズのユーザプリファレンスが、メモリ204において利用可能ではない場合、UI要素610は、電子デバイス102の製造者によって予め定められるデフォルトサイズに基づいて表示することができる。
図6に示すように、回路202は、ディスプレイデバイス104を制御して、ディスプレイデバイス104の表示エリア606内に第1のサイズ(H1、W1)でUI要素610をレンダリングすることができる。
【0059】
[0065] 回路202は、レンダリングされたUI要素610の現在のサイズ(又は第1のサイズ)を第2のサイズに変更するための第2の入力612を受け取ることができる。第2のサイズは、第1のサイズと異なることができる。電子デバイス102が、リモートコントロールによって制御されるテレビジョンである場合、ディスプレイデバイス104は、UI要素610を選択すると、ポップアップメニュー610Aを表示することができる。ポップアップメニュー610Aは、「サイズ変更」及び「移動」オプションを含むことができる。「サイズ変更」オプションを選択(グレーでハイライト表示された選択)すると、ディスプレイデバイス104は、「事前設定サイズにサイズ変更」及び「拡大/縮小」サブオプションを表示することができる。「事前設定サイズにサイズ変更」オプションを選択(グレーでハイライト表示された選択)すると、ディスプレイデバイス104は、選択されたユーザプロファイルの取り出されたプリファレンス及び/又は電子デバイス102の製造者によって設定されるデフォルトサイズに基づいて、「事前設定サイズ1」、「事前設定サイズ2」などのサブオプションを表示することができる。例えば、「事前設定サイズ1」及び「事前設定サイズ2」は、一定のアスペクト比を有する異なるサイズに対応して、手話者608の抽出されたビデオ部分が最適解像度を有するようにすることができる。サブオプションのうちの1つを選択すると、回路202は、ディスプレイデバイス104を制御して、時間T2において第2のサイズ(高さH2、幅W2)でUI要素を表示することができる。「拡大/縮小」オプションを選択すると、ディスプレイデバイス104は、UI要素をハイライト表示して、UI要素610が選択されたことを示すことができ、リモートコントロール上の矢印ボタン(
)を使用して、表示エリア606内のあらゆる任意のサイズにUI要素610をサイズ変更するためのプロンプトを表示することができる。電子デバイス102が、タッチスクリーン入力を含むスマートフォンである場合、UI要素610を選択すると、ディスプレイデバイス104は、タッチベースのアクション(指のピンチオープン又はピンチクローズアクションなど)を使用して、表示エリア606内のあらゆる任意のサイズにUI要素610をサイズ変更するためのプロンプトを表示することができる。回路202は、第2の入力612に基づいて、ディスプレイデバイス104を制御して、時間T2において第2のサイズ(H2、W2)でUI要素を表示することができる。例えば、回路202は、ディスプレイデバイス104を制御して、UI要素610の現在のサイズを変更して、第2のサイズ(H2、W2)に一致するようにすることができる。ある実施形態では、回路202は、ビデオ部分がUI要素610内に表示される前に、ビデオ部分をアップスケーリング又はダウンスケーリングして、UI要素610の第2のサイズ(H2、W2)に一致するようにするように構成することができる。回路202は、UI要素610の修正されたサイズに応じて、手話者608の抽出されたビデオ部分の解像度を変更するようにアップスケーリング又はダウンスケーリングすることができる。
図6に示すように、UI要素610の第2のサイズ(H2、W2)は、UI要素610の第1のサイズ(H1、W1)よりも大きいとすることができる。このような場合、回路202は、手話者608の抽出されたビデオ部分を、より低い解像度(例えば720p)からより高い解像度(例えば1080p)にアップスケーリングすることができる。
【0060】
[0066]
図7は、本開示の実施形態による、調整可能なユーザインターフェイス(UI)要素を通じた手話ビデオの表示のための例示的な動作を示すフローチャートである。
図7の説明は、
図1~
図6の要素に関連して行う。
図7を参照すると、フローチャート700が示されている。702~712の動作は、任意のコンピュータシステムによって、例えば
図1の電子デバイス102又は
図2の回路202によって実装することができる。動作は702から開始することができ、704に進むことができる。
【0061】
[0067] 704において、ビデオを含む第1のメディアストリームを受け取ることができる。少なくとも1つの実施形態では、回路202は、例えば
図1、
図3及び
図4で説明したように、ビデオを含む第1のメディアストリームを受け取るように構成することができる。
【0062】
[0068] 706において、ビデオ内の手話者110の位置を決定することができ、手話者110は、ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物とすることができる。少なくとも1つの実施形態では、回路202は、ビデオ内の手話者110の位置を決定するように構成することができる。手話者110の位置の決定についての詳細は、
図1、
図3及び
図4に示す。
【0063】
[0069] 708において、ビデオから、ビデオ内の決定された位置に対応するビデオ部分を抽出することができる。少なくとも1つの実施形態では、回路202は、ビデオから、ビデオ内の決定された位置に対応するビデオ部分を抽出するように構成することができる。ビデオ部分の抽出についての詳細は、例えば
図1、
図3及び
図4に示す。
【0064】
[0070] 710において、ディスプレイデバイス104上でのビデオの再生を制御することができる。少なくとも1つの実施形態では、回路202は、ディスプレイデバイス104上でのビデオの再生を制御するように構成することができる。
【0065】
[0071] 712において、再生に基づいてディスプレイデバイス104を制御して、ディスプレイデバイス104上にユーザインターフェイス(UI)要素112をレンダリングし、UI要素112内に、抽出されたビデオ部分を表示するようにすることができる。少なくとも1つの実施形態では、回路202は、再生に基づいてディスプレイデバイス104を制御して、ディスプレイデバイス104上にUI要素112をレンダリングし、UI要素112内に、抽出されたビデオ部分を表示するようにするように構成することができる。UI要素112のレンダリングについての詳細は、例えば
図1、
図3、
図4及び
図5に示す。制御は、終了に進むことができる。
【0066】
[0072] 本開示の様々な実施形態は、機械及び/又はコンピュータが電子デバイス(電子デバイス102など)を動作させるために実行できる命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。これらの命令は、ビデオを含む第1のメディアストリームを受け取ることを含む動作を機械及び/又はコンピュータに実行させることができる。動作は、ビデオ内の手話者(手話者110など)の位置を決定することを更に含むことができる。手話者は、ビデオ内で手話を使用して実行することができるアニメーション化されたキャラクタ又は人物とすることができる。動作は、ビデオから、ビデオ内の決定された位置に対応することができるビデオ部分を抽出することを更に含むことができる。動作は、ディスプレイデバイス(ディスプレイデバイス104など)上でのビデオの再生を制御することを更に含むことができる。動作は、再生に基づいてディスプレイデバイス104を制御して、ディスプレイデバイス104上にユーザインターフェイス(UI)要素(UI要素112など)をレンダリングするようにすることを更に含むことができる。
【0067】
[0073] 本開示の例示的な態様は、ディスプレイデバイス(ディスプレイデバイス104など)に通信可能に結合することができる回路(回路202など)を含む電子デバイス(
図1の電子デバイス102など)を含むことができる。ある実施形態では、電子デバイス102は、ビデオを含む第1のメディアストリームを受け取るように構成することができる。手話者110は、ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物とすることができる。電子デバイス102は、ビデオ内の手話者110の位置を決定するように構成することができる。決定された位置は、手話者110を含むビデオの矩形領域の隅に対応する画像座標を含むことができる。
【0068】
[0074] ある実施形態によれば、電子デバイス102は、ビデオと関連付けられるメタデータを受け取ることができる。メタデータは、複数のタイムスタンプにおけるビデオ内の手話者110の位置を記述する情報を含む。電子デバイス102は、受け取ったメタデータに基づいて、ビデオ内の手話者110の位置を決定することができる。
【0069】
[0075] ある実施形態によれば、電子デバイス102は、ビデオのフレームへのニューラルネットワークモデル(ニューラルネットワークモデル210など)の適用に基づいて、ビデオ内の手話と関連付けられる手振りを検出するように構成することができる。電子デバイス102は、手振りの検出に基づいて、ビデオ内の手話者110の位置を検出するように更に構成することができる。このような実施形態では、ビデオは、ライブビデオブロードキャストに対応することができる。
【0070】
[0076] ある実施形態によれば、電子デバイス102は、ビデオ内の領域の背景とビデオの残りの部分の背景との間の差分に基づいて、ビデオ内の領域を検出することができる。電子デバイス102は、領域の検出に基づいて、ビデオ内の手話者110の位置を検出することができる。別の実施形態では、電子デバイス102は、ビデオ内の手話者110の周囲の境界線を検出することができる。電子デバイス102は、境界線の検出に基づいて、ビデオ内の手話者の位置を検出することができる。
【0071】
[0077] ある実施形態によれば、電子デバイス102は、ビデオから、ビデオ内の決定された位置に対応するビデオ部分を抽出するように構成することができる。ビデオ部分は、ビデオの矩形領域から抽出される。電子デバイスは、ディスプレイデバイス104上でのビデオの再生を制御するように更に構成することができる。電子デバイス102は、再生に基づいてディスプレイデバイスを制御して、ディスプレイデバイス104上にユーザインターフェイス(UI)要素(UI要素112など)をレンダリングし、UI要素112内に、抽出されたビデオ部分を表示するようにするように更に構成することができる。UI要素112は、調整可能なサイズのピクチャ・イン・ピクチャ(PiP)ウィンドウとしてレンダリングすることができる。ある実施形態では、電子デバイス102は、ディスプレイデバイス104を制御して、決定された位置に基づいて、表示されたビデオ内の手話者110の周囲の境界線をレンダリングするように更に構成することができる。
【0072】
[0078] ある実施形態によれば、電子デバイス102は、UI要素と関連付けられる1又は2以上のユーザプリファレンスを含む第1のユーザ入力を受け取ることができる。UI要素は、受け取った第1のユーザ入力に基づいてレンダリングすることができる。1又は2以上のユーザプリファレンスは、ディスプレイデバイス104の表示エリア(表示エリア506など)内のUI要素112の位置のプリファレンス、UI要素112のテーマ又は配色、UI要素112サイズのプリファレンス、UI要素112を非表示にするプリファレンス、及びUI要素112をレンダリングするスケジュールを含むことができる。
【0073】
[0079] ある実施形態によれば、電子デバイス102は、レンダリングされたUI要素112の現在位置を、現在位置と異なる第1の位置に変更するための第1の入力(第1の入力518など)を受け取るように構成することができる。電子デバイス102は、第1の入力に基づいてディスプレイデバイス104を制御して、第1の位置にUI要素112をレンダリングするように更に構成することができる。第1の位置は、ディスプレイデバイス104の表示エリア506内に存在することができる。
【0074】
[0080] ある実施形態によれば、電子デバイス102は、レンダリングされたUI要素112の現在のサイズを、現在のサイズと異なる第1のサイズに変更するための第2の入力(第2の入力612など)を受け取るように構成することができる。電子デバイス102は、受け取った第2の入力に基づいてディスプレイデバイス104を制御して、レンダリングされたUI要素112の現在のサイズを変更して、第1のサイズに一致するようにするように構成することができる。電子デバイス102は、ビデオ部分がUI要素112内に表示される前に、ビデオ部分をアップスケーリング又はダウンスケーリングして、UI要素112の第1のサイズに一致するようにするように更に構成することができる。
【0075】
[0081] ある実施形態によれば、電子デバイス102は、抽出されたビデオ部分を含む第2のメディアストリームを受け取るように構成することができる。第2のメディアストリームは、第1のメディアストリームと異なることができる。
【0076】
[0082] 本開示は、ハードウェアの形で実現することも、又はハードウェアとソフトウェアの組み合わせの形で実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアの形で実現することができる。
【0077】
[0083] 本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに、特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
【0078】
[0084] いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することができると理解するであろう。また、本開示の範囲から逸脱することなく、本開示の教示に特定の状況又は内容を適合させるための多くの修正を行うこともできる。したがって、本開示は、開示した特定の実施形態に限定されるものではなく、特許請求の範囲に該当する全ての実施形態を含むことが意図されている。
【符号の説明】
【0079】
100 ネットワーク環境
102 電子デバイス
104 ディスプレイデバイス
104A 主ビデオ
106 サーバ
108 通信ネットワーク
110 手話者
112 ユーザインターフェイス(UI)要素
200 ブロック図
202 回路
204 メモリ
206 入力/出力(I/O)デバイス
208 ネットワークインターフェイス
210 ニューラルネットワークモデル
212 画像分析プロセッサ
300 例示的なシナリオ
302 受け取られたデータ
304 第1のメディアストリーム
304A 第1のフレーム
304B 第2のフレーム
304N 第Nのフレーム
306 メタデータ
308 手話者
310 主ビデオ
312 1又は2以上のキャラクタ
314 画像座標
316 ビデオ部分
318 ユーザインターフェイス(UI)要素
320 第1の位置
400 例示的なシナリオ
402 受け取られたデータ
404 第3のメディアストリーム
404A 第1のフレーム
404B 第2のフレーム
404N 第Nのフレーム
406 手話者
406A ハイライト表示境界線
408 主ビデオ
410 1又は2以上のキャラクタ
412 画像座標
414 ビデオ部分
416 ユーザインターフェイス(UI)要素
500 例示的なシナリオ
502 主ビデオ
504 キャラクタ
506 表示エリア
508 ユーザ
510 ユーザインターフェイス(UI)要素
510A ポップアップメニュー
512 ビデオ部分
514 第1の位置
516 手話者
518 第1の入力
520 第2の位置
600 例示的なシナリオ
602 主ビデオ
604 キャラクタ
606 表示エリア
608 手話者
610 ユーザインターフェイス(UI)要素
610A ポップアップメニュー
612 第2の入力
700 フローチャート
702 開始
704 ビデオを含む第1のメディアストリームを受け取る
706 ビデオ内の手話者の位置を決定し、手話者は、ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物である
708 ビデオから、ビデオ内の決定された位置に対応するビデオ部分を抽出
710 ディスプレイデバイス上でのビデオの再生を制御
712 再生に基づいてディスプレイデバイスを制御して、ディスプレイデバイス上にユーザインターフェイス(UI)要素をレンダリングし、UI要素内に、抽出されたビデオ部分を表示するようにする
H1 高さ
H2 高さ
T1 時間
T2 時間
W1 幅
W2 幅
【国際調査報告】