特表2024-542064 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ソニー株式会社の特許一覧

特表2024-542064調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-13

(54)【発明の名称】調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示

(51)【国際特許分類】

H04N 21/431 20110101AFI20241106BHJP

【ＦＩ】

H04N21/431

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024525986

(86)(22)【出願日】2022-10-21

(85)【翻訳文提出日】2024-05-01

(86)【国際出願番号】 IB2022060148

(87)【国際公開番号】W WO2023079402

(87)【国際公開日】2023-05-11

(31)【優先権主張番号】17/453,553

(32)【優先日】2021-11-04

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

２．ＷＣＤＭＡ

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100092093

【弁理士】

【氏名又は名称】辻居幸一

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【識別番号】100141553

【弁理士】

【氏名又は名称】鈴木信彦

(74)【代理人】

【識別番号】100151987

【弁理士】

【氏名又は名称】谷口信行

(72)【発明者】

【氏名】キャンデロアブラント

(72)【発明者】

【氏名】ゴールドバーグアダム

(72)【発明者】

【氏名】ブランチャードロバート

【テーマコード（参考）】

5C164

【Ｆターム（参考）】

5C164MA03S

5C164UA51S

5C164UB01S

5C164UB41S

5C164UB85P

5C164YA21

(57)【要約】

調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための電子デバイス及び方法。電子デバイスは、ビデオを含む第１のメディアストリームを受け取る。電子デバイスは、ビデオ内の手話者の位置を決定する。電子デバイスは、ビデオ内の決定された位置に対応するビデオ部分を抽出する。電子デバイスは、ディスプレイデバイス上でのビデオの再生を制御する。電子デバイスは、再生に基づいてディスプレイデバイスを制御して、ディスプレイデバイス上にＵＩ要素をレンダリングし、ＵＩ要素内に、抽出されたビデオ部分を表示するようにする。
【選択図】図１

【特許請求の範囲】

【請求項1】

電子デバイスであって、
ディスプレイデバイスに通信可能に結合される回路を含み、
前記回路は、
ビデオを含む第１のメディアストリームを受け取ることと、
前記ビデオ内の手話者の位置を決定することであって、
前記手話者は、前記ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物である、ことと、
前記ビデオから、前記ビデオ内の前記手話者の前記決定された位置に対応するビデオ部分を抽出することと、
前記ディスプレイデバイス上での前記ビデオの再生を制御することと、
前記再生に基づいて前記ディスプレイデバイスを制御して、
前記ディスプレイデバイス上にユーザインターフェイス（ＵＩ）要素をレンダリングし、
前記ＵＩ要素内に、前記抽出されたビデオ部分を表示する、
ようにする、ことと、
を行うように構成される、
ことを特徴とする電子デバイス。

【請求項2】

前記ＵＩ要素は、調整可能なサイズのピクチャ・イン・ピクチャ（ＰｉＰ）ウィンドウとしてレンダリングされることを特徴とする、請求項１に記載の電子デバイス。

【請求項3】

前記回路は、
前記ビデオと関連付けられるメタデータを受け取ることであって、前記メタデータは、複数のタイムスタンプにおける前記ビデオ内の前記手話者の前記位置を記述する情報を含む、ことと、
受け取った前記メタデータに基づいて、前記ビデオ内の前記手話者の前記位置を決定することと、
を行うように更に構成される、
ことを特徴とする、請求項１に記載の電子デバイス。

【請求項4】

前記決定された位置は、前記手話者を含む前記ビデオの矩形領域の隅に対応する画像座標を含み、
前記ビデオ部分は、前記ビデオの前記矩形領域から抽出される、
ことを特徴とする、請求項１に記載の電子デバイス。

【請求項5】

前記回路は、
前記ビデオのフレームへのニューラルネットワークモデルの適用に基づいて、前記ビデオ内の前記手話と関連付けられる手振り（ｈａｎｄｓｉｇｎｓ）を検出し、
前記手振りの検出に基づいて、前記ビデオ内の前記手話者の前記位置を検出する、
ように更に構成される、
ことを特徴とする、請求項１に記載の電子デバイス。

【請求項6】

前記ビデオは、ライブビデオブロードキャスト（ｌｉｖｅｖｉｄｅｏｂｒｏａｄｃａｓｔ）に対応することを特徴とする、請求項５に記載の電子デバイス。

【請求項7】

前記回路は、
前記ビデオ内の領域の背景と前記ビデオの残りの部分の背景との間の差分に基づいて、前記ビデオ内の前記領域を検出し、
前記領域の検出に基づいて、前記ビデオ内の前記手話者の前記位置を検出する、
ように更に構成される、
ことを特徴とする、請求項１に記載の電子デバイス。

【請求項8】

前記回路は、
前記ビデオ内の前記手話者の周囲の境界線を検出し、
前記境界線の検出に基づいて、前記ビデオ内の前記手話者の前記位置を検出する、
ように更に構成される、
ことを特徴とする、請求項１に記載の電子デバイス。

【請求項9】

前記回路は、前記ディスプレイデバイスを制御して、前記決定された位置に基づいて、表示された前記ビデオ内の前記手話者の周囲の境界線をレンダリングするように更に構成されることを特徴とする、請求項１に記載の電子デバイス。

【請求項10】

前記回路は、
前記レンダリングされたＵＩ要素の現在位置を、前記現在位置と異なる第１の位置に変更するための第１の入力を受け取り、
前記第１の入力に基づいて前記ディスプレイデバイスを制御して、前記ディスプレイデバイスの表示エリア内に存在する前記第１の位置に前記ＵＩ要素をレンダリングする、
ように更に構成される、
ことを特徴とする、請求項１に記載の電子デバイス。

【請求項11】

前記回路は、
前記レンダリングされたＵＩ要素の現在のサイズを、前記現在のサイズと異なる第１のサイズに変更するための第２の入力を受け取り、
受け取った前記第２の入力に基づいて前記ディスプレイデバイスを制御して、前記レンダリングされたＵＩ要素の前記現在のサイズを変更して、前記第１のサイズに一致するようにし、
前記ビデオ部分が前記ＵＩ要素内に表示される前に、前記ディスプレイデバイスを制御して、前記ビデオ部分をアップスケーリング又はダウンスケーリングして、前記ＵＩ要素の前記第１のサイズに一致するようにする、
ように更に構成される、
ことを特徴とする、請求項１に記載の電子デバイス。

【請求項12】

前記回路は、前記抽出されたビデオ部分を含む第２のメディアストリームを受け取るように更に構成され、前記第２のメディアストリームは、前記第１のメディアストリームと異なることを特徴とする、請求項１に記載の電子デバイス。

【請求項13】

前記回路は、前記ＵＩ要素と関連付けられる１又は２以上のユーザプリファレンスを含む第１のユーザ入力を受け取るように更に構成され、
前記ＵＩ要素は、受け取った前記第１のユーザ入力に基づいてレンダリングされる、
ことを特徴とする、請求項１に記載の電子デバイス。

【請求項14】

前記１又は２以上のユーザプリファレンスは、前記ディスプレイデバイスの表示エリア内の前記ＵＩ要素の位置のプリファレンス、前記ＵＩ要素のテーマ又は配色、前記ＵＩ要素のサイズのプリファレンス、前記ＵＩ要素を非表示にするプリファレンス、及び前記ＵＩ要素をレンダリングするスケジュール、のうちの１又は２以上を含むことを特徴とする、請求項１３に記載の電子デバイス。

【請求項15】

方法であって、
ビデオを含む第１のメディアストリームを受け取るステップと、
前記ビデオ内の手話者の位置を決定するステップであって、
前記手話者は、前記ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物である、ステップと、
前記ビデオから、前記ビデオ内の前記手話者の前記決定された位置に対応するビデオ部分を抽出するステップと、
ディスプレイデバイス上での前記ビデオの再生を制御するステップと、
前記再生に基づいて前記ディスプレイデバイスを制御して、
前記ディスプレイデバイス上にユーザインターフェイス（ＵＩ）要素をレンダリングし、
前記ＵＩ要素内に、前記抽出されたビデオ部分を表示する、
ようにする、ステップと、
を含むことを特徴とする方法。

【請求項16】

前記ＵＩ要素は、調整可能なサイズのピクチャ・イン・ピクチャ（ＰｉＰ）ウィンドウとしてレンダリングされることを特徴とする、請求項１５に記載の方法。

【請求項17】

前記ビデオと関連付けられるメタデータを受け取るステップであって、前記メタデータは、複数のタイムスタンプにおける前記ビデオ内の前記手話者の前記位置を記述する情報を含む、ステップと、
受け取った前記メタデータに基づいて、前記ビデオ内の前記手話者の前記位置を決定するステップと、
を更に含むことを特徴とする、請求項１５に記載の方法。

【請求項18】

前記決定された位置は、前記手話者を含む前記ビデオの矩形領域の隅に対応する画像座標を含み、
前記ビデオ部分は、前記ビデオの前記矩形領域から抽出される、
ことを特徴とする、請求項１５に記載の方法。

【請求項19】

前記ビデオのフレームへのニューラルネットワークモデルの適用に基づいて、前記ビデオ内の前記手話と関連付けられる手振りを検出するステップと、
前記手振りの検出に基づいて、前記ビデオ内の前記手話者の前記位置を検出するステップと、
を更に含むことを特徴とする、請求項１５に記載の方法。

【請求項20】

電子デバイスによって実行された時に、前記電子デバイスに動作を実行させるコンピュータ実行可能命令が記憶された非一時的コンピュータ可読媒体であって、前記動作は、
ビデオを含む第１のメディアストリームを受け取ることと、
前記ビデオ内の手話者の位置を決定することであって、
前記手話者は、前記ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物である、ことと、
前記ビデオから、前記ビデオ内の前記手話者の前記決定された位置に対応するビデオ部分を抽出することと、
ディスプレイデバイス上での前記ビデオの再生を制御することと、
前記再生に基づいて前記ディスプレイデバイスを制御して、
前記ディスプレイデバイス上にユーザインターフェイス（ＵＩ）要素をレンダリングし、
前記ＵＩ要素内に、前記抽出されたビデオ部分を表示する、
ようにする、ことと、
を含む、
ことを特徴とする非一時的コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

〔関連出願への相互参照／引用による組み込み〕
[0001] 本出願は、２０２１年１１月４日に米国特許庁に出願された米国特許出願第１７／４５３５５３号の優先権の利益を主張するものである。上記出願の各々は、その全体が引用により本明細書に組み入れられる。

【0002】

[0002] 本開示の様々な実施形態は、手話ビデオの表示に関する。より具体的には、本開示の様々な実施形態は、調整可能なＵＩ要素を通じた手話ビデオの表示のための電子デバイス及び方法に関する。

【背景技術】

【0003】

[0003] 従来、ディスプレイデバイス（テレビジョン又は移動電話など）は、ビデオファイルと、ビデオファイルと同期されるオーディオファイルとを含むブロードキャストメディアコンテンツ又はストリーミングメディアコンテンツを受け取る。ビデオファイル及びオーディオファイルの両方は、ディスプレイデバイス上で同時にレンダリングされて、視聴される。いくつかの例では、メディアコンテンツ（例えば、ビデオ）は、手話（例えば、アメリカ手話（ＡＳＬ））を使用して、聴覚障害を有する視聴者に対応する手話者又は通訳者も含む。しかしながら、手話者（手話ビデオ）のビデオ部分は、通常、ビデオの下隅に現れる。手話ビデオは、小さすぎて快適に視聴できない場合があるか、又は主ビデオのエリア（主ビデオ内の重要な通知など）を遮る場合がある。既存のシステムは、聴覚障害を有する視聴者がメディアコンテンツ及び手話ビデオを便利に視聴するのを支援するための簡単なユーザインターフェイス技術を提供しない。

【0004】

[0004] 当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的方法の更なる制限及び不利点が明らかになるであろう。

【発明の概要】

【発明が解決しようとする課題】

【0005】

[0005] 少なくとも１つの図に実質的に示し、及び／又はこれらの図に関連して説明し、特許請求の範囲に更に完全に示す、調整可能なＵＩ要素を通じた手話ビデオの表示のための電子デバイス及び方法を提供する。

【0006】

[0006] 全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。

【図面の簡単な説明】

【0007】

【図1】本開示の実施形態による、調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための例示的なネットワーク環境を示す図である。

【図2】本開示の実施形態による、調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための例示的な電子デバイスのブロック図である。

【図3】本開示の実施形態による、メタデータに基づく調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための例示的なシナリオを示す図である。

【図4】本開示の実施形態による、ライブビデオブロードキャストのための調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための例示的なシナリオを示す図である。

【図5】本開示の実施形態による、手話ビデオを表示するユーザインターフェイス（ＵＩ）要素の位置の調整のための例示的なシナリオを示す図である。

【図6】本開示の実施形態による、手話ビデオを表示するユーザインターフェイス（ＵＩ）要素のサイズの調整のための例示的なシナリオを示す図である。

【図7】本開示の実施形態による、調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための例示的な動作を示すフローチャートである。

【発明を実施するための形態】

【0008】

[0014] 以下で説明する実装は、調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための開示される電子デバイス及び方法に見出すことができる。本開示の例示的な態様は、ディスプレイデバイスに結合することができる電子デバイス（例えば、スマートテレビジョン又はモバイルデバイス）を提供する。電子デバイスは、ビデオを含むことができるメディアストリームを受け取ることができる。電子デバイスは、ビデオ内の手話者の位置を決定することができる。手話者は、ビデオ内で手話を使用して実行することができるアニメーション化されたキャラクタ又は人物とすることができる。電子デバイスは、更に、ビデオから、ビデオ内の手話者の決定された位置に対応するビデオ部分を抽出することができる。電子デバイスは、ディスプレイデバイス上でのビデオの再生を制御することができる。電子デバイスは、再生に基づいてディスプレイデバイスを制御して、ディスプレイデバイス上にユーザインターフェイス（ＵＩ）要素をレンダリングし、ＵＩ要素内に、抽出されたビデオ部分を表示するようにすることができる。ＵＩ要素は、調整可能なサイズのピクチャ・イン・ピクチャ（ＰｉＰ）ウィンドウとしてレンダリングすることができる。それによって、電子デバイスは、主ビデオと一緒に手話者のビデオを便利に視聴するための調整可能なＵＩ要素を提供することができる。

【0009】

[0015] ある実施形態では、電子デバイスは、ビデオと関連付けられるメタデータを受け取ることができる。メタデータは、複数のタイムスタンプにおけるビデオ内の手話者の位置を記述する情報を含むことができる。電子デバイスは、受け取ったメタデータに基づいて、ビデオ内の手話者の位置を決定することができる。別の実施形態では、電子デバイスは、ビデオ内の領域の背景とビデオの残りの部分の背景との間の差分に基づいて、ビデオ内の領域を検出することができる。電子デバイスは、領域の検出に基づいて、ビデオ内の手話者の位置を検出することができる。別の実施形態では、電子デバイスは、ビデオ内の手話者の周囲の境界線を検出することができる。電子デバイスは、境界線の検出に基づいて、ビデオ内の手話者の位置を検出することができる。いくつかの実施形態では、電子デバイスは、ビデオ（例えば、ライブビデオブロードキャスト）の１又は２以上のフレームへのニューラルネットワークモデルの適用に基づいて、ビデオ内の手話と関連付けられる手振り（ｈａｎｄｓｉｇｎｓ）を検出するように構成することができる。電子デバイスは、手振りの検出に基づいて、ビデオ内の手話者の位置を検出するように構成することができる。電子デバイスは、更に、手話者のビデオ部分を抽出し、ディスプレイデバイスを制御して、検出された手話者の位置に基づいて、ディスプレイデバイス上にＵＩ要素（例えば、ＰｉＰウィンドウ）をレンダリングすることができる。それによって、電子デバイスは、ライブビデオブロードキャストのための手話者の位置を自動的に検出して、手話者のＰｉＰウィンドウを生成することができる。

【0010】

[0016] ある実施形態では、電子デバイスは、ユーザプリファレンスに従って、ＵＩ要素（例えば、ＰｉＰウィンドウ）をカスタマイズする能力を提供することができる。電子デバイスは、ユーザプリファレンスに基づいて、ＵＩ要素のサイズ、ＵＩ要素の位置、ＵＩ要素のテーマ又は配色、ＵＩ要素を非表示にするプリファレンス、及びＵＩ要素をレンダリングするスケジュールを調整するように構成することができる。例えば、電子デバイスは、ＰｉＰウィンドウの現在位置を、現在位置と異なる第１の位置に変更するための第１の入力を受け取ることができる。電子デバイスは、第１のユーザ入力に基づいてディスプレイデバイスを制御して、第１の位置にＰｉＰウィンドウをレンダリングすることができる。別の例では、電子デバイスは、ＰｉＰウィンドウの現在のサイズを、現在のサイズと異なる第１のサイズに変更するための第２の入力を受け取ることができる。電子デバイスは、第２の入力に基づいてディスプレイデバイスを制御して、ＰｉＰウィンドウの現在のサイズを変更して、第１のサイズに一致するようにすることができる。それによって、電子デバイスは、ＰｉＰウィンドウに基づいて、手話者のビデオ部分のサイズ及び位置を調整するための簡単で使いやすいＵＩ技術を提供することができる。ＰｉＰウィンドウの位置及びサイズの調整に基づいて、電子デバイスは、手話者のビデオの明瞭で拡大された表示を提供することができ、主ビデオ（主ビデオ内の重要な通知など）の遮るもののない表示を可能にすることができる。

【0011】

[0017] 図１は、本開示の実施形態による、調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための例示的なネットワーク環境を示す図である。図１を参照すると、ネットワーク環境１００の図が示されている。ネットワーク環境１００に、電子デバイス１０２、ディスプレイデバイス１０４、及びサーバ１０６が示されている。電子デバイス１０２は、通信ネットワーク１０８を介して、サーバ１０６に通信可能に結合することができる。電子デバイス１０２は、直接又は通信ネットワーク１０８を介して、ディスプレイデバイス１０４に通信可能に結合することができる。図１を参照すると、主ビデオ１０４Ａと、手話者１１０のビデオを表示するＵＩ要素１１２とが更に示されている。

【0012】

[0018] 図１では、電子デバイス１０２及びディスプレイデバイス１０４は、２つの別個のデバイスとして示されている。しかしながら、いくつかの実施形態では、本開示の範囲から逸脱することなく、ディスプレイデバイス１０４は、電子デバイス１０２と統合することができる。

【0013】

[0019] 電子デバイス１０２は、ディスプレイデバイス１０４上にユーザインターフェイス（ＵＩ）要素１１２をレンダリングするように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。電子デバイス１０２は、ビデオを含む第１のメディアストリームを受け取ることができる。電子デバイス１０２は、更に、ビデオと関連付けられるメタデータを受け取ることができる。電子デバイス１０２は、更に、ビデオ内の手話者１１０の位置と関連付けられるビデオ部分を抽出することができる。電子デバイス１０２は、ディスプレイデバイス１０４を制御して、ＵＩ要素１１２内に、抽出されたビデオ部分を表示するようにすることができる。電子デバイス１０２は、メディアコンテンツ（ビデオなど）の受信及び／又は再生が可能な適切なミドルウェア及びコーデックを含むことができる。ある実施形態では、電子デバイス１０２は、複数のユーザプロファイルと関連付けられることができる。複数のユーザプロファイルのうちの各ユーザプロファイルは、コンテンツアイテム、設定又はメニューオプション、ユーザプリファレンスなどの集合を含むことができる。電子デバイス１０２は、リモートコントロール又はタッチスクリーンインターフェイスからのユーザ入力に基づいて、グラフィカルユーザインターフェイス上の複数のユーザプロファイルの中からユーザプロファイルを選択する及び／又は切り替えることを可能にすることができる。電子デバイス１０２は、赤外線受信機又はＢｌｕｅｔｏｏｔｈ(登録商標)インターフェイスを含み、リモートコントロール上でボタンが押されることに対応してリモートコントロールから送信される制御信号を受信することができる。電子デバイス１０２の例としては、以下に限定されるわけではないが、スマートテレビジョン（ＴＶ）、インターネットプロトコルＴＶ（ＩＰＴＶ）、デジタルメディアプレーヤ、マイクロコンソール、セットトップボックス、オーバーザトップ（ＯＴＴ）プレーヤ、ストリーミングプレーヤ、メディアエクステンダ／レギュレータ、デジタルメディアハブ、スマートフォン、パーソナルコンピュータ、ラップトップ、タブレット、ウェアラブル電子デバイス、ヘッドマウントデバイス、又はケーブル又は衛星ネットワークを通じた放送信号からのコンテンツ、ストリーミングコンテンツ無線放送、インターネットベースの通信信号からのコンテンツなどを受信し、復号して再生する能力を有する他の任意のディスプレイデバイスを挙げることができる。コンテンツの例としては、以下に限定されるわけではないが、画像、アニメーション（２Ｄ／３Ｄアニメーション又はモーショングラフィックスなど）、オーディオ／ビデオデータ、従来のテレビ番組（伝統的な放送、ケーブル、衛星、インターネット、又は他の手段を介して提供される）、ペイパービュー番組、オンデマンド番組（ビデオオンデマンド（ＶＯＤ）システムにおけるような）、又はインターネットコンテンツ（例えば、ストリーミングメディア、ダウンロード可能なメディア、ウェブキャストなど）を挙げることができる。

【0014】

[0020] ある実施形態では、電子デバイス１０２は、受け取った第１のメディアストリームに基づいて、ＵＩ要素１１２（例えば、ピクチャ・イン・ピクチャ（ＰｉＰ）ウィンドウ）を生成するように構成することができる。ＰｉＰウィンドウは、ユーザ入力に基づいて、サイズ及び位置が調整可能とすることができる。ＰｉＰウィンドウは、主ビデオ内で手話を実行する手話者１１０を含む主ビデオ１０４Ａの部分を表示することができる。ＵＩ要素１１２（例えば、ＰｉＰウィンドウ）の生成の機能は、電子デバイス１０２の製造者によって、電子デバイス１０２と統合することができるか、又はサーバ１０６又はアプリケーションストア／市場からのアドオンアプリケーションとしてダウンロード可能とすることができる。

【0015】

[0021] ディスプレイデバイス１０４は、手話者の抽出されたビデオ部分を表示するＵＩ要素１１２をレンダリングするように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。ディスプレイデバイス１０４は、電子デバイス１０２によって再生されている主ビデオ１０４Ａを表示するように更に構成することができる。ある実施形態では、ディスプレイデバイス１０４は、電子デバイス１０２に接続される外部ディスプレイデバイスとすることができる。例えば、ディスプレイデバイス１０４は、有線接続（高品位マルチメディアインターフェイス（ＨＤＭＩ(登録商標)）接続など）又は無線接続（Ｗｉ－Ｆｉなど）によって、電子デバイス１０２（デジタルメディアプレーヤ又はパーソナルビデオレコーダなど）に接続することができる。別の実施形態では、ディスプレイデバイス１０４は、電子デバイス１０２（スマートテレビジョンなど）と統合することができる。ディスプレイデバイス１０４（一体化されたオーディオスピーカを含むディスプレイ画面など）は、１又は２以上の制御可能なパラメータ、例えば、輝度、コントラスト、アスペクト比、色の飽和度、オーディオボリュームなどを含むことができる。電子デバイス１０２は、有線接続（ＨＤＭＩ(登録商標)接続など）を通じて１又は２以上の信号を送信することによって、ディスプレイデバイス１０４のパラメータを制御するように構成することができる。一実施形態では、ディスプレイデバイス１０４は、タッチ入力を介してユーザ入力を受け取ることができるタッチスクリーンとすることができる。ディスプレイデバイス１０４は、以下に限定されるわけではないが、液晶ディスプレイ（ＬＣＤ）ディスプレイ、発光ダイオード（ＬＥＤ）ディスプレイ、プラズマディスプレイ、又は有機ＬＥＤ（ＯＬＥＤ）ディスプレイ技術、又はその他のディスプレイデバイスのうちの少なくとも１つなどのいくつかの公知技術を通じて実現することができる。少なくとも１つの実施形態では、ディスプレイデバイス１０４は、スマートＴＶのディスプレイユニット、ヘッドマウントデバイス（ＨＭＤ）、スマートグラスデバイス、シースルーディスプレイ、ヘッドアップディスプレイ（ＨＵＤ）、車載インフォテインメントシステム、投影式ディスプレイ、エレクトロクロミックディスプレイ、又は透明ディスプレイとすることができる。

【0016】

[0022] サーバ１０６は、１又は２以上のメディアストリームを記憶するように構成できる好適なロジック、回路、インターフェイス、及び／又はコードを含むことができる。サーバ１０６は、１又は２以上のビデオ内の手話者の位置を決定するためのメタデータを記憶するように更に構成することができる。いくつかの実施形態では、サーバ１０６は、ビデオ内の手話と関連付けられる手振りの検出のためのニューラルネットワークモデルをトレーニングするように構成することができる。いくつかの実施形態では、サーバは、ニューラルネットワークモデルと、ニューラルネットワークモデルをトレーニングするためのトレーニングデータセットとを記憶するように構成することができる。サーバ１０６は、電子デバイス１０２と関連付けられるユーザプロファイル、各ユーザプロファイルのためのＵＩ要素１１２と関連付けられるプリファレンス、各ユーザプロファイルのためのＵＩ要素１１２の使用履歴などを記憶するように更に構成することができる。サーバ１０６は、クラウドサーバとして実装することができ、ウェブアプリケーション、クラウドアプリケーション、ＨＴＴＰ要求、リポジトリ動作、ファイル転送などを通じて動作を実行することができる。サーバ１０６の他の実装例としては、以下に限定されるわけではないが、データベースサーバ、ファイルサーバ、ウェブサーバ、メディアサーバ、アプリケーションサーバ、メインフレームサーバ、又はクラウドコンピューティングサーバを挙げることができる。少なくとも１つの実施形態では、サーバ１０６は、当業者に周知であるいくつかの技術を使用して、複数の分散クラウドベースのリソースとして実装することができる。当業者であれば、本開示の範囲を、２つの別個のエンティティとしてのサーバ１０６及び電子デバイス１０２の実装に限定することはできないと理解するであろう。特定の実施形態では、サーバ１０６の機能は、本開示の範囲から逸脱することなく、その全体が又は少なくとも部分的に電子デバイス１０２に組み込まれることができる。

【0017】

[0023] 通信ネットワーク１０８は、通信媒体を含むことができ、通信媒体を通じて、電子デバイス１０２、ディスプレイデバイス１０４、及びサーバ１０６は、互いに通信することができる。通信ネットワーク１０８は、有線接続又は無線接続のうちの１つとすることができる。通信ネットワーク１０８の例としては、以下に限定されるわけではないが、インターネット、クラウドネットワーク、セルラー又はワイヤレスモバイルネットワーク（Ｌｏｎｇ－ＴｅｒｍＥｖｏｌｕｔｉｏｎ及び５ＧＮｅｗＲａｄｉｏなど）、ワイヤレスフィデリティ（Ｗｉ－Ｆｉ）ネットワーク、パーソナルエリアネットワーク（ＰＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、又はメトロポリタンエリアネットワーク（ＭＡＮ）を挙げることができる。ネットワーク環境１００における様々なデバイスは、様々な有線及び無線通信プロトコルに従って、通信ネットワーク１０８に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定されるわけではないが、伝送制御プロトコル及びインターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、ファイル転送プロトコル（ＦＴＰ）、ＺｉｇＢｅｅ、ＥＤＧＥ、ＩＥＥＥ８０２．１１、ライトフィデリティ（Ｌｉ－Ｆｉ）、８０２．１６、ＩＥＥＥ８０２．１１ｓ、ＩＥＥＥ８０２．１１ｇ、マルチホップ通信、無線アクセスポイント（ＡＰ）、装置間通信、セルラー通信プロトコル、及びＢｌｕｅｔｏｏｔｈ（ＢＴ）通信プロトコルのうちの少なくとも１つを含むことができる。

【0018】

[0024] 動作時に、電子デバイス１０２は、ビデオを含むことができる第１のメディアストリームを受け取ることができる。第１のメディアストリームは、ビデオの送信のための標準デジタルコンテナフォーマットに符号化することができる。ある実施形態では、電子デバイス１０２は、サーバ１０６から第１のメディアストリームを受け取ることができる。ある実施形態では、電子デバイス１０２は、ビデオと関連付けられるメタデータを受け取るように更に構成することができる。メタデータは、複数のタイムスタンプにおけるビデオ内の手話者１１０の位置を記述する情報を含むことができる。手話者１１０は、ビデオ内で手話を使用して実行することができるアニメーション化されたキャラクタ又は人物とすることができる。例えば、手話者１１０は、ビデオ内の話し言葉を通訳して、話し言葉を手話に変換することができる人物とすることができる。

【0019】

[0025] ある実施形態では、電子デバイス１０２は、メタデータの受け取りに基づいて、ビデオ内の手話者１１０の位置を決定するように更に構成することができる。決定された位置は、手話者１１０を含むビデオの矩形領域の隅の画像座標を含むことができる。別の実施形態では、電子デバイス１０２は、ビデオにニューラルネットワークモデル（図２に示す）を適用して、ビデオ内の手話者１１０の位置を決定するように構成することができる。別の実施形態では、電子デバイス１０２は、手話者１１０の周囲の領域と主ビデオ１０４Ａとの背景の差分に基づいて、又はビデオ内の手話者１１０の周囲の境界線の検出に基づいて、画像分析によって、ビデオ内の手話者１１０の位置を決定することができる。ニューラルネットワークモデルの適用及び画像分析の詳細については、例えば図２及び図３に示す。ある実施形態では、電子デバイス１０２は、ディスプレイデバイス１０４を制御して、表示されたビデオ内の手話者１１０の周囲のハイライト表示境界線をレンダリングするように更に構成することができる。境界線は、決定された位置に基づいて、レンダリングすることができる。一例では、電子デバイス１０２が、ビデオからの手話者１１０のビデオ部分の複数の候補を識別した場合、電子デバイス１０２は、境界線を表示して、ビデオ内の手話者のビデオ部分のユーザ確認を得ることができる。

【0020】

[0026] 電子デバイス１０２は、ビデオ内の手話者１１０の決定された位置に対応するビデオ部分を抽出するように更に構成することができる。ビデオ部分は、ビデオの矩形領域から抽出することができる。ある実施形態では、電子デバイス１０２は、抽出されたビデオ部分を含む第２のメディアストリームを受け取ることができる。第２のメディアストリームは、第１のメディアストリームと異なることができる。電子デバイス１０２は、ディスプレイデバイス１０４上でのビデオ（例えば、主ビデオ１０４Ａ）の再生を制御するように更に構成することができる。電子デバイス１０２は、ディスプレイデバイス１０４を制御して、ディスプレイデバイス１０４上にＵＩ要素１１２をレンダリングし、ＵＩ要素１１２内に、抽出されたビデオ部分を表示するように更に構成することができる。ＵＩ要素１１２は、調整可能なサイズ及び位置のピクチャ・イン・ピクチャ（ＰｉＰ）ウィンドウとしてレンダリングすることができる。

【0021】

[0027] ある実施形態では、電子デバイス１０２は、ユーザプリファレンスに従って、ＵＩ要素１１２（ＰｉＰウィンドウ）をカスタマイズするように構成することができる。例えば、電子デバイス１０２は、ユーザプリファレンスに基づいて、ＵＩ要素１１２のサイズ、ＵＩ要素１１２の位置、ＵＩ要素１１２のテーマ又は配色、ＵＩ要素１１２を非表示にするプリファレンス、及びＵＩ要素１１２をレンダリングするスケジュールを調整するように構成することができる。例えば、電子デバイス１０２は、ＰｉＰウィンドウの現在位置を、現在位置と異なる第１の位置に変更するための第１の入力を受け取ることができる。電子デバイス１０２は、第１のユーザ入力に基づいてディスプレイデバイス１０４を制御して、第１の位置にＰｉＰウィンドウをレンダリングすることができる。別の例では、電子デバイス１０２は、ＰｉＰウィンドウの現在のサイズを、現在のサイズと異なる第１のサイズに変更するための第２の入力を受け取ることができる。電子デバイス１０２は、第２の入力に基づいてディスプレイデバイスを制御して、ＰｉＰウィンドウの現在のサイズを変更して、第１のサイズに一致するようにすることができる。それによって、電子デバイス１０２は、ＵＩ要素１１２（ＰｉＰウィンドウなど）に基づいて、手話者のビデオ部分のサイズ及び位置を調整するための簡単で使いやすいＵＩ技術を提供することができる。ＵＩ要素１１２の位置及びサイズの調整に基づいて、電子デバイス１０２は、手話者のビデオの明瞭で拡大された表示を提供することができ、主ビデオ１０４Ａ（主ビデオ１０４Ａ内の重要な通知など）の遮るもののない表示を可能にすることができる。

【0022】

[0028] 本開示の範囲から逸脱することなく、図１に対して修正、追加、又は省略を行うことができる。例えば、ネットワーク環境１００は、本開示で図示及び説明するものよりも多い又は少ない要素を含むことができる。

【0023】

[0029] 図２は、本開示の実施形態による、調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための例示的な電子デバイスのブロック図である。図２の説明は、図１の要素に関連して行う。図２を参照すると、電子デバイス１０２のブロック図２００が示されている。電子デバイス１０２は、回路２０２と、メモリ２０４と、入力／出力（Ｉ／Ｏ）デバイス２０６と、ネットワークインターフェイス２０８と、ニューラルネットワークモデル２１０とを含むことができる。少なくとも１つの実施形態では、電子デバイス１０２は、ディスプレイデバイス１０４を含むこともできる。回路２０２は、メモリ２０４、Ｉ／Ｏデバイス２０６、ネットワークインターフェイス２０８、ニューラルネットワークモデル２１０、及びディスプレイデバイス１０４に通信可能に結合することができる。

【0024】

[0030] 回路２０２は、電子デバイス１０２によって実行されるべき異なる動作と関連付けられるプログラム命令を実行するように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。異なる動作は、ビデオ内の手話者の位置を決定することと、ビデオ内の手話者の決定された位置に対応するビデオ部分を抽出することと、ディスプレイデバイス１０４を制御して、ディスプレイデバイス１０４上にＵＩ要素１１２をレンダリングし、ＵＩ要素１１２内に、抽出されたビデオ部分を表示するようにすることと、を含む。回路２０２は、１又は２以上の処理ユニットを含むことができ、１又は２以上の処理ユニットは、１又は２以上の処理ユニットの機能を共同で実行する統合プロセッサ又はプロセッサ群として実装することができる。回路２０２は、当技術分野で公知のいくつかのプロセッサ技術に基づいて実装することができる。回路２０２の実装の例は、ｘ８６ベースのプロセッサ、グラフィックス処理ユニット（ＧＰＵ）、縮小命令セットコンピュータ（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）プロセッサ、複合命令セットコンピュータ（ＣＩＳＣ）プロセッサ、マイクロコントローラ、中央処理装置（ＣＰＵ）、及び／又はその他のコンピュータ回路とすることができる。

【0025】

[0031] メモリ２０４は、回路２０２によって実行されるべきプログラム命令を記憶するように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。ある実施形態では、メモリ２０４は、受け取られた第１のメディアストリームと、第２のメディアストリームと、受け取られたメタデータと、手話者１１０の決定された位置と、抽出されたビデオ部分とを記憶することができる。メモリ２０４は、電子デバイス１０２と関連付けられる１又は２以上のユーザプロファイル、各ユーザプロファイルのためのＵＩ要素１１２と関連付けられるプリファレンス、各ユーザプロファイルのためのＵＩ要素１１２の使用履歴、各ユーザプロファイルの手話のプリファレンス（例えば、アメリカ手話又はイギリス手話）などを記憶するように更に構成することができる。いくつかの実施形態では、メモリ２０４は、ＵＩ要素１１２の１又は２以上の事前設定位置及び１又は２以上の事前設定サイズを更に記憶することができる。メモリ２０４は、全てのユーザのためのデフォルトとして、ＵＩ要素１１２の１又は２以上の事前設定位置及び１又は２以上の事前設定サイズを記憶することができるか、又は各ユーザプロファイルのために、ＵＩ要素１１２の１又は２以上の事前設定位置及び１又は２以上の事前設定サイズを記憶することができる。メモリ２０４は、画像分析のための予め定められたテンプレートと、ニューラルネットワークモデル２１０と、サーバ１０６から受け取られるトレーニングデータセットとを記憶するように更に構成することができる。メモリ２０４の実装の例としては、以下に限定されるわけではないが、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気的に消去可能なプログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、ＣＰＵキャッシュ、及び／又はセキュアデジタル（ＳＤ）カードを挙げることができる。

【0026】

[0032] Ｉ／Ｏデバイス２０６は、１又は２以上の入力を受け取り、受け取った１又は２以上の入力に基づいて１又は２以上の出力を提供するように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。様々な入力及び出力デバイスを含むＩ／Ｏデバイス２０６は、回路２０２と通信するように構成することができることができる。一例では、電子デバイス１０２は、Ｉ／Ｏデバイス２０６を介して、ディスプレイデバイス１０４上にレンダリングされるＵＩ要素１１２の現在位置の変更を示すユーザ入力を受け取ることができる。別の例では、電子デバイス１０２は、Ｉ／Ｏデバイス２０６を介して、ディスプレイデバイス１０４上にレンダリングされるＵＩ要素１１２の現在のサイズの変更を示すユーザ入力を受け取ることができる。Ｉ／Ｏデバイス２０６の例としては、以下に限定されるわけではないが、リモートコンソール、タッチスクリーン、キーボード、マウス、ジョイスティック、マイクロフォン、ディスプレイデバイス（ディスプレイデバイス１０４など）、及びスピーカを挙げることができる。

【0027】

[0033] ネットワークインターフェイス２０８は、通信ネットワーク１０８を介した回路２０２とサーバ１０６又はディスプレイデバイス１０４との間の通信を容易にするように構成できる好適なロジック、回路、及びインターフェイスを含むことができる。ネットワークインターフェイス２０８は、電子デバイス１０２と通信ネットワーク１０８との有線又は無線通信をサポートする様々な公知技術を用いて実装することができる。ネットワークインターフェイス２０８としては、以下に限定されるわけではないが、アンテナ、無線周波数（ＲＦ）トランシーバ、Ｂｌｕｅｔｏｏｔｈ(登録商標)受信機、赤外線受信機、１又は２以上の増幅器、チューナ、１又は２以上の発振器、デジタルシグナルプロセッサ、コーダ・デコーダ（ＣＯＤＥＣ）チップセット、加入者識別モジュール（ＳＩＭ）カード、又はローカルバッファ回路を挙げることができる。ネットワークインターフェイス２０８は、インターネット、イントラネット、又はセルラー電話ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）及びメトロポリタンエリアネットワーク（ＭＡＮ）などの無線ネットワークなどのネットワークと無線通信を介して通信するように構成することができる。無線通信は、グローバル・システム・フォー・モバイル・コミュニケーションズ（ＧＳＭ）、拡張データＧＳＭ環境（ＥＤＧＥ）、広帯域符号分割多元接続（Ｗ－ＣＤＭＡ）、ロングタームエボリューション（ＬＴＥ）、符号分割多元接続（ＣＤＭＡ）、時分割多元接続（ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ、ワイヤレスフィデリティ（Ｗｉ－Ｆｉ）（ＩＥＥＥ８０２．１１ａ、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ又はＩＥＥＥ８０２．１１ｎなど）、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）、ライトフィデリティ（Ｌｉ－Ｆｉ）、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス（Ｗｉ－ＭＡＸ）、電子メールプロトコル、インスタントメッセージング及びショートメッセージサービス（ＳＭＳ）などの複数の通信規格、通信プロトコル及び通信技術のうちの１又は２以上を使用することができる。

【0028】

[0034] ニューラルネットワークモデル２１０は、ノードとして複数の層に配置される人工ニューロンの計算ネットワーク又はシステムとすることができる。ニューラルネットワークモデルの複数の層は、入力層と、１又は２以上の隠れ層と、出力層とを含むことができる。複数の層のうちの各層は、１又は２以上のノード（又は例えば、円によって表される人工ニューロン）を含むことができる。入力層における全てのノードの出力は、（単複の）隠れ層の少なくとも１つのノードに結合することができる。同様に、各隠れ層の入力は、ニューラルネットワークモデルの他の層における少なくとも１つのノードの出力に結合することができる。各隠れ層の出力は、ニューラルネットワークモデルの他の層における少なくとも１つのノードの入力に結合することができる。最終層における（単複の）ノードは、少なくとも１つの隠れ層から入力を受け取り、結果を出力することができる。層の数及び各層内のノードの数は、ニューラルネットワークモデルのハイパーパラメータから決定することができる。このようなハイパーパラメータは、トレーニングデータセットでニューラルネットワークモデル２１０をトレーニングする前、トレーニング中、又はトレーニング後に設定することができる。

【0029】

[0035] ニューラルネットワークモデル２１０の各ノードは、ネットワークのトレーニング中に調整できるパラメータセットを有する数学関数（例えば、シグモイド関数又は正規化線形ユニット）に対応することができる。パラメータセットは、例えば、重みパラメータ、正則化パラメータなどを含むことができる。各ノードは、数学関数を使用して、ニューラルネットワークモデル２１０の（単複の）他の層（例えば、（単複の）前の層）内のノードからの１又は２以上の入力に基づいて出力を計算することができる。ニューラルネットワークモデル２１０のノードの全て又はそのうちのいくつかは、同じ又は異なる数学関数に対応することができる。

【0030】

[0036] ある実施形態によれば、回路２０２は、ビデオに関連する１又は２以上の特徴、ビデオ内の手話者１１０の背景に関連する１又は２以上の特徴、ビデオ内の手話者１１０の手の動きに関連する１又は２以上の特徴などで、ニューラルネットワークモデル２１０をトレーニングして、トレーニングされたニューラルネットワークモデル２１０を得ることができる。ニューラルネットワークモデル２１０をトレーニングして、ビデオ内の手話と関連付けられる手振りを検出し、手振りの検出に基づいてビデオ内の手話者１１０の位置を検出することができる。別の実施形態では、ニューラルネットワークモデル２１０をトレーニングして、ビデオ内の手話者１１０の背景とビデオの他の部分とを区別し、背景に基づいてビデオ内の手話者１１０の位置を検出することができる。例えば、回路２０２は、ビデオ、手話（例えば、アメリカ手話又はイギリス手話）の所定の手振りなどを入力して、ニューラルネットワークモデル２１０をトレーニングすることができる。

【0031】

[0037] ニューラルネットワークモデル２１０のトレーニングでは、（トレーニングデータセットからの）所与の入力に対する最終層の出力が、ニューラルネットワークモデルに対する損失関数に基づく正しい結果と一致するかどうかに基づいて、ニューラルネットワークモデルの各ノードの１又は２以上のパラメータを更新することができる。損失関数の最小値に達することができ、トレーニングエラーを最小にすることができるまで、同じ又は異なる入力に対して上記のプロセスを繰り返すことができる。いくつかのトレーニング方法は、当技術分野で公知であり、例えば、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法、メタヒューリスティクスなどである。

【0032】

[0038] ニューラルネットワークモデル２１０は、例えば、電子デバイス１０２上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装することができる電子データを含むことができる。ニューラルネットワークモデル２１０は、回路２０２などの処理デバイスが実行するライブラリ、外部スクリプト、又はその他のロジック／命令に依拠することができる。ニューラルネットワークモデル２１０は、回路２０２などのコンピュータデバイスがビデオ内の手話と関連付けられる手振りの検出のための１又は２以上の動作を実行できるようにするように構成されるコード及びルーチンを含むことができる。加えて、又は代替的に、ニューラルネットワークモデル２１０は、プロセッサ、マイクロプロセッサ（例えば、１又は２以上の動作の実行又は実行の制御を行う）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は特定用途向け集積回路（ＡＳＩＣ）を含むハードウェアを使用して実装することもできる。代替的に、いくつかの実施形態では、ニューラルネットワークモデル２１０は、ハードウェア及びソフトウェアの組み合わせを使用して実装することができる。

【0033】

[0039] ニューラルネットワークモデル２１０の例としては、以下に限定されるわけではないが、ディープニューラルネットワーク（ＤＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、Ｒ－ＣＮＮ、ＦａｓｔＲ－ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ、人工ニューラルネットワーク（ＡＮＮ）、（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）ＹＯＬＯネットワーク、ＣＮＮ＋ＡＮＮ、全結合ニューラルネットワーク、ディープベイズニューラルネットワーク、及び/又はこのようなネットワークの組み合わせを挙げることができる。特定の実施形態では、ニューラルネットワークモデル２１０は、複数のディープニューラルネットワーク（ＤＮＮ）のハイブリッドアーキテクチャに基づくことができる。

【0034】

[0040] 画像分析プロセッサ２１２は、オブジェクト検出、オブジェクト認識、画像セグメンテーション、モーション検出、姿勢推定、エッジ検出、テンプレートマッチングなどの１又は２以上の画像分析技術を実行するように構成できる好適なハードウェア及びソフトウェアアルゴリズムを含むことができる。例えば、画像分析プロセッサ２１２は、ビデオ内の手話者１１０の部分の形状及びサイズと関連付けられる予め定められた特徴又はテンプレートに基づいて、テンプレートマッチングを実行することができる。別の例では、画像分析プロセッサ２１２は、エッジ検出を実行して、手話者１１０の周囲の可視境界線を検出することができる。別の例では、画像分析プロセッサ２１２は、モーション検出を実行して、手話者１１０の背後の動かない（静的）領域と、主ビデオ１０４Ａの動く（動的）背景とを区別することができる。

【0035】

[0041] 図１で説明したような電子デバイス１０２によって実行される機能又は動作は、回路２０２によって実行することができる。回路２０２によって実行される動作については、例えば図３、図４、図５、図６及び図７で詳細に説明する。

【0036】

[0042] 図３は、本開示の実施形態による、メタデータに基づく調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための例示的なシナリオを示す図である。図３の説明は、図１及び図２の要素に関連して行う。図３を参照すると、例示的なシナリオ３００が示されている。例示的なシナリオ３００では、受け取られたデータ３０２のブロックが示されている。受け取られたデータ３０２は、ビデオの１又は２以上のフレームを含むことができる第１のメディアストリーム３０４と、ビデオと関連付けられるメタデータ３０６とを含むことができる。ビデオは、手話者３０８を含むことができる。１又は２以上のフレームは、第１のフレーム３０４Ａ、第２のフレーム３０４Ｂ、…、第Ｎのフレーム３０４Ｎを含むことができる。図３を参照すると、電子デバイス１０２と関連付けられるディスプレイデバイス１０４も示されている。ディスプレイデバイス１０４は、ビデオ（例えば、主ビデオ３１０）の１又は２以上のフレームを表示するように構成することができる。

【0037】

[0043] 第１のメディアストリーム３０４は、ディスプレイデバイス１０４上にレンダリングすることができるビデオの１又は２以上のフレームを含むことができる。例えば、主ビデオ３１０は、第１のメディアストリーム３０４にカプセル化することができる。ある実施形態では、回路２０２は、サーバ１０６から第１のメディアストリーム３０４を受け取ることができる。別の実施形態では、回路２０２は、放送ネットワークと関連付けられるサーバから、第１のメディアストリーム３０４を受け取ることができる。このようなシナリオでは、第１のメディアストリーム３０４は、放送チャネルと関連付けられる電子番組ガイド（ＥＰＧ）などのテキスト情報を含むことができる。

【0038】

[0044] メタデータ３０６は、ビデオと関連付けられる情報を含むことができ、ビデオのアナログ信号又はデジタル信号に埋め込むことができる。一例として、メタデータ３０６は、ビデオの継続時間と関連付けられる情報、ビデオのタイトル、ビデオの解像度、ビデオと関連付けられるコーデック及び／又はコンテナのタイプ、ビデオ（例えば、主ビデオ３１０）内の１又は２以上のキャラクタ３１２又は人物の情報などを含むことができる。ある実施形態では、メタデータ３０６は、ビデオ内に存在する手話者３０８と関連付けられる情報を含むことができる。手話者３０８は、ビデオ内で手話を使用して実行することができるアニメーション化されたキャラクタ又は人物とすることができる。ある実施形態では、手話者３０８は、ビデオ内の１又は２以上のキャラクタ３１２によって話される言語（例えば、英語）を、手話（例えば、アメリカ手話（ＡＳＬ））に翻訳することができる。メタデータ３０６は、複数のタイムスタンプにおけるビデオ内の手話者３０８の位置を記述することができる情報を含むことができる。手話者３０８の位置は、手話者３０８を含むビデオの矩形領域の隅に対応することができる画像座標３１４を含むことができる。ある実施形態では、画像座標３１４は、ビデオの１又は２以上のフレームの画素又は画像座標に関してラベル付けすることができる。以下の表１に、異なるタイムスタンプにおいて受け取られたメタデータ３０６の例を示す。
異なるタイムスタンプにおけるビデオ内の手話者の位置を示すメタデータ

【表1】

【0039】

[0045] ある実施形態では、回路２０２は、受け取られたメタデータ３０６に基づいて、複数のタイムスタンプにおける手話者３０８の位置を決定するように構成することができる。例えば、回路２０２は、受け取られたメタデータ３０６を解析して、手話者３０８の位置を決定するように構成することができる。表１を参照すると、表１の第１列に記載される複数のタイムスタンプにおけるビデオ内の手話者３０８の位置は、表１の第３列から決定することができる。表１（第３列）は、ビデオ内の手話者３０８の矩形境界を示す４つの画像座標のセットを含むが、本開示はこれに限定されるものではない。メタデータ３０６は、手話者３０８の境界の形状（多角形形状など）に応じて、任意の数の座標を含むことができる。

【0040】

[0046] 回路２０２は、ビデオからビデオ部分３１６を抽出するように更に構成することができる。抽出されたビデオ部分３１６は、ビデオ内の決定された位置に対応することができる。例えば、ビデオ部分３１６は、画像座標３１４間のエリアに対応し、かつ手話者３０８を含むビデオの矩形領域から抽出することができる。回路２０２は、ディスプレイデバイス１０４上でのビデオの再生を制御するように更に構成することができる。ある実施形態では、回路２０２は、ユーザ入力に基づいて、ディスプレイデバイス１０４上でのビデオの再生を制御するように構成することができる。ある実施形態では、回路２０２は、ディスプレイデバイス１０４を制御して、抽出されたビデオ部分３１６に基づいて、ビデオ内の手話者３０８の周囲の境界線をレンダリングするように構成することができる。ディスプレイデバイス１０４は、ビデオ内の手話者３０８の決定された位置に基づいて、境界線をレンダリングすることができる。手話者３０８の周囲の境界線をレンダリングして、ビデオ内の手話者３０８と１又は２以上のキャラクタ３１２とを区別することができる。いくつかの実施形態では、回路２０２は、手話者３０８の周囲の境界線を、明るい色（例えば、明るい緑色）でハイライト表示して、ユーザがビデオ内の手話者３０８を位置決めするのを支援することができる。

【0041】

[0047] 回路２０２は、再生に基づいてディスプレイデバイス１０４を制御して、ディスプレイデバイス１０４上にユーザインターフェイス（ＵＩ）要素３１８をレンダリングするように構成することができる。ＵＩ要素３１８は、ピクチャ・イン・ピクチャ（ＰｉＰ）ウィンドウとしてレンダリングすることができる。ＰｉＰウィンドウは、調整可能なサイズを有することができる。例えば、回路２０２は、１又は２以上のユーザ入力に基づいて、ＰｉＰウィンドウのサイズを調整するように構成することができる。回路２０２は、ＵＩ要素３１８（例えば、ＰｉＰウィンドウ）内に、抽出されたビデオ部分３１６を表示するように更に構成することができる。抽出されたビデオ部分３１６は、手話者３０８を含むことができる。ある実施形態では、回路は、画像座標３１４を線で接続することができ、それらの線内のビデオ部分３１６をリアルタイムでＰｉＰウィンドウ内にコピーすることができる。

【0042】

[0048] ある実施形態では、回路２０２は、サーバ１０６から、第１のメディアストリーム３０４と異なることができる第２のメディアストリーム（例えば、第２の信号）を受け取るように構成することができる。例えば、第２のメディアストリームは、ビデオ部分３１６を含むことができる。このようなシナリオでは、回路２０２は、ディスプレイデバイス１０４上での第１のメディアストリーム３０４からのビデオの再生を制御するように構成することができる。回路２０２は、ディスプレイデバイス１０４を制御して、ディスプレイデバイス１０４上にＵＩ要素３１８をレンダリングするように更に構成することができる。回路２０２は、ディスプレイデバイス１０４を制御して、第１のメディアストリーム３０４からのビデオの再生と時間同期して、ＵＩ要素３１８内に、受け取った第２のストリームから抽出されたビデオ部分３１６を表示することができる。回路２０２は、両方の場合、すなわち、受け取られたメタデータ３０６に基づいてビデオ部分３１６が抽出された場合、及びサーバ１０６から第２のメディアストリームとしてビデオ部分が受け取られた場合、ＰｉＰウィンドウのサイズを調整するように構成することができる。

【0043】

[0049] ある実施形態では、回路２０２は、レンダリングされたＵＩ要素３１８（例えば、ＰｉＰウィンドウ）の現在位置を、現在位置と異なることができる第１の位置３２０に変更するための第１の入力を受け取るように更に構成することができる。回路２０２は、レンダリングされたＵＩ要素３１８（例えば、ＰｉＰウィンドウ）の現在のサイズを、現在のサイズと異なる第１のサイズに変更するための第２の入力を受け取ることもできる。回路２０２は、第１の入力及び第２の入力に基づいて、ディスプレイデバイス１０４を制御して、第１の位置３２０に第１のサイズでＵＩ要素３１８をレンダリングするように更に構成することができる。ＵＩ要素３１８の位置及びサイズの調整の詳細については、例えば図５及び図６に示す。ある実施形態では、回路２０２は、手話者３０８を含むＵＩ要素３１８（ＰｉＰウィンドウなど）が表示された場合、ディスプレイデバイス１０４を制御して、主ビデオ３１０内の手話者３０８をぼやけさせるように構成することができる。別の実施形態では、回路２０２は、手話者３０８を含むＵＩ要素３１８が表示された場合、ディスプレイデバイス１０４を制御して、主ビデオ３１０内の手話者３０８のビデオ部分を、主ビデオの背景画素に置き換えるように構成することができる。

【0044】

[0050] 図４は、本開示の実施形態による、ライブビデオブロードキャストのための調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための例示的なシナリオを示す図である。図４の説明は、図１～図３の要素に関連して行う。図４を参照すると、例示的なシナリオ４００が示されている。例示的なシナリオ４００では、受け取られたデータ４０２のブロックが示されている。受け取られたデータ４０２は、ライブビデオブロードキャストの１又は２以上のフレームを含む第３のメディアストリーム４０４を含むことができる。例示的なシナリオ４００では、ライブビデオブロードキャスト内に存在することができる手話者４０６が更に示されている。１又は２以上のフレームは、第１のフレーム４０４Ａ、第２のフレーム４０４Ｂ、…、第Ｎのフレーム４０４Ｎを含むことができる。例示的なシナリオ４００では、ニューラルネットワークモデル２１０と、電子デバイス１０２と関連付けられるディスプレイデバイス１０４とが更に示されている。

【0045】

[0051] 第３のメディアストリーム４０４は、地上波又は無線放送、ストリーミング放送、衛星テレビジョン放送などの様々な媒体で放送することができるライブビデオブロードキャストを含むことができる。例えば、ライブビデオブロードキャストは、第３のメディアストリーム４０４にカプセル化することができる。ライブビデオブロードキャストは、１又は２以上のキャラクタ４１０を表す主ビデオ４０８を含むことができる。ある実施形態では、第３のメディアストリーム４０４は、サーバ１０６、又は放送ネットワークと関連付けられるサーバから受け取ることができる。第３のメディアストリーム４０４がライブビデオブロードキャストである場合、第３のメディアストリーム４０４と共に埋め込まれるメタデータは、ライブビデオブロードキャスト内の手話者４０６の位置を含まない場合がある。このような場合、回路２０２は、ライブビデオブロードキャストのフレームを分析して、ライブビデオブロードキャスト内の手話者４０６の位置を決定するように構成することができる。例えば、回路２０２は、ライブビデオブロードキャストの１又は２以上のフレームに対して画像分析を実行して、ビデオ内の手話者４０６の領域（例えば、変化しない背景領域）を検出するように構成することができる。別の例では、回路２０２は、ライブビデオブロードキャストの１又は２以上のフレームにニューラルネットワークモデル２１０を適用して、ビデオ内の手話と関連付けられる手振りを検出するように構成することができる。例えば、回路は、第１のフレーム４０４Ａにニューラルネットワークモデル２１０を適用して、第１のフレーム４０４Ａ内の手振りを検出するように構成することができる。回路２０２は、第２のフレーム４０４Ｂ、…、第Ｎのフレーム４０４Ｎにニューラルネットワークモデル２１０を適用して、ビデオの各フレーム内の手振りを検出するように構成することができる。別の実施形態では、回路２０２は、ライブビデオブロードキャストの１又は２以上のフレームにニューラルネットワークモデル２１０を適用して、手話者４０６が存在することができるビデオの部分の背景と、ビデオの他の部分とを区別するように構成することができる。ニューラルネットワークモデル２１０は、手振りの検出又はビデオ内の手話者４０６の位置に対応する背景の検出に基づいて、複数のタイムスタンプにおけるビデオ内の手話者４０６の位置の境界ボックスを予測するように構成することができる。

【0046】

[0052] ニューラルネットワークモデル２１０は、事前トレーニングされたモデルとすることができ、これをトレーニングして、手話（アメリカ手話（ＡＳＬ）又はイギリス手話（ＢＳＬ）など）と関連付けられる手振りを検出し、手話者４０６を含むビデオ部分の矩形領域の隅に対応する画像座標４１２を出力することができる。回路２０２は、画像座標４１２に更に基づいて、ビデオ内の手話者４０６の位置を検出するように更に構成することができる。それによって、電子デバイス１０２は、第３のメディアストリーム４０４に埋め込まれるメタデータが手話者４０６の位置を含まない場合でも、又は第３のメディアストリーム４０４にメタデータが存在しない場合でも、ビデオ内の手話者４０６の位置を識別することができる。

【0047】

[0053] 別の実施形態では、回路２０２は、画像分析プロセッサ２１２を使用して画像分析（オブジェクト検出など）を実行して、ビデオ内の手話者４０６を検出し、画像座標４１２を出力するように構成することができる。回路２０２は、主ビデオ４０８と比較される領域の背景色の差分、主ビデオ４０８と比較される領域の背景陰影の差分、又は手話者の周囲の予め定められた境界に基づいて、ビデオ内の手話者４０６の周囲の領域を検出することができる。例えば、回路２０２は、手話者を含むビデオの部分が、ビデオの他の部分の背景色（又は陰影）と異なる背景色（又は陰影）を有する場合、ビデオ（主ビデオ４０８など）内の手話者４０６の位置を検出するように構成することができる。別の例では、回路２０２は、主ビデオ４０８の背景と異なる、動かない（静的）背景領域を検出して、手話者４０６の位置を検出するように構成することができる。別の例では、回路２０２は、ビデオが、手話者４０６の周囲の予め定められた形状及び色の可視境界を含む場合、エッジ検出又はテンプレートマッチング技術を使用して、手話者４０６の周囲の境界線を検出することができ、検出された境界線に基づいて、ビデオ内の手話者４０６の位置を検出することができる。これらのシナリオでは、回路２０２は、ニューラルネットワークモデル２１０の実行と比較して、より少ない計算能力を必要とする画像分析技術に依拠することができる。

【0048】

[0054] ある実施形態では、回路２０２は、ディスプレイデバイス１０４を制御して、表示されたビデオ内の手話者４０６の周囲のハイライト表示境界線４０６Ａをレンダリングするように更に構成することができる。境界線４０６Ａは、予測された境界ボックスの画像座標４１２に基づいて、レンダリングすることができる。一例では、回路２０２は、ニューラルネットワークモデル２１０が、ビデオ内の手話者４０６のビデオ部分として複数の候補を識別した場合、境界線４０６Ａを表示して、ビデオ内の手話者４０６のビデオ部分のユーザ確認を得ることができる。例えば、回路２０２は、ディスプレイデバイス１０４上に表示されるプロンプト（確認するにはＯＫを押してください。次の候補を表示するには右矢印

を押してください。）によって、ハイライト表示された候補に対するユーザ確認を受け取ることができる。回路２０２は、手話者４０６の検出及び／又は境界ボックスの予測の信頼スコアが閾値スコアよりも低い場合がある場合、ビデオ内の手話者４０６のユーザ確認を求めることができる。別の実施形態では、回路２０２は、画像分析プロセッサ２１２が、ビデオ内の手話者４０６のビデオ部分として複数の候補を出力した場合、ビデオ内の手話者４０６のユーザ確認を求めることができる。

【0049】

[0055] 回路２０２は、ライブビデオブロードキャストからビデオ部分４１４を抽出するように更に構成することができる。ある実施形態では、回路２０２は、ハイライト表示された候補のユーザ確認に基づいて、ライブビデオブロードキャストからビデオ部分４１４を抽出するように更に構成することができる。抽出されたビデオ部分４１４は、ライブビデオブロードキャスト内の決定された位置に対応することができる。例えば、ビデオ部分４１４は、ビデオの矩形領域から抽出することができる。矩形領域は、画像座標４１２間のエリアに対応することができ、手話者４０６を含むことができる。

【0050】

[0056] 回路２０２は、ディスプレイデバイス１０４上でのビデオの再生を制御するように更に構成することができる。ある実施形態では、回路２０２は、ユーザ入力に基づいて、ディスプレイデバイス１０４上でのビデオの再生を制御するように構成することができる。回路２０２は、再生に基づいてディスプレイデバイス１０４を制御するように構成することができる。回路２０２は、ディスプレイデバイス１０４を制御して、ディスプレイデバイス１０４上にユーザインターフェイス（ＵＩ）要素４１６をレンダリングすることができる。例えば、ＵＩ要素４１６は、調整可能なサイズのピクチャ・イン・ピクチャ（ＰｉＰ）ウィンドウとしてレンダリングすることができる。回路２０２は、ＵＩ要素４１６内に、手話者４０６を含む抽出されたビデオ部分４１４を表示するように構成することができる。

【0051】

[0057] 図５は、本開示の実施形態による、手話ビデオを表示するユーザインターフェイス（ＵＩ）要素の位置の調整のための例示的なシナリオを示す図である。図５の説明は、図１～図４の要素に関連して行う。図５を参照すると、例示的なシナリオ５００が示されている。例示的なシナリオ５００では、電子デバイス１０２と、電子デバイス１０２と関連付けられるディスプレイデバイス１０４とが示されている。電子デバイス１０２は、ディスプレイデバイス１０４を制御して、表示エリア５０６内に主ビデオ５０２を表示することができる。図５を参照すると、電子デバイス１０２と関連付けられるユーザ５０８が更に示されている。

【0052】

[0058] ある実施形態では、回路２０２は、ユーザ５０８と関連付けられるユーザプロファイルの選択を含むユーザ入力を受け取るように構成することができる。選択されたユーザプロファイルに基づいて、回路２０２は、手話者５１６の抽出されたビデオ部分５１２を表示することができるユーザインターフェイス（ＵＩ）要素５１０と関連付けられる１又は２以上のユーザプリファレンスを取り出すことができる。いくつかの実施形態では、回路２０２は、メモリ２０４から１又は２以上のユーザプリファレンスを取り出すことができる。ＵＩ要素５１０は、取り出された１又は２以上のユーザプリファレンスに基づいて、レンダリングすることができる。例えば、１又は２以上のユーザプリファレンスは、ディスプレイデバイス１０４の表示エリア５０６内のＵＩ要素５１０の位置のプリファレンス、ＵＩ要素５１０のテーマ又は配色、ＵＩ要素５１０のサイズのプリファレンス、ＵＩ要素５１０を表示／非表示にするプリファレンス、ＵＩ要素５１０をレンダリングするスケジュール、及び手話のプリファレンス（例えば、アメリカ手話又はイギリス手話）、のうちの１又は２以上を含むことができる。

【0053】

[0059] 位置のプリファレンスは、ＵＩ要素５１０を表示することができる好ましい位置を含むことができる。回路２０２は、位置のセットから、第１の位置５１４のユーザプリファレンスを取り出すことができる。第１の位置５１４は、ユーザ５０８のユーザプロファイルに従ってＵＩ要素５１０の表示のための好ましい位置とすることができる。一例として、第１の位置５１４は、ディスプレイデバイス１０４の表示エリア５０６内の右下隅に対応することができる。ＵＩ要素５１０のテーマ又は配色は、ＵＩ要素５１０の選択されたユーザプロファイルのデザイン又は色のプリファレンスに対応することができる。一例として、ＵＩ要素５１０のテーマ又は配色は、手話者５１６の背後の緑色の背景、又はＵＩ要素５１０の緑色の境界線を含むことができる。ＵＩ要素５１０のサイズのプリファレンスは、電子デバイス１０２の製造者によって予め定められるデフォルトサイズを含むことができる。ＵＩ要素５１０を非表示にするプリファレンスは、ＵＩ要素５１０を非表示にすべきか又は表示すべきかどうかについてのユーザ５０８のプリファレンスに対応することができる。ＵＩ要素５１０をレンダリングするスケジュールは、ＵＩ要素５１０をレンダリングすることができる第１の期間と、ＵＩ要素５１０をレンダリングすることができない第２の期間とに対応することができる。例えば、スケジュールのユーザプリファレンスは、午前１０：００～午後０４：００の間にＵＩ要素５１０をレンダリングすることができ、午後０４：０１～午後１０：００の間にＵＩ要素５１０を非表示にすることができることを示すことができる。別の実施形態では、ユーザプリファレンスは、主ビデオ５０２内のキャラクタ５０４のうちの１つが話している場合、ＵＩ要素５１０を表示し、また、主ビデオ５０２内に発話がない場合、ＵＩ要素５１０を非表示にする命令を含むことができる。

【0054】

[0060] 時間Ｔ１において、回路２０２は、ビデオを含むことができる第１のメディアストリームを受け取ることができる。ビデオは、キャラクタ５０４を表す主ビデオ５０２を含むことができる。回路２０２は、ビデオと関連付けられるメタデータを更に受け取ることができる。回路２０２は、更に、受け取ったメタデータに基づいて、ビデオ内の手話者５１６の位置を決定することができる。メタデータは、複数のタイムスタンプにおけるビデオ内の手話者５１６の位置を記述する情報を含むことができる。別の実施形態では、回路２０２は、画像分析プロセッサ２１２による画像分析に基づいて、又はニューラルネットワークモデル２１０の適用に基づいて、手話者５１６の位置を決定することができる。回路２０２は、更に、ビデオ内の手話者５１６の決定された位置と関連付けられるビデオ部分５１２を抽出することができる。抽出された位置に基づいて、回路２０２は、ディスプレイデバイス１０４上でのビデオの再生を制御することができる。回路２０２は、更に、ディスプレイデバイス１０４を制御して、取り出されたユーザプリファレンスに基づいて、ディスプレイデバイス１０４上の第１の位置５１４にＵＩ要素５１０（ＰｉＰウィンドウなど）をレンダリングすることができる。回路２０２は、ディスプレイデバイス１０４を制御して、ＵＩ要素５１０内に、抽出されたビデオ部分５１２を表示することができる。いくつかの実施形態では、ＵＩ要素５１０の位置のユーザプリファレンスが、メモリ２０４において利用可能ではない場合、ＵＩ要素５１０は、電子デバイス１０２の製造者によって予め定められるデフォルト位置に従って、主ビデオ５０２内の手話者５１６の決定された位置と重なることができる。図５に示すように、回路２０２は、ディスプレイデバイス１０４を制御して、ディスプレイデバイス１０４の表示エリア５０６の右下隅に、ＵＩ要素５１０をレンダリングすることができる。

【0055】

[0061] 回路２０２は、レンダリングされたＵＩ要素５１０の現在位置（又は第１の位置５１４）を第２の位置５２０に変更するための第１の入力５１８を受け取ることができる。第２の位置５２０は、第１の位置５１４と異なることができる。電子デバイス１０２が、リモートコントロールによって制御されるテレビジョンである場合、ディスプレイデバイス１０４は、ＵＩ要素５１０を選択すると、ポップアップメニュー５１０Ａ（例えば、コンテキストメニュー）を表示することができる。ポップアップメニュー５１０Ａは、「サイズ変更」及び「移動」オプションを含むことができる。「移動」オプションを選択（グレーでハイライト表示された選択）すると、ディスプレイデバイス１０４は、「事前設定位置に移動」及び「ドラッグ」サブオプションを表示することができる。「事前設定位置に移動」オプションを選択（グレーでハイライト表示された選択）すると、ディスプレイデバイス１０４は、選択されたユーザプロファイルの記憶されたプリファレンス及び／又は電子デバイス１０２の製造者によって設定されるデフォルト位置に基づいて、「事前設定位置１」、「事前設定位置２」などのサブオプションを表示することができる。例えば、「事前設定位置１」は、表示エリア５０６の左下隅に対応することができ、「事前設定位置２」は、表示エリア５０６の左上隅に対応することができる。これらの事前設定位置は、選択されたユーザプロファイルの設定されたプリファレンス、及び／又は電子デバイス１０２の製造者によって設定されるデフォルト位置に基づいて、メモリ２０４に記憶することができる。サブオプションのうちの１つを選択すると、回路２０２は、ディスプレイデバイス１０４を制御して、時間Ｔ２において第２の位置５２０にＵＩ要素５１０を表示することができる。一例として、第２の位置５２０は、ディスプレイデバイス１０４の表示エリア５０６内の左下隅に対応することができる。「ドラッグ」オプションを選択すると、ディスプレイデバイス１０４は、ＵＩ要素をハイライト表示して、ＵＩ要素５１０が選択されたことを示すことができ、リモートコントロール上の矢印ボタン（

）を使用して、表示エリア５０６内のあらゆる任意の位置にＵＩ要素５１０をドラッグするためのプロンプトを表示することができる。電子デバイス１０２が、タッチスクリーン入力を含むスマートフォンである場合、ＵＩ要素５１０を選択すると、ディスプレイデバイス１０４は、タッチ入力によって、表示エリア５０６内のあらゆる任意の位置にＵＩ要素５１０をドラッグして移動するためのプロンプトを表示することができる。回路２０２は、第１の入力５１８に基づいて、ディスプレイデバイス１０４を制御して、時間Ｔ２において第２の位置５２０（例えば、左下隅）にＵＩ要素５１０を表示することができる。ディスプレイデバイス１０４は、主ビデオ５０２と時間同期して、ＵＩ要素５１０の移動の前に、ＵＩ要素５１０の移動中に、及びＵＩ要素５１０の移動に続いて、手話者５１６の抽出されたビデオ部分５１２の再生をシームレスに継続することができる。

【0056】

[0062] 図６は、本開示の実施形態による、手話ビデオを表示するユーザインターフェイス（ＵＩ）要素のサイズの調整のための例示的なシナリオを示す図である。図６に、例示的なシナリオ６００が示されている。例示的なシナリオ６００では、電子デバイス１０２と、電子デバイス１０２と関連付けられるディスプレイデバイス１０４とが示されている。電子デバイス１０２は、ディスプレイデバイス１０４を制御して、表示エリア６０６内に主ビデオ６０２を表示することができる。

【0057】

[0063] ある実施形態では、回路２０２は、ユーザプロファイルの選択を含むユーザ入力を受け取るように構成することができる。選択されたユーザプロファイルに基づいて、回路２０２は、手話者６０８の抽出されたビデオ部分を表示することができるＵＩ要素６１０と関連付けられる１又は２以上のユーザプリファレンスを取り出すことができる。いくつかの実施形態では、回路２０２は、メモリ２０４から１又は２以上のユーザプリファレンスを取り出すことができる。ＵＩ要素６１０は、取り出された１又は２以上のユーザプリファレンスに基づいて、レンダリングすることができる。例えば、１又は２以上のユーザプリファレンスは、ＵＩ要素６１０のサイズのプリファレンスを含むことができる。

【0058】

[0064] 時間Ｔ１において、回路２０２は、ビデオを含むことができる第１のメディアストリームを受け取ることができる。ビデオは、キャラクタ６０４を表す主ビデオ６０２を含むことができる。回路２０２は、ビデオと関連付けられるメタデータを更に受け取ることができる。回路２０２は、更に、受け取ったメタデータに基づいて、ビデオ内の手話者６０８の位置を決定することができる。別の実施形態では、回路２０２は、画像分析プロセッサ２１２による画像分析に基づいて、又はニューラルネットワークモデル２１０の適用に基づいて、手話者６０８の位置を決定することができる。回路２０２は、更に、ビデオ内の決定された位置に対応することができるビデオ部分を抽出することができる。抽出された位置に基づいて、回路２０２は、ディスプレイデバイス１０４上でのビデオの再生を制御するように構成することができる。回路２０２は、ディスプレイデバイス１０４を制御して、選択されたユーザプロファイルと関連付けられる取り出されたユーザプリファレンスに基づいて、ディスプレイデバイス１０４上に第１のサイズ（例えば、高さＨ１、幅Ｗ１）でユーザインターフェイス（ＵＩ）要素６１０（ＰｉＰウィンドウなど）をレンダリングするように更に構成することができる。いくつかの実施形態では、ＵＩ要素６１０のサイズのユーザプリファレンスが、メモリ２０４において利用可能ではない場合、ＵＩ要素６１０は、電子デバイス１０２の製造者によって予め定められるデフォルトサイズに基づいて表示することができる。図６に示すように、回路２０２は、ディスプレイデバイス１０４を制御して、ディスプレイデバイス１０４の表示エリア６０６内に第１のサイズ（Ｈ１、Ｗ１）でＵＩ要素６１０をレンダリングすることができる。

【0059】

[0065] 回路２０２は、レンダリングされたＵＩ要素６１０の現在のサイズ（又は第１のサイズ）を第２のサイズに変更するための第２の入力６１２を受け取ることができる。第２のサイズは、第１のサイズと異なることができる。電子デバイス１０２が、リモートコントロールによって制御されるテレビジョンである場合、ディスプレイデバイス１０４は、ＵＩ要素６１０を選択すると、ポップアップメニュー６１０Ａを表示することができる。ポップアップメニュー６１０Ａは、「サイズ変更」及び「移動」オプションを含むことができる。「サイズ変更」オプションを選択（グレーでハイライト表示された選択）すると、ディスプレイデバイス１０４は、「事前設定サイズにサイズ変更」及び「拡大／縮小」サブオプションを表示することができる。「事前設定サイズにサイズ変更」オプションを選択（グレーでハイライト表示された選択）すると、ディスプレイデバイス１０４は、選択されたユーザプロファイルの取り出されたプリファレンス及び／又は電子デバイス１０２の製造者によって設定されるデフォルトサイズに基づいて、「事前設定サイズ１」、「事前設定サイズ２」などのサブオプションを表示することができる。例えば、「事前設定サイズ１」及び「事前設定サイズ２」は、一定のアスペクト比を有する異なるサイズに対応して、手話者６０８の抽出されたビデオ部分が最適解像度を有するようにすることができる。サブオプションのうちの１つを選択すると、回路２０２は、ディスプレイデバイス１０４を制御して、時間Ｔ２において第２のサイズ（高さＨ２、幅Ｗ２）でＵＩ要素を表示することができる。「拡大／縮小」オプションを選択すると、ディスプレイデバイス１０４は、ＵＩ要素をハイライト表示して、ＵＩ要素６１０が選択されたことを示すことができ、リモートコントロール上の矢印ボタン（

）を使用して、表示エリア６０６内のあらゆる任意のサイズにＵＩ要素６１０をサイズ変更するためのプロンプトを表示することができる。電子デバイス１０２が、タッチスクリーン入力を含むスマートフォンである場合、ＵＩ要素６１０を選択すると、ディスプレイデバイス１０４は、タッチベースのアクション（指のピンチオープン又はピンチクローズアクションなど）を使用して、表示エリア６０６内のあらゆる任意のサイズにＵＩ要素６１０をサイズ変更するためのプロンプトを表示することができる。回路２０２は、第２の入力６１２に基づいて、ディスプレイデバイス１０４を制御して、時間Ｔ２において第２のサイズ（Ｈ２、Ｗ２）でＵＩ要素を表示することができる。例えば、回路２０２は、ディスプレイデバイス１０４を制御して、ＵＩ要素６１０の現在のサイズを変更して、第２のサイズ（Ｈ２、Ｗ２）に一致するようにすることができる。ある実施形態では、回路２０２は、ビデオ部分がＵＩ要素６１０内に表示される前に、ビデオ部分をアップスケーリング又はダウンスケーリングして、ＵＩ要素６１０の第２のサイズ（Ｈ２、Ｗ２）に一致するようにするように構成することができる。回路２０２は、ＵＩ要素６１０の修正されたサイズに応じて、手話者６０８の抽出されたビデオ部分の解像度を変更するようにアップスケーリング又はダウンスケーリングすることができる。図６に示すように、ＵＩ要素６１０の第２のサイズ（Ｈ２、Ｗ２）は、ＵＩ要素６１０の第１のサイズ（Ｈ１、Ｗ１）よりも大きいとすることができる。このような場合、回路２０２は、手話者６０８の抽出されたビデオ部分を、より低い解像度（例えば７２０ｐ）からより高い解像度（例えば１０８０ｐ）にアップスケーリングすることができる。

【0060】

[0066] 図７は、本開示の実施形態による、調整可能なユーザインターフェイス（ＵＩ）要素を通じた手話ビデオの表示のための例示的な動作を示すフローチャートである。図７の説明は、図１～図６の要素に関連して行う。図７を参照すると、フローチャート７００が示されている。７０２～７１２の動作は、任意のコンピュータシステムによって、例えば図１の電子デバイス１０２又は図２の回路２０２によって実装することができる。動作は７０２から開始することができ、７０４に進むことができる。

【0061】

[0067] ７０４において、ビデオを含む第１のメディアストリームを受け取ることができる。少なくとも１つの実施形態では、回路２０２は、例えば図１、図３及び図４で説明したように、ビデオを含む第１のメディアストリームを受け取るように構成することができる。

【0062】

[0068] ７０６において、ビデオ内の手話者１１０の位置を決定することができ、手話者１１０は、ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物とすることができる。少なくとも１つの実施形態では、回路２０２は、ビデオ内の手話者１１０の位置を決定するように構成することができる。手話者１１０の位置の決定についての詳細は、図１、図３及び図４に示す。

【0063】

[0069] ７０８において、ビデオから、ビデオ内の決定された位置に対応するビデオ部分を抽出することができる。少なくとも１つの実施形態では、回路２０２は、ビデオから、ビデオ内の決定された位置に対応するビデオ部分を抽出するように構成することができる。ビデオ部分の抽出についての詳細は、例えば図１、図３及び図４に示す。

【0064】

[0070] ７１０において、ディスプレイデバイス１０４上でのビデオの再生を制御することができる。少なくとも１つの実施形態では、回路２０２は、ディスプレイデバイス１０４上でのビデオの再生を制御するように構成することができる。

【0065】

[0071] ７１２において、再生に基づいてディスプレイデバイス１０４を制御して、ディスプレイデバイス１０４上にユーザインターフェイス（ＵＩ）要素１１２をレンダリングし、ＵＩ要素１１２内に、抽出されたビデオ部分を表示するようにすることができる。少なくとも１つの実施形態では、回路２０２は、再生に基づいてディスプレイデバイス１０４を制御して、ディスプレイデバイス１０４上にＵＩ要素１１２をレンダリングし、ＵＩ要素１１２内に、抽出されたビデオ部分を表示するようにするように構成することができる。ＵＩ要素１１２のレンダリングについての詳細は、例えば図１、図３、図４及び図５に示す。制御は、終了に進むことができる。

【0066】

[0072] 本開示の様々な実施形態は、機械及び／又はコンピュータが電子デバイス（電子デバイス１０２など）を動作させるために実行できる命令を記憶した非一時的コンピュータ可読媒体及び／又は記憶媒体を提供することができる。これらの命令は、ビデオを含む第１のメディアストリームを受け取ることを含む動作を機械及び／又はコンピュータに実行させることができる。動作は、ビデオ内の手話者（手話者１１０など）の位置を決定することを更に含むことができる。手話者は、ビデオ内で手話を使用して実行することができるアニメーション化されたキャラクタ又は人物とすることができる。動作は、ビデオから、ビデオ内の決定された位置に対応することができるビデオ部分を抽出することを更に含むことができる。動作は、ディスプレイデバイス（ディスプレイデバイス１０４など）上でのビデオの再生を制御することを更に含むことができる。動作は、再生に基づいてディスプレイデバイス１０４を制御して、ディスプレイデバイス１０４上にユーザインターフェイス（ＵＩ）要素（ＵＩ要素１１２など）をレンダリングするようにすることを更に含むことができる。

【0067】

[0073] 本開示の例示的な態様は、ディスプレイデバイス（ディスプレイデバイス１０４など）に通信可能に結合することができる回路（回路２０２など）を含む電子デバイス（図１の電子デバイス１０２など）を含むことができる。ある実施形態では、電子デバイス１０２は、ビデオを含む第１のメディアストリームを受け取るように構成することができる。手話者１１０は、ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物とすることができる。電子デバイス１０２は、ビデオ内の手話者１１０の位置を決定するように構成することができる。決定された位置は、手話者１１０を含むビデオの矩形領域の隅に対応する画像座標を含むことができる。

【0068】

[0074] ある実施形態によれば、電子デバイス１０２は、ビデオと関連付けられるメタデータを受け取ることができる。メタデータは、複数のタイムスタンプにおけるビデオ内の手話者１１０の位置を記述する情報を含む。電子デバイス１０２は、受け取ったメタデータに基づいて、ビデオ内の手話者１１０の位置を決定することができる。

【0069】

[0075] ある実施形態によれば、電子デバイス１０２は、ビデオのフレームへのニューラルネットワークモデル（ニューラルネットワークモデル２１０など）の適用に基づいて、ビデオ内の手話と関連付けられる手振りを検出するように構成することができる。電子デバイス１０２は、手振りの検出に基づいて、ビデオ内の手話者１１０の位置を検出するように更に構成することができる。このような実施形態では、ビデオは、ライブビデオブロードキャストに対応することができる。

【0070】

[0076] ある実施形態によれば、電子デバイス１０２は、ビデオ内の領域の背景とビデオの残りの部分の背景との間の差分に基づいて、ビデオ内の領域を検出することができる。電子デバイス１０２は、領域の検出に基づいて、ビデオ内の手話者１１０の位置を検出することができる。別の実施形態では、電子デバイス１０２は、ビデオ内の手話者１１０の周囲の境界線を検出することができる。電子デバイス１０２は、境界線の検出に基づいて、ビデオ内の手話者の位置を検出することができる。

【0071】

[0077] ある実施形態によれば、電子デバイス１０２は、ビデオから、ビデオ内の決定された位置に対応するビデオ部分を抽出するように構成することができる。ビデオ部分は、ビデオの矩形領域から抽出される。電子デバイスは、ディスプレイデバイス１０４上でのビデオの再生を制御するように更に構成することができる。電子デバイス１０２は、再生に基づいてディスプレイデバイスを制御して、ディスプレイデバイス１０４上にユーザインターフェイス（ＵＩ）要素（ＵＩ要素１１２など）をレンダリングし、ＵＩ要素１１２内に、抽出されたビデオ部分を表示するようにするように更に構成することができる。ＵＩ要素１１２は、調整可能なサイズのピクチャ・イン・ピクチャ（ＰｉＰ）ウィンドウとしてレンダリングすることができる。ある実施形態では、電子デバイス１０２は、ディスプレイデバイス１０４を制御して、決定された位置に基づいて、表示されたビデオ内の手話者１１０の周囲の境界線をレンダリングするように更に構成することができる。

【0072】

[0078] ある実施形態によれば、電子デバイス１０２は、ＵＩ要素と関連付けられる１又は２以上のユーザプリファレンスを含む第１のユーザ入力を受け取ることができる。ＵＩ要素は、受け取った第１のユーザ入力に基づいてレンダリングすることができる。１又は２以上のユーザプリファレンスは、ディスプレイデバイス１０４の表示エリア（表示エリア５０６など）内のＵＩ要素１１２の位置のプリファレンス、ＵＩ要素１１２のテーマ又は配色、ＵＩ要素１１２サイズのプリファレンス、ＵＩ要素１１２を非表示にするプリファレンス、及びＵＩ要素１１２をレンダリングするスケジュールを含むことができる。

【0073】

[0079] ある実施形態によれば、電子デバイス１０２は、レンダリングされたＵＩ要素１１２の現在位置を、現在位置と異なる第１の位置に変更するための第１の入力（第１の入力５１８など）を受け取るように構成することができる。電子デバイス１０２は、第１の入力に基づいてディスプレイデバイス１０４を制御して、第１の位置にＵＩ要素１１２をレンダリングするように更に構成することができる。第１の位置は、ディスプレイデバイス１０４の表示エリア５０６内に存在することができる。

【0074】

[0080] ある実施形態によれば、電子デバイス１０２は、レンダリングされたＵＩ要素１１２の現在のサイズを、現在のサイズと異なる第１のサイズに変更するための第２の入力（第２の入力６１２など）を受け取るように構成することができる。電子デバイス１０２は、受け取った第２の入力に基づいてディスプレイデバイス１０４を制御して、レンダリングされたＵＩ要素１１２の現在のサイズを変更して、第１のサイズに一致するようにするように構成することができる。電子デバイス１０２は、ビデオ部分がＵＩ要素１１２内に表示される前に、ビデオ部分をアップスケーリング又はダウンスケーリングして、ＵＩ要素１１２の第１のサイズに一致するようにするように更に構成することができる。

【0075】

[0081] ある実施形態によれば、電子デバイス１０２は、抽出されたビデオ部分を含む第２のメディアストリームを受け取るように構成することができる。第２のメディアストリームは、第１のメディアストリームと異なることができる。

【0076】

[0082] 本開示は、ハードウェアの形で実現することも、又はハードウェアとソフトウェアの組み合わせの形で実現することもできる。本開示は、少なくとも１つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアの形で実現することができる。

【0077】

[0083] 本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに、特定の機能を直接的に、或いはａ）別の言語、コード又は表記法への変換、ｂ）異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。

【0078】

[0084] いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することができると理解するであろう。また、本開示の範囲から逸脱することなく、本開示の教示に特定の状況又は内容を適合させるための多くの修正を行うこともできる。したがって、本開示は、開示した特定の実施形態に限定されるものではなく、特許請求の範囲に該当する全ての実施形態を含むことが意図されている。

【符号の説明】

【0079】

１００ネットワーク環境
１０２電子デバイス
１０４ディスプレイデバイス
１０４Ａ主ビデオ
１０６サーバ
１０８通信ネットワーク
１１０手話者
１１２ユーザインターフェイス（ＵＩ）要素
２００ブロック図
２０２回路
２０４メモリ
２０６入力／出力（Ｉ／Ｏ）デバイス
２０８ネットワークインターフェイス
２１０ニューラルネットワークモデル
２１２画像分析プロセッサ
３００例示的なシナリオ
３０２受け取られたデータ
３０４第１のメディアストリーム
３０４Ａ第１のフレーム
３０４Ｂ第２のフレーム
３０４Ｎ第Ｎのフレーム
３０６メタデータ
３０８手話者
３１０主ビデオ
３１２１又は２以上のキャラクタ
３１４画像座標
３１６ビデオ部分
３１８ユーザインターフェイス（ＵＩ）要素
３２０第１の位置
４００例示的なシナリオ
４０２受け取られたデータ
４０４第３のメディアストリーム
４０４Ａ第１のフレーム
４０４Ｂ第２のフレーム
４０４Ｎ第Ｎのフレーム
４０６手話者
４０６Ａハイライト表示境界線
４０８主ビデオ
４１０１又は２以上のキャラクタ
４１２画像座標
４１４ビデオ部分
４１６ユーザインターフェイス（ＵＩ）要素
５００例示的なシナリオ
５０２主ビデオ
５０４キャラクタ
５０６表示エリア
５０８ユーザ
５１０ユーザインターフェイス（ＵＩ）要素
５１０Ａポップアップメニュー
５１２ビデオ部分
５１４第１の位置
５１６手話者
５１８第１の入力
５２０第２の位置
６００例示的なシナリオ
６０２主ビデオ
６０４キャラクタ
６０６表示エリア
６０８手話者
６１０ユーザインターフェイス（ＵＩ）要素
６１０Ａポップアップメニュー
６１２第２の入力
７００フローチャート
７０２開始
７０４ビデオを含む第１のメディアストリームを受け取る
７０６ビデオ内の手話者の位置を決定し、手話者は、ビデオ内で手話を使用して実行するアニメーション化されたキャラクタ又は人物である
７０８ビデオから、ビデオ内の決定された位置に対応するビデオ部分を抽出
７１０ディスプレイデバイス上でのビデオの再生を制御
７１２再生に基づいてディスプレイデバイスを制御して、ディスプレイデバイス上にユーザインターフェイス（ＵＩ）要素をレンダリングし、ＵＩ要素内に、抽出されたビデオ部分を表示するようにする
Ｈ１高さ
Ｈ２高さ
Ｔ１時間
Ｔ２時間
Ｗ１幅
Ｗ２幅

【図1】