IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエルの特許一覧

特開2024-31838画像フレームの送信及び受信のためのシステム及び方法
<>
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図1
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図2
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図3
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図4
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図5
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図6
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図7
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図8
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図9
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図10
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図11
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図12
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図13
  • 特開-画像フレームの送信及び受信のためのシステム及び方法 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024031838
(43)【公開日】2024-03-07
(54)【発明の名称】画像フレームの送信及び受信のためのシステム及び方法
(51)【国際特許分類】
   H04N 7/15 20060101AFI20240229BHJP
   H04N 21/234 20110101ALI20240229BHJP
   H04N 21/44 20110101ALI20240229BHJP
   H04N 19/20 20140101ALI20240229BHJP
   H04N 19/543 20140101ALI20240229BHJP
【FI】
H04N7/15
H04N21/234
H04N21/44
H04N19/20
H04N19/543
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023116699
(22)【出願日】2023-07-18
(31)【優先権主張番号】17/894,083
(32)【優先日】2022-08-23
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】520509030
【氏名又は名称】ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエル
(74)【代理人】
【識別番号】100107456
【弁理士】
【氏名又は名称】池田 成人
(74)【代理人】
【識別番号】100162352
【弁理士】
【氏名又は名称】酒巻 順一郎
(74)【代理人】
【識別番号】100123995
【弁理士】
【氏名又は名称】野田 雅一
(72)【発明者】
【氏名】ヤーリ, チェヴァット
【テーマコード(参考)】
5C159
5C164
【Fターム(参考)】
5C159MB01
5C159MB04
5C159UA01
5C159UA04
5C164FA09
5C164FA10
5C164PA33
5C164SB01P
5C164SB02S
5C164SC03S
5C164UB01P
5C164VA21P
5C164VA35P
(57)【要約】      (修正有)
【課題】ビデオ画像の送信に必要な帯域幅を低減するシステム及び方法、送信及び受信ユニット並びにコンピュータ可読媒体を提供する。
【解決手段】システムにおいて、関心のある対象物500のフレームを受信する送信ユニット200Aは、設定された間隔で、関心のある対象物のフレームからフレームを選択することによって選択されたフレームを作成するフレーム選択器と、選択されたフレーム潜在ベクトルを生成するエンコーダとを備え、選択されたフレーム潜在ベクトルを受信ユニットに送信する。受信ユニットは、補間により、2つの連続する選択されたフレーム潜在ベクトルの間に、中間潜在ベクトルを再構築する補間器を備え、受信した選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方をデコーダに送信する。デコーダは、受信した選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を復号し、フレームを生成する。
【選択図】図5
【特許請求の範囲】
【請求項1】
プロセッサとメモリとを備える送信ユニットを具備するシステムであって、前記送信ユニットが、関心のある対象物の画像フレームを受信するように構成され、前記送信ユニットが、
設定された間隔で、前記関心のある対象物の前記画像フレームから、画像フレームを選択するように構成されたフレーム選択器と、
前記選択されたフレームから、選択されたフレーム潜在ベクトルを生成するように構成されたエンコーダであり、前記選択されたフレーム潜在ベクトルが、前記関心のある対象物の前記画像フレームの圧縮表示である、エンコーダと
を備えるモジュールを実装するようにプログラミングされ、
前記送信ユニットが、前記選択されたフレーム潜在ベクトルを、プロセッサとメモリとを備える受信ユニットに送信するようにさらにプログラミングされ、
前記受信ユニットが、前記選択されたフレーム潜在ベクトルを受信するように構成され、前記受信ユニットが、
補間により、2つの連続する選択されたフレーム潜在ベクトルの間に、いくつかの中間潜在ベクトルを再構築するように構成された補間器
を備えるモジュールを実装するようにプログラミングされ、
前記補間器が、前記受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を、デコーダに送信するように構成され、
前記デコーダが、前記受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を復号し、前記選択されたフレーム潜在ベクトル及び前記中間潜在ベクトルから、前記フレーム選択器によって選択されなかった前記関心のある対象物の画像フレームに対応する画像フレームを含む、前記関心のある対象物の画像フレームを生成するように構成される、システム。
【請求項2】
再構築された中間潜在ベクトルの数が、前記フレーム選択器によって選択されなかった前記画像フレームと同じである、請求項1に記載のシステム。
【請求項3】
再構築された中間潜在ベクトルの数が、前記フレーム選択器によって選択されなかった前記画像フレームと同じではない、請求項1に記載のシステム。
【請求項4】
前記送信ユニットが、前記画像フレームの画像サイズを縮小するように構成された画像縮小器を実装するようにさらにプログラミングされる、請求項1に記載のシステム。
【請求項5】
前記画像縮小器が、前記画像フレームから背景を取り除くことによって、前記画像サイズを縮小するようにさらに構成される、請求項4に記載のシステム。
【請求項6】
前記画像縮小器が、前記フレーム内の前記関心のある対象物と背景とを分離することによって、前記画像サイズを縮小するようにさらに構成され、
各画像フレーム内の前記関心のある対象物に対して、より高い解像度の圧縮を行い、各画像フレーム内の前記背景に対して、より低い解像度の圧縮を行い、以て画像サイズの縮小を達成する、請求項4に記載のシステム。
【請求項7】
前記送信ユニットが、前記画像フレームの前記画像を増強するように構成された画像増強器を実装するようにさらにプログラミングされる、請求項1に記載のシステム。
【請求項8】
前記画像増強器が、
前記画像フレーム内の関心のある対象物を検出することと、
前記送信ユニット内で、サイズにおいて、前記関心のある対象物をアップスケールすることであって、前記画像フレーム内の前記関心のある対象物の解像度の増加を含む、アップスケールすることと
によって、前記画像を増強するようにさらに構成され、
前記受信ユニットが、前記アップスケールされた関心のある対象物を有する前記画像を受信し、前記アップスケールされた関心のある対象物をダウンスケールするようにさらに構成される、請求項7に記載のシステム。
【請求項9】
前記受信ユニットが、前記受信ユニットによって受信されなかった、損傷した又は欠損した潜在ベクトルを置き換えるために、追加の置換ベクトルを生成するように構成された追加潜在ベクトル生成器を有する、請求項1に記載のシステム。
【請求項10】
複数の送信ユニットと受信ユニットとを備え、前記複数の送信ユニットが、対応する複数の選択されたフレーム潜在ベクトルを、選択的転送ユニット(SFU)を通じて前記複数の受信ユニットに送信し、前記SFUが、
前記複数の選択されたフレーム潜在ベクトルを受信することと、
どの受信ユニットが、前記複数の選択されたフレーム潜在ベクトルを送信するかを選択することと、
前記対応する潜在フレーム潜在ベクトルを、前記選択された受信ユニットに転送することとと
を行うように構成される、請求項1に記載のシステム。
【請求項11】
プロセッサとメモリとを具備する送信ユニットであって、前記送信ユニットが、
設定された間隔で、関心のある対象物のフレームから、画像フレームを選択するように構成されたフレーム選択器と、
前記選択されたフレームから、選択されたフレーム潜在ベクトルを生成するように構成されたエンコーダであり、前記選択されたフレーム潜在ベクトルが、前記関心のある対象物の前記フレームの圧縮表示である、エンコーダと
を備えるモジュールを実装するようにプログラミングされ、
前記送信ユニットが、前記選択されたフレーム潜在ベクトルを宛先に送信するようにさらにプログラミングされる、送信ユニット。
【請求項12】
前記宛先が、記憶媒体であり、前記選択されたフレーム潜在ベクトルが、前記記憶媒体に記憶される、請求項11に記載の送信ユニット。
【請求項13】
前記送信ユニットが、前記画像フレームの画像サイズを縮小する画像縮小器を実装するようにさらにプログラミングされる、請求項11に記載の送信ユニット。
【請求項14】
前記送信ユニットが、前記画像フレームの前記画像を増強するために用いられる画像増強器を実装するようにさらにプログラミングされる、請求項11に記載の送信ユニット。
【請求項15】
プロセッサとメモリとを具備する受信ユニットであって、少なくとも、
選択されたフレーム潜在ベクトルを受信することと、
補間により、2つの連続する選択されたフレーム潜在ベクトルの間に、いくつかの中間潜在ベクトルを再構築し、前記受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方をデコーダに送信するように構成された補間器と、
前記受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を復号し、前記選択されたフレーム潜在ベクトル及び前記中間潜在ベクトルから、関心のある対象物の画像フレームを生成するように構成されたデコーダと
を備えるモジュールを実装することと
を行うようにプログラミングされる、受信ユニット。
【請求項16】
前記選択されたフレーム潜在ベクトルが、送信ユニットから受信される、請求項15に記載の受信ユニット。
【請求項17】
前記選択されたフレーム潜在ベクトルが、記憶媒体に記憶され、前記受信ユニットが、前記選択された潜在フレームベクトルを、それらを前記憶媒体から取り出すことによって受信する、請求項15に記載の受信ユニット。
【請求項18】
プロセッサとメモリとを含んだ1つ又は複数のコンピューティングデバイスを備えるコンピュータシステムによって行われる方法であって、
関心のある対象物の画像フレームを受信するステップと、
設定された間隔で、前記関心のある対象物の前記画像フレームから画像フレームを選択するステップと、
前記選択されたフレームから、選択されたフレーム潜在ベクトルを生成するステップであって、前記選択されたフレーム潜在ベクトルが、前記関心のある対象物の前記画像フレームの圧縮表示である、選択されたフレーム潜在ベクトルを生成するステップと、
補間により、2つの連続する選択されたフレーム潜在ベクトルの間に、いくつかの中間潜在ベクトルを再構築するステップと、
前記受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を復号するステップと、
前記選択されたフレーム潜在ベクトル及び前記中間潜在ベクトルから、前記選択するステップで選択されなかった前記関心のある対象物の画像フレームに対応する画像フレームを含む、前記関心のある対象物の画像フレームを生成するステップと
を含む方法。
【請求項19】
生成された中間潜在ベクトルの数が、選択されなかった前記フレームと同じである、請求項18に記載の方法。
【請求項20】
コンピュータシステムの1つ又は複数のプロセッサによって実行されるとき、前記コンピュータシステムに動作を行わせる命令を記憶した、非一時的コンピュータ可読記憶媒体であって、前記動作が、
関心のある対象物の画像フレームを受信する動作と、
設定された間隔で、前記関心のある対象物の前記画像フレームから、画像フレームを選択する動作と、
前記選択されたフレームから、選択されたフレーム潜在ベクトルを生成する動作であって、前記選択されたフレーム潜在ベクトルが、前記関心のある対象物の前記画像フレームの圧縮表示である、選択されたフレーム潜在ベクトルを生成する動作と、
補間により、2つの連続する選択されたフレーム潜在ベクトルの間に、いくつかの中間潜在ベクトルを再構築する動作と、
前記受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を復号する動作と、
前記選択されたフレーム潜在ベクトル及び前記中間潜在ベクトルから、前記選択する動作で選択されなかった前記関心のある対象物の画像フレームに対応する画像フレームを含む、前記関心のある対象物の画像フレームを生成する動作と
を含む、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、データ圧縮及び送信の分野に関する。特に、本開示は、データを送信及び受信するシステム及び方法、並びに対応する送信及び受信ユニット、及びそのコンピュータ可読媒体に関する。
【背景技術】
【0002】
インターネットの開始以来、世界的に送信されるデータ量の大きな増加が生じている。ビデオコンテンツの送信は、送信されるデータの増え続ける部分の原因となっている。これはCovidウイルスの出現に特に当てはまる。ますます多くの人々が家で仕事をしている。ビデオ会議設備を用いる必要性が大きく増加している。これは、互いに離れている人々が、ビデオを用いて互いに通信する必要性を含む。
【0003】
しかしビデオによって通信することは、大量のデータの転送を必要とする。このことも、送信及び受信設備が大きな帯域幅を有することを必要とする。このことは、ビデオ画像の送信を費用のかかるものにする。従って、ビデオ画像及びオーディオの送信フェーズの間に、必要な帯域幅を低減するために、ビデオ及びオーディオ圧縮に対する需要がある。必要なものは、ビデオ画像及びオーディオの送信の間に必要な帯域幅を低減する、画像又はビデオ及びオーディオ送信のためのシステム及び方法である。
【発明の概要】
【0004】
この概要は、「詳細な説明」において以下でさらに述べられる、概念の選ばれたものを簡略化された形で紹介するために示される。この概要は、特許請求される主題の主要な特徴を特定するものではなく、特許請求される主題の範囲を決定する補助として用いられるためのものでもない。
【0005】
一態様では、システムは、プロセッサとメモリとを備える送信ユニットを具備し、送信ユニットは、関心のある対象物の画像フレームを受信するように構成され、送信ユニットは、設定された間隔で、関心のある対象物の画像フレームから、画像フレームを選択するように構成されたフレーム選択器と、選択されたフレームから、選択されたフレーム潜在ベクトルを生成するように構成されたエンコーダであり、選択されたフレーム潜在ベクトルは、関心のある対象物の画像フレームの圧縮表示である、エンコーダと、を備えるモジュールを実装するようにプログラミングされ、送信ユニットは、選択されたフレーム潜在ベクトルを、プロセッサとメモリとを備える受信ユニットに送信するようにさらにプログラミングされる。受信ユニットは、選択されたフレーム潜在ベクトルを受信するように構成され、補間により、2つの連続する選択されたフレーム潜在ベクトルの間に、いくつかの中間潜在ベクトルを再構築するように構成された補間器を備えるモジュールを実装するようにプログラミングされ、補間器は、受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方をデコーダに送信するように構成され、デコーダは、受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を復号し、選択されたフレーム潜在ベクトル及び中間潜在ベクトルから、フレーム選択器によって選択されなかった関心のある対象物の画像フレームに対応する画像フレームを含む、関心のある対象物の画像フレームを生成するように構成される。いくつかの実施形態では、デコーダの出力は、フレームのすべてがエンコーダから送信されたかのように、滑らかな表示をもたらす。
【0006】
再構築された中間潜在ベクトルの数は、フレーム選択器によって選択されなかった画像フレームと同じであってもよく、又は再構築された中間潜在ベクトルの数は、フレーム選択器によって選択されなかった画像フレームと同じでなくてもよい。
【0007】
送信ユニットは、画像フレームの画像サイズを縮小するように構成された画像縮小器を実装するようにさらにプログラミングされ得る。画像縮小器は、画像フレームから背景を取り除くことによって(例えば、その結果、関心のある対象物のみがフレーム内に残る)、画像サイズを縮小するようにさらに構成され得る。画像縮小器は、フレーム内の関心のある対象物と背景とを分離することによって、画像サイズを縮小するようにさらに構成され得、各画像フレーム内の関心のある対象物に対して、より高い解像度の圧縮を行い、各画像フレーム内の背景に対して、より低い解像度の圧縮を行うことによって、異なる種類の圧縮を行い、以て、対象物はより高い解像度にあり、背景はより低い解像度にある、通常の観測者にはより関心のあるものに、より大きな解像度を割り当てながら、画像サイズの縮小を達成する。
【0008】
送信ユニットはまた、画像フレームの画像を増強するように構成された画像増強器を実装するようにさらにプログラミングされ得る。画像増強器は、画像フレーム内の関心のある対象物を検出することと、送信ユニット内で、サイズにおいて、関心のある対象物をアップスケールすることとによって、画像を増強するようにさらに構成されることができ、このようなアップスケールすることは、関心のある対象物の解像度を増加させることを含む。送信ユニットは、アップスケールされた関心のある対象物を有する画像フレームを、受信ユニットに送信し得る。次いで、アップスケールされた関心のある対象物は、受信ユニットで、サイズにおいてダウンスケールされ得る。
【0009】
受信ユニットは、追加潜在ベクトル生成器を有することができ、これはデータ処理フローにおいて補間器の前に配置されることができ、受信ユニットによって受信されなかった、損傷した又は欠損した潜在ベクトルを置き換えるために、追加の置換ベクトルを生成するように構成され得る。
【0010】
システムは、複数の送信ユニットと受信ユニットとを備えることができ、複数の送信ユニットは、対応する複数の選択されたフレーム潜在ベクトルを、選択的転送ユニット(SFU)を通じて、複数の受信ユニットに送信し、SFUは、複数の選択されたフレーム潜在ベクトルを受信することと、どの受信ユニットが、複数の選択されたフレーム潜在ベクトルを送信するかを選択することと、対応する潜在フレーム潜在ベクトルを、選択された受信ユニットに転送することとを行うように構成される。
【0011】
他の態様では、プロセッサとメモリとを具備する送信ユニットは、関心のある対象物のフレームを受信するように構成され、送信ユニットは、設定された間隔で、関心のある対象物のフレームから画像フレームを選択するように構成されたフレーム選択器と、選択されたフレームから選択されたフレーム潜在ベクトルを生成するように構成されたエンコーダであって、選択されたフレーム潜在ベクトルは、関心のある対象物のフレームの圧縮表示である、エンコーダとを備えるモジュールを実装するようにプログラミングされ、送信ユニットは、選択されたフレーム潜在ベクトルを宛先に送信するようにさらにプログラミングされる。
【0012】
宛先は、記憶媒体とすることができ、選択されたフレーム潜在ベクトルは、記憶媒体に記憶され得る。送信ユニットは、画像フレームの画像サイズを縮小する画像縮小器を実装するようにさらにプログラミングされ得る。送信ユニットはまた、画像フレームの画像を増強するために用いられる画像増強器を実装するようにさらにプログラミングされ得る。
【0013】
一実施形態では、システムが、例えば10~20人の参加者の、複数の送信及び受信ユニットの間でデータを圧縮及び送信するために使用されるとき、システムは、選択的転送ユニット(SFU)アーキテクチャを用いる。SFUアーキテクチャは、ネットワークを通じて複数の送信及び受信ユニットに接続された、少なくとも1つのサーバコンピュータのメモリに記憶されたコンピュータプログラムとして実装されることができ、少なくとも1つのサーバコンピュータの少なくとも1つのプロセッサに実行され得る。この実施形態では、SFUは、複数の送信ユニットから、エンコードされた潜在ベクトルを含んだストリームを受信し、どの受信ユニットが各メディアストリームを送信するかを選択し、対応するメディアストリームを、選択された受信ユニットに転送する。残りのプロセスは、受信ユニットで前に述べられたように継続することができる。SFUアーキテクチャを用いることによって、本開示のシステムは、その能力を、単に2人のユーザから、単なるピアツーピアアーキテクチャに適当となり得るより多数のユーザに拡張し得る。
【0014】
他の実施形態では、システムが、例えば20人を超える参加者の、複数の送信及び受信ユニットの間でデータを圧縮及び送信するために使用されるとき、システムは、メディア結合ユニット(MCU)アーキテクチャを用いる。MCUアーキテクチャは、ネットワークを通じて複数の送信及び受信ユニットに接続された、少なくとも1つのサーバコンピュータのメモリに記憶されたコンピュータプログラムとして実装されることができ、少なくとも1つのサーバコンピュータの少なくとも1つのプロセッサに実行され得る。この実施形態では、MCUは、複数の送信ユニットから、エンコードされた潜在ベクトルを含んだストリームを受信し、メディアストリームを復号し、それらを倍率変更し、対応する受信ユニットに送信する前に、受信されたストリームのすべてから新たなストリームを構成する。残りのプロセスは、受信ユニットで前に述べられたように継続することができる。MCUアーキテクチャを用いることによって、本開示のシステムは、20人を超える参加者など、多数の参加者のために用いられ得る。
【0015】
他の態様では、プロセッサとメモリとを具備する受信ユニットは、選択されたフレーム潜在ベクトルを受信することと、補間により、2つの連続する選択されたフレーム潜在ベクトルの間に、いくつかの中間潜在ベクトルを再構築し、受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方をデコーダに送信するに構成された補間器と、受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を復号し、選択されたフレーム潜在ベクトル及び中間潜在ベクトルから、関心のある対象物の画像フレームを生成するように構成されたデコーダとを備えるモジュールを実装することとを行うようにプログラミングされる。
【0016】
補間中間潜在ベクトルによって再構築された数は、フレーム選択器によって選択されなかったフレームと同じであってもよく、又は補間中間潜在ベクトルによって再構築された数は、フレーム選択器によって選択されなかったフレームと同じでなくてもよい。選択されたフレーム潜在ベクトルは、記憶媒体に記憶されることができ、受信ユニットは、選択された潜在フレームベクトルを、それらを記憶媒体から取り出すことによって受信し得る。いくつかの実施形態では、選択されたフレーム潜在ベクトルは、送信ユニットから受信される。
【0017】
他の態様では、1つ又は複数のコンピューティングデバイスを備えるコンピュータシステムによって行われる方法は、関心のある対象物の画像フレームを受信するステップと、設定された間隔で、関心のある対象物の画像フレームから、画像フレームを選択するステップと、選択されたフレームから、関心のある対象物の画像フレームの圧縮表示である、選択されたフレーム潜在ベクトルを生成するステップと、補間により、2つの連続する選択されたフレーム潜在ベクトルの間に、いくつかの中間潜在ベクトルを再構築するステップと、受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を復号し、フレームを生成するステップと、選択されたフレーム潜在ベクトル及び中間潜在ベクトルから、選択するステップで選択されなかった関心のある対象物の画像フレームに対応する画像フレームを含む、関心のある対象物の画像フレームを生成するステップとを含む。
【0018】
生成された中間潜在ベクトルの数は、選択されなかったフレームと同じであってもよく、又は補間によって生成される中間潜在ベクトルの数は、選択されなかったフレームと同じでなくてもよい。
【0019】
他の態様では、非一時的コンピュータ可読記憶媒体は、コンピュータシステムの1つ又は複数のプロセッサによって実行されるとき、コンピュータシステムに動作を行わせる命令を記憶し、動作は、関心のある対象物の画像フレームを受信する動作と、設定された間隔で、関心のある対象物の画像フレームから、画像フレームを選択する動作と、選択されたフレームから、選択されたフレーム潜在ベクトルを生成する動作であって、選択されたフレーム潜在ベクトルは、関心のある対象物の画像フレームの圧縮表示である、選択されたフレーム潜在ベクトルを生成する動作と、補間により、2つの連続する選択されたフレーム潜在ベクトルの間に、いくつかの中間潜在ベクトルを再構築する動作と、受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を復号し、フレームを生成する動作と、選択されたフレーム潜在ベクトル及び中間潜在ベクトルから、選択する動作で選択されなかった関心のある対象物の画像フレームに対応する画像フレームを含む、関心のある対象物の画像フレームを生成する動作とを含む。
【0020】
補間によって生成される中間潜在ベクトルの数は、選択されなかったフレームと同じでなくてもよい。
【0021】
さらに開示されるのは、複数の送信及び受信ユニットの間で、データを圧縮し、送信するために使用される、複数の送信及び受信ユニットを備えるシステムである。
【0022】
上記の概要は、本開示のすべての態様の網羅的なリストを含むものではない。本開示は、上記に要約された様々な態様、並びに以下の「詳細な説明」で開示され、及び出願と共に提出された特許請求項で具体的に指摘されるものの、すべての適切な組み合わせから実施され得るすべてのシステム及び方法を含むことが企図される。このような組み合わせは、上記の概要に特に記載されない利点を有する。本発明の他の特徴及び利点は、添付の図面から、及び以下に続く詳細な説明から明らかになるであろう。
【0023】
本開示の特定の特徴、態様、及び利点は、以下の説明及び添付の図面に関して、より良く理解されるであろう。
【図面の簡単な説明】
【0024】
図1】エンコーダ・デコーダ組み合わせのブロック図である。
図2】一実施形態による送信ユニットのフロー図である。
図3】一実施形態による受信ユニットのフロー図である。
図4】一実施形態による、送信ユニットと受信ユニットとを備えるシステムのフロー図である。
図5】送信ユニットの他の実施形態のフロー図である。
図6】受信ユニットの他の実施形態のフロー図である。
図7】一実施形態による、送信ユニットと受信ユニットとを備えるシステムのフロー図である。
図8】送信ユニットの他の実施形態のフロー図である。
図9】受信ユニットの他の実施形態のフロー図である。
図10】送信ユニットと受信ユニットとを備えるシステムの他の実施形態のフロー図である。
図11】送信ユニットの他の実施形態のフロー図である。
図12】受信ユニットの他の実施形態のフロー図である。
図13】送信ユニットと受信ユニットとを備えるシステムの他の実施形態のフロー図である。
図14】一実施形態による方法のフロー図である。
【発明を実施するための形態】
【0025】
以下の説明では、例示のために様々な実施形態を示す図面が参照される。また、様々な実施形態が、いくつかの例を参照して以下で説明される。実施形態は、特許請求される主題の範囲から逸脱せずに、設計及び構造での変更を含み得ることが理解されるべきである。
【0026】
述べられる実施形態は、2つの画像の間の補間を活用する。2つの画像の間の補間は、潜在する又は隠された空間で生じる。潜在空間は、エンコーダ・デコーダシステムを使用して述べられ得る。いくつかの実施形態では、エンコーダ及びデコーダは、ニューラルネットワークから構成される。エンコーダは、データを高次元の入力から、ニューロンの数が最も少ないボトルネック層にもたらす。潜在空間は、ボトルネック層においてデータが存在する空間である。またときには、エンコーダは、データを潜在空間に変換又はマッピングすると言われる。次いで、デコーダは、このエンコードされた入力を取得し、それを変換してもとの入力形状に戻す。例えば、オートエンコーダは、エンコーダ及びデコーダから構成される。
【0027】
一般に、オートエンコーダは、入力されたものは何でも出力するように訓練され、恒等関数として動作する。従ってエンコーダは、すべての入力データを圧縮表示にエンコードする。従ってエンコーダは、入力データを、より高次元の入力から、より低次元又は圧縮表示にエンコードすると言われ得る。デコーダが入力データを再構築するためには、圧縮表示に十分な情報が存在しなければならない。良好に動作するために、ネットワークは、最も適切な特徴を抽出するように学習しなければならない。潜在空間にあるのは、この圧縮表示である。潜在空間内の対象物の表示は、潜在表示である。対象物の潜在表示は、潜在空間内のデータ点とすることができる。潜在空間内のデータ点は、ベクトルとして表され得る。潜在空間内のこれらのベクトルは、潜在ベクトルが意味するものである。潜在空間では、同様なデータ点は、一緒に集まる傾向を有するようになる。
【0028】
潜在空間内のデータ点は、潜在変数によって定義され得る。潜在変数は、直接に観測可能ではない変数である。潜在変数は、潜在ベクトルによって表され得る。
【0029】
例として、手書きの数字を認識するために、ネットワークの入力には、ネットワークに供給された、0~9の手書きの数字の画素のマトリックスを備える画像がある。この画素のマトリックスは、画素空間と呼ばれ得る。出力において、ネットワークは、それが受信した画像の数字を示す。簡潔に説明すると、最初にネットワークは、手書きの数字を認識するように訓練される。これは、ネットワークに多くの手書きの数字の画像を与え、それが正しい又は誤った答えを得たかどうかを、ネットワークに告げることによってなされる。ネットワークが誤った答えを得た場合、ネットワークは、逆伝播によって、ネットワーク内のニューロンの重みを調整する。これは、ネットワークが、許容レベルまで、手書きの数字を十分良好に正確に認識するまで継続される。
【0030】
例示的シナリオでは、エンコーダは、例えば「1」の画像を受信したとき、画素空間において画像をエンコードし、画像を潜在空間に変換又はマッピングする。潜在空間では、画像は、潜在データ点である潜在表示を有する。潜在点は、潜在変数によって記述され得る。潜在点は、潜在ベクトルによって表され得る。学習プロセスの間、エンコーダは、画素空間で受信された「1」の画像に対して、潜在空間内のデータ点を割り当てる。エンコーダは、この割り当てを、0~9の手書きの数字の、10個すべての画像に対して行う。潜在空間が調べられると、異なる数字が一緒に集まることが見出され、これはすべての手書きの0は、潜在空間内のある一定の領域を占有する、潜在空間内の所与の点であることを意味する。これは、すべての他の手書きの数字にも当てはまる。これは、すべての「1」、「2」、「3」などは、潜在空間内のある一定の領域内に一緒にグループ化されることを意味する。0~9の各手書きの数字には、潜在空間内のある一定の領域が与えられる。
【0031】
ベクトル演算及び補間計算のために、潜在空間は用いられ得る構造を有する。点の間の補間は、潜在空間内の点の間のベクトル演算を行うことによってもなされ得る。結果は、生成される画像に、意味のある及び目標を定めた効果を有する。
【0032】
[ベクトル演算]
ベクトル演算は、画像を用いてなされ得る。典型的な例は、眼鏡をかけた男性の画像、眼鏡をかけていない男性の画像、及び眼鏡をかけていない女性の画像である。画素空間での眼鏡をかけた男性の画像は、エンコーダによって潜在空間に変換される。眼鏡をかけていない男性の画像には同じことがなされ、これもエンコーダによって画素空間から潜在空間に変換される。2つの画像の潜在空間表示は、互いに減算される。上記で説明されたように、潜在空間での表示は、潜在ベクトルとして表され得る潜在データ点とすることができる。減算の後、残るものは、眼鏡の潜在空間での表示である。次に、眼鏡をかけていない女性の画像は、エンコーダを通じて、潜在空間の潜在表示に変形される。潜在空間では、眼鏡の表示は、眼鏡をかけていない女性の潜在表示に加算され、結果として、眼鏡をかけた女性の潜在表示を生じる。次いでこの結果は、デコーダによって潜在空間から画素空間に変形される。最終結果は、画素空間での眼鏡をかけた女性の画像である。
【0033】
[補間]
論じられたように、特定の画像は、潜在空間内の特定の点(ベクトル)である特定の潜在表示を有する。例えば、2つのもとの画像を仮定し、第1の人の画像はわずかに右を見ており、第2の人の画像はわずかに左を見ている場合、これら2つの画像は、エンコーダによって潜在空間に変換されることができ、各画像は、潜在空間内に特定の点を有する。潜在空間内の2つの点の間の直線経路上に、一連の点が作成され得る。これらの点は、潜在ベクトルとして表され得る。これらは、中間潜在ベクトルである。結果は、潜在空間内の2つの点の間の補間となる。これらの一連の補間された点は、デコーダに供給され得る。
【0034】
これらの点は、2つのもとの画像の間の遷移を示す一連の画像を生成し、結果として、わずかに右に向いた人の第1の画像に始まり、一連の中間の画像、及びわずかに左に向いた人の第2の画像で終わる一連の画像を生じる。より具体的には、一連の中間の画像において、わずかに右に向いた人の画像の次の最初の画像は、顔がわずかに左に向き始める。各後続の画像では、顔は、より左方向に向く。中央(2つのもとの画像の間の途中)に向かって、顔は、おおよそ正面を見るようになる。最後に、一連の中間の画像でさらに、顔は左に向き始め得る。
【0035】
いくつかの実施形態では、デコーダは、潜在空間内の潜在変数を、観測可能変数に変換又はマッピングする。例えば、デコーダは、潜在空間内の画像の潜在変数の潜在表示を取得し、それらを画素空間内の画像(観測可能変数)に変換する。
【0036】
いくつかの実施形態では、エンコーダは、観測可能変数を、潜在空間内の潜在変数の潜在表示に変換又はマッピングする。例えば、エンコーダは、画素空間内の画像の画素(観測可能変数)を取得し、それらを潜在空間内の潜在表示に変換する。この潜在表示は、潜在変数とすることができる。潜在変数は、潜在空間内の潜在データ点として表され得る。潜在データ点は、潜在ベクトルとして表され得る。
【0037】
エンコーダの入力は、高次元の入力と呼ばれ得る。これはまた、画像の場合は、周囲空間又は画素空間と呼ばれ得る。エンコーダは、高次元の入力から観測可能変数を取得し、それを潜在変数として、潜在空間内の、より低次元の出力にマッピングすると言うことができる。
【0038】
本明細書で「補間」とは、2つのもとの画像の間のデータ点の数学的推定の方法を指すように用いられる。いくつかの実施形態では、補間は、エンコーダを用いてもとの画像のそれぞれを、潜在空間の特定の点に変換することによって使用される。潜在空間内の2つの点の間の直線経路上に、一連の点が作成され得る。これらの一連の点は、デコーダに供給される。これらの点は、2つのもとの画像の間の遷移を示す一連の画像を生成し、補間によって、2つのもとの画像の間の画像を生成する。
【0039】
補間によって、潜在空間内の2つの点の間の直線経路上に、一連の点が作成され得る。この一連の点は、補間された点である。この一連の補間された点は、ベクトルによって表されることができ、これは補間ベクトル又は補間されたベクトルと呼ばれ得る。
【0040】
いくつかの実施形態は、潜在空間内で同様なデータ点が一緒に近くにある、圧縮された潜在データの表示を用いる。この表示は、潜在表示と呼ばれ得る。いくつかの実施形態では、エンコーダは、データを、高次元の入力(例えば、画素空間内の画素から構成された画像などの対象物)から、ニューロンの数が最も少ない、ニューラルネットワークのボトルネック層にもたらす。潜在空間は、ボトルネック層においてデータが存在する空間である。従ってエンコーダは、入力データを、より高次元の入力から、より低次元又は圧縮表示に、エンコードすると言われ得る。対象物の潜在表示は、潜在データ点を表す潜在変数とすることができる。潜在空間内のデータ点は、潜在ベクトルとして表され得る。
【0041】
いくつかの実施形態では、エンコーダは、データを潜在空間に変換し、観測可能変数を潜在変数に変換又はマッピングする。データの潜在表示は、データの圧縮表示であり、潜在空間に現れる。この潜在表示は、潜在変数とすることができ、潜在空間内の潜在点として表され得る。潜在点は、潜在ベクトルとして表され得る。
【0042】
本明細書で用いられる「画素空間」は、潜在空間と対比する。いくつかの実施形態では、エンコーダは、画素から構成される画像などの対象物を、画素空間から、潜在空間内の潜在表示に変形する。いくつかの実施形態では、デコーダは(補間などの数学的操作の後)、潜在表示を、潜在空間から変形して、画素空間内の観測可能変数として画素空間に戻す。
【0043】
述べられる実施形態は、エンコーダ・デコーダ組み合わせを含むAI訓練モデルなど、人工知能(AI)及び機械学習を活用する。このようなエンコーダ・デコーダ組み合わせは、図1に示される。図から分かるように、エンコーダ・デコーダ組み合わせ100は、エンコーダ110及びデコーダ130から構成される。エンコーダ110及びデコーダ130は、ニューラルネットワークから構成される。
【0044】
エンコーダ110とデコーダ130との間には、潜在空間120が位置する。エンコーダ110は、入力140を受信する。デコーダ130は、出力150を生成する。エンコーダ110及びデコーダ130は、入力140での入力データの高品質再構築を出力150に生成するように、一緒に訓練される。適切なニューラルネットワークは、デコーダ130が、入力140での入力データにできる限り対応する高品質出力150を生成するように、エンコーダ110及びデコーダ130の訓練において用いられ得る敵対的生成ネットワーク(GAN)を備え得る。入力データは、ビデオデータ、又はオーディオデータ、又はその両方とすることができる。この議論の残りのために、ビデオデータ又は画像に焦点が当てられる。
【0045】
訓練された後、エンコーダ110は、入力140で画像データを受信する。次いでエンコーダ110は、画像データから、潜在空間120内の潜在表示を生成する。デコーダ130は、潜在変数である潜在表示を受信する。潜在変数は、潜在空間120内の潜在ベクトルとして表される潜在データ点とすることができる。次いでデコーダ130は、出力150に、潜在表示の再構築を生成する。従って、エンコーダ110とデコーダ130とは、訓練されたエンコーダ・デコーダペアを形成すると言われ得る。
【0046】
図2は、送信ユニット200のフロー図である。図3は、受信ユニット300のフロー図である。送信ユニット200は、エンコーダ220を有する。受信ユニット300は、デコーダ320を有する。エンコーダ220及びデコーダ320は、上記でエンコーダ110とデコーダ130とを用いて前に論じられたように、訓練されたエンコーダ・デコーダペアを形成する。
【0047】
図2は、宛先230にデータを送信するように構成された、送信ユニット200を示す。このデータは、ビデオ及びオーディオを含むことができ、又はビデオのみ、又はオーディオのみを含むことができる。送信ユニット200は、フレーム選択器210と、述べられたようにエンコーダ220とから構成される。エンコーダ220は、宛先230に接続される。送信ユニット200は、フレーム選択器210に入る、関心のある対象物のフレーム205を受信する能力を有する。後に示されるように、関心のある対象物は、人の顔、腕、身体、又はそれらの組み合わせとすることができ、フレーム205は、関心のある対象物の画像とすることができる。フレーム選択器210は、設定された間隔で、フレーム205からのフレームを選択することによって、選択されたフレーム215を作成する。例えば、フレーム205が、60フレーム/秒のレートでのビデオフレームであり、フレーム選択器210は、10フレーム/秒の設定された間隔で、フレームを選択する場合、これは結果として6フレーム/秒の選択されたフレーム215を生じるようになる。これは、フレーム205の9個の中間のフレームが、選択されなかったことを意味する。中間のフレーム、又はフレーム選択器210によって選択されなかったフレームは、送信ユニット200に残る、又は廃棄される若しくは他の場所に送信されることができ、一方、選択されたフレーム215は、エンコーダ220に送信される。次いでエンコーダ220は、選択されたフレーム250をエンコードし、選択されたフレーム215から、宛先230に送信される選択されたフレーム潜在ベクトル225を生成する。選択されたフレーム潜在ベクトル225は、選択されたフレーム215からの潜在ベクトルである。
【0048】
宛先230に6個/秒のレートで、選択されたフレーム潜在ベクトル225を送信するために必要な帯域幅は、宛先230に60フレーム/秒のレートで、ビデオフレームであるフレーム205を送信する場合に必要になったであろうものと比べてずっと小さく、結果として、ネットワークを通してデータ送信する最適化された及び効率的な方法となる。従って、選択されたフレーム潜在ベクトル225の潜在表示は、関心のある対象物のフレーム205の圧縮表示である。
【0049】
後に示されるように、宛先230は、受信ユニットとすることができる。受信ユニットはまた、ビデオ会議で用いられるような受信ユニットとすることができる。宛先230はまた、受信ユニットを用いることによって後の段階で再生されるように、ビデオ及びオーディオ記録が記憶又は記録される記憶媒体とすることができる。
【0050】
図3に示されるのは、受信ユニットのフロー図である。図3で、受信ユニット300は、補間器310とデコーダ320とを有する。受信ユニット300は、選択されたフレーム潜在ベクトル305を受信するように構成される。受信された選択されたフレーム潜在ベクトル305は、補間器310に送信される。潜在ベクトル305は、潜在表示である。図2のエンコーダ220は、選択されたフレーム215を潜在空間に変換している。これらの潜在表示は、前に論じられたように、潜在変数とすることができる。これらの潜在変数は、潜在空間内の潜在データ点として表され得る。従って2つの連続する選択されたフレーム215は、潜在空間内の2つの潜在データ点に変換され得る。潜在空間内では、補間器310は、潜在空間内の2つの点の間の直線経路上に、一連の点を作成する。この一連の点は、補間された点である。この一連の補間された点は、補間ベクトルによって表され得る。従って、補間器310は、補間によって、2つの連続する選択されたフレーム潜在ベクトル305の間に、いくつかの中間潜在ベクトルを再構築すると言われ得る。補間されたベクトルとして知られるのは、2つの連続する選択されたフレーム潜在ベクトル305の間の、これらの中間潜在ベクトルである。
【0051】
全潜在ベクトル315は、受信された選択されたフレーム潜在ベクトル305、及び補間器310による再構築された潜在ベクトルである。全潜在ベクトル315は、デコーダ320に送信される。
【0052】
再構築された中間潜在ベクトルの数は、送信ユニット200内のフレーム選択器210によって選択されなかったフレームと同じとすることができる。前の例では、一連のフレーム205は、60フレーム/秒のレートであり、フレーム選択器210は、10番目のフレームごとに選択し、結果として6フレーム/秒のレートでの選択されたフレーム215を生じ、9個の中間のフレームは、フレーム選択器210によって選択されない。従って、これらの9個の選択されない中間のフレームに対して補償するために、補間器310は、2つの連続の受信された選択されたフレーム潜在ベクトル305の間の、9個の再構築された中間潜在ベクトルを、補間によって生成又は再構築しなければならない。次いでデコーダ320は、受信された選択されたフレーム潜在ベクトル305と、補間器310による補間による再構築された中間潜在ベクトルとの両方を復号する。これは、フレームレートを、デコーダ320の出力で、フレーム205の初期フレームレート60フレーム/秒に戻すようになり、これは復号されたフレーム325である。しかし、本発明は、中間潜在ベクトルの数が、フレーム選択器210による選択されないフレームと同じでなければならないことに限定されないことを理解すべきである。初期の一連のフレーム205が60フレーム/秒のレートであったとしても、補間器310による再構築の後、全潜在ベクトル315は、単に30ベクトル/秒であることが決定され得る。これは結果として、30フレーム/秒のレートでの、デコーダ320の出力での復号されたフレーム325を生じる。同様に、初期の一連のフレーム205が、例えば30フレーム/秒のレートであった場合でも、補間器310による再構築の後、全潜在ベクトル315は、60ベクトル/秒になるように構成され得る。これは結果として、60フレーム/秒のレートで、デコーダ320の出力に、復号されたフレーム325を生じるようになる。
【0053】
フレーム205がビデオ画像であり、関心のある対象物が非常に動的に動き回る場合、フレーム選択器210による選択されたフレーム215の数は、関心のある対象物の、より正確な描写を与えるために、比較的多くなる必要がある。
【0054】
しかし、ビデオ会議(VC)など、いくつかの状況では、比較的一貫した状況の下での単一の関心のある対象物の、多くの場面が送信され、関心のある対象物の比較的正確な描写を与えるために、フレーム選択器210による、選択されたフレーム215の数は、比較的低くすることができる。例えば、選択されたフレーム215が、6フレーム/秒のレートである場合、これは、選択されたフレーム215の間に、166.7ミリ秒の期間、時間間隔を与える。166.7ミリ秒の期間の間に、ビデオ会話では、関心のある対象物(例えば、人の顔)に顕著なことは余り起きない。
【0055】
図4は、データを送信及び受信するためのシステム400の一実施形態の図である。データは、ビデオ、又はオーディオ、又はビデオ及びオーディオデータを備える。システム400は、ネットワーク410を通じて受信ユニット300に接続された送信ユニット200を有する。ネットワーク410は、例えばインターネット又はローカルエリアネットワーク(LAN)とすることができる。ネットワーク410はまた、ケーブル、電話線、無線波、衛星、又は赤外光ビーム、又は任意の他の手段を通して、送信及び受信ユニット(200、300)を接続する任意のものを含む。この実施形態は、ビデオ会議のために用いられ得る。
【0056】
図5は、エンコーダ220を含んだ、送信ユニット200Aの他の実施形態のフロー図である。図6は、デコーダ320を含んだ、受信ユニット300Aの他の実施形態のフロー図である。エンコーダ220と、デコーダ320とは、上記で論じられたように、訓練されたエンコーダ・デコーダ組み合わせを形成する。それぞれエンコーダ・デコーダ組み合わせにおけるニューラルネットワークとすることができる、エンコーダ220及びデコーダ320は、入力画像の高品質再構築を生成するために、一緒に訓練される。
【0057】
エンコーダ220及びデコーダ320は、初期に、多数(例えば、数千)の画像(例えば、顔の画像)を、エンコーダ220に供給することによって訓練される。訓練の間に、エンコーダ220及びデコーダ320の重みは、逆伝播を用いて更新される。訓練は、デコーダ320が、エンコーダ220の入力で、もとの顔の再構築に成功するまで継続される。
【0058】
図5を参照すると、送信ユニット200Aは、フレーム選択器210及びエンコーダ220も有するという点で、図2の送信ユニット200といくつかの類似点を有する。さらに、図5の送信ユニット200Aは、関心のある対象物500の画像を捕捉するために用いられる捕捉デバイス510を備える。捕捉デバイス510は、独立型のカメラ、又はデスクトップ、ラップトップ、タブレット、スマートフォン、若しくは任意の他の同様な電子デバイス内に搭載されたカメラとすることができる。関心のある対象物500は、人の顔、又は人の身体、胴体、腕、手など、フレーム内に含まれる任意の他の対象物とすることができる。捕捉デバイス510は、例えば、関心のある対象物500の60フレーム/秒の設定されたフレームレートで、画像フレーム515を生成する。
【0059】
捕捉デバイス510は、サブコンポーネントであるフレーム選択器210に接続される。フレーム選択器210は、設定された間隔で、フレーム515から画像フレームを選択する。例えば、フレーム選択器210は、画像フレーム515から、10番目ごとの画像フレームを選択し得る。60フレーム/秒のフレームレートで、捕捉デバイス510と、10番目のフレームごとに選択するフレーム選択器210とによって生成されるのに従って、結果としての選択されたフレーム525は、6画像フレーム/秒のフレームレートとなる。ここでも、フレーム選択器210によって選択されなかったフレームは、送信ユニット200A上に残る、又は廃棄される若しくは他の宛先に送信され得る。
【0060】
一実施形態では、選択されたフレーム525は、フレーム選択器210によって、画像縮小器530に送信される。画像縮小器530サブコンポーネントによって達成され得る、画像サイズの縮小においていくつかの方法がある。
【0061】
第1に、一実施形態では、画像サイズの縮小は、背景を取り除くことによってなされ得る。関心のある対象物500が、画像フレーム515内の顔及び身体である場合、縮小されたフレーム535内に顔及び身体だけが残るように、背景が取り除かれる。
【0062】
第2に、他の実施形態では、画像サイズの縮小は、各選択されたフレーム525内の、関心のある対象物500と背景とを分離し、次いで異なる種類の圧縮を行う、例えば各選択されたフレーム525内の関心のある対象物500に対してより高い解像度の圧縮行い、各選択されたフレーム525内の背景に対してより低い解像度の圧縮を行うことによって、達成され得る。このようにして、選択されたフレーム525の画像サイズの縮小は、画像縮小器530によって達成されることができ、より高い解像度を、関心のある対象物に割り当て、より低い解像度を、圧縮アーチファクトがより顕著でない、背景に割り当てながら、縮小されたサイズでの縮小されたフレーム535を結果として生じる。
【0063】
他の実施形態では、他のサブコンポーネントの画像増強器540が用意される。画像縮小器530は、画像増強器540に接続される。従って画像縮小器530は、縮小されたサイズの縮小されたフレーム535を、画像増強器540に送信する。画像増強器540は、縮小されたフレーム535内の関心のある対象物500の画像を増強する。関心のある対象物500の画像の増強は、送信ユニット200Aで、関心のある対象物500をサイズにおいてアップスケールすることによってなされる。関心のある対象物500は後に、受信ユニット300Aで、サイズにおいてダウンスケールされる。第1に、関心のある対象物500が、縮小されたフレーム535内に存在するかどうかを検出するために、高速検出アルゴリズムが用いられる。関心のある対象物500が、縮小されたフレーム535内に存在する場合、関心のある対象物500をスケールアップする又は拡大することによって、変換が行われる。このようにして、より多くの情報が関心のある対象物500に含まれ、関心のある対象物の画像の品質、及びその解像度を向上する。拡大された又はスケールアップされた関心のある対象物は、ネットワーク410を通して、図6に示される受信ユニット300Aに送信される。一例では、関心のある対象物は、目標全体の一部分である。例えば、目標が、ビデオ会議の間に、受信ユニットへの送信のためにその画像がカメラによって捕捉されている人である場合、関心のある対象物は人の顔となり得る。従って、画像増強器540は、人の顔を選択し、次いでそれをアップスケールし、一方、身体(例えば、胴体及び手)は修正なしのままとする。受信ユニット300Aは、拡大又はスケールアップされた関心のある対象物500の画像、関心のある対象物500ではない残りの部分(すなわち、身体及び腕)、及び関心のある対象物500の位置を受信する。受信ユニット300Aは、さらに処理する前に、逆変換を適用し、関心のある対象物500をそれのもとの比率に戻す。その結果、関心のある対象物500は、受信ユニット300Aでは、もとの比率であるが、より高い解像度で見られ得る。画像増強器540は、サブコンポーネントのエンコーダ220に接続される。
【0064】
前に論じられたように、エンコーダ220は、増強されたフレーム545を取得し、増強されたフレーム545を、高次元の入力から、ニューロンの数が最も少ないボトルネック層にもたらす。ボトルネック層は、潜在空間である。エンコーダ220は、画像フレーム545を、画素空間から潜在空間に変換する。潜在空間は、増強されたフレーム545の、圧縮された潜在表示を備える。エンコーダ220は、画像フレーム545を取得し、画像フレーム545を、潜在空間内の潜在表示に変化させる。潜在表示は、いくつかの潜在変数である。潜在変数は、潜在空間内の潜在点として表され得る。潜在点は、潜在ベクトル555として表され得る。潜在空間で直線補間を行うために用いられ得るのは、これらの潜在ベクトル555である。
【0065】
図4で分かるように、送信ユニット200は、ネットワーク410によって受信ユニット300に接続される。同様に、前に論じられたように、図5に示される潜在ベクトル555は、従って図6に示されるように、ネットワーク410を通じて、受信ユニット300Aに送信される。このようにして、秒当たりすべての60個の画像フレーム515を送信する代わりに、送信されるのは秒当たり6個の潜在ベクトル555のレートでの、潜在ベクトル555である。従って潜在ベクトル555は、画像フレーム515の圧縮表示である。6フレーム/秒のレートでの潜在ベクトル555は、秒当たり60個すべての画像フレーム515が、ネットワーク410を通じて送信された場合と比べて、必要とする帯域幅はずっと小さくなる。この手法は、潜在ベクトル555が縮小された帯域幅で送信されるので、必要な送信帯域幅を縮小する。フレーム選択器210によって選択されなかった画像フレーム、すなわち選択された画像フレーム525の間の、選択されない中間の画像フレームは送信されず、従って送信ユニット200Aに残る。このようにして、関心のある対象物の画像の増強された品質をもたらしながら、データの効率的な送信が、本開示の実施形態を通して達成され、これは、ハードウェア要件を低減し、又はネットワーク混雑を防止しながら、ビデオ会議でのユーザエクスペリエンスの品質を向上することができる。
【0066】
本明細書で述べられる恩恵から恩恵を受けることができる、本開示の実施形態の例示の応用例は、一定のレベルの遠隔共同作業及びユーザ対話を必要とする、遠隔会議のためのビデオ会議、学習、ショッピング、遊び、及び仕事を含むことができる。このようなビデオ会議の1つの特定の応用例は、3D仮想環境で生じるものとすることができ、そこではユーザの仮想切り抜きが、リアルタイムに近い仮想環境に挿入され得る。ハードウェアの余分な要件のない、効率的なデータの送信、及び増強された画像の品質のため、3D仮想環境のビデオ会議の参加者は、自分たちの画像が効率的に仮想環境内に送信され、他のユーザによって適切に見られながら、円滑なエクスペリエンスの恩恵を受け得る。
【0067】
図5では、フレーム選択器210、画像縮小器530、画像増強器540、及びエンコーダ220の、サブコンポーネントの順序に従う特定の構成が示される。本発明は、サブコンポーネントのこの特定の順序に限定されないことを理解すべきである。画像縮小器530、画像増強器540、フレーム選択器210、及びエンコーダ220のサブコンポーネントの順序も、本発明の範囲内にある。サブコンポーネントの任意の実行可能な順序は、本発明の範囲内にある。
【0068】
述べられたように、図6は、受信ユニット300Aの他の実施形態のフロー図である。潜在ベクトル555は、ネットワーク410を通じて受信ユニット300Aに送信され、図6に示されるように潜在ベクトル620として到着する。受信ユニット300Aは、補間器310及びデコーダ320を有するという点で、図3の受信ユニット300に類似する。述べられたように、ネットワーク410を通じて、エンコーダ220の出力として送信された潜在ベクトル555は、潜在ベクトル620として受信ユニット300Aに入る。
【0069】
潜在ベクトル620は、追加潜在ベクトル生成器630に送信される。この例では、追加潜在ベクトル生成器630は、単に、受信された潜在ベクトル620をそれの出力に渡し、それらを潜在ベクトル635として補間器310に転送する。しかし、図5の1つ又は複数の潜在ベクトル555が、例えばネットワーク混雑により破損又は欠落され、従って受信ユニット300Aによって受信されないとき、追加潜在ベクトル生成器630は、損傷した又は欠損した潜在ベクトル555を置き換えるために、追加の置換潜在ベクトルを生成することができる。追加潜在ベクトル生成器630は、その出力に、例えば秒当たり6個の潜在ベクトルのレートで、送信ユニット200Aによって送信されたように、必要な間隔でその出力に潜在ベクトル635が現れることを確実にする。
【0070】
潜在ベクトル635は、補間器310に入る。これは受信された潜在ベクトル620、又は受信された潜在ベクトル620に加えて、潜在ベクトル635を生じさせる追加潜在ベクトル生成器630によって生成される追加の置換潜在ベクトルとすることができる。図3で論じられたように、潜在空間では、補間により、2つの連続する潜在ベクトルの間の中間潜在ベクトル(補間されたベクトル)を生成することが可能である。従って2つの連続する潜在ベクトルは、補間器310によって、及び2つの連続する潜在ベクトルの間の中間潜在ベクトルの補間によって選択される。図5を参照すると、補間によって生成される中間潜在ベクトルは、従って、フレーム選択器210によって選択されなかった、エンコーダ220によってエンコードされなかった、送信ユニット200Aによって送信されなかった、及び受信ユニット300Aによって受信されなかった、選択されなかった画像フレームを補償する。
【0071】
述べられたように、補間によって生成される中間潜在ベクトルは、フレーム選択器210によって選択されない画像フレームと、送信されない潜在ベクトルとを補うようになる。これは、補間によって生成される中間潜在ベクトルの数は、選択されない画像フレームと同じになることを意味する。これは、図5の捕捉デバイス510によって生成される一連の画像フレーム515のフレームレートで画像を再構築することが可能であるからである。しかし、前に述べられたように、これは常にそうである必要はない。より多くの補間ベクトルを生成するように決定され得る。例えば、捕捉デバイス510が、30フレーム/秒のレートで、生成された画像フレーム515を生成することができる。しかし、図6を参照すると、補間器310による中間潜在ベクトルの補間によって生成される数が完了した後、全潜在ベクトル645は、60潜在ベクトル/秒のレートとすることができる。また、より少ない補間ベクトルを生成するように決定され得る。例えば、図5を参照すると、捕捉デバイス510が、60フレーム/秒のレートで、画像フレーム515を生成することが可能である。しかし、図6を参照すると、補間器310による中間潜在ベクトルの補間によって生成される数が完了した後、全潜在ベクトル645は、30潜在ベクトル/秒のレートになる。
【0072】
デコーダ320に送信される、補間器310の出力では、以下の全潜在ベクトル645が現れる。
【0073】
1.潜在ベクトル635、及び
【0074】
2.補間によって再構築された、潜在ベクトル635の間の中間潜在ベクトル。
【0075】
デコーダ320は、全潜在ベクトル645を復号し、画像655を生成する。デコーダ320は、潜在空間から潜在ベクトル645を取得し、画像655を生成することによって画素空間に戻す。次いで画像655は、ディスプレイ660に表示される。
【0076】
従って、いくつかの実施形態では、本開示のデータを送信及び受信するシステム、及び対応する方法は、実際には以下のように実施される。
【0077】
1.第1に、エンコーダは、潜在ベクトルなど、潜在表示を生成することによって、顔をエンコードするように訓練される。これはエンコーダが、画素空間内の顔の画像を潜在空間に移すことを意味する。
【0078】
2.第2に、デコーダは、潜在ベクトルなど、潜在表示を復号するように訓練される。これはデコーダは、顔の画像を潜在空間から戻して、画素空間に移すことを意味する。
【0079】
3.次いでエンコーダは、例えば、インターネットからダウンロードすることによって、送信ユニットにインストールされる。
【0080】
4.次いでデコーダも、例えばインターネットからダウンロードすることによって、受信ユニットにインストールされる。
【0081】
また、例えば、記録を後に取り出することを可能にするように、ビデオ会議が記録されるのを可能にするために、送信ユニットの出力を記憶することが有用となり得る。画像の記憶サイズを縮小するために、フレーム選択及びエンコーディングが用いられているとき、画像は、1つ又は複数のコンピュータのセットによって、記憶媒体にローカルに記憶される。記憶された後、画像は、受信ユニットによって取り出され得る。データの記憶及び取り出しのためのこのようなシステムは、システム400Aとして図7に示される。システム400Aは、図4のシステム400と同様であるが、図4のネットワーク410は、システム400Aの図7の記憶媒体700によって置き換えられる。図7に示されるこれらの実装形態では、システム400Aは、記憶媒体700上に、フレーム潜在ベクトル225(図2)又は555(図5)を記憶又は記録する、送信ユニット200(図2)又は200A(図5)を有する。
【0082】
記憶された後、記憶媒体700上の記録は、受信ユニット、例えば受信ユニット300(図3)又は300A(図6)によってアクセスされ得る。記憶媒体700は、コンピュータ上の若しくはコンピュータのためのハードディスク、デジタル多用途ディスク(DVD)、磁気テープ、又はメモリスティック、又はデジタル情報が記憶又は記録され、再び取り出され得るその他の任意のものとすることができる。
【0083】
送信ユニットの他の実施形態のフロー図が、図8に示される。図8では、送信ユニット200Cは、図2の送信ユニット200といくつかの類似点を有するが、図8の送信ユニット200Cは、図2のようなエンコーダ220を有しない。図8においてここで宛先230に送信されるものは、選択されたフレーム潜在ベクトル225ではなく、選択されたフレーム215である。フレーム選択器210によって選択されなかったフレームは、送信ユニット200Cに残り得る。
【0084】
図2の議論での例で述べられたように、図8の構成を用いる例示的シナリオでは、フレーム205は、60/秒のレートである。フレーム選択器210は、ここでもフレームを10/秒のレートで選択する。選択されたフレーム215は、6/秒のレートである。すべて秒当たり60フレーム205で送信する代わりに、宛先230に送信されるものは、6/秒のレートでの選択されたフレーム215である。宛先230に送信される、60フレーム/秒のレートでのフレーム205の代わりの、6/秒のレートでの選択されたフレーム215は、必要な送信帯域幅を低減する。従って、6/秒のレートでの選択されたフレーム215は、60/秒のレートでのフレーム205の圧縮表示である。選択されたフレーム215は、フレーム205が60フレーム/秒のレートで送信された場合に生じるであろう状況と比べて、縮小された帯域幅で送信される。
【0085】
図9は、受信ユニット300Cの他の実施形態のフロー図である。受信ユニット300Cは、図8に示される送信ユニット200Cと共に用いられ得る。この受信ユニット300Cは、受信ユニット300Cも補間器310とデコーダ320とを有するという点で、図3に示される受信ユニット300といくつかの類似点を有する。図3では、受信ユニット300は、選択されたフレーム潜在ベクトル305を受信する。しかし図9では、受信ユニット300Cは、図8の選択されたフレーム215に対応し得る選択されたフレーム302を受信する。エンコーダ220は、この構成では、図9の受信ユニット300Cの一部である。図9での受信された選択されたフレーム302は、エンコーダ220に送信される。従って、この特定の実施形態では、受信された選択されたフレーム潜在ベクトル305の生成は、エンコーダ220によってなされ、受信ユニット300C上に位置する。図9の残りのプロセスは、図3で論じられたように、補間器310及びデコーダ320と同様に進行する。デコーダ320は、全潜在ベクトル315を、復号されたフレーム325に復号する。
【0086】
図9の補間器310による、補間によって生成される中間潜在ベクトルの数は、図8の送信ユニット200C内のフレーム選択器210によって選択されなかったフレームと同じになり得る。図2の例では、一連のフレーム205は、60フレーム/秒のレートであり、フレーム選択器210は、10番目のフレームごとに選んだ。これは、6フレーム/秒の一連の選択されたフレーム215を生じるようになる。ここで図8において同じ原理が当てはまる。図8で、送信ユニット200Cを用いて、60フレーム/秒のレートでのフレーム205で開始し、フレーム選択器210が10/秒のレートで選択する状態で、結果的に、図8で6/秒の一連の選択されたフレーム215となる。6/秒のレートでの選択されたフレーム215は、受信される選択されたフレーム302も6/秒のレートで、図9に示される受信ユニット300Cによって受信される。6/秒のレートでの受信された一連の選択されたフレーム302は、エンコーダ220に進む。エンコーダ220は、それらをエンコードし、受信された選択されたフレーム潜在ベクトル305を、6潜在ベクトル/秒のレートで出力する。この例では、エンコーダ220は、受信ユニット300Cに配置され、これは9個の中間のフレームが選択されないことを意味する。従って、これらの9個の選択されない中間のフレームに対して補償するための図9の補間器310は、2つの連続の受信された選択されたフレーム潜在ベクトル305の間の9個の再構築された中間潜在ベクトルを補間によって生成又は再構築しなければならない。これは、図8に示される送信ユニット200Cにおいて、フレームレートをフレーム205の初期フレームレート60フレーム/秒に戻すようになる。しかしここでも、本発明はこの構成に限定されないことが理解されるべきである。本発明は、中間潜在ベクトルの数が、図8のフレーム選択器210による選択されないフレームと同じでなければならないことに限定されない。初期フレーム205が60フレーム/秒のレートであったとしても、補間器310による再構築の後、全潜在ベクトル315は、単に30ベクトル/秒であることが決定され得る。同様に、初期フレーム205が、例えば30フレーム/秒のレートであった場合でも、補間器310による再構築の後、全潜在ベクトル315は、60潜在ベクトル/秒のレートになるように構成され得る。デコーダ320は、60潜在ベクトル/秒のレートでの全潜在ベクトル315を、60フレーム/秒のレートでの復号されたフレーム325に復号する。
【0087】
図10は、データを送信及び受信するためのシステム1000のための他の実施形態のフロー図である。これは、図4に示されるものと同様である。システム1000は、ネットワーク410を通じて受信ユニット300Cに接続された送信ユニット200Cを有する。前に述べられたように、ネットワーク410は、例えばインターネット又はローカルエリアネットワーク(LAN)とすることができる。ネットワーク410はまた、ケーブル、電話線、無線波、衛星、又は赤外光ビーム、又は任意の他の手段を通して、送信及び受信ユニット(200C、300C)を接続する任意のものを含む。この実施形態は、ビデオ会議のために用いられ得る。
【0088】
図11は、送信ユニットの他の実施形態のフロー図である。送信ユニット200Dは、これもフレーム選択器210を有するという点で、図8の送信ユニット200Cといくつかの類似点を有する。送信ユニット200Dはまた、図5の送信ユニット200Aに類似している。しかし、図11の送信ユニット200Dは、図5の送信ユニット200Aと比較されると、エンコーダ220を有しない。図11に示されるようなネットワーク410を通して送信されるものは、増強されたフレーム545である。これらの増強されたフレーム545は、画像縮小器530及び画像増強器540によって処理された、選択されたフレーム525である。ネットワーク410を通して送信されないものは、図5に示されるような潜在ベクトル555である。後に図12でより明らかに示されるように、ここではエンコーダ220は、受信ユニット300D内に配置される。
【0089】
図11では、フレーム選択器210、画像縮小器530、及び画像増強器540は、前に論じられたように機能し、同様な出力を作り出す。前に論じられたように、増強されたフレーム545は、捕捉デバイス510によって作り出された、画像フレーム515の圧縮表示である。ここでも、本発明は、図11に示されるようなサブコンポーネントのこの特定の順序に限定されないことが理解されるべきである。サブコンポーネントの任意の実行可能な順序は、本発明の範囲内にある。
【0090】
図12は、受信ユニットの他の実施形態のフロー図である。受信ユニット300Dは、図8の送信ユニット200C、及び図11の送信ユニット200Dと共に用いられ得る。受信ユニット300Dは、エンコーダ220、補間器310、及びデコーダ320も有するので、図9の受信ユニット300Cに類似する。受信ユニット300Dは、図6の受信ユニット300Aにも類似する。しかし、図6の受信ユニット300Aと比較したとき、図12の受信ユニット300Dはまた、追加潜在ベクトル生成器630の前に、エンコーダ220を有する。受信ユニット300Dは、増強されたフレーム545を、それが画像縮小器530と画像増強器540とによって処理された後に、受信する能力を有する。従って前の図12と全く同じように、エンコーダ220は、画像フレーム545から、選択されたフレーム潜在ベクトル555を生成する。
【0091】
選択されたフレーム潜在ベクトル555は、追加潜在ベクトル生成器630に送信される。前に論じられたように、追加潜在ベクトル生成器630は、単に受信された潜在ベクトル620をそれの出力に渡し、それらを潜在ベクトル635として、補間器310に転送する。この場合、例えばネットワーク混雑により、1つ又は複数の画像フレーム545が破損され又は失われ、従ってエンコーダ220によって受信されない、又は何らかの他の理由でエンコーダ220が、画像フレーム545から選択されたフレーム潜在ベクトル555を生成できない場合、結果として、選択されたフレーム潜在ベクトル555は、追加潜在ベクトル生成器630に送信されない。このような場合は、追加潜在ベクトル生成器630は、選択されたフレーム潜在ベクトル555を受信しないとすぐに、損傷した又は失われた選択されたフレーム潜在ベクトル555を置き換えるために、追加の置換の選択されたフレーム潜在ベクトルを生成することができる。追加潜在ベクトル生成器630は、送信ユニット200Aによって送信されたように、必要な間隔で、補間器310のそれの出力及び入力に、潜在ベクトル635が現れるようにする。例えば、ここでの場合は、6潜在ベクトル/秒のレートである。
【0092】
図12の補間器310は、2つの連続する潜在ベクトル635の間の、いくつかの中間潜在ベクトルを補間することによって、再構築する。補間によって生成される中間潜在ベクトルの数は、図11の送信ユニット200Dでフレーム選択器210によって選択されなかったフレームと同じとすることができる。これは、前に論じられたように、送信ユニット200Dによって送信されなかった、選択されない画像フレームを補うためである。
【0093】
前に論じられたように、これはまた、図12で補間器310による、補間によって生成される中間潜在ベクトルの数は、図11のフレーム選択器210によって選択されない画像フレームと同じではないことがあり得る。
【0094】
図12に示されるように、補間器310は、全潜在ベクトル645をデコーダ320に送信する。全潜在ベクトル645は、以下である。
【0095】
1.画像フレーム545から、エンコーダ220によって生成された選択されたフレーム潜在ベクトル555、及び
【0096】
2.追加の光及びベクトル生成器630によって生成された、任意の置換ベクトル、及び
【0097】
3.補間器310による、補間によって生成される中間潜在ベクトル。
【0098】
デコーダ320は、全潜在ベクトル645を受信及び復号し、画像655としてフレームを生成する。次いで画像655は、ディスプレイ660に表示される。
【0099】
図13は、データを記憶又は記録し、取り出すためのシステムのフロー図である。図13を参照すると、システム1300は、図7のシステム400Aに類似する。フレーム選択が、画像の記憶サイズを縮小するために用いられているとき、画像は、後の段階で取り出されるように記憶され得る。システム1300は、図8の選択されたフレーム215、又は図11の増強されたフレーム545を記憶媒体700に記憶又は記録する、図8の送信ユニット200C、又は図11の200Dなどの送信ユニットを有する。さらに図11の増強されたフレーム545は、画像縮小器535によって縮小された、又は画像増強器540によって増強された、選択されたフレーム515である。記憶媒体700に記憶された後、選択されたフレーム215は、図12の受信ユニット300D、又は図9の300Cによって取り出され得る。
【0100】
前のように、記憶媒体700は、コンピュータ上の若しくはコンピュータのためのハードディスク、デジタル多用途ディスク(DVD)、磁気テープ、又はメモリスティック、又はデジタル情報が記憶又は記録され、再び取り出され得るその他の任意のものとすることができる。
【0101】
図14は、一実施形態による方法のフローチャートである。方法1400のステップは、本明細書で述べられたように、送信ユニットと受信ユニットとを含んだコンピュータシステムによって、又は他のコンピューティングデバイス若しくはシステムによって行われ得る。ステップ1410で、コンピュータシステムは、関心のある対象物の画像フレームを受信する。ステップ1420で、コンピュータシステムは、設定された間隔で、関心のある対象物の画像フレームから、画像フレームを選択する。ステップ1430で、コンピュータシステムは、選択されたフレームから、選択されたフレーム潜在ベクトルを生成し、選択されたフレーム潜在ベクトルは、関心のある対象物の画像フレームの圧縮表示である。ステップ1440で、コンピュータシステムは、補間により、2つの連続する選択されたフレーム潜在ベクトルの間に、いくつかの中間潜在ベクトルを再構築する。ステップ1450で、コンピュータシステムは、受信された選択されたフレーム潜在ベクトル及び再構築された中間潜在ベクトルの両方を復号する。ステップ1460で、コンピュータシステムは、選択されたフレーム潜在ベクトル及び中間潜在ベクトルから、選択するステップで選択されなかった関心のある対象物の画像フレームに対応する画像フレームを含む、関心のある対象物の画像フレームを生成する。
【0102】
上記の議論の間に、選ばれた、フレーム選択器のフレーム選択レートは、10フレーム/秒のレートであった。これは、単に説明の目的のためになされた。任意のフレーム選択レートが、本発明の範囲内にあることが理解されるべきである。
【0103】
本発明の実施形態を実施する方法も、本発明の範囲内にあることが理解されるべきである。さらに、本発明の実施形態は、ハードウェア又はソフトウェアで、或いは部分的にハードウェアで又は部分的にソフトウェアで実施され得ることが理解されるべきである。
【0104】
いくつかの実施形態が説明され、添付の図面に示されたが、このような実施形態は、広い本発明を、単に例示するものであって制限するものではなく、及び本発明は、当業者は様々な他の変形形態を思いつき得るので、示され述べられた特定の構成及び配置に限定されないことが理解されるべきである。従って、説明は、限定的ではなく例示的と考えられるべきである。
【符号の説明】
【0105】
100 エンコーダ・デコーダ組み合わせ
110 エンコーダ
120 潜在空間
130 デコーダ
140 入力
150 出力
200 送信ユニット
200A 送信ユニット
200C 送信ユニット
200D 送信ユニット
205 フレーム
210 フレーム選択器
215 選択されたフレーム
220 エンコーダ
225 選択されたフレーム潜在ベクトル
230 宛先
300 受信ユニット
300A 受信ユニット
300C 受信ユニット
300D 受信ユニット
302 受信された選択されたフレーム
305 受信された選択されたフレーム潜在ベクトル
310 補間器
315 全潜在ベクトル
320 デコーダ
325 復号されたフレーム
400 システム
400A システム
410 ネットワーク
500 関心のある対象物
510 捕捉デバイス
515 画像フレーム
525 選択されたフレーム
530 画像縮小器
535 縮小されたフレーム
540 画像増強器
545 増強されたフレーム
555 潜在ベクトル
620 潜在ベクトル
630 追加潜在ベクトル生成器
635 潜在ベクトル
645 全潜在ベクトル
655 画像
660 ディスプレイ
700 記憶媒体
1000 システム
1300 システム
1400 方法
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
【外国語明細書】