(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-24
(45)【発行日】2023-04-03
(54)【発明の名称】ビデオ画像の伝送方法、装置、インテリジェントインタラクティブタブレット及び記憶媒体
(51)【国際特許分類】
H04N 21/2343 20110101AFI20230327BHJP
H04N 19/115 20140101ALI20230327BHJP
H04N 19/167 20140101ALI20230327BHJP
H04N 19/17 20140101ALI20230327BHJP
H04N 19/46 20140101ALI20230327BHJP
H04N 21/2662 20110101ALI20230327BHJP
【FI】
H04N21/2343
H04N19/115
H04N19/167
H04N19/17
H04N19/46
H04N21/2662
(21)【出願番号】P 2021542217
(86)(22)【出願日】2019-12-24
(86)【国際出願番号】 CN2019127770
(87)【国際公開番号】W WO2020151443
(87)【国際公開日】2020-07-30
【審査請求日】2021-07-20
(31)【優先権主張番号】201910063004.7
(32)【優先日】2019-01-23
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】515034703
【氏名又は名称】広州視源電子科技股▲分▼有限公司
【氏名又は名称原語表記】GUANGZHOU SHIYUAN ELECTRONICS CO., LTD.
【住所又は居所原語表記】No.6,4th Yunpu Road,Huangpu District,Guangzhou,Guangdong P.R.CHINA
(73)【特許権者】
【識別番号】518404352
【氏名又は名称】広州視臻信息科技有限公司
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】▲楊▼ ▲銘▼
【審査官】大西 宏
(56)【参考文献】
【文献】特開2018-201198(JP,A)
【文献】特表2016-537922(JP,A)
【文献】特表2014-529233(JP,A)
【文献】特表2015-521454(JP,A)
【文献】特開平08-032947(JP,A)
【文献】特開平09-098416(JP,A)
【文献】特開2004-304794(JP,A)
【文献】米国特許出願公開第2013/0322513(US,A1)
【文献】米国特許出願公開第2018/0131950(US,A1)
【文献】中国特許出願公開第102271241(CN,A)
【文献】中国特許出願公開第106559636(CN,A)
【文献】知的符号化、モデルベース符号化とは何か?,エレクトロニクス9月別冊 解明・情報圧縮 ,日本,株式会社オーム社,1997年09月01日,pp.40-43
【文献】Soo-Chang Pei,Ching-Wen Ko,Ming-Shing Su,Global motion estimation in model-based image coding by tracking three-dimensional contour feature points,IEEE Transactions on Circuits and Systems for Video Technology ( Volume: 8, Issue: 2, Apr 1998),Vol.8, No.2,米国,IEEE,1998年04月01日,pp.181-190,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=664103
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 -21/858
H04N 19/00 -19/98
(57)【特許請求の範囲】
【請求項1】
ビデオ画像の伝送方法であって、
第1のビデオ通信端末により撮影されたビデオ画像を取得するステップと、
前記ビデオ画像の意味情報を抽出するステップと、
第2のビデオ通信端末に前記意味情報を送信するステップと、を含み、
前記意味情報は、前記第2のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用され
、
前記ビデオ画像の意味情報を抽出するステップは、
Encoder-decoderネットワークにおける訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出するステップ、を含み、
前記エンコーダの入力は、画像であり、
前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルであり、
前記第1のビデオ通信端末は、伝送ネットワークの状態に応じて、前記再構築画像を再構築するために、前記Encoder-decoderネットワークにおける前記エンコーダよりも下位の層により出力された前記ビデオ画像の特徴ベクトルを抽出して前記第2のビデオ通信端末に送信する、方法。
【請求項2】
前記エンコーダは、画像の意味情報を認識する
ために使用される、請求項1に記載の方法。
【請求項3】
前記エンコーダは、畳み込みニューラルネットワークである、請求項
1又は2に記載の方法。
【請求項4】
前記ビデオ画像の意味情報は、
前記ビデオ画像における設定対象の意味情報、及び
前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む、請求項
1乃至
3の何れかに記載の方法。
【請求項5】
前記ビデオ画像における設定対象の意味情報を抽出するステップは、
前記ビデオ画像における設定対象を認識し、前記設定対象のサブ画像を取得するステップと、
訓練されたエンコーダに前記設定対象のサブ画像を入力するステップと、
前記エンコーダの出力を取得し、前記ビデオ画像における前記設定対象の意味情報を取得するステップと、を含む、請求項
4に記載の方法。
【請求項6】
前記設定対象は、人の顔又は人の体を含む、請求項
5に記載の方法。
【請求項7】
前記設定対象が人の顔である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、
前記ビデオ画像における顔領域を認識し、顔サブ画像を取得するステップと、
訓練されたエンコーダに前記顔サブ画像を入力するステップと、
前記エンコーダの出力を取得し、前記ビデオ画像の顔意味情報を取得するステップと、を含む、請求項
6に記載の方法。
【請求項8】
前記設定対象が人の体である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、
前記ビデオ画像における体領域を認識し、体サブ画像を取得するステップと、
訓練されたエンコーダに前記体サブ画像を入力するステップと、
前記エンコーダの出力を取得し、前記ビデオ画像の体意味情報を取得するステップと、を含む、請求項
6に記載の方法。
【請求項9】
前記ビデオ画像の大域的な意味情報を抽出するステップは、
訓練されたエンコーダに前記ビデオ画像を入力するステップと、
前記エンコーダの出力を取得し、前記ビデオ画像の大域的な意味情報を取得するステップと、を含む、請求項
4に記載の方法。
【請求項10】
Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信するステップ、をさらに含み、
設定された画像伝送モードで伝送される前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
Nは1よりも大きく、
前記第1の参照画像は、前記第1のビデオ通信端末により撮影されたビデオ画像に属し、
前記第1の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第1の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項
4乃至
9の何れかに記載の方法。
【請求項11】
前記意味情報が設定対象の意味情報である場合、前記第1の参照画像は、前記第2のビデオ通信端末が、受信された意味情報に基づいて前記設定対象の再構築サブ画像を取得して、前記再構築サブ画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される、請求項
10に記載の方法。
【請求項12】
前記意味情報が大域的な意味情報である場合、前記第1の参照画像は、前記第2のビデオ通信端末が、受信された意味情報に基づいて初期再構築画像を取得して、前記初期再構築画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される、請求項
10に記載の方法。
【請求項13】
前記意味情報が設定対象の意味情報である場合、
前記ビデオ画像における設定対象の位置情報を取得するステップと、
前記第2のビデオ通信端末に前記位置情報を送信するステップと、をさらに含み、
前記位置情報は、前記第2のビデオ通信端末が、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される、請求項
11に記載の方法。
【請求項14】
設定された画像伝送モードを使用して、前記第2のビデオ通信端末に第2の参照画像を送信するステップ、をさらに含み、
前記設定された画像伝送モードで伝送される前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
前記第2の参照画像は、前記設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、
前記第2の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第2の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項
4乃至
13の何れかに記載の方法。
【請求項15】
ビデオ画像の伝送方法であって、
第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信するステップと、
前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、
第2のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含
み、
前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
前記意味情報及びEncoder-decoderネットワークにおける事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得するステップ、を含み、
前記デコーダの入力は、画像の意味情報としての低次元ベクトルであり、
前記デコーダの出力は、入力された意味情報に基づいて再構築された画像であり、
前記第2のビデオ通信端末は、伝送ネットワークの状態に応じて、前記再構築画像を取得するために、前記第1のビデオ通信端末から、前記Encoder-decoderネットワークにおけるエンコーダよりも下位の層により出力された前記ビデオ画像の特徴ベクトルを受信する、方法。
【請求項16】
前記デコーダは、畳み込みニューラルネットワークである、請求項
15に記載の方法。
【請求項17】
前記ビデオ画像の意味情報は、
前記ビデオ画像における設定対象の意味情報、及び
前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む、請求項
15又は16に記載の方法。
【請求項18】
前記設定対象は、人の顔又は人の体を含む、請求項
17に記載の方法。
【請求項19】
前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
設定された画像伝送モードで直近に受信された第1の参照画像を取得するステップと、
前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、をさらに含み、
前記第1の参照画像は、前記第1のビデオ通信端末により撮影されて送信されたビデオ画像であり、
設定された画像伝送モードで受信された前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項
18に記載の方法。
【請求項20】
Nフレームごとに、設定された画像伝送モードで前記第1のビデオ通信端末からの第1の参照画像を受信するステップ、をさらに含み、
Nは1よりも大きい、請求項
19に記載の方法。
【請求項21】
前記意味情報が設定対象の意味情報である場合、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
訓練されたデコーダに前記意味情報を入力するステップと、
前記デコーダの出力を取得し、前記設定対象の再構築サブ画像を取得するステップと、
前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む、請求項
20に記載の方法。
【請求項22】
前記意味情報が大域的な意味情報である場合、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
訓練されたデコーダに前記意味情報を入力するステップと、
前記デコーダの出力を取得し、初期再構築画像を取得するステップと、
前記初期再構築画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む、請求項
20に記載の方法。
【請求項23】
前記意味情報が顔意味情報である場合、前記デコーダの出力を取得し、顔の再構築サブ画像を取得し、
前記意味情報が体意味情報である場合、前記デコーダの出力を取得し、体の再構築サブ画像を取得する、請求項
21に記載の方法。
【請求項24】
前記第1のビデオ通信端末により送信された、前記ビデオ画像における前記設定対象の位置情報を受信するステップ、さらに含み、
前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップは、
前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップ、を含む、請求項
21に記載の方法。
【請求項25】
前記第1のビデオ通信端末により送信された位置情報を受信するステップは、
前記第1のビデオ通信端末により送信された、前記ビデオ画像における顔領域の第1の位置情報を受信するステップと、
前記第1のビデオ通信端末により送信された、前記ビデオ画像における体領域の第2の位置情報を受信するステップと、を含む、請求項
24に記載の方法。
【請求項26】
前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合する前に、
前記設定対象の再構築サブ画像に対してエッジフェザリング処理を行うステップ、をさらに含む、請求項
24に記載の方法。
【請求項27】
前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、
設定された画像伝送モードで受信された第2の参照画像を取得するステップと、
前記意味情報及び前記第2の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、を含み、
前記第2の参照画像は、設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、
設定された画像伝送モードで受信された前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項
17乃至
26の何れかに記載の方法。
【請求項28】
ビデオ画像の伝送方法であって、
第1のビデオ通信端末が、撮影されたビデオ画像を取得し、
Encoder-decoderネットワークにおける訓練されたエンコーダにより前記ビデオ画像の意味情報を
抽出し、第2のビデオ通信端末に前記意味情報を送信するステップと、
前記第2のビデオ通信端末が、前記意味情報を受信し、前記意味情報
及び前記Encoder-decoderネットワークにおける事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含
み、
前記エンコーダの入力は、画像であり、
前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルであり、
前記デコーダの入力は、画像の意味情報としての低次元ベクトルであり、
前記デコーダの出力は、入力された意味情報に基づいて再構築された画像であり、
前記第1のビデオ通信端末は、伝送ネットワークの状態に応じて、前記再構築画像を再構築するために、前記Encoder-decoderネットワークにおける前記エンコーダよりも下位の層により出力された前記ビデオ画像の特徴ベクトルを抽出して前記第2のビデオ通信端末に送信する、方法。
【請求項29】
ビデオ画像の伝送装置であって、
第1のビデオ通信端末により撮影されたビデオ画像を取得する画像取得モジュールと、
Encoder-decoderネットワークにおける訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出する情報抽出モジュールと、
第2のビデオ通信端末に前記意味情報を送信する送信モジュールと、を含み、
前記意味情報は、前記第2のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用され
、
前記エンコーダの入力は、画像であり、
前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルであり、
前記送信モジュールは、伝送ネットワークの状態に応じて、前記再構築画像を再構築するために、前記Encoder-decoderネットワークにおける前記エンコーダよりも下位の層により出力された前記ビデオ画像の特徴ベクトルを抽出して前記第2のビデオ通信端末に送信する、装置。
【請求項30】
前記エンコーダは、画像の意味情報を認識する
ために使用される、請求項
29に記載の装置。
【請求項31】
前記ビデオ画像の意味情報は、
前記ビデオ画像における設定対象の意味情報、及び
前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む、請求項
29又は
30に記載の装置。
【請求項32】
Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する第1の参照画像送信モジュール、をさらに含み、
設定された画像伝送モードで伝送される前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
Nは1よりも大きく、
前記第1の参照画像は、前記第1のビデオ通信端末により撮影されたビデオ画像に属し、
前記第1の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第1の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項
31に記載の装置。
【請求項33】
設定された画像伝送モードを使用して、前記第2のビデオ通信端末に第2の参照画像を送信する第2の参照画像送信モジュール、をさらに含み、
前記設定された画像伝送モードで伝送される前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、
前記第2の参照画像は、前記設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、
前記第2の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第2の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される、請求項
31又は
32に記載の装置。
【請求項34】
ビデオ画像の伝送装置であって、
第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信する情報受信モジュールと、
前記意味情報
及びEncoder-decoderネットワークにおける事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得する画像再構築モジュールと、
第2のビデオ通信端末の表示パネルにより前記再構築画像を表示する画像表示モジュールと、を含
み、
前記デコーダの入力は、画像の意味情報としての低次元ベクトルであり、
前記デコーダの出力は、入力された意味情報に基づいて再構築された画像であり、
前記情報受信モジュールは、伝送ネットワークの状態に応じて、前記再構築画像を取得するために、前記第1のビデオ通信端末から、前記Encoder-decoderネットワークにおけるエンコーダよりも下位の層により出力された前記ビデオ画像の特徴ベクトルを受信する、装置。
【請求項35】
前記ビデオ画像の意味情報は、
前記ビデオ画像における設定対象の意味情報、及び
前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む、請求項
34に記載の装置。
【請求項36】
前記画像再構築モジュールは、
設定された画像伝送モードで直近に受信された第1の参照画像を取得する第1の参照画像取得サブモジュールと、
前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第1の画像再構築サブモジュールと、をさらに含み、
前記第1の参照画像は、前記第1のビデオ通信端末により撮影されて送信されたビデオ画像であり、
設定された画像伝送モードで受信された前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項
35に記載の装置。
【請求項37】
Nフレームごとに、設定された画像伝送モードで前記第1のビデオ通信端末からの第1の参照画像を受信する第1の参照画像受信サブモジュール、をさらに含み、
Nは1よりも大きい、請求項
36に記載の装置。
【請求項38】
前記画像再構築モジュールは、
設定された画像伝送モードで受信された第2の参照画像を取得する第2の参照画像取得サブモジュールと、
前記意味情報及び前記第2の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第2の画像再構築サブモジュールと、を含み、
前記第2の参照画像は、設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、
設定された画像伝送モードで受信された前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きい、請求項
35乃至
37の何れかに記載の装置。
【請求項39】
ビデオ通信を行うことが可能な第1のビデオ通信端末及び第2のビデオ通信端末を含むビデオ画像の伝送システムであって、
第1のビデオ通信端末は、撮影されたビデオ画像を取得し、
Encoder-decoderネットワークにおける訓練されたエンコーダにより前記ビデオ画像の意味情報を取得し、第2のビデオ通信端末に前記意味情報を送信し、
前記第2のビデオ通信端末は、前記意味情報を受信し、前記意味情報
及び前記Encoder-decoderネットワークにおける事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示
し、
前記エンコーダの入力は、画像であり、
前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルであり、
前記デコーダの入力は、画像の意味情報としての低次元ベクトルであり、
前記デコーダの出力は、入力された意味情報に基づいて再構築された画像であり、
前記第1のビデオ通信端末は、伝送ネットワークの状態に応じて、前記再構築画像を再構築するために、前記Encoder-decoderネットワークにおける前記エンコーダよりも下位の層により出力された前記ビデオ画像の特徴ベクトルを抽出して前記第2のビデオ通信端末に送信する、ビデオ画像の伝送システム。
【請求項40】
ビデオ画像を撮影する撮影装置と、表示パネルと、コンピュータプログラムが記憶されているメモリと、プロセッサと、を含むインテリジェントインタラクティブタブレットであって、
前記プロセッサは、前記コンピュータプログラムを実行する際に、請求項1乃至
14の何れかに記載の方法、又は請求項
15乃至
27の何れかに記載の方法を実現するように構成される、インテリジェントインタラクティブタブレット。
【請求項41】
プロセッサにプログラムを実行させる際に、請求項1乃至
14の何れかに記載の方法、又は請求項
15乃至
27の何れかに記載の方法を実現する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2019年1月23日に中国特許庁に出願した出願番号が201910063004.7の中国特許出願に基づく優先権を主張し、該出願の全ての内容を本開示に援用する。
【0002】
本発明は、画像処理技術の分野に関し、例えばビデオ通信のビデオ画像の伝送方法、装置、システム、インテリジェントインタラクティブタブレット(intelligent interactive tablet)及び記憶媒体に関する。
【背景技術】
【0003】
ネットワーク技術の発展及び需要の増大に伴い、ユーザは、ビデオ通信の画質に対して、解像度要求、忠実度要求及びリアルタイム伝送などのより高い要求を提出している。例えば、ビデオ会議では、リアルタイムのインタラクションが優れたエクスペリエンスの前提条件であり、一方、ビデオ画像が高解像度を有する必要があり、重要な画像情報(例えば顔の細部、体の動きの細部などの情報)を可能な限り保持する必要がある。
【0004】
本発明を検討する際に、発明者は、以下のことを発見した。関連技術では、ビデオ画像が高解像度及び高忠実度を有することを確保するために、送信側のビデオ画像の圧縮率を低減する必要があるため、ネットワークを介して大量の画像データを伝送する必要があり、データの伝送効率が低く、リアルタイムの伝送を確保することができない。一方、リアルタイムの伝送が確保されている場合、通常、非可逆圧縮技術によりビデオ画像の圧縮率を向上させる必要があるが、ビデオ画像の情報が比較的多く失われ、ビデオ通信における画像の高解像度及び高忠実度への要求を満たすことができない。
【0005】
従って、従来のビデオ通信におけるビデオ画像の伝送方式は、高解像度及び高忠実度の要求とリアルタイム伝送の要求とを両立することができない。
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来のビデオ画像の伝送方式では高解像度及び高忠実度とリアルタイム伝送とを両立することができないという問題点を鑑み、ビデオ画像の伝送方法、装置、システム、インテリジェントインタラクティブタブレット及び記憶媒体を提供する。
【課題を解決するための手段】
【0007】
本発明の第1の態様では、ビデオ画像の伝送方法であって、第1のビデオ通信端末により撮影されたビデオ画像を取得するステップと、前記ビデオ画像の意味情報を抽出するステップと、第2のビデオ通信端末に前記意味情報を送信するステップと、を含み、前記意味情報は、前記第2のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用される、方法を提供する。
【0008】
該態様の1つの実施例では、前記ビデオ画像の意味情報を抽出するステップは、訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出するステップ、を含み、前記エンコーダは、画像の意味情報を認識する。
【0009】
該態様の1つの実施例では、前記エンコーダの入力は、画像であり、前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである。
【0010】
該態様の1つの実施例では、前記エンコーダは、畳み込みニューラルネットワークである。
【0011】
該態様の1つの実施例では、前記ビデオ画像の意味情報は、前記ビデオ画像における設定対象の意味情報、及び前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む。
【0012】
該態様の1つの実施例では、前記ビデオ画像における設定対象の意味情報を抽出するステップは、前記ビデオ画像における設定対象を認識し、前記設定対象のサブ画像を取得するステップと、訓練されたエンコーダに前記設定対象のサブ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像における前記設定対象の意味情報を取得するステップと、を含む。
【0013】
該態様の1つの実施例では、前記設定対象は、人の顔又は人の体を含む。
【0014】
該態様の1つの実施例では、前記設定対象が人の顔である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、前記ビデオ画像における顔領域を認識し、顔サブ画像を取得するステップと、訓練されたエンコーダに前記顔サブ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像の顔意味情報を取得するステップと、を含む。
【0015】
該態様の1つの実施例では、前記設定対象が人の体である場合、前記ビデオ画像における設定対象の意味情報を抽出するステップは、前記ビデオ画像における体領域を認識し、体サブ画像を取得するステップと、訓練されたエンコーダに前記体サブ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像の体意味情報を取得するステップと、を含む。
【0016】
該態様の1つの実施例では、前記ビデオ画像の大域的な意味情報を抽出するステップは、訓練されたエンコーダに前記ビデオ画像を入力するステップと、前記エンコーダの出力を取得し、前記ビデオ画像の大域的な意味情報を取得するステップと、を含む。
【0017】
該態様の1つの実施例では、Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信するステップ、をさらに含み、設定された画像伝送モードで伝送される前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、Nは1よりも大きく、前記第1の参照画像は、前記第1のビデオ通信端末により撮影されたビデオ画像に属し、前記第1の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第1の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。
【0018】
該態様の1つの実施例では、前記意味情報が設定対象の意味情報である場合、前記第1の参照画像は、前記第2のビデオ通信端末が、受信された意味情報に基づいて前記設定対象の再構築サブ画像を取得して、前記再構築サブ画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される。
【0019】
該態様の1つの実施例では、前記意味情報が大域的な意味情報である場合、前記第1の参照画像は、前記第2のビデオ通信端末が、受信された意味情報に基づいて初期再構築画像を取得して、前記初期再構築画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される。
【0020】
該態様の1つの実施例では、前記意味情報が設定対象の意味情報である場合、前記ビデオ画像における設定対象の位置情報を取得するステップと、前記第2のビデオ通信端末に前記位置情報を送信するステップと、をさらに含み、前記位置情報は、前記第2のビデオ通信端末が、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合して、前記ビデオ画像の再構築画像を取得するために使用される。
【0021】
該態様の1つの実施例では、設定された画像伝送モードを使用して、前記第2のビデオ通信端末に第2の参照画像を送信するステップ、をさらに含み、前記設定された画像伝送モードで伝送される前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、前記第2の参照画像は、前記設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、前記第2の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第2の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。
【0022】
本発明の第2の態様では、ビデオ画像の伝送方法であって、第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信するステップと、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含む、方法を提供する。
【0023】
該態様の1つの実施例では、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、前記意味情報及び事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得するステップ、を含む。
【0024】
該態様の1つの実施例では、前記デコーダの入力は、画像の意味情報であり、前記デコーダの出力は、入力された意味情報に基づいて再構築された画像である。
【0025】
該態様の1つの実施例では、前記デコーダは、畳み込みニューラルネットワークである。
【0026】
該態様の1つの実施例では、前記ビデオ画像の意味情報は、前記ビデオ画像における設定対象の意味情報、及び前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む。該態様の1つの実施例では、前記設定対象は、人の顔又は人の体を含む。
【0027】
該態様の1つの実施例では、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、設定された画像伝送モードで直近に受信された第1の参照画像を取得するステップと、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、をさらに含み、前記第1の参照画像は、前記第1のビデオ通信端末により撮影されて送信されたビデオ画像であり、設定された画像伝送モードで受信された前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。
【0028】
該態様の1つの実施例では、Nフレームごとに、設定された画像伝送モードで前記第1のビデオ通信端末からの第1の参照画像を受信するステップ、をさらに含み、Nは1よりも大きい。
【0029】
該態様の1つの実施例では、前記意味情報が設定対象の意味情報である場合、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、訓練されたデコーダに前記意味情報を入力するステップと、前記デコーダの出力を取得し、前記設定対象の再構築サブ画像を取得するステップと、前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む。
【0030】
該態様の1つの実施例では、前記意味情報が大域的な意味情報である場合、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、訓練されたデコーダに前記意味情報を入力するステップと、前記デコーダの出力を取得し、初期再構築画像を取得するステップと、前記初期再構築画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップと、を含む。
【0031】
該態様の1つの実施例では、前記意味情報が顔意味情報である場合、前記デコーダの出力を取得し、顔の再構築サブ画像を取得し、前記意味情報が体意味情報である場合、前記デコーダの出力を取得し、体の再構築サブ画像を取得する。
【0032】
該態様の1つの実施例では、前記第1のビデオ通信端末により送信された、前記ビデオ画像における前記設定対象の位置情報を受信するステップ、さらに含み、前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップは、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合し、前記ビデオ画像の再構築画像を取得するステップ、を含む。
【0033】
該態様の1つの実施例では、前記第1のビデオ通信端末により送信された位置情報を受信するステップは、前記第1のビデオ通信端末により送信された、前記ビデオ画像における顔領域の第1の位置情報を受信するステップと、前記第1のビデオ通信端末により送信された、前記ビデオ画像における体領域の第2の位置情報を受信するステップと、を含む。
【0034】
該態様の1つの実施例では、前記位置情報に基づいて前記設定対象の再構築サブ画像と前記第1の参照画像とを融合する前に、前記設定対象の再構築サブ画像に対してエッジフェザリング処理を行うステップ、をさらに含む。
【0035】
該態様の1つの実施例では、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップは、設定された画像伝送モードで受信された第2の参照画像を取得するステップと、前記意味情報及び前記第2の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得するステップと、を含み、前記第2の参照画像は、設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、設定された画像伝送モードで受信された前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。
【0036】
本発明の第3の態様では、ビデオ画像の伝送方法であって、第1のビデオ通信端末が、撮影されたビデオ画像を取得し、前記ビデオ画像の意味情報を取得し、第2のビデオ通信端末に前記意味情報を送信するステップと、前記第2のビデオ通信端末が、前記意味情報を受信し、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示するステップと、を含む、方法を提供する。
【0037】
本発明の第4の態様では、ビデオ画像の伝送装置であって、第1のビデオ通信端末により撮影されたビデオ画像を取得する画像取得モジュールと、前記ビデオ画像の意味情報を抽出する情報抽出モジュールと、第2のビデオ通信端末に前記意味情報を送信する送信モジュールと、を含み、前記意味情報は、前記第2のビデオ通信端末で前記ビデオ画像の再構築画像を再構築するために使用される、装置を提供する。
【0038】
該態様の1つの実施例では、前記情報抽出モジュールは、訓練されたエンコーダにより前記ビデオ画像の意味情報を抽出し、前記エンコーダは、画像の意味情報を認識する。
【0039】
該態様の1つの実施例では、前記エンコーダの入力は、画像であり、前記エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである。
【0040】
該態様の1つの実施例では、前記ビデオ画像の意味情報は、前記ビデオ画像における設定対象の意味情報、及び前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む。
【0041】
該態様の1つの実施例では、Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する第1の参照画像送信モジュール、をさらに含み、設定された画像伝送モードで伝送される前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、Nは1よりも大きく、前記第1の参照画像は、前記第1のビデオ通信端末により撮影されたビデオ画像に属し、前記第1の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第1の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。
【0042】
該態様の1つの実施例では、設定された画像伝送モードを使用して、前記第2のビデオ通信端末に第2の参照画像を送信する第2の参照画像送信モジュール、をさらに含み、前記設定された画像伝送モードで伝送される前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きく、前記第2の参照画像は、前記設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、前記第2の参照画像は、前記第2のビデオ通信端末が前記意味情報及び前記第2の参照画像に基づいて前記ビデオ画像の再構築画像を再構築するために使用される。
【0043】
本発明の第5の態様では、ビデオ画像の伝送装置であって、第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信する情報受信モジュールと、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する画像再構築モジュールと、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示する画像表示モジュールと、を含む、装置を提供する。
【0044】
該態様の1つの実施例では、前記画像再構築モジュールは、前記意味情報及び事前に訓練されたデコーダにより画像を再構築し、前記ビデオ画像の再構築画像を取得する。
【0045】
該態様の1つの実施例では、前記ビデオ画像の意味情報は、前記ビデオ画像における設定対象の意味情報、及び前記ビデオ画像の大域的な意味情報のうちの何れか1つを含む。
【0046】
該態様の1つの実施例では、前記画像再構築モジュールは、設定された画像伝送モードで直近に受信された第1の参照画像を取得する第1の参照画像取得サブモジュールと、前記意味情報及び前記第1の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第1の画像再構築サブモジュールと、をさらに含み、前記第1の参照画像は、前記第1のビデオ通信端末により撮影されて送信されたビデオ画像であり、設定された画像伝送モードで受信された前記第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。
【0047】
該態様の1つの実施例では、Nフレームごとに、設定された画像伝送モードで前記第1のビデオ通信端末からの第1の参照画像を受信する第1の参照画像受信サブモジュール、をさらに含み、Nは1よりも大きい。
【0048】
該態様の1つの実施例では、前記画像再構築モジュールは、設定された画像伝送モードで受信された第2の参照画像を取得する第2の参照画像取得サブモジュールと、前記意味情報及び前記第2の参照画像に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得する第2の画像再構築サブモジュールと、を含み、前記第2の参照画像は、設定対象の画像、及び前記第1のビデオ通信端末の環境画像のうちの少なくとも1つであり、設定された画像伝送モードで受信された前記第2の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。
【0049】
本発明の第6の態様では、ビデオ通信を行うことが可能な第1のビデオ通信端末及び第2のビデオ通信端末を含むビデオ画像の伝送システムであって、第1のビデオ通信端末は、撮影されたビデオ画像を取得し、前記ビデオ画像の意味情報を取得し、第2のビデオ通信端末に前記意味情報を送信し、前記第2のビデオ通信端末は、前記意味情報を受信し、前記意味情報に基づいて画像を再構築し、前記ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより前記再構築画像を表示する、ビデオ画像の伝送システムを提供する。
【0050】
本発明の第7の態様では、ビデオ画像を撮影する撮影装置と、表示パネルと、コンピュータプログラムが記憶されているメモリと、プロセッサと、を含むインテリジェントインタラクティブタブレットであって、前記プロセッサは、該コンピュータプログラムを実行する際に、前記撮影装置により撮影されたビデオ画像の意味情報を抽出し、他のインテリジェントインタラクティブタブレットに前記意味情報を送信するように構成され、前記プロセッサは、該コンピュータプログラムを実行する際に、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の意味情報を受信し、前記意味情報に基づいて画像を再構築し、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の再構築画像を取得し、前記表示パネルにより前記再構築画像を表示するように構成される、インテリジェントインタラクティブタブレットを提供する。
【0051】
本発明の第8の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、プロセッサに該コンピュータプログラムを実行させる際に、上記の何れかの実施例のビデオ画像の伝送方法を実現する、記憶媒体を提供する。
【図面の簡単な説明】
【0052】
【
図1】1つの実施例に係るビデオ画像の伝送方法が適用可能なシステム環境を示す図である。
【
図2】1つの実施例に係るビデオ画像の伝送方法の概略を示すフローチャートである。
【
図3】もう1つの実施例に係るビデオ画像の伝送方法の概略を示すフローチャートである。
【
図4】1つの実施例に係るエンコーダ及びデコーダを構築するためのモデルの概略図である。
【
図5】1つの実施例に係る画像送信端末によるビデオ画像の伝送方法の概略を示すフローチャートである。
【
図6】1つの実施例に係る画像受信端末によるビデオ画像の伝送方法の概略を示すフローチャートである。
【
図7】1つの実施例に係るビデオ画像の伝送装置の概略の構成を示す図である。
【
図8】もう1つの実施例に係るビデオ画像の伝送装置の概略の構成を示す図である
【
図9】1つの実施例に係るインテリジェントインタラクティブタブレットの内部構造を示す図である。
【発明を実施するための形態】
【0053】
以下は、図面及び実施例を参照しながら本発明を詳細に説明する。なお、ここで説明される具体的な実施例は、単に本発明を解釈するためのものであり、本発明を限定するものではない。
【0054】
本明細書で言及される「実施例」は、実施例を参照しながら説明される特定の特徴、構造、又は特性が本発明の少なくとも1つの実施例に含まれてもよいことを意味する。本明細書の様々な箇所で出現する該用語は、必ずしも同一の実施例を意味することではなく、他の実施例と相互に排他的な独立した又は代替の実施例でもない。当業者により明確、暗黙的に理解できるように、本明細書に記載される実施例は他の実施例と組み合わせてもよい。
【0055】
本発明に係るビデオ画像の伝送方法は
図1に示すシステム環境に適用されてもよく、該システム環境では、少なくとも2つのコンピュータ装置100がネットワークを介して通信を行うことができるように接続されている。コンピュータ装置100は、ラップトップコンピュータ、携帯電話、カメラ電話、スマートフォン、携帯情報端末(PDA)、ナビゲーションデバイス、インテリジェントインタラクティブタブレット、ウェアラブルデバイス、スマートモーターサイクル、他のスマートホームデバイス、又はこれらのデバイスの何れか組み合わせであってもよい。
【0056】
本発明の実施例では、コンピュータ装置100には、例えばビデオ会議ソフトウェア、インスタントメッセージングソフトウェアなどのビデオ通信を実現するためのアプリケーションソフトウェアがインストールされ、このようなアプリケーションソフトウェアを介して少なくとも2つのコンピュータ装置100との間のビデオ通信を確立することができる。ビデオ通信では、何れか一方のコンピュータ装置100は、ビデオ画像の送信側として、ローカルエンドで収集されたビデオのフレーム画像を他方のコンピュータ装置100に送信してもよいし、ビデオ画像の受信側として、他のコンピュータ装置100により送信されたビデオのフレーム画像を受信して表示してもよい。
【0057】
さらに、コンピュータ装置100には、例えばテキスト編集アプリケーションプログラム、ドキュメントプレゼンテーションアプリケーションプログラム、インスタントメッセージングアプリケーションプログラム、画像編集アプリケーションプログラム、ソーシャルアプリケーションプログラム、eコマースアプリケーションプログラム、検索アプリケーションプログラム、ブラウザアプリケーションプログラムなどの他のアプリケーションプログラムがさらにインストールされてもよい。ここで、テキスト編集アプリケーションプログラムは、例えば電子ホワイトボードアプリケーションプログラム、電子黒板アプリケーションプログラムを含み、ドキュメントプレゼンテーションアプリケーションプログラムは、例えば無線スクリーンプロジェクションアプリケーションを含む。
【0058】
幾つかの実施例では、インテリジェントインタラクティブタブレットをコンピュータ装置の一例としてもよい。インテリジェントインタラクティブタブレットは、タッチ技術により表示タブレットに表示される内容を制御し、人間とコンピュータとのインタラクションを実現する統合装置であってもよく、プロジェクタ、電子ホワイトボード、スクリーン、ステレオ、テレビ及びビデオ会議端末などの1つ以上の機能を統合してもよい。インテリジェントインタラクティブタブレットの表示パネルはタッチパネル(タッチスクリーン)であり、該タッチパネルは静電容量タッチパネル、電磁タッチパネル、又は赤外線タッチパネルなどを含んでもよい。該タッチパネルは、ユーザにより指又は入力装置を介して入力されたタッチ操作を受け付けてもよい。ここで、入力装置は、静電容量ペン、電磁ペン及び/又は赤外線ペンなどを含むが、これらに限定されない。
【0059】
1つの実施例では、ビデオ画像の伝送方法を提供する。
図2に示すように、該方法は、以下のステップを含む。
【0060】
S110において、第1のビデオ通信端末は、ビデオ画像を取得し、該ビデオ画像は、該第1のビデオ通信端末により撮影されたビデオにおけるフレーム画像である。
【0061】
ビデオ会議、ビデオ通話などのビデオ通信は、一般に、フレームごとにビデオ画像を伝送する。ここで、第1のビデオ通信端末は、ビデオ通信においてビデオ画像を送信する必要がある端末であり、ビデオ画像の送信端末であってもよい。第1のビデオ通信端末により取得されたビデオ画像は、第1のビデオ通信端末の撮影装置により撮影されたビデオ会議又はビデオ通話のシナリオにおけるビデオ画像である。
【0062】
ビデオ通信では、各ビデオ通信端末は、他のビデオ通信端末にビデオ画像を送信する必要があり、また、他のビデオ通信端末からビデオ画像を受信する必要がある。従って、ビデオ通信では、第1のビデオ通信端末は、ビデオ通信に参加する任意の端末であってもよい。
【0063】
S120において、第1のビデオ通信端末は、ビデオ画像の意味情報を抽出する。
【0064】
画像は多数の画素により構成され、意味(semantic)は画像内の画素情報である。画像の意味情報を取得することは、画像の画素の深い特徴情報を抽出することを意味してもよく、これらの情報は、ビデオ画像の重要な細部を表すことができる。例えば、ビデオ会議のビデオ画像では、意味情報は、会議に参加する人の表情の特徴情報、身体の動きの特徴情報、又は例えば会議室のテーブルや椅子の情報などの会議の環境情報を含んでもよい。
【0065】
本発明の幾つかの実施例では、ビデオ画像から取得された意味情報は、画像における設定対象(人の顔、人の体、テーブル、椅子など)の意味情報であってもよいし、画像のキー画素の特徴情報などの画像の大域的な意味情報であってもよい。
【0066】
S130において、第1のビデオ通信端末は、第2のビデオ通信端末に意味情報を送信する。
【0067】
ビデオ画像に含まれる全ての情報と比べて、ビデオ画像から取得された意味情報のデータ量は少ないため、ビデオ画像のリアルタイム伝送を比較的に容易に実現することができる。
【0068】
S210において、第2のビデオ通信端末は、第1のビデオ通信端末により送信された意味情報を受信し、該意味情報に基づいて画像を再構築し、該ビデオ画像の再構築画像を取得する。
【0069】
ここで、画像の意味情報に基づいて画像圧縮及び画像再構築を行うことで、画像の浅い情報に基づいて圧縮符号化及び再構築を行う従来の方法に比べて、より多くの画像の細部を保留することができるため、ビデオ通信における画像へ高忠実度の要求とリアルタイム性の要求とを両立することができる。
【0070】
S220において、第2のビデオ通信端末は、再構築画像を表示する。
【0071】
上記の実施例のビデオ画像の伝送方法によれば、ビデオ通信において、送信端末がビデオ画像を送信する際に、該ビデオ画像の意味情報を取得し、受信端末に該意味情報を送信する。受信端末が該意味情報を受信した後に、該意味情報に基づいて送信端末のビデオ画像を再構築し、再構築画像を取得し、受信端末の表示パネルにより再構築画像を表示してもよい。これによって、ビデオ通信では、1つのビデオ画像を送信する際に非常に少量のデータを送信するだけでよいため、ネットワーク帯域幅への要求が非常に低く、リアルタイム伝送の要求を満たすことができる。また、意味情報に基づいてビデオ画像を圧縮/復元することで、ビデオ画像の受信側でより高品質の画像を再構築することができ、ビデオ通信における画像への高解像度及び高忠実度の要求を両立することができる。
【0072】
1つの実施例では、ビデオ会議の例では、ローカルユーザ及びリモートユーザは、それぞれ、第1のビデオ通信端末及び第2のビデオ通信端末を介してビデオ会議に参加し、第1のビデオ通信端末は、ローカルユーザの会議におけるビデオ画像を伝送すべきビデオ画像として撮影する。
図3に示すように、第1のビデオ通信端末から第2のビデオ通信端末に該ビデオ画像を伝送する実現プロセスは以下の通りである。
【0073】
ステップS302において、第1のビデオ通信端末では、ビデオ画像の意味情報を抽出する。
【0074】
第1のビデオ通信端末では、事前に訓練されたエンコーダによりビデオ画像の意味情報を抽出してもよい。幾つかの実施例では、エンコーダは、畳み込みニューラルネットワークを使用してもよい。該エンコーダの入力は、伝送すべきビデオ画像であり、その出力は、ビデオ画像に対応する低次元ベクトルである。
【0075】
エンコーダは、変換関数fと見なされてもよく、該変換関数fは、伝送すべきビデオ画像Iを低次元ベクトルyに変換でき、即ちy=f(I)。yはビデオ画像Iの意味情報であり、yは64次元又は128次元のベクトルであってもよく、高品質の画像再構築を実現すると共に、伝送する必要なデータ量を低減できるように、ビデオ会議におけるビデオ画像の最も重要な情報を取り込むことができる。
【0076】
なお、本発明の実施例に係る低次元ベクトル及び意味情報は、ビデオ会議のシナリオにおけるビデオ画像を学習して抽出された、ビデオ画像における重要な細部を表すことができる情報である。これらの情報は、他のシナリオにおける意味情報と異なる。言い換えれば、本発明の実施例に係る低次元ベクトル及び意味情報は、人間の思考により理解される特徴情報ではなく、人間の思考により理解され得ない画像の深い情報である。
【0077】
ステップS303において、第1のビデオ通信端末は、抽出された意味情報を第2のビデオ通信端末に送信する。
【0078】
ビデオ画像の意味情報yは、非常に少ないデータ量により表現さればよく、例えば、意味情報yは、64次元の浮動小数点数ベクトルであってもよいため、各フレームのビデオ画像について、64*4=256byteのデータのみを送信する必要がある。ビデオフレームレートが30Hzである場合、必要な帯域幅は256*30=7680Bps=7.68KBpsである。よって、該画像伝送モードでは、ネットワーク環境への帯域幅の要求が低いことが分かった。
【0079】
ステップS402において、第2のビデオ通信端末は、意味情報を受信し、意味情報に基づいて画像を再構築し、第1のビデオ通信端末のビデオ画像の再構築画像を取得する。
【0080】
第2のビデオ通信端末が意味情報yを受信した後に、第2のビデオ通信端末は、意味情報yを事前に訓練されたデコーダの入力として、デコーダにより画像を再構築してもよい。デコーダは、変換関数gと見なされてもよく、該変換関数gは、低次元の意味情報yを再構築画像I’に変換でき、即ちI’=g(y)。
【0081】
1つの実施例では、上記の実施例のエンコーダ及びデコーダは、以下の条件を満たす必要がある。ビデオ会議のシナリオに適している。エンコーダfは、ビデオ画像に対してコンパクション(compaction)符号化を行い、低次元の意味情報を出力できる。デコーダgは、高品質の再構築画像を取得するために、原ビデオ画像の最も重要な情報(例えば顔の表情の細部、体の動きの細部など)を復元できる。
【0082】
幾つかの実施例では、
図4に示すように、Encoder-decoderネットワークに基づいてエンコーダf及びデコーダgを設計してもよい。ここで、左部分(即ち、ネットワークの下位層)は一連の畳み込み演算層により構成され(この図には2つの層のみが例示されているが、実際の状況では他の数の畳み込み演算層を設けてもよい)、中間層は1つの低次元ベクトルを出力し、この部分はエンコーダに相当し、低次元ベクトルはリモートエンド(即ち、受信側)に伝送される。右部分(即ち、ネットワークの上位層)はこの低次元ベクトルに基づいて一連の逆畳み込みにより再構築画像yを取得し、このプロセスはデコーダに相当する。即ち、エンコーダf及びデコーダgは、何れも畳み込みニューラルネットワークを採用してもよい。
【0083】
上記のEncoder-decoderネットワークに基づいてエンコーダf及びデコーダgを設定し、ビデオ会議における画像データを訓練することで、より良い圧縮率を達成することができる。しかし、低次元ベクトルに画像の深い意味情報のみが含まれるため、再構築画像の解像度が低くなる可能性がある。上記の状況を回避するために、1つの実施例では、従来のEncoder-decoderネットワークを基礎にして、U-Netの考え方を採用してEncoder-decoderネットワークを最適化する。即ち、ネットワークの下位層(例えば
図4における畳み込み層)により出力された特徴ベクトルの一部をさらに抽出して、中間層により出力された低次元ベクトルに結合する。これによって、リモートエンドに伝送されるデータの量が増加するが、この部分の情報が増加しても、リモートエンドに伝送する必要のあるデータ量は、従来の圧縮方法に比べて依然として遥かに少ない。
【0084】
U-Netによりネットワークを最適化することで、ネットワーク状態に応じて、ビデオ画像の圧縮率及び受信側で再構築された画質を動的に調整することができる。ネットワーク状態が良好である場合、ネットワークの下位層により出力された特徴ベクトルから比較的に多い情報を抽出して、中間層により出力された低次元ベクトルに結合することで、受信側で再構築された画像の品質を高くすることができる。ネットワークの状態が悪い場合、ネットワークの下位層により出力された特徴ベクトルから比較的に少ない情報を抽出して、中間層により出力された低次元ベクトルに結合し、或いは下位層により出力された特徴ベクトルから結合用の情報を抽出しないことで、ビデオ画像の送信側の画像圧縮率を高くすることができるため、ビデオ画像のリアルタイム伝送に役立つ。
【0085】
ステップS404において、第2のビデオ通信端末は、ビデオ画像の再構築画像を表示する。
【0086】
本発明の1つの実施例では、
図4及び上記の実施例に示すように、エンコーダfは、一連の畳み込み演算により構成されてもよく、デコーダgは、一連の逆畳み込み演算により構成されてもよい。
【0087】
1つの実施例では、以下の最適化目標に従って、要件を満たすエンコーダf及びデコーダgを訓練してもよい。
【0088】
【数1】
ここで、g(f(I))は、ビデオ画像Iがエンコーダfにより処理されて取得された意味情報がデコーダgにより復号されて復元されて取得された再構築画像を表し、
(外1)
は、ビデオ画像Iと再構築画像との残差が最小となる場合のエンコーダfデコーダgを表す。
【0089】
なお、上記の例におけるEncoder-decoderに加えて、生成モデル構築が条件を満たす他のエンコーダ及びデコーダを採用してもよい。
【0090】
ビデオ会議のシナリオにおけるビデオ画像の場合、最も重要な画像情報は、人の表情、口の形状などの細部である。幾つかの実施例では、設定対象が人の顔である例では、第1のビデオ通信端末は、ビデオ画像における顔意味情報を抽出し、第2のビデオ通信端末は、ビデオ画像における人の顔の細部を復元するように、対応するデコーダにより顔意味情報に基づいて画像を再構築する。
【0091】
ビデオ会議におけるビデオ画像のより多くの細部を取得するために、人の体を設定対象としてもよい。第1のビデオ通信端末は、ビデオ画像から体意味情報を抽出する。人体意味情報は、顔の表情情報及び体の動き情報などの人そのものに関する情報を含む。第2のビデオ通信端末は、ビデオ画像における人の全体的な細部を復元するように、対応するデコーダにより体意味情報に基づいて画像を再構築する。
【0092】
上記の実施例によれば、ビデオ会議における画像伝送のリアルタイム性を確保することができ、受信側で画像の細部を復元することができるが、伝送される意味情報のデータ量が少ないため、受信側の高解像度を確保することは困難である。上記の状況を考慮して、1つの実施例では、第1のビデオ通信端末は、Nフレームごとに(Nは1よりも大きく、Nの値は実際の状況に応じて調整されてもよい)、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する。該設定された画像伝送モードで伝送される該第1の参照画像のデータ量は、該意味情報のデータ量よりも大きい。ここで、第1の参照画像は、該第1のビデオ通信端末により撮影されたビデオ画像である。該第1の参照画像は、該第2のビデオ通信端末が該意味情報及び該第1の参照画像に基づいて該ビデオ画像の再構築画像を再構築するために使用される。
【0093】
例えば、第1のビデオ通信端末は、100フレームごとに第2のビデオ通信端末に完全な1つのフレームのビデオ画像を送信する。その後の99フレームのビデオ画像において、第2のビデオ通信端末は、ビデオ画像の低次元意味情報を受信した場合、この完全なビデオ画像の情報と組み合わせて画像を再構築し、より高い解像度の再構築画像を取得してもよい。
【0094】
以下は、人の顔の意味情報及び人の体の意味情報をそれぞれ例にして説明する。
図3に示すように、上記の第1のビデオ通信端末と第2のビデオ通信端末との間のビデオ画像の伝送は、以下のステップをさらに含む。
【0095】
ステップS300において、第1のビデオ通信端末は、設定されたフレーム間隔に従って、設定された画像伝送モードにより、第2のビデオ通信端末に参照画像(本実施例では、第1の参照画像)を送信する。
【0096】
ここで、参照画像は、第1のビデオ通信端末により撮影されたビデオ画像である。第1のビデオ通信端末は、ブロックに基づく画像圧縮方法を使用して、参照画像の画像符号化情報を取得してもよい。即ち、第1のビデオ通信端末と第2のビデオ通信端末との間では、意味情報に基づく画像伝送に加えて、他の画像伝送モードをさらに含む。該他の画像伝送モードは、間隔を置いて実行され、画像の圧縮率がより低く、伝送されるデータ量がより大きい。
【0097】
ステップS401において、第2のビデオ通信端末は、参照画像を受信する。
【0098】
ビデオ会議では、第1のビデオ通信端末は、1つ以上のフレームの間隔を置いた方式で第2のビデオ通信端末に参照画像を送信する。第2のビデオ通信端末は、参照画像を取得した後に、ビデオ会議では、隣接するフレームのビデオ画像の画素の変化が一般に小さく、例えば、人の表情や身体に対応する画素のみが変化し、他の会議室の環境情報が変化しない。このため、第2のビデオ通信端末により受信された意味情報は、変化している画素の情報である可能性がある。よって、第2のビデオ通信端末は、少量の意味情報及びデータ量の大きい参照画像に基づいて、ビデオ画像を高度に復元することができ、第2のビデオ通信端末での再構築画像の解像度を向上させることができる。参照画像が間隔を置いて送信されるため、伝送帯域幅及びリアルタイム性への影響は少ない。
【0099】
幾つかの実施例では、第2のビデオ通信端末によりリアルタイムで受信された意味情報がビデオ画像における設定対象の意味情報である場合、設定対象の再構築サブ画像を再構築してもよい。該設定対象の再構築サブ画像と該参照画像の再構築画像とを融合することで、第1のビデオ通信端末のビデオ画像の再構築画像を取得する。
【0100】
他の幾つかの実施例では、第1のビデオ通信端末と第2のビデオ通信端末との間のビデオ画像の伝送は、以下のステップをさらに含む。
【0101】
ステップS301において、第1のビデオ通信端末は、ビデオ画像に対して前処理を行う。
【0102】
第1のビデオ通信端末によるビデオ画像の前処理は、該ビデオ画像における設定対象を認識し、該ビデオ画像における設定対象のサブ画像を取得することと、訓練されたエンコーダに該設定対象のサブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像における設定対象の意味情報を取得することと、該エンコーダを用いて入力画像における該設定対象の意味情報を認識して出力することとを含む。人の顔を設定対象とする例では、第1のビデオ通信端末は、ビデオ画像から顔領域を認識し、該ビデオ画像に対応する顔サブ画像を取得し、訓練されたエンコーダに顔サブ画像を入力し、該エンコーダの出力を取得する。これによって、該ビデオ画像の顔意味情報を取得する。
【0103】
ステップS403において、第2のビデオ通信端末は、該設定対象の意味情報を受信し、受信された該設定対象の意味情報に基づいて該設定対象の再構築サブ画像を取得した後に、再構築された顔画像又は体画像に対して後処理を行ってもよい。後処理は、該設定対象の再構築サブ画像と該参照画像とを融合し、該ビデオ画像の再構築画像を取得することを含む。
【0104】
人の顔を設定対象とする例では、第2のビデオ通信端末は、顔意味情報に基づいて顔の再構築画像を取得した後に、顔の再構築画像に対して後処理を行う。第2のビデオ通信端末による顔の再構築画像の後処理は、顔の再構築画像を該参照画像の再構築画像に重ね合わせて、第1のビデオ通信端末のビデオ画像の再構築画像を取得することを含む。
【0105】
1つの実施例の1つの態様では、第1のビデオ通信端末は、該ビデオ画像における設定対象の位置情報をさらに取得し、第2のビデオ通信端末に該位置情報を送信する。該位置情報は、第2のビデオ通信端末が該位置情報に基づいて該設定対象の再構築サブ画像を該参照画像に重ね合わせて、該ビデオ画像の再構築画像を取得するために使用される。
【0106】
1つの実施例では、人の顔を設定対象とする例では、第1のビデオ通信端末は、該ビデオ画像における顔領域の位置情報を取得し、第2のビデオ通信端末に該位置情報を送信する。第2のビデオ通信端末は、第1のビデオ通信端末により送信された顔の位置情報を受信した後に、顔の位置情報に基づいて顔の再構築画像を参照画像の再構築画像に重ね合わせて、第1のビデオ通信端末のビデオ画像の再構築画像を取得してもよい。
【0107】
1つの実施例では、ビデオ画像の再構築画像の品質を向上させるために、本発明の1つの実施例では、上記のビデオ画像の伝送方法は、以下のステップをさらに含む。第2のビデオ通信端末は、位置情報に基づいて設定対象の再構築サブ画像と参照画像とを融合する前に、該設定対象の再構築サブ画像に対してエッジフェザリング(edge feathering)処理を行い、エッジフェザリング処理後の設定対象の再構築サブ画像と参照画像の再構築画像とを重ね合わせて、第1のビデオ通信端末のビデオ画像の再構築画像を取得してもよい。
【0108】
1つの実施例では、人の顔を設定対象とする例では、第2のビデオ通信端末は、画像の重ね合わせを行う前に、顔の再構築画像に対してエッジフェザリング処理を行い、エッジフェザリング処理後の顔の再構築画像と参照画像の再構築画像とを重ね合わせて、第1のビデオ通信端末のビデオ画像の再構築画像を取得する。本実施例によれば、より良い重ね合わせ効果と融合効果を得ることができ、第2のビデオ通信端末により表示される再構築画像の画質を向上させることができる。
【0109】
他の幾つかの実施例では、ビデオ会議の完全な細部を取得するために、第1のビデオ通信端末によりビデオ画像から抽出された意味情報は、画像の大域的な意味情報であってもよく、該処理は対応するエンコーダにより実現されてもよい。第2ビデオ通信端末は、ビデオ画像の大域的な細部情報を復元するように、大域的な意味情報に基づいて画像を再構築する。大域的な意味情報に基づいて画像の伝送及び再構築を行う場合、第1のビデオ通信端末は、上記のビデオ画像の前処理を行う必要がなく、第2のビデオ通信端末は、再構築画像の後処理を行う必要がない。
【0110】
なお、実際のシナリオの必要に応じて、人の顔の意味、人の体の意味又は画像の大域的な意味に基づいてエンコーダ及びデコーダを事前に訓練してもよい。例えば、顔画像を訓練データとし、要件を満たすようにエンコーダ及びデコーダを訓練する。或いは、体画像を訓練データとし、要件を満たすようにエンコーダ及びデコーダを訓練する。或いは、ビデオ画像全体を訓練データとし、要件を満たすようにエンコーダ及びデコーダを訓練する。
【0111】
他の実施例では、第1のビデオ通信端末は、設定された画像伝送モードを使用して、第2のビデオ通信端末に他のタイプの参照画像(即ち第2の参照画像)を送信してもよい。該設定された画像伝送モードで伝送される第2の参照画像のデータ量は、意味情報のデータ量よりも大きい。ここで、該第2の参照画像は、設定対象の画像、及び第1のビデオ通信端末の環境画像のうちの少なくとも1つであってもよい。第2の参照画像を伝送することで、第2のビデオ通信端末が該意味情報及び該第2の参照画像に基づいて該ビデオ画像の再構築画像を再構築する。
【0112】
例えば、第1のビデオ通信端末は、ビデオ会議のシナリオにおける参加者の高解像度写真及び/又は会議室の高解像度写真を第2の参照画像として事前に設定し、設定された画像伝送モードを使用して第2のビデオ通信端末に完全な第2の参照画像を送信する。第2のビデオ通信端末は、第2の参照画像を受信して保存し、各フレームのビデオ画像の意味情報を受信した後、第2の参照画像の細部情報を参照して画像を再構築してもよい。従って、意味情報が少ない場合であっても、第2のビデオ通信端末は、第2の参照画像に基づいて高解像度の再構築画像を再構築することができる。
【0113】
1つの実施例では、ビデオ画像を1つのフレームごとに個別に符号化/復号すると、フレーム間に不整合が発生する可能性があり、即ち、受信側で表示されたビデオ内容にスキップによる変化がある可能性がある。この状況を考慮して、1つの実施例では、ビデオ会議のシナリオにおけるビデオ画像の伝送は、実際に複数のネットワーク分岐を有する。エンコーダの入力は、現在のフレームのビデオ画像であるだけでなく、現在のフレームの前のMフレームのビデオ画像をさらに含む。よって、符号化後の低次元ベクトルには、現在のフレームの意味情報だけでなく、直前の1つ以上のフレームの意味情報がさらに含まれる。それに応じて、受信側のデコーダは、現在のフレームの意味情報及び直前の1つ以上のフレームの意味情報に基づいて、フレーム間で一貫性のあるビデオ画像を再構築する。本実施例によれば、受信側でのビデオ内容のスキップによる変化を回避することができる。
【0114】
従来の方式のビデオ画像の伝送方式と比べて、上記の実施例によれば、ビデオ会議において、各ビデオ通信端末で高解像度の再構築画像を取得することができる。殆どのビデオ画像の伝送する必要な意味情報のデータ量が非常に少ないため、ネットワーク環境が悪い場合であっても、伝送を迅速に完了することができ、リアルタイム性を確保することができる。意味情報及び参照画像に基づいて画像を再構築する場合、ビデオ画像の重要な情報(特に顔の細部、体の動きの細部など)を保留することができるため、優れたビデオ会議の体験を得ることができる。
【0115】
上記のビデオ画像の伝送方法と同様に、本発明は、もう1つのビデオ画像の伝送方法の実施例をさらに提供する。本実施例では、第1のビデオ通信端末は、ビデオ画像の送信端末である。
図5に示すように、第1のビデオ通信端末の観点から、ビデオ画像の伝送方法は、以下のステップを含む。
【0116】
S510において、第1のビデオ通信端末により撮影されたビデオ画像を取得する。
【0117】
S510において、該ビデオ画像の意味情報を抽出する。
【0118】
S530において、第2のビデオ通信端末に該意味情報を送信する。該意味情報は、第2のビデオ通信端末が該意味情報を受信した後に該第2のビデオ通信端末の表示パネルにより該ビデオ画像の再構築画像を表示するために使用される。該再構築画像は、該第2のビデオ通信端末により該意味情報に基づいて再構築された画像である。
【0119】
1つの実施例の幾つかの態様では、送信端末である第1のビデオ通信端末は、ビデオ画像の意味情報を抽出する方法として、訓練されたエンコーダにより該ビデオ画像の意味情報を抽出してもよい。該エンコーダは、画像の意味情報を認識するために使用される。該エンコーダの入力は、画像であり、その出力は、入力画像に対応する低次元ベクトル、即ち入力画像の意味情報である。例えば、該ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、又はビデオ画像の大域的な意味情報であってもよい。このため、ビデオ画像の意味情報を抽出する方法は、以下の方式を含む。
【0120】
方式1:該ビデオ画像における設定対象を認識し、該設定対象のサブ画像を取得し、訓練されたエンコーダに該設定対象のサブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像における該設定対象の意味情報を取得する。
【0121】
方式2:訓練されたエンコーダに該ビデオ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の大域的な意味情報を取得する。
【0122】
ここで、設定対象は、実際の状況に応じて設定されてもよい。例えば、関心のある情報がビデオ通信における人の顔情報である場合、人の顔を設定対象とする。関心のある情報がビデオ通信における人の顔の表情や体の動きの情報である場合、人の体を設定対象とする。関心のある情報がビデオ通信におけるシナリオ情報全体である場合、ビデオ画像の大域的な意味情報を抽出する。これによって、ビデオ通信の様々な要件を満たすことができる。
【0123】
本発明の1つの実施例では、第1のビデオ通信端末がビデオ画像における設定対象の意味情報を抽出するステップは、該ビデオ画像における顔領域を認識し、顔サブ画像を取得することと、訓練されたエンコーダに顔サブ画像を入力することと、エンコーダの出力を取得し、ビデオ画像の顔意味情報を取得することとを含む。或いは、該ステップは、ビデオ画像における体領域を認識し、体サブ画像を取得することと、訓練されたエンコーダに体サブ画像を入力することと、エンコーダの出力を取得し、ビデオ画像の体意味情報を取得することとを含む。これによって、ビデオ画像における設定対象の意味情報の抽出効率及び正確度を向上させることができる。
【0124】
ここで、第1のビデオ通信端末がビデオ画像の大域的な意味情報を抽出するステップは、ビデオ画像における設定対象を認識する必要がなく、画像伝送プロセスを簡素化し、より包括的な意味情報を取得し、受信側で忠実度がより高い再構築画像を取得することができる。
【0125】
1つの実施例では、意味情報が人の顔の意味情報や人体の意味情報などの設定対象の意味情報である場合、第1のビデオ通信端末は、Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する。設定された画像伝送モードで伝送される第1の参照画像のデータ量は、意味情報のデータ量よりも大きく、Nは1よりも大きい。該第1の参照画像は、第1のビデオ通信端末により撮影されたビデオ画像に属する。該第1の参照画像を伝送することで、第2のビデオ通信端末は意味情報及び第1の参照画像に基づいてビデオ画像の再構築画像を再構築することができる。
【0126】
第2のビデオ通信端末に第1の参照画像を送信することで、第2のビデオ通信端末は、設定対象の意味情報を受信した後に、意味情報に基づいて設定対象の再構築サブ画像を取得し、設定対象の再構築サブ画像と第1の参照画像の再構築画像とを重ね合わせて、ビデオ画像の再構築画像を取得する。
【0127】
1つの実施例では、意味情報がビデオ画像における設定対象の意味情報である場合、第2のビデオ通信端末が高品質の再構築画像を取得するために、第1のビデオ通信端末は、第2のビデオ通信端末に上記の設定対象のビデオ画像における位置情報を送信する。該位置情報を送信することで、第2のビデオ通信端末は、該位置情報に基づいて設定対象の再構築サブ画像と第1の参照画像とを融合して、より正確なビデオ画像の再構築画像を取得する。
【0128】
第2のビデオ通信端末に第2の位置情報を送信することで、第2のビデオ通信端末は、第2の位置情報に基づいて再構築された人体の再構築画像と参照画像の再構築画像とを重ね合わせて、より正確なビデオ画像の再構築画像を取得する。
【0129】
上記のビデオ画像の伝送方法では、殆どのビデオ画像について、送信側は、ビデオ画像の重要な意味情報を抽出して送信するだけでよいため、参照画像により、再構築画像の解像度及び忠実度の要求を満たすことができると共に、ビデオ画像の伝送のリアルタイム性を保証することができる。
【0130】
上記のビデオ画像の伝送方法と同様に、本発明は、もう1つのビデオ画像の伝送方法の実施例をさらに提供する。本実施例では、第2のビデオ通信端末は、ビデオ画像の受信端末である。
図6に示すように、第2のビデオ通信端末の観点から、ビデオ画像の伝送方法は、以下のステップを含む。
【0131】
S610において、第1のビデオ通信端末により送信されたビデオ画像の意味情報を受信する。該ビデオ画像は、該第1のビデオ通信端末により撮影されたビデオ画像である。
【0132】
S620において、該意味情報に基づいて画像を再構築し、該ビデオ画像の再構築画像を取得する。
【0133】
S630において、第2のビデオ通信端末の表示パネルにより該再構築画像を表示する。
【0134】
幾つかの実施例では、該ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか1つを含む。ここで、該設定対象は、人の顔又は人の体を含むが、これらに限定されず、実際のシナリオに応じて設定されてもよい。
【0135】
1つの実施例では、送信される意味情報がビデオ画像における設定対象の意味情報である場合、受信側で画像をより良く再構築するために、第1のビデオ通信端末は、Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する。該第1の参照画像は、第1のビデオ通信端末により撮影されたビデオ画像に属し、且つ、設定された画像伝送モードで伝送される第1の参照画像のデータ量は、意味情報のデータ量よりも大きい。Nは1よりも大きい。第2のビデオ通信端末は、第1の参照画像及び現在受信された設定対象の意味情報に基づいて画像を再構築する。
【0136】
それに応じて、第2のビデオ通信端末は、Nフレームごとに、設定された画像伝送モードで第1のビデオ通信端末からの第1の参照画像を受信する。Nは1よりも大きい。
【0137】
以下は、人の顔の意味情報及び人の体の意味情報をそれぞれ例にして説明する。
【0138】
人の顔の意味情報に基づいてビデオ画像の送信及び再構築を行う場合、第2のビデオ通信端末は、第1のビデオ通信端末からの第1の参照画像の画像符号化情報を事前に受信する。該参照画像は、第1のビデオ通信端末により撮影されたビデオ画像であり、且つ該第1の参照画像の画像符号化情報のデータ量は、上記の実施例のビデオの顔意味情報/体意味情報のデータ量よりも大きい。
【0139】
第2のビデオ通信端末は、該画像符号化情報に基づいて第1の参照画像を取得する。他のビデオ画像の顔意味情報/体意味情報を受信した場合、顔意味情報/体意味情報に基づいて顔再構築サブ画像/体再構築サブ画像を再構築し、顔再構築サブ画像/体再構築サブ画像と第1の参照画像とを融合し、他のビデオ画像の再構築画像を取得してもよい。ここで、顔意味情報/体意味情報に基づいて顔再構築サブ画像/体再構築サブ画像を再構築する実施プロセスは、以下の通りであってもよい。
【0140】
第2のビデオ通信端末は、第1のビデオ通信端末により送信された顔意味情報/体意味情報を受信した後に、訓練されたデコーダに顔意味情報/体意味情報を入力し、該デコーダの出力を取得し、顔再構築サブ画像/体再構築サブ画像を取得する。ここで、デコーダの入力は、画像意味情報であり、出力は入力意味情報に基づいて再構築された画像である。上記の実施例で説明したように、デコーダは畳み込みニューラルネットワークであってもよい。
【0141】
1つの実施例では、設定対象の意味情報に基づいて画像を再構築する場合、より高品質な再構築画像を得るために、第2のビデオ通信端末は、第1のビデオ通信端末からの位置情報をさらに受信する。該位置情報は、ビデオ画像における設定対象の位置情報である。そして、該位置情報に基づいて設定対象の再構築サブ画像と第1の参照画像とを重ね合わせ、ビデオ画像の再構築画像を取得する。
【0142】
1つの実施例では、顔意味情報に基づくビデオ画像の伝送及び再構築の例では、第2のビデオ通信端末は、第1のビデオ通信端末からの第1の位置情報を受信し、該第1の位置情報は、第1のビデオ通信端末のビデオ画像における顔領域の位置情報である。同様に、第2のビデオ通信端末は、第1の位置情報に基づいて顔の再構築画像と第1の参照画像とを重ね合わせ、ビデオ画像の再構築画像を取得する。
【0143】
体意味情報に基づくビデオ画像の伝送及び再構築の例では、第2のビデオ通信端末は、第1のビデオ通信端末からの第2の位置情報を受信する。該第2の位置情報は、ビデオ画像における人体領域の位置情報である。同様に、第2のビデオ通信端末は、第2の位置情報に基づいて人体の再構築画像と第1の参照画像とを重ね合わせ、ビデオ画像の再構築画像を取得する。
【0144】
他の実施例では、第2のビデオ通信端末は、設定された画像伝送モードで受信された第2の参照画像をさらに取得する。該第2の参照画像は、設定対象の画像、及び第1のビデオ通信端末の環境画像のうちの少なくとも1つである。設定された画像伝送モードで受信された第2の参照画像のデータ量は、意味情報のデータ量よりも大きい。該意味情報及び第2の参照画像に基づいて画像を再構築し、ビデオ画像の再構築画像を取得する。実施プロセスについては、上記の実施例の説明を参照してもよい。
【0145】
上記のビデオ画像の伝送方法によれば、ビデオ画像の受信側では、画像における重要な意味情報及びより完全な参照画像により画像を再構築することで、画像伝送のリアルタイム性の要求と解像度及び忠実度の要求とを両立することができる。
【0146】
なお、上記の方法の実施例では、フローチャートのステップは矢印で示す順番に表示されているが、これらのステップは必ずしも矢印で示す順序で順番に実行されることに限定されない。本明細書に明確な説明がない限り、これらのステップの実行には厳密な順序がなく、これらのステップは他の順序で実行されてもよい。さらに、方法の実施例のフローチャートのステップの少なくとも一部は、複数のサブステップ又は複数の段階を含んでもよい。これらのサブステップ又は段階は、必ずしも同時に実行されることに限定されず、異なる時間に実行されてもよい。また、これらのサブステップ又は段階の実行順序は必ずしも順番に実行されることに限定されず、他のステップ又は、他のステップのサブステップ若しくは段階の少なくとも一部と交互に実行されてもよい。
【0147】
上記の実施例に係るビデオ画像の伝送方法と同様に、本明細書は、ビデオ画像の伝送装置の実施例をさらに提供する。
【0148】
図7に示すように、1つの実施例では、ビデオ画像の伝送装置は、以下のモジュールを含む。
【0149】
画像取得モジュール601は、第1のビデオ通信端末により撮影されたビデオ画像を取得する。
【0150】
情報抽出モジュール602は、該ビデオ画像の意味情報を抽出する。
【0151】
送信モジュール603は、第2のビデオ通信端末に該意味情報を送信する。該意味情報は、第2のビデオ通信端末でビデオ画像の再構築画像を再構築するために使用される。
【0152】
本発明の1つの実施例では、情報抽出モジュール602は、訓練されたエンコーダによりビデオ画像の意味情報を抽出する。該エンコーダは、画像の意味情報を認識するために使用される。
【0153】
本発明の1つの実施例では、エンコーダの入力は、画像であり、エンコーダの出力は、入力画像の意味情報としての入力画像に対応する低次元ベクトルである。例えば、エンコーダは、畳み込みニューラルネットワークであってもよい。
【0154】
そのうちの1つの実施例では、ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか1つを含む。
【0155】
抽出された意味情報が設定対象の意味情報である場合、情報抽出モジュール602は、対象情報抽出サブモジュールを含んでもよい。該対象情報抽出サブモジュールは、該ビデオ画像における設定対象を認識し、該設定対象のサブ画像を取得し、訓練されたエンコーダに該設定対象のサブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像における該設定対象の意味情報を取得する。
【0156】
ここで、設定対象は、人の顔又は人の体であってもよい。設定対象が人の顔である場合、該対象情報抽出サブモジュールは、顔情報抽出部を含む。該顔情報抽出部は、ビデオ画像における顔領域を認識し、顔サブ画像を取得し、訓練されたエンコーダに顔サブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の顔意味情報を取得する。設定対象が人の体である場合、該対象情報抽出サブモジュールは、体情報抽出部を含む。該体情報抽出部は、ビデオ画像における体領域を認識し、体サブ画像を取得し、訓練されたエンコーダに体サブ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の体意味情報を取得する。
【0157】
抽出された意味情報がビデオ画像の大域的な意味情報である場合、情報抽出モジュール602は、大域情報抽出サブモジュールを含んでもよい。該大域情報抽出サブモジュールは、訓練されたエンコーダに該ビデオ画像を入力し、該エンコーダの出力を取得し、該ビデオ画像の大域的な意味情報を取得する。
【0158】
本発明の1つの実施例では、上記のビデオ画像の伝送装置は、以下のモジュールをさらに含む。
【0159】
第1の参照画像送信モジュールは、Nフレームごとに、設定された画像伝送モードを使用して、第2のビデオ通信端末に第1の参照画像を送信する。設定された画像伝送モードで伝送される第1の参照画像のデータ量は、前記意味情報のデータ量よりも大きい。Nは1よりも大きい。
【0160】
該第1の参照画像は、第1のビデオ通信端末により撮影されたビデオ画像に属する。該第1の参照画像は、第2のビデオ通信端末が意味情報及び第1の参照画像に基づいてビデオ画像の再構築画像を再構築するために使用される。
【0161】
意味情報が設定対象の意味情報である場合、第1の参照画像は、第2のビデオ通信端末が、受信された意味情報に基づいて設定対象の再構築サブ画像を取得して、再構築サブ画像と第1の参照画像とを融合して、ビデオ画像の再構築画像を取得するために使用されてもよい。
【0162】
意味情報が大域的な意味情報である場合、第1の参照画像は、第2のビデオ通信端末が、受信された意味情報に基づいて初期再構築画像を取得して、初期再構築画像と第1の参照画像とを融合して、ビデオ画像の再構築画像を取得するために使用されてもよい。
【0163】
他の実施例では、意味情報が設定対象の意味情報である場合、該ビデオ画像の伝送装置は、以下のモジュールをさらに含む。
【0164】
対象位置取得モジュールは、ビデオ画像における設定対象の位置情報を取得する。
【0165】
位置情報送信モジュールは、第2のビデオ通信端末に位置情報を送信する。該位置情報は、第2のビデオ通信端末が、位置情報に基づいて設定対象の再構築サブ画像と第1の参照画像とを融合して、ビデオ画像の再構築画像を取得するために使用される。
【0166】
本発明の1つの実施例では、上記のビデオ画像の伝送装置は、以下のモジュールをさらに含む。
【0167】
第2の参照画像送信モジュールは、設定された画像伝送モードを使用して、第2のビデオ通信端末に第2の参照画像を送信する。該設定された画像伝送モードで伝送される第2の参照画像のデータ量は、意味情報のデータ量よりも大きい。
【0168】
該第2の参照画像は、設定対象の画像、及び第1のビデオ通信端末の環境画像のうちの少なくとも1つである。第2の参照画像は、第2のビデオ通信端末が意味情報及び第2の参照画像に基づいてビデオ画像の再構築画像を再構築するために使用される。
【0169】
上記の実施例のビデオ画像の伝送装置によれば、ビデオ通信において、送信端末がビデオ画像を送信する際に、該ビデオ画像の意味情報を取得し、受信端末に該意味情報を送信する。受信端末が該意味情報を受信した後に、該意味情報に基づいて送信端末のビデオ画像を再構築し、再構築画像を取得し、受信端末の表示パネルにより再構築画像を表示してもよい。これによって、ビデオ通信では、1つのビデオ画像を送信する際に非常に少量のデータを送信するだけでよいため、ネットワーク帯域幅への要求が非常に低く、リアルタイム伝送の要求を満たすことができる。また、意味情報に基づいてビデオ画像を圧縮/復元することで、ビデオ画像の受信側でより高品質の画像を再構築することができ、ビデオ通信における画像への高解像度及び高忠実度の要求を両立することができる。
【0170】
本発明の他の実施例では、
図8に示すように、ビデオ画像の伝送装置は、以下のモジュールを含む。情報受信モジュール701は、第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信する。
【0171】
画像再構築モジュール702は、該意味情報に基づいて画像を再構築し、該ビデオ画像の再構築画像を取得する。
【0172】
画像表示モジュール703は、第2のビデオ通信端末の表示パネルにより該再構築画像を表示する。
【0173】
本発明の1つの実施例では、画像再構築モジュール702は、意味情報及び事前に訓練されたデコーダにより画像を再構築し、ビデオ画像の再構築画像を取得する。
【0174】
本発明の1つの実施例では、ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか1つを含む。
【0175】
ここで、デコーダの入力は、画像の意味情報であり、デコーダの出力は、入力された意味情報に基づいて再構築された画像である。幾つかのシナリオでは、デコーダは、畳み込みニューラルネットワークである。
【0176】
本発明の1つの実施例では、ビデオ画像の意味情報は、ビデオ画像における設定対象の意味情報、及びビデオ画像の大域的な意味情報のうちの何れか1つを含む。該設定対象は、例えば人の顔又は人の体などである。
【0177】
本発明の1つの実施例では、画像再構築モジュール702は、以下のモジュールを含む。
【0178】
第1の参照画像取得サブモジュールは、設定された画像伝送モードで直近に受信された第1の参照画像を取得する。第1の参照画像は、第1のビデオ通信端末により撮影されて送信されたビデオ画像である。設定された画像伝送モードで受信された第1の参照画像のデータ量は、意味情報のデータ量よりも大きい。
【0179】
第1の画像再構築サブモジュールは、意味情報及び第1の参照画像に基づいて画像を再構築し、ビデオ画像の再構築画像を取得する。
【0180】
本発明の1つの実施例では、該ビデオ画像の伝送装置は、Nフレームごとに、設定された画像伝送モードで第1のビデオ通信端末からの第1の参照画像を受信する第1の参照画像受信サブモジュールをさらに含む。Nは1よりも大きい。
【0181】
1つの実施例では、受信された意味情報が設定対象の意味情報である場合、画像再構築モジュール702は、第1の再構築サブモジュールを含んでもよい。該第1の再構築サブモジュールは、訓練されたデコーダに意味情報を入力し、デコーダの出力を取得し、設定対象の再構築サブ画像を取得し、設定対象の再構築サブ画像と第1の参照画像とを融合し、ビデオ画像の再構築画像を取得する。
【0182】
1つの実施例では、該ビデオ画像の伝送装置は、第1のビデオ通信端末により送信された、ビデオ画像における設定対象の位置情報を受信する位置情報受信モジュールをさらに含む。該第1の再構築サブモジュールは、位置情報に基づいて設定対象の再構築サブ画像と第1の参照画像とを融合し、ビデオ画像の再構築画像を取得する。
【0183】
1つの実施例では、受信された意味情報が大域的な意味情報である場合、画像再構築モジュール702は、第2の再構築サブモジュールを含んでもよい。該第2の再構築サブモジュールは、訓練されたデコーダに意味情報を入力し、デコーダの出力を取得し、初期再構築画像を取得し、初期再構築画像と第1の参照画像とを融合し、ビデオ画像の再構築画像を取得する。
【0184】
本発明の1つの実施例では、画像再構築モジュール702は、以下のモジュールを含む。
【0185】
第2の参照画像取得サブモジュールは、設定された画像伝送モードで受信された第2の参照画像を取得する。第2の参照画像は、設定対象の画像、及び第1のビデオ通信端末の環境画像のうちの少なくとも1つである。設定された画像伝送モードで受信された第2の参照画像のデータ量は、意味情報のデータ量よりも大きい。
【0186】
第2の画像再構築サブモジュールは、意味情報及び第2の参照画像に基づいて画像を再構築し、ビデオ画像の再構築画像を取得する。
【0187】
上記の実施例のビデオ画像の伝送装置によれば、ビデオ通信において、送信端末がビデオ画像を送信する際に、該ビデオ画像の意味情報を取得し、受信端末に該意味情報を送信する。受信端末が該意味情報を受信した後に、該意味情報に基づいて送信端末のビデオ画像を再構築し、再構築画像を取得し、受信端末の表示パネルにより再構築画像を表示してもよい。これによって、ビデオ通信では、1つのビデオ画像を送信する際に非常に少量のデータを送信するだけでよいため、ネットワーク帯域幅への要求が非常に低く、リアルタイム伝送の要求を満たすことができる。また、意味情報に基づいてビデオ画像を圧縮/復元することで、ビデオ画像の受信側でより高品質の画像を再構築することができ、ビデオ通信における画像への高解像度及び高忠実度の要求を両立することができる。
【0188】
本発明の1つの実施例では、
図1に示すように、ビデオ画像の伝送システムは、ビデオ通信を行うことが可能に接続された第1のビデオ通信端末及び第2のビデオ通信端末を含む。第1のビデオ通信端末は、撮影されたビデオ画像を取得し、ビデオ画像の意味情報を取得し、第2のビデオ通信端末に意味情報を送信する。該第2のビデオ通信端末は、意味情報を受信し、意味情報に基づいて画像を再構築し、ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより再構築画像を表示する。
【0189】
ビデオ画像の伝送装置及びシステムの実施例の態様について、ビデオ画像の伝送方法についての上記の説明を参照してもよく、ここでその説明を省略する。上記のビデオ画像伝送装置の各モジュールの全部又は一部は、ソフトウェア、ハードウェア、及びそれらの組み合わせにより実現されてもよい。上記のモジュールは、ハードウェアの形でインテリジェントインタラクティブタブレットのプロセッサに内蔵され、或いはインテリジェントインタラクティブタブレットのプロセッサと独立してもよいし、プロセッサが上記各モジュールに対応する操作を呼び出すようにソフトウェアの形でインテリジェントインタラクティブタブレットのメモリに記憶されてもよい。
【0190】
また、上記の例のビデオ画像の伝送装置の態様では、各プログラムモジュールの論理的分割は、一例に過ぎず、実際に応用する際に、必要に応じて、例えば対応するハードウェアの構成要求又はソフトウェアの実装の利便性を考慮して、該機能の割り当てを異なるプログラムモジュールにより実行されてもよい。即ち、上記の全部又は一部の機能を達成するように、ビデオ画像の伝送装置の内部構造を異なるプログラムモジュールに分割してもよい。
【0191】
1つの実施例では、インテリジェントインタラクティブタブレットを提供する。その内部構造は、
図9に示すものであってもよい。該インテリジェントインタラクティブタブレットは、システムバスを介して接続されたプロセッサ、メモリ、ネットワークインターフェイス、表示パネル、撮影装置、及び入力装置を含む。ここで、プロセッサは、計算及び制御の機能を提供するために使用される。メモリには、不揮発性記憶媒体、メモリが含まれ、不揮発性記憶媒体は、オペレーティングシステム及びコンピュータプログラムを格納し、メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムの実行のために環境を提供する。ネットワークインターフェイスは、ネットワーク接続を介して外部の端末と通信可能に接続するために使用される。コンピュータプログラムは、プロセッサにより実行される際にビデオ画像の伝送方法を実現する。表示パネルは、液晶ディスプレイ又は電子インクディスプレイであってもよい。撮影装置は、インテリジェントインタラクティブタブレットの前の環境又は人のビデオ画像を撮影することができる。入力装置は、表示パネルを覆うタッチ層であってもよいし、インテリジェントインタラクティブタブレットの筐体に設定されたボタン、トラックボール、又はタッチパッドであってもよいし、外部のキーボード、タッチパッド、又はマウスであってもよい。
【0192】
当業者にとって理解できるように、
図9に示す構造は、本発明の実施例に関連する構造の一部のブロック図に過ぎず、本発明の実施例に係るインテリジェントインタラクティブタブレットを限定するものではない。インテリジェントインタラクティブタブレットは、図示されていない部材をさらに含んでもよいし、図示されている部材を含まなくてもよいし、他の部材と組み合わせてもよいし、異なる部材の配置方式を有してもよい。
【0193】
本発明の1つの実施例では、ビデオ画像を撮影する撮影装置と、表示パネルと、コンピュータプログラムが記憶されているメモリと、プロセッサと、を含むインテリジェントインタラクティブタブレットをさらに提供する。プロセッサは、該コンピュータプログラムを実行する際に、撮影装置により撮影されたビデオ画像の意味情報を抽出し、他のインテリジェントインタラクティブタブレットに前記意味情報を送信するように構成されてもよい。また、プロセッサは、該コンピュータプログラムを実行する際に、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の意味情報を受信し、意味情報に基づいて画像を再構築し、他のインテリジェントインタラクティブタブレットにより送信されたビデオ画像の再構築画像を取得し、表示パネルにより前記再構築画像を表示するように構成されてもよい。
【0194】
他の実施例では、プロセッサがプログラムを実行する際に、上記のビデオ画像の伝送方法の他の実施例に係る対応するステップを実行するように構成されてもよい。
【0195】
本発明の1つの実施例では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供する。プロセッサに該コンピュータプログラムを実行させる際に、第1のビデオ通信端末により撮影されたビデオ画像を取得し、ビデオ画像の意味情報を抽出し、第2のビデオ通信端末に意味情報を送信するように構成されてもよい。該意味情報は、第2のビデオ通信端末でビデオ画像の再構築画像を再構築するために使用される。
【0196】
他の実施例では、プロセッサがプログラムを実行する際に、上記のビデオ画像の伝送方法の他の実施例に係るビデオ画像の送信端末で実行される対応するステップを実行するように構成されてもよい。
【0197】
本発明のもう1つの実施例では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供する。プロセッサに該コンピュータプログラムを実行させる際に、第1のビデオ通信端末により撮影されたビデオ画像の意味情報を受信し、意味情報に基づいて画像を再構築し、ビデオ画像の再構築画像を取得し、第2のビデオ通信端末の表示パネルにより再構築画像を表示するように構成されてもよい。
【0198】
他の実施例では、プロセッサがプログラムを実行する際に、上記のビデオ画像の伝送方法の他の実施例に係るビデオ画像の受信端末で実行される対応するステップを実行するように構成されてもよい。
【0199】
当業者にとって理解できるように、上記の実施例の方法におけるプロセスの全部又は一部は、コンピュータプログラムを介して関連するハードウェアに指示することにより実施されてもよい。該コンピュータプログラムは、不揮発性のコンピュータ読み取り可能な記憶媒体に記憶されてもよい。コンピュータプログラムが実行される際に、上記の方法の各実施例のプロセスを含んでもよい。ここで、本発明に係る各実施例で使用されるメモリ、ストレージ、データベース、又は他の媒体は、不揮発性及び/又は揮発性のメモリを含んでもよい。不揮発性のメモリは、読み取り専用メモリ(ROM)、プログラミング可能なROM(PROM)、電気的にプログラミング可能なROM(EPROM)、電気的に消去可能なプログラミング可能なROM(EEPROM)、又はフラッシュメモリを含んでもよい。揮発性のメモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含んでもよい。非限定的な例として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張型SDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)などの様々な形式を有してもよい。
【0200】
上記の実施例の各技術的特徴は、任意に組み合わせてもよく、説明を簡潔にするために、上記の実施例における各技術的特徴の全ての可能な組み合わせを記載していない。しかし、組み合わせに矛盾がない限り、これらの技術的特徴の組み合わせは本明細書に記載される範囲内のものである。上記の各実施例は、それぞれの態様を詳細に説明しているが、詳細に説明されていない部分について、他の実施例の関連する説明を参照してもよい。
【0201】
実施例における「含む」及び「有する」という用語及びそれらの任意の変形は、非排他的な包含をカバーすることを意図している。例えば、一連のステップ又は(モジュール)ユニットを含むプロセス、方法、システム、プロダクト、又はデバイスは、列挙されたステップ又はユニットに限定されず、列挙されていないステップ又はユニットをさらに含んでもよいし、これらのプロセス、方法、プロダクト又はデバイスに固有の他のステップ又はユニットを含んでもよい。
【0202】
実施例で言及される「複数」は、2つ以上を意味する。「及び/又は」は、関連する対象の関連関係を説明するためものであり、例えば、「A及び/又はB」は、Aのみが存在すること、A及びBの両方が存在すること、及びBのみが存在することという3つのタイプの関係を意味してもよい。記号「/」は、通常、前後の関連対象が「又は」の関係にあることを意味する。
【0203】
実施例で言及される「第1/第2」は、単に類似の対象を区別するためのものであり、対象の特定の順序を表すものではない。なお、「第1/第2」は、容認される場合に特定の順序又は前後順序を互いに変更してもよい。なお、「第1/第2」により区別される対象は、適切な場合に変更可能であるため、本明細書に記載された実施例は、本明細書に図示又は記載されたもの以外の順序で実施されてもよい。