(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-02
(45)【発行日】2024-12-10
(54)【発明の名称】学習方法
(51)【国際特許分類】
G06T 13/40 20110101AFI20241203BHJP
G06T 3/4076 20240101ALI20241203BHJP
G06T 3/4046 20240101ALI20241203BHJP
G06N 3/094 20230101ALI20241203BHJP
【FI】
G06T13/40
G06T3/4076
G06T3/4046
G06N3/094
(21)【出願番号】P 2021145768
(22)【出願日】2021-09-07
【審査請求日】2023-08-07
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】加藤 晴久
【審査官】益戸 宏
(56)【参考文献】
【文献】米国特許出願公開第2016/0373502(US,A1)
【文献】特開2019-079436(JP,A)
【文献】特開2020-098597(JP,A)
【文献】特開2020-024612(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 13/00
G06T 3/00
G06N 3/094
(57)【特許請求の範囲】
【請求項1】
各時刻におけるコンテンツ描画指定情報に従って第2描画態様の描画を行うことで各時刻における第2描画情報を得る第2描画部を備え、
前記各時刻におけるコンテンツ描画指定情報に従って前記第2描画態様よりも高品位の第1描画態様で描画を行うサーバから、当該描画された各時刻における第1描画情報を受信し、
現時刻および過去時刻における第2描画情報と、当該現時刻において前記受信済みとなっている、当該過去時刻における第1描画情報と、の3つの描画情報を入力として、当該現時刻において前記サーバにて描画される第1描画情報を模したものとして、当該現時刻における前記コンテンツ描画指定情報に従った前記第1描画態様における描画結果に相当する生成情報を生成する生成部と、を備える端末
であって、
前記生成部は、予め学習された敵対的生成ネットワークにおける生成器及び識別器のうち生成器を用いて、前記3つの描画情報を入力として、前記生成情報を生成する
端末に対して、
前記敵対的生成ネットワークにおける生成器及び識別器のパラメータの学習方法であって、
各時刻におけるコンテンツ描画指定情報に従って第2描画態様の描画が行われることで用意されている各時刻における第2描画情報と、
前記各時刻におけるコンテンツ描画指定情報に従って前記第2描画態様よりも高品位の第1描画態様で描画が行われることで用意されている各時刻における第1描画情報と、から、第1時刻及び第2時刻に該当する第2描画情報及び第1描画情報を学習用のデータとして選択し、
前記生成器について、学習用の、第1入力である第1時刻に該当する第1描画情報と、第2入力である第1時刻に該当する第2描画情報と、第3入力である第2時刻に該当する第2描画情報と、から、当該学習用の第2時刻に該当する第1描画情報を模擬するような生成情報を生成するようにパラメータを学習し、
前記識別器について、前記学習用の第1描画情報及び第2描画情報が真作であり、前記生成器が生成した生成情報が贋作であるものとして、真贋を判定するようにパラメータを学習
し、
前記識別器について真贋を判定するようにパラメータ学習することに、
前記識別器に時刻が同一または異なる学習用の第1描画情報及び第2描画情報を入力し、当該時刻が同一である場合を正と判定し、当該時刻が異なる場合を否と判定するように、前記識別器のパラメータを学習すること(6a、6b、6c、6d)が含まれることを特徴とする
学習方法。
【請求項2】
前記識別器について真贋を判定するようにパラメータ学習することに、
前記第1時刻及び第2時刻が同一である(6g、6h)か異なる(6e、6f)かを問わずに学習用のデータの少なくとも一部を選択し、
前記生成器に学習用の前記第1入力ないし第3入力を入力して生成される生成情報と、前記生成器へ入力された第3入力と、の2つを前記識別器に入力し、
当該識別器への当該2つの入力に紐づいた時刻が同一であっても、当該2つの入力のうちの片方が前記生成部によって生成された生成情報に該当することから、前記時刻が異なる場合と同様に否と判定するように、前記識別器のパラメータを学習すること(6e、6f、6g、6h)が含まれることを特徴とする請求項
1に記載の学習方法。
【請求項3】
各時刻におけるコンテンツ描画指定情報に従って第2描画態様の描画を行うことで各時刻における第2描画情報を得る第2描画部を備え、
前記各時刻におけるコンテンツ描画指定情報に従って前記第2描画態様よりも高品位の第1描画態様で描画を行うサーバから、当該描画された各時刻における第1描画情報を受信し、
現時刻および過去時刻における第2描画情報と、当該現時刻において前記受信済みとなっている、当該過去時刻における第1描画情報と、の3つの描画情報を入力として、当該現時刻において前記サーバにて描画される第1描画情報を模したものとして、当該現時刻における前記コンテンツ描画指定情報に従った前記第1描画態様における描画結果に相当する生成情報を生成する生成部と、を備える端末
であって、
前記生成部は、予め学習された敵対的生成ネットワークにおける生成器及び識別器のうち生成器を用いて、前記3つの描画情報を入力として、前記生成情報を生成する
端末に対して、
前記敵対的生成ネットワークにおける生成器及び識別器のパラメータの学習方法であって、
各時刻におけるコンテンツ描画指定情報に従って第2描画態様の描画が行われることで用意されている各時刻における第2描画情報と、
前記各時刻におけるコンテンツ描画指定情報に従って前記第2描画態様よりも高品位の第1描画態様で描画が行われることで用意されている各時刻における第1描画情報と、から、第1時刻及び第2時刻に該当する第2描画情報及び第1描画情報を学習用のデータとして選択し、
前記生成器について、学習用の、第1入力である第1時刻に該当する第1描画情報と、第2入力である第1時刻に該当する第2描画情報と、第3入力である第2時刻に該当する第2描画情報と、から、当該学習用の第2時刻に該当する第1描画情報を模擬するような生成情報を生成するようにパラメータを学習し、
前記識別器について、前記学習用の第1描画情報及び第2描画情報が真作であり、前記生成器が生成した生成情報が贋作であるものとして、真贋を判定するようにパラメータを学習
し、
前記生成器についてパラメータ学習することに、
前記第1時刻及び第2時刻を異なる時刻として学習用のデータの少なくとも一部を選択し、
前記生成器を前段側生成器及び後段側生成器の2段組みで配置し、
前記前段側生成器に学習用の前記第1入力ないし第3入力を入力することで前記後段側生成器の第1入力を生成し、
前記後段
側生成器の第2入力及び第3入力としてそれぞれ、前記前段側生成器に入力された第3入力及び第2入力を用いて、
前記後段側生成器が出力した生成情報が、前記前段側生成器への第1入力を模擬するように学習すること(7a、7b)が含まれることを特徴とする
学習方法。
【請求項4】
各時刻におけるコンテンツ描画指定情報に従って第2描画態様の描画を行うことで各時刻における第2描画情報を得る第2描画部を備え、
前記各時刻におけるコンテンツ描画指定情報に従って前記第2描画態様よりも高品位の第1描画態様で描画を行うサーバから、当該描画された各時刻における第1描画情報を受信し、
現時刻および過去時刻における第2描画情報と、当該現時刻において前記受信済みとなっている、当該過去時刻における第1描画情報と、の3つの描画情報を入力として、当該現時刻において前記サーバにて描画される第1描画情報を模したものとして、当該現時刻における前記コンテンツ描画指定情報に従った前記第1描画態様における描画結果に相当する生成情報を生成する生成部と、を備える端末
であって、
前記生成部は、予め学習された敵対的生成ネットワークにおける生成器及び識別器のうち生成器を用いて、前記3つの描画情報を入力として、前記生成情報を生成する
端末に対して、
前記敵対的生成ネットワークにおける生成器及び識別器のパラメータの学習方法であって、
各時刻におけるコンテンツ描画指定情報に従って第2描画態様の描画が行われることで用意されている各時刻における第2描画情報と、
前記各時刻におけるコンテンツ描画指定情報に従って前記第2描画態様よりも高品位の第1描画態様で描画が行われることで用意されている各時刻における第1描画情報と、から、第1時刻及び第2時刻に該当する第2描画情報及び第1描画情報を学習用のデータとして選択し、
前記生成器について、学習用の、第1入力である第1時刻に該当する第1描画情報と、第2入力である第1時刻に該当する第2描画情報と、第3入力である第2時刻に該当する第2描画情報と、から、当該学習用の第2時刻に該当する第1描画情報を模擬するような生成情報を生成するようにパラメータを学習し、
前記識別器について、前記学習用の第1描画情報及び第2描画情報が真作であり、前記生成器が生成した生成情報が贋作であるものとして、真贋を判定するようにパラメータを学習
し、
前記生成器についてパラメータ学習することに、
前記第1時刻及び第2時刻を同一時刻として学習用のデータの少なくとも一部を選択し、
前記生成器に学習用の前記第1入力ないし第3入力を入力することで出力される生成情報が、学習用の前記第1入力を模擬するように学習すること(8a、8b)が含まれることを特徴とする
学習方法。
【請求項5】
各時刻におけるコンテンツ描画指定情報に従って第2描画態様の描画を行うことで各時刻における第2描画情報を得る第2描画部を備え、
前記各時刻におけるコンテンツ描画指定情報に従って前記第2描画態様よりも高品位の第1描画態様で描画を行うサーバから、当該描画された各時刻における第1描画情報を受信し、
現時刻および過去時刻における第2描画情報と、当該現時刻において前記受信済みとなっている、当該過去時刻における第1描画情報と、の3つの描画情報を入力として、当該現時刻において前記サーバにて描画される第1描画情報を模したものとして、当該現時刻における前記コンテンツ描画指定情報に従った前記第1描画態様における描画結果に相当する生成情報を生成する生成部と、を備える端末
であって、
前記生成部は、予め学習された敵対的生成ネットワークにおける生成器及び識別器のうち生成器を用いて、前記3つの描画情報を入力として、前記生成情報を生成する
端末に対して、
前記敵対的生成ネットワークにおける生成器及び識別器のパラメータの学習方法であって、
各時刻におけるコンテンツ描画指定情報に従って第2描画態様の描画が行われることで用意されている各時刻における第2描画情報と、
前記各時刻におけるコンテンツ描画指定情報に従って前記第2描画態様よりも高品位の第1描画態様で描画が行われることで用意されている各時刻における第1描画情報と、から、第1時刻及び第2時刻に該当する第2描画情報及び第1描画情報を学習用のデータとして選択し、
前記生成器について、学習用の、第1入力である第1時刻に該当する第1描画情報と、第2入力である第1時刻に該当する第2描画情報と、第3入力である第2時刻に該当する第2描画情報と、から、当該学習用の第2時刻に該当する第1描画情報を模擬するような生成情報を生成するようにパラメータを学習し、
前記識別器について、前記学習用の第1描画情報及び第2描画情報が真作であり、前記生成器が生成した生成情報が贋作であるものとして、真贋を判定するようにパラメータを学習
し、
前記生成器についてパラメータ学習することに、
前記第1時刻及び第2時刻を異なる時刻として学習用のデータの少なくとも一部を選択し、
前記生成器に学習用の前記第1入力ないし第3入力を入力することで出力される生成情報を、予め学習された特徴算出器へと入力して第1特徴情報を出力し、
前記生成器に入力された前記第3入力を前記特徴算出器へと入力して第2特徴情報を出力し、
前記第1特徴情報が前記第2特徴情報を模擬するように学習すること(10a、10b)が含まれることを特徴とする
学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サーバサイドレンダリング方式を用いて効率的に描画を行う端末と、この端末のパラメータの学習方法と、プログラムと、に関する。
【背景技術】
【0002】
撮像対象と撮像部との相対的な位置および姿勢を推定し関連情報を提示する拡張現実において、リアルタイムかつ高品位に情報を提示することができれば、利用者の利便性を向上させることができる。この拡張現実を実現する従来技術の例として、特許文献1に開示のものがあり、ここでは以下のような手法が公開されている。
【0003】
特許文献1では、サーバに備え付けられた撮像部で対象を撮像し撮像情報に撮像された撮像対象を認識した結果に応じて関連情報を描画した上で、描画結果を端末へ伝送し端末で提示する手法を開示している。このとき、サーバの高性能な計算リソースを利用することで関連情報は高品位に描画されうる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1では、サーバサイドレンダリング方式の採用によりサーバの豊富な計算資源を利用して描画できるが、映像伝送に時間がかかるため、関連情報が端末に提示されるまでに遅延が発生するという問題がある。
【0006】
本発明は上記従来技術の課題に鑑み、サーバサイドレンダリング方式を効率的に活用して、端末の情報に対応するサーバの情報を端末で生成して遅延の影響を低減する端末を提供することを第1の目的とする。また、当該端末のパラメータの学習方法を提供することを第2の目的とする。また、当該端末に対応するプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記第1の目的を達成するため、本発明は、端末であって、各時刻におけるコンテンツ描画指定情報に従って第2描画態様の描画を行うことで各時刻における第2描画情報を得る第2描画部を備え、前記各時刻におけるコンテンツ描画指定情報に従って前記第2描画態様よりも高品位の第1描画態様で描画を行うサーバから、当該描画された各時刻における第1描画情報を受信し、現時刻および過去時刻における第2描画情報と、当該現時刻において前記受信済みとなっている、当該過去時刻における第1描画情報と、の3つの描画情報を入力として、当該現時刻において前記サーバにて描画される第1描画情報を模したものとして、当該現時刻における前記コンテンツ描画指定情報に従った前記第1描画態様における描画結果に相当する生成情報を生成する生成部と、を備えることを第1の特徴とする。
【0008】
また、上記第2の目的を達成するため、前記端末の生成部は、予め学習された敵対的生成ネットワークにおける生成器及び識別器のうち生成器を用いて、前記3つの描画情報を入力として、前記生成情報を生成するものであって、本発明は、前記敵対的生成ネットワークにおける生成器及び識別器のパラメータの学習方法であって、各時刻におけるコンテンツ描画指定情報に従って第2描画態様の描画が行われることで用意されている各時刻における第2描画情報と、前記各時刻におけるコンテンツ描画指定情報に従って前記第2描画態様よりも高品位の第1描画態様で描画が行われることで用意されている各時刻における第1描画情報と、から、第1時刻及び第2時刻に該当する第2描画情報及び第1描画情報を学習用のデータとして選択し、前記生成器について、学習用の、第1入力である第1時刻に該当する第1描画情報と、第2入力である第1時刻に該当する第2描画情報と、第3入力である第2時刻に該当する第2描画情報と、から、当該学習用の第2時刻に該当する第1描画情報を模擬するような生成情報を生成するようにパラメータを学習し、前記識別器について、前記学習用の第1描画情報及び第2描画情報が真作であり、前記生成器が生成した生成情報が贋作であるものとして、真贋を判定するようにパラメータを学習することを第2の特徴とする。
【発明の効果】
【0009】
前記第1の特徴によれば、前記3つの入力から現時刻の第1描画情報を模したものとして生成情報を生成することで、サーバサイドレンダリング方式を効率的に活用して、遅延の影響を低減することが可能となる。前記第2の特徴によれば、前記端末で用いる敵対的生成ネットワークにおける生成器及び識別器のパラメータを学習することにより、第1描画情報を模したものとしての高品質な生成情報を生成することができる。
【図面の簡単な説明】
【0010】
【
図1】一実施形態に係る情報システムの構成図(描画情報の模式例を含む)である。
【
図2】一実施形態に係る情報システムの端末及びサーバの機能ブロック図である。
【
図3】情報システムにおけるリアルタイムの離散的な各時刻t(t=1,2,…)の動作シーケンスの一例を示す図である。
【
図4】一実施形態に係る生成部の機能ブロック図である。
【
図5】一実施形態に係る情報システムの動作のフローチャートである。
【
図6】識別器を学習するための正否判定のネットワーク構成の各例を構成6a~6hとして示す図である。
【
図7】損失関数L
pixel1を評価する構成を構成7a及び7bとして示す図である。
【
図8】損失関数L
pixel2を評価する構成を構成8a及び8bとして示す図である。
【
図9】損失関数L
pixel3を評価する構成を構成9a及び9bとして示す図である。
【
図10】損失関数L
lmを評価する構成を構成10a及び10bとして示す図である。
【
図11】一般的なコンピュータにおけるハードウェア構成を示す図である。
【発明を実施するための形態】
【0011】
図1は、一実施形態に係る情報システム100の構成図(描画情報の模式例を含む)であり、情報システム100はインターネット等のネットワークNWを介して相互に通信可能とされる端末10及びサーバ20で構成される。なお、
図1ではシステム構成に加えてさらに、説明欄CL1及びCL2にそれぞれ端末10及びサーバ20で用いる描画情報の模式例が示されるが、この模式例については以降の説明の際において適宜、参照する。
【0012】
情報システム100はその全体的な動作として、例えば30fps(フレーム毎秒)や120fpsといったような所定の表示処理レートに応じたリアルタイムの各時刻t(t=1,2,…)において端末10で対象の撮像を行い、撮像された対象に応じた描画処理を端末10及びサーバ20において行い、描画結果を端末10においてリアルタイムで提示することで、端末10を利用するユーザUに対して撮像された対象に応じた拡張現実表示や仮想現実表示を提供するものである。
【0013】
以下、説明例として、撮像される対象は端末10を利用しており室内等のフィールドFに存在するユーザU自身であり、当該撮像された対象に応じた描画処理はユーザUのアバタ、すなわち、ユーザUの顔の表情及び/又は身体のポーズに連動してリアルタイムで動くアバタ(ユーザUの表情やポーズがリアルタイムで反映されるアバタ)の描画処理である場合について説明する。説明欄CL1及びCL2では当該アバタの模式例が顔のみについて示される。
【0014】
図2は、一実施形態に係る情報システム100の端末10及びサーバ20の機能ブロック図である。図示するように機能ブロック構成として、端末10は撮像部11、認識部12、第2描画部13、記憶部14、生成部15及び提示部16を備え、サーバ20は第1描画部21を備える。
【0015】
図2内にも示されるように、リアルタイムの各時刻tにおいて、各機能部において次の処理がなされる。
【0016】
撮像部11は撮像を行って得られる撮像画像P(t)を認識部12へ出力する。認識部12は撮像画像P(t)を認識して得られる認識情報r(t)を第2描画部13及び第1描画部21へと出力(ここで、第1描画部21への出力は端末10からサーバ20へとネットワークNWを介した送信となる)する。第2描画部13は認識情報r(t)に従ってユーザUのアバタを描画することで第2描画情報y(t)を得て記憶部14に出力する。
【0017】
第1描画部21は認識情報r(t)に従ってユーザUのアバタを描画することで第1描画情報x(t)を得て生成部15へと出力(ここで、生成部15への出力はサーバ20から端末10へとネットワークNWを介した送信となる)する。生成部15は、記憶部14に記憶されている現在時刻tの第2描画情報y(t)及び過去時刻t-τ(τ>0)の第2描画情報y(t-τ)と、第1描画部21から得た過去時刻t-τの第1描画情報x(t-τ)と、を入力として、第1描画部21で現在時刻tにおいて描画される第1描画情報x(t)を模したものとしての生成情報x'(t)を生成し、提示部16に出力する。(なお、生成部15における当該処理の技術的意義等に関しては、後述する
図3~
図5等においてさらに説明する。)提示部16はこの生成情報x'(t)(第1描画情報x(t)を模したものでありユーザUのアバタの描画結果となる)を表示する。
【0018】
図3は、情報システム100における上記リアルタイムの離散的な各時刻t(t=1,2,…)の動作シーケンスの一例を示す図である。
図3では、リアルタイムの処理タイミングである任意の時刻tにおける情報システム100での処理ステップが、
図2に示す各機能部の各処理において発生する情報の授受の流れと共に示されている。
図3にて、
図2に示される端末10及びサーバ20の各機能部に付された縦線は下方向が共通の時間進行を表す、各機能部における処理のタイムラインであり、当該縦線上のバー領域は、当該機能部において処理が行われている時間帯を模式的に表したものであり、一実施形態においてリアルタイムの離散的な各時刻t(t=1,2,…)の間隔内において処理が完了する連続的な時間帯を模式的に表すものである。
図3では横方向での矢印線が、各機能部間での情報の授受の流れを表している。
【0019】
図3では、
図2の説明に用いた過去時刻t-τ(τ>0)と現在時刻tとの処理がシーケンスとして示される。
図3の模式例に示される通り各処理部の処理遅延(処理完了に要する時間)及び伝送遅延(特に、端末10とサーバ20との間のネットワークNWを介した情報送信における伝送遅延)の存在により、生成部15において端末10内で現在時刻tにおいて撮像した撮像画像P(t)から生成情報x'(t)をアバタ描画結果として生成する際に、サーバ20の第1描画部21から送信され端末10において受信済みとなっている最新の第1描画情報は、現在時刻tの第1描画情報x(t)ではなく、過去時刻t-τの第1描画情報x(t-τ)(τ>0)である。すなわち、過去時刻t-τとは、現在時刻tにおいて端末10において受信済みとなっている最新の第1描画情報に紐づいた過去時刻(タイムスタンプ)である。
【0020】
図4は、一実施形態に係る生成部15の機能ブロック図であり、生成部15は、生成器G及び識別器Dと、オプション構成としての算出器Vと、を備える。
図5は、一実施形態に係る情報システム100の動作のフローチャートである。
【0021】
以上の
図1~3で説明してきた情報システム100におけるリアルタイムでのアバタ描画は、
図5のステップS2において行われるものであり、これを可能にするための事前準備としてステップS1が存在する。
【0022】
ステップS1では、生成部15の生成器G(及び識別器D)のパラメータを、深層学習分野における既存手法であるGAN(敵対的生成ネットワーク)の枠組みに即して予め学習しておく。このステップS1で学習したパラメータを利用して、ステップS2において生成部15の生成器Gによる推論処理が可能となり、情報システム100におけるリアルタイムでのアバタ描画及び提示が可能となる。
【0023】
図4(及び
図5のステップS2内の記載)に示されるように、推論時において、生成部15のパラメータ学習済みの生成器Gでは、現在時刻t及び過去時刻t-τの第2描画情報y(t)及びy(t-τ)と、過去時刻t-τの第1描画情報x(t-τ)と、の3つの描画情報を入力として、現在時刻tの第1描画情報x(t)を模したものとしての現在時刻tの生成情報x'(t)を生成する。
【0024】
詳細を後述するように、各時刻t(過去時刻t-τも含む)において、第1描画部21及び第2描画部13は同じ認識情報r(t)(ユーザUの表情やポーズを表す情報)を入力として、ユーザUのアバタを同じ状態(表情やポーズや描画するのに用いる仮想カメラ位置姿勢(描画基準となる視点の位置姿勢)に関して同じ状態)で描画して、それぞれ第1描画情報x(t)及び第2描画情報y(t)を得るが、第1描画情報x(t)及び第2描画情報y(t)では描画品位のみが異なる。すなわち、第1描画情報x(t)は、業務用サーバ機等として実現されるサーバ20の豊富な計算リソースを利用して高品位に描画されるのに対し、第2描画情報y(t)は、一般ユーザのスマートフォン等で実現される端末10の限られた計算リソースを利用して標準品位(サーバ20側との比較で低品位)に描画される。
【0025】
この、同一状態描画(同一内容描画)における描画品位の相違に関して、
図1の説明欄CL1,CL2に模式例が示される。ユーザUのアバタ(顔のみ)について描画した第1描画情報x(t),x(t-τ)と第2描画情報y(t),y(t-τ)とがそれぞれの時刻t,t-τにおいて、アバタの表情(描画に用いた認識情報が反映されて定まる表情)及び見えている角度(描画のための仮想カメラ配置で定まる角度)の観点から同一内容であるが、例えば、用いる光源モデルの観点から、第1描画情報の方がより計算負荷の高い光源モデルで描画されることにより、第1描画情報の方が第2描画情報よりも高品位に描画されている。
【0026】
以上のような第1描画情報と第2描画情報との品位相違を前提として、推論時の生成器Gでは、前記3つの描画情報y(t-τ),y(t),x(t-τ)を入力として生成情報x'(t)を生成する。この3つの描画情報を入力とする意義は以下の通りである。(なお、
図1の説明欄CL1内には、以下の加工情報mod及び高品位化情報highの適用関係が模式的に示されている。)
【0027】
(1) 標準品位の描画結果である2つの第2描画情報y(t-τ)及びy(t)から、アバタ描画結果を過去時刻t-τの状態y(t-τ)から現在時刻tの状態y(t)へと変形等して加工する情報modを推定できる。同様に、標準品位及び高品位の2つの描画情報y(t-τ)及びx(t-τ)から、アバタ描画結果を標準品位の状態y(t-τ)から高品位の状態x(t-τ)へと高品位化する情報highを推定できる。
【0028】
(2) 高品位の描画結果である過去の1つの第1描画情報x(t-τ)をこの加工情報modで加工することにより、また、標準品位の描画結果である現在の1つの第2描画情報y(t)をこの高品位化情報highで高品位化することにより、現在時刻tの第1描画情報x(t)を模したものとしての生成情報x'(t)を生成することができる。
【0029】
なお、加工情報mod及び高品位化情報highについては陽に(明示的に)得られる情報ではなく、GANの枠組みに即して生成器G及び識別器Dを互いに敵対的に学習した結果として、生成器Gでの生成処理の内部で陰に、加工情報mod及び高品位化情報highの推定及び適用に相当する処理が行われることとなる。(すなわち、本実施形態の生成器Gはいわば、3つの入力y(t-τ),x(t-τ),y(t)を「お手本」として、第1描画部21による「真作」であるx(t)の「贋作」となるx'(t)を精密に生成するようにパラメータ学習されるものである。同様に、識別器Dは定性的には、x(t)及びx'(t)を(いずれが「真作」のx(t)であり、いずれが「贋作」のx'(t)であるかの区別を与えずに)与えて、その「真贋」を高精度に見抜くようにパラメータ学習されるものである。)
【0030】
従って、ステップS1の生成器G及び識別器DのGANによるパラメータ学習時においては、
図4(及び
図5のステップS1内の記載)に示されるように、ステップS2の推論時に用いるのと同様の3入力y(t-τ),x(t-τ),y(t)に加えて、現在時刻tの第1描画情報x(t)も評価用データ(生成器Gにおける、いわゆる「贋作」生成の生成精度の評価用データ、且つ、識別器Dにおける、いわゆる「真贋」の識別精度の評価用データ)として利用される。このステップS1の生成器G及び識別器Dの学習の詳細は後述する。
【0031】
以上のようにして本実施形態では、端末10において、自らは第2描画部13において計算負荷が小さい標準品位での描画のみを行い、第1描画部21での計算負荷の高い高品位の描画を行うことなく、生成器G(生成部15)による3入力y(t-τ),x(t-τ),y(t)を用いた推論処理(計算負荷が小さい)により、高品位な第1描画情報x(t)を未受信であっても、これを十分な精度で模した生成情報x'(t)を生成し、リアルタイムで表示することが可能となる。
【0032】
以下、情報システム100の各部の処理の詳細を、ステップS2の推論時に関して説明する。
【0033】
<撮像部11>
撮像部11は、後段側の認識部12において認識される対象が存在する実世界(
図1のフィールドF)の撮像を行い、リアルタイムの各時刻tで得られた撮像画像P(t)を認識部12へと出力する。撮像部11はハードウェアとしてはカメラで構成することができ、端末10を利用するユーザU等が当該カメラを操作することにより、撮像部11による撮像が行われる。撮像対象は例えばマーカや平面、人物などを利用できる。前述の通り、情報システム100においてユーザUのアバタを描画する用途の場合はこのユーザU自身を撮像対象として撮像部11による撮像を行えばよい。
【0034】
<認識部12>
認識部12は撮像部11で得た撮像画像P(t)に対して、撮像されている対象の種類を認識し、且つ、この対象の座標を計算した結果の認識情報r(t)を求め、この認識情報r(t)は第2描画部13へと出力するとともに、通信機能を介してサーバ20の第1描画部21へと送信する。すなわち、第1描画部13及び第2描画部21へとそれぞれ出力される認識情報r(t)は、撮像画像P(t)に撮像されている対象の種類の情報と、この対象の座標の情報と、で構成されるものである。(情報システム100においてユーザUのアバタを描画する用途の場合のように、撮像対象が予めユーザUとして一意に設定されている場合には、対象の種類の情報を認識情報r(t)から省略してもよい。)なお、認識情報r(t)には、時刻tの撮像画像P(t)から求めた情報として、この撮像の時刻tの情報が紐づいている。
【0035】
認識部12における撮像画像P(t)から撮像されている対象の物体種別を認識する処理と、当該対象の座標を計算する処理とには、既存の拡張現実表示技術等において利用されている任意の既存手法を用いることができる。例えば、画像よりSIFT特徴情報等の特徴点及び特徴量の検出を行い、リファレンスとなる1種類以上の物体種別に関して予め登録されている特徴情報との照合を行い、照合により特徴情報同士が最も一致すると判定される物体種別を対象の認識結果とし、この照合の際に一致した特徴点同士の画像座標の対応関係を与える変換の関係として、対象の座標を得るようにしてもよい。
【0036】
3次元コンピュータグラフィックスの分野において既知のように、こうして得られる対象の座標は、撮像部11を構成するハードウェアとしてのカメラにおける3次元カメラ座標系におけるものである。さらに、フィールドF内での基準位置を定義するものとして配置される正方マーカ等も当該3次元カメラ座標系において求め、フィールドFの所定の3次元世界座標系内における対象の座標と、3次元カメラ座標系での対象の座標と、の変換関係を求めることにより、当該カメラの外部パラメータに相当する情報を求めてもよい。
【0037】
あるいは、対象が人物としてのユーザUであり情報システム100でこのユーザUのアバタを描画する用途の場合、認識部12は撮像画像P(t)に撮像されている人物の表情や姿勢等を認識し認識情報r(t)としてよい。表情は複数のメッシュモデルの重みづけで表現するブレンドシェイプのパラメータを用いることができ、姿勢では人物の各関節の座標を表現するパラメータを用いることができ、この関節座標について、前述の3次元カメラ座標系(あるいは、基準位置マーカ等との対応関係より3次元世界座標系)において与えるようにして、仮想3次元空間や拡張現実空間内にアバタを空間的に配置して描画(第1描画部21や第2描画部13において描画)できるようにしてもよい。
【0038】
<第1描画部21>…サーバ20における高品位描画
第1描画部21は、認識部12から得た認識情報r(t)に基づき、拡張現実表示や仮想現実表示をするための仮想対象としての3次元モデルを2次元画像平面上に描画することで第1描画情報x(t)を得て、この第1描画情報x(t)を端末10の生成部15へとネットワークNWを介して送信する。ここで、認識情報r(t)における物体種別より、情報システム100で実現する拡張現実表示等の用途に応じたコンテンツとして管理者等により予め用意され、端末10上あるいはネットワークNW上に保存されているこの物体種別に応じた所定の3次元モデルを読み込み、この3次元モデルを認識情報r(t)における座標に配置して2次元画像平面に描画することで、第1描画情報x(t)を得ることができる。3次元コンピュータグラフィックスの分野においてビューイングパイプラインの関係として既知のように、この2次元画像平面上への描画は、撮像部11をハードウェアとして構成するカメラについて既知の内部パラメータを用いて行うことができる。
【0039】
<第2描画部13>…端末10における標準品位描画
第2描画部13は、第1描画部21における処理と同様に、認識部12から得た認識情報r(t)に基づき、拡張現実表示や仮想現実表示をするための仮想対象としての3次元モデルを2次元画像平面上に描画することで第2描画情報y(t)を得て、この第2描画情報y(t)を記憶部14へと出力する。
【0040】
図1~
図5を参照した情報システム100の全体概要の説明においても既に説明した通り、ここで、第2描画部13において描画を行う際の、認識情報r(t)の物体種別に応じて参照する描画対象の所定の3次元モデルと、描画の際の座標の反映の仕方とは、第1描画部21におけるものと同一である。ただし、第2描画部13は、第1描画部21が描画したのと同一の3次元モデルを同一の座標において描画するが、第1描画部21の品質とは異なる描画態様で描画するという相違点がある。すなわち、第1描画情報x(t)は第1描画品質を与える第1描画態様で描画され、第2描画情報y(t)は第2描画品質を与える第2の描画態様で描画される。
【0041】
第1描画部21での第1描画品質を与える第1描画態様と、これよりも低い第2描画部13での第2描画品質を与える(その代償として描画のための計算負荷も低い)第2描画態様との区別には、種々の実施形態が可能である。例えば、用いる光源モデルや反射モデルの違いで第1描画態様と第2描画態様とを区別して与えることができる。
【0042】
通常、第1描画態様では第2描画態様よりも高品質な描画結果が得られる代わりに、
図1等の情報システム100の構成例に示されるようにサーバサイドレンダリング方式を採用してこの高品質な描画結果を得る形を取っていることにより、第1描画情報x(t)をサーバ20から端末10へと伝送するのに時間を要することが想定される。
図3の模式例では、この想定に即した例として、第1描画部21において第1描画情報x(t-τ)を描画・伝送するための時間(認識情報r(t-τ)の受信時から生成部15での第1描画情報x(t-τ)の受信時までの時間)の方が、第2描画部13において第2描画情報y(t),y(t-τ)を描画するための時間(認識情報r(t),r(t-τ)の受信時から第2描画情報y(t),y(t-τ)の出力時までの時間)よりも長くなっていることを見て取ることができる。
【0043】
<記憶部14>
記憶部14は、ハードウェアとしては記憶媒体を用いて実現され、第2描画部13で描画された各時刻tの第2描画情報y(t)を記憶しておき、第1描画部21で描画された、現在時刻tよりも過去の時刻t-τの第1描画情報x(t-τ)が、当該現在時刻tにおいて生成部15へ入力(受信)された際に、第1描画情報x(t-τ)を描画するのに用いられた認識情報r(t-τ)と同一の認識情報r(t-τ)(あるいは類似した認識情報r(t-τ'))で描画された第2描画情報y(t-τ)(あるいはy(t-τ'))及び最新の第2描画情報y(t)を生成部15へ出力する。
【0044】
以下、記憶部14から生成部15へと、上記「同一の認識情報r(t-τ)で描画された第2描画情報y(t-τ)」が出力されたものとして基本的に説明する。当該同一の認識情報で描画された第2描画情報y(t-τ)は、生成部15で受信した第1描画情報x(t-τ)のタイムスタンプである過去時刻t-τによって特定することができる。(類似する認識情報で描画された第2描画情報y(t-τ')を出力する場合は、生成部15で受信した第1描画情報x(t-τ)のタイムスタンプである過去時刻t-τに対応する認識情報r(t-τ)に類似する認識情報を検索すればよい。)
【0045】
別の実施例では、複数の認識情報に対応した第1描画情報を事前あるいは逐次記憶しておくことでサーバ20との通信を低減若しくは無くし伝送量を削減する効果を得るようにしてもよい。例えば、受信済みの第1描画情報x(t-τ')を認識情報r(t-τ')と紐づけて逐次記憶しておくことで、現時刻tの認識情報r(t)が類似する第1描画情報x(t-τ')を再利用し、生成部15において生成情報x'(t)として本来の第1描画情報x(t)を模擬生成する処理を省略する(すなわち、受信済みの十分に類似していると判断された第1描画情報x(t-τ')を生成情報x'(t)であるものとみなしてして扱うことで、生成処理を省略する)ことができるとともに、サーバ20の第1描画部21における第1描画情報x(t)の描画間隔を、端末10の第2描画部13における第2描画情報y(t)の描画間隔より間欠的にすることもできる。類似する第1描画情報x(t-τ')を利用することで当該現時刻tに関して生成部15及び第1描画部21における処理を省略するか否かの判断は、認識情報r(t), r(t-τ')の類似度が閾値判定で高いか否かで判断してよい。当該判断における閾値は、認識情報r(t), r(t-τ')がほぼ同一とみなせる程度に十分に類似しているかを判断できる程度に厳しい値(類似度が十分に高い値となる閾値)としてもよい。
【0046】
<生成部15>
生成部15は、概略説明で説明したような3入力から生成情報x'(t)を生成する。すなわち、第1描画情報x(t-τ)と、この第1描画情報x(t-τ)を描画するのに用いた認識情報r(t-τ)と同一の認識情報r(t-τ)によって描画された第2描画情報y(t-τ)と、現時刻tでの最新の認識情報r(t)を用いて描画された第2描画情報y(t)とを入力し、当該最新の認識情報r(t)に対応した第1描画情報x(t)を模擬する情報を生成し、生成情報x'(t)として提示部16へ出力する。
【0047】
図1~
図5を参照した全体概略で説明したように、生成部15ではGANの枠組みに即して予め学習された生成器Gにより、上記3入力から現在時刻tの第1描画情報x(t)を模した生成情報x'(t)を生成することが可能となる。
【0048】
<提示部16>
提示部16はハードウェアとしてはディスプレイを含んで構成され、生成部15から得られた生成情報x'(t)(あるいは、生成部15の処理が省略された場合は、記憶部14から代用として得られた認識情報が類似する過去の第1描画情報x(t-τ'))を各時刻tにおいて表示することで、リアルタイムでの仮想現実表示や拡張現実表示を実現する。この際、提示部16のハードウェアがビデオシースルー型ディスプレイ等を含む通常のディスプレイとして構成されている場合、生成情報x'(t)に対する背景として撮像部11で得た撮像画像P(t)を用いて、生成情報x'(t)を撮像画像P(t)上に重畳して表示するようにしてもよいし、その他の画像を仮想現実空間の背景として用いてもよい。また、当該ハードウェアが光学シースルー型ディスプレイとして構成されている場合、生成情報x'(t)のみを現実空間(
図1のフィールドF)の背景に対して重畳させて表示するようにしてもよい。
【0049】
本実施形態では既に説明した通り、端末10が受信した過去の第1描画情報x(t-τ)と最新の認識情報r(t)に対応した第2描画情報y(t)と過去t-τの第2描画情報y(t-τ)から、最新の認識情報r(t)に応じた第1描画情報x(t)を近似する生成情報x'(t)を生成することで、伝送遅延や処理遅延を抑制し円滑な情報提示を実現できる効果が得られる。
【0050】
以上、本発明の一実施形態(ステップS2の推論時に関する実施形態)によれば、計算資源が豊富なサーバ20においてサーバサイドレンダリングにより高品質な第1描画情報x(t)を描画し、ネットワークNWを介して送信する際の遅延を補償するため、端末10の側ではその計算資源において可能な品質の第2描画情報y(t)を描画したうえで、受信した第1描画情報x(t-τ)に第2描画情報y(t),y(t-τ)を反映することで、高品質な第1描画情報x(t)を端末10自身において直接に描画することなく第1描画情報x(t)を模擬した生成情報x'(t)を生成することができる。
【0051】
すなわち、本発明の一実施形態によれば、サーバサイドレンダリング方式によるサーバの豊富な計算資源を活用して、ネットワークの帯域を圧迫することなく、計算資源が限られている端末において高品質な拡張現実表示を低遅延で実現することが可能となる。
【0052】
以上、情報システム100の処理詳細をステップS2の推論時に関して説明した。以下、情報システム100の各部の処理の詳細を、ステップS1の学習時(すなわち、生成部15における生成器G及び識別器Dのパラメータ学習時)に関して説明する。
【0053】
ステップS1では、生成部15の生成器G及び識別器DパラメータをGANで学習する。この際、学習用データとして、現在t及び過去t-τの第1描画情報x(t),x(t-τ)及び第2描画情報y(t),y(t-τ)を多数用いて、GAN等の生成モデルの枠組みに従い、生成器Gのパラメータと識別器Dのパラメータとを交互に学習する。
【0054】
従って、学習用データとしては描画対象となるアバタ等の描画されうる範囲(アバタの場合であれば、位置、姿勢、表情などで定まる範囲)を十分にカバーした認識情報時系列データ{r(t)|t=1,2,…,N}を用意しておき、これを入力として対して第1描画部21及び第2描画部13の処理をそれぞれ適用して得られる高品位の第1描画情報時系列{x(t)|t=1,2,…,N}および標準品位の第2描画情報時系列{y(t)|t=1,2,…,N}を用意する。これら2つの時系列データ{x(t)},{y(t)}から多数のt,τの組み合わせに関して第1描画情報x(t),x(t-τ)及び第2描画情報y(t),y(t-τ)を学習用データとしてピックアップし、GAN等の生成モデルの枠組みに即して生成器G及び識別器Dのパラメータを交互に学習し、収束判定を得た時点のパラメータを学習結果とすればよい。収束判定は、学習回数が閾値に到達したことや、学習の際の評価関数の値の閾値判定や、評価関数の値の変化が小さくなったと判定されたことによって判定すればよい。
【0055】
以下、説明上の記載の簡素化の観点からτ=1として固定して、具体的な学習について説明する。生成モデルとしては例えば、GANを用いることができ、GANを用いる場合、GANを構成する生成器G及び識別器Dを次式(数1)の損失関数で交互に学習すればよい。
【0056】
【0057】
ここで、LGAN(G,D)はGANの損失関数、Lpixel1(G),Lpixel2(G),Lpixel3(G)は画素レベルの損失関数、Llm(G)は特徴レベルの損失関数を表し、γpixel1,γpixel2,γpixel3,γlmはそれぞれの重み係数を表す。本実施形態では既存の枠組みに即した識別器Dの学習構成に本実施形態の生成器Gを適用した損失関数LGAN(G,D)に加えて、生成器Gの学習に特化した各種損失項Lpixel1(G),Lpixel2(G),Lpixel3(G),Llm(G)を追加したことが特徴となる。
【0058】
識別器Dの学習の際は、生成器Gのパラメータを固定するので、数1のうち、Dに依存する項である1つの損失関数LGAN(G,D)のみを用いて、この1つの損失関数の値を最大化する(maxD)ように、(すなわち、生成器Gによる贋作を見抜く性能を高めるように、)識別器Dのパラメータを更新すればよい。
【0059】
生成器Gの学習の際は、識別器Dのパラメータを固定し、数1に示される5つの項の全てを(または5つの項のうち学習サンプルが該当する一部のみを)用いて、この損失関数の値を最小化する(minG)ように、(すなわち、生成器Gによる贋作の生成能力を高めるように、)生成器Gのパラメータを学習すればよい。
【0060】
損失関数の一部であるLGAN(G,D)は次式(数2)で定義することができる。Eは期待値を表し、Gはパラメータのもとでの生成器を第1~第3入力の関数G(第1入力、第2入力、第3入力)として示し、Dはパラメータのもとでの識別器を第1及び第2入力の関数D(第1入力、第2入力)として示し、w0乃至w6は重み係数を表す。(なお、描画情報の時刻表記に関して本文中や図面中ではx(t)等の形で関数引数の形式で示したが、数式中では表示の簡素化の観点からxt等のように、下付き文字の形式で示すものとする。すなわち、「数式中のxt」は「本文中および図面中のx(t)」と同一である。)
【0061】
【0062】
学習時(後述する
図6に示す識別器Dにおいて負例が正解となる場合と、
図7~
図9の場合)において、生成器Gは第1入力として第1描画情報、第2入力として第1描画情報と同じ認識情報の第2描画情報、第3入力として第2描画情報が与えられ、第3入力に対応した第1描画情報を模擬する生成情報を生成するよう学習される。(これに従い、推論時では第1入力をx(t-τ)、第2入力をy(t-τ)、第3入力をy(t)として生成部15の生成器Gが利用され、第3入力y(t)に対応した第1描画情報x(t)を模擬する生成情報x'(t)を生成することとなる。)なお、後述する学習時のネットワーク構成を示す
図6~10では、生成器Gに対するこれら第1、第2、第3入力が、生成器Gのブロックの左側(入力段側)への3本の入力矢印として上から順に示される。
【0063】
識別器Dは2つの入力として2つの描画情報(片方が第1描画情報でもう一方が第2描画情報)が与えられ、2つの対応が正しいか否かを、当該2つの描画情報に対応する認識情報が同一か否かによって判断する。(当該判断は、入力された2つの描画情報に紐づく時刻が同一か否かによって判断することができる。)
【0064】
図6は、識別器D(及び生成器G)を学習するための正否判定のネットワーク構成の各例を構成6a~6hとして示す図である。これら複数の構成6a~6hについては、学習データとしてピックアップされたものに対応するものが選択され、識別器D及び生成器Gのパラメータ更新に利用されることとなる。なお、構成6a,6b,6c,6dについては図示されるように識別器Dに2入力を与えて正否判定を出力させることで識別器Dのみを学習する場合の構成であり、構成6e,6f,6g,6hについては識別器Dの前段に生成器Gを配置し、生成器Gに3入力を与えて模擬された第1出力を識別器Dの第1入力とし、生成器Gの第3入力を識別器Dの第2入力としても併用することで、識別器Dと生成器Gとを同時に学習する場合の構成である。
【0065】
すなわち、本実施形態において識別器Dの学習は、生成器Gによる生成情報に対する真贋判定性能を高めるために以下(1)、(2)の2通りの評価を用いることができる。片方を用いてもよいし、両方を用いてもよい。(2)の評価は、
図7~10の構成と組み合わせて生成器Gの学習に利用してもよい。
【0066】
(1)
図6の構成6a,6b,6c,6dで示される構成において、学習用に2つの入力として第1描画情報及び第2描画情報を識別器Dに与え、この2つの描画情報の認識情報が同じか否か(同時刻であるか否か)の正解(同じであれば正例(正、real)が正解、異なれば負例(否、fake)が正解)を識別器Dが出力するように学習する。(すなわち、識別器Dが2入力に対して正解を出力した場合は損失関数の値が大きくなり、正解ではない(出力が間違っている)場合は損失関数の値が小さくなる。なお、数1の通り、損失関数は生成器Gの立場での損失を表すため、生成器Gと敵対する立場にある識別器Dではこの損失が大きいほど識別性能が高くなる。)
【0067】
(2)
図6の構成6e,6f,6g,6hで示される構成において、学習用に3つの入力として以下の第1~第3入力(なお、
図7~
図10でも同様の3入力となる)を前段側に配置する生成器Gに与えた出力を中間データ(第4入力とする)として得て、後段側に配置される識別器Dにおいて、この第4入力と第3入力を2入力とし、この2入力が同一認識情報(同一時刻)であるかによらず、常に「否」が正解であるものとして出力させるように学習する。
第1入力…第1描画情報
第2入力…第1入力と同一認識情報(同一時刻)の第2描画情報
第3入力…第2描画情報(第1入力と認識情報(時刻)が同一又は異なる)
【0068】
すなわち、上記(2)においては上記(1)とは異なり、識別器Dへの2入力である前記第4入力と前記第3入力とに同一認識情報(同一時刻)が紐づいていても、「否」を正解とする。これは、識別器Dへの1番目の入力となる前記第4入力が生成器Gの出力であり、(2番目の入力である前記第3入力が真作であるのに対して)贋作に相当するためのである。
【0069】
図示されるように各構成6a~6hは以下の通りとなる。なお、これら8個の構成6a~6hはその順(当該符号末尾に付したアルファベットa~hの順)に、数2のLGAN(G,D)に現れる8個の線形和の各項に対応している。
【0070】
上記(1)に該当する構成6a,6bでは、同じ認識情報(すなわち同じ時刻)で描画された第1描画情報と第2描画情報とが入力された場合(すなわち、x(t),y(t)の2入力またはx(t-1),y(t-1)の2入力が入力された場合)は正(Real)として出力するよう学習する。一方、構成6c,6dでは、第1描画情報と異なる認識情報(すなわち、異なる時刻)の第2描画情報が入力された場合(すなわち、x(t-1),y(t)の2入力またはx(t),y(t-1)の2入力が入力された場合)は否(Fake)として出力するよう学習する。
【0071】
また、上記(2)に該当する構成6e,6fでは、生成器Gを用いて第1描画情報と同じ認識情報(すなわち同じ時刻)の第2描画情報と異なる認識情報に対応する第2描画情報とから当該異なる認識情報に対応する第1描画情報を模擬する生成情報を生成し、認識情報が一致する第2描画情報と識別器Dに入力した場合も否(Fake)として出力するよう学習する。例えば構成6eでは、生成器Gに3入力を順番にx(t-1),y(t-1),y(t)として与えて模擬された生成情報x'(t)を出力し、生成器Gの当該出力した生成情報x'(t)を識別器Dの第1入力とし、生成器Gの第3入力y(t)を識別器Dの第2入力とし、識別器Dの2入力がx'(t)及びy(t)であることから、否として出力するように学習させる。
【0072】
構成6g,6hも同様に、生成器Gを用いて第1描画情報と同じ認識情報(同じ時刻)の第2描画情報とから当該第2描画情報に対応する第1描画情報を模擬する生成情報を生成し、認識情報が一致する第二の描画情報を入力した場合も否(Fake)として出力するよう学習する。いずれも生成器Gで生成された描画情報を否とするよう識別器Dを学習することで識別器Dの性能を向上させる。
【0073】
以上、
図6の構成では、識別器Dの入力について、構成6a,6bの場合(第1描画情報及び第2描画情報で構成される2入力の両方が「真作」(第1描画部21または第2描画部13の出力)であり、且つ、同一時刻(同一認識情報)である場合(構成6a,6b)のみに正として出力させ、それ以外の全ての場合(2入力の両方が「真作」だが時刻が異なる場合(構成6c,6d)や、2入力の時刻が同一であるが片方が「贋作」である場合(構成6e~6h))について否として出力させるように学習することで識別器D(及び生成器G)の性能を向上させることができる。
【0074】
以下、
図7~
図10を参照して、生成器Gの学習に特化した構成を説明する。なお、生成器Gに関して、推論時には第1入力x(t-1)、第2入力y(t-1)及び第3入力y(t)が入力され、第1入力及び第2入力の時刻が過去であり第3入力の時刻が現在であるという時刻に関する制約が、前述した推論時の目的上(サーバ20側から未受信の第1描画情報x(t)を端末10において模擬生成するという目的上)、自ずと課されることとなる。一方で学習時には生成器Gへの3入力に関してこの推論時の時刻に関する制約は課さなくともよく、学習データを効率的に活用して生成器Gの学習を可能とすべく、共通時刻で与えられる第1描画情報及び第2描画情報としての第1入力及び第2入力と、任意時刻で与えられる第2描画情報としての第3入力と、を用いればよい。(すなわち、第3入力の時刻は第1・第2入力の共通時刻よりも未来(推論時と同様)であってもよいし、推論時とは異なり、第1・第2入力よりも過去の時刻であってもよいし、第1・第2入力と同一の時刻であってもよい。)
【0075】
なお、生成器Gに対して学習用に用いる3入力について、その時刻の関係(第1及び第2入力の時刻(共通時刻)と、第3入力の時刻との関係)に応じて以下のように、
図7~
図10(及び
図6)の構成のうち、対応する構成を用いればよい。
(1) 第1及び第2入力の時刻と第3入力の時刻とが異なる場合、
図7,
図9,
図10(及び
図6の構成6e,6f)の全部または一部の構成を用いればよい。
(2) 第1及び第2入力の時刻と第3入力の時刻とが同一の場合、
図8(及び
図6の構成6g,6h)の全部または一部の構成を用いればよい。
【0076】
図7~
図9の構成ではいずれにおいても、生成器G(
図7では前段側の生成器G)への3入力のうち第1入力となる第1描画情報を該当時刻(第1入力の時刻または第3入力の時刻)において模擬するものとして生成情報を出力(
図7では後段側の生成器Gにおいて出力)し、この出力を当初の第1入力と比較して生成精度の評価を行う(出力が第1入力と類似しているほど、損失関数の値が低くなるような評価を行う)こととなる。
図10の構成は同様の方針での評価を、追加される算出器Vを介して行うものである。
【0077】
L
pixel1は次式(数3)で定義することができる。
図7にこの次式で評価する構成7a及び7bを示す。(なお、数3は構成7aについて示すが、文字を入れ替えることで構成7bについても全く同様に定義できる。)
【0078】
【0079】
構成7aではまず、前段側の生成器Gを用いて第1描画情報x(t-1)と同時刻の第2描画情報y(t-1)とから現時刻の第二の描画情報y(t)(それぞれ第1入力x(t-1),第2入力y(t-1)、第3入力y(t)となる)に対応する第1描画情報x(t)を模擬する生成情報x'(t)を生成し、後段側の生成器Gの第1入力とする。次に、後段側の生成器Gを用いて、当該生成情報x'(t)と同時刻の第2描画情報y(t)とから前記第2描画情報y(t-1)(それぞれ第1入力x'(t),第2入力y(t)、第3入力y(t-1)となる)に対応する第1描画情報x(t-1)を模擬する生成情報x'(t-1)を生成する。最後に、
図7中に点線矢印で示されるように、当該生成情報x'(t-1)と第1描画情報x(t-1)とが一致する(後段側の生成器Gの出力x'(t-1)と前段側の生成器Gの第1入力x(t-1)とが一致する)ようにするため、画素レベルで両者の二乗誤差和を損失関数とする。当該二乗誤差和は数3に示される通りである。
【0080】
構成7aにおいて時刻t-1と時刻tを入れ替えた場合の二乗誤差和を損失関数とすることもでき、構成7bとしてこれを示す。また、これら構成7a,7bの両者の和を損失関数としてもよい。生成情報x'(t)から反復的に生成情報x'(t-1)を生成し損失を計算することで生成器Gの性能を向上させる効果が期待できる。
【0081】
L
pixel2は次式(数4)で定義することができる。
図8にこの次式で評価する構成8a及び8bを示す。(なお、数4は構成8aについて示すが、文字を入れ替えることで構成8bについても全く同様に定義できる。)
【0082】
【0083】
構成8aではまず、生成器Gを用いて第1描画情報x(t-1)と同時刻の第2描画情報y(t-1)とから同じく第2描画情報y(t-1)(それぞれ第1入力x(t-1)、第2入力y(t-1)、第3入力y(t-1))に対応する第1描画情報x(t-1)を模擬する生成情報x'(t-1)を生成する。次いで、点線矢印で示されるように、当該生成情報x'(t-1)と第1描画情報x(t-1)とが一致する(生成器Gの出力x'(t)と第1入力x(t)とが一致する)ようにするため、画素レベルで両者の二乗誤差和を損失関数とする。当該二乗誤差和は数4に示される通りである。
【0084】
構成8aにおいて時刻t-1と時刻tを入れ替えた場合の二乗誤差和を損失関数とすることもでき、構成8bとしてこれを示す。また、これら構成8a,8bの両者の和を損失関数としてもよい。入力x(t-1)と一致するような生成情報x'(t-1)を生成し損失を計算することで生成器Gの性能を向上させる効果が期待できる。
【0085】
L
pixel3は次式(数5)で定義することができる。
図9にこの次式で評価する構成9a及び9bを示す。(なお、数5は構成9aについて示すが、文字を入れ替えることで構成9bについても全く同様に定義できる。)
【0086】
【0087】
構成9aではまず、生成器Gを用いて第1描画情報x(t-1)と同時刻の第2描画情報y(t-1)とから現時刻の第2描画情報y(t)(それぞれ第1入力x(t-1)、第2入力y(t-1)、第3入力y(t))に対応する第1描画情報x(t)を模擬する生成情報x'(t)を生成する。次いで、点線矢印で示されるように、当該生成情報x'(t)と現時刻の第1描画情報x(t)とが一致する(生成器Gの出力x'(t)と、この「真作」としてのx(t)とが一致する)ようにするため、画素レベルで両者の二乗誤差和を損失関数とする。当該二乗誤差和は数5に示される通りである。
【0088】
構成9aにおいて時刻t-1と時刻tを入れ替えた場合の二乗誤差和を損失関数とすることもでき、構成9bとしてこれを示す。また、これら構成9a,9bの両者の和を損失関数としてもよい。システムとしての出力x(t)と一致するような生成情報x'(t)を生成し損失を計算することで生成器の性能を向上させる効果が期待できる。
【0089】
L
lmは次式(数6)で定義することができる。
図10にこの次式で評価する構成10a及び10bを示す。(なお、数6は構成10aについて示すが、文字を入れ替えることで構成10bについても全く同様に定義できる。)
【0090】
【0091】
ここで、Vは特徴量算出処理を表し、同符号Vを用いて
図4にオプション構成として示した算出器Vが、当該特徴量算出の処理を担うものとして学習時に利用される。(前述の通り推論時には識別器Dのみが利用され、この算出器V(及び識別器D)は利用されない。)
【0092】
算出器Vによる特徴量算出には、既存の深層学習のエンコーダ(Encoder)ネットワーク(予め学習してそのパラメータを求めておく)などを利用できる。人物モデルの場合は顔や体の特徴点座標を利用してもよい。第1描画情報を模擬した生成情報と第1描画情報とで描画態様は異なるが、顔の特徴点座標はほぼ一致する座標が得られるため、画素値(全体)の相違に代えて、この特徴点座標のみにおける相違を評価するのが
図10(及び数6)である。
【0093】
図10の構成10aでは、まず生成器Gを用いて第1描画情報x(t-1)と同時刻の第2描画情報y(t-1)と現時刻の第2描画情報y(t)とから現時刻の第2描画情報y(t)(それぞれ第1入力x(t-1)、第2入力y(t-1)、第3入力y(t))に対応する第1描画情報x(t)を模擬する生成情報x'(t)を生成する。次に、当該生成情報x'(t)(生成器Gの出力)から特徴量算出を行う算出器Vにより顔の特徴点座標を算出し、V(x'(t))として出力する。続いて、第2描画情報y(t)(生成器Gの第3入力)からも特徴量算出を行う算出器Vにより顔の特徴点座標を算出し、V(y(t))として出力する。最後に、点線矢印で示されるように、当該特徴量V(x'(t))とV(y(t))とが一致するようにするため、画素レベルで両者の二乗誤差和を損失関数とする。当該二乗誤差和は数6に示される通りである。
【0094】
構成10aにおいて時刻t-1と時刻tを入れ替えた場合の二乗誤差和を損失関数とすることもでき、構成10bとしてこれを示す。また、これら構成10a,10b両者の線形和を損失関数としてもよい。描画態様が異なる第1描画情報を模擬した生成情報及び第2描画情報においても同一の特徴量を算出し損失を計算することで生成器Gの性能を向上させる効果が期待できる。
【0095】
以上、ステップS1における生成部15の学習の詳細を説明した。以下、本発明に関する種々の補足例、追加例、代替例などに関して説明する。
【0096】
(1) 本発明の実施形態によれば、アバタ描画により臨場感ある遠隔コミュニケーションを実現可能である。これにより、遠隔地への実際の移動を必ずしも必須とせずに遠隔会議等を行うことが可能となり、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標(SDGs)の目標13「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。
【0097】
(2) 「認識情報r(t)」は、アバタや3次元拡張現実表示の描画を行うためのものとして説明したが、より一般には、任意内容のコンテンツ(3次元でなくてもよい)を各時刻tにおいて描画する(サーバサイドレンダリング方式を用いて同一コンテンツに関してサーバ20で高品位に描画し、端末10で標準品位で描画する)際の、コンテンツ内容を指定する、「コンテンツ描画指定情報r(t)」について同様に、本発明を適用可能である。
【0098】
(3) 学習の際の生成器G及び識別器Dのパラメータ更新を行うための誤差逆伝播を行う構成は、
図6~
図10で示したもののうち、損失評価に用いたものの全てまたは一部を用いるようにすればよい。例えば識別器Dのパラメータ更新に関して、損失評価に
図6の構成6a~6dのみを用いた場合、この構成(識別器Dが1個だけ配置されるネットワーク構成)で誤差逆伝播を行なえばよい。構成6e~6hのみを用いた場合、この構成(識別器Dが前段、生成器Gが後段の構成)で生成器Gのパラメータを固定したうえで誤差逆伝播を行なえばよい。構成6a~6dと構成6e~6hとの組み合わせ(重み付け和)で損失関数を評価し、誤差逆伝播には片方あるいは両方を用いてもよいし、学習のためのバッチごとにネットワーク構成を使い分けてもよい。
【0099】
生成器Gのパラメータ更新に関しても同様に、学習のためのバッチごとに
図7~
図10のいずれかのみを用いるようにして損失関数を評価し、誤差逆伝播は当該評価した単一のネットワーク構成で行うようにしてもよいし、構成を組み合わせてもよい。(単独のものを用いる場合、例えば、
図7の構成で3入力がx(t-1),y(t-1),y(t)あるいはx(t),y(t),y(t-1)で構成される学習用バッチデータを用いて損失関数を評価し、誤差逆伝播は
図7の構成で、前段及び後段に2回配置した生成器G(この2つの生成器Gのパラメータは共通)において2回連続して実施するようにしてもよいし、同様の3入力で構成される学習用バッチデータを用いて
図9の構成で損失関数を評価し、誤差逆伝播は
図9の構成で、1段のみで構成させる生成器Gについて1回だけ実施するようにしてもよい。)損失関数評価及び誤差逆伝播に関して、
図7~
図10の構成の組み合わせに対してさらに
図6の構成6e~6hも併せて組み合わせてもよい。
【0100】
(4)
図11は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。情報システム100を構成する端末10及びサーバ20の各々は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70で端末10及びサーバ20の各々を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78、マイク79及びスピーカ80と、これらの間でデータを授受するためのバスBSと、を備える。
【0101】
情報システム100の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。提示部16におけるアバタ表示機能はディスプレイ76において実現し、撮像部11はカメラ78として実現してよい。アバタコミュニケーションを行う場合のユーザUの発話について、マイク79で収録し、スピーカ80を介して相手の音声を出力するようにしてもよい。
【符号の説明】
【0102】
100…情報システム、10…端末、20…サーバ
11…撮像部、12…認識部、13…第2描画部、14…記憶部、15…生成部、16…提示部、21…第1描画部