特許7597687 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許7597687学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-02

(45)【発行日】2024-12-10

(54)【発明の名称】学習方法

(51)【国際特許分類】

G06T 13/40 20110101AFI20241203BHJP

G06T 3/4076 20240101ALI20241203BHJP

G06T 3/4046 20240101ALI20241203BHJP

G06N 3/094 20230101ALI20241203BHJP

【ＦＩ】

G06T13/40

G06T3/4076

G06T3/4046

G06N3/094

【請求項の数】 5

(21)【出願番号】P 2021145768

(22)【出願日】2021-09-07

(65)【公開番号】P2023038843

(43)【公開日】2023-03-17

【審査請求日】2023-08-07

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100092772

【弁理士】

【氏名又は名称】阪本清孝

(74)【代理人】

【識別番号】100119688

【弁理士】

【氏名又は名称】田邉壽二

(72)【発明者】

【氏名】加藤晴久

【審査官】益戸宏

(56)【参考文献】

【文献】米国特許出願公開第２０１６／０３７３５０２（ＵＳ，Ａ１）

【文献】特開２０１９－０７９４３６（ＪＰ，Ａ）

【文献】特開２０２０－０９８５９７（ＪＰ，Ａ）

【文献】特開２０２０－０２４６１２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１３／００

Ｇ０６Ｔ３／００

Ｇ０６Ｎ３／０９４

(57)【特許請求の範囲】

【請求項1】

各時刻におけるコンテンツ描画指定情報に従って第２描画態様の描画を行うことで各時刻における第２描画情報を得る第２描画部を備え、
前記各時刻におけるコンテンツ描画指定情報に従って前記第２描画態様よりも高品位の第１描画態様で描画を行うサーバから、当該描画された各時刻における第１描画情報を受信し、
現時刻および過去時刻における第２描画情報と、当該現時刻において前記受信済みとなっている、当該過去時刻における第１描画情報と、の３つの描画情報を入力として、当該現時刻において前記サーバにて描画される第１描画情報を模したものとして、当該現時刻における前記コンテンツ描画指定情報に従った前記第１描画態様における描画結果に相当する生成情報を生成する生成部と、を備える端末であって、
前記生成部は、予め学習された敵対的生成ネットワークにおける生成器及び識別器のうち生成器を用いて、前記３つの描画情報を入力として、前記生成情報を生成する端末に対して、
前記敵対的生成ネットワークにおける生成器及び識別器のパラメータの学習方法であって、
各時刻におけるコンテンツ描画指定情報に従って第２描画態様の描画が行われることで用意されている各時刻における第２描画情報と、
前記各時刻におけるコンテンツ描画指定情報に従って前記第２描画態様よりも高品位の第１描画態様で描画が行われることで用意されている各時刻における第１描画情報と、から、第１時刻及び第２時刻に該当する第２描画情報及び第１描画情報を学習用のデータとして選択し、
前記生成器について、学習用の、第１入力である第１時刻に該当する第１描画情報と、第２入力である第１時刻に該当する第２描画情報と、第３入力である第２時刻に該当する第２描画情報と、から、当該学習用の第２時刻に該当する第１描画情報を模擬するような生成情報を生成するようにパラメータを学習し、
前記識別器について、前記学習用の第１描画情報及び第２描画情報が真作であり、前記生成器が生成した生成情報が贋作であるものとして、真贋を判定するようにパラメータを学習し、
前記識別器について真贋を判定するようにパラメータ学習することに、
前記識別器に時刻が同一または異なる学習用の第１描画情報及び第２描画情報を入力し、当該時刻が同一である場合を正と判定し、当該時刻が異なる場合を否と判定するように、前記識別器のパラメータを学習すること（６ａ、６ｂ、６ｃ、６ｄ）が含まれることを特徴とする学習方法。

【請求項2】

前記識別器について真贋を判定するようにパラメータ学習することに、
前記第１時刻及び第２時刻が同一である（６ｇ、６ｈ）か異なる（６ｅ、６ｆ）かを問わずに学習用のデータの少なくとも一部を選択し、
前記生成器に学習用の前記第１入力ないし第３入力を入力して生成される生成情報と、前記生成器へ入力された第３入力と、の２つを前記識別器に入力し、
当該識別器への当該２つの入力に紐づいた時刻が同一であっても、当該２つの入力のうちの片方が前記生成部によって生成された生成情報に該当することから、前記時刻が異なる場合と同様に否と判定するように、前記識別器のパラメータを学習すること（６ｅ、６ｆ、６ｇ、６ｈ）が含まれることを特徴とする請求項１に記載の学習方法。

【請求項3】

各時刻におけるコンテンツ描画指定情報に従って第２描画態様の描画を行うことで各時刻における第２描画情報を得る第２描画部を備え、
前記各時刻におけるコンテンツ描画指定情報に従って前記第２描画態様よりも高品位の第１描画態様で描画を行うサーバから、当該描画された各時刻における第１描画情報を受信し、
現時刻および過去時刻における第２描画情報と、当該現時刻において前記受信済みとなっている、当該過去時刻における第１描画情報と、の３つの描画情報を入力として、当該現時刻において前記サーバにて描画される第１描画情報を模したものとして、当該現時刻における前記コンテンツ描画指定情報に従った前記第１描画態様における描画結果に相当する生成情報を生成する生成部と、を備える端末であって、
前記生成部は、予め学習された敵対的生成ネットワークにおける生成器及び識別器のうち生成器を用いて、前記３つの描画情報を入力として、前記生成情報を生成する端末に対して、
前記敵対的生成ネットワークにおける生成器及び識別器のパラメータの学習方法であって、
各時刻におけるコンテンツ描画指定情報に従って第２描画態様の描画が行われることで用意されている各時刻における第２描画情報と、
前記各時刻におけるコンテンツ描画指定情報に従って前記第２描画態様よりも高品位の第１描画態様で描画が行われることで用意されている各時刻における第１描画情報と、から、第１時刻及び第２時刻に該当する第２描画情報及び第１描画情報を学習用のデータとして選択し、
前記生成器について、学習用の、第１入力である第１時刻に該当する第１描画情報と、第２入力である第１時刻に該当する第２描画情報と、第３入力である第２時刻に該当する第２描画情報と、から、当該学習用の第２時刻に該当する第１描画情報を模擬するような生成情報を生成するようにパラメータを学習し、
前記識別器について、前記学習用の第１描画情報及び第２描画情報が真作であり、前記生成器が生成した生成情報が贋作であるものとして、真贋を判定するようにパラメータを学習し、
前記生成器についてパラメータ学習することに、
前記第１時刻及び第２時刻を異なる時刻として学習用のデータの少なくとも一部を選択し、
前記生成器を前段側生成器及び後段側生成器の２段組みで配置し、
前記前段側生成器に学習用の前記第１入力ないし第３入力を入力することで前記後段側生成器の第１入力を生成し、
前記後段側生成器の第２入力及び第３入力としてそれぞれ、前記前段側生成器に入力された第３入力及び第２入力を用いて、
前記後段側生成器が出力した生成情報が、前記前段側生成器への第１入力を模擬するように学習すること（７ａ、７ｂ）が含まれることを特徴とする学習方法。

【請求項4】

各時刻におけるコンテンツ描画指定情報に従って第２描画態様の描画を行うことで各時刻における第２描画情報を得る第２描画部を備え、
前記各時刻におけるコンテンツ描画指定情報に従って前記第２描画態様よりも高品位の第１描画態様で描画を行うサーバから、当該描画された各時刻における第１描画情報を受信し、
現時刻および過去時刻における第２描画情報と、当該現時刻において前記受信済みとなっている、当該過去時刻における第１描画情報と、の３つの描画情報を入力として、当該現時刻において前記サーバにて描画される第１描画情報を模したものとして、当該現時刻における前記コンテンツ描画指定情報に従った前記第１描画態様における描画結果に相当する生成情報を生成する生成部と、を備える端末であって、
前記生成部は、予め学習された敵対的生成ネットワークにおける生成器及び識別器のうち生成器を用いて、前記３つの描画情報を入力として、前記生成情報を生成する端末に対して、
前記敵対的生成ネットワークにおける生成器及び識別器のパラメータの学習方法であって、
各時刻におけるコンテンツ描画指定情報に従って第２描画態様の描画が行われることで用意されている各時刻における第２描画情報と、
前記各時刻におけるコンテンツ描画指定情報に従って前記第２描画態様よりも高品位の第１描画態様で描画が行われることで用意されている各時刻における第１描画情報と、から、第１時刻及び第２時刻に該当する第２描画情報及び第１描画情報を学習用のデータとして選択し、
前記生成器について、学習用の、第１入力である第１時刻に該当する第１描画情報と、第２入力である第１時刻に該当する第２描画情報と、第３入力である第２時刻に該当する第２描画情報と、から、当該学習用の第２時刻に該当する第１描画情報を模擬するような生成情報を生成するようにパラメータを学習し、
前記識別器について、前記学習用の第１描画情報及び第２描画情報が真作であり、前記生成器が生成した生成情報が贋作であるものとして、真贋を判定するようにパラメータを学習し、
前記生成器についてパラメータ学習することに、
前記第１時刻及び第２時刻を同一時刻として学習用のデータの少なくとも一部を選択し、
前記生成器に学習用の前記第１入力ないし第３入力を入力することで出力される生成情報が、学習用の前記第１入力を模擬するように学習すること（８ａ、８ｂ）が含まれることを特徴とする学習方法。

【請求項5】

各時刻におけるコンテンツ描画指定情報に従って第２描画態様の描画を行うことで各時刻における第２描画情報を得る第２描画部を備え、
前記各時刻におけるコンテンツ描画指定情報に従って前記第２描画態様よりも高品位の第１描画態様で描画を行うサーバから、当該描画された各時刻における第１描画情報を受信し、
現時刻および過去時刻における第２描画情報と、当該現時刻において前記受信済みとなっている、当該過去時刻における第１描画情報と、の３つの描画情報を入力として、当該現時刻において前記サーバにて描画される第１描画情報を模したものとして、当該現時刻における前記コンテンツ描画指定情報に従った前記第１描画態様における描画結果に相当する生成情報を生成する生成部と、を備える端末であって、
前記生成部は、予め学習された敵対的生成ネットワークにおける生成器及び識別器のうち生成器を用いて、前記３つの描画情報を入力として、前記生成情報を生成する端末に対して、
前記敵対的生成ネットワークにおける生成器及び識別器のパラメータの学習方法であって、
各時刻におけるコンテンツ描画指定情報に従って第２描画態様の描画が行われることで用意されている各時刻における第２描画情報と、
前記各時刻におけるコンテンツ描画指定情報に従って前記第２描画態様よりも高品位の第１描画態様で描画が行われることで用意されている各時刻における第１描画情報と、から、第１時刻及び第２時刻に該当する第２描画情報及び第１描画情報を学習用のデータとして選択し、
前記生成器について、学習用の、第１入力である第１時刻に該当する第１描画情報と、第２入力である第１時刻に該当する第２描画情報と、第３入力である第２時刻に該当する第２描画情報と、から、当該学習用の第２時刻に該当する第１描画情報を模擬するような生成情報を生成するようにパラメータを学習し、
前記識別器について、前記学習用の第１描画情報及び第２描画情報が真作であり、前記生成器が生成した生成情報が贋作であるものとして、真贋を判定するようにパラメータを学習し、
前記生成器についてパラメータ学習することに、
前記第１時刻及び第２時刻を異なる時刻として学習用のデータの少なくとも一部を選択し、
前記生成器に学習用の前記第１入力ないし第３入力を入力することで出力される生成情報を、予め学習された特徴算出器へと入力して第１特徴情報を出力し、
前記生成器に入力された前記第３入力を前記特徴算出器へと入力して第２特徴情報を出力し、
前記第１特徴情報が前記第２特徴情報を模擬するように学習すること（１０ａ、１０ｂ）が含まれることを特徴とする学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、サーバサイドレンダリング方式を用いて効率的に描画を行う端末と、この端末のパラメータの学習方法と、プログラムと、に関する。

【背景技術】

【0002】

撮像対象と撮像部との相対的な位置および姿勢を推定し関連情報を提示する拡張現実において、リアルタイムかつ高品位に情報を提示することができれば、利用者の利便性を向上させることができる。この拡張現実を実現する従来技術の例として、特許文献１に開示のものがあり、ここでは以下のような手法が公開されている。

【0003】

特許文献１では、サーバに備え付けられた撮像部で対象を撮像し撮像情報に撮像された撮像対象を認識した結果に応じて関連情報を描画した上で、描画結果を端末へ伝送し端末で提示する手法を開示している。このとき、サーバの高性能な計算リソースを利用することで関連情報は高品位に描画されうる。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１４－４４６５５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１では、サーバサイドレンダリング方式の採用によりサーバの豊富な計算資源を利用して描画できるが、映像伝送に時間がかかるため、関連情報が端末に提示されるまでに遅延が発生するという問題がある。

【0006】

本発明は上記従来技術の課題に鑑み、サーバサイドレンダリング方式を効率的に活用して、端末の情報に対応するサーバの情報を端末で生成して遅延の影響を低減する端末を提供することを第１の目的とする。また、当該端末のパラメータの学習方法を提供することを第２の目的とする。また、当該端末に対応するプログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

上記第１の目的を達成するため、本発明は、端末であって、各時刻におけるコンテンツ描画指定情報に従って第２描画態様の描画を行うことで各時刻における第２描画情報を得る第２描画部を備え、前記各時刻におけるコンテンツ描画指定情報に従って前記第２描画態様よりも高品位の第１描画態様で描画を行うサーバから、当該描画された各時刻における第１描画情報を受信し、現時刻および過去時刻における第２描画情報と、当該現時刻において前記受信済みとなっている、当該過去時刻における第１描画情報と、の３つの描画情報を入力として、当該現時刻において前記サーバにて描画される第１描画情報を模したものとして、当該現時刻における前記コンテンツ描画指定情報に従った前記第１描画態様における描画結果に相当する生成情報を生成する生成部と、を備えることを第１の特徴とする。

【0008】

また、上記第２の目的を達成するため、前記端末の生成部は、予め学習された敵対的生成ネットワークにおける生成器及び識別器のうち生成器を用いて、前記３つの描画情報を入力として、前記生成情報を生成するものであって、本発明は、前記敵対的生成ネットワークにおける生成器及び識別器のパラメータの学習方法であって、各時刻におけるコンテンツ描画指定情報に従って第２描画態様の描画が行われることで用意されている各時刻における第２描画情報と、前記各時刻におけるコンテンツ描画指定情報に従って前記第２描画態様よりも高品位の第１描画態様で描画が行われることで用意されている各時刻における第１描画情報と、から、第１時刻及び第２時刻に該当する第２描画情報及び第１描画情報を学習用のデータとして選択し、前記生成器について、学習用の、第１入力である第１時刻に該当する第１描画情報と、第２入力である第１時刻に該当する第２描画情報と、第３入力である第２時刻に該当する第２描画情報と、から、当該学習用の第２時刻に該当する第１描画情報を模擬するような生成情報を生成するようにパラメータを学習し、前記識別器について、前記学習用の第１描画情報及び第２描画情報が真作であり、前記生成器が生成した生成情報が贋作であるものとして、真贋を判定するようにパラメータを学習することを第２の特徴とする。

【発明の効果】

【0009】

前記第１の特徴によれば、前記３つの入力から現時刻の第１描画情報を模したものとして生成情報を生成することで、サーバサイドレンダリング方式を効率的に活用して、遅延の影響を低減することが可能となる。前記第２の特徴によれば、前記端末で用いる敵対的生成ネットワークにおける生成器及び識別器のパラメータを学習することにより、第１描画情報を模したものとしての高品質な生成情報を生成することができる。

【図面の簡単な説明】

【0010】

【図1】一実施形態に係る情報システムの構成図（描画情報の模式例を含む）である。

【図2】一実施形態に係る情報システムの端末及びサーバの機能ブロック図である。

【図3】情報システムにおけるリアルタイムの離散的な各時刻t(t=1,2,…)の動作シーケンスの一例を示す図である。

【図4】一実施形態に係る生成部の機能ブロック図である。

【図5】一実施形態に係る情報システムの動作のフローチャートである。

【図6】識別器を学習するための正否判定のネットワーク構成の各例を構成6a～6hとして示す図である。

【図7】損失関数L_pixel1を評価する構成を構成7a及び7bとして示す図である。

【図8】損失関数L_pixel2を評価する構成を構成8a及び8bとして示す図である。

【図9】損失関数L_pixel3を評価する構成を構成9a及び9bとして示す図である。

【図10】損失関数L_lmを評価する構成を構成10a及び10bとして示す図である。

【図11】一般的なコンピュータにおけるハードウェア構成を示す図である。

【発明を実施するための形態】

【0011】

図１は、一実施形態に係る情報システム100の構成図（描画情報の模式例を含む）であり、情報システム100はインターネット等のネットワークNWを介して相互に通信可能とされる端末10及びサーバ20で構成される。なお、図１ではシステム構成に加えてさらに、説明欄CL1及びCL2にそれぞれ端末10及びサーバ20で用いる描画情報の模式例が示されるが、この模式例については以降の説明の際において適宜、参照する。

【0012】

情報システム100はその全体的な動作として、例えば30fps（フレーム毎秒）や120fpsといったような所定の表示処理レートに応じたリアルタイムの各時刻t(t=1,2,…)において端末10で対象の撮像を行い、撮像された対象に応じた描画処理を端末10及びサーバ20において行い、描画結果を端末10においてリアルタイムで提示することで、端末10を利用するユーザUに対して撮像された対象に応じた拡張現実表示や仮想現実表示を提供するものである。

【0013】

以下、説明例として、撮像される対象は端末10を利用しており室内等のフィールドFに存在するユーザU自身であり、当該撮像された対象に応じた描画処理はユーザUのアバタ、すなわち、ユーザUの顔の表情及び／又は身体のポーズに連動してリアルタイムで動くアバタ（ユーザUの表情やポーズがリアルタイムで反映されるアバタ）の描画処理である場合について説明する。説明欄CL1及びCL2では当該アバタの模式例が顔のみについて示される。

【0014】

図２は、一実施形態に係る情報システム100の端末10及びサーバ20の機能ブロック図である。図示するように機能ブロック構成として、端末10は撮像部11、認識部12、第２描画部13、記憶部14、生成部15及び提示部16を備え、サーバ20は第１描画部21を備える。

【0015】

図２内にも示されるように、リアルタイムの各時刻tにおいて、各機能部において次の処理がなされる。

【0016】

撮像部11は撮像を行って得られる撮像画像P(t)を認識部12へ出力する。認識部12は撮像画像P(t)を認識して得られる認識情報r(t)を第２描画部13及び第１描画部21へと出力（ここで、第１描画部21への出力は端末10からサーバ20へとネットワークNWを介した送信となる）する。第２描画部13は認識情報r(t)に従ってユーザUのアバタを描画することで第２描画情報y(t)を得て記憶部14に出力する。

【0017】

第１描画部21は認識情報r(t)に従ってユーザUのアバタを描画することで第１描画情報x(t)を得て生成部15へと出力（ここで、生成部15への出力はサーバ20から端末10へとネットワークNWを介した送信となる）する。生成部15は、記憶部14に記憶されている現在時刻tの第２描画情報y(t)及び過去時刻t-τ（τ>0）の第２描画情報y(t-τ)と、第１描画部21から得た過去時刻t-τの第１描画情報x(t-τ)と、を入力として、第１描画部21で現在時刻tにおいて描画される第１描画情報x(t)を模したものとしての生成情報x'(t)を生成し、提示部16に出力する。（なお、生成部15における当該処理の技術的意義等に関しては、後述する図３～図５等においてさらに説明する。）提示部16はこの生成情報x'(t)（第１描画情報x(t)を模したものでありユーザUのアバタの描画結果となる）を表示する。

【0018】

図３は、情報システム100における上記リアルタイムの離散的な各時刻t(t=1,2,…)の動作シーケンスの一例を示す図である。図３では、リアルタイムの処理タイミングである任意の時刻tにおける情報システム100での処理ステップが、図２に示す各機能部の各処理において発生する情報の授受の流れと共に示されている。図３にて、図２に示される端末10及びサーバ20の各機能部に付された縦線は下方向が共通の時間進行を表す、各機能部における処理のタイムラインであり、当該縦線上のバー領域は、当該機能部において処理が行われている時間帯を模式的に表したものであり、一実施形態においてリアルタイムの離散的な各時刻t(t=1,2,…)の間隔内において処理が完了する連続的な時間帯を模式的に表すものである。図３では横方向での矢印線が、各機能部間での情報の授受の流れを表している。

【0019】

図３では、図２の説明に用いた過去時刻t-τ（τ>0）と現在時刻tとの処理がシーケンスとして示される。図３の模式例に示される通り各処理部の処理遅延（処理完了に要する時間）及び伝送遅延（特に、端末10とサーバ20との間のネットワークNWを介した情報送信における伝送遅延）の存在により、生成部15において端末10内で現在時刻tにおいて撮像した撮像画像P(t)から生成情報x'(t)をアバタ描画結果として生成する際に、サーバ20の第１描画部21から送信され端末10において受信済みとなっている最新の第１描画情報は、現在時刻tの第１描画情報x(t)ではなく、過去時刻t-τの第１描画情報x(t-τ)（τ>0）である。すなわち、過去時刻t-τとは、現在時刻tにおいて端末10において受信済みとなっている最新の第１描画情報に紐づいた過去時刻（タイムスタンプ）である。

【0020】

図４は、一実施形態に係る生成部15の機能ブロック図であり、生成部15は、生成器G及び識別器Dと、オプション構成としての算出器Vと、を備える。図５は、一実施形態に係る情報システム100の動作のフローチャートである。

【0021】

以上の図１～３で説明してきた情報システム100におけるリアルタイムでのアバタ描画は、図５のステップS2において行われるものであり、これを可能にするための事前準備としてステップS1が存在する。

【0022】

ステップS1では、生成部15の生成器G（及び識別器D）のパラメータを、深層学習分野における既存手法であるGAN（敵対的生成ネットワーク）の枠組みに即して予め学習しておく。このステップS1で学習したパラメータを利用して、ステップS2において生成部15の生成器Gによる推論処理が可能となり、情報システム100におけるリアルタイムでのアバタ描画及び提示が可能となる。

【0023】

図４（及び図５のステップS2内の記載）に示されるように、推論時において、生成部15のパラメータ学習済みの生成器Gでは、現在時刻t及び過去時刻t-τの第２描画情報y(t)及びy(t-τ)と、過去時刻t-τの第１描画情報x(t-τ)と、の３つの描画情報を入力として、現在時刻tの第１描画情報x(t)を模したものとしての現在時刻tの生成情報x'(t)を生成する。

【0024】

詳細を後述するように、各時刻t（過去時刻t-τも含む）において、第１描画部21及び第２描画部13は同じ認識情報r(t)（ユーザUの表情やポーズを表す情報）を入力として、ユーザUのアバタを同じ状態（表情やポーズや描画するのに用いる仮想カメラ位置姿勢（描画基準となる視点の位置姿勢）に関して同じ状態）で描画して、それぞれ第１描画情報x(t)及び第２描画情報y(t)を得るが、第１描画情報x(t)及び第２描画情報y(t)では描画品位のみが異なる。すなわち、第１描画情報x(t)は、業務用サーバ機等として実現されるサーバ20の豊富な計算リソースを利用して高品位に描画されるのに対し、第２描画情報y(t)は、一般ユーザのスマートフォン等で実現される端末10の限られた計算リソースを利用して標準品位（サーバ20側との比較で低品位）に描画される。

【0025】

この、同一状態描画（同一内容描画）における描画品位の相違に関して、図１の説明欄CL1,CL2に模式例が示される。ユーザUのアバタ（顔のみ）について描画した第１描画情報x(t),x(t-τ)と第２描画情報y(t),y(t-τ)とがそれぞれの時刻t,t-τにおいて、アバタの表情（描画に用いた認識情報が反映されて定まる表情）及び見えている角度（描画のための仮想カメラ配置で定まる角度）の観点から同一内容であるが、例えば、用いる光源モデルの観点から、第１描画情報の方がより計算負荷の高い光源モデルで描画されることにより、第１描画情報の方が第２描画情報よりも高品位に描画されている。

【0026】

以上のような第１描画情報と第２描画情報との品位相違を前提として、推論時の生成器Gでは、前記３つの描画情報y(t-τ),y(t),x(t-τ)を入力として生成情報x'(t)を生成する。この３つの描画情報を入力とする意義は以下の通りである。（なお、図１の説明欄CL1内には、以下の加工情報mod及び高品位化情報highの適用関係が模式的に示されている。）

【0027】

（１）標準品位の描画結果である２つの第２描画情報y(t-τ)及びy(t)から、アバタ描画結果を過去時刻t-τの状態y(t-τ)から現在時刻tの状態y(t)へと変形等して加工する情報modを推定できる。同様に、標準品位及び高品位の２つの描画情報y(t-τ)及びx(t-τ)から、アバタ描画結果を標準品位の状態y(t-τ)から高品位の状態x(t-τ)へと高品位化する情報highを推定できる。

【0028】

（２）高品位の描画結果である過去の１つの第１描画情報x(t-τ)をこの加工情報modで加工することにより、また、標準品位の描画結果である現在の１つの第２描画情報y(t)をこの高品位化情報highで高品位化することにより、現在時刻tの第１描画情報x(t)を模したものとしての生成情報x'(t)を生成することができる。

【0029】

なお、加工情報mod及び高品位化情報highについては陽に（明示的に）得られる情報ではなく、GANの枠組みに即して生成器G及び識別器Dを互いに敵対的に学習した結果として、生成器Gでの生成処理の内部で陰に、加工情報mod及び高品位化情報highの推定及び適用に相当する処理が行われることとなる。（すなわち、本実施形態の生成器Gはいわば、３つの入力y(t-τ),x(t-τ),y(t)を「お手本」として、第１描画部21による「真作」であるx(t)の「贋作」となるx'(t)を精密に生成するようにパラメータ学習されるものである。同様に、識別器Dは定性的には、x(t)及びx'(t)を（いずれが「真作」のx(t)であり、いずれが「贋作」のx'(t)であるかの区別を与えずに）与えて、その「真贋」を高精度に見抜くようにパラメータ学習されるものである。）

【0030】

従って、ステップS1の生成器G及び識別器DのGANによるパラメータ学習時においては、図４（及び図５のステップS1内の記載）に示されるように、ステップS2の推論時に用いるのと同様の３入力y(t-τ),x(t-τ),y(t)に加えて、現在時刻tの第１描画情報x(t)も評価用データ（生成器Gにおける、いわゆる「贋作」生成の生成精度の評価用データ、且つ、識別器Dにおける、いわゆる「真贋」の識別精度の評価用データ）として利用される。このステップS1の生成器G及び識別器Dの学習の詳細は後述する。

【0031】

以上のようにして本実施形態では、端末10において、自らは第２描画部13において計算負荷が小さい標準品位での描画のみを行い、第１描画部21での計算負荷の高い高品位の描画を行うことなく、生成器G（生成部15）による３入力y(t-τ),x(t-τ),y(t)を用いた推論処理（計算負荷が小さい）により、高品位な第１描画情報x(t)を未受信であっても、これを十分な精度で模した生成情報x'(t)を生成し、リアルタイムで表示することが可能となる。

【0032】

以下、情報システム100の各部の処理の詳細を、ステップS2の推論時に関して説明する。

【0033】

＜撮像部11＞
撮像部11は、後段側の認識部12において認識される対象が存在する実世界（図１のフィールドF）の撮像を行い、リアルタイムの各時刻tで得られた撮像画像P(t)を認識部12へと出力する。撮像部11はハードウェアとしてはカメラで構成することができ、端末10を利用するユーザU等が当該カメラを操作することにより、撮像部11による撮像が行われる。撮像対象は例えばマーカや平面、人物などを利用できる。前述の通り、情報システム100においてユーザUのアバタを描画する用途の場合はこのユーザU自身を撮像対象として撮像部11による撮像を行えばよい。

【0034】

＜認識部12＞
認識部12は撮像部11で得た撮像画像P(t)に対して、撮像されている対象の種類を認識し、且つ、この対象の座標を計算した結果の認識情報r(t)を求め、この認識情報r(t)は第２描画部13へと出力するとともに、通信機能を介してサーバ20の第１描画部21へと送信する。すなわち、第１描画部13及び第２描画部21へとそれぞれ出力される認識情報r(t)は、撮像画像P(t)に撮像されている対象の種類の情報と、この対象の座標の情報と、で構成されるものである。（情報システム100においてユーザUのアバタを描画する用途の場合のように、撮像対象が予めユーザUとして一意に設定されている場合には、対象の種類の情報を認識情報r(t)から省略してもよい。）なお、認識情報r(t)には、時刻tの撮像画像P(t)から求めた情報として、この撮像の時刻tの情報が紐づいている。

【0035】

認識部12における撮像画像P(t)から撮像されている対象の物体種別を認識する処理と、当該対象の座標を計算する処理とには、既存の拡張現実表示技術等において利用されている任意の既存手法を用いることができる。例えば、画像よりSIFT特徴情報等の特徴点及び特徴量の検出を行い、リファレンスとなる１種類以上の物体種別に関して予め登録されている特徴情報との照合を行い、照合により特徴情報同士が最も一致すると判定される物体種別を対象の認識結果とし、この照合の際に一致した特徴点同士の画像座標の対応関係を与える変換の関係として、対象の座標を得るようにしてもよい。

【0036】

３次元コンピュータグラフィックスの分野において既知のように、こうして得られる対象の座標は、撮像部11を構成するハードウェアとしてのカメラにおける３次元カメラ座標系におけるものである。さらに、フィールドF内での基準位置を定義するものとして配置される正方マーカ等も当該３次元カメラ座標系において求め、フィールドFの所定の３次元世界座標系内における対象の座標と、３次元カメラ座標系での対象の座標と、の変換関係を求めることにより、当該カメラの外部パラメータに相当する情報を求めてもよい。

【0037】

あるいは、対象が人物としてのユーザUであり情報システム100でこのユーザUのアバタを描画する用途の場合、認識部12は撮像画像P(t)に撮像されている人物の表情や姿勢等を認識し認識情報r(t)としてよい。表情は複数のメッシュモデルの重みづけで表現するブレンドシェイプのパラメータを用いることができ、姿勢では人物の各関節の座標を表現するパラメータを用いることができ、この関節座標について、前述の３次元カメラ座標系（あるいは、基準位置マーカ等との対応関係より３次元世界座標系）において与えるようにして、仮想３次元空間や拡張現実空間内にアバタを空間的に配置して描画（第１描画部21や第２描画部13において描画）できるようにしてもよい。

【0038】

＜第１描画部21＞…サーバ20における高品位描画
第１描画部21は、認識部12から得た認識情報r(t)に基づき、拡張現実表示や仮想現実表示をするための仮想対象としての３次元モデルを２次元画像平面上に描画することで第１描画情報x(t)を得て、この第１描画情報x(t)を端末10の生成部15へとネットワークNWを介して送信する。ここで、認識情報r(t)における物体種別より、情報システム100で実現する拡張現実表示等の用途に応じたコンテンツとして管理者等により予め用意され、端末10上あるいはネットワークNW上に保存されているこの物体種別に応じた所定の３次元モデルを読み込み、この３次元モデルを認識情報r(t)における座標に配置して２次元画像平面に描画することで、第１描画情報x(t)を得ることができる。３次元コンピュータグラフィックスの分野においてビューイングパイプラインの関係として既知のように、この２次元画像平面上への描画は、撮像部11をハードウェアとして構成するカメラについて既知の内部パラメータを用いて行うことができる。

【0039】

＜第２描画部13＞…端末10における標準品位描画
第２描画部13は、第１描画部21における処理と同様に、認識部12から得た認識情報r(t)に基づき、拡張現実表示や仮想現実表示をするための仮想対象としての３次元モデルを２次元画像平面上に描画することで第２描画情報y(t)を得て、この第２描画情報y(t)を記憶部14へと出力する。

【0040】

図１～図５を参照した情報システム100の全体概要の説明においても既に説明した通り、ここで、第２描画部13において描画を行う際の、認識情報r(t)の物体種別に応じて参照する描画対象の所定の３次元モデルと、描画の際の座標の反映の仕方とは、第１描画部21におけるものと同一である。ただし、第２描画部13は、第１描画部21が描画したのと同一の３次元モデルを同一の座標において描画するが、第１描画部21の品質とは異なる描画態様で描画するという相違点がある。すなわち、第１描画情報x(t)は第１描画品質を与える第１描画態様で描画され、第２描画情報y(t)は第２描画品質を与える第２の描画態様で描画される。

【0041】

第１描画部21での第１描画品質を与える第１描画態様と、これよりも低い第２描画部13での第２描画品質を与える（その代償として描画のための計算負荷も低い）第２描画態様との区別には、種々の実施形態が可能である。例えば、用いる光源モデルや反射モデルの違いで第１描画態様と第２描画態様とを区別して与えることができる。

【0042】

通常、第１描画態様では第２描画態様よりも高品質な描画結果が得られる代わりに、図１等の情報システム100の構成例に示されるようにサーバサイドレンダリング方式を採用してこの高品質な描画結果を得る形を取っていることにより、第１描画情報x(t)をサーバ20から端末10へと伝送するのに時間を要することが想定される。図３の模式例では、この想定に即した例として、第１描画部21において第１描画情報x(t-τ)を描画・伝送するための時間（認識情報r(t-τ)の受信時から生成部15での第１描画情報x(t-τ)の受信時までの時間）の方が、第２描画部13において第２描画情報y(t),y(t-τ)を描画するための時間（認識情報r(t),r(t-τ)の受信時から第２描画情報y(t),y(t-τ)の出力時までの時間）よりも長くなっていることを見て取ることができる。

【0043】

＜記憶部14＞
記憶部14は、ハードウェアとしては記憶媒体を用いて実現され、第２描画部13で描画された各時刻tの第２描画情報y(t)を記憶しておき、第１描画部21で描画された、現在時刻tよりも過去の時刻t-τの第１描画情報x(t-τ)が、当該現在時刻tにおいて生成部15へ入力（受信）された際に、第１描画情報x(t-τ)を描画するのに用いられた認識情報r(t-τ)と同一の認識情報r(t-τ)（あるいは類似した認識情報r(t-τ')）で描画された第２描画情報y(t-τ)（あるいはy(t-τ')）及び最新の第２描画情報y(t)を生成部15へ出力する。

【0044】

以下、記憶部14から生成部15へと、上記「同一の認識情報r(t-τ)で描画された第２描画情報y(t-τ)」が出力されたものとして基本的に説明する。当該同一の認識情報で描画された第２描画情報y(t-τ)は、生成部15で受信した第１描画情報x(t-τ)のタイムスタンプである過去時刻t-τによって特定することができる。（類似する認識情報で描画された第２描画情報y(t-τ')を出力する場合は、生成部15で受信した第１描画情報x(t-τ)のタイムスタンプである過去時刻t-τに対応する認識情報r(t-τ)に類似する認識情報を検索すればよい。）

【0045】

別の実施例では、複数の認識情報に対応した第１描画情報を事前あるいは逐次記憶しておくことでサーバ20との通信を低減若しくは無くし伝送量を削減する効果を得るようにしてもよい。例えば、受信済みの第１描画情報x(t-τ')を認識情報r(t-τ')と紐づけて逐次記憶しておくことで、現時刻tの認識情報r(t)が類似する第１描画情報x(t-τ')を再利用し、生成部15において生成情報x'(t)として本来の第１描画情報x(t)を模擬生成する処理を省略する（すなわち、受信済みの十分に類似していると判断された第１描画情報x(t-τ')を生成情報x'(t)であるものとみなしてして扱うことで、生成処理を省略する）ことができるとともに、サーバ20の第１描画部21における第１描画情報x(t)の描画間隔を、端末10の第２描画部13における第２描画情報y(t)の描画間隔より間欠的にすることもできる。類似する第１描画情報x(t-τ')を利用することで当該現時刻tに関して生成部15及び第１描画部21における処理を省略するか否かの判断は、認識情報r(t), r(t-τ')の類似度が閾値判定で高いか否かで判断してよい。当該判断における閾値は、認識情報r(t), r(t-τ')がほぼ同一とみなせる程度に十分に類似しているかを判断できる程度に厳しい値（類似度が十分に高い値となる閾値）としてもよい。

【0046】

＜生成部15＞
生成部15は、概略説明で説明したような３入力から生成情報x'(t)を生成する。すなわち、第１描画情報x(t-τ)と、この第１描画情報x(t-τ)を描画するのに用いた認識情報r(t-τ)と同一の認識情報r(t-τ)によって描画された第２描画情報y(t-τ)と、現時刻tでの最新の認識情報r(t)を用いて描画された第２描画情報y(t)とを入力し、当該最新の認識情報r(t)に対応した第１描画情報x(t)を模擬する情報を生成し、生成情報x'(t)として提示部16へ出力する。

【0047】

図１～図５を参照した全体概略で説明したように、生成部15ではGANの枠組みに即して予め学習された生成器Gにより、上記３入力から現在時刻tの第１描画情報x(t)を模した生成情報x'(t)を生成することが可能となる。

【0048】

＜提示部16＞
提示部16はハードウェアとしてはディスプレイを含んで構成され、生成部15から得られた生成情報x'(t)（あるいは、生成部15の処理が省略された場合は、記憶部14から代用として得られた認識情報が類似する過去の第１描画情報x(t-τ')）を各時刻tにおいて表示することで、リアルタイムでの仮想現実表示や拡張現実表示を実現する。この際、提示部16のハードウェアがビデオシースルー型ディスプレイ等を含む通常のディスプレイとして構成されている場合、生成情報x'(t)に対する背景として撮像部11で得た撮像画像P(t)を用いて、生成情報x'(t)を撮像画像P(t)上に重畳して表示するようにしてもよいし、その他の画像を仮想現実空間の背景として用いてもよい。また、当該ハードウェアが光学シースルー型ディスプレイとして構成されている場合、生成情報x'(t)のみを現実空間（図１のフィールドF）の背景に対して重畳させて表示するようにしてもよい。

【0049】

本実施形態では既に説明した通り、端末10が受信した過去の第１描画情報x(t-τ)と最新の認識情報r(t)に対応した第２描画情報y(t)と過去t-τの第２描画情報y(t-τ)から、最新の認識情報r(t)に応じた第１描画情報x(t)を近似する生成情報x'(t)を生成することで、伝送遅延や処理遅延を抑制し円滑な情報提示を実現できる効果が得られる。

【0050】

以上、本発明の一実施形態（ステップS2の推論時に関する実施形態）によれば、計算資源が豊富なサーバ20においてサーバサイドレンダリングにより高品質な第１描画情報x(t)を描画し、ネットワークNWを介して送信する際の遅延を補償するため、端末10の側ではその計算資源において可能な品質の第２描画情報y(t)を描画したうえで、受信した第１描画情報x(t-τ)に第２描画情報y(t),y(t-τ)を反映することで、高品質な第１描画情報x(t)を端末10自身において直接に描画することなく第１描画情報x(t)を模擬した生成情報x'(t)を生成することができる。

【0051】

すなわち、本発明の一実施形態によれば、サーバサイドレンダリング方式によるサーバの豊富な計算資源を活用して、ネットワークの帯域を圧迫することなく、計算資源が限られている端末において高品質な拡張現実表示を低遅延で実現することが可能となる。

【0052】

以上、情報システム100の処理詳細をステップS2の推論時に関して説明した。以下、情報システム100の各部の処理の詳細を、ステップS1の学習時（すなわち、生成部15における生成器G及び識別器Dのパラメータ学習時）に関して説明する。

【0053】

ステップS1では、生成部15の生成器G及び識別器DパラメータをGANで学習する。この際、学習用データとして、現在t及び過去t-τの第１描画情報x(t),x(t-τ)及び第２描画情報y(t),y(t-τ)を多数用いて、GAN等の生成モデルの枠組みに従い、生成器Gのパラメータと識別器Dのパラメータとを交互に学習する。

【0054】

従って、学習用データとしては描画対象となるアバタ等の描画されうる範囲（アバタの場合であれば、位置、姿勢、表情などで定まる範囲）を十分にカバーした認識情報時系列データ{r(t)|t=1,2,…,N}を用意しておき、これを入力として対して第１描画部21及び第２描画部13の処理をそれぞれ適用して得られる高品位の第１描画情報時系列{x(t)|t=1,2,…,N}および標準品位の第２描画情報時系列{y(t)|t=1,2,…,N}を用意する。これら２つの時系列データ{x(t)},{y(t)}から多数のt,τの組み合わせに関して第１描画情報x(t),x(t-τ)及び第２描画情報y(t),y(t-τ)を学習用データとしてピックアップし、GAN等の生成モデルの枠組みに即して生成器G及び識別器Dのパラメータを交互に学習し、収束判定を得た時点のパラメータを学習結果とすればよい。収束判定は、学習回数が閾値に到達したことや、学習の際の評価関数の値の閾値判定や、評価関数の値の変化が小さくなったと判定されたことによって判定すればよい。

【0055】

以下、説明上の記載の簡素化の観点からτ=1として固定して、具体的な学習について説明する。生成モデルとしては例えば、GANを用いることができ、GANを用いる場合、GANを構成する生成器G及び識別器Dを次式（数１）の損失関数で交互に学習すればよい。

【0056】

【数1】

【0057】

ここで、L_GAN(G,D)はGANの損失関数、L_pixel1(G),L_pixel2(G),L_pixel3(G)は画素レベルの損失関数、L_lm(G)は特徴レベルの損失関数を表し、γ_pixel1,γ_pixel2,γ_pixel3,γ_lmはそれぞれの重み係数を表す。本実施形態では既存の枠組みに即した識別器Dの学習構成に本実施形態の生成器Gを適用した損失関数L_GAN(G,D)に加えて、生成器Gの学習に特化した各種損失項L_pixel1(G),L_pixel2(G),L_pixel3(G),L_lm(G)を追加したことが特徴となる。

【0058】

識別器Dの学習の際は、生成器Gのパラメータを固定するので、数１のうち、Dに依存する項である１つの損失関数L_GAN(G,D)のみを用いて、この１つの損失関数の値を最大化する（max_D）ように、（すなわち、生成器Gによる贋作を見抜く性能を高めるように、）識別器Dのパラメータを更新すればよい。

【0059】

生成器Gの学習の際は、識別器Dのパラメータを固定し、数１に示される５つの項の全てを（または５つの項のうち学習サンプルが該当する一部のみを）用いて、この損失関数の値を最小化する（min_G）ように、（すなわち、生成器Gによる贋作の生成能力を高めるように、）生成器Gのパラメータを学習すればよい。

【0060】

損失関数の一部であるL_GAN(G,D)は次式（数２）で定義することができる。Eは期待値を表し、Gはパラメータのもとでの生成器を第１～第３入力の関数G(第1入力、第２入力、第３入力)として示し、Dはパラメータのもとでの識別器を第１及び第２入力の関数D(第１入力、第２入力)として示し、w₀乃至w₆は重み係数を表す。（なお、描画情報の時刻表記に関して本文中や図面中ではx(t)等の形で関数引数の形式で示したが、数式中では表示の簡素化の観点からx_t等のように、下付き文字の形式で示すものとする。すなわち、「数式中のx_t」は「本文中および図面中のx(t)」と同一である。）

【0061】

【数2】

【0062】

学習時（後述する図６に示す識別器Dにおいて負例が正解となる場合と、図７～図９の場合）において、生成器Gは第１入力として第１描画情報、第２入力として第１描画情報と同じ認識情報の第２描画情報、第３入力として第２描画情報が与えられ、第３入力に対応した第１描画情報を模擬する生成情報を生成するよう学習される。（これに従い、推論時では第１入力をx(t-τ)、第２入力をy(t-τ)、第３入力をy(t)として生成部15の生成器Gが利用され、第３入力y(t)に対応した第１描画情報x(t)を模擬する生成情報x'(t)を生成することとなる。）なお、後述する学習時のネットワーク構成を示す図６～１０では、生成器Gに対するこれら第１、第２、第３入力が、生成器Gのブロックの左側（入力段側）への３本の入力矢印として上から順に示される。

【0063】

識別器Dは2つの入力として２つの描画情報（片方が第１描画情報でもう一方が第２描画情報）が与えられ、２つの対応が正しいか否かを、当該２つの描画情報に対応する認識情報が同一か否かによって判断する。（当該判断は、入力された２つの描画情報に紐づく時刻が同一か否かによって判断することができる。）

【0064】

図６は、識別器D（及び生成器G）を学習するための正否判定のネットワーク構成の各例を構成6a～6hとして示す図である。これら複数の構成6a～6hについては、学習データとしてピックアップされたものに対応するものが選択され、識別器D及び生成器Gのパラメータ更新に利用されることとなる。なお、構成6a,6b,6c,6dについては図示されるように識別器Dに２入力を与えて正否判定を出力させることで識別器Dのみを学習する場合の構成であり、構成6e,6f,6g,6hについては識別器Dの前段に生成器Gを配置し、生成器Gに３入力を与えて模擬された第１出力を識別器Dの第１入力とし、生成器Gの第３入力を識別器Dの第２入力としても併用することで、識別器Dと生成器Gとを同時に学習する場合の構成である。

【0065】

すなわち、本実施形態において識別器Dの学習は、生成器Gによる生成情報に対する真贋判定性能を高めるために以下（１）、（２）の２通りの評価を用いることができる。片方を用いてもよいし、両方を用いてもよい。（２）の評価は、図７～１０の構成と組み合わせて生成器Gの学習に利用してもよい。

【0066】

（１）図６の構成6a,6b,6c,6dで示される構成において、学習用に２つの入力として第１描画情報及び第２描画情報を識別器Dに与え、この２つの描画情報の認識情報が同じか否か（同時刻であるか否か）の正解（同じであれば正例（正、real）が正解、異なれば負例（否、fake）が正解）を識別器Dが出力するように学習する。（すなわち、識別器Dが２入力に対して正解を出力した場合は損失関数の値が大きくなり、正解ではない（出力が間違っている）場合は損失関数の値が小さくなる。なお、数１の通り、損失関数は生成器Gの立場での損失を表すため、生成器Gと敵対する立場にある識別器Dではこの損失が大きいほど識別性能が高くなる。）

【0067】

（２）図６の構成6e,6f,6g,6hで示される構成において、学習用に３つの入力として以下の第１～第３入力（なお、図７～図１０でも同様の３入力となる）を前段側に配置する生成器Gに与えた出力を中間データ（第４入力とする）として得て、後段側に配置される識別器Dにおいて、この第４入力と第３入力を２入力とし、この２入力が同一認識情報（同一時刻）であるかによらず、常に「否」が正解であるものとして出力させるように学習する。
第１入力…第１描画情報
第２入力…第１入力と同一認識情報（同一時刻）の第２描画情報
第３入力…第２描画情報（第１入力と認識情報（時刻）が同一又は異なる）

【0068】

すなわち、上記（２）においては上記（１）とは異なり、識別器Dへの２入力である前記第４入力と前記第３入力とに同一認識情報（同一時刻）が紐づいていても、「否」を正解とする。これは、識別器Dへの１番目の入力となる前記第４入力が生成器Gの出力であり、（２番目の入力である前記第３入力が真作であるのに対して）贋作に相当するためのである。

【0069】

図示されるように各構成6a～6hは以下の通りとなる。なお、これら８個の構成6a～6hはその順（当該符号末尾に付したアルファベットa~hの順）に、数２のL_GAN(G,D)に現れる８個の線形和の各項に対応している。

【0070】

上記（１）に該当する構成6a,6bでは、同じ認識情報（すなわち同じ時刻）で描画された第１描画情報と第２描画情報とが入力された場合（すなわち、x(t),y(t)の２入力またはx(t-1),y(t-1)の２入力が入力された場合）は正（Real）として出力するよう学習する。一方、構成6c,6dでは、第１描画情報と異なる認識情報（すなわち、異なる時刻）の第２描画情報が入力された場合（すなわち、x(t-1),y(t)の２入力またはx(t),y(t-1)の２入力が入力された場合）は否（Fake）として出力するよう学習する。

【0071】

また、上記（２）に該当する構成6e,6fでは、生成器Gを用いて第１描画情報と同じ認識情報（すなわち同じ時刻）の第２描画情報と異なる認識情報に対応する第２描画情報とから当該異なる認識情報に対応する第１描画情報を模擬する生成情報を生成し、認識情報が一致する第２描画情報と識別器Dに入力した場合も否（Fake）として出力するよう学習する。例えば構成6eでは、生成器Gに３入力を順番にx(t-1),y(t-1),y(t)として与えて模擬された生成情報x'(t)を出力し、生成器Gの当該出力した生成情報x'(t)を識別器Dの第１入力とし、生成器Gの第３入力y(t)を識別器Dの第２入力とし、識別器Dの２入力がx'(t)及びy(t)であることから、否として出力するように学習させる。

【0072】

構成6g,6hも同様に、生成器Gを用いて第１描画情報と同じ認識情報（同じ時刻）の第２描画情報とから当該第２描画情報に対応する第１描画情報を模擬する生成情報を生成し、認識情報が一致する第二の描画情報を入力した場合も否（Fake）として出力するよう学習する。いずれも生成器Gで生成された描画情報を否とするよう識別器Dを学習することで識別器Dの性能を向上させる。

【0073】

以上、図６の構成では、識別器Dの入力について、構成6a,6bの場合（第１描画情報及び第２描画情報で構成される２入力の両方が「真作」（第１描画部21または第２描画部13の出力）であり、且つ、同一時刻（同一認識情報）である場合（構成6a,6b）のみに正として出力させ、それ以外の全ての場合（２入力の両方が「真作」だが時刻が異なる場合（構成6c,6d）や、２入力の時刻が同一であるが片方が「贋作」である場合（構成6e～6h））について否として出力させるように学習することで識別器D（及び生成器G）の性能を向上させることができる。

【0074】

以下、図７～図１０を参照して、生成器Gの学習に特化した構成を説明する。なお、生成器Gに関して、推論時には第１入力x(t-1)、第２入力y(t-1)及び第３入力y(t)が入力され、第１入力及び第２入力の時刻が過去であり第３入力の時刻が現在であるという時刻に関する制約が、前述した推論時の目的上（サーバ20側から未受信の第１描画情報x(t)を端末10において模擬生成するという目的上）、自ずと課されることとなる。一方で学習時には生成器Gへの３入力に関してこの推論時の時刻に関する制約は課さなくともよく、学習データを効率的に活用して生成器Gの学習を可能とすべく、共通時刻で与えられる第１描画情報及び第２描画情報としての第１入力及び第２入力と、任意時刻で与えられる第２描画情報としての第３入力と、を用いればよい。（すなわち、第３入力の時刻は第１・第２入力の共通時刻よりも未来（推論時と同様）であってもよいし、推論時とは異なり、第１・第２入力よりも過去の時刻であってもよいし、第１・第２入力と同一の時刻であってもよい。）

【0075】

なお、生成器Gに対して学習用に用いる３入力について、その時刻の関係（第１及び第２入力の時刻（共通時刻）と、第３入力の時刻との関係）に応じて以下のように、図７～図１０（及び図６）の構成のうち、対応する構成を用いればよい。
（１）第１及び第２入力の時刻と第３入力の時刻とが異なる場合、図７，図９，図１０（及び図６の構成6e,6f）の全部または一部の構成を用いればよい。
（２）第１及び第２入力の時刻と第３入力の時刻とが同一の場合、図８（及び図６の構成6g,6h）の全部または一部の構成を用いればよい。

【0076】

図７～図９の構成ではいずれにおいても、生成器G（図７では前段側の生成器G）への３入力のうち第１入力となる第１描画情報を該当時刻（第１入力の時刻または第３入力の時刻）において模擬するものとして生成情報を出力（図７では後段側の生成器Gにおいて出力）し、この出力を当初の第１入力と比較して生成精度の評価を行う（出力が第１入力と類似しているほど、損失関数の値が低くなるような評価を行う）こととなる。図１０の構成は同様の方針での評価を、追加される算出器Vを介して行うものである。

【0077】

L_pixel1は次式（数３）で定義することができる。図７にこの次式で評価する構成7a及び7bを示す。（なお、数３は構成7aについて示すが、文字を入れ替えることで構成7bについても全く同様に定義できる。）

【0078】

【数3】

【0079】

構成7aではまず、前段側の生成器Gを用いて第１描画情報x(t-1)と同時刻の第２描画情報y(t-1)とから現時刻の第二の描画情報y(t)（それぞれ第１入力x(t-1)，第２入力y(t-1)、第３入力y(t)となる）に対応する第１描画情報x(t)を模擬する生成情報x'(t)を生成し、後段側の生成器Gの第１入力とする。次に、後段側の生成器Gを用いて、当該生成情報x'(t)と同時刻の第２描画情報y(t)とから前記第２描画情報y(t-1)（それぞれ第１入力x'(t)，第２入力y(t)、第３入力y(t-1)となる）に対応する第１描画情報x(t-1)を模擬する生成情報x'(t-1)を生成する。最後に、図７中に点線矢印で示されるように、当該生成情報x'(t-1)と第１描画情報x(t-1)とが一致する（後段側の生成器Gの出力x'(t-1)と前段側の生成器Gの第１入力x(t-1)とが一致する）ようにするため、画素レベルで両者の二乗誤差和を損失関数とする。当該二乗誤差和は数３に示される通りである。

【0080】

構成7aにおいて時刻t-1と時刻tを入れ替えた場合の二乗誤差和を損失関数とすることもでき、構成7bとしてこれを示す。また、これら構成7a,7bの両者の和を損失関数としてもよい。生成情報x'(t)から反復的に生成情報x'(t-1)を生成し損失を計算することで生成器Gの性能を向上させる効果が期待できる。

【0081】

L_pixel2は次式（数４）で定義することができる。図８にこの次式で評価する構成8a及び8bを示す。（なお、数４は構成8aについて示すが、文字を入れ替えることで構成8bについても全く同様に定義できる。）

【0082】

【数4】

【0083】

構成8aではまず、生成器Gを用いて第１描画情報x(t-1)と同時刻の第２描画情報y(t-1)とから同じく第２描画情報y(t-1)（それぞれ第１入力x(t-1)、第２入力y(t-1)、第３入力y(t-1)）に対応する第１描画情報x(t-1)を模擬する生成情報x'(t-1)を生成する。次いで、点線矢印で示されるように、当該生成情報x'(t-1)と第１描画情報x(t-1)とが一致する（生成器Gの出力x'(t)と第１入力x(t)とが一致する）ようにするため、画素レベルで両者の二乗誤差和を損失関数とする。当該二乗誤差和は数４に示される通りである。

【0084】

構成8aにおいて時刻t-1と時刻tを入れ替えた場合の二乗誤差和を損失関数とすることもでき、構成8bとしてこれを示す。また、これら構成8a,8bの両者の和を損失関数としてもよい。入力x(t-1)と一致するような生成情報x'(t-1)を生成し損失を計算することで生成器Gの性能を向上させる効果が期待できる。

【0085】

L_pixel3は次式（数５）で定義することができる。図９にこの次式で評価する構成9a及び9bを示す。（なお、数５は構成9aについて示すが、文字を入れ替えることで構成9bについても全く同様に定義できる。）

【0086】

【数5】

【0087】

構成9aではまず、生成器Gを用いて第１描画情報x(t-1)と同時刻の第２描画情報y(t-1)とから現時刻の第２描画情報y(t)（それぞれ第１入力x(t-1)、第２入力y(t-1)、第３入力y(t)）に対応する第１描画情報x(t)を模擬する生成情報x'(t)を生成する。次いで、点線矢印で示されるように、当該生成情報x'(t)と現時刻の第１描画情報x(t)とが一致する（生成器Gの出力x'(t)と、この「真作」としてのx(t)とが一致する）ようにするため、画素レベルで両者の二乗誤差和を損失関数とする。当該二乗誤差和は数５に示される通りである。

【0088】

構成9aにおいて時刻t-1と時刻tを入れ替えた場合の二乗誤差和を損失関数とすることもでき、構成9bとしてこれを示す。また、これら構成9a,9bの両者の和を損失関数としてもよい。システムとしての出力x(t)と一致するような生成情報x'(t)を生成し損失を計算することで生成器の性能を向上させる効果が期待できる。

【0089】

L_lmは次式（数６）で定義することができる。図１０にこの次式で評価する構成10a及び10bを示す。（なお、数６は構成10aについて示すが、文字を入れ替えることで構成10bについても全く同様に定義できる。）

【0090】

【数6】

【0091】

ここで、Vは特徴量算出処理を表し、同符号Vを用いて図４にオプション構成として示した算出器Vが、当該特徴量算出の処理を担うものとして学習時に利用される。（前述の通り推論時には識別器Dのみが利用され、この算出器V（及び識別器D）は利用されない。）

【0092】

算出器Vによる特徴量算出には、既存の深層学習のエンコーダ（Encoder）ネットワーク（予め学習してそのパラメータを求めておく）などを利用できる。人物モデルの場合は顔や体の特徴点座標を利用してもよい。第１描画情報を模擬した生成情報と第１描画情報とで描画態様は異なるが、顔の特徴点座標はほぼ一致する座標が得られるため、画素値（全体）の相違に代えて、この特徴点座標のみにおける相違を評価するのが図１０（及び数６）である。

【0093】

図１０の構成10aでは、まず生成器Gを用いて第１描画情報x(t-1)と同時刻の第２描画情報y(t-1)と現時刻の第２描画情報y(t)とから現時刻の第２描画情報y(t)（それぞれ第１入力x(t-1)、第２入力y(t-1)、第３入力y(t)）に対応する第１描画情報x(t)を模擬する生成情報x'(t)を生成する。次に、当該生成情報x'(t)（生成器Gの出力）から特徴量算出を行う算出器Vにより顔の特徴点座標を算出し、V(x'(t))として出力する。続いて、第２描画情報y(t)（生成器Gの第３入力）からも特徴量算出を行う算出器Vにより顔の特徴点座標を算出し、V(y(t))として出力する。最後に、点線矢印で示されるように、当該特徴量V(x'(t))とV(y(t))とが一致するようにするため、画素レベルで両者の二乗誤差和を損失関数とする。当該二乗誤差和は数６に示される通りである。

【0094】

構成10aにおいて時刻t-1と時刻tを入れ替えた場合の二乗誤差和を損失関数とすることもでき、構成10bとしてこれを示す。また、これら構成10a,10b両者の線形和を損失関数としてもよい。描画態様が異なる第１描画情報を模擬した生成情報及び第２描画情報においても同一の特徴量を算出し損失を計算することで生成器Gの性能を向上させる効果が期待できる。

【0095】

以上、ステップS1における生成部15の学習の詳細を説明した。以下、本発明に関する種々の補足例、追加例、代替例などに関して説明する。

【0096】

（１）本発明の実施形態によれば、アバタ描画により臨場感ある遠隔コミュニケーションを実現可能である。これにより、遠隔地への実際の移動を必ずしも必須とせずに遠隔会議等を行うことが可能となり、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標１３「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。

【0097】

（２）「認識情報r(t)」は、アバタや３次元拡張現実表示の描画を行うためのものとして説明したが、より一般には、任意内容のコンテンツ（３次元でなくてもよい）を各時刻tにおいて描画する（サーバサイドレンダリング方式を用いて同一コンテンツに関してサーバ20で高品位に描画し、端末10で標準品位で描画する）際の、コンテンツ内容を指定する、「コンテンツ描画指定情報r(t)」について同様に、本発明を適用可能である。

【0098】

（３）学習の際の生成器G及び識別器Dのパラメータ更新を行うための誤差逆伝播を行う構成は、図６～図１０で示したもののうち、損失評価に用いたものの全てまたは一部を用いるようにすればよい。例えば識別器Dのパラメータ更新に関して、損失評価に図６の構成6a～6dのみを用いた場合、この構成（識別器Dが１個だけ配置されるネットワーク構成）で誤差逆伝播を行なえばよい。構成6e～6hのみを用いた場合、この構成（識別器Dが前段、生成器Gが後段の構成）で生成器Gのパラメータを固定したうえで誤差逆伝播を行なえばよい。構成6a～6dと構成6e～6hとの組み合わせ（重み付け和）で損失関数を評価し、誤差逆伝播には片方あるいは両方を用いてもよいし、学習のためのバッチごとにネットワーク構成を使い分けてもよい。

【0099】

生成器Gのパラメータ更新に関しても同様に、学習のためのバッチごとに図７～図１０のいずれかのみを用いるようにして損失関数を評価し、誤差逆伝播は当該評価した単一のネットワーク構成で行うようにしてもよいし、構成を組み合わせてもよい。（単独のものを用いる場合、例えば、図７の構成で３入力がx(t-1),y(t-1),y(t)あるいはx(t),y(t),y(t-1)で構成される学習用バッチデータを用いて損失関数を評価し、誤差逆伝播は図７の構成で、前段及び後段に２回配置した生成器G（この２つの生成器Gのパラメータは共通）において２回連続して実施するようにしてもよいし、同様の３入力で構成される学習用バッチデータを用いて図９の構成で損失関数を評価し、誤差逆伝播は図９の構成で、１段のみで構成させる生成器Gについて１回だけ実施するようにしてもよい。）損失関数評価及び誤差逆伝播に関して、図７～図１０の構成の組み合わせに対してさらに図６の構成6e～6hも併せて組み合わせてもよい。

【0100】

（４）図１１は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。情報システム100を構成する端末10及びサーバ20の各々は、このような構成を有する１台以上のコンピュータ装置70として実現可能である。なお、２台以上のコンピュータ装置70で端末10及びサーバ20の各々を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU（グラフィックス演算装置）72、CPU71（及びGPU72）にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78、マイク79及びスピーカ80と、これらの間でデータを授受するためのバスBSと、を備える。

【0101】

情報システム100の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置（プロセッサ）の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。提示部16におけるアバタ表示機能はディスプレイ76において実現し、撮像部11はカメラ78として実現してよい。アバタコミュニケーションを行う場合のユーザUの発話について、マイク79で収録し、スピーカ80を介して相手の音声を出力するようにしてもよい。

【符号の説明】

【0102】

100…情報システム、10…端末、20…サーバ
11…撮像部、12…認識部、13…第２描画部、14…記憶部、15…生成部、16…提示部、21…第１描画部

【図1】