IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特開-予測装置及びプログラム 図1
  • 特開-予測装置及びプログラム 図2
  • 特開-予測装置及びプログラム 図3
  • 特開-予測装置及びプログラム 図4
  • 特開-予測装置及びプログラム 図5
  • 特開-予測装置及びプログラム 図6
  • 特開-予測装置及びプログラム 図7
  • 特開-予測装置及びプログラム 図8
  • 特開-予測装置及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024007223
(43)【公開日】2024-01-18
(54)【発明の名称】予測装置及びプログラム
(51)【国際特許分類】
   G06F 3/04815 20220101AFI20240111BHJP
【FI】
G06F3/04815
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022108552
(22)【出願日】2022-07-05
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】加藤 晴久
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA27
5E555AA61
5E555AA67
5E555BA02
5E555BA76
5E555BB02
5E555BC09
5E555DB32
5E555DC84
5E555FA00
(57)【要約】
【課題】例えば遠隔コミュニケーション等に好適なものとして、遅延の存在するもとにおいて遅延影響を低減できる、各時刻で取得されるアバタ制御用のパラメータの予測装置を提供する。
【解決手段】ユーザについて各時刻で取得されるアバタ制御用のパラメータを受信し、未来時刻での当該パラメータを予測する予測装置であって、受信済みの第1時刻までのパラメータから、前記未来時刻として、当該第1時刻よりも未来に位置する第2時刻のパラメータを予測するために、前記第1時刻から前記第2時刻までの区間を2区間以上に区切ったうえで、区間ごとに予測を行った結果(第1手順、第2手順)を合成(第3手順)する。
【選択図】図5
【特許請求の範囲】
【請求項1】
ユーザについて各時刻で取得されるアバタ制御用のパラメータを受信し、未来時刻での当該パラメータを予測する予測装置であって、
受信済みの第1時刻までのパラメータから、前記未来時刻として、当該第1時刻よりも未来に位置する第2時刻のパラメータを予測するために、前記第1時刻から前記第2時刻までの区間を2区間以上に区切ったうえで、区間ごとに予測を行った結果を合成することを特徴とする予測装置。
【請求項2】
前記第1時刻から前記第2時刻までの区間を前半区間及び後半区間に区切り、
前記前半区間については当該前半区間の最後時刻におけるパラメータを予測し、
前記後半区間については当該後半区間におけるパラメータ変化量を予測し、
前記最後時刻に対して予測されたパラメータに、前記パラメータ変化量を反映することにより、前記合成することを特徴とする請求項1に記載の予測装置。
【請求項3】
前記後半区間を2つ以上の区間に区切って、区間ごとのパラメータ変化量を予測することを特徴とする請求項2に記載の予測装置。
【請求項4】
前記前半区間の長さと前記後半区間の長さとを、当該前半区間に対する予測精度及び当該後半区間に対する予測精度として予め評価される結果に基づき、予測精度が高いほど長く、予測精度が低いほど短いものとして予め設定することを特徴とする請求項1に記載の予測装置。
【請求項5】
前記前半区間の最後時刻におけるパラメータの予測と前記後半区間におけるパラメータ変化量の予測が完了した時刻である、前記第1時刻と前記第2時刻との間に位置する第3時刻において受信済みのパラメータから、当該最後時刻のパラメータの予測精度を評価することを特徴とする請求項2に記載の予測装置。
【請求項6】
前記最後時刻のパラメータの予測値(R't+x-m)と、前記第3時刻において受信済みのパラメータ(Rt+n)と、前記第3時刻よりも過去において受信済みのパラメータ(Rt,)と、を用いて、前記最後時刻のパラメータの予測値(R't+x-m)の誤差を評価することにより前記予測精度を評価し、
前記最後時刻に対して予測されたパラメータ(R't+x-m)に、前記パラメータ変化量(D't+x-m,t+x)と、前記評価した誤差と、を反映することにより、前記合成することを特徴とする請求項5に記載の予測装置。
【請求項7】
前記第1時刻から前記第2時刻までの区間を2区間以上に区切ったうえで、当該区間ごとのパラメータ変化量を予測し、前記受信済みの第1時刻までのパラメータに対して、当該区間ごとに予測されたパラメータ変化量を反映することで、前記合成することを特徴とする請求項1に記載の予測装置。
【請求項8】
コンピュータを請求項1ないし7のいずれかに記載の予測装置として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アバタ制御用パラメータの予測装置及びプログラムに関する。
【背景技術】
【0002】
利用者の動きを推定しアバタに適用するシステムにおいて、伝送遅延を抑制することができれば、円滑なコミュニケーションをとることができる。上記を実現する従来技術の例として、特許文献1及び2に開示のものがあり、ここでは以下のような手法が公開されている。
【0003】
特許文献1では、VR(仮想現実)において二人の利用者の未来の動きを推定し映像を早送り・遅延させることで互いに相手を見つめたときにアバタの視線が合うタイミングを一致させる手法を開示している。特許文献2では、データ量が大きな姿勢特徴量ではなく、小さなデータ量で視聴ユーザの姿勢に関する情報を特定できる基準姿勢識別データを送信することで伝送遅延を抑制する手法を開示している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020-009295号公報
【特許文献2】特許第6731532号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、以上のような従来技術の手法では、伝送遅延及び/又はその他の処理完了に伴う遅延の存在のもとで必ずしも十分に円滑な遠隔コミュニケーション等の実現に貢献できるとは限らなかった。
【0006】
特許文献1では、アバタの視線は一致するが、映像を早送りさせられた利用者は未だ相手のアバタを見ておらず、逆に映像を遅延させられた利用者は動作の反映を待たされるため、円滑なコミュニケーションをとれないという問題がある。また、送受信の遅延量はネットワークの状況により揺らぐため一致させるタイミングの予測が困難という問題がある。特許文献2では、伝送量を少なくすることで伝送遅延を抑制しようとしているが、姿勢の認識にかかる時間や伝送にかかる時間は不可避的に存在しており、この時間の分だけ遅延するという問題がある。
【0007】
上記従来技術の課題に鑑み、本発明は、例えば遠隔コミュニケーション等に好適なものとして、遅延の存在下において遅延影響を低減できる、各時刻で取得されるアバタ制御用のパラメータの予測装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明は、ユーザについて各時刻で取得されるアバタ制御用のパラメータを受信し、未来時刻での当該パラメータを予測する予測装置であって、受信済みの第1時刻までのパラメータから、前記未来時刻として、当該第1時刻よりも未来に位置する第2時刻のパラメータを予測するために、前記第1時刻から前記第2時刻までの区間を2区間以上に区切ったうえで、区間ごとに予測を行った結果を合成することを特徴とする。また、コンピュータを前記予測装置として機能させるプログラムであることを特徴とする。
【発明の効果】
【0009】
本発明によれば、パラメータ予測の対象となる第1時刻から前記第2時刻までの区間を2区間以上に区切ったうえで、区間ごとに予測を行った結果を合成することにより、遅延の存在下において遅延の影響を低減したアバタ制御用パラメータの予測結果を得ることができる。
【図面の簡単な説明】
【0010】
図1】一実施形態に係る予測システムの構成図である。
図2】一実施形態に係る予測システムが実現する遠隔コミュニケーションの模式図である。
図3】予測遅延の模式図である。
図4】第1端末及び第2端末を機能ブロック図として示す図である。
図5】予測部の第1実施形態の模式図である。
図6】予測部の第2実施形態の模式図である。
図7】予測部の第4実施形態の模式図である。
図8】予測部の深層学習ネットワークの構成例である。
図9】一般的なコンピュータにおけるハードウェア構成例を示す図である。
【発明を実施するための形態】
【0011】
図1は、一実施形態に係る予測システム100の構成図であり、予測システム100は第1ユーザU1が利用する第1端末10及び第2ユーザU2が利用する第2端末20を備え、第1端末10及び第2端末20はインターネット等のネットワークNWを介して相互に通信可能とされる。第1端末10及び第2端末20は共に、スマートフォン、タブレット、デスクトップ型又はラップトップ型のコンピュータ等の一般的なコンピュータ端末として構成することができる。
【0012】
図2は、一実施形態に係る予測システム100が実現する遠隔コミュニケーションの模式図である。第1ユーザU1は現在時刻tにおいて遠隔コミュニケーションの相手であるユーザU2に対して挨拶の発声を行い、その音声パケットが高速に第2ユーザU2の側に伝送され、ほぼ現在時刻tとみなしてよい時刻においてリアルタイムに挨拶の発声が第2ユーザU2に対して再生される。一方で、第1ユーザU1についてはそのアバタA1を第2ユーザU2の側で描画するために、表情等を反映した描画パラメータが取得され、第2ユーザU2の側に伝送され、アバタ描画が行われることで第2ユーザU2に対してアバタA1のリアルタイムでの表示が行われる。
【0013】
ここで、描画パラメータの伝送とアバタ描画とは遅延を伴うものであり、音声伝送・再生よりも多くの時間を必要とするため、第2ユーザU2の側で現在時刻tの第1ユーザの発声を再生する際には、過去時刻t-d(d>0でありt-d<t)までの描画パラメータしか得られていない状態となる。すなわち、大きさdの遅延が存在し、しかも、この遅延は一般には時刻によってばらつき、d=d(t)となる。本実施形態の予測システム100によれば、遅延dが存在して過去時刻t-dまでしか得られていない描画パラメータを利用して、現在時刻tの第1ユーザU1の描画パラメータを予測して描画を行うことにより、アバタA1を第1ユーザU1の発声と同期させてリアルタイムに描画し、円滑な遠隔コミュニケーションを実現することができる。
【0014】
ここで、遅延d(t)については、上記の描画パラメータの伝送遅延の影響の他にも、遅延を伴って受信済みの最新の描画パラメータを用いて現在時刻(過去時刻から見た未来としての現在時刻)の描画パラメータを予測システム100において予測する際の、予測処理それ自体にも処理遅延が発生するため、この処理遅延も考慮する必要がある。
【0015】
さらに、図3(予測遅延を模式的に示す図)に示すように、第1の過去時刻t-n1までの描画パラメータを用いて予測処理を完了した時点を考えると、予測処理が行われる途中であっても過去時刻t-n1よりも後の時刻t-n1+1,t-n1+2,…についての描画パラメータを継続して受信していることにより、予測処理完了時点ではさらに、第1の過去時刻t-n1よりも未来の側の第2の過去時刻t-n2(n1>n2>0)までの描画パラメータも追加で受信済みの状態にあることとなる。従って、状況によっては、第1の過去時刻t-n1までの描画パラメータから予測した描画パラメータだけをそのまま用いて描画するのではなく、この予測完了時点までにさらに得られている第2の過去時刻t-n2までの描画パラメータも考慮して描画を行う方が、適切な描画結果を得ることができるものと考えられる。
【0016】
後述する第3実施形態等に係る予測システム100によれば、上記のように、第1の過去時刻t-n1までの描画パラメータだけで単純に予測した結果のみではなく、この予測処理が完了した時点でさらに追加して受信済みとなった第2の過去時刻t-n2までの描画パラメータも適宜、考慮した適応的な予測を行うことにより、単純な予測だけを用いる場合よりもより適切な予測を実現することができる。この詳細は後述する。
【0017】
なお、図2では、第1ユーザU1が表情パラメータを取得されてそのアバタA1が描画され、相手側の第2ユーザU2に対して表示される場合のみが示されているが、役割を入れ替えることで全く同様に、第2ユーザU2の第2アバタA2(不図示)を第1ユーザU1に対して遅延影響を防いで予測描画してリアルタイムに表示することが可能である。これにより、第1ユーザU1と第2ユーザU2とは自身の第1アバタA1及び第2アバタA2を介して双方向にリアルタイムでの遠隔コミュニケーションを行うことができる。端末構成を追加することで3人以上での双方向の遠隔コミュニケーションも同様に可能となる。
【0018】
ただし、上記の通り役割を入れ替えることで同様の処理が可能であるため、以下では2人の場合の双方向の遠隔コミュニケーションを実現する際の単方向の処理(3人以上の場合の単方向の処理も同様)として、第1端末10を利用する第1ユーザU1が「自分」側であってその描画パラメータが取得されてアバタA1が描画される対象であり、第2端末20を利用する第2ユーザU2が「相手」側であって、この描画アバタA1を遠隔で表示される対象である場合について説明するものとする。
【0019】
図4は、予測システム100の構成要素である第1端末10及び第2端末20を機能ブロック図として示す図である。端末10,20は、撮像部11、認識部12、予測部21、描画部22及び提示部23を備える。図4では第1端末10が撮像部11と認識部12を備え、第2端末が予測部21、描画部22と提示部23を備えているが、実現したい用途等に応じて組み合わせは任意に設定できる。
【0020】
なお、第2端末20は、少なくとも予測部21を備えるものとして、本発明の各実施形態に係る予測装置20を構成するものであるが、説明の際には第2端末20として参照する。
【0021】
処理手順としては、まず撮像部11による撮像が行われ撮像画像を得る。撮像部11は撮像画像を撮像情報(撮像画像とその撮像時刻を紐づけたもの)として認識部12へと出力する。なお、この撮像時刻は、タイムスタンプとして撮像時刻を表すものである。この撮像時刻は、以下に説明する制御パラメータでもそのままタイムスタンプとして利用される。(なお、当該タイムスタンプが適切に利用可能となるように、第1端末10と第2端末20とでは予め、それぞれが管理する時計(計時機能)を共通の時計に合わせておくものとする。)
【0022】
認識部12は当該撮像情報に撮像されているユーザを認識し、アバタを制御するパラメータを求める。当該認識された制御パラメータを認識情報(制御パラメータと、この制御パラメータを求めるのに用いた撮像画像の撮像時刻を紐づけたもの)とし、認識情報を予測部21へと出力する。
【0023】
この制御パラメータの例としては、利用者の表情を複数のメッシュモデルの重みづけで表現するブレンドシェイプのパラメータを用いることができる。別の実施例では利用者の各関節の座標を表現するパラメータを用いることができる。この制御パラメータはすなわち、撮像情報において撮像されているユーザ(第1端末10を利用する第1ユーザU1)の当該撮像時刻における表情及び/又はポーズ等の情報が抽出されることで、後段側の描画部22において当該撮像時刻における表情及び/又はポーズ等を反映したアバタを描画するための描画パラメータとして利用されるものである。(なお、後述するように実際には、認識部12で実測値として得た制御パラメータ(認識情報)が直接利用されるのではなく、この実測値を用いて予測部21で予測された制御パラメータによって描画部22が描画を行うこととなる。)
【0024】
予測部21は過去の認識情報の推移から未来の認識情報を予測する。予測方法は深層学習等による任意の手法を利用できる。予測手法の例としては再帰型ニューラルネットワークを用いることができ、事前に制御パラメータの変動を学習しておく。一般に、予測する未来の時間幅が長いほど予測が困難になるため、予測精度を高くするには予測する未来の時間幅は短い方が望ましい。また、x秒先の未来を予測するよりも、x秒より短い未来の複数の時点の認識情報を個々の教師データで誤差を最小化するように学習することで全体の予測精度を向上させる効果が期待できる。
【0025】
<第1実施形態>
よって、第1実施形態に係る予測部21は本来予測したい未来を分解して予測する。例えば、本来予測したい未来より短い未来の認識情報及び変化量を予測し合成することで本来予測したい未来の認識情報を予測する。具体的には、図5(第1実施形態の模式図)に示すように時刻t(ここでは、現在時刻ではなく、予測処理に参照可能な実測の認識情報のうちの最新時刻を時刻tとする)においてx秒先の時刻t+x(ここでは、本来予測したい時刻を時刻t+xとする)での認識情報R't+xを予測する場合、x-m秒先の認識情報R't+x-mおよびx秒先とx-m秒先との変化量D't+x-m,t+xを予測した上で認識情報R't+xを次式で求める(0<m<x)
R't+x = R't+x-m + D't+x-m,t+x…(1)
【0026】
すなわち、第1実施形態では、図5中にも示される以下の第1~第3手順によって、認識情報R't+xを求めることができる。
(第1手順) 時刻tまでの実測の認識情報の履歴Rk(k=t,t-1,t-2,…)から、その後の認識情報の予測値として、時刻k=t+1,t+2,…,t+x-mでの予測値R'k(k=t+1,t+2,…,t+x-m)を求める。
(第2手順) 履歴Rk(k=t,t-1,t-2,…)及び予測値R'k(k=t+1,t+2,…,t+x-m)を用いて、(ここで、これら履歴及び予測値の全部ではなく、時刻が新しい側の一部のみを用いてもよい)これらのうち最新の予測値であるx-m秒先の認識情報の予測値R't+x-mから本来予測したい時刻t+xへ至る際の認識情報の変化量D't+x-m,t+xを予測する。
(第3手順) 式(1)により本来予測したい時刻t+xでの認識情報R't+xを求める。
【0027】
このように、第1実施形態では、本来予測したい未来であるx秒先を直接予測するのではなく、その手前のx-m秒先の短い未来を予測し、短い未来から本来予測したい未来までの間には変化量予測を適用することで、予測精度を高める効果が得られる。このとき、本来予測したい未来に対してどの程度の手前の短い未来を設定するかのパラメータであるmを大きく設定すると予測すべき認識情報の未来の時間は短くなるが、予測すべき変化量の未来の時間は長くなり、mを小さく設定すると逆の関係になるので、認識情報及び変化量の予測において予測精度が等しい場合は予測する時間を同じ(m=x/2)に設定することが望ましい。両者の予測精度が異なる場合は、予測精度が高い方を長く予測精度が低い方を短く予測することができる。予測精度の高低や頑健性などはそれぞれの学習時に判断できるため、当該判断に従ってパラメータmをxに対する相対的な値(0<m<xの範囲での値)として予め設定しておくことができる。
【0028】
<第2実施形態>
あるいは、図3を参照して前述した通り、予測部21の処理にはある程度の時間がかかるため、予測している間にも認識情報が入力され続けることを利用し、第2実施形態に係る予測部21では、第1実施形態において前記予測した短い未来の認識情報を第2端末20に入力された最新の認識情報で代用する。具体的には、予測処理時間をnとすれば、第1実施形態の説明におけるx-m(未来予測を行う時間幅)をx-m=nに設定することで、x秒先と、実測値が得られている最新の認識情報Rt+nとの変化量D't+n,t+xを予測した上で認識情報R't+xを次式(2)で求めることもできる。
R't+x = Rt+n + D't+n,t+x…(2)
【0029】
予測する対象を変化量に限定することで予測誤差を低減できる効果が得られる。図6は第2実施形態の模式図である。第1端末10で得られた時刻tまでの認識情報Rtが第2端末20で受信されており、第2端末20での予測処理に時間nが経過している。予測処理の間の時刻t+1,t+2,…,t+n-1,t+nにも認識情報は受信され続け、予測処理が完了する時点では時刻t+nの認識情報Rt+nが第2端末20で受信されている。予測処理では本来予測する未来時刻t+xと予測処理が完了するであろう時刻t+nとの変化量D't+n,t+xを予測するようにしておき、時刻t+xの認識情報R't+xが式(2)により、Rt+n + D't+n,t+xとして予測される。
【0030】
なお、第1実施形態及び第2実施形態での予測処理に関して、主要な処理負荷を占める律速段階に該当するのは深層学習ネットワーク等を用いた処理であると考えられ、式(1),(2)等の加算処理は律速段階に該当しないと考えられるところ、第1実施形態では前述の第1手順及び第2手順の2つの深層学習ネットワーク等の処理があるのに対し、第2実施形態では変化量D't+n,t+xを予測する1つのみの深層学習ネットワーク等の処理だけで済むことから、第2実施形態は第1実施形態に対して高速化が期待される。
【0031】
<第3実施形態>
または、第1及び第2実施形態の重み付け組み合わせ方式に相当する第3実施形態に係る予測部21では、短い未来を予測した認識情報と実測された認識情報との誤差(予測精度を評価したものに相当)に一定のバイアスをかけて予測値に反映しても良い。具体的には、x-m秒先の認識情報R't+x-mを予測した際、実測値Rt+nとの誤差に重み係数w1,w2を用いて次式(3)で求める。
R't+x = Rt+n +w1*Rt+w2*R't+x-m +D't+x-m,t+x…(3)
【0032】
例えば、認識情報R't+x-mを実測値Rt+nの時刻t+nに線形で内分した場合、時刻t+n時点で誤差(Rt+n -((R't+x-m-Rt)*n/(x-m)+Rt))が発生しているので、少なくともこの誤差をR't+x-mに反映させると最終的に上式(3)となる。このとき重み係数はw2=n/(x-m), w1=-(1-w2)となる。なお、線形で内分しない手法や、誤差を外分で反映する手法等、誤差の評価の仕方(線形/非線形や内挿/外挿)に応じた重みw1,w2(負数でもよい)を用いればよい。すなわち、式(3)の項「Rt+n +w1*Rt+w2*R't+x-m」は、実測値Rt+nと予測値R't+x-mとから、予め設定しておく誤差モデル(線形の場合、この誤差モデルが重みw1,w2で表現される)を用いて予測値R't+x-mの時刻t+x-mでの真値(実測値Rt+x-m)を推定することで、予測値R't+xについてもその真値(実測値Rt+x)に近づけるようにしたもの(前記一定のバイアスをかけて予測値R't+xに反映したもの)であり、より一般には、何らかの関数F(Rt,Rt+n,R't+x-m)を用いることができる。
【0033】
ここで、実測値Rt+nにおけるnとは、式(3)のR't+x-m及びD't+x-m,t+xを算出するのに要した時間、すなわち、第1実施形態における第1手順及び第2手順に要した時間であり、第3実施形態は、このnの定義のもとで、第1実施形態における第3手順を、式(1)ではなく式(3)を用いるものとして実現することができる。(なお、n≦x-mとなることで実測値Rt+nから未来時刻の方向に外分(外挿)して予測値R't+x-mの誤差を評価する場合(予測値R't+x-mから過去方向に内分して誤差評価する場合)と、x-m<nとなることで実測値Rt+nから過去時刻の方向に内分(外挿)して、(あるいは、x-m<nであることから受信済みである実測値Rt+x-mをそのまま用いて、)予測値R't+x-mの誤差を評価する場合(予測値R't+x-mから未来方向に外分して誤差評価する場合)と、のいずれもありうる。)
【0034】
<第4実施形態>
本来予測したい未来を分解する別の方式による第4実施形態に係る予測部21では、本来予測したい未来を1つ以上の区間に分解しそれぞれの区間の変化量を予測し合成することで本来予測したい未来の認識情報を予測する。具体的には図7(第4実施形態の模式図)にも示すように、時刻t(予測処理に参照する最新の実測の認識情報の時刻t)においてx秒先の時刻t+xでの認識情報R't+xを予測する場合、
(第1区間)時刻tとm1秒先との変化量D't,t+m1と、
(第2区間)m1秒先とm2秒先との変化量D't+m1,t+m2と、
(第3区間)m2秒先とx秒先との変化量D't+m2,t+xと、
を予測した上で、認識情報R't+xを次式(4)で求める。(0<m1<m2<x)
R't+x=Rt+D't,t+m1+D't+m1,t+m2+D't+m2,t+x…(4)
【0035】
第4実施形態では、x秒先を直接予測するよりm1秒先、m2秒先の短い未来を予測することで予測精度を高める効果が得られる。上記の説明ではm1, m2で分けた3区間について例示したが、より多い区間や、1区間以上の任意数の区間を用いることもできる。
【0036】
なお、第4実施形態では、変化量を求めるための分割区間の数だけ、深層学習ネットワーク等による処理を行うこととなる。なお、第1実施形態に第4実施形態を組み合わせることにより、第1実施形態における第2手順で求める変化量を、2区間以上に分割して求めるようにしてもよい。
【0037】
以上、予測部21の各実施形態を説明したので、図4の各部の説明に戻る。
【0038】
描画部22は予測情報を入力として、当該予測情報に応じてアバタを描画する。予測部21の各実施形態により、第2端末20が受信した認識情報に応じて予測された予測情報を、現時刻での第1端末10での認識情報に近似するものとして得ることができるため、伝送遅延や処理遅延を隠蔽することに繋がり円滑なコミュニケーションを実現できる効果が得られる。
【0039】
提示部23は描画情報を入力として利用者に描画情報を提示する。提示部23には端末に搭載されているディスプレイやプロジェクタ等を利用することができる。
【0040】
以上、本発明の各実施形態により、過去の認識情報から推論した未来の認識情報や変化量に基づいて更なる未来の動きを予測することで、伝送遅延や処理遅延を隠蔽することに繋げて円滑なコミュニケーションを実現できる。以下、種々の補足例、代替例、追加例などについて説明する。
【0041】
<1> 本発明の実施形態によれば、アバタ描画により臨場感ある遠隔コミュニケーションを実現可能である。これにより、遠隔地への実際の移動を必ずしも必須とせずに遠隔会議等を行うことが可能となり、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標(SDGs)の目標13「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。
【0042】
<2> 図8は、一実施形態に係る予測部21において、第1実施形態の第1手順等を担うための深層学習ネットワークN(k)の構成例である。このネットワークN(k)は、N+2個の時刻tn,tn-1,…,tn-N-1に渡るk番目の要素パラメータ履歴wk(tn),wk(tn-1),…,wk(tn-N-1)を入力として、m個先の未来時刻tn+mのパラメータwk(tn+m)の予測値w'k(tn+m)を出力するものであり、次の(1)~(4)の各処理の詳細の一例を示すものである。なお、アバタの制御パラメータが合計K個あるものとし、そのk(k=1,2,…,K)番目のパラメータについて予測を行うのが図8のネットワークN(k)である。(すなわち、アバタの制御パラメータの各要素ごとに、ネットワークN(k)の構造は共通で、学習されるパラメータが異なる。)
【0043】
(1) 現時刻tまでに遅延dを伴って第1端末10から得られている最新のアバタ制御パラメータA(t-d)までの一定の長さの以下のパラメータ履歴H(t-d)を参照する。
H(t-d)={A(t-e), A(t-e+1),…,A(t-d-1), A(t-d)}
ここでe>dであり、
e-d+1がこのパラメータ履歴H(t-d)の長さ(データ数)となる。
【0044】
(2) パラメータ履歴H(t-d)からその時間微分履歴H1(t-d)を以下のように求める。(D(x)は、同時刻x(x=t-e,…,t-d)における制御パラメータA(x)の時間微分である。)
H1(t-d)={D(t-e), D(t-e+1),…,D(t-d-1), D(t-d)}
【0045】
(3) パラメータ履歴H(t-d)及びその微分H1(t-d)並びに遅延値dを予め学習してある深層学習ネットワークNに以下のように入力することで、現在時刻tにおけるアバタ制御パラメータA(t)の時間微分D(t)の予測値D'(t)を出力する。
D'(t)=N(H(t-d), H1(t-d), d)
【0046】
(4) 最新のアバタ制御パラメータA(t-d)及び遅延dと、上記予測した現在時刻tでの微分値D'(t)を用いて、現在時刻tにおけるアバタ制御パラメータA(t)の予測値A'(t)を以下のように得る。
A'(t)=A(t-d)+d*D'(t)
【0047】
深層学習ネットワークN(k)では、前段側で前述した微分算出処理を行ったうえで履歴及びその微分を第1LSTM(長・短期記憶)ネットワークL1に入力し、この第1LSTMネットワークL1の出力をさらに第2LTSMネットワークL2に入力し、この第2LSTMネットワークL2の出力をさらに全結合層(Dense)ネットワークDSに入力し、この全結合層ネットワークDSの出力として予測時刻tn+mでのパラメータ微分予測値Δw'k(tn+m)を得る。
【0048】
なお、微分算出処理は、入力履歴wk(tn),wk(tn-1),…,wk(tn-N-1)について図示されるi番目の隣接時刻ペアW(i)={wk(tn-i),wk(tn-i-1)}(i=0,1,…,N)ごとに、差分処理S(i)及び隣接時刻差による除算処理D(i)によって以下のように算出され、入力履歴wk(tn),wk(tn-1),…,wk(tn-N-1), wk(tn-N)及びその微分Δwk(tn),Δwk(tn-1),…,Δwk(tn-N-1), wk(tn-N)が第1LSTMに入力される。
Δwk(tn-i)={wk(tn-i)-wk(tn-i-1)}/(tn-i-tn-i-1)
【0049】
全結合層ネットワークDSの出力であるΔw'k(tn+m)に対して、遅延量に相当する「tn+m-tn」を乗算する乗算処理MLと、入力履歴で参照可能な最新時刻tnのパラメータwk(tn)を加算する加算処理ADとにより、予測値w'k(tn+m)を以下の通り出力できる。(なお、これは前述した「A'(t)=A(t-d)+d*D'(t)」を、図8に示される通りの時刻表記でパラメータのk番目の成分について示したものに該当し、「t=tn+m」、「t-d=tn」とすることで時刻表記が互いに対応する。)
w'k(tn+m)=wk(tn)+(tn+m-tn)*Δw'k(tn+m)
【0050】
なお、以上では、図8全体の構成として、予測部21が例えば第1実施形態の式(1)の認識情報R't+xを予測値として得る構成を示したが、例えば同式(1)の変化量D't+x-m,t+xを予測する構成としては、全結合層(Dense)ネットワークDSの出力であるΔw'k(tn+m)を用いればよい。
【0051】
すなわち、予測部21が認識情報R't+x等の予測値を得る際は、図8全体の構成(「予測値ネットワーク」とする)を用いればよく、予測部21が変化量D't+x-m,t+x等の変化量を得る際は、図8全体の構成から最後の乗算処理ML及び加算処理ADを除いた構成(「変化量ネットワーク」とする)を用いればよい。予測値ネットワークと変化量ネットワークとは、このようにネットワーク構造の大部分が共通するものであるが、学習は別途に行うことによって、別途のパラメータで構成されるものであってもよい。
【0052】
<3> 第1端末10では、アバタ描画対象となるユーザのアバタ制御パラメータA(t)を各時刻tにおいて取得するが、図4で示したような撮像部11及び認識部12による画像解析による取得方式に代えて、不図示の録音部13及び解析部14によって音声解析により、パラメータA(t)を取得してもよい。
【0053】
録音部13はハードウェアとしてはマイクで構成され、利用者である第1ユーザU1の発声を録音して、現時刻tの音声データS(t)を取得し、解析部14に出力する。
【0054】
解析部14は、認識部2に代わるものとして別実施形態でアバタ制御のパラメータA(t)を算出するものであり、例えば以下の非特許文献1の手法を用いることによる音声S(t)の波形解析により、第1ユーザU1の発声態様(顔の表情等)を解析することで、パラメータA(t)を取得し、ネットワークNWを介してこのパラメータA(t)を第2端末20へと送信することで予測部21へと出力する。
[非特許文献1] TIAN, Guanzhong; YUAN, Yi; LIU, Yong. Audio2face: Generating speech/face animation from single audio with attention-based bidirectional lstm networks. In: 2019 IEEE international conference on Multimedia & Expo Workshops (ICMEW). IEEE, 2019. p. 366-371.
【0055】
なお、アバタ描画のためのパラメータA(t)の取得手法は、以上のような画像解析や音声解析の手法以外にも任意の手法を用いてよく、例えばモーションキャプチャセンサ等を用いてもよい。複数の手法を組み合わせてもよい。
【0056】
<4> 図9は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。予測システム100を構成する第1端末10及び第2端末20(並びに予測システム100における予測部21を少なくとも含む予測装置20)の各々は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70で各端末や装置の各々を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78、マイク79及びスピーカ80と、これらの間でデータを授受するためのバスBSと、を備える。
【0057】
予測システム100の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。提示部23におけるアバタ表示機能はディスプレイ76において実現し、撮像部11はカメラ78として実現し、録音部13はマイク79として実現してよい。アバタコミュニケーションを行う場合の第1ユーザU1の発声について、マイク79で収録し、スピーカ80を介して相手側の第2ユーザU2に対して音声を出力するようにしてもよい。
【符号の説明】
【0058】
100…予測システム、10…第1端末、20…第2端末(予測装置)
11…撮像部、12…認識部、21…予測部、22…描画部、23…提示部
図1
図2
図3
図4
図5
図6
図7
図8
図9