特開2024-84157 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特開2024-84157情報処理装置及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8A
8B
9
10
11
12
13
14
15
16
17A
17B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024084157

(43)【公開日】2024-06-25

(54)【発明の名称】情報処理装置及び情報処理方法

(51)【国際特許分類】

G06T 7/20 20170101AFI20240618BHJP

G06T 7/246 20170101ALI20240618BHJP

G06T 13/40 20110101ALI20240618BHJP

H04N 23/60 20230101ALI20240618BHJP

H04N 23/54 20230101ALI20240618BHJP

【ＦＩ】

G06T7/20 300B

G06T7/246

G06T13/40

H04N5/232 290

H04N5/225 300

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

(21)【出願番号】P 2021072683

(22)【出願日】2021-04-22

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100091487

【弁理士】

【氏名又は名称】中村行孝

(74)【代理人】

【識別番号】100120031

【弁理士】

【氏名又は名称】宮嶋学

(72)【発明者】

【氏名】イシダアベレオナルド

【テーマコード（参考）】

5B050

5C122

5L096

【Ｆターム（参考）】

5B050AA08

5B050AA09

5B050BA04

5B050BA08

5B050BA09

5B050BA12

5B050CA01

5B050DA02

5B050DA04

5B050DA07

5B050EA07

5B050EA24

5B050EA26

5B050FA02

5B050FA05

5C122DA03

5C122DA16

5C122DA30

5C122DA42

5C122EA56

5C122EA61

5C122FA04

5C122FA06

5C122FA14

5C122FA18

5C122FH10

5C122FH12

5C122FH14

5C122FH19

5C122FH22

5C122FK24

5C122FK41

5C122HA88

5C122HA89

5C122HB01

5C122HB05

5L096BA08

5L096CA05

5L096CA18

5L096DA01

5L096FA02

5L096FA09

5L096FA66

5L096FA67

5L096FA69

5L096HA04

5L096HA05

5L096HA11

5L096JA11

5L096JA16

5L096KA04

(57)【要約】

【課題】複雑な処理や高性能のプロセッサ等を要することなく、高品質のアニメーション画像を簡易な手順で生成する。
【解決手段】情報処理装置は、有効画素領域の全域を、予め定めたフレームレートで撮像する第１の撮像部と、イベントが生じた画素を撮像する第２の撮像部と、第１の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第１のデータ生成部と、第２の撮像部で撮像された画像に含まれる特徴点を検出して、検出された特徴点の動きを追跡する特徴点追跡部と、特徴点の動きの追跡結果に基づいて、特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第２のデータ生成部と、第１のデータ生成部で生成されたデータの少なくとも一部と、第２のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

有効画素領域の全域を、予め定めたフレームレートで撮像する第１の撮像部と、
イベントが生じた画素を撮像する第２の撮像部と、
前記第１の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第１のデータ生成部と、
前記第２の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第２のデータ生成部と、
前記第１のデータ生成部で生成されたデータの少なくとも一部と、前記第２のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、を備える、情報処理装置。

【請求項2】

前記第１のデータ生成部は、前記第１の撮像部で撮像された二次元画像と、前記情報交換部から提供された前記第２のデータ生成部で生成されたデータの少なくとも一部とに基づいて、前記二次元画像を三次元画像に変換するためのデータを生成し、
前記第２のデータ生成部は、前記特徴点の動きの追跡結果と、前記情報交換部から提供された前記第１のデータ生成部で生成されたデータの少なくとも一部とに基づいて、前記部分アニメーション画像用のデータを生成する、請求項１に記載の情報処理装置。

【請求項3】

前記第１の撮像部及び前記第２の撮像部は、被写体の顔を撮像し、
前記情報交換部は、前記第１のデータ生成部で生成されたデータに含まれる被写体の頭の姿勢と視線方向との少なくとも一方に関するデータを前記第２のデータ生成部に提供し、かつ、前記第２のデータ生成部で生成されたデータに含まれる被写体の目又は口の動きと、皮膚の状態変化との少なくとも一方に関するデータを前記第１のデータ生成部に提供する、請求項２に記載の情報処理装置。

【請求項4】

前記情報交換部は、前記第１のデータ生成部及び前記第２のデータ生成部のそれぞれから、互いに異なる種類のデータの提供を受けて、前記第１のデータ生成部及び前記第２のデータ生成部の間でデータを交換し合う、請求項１に記載の情報処理装置。

【請求項5】

前記情報交換部は、前記第１のデータ生成部及び前記第２のデータ生成部のそれぞれから、同じ種類のデータの提供を受けて、提供されたデータのうち信頼性の高いデータを、前記第１のデータ生成部及び前記第２のデータ生成部で共有する、請求項１に記載の情報処理装置。

【請求項6】

前記第２の撮像部は、前記第１の撮像部よりも高いフレームレートで、前記イベントが生じた画素を含む画像を出力する、請求項１に記載の情報処理装置。

【請求項7】

前記第２の撮像部は、前記イベントの発生したタイミングに合わせて前記画像を出力する、請求項６に記載の情報処理装置。

【請求項8】

前記情報交換部にて少なくとも一部のデータを交換し合った前記第１のデータ生成部及び前記第２のデータ生成部で生成されたデータに基づいて、第１のアニメーション画像を生成するアニメーション生成部をさらに備える、請求項１に記載の情報処理装置。

【請求項9】

前記アニメーション生成部は、前記第１のデータ生成部で生成された三次元画像に、前記第２のデータ生成部で生成された前記部分アニメーション画像を合成した前記第１のアニメーション画像を生成する、請求項８に記載の情報処理装置。

【請求項10】

前記第１のアニメーション画像と三次元アニメーションモデル画像とを合成して、第２のアニメーション画像を生成する画像合成部をさらに備える、請求項８に記載の情報処理装置。

【請求項11】

前記三次元アニメーションモデル画像は、前記第１の撮像部及び前記第２の撮像部で撮像された被写体とは無関係の三次元アニメーション画像である、請求項１０に記載の情報処理装置。

【請求項12】

前記第１のアニメーション画像及び前記前記第２のアニメーション画像は、被写体の動きに応じた動きを行う、請求項１０に記載の情報処理装置。

【請求項13】

前記第１のデータ生成部は、前記第１の撮像部で撮像された二次元画像から特徴点を抽出して、抽出された前記特徴点に基づいて前記三次元画像を生成する、請求項１に記載の情報処理装置。

【請求項14】

前記第１のデータ生成部は、前記第１の撮像部で撮像された二次元画像に含まれる顔を抽出して、抽出された前記顔の特徴点、頭の姿勢、及び視線方向の少なくとも一方に基づいて、前記三次元画像を生成する、請求項１３に記載の情報処理装置。

【請求項15】

前記特徴点追跡部は、前記第２の撮像部で撮像された異なるフレームの画像間での前記特徴点の動きを検出することで、前記特徴点を追跡する、請求項１に記載の情報処理装置。

【請求項16】

前記第２のデータ生成部は、前記第２の撮像部で撮像された画像のフレームレートを、アニメーション画像に適したフレームレートに下げた前記部分アニメーション画像を生成するフレームレート変換部を有する、請求項１に記載の情報処理装置。

【請求項17】

前記第２のデータ生成部は、
前記第２の撮像部で撮像された画像に対応する三次元画像を生成する特徴点画像生成部と、
前記三次元画像の表面法線を計算する表面法線計算部と、
前記三次元画像に含まれる物体を検出する物体検出部と、
前記三次元画像に含まれる注目領域を抽出する注目領域抽出部と、
前記三次元画像に含まれる前記特徴点を抽出する特徴点抽出部と、を有し、
前記第２のデータ生成部は、前記特徴点画像生成部で生成された三次元画像と、前記表面法線計算部で計算された表面法線と、前記物体検出部で検出された物体と、前記注目領域抽出部で抽出された前記注目領域と、前記特徴点抽出部で抽出された前記特徴点とに基づいて、前記特徴点の動きを模擬する前記部分アニメーション画像のためのデータを生成する、請求項１に記載の情報処理装置。

【請求項18】

前記第１の撮像部及び前記第２の撮像部の少なくとも一方は、複数設けられる、請求項１に記載の情報処理装置。

【請求項19】

前記第１の撮像部及び前記第２の撮像部とは別個に設けられ、被写体の奥行き情報、被写体までの距離情報、又は被写体の温度情報の少なくとも一つを含む画像を撮像する第３の撮像部を備え、
前記第１のデータ生成部及び前記第２のデータ生成部の少なくとも一方は、前記第３の撮像部で撮像された画像に基づいて、三次元画像に変換するためのデータと前記部分アニメーション画像用のデータとの少なくとも一方を生成する、請求項１に記載の情報処理装置。

【請求項20】

三次元アニメーション画像を生成する情報処理装置と、
前記三次元アニメーション画像を表示する表示装置と、を備える電子機器であって、
前記情報処理装置は、
有効画素領域の全域を、予め定めたフレームレートで撮像する第１の撮像部と、
イベントが生じた画素を撮像する第２の撮像部と、
前記第１の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第１のデータ生成部と、
前記第２の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第２のデータ生成部と、
前記第１のデータ生成部で生成されたデータの少なくとも一部と、前記第２のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、
前記情報交換部にて少なくとも一部のデータを交換し合った前記第１のデータ生成部及び前記第２のデータ生成部で生成されたデータに基づいて、第１のアニメーション画像を生成するアニメーション生成部と、
前記第１のアニメーション画像と三次元アニメーションモデル画像とを合成して、第２のアニメーション画像を生成する画像合成部と、を備え、
前記表示装置は、前記第２のアニメーション画像を表示する、電子機器。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置及び情報処理方法に関する。

【背景技術】

【0002】

イベントカメラは、通常のカメラと異なり、輝度変化等のイベントが生じた画素情報だけを撮像するため、少ないデータ量でイベント情報を高速に取得できるという特徴がある。イベントカメラを使って、変形可能な物体の動きを高速に追跡する技術が提案されている（特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】国際公開２０１９／０９９３３７

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１は、イベントカメラを用いて、変形可能な物体の動きを撮像することを目的としているが、イベントカメラは、輝度変化を高速かつ精度よく検出できるものの、輝度変化がない画素情報は取得できず、また物体の色情報も取得できない。このため、特許文献１の技術では、高精細な二次元画像を生成することはできない。

【0005】

最近では、通常のカメラで撮影した二次元画像から特徴点を抽出して、抽出された特徴点を手がかりに三次元画像やアニメーション画像を生成する技術が注目されている。動きのある特徴点の抽出と追跡に関しては通常のカメラよりもイベントカメラの方が優れており、イベントカメラを用いることで、動きのある特徴点を高精度に追跡することができる。その一方で、動きのない特徴点はイベントカメラでは検出できないため、通常のカメラで撮像した画像から検出する必要がある。

【0006】

このように、通常のカメラとイベントカメラは、一長一短を有し、どちらか一方だけでは、動きのある被写体についての三次元画像やアニメーション画像を生成することは困難である。

【0007】

そこで、本開示は、複雑な処理や高性能のプロセッサ等を要することなく、高品質のアニメーション画像を簡易な手順で生成可能な情報処理装置及び情報処理方法を提供するものである。

【課題を解決するための手段】

【0008】

上記の課題を解決するために、本開示の一態様によれば、有効画素領域の全域を、予め定めたフレームレートで撮像する第１の撮像部と、
イベントが生じた画素を撮像する第２の撮像部と、
前記第１の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第１のデータ生成部と、
前記第２の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第２のデータ生成部と、
前記第１のデータ生成部で生成されたデータの少なくとも一部と、前記第２のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、を備える、情報処理装置が提供される。

【0009】

【0010】

【0011】

前記情報交換部は、前記第１のデータ生成部及び前記第２のデータ生成部のそれぞれから、互いに異なる種類のデータの提供を受けて、前記第１のデータ生成部及び前記第２のデータ生成部の間でデータを交換し合ってもよい。

【0012】

前記情報交換部は、前記第１のデータ生成部及び前記第２のデータ生成部のそれぞれから、同じ種類のデータの提供を受けて、提供されたデータのうち信頼性の高いデータを、前記第１のデータ生成部及び前記第２のデータ生成部で共有してもよい。

【0013】

前記第２の撮像部は、前記第１の撮像部よりも高いフレームレートで、前記イベントが生じた画素を含む画像を出力してもよい。

【0014】

前記第２の撮像部は、前記イベントの発生したタイミングに合わせて前記画像を出力してもよい。

【0015】

前記情報交換部にて少なくとも一部のデータを交換し合った前記第１のデータ生成部及び前記第２のデータ生成部で生成されたデータに基づいて、第１のアニメーション画像を生成するアニメーション生成部をさらに備えてもよい。

【0016】

前記アニメーション生成部は、前記第１のデータ生成部で生成された三次元画像に、前記第２のデータ生成部で生成された前記部分アニメーション画像を合成した前記第１のアニメーション画像を生成してもよい。

【0017】

前記第１のアニメーション画像と三次元アニメーションモデル画像とを合成して、第２のアニメーション画像を生成する画像合成部をさらに備えてもよい。

【0018】

前記三次元アニメーションモデル画像は、前記第１の撮像部及び前記第２の撮像部で撮像された被写体とは無関係の三次元アニメーション画像であってもよい。

【0019】

前記第１のアニメーション画像及び前記前記第２のアニメーション画像は、被写体の動きに応じた動きを行ってもよい。

【0020】

前記第１のデータ生成部は、前記第１の撮像部で撮像された二次元画像から特徴点を抽出して、抽出された前記特徴点に基づいて前記三次元画像を生成してもよい。

【0021】

前記第１のデータ生成部は、前記第１の撮像部で撮像された二次元画像に含まれる顔を抽出して、抽出された前記顔の特徴点、頭の姿勢、及び視線方向の少なくとも一方に基づいて、前記三次元画像を生成してもよい。

【0022】

前記特徴点追跡部は、前記第２の撮像部で撮像された異なるフレームの画像間での前記特徴点の動きを検出することで、前記特徴点を追跡してもよい。

【0023】

前記第２のデータ生成部は、前記第２の撮像部で撮像された画像のフレームレートを、アニメーション画像に適したフレームレートに下げた前記部分アニメーション画像を生成するフレームレート変換部を有してもよい。

【0024】

【0025】

前記第１の撮像部及び前記第２の撮像部の少なくとも一方は、複数設けられてもよい。

【0026】

【0027】

本開示の他の一態様は、三次元アニメーション画像を生成する情報処理装置と、
前記三次元アニメーション画像を表示する表示装置と、を備える電子機器であって、
前記情報処理装置は、
有効画素領域の全域を、予め定めたフレームレートで撮像する第１の撮像部と、
イベントが生じた画素を撮像する第２の撮像部と、
前記第１の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第１のデータ生成部と、
前記第２の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第２のデータ生成部と、
前記第１のデータ生成部で生成されたデータの少なくとも一部と、前記第２のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、
前記情報交換部にて少なくとも一部のデータを交換し合った前記第１のデータ生成部及び前記第２のデータ生成部で生成されたデータに基づいて、第１のアニメーション画像を生成するアニメーション生成部と、
前記第１のアニメーション画像と三次元アニメーションモデル画像とを合成して、第２のアニメーション画像を生成する画像合成部と、を備え、
前記表示装置は、前記第２のアニメーション画像を表示する、電子機器が提供される。

【図面の簡単な説明】

【0028】

【図1】一実施形態による情報処理装置の概略構成を示すブロック図。

【図2】ＧＡＮを用いて二次元画像から三次元画像を生成する処理の手順を示すフローチャート。

【図3】顔画像をメッシュ分割した三次元画像の一例を示す図。

【図4】第２のデータ生成部の内部構成を示すブロック図。

【図5】情報交換部の第１の具体例を示すブロック図。

【図6】第１のデータ生成部から情報交換部を介して第２のデータ生成部に特徴点の情報を提供する例を示す図。

【図7】第２のデータ生成部から情報交換部を介して第１のデータ生成部に目や口の動き、皮膚の状態変化の情報などを提供する例を示す図。

【図8A】顔画像から人間の左目と右目を抽出して頭の姿勢を検出する例を示す図。

【図8B】人間の顔画像から複数の特徴点を抽出して頭の姿勢を抽出する例を示す図。

【図9】第２のデータ生成部が生成する部分アニメーション画像の一例を示す図。

【図10】情報交換部の第２の具体例を示すブロック図。

【図11】本開示による情報処理装置のハードウェア構成の一例を示すブロック図。

【図12】第１のユースケースによる情報処理装置の概略構成を示すブロック図。

【図13】仮想会議システムの参加者を示す図。

【図14】第２のユースケースによる情報処理装置の概略構成を示すブロック図。

【図15】ＶＲグラス又はＨＭＤを装着した人間を示す図。

【図16】第３のユースケースによる情報処理装置の概略構成を示すブロック図。

【図17A】フレームカメラとイベントカメラの他に、特殊機能を持ったカメラと第３の処理プロセッサとを備える情報処理装置１のブロック図。

【図17B】図１７Ａの一変形例の情報処理装置のブロック図。

【発明を実施するための形態】

【0029】

以下、図面を参照して、情報処理装置及び情報処理方法の実施形態について説明する。以下では、情報処理装置及び情報処理方法の主要な構成部分を中心に説明するが、情報処理装置及び情報処理方法には、図示又は説明されていない構成部分や機能が存在しうる。以下の説明は、図示又は説明されていない構成部分や機能を除外するものではない。

【0030】

（情報処理装置の全体構成）
図１は一実施形態による情報処理装置１の概略構成を示すブロック図である。図１の情報処理装置１は、必須の構成部分として、第１の撮像部２と、第２の撮像部３と、第１のデータ生成部４と、特徴点追跡部５と、第２のデータ生成部６と、情報交換部７とを備えている。

【0031】

第１の撮像部２は、有効画素領域の全域を、予め定めたフレームレートで撮像する。第１の撮像部２は、ＲＧＢの階調情報を撮像する通常のイメージセンサ、又はこのイメージセンサを内蔵するカメラ（以下、フレームカメラと呼ぶこともある）である。第１の撮像部２は、フレームレートを変更する機能を持っていてもよい。第１の撮像部２は、単色波長域の階調情報を撮像してもよい。例えば、第１の撮像部２は、赤外波長域の光を撮像してもよい。

【0032】

第２の撮像部３は、イベントが生じた画素を撮像する。ここで、イベントとは、例えば、輝度変化が閾値を超えたことを指す。輝度変化は絶対値でもよい。輝度の低い状態から高い状態への輝度変化が閾値を超えた場合と、輝度が高い状態から低い状態への輝度変化が閾値を超えた場合に、イベントが発生したと判断してもよい。また、閾値を複数設けて、複数種類のイベントを検出できるようにしてもよい。さらに、輝度変化ではなく、受光量が閾値を超えた場合、又は受光量が閾値を下回った場合にイベントが発生したと判断してもよい。さらに、イベント検出用の閾値を調整できるようにしてもよい。閾値を調整することで、第２の撮像部３のダイナミックレンジを広げることができる。

【0033】

第２の撮像部３は、イベントが生じた画素のみを撮像し、イベントが生じなかった画素は撮像しないため、１フレームごとの画像サイズを小さくすることができる。第１の撮像部２と第２の撮像部３で撮像された画像は、それぞれ不図示の記憶部に記憶されるが、第２の撮像部３で撮像された画像サイズは、第１の撮像部２で撮像された画像サイズよりもはるかに小さいことから、その分、第２の撮像部３のフレームレートを高くすることができ、より高速の撮像が可能になる。

【0034】

第２の撮像部３は、受光量又は輝度変化が閾値を超えたか否かを画素ごとに検出する機能を持ったセンサを有する。この種のセンサは、例えばＥＶＳ（Event base Vision Sensor）又はＤＶＳ（Dynamic Vision Sensor）と呼ばれることがある。

【0035】

第１のデータ生成部４は、第１の撮像部２で撮像された二次元画像を三次元画像に変換するためのデータを生成する。例えば、第１のデータ生成部４は、第１の撮像部２で撮像された二次元画像から特徴点（keypoint）を抽出して、抽出された特徴点に基づいて三次元画像を生成する。三次元画像を生成する過程で、ＣＮＮ（Convolutional Neural Network）やＤＮＮ（Deep Neural Network）を用いて学習を行ってもよい。

【0036】

より具体的な一例として、第１のデータ生成部４は、第１の撮像部２で撮像された二次元画像に含まれる顔を抽出して、抽出された顔の特徴点、頭の姿勢（pose）、及び視線（gaze）の少なくとも一方に基づいて、学習を行った上で、三次元画像を生成する。

【0037】

特徴点追跡部５は、第２の撮像部３で撮像された画像に含まれる特徴点を検出して、検出された特徴点の動きを追跡する。より詳細には、特徴点追跡部５は、第２の撮像部３で撮像された異なるフレームの画像間での特徴点の動きを検出することで、特徴点を追跡する。

【0038】

第２のデータ生成部６は、特徴点の動きの追跡結果に基づいて、特徴点の動きを模擬する部分アニメーション画像用のデータを生成する。第２のデータ生成部６は、第２の撮像部３で撮像された画像のフレームレートを、アニメーション画像に適したフレームレートに下げる。第２のデータ生成部６の内部構成の詳細については後述する。

【0039】

特徴点は、キーポイント（keypoint）又は密度（dense）と呼ばれることもある。また、フレーム間での特徴点の動きを検出する処理は、オプティカルフローと呼ばれることもある。特徴点追跡部５は、キーポイントや密度によって特徴点を抽出し、例えばオプティカルフローを利用して特徴点を追跡する。

【0040】

情報交換部７は、第１のデータ生成部４で生成されたデータの少なくとも一部と、第２のデータ生成部６で生成されたデータの少なくとも一部とを交換しあう。これにより、情報交換部７は、第１データ生成部で生成されたデータと、第２データ生成部で生成されたデータとの少なくとも一部を補完し合うことができる。

【0041】

情報交換部７は、第１のデータ生成部４及び第２のデータ生成部６のそれぞれから、互いに異なる種類のデータの提供を受けて、第１のデータ生成部４及び第２のデータ生成部６の間でデータを交換し合ってもよい。

【0042】

あるいは、情報交換部７は、第１のデータ生成部４及び第２のデータ生成部６のそれぞれから、同じ種類のデータの提供を受けて、提供されたデータのうち信頼性の高いデータを、第１のデータ生成部４及び第２のデータ生成部６で共有してもよい。

【0043】

例えば、情報交換部７は、第１のデータ生成部４で検出された頭の姿勢（pose）と視線方向（gaze）の情報を第２データ生成部に提供するとともに、第２のデータ生成部６で検出された目や口の動きの情報と皮膚（skin）の状態変化の情報等を第１データ生成部に提供することができる。第１のデータ生成部４は、情報交換部７を介して第２のデータ生成部６から提供された目や口の動きの情報と皮膚（skin）の状態変化の情報等を用いて、三次元画像を生成することができる。第２のデータ生成部６は、情報交換部７を介して第１のデータ生成部４から提供された頭の姿勢（pose）と視線方向（gaze）の情報を用いて、部分アニメーション画像用のデータを生成することができる。

【0044】

このように、情報交換部７を設けて、第１のデータ生成部４と第２のデータ生成部６が互いに少なくとも一部のデータを交換し合うことで、第１のデータ生成部４が生成する三次元画像と、第２のデータ生成部６が生成する部分アニメーション画像の品質を向上できる。

【0045】

図１の情報処理装置１は、アニメーション生成部８を備えていてもよい。アニメーション生成部８は、情報交換部７で少なくとも一部のデータを交換しあった第１のデータ生成部４及び第２のデータ生成部６で生成されたデータに基づいて、第１のアニメーション画像を生成する。より詳細には、アニメーション生成部８は、第１のデータ生成部４で生成された三次元画像に、第２のデータ生成部６で生成された部分アニメーション画像を合成した第１のアニメーション画像を生成する。

【0046】

第１のアニメーション画像は、顔画像であってもよいし、手や足などの顔以外の画像であってもよい。また、第１のアニメーション画像は、必ずしも人間や動物の画像である必要はなく、車両等の任意の物体の画像であってもよい。

【0047】

図１の情報処理装置１は、画像合成部９を備えていてもよい。画像合成部９は、第１のアニメーション画像と三次元アニメーションモデル１０とを合成して、第２のアニメーション画像を生成する。三次元アニメーションモデル１０は、予め用意される三次元アニメーション画像であり、第１の撮像部２及び第２の撮像部３で撮像された被写体とは無関係の画像である。これにより、第１の撮像部２及び第２の撮像部３で撮像された被写体を任意のアニメーションモデル画像に置換し、かつ、被写体の例えば目や口の動きを模擬した動きをアニメーションモデル画像に反映させることができる。これにより、被写体の目や口、頭等の動きに合わせて、アニメーション画像の目や口、頭等を動かすことができる。

【0048】

（第１のデータ生成部４の処理）
第１のデータ生成部４は、第１の撮像部２で撮像された二次元画像に基づいて三次元画像を生成する。二次元画像から三次元画像を生成する具体的な処理内容は問わない。以下では、一例として、ＧＡＮ（Generative Adversarial Network）を用いた処理を説明する。図２はＧＡＮを用いて二次元画像から三次元画像を生成する処理の手順を示すフローチャートである。まず、フレームカメラに対応する第１の撮像部２で撮像された二次元画像を取得する（ステップＳ１）。次に、取得された二次元画像に基づいて、奥行き情報と、アルベド（反射能）情報と、視点情報と、光の方向とを予測する（ステップＳ２）。ここでは、奥行き情報、アルベド情報、光の方向を用いて二次元画像を三次元画像に変換し、その三次元画像を二次元画像に投影して、元の二次元画像と比較して、比較結果が同じになるように、奥行き情報、アルベド情報、光の方向を更新する学習を行う。

【0049】

次に、ステップＳ２で生成された三次元画像について、視点情報と光の方向を変化させて、三次元形状の学習を行う（ステップＳ３）。学習には、ＣＮＮやＤＮＮなどを用いることができる。

【0050】

次に、上述したステップＳ２及びＳ３の処理を所定回数繰り返したか否かを判定し（ステップＳ４）、所定回数繰り返して学習させた三次元画像を最終的に出力する。

【0051】

第１のデータ生成部４の処理を行うにあたって、第１の撮像部２で撮像された二次元画像から特徴点を抽出し、特徴点に基づいて奥行き情報を推測し、推測した奥行き情報を用いて三次元画像を生成してもよい。特徴点は、顔の輪郭や口、鼻、耳、眉毛、顎などである。特徴点と奥行き情報から、図３に示すように、顔をメッシュ状に分割し、メッシュの格子線の曲線形状により、三次元情報を表してもよい。また、二次元画像中の特徴的な形状により特徴点を抽出してもよいし、二次元画像中のドットの濃淡度合（dense）に基づいて特徴点を抽出してもよい。

【0052】

第１のデータ生成部４の処理は、有効画素領域内の全画素の情報を含む二次元画像に基づいて行われるため、処理に時間がかかる可能性があるものの、二次元画像中の特徴点を漏れなく抽出することができる。また、二次元画像は色階調情報を含んでいるため、色に特徴がある特徴点についても抽出することができ、色階調情報を含む三次元画像を生成できる。

【0053】

その一方で、第１の撮像部２で撮像される二次元画像の解像度と、第１のデータ生成部４の処理性能によって、三次元画像の品質が変化する。特に、被写体の少なくとも一部が動いている場合、その動きを三次元画像でどの程度正確に表現できるかは、第１のデータ生成部４における二次元画像を三次元画像に変換する処理を行うアルゴリズムに依存し、複雑なアルゴリズムを採用すると、三次元画像を生成するのに多大な時間を要する。

【0054】

一般には、形状に特徴がある特徴点の抽出は比較的容易に行うことができるが、皮膚や筋肉の状態変化などを特徴点として抽出するのは困難である。また、dense情報に基づく特徴点の抽出では、皮膚や筋肉の状態変化などの細かい部分の特徴を抽出できるが、処理に時間がかかる。

【0055】

通常のイメージセンサを搭載したカメラでは、３０フレーム／秒程度の二次元画像しか得られない。３０フレーム／秒程度では、アニメーション画像を滑らかに動かすことはできないおそれがあり、フレームレートをより高速化する必要がある。また、通常のイメージセンサを搭載したカメラでは、動きの速い物体の動きを忠実に追跡するのは困難であり、物体の動きを三次元画像中に忠実に再現させることはできない。

【0056】

（第２のデータ生成部６の処理）
第２の撮像部３は、受光量や輝度変化が閾値を超えるなどのイベントが生じた画素を撮像するため、特徴点追跡部５は、第２の撮像部３で撮像された画像から、比較的容易に動きのある特徴点を抽出できる。また、特徴点追跡部５は、複数のフレーム同士の第２の撮像部３で撮像された画像を比較することで、特徴点を追跡することができる。特徴点は、上述したように、形状に特徴がある特徴点と、輝度の濃淡（濃度）に特徴がある特徴点のどちらでもよい。

【0057】

図４は第２のデータ生成部６の内部構成を示すブロック図である。図４に示すように、第２のデータ生成部６は、フレームレート変換部１１と、処理モジュール１２とを有する。

【0058】

フレームレート変換部１１は、第２の撮像部３で撮像された画像のフレームレートを、アニメーション画像に適したフレームレートに下げる。第２の撮像部３は、イベントが生じた画素のみを含む画像を生成するため、フレームレートを高くすることができ、例えば、１０，０００フレーム／秒を超えるようなフレームレートも実現可能である。一方、アニメーション画像は、１，０００フレーム／秒程度で十分である。そこで、フレームレート変換部１１は、第２の撮像部３で撮像された画像のフレームレートを、アニメーション画像が滑らかに動く程度のフレームレートに変換する。

【0059】

フレームレート変換部１１の処理は、タイムビニング処理とも呼ばれる。より詳細には、フレームレート変換部１１は、特徴点の追跡結果を表す位置情報、速度情報、及び加速度情報を出力する。これらの情報は、処理モジュール１２に入力される。

【0060】

図４の処理モジュール１２は、特徴点画像生成部１３と、表面法線計算部１４と、物体検出部１５と、注目領域抽出部１６と、特徴点抽出部１７とを有する。

【0061】

特徴点画像生成部１３は、第２の撮像部３で撮像された画像に対応する三次元画像を生成する。表面法線計算部１４は、三次元画像の表面法線を計算する。例えば、表面法線計算部１４は、物体の動きから表面法線を計算する。物体検出部１５は、三次元画像に含まれる物体を検出する。注目領域抽出部１６は、三次元画像に含まれる注目領域（ＲＯＩ：Region Of Interest）を抽出する。特徴点抽出部１７は、三次元画像に含まれる特徴点を抽出する。

【0062】

第２のデータ生成部６は、特徴点画像生成部１３で生成された三次元画像と、表面法線計算部１４で計算された表面法線と、物体検出部１５で検出された物体と、注目領域抽出部１６で抽出された注目領域と、特徴点抽出部１７で抽出された特徴点とに基づいて、特徴点の動きを模擬する部分アニメーション画像のためのデータを生成する。第２のデータ生成部６は、フレームレートを変換した画像データに基づいて、パーティカルを単位とするアニメーション画像（particle-based animation）を生成してもよい。特徴点の代わりに、パーティカルに基づいて、三次元画像のメッシュを再構成してもよい。

【0063】

第２の撮像部３は、イベントが生じた画素のみを含む画像を生成するため、フレームレートを高速にすることができる。具体的には、第２の撮像部３は、１０，０００フレーム／秒以上のフレームレートで画像を取得することも可能である。また、輝度が第１の閾値を超えた画素と、輝度が第２の閾値を下回る画素とを検出することで、ダイナミックレンジを広げることができ、例えば、輝度が非常に高い画素と、輝度が非常に低い画素とを検出できる。

【0064】

その一方で、第２のデータ生成部６は、輝度変化の大きい画素しか検出できず、輝度変化のない画素の情報や、各画素の色情報を検出できない。また、現状、市販されているイベントカメラや、イベント検出用のセンサの解像度はフルＨＤにも満たない程度（例えば、１０８０×７２０）であり、第２の撮像部３で撮像された画像から、４Ｋや８Ｋ等の高解像度の三次元画像を生成することはできないという問題がある。

【0065】

（情報交換部７の処理）
情報交換部７は、第１のデータ生成部４及び第２のデータ生成部６で生成されたデータ同士を交換しあう。第１のデータ生成部４は、例えば、細かい特徴（High texture）の情報、色情報、及び高解像度情報などを、情報交換部７を介して第２のデータ生成部６に提供することができる。第２のデータ生成部６は、第２の撮像部３で撮像された高フレームレートの画像や、画像内の細かい輝度変化を表す密度情報や、広ダイナミックレンジのイベント情報などを、情報交換部７を介して第１のデータ生成部４に提供することができる。

【0066】

より具体的な一例では、第１のデータ生成部４は、頭の姿勢（pose）と視線方向（gaze）の少なくとも一方に関するデータを、情報交換部７を介して第２のデータ生成部６に提供する。第２のデータ生成部６は、目又は口の動きと、皮膚の状態変化との少なくとも一方に関するデータを第１のデータ生成部４に提供する。これにより、第１のデータ生成部４と第２のデータ生成部６は、高品質の三次元画像と部分アニメーション画像を生成することができる。

【0067】

以下に、情報交換部７の処理の具体例を２つ説明する。
（情報交換部７の第１の具体例）
情報交換部７の第１の具体例は、第１のデータ生成部４と第２のデータ生成部６で生成されたそれぞれ別種類の情報を、交換し合うものである。

【0068】

図５～図７は情報交換部７の第１の具体例を示すブロック図である。情報交換部７の第１の具体例では、被写体のマクロ情報を得るために第１の撮像部２及び第１のデータ生成部４を利用し、被写体のミクロ情報を得るために第２の撮像部３、特徴点追跡部５及び第２のデータ生成部６を利用する。

【0069】

第１の撮像部２は、有効画素の全域についての色階調情報を含む二次元画像を撮像する。第１のデータ生成部４は、第１の撮像部２で撮像された二次元画像に含まれる特徴点を抽出して、顔モデルを生成する。その際、第１のデータ生成部は、頭の姿勢（pose）と視線方向（gaze）などを検出する。

【0070】

特徴点追跡部５は、第２の撮像部３で撮像された画像に基づいて、目（瞬きの有無や瞳など）、口などの顔の一部分の詳細な動きを検出する。また、特徴点追跡部５は、顔の一部分の動きの速度を検出してもよい。さらに、特徴点追跡部５は、皮膚の状態の微妙な変化等の情報を検出してもよい。第２のデータ生成部６は、特徴点追跡部５で抽出された特徴点や特徴点の追跡結果に基づいて、部分アニメーション画像用のデータを生成する。

【0071】

第１のデータ生成部４で生成されたデータの少なくとも一部は情報交換部７に送られる。同様に、第２のデータ生成部６で生成されたデータの少なくとも一部は情報交換部７に送られる。情報交換部７は、図５に示すように、第１のデータ生成部４で生成されたデータと、第２のデータ生成部６で生成されたデータとを関連づける。例えば、第１のデータ生成部４で生成されたデータのうち、頭の姿勢（pose）ｉ１と視線方向（gaze）ｉ２に関する情報は、第２のデータ生成部６で生成されたデータのうち、目や口の動きｉ３と皮膚（skin）の状態変化ｉ４に関する情報に関連づけられる。これにより、例えば、第１のデータ生成部４で生成された三次元画像中の目の位置に、第２のデータ生成部６で生成されたデータに基づいて、瞬き等の動きを持たせることができる。

【0072】

図６は、第１のデータ生成部４から情報交換部７を介して第２のデータ生成部６に対して、頭の姿勢（pose）ｉ１と視線方向（gaze）ｉ２等の特徴点の情報を提供する例を示している。

【0073】

第１のデータ生成部４は、二次元画像から生成された三次元画像に含まれる特徴点を抽出する。特徴点には、例えば、頭の姿勢（pose）ｉ１が含まれる。頭の姿勢（pose）ｉ１とは、顔（頭）の傾き具合である。また、特徴点には、例えば、視線方向（gaze）ｉ２が含まれる。視線方向（gaze）ｉ２とは、人間が視線を向けている方向である。

【0074】

図８Ａ及び図８Ｂは第１のデータ生成部４が頭の姿勢（pose）ｉ１と視線方向（gaze）ｉ２を検出する手法を説明する図である。図８Ａは、顔画像から人間の左目と右目を抽出し、左目と右目の並ぶ方向（破線）と、その法線方向（一点鎖線）から頭の姿勢（pose）ｉ１を検出する例を示している。図８Ｂは、人間の顔画像の中から、四角マークで示す複数の特徴点を抽出し、これら特徴点の配置から、頭の姿勢（pose）ｉ１を抽出する例を示している。例えば、図８Ａでは、画像の水平方向及び垂直方向に対して、左目と右目の傾き具合や、顔の輪郭線の傾き具合等から、頭の姿勢（pose）ｉ１を検出することができる。また、目の中の瞳孔を特徴点として抽出し、瞳孔の位置から視線方向（gaze）ｉ２を検出することができる。

【0075】

第２の撮像部３は、イベントが発生した画素の情報しか撮像しないため、第２の撮像部３で撮像された画像からは、被写体の頭の姿勢（pose）ｉ１や視線方向（gaze）ｉ２を正確に把握できないおそれがある。そこで、第２のデータ生成部６は、情報交換部７を介して、第１のデータ生成部４で生成されたデータに含まれる頭の姿勢（pose）ｉ１や視線方向（gaze）ｉ２の情報を受け取ることで、頭の姿勢（pose）や視線方向(gaze）を正しく把握した上で、部分アニメーション画像用のデータを生成できる。

【0076】

また、第２の撮像部３で撮像される画像には色情報は含まれないため、情報交換部７を介して、第１のデータ生成部４で生成されたデータに含まれる色情報を受け取ることで、第２のデータ生成部６は、色情報を含む部分アニメーション画像を生成できる。

【0077】

さらに、第２の撮像部３で撮像される画像には物体の輪郭情報が含まれない場合がありうるため、情報交換部７を介して、第１のデータ生成部４で生成されたデータに含まれる物体の輪郭情報を受け取ることで、第２のデータ生成部６は、物体の輪郭を模擬する部分アニメーション画像を生成できる。

【0078】

このように、第２のデータ生成部６は、情報交換部７を設けることで、輝度変化等のイベントが生じなかった画素情報を加味して、部分アニメーション画像を生成できる。

【0079】

図７は、第２のデータ生成部６から情報交換部７を介して第１のデータ生成部４に対して、目や口の動きｉ３、皮膚（skin）の状態変化ｉ４の情報などを提供する例を示す図である。目や口の動きｉ３とは、例えば、目の瞬き、瞳孔の位置変化、口の開き具合などである。特徴点追跡部５は、第２の撮像部３で撮像された複数フレームの複数の画像から、特徴点である目や口の動きｉ３を追跡する。また、特徴点追跡部５は、皮膚（skin）の輝度変化から皮膚（skin）の状態変化ｉ４を検出する。より具体的な一例としては、人間が発話している間の皮膚（skin）の状態変化ｉ４を検出し、皺や口の歪みの変化などを追跡する。

【0080】

第２の撮像部３は、第１の撮像部２よりも、はるかに高いフレームレートで動きのある箇所を撮像するため、ブレを生じさせることなく、目の動きや口の動き、皮膚の状態変化等を忠実に表現した画像を取得できる。

【0081】

図９は第２のデータ生成部６が生成する部分アニメーション画像の一例を示す図である。図９は、人間の口の動きに関する部分アニメーション画像を示している。第２の撮像部３は、被写体の口の動きが変化すれば、それをイベントとして撮像するため、第２のデータ生成部６は、人間の口の動きに合わせた部分アニメーションを生成できる。仮に、被写体が高速に目や口、頭を動かしたしても、その動きに追随して、第２の撮像部３は動いた箇所を撮像できるため、第２のデータ生成部６は、被写体の目や口等の動きに合わせて高速に部分アニメーション画像の目や口等を動かすことができる。

【0082】

人間が発話している最中に第１の撮像部２で撮像された画像は、目や口などの動きのある部分がぼやけるおそれがある。そこで、第１のデータ生成部４は、情報交換部７を介して、第２のデータ生成部６で生成されたデータに含まれる目の動きや口の動きなどの情報を受け取ることで、画像内の動きのある部分のブレをなくすことができる。

【0083】

第１のデータ生成部４が生成するデータには、例えば、視線方向（gaze）ｉ２の情報が含まれている。視線方向（gaze）ｉ２は、目のＲＯＩ（Region Of Interest）情報である。人間が視線方向（gaze）ｉ２を変えない場合には、第２の撮像部３では、視線方向（gaze）ｉ２をイベントとして検出できない。よって、第２のデータ生成部６が生成するデータには、視線方向（gaze）ｉ２の情報は含まれない。そこで、第２のデータ生成部６は、情報交換部７を介して、第１のデータ生成部４から視線方向（gaze）ｉ２の情報を受け取ることで、視線方向（gaze）ｉ２を加味した部分アニメーション画像を生成できる。

【0084】

一方、第２のデータ生成部６が生成するデータには、例えば、目の動きｉ３の情報が含まれている。第２の撮像部３は、動きのある物体をイベントとして高速に撮像できるため、第２のデータ生成部６は、目の動きｉ３を忠実に追跡した部分アニメーション画像を生成できる。これに対して、第１の撮像部２は、予め定めたフレームレートで被写体を撮像するため、被写体の一部に動きの速い部分があると、その部分はぼけた画像になる。よって、第１のデータ生成部４は、目の動きｉ３を忠実に再現可能な三次元画像を生成できない。そこで、第１のデータ生成部４は、情報交換部７を介して、第２のデータ生成部６から目の動きｉ３の情報を受け取ることで、目の動きｉ３を加味した三次元画像を生成でき、目の周囲の画像のブレをなくすることができる。

【0085】

このように、情報交換部７を介して、視線方向（gaze）ｉ２と目の動きｉ３の情報を、第１のデータ生成部４と第２のデータ生成部６で互いに交換し合うことで、第１のデータ生成部４が生成するデータと第２のデータ生成部６が生成するデータをともに改善することができる。

【0086】

また、第１のデータ生成部４が生成するデータには、例えば、頭の姿勢（pose）ｉ１の情報が含まれている。第２の撮像部３は、被写体の頭の姿勢（pose）ｉ１が変化しない限り、姿勢（pose）をイベントとして検出できない。よって、第２のデータ生成部６が生成するデータには、頭の姿勢（pose）ｉ１の情報は含まれていない。そこで、第２のデータ生成部６は、情報交換部７を介して、第１のデータ生成部４から頭の姿勢（pose）ｉ１の情報を受け取ることで、頭の姿勢（pose）ｉ１を加味した部分アニメーション画像を生成できる。

【0087】

また、第２のデータ生成部６が生成するデータには、例えば、口の動きｉ３の情報が含まれている。一方、第１のデータ生成部４は、口の動きｉ３を忠実に再現可能な三次元画像を生成できない。そこで、第１のデータ生成部４は、情報交換部７を介して、第２のデータ生成部６から口の動きｉ３の情報を受け取ることで、口の動きｉ３を加味した三次元画像を生成でき、口の周囲の画像のブレをなくすることができる。

【0088】

このように、情報交換部７を介して、頭の姿勢（pose）ｉ１と口の動きｉ３の情報を、第１のデータ生成部４と第２のデータ生成部６で互いに交換し合うことで、第１のデータ生成部４が生成するデータと第２のデータ生成部６が生成するデータをともに改善することができる。

【0089】

また、第２のデータ生成部６が生成するデータには、例えば、皮膚（skin）の情報が含まれている。第２のデータ生成部６が生成する皮膚（skin）の情報は、例えば人間が発話する間に随時変化する皺や口の歪みなどの情報を含んでいる。このような情報は、第１の撮像部２で撮像される画像ではブレとして認識されることが多く、第１のデータ生成部４が生成するデータには含まれていないか、含まれていても信頼性が低い。そこで、第１のデータ生成部４は、情報交換部７を介して、第２のデータ生成部６から皮膚（skin）の情報を受け取ることで、人間が発話している間の皮膚（skin）の変化や口の歪み等を反映させた三次元画像を生成できる。

【0090】

このように、情報交換部７を介して、頭の姿勢（pose）ｉ１と皮膚（skin）の情報を、第１のデータ生成部４と第２のデータ生成部６で互いに交換し合うことで、第１のデータ生成部４が生成するデータと第２のデータ生成部６が生成するデータをともに改善することができる。

【0091】

（情報交換部７の第２の具体例）
情報交換部７の第２の具体例は、第１のデータ生成部４と第２のデータ生成部６で同種の情報を交換し合うものである。

【0092】

図１０は情報交換部７の第２の具体例を示すブロック図である。図１０の情報交換部７は、例えば、目又は瞳の動きｉ５の情報と、顔の特徴点ｉ６の情報と、口又は唇の動きｉ７の情報とを、第１のデータ生成部４と第２のデータ生成部６で互いに交換し合う。

【0093】

第１のデータ生成部４は、第１の撮像部２で撮像された複数のフレームの複数の画像に基づいて、目又は瞳の動きｉ５と、顔の特徴点ｉ６と、口又は唇の動きｉ７を検出する。第１の撮像部２は、第２の撮像部３に比べて遅いフレームレートで撮像を行うが、被写体の目や口の動きが緩やかであれば、第１のデータ生成部４においても、比較的精度よく、目又は瞳の動きｉ５と、顔の特徴点ｉ６と、口又は唇の動きｉ７を検出できる。特に、第１の撮像部２は、有効画素領域内の全域についての画像を生成するため、動きの少ない部分の特徴点も漏れなく抽出できる。

【0094】

一方、特徴点追跡部５と第２のデータ生成部６は、第２の撮像部３で撮像された複数のフレームの複数の画像に基づいて、目又は瞳の動きｉ５と、顔の特徴点ｉ６と、口又は唇の動きｉ７を検出する。第２の撮像部３は、動きのある部分をイベントとして撮像するため、速い動きであっても、その動きに合わせたフレームレートで撮像を行うことができる。よって、特徴点追跡部５と第２のデータ生成部６は、被写体が目や口を高速に動かしても、目又は瞳の動きｉ５と、顔の特徴点ｉ６と、口又は唇の動きｉ７を的確に抽出できる。

【0095】

情報交換部７は、第１のデータ生成部４と第２のデータ生成部６のそれぞれから提供された、目又は瞳の動きｉ５情報と、顔の特徴点ｉ６と、口又は唇の動きｉ７情報との少なくとも一つを比較して、いずれか優れている方の情報を採用する。例えば、目や口の動きが速くて、第１のデータ生成部４から提供された目又は瞳の動きｉ５情報と、口又は唇の動きｉ７情報との少なくとも一方が信頼性に欠ける場合は、第２のデータ生成部６から提供された情報を第１のデータ生成部４に送信する。一方、目や口の動きが遅くて、第１のデータ生成部４から提供された目又は瞳の動きｉ５情報と、口又は唇の動きｉ７情報とが動きを的確に反映している場合は、より高解像度で、かつ色階調情報も含むことから、第１のデータ生成部４から提供された情報を第２のデータ生成部６に送信する。

【0096】

（アニメーション生成部８の処理）
アニメーション生成部８には、情報交換部７でデータの交換を行った後の第１のデータ生成部４で生成されたデータと、第２のデータ生成部６で生成されたデータとが入力される。第１のデータ生成部４で生成されたデータは、例えばメッシュ分割された三次元顔画像である。第２のデータ生成部６で生成されたデータは、動きのある部分アニメーション画像である。

【0097】

アニメーション生成部８は、第１のデータ生成部４で生成された三次元顔画像のうち、動きのある領域を、第２のデータ生成部６で生成されたデータを利用することにより、第１のアニメーション画像を生成することができる。これにより、三次元顔画像に対応するアニメーション画像の一部領域（例えば目や口など）を、被写体の動きに合わせて動かすことができる。

【0098】

第１のデータ生成部４で生成されたデータは、第１の撮像部２で撮像される画像のフレームレートと同様の３０フレーム／秒程度のフレームレートを有する。これに対して、第２のデータ生成部６で生成されたデータは、第２の撮像部３で撮像される画像のフレームレートを低下させた１，０００フレーム／秒程度のフレームレートを有する。

【0099】

アニメーション生成部８は、例えば、第２のデータ生成部６で生成されたデータのフレームレートと同様のフレームレートで、第１のアニメーション画像を生成する。これにより、アニメーション画像中の一部領域（例えば目や口など）を滑らかに動かすことができる。

【0100】

第１のデータ生成部４と第２のデータ生成部６は、情報交換部７を介して、それぞれのデータを交換し合うため、第１のデータ生成部４で生成される三次元顔画像の少なくとも一部には、第２のデータ生成部６で生成された動き情報や輝度変化情報などが反映されている。また、第２のデータ生成部６で生成される部分アニメーション画像の少なくとも一部には、第１のデータ生成部４で生成された輪郭情報や色情報などが反映されている。よって、アニメーション生成部８にて生成される第１のアニメーション画像は、高解像度の色階調情報を保持しつつ、目や口などを被写体の動きに合わせて滑らかに動かすことができる。

【0101】

（本開示による情報処理装置１のハードウェア構成例）
図１１は本開示による情報処理装置１のハードウェア構成の一例を示すブロック図である。図１１に示すように、情報処理装置１は、フレームカメラ２１と、イベントカメラ２２と、第１の処理プロセッサ２３と、第２の処理プロセッサ２４と、情報交換ユニット２５と、レンダリングユニット２６と、表示装置２７とを備えている。

【0102】

フレームカメラ２１は、図１の第１の撮像部２に対応し、静止画像又はビデオ映像を撮影する通常のカメラである。フレームカメラ２１は、有効画素領域内の全域の色階調情報を撮像するイメージセンサを有する。フレームカメラ２１自体がイメージセンサであってもよい。

【0103】

イベントカメラ２２は、図１の第２の撮像部３に対応し、イベントが生じた画素を撮像する。イベントカメラ２２は、イベントが生じたタイミングで撮像する非同期型のカメラを想定しているが、予め定めたフレームレートで、イベントが生じた画素を撮像する同期型のカメラでもよい。イベントカメラ２２は、ＤＶＳ又はＥＶＳと呼ばれるセンサを有する。イベントカメラ２２自体がＤＶＳ又はＥＶＳセンサであってもよい。

【0104】

第１の処理プロセッサ２３は、フレームカメラ２１で撮像した二次元画像に基づいて奥行き情報を検出し、例えばＣＮＮやＤＮＮを用いて学習を行った上で、三次元画像を生成する。第１の処理プロセッサ２３は、図１の第１のデータ生成部４の処理を行う。第１の処理プロセッサ２３は、具体的には、マイクロプロセッサ（ＣＰＵ：Central Processing Unit）又は信号処理プロセッサ（ＤＳＰ：Digital Signal Processor）で構成可能である。

【0105】

第２の処理プロセッサ２４は、イベントカメラ２２で撮像した画像に基づいて、部分アニメーション画像を生成する。第２の処理プロセッサ２４は、図１の特徴点追跡部５と第２のデータ生成部６の処理を行う。

【0106】

なお、第１の処理プロセッサ２３と第２の処理プロセッサ２４を一つの処理プロセッサ（ＣＰＵ又はＤＳＰなど）に統合してもよい。

【0107】

情報交換ユニット２５は、第１の処理プロセッサ２３が生成した三次元画像のデータの少なくとも一部と、第２の処理プロセッサ２４が生成した部分アニメーションデータの少なくとも一部とを互いに交換し合う。情報交換ユニット２５は、図１の情報交換部７の処理を行う。情報交換ユニット２５は、第１の処理プロセッサ２３や第２の処理プロセッサ２４と統合してもよい。

【0108】

レンダリングユニット２６は、第１の処理プロセッサ２３が生成した三次元画像と、第２の処理プロセッサ２４が生成した部分アニメーション画像とを合成してアニメーション画像（第１のアニメーション画像）を生成する。また、レンダリングユニット２６は、三次元アニメーションモデル１０とアニメーション画像（第１のアニメーション画像）を合成して、最終的的な三次元アニメーション画像（第２のアニメーション画像）を生成することができる。

【0109】

レンダリングユニット２６は、図１のアニメーション生成部８と画像合成部９の処理を行う。レンダリングユニット２６で生成した三次元アニメーション画像は、表示装置２７に表示される。また、三次元アニメーション画像を不図示の記録装置に記録することも可能である。

【0110】

なお、本開示による情報処理装置１のハードウェア構成は、必ずしも図１１に限られるわけではなく、種々の変形が可能である。例えば、フレームカメラ２１とイベントカメラ２２が接続されたＰＣ（Personal Computer）で本開示による情報処理装置１の処理を行ってもよい。

【0111】

（本開示による情報処理装置１の適用分野）
本開示による情報処理装置１は、高性能のカメラやプロセッサを必要とすることなく、高解像度で、滑らかに動くアニメーション画像を簡易な手順で生成できる。よって、本開示による情報処理装置１は、例えば、スマートフォンやタブレット、モバイルＰＣなどの携帯電子機器に搭載することができる。携帯電子機器に搭載することで、被写体を撮像した画像をリアルタイムに処理して、被写体画像に対応するアニメーション画像を生成して、携帯電子機器の表示部に表示できる。携帯電子機器で実行可能なゲームアプリケーションとの連携も可能である。

【0112】

また、本開示による情報処理装置１は、既存のモーションキャプチャ装置に組み込むことができる。これにより、モーションキャプチャ装置で三次元画像を生成するための処理時間を大幅に短縮できる。特に、モーションキャプチャ装置で生成される三次元画像の解像度を高くしたまま、三次元画像に基づいて生成されたアニメーション画像の少なくとも一部を、被写体の動きに合わせて滑らかに動かすことができる。

【0113】

本開示による情報処理装置１は、具体的な一例としては、車両内部や医療用途など、広範な用途に用いることができる。以下では、代表的な３つの用途（ユースケース）について説明する。

【0114】

（第１のユースケース）
第１のユースケースは、人間の口の動きをアニメーション画像で表現するものである。第１のユースケースは、例えば、複数人で参加する没入型ディスプレイを用いた仮想会議（Virtual Reality immersion conference）システムに適用可能である。

【0115】

図１２は第１のユースケースによる情報処理装置１の概略構成を示すブロック図、図１３は仮想会議システムの参加者を示す図である。図１３に示すように、仮想会議システムの参加者３１は、ＶＲグラスやヘッドマウントディスプレイ（以下、ＨＭＤ）３２を装着する。参加者３１の口の近くには、フレームカメラ２１とイベントカメラ２２を備えたカメラスタック装置３３が配置される。カメラスタック装置３３内のフレームカメラ２１は、参加者３１の口の周囲を所定のフレームレートで撮像する。カメラスタック装置３３内のイベントカメラ２２は、参加者３１の口の動きをイベントして撮像する。なお、カメラスタック装置３３は、マイクロフォンと統合されてもよい。仮想会議やオンライン会議の参加者３１は、マイクロフォンを装着することが多い。このマイクロフォンにフレームカメラ２１用のイメージセンサと、イベントカメラ２２用のＤＶＳやＥＶＳを搭載することで、ユーザの口の周辺をユーザに意識させることなく撮像することができる。

【0116】

図１２の情報処理装置１は、基本的には図１と同様に構成されているが、フレームカメラ２１に対応する第１の撮像部２とイベントカメラ２２に対応する第２の撮像部３はともに、人間の口の周辺の画像を撮像する。

【0117】

第１のデータ生成部４は、第１の撮像部２で撮像された画像に基づいて、人間の口の周辺の三次元画像用のデータを生成する。特徴点追跡部５は、第１の撮像部２で撮像された画像に基づいて、人間の口の動きを特徴点として追跡する。第２のデータ生成部６は、特徴点追跡部５の追跡結果に基づいて、部分アニメーション画像用のデータを生成する。

【0118】

情報交換部７は、第１のデータ生成部４で生成されたデータの少なくとも一部と第２のデータ生成部６で生成されたデータの少なくとも一部とを互いに交換し合う。第１のデータ生成部４は、第１の撮像部２で撮像された画像に基づいて三次元画像を生成するため、高解像度で、かつ色階調情報を含む三次元画像を生成できる。一方、第２のデータ生成部６は、第２の撮像部３で撮像された画像に基づいて部分アニメーション画像を生成するため、人間の口の動きを忠実に再現した部分アニメーション画像を生成できる。情報交換部７にて、第１のデータ生成部４と第２のデータ生成部６の間でデータの交換を行うことで、高品質の三次元画像と部分アニメーション画像を生成することができる。

【0119】

アニメーション生成部８は、第１のデータ生成部４で生成されたデータと第２のデータ生成部６で生成されたデータとに基づいて、人間の口の周辺に対応するアニメーション画像（第１のアニメーション画像）を生成する。画像合成部９は、アニメーション生成部８で生成された第１のアニメーション画像と、三次元アニメーションモデル１０とを合成して、最終的なアニメーション画像（第２のアニメーション画像）を生成する。このアニメーション画像は、例えば人間の顔全体に対応するアニメーション画像であり、かつ、仮想会議の参加者３１の口の動きに合わせて口を動かすことができる。このアニメーション画像は、図１３のＶＲグラス又はＨＭＤ３２等に表示される。よって、仮想会議の全参加者３１が、発言者の口の動きをアニメーション画像で視認することができる。

【0120】

（第２のユースケース）
第２のユースケースは、人間の目の視線を追跡するアイトラッキングシステムに本開示による情報処理装置１を適用するものである。

【0121】

図１４は第２のユースケースによる情報処理装置１の概略構成を示すブロック図である。第２のユースケースでは、第１のユースケースと同様に、アイトラッキングを行う対象の人間がＶＲグラス又はＨＭＤ３２を装着する。図１５はＶＲグラス又はＨＭＤ３２を装着した人間を示す図である。ＶＲグラス又はＨＭＤ３２には、フレームカメラ２１用のイメージセンサとイベントカメラ２２用のＤＶＳ又はＥＶＳが搭載されている。フレームカメラ２１は、ＶＲグラスやＨＭＤ３２の装着者の目の周囲を所定のフレームレートで撮像する。イベントカメラ２２は、ＶＲグラスやＨＭＤ３２の装着者の目の動きをイベントとして撮像する。

【0122】

図１４の情報処理装置１も、図１２の情報処理装置１と同様に、複数人で参加する没入型ディスプレイを用いた仮想会議システムに適用可能である。

【0123】

図１４の情報処理装置１は、基本的には図１２の情報処理装置１と同様に構成されているが、フレームカメラ２１に対応する第１の撮像部２とイベントカメラ２２に対応する第２の撮像部３がともに、人間の目の周辺の画像を撮像する点で図１２の情報処理装置１とは異なる。

【0124】

第１のデータ生成部４は、第１の撮像部２で撮像された画像に基づいて、人間の目の周辺の三次元画像用のデータを生成する。特徴点追跡部５は、第１の撮像部２で撮像された画像に基づいて、人間の目の動きを特徴点として追跡する。第２のデータ生成部６は、特徴点追跡部５の追跡結果に基づいて、部分アニメーション画像用のデータを生成する。

【0125】

情報交換部７は、第１のデータ生成部４で生成されたデータの少なくとも一部と第２のデータ生成部６で生成されたデータの少なくとも一部とを互いに交換し合う。第１のデータ生成部４は、第１の撮像部２で撮像された画像に基づいて三次元画像を生成するため、高解像度で、かつ色階調情報を含む三次元画像を生成できる。一方、第２のデータ生成部６は、第２の撮像部３で撮像された画像に基づいて部分アニメーション画像を生成するため、人間の目の動きを忠実に再現した部分アニメーション画像を生成できる。情報交換部７は、第１のデータ生成部４と第２のデータ生成部６の間で、視線方向（gaze）、目の動き、目の周辺の形状や色階調情報などを互いに交換し合う。

【0126】

アニメーション生成部８は、第１のデータ生成部４で生成されたデータと第２のデータ生成部６で生成されたデータとに基づいて、人間の目の周辺に対応する第１のアニメーション画像を生成する。画像合成部９は、アニメーション生成部８で生成された第１のアニメーション画像と、三次元アニメーションモデル１０とを合成して、最終的なアニメーション画像（第２のアニメーション画像）を生成する。このアニメーション画像は、人間の顔全体に対応するアニメーション画像であり、かつ、仮想会議の参加者３１の目の動きに合わせて目を動かすことができる。このアニメーション画像は、図１５のＶＲグラス等に表示される。よって、仮想会議の全参加者３１が、発言者の目の動きをアニメーション画像で視認することができる。

【0127】

（第３のユースケース）
第１及び第２のユースケースは、人間の顔に関するものであったが、本開示の情報処理装置１は顔以外にも適用可能である。第３のユースケースは、人間の手の動きをアニメーション画像で表現するハンドシステムに本開示による情報処理装置１を適用するものである。

【0128】

図１６は第３のユースケースによる情報処理装置１の概略構成を示すブロック図である。図１６の情報処理装置１は、基本的には図１と同様の構成を有する。図１６の情報処理装置１では、フレームカメラ２１とイベントカメラ２２が人間の手を撮像する。その際、手を動かしたり、指を曲げたり伸ばしたりすると、イベントカメラ２２は、指を含めた手の動きをイベントとして撮像する。第１のデータ生成部４は、第１の撮像部２で撮像された画像に基づいて、人間の手の三次元画像を生成する。特徴点追跡部５は、人間の手の動きを追跡する。また、特徴点追跡部５は、輝度変化により、手の皮膚の皺を特徴点として、その動きを追跡することができる。

【0129】

第２のデータ生成部６は、特徴点抽出部１７の追跡結果に基づいて、人間の手の動きを模擬した部分アニメーション画像を生成する。第１のデータ生成部４は、第１の撮像部２で撮像された高解像度で、かつ色階調情報を含む画像に基づいて、三次元画像を生成するため、人間の手の形状や色合いを忠実に反映させた三次元画像を生成できる。また、第２のデータ生成部６は、指を含めた手の動きを忠実に再現可能な部分アニメーション画像を生成できる。

【0130】

アニメーション生成部８は、第１のデータ生成部４で生成された三次元画像と、第２のデータ生成部６で生成された部分アニメーション画像とに基づいて、人間の手を模擬した第１のアニメーション画像を生成する。第１のデータ生成部４で生成された三次元画像と、第２データ生成部で生成された部分アニメーション画像とを組み合わせることで、人間の手の形状や色合いを高解像度で再現しつつ、指を含めた手の動きを忠実に再現したアニメーション画像（第１のアニメーション画像）を生成できる。

【0131】

画像合成部９は、アニメーション生成部８で生成された第１のアニメーション画像と、人間の手に関する三次元アニメーションモデル１０とを合成して、最終的なアニメーション画像（第２のアニメーション画像）を生成する。

【0132】

（情報処理装置１の拡張機能）
上述した図１～図１６に示す情報処理装置１では、フレームカメラ２１とイベントカメラ２２を一台ずつ備える例を示したが、フレームカメラ２１とイベントカメラ２２の少なくとも一方を複数台設けてもよい。フレームカメラ２１とイベントカメラ２２の少なくとも一方を複数台設けることで、ステレオカメラと同様に、奥行き情報を取得でき、三次元画像の信頼性を高めることができる。

【0133】

また、フレームカメラ２１とイベントカメラ２２以外に、特殊な機能を持ったカメラを設けてもよい。特殊な機能を持ったカメラは、例えば被写体の奥行き情報を検出可能なカメラである。奥行き情報を検出可能なカメラの代表例は、距離情報を検出するＴｏＦ（Time of Flight）カメラである。ＴｏＦカメラ等で被写体の奥行き情報を検出できれば、第１のデータ生成部４はより精度の高い三次元画像を生成できる。

【0134】

また、特殊な機能を持ったカメラは、被写体の表面温度を計測可能な温度センサを備えたカメラでもよい。さらに、特殊な機能を持ったカメラは、複数の露出条件で連続して撮像した複数の画像を合成した画像を生成することで、ダイナミックレンジを広げるＨＤＲ（High Dynamic Range）カメラでもよい。

【0135】

図１７Ａ及び図１７Ｂは、フレームカメラ２１とイベントカメラ２２の他に、特殊機能を持ったカメラ（以下、特殊機能カメラと呼ぶ）２８と第３の処理プロセッサ２９とを備える情報処理装置１のブロック図である。図１７Ａ及び図１７Ｂの情報処理装置１は、フレームカメラ２１とイベントカメラ２２をそれぞれ複数台備える例を示しているが、必ずしも複数台を備える必要はない。また、図１７Ａ及び図１７Ｂの情報処理装置１は、フレームカメラ２１とイベントカメラ２２以外に、特殊機能カメラ２８を少なくとも一台備えている。特殊機能カメラ２８は、被写体の奥行き情報を検出するカメラでもよいし、ＴｏＦカメラでもよいし、温度センサを有するカメラでもよいし、ＨＤＲカメラでもよい。特殊機能カメラ２８の撮像結果は、第３の処理プロセッサ２９に入力されて、奥行き情報や温度情報などを示すデータが生成される。

【0136】

図１７Ａの情報処理装置１では、第３の処理プロセッサ２９が生成したデータは、例えばレンダリングユニット２６に送られる。レンダリングユニット２６は、特殊機能カメラ２８が撮像した情報を考慮に入れて、三次元画像やアニメーション画像を生成する。第３の処理プロセッサ２９を第１の処理プロセッサ２３又は第２の処理プロセッサ２４と統合してもよい。

【0137】

図１７Ｂの情報処理装置１では、第３の処理プロセッサ２９で生成されたデータは、情報交換ユニット２５に提供される。これにより、情報交換ユニット２５は、第１～第３の処理プロセッサ２３、２４、２９のそれぞれで生成されたデータを共有することができる。よって、第１の処理プロセッサ２３及び第２の処理プロセッサ２４の少なくとも一方は、特殊機能カメラ２８で撮像された画像に基づいて、三次元画像に変換するためのデータと部分アニメーション画像用のデータとの少なくとも一方を生成することができる。

【0138】

情報処理装置１に設ける種々のカメラの数を増やすことで、各カメラで撮像される画像の数を増やすことができる。画像の数が増えるということは、被写体に関する情報量をより多く取得できることを意味し、レンダリングユニット２６で生成される三次元画像や三次元アニメーション画像（第２のアニメーション画像）の品質を向上できる。

【0139】

（情報処理装置１の技術的効果）
このように、本開示による情報処理装置１は、フレームカメラ２１（第１の撮像部２）で撮像した画像に基づいて第１のデータ生成部４で三次元画像を生成し、イベントカメラ２２（第２の撮像部３）で撮像した画像に基づいて第２のデータ生成部６で部分アニメーション画像を生成する。情報交換部７は、第１のデータ生成部４で生成された三次元画像用のデータと第２のデータ生成部６で生成された部分アニメーション画像用のデータとを交換し合う。これにより、第１のデータ生成部４で生成される三次元画像と第２のデータ生成部６で生成される部分アニメーション画像の品質を向上できる。

【0140】

その後、アニメーション生成部８は、第１のデータ生成部４で生成された三次元画像と、第２のデータ生成部６で生成された部分アニメーション画像とを組み合わせて、第１のアニメーション画像を生成する。これにより、被写体の輪郭や色情報を保持しつつ被写体の目や口の動き等に合わせて、アニメーション画像の目や口等を滑らかに動かすことができる。

【0141】

さらに、アニメーション生成部８で生成された第１のアニメーション画像と、三次元アニメーションモデル１０とを合成することで、被写体を任意のアニメーションモデルに変換させた上で、被写体の目や口の動き等に合わせて第２のアニメーション画像の目や口等を滑らかに動かすことができる。

【0142】

本開示による情報処理装置１は、フレームカメラ２１とイベントカメラ２２の長所を共有し、不足している部分を互いに補うため、市販されている比較的安価なフレームカメラ２１とイベントカメラ２２を用いながらも、高品質のアニメーション画像を簡易な手順で迅速に生成できる。

【0143】

上述した実施形態で説明した情報処理装置１の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理装置１の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ－ＲＯＭ等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。

【0144】

また、情報処理装置１の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線（無線通信も含む）を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。

【0145】

なお、本技術は以下のような構成を取ることができる。
（１）有効画素領域の全域を、予め定めたフレームレートで撮像する第１の撮像部と、
イベントが生じた画素を撮像する第２の撮像部と、
前記第１の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第１のデータ生成部と、
前記第２の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第２のデータ生成部と、
前記第１のデータ生成部で生成されたデータの少なくとも一部と、前記第２のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、を備える、情報処理装置。
（２）前記第１のデータ生成部は、前記第１の撮像部で撮像された二次元画像と、前記情報交換部から提供された前記第２のデータ生成部で生成されたデータの少なくとも一部とに基づいて、前記二次元画像を三次元画像に変換するためのデータを生成し、
前記第２のデータ生成部は、前記特徴点の動きの追跡結果と、前記情報交換部から提供された前記第１のデータ生成部で生成されたデータの少なくとも一部とに基づいて、前記部分アニメーション画像用のデータを生成する、（１）に記載の情報処理装置。
（３）前記第１の撮像部及び前記第２の撮像部は、被写体の顔を撮像し、
前記情報交換部は、前記第１のデータ生成部で生成されたデータに含まれる被写体の頭の姿勢と視線方向との少なくとも一方に関するデータを前記第２のデータ生成部に提供し、かつ、前記第２のデータ生成部で生成されたデータに含まれる被写体の目又は口の動きと、皮膚の状態変化との少なくとも一方に関するデータを前記第１のデータ生成部に提供する、（２）に記載の情報処理装置。
（４）前記情報交換部は、前記第１のデータ生成部及び前記第２のデータ生成部のそれぞれから、互いに異なる種類のデータの提供を受けて、前記第１のデータ生成部及び前記第２のデータ生成部の間でデータを交換し合う、（１）乃至（３）のいずれか一項に記載の情報処理装置。
（５）前記情報交換部は、前記第１のデータ生成部及び前記第２のデータ生成部のそれぞれから、同じ種類のデータの提供を受けて、提供されたデータのうち信頼性の高いデータを、前記第１のデータ生成部及び前記第２のデータ生成部で共有する、（１）乃至（３）のいずれか一項に記載の情報処理装置。
（６）前記第２の撮像部は、前記第１の撮像部よりも高いフレームレートで、前記イベントが生じた画素を含む画像を出力する、（１）乃至（５）のいずれか一項に記載の情報処理装置。
（７）前記第２の撮像部は、前記イベントの発生したタイミングに合わせて前記画像を出力する、（６）に記載の情報処理装置。
（８）前記情報交換部にて少なくとも一部のデータを交換し合った前記第１のデータ生成部及び前記第２のデータ生成部で生成されたデータに基づいて、第１のアニメーション画像を生成するアニメーション生成部をさらに備える、（１）乃至（７）のいずれか一項に記載の情報処理装置。
（９）前記アニメーション生成部は、前記第１のデータ生成部で生成された三次元画像に、前記第２のデータ生成部で生成された前記部分アニメーション画像を合成した前記第１のアニメーション画像を生成する、（８）に記載の情報処理装置。
（１０）前記第１のアニメーション画像と三次元アニメーションモデル画像とを合成して、第２のアニメーション画像を生成する画像合成部をさらに備える、（８）又は（９）に記載の情報処理装置。
（１１）前記三次元アニメーションモデル画像は、前記第１の撮像部及び前記第２の撮像部で撮像された被写体とは無関係の三次元アニメーション画像である、請求項１０に記載の情報処理装置。
（１２）前記第１のアニメーション画像及び前記前記第２のアニメーション画像は、被写体の動きに応じた動きを行う、（１０）又は（１１）に記載の情報処理装置。
（１３）前記第１のデータ生成部は、前記第１の撮像部で撮像された二次元画像から特徴点を抽出して、抽出された前記特徴点に基づいて前記三次元画像を生成する、（１）乃至（１２）のいずれか一項に記載の情報処理装置。
（１４）前記第１のデータ生成部は、前記第１の撮像部で撮像された二次元画像に含まれる顔を抽出して、抽出された前記顔の特徴点、頭の姿勢、及び視線方向の少なくとも一方に基づいて、前記三次元画像を生成する、（１３）に記載の情報処理装置。
（１５）前記特徴点追跡部は、前記第２の撮像部で撮像された異なるフレームの画像間での前記特徴点の動きを検出することで、前記特徴点を追跡する、（１）乃至（１４）のいずれか一項に記載の情報処理装置。
（１６）前記第２のデータ生成部は、前記第２の撮像部で撮像された画像のフレームレートを、アニメーション画像に適したフレームレートに下げた前記部分アニメーション画像を生成するフレームレート変換部を有する、（１）乃至（１５）のいずれか一項に記載の情報処理装置。
（１７）前記第２のデータ生成部は、
前記第２の撮像部で撮像された画像に対応する三次元画像を生成する特徴点画像生成部と、
前記三次元画像の表面法線を計算する表面法線計算部と、
前記三次元画像に含まれる物体を検出する物体検出部と、
前記三次元画像に含まれる注目領域を抽出する注目領域抽出部と、
前記三次元画像に含まれる前記特徴点を抽出する特徴点抽出部と、を有し、
前記第２のデータ生成部は、前記特徴点画像生成部で生成された三次元画像と、前記表面法線計算部で計算された表面法線と、前記物体検出部で検出された物体と、前記注目領域抽出部で抽出された前記注目領域と、前記特徴点抽出部で抽出された前記特徴点とに基づいて、前記特徴点の動きを模擬する前記部分アニメーション画像のためのデータを生成する、（１）乃至（１６）のいずれか一項に記載の情報処理装置。
（１８）前記第１の撮像部及び前記第２の撮像部の少なくとも一方は、複数設けられる、（１）乃至（１７）のいずれか一項に記載の情報処理装置。
（１９）前記第１の撮像部及び前記第２の撮像部とは別個に設けられ、被写体の奥行き情報、被写体までの距離情報、又は被写体の温度情報の少なくとも一つを含む画像を撮像する第３の撮像部を備え、
前記第１のデータ生成部及び前記第２のデータ生成部の少なくとも一方は、前記第３の撮像部で撮像された画像に基づいて、三次元画像に変換するためのデータと前記部分アニメーション画像用のデータとの少なくとも一方を生成する、（１）乃至（１８）のいずれか一項に記載の情報処理装置。
（２０）三次元アニメーション画像を生成する情報処理装置と、
前記三次元アニメーション画像を表示する表示装置と、を備える電子機器であって、
前記情報処理装置は、
有効画素領域の全域を、予め定めたフレームレートで撮像する第１の撮像部と、
イベントが生じた画素を撮像する第２の撮像部と、
前記第１の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第１のデータ生成部と、
前記第２の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第２のデータ生成部と、
前記第１のデータ生成部で生成されたデータの少なくとも一部と、前記第２のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、
前記情報交換部にて少なくとも一部のデータを交換し合った前記第１のデータ生成部及び前記第２のデータ生成部で生成されたデータに基づいて、第１のアニメーション画像を生成するアニメーション生成部と、
前記第１のアニメーション画像と三次元アニメーションモデル画像とを合成して、第２のアニメーション画像を生成する画像合成部と、を備え、
前記表示装置は、前記第２のアニメーション画像を表示する、電子機器。

【0146】

本開示の態様は、上述した個々の実施形態に限定されるものではなく、当業者が想到しうる種々の変形も含むものであり、本開示の効果も上述した内容に限定されない。すなわち、特許請求の範囲に規定された内容およびその均等物から導き出される本開示の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更および部分的削除が可能である。

【符号の説明】

【0147】

１情報処理装置、２第１の撮像部、３第２の撮像部、４第１のデータ生成部、５特徴点追跡部、６第２のデータ生成部、７情報交換部、８アニメーション生成部、９画像合成部、１０三次元アニメーションモデル、１１フレームレート変換部、１２処理モジュール、１３特徴点画像生成部、１４表面法線計算部、１５物体検出部、１６注目領域抽出部、１７特徴点抽出部、２１フレームカメラ、２２イベントカメラ、２３第３の処理プロセッサ、２３第１の処理プロセッサ、２４第３の処理プロセッサ、２４第２の処理プロセッサ、２５情報交換ユニット、２６レンダリングユニット、２７表示装置、２８特殊機能カメラ、２８特殊機能カメラ、２９第３の処理プロセッサ、３１参加者、３２ヘッドマウントディスプレイ（ＨＭＤ）、３３カメラスタック装置

【図1】