(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024084157
(43)【公開日】2024-06-25
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
G06T 7/20 20170101AFI20240618BHJP
G06T 7/246 20170101ALI20240618BHJP
G06T 13/40 20110101ALI20240618BHJP
H04N 23/60 20230101ALI20240618BHJP
H04N 23/54 20230101ALI20240618BHJP
【FI】
G06T7/20 300B
G06T7/246
G06T13/40
H04N5/232 290
H04N5/225 300
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2021072683
(22)【出願日】2021-04-22
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100091487
【弁理士】
【氏名又は名称】中村 行孝
(74)【代理人】
【識別番号】100120031
【弁理士】
【氏名又は名称】宮嶋 学
(72)【発明者】
【氏名】イシダアベ レオナルド
【テーマコード(参考)】
5B050
5C122
5L096
【Fターム(参考)】
5B050AA08
5B050AA09
5B050BA04
5B050BA08
5B050BA09
5B050BA12
5B050CA01
5B050DA02
5B050DA04
5B050DA07
5B050EA07
5B050EA24
5B050EA26
5B050FA02
5B050FA05
5C122DA03
5C122DA16
5C122DA30
5C122DA42
5C122EA56
5C122EA61
5C122FA04
5C122FA06
5C122FA14
5C122FA18
5C122FH10
5C122FH12
5C122FH14
5C122FH19
5C122FH22
5C122FK24
5C122FK41
5C122HA88
5C122HA89
5C122HB01
5C122HB05
5L096BA08
5L096CA05
5L096CA18
5L096DA01
5L096FA02
5L096FA09
5L096FA66
5L096FA67
5L096FA69
5L096HA04
5L096HA05
5L096HA11
5L096JA11
5L096JA16
5L096KA04
(57)【要約】
【課題】複雑な処理や高性能のプロセッサ等を要することなく、高品質のアニメーション画像を簡易な手順で生成する。
【解決手段】情報処理装置は、有効画素領域の全域を、予め定めたフレームレートで撮像する第1の撮像部と、イベントが生じた画素を撮像する第2の撮像部と、第1の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第1のデータ生成部と、第2の撮像部で撮像された画像に含まれる特徴点を検出して、検出された特徴点の動きを追跡する特徴点追跡部と、特徴点の動きの追跡結果に基づいて、特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第2のデータ生成部と、第1のデータ生成部で生成されたデータの少なくとも一部と、第2のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
有効画素領域の全域を、予め定めたフレームレートで撮像する第1の撮像部と、
イベントが生じた画素を撮像する第2の撮像部と、
前記第1の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第1のデータ生成部と、
前記第2の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第2のデータ生成部と、
前記第1のデータ生成部で生成されたデータの少なくとも一部と、前記第2のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、を備える、情報処理装置。
【請求項2】
前記第1のデータ生成部は、前記第1の撮像部で撮像された二次元画像と、前記情報交換部から提供された前記第2のデータ生成部で生成されたデータの少なくとも一部とに基づいて、前記二次元画像を三次元画像に変換するためのデータを生成し、
前記第2のデータ生成部は、前記特徴点の動きの追跡結果と、前記情報交換部から提供された前記第1のデータ生成部で生成されたデータの少なくとも一部とに基づいて、前記部分アニメーション画像用のデータを生成する、請求項1に記載の情報処理装置。
【請求項3】
前記第1の撮像部及び前記第2の撮像部は、被写体の顔を撮像し、
前記情報交換部は、前記第1のデータ生成部で生成されたデータに含まれる被写体の頭の姿勢と視線方向との少なくとも一方に関するデータを前記第2のデータ生成部に提供し、かつ、前記第2のデータ生成部で生成されたデータに含まれる被写体の目又は口の動きと、皮膚の状態変化との少なくとも一方に関するデータを前記第1のデータ生成部に提供する、請求項2に記載の情報処理装置。
【請求項4】
前記情報交換部は、前記第1のデータ生成部及び前記第2のデータ生成部のそれぞれから、互いに異なる種類のデータの提供を受けて、前記第1のデータ生成部及び前記第2のデータ生成部の間でデータを交換し合う、請求項1に記載の情報処理装置。
【請求項5】
前記情報交換部は、前記第1のデータ生成部及び前記第2のデータ生成部のそれぞれから、同じ種類のデータの提供を受けて、提供されたデータのうち信頼性の高いデータを、前記第1のデータ生成部及び前記第2のデータ生成部で共有する、請求項1に記載の情報処理装置。
【請求項6】
前記第2の撮像部は、前記第1の撮像部よりも高いフレームレートで、前記イベントが生じた画素を含む画像を出力する、請求項1に記載の情報処理装置。
【請求項7】
前記第2の撮像部は、前記イベントの発生したタイミングに合わせて前記画像を出力する、請求項6に記載の情報処理装置。
【請求項8】
前記情報交換部にて少なくとも一部のデータを交換し合った前記第1のデータ生成部及び前記第2のデータ生成部で生成されたデータに基づいて、第1のアニメーション画像を生成するアニメーション生成部をさらに備える、請求項1に記載の情報処理装置。
【請求項9】
前記アニメーション生成部は、前記第1のデータ生成部で生成された三次元画像に、前記第2のデータ生成部で生成された前記部分アニメーション画像を合成した前記第1のアニメーション画像を生成する、請求項8に記載の情報処理装置。
【請求項10】
前記第1のアニメーション画像と三次元アニメーションモデル画像とを合成して、第2のアニメーション画像を生成する画像合成部をさらに備える、請求項8に記載の情報処理装置。
【請求項11】
前記三次元アニメーションモデル画像は、前記第1の撮像部及び前記第2の撮像部で撮像された被写体とは無関係の三次元アニメーション画像である、請求項10に記載の情報処理装置。
【請求項12】
前記第1のアニメーション画像及び前記前記第2のアニメーション画像は、被写体の動きに応じた動きを行う、請求項10に記載の情報処理装置。
【請求項13】
前記第1のデータ生成部は、前記第1の撮像部で撮像された二次元画像から特徴点を抽出して、抽出された前記特徴点に基づいて前記三次元画像を生成する、請求項1に記載の情報処理装置。
【請求項14】
前記第1のデータ生成部は、前記第1の撮像部で撮像された二次元画像に含まれる顔を抽出して、抽出された前記顔の特徴点、頭の姿勢、及び視線方向の少なくとも一方に基づいて、前記三次元画像を生成する、請求項13に記載の情報処理装置。
【請求項15】
前記特徴点追跡部は、前記第2の撮像部で撮像された異なるフレームの画像間での前記特徴点の動きを検出することで、前記特徴点を追跡する、請求項1に記載の情報処理装置。
【請求項16】
前記第2のデータ生成部は、前記第2の撮像部で撮像された画像のフレームレートを、アニメーション画像に適したフレームレートに下げた前記部分アニメーション画像を生成するフレームレート変換部を有する、請求項1に記載の情報処理装置。
【請求項17】
前記第2のデータ生成部は、
前記第2の撮像部で撮像された画像に対応する三次元画像を生成する特徴点画像生成部と、
前記三次元画像の表面法線を計算する表面法線計算部と、
前記三次元画像に含まれる物体を検出する物体検出部と、
前記三次元画像に含まれる注目領域を抽出する注目領域抽出部と、
前記三次元画像に含まれる前記特徴点を抽出する特徴点抽出部と、を有し、
前記第2のデータ生成部は、前記特徴点画像生成部で生成された三次元画像と、前記表面法線計算部で計算された表面法線と、前記物体検出部で検出された物体と、前記注目領域抽出部で抽出された前記注目領域と、前記特徴点抽出部で抽出された前記特徴点とに基づいて、前記特徴点の動きを模擬する前記部分アニメーション画像のためのデータを生成する、請求項1に記載の情報処理装置。
【請求項18】
前記第1の撮像部及び前記第2の撮像部の少なくとも一方は、複数設けられる、請求項1に記載の情報処理装置。
【請求項19】
前記第1の撮像部及び前記第2の撮像部とは別個に設けられ、被写体の奥行き情報、被写体までの距離情報、又は被写体の温度情報の少なくとも一つを含む画像を撮像する第3の撮像部を備え、
前記第1のデータ生成部及び前記第2のデータ生成部の少なくとも一方は、前記第3の撮像部で撮像された画像に基づいて、三次元画像に変換するためのデータと前記部分アニメーション画像用のデータとの少なくとも一方を生成する、請求項1に記載の情報処理装置。
【請求項20】
三次元アニメーション画像を生成する情報処理装置と、
前記三次元アニメーション画像を表示する表示装置と、を備える電子機器であって、
前記情報処理装置は、
有効画素領域の全域を、予め定めたフレームレートで撮像する第1の撮像部と、
イベントが生じた画素を撮像する第2の撮像部と、
前記第1の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第1のデータ生成部と、
前記第2の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第2のデータ生成部と、
前記第1のデータ生成部で生成されたデータの少なくとも一部と、前記第2のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、
前記情報交換部にて少なくとも一部のデータを交換し合った前記第1のデータ生成部及び前記第2のデータ生成部で生成されたデータに基づいて、第1のアニメーション画像を生成するアニメーション生成部と、
前記第1のアニメーション画像と三次元アニメーションモデル画像とを合成して、第2のアニメーション画像を生成する画像合成部と、を備え、
前記表示装置は、前記第2のアニメーション画像を表示する、電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
イベントカメラは、通常のカメラと異なり、輝度変化等のイベントが生じた画素情報だけを撮像するため、少ないデータ量でイベント情報を高速に取得できるという特徴がある。イベントカメラを使って、変形可能な物体の動きを高速に追跡する技術が提案されている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1は、イベントカメラを用いて、変形可能な物体の動きを撮像することを目的としているが、イベントカメラは、輝度変化を高速かつ精度よく検出できるものの、輝度変化がない画素情報は取得できず、また物体の色情報も取得できない。このため、特許文献1の技術では、高精細な二次元画像を生成することはできない。
【0005】
最近では、通常のカメラで撮影した二次元画像から特徴点を抽出して、抽出された特徴点を手がかりに三次元画像やアニメーション画像を生成する技術が注目されている。動きのある特徴点の抽出と追跡に関しては通常のカメラよりもイベントカメラの方が優れており、イベントカメラを用いることで、動きのある特徴点を高精度に追跡することができる。その一方で、動きのない特徴点はイベントカメラでは検出できないため、通常のカメラで撮像した画像から検出する必要がある。
【0006】
このように、通常のカメラとイベントカメラは、一長一短を有し、どちらか一方だけでは、動きのある被写体についての三次元画像やアニメーション画像を生成することは困難である。
【0007】
そこで、本開示は、複雑な処理や高性能のプロセッサ等を要することなく、高品質のアニメーション画像を簡易な手順で生成可能な情報処理装置及び情報処理方法を提供するものである。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、本開示の一態様によれば、有効画素領域の全域を、予め定めたフレームレートで撮像する第1の撮像部と、
イベントが生じた画素を撮像する第2の撮像部と、
前記第1の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第1のデータ生成部と、
前記第2の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第2のデータ生成部と、
前記第1のデータ生成部で生成されたデータの少なくとも一部と、前記第2のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、を備える、情報処理装置が提供される。
【0009】
前記第1のデータ生成部は、前記第1の撮像部で撮像された二次元画像と、前記情報交換部から提供された前記第2のデータ生成部で生成されたデータの少なくとも一部とに基づいて、前記二次元画像を三次元画像に変換するためのデータを生成し、
前記第2のデータ生成部は、前記特徴点の動きの追跡結果と、前記情報交換部から提供された前記第1のデータ生成部で生成されたデータの少なくとも一部とに基づいて、前記部分アニメーション画像用のデータを生成してもよい。
【0010】
前記第1の撮像部及び前記第2の撮像部は、被写体の顔を撮像し、
前記情報交換部は、前記第1のデータ生成部で生成されたデータに含まれる被写体の頭の姿勢と視線方向との少なくとも一方に関するデータを前記第2のデータ生成部に提供し、かつ、前記第2のデータ生成部で生成されたデータに含まれる被写体の目又は口の動きと、皮膚の状態変化との少なくとも一方に関するデータを前記第1のデータ生成部に提供してもよい。
【0011】
前記情報交換部は、前記第1のデータ生成部及び前記第2のデータ生成部のそれぞれから、互いに異なる種類のデータの提供を受けて、前記第1のデータ生成部及び前記第2のデータ生成部の間でデータを交換し合ってもよい。
【0012】
前記情報交換部は、前記第1のデータ生成部及び前記第2のデータ生成部のそれぞれから、同じ種類のデータの提供を受けて、提供されたデータのうち信頼性の高いデータを、前記第1のデータ生成部及び前記第2のデータ生成部で共有してもよい。
【0013】
前記第2の撮像部は、前記第1の撮像部よりも高いフレームレートで、前記イベントが生じた画素を含む画像を出力してもよい。
【0014】
前記第2の撮像部は、前記イベントの発生したタイミングに合わせて前記画像を出力してもよい。
【0015】
前記情報交換部にて少なくとも一部のデータを交換し合った前記第1のデータ生成部及び前記第2のデータ生成部で生成されたデータに基づいて、第1のアニメーション画像を生成するアニメーション生成部をさらに備えてもよい。
【0016】
前記アニメーション生成部は、前記第1のデータ生成部で生成された三次元画像に、前記第2のデータ生成部で生成された前記部分アニメーション画像を合成した前記第1のアニメーション画像を生成してもよい。
【0017】
前記第1のアニメーション画像と三次元アニメーションモデル画像とを合成して、第2のアニメーション画像を生成する画像合成部をさらに備えてもよい。
【0018】
前記三次元アニメーションモデル画像は、前記第1の撮像部及び前記第2の撮像部で撮像された被写体とは無関係の三次元アニメーション画像であってもよい。
【0019】
前記第1のアニメーション画像及び前記前記第2のアニメーション画像は、被写体の動きに応じた動きを行ってもよい。
【0020】
前記第1のデータ生成部は、前記第1の撮像部で撮像された二次元画像から特徴点を抽出して、抽出された前記特徴点に基づいて前記三次元画像を生成してもよい。
【0021】
前記第1のデータ生成部は、前記第1の撮像部で撮像された二次元画像に含まれる顔を抽出して、抽出された前記顔の特徴点、頭の姿勢、及び視線方向の少なくとも一方に基づいて、前記三次元画像を生成してもよい。
【0022】
前記特徴点追跡部は、前記第2の撮像部で撮像された異なるフレームの画像間での前記特徴点の動きを検出することで、前記特徴点を追跡してもよい。
【0023】
前記第2のデータ生成部は、前記第2の撮像部で撮像された画像のフレームレートを、アニメーション画像に適したフレームレートに下げた前記部分アニメーション画像を生成するフレームレート変換部を有してもよい。
【0024】
前記第2のデータ生成部は、
前記第2の撮像部で撮像された画像に対応する三次元画像を生成する特徴点画像生成部と、
前記三次元画像の表面法線を計算する表面法線計算部と、
前記三次元画像に含まれる物体を検出する物体検出部と、
前記三次元画像に含まれる注目領域を抽出する注目領域抽出部と、
前記三次元画像に含まれる前記特徴点を抽出する特徴点抽出部と、を有し、
前記第2のデータ生成部は、前記特徴点画像生成部で生成された三次元画像と、前記表面法線計算部で計算された表面法線と、前記物体検出部で検出された物体と、前記注目領域抽出部で抽出された前記注目領域と、前記特徴点抽出部で抽出された前記特徴点とに基づいて、前記特徴点の動きを模擬する前記部分アニメーション画像のためのデータを生成してもよい。
【0025】
前記第1の撮像部及び前記第2の撮像部の少なくとも一方は、複数設けられてもよい。
【0026】
前記第1の撮像部及び前記第2の撮像部とは別個に設けられ、被写体の奥行き情報、被写体までの距離情報、又は被写体の温度情報の少なくとも一つを含む画像を撮像する第3の撮像部を備え、
前記第1のデータ生成部及び前記第2のデータ生成部の少なくとも一方は、前記第3の撮像部で撮像された画像に基づいて、三次元画像に変換するためのデータと前記部分アニメーション画像用のデータとの少なくとも一方を生成してもよい。
【0027】
本開示の他の一態様は、三次元アニメーション画像を生成する情報処理装置と、
前記三次元アニメーション画像を表示する表示装置と、を備える電子機器であって、
前記情報処理装置は、
有効画素領域の全域を、予め定めたフレームレートで撮像する第1の撮像部と、
イベントが生じた画素を撮像する第2の撮像部と、
前記第1の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第1のデータ生成部と、
前記第2の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第2のデータ生成部と、
前記第1のデータ生成部で生成されたデータの少なくとも一部と、前記第2のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、
前記情報交換部にて少なくとも一部のデータを交換し合った前記第1のデータ生成部及び前記第2のデータ生成部で生成されたデータに基づいて、第1のアニメーション画像を生成するアニメーション生成部と、
前記第1のアニメーション画像と三次元アニメーションモデル画像とを合成して、第2のアニメーション画像を生成する画像合成部と、を備え、
前記表示装置は、前記第2のアニメーション画像を表示する、電子機器が提供される。
【図面の簡単な説明】
【0028】
【
図1】一実施形態による情報処理装置の概略構成を示すブロック図。
【
図2】GANを用いて二次元画像から三次元画像を生成する処理の手順を示すフローチャート。
【
図3】顔画像をメッシュ分割した三次元画像の一例を示す図。
【
図4】第2のデータ生成部の内部構成を示すブロック図。
【
図5】情報交換部の第1の具体例を示すブロック図。
【
図6】第1のデータ生成部から情報交換部を介して第2のデータ生成部に特徴点の情報を提供する例を示す図。
【
図7】第2のデータ生成部から情報交換部を介して第1のデータ生成部に目や口の動き、皮膚の状態変化の情報などを提供する例を示す図。
【
図8A】顔画像から人間の左目と右目を抽出して頭の姿勢を検出する例を示す図。
【
図8B】人間の顔画像から複数の特徴点を抽出して頭の姿勢を抽出する例を示す図。
【
図9】第2のデータ生成部が生成する部分アニメーション画像の一例を示す図。
【
図10】情報交換部の第2の具体例を示すブロック図。
【
図11】本開示による情報処理装置のハードウェア構成の一例を示すブロック図。
【
図12】第1のユースケースによる情報処理装置の概略構成を示すブロック図。
【
図14】第2のユースケースによる情報処理装置の概略構成を示すブロック図。
【
図15】VRグラス又はHMDを装着した人間を示す図。
【
図16】第3のユースケースによる情報処理装置の概略構成を示すブロック図。
【
図17A】フレームカメラとイベントカメラの他に、特殊機能を持ったカメラと第3の処理プロセッサとを備える情報処理装置1のブロック図。
【発明を実施するための形態】
【0029】
以下、図面を参照して、情報処理装置及び情報処理方法の実施形態について説明する。以下では、情報処理装置及び情報処理方法の主要な構成部分を中心に説明するが、情報処理装置及び情報処理方法には、図示又は説明されていない構成部分や機能が存在しうる。以下の説明は、図示又は説明されていない構成部分や機能を除外するものではない。
【0030】
(情報処理装置の全体構成)
図1は一実施形態による情報処理装置1の概略構成を示すブロック図である。
図1の情報処理装置1は、必須の構成部分として、第1の撮像部2と、第2の撮像部3と、第1のデータ生成部4と、特徴点追跡部5と、第2のデータ生成部6と、情報交換部7とを備えている。
【0031】
第1の撮像部2は、有効画素領域の全域を、予め定めたフレームレートで撮像する。第1の撮像部2は、RGBの階調情報を撮像する通常のイメージセンサ、又はこのイメージセンサを内蔵するカメラ(以下、フレームカメラと呼ぶこともある)である。第1の撮像部2は、フレームレートを変更する機能を持っていてもよい。第1の撮像部2は、単色波長域の階調情報を撮像してもよい。例えば、第1の撮像部2は、赤外波長域の光を撮像してもよい。
【0032】
第2の撮像部3は、イベントが生じた画素を撮像する。ここで、イベントとは、例えば、輝度変化が閾値を超えたことを指す。輝度変化は絶対値でもよい。輝度の低い状態から高い状態への輝度変化が閾値を超えた場合と、輝度が高い状態から低い状態への輝度変化が閾値を超えた場合に、イベントが発生したと判断してもよい。また、閾値を複数設けて、複数種類のイベントを検出できるようにしてもよい。さらに、輝度変化ではなく、受光量が閾値を超えた場合、又は受光量が閾値を下回った場合にイベントが発生したと判断してもよい。さらに、イベント検出用の閾値を調整できるようにしてもよい。閾値を調整することで、第2の撮像部3のダイナミックレンジを広げることができる。
【0033】
第2の撮像部3は、イベントが生じた画素のみを撮像し、イベントが生じなかった画素は撮像しないため、1フレームごとの画像サイズを小さくすることができる。第1の撮像部2と第2の撮像部3で撮像された画像は、それぞれ不図示の記憶部に記憶されるが、第2の撮像部3で撮像された画像サイズは、第1の撮像部2で撮像された画像サイズよりもはるかに小さいことから、その分、第2の撮像部3のフレームレートを高くすることができ、より高速の撮像が可能になる。
【0034】
第2の撮像部3は、受光量又は輝度変化が閾値を超えたか否かを画素ごとに検出する機能を持ったセンサを有する。この種のセンサは、例えばEVS(Event base Vision Sensor)又はDVS(Dynamic Vision Sensor)と呼ばれることがある。
【0035】
第1のデータ生成部4は、第1の撮像部2で撮像された二次元画像を三次元画像に変換するためのデータを生成する。例えば、第1のデータ生成部4は、第1の撮像部2で撮像された二次元画像から特徴点(keypoint)を抽出して、抽出された特徴点に基づいて三次元画像を生成する。三次元画像を生成する過程で、CNN(Convolutional Neural Network)やDNN(Deep Neural Network)を用いて学習を行ってもよい。
【0036】
より具体的な一例として、第1のデータ生成部4は、第1の撮像部2で撮像された二次元画像に含まれる顔を抽出して、抽出された顔の特徴点、頭の姿勢(pose)、及び視線(gaze)の少なくとも一方に基づいて、学習を行った上で、三次元画像を生成する。
【0037】
特徴点追跡部5は、第2の撮像部3で撮像された画像に含まれる特徴点を検出して、検出された特徴点の動きを追跡する。より詳細には、特徴点追跡部5は、第2の撮像部3で撮像された異なるフレームの画像間での特徴点の動きを検出することで、特徴点を追跡する。
【0038】
第2のデータ生成部6は、特徴点の動きの追跡結果に基づいて、特徴点の動きを模擬する部分アニメーション画像用のデータを生成する。第2のデータ生成部6は、第2の撮像部3で撮像された画像のフレームレートを、アニメーション画像に適したフレームレートに下げる。第2のデータ生成部6の内部構成の詳細については後述する。
【0039】
特徴点は、キーポイント(keypoint)又は密度(dense)と呼ばれることもある。また、フレーム間での特徴点の動きを検出する処理は、オプティカルフローと呼ばれることもある。特徴点追跡部5は、キーポイントや密度によって特徴点を抽出し、例えばオプティカルフローを利用して特徴点を追跡する。
【0040】
情報交換部7は、第1のデータ生成部4で生成されたデータの少なくとも一部と、第2のデータ生成部6で生成されたデータの少なくとも一部とを交換しあう。これにより、情報交換部7は、第1データ生成部で生成されたデータと、第2データ生成部で生成されたデータとの少なくとも一部を補完し合うことができる。
【0041】
情報交換部7は、第1のデータ生成部4及び第2のデータ生成部6のそれぞれから、互いに異なる種類のデータの提供を受けて、第1のデータ生成部4及び第2のデータ生成部6の間でデータを交換し合ってもよい。
【0042】
あるいは、情報交換部7は、第1のデータ生成部4及び第2のデータ生成部6のそれぞれから、同じ種類のデータの提供を受けて、提供されたデータのうち信頼性の高いデータを、第1のデータ生成部4及び第2のデータ生成部6で共有してもよい。
【0043】
例えば、情報交換部7は、第1のデータ生成部4で検出された頭の姿勢(pose)と視線方向(gaze)の情報を第2データ生成部に提供するとともに、第2のデータ生成部6で検出された目や口の動きの情報と皮膚(skin)の状態変化の情報等を第1データ生成部に提供することができる。第1のデータ生成部4は、情報交換部7を介して第2のデータ生成部6から提供された目や口の動きの情報と皮膚(skin)の状態変化の情報等を用いて、三次元画像を生成することができる。第2のデータ生成部6は、情報交換部7を介して第1のデータ生成部4から提供された頭の姿勢(pose)と視線方向(gaze)の情報を用いて、部分アニメーション画像用のデータを生成することができる。
【0044】
このように、情報交換部7を設けて、第1のデータ生成部4と第2のデータ生成部6が互いに少なくとも一部のデータを交換し合うことで、第1のデータ生成部4が生成する三次元画像と、第2のデータ生成部6が生成する部分アニメーション画像の品質を向上できる。
【0045】
図1の情報処理装置1は、アニメーション生成部8を備えていてもよい。アニメーション生成部8は、情報交換部7で少なくとも一部のデータを交換しあった第1のデータ生成部4及び第2のデータ生成部6で生成されたデータに基づいて、第1のアニメーション画像を生成する。より詳細には、アニメーション生成部8は、第1のデータ生成部4で生成された三次元画像に、第2のデータ生成部6で生成された部分アニメーション画像を合成した第1のアニメーション画像を生成する。
【0046】
第1のアニメーション画像は、顔画像であってもよいし、手や足などの顔以外の画像であってもよい。また、第1のアニメーション画像は、必ずしも人間や動物の画像である必要はなく、車両等の任意の物体の画像であってもよい。
【0047】
図1の情報処理装置1は、画像合成部9を備えていてもよい。画像合成部9は、第1のアニメーション画像と三次元アニメーションモデル10とを合成して、第2のアニメーション画像を生成する。三次元アニメーションモデル10は、予め用意される三次元アニメーション画像であり、第1の撮像部2及び第2の撮像部3で撮像された被写体とは無関係の画像である。これにより、第1の撮像部2及び第2の撮像部3で撮像された被写体を任意のアニメーションモデル画像に置換し、かつ、被写体の例えば目や口の動きを模擬した動きをアニメーションモデル画像に反映させることができる。これにより、被写体の目や口、頭等の動きに合わせて、アニメーション画像の目や口、頭等を動かすことができる。
【0048】
(第1のデータ生成部4の処理)
第1のデータ生成部4は、第1の撮像部2で撮像された二次元画像に基づいて三次元画像を生成する。二次元画像から三次元画像を生成する具体的な処理内容は問わない。以下では、一例として、GAN(Generative Adversarial Network)を用いた処理を説明する。
図2はGANを用いて二次元画像から三次元画像を生成する処理の手順を示すフローチャートである。まず、フレームカメラに対応する第1の撮像部2で撮像された二次元画像を取得する(ステップS1)。次に、取得された二次元画像に基づいて、奥行き情報と、アルベド(反射能)情報と、視点情報と、光の方向とを予測する(ステップS2)。ここでは、奥行き情報、アルベド情報、光の方向を用いて二次元画像を三次元画像に変換し、その三次元画像を二次元画像に投影して、元の二次元画像と比較して、比較結果が同じになるように、奥行き情報、アルベド情報、光の方向を更新する学習を行う。
【0049】
次に、ステップS2で生成された三次元画像について、視点情報と光の方向を変化させて、三次元形状の学習を行う(ステップS3)。学習には、CNNやDNNなどを用いることができる。
【0050】
次に、上述したステップS2及びS3の処理を所定回数繰り返したか否かを判定し(ステップS4)、所定回数繰り返して学習させた三次元画像を最終的に出力する。
【0051】
第1のデータ生成部4の処理を行うにあたって、第1の撮像部2で撮像された二次元画像から特徴点を抽出し、特徴点に基づいて奥行き情報を推測し、推測した奥行き情報を用いて三次元画像を生成してもよい。特徴点は、顔の輪郭や口、鼻、耳、眉毛、顎などである。特徴点と奥行き情報から、
図3に示すように、顔をメッシュ状に分割し、メッシュの格子線の曲線形状により、三次元情報を表してもよい。また、二次元画像中の特徴的な形状により特徴点を抽出してもよいし、二次元画像中のドットの濃淡度合(dense)に基づいて特徴点を抽出してもよい。
【0052】
第1のデータ生成部4の処理は、有効画素領域内の全画素の情報を含む二次元画像に基づいて行われるため、処理に時間がかかる可能性があるものの、二次元画像中の特徴点を漏れなく抽出することができる。また、二次元画像は色階調情報を含んでいるため、色に特徴がある特徴点についても抽出することができ、色階調情報を含む三次元画像を生成できる。
【0053】
その一方で、第1の撮像部2で撮像される二次元画像の解像度と、第1のデータ生成部4の処理性能によって、三次元画像の品質が変化する。特に、被写体の少なくとも一部が動いている場合、その動きを三次元画像でどの程度正確に表現できるかは、第1のデータ生成部4における二次元画像を三次元画像に変換する処理を行うアルゴリズムに依存し、複雑なアルゴリズムを採用すると、三次元画像を生成するのに多大な時間を要する。
【0054】
一般には、形状に特徴がある特徴点の抽出は比較的容易に行うことができるが、皮膚や筋肉の状態変化などを特徴点として抽出するのは困難である。また、dense情報に基づく特徴点の抽出では、皮膚や筋肉の状態変化などの細かい部分の特徴を抽出できるが、処理に時間がかかる。
【0055】
通常のイメージセンサを搭載したカメラでは、30フレーム/秒程度の二次元画像しか得られない。30フレーム/秒程度では、アニメーション画像を滑らかに動かすことはできないおそれがあり、フレームレートをより高速化する必要がある。また、通常のイメージセンサを搭載したカメラでは、動きの速い物体の動きを忠実に追跡するのは困難であり、物体の動きを三次元画像中に忠実に再現させることはできない。
【0056】
(第2のデータ生成部6の処理)
第2の撮像部3は、受光量や輝度変化が閾値を超えるなどのイベントが生じた画素を撮像するため、特徴点追跡部5は、第2の撮像部3で撮像された画像から、比較的容易に動きのある特徴点を抽出できる。また、特徴点追跡部5は、複数のフレーム同士の第2の撮像部3で撮像された画像を比較することで、特徴点を追跡することができる。特徴点は、上述したように、形状に特徴がある特徴点と、輝度の濃淡(濃度)に特徴がある特徴点のどちらでもよい。
【0057】
図4は第2のデータ生成部6の内部構成を示すブロック図である。
図4に示すように、第2のデータ生成部6は、フレームレート変換部11と、処理モジュール12とを有する。
【0058】
フレームレート変換部11は、第2の撮像部3で撮像された画像のフレームレートを、アニメーション画像に適したフレームレートに下げる。第2の撮像部3は、イベントが生じた画素のみを含む画像を生成するため、フレームレートを高くすることができ、例えば、10,000フレーム/秒を超えるようなフレームレートも実現可能である。一方、アニメーション画像は、1,000フレーム/秒程度で十分である。そこで、フレームレート変換部11は、第2の撮像部3で撮像された画像のフレームレートを、アニメーション画像が滑らかに動く程度のフレームレートに変換する。
【0059】
フレームレート変換部11の処理は、タイムビニング処理とも呼ばれる。より詳細には、フレームレート変換部11は、特徴点の追跡結果を表す位置情報、速度情報、及び加速度情報を出力する。これらの情報は、処理モジュール12に入力される。
【0060】
図4の処理モジュール12は、特徴点画像生成部13と、表面法線計算部14と、物体検出部15と、注目領域抽出部16と、特徴点抽出部17とを有する。
【0061】
特徴点画像生成部13は、第2の撮像部3で撮像された画像に対応する三次元画像を生成する。表面法線計算部14は、三次元画像の表面法線を計算する。例えば、表面法線計算部14は、物体の動きから表面法線を計算する。物体検出部15は、三次元画像に含まれる物体を検出する。注目領域抽出部16は、三次元画像に含まれる注目領域(ROI:Region Of Interest)を抽出する。特徴点抽出部17は、三次元画像に含まれる特徴点を抽出する。
【0062】
第2のデータ生成部6は、特徴点画像生成部13で生成された三次元画像と、表面法線計算部14で計算された表面法線と、物体検出部15で検出された物体と、注目領域抽出部16で抽出された注目領域と、特徴点抽出部17で抽出された特徴点とに基づいて、特徴点の動きを模擬する部分アニメーション画像のためのデータを生成する。第2のデータ生成部6は、フレームレートを変換した画像データに基づいて、パーティカルを単位とするアニメーション画像(particle-based animation)を生成してもよい。特徴点の代わりに、パーティカルに基づいて、三次元画像のメッシュを再構成してもよい。
【0063】
第2の撮像部3は、イベントが生じた画素のみを含む画像を生成するため、フレームレートを高速にすることができる。具体的には、第2の撮像部3は、10,000フレーム/秒以上のフレームレートで画像を取得することも可能である。また、輝度が第1の閾値を超えた画素と、輝度が第2の閾値を下回る画素とを検出することで、ダイナミックレンジを広げることができ、例えば、輝度が非常に高い画素と、輝度が非常に低い画素とを検出できる。
【0064】
その一方で、第2のデータ生成部6は、輝度変化の大きい画素しか検出できず、輝度変化のない画素の情報や、各画素の色情報を検出できない。また、現状、市販されているイベントカメラや、イベント検出用のセンサの解像度はフルHDにも満たない程度(例えば、1080×720)であり、第2の撮像部3で撮像された画像から、4Kや8K等の高解像度の三次元画像を生成することはできないという問題がある。
【0065】
(情報交換部7の処理)
情報交換部7は、第1のデータ生成部4及び第2のデータ生成部6で生成されたデータ同士を交換しあう。第1のデータ生成部4は、例えば、細かい特徴(High texture)の情報、色情報、及び高解像度情報などを、情報交換部7を介して第2のデータ生成部6に提供することができる。第2のデータ生成部6は、第2の撮像部3で撮像された高フレームレートの画像や、画像内の細かい輝度変化を表す密度情報や、広ダイナミックレンジのイベント情報などを、情報交換部7を介して第1のデータ生成部4に提供することができる。
【0066】
より具体的な一例では、第1のデータ生成部4は、頭の姿勢(pose)と視線方向(gaze)の少なくとも一方に関するデータを、情報交換部7を介して第2のデータ生成部6に提供する。第2のデータ生成部6は、目又は口の動きと、皮膚の状態変化との少なくとも一方に関するデータを第1のデータ生成部4に提供する。これにより、第1のデータ生成部4と第2のデータ生成部6は、高品質の三次元画像と部分アニメーション画像を生成することができる。
【0067】
以下に、情報交換部7の処理の具体例を2つ説明する。
(情報交換部7の第1の具体例)
情報交換部7の第1の具体例は、第1のデータ生成部4と第2のデータ生成部6で生成されたそれぞれ別種類の情報を、交換し合うものである。
【0068】
図5~
図7は情報交換部7の第1の具体例を示すブロック図である。情報交換部7の第1の具体例では、被写体のマクロ情報を得るために第1の撮像部2及び第1のデータ生成部4を利用し、被写体のミクロ情報を得るために第2の撮像部3、特徴点追跡部5及び第2のデータ生成部6を利用する。
【0069】
第1の撮像部2は、有効画素の全域についての色階調情報を含む二次元画像を撮像する。第1のデータ生成部4は、第1の撮像部2で撮像された二次元画像に含まれる特徴点を抽出して、顔モデルを生成する。その際、第1のデータ生成部は、頭の姿勢(pose)と視線方向(gaze)などを検出する。
【0070】
特徴点追跡部5は、第2の撮像部3で撮像された画像に基づいて、目(瞬きの有無や瞳など)、口などの顔の一部分の詳細な動きを検出する。また、特徴点追跡部5は、顔の一部分の動きの速度を検出してもよい。さらに、特徴点追跡部5は、皮膚の状態の微妙な変化等の情報を検出してもよい。第2のデータ生成部6は、特徴点追跡部5で抽出された特徴点や特徴点の追跡結果に基づいて、部分アニメーション画像用のデータを生成する。
【0071】
第1のデータ生成部4で生成されたデータの少なくとも一部は情報交換部7に送られる。同様に、第2のデータ生成部6で生成されたデータの少なくとも一部は情報交換部7に送られる。情報交換部7は、
図5に示すように、第1のデータ生成部4で生成されたデータと、第2のデータ生成部6で生成されたデータとを関連づける。例えば、第1のデータ生成部4で生成されたデータのうち、頭の姿勢(pose)i1と視線方向(gaze)i2に関する情報は、第2のデータ生成部6で生成されたデータのうち、目や口の動きi3と皮膚(skin)の状態変化i4に関する情報に関連づけられる。これにより、例えば、第1のデータ生成部4で生成された三次元画像中の目の位置に、第2のデータ生成部6で生成されたデータに基づいて、瞬き等の動きを持たせることができる。
【0072】
図6は、第1のデータ生成部4から情報交換部7を介して第2のデータ生成部6に対して、頭の姿勢(pose)i1と視線方向(gaze)i2等の特徴点の情報を提供する例を示している。
【0073】
第1のデータ生成部4は、二次元画像から生成された三次元画像に含まれる特徴点を抽出する。特徴点には、例えば、頭の姿勢(pose)i1が含まれる。頭の姿勢(pose)i1とは、顔(頭)の傾き具合である。また、特徴点には、例えば、視線方向(gaze)i2が含まれる。視線方向(gaze)i2とは、人間が視線を向けている方向である。
【0074】
図8A及び
図8Bは第1のデータ生成部4が頭の姿勢(pose)i1と視線方向(gaze)i2を検出する手法を説明する図である。
図8Aは、顔画像から人間の左目と右目を抽出し、左目と右目の並ぶ方向(破線)と、その法線方向(一点鎖線)から頭の姿勢(pose)i1を検出する例を示している。
図8Bは、人間の顔画像の中から、四角マークで示す複数の特徴点を抽出し、これら特徴点の配置から、頭の姿勢(pose)i1を抽出する例を示している。例えば、
図8Aでは、画像の水平方向及び垂直方向に対して、左目と右目の傾き具合や、顔の輪郭線の傾き具合等から、頭の姿勢(pose)i1を検出することができる。また、目の中の瞳孔を特徴点として抽出し、瞳孔の位置から視線方向(gaze)i2を検出することができる。
【0075】
第2の撮像部3は、イベントが発生した画素の情報しか撮像しないため、第2の撮像部3で撮像された画像からは、被写体の頭の姿勢(pose)i1や視線方向(gaze)i2を正確に把握できないおそれがある。そこで、第2のデータ生成部6は、情報交換部7を介して、第1のデータ生成部4で生成されたデータに含まれる頭の姿勢(pose)i1や視線方向(gaze)i2の情報を受け取ることで、頭の姿勢(pose)や視線方向(gaze)を正しく把握した上で、部分アニメーション画像用のデータを生成できる。
【0076】
また、第2の撮像部3で撮像される画像には色情報は含まれないため、情報交換部7を介して、第1のデータ生成部4で生成されたデータに含まれる色情報を受け取ることで、第2のデータ生成部6は、色情報を含む部分アニメーション画像を生成できる。
【0077】
さらに、第2の撮像部3で撮像される画像には物体の輪郭情報が含まれない場合がありうるため、情報交換部7を介して、第1のデータ生成部4で生成されたデータに含まれる物体の輪郭情報を受け取ることで、第2のデータ生成部6は、物体の輪郭を模擬する部分アニメーション画像を生成できる。
【0078】
このように、第2のデータ生成部6は、情報交換部7を設けることで、輝度変化等のイベントが生じなかった画素情報を加味して、部分アニメーション画像を生成できる。
【0079】
図7は、第2のデータ生成部6から情報交換部7を介して第1のデータ生成部4に対して、目や口の動きi3、皮膚(skin)の状態変化i4の情報などを提供する例を示す図である。目や口の動きi3とは、例えば、目の瞬き、瞳孔の位置変化、口の開き具合などである。特徴点追跡部5は、第2の撮像部3で撮像された複数フレームの複数の画像から、特徴点である目や口の動きi3を追跡する。また、特徴点追跡部5は、皮膚(skin)の輝度変化から皮膚(skin)の状態変化i4を検出する。より具体的な一例としては、人間が発話している間の皮膚(skin)の状態変化i4を検出し、皺や口の歪みの変化などを追跡する。
【0080】
第2の撮像部3は、第1の撮像部2よりも、はるかに高いフレームレートで動きのある箇所を撮像するため、ブレを生じさせることなく、目の動きや口の動き、皮膚の状態変化等を忠実に表現した画像を取得できる。
【0081】
図9は第2のデータ生成部6が生成する部分アニメーション画像の一例を示す図である。
図9は、人間の口の動きに関する部分アニメーション画像を示している。第2の撮像部3は、被写体の口の動きが変化すれば、それをイベントとして撮像するため、第2のデータ生成部6は、人間の口の動きに合わせた部分アニメーションを生成できる。仮に、被写体が高速に目や口、頭を動かしたしても、その動きに追随して、第2の撮像部3は動いた箇所を撮像できるため、第2のデータ生成部6は、被写体の目や口等の動きに合わせて高速に部分アニメーション画像の目や口等を動かすことができる。
【0082】
人間が発話している最中に第1の撮像部2で撮像された画像は、目や口などの動きのある部分がぼやけるおそれがある。そこで、第1のデータ生成部4は、情報交換部7を介して、第2のデータ生成部6で生成されたデータに含まれる目の動きや口の動きなどの情報を受け取ることで、画像内の動きのある部分のブレをなくすことができる。
【0083】
第1のデータ生成部4が生成するデータには、例えば、視線方向(gaze)i2の情報が含まれている。視線方向(gaze)i2は、目のROI(Region Of Interest)情報である。人間が視線方向(gaze)i2を変えない場合には、第2の撮像部3では、視線方向(gaze)i2をイベントとして検出できない。よって、第2のデータ生成部6が生成するデータには、視線方向(gaze)i2の情報は含まれない。そこで、第2のデータ生成部6は、情報交換部7を介して、第1のデータ生成部4から視線方向(gaze)i2の情報を受け取ることで、視線方向(gaze)i2を加味した部分アニメーション画像を生成できる。
【0084】
一方、第2のデータ生成部6が生成するデータには、例えば、目の動きi3の情報が含まれている。第2の撮像部3は、動きのある物体をイベントとして高速に撮像できるため、第2のデータ生成部6は、目の動きi3を忠実に追跡した部分アニメーション画像を生成できる。これに対して、第1の撮像部2は、予め定めたフレームレートで被写体を撮像するため、被写体の一部に動きの速い部分があると、その部分はぼけた画像になる。よって、第1のデータ生成部4は、目の動きi3を忠実に再現可能な三次元画像を生成できない。そこで、第1のデータ生成部4は、情報交換部7を介して、第2のデータ生成部6から目の動きi3の情報を受け取ることで、目の動きi3を加味した三次元画像を生成でき、目の周囲の画像のブレをなくすることができる。
【0085】
このように、情報交換部7を介して、視線方向(gaze)i2と目の動きi3の情報を、第1のデータ生成部4と第2のデータ生成部6で互いに交換し合うことで、第1のデータ生成部4が生成するデータと第2のデータ生成部6が生成するデータをともに改善することができる。
【0086】
また、第1のデータ生成部4が生成するデータには、例えば、頭の姿勢(pose)i1の情報が含まれている。第2の撮像部3は、被写体の頭の姿勢(pose)i1が変化しない限り、姿勢(pose)をイベントとして検出できない。よって、第2のデータ生成部6が生成するデータには、頭の姿勢(pose)i1の情報は含まれていない。そこで、第2のデータ生成部6は、情報交換部7を介して、第1のデータ生成部4から頭の姿勢(pose)i1の情報を受け取ることで、頭の姿勢(pose)i1を加味した部分アニメーション画像を生成できる。
【0087】
また、第2のデータ生成部6が生成するデータには、例えば、口の動きi3の情報が含まれている。一方、第1のデータ生成部4は、口の動きi3を忠実に再現可能な三次元画像を生成できない。そこで、第1のデータ生成部4は、情報交換部7を介して、第2のデータ生成部6から口の動きi3の情報を受け取ることで、口の動きi3を加味した三次元画像を生成でき、口の周囲の画像のブレをなくすることができる。
【0088】
このように、情報交換部7を介して、頭の姿勢(pose)i1と口の動きi3の情報を、第1のデータ生成部4と第2のデータ生成部6で互いに交換し合うことで、第1のデータ生成部4が生成するデータと第2のデータ生成部6が生成するデータをともに改善することができる。
【0089】
また、第2のデータ生成部6が生成するデータには、例えば、皮膚(skin)の情報が含まれている。第2のデータ生成部6が生成する皮膚(skin)の情報は、例えば人間が発話する間に随時変化する皺や口の歪みなどの情報を含んでいる。このような情報は、第1の撮像部2で撮像される画像ではブレとして認識されることが多く、第1のデータ生成部4が生成するデータには含まれていないか、含まれていても信頼性が低い。そこで、第1のデータ生成部4は、情報交換部7を介して、第2のデータ生成部6から皮膚(skin)の情報を受け取ることで、人間が発話している間の皮膚(skin)の変化や口の歪み等を反映させた三次元画像を生成できる。
【0090】
このように、情報交換部7を介して、頭の姿勢(pose)i1と皮膚(skin)の情報を、第1のデータ生成部4と第2のデータ生成部6で互いに交換し合うことで、第1のデータ生成部4が生成するデータと第2のデータ生成部6が生成するデータをともに改善することができる。
【0091】
(情報交換部7の第2の具体例)
情報交換部7の第2の具体例は、第1のデータ生成部4と第2のデータ生成部6で同種の情報を交換し合うものである。
【0092】
図10は情報交換部7の第2の具体例を示すブロック図である。
図10の情報交換部7は、例えば、目又は瞳の動きi5の情報と、顔の特徴点i6の情報と、口又は唇の動きi7の情報とを、第1のデータ生成部4と第2のデータ生成部6で互いに交換し合う。
【0093】
第1のデータ生成部4は、第1の撮像部2で撮像された複数のフレームの複数の画像に基づいて、目又は瞳の動きi5と、顔の特徴点i6と、口又は唇の動きi7を検出する。第1の撮像部2は、第2の撮像部3に比べて遅いフレームレートで撮像を行うが、被写体の目や口の動きが緩やかであれば、第1のデータ生成部4においても、比較的精度よく、目又は瞳の動きi5と、顔の特徴点i6と、口又は唇の動きi7を検出できる。特に、第1の撮像部2は、有効画素領域内の全域についての画像を生成するため、動きの少ない部分の特徴点も漏れなく抽出できる。
【0094】
一方、特徴点追跡部5と第2のデータ生成部6は、第2の撮像部3で撮像された複数のフレームの複数の画像に基づいて、目又は瞳の動きi5と、顔の特徴点i6と、口又は唇の動きi7を検出する。第2の撮像部3は、動きのある部分をイベントとして撮像するため、速い動きであっても、その動きに合わせたフレームレートで撮像を行うことができる。よって、特徴点追跡部5と第2のデータ生成部6は、被写体が目や口を高速に動かしても、目又は瞳の動きi5と、顔の特徴点i6と、口又は唇の動きi7を的確に抽出できる。
【0095】
情報交換部7は、第1のデータ生成部4と第2のデータ生成部6のそれぞれから提供された、目又は瞳の動きi5情報と、顔の特徴点i6と、口又は唇の動きi7情報との少なくとも一つを比較して、いずれか優れている方の情報を採用する。例えば、目や口の動きが速くて、第1のデータ生成部4から提供された目又は瞳の動きi5情報と、口又は唇の動きi7情報との少なくとも一方が信頼性に欠ける場合は、第2のデータ生成部6から提供された情報を第1のデータ生成部4に送信する。一方、目や口の動きが遅くて、第1のデータ生成部4から提供された目又は瞳の動きi5情報と、口又は唇の動きi7情報とが動きを的確に反映している場合は、より高解像度で、かつ色階調情報も含むことから、第1のデータ生成部4から提供された情報を第2のデータ生成部6に送信する。
【0096】
(アニメーション生成部8の処理)
アニメーション生成部8には、情報交換部7でデータの交換を行った後の第1のデータ生成部4で生成されたデータと、第2のデータ生成部6で生成されたデータとが入力される。第1のデータ生成部4で生成されたデータは、例えばメッシュ分割された三次元顔画像である。第2のデータ生成部6で生成されたデータは、動きのある部分アニメーション画像である。
【0097】
アニメーション生成部8は、第1のデータ生成部4で生成された三次元顔画像のうち、動きのある領域を、第2のデータ生成部6で生成されたデータを利用することにより、第1のアニメーション画像を生成することができる。これにより、三次元顔画像に対応するアニメーション画像の一部領域(例えば目や口など)を、被写体の動きに合わせて動かすことができる。
【0098】
第1のデータ生成部4で生成されたデータは、第1の撮像部2で撮像される画像のフレームレートと同様の30フレーム/秒程度のフレームレートを有する。これに対して、第2のデータ生成部6で生成されたデータは、第2の撮像部3で撮像される画像のフレームレートを低下させた1,000フレーム/秒程度のフレームレートを有する。
【0099】
アニメーション生成部8は、例えば、第2のデータ生成部6で生成されたデータのフレームレートと同様のフレームレートで、第1のアニメーション画像を生成する。これにより、アニメーション画像中の一部領域(例えば目や口など)を滑らかに動かすことができる。
【0100】
第1のデータ生成部4と第2のデータ生成部6は、情報交換部7を介して、それぞれのデータを交換し合うため、第1のデータ生成部4で生成される三次元顔画像の少なくとも一部には、第2のデータ生成部6で生成された動き情報や輝度変化情報などが反映されている。また、第2のデータ生成部6で生成される部分アニメーション画像の少なくとも一部には、第1のデータ生成部4で生成された輪郭情報や色情報などが反映されている。よって、アニメーション生成部8にて生成される第1のアニメーション画像は、高解像度の色階調情報を保持しつつ、目や口などを被写体の動きに合わせて滑らかに動かすことができる。
【0101】
(本開示による情報処理装置1のハードウェア構成例)
図11は本開示による情報処理装置1のハードウェア構成の一例を示すブロック図である。
図11に示すように、情報処理装置1は、フレームカメラ21と、イベントカメラ22と、第1の処理プロセッサ23と、第2の処理プロセッサ24と、情報交換ユニット25と、レンダリングユニット26と、表示装置27とを備えている。
【0102】
フレームカメラ21は、
図1の第1の撮像部2に対応し、静止画像又はビデオ映像を撮影する通常のカメラである。フレームカメラ21は、有効画素領域内の全域の色階調情報を撮像するイメージセンサを有する。フレームカメラ21自体がイメージセンサであってもよい。
【0103】
イベントカメラ22は、
図1の第2の撮像部3に対応し、イベントが生じた画素を撮像する。イベントカメラ22は、イベントが生じたタイミングで撮像する非同期型のカメラを想定しているが、予め定めたフレームレートで、イベントが生じた画素を撮像する同期型のカメラでもよい。イベントカメラ22は、DVS又はEVSと呼ばれるセンサを有する。イベントカメラ22自体がDVS又はEVSセンサであってもよい。
【0104】
第1の処理プロセッサ23は、フレームカメラ21で撮像した二次元画像に基づいて奥行き情報を検出し、例えばCNNやDNNを用いて学習を行った上で、三次元画像を生成する。第1の処理プロセッサ23は、
図1の第1のデータ生成部4の処理を行う。第1の処理プロセッサ23は、具体的には、マイクロプロセッサ(CPU:Central Processing Unit)又は信号処理プロセッサ(DSP:Digital Signal Processor)で構成可能である。
【0105】
第2の処理プロセッサ24は、イベントカメラ22で撮像した画像に基づいて、部分アニメーション画像を生成する。第2の処理プロセッサ24は、
図1の特徴点追跡部5と第2のデータ生成部6の処理を行う。
【0106】
なお、第1の処理プロセッサ23と第2の処理プロセッサ24を一つの処理プロセッサ(CPU又はDSPなど)に統合してもよい。
【0107】
情報交換ユニット25は、第1の処理プロセッサ23が生成した三次元画像のデータの少なくとも一部と、第2の処理プロセッサ24が生成した部分アニメーションデータの少なくとも一部とを互いに交換し合う。情報交換ユニット25は、
図1の情報交換部7の処理を行う。情報交換ユニット25は、第1の処理プロセッサ23や第2の処理プロセッサ24と統合してもよい。
【0108】
レンダリングユニット26は、第1の処理プロセッサ23が生成した三次元画像と、第2の処理プロセッサ24が生成した部分アニメーション画像とを合成してアニメーション画像(第1のアニメーション画像)を生成する。また、レンダリングユニット26は、三次元アニメーションモデル10とアニメーション画像(第1のアニメーション画像)を合成して、最終的的な三次元アニメーション画像(第2のアニメーション画像)を生成することができる。
【0109】
レンダリングユニット26は、
図1のアニメーション生成部8と画像合成部9の処理を行う。レンダリングユニット26で生成した三次元アニメーション画像は、表示装置27に表示される。また、三次元アニメーション画像を不図示の記録装置に記録することも可能である。
【0110】
なお、本開示による情報処理装置1のハードウェア構成は、必ずしも
図11に限られるわけではなく、種々の変形が可能である。例えば、フレームカメラ21とイベントカメラ22が接続されたPC(Personal Computer)で本開示による情報処理装置1の処理を行ってもよい。
【0111】
(本開示による情報処理装置1の適用分野)
本開示による情報処理装置1は、高性能のカメラやプロセッサを必要とすることなく、高解像度で、滑らかに動くアニメーション画像を簡易な手順で生成できる。よって、本開示による情報処理装置1は、例えば、スマートフォンやタブレット、モバイルPCなどの携帯電子機器に搭載することができる。携帯電子機器に搭載することで、被写体を撮像した画像をリアルタイムに処理して、被写体画像に対応するアニメーション画像を生成して、携帯電子機器の表示部に表示できる。携帯電子機器で実行可能なゲームアプリケーションとの連携も可能である。
【0112】
また、本開示による情報処理装置1は、既存のモーションキャプチャ装置に組み込むことができる。これにより、モーションキャプチャ装置で三次元画像を生成するための処理時間を大幅に短縮できる。特に、モーションキャプチャ装置で生成される三次元画像の解像度を高くしたまま、三次元画像に基づいて生成されたアニメーション画像の少なくとも一部を、被写体の動きに合わせて滑らかに動かすことができる。
【0113】
本開示による情報処理装置1は、具体的な一例としては、車両内部や医療用途など、広範な用途に用いることができる。以下では、代表的な3つの用途(ユースケース)について説明する。
【0114】
(第1のユースケース)
第1のユースケースは、人間の口の動きをアニメーション画像で表現するものである。第1のユースケースは、例えば、複数人で参加する没入型ディスプレイを用いた仮想会議(Virtual Reality immersion conference)システムに適用可能である。
【0115】
図12は第1のユースケースによる情報処理装置1の概略構成を示すブロック図、
図13は仮想会議システムの参加者を示す図である。
図13に示すように、仮想会議システムの参加者31は、VRグラスやヘッドマウントディスプレイ(以下、HMD)32を装着する。参加者31の口の近くには、フレームカメラ21とイベントカメラ22を備えたカメラスタック装置33が配置される。カメラスタック装置33内のフレームカメラ21は、参加者31の口の周囲を所定のフレームレートで撮像する。カメラスタック装置33内のイベントカメラ22は、参加者31の口の動きをイベントして撮像する。なお、カメラスタック装置33は、マイクロフォンと統合されてもよい。仮想会議やオンライン会議の参加者31は、マイクロフォンを装着することが多い。このマイクロフォンにフレームカメラ21用のイメージセンサと、イベントカメラ22用のDVSやEVSを搭載することで、ユーザの口の周辺をユーザに意識させることなく撮像することができる。
【0116】
図12の情報処理装置1は、基本的には
図1と同様に構成されているが、フレームカメラ21に対応する第1の撮像部2とイベントカメラ22に対応する第2の撮像部3はともに、人間の口の周辺の画像を撮像する。
【0117】
第1のデータ生成部4は、第1の撮像部2で撮像された画像に基づいて、人間の口の周辺の三次元画像用のデータを生成する。特徴点追跡部5は、第1の撮像部2で撮像された画像に基づいて、人間の口の動きを特徴点として追跡する。第2のデータ生成部6は、特徴点追跡部5の追跡結果に基づいて、部分アニメーション画像用のデータを生成する。
【0118】
情報交換部7は、第1のデータ生成部4で生成されたデータの少なくとも一部と第2のデータ生成部6で生成されたデータの少なくとも一部とを互いに交換し合う。第1のデータ生成部4は、第1の撮像部2で撮像された画像に基づいて三次元画像を生成するため、高解像度で、かつ色階調情報を含む三次元画像を生成できる。一方、第2のデータ生成部6は、第2の撮像部3で撮像された画像に基づいて部分アニメーション画像を生成するため、人間の口の動きを忠実に再現した部分アニメーション画像を生成できる。情報交換部7にて、第1のデータ生成部4と第2のデータ生成部6の間でデータの交換を行うことで、高品質の三次元画像と部分アニメーション画像を生成することができる。
【0119】
アニメーション生成部8は、第1のデータ生成部4で生成されたデータと第2のデータ生成部6で生成されたデータとに基づいて、人間の口の周辺に対応するアニメーション画像(第1のアニメーション画像)を生成する。画像合成部9は、アニメーション生成部8で生成された第1のアニメーション画像と、三次元アニメーションモデル10とを合成して、最終的なアニメーション画像(第2のアニメーション画像)を生成する。このアニメーション画像は、例えば人間の顔全体に対応するアニメーション画像であり、かつ、仮想会議の参加者31の口の動きに合わせて口を動かすことができる。このアニメーション画像は、
図13のVRグラス又はHMD32等に表示される。よって、仮想会議の全参加者31が、発言者の口の動きをアニメーション画像で視認することができる。
【0120】
(第2のユースケース)
第2のユースケースは、人間の目の視線を追跡するアイトラッキングシステムに本開示による情報処理装置1を適用するものである。
【0121】
図14は第2のユースケースによる情報処理装置1の概略構成を示すブロック図である。第2のユースケースでは、第1のユースケースと同様に、アイトラッキングを行う対象の人間がVRグラス又はHMD32を装着する。
図15はVRグラス又はHMD32を装着した人間を示す図である。VRグラス又はHMD32には、フレームカメラ21用のイメージセンサとイベントカメラ22用のDVS又はEVSが搭載されている。フレームカメラ21は、VRグラスやHMD32の装着者の目の周囲を所定のフレームレートで撮像する。イベントカメラ22は、VRグラスやHMD32の装着者の目の動きをイベントとして撮像する。
【0122】
図14の情報処理装置1も、
図12の情報処理装置1と同様に、複数人で参加する没入型ディスプレイを用いた仮想会議システムに適用可能である。
【0123】
図14の情報処理装置1は、基本的には
図12の情報処理装置1と同様に構成されているが、フレームカメラ21に対応する第1の撮像部2とイベントカメラ22に対応する第2の撮像部3がともに、人間の目の周辺の画像を撮像する点で
図12の情報処理装置1とは異なる。
【0124】
第1のデータ生成部4は、第1の撮像部2で撮像された画像に基づいて、人間の目の周辺の三次元画像用のデータを生成する。特徴点追跡部5は、第1の撮像部2で撮像された画像に基づいて、人間の目の動きを特徴点として追跡する。第2のデータ生成部6は、特徴点追跡部5の追跡結果に基づいて、部分アニメーション画像用のデータを生成する。
【0125】
情報交換部7は、第1のデータ生成部4で生成されたデータの少なくとも一部と第2のデータ生成部6で生成されたデータの少なくとも一部とを互いに交換し合う。第1のデータ生成部4は、第1の撮像部2で撮像された画像に基づいて三次元画像を生成するため、高解像度で、かつ色階調情報を含む三次元画像を生成できる。一方、第2のデータ生成部6は、第2の撮像部3で撮像された画像に基づいて部分アニメーション画像を生成するため、人間の目の動きを忠実に再現した部分アニメーション画像を生成できる。情報交換部7は、第1のデータ生成部4と第2のデータ生成部6の間で、視線方向(gaze)、目の動き、目の周辺の形状や色階調情報などを互いに交換し合う。
【0126】
アニメーション生成部8は、第1のデータ生成部4で生成されたデータと第2のデータ生成部6で生成されたデータとに基づいて、人間の目の周辺に対応する第1のアニメーション画像を生成する。画像合成部9は、アニメーション生成部8で生成された第1のアニメーション画像と、三次元アニメーションモデル10とを合成して、最終的なアニメーション画像(第2のアニメーション画像)を生成する。このアニメーション画像は、人間の顔全体に対応するアニメーション画像であり、かつ、仮想会議の参加者31の目の動きに合わせて目を動かすことができる。このアニメーション画像は、
図15のVRグラス等に表示される。よって、仮想会議の全参加者31が、発言者の目の動きをアニメーション画像で視認することができる。
【0127】
(第3のユースケース)
第1及び第2のユースケースは、人間の顔に関するものであったが、本開示の情報処理装置1は顔以外にも適用可能である。第3のユースケースは、人間の手の動きをアニメーション画像で表現するハンドシステムに本開示による情報処理装置1を適用するものである。
【0128】
図16は第3のユースケースによる情報処理装置1の概略構成を示すブロック図である。
図16の情報処理装置1は、基本的には
図1と同様の構成を有する。
図16の情報処理装置1では、フレームカメラ21とイベントカメラ22が人間の手を撮像する。その際、手を動かしたり、指を曲げたり伸ばしたりすると、イベントカメラ22は、指を含めた手の動きをイベントとして撮像する。第1のデータ生成部4は、第1の撮像部2で撮像された画像に基づいて、人間の手の三次元画像を生成する。特徴点追跡部5は、人間の手の動きを追跡する。また、特徴点追跡部5は、輝度変化により、手の皮膚の皺を特徴点として、その動きを追跡することができる。
【0129】
第2のデータ生成部6は、特徴点抽出部17の追跡結果に基づいて、人間の手の動きを模擬した部分アニメーション画像を生成する。第1のデータ生成部4は、第1の撮像部2で撮像された高解像度で、かつ色階調情報を含む画像に基づいて、三次元画像を生成するため、人間の手の形状や色合いを忠実に反映させた三次元画像を生成できる。また、第2のデータ生成部6は、指を含めた手の動きを忠実に再現可能な部分アニメーション画像を生成できる。
【0130】
アニメーション生成部8は、第1のデータ生成部4で生成された三次元画像と、第2のデータ生成部6で生成された部分アニメーション画像とに基づいて、人間の手を模擬した第1のアニメーション画像を生成する。第1のデータ生成部4で生成された三次元画像と、第2データ生成部で生成された部分アニメーション画像とを組み合わせることで、人間の手の形状や色合いを高解像度で再現しつつ、指を含めた手の動きを忠実に再現したアニメーション画像(第1のアニメーション画像)を生成できる。
【0131】
画像合成部9は、アニメーション生成部8で生成された第1のアニメーション画像と、人間の手に関する三次元アニメーションモデル10とを合成して、最終的なアニメーション画像(第2のアニメーション画像)を生成する。
【0132】
(情報処理装置1の拡張機能)
上述した
図1~
図16に示す情報処理装置1では、フレームカメラ21とイベントカメラ22を一台ずつ備える例を示したが、フレームカメラ21とイベントカメラ22の少なくとも一方を複数台設けてもよい。フレームカメラ21とイベントカメラ22の少なくとも一方を複数台設けることで、ステレオカメラと同様に、奥行き情報を取得でき、三次元画像の信頼性を高めることができる。
【0133】
また、フレームカメラ21とイベントカメラ22以外に、特殊な機能を持ったカメラを設けてもよい。特殊な機能を持ったカメラは、例えば被写体の奥行き情報を検出可能なカメラである。奥行き情報を検出可能なカメラの代表例は、距離情報を検出するToF(Time of Flight)カメラである。ToFカメラ等で被写体の奥行き情報を検出できれば、第1のデータ生成部4はより精度の高い三次元画像を生成できる。
【0134】
また、特殊な機能を持ったカメラは、被写体の表面温度を計測可能な温度センサを備えたカメラでもよい。さらに、特殊な機能を持ったカメラは、複数の露出条件で連続して撮像した複数の画像を合成した画像を生成することで、ダイナミックレンジを広げるHDR(High Dynamic Range)カメラでもよい。
【0135】
図17A及び
図17Bは、フレームカメラ21とイベントカメラ22の他に、特殊機能を持ったカメラ(以下、特殊機能カメラと呼ぶ)28と第3の処理プロセッサ29とを備える情報処理装置1のブロック図である。
図17A及び
図17Bの情報処理装置1は、フレームカメラ21とイベントカメラ22をそれぞれ複数台備える例を示しているが、必ずしも複数台を備える必要はない。また、
図17A及び
図17Bの情報処理装置1は、フレームカメラ21とイベントカメラ22以外に、特殊機能カメラ28を少なくとも一台備えている。特殊機能カメラ28は、被写体の奥行き情報を検出するカメラでもよいし、ToFカメラでもよいし、温度センサを有するカメラでもよいし、HDRカメラでもよい。特殊機能カメラ28の撮像結果は、第3の処理プロセッサ29に入力されて、奥行き情報や温度情報などを示すデータが生成される。
【0136】
図17Aの情報処理装置1では、第3の処理プロセッサ29が生成したデータは、例えばレンダリングユニット26に送られる。レンダリングユニット26は、特殊機能カメラ28が撮像した情報を考慮に入れて、三次元画像やアニメーション画像を生成する。第3の処理プロセッサ29を第1の処理プロセッサ23又は第2の処理プロセッサ24と統合してもよい。
【0137】
図17Bの情報処理装置1では、第3の処理プロセッサ29で生成されたデータは、情報交換ユニット25に提供される。これにより、情報交換ユニット25は、第1~第3の処理プロセッサ23、24、29のそれぞれで生成されたデータを共有することができる。よって、第1の処理プロセッサ23及び第2の処理プロセッサ24の少なくとも一方は、特殊機能カメラ28で撮像された画像に基づいて、三次元画像に変換するためのデータと部分アニメーション画像用のデータとの少なくとも一方を生成することができる。
【0138】
情報処理装置1に設ける種々のカメラの数を増やすことで、各カメラで撮像される画像の数を増やすことができる。画像の数が増えるということは、被写体に関する情報量をより多く取得できることを意味し、レンダリングユニット26で生成される三次元画像や三次元アニメーション画像(第2のアニメーション画像)の品質を向上できる。
【0139】
(情報処理装置1の技術的効果)
このように、本開示による情報処理装置1は、フレームカメラ21(第1の撮像部2)で撮像した画像に基づいて第1のデータ生成部4で三次元画像を生成し、イベントカメラ22(第2の撮像部3)で撮像した画像に基づいて第2のデータ生成部6で部分アニメーション画像を生成する。情報交換部7は、第1のデータ生成部4で生成された三次元画像用のデータと第2のデータ生成部6で生成された部分アニメーション画像用のデータとを交換し合う。これにより、第1のデータ生成部4で生成される三次元画像と第2のデータ生成部6で生成される部分アニメーション画像の品質を向上できる。
【0140】
その後、アニメーション生成部8は、第1のデータ生成部4で生成された三次元画像と、第2のデータ生成部6で生成された部分アニメーション画像とを組み合わせて、第1のアニメーション画像を生成する。これにより、被写体の輪郭や色情報を保持しつつ被写体の目や口の動き等に合わせて、アニメーション画像の目や口等を滑らかに動かすことができる。
【0141】
さらに、アニメーション生成部8で生成された第1のアニメーション画像と、三次元アニメーションモデル10とを合成することで、被写体を任意のアニメーションモデルに変換させた上で、被写体の目や口の動き等に合わせて第2のアニメーション画像の目や口等を滑らかに動かすことができる。
【0142】
本開示による情報処理装置1は、フレームカメラ21とイベントカメラ22の長所を共有し、不足している部分を互いに補うため、市販されている比較的安価なフレームカメラ21とイベントカメラ22を用いながらも、高品質のアニメーション画像を簡易な手順で迅速に生成できる。
【0143】
上述した実施形態で説明した情報処理装置1の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理装置1の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD-ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
【0144】
また、情報処理装置1の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
【0145】
なお、本技術は以下のような構成を取ることができる。
(1)有効画素領域の全域を、予め定めたフレームレートで撮像する第1の撮像部と、
イベントが生じた画素を撮像する第2の撮像部と、
前記第1の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第1のデータ生成部と、
前記第2の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第2のデータ生成部と、
前記第1のデータ生成部で生成されたデータの少なくとも一部と、前記第2のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、を備える、情報処理装置。
(2)前記第1のデータ生成部は、前記第1の撮像部で撮像された二次元画像と、前記情報交換部から提供された前記第2のデータ生成部で生成されたデータの少なくとも一部とに基づいて、前記二次元画像を三次元画像に変換するためのデータを生成し、
前記第2のデータ生成部は、前記特徴点の動きの追跡結果と、前記情報交換部から提供された前記第1のデータ生成部で生成されたデータの少なくとも一部とに基づいて、前記部分アニメーション画像用のデータを生成する、(1)に記載の情報処理装置。
(3)前記第1の撮像部及び前記第2の撮像部は、被写体の顔を撮像し、
前記情報交換部は、前記第1のデータ生成部で生成されたデータに含まれる被写体の頭の姿勢と視線方向との少なくとも一方に関するデータを前記第2のデータ生成部に提供し、かつ、前記第2のデータ生成部で生成されたデータに含まれる被写体の目又は口の動きと、皮膚の状態変化との少なくとも一方に関するデータを前記第1のデータ生成部に提供する、(2)に記載の情報処理装置。
(4)前記情報交換部は、前記第1のデータ生成部及び前記第2のデータ生成部のそれぞれから、互いに異なる種類のデータの提供を受けて、前記第1のデータ生成部及び前記第2のデータ生成部の間でデータを交換し合う、(1)乃至(3)のいずれか一項に記載の情報処理装置。
(5)前記情報交換部は、前記第1のデータ生成部及び前記第2のデータ生成部のそれぞれから、同じ種類のデータの提供を受けて、提供されたデータのうち信頼性の高いデータを、前記第1のデータ生成部及び前記第2のデータ生成部で共有する、(1)乃至(3)のいずれか一項に記載の情報処理装置。
(6)前記第2の撮像部は、前記第1の撮像部よりも高いフレームレートで、前記イベントが生じた画素を含む画像を出力する、(1)乃至(5)のいずれか一項に記載の情報処理装置。
(7)前記第2の撮像部は、前記イベントの発生したタイミングに合わせて前記画像を出力する、(6)に記載の情報処理装置。
(8)前記情報交換部にて少なくとも一部のデータを交換し合った前記第1のデータ生成部及び前記第2のデータ生成部で生成されたデータに基づいて、第1のアニメーション画像を生成するアニメーション生成部をさらに備える、(1)乃至(7)のいずれか一項に記載の情報処理装置。
(9)前記アニメーション生成部は、前記第1のデータ生成部で生成された三次元画像に、前記第2のデータ生成部で生成された前記部分アニメーション画像を合成した前記第1のアニメーション画像を生成する、(8)に記載の情報処理装置。
(10)前記第1のアニメーション画像と三次元アニメーションモデル画像とを合成して、第2のアニメーション画像を生成する画像合成部をさらに備える、(8)又は(9)に記載の情報処理装置。
(11)前記三次元アニメーションモデル画像は、前記第1の撮像部及び前記第2の撮像部で撮像された被写体とは無関係の三次元アニメーション画像である、請求項10に記載の情報処理装置。
(12)前記第1のアニメーション画像及び前記前記第2のアニメーション画像は、被写体の動きに応じた動きを行う、(10)又は(11)に記載の情報処理装置。
(13)前記第1のデータ生成部は、前記第1の撮像部で撮像された二次元画像から特徴点を抽出して、抽出された前記特徴点に基づいて前記三次元画像を生成する、(1)乃至(12)のいずれか一項に記載の情報処理装置。
(14)前記第1のデータ生成部は、前記第1の撮像部で撮像された二次元画像に含まれる顔を抽出して、抽出された前記顔の特徴点、頭の姿勢、及び視線方向の少なくとも一方に基づいて、前記三次元画像を生成する、(13)に記載の情報処理装置。
(15)前記特徴点追跡部は、前記第2の撮像部で撮像された異なるフレームの画像間での前記特徴点の動きを検出することで、前記特徴点を追跡する、(1)乃至(14)のいずれか一項に記載の情報処理装置。
(16)前記第2のデータ生成部は、前記第2の撮像部で撮像された画像のフレームレートを、アニメーション画像に適したフレームレートに下げた前記部分アニメーション画像を生成するフレームレート変換部を有する、(1)乃至(15)のいずれか一項に記載の情報処理装置。
(17)前記第2のデータ生成部は、
前記第2の撮像部で撮像された画像に対応する三次元画像を生成する特徴点画像生成部と、
前記三次元画像の表面法線を計算する表面法線計算部と、
前記三次元画像に含まれる物体を検出する物体検出部と、
前記三次元画像に含まれる注目領域を抽出する注目領域抽出部と、
前記三次元画像に含まれる前記特徴点を抽出する特徴点抽出部と、を有し、
前記第2のデータ生成部は、前記特徴点画像生成部で生成された三次元画像と、前記表面法線計算部で計算された表面法線と、前記物体検出部で検出された物体と、前記注目領域抽出部で抽出された前記注目領域と、前記特徴点抽出部で抽出された前記特徴点とに基づいて、前記特徴点の動きを模擬する前記部分アニメーション画像のためのデータを生成する、(1)乃至(16)のいずれか一項に記載の情報処理装置。
(18)前記第1の撮像部及び前記第2の撮像部の少なくとも一方は、複数設けられる、(1)乃至(17)のいずれか一項に記載の情報処理装置。
(19)前記第1の撮像部及び前記第2の撮像部とは別個に設けられ、被写体の奥行き情報、被写体までの距離情報、又は被写体の温度情報の少なくとも一つを含む画像を撮像する第3の撮像部を備え、
前記第1のデータ生成部及び前記第2のデータ生成部の少なくとも一方は、前記第3の撮像部で撮像された画像に基づいて、三次元画像に変換するためのデータと前記部分アニメーション画像用のデータとの少なくとも一方を生成する、(1)乃至(18)のいずれか一項に記載の情報処理装置。
(20)三次元アニメーション画像を生成する情報処理装置と、
前記三次元アニメーション画像を表示する表示装置と、を備える電子機器であって、
前記情報処理装置は、
有効画素領域の全域を、予め定めたフレームレートで撮像する第1の撮像部と、
イベントが生じた画素を撮像する第2の撮像部と、
前記第1の撮像部で撮像された二次元画像を三次元画像に変換するためのデータを生成する第1のデータ生成部と、
前記第2の撮像部で撮像された画像に含まれる特徴点を検出して、検出された前記特徴点の動きを追跡する特徴点追跡部と、
前記特徴点の動きの追跡結果に基づいて、前記特徴点の動きを模擬する部分アニメーション画像用のデータを生成する第2のデータ生成部と、
前記第1のデータ生成部で生成されたデータの少なくとも一部と、前記第2のデータ生成部で生成されたデータの少なくとも一部とを交換しあう情報交換部と、
前記情報交換部にて少なくとも一部のデータを交換し合った前記第1のデータ生成部及び前記第2のデータ生成部で生成されたデータに基づいて、第1のアニメーション画像を生成するアニメーション生成部と、
前記第1のアニメーション画像と三次元アニメーションモデル画像とを合成して、第2のアニメーション画像を生成する画像合成部と、を備え、
前記表示装置は、前記第2のアニメーション画像を表示する、電子機器。
【0146】
本開示の態様は、上述した個々の実施形態に限定されるものではなく、当業者が想到しうる種々の変形も含むものであり、本開示の効果も上述した内容に限定されない。すなわち、特許請求の範囲に規定された内容およびその均等物から導き出される本開示の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更および部分的削除が可能である。
【符号の説明】
【0147】
1 情報処理装置、2 第1の撮像部、3 第2の撮像部、4 第1のデータ生成部、5 特徴点追跡部、6 第2のデータ生成部、7 情報交換部、8 アニメーション生成部、9 画像合成部、10 三次元アニメーションモデル、11 フレームレート変換部、12 処理モジュール、13 特徴点画像生成部、14 表面法線計算部、15 物体検出部、16 注目領域抽出部、17 特徴点抽出部、21 フレームカメラ、22 イベントカメラ、23 第3の処理プロセッサ、23 第1の処理プロセッサ、24 第3の処理プロセッサ、24 第2の処理プロセッサ、25 情報交換ユニット、26 レンダリングユニット、27 表示装置、28 特殊機能カメラ、28 特殊機能カメラ、29 第3の処理プロセッサ、31 参加者、32 ヘッドマウントディスプレイ(HMD)、33 カメラスタック装置