(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024165535
(43)【公開日】2024-11-28
(54)【発明の名称】撮像装置システム、及びサーバ装置
(51)【国際特許分類】
H04N 23/60 20230101AFI20241121BHJP
G06F 3/0481 20220101ALI20241121BHJP
G06F 3/01 20060101ALI20241121BHJP
【FI】
H04N23/60 300
G06F3/0481
G06F3/01 510
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023081812
(22)【出願日】2023-05-17
(71)【出願人】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100132241
【弁理士】
【氏名又は名称】岡部 博史
(74)【代理人】
【識別番号】100135703
【弁理士】
【氏名又は名称】岡部 英隆
(72)【発明者】
【氏名】山崎 隆朗
(72)【発明者】
【氏名】山本 真一
【テーマコード(参考)】
5C122
5E555
【Fターム(参考)】
5C122DA11
5C122DA23
5C122EA42
5C122FA18
5C122FB06
5C122FH11
5C122FH14
5C122FH18
5C122FJ01
5C122FJ04
5C122FK09
5C122FK16
5C122GA34
5C122GC14
5C122GC52
5C122GG04
5C122GG17
5C122HA04
5C122HA05
5C122HA75
5C122HB01
5C122HB02
5C122HB05
5C122HB06
5C122HB09
5E555AA23
5E555AA28
5E555AA48
5E555AA76
5E555BA08
5E555BB08
5E555BE17
5E555CA42
5E555CA44
5E555CA45
5E555CA47
5E555CB64
5E555CB65
5E555CB67
5E555DA08
5E555DA09
5E555DB57
5E555DC75
5E555EA05
5E555EA22
5E555EA23
5E555EA27
5E555FA00
(57)【要約】
【課題】撮影者であるユーザがイベントを体験して得た感情に応じて動画を加工することにより、ユーザの感情を表現することを可能にする。
【解決手段】撮像装置システム(1)は、撮影により動画データを生成する撮像センサ(114)と、データを取得するインタフェース部(106)とを有する。インタフェース部は、撮影中に取得された音声データ、および撮影中に取得されたユーザの生体情報である生体データの少なくとも一つを取得する。撮像装置システムはさらに、動画データに対して、音声データおよび生体データの少なくとも一つのデータを対応付けたデータセットを記録する記録部(202)と、当該少なくとも1つのデータを用いて、撮影時に発生していたイベントに関してユーザが抱いた感情を判定する感情判定部(200)と、動画データに、判定された感情に応じた加工処理を実行する画像処理部(204)とを有する。
【選択図】
図5
【特許請求の範囲】
【請求項1】
撮影により動画データを生成する撮像センサと、
データを取得するインタフェース部であって、
撮影中に取得された音声データ、および
前記撮影中に取得された前記ユーザの生体情報である生体データ
の少なくとも一つを取得するインタフェース部と
前記動画データに対して、前記音声データ及び前記生体データの少なくとも一つのデータを対応付けたデータセットを記録する記録部と、
前記動画データ、前記音声データ、及び前記生体データのうちの少なくとも1つのデータを用いて、前記撮影時に発生していたイベントに関して前記ユーザが抱いた感情を判定する感情判定部と、
前記動画データに、判定された前記感情に応じた加工処理を実行する画像処理部と
を備えた撮像装置システム。
【請求項2】
前記感情判定部は、前記動画データを用いて前記イベントを把握し、前記音声データ及び前記生体データの少なくとも一つのデータを用いて前記イベントにおける前記ユーザが抱いた感情を判定する、請求項1に記載の撮像装置システム。
【請求項3】
前記インタフェース部は、前記撮影時の前記ユーザの視線の方向を示す視線データを取得し、
前記感情判定部は、前記動画データ及び前記視線データを用いて前記イベントを把握し、前記音声データ及び前記生体データの少なくとも一つのデータを用いて前記イベントにおける前記ユーザが抱いた感情を判定する、請求項2に記載の撮像装置システム。
【請求項4】
前記撮像センサは、所定の被写体を撮影して第1の動画データを生成する第1の撮像センサと、前記ユーザの顔を撮影して第2の動画データを生成する第2の撮像センサを含み、
前記感情判定部は、前記第1の動画データを用いて前記イベントを把握し、前記第2の動画データ及び、前記音声データ及び前記生体データの少なくとも一つのデータを用いて前記イベントにおける前記ユーザが抱いた感情を判定する、請求項1記載の撮像装置システム。
【請求項5】
前記感情判定部は、
前記音声データから第1の値を算出し、前記生体データから第2の値を算出し、前記前記視線データから第3の値を算出し、
前記第1の値から前記第3の値までの合計値に基づいて前記感情を判定する、請求項3に記載の撮像装置システム。
【請求項6】
前記感情判定部には、
予め構築されたイベント予測モデルであって、説明変数として前記イベントが含まれる映像および/または音声と、目的変数として前記イベントの種類とを対応付けて含む教師データに基づいて、機械学習により生成されたイベント予測モデルが構築されており、
前記感情判定部は、
前記少なくとも1つのデータ及び前記イベント予測モデルから、前記イベントの種類を予測し、
予測した前記イベントの種類及び前記感情に基づいて加工処理を決定し、
前記画像処理部は、前記動画データに、決定された前記加工処理を実行する、請求項1に記載の撮像装置システム。
【請求項7】
前記感情判定部は、
イベントの種類ごとに、複数種類の感情の各々と、動画データの複数の加工処理の各々とを対応付けたテーブルを保持しており、
予測した前記イベントの種類及び前記感情に基づいて前記テーブルを参照し、前記加工処理を決定する、請求項1に記載の撮像装置システム。
【請求項8】
前記複数の加工処理の各々は、撮影者の心象および/または心情を示す文字または画像の付加、及び、前記ユーザの画像の付加、の少なくとも一方を含む、請求項7に記載の撮像装置システム。
【請求項9】
前記複数の加工処理の各々は、前記音声データ又は前記生体データから生成された撮影者の心象および/または心情を示す文字または画像の付加を含む、請求項7に記載の撮像装置システム。
【請求項10】
相互に通信可能な撮像装置及びサーバ装置を有する撮像装置システムであって、
前記撮像装置は、前記動画データを生成する前記撮像センサ、前記音声データを生成するマイク、及び前記生体データを生成する生体センサを有しており、
前記サーバ装置は、前記記録部として動作する記憶装置、及び、前記感情判定部として動作する信号処理回路を有する、
請求項1に記載の撮像装置システム。
【請求項11】
撮像装置を有する撮像装置システムで用いられるサーバ装置であって、
前記撮像装置は、
撮影により動画データを生成する撮像センサ、
音声データを生成するマイク、
生体データを取得するインタフェース部、及び
前記動画データと、前記音声データおよび前記生体データのうちの少なくとも1つとを送信する送信回路を有し、
前記サーバ装置は、
前記撮像装置と通信する通信回路と、
前記通信回路によって受信された前記動画データに対し、前記音声データおよび前記生体データのうちの少なくとも1つを対応付けたデータセットを記録する記録部と、
前記音声データ及び前記生体データのうちの少なくとも1つのデータを用いて、前記撮影時に発生していたイベントに関して前記ユーザが抱いた感情を判定する感情判定部と、
前記動画データに、判定された前記感情に応じた加工処理を実行する、または、前記ユーザの感情の要因を示す事象を解析して、要因解析データを生成する、データ生成部と
を備える、サーバ装置。
【請求項12】
前記サーバ装置は、前記通信回路を介して、前記加工処理が実行された前記動画データ、または、前記要因解析データの作成に対応する依頼を受け付け、
前記データ生成部は、前記依頼の内容に応じて、前記加工処理が実行された前記動画データを生成し、または、前記要因解析データを作成する、請求項11に記載のサーバ装置。
【請求項13】
前記データ生成部が生成する前記要因解析データは、前記ユーザによって好ましい要因解析データおよび/または前記ユーザによって好ましくない要因解析データを含む、請求項11に記載のサーバ装置。
【請求項14】
前記サーバ装置は、前記通信回路を介して、前記加工処理の実行対象となる前記動画データの特定の区間の指定を受け付ける、請求項12に記載のサーバ装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、撮像装置システム、及びサーバ装置に関する。
【背景技術】
【0002】
特許文献1は、被写体毎の感情指数を計算して撮影者の印象に近い画像に加工する技術を開示する。特許文献1に記載の情報処理装置は、撮影した画像データと共に、画像データに写る被写体毎の撮影者の注目度や感情に関するデータを記録し、記録したデータに基づいて所定の画像処理を行う。撮影者の肉眼での見え方、すなわち印象、に近付くよう、例えば特定の被写体を拡大して再生し、臨場感を再現することが可能になる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1は、「被写体ごと」に感情を推測してその感情を画像に反映する技術である。特許文献1の記載は概ね静止画を対象とした説明にとどまり、動画への言及はあるもののどのように処理されるかは明らかでない。
本開示の目的は、撮影者であるユーザがイベントを体験して得た感情に応じて動画を加工することにより、ユーザの感情を表現することにある。
【課題を解決するための手段】
【0005】
本開示の一態様に係る撮像装置システムは、撮影により動画データを生成する撮像センサと、データを取得するインタフェース部と、記録部と、感情判定部と、画像処理部とを有している。インタフェース部は、撮影中に取得された音声データ、および撮影中に取得されたユーザの生体情報である生体データの少なくとも一つを取得する。記録部は、動画データに対して、音声データ、及び生体データの少なくとも一つのデータを対応付けたデータセットを記録する。感情判定部は、動画データ、音声データ、及び生体データのうちの少なくとも1つのデータを用いて、撮影時に発生していたイベントに関してユーザが抱いた感情を判定する。画像処理部は、動画データに、判定された感情に応じた加工処理を実行する。
【0006】
本開示の一態様に係るサーバ装置は、撮像装置を有する撮像装置システムで用いられる。撮像装置は、撮影により動画データを生成する撮像センサ、音声データを生成するマイク、生体データを取得するインタフェース部を有している。撮像装置はさらに、動画データと、音声データおよび生体データのうちの少なくとも1つとを送信する送信回路を有している。サーバ装置は、撮像装置と通信する通信回路と、記録部と、感情判定部と、データ生成部とを有している。記録部は、通信回路によって受信された動画データに対し、音声データおよび生体データのうちの少なくとも1つを対応付けたデータセットを記録する。感情判定部は、音声データ及び生体データのうちの少なくとも1つのデータを用いて、撮影時に発生していたイベントに関してユーザが抱いた感情を判定する。データ生成部は、動画データに、判定された感情に応じた加工処理を実行する、または、ユーザの感情の要因を示す事象を解析して、要因解析データまたは事象解析データを生成する。
【発明の効果】
【0007】
本開示によると、撮影者であるユーザがイベントを体験して得た感情に応じて動画を加工することにより、ユーザの感情を表現することができる。
【図面の簡単な説明】
【0008】
【
図1】本開示の実施形態1に係る撮像装置システムの構成を示すブロック図
【
図2】スマートグラス及びサーバ装置の内部構成を示すブロック図
【
図5】撮像装置システムにおいて行われる処理の手順を示す図
【
図6】撮像装置システムを用いて提供され得るサービスの例を示す図
【
図7A】判定した感情に応じた画像効果として動画データに付加した例を示す図
【
図7B】判定した感情に応じた画像効果として動画データに付加した例を示す図
【
図7C】判定した感情に応じた画像効果として動画データに付加した例を示す図
【
図7D】判定した感情に応じた画像効果として動画データに付加した例を示す図
【
図7E】判定した感情に応じた画像効果として動画データに付加した例を示す図
【
図8】QoLを向上させたプラスイベントの頻度を月ごとにグラフにした場合の表示例
【
図9】あるユーザの動画データ、音声データ、動きデータ、生体データおよび視線データを用いて抽出した、そのユーザが関心を寄せている項目の表示例
【
図10】見守りサービスによって提供される事象解析データの表示例
【
図11】ユーザ端末からのサービスメニューの選択により、選択されたサービスが提供される手順を示す図
【
図12】動画撮影者であるユーザの感情に応じた動画加工処理を実行するために利用される要因、または加工方法の例を示す図
【
図13】各個別感情指数の決定方法と、その数値例を示す図
【
図14】動画を強調する処理の例を説明するための図
【
図15】ダンスを楽しんでいるという感情を判定し、それによりダンスを楽しんでいる様子を示すアバタを動画データに表示することを説明するための図
【
図16】スイッチャおよび感情判定部を有するCPUの例を示す図
【
図17】ライブ放送で食事をとる際に、食材が美味しそうであること、および美味であるという感情を判定し動画に加工処理を行うことを説明するための図
【発明を実施するための形態】
【0009】
以下、適宜図面を参照しながら、実施形態を説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
【0010】
なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面及び以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図しない。
【0011】
1.実施形態1
1-1.撮像装置システムの構成例
図1は、本開示の実施形態1に係る撮像装置システム1の構成を示すブロック図である。撮像装置システム1は、例えば撮像装置であるスマートグラス10と、サーバ装置20とを含む。スマートグラス10及びサーバ装置20は、例えばインターネットに代表される電気通信回線30を介して相互に通信可能である。撮像装置システム1は、スマートフォン40a、及びPC40bをさらに備えていてもよい。
【0012】
また
図2は、スマートグラス10及びサーバ装置20の内部構成を示すブロック図である。
図2に示すように、スマートグラス10は、CPU100と、メモリ102と、通信回路104と、インタフェース装置106とを有する。またスマートグラス10は、種々のセンサ110、114、118、122及び126と、各センサからのセンサ信号を処理する回路群112、116、120、124、128を有する。スマートグラス10内部では各構成要素は通信バスを介してデータの授受が可能である。
【0013】
視線センサ110は、スマートグラス10を装着するユーザの視線を検出する。視線センサ110は赤外線光源(赤外LED)112a、赤外線カメラ112b及び視線算出回路112cを有している。赤外線光源112aが赤外線を眼球に照射して赤外線カメラ112bが眼球の映像を撮影する。そして、撮影した映像を用いて、視線算出回路112cが瞳孔および角膜表面における光源の角膜反射像の位置を検出する。視線算出回路112cは、角膜反射像の位置と赤外線カメラ112bで撮影した映像上の視点座標との関係を予め記憶している。視線算出回路112cは角膜反射像を基準点とし瞳孔を動点とした位置関係からユーザが撮影された映像のどの部分に視線を向けていたかを計測する。本実施形態ではこの視線と映像との交点位置を視線データSと呼ぶ。
図1では、風景の中のユーザの視線が視線データSとして模式的に示されている。
【0014】
撮像センサ114はイメージセンサである。撮像センサ114として公知のCMOSイメージセンサを用いることができるためその具体的な構成の説明は省略する。撮像センサ114からは電荷信号が出力される。画像処理回路116は電荷信号から静止画データを生成する。静止画データを連続して生成することにより動画データが得られる。なお、本実施形態のスマートグラス10は、アウトカメラ114aおよびインカメラ114bを有している。アウトカメラ114aおよびインカメラ114bの各々に撮像センサが設けられ得るが、本明細書では便宜的に、アウトカメラ114aの撮像センサおよびインカメラ114bの撮像センサを、撮像センサ114aおよび撮像センサ114bと記述することがある。
【0015】
本実施形態のスマートグラス10は、外界を撮影するためのアウトカメラと、スマートグラス10を装着するユーザの顔を撮影するインカメラとを備えている。アウトカメラは動画データVを生成し、インカメラはユーザの顔を撮影した顔データFを生成する(
図1)。
【0016】
マイク118は、周囲の空間を伝わる音を電気信号に変換する音声センサである。音声処理回路120は、例えば入力される音量レベルに基づいて、ユーザが発した音声のみを抽出して音声データAとして出力する(
図1)。
【0017】
動きセンサ122は、例えば、3軸加速度センサと3軸ジャイロセンサとを含む慣性センサと、3軸地磁気センサとが1つの筐体に収容された、いわゆる9軸センサである。動きデータ抽出回路124は、動きセンサ122からの出力信号から、その動きセンサ122が検出した動きデータを生成する。複数の動きセンサ122をユーザの両手首、両手足、頭部などにそれぞれ装着してもよい。または、動きセンサ122として、体に装着させやすいバンドタイプ、被服タイプなどを有するモーションキャプチャセンサを使用すると、精度良く、体の動きを示す動きデータを容易に取得できる。これらの場合、スマートグラス10と各動きセンサ122との間でBluetooth(登録商標)を使った無線通信を使用して取得した各動きセンサ122からの出力信号を用いて動きデータ抽出回路124が動きデータを生成することもできる。このタイプの動きセンサ122を使用すれば、ユーザの全身の動きを高精度に取得できる。
【0018】
生体センサ126は、ユーザの生体信号を収集するセンサの総称である。本実施形態では、生体センサ126は、例えば体温、血圧、心拍数、脳波のうち少なくとも1つを検出するセンサである。生体センサ126が体温を検出する場合には、生体センサ126は体温計と呼ばれ、血圧の場合には血圧計、心拍数の場合には心拍計、脳波の場合には脳波計と呼ばれる。生体センサ126からは種々の生体信号が得られる。生体データ抽出回路128は、そのうちの必要なデータを抽出する。例えば生体センサ126が脳波計の場合には、得られた脳波信号自体、予め指定された脳波の特定の周波数成分、または、刺激の入力から一定時間経過後、例えば300ms経過後、のピーク値を生体データEとして出力する(
図1)。生体センサ126が上述した体温計、血圧計、心拍計のいずれの場合も同様に、必要なデータを生体データEとして抽出する(
図1)。
【0019】
また、サーバ装置20は、CPU200と、記憶部202と、画像処理回路204と、通信回路206とを有している。
【0020】
サーバ装置20は、スマートグラス10から通信回路206を介して、動画データ、音声データ、動きデータ、生体データ及び視線データを受信する。CPU200は、それらを同じ取得時刻を基準として対応付けてデータセットとして記憶部202に記憶する。記憶部202はRAM(Random Access Memory)である1次記憶装置、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の2次記憶装置の総称である。本実施形態では、記憶部202はイベント予測モデルMをあらかじめ記憶している。イベント予測モデルMは、例えばCPU200に読み込まれて利用される。イベント予測モデルMの具体的な説明は後述する。なお、本実施形態では、スマートグラス10およびサーバ装置20の間では、動画データ、音声データ、生体データおよび視線データが送受信され、これらを含むデータセットが記憶部202に記憶されるとして説明する。しかしながら、これらのすべてのデータが常に送受信されてデータセットが構成される必要はない。最終的に、データセットとして、動画データに対して、音声データ及び生体データの少なくとも一つのデータが対応付けられていればよい。
【0021】
図3は、スマートグラス10の外観の一例を示している。
図3によれば、スマートグラス10に設けられている視線センサ110、撮像センサであるアウトカメラ114aおよびインカメラ114b、マイク118、生体センサである脳波計126aおよび体温計126bのそれぞれの配置が理解される。インカメラ114bは、例えば広角レンズ、超広角レンズ、または魚眼レンズを有しており、少なくともユーザの顔の一部を撮影可能であり、望ましくは顔全体を撮影可能である。
【0022】
図4は、ユーザに装着されたスマートグラス10を示している。視線センサ110はユーザの眼球に赤外線を照射し撮影できるように配置されている。脳波計126aおよび体温計126bはそれぞれ、ユーザの脳波および体温を計測可能な位置に配置されている。なお、取得したい脳波によっては、その脳波を計測しやすいとされる位置に脳波計126aの電極を設けることが好適である。
【0023】
なお、本実施形態ではスマートグラス10に種々のセンサを実装しているが、これは一例であって、1つの筐体内に全てのセンサ及びセンサ信号を処理する回路を設ける必要はない。種々のセンサ及び回路の一部または全部が筐体の外に設けられ、外部からのデータをインタフェース106を介して受け取る構成であってもよい。
【0024】
1-2.撮像装置システム1の動作と撮像装置システム1を用いて提供され得るサービス
1-2-1.撮像装置システム1の動作の概要
以下、
図5を参照しながら、撮像装置システム1の動作を説明する。理解の便宜のため、1例を挙げながら説明する。
【0025】
図5は、撮像装置システム1において行われる処理の手順を示している。フローチャートの形式にしているが理解の便宜のためである。このフローチャートは特定の1つのCPU等の演算回路で実行されるのではなく、撮像装置システム1を構成するスマートグラス10およびサーバ装置20が協働して行う処理であることに留意されたい。
図5のステップS1~S3がスマートグラス10による処理であり、ステップS4~S6がサーバ装置20による処理である。
【0026】
ステップS1において、スマートグラス10のCPU100は、撮像センサ114によって生成された動画データを取得する。ステップS2において、CPU100は、マイク118、動きセンサ122、生体センサ126と関連する各回路によってそれぞれ生成された音声データ、動きデータ、視線データ、生体データを取得する。
【0027】
ステップS3において、CPU100は、通信回路104および電気通信回線30を介して、取得した動画データ、音声データ、動きデータ、生体データ及び視線データをサーバ装置20に送信する。
【0028】
ステップS4において、サーバ装置20のCPU200は、通信回路206において、動画データ、音声データ、生体データおよび視線データを受信し、それらを互いに対応付けたデータセットとして記憶部202に記録する。ステップS5において、CPU200は、音声データ、生体データおよび視線データのうちの少なくとも1つのデータを用いて、撮影時に発生していたイベントに関してユーザが抱いた感情を判定する。本明細書において「イベント」とは、ユーザの五感、すなわち視覚、聴覚、味覚、嗅覚および触覚、の少なくとも1つに訴求する出来事またはユーザの体験をいう。ユーザの体験は、ユーザの能動的な行動に起因する体験、およびユーザの行動に起因しない受動的な体験のいずれをも含む。
【0029】
ステップS6において、CPU100は画像処理回路204に指示して、動画データに、判定された感情に応じた加工処理を実行させる。
【0030】
ステップS5およびS6について具体例を挙げながら説明する。
【0031】
サーバ装置20のCPU200は、後述の「感情判定部」として機能する。感情判定部は、スマートグラス10から受信した種々のデータと、例えば予め機械学習により構築されたイベント予測モデルMとを用いてユーザが体験しているイベントを予測し、さらにそのイベントの体験によりユーザが抱いた感情を判定する。CPU200は、そのイベントを体験したユーザの心象および/または心情を示す文字または画像の付加、またはユーザの顔画像の付加を決定する。画像処理回路204は、判定された感情に応じた画像効果を、動画データに付加する。
【0032】
例えばユーザが「そば打ち」というイベントを体験していた際には、CPU200は、取得された視線データ及び動きデータとイベント予測モデルMとから、そのイベントがそば打ちであることを推定する。そして、一定の動きで生地を広げ、折りたたみ、包丁で細切りにする動き及び視線に基づいて、「楽しいな」という、ユーザの心象および/または心情、より直接的には「心の叫び」を判定する。
【0033】
サーバ装置20の画像処理回路204は、動画データに、判定された感情に応じた加工処理を実行する。上述のそば打ちの例では、画像処理回路204は、「楽しいな~」というユーザの感情を表す文字を、動画データに一定の再生時間長にわたって付加して、ユーザの心の叫びを文字として表現する。
【0034】
1-2-2.撮像装置システム1を用いて提供され得るサービス
図6は、ユーザに撮像装置システム1を用いて提供され得るサービスの例を示している。
【0035】
提供されるサービスのメニューが最左列に示されている。本明細書では、(1)映像に関するサービスとして、「a.映像加工サービス」および「b.動画配信サービス」が提供され得る。また(2)生活の質(QoL)を向上させるサービス、(3)マーケティングサービスおよび(4)高齢者等の見守りサービスが提供され得る。
【0036】
図6では、撮像装置システム1を用いて上記(1)~(4)の各サービスをユーザに提供する場合に必要なデータが「解析用データ」として示されている。解析用データは、ユーザのスマートグラス10側からサーバ装置20に送られるデータである。主要なデータは「解析用元データ」として例示しているとおりであり、付帯的に用いられるデータが「その他データ」として示されている。そして、最右列には、上記(1)~(4)の各サービスとしてユーザに提供されるデータが「納品データ」として示されている。
【0037】
(1)映像に関するサービス:
動画または静止画を加工するサービスが提供される。例えば、推定された感情、視点データ、音声データ等を用いて被写体の音に対する感動を再現する映像の加工も行う。本サービスにおける「解析用元データ」は動画、音声、生体、視点、動き、ユーザ自身の動画の各データである。動画は、アウトカメラによって取得される第1の動画データであり、本サービスでは第1の動画データは加工のために必須である。ユーザが本サービスにおいてユーザ自身の静止画と映像の合成を希望することも可能であり、当該静止画はインカメラによって取得された第2の動画データを用いて抽出される。なお、音声、生体、視点、動き、ユーザ自身の動画のすべてが必須ではなく、少なくとも1つのデータが用いられていればよい。「その他データ」のうち、解析区間とは、加工処理の実行対象となる動画データの特定の区間を意味する。ある時間区間を指定しておくことで、その区間に発生しているイベントでのユーザの「心の叫び」を示す画像効果が付加される。ユーザへの「納品データ」は、例えば「楽しいな~」というユーザの感情を表す文字が付加された加工済み動画である。静止画であってもよい。ユーザが、都会の風景、山の風景などに接するイベントを体験している場合、サーバ装置20のCPU200は、動画データには、特に視点、感情、音声を用いて自然の音に感動を再現する映像の加工を行うことができる。加工済み動画データは、「納品先アドレス」として指定されたメールアドレス等に送信される。
【0038】
(2)QoL向上サービス:
QoL向上サービスにより、事象解析データが提供される。事象解析データは、感情分類とその要因及び関心のイベント・対象物、統計データを含む。動画の特定の期間が指定された場合には当該期間を対象として解析されたデータが提供される。また、年齢、性別、趣味、考えが近くQOL上位被験者の分析結果を活用してQOL向上アドバイスも行う。
【0039】
例えば、事象解析データではQoLを向上させるに至った要因を判定できる。QoLを向上させる要因として、体験・イベントで感動したことが挙げられる。風景・夕日・星空・せせらぎ等の自然に感動すると、視線のステイおよび/または画像のステイを検出できる。またインカメラおよびマイクを用いてユーザの顔データおよび音声データを取得することにより、ユーザの表情筋や音声から、映像の視聴、食事、スポーツ観戦等においてユーザが喜んだこと、笑ったことなどを判断できる。これらのQoLを向上させる要因をカウントして表示することで、そのユーザのQoLおよびその変化を数値化できる。
図8は、QoLを向上させたプラスイベントの頻度を月ごとにグラフにした場合の表示例である。
【0040】
一方、事象解析データを用いることでQoLを低下させる要因も判定できる。動画データ、音声データ、心拍などの生体データ等から、怒ったこと、悲しんだこと、泣いたことを検出できる。これらは悲しみ・怒りで落ち込むマイナス要因である。これらのQoLを低下させる要因をカウントして表示することによっても、そのユーザのQoLおよびその変化を数値化できる。
【0041】
図8の例にならって、QoLを低下させたプラスイベントの頻度を月ごとにグラフにしてもよい。あるいは、一月ごとのプラス要因、マイナス要因、及びプラスとマイナスのトータルで計算してもよい。ユーザの年齢の平均値を例えば破線で示すことで、そのユーザの相対的なQoLの程度を知ることもできる。
【0042】
そのユーザがどのようなイベントでQoLを向上させたり低下させたりしたかの傾向を分析できるため、分析結果をQoL向上に役立てるためのアドバイスを提示することもできる。
【0043】
なお、上記(1)映像に関するサービスと同様、本サービスにおける「解析用元データ」は、動画、音声、生体、視点、動き、ユーザ自身の動画の各データである。ただし、これらのすべてが必須ではない。例えば、動画および/またはユーザ自身の動画のデータに対し、音声および生体の少なくとも一方があればよい。
【0044】
(3)マーケティングサービス:
販売促進データ、個人広告などのマーケティングサービスにより、事象解析データが提供される。事象解析データは、感情分類とその要因及び関心の対象物を含む。さらに統計 データを含んでもよい。動画の特定の期間が指定された場合には当該期間を対象として解析されたデータが提供される。例えば上記(1)および/または(2)のサービスを受けている依頼者に、自身のデータの二次利用を承諾すれば、メリットを享受できる。
【0045】
図9は、あるユーザの動画データ、音声データ、動きデータ、生体データおよび視線データを用いて抽出した、そのユーザが関心を寄せている項目の表示例である。これらの情報を用いることにより、そのユーザをターゲットとした広告を表示したり、購入サイトへ誘導したりできる。
【0046】
(4)見守りサービス(行動履歴):
事象解析データが提供される。事象解析データは、感情分類とその要因及び関心の対象物を含む。さらに統計データを含んでもよい。動画の特定の期間が指定された場合には当該期間を対象として解析されたデータが提供される。
【0047】
あるユーザの家族から、そのユーザを見守ってほしいという依頼を受けたとする。その場合、当該ユーザの家族には、事象解析データとして加速度センサ122を用いて算出されるユーザの歩行数、感動した回数、心が沈む回数等を含む事象解析データを提示する。
図10は、見守りサービスによって提供される事象解析データの表示例である。このような事例解析データを表示させることで、例えば遠隔地からであっても当該ユーザの家族は当該ユーザの様子を把握することができる。
【0048】
上述の4種類のサービスは、ユーザが任意に選択できる。
図11は、ユーザ端末からのサービスメニューの選択により、選択されたサービスが提供される手順を示している。ユーザ端末はスマートグラス10を想定しているが、スマートグラス10とは別にユーザが有する端末装置であってもよい。いずれのユーザ端末も、サービスメニューを選択するためのユーザの操作を受け付ける入力インタフェース装置(図示せず)を有するとする。例えばスマートグラス10にサービスメニューを投影する機能が設けられているとする。さらにスマートグラス10では、眼鏡のつる(テンプル)に触れながら前後にスライドすることで複数のサービスメニューのうちの一つを選択し、テンプルをタップすることにより選択したサービスメニューを決定する入力インタフェース装置を設け得る。
【0049】
ステップS10において、スマートグラス10のCPU100は、ユーザからのスマートグラス10で上述した4つのサービスメニューのうちから1つの選択を受け付ける。ステップS11において、CPU100は、
図6に示す基準において予めユーザによって指定された解析用元データに従って解析用元データを抽出しサーバ装置20に送信する。つまり、ユーザは、解析用元データを全てサーバ装置20に送る必要はない。
【0050】
続くステップS12では、サーバ装置20のCPU200は、選択されたサービスメニューに従い、受け取った解析用元データを利用して、選択されたサービスメニューに応じた画像処理を行い、または解析を行って要因解析データまたは事象解析データを生成する。そしてCPU200はステップS13において、画像処理を行った動画データまたは要因解析データを納品データとして送信する。送信先は
図6に記載のとおり予めユーザから指定されている。
図11の例では、スマートフォン40aまたはPC40bによって当該データを確認することができる。
【0051】
1-3.撮像装置システム1の動作の詳細
次に、撮像装置システム1の動作の詳細を説明する。
【0052】
以下では、(1)映像に関するサービスの詳細を説明するが、(2)~(4)についても(1)の構成に加えて(2)~(4)で説明した処理を行うスマートグラス10側のプログラム及びサーバ装置20のプログラムを使用すればよい。
【0053】
図12は、注目や感情を想起させる対象になり得る種々の例と、各対象に関連して検出されるイベント、感情および映像加工処理を示している。これらは一例にすぎないことに留意されたい。
【0054】
まず、ユーザが、風景などを撮影している際に目の前に存在する風景、およびその撮影をしている環境内で行われる体験またはイベントが、ユーザの注目や感情を想起させる要因になり得る。
【0055】
このような対象を判定するには、まずスマートグラス10のアウトカメラ114aが取得した動画データおよび/またはマイク118から取得した音声データから、サーバ装置20のCPU200が、ユーザが現在どのような環境にいるのかを判断する。つまり動画データおよび/または音声データ及びイベント予測モデルMからシーン判断が行われ得る。そのうえで、感情判定部としても動作するCPU200は、主にインカメラ114bが取得した顔データを用いてユーザの撮影時の感情を判定する。「ユーザの感情」とは、動画撮影時に発生していたイベントに関してユーザが抱いた感情である。またサーバ装置20は、イベントの種類ごとに、複数種類の感情の各々(ポジティブな感情とネガティブの感情)と、動画データの複数の加工処理の各々とを対応付けたテーブルを保持している。CPU200は、予測したイベントの種類及び感情に基づいてテーブルを参照し、加工処理を決定する。なお、ある感情に1つの加工処理、例えばメッセージの重畳表示、が対応付けられている場合に、そのメッセージが複数存在することがあり得る。つまり1つの加工処理に、複数の加工態様が存在し得ることがあり得る。そのような場合には、複数の加工態様からランダムに一つの加工処理を選択することが望ましい。
【0056】
ここで、CPU200には、予め構築されたイベント予測モデルMであって、説明変数としてイベントが含まれる映像および/または音声と、目的変数としてイベントの種類とを対応付けて含む教師データに基づいて、機械学習により生成されたイベント予測モデルMが構築されている。
【0057】
上記イベント予測モデルMは、イベントの種類が未知の場合の動画を説明変数として入力すると、イベントの種類を予測結果として出力するよう、事前に機械学習が行われて構築されている。CPU200はイベント予測モデルMを用いてイベントの予測を行うことができる。特に、説明変数として多種多様なイベントが含まれる映像を採用することにより、例えば
図7A~
図7Eで例示したイベントの判別は十分可能である。
【0058】
なお、イベント予測モデルMはある入力を与えるとある予測値を出力するよう構成されているため、コンピュータプログラムの一部として実装することが可能である。そのようなコンピュータプログラムは、例えば記憶部202にあらかじめ格納されていてもよい。CPU200はイベント予測を行う際にそのようなコンピュータプログラムをRAMに読み出し、動画または静止画を入力として受け取って、イベント予測を行う。あるいは、CPU200およびイベント予測モデルMを、ASIC(Application Specific IC)、FPGA(Field Programmable Gate Array)またはCPLD (Complex Programmable Logic Device)を用いてハードウェアとして実装することも可能である。
【0059】
以下、
図12に示す種々の「注目や感情を想起させる対象」の一部を例示して説明する。以下では、サーバ装置20のCPU200が加工処理を実行すると説明するが、CPU200が画像処理回路204に指示して加工処理を実行させることも含む。
【0060】
図12において、注目や感情を想起させる対象が食べ物の場合、CPU200は、ユーザがアウトカメラ114aで撮影した動画データ及びイベント予測モデルMを用いて食べ物であるイベント(撮影シーンともいえる)を検知する。視線データをさらに用いると、CPU200は、ユーザの視点が食べ物にステイしてこともわかるため、イベント検出の精度を高められる。また、臭覚データを用いると、イベント検出の精度をより高められる。次に、CPU200は、インカメラ114bで撮影したユーザの表情を検知することで、ユーザの感情を検出する。加えて、心拍等の生体情報を用いれば、ユーザの感情の強さをより的確に把握できる。
【0061】
ユーザの表情が微笑んでいる場合、すなわちユーザがプラスの感情を有している場合、には、CPU200は、例えば
図7Aに示すように、動画データに文字(「美味しそう」)を追加する加工処理を行う。一方、ユーザの表情が歪んでいる、すなわちユーザがマイナスの感情を有している場合、には、CPU200は、例えば動画データに文字(「まずそう」)を追加する加工処理を行う。このようにユーザの撮影時の心の叫びを画像加工を通じて表現することができる。
【0062】
次に、
図12において、注目や感情を想起させる対象が風景の場合を説明する。CPU200は、ユーザがアウトカメラ114aで撮影した動画データ及びイベント予測モデルMを用いて風景であるイベント(撮影シーンともいえる)を検知する。視線データをさらに用いると、CPU200は、ユーザの視点が風景のある箇所にステイしてこともわかるため、イベント検出の精度を高められる。また、音声データを用いると、イベント検出の精度をより高められる。次に、CPU200は、インカメラ114bで撮影したユーザの表情を検知することで、ユーザの感情を検出する。加えて、生体情報を用いれば、ユーザの感情の強さをより的確に把握できる。
【0063】
ユーザの表情が微笑んでおりプラスの感情を示している場合には、CPU200は、例えば
図7Bに示すように、動画データに文字(「癒される~」、「ざわざわ」)を追加する加工処理を行う。このようにユーザの撮影時の心の叫びを画像加工を通じて表現することができる。他の例として、ユーザの表情が微笑んでおりプラスの感情を示している場合には、
図7Eに示すように、動画データに文字(「夏だ!暑い!」、「ジージー」)を追加する加工処理を行う。音声データで蝉の鳴き声が取得できていなくても、文字データで擬似音「ジージー」を画像に追加して、撮影時の臨場感をアップさせている。
【0064】
このように、
図12に例示する風景に含まれる、清流の水音、蝉の鳴き声は、山中でユーザが体験したイベントとして動画加工処理を実行する要因でもあるし、それらに起因して加工方法を決定してもよい。後者の例として、清流の水音を表す擬音語「サーサー」や、蝉の鳴き声を表す擬音語「ジージー」を強調として動画データに付加してもよい。
【0065】
次に、
図12において、注目や感情を想起させる対象がスポーツ観戦の場合を説明する。CPU200は、ユーザがアウトカメラ114aで撮影した動画データ及びイベント予測モデルMを用いてスポーツ観戦であるイベント(撮影シーンともいえる)を検知する。視線データをさらに用いると、ユーザの視点がスポーツ観戦のある箇所がステイしてこともわかるため、イベント検出の精度を高められる。また、音声データを用いると、イベント検出の精度をより高められる。次に、CPU200は、インカメラ114bで撮影したユーザの表情を検知することで、ユーザの感情を検出する。加えて、生体情報を用いれば、ユーザの感情の強さをより的確に把握できる。
【0066】
ユーザの表情が、微笑んでおりプラスの感情を示して場合には、CPU200は、例えば
図7Cに示すように、動画データに文字(「行けー!」)を追加する加工処理を行う。
【0067】
次に、
図12において、注目や感情を想起させる対象が旅行の場合には、CPU200は、ユーザがアウトカメラ114aで撮影した動画データ及びイベント予測モデルMを用いて旅行であるイベント(撮影シーンともいえる)を検知する。視線データをさらに用いると、ユーザの視点が旅行スポットにステイしてこともわかり、イベント検出の精度を高められる。また、音声データを用いると、イベント検出の精度をより高められる。次にCPU200は、インカメラ114bで撮影したユーザの表情を検知することで、ユーザの感情を検出する。加えて、生体情報を用いれば、ユーザの感情の強さをより的確に把握できる。
【0068】
ユーザの表情が、安堵の表情の場合、すなわちユーザがプラスの感情を有している場合には、CPU200は、例えば
図7Dに示すように、動画データに文字(「やっと着いた」)を追加する加工処理を行う。このように、撮影時のユーザの心境を画像に追加することで撮影時の臨場感をアップできる。また同時にインカメラ114bで撮像されたユーザの顔、または、事前に用意されたユーザの安堵の表情した静止画を動画に重畳させてもよい。
【0069】
以上、食べ物、風景、スポーツ観戦、旅行というイベントを主に動画データで検出し、その際の感情を主に撮影者の顔の表情から判定し、判定した感情に応じた画像効果として動画データに付加した例を示した。
【0070】
このような処理を行って動画データを生成するスマートグラス10は「イベントログカメラ」または「ライフログカメラ」とも呼ばれ得る。
図3に示すような眼鏡型の撮像装置を使用すると、ユーザの活動に伴って常時撮影できるため、イベントログまたはライフログの取得に好適である。もっとも、常時撮影すると、スマートグラス10の消費電力が増加し、動画データ等の記録に必要な記憶容量が増加する。したがって、自動撮影開始機能および、又は自動撮影終了機能を搭載すると、消費電力および記憶容量の低減に有効である。「自動撮影開始機能」は、例えば生体データが所定の閾値以上に増加した場合に撮影を開始する機能である。また「自動撮影終了機能」は、撮影中に、例えば生体データが所定の閾値未満に低下した場合に撮影を終了する機能である。生体データに代えて、または生体データとともに、音声データおよび/または動きデータを併用してもよい。
【0071】
本実施形態では、感情を判定する際、視線データ、動きデータ、臭覚データ、顔データ、画像データ、音声データ、血圧データ、脳波データを用いて、ユーザの心情を表す数値を判定する。本明細書では、上述の「心情の数値」を「感情指数」とも呼ぶ。感情指数は、動画データ、音声データ、動きデータ、生体データおよび視線データのそれぞれから求められる値であり、各データの時間的変動から把握できる感情を表す数値として定義され得る。
【0072】
次に、CPU200が感情を判定する方法を説明する。
本実施形態では、CPU200は、注目や感情を想起させるイベントに応じて、感情指数を算出する。感情指数は、動画データ、音声データ、動きデータ、生体データおよび視線データのそれぞれに定義される個別感情指数の総和として定義される。
【0073】
図13は、各個別感情指数の決定方法と、その数値例を示している。本実施形態では、CPU200は、個別感情指数の総和として求められた感情指数が、±20ポイント以上になれば、判断されたシーンによって画像・音声に対する加工を施すことを決定する。なお、加工内容は、判断されたシーン内容によって事前に決定しておく。感情指数のポイント数の大きさによって、加工内容を変えることが望ましい。例えば、感情指数が所定値よりも高くなると、加工する際に画像に追加する文字の内容を過度に表現する加工方法を採用することが考えられる。より具体的には、ユーザが自然の夕日を見て感動している場面を想定する。ユーザの視線は一方向(夕日の方向)にステイしており、音声データは所定値未満の無音を示している状態は、ユーザが感動しているからであると言える。そこでCPU200は、画像に「言葉にならないほど、感動~」という文字を追加したり、ユーザを表すキャラクタが泣いている画像を追加したりする加工を施す。このように、感情指数に応じて加工内容を変化させると、心の叫びをより的確に表現できる。
【0074】
図13は、視線データ、動きデータ、音声データ、種々の生体データの各々に関して個別感情指数を判定するための基準の一例を示している。よって、
図13の「数値例」に示される数値は、音声基準データ、動き基準データ、生体基準データ、および視線基準データと呼ぶことができる。
【0075】
CPU200は、音声データと音声基準データとの関係を導出する。同様にCPU200は、動きデータと動き基準データとの関係、生体データと生体基準データとの関係、および視線データと視線基準データとの関係を導出する。ここでいう「関係」が差分を意味しているとすると、CPU200はそれらの差分の和を感情指数の値として算出する。
【0076】
図13に示す例によれば、種々のデータが収集されていることが理解される。上述の計算例のように、個別感情指数のそれぞれについてポジティブ、ネガティブを決定してもよい。あるいは、一部のデータについては、それ自体からポジティブ、ネガティブを決定できない「ニュートラル」な性質を持つとして取り扱っている。
図13にはニュートラルデータに該当するデータ欄の左に*印を付している。
【0077】
例えば、視線データ、動きデータ、画像データ、血圧データ、および脈拍データはニュートラルデータである。血圧データをニュートラルデータに含めた理由は、血圧は喜怒哀楽に大きく影響するからである。また脈拍データもニュートラルデータとした理由は、計算の複雑化を防止するためである。
【0078】
ニュートラルデータについては、CPU200は、その個別感情指数を、他の生体情報からポジティブにするかネガティブに付与するかを決定する。それでも判断できない場合は、機械学習したシーン判断で撮影者の感情をポジティブかネガティブに決定するか、また判断不可としてもよい。
【0079】
例えば、視線データと画像データにおいて、どちらも+10が付与されたとしても、顔データから眠気などで意識が定まっていないと考える場合は、ポイント付加しない。また、動画の画像データや音声データは、撮影者の感情指数に反映することにする。
【0080】
また音声データについて、ユーザが「しんどかった」との苦痛を意味する言葉を発したとしても、音声のトーンや他の生体情報(例えば顔データから、喜びの表情が検出される場合)を含めた総合的な判断を行うことができる。その結果、ポジティブかネガティブであるかを判断することができる。
【0081】
なお、NEC社は、脈拍データを用いた感情分析ソリューションを公表している。NEC社は、脈拍数と脈周期(=60秒/脈拍数)から心拍変動解析によって時系列の揺らぎ解析を行い、「興奮・喜び」「穏やか・リラックス」「憂鬱・疲労」「緊張・ストレス」の解析を行う。ただしこれ以上の詳細は不明である。
【0082】
次に、
図14および15を参照しながら、CPU200および画像処理回路204による、感情に応じた動画データへの加工処理および感情指数の例を説明する。
【0083】
図14は、動画を強調する処理の例を説明するための図である。この例では、
図1および
図2のセンサに加えて、または一部のセンサを入れ替えて嗅覚センサ(生体センサ)を活用する。嗅覚センサは、香りまたは匂いを発生させる物、例えば食べ物、花など、が存在することを検出し、感情を想起させる要因として位置付ける。その結果、そのような物の存在は、加工処理を行うイベントとされる。なお、嗅覚センサおよび匂いの判定方法は、例えば2021年6月21に物質・材料研究機構(NIMS)によって発表された技術を利用可能である。
【0084】
図14において、まずCPU200は、動画データ及び上記イベント予測モデルMを用いてシーン判別処理(=イベント検出処理)を行う。シーン判別処理により、CPU200は、アウトカメラ114aの動画データに基づいて花の被写体がクローズアップされた場面であり、インカメラ114bの動画データに基づいてユーザが花の香りをかいでいることを判定する。この場合、視線データを用いると、視線がステイするA点があれば、A点にユーザの関心がある被写体があると考えられるため、上記判定の正確さの精度を高めることができる。同様に動きデータを用いると、動きがステイするC点があれば上記判定の確度を高めることができる。なお、視線データは必須ではない。動画データから撮影シーンを特定できればよいからである。判定精度を向上させるために視線データを補助的に活用すればよい。
【0085】
次いでCPU200は、インカメラ114bが撮像した画像から撮影者の顔の表情から主にユーザの感情検出を行う。加えて、CPU200は、嗅覚センサにより取得される臭覚データを用いて、ポジティブな感情を起こさせる匂いか否かを判定する。この例の場合は、ポジティブな匂いであるとする。
【0086】
なお、視線データによれば、ある位置を中心として視線がゆっくり往復している。動きデータや血圧データも同様である。これらはニュートラルデータである。また嗅覚データによれば、B点に向けてポジティブな感情を起こさせる匂いが徐々に強くなっている。これらから、匂いに関する個別感情指数は+20になる。
【0087】
総合すると、CPU200は、感情指数は20でありユーザはよい香りを感じていると推測する。その結果、CPU200からの指示により、画像処理回路204は、時刻Bに相当する破線がひかれた時刻において、インカメラ114bで撮影したユーザの横顔の画像と、感情に応じた「良い香り~」という文字を動画に重畳させる。この画像処理では、アウトカメラ114aの花の画像を縮小し、縮小した画像を合成画像の左側に配置し、合成画像の右側にインカメラ114bで撮影したユーザの横顔の画像を配置している。これにより画像処理回路204は、動画データにユーザ感情に応じた加工処理を実行する。
【0088】
図15は、ダンスを楽しんでいるという感情を判定し、それによりダンスを楽しんでいる様子を示すアバタを動画データに表示することを説明するための図である。
【0089】
動画では、ユーザの手や腕の一部および顔と相手の顔付近が映っている。音声データとして音楽が流れているとする。まずCPU200は、動画データ、動きデータ及び上記イベント予測モデルMを用いてシーン判別処理を行う。シーン判別処理によりCPU200は、動画データ及び動きデータに基づいて2名の人間がダンスをしている場面であると判別する。
【0090】
次いでCPU200は、インカメラ114bが撮像した画像から撮影者の顔の表情から主にユーザの感情検出を行う。加えて血圧に関する生体データを用いれば、ユーザの感情の強度を把握することができる。同様にユーザが発する音声データを用いれば、ポジティブな感情又はネガティブな感情を把握できる。
【0091】
動きデータによれば、ユーザは比較的激しく動いていること、および音楽の音声データによればリズミカルな音楽が流れていることが判明する。音声データの中の、ユーザが発する音声がポジティブな音声である場合は、ポジティブなイベントが発生していると判断し、個別感情指数を加算して感情指数を算出する。
【0092】
総合すると、CPU200は、ユーザはポジティブな感情指数を有していることが判定できる。
【0093】
ここで、加工処理例としては、ダンスであることをより強調するために「顔+アバタ」とする。ユーザや相手の顔写真が得られると、顔写真を用いつつ身体の部分はアバタを用いて合成画像を生成する。首から下の身体の動きは、動きセンサ122から得られた動きによって再現される。ユーザの顔画像は、予めユーザが用意した画像を用いても、インカメラ114bから取得された顔画像を用いてもよい。相手の顔画像は、予めユーザが用意した画像を用いても、アウトカメラ114aから取得された顔画像を用いてもよい。これらの顔画像を用いて、CPU200は、首から下はアバタにしたアバタ画像を作成させる動きデータの区間Bが終了する破線がひかれた時刻において、CPU200は、アバタ画像を動画に重畳させる。あるいは、動画の所定フレームをアバタ画像に置換してもよい。また、アバタ画像の手足が動くアニメーションにしてもよい。このように、画像処理回路204はユーザ感情に応じた加工処理を動画データに実行する。このことによりユーザがダンスを楽しんでいる様子を表現できる。
【0094】
1-4.効果等
以上のように、本実施形態に係る撮像装置システム1は、撮影により動画データを生成する撮像センサ114と、データを取得するインタフェース部106と、記録部202と、感情判定部200と、画像処理部204とを有している。インタフェース部は、撮影中に取得された音声データ、および撮影中に取得されたユーザの生体情報である生体データの少なくとも一つを取得する。記録部は、動画データに対して、音声データ及び生体データの少なくとも一つのデータを対応付けたデータセットを記録する。感情判定部は、動画データ、音声データ、及び生体データのうちの少なくとも1つのデータを用いて、撮影時に発生していたイベントに関してユーザが抱いた感情を判定する。画像処理部は、動画データに、判定された感情に応じた加工処理を実行する。
【0095】
上記構成によれば、ユーザがイベントを体験して得た感情に応じて動画を加工することにより、ユーザの感情を表現することができる。
【0096】
感情判定部は、動画データを用いてイベントを把握し、音声データ及び生体データの少なくとも一つのデータを用いてイベントにおけるユーザが抱いた感情を判定する。
【0097】
インタフェース部は、撮影時のユーザの視線の方向を示す視線データを取得する。感情判定部は、動画データ及び視線データを用いてイベントを把握し、音声データ及び生体データの少なくとも一つのデータを用いてイベントにおけるユーザが抱いた感情を判定する。
【0098】
撮像センサは、所定の被写体を撮影して第1の動画データを生成する第1の撮像センサと、ユーザの顔を撮影して第2の動画データを生成する第2の撮像センサを含んでいる。感情判定部は、第1の動画データを用いてイベントを把握し、第2の動画データ及び、音声データ及び生体データの少なくとも一つのデータを用いてイベントにおけるユーザが抱いた感情を判定する。
【0099】
感情判定部は、音声データから第1の値を算出し、生体データから第2の値を算出し、視線データから第3の値を算出し、第1の値から第3の値までの合計値に基づいて感情を判定する。
【0100】
感情判定部には、予め構築されたイベント予測モデルであって、説明変数としてイベントが含まれる映像および/または音声と、目的変数としてイベントの種類とを対応付けて含む教師データに基づいて、機械学習により生成されたイベント予測モデルが構築されている。感情判定部は、少なくとも1つのデータ及びイベント予測モデルから、イベントの種類を予測し、予測したイベントの種類及び感情に基づいて加工処理を決定する。画像処理部は、動画データに、決定された加工処理を実行する。
【0101】
感情判定部は、イベントの種類ごとに、複数種類の感情の各々と、動画データの複数の加工処理の各々とを対応付けたテーブルを保持しており、予測したイベントの種類及び感情に基づいてテーブルを参照し、加工処理を決定する。
【0102】
複数の加工処理の各々は、撮影者の心象および/または心情を示す文字または画像の付加、及び、ユーザの画像の付加、の少なくとも一方を含む。
【0103】
複数の加工処理の各々は、音声データ又は生体データから生成された撮影者の心象および/または心情を示す文字または画像の付加を含む。
【0104】
本実施形態に係るサーバ装置20は、撮像装置10を有する撮像装置システム1で用いられるサーバ装置である。撮像装置は、撮像センサ114、マイク118、インタフェース部106、及び送信回路104を有している。撮像センサは、撮影により動画データを生成する。マイクは、音声データを生成する。インタフェース部は、生体データを取得する。送信回路は、動画データと、音声データおよび生体データのうちの少なくとも1つとを送信する。
【0105】
サーバ装置は、通信回路と、記録部と、感情判定部と、データ生成部とを有している。通信回路は、撮像装置と通信する。記録部は、通信回路によって受信された動画データに対し、音声データおよび生体データのうちの少なくとも1つを対応付けたデータセットを記録する。感情判定部は、音声データ及び生体データのうちの少なくとも1つのデータを用いて、撮影時に発生していたイベントに関してユーザが抱いた感情を判定する。データ生成部は、動画データに、判定された感情に応じた加工処理を実行する、または、ユーザの感情の要因を示す事象を解析して、要因解析データを生成する。
【0106】
上記構成によれば、動画を加工することによりユーザの感情を表現することができ、または、ユーザのQoLを向上または低下させるに至った要因を判定することができる。
【0107】
サーバ装置は、通信回路を介して、加工処理が実行された動画データ、または、要因解析データの作成に対応する依頼を受け付ける。データ生成部は、依頼の内容に応じて、加工処理が実行された動画データを生成し、または、要因解析データを作成する。
【0108】
データ生成部が生成する要因解析データは、ユーザによって好ましい要因解析データおよび/またはユーザによって好ましくない要因解析データを含む。
【0109】
サーバ装置は、通信回路を介して、加工処理の実行対象となる動画データの特定の区間の指定を受け付ける。
【0110】
2.変形例
「ライブ配信」は、ライブ配信を行う際の動画加工処理に利用する動画を選定するための構成例である。例えば複数台のカメラでライブ配信を行っている状況を考える。複数台のカメラが存在し、かつ、複数台のカメラで複数のユーザを撮影しているとする。各ユーザのライブイベントにおいて推定された心情の数値の大きさによって、カメラを切り替えて表示することができる。カメラの切り替えは、スイッチャを利用して実現され得る。
【0111】
図16は、変形例によるサーバ装置21の概略構成を示している。サーバ装置21は、サーバ装置20の構成に加え、あるいはサーバ装置20の構成に代えて、少なくとも以下に説明するよう構成され、動作する。
CPU200は、感情判定部200aおよびスイッチャ200bを有する。CPU200は、リングバッファ202aを経由してカメラAおよびBのそれぞれの動画データを受け取り、感情判定部200aにおいて各動画データを用いた感情判定を行い、カメラA動画データ又はカメラB動画データに対して必要な画像処理を画像処理回路204に指示する。感情判定部200aは、画像補正元のカメラA動画データ又はカメラB動画データを画像処理回路204で画像処理を施した画像に差し替えるように、スイッチャ200bに対して制御信号を出力する。このことで、所望の画像処理を施した画像に差し替えた映像をライブ映像として配信する。感情判定部200aの処理はこれまで説明したCPU200の処理と同じである。スイッチャ200bはソフトウェアスイッチとして実現してもよいし、ハードウェアスイッチで実現してもよい。これらによればライブ配信システムが実現される。
【0112】
図17は、ライブ放送で食事をとる際に、食材が美味しそうであること、および美味であるという感情を判定し動画に加工処理を行うことを説明するための図である。
【0113】
X氏およびY氏の各々がスマートグラス10を装着してスマートグラス10で撮影した映像をライブ放送する場合を想定している。スマートグラス10をカメラと見立てて、以下ではX氏のスマートグラス10を「カメラX」と記述し、Y氏のスマートグラス10を「カメラY」と記述する。
図1の撮像装置システム1において、スマートグラス10およびサーバ装置20間の通信に5G通信を使用する。サーバ装置20内のCPU200は、AおよびBに示す時刻で、CPU200はX氏のカメラXのアウトカメラ114aから取得された第1の動画データ及び上記イベント予測モデルMを用いて料理の食材としてエビが存在しているシーンであると判別し、さらにX氏のカメラXのインカメラ114bから取得された第2の動画データにより、食事シーンであると判別する。CPU200は、時刻A、Bおよび撮影シーンから、スイッチャ(
図16)を、X氏のカメラX映像又はY氏のカメラY映像からX氏のカメラXでX氏を撮影するフレームに画像処理を施した画像に切り替える。この切り替え後、切り替え前の映像に再度切り替える。
【0114】
ここでスマートグラス10は、現在の撮影時点から、約5秒手前の第1及び第2の動画データを常時一時保持可能とするリングバッファ202aを備えている。リングバッファ202aは、記憶部202に含まれ得る。CPU200は、バッファされた第1及び第2の動画データを用いてイベント検出、感情指数の算出による感情検出、および動画加工を、動画撮影と並行して動作させるために、撮影された動画に差し替えて動画加工された動画を外部に出力する。この構成を使用することにより、X氏が時刻Cに「美味しい~」という音声を発生すると、CPU200は、音出し後に、顔部分はX氏の顔、体部分はアバタで画像に加工して出力できる。
【0115】
図1および2では、スマートグラス10およびサーバ装置20が別個の装置であるとし、それらが撮像装置システム1を構成するとして説明した。しかしながら、これらは必ずしも別個の装置である必要はない。例えばCPU100および/またはCPU200の処理性能の向上、動画データを保存する記録部202の容量の増加および低コスト化などに伴い、スマートグラス10およびサーバ装置20が共通の筐体を有する1台の装置内に実装されてもよい。例えば外観はスマートグラス10と同じであり、動画データ、生体データ等を生成し、かつ感情判定が可能なスマートグラスが開発された場合には、その1台のスマートグラスですべての処理を完結できる。よって、サーバクライアントシステムであることは必須ではない。スマートグラス10およびサーバ装置20の機能および構成を1つの筐体内に収容したスマートグラス自体もまた、撮像装置システムの範疇である。
【0116】
また、スマートグラス10側に撮像センサ、マイク、モーションセンサ、および生体データ、視線データを設けた例を説明した。しかしながら上述のとおりスマートグラス10の外部機器として位置付けられてもよい。これらを包含するシステムが撮像装置システム1である。
【0117】
本開示では、スマートグラス型の撮像装置を例示したが、撮像装置として、手で把持しながら動画撮影を行う通常のビデオカメラ、スマートフォンまたは動画撮影機能を有するデジタルカメラを用いることもできる。これらのカメラのうち何れのカメラを用いた場合も、サーバ装置20の機能および構成を含むカメラ構成とした場合も撮像装置システムの範疇である。
【0118】
6.態様例
以下、本開示の態様を例示する。
【0119】
<態様1>
撮影により動画データを生成する撮像センサと、
データを取得するインタフェース部であって、
撮影中に取得された音声データ、および
前記撮影中に取得された前記ユーザの生体情報である生体データ
の少なくとも一つを取得するインタフェース部と
前記動画データに対して、前記音声データ及び前記生体データの少なくとも一つのデータを対応付けたデータセットを記録する記録部と、
前記動画データ、前記音声データ、及び前記生体データのうちの少なくとも1つのデータを用いて、前記撮影時に発生していたイベントに関して前記ユーザが抱いた感情を判定する感情判定部と、
前記動画データに、判定された前記感情に応じた加工処理を実行する画像処理部と
を備えた撮像装置システム。
【0120】
<態様2>
前記感情判定部は、前記動画データを用いて前記イベントを把握し、前記音声データ及び前記生体データの少なくとも一つのデータを用いて前記イベントにおける前記ユーザが抱いた感情を判定する、態様1に記載の撮像装置システム。
【0121】
<態様3>
前記インタフェース部は、前記撮影時の前記ユーザの視線の方向を示す視線データを取得し、
前記感情判定部は、前記動画データ及び前記視線データを用いて前記イベントを把握し、前記音声データ及び前記生体データの少なくとも一つのデータを用いて前記イベントにおける前記ユーザが抱いた感情を判定する、態様1または2に記載の撮像装置システム。
【0122】
<態様4>
前記撮像センサは、所定の被写体を撮影して第1の動画データを生成する第1の撮像センサと、前記ユーザの顔を撮影して第2の動画データを生成する第2の撮像センサを含み、
前記感情判定部は、前記第1の動画データを用いて前記イベントを把握し、前記第2の動画データ及び、前記音声データ及び前記生体データの少なくとも一つのデータを用いて前記イベントにおける前記ユーザが抱いた感情を判定する、態様1~3のいずれかに記載の撮像装置システム。
【0123】
<態様5>
前記感情判定部は、
前記音声データから第1の値を算出し、前記生体データから第2の値を算出し、前記前記視線データから第3の値を算出し、
前記第1の値から前記第3の値までの合計値に基づいて前記感情を判定する、態様1~4のいずれかに記載の撮像装置システム。
【0124】
<態様6>
前記感情判定部には、
予め構築されたイベント予測モデルであって、説明変数として前記イベントが含まれる映像および/または音声と、目的変数として前記イベントの種類とを対応付けて含む教師データに基づいて、機械学習により生成されたイベント予測モデルが構築されており、
前記感情判定部は、
前記少なくとも1つのデータ及び前記イベント予測モデルから、前記イベントの種類を予測し、
予測した前記イベントの種類及び前記感情に基づいて加工処理を決定し、
前記画像処理部は、前記動画データに、決定された前記加工処理を実行する、態様1から5のいずれかに記載の撮像装置システム。
【0125】
<態様7>
前記感情判定部は、
イベントの種類ごとに、複数種類の感情の各々と、動画データの複数の加工処理の各々とを対応付けたテーブルを保持しており、
予測した前記イベントの種類及び前記感情に基づいて前記テーブルを参照し、前記加工処理を決定する、態様1から6のいずれかに記載の撮像装置システム。
【0126】
<態様8>
前記複数の加工処理の各々は、撮影者の心象および/または心情を示す文字または画像の付加、及び、前記ユーザの画像の付加、の少なくとも一方を含む、態様7に記載の撮像装置システム。
【0127】
<態様9>
前記複数の加工処理の各々は、前記音声データ又は前記生体データから生成された撮影者の心象および/または心情を示す文字または画像の付加を含む、態様7に記載の撮像装置システム。
【0128】
<態様10>
相互に通信可能な撮像装置及びサーバ装置を有する撮像装置システムであって、
前記撮像装置は、前記動画データを生成する前記撮像センサ、前記音声データを生成するマイク、及び前記生体データを生成する生体センサを有しており、
前記サーバ装置は、前記記録部として動作する記憶装置、及び、前記感情判定部として動作する信号処理回路を有する、
態様1から9のいずれかに記載の撮像装置システム。
【0129】
<態様11>
撮像装置を有する撮像装置システムで用いられるサーバ装置であって、
前記撮像装置は、
撮影により動画データを生成する撮像センサ、
音声データを生成するマイク、
前記生体データを取得するインタフェース部、及び
前記動画データと、前記音声データおよび前記生体データのうちの少なくとも1つとを送信する送信回路を有し、
前記サーバ装置は、
前記撮像装置と通信する通信回路と、
前記通信回路によって受信された前記動画データに対し、前記音声データおよび前記生体データのうちの少なくとも1つを対応付けたデータセットを記録する記録部と、
前記音声データ及び前記生体データのうちの少なくとも1つのデータを用いて、前記撮影時に発生していたイベントに関して前記ユーザが抱いた感情を判定する感情判定部と、
前記動画データに、判定された前記感情に応じた加工処理を実行する、または、前記ユーザの感情の要因を示す事象を解析して、要因解析データを生成する、データ生成部と
を備える、サーバ装置。
【0130】
<態様12>
前記サーバ装置は、前記通信回路を介して、前記加工処理が実行された前記動画データ、または、前記要因解析データの作成に対応する依頼を受け付け、
前記データ生成部は、前記依頼の内容に応じて、前記加工処理が実行された前記動画データを生成し、または、前記要因解析データを作成する、態様11に記載のサーバ装置。
【0131】
<態様13>
前記データ生成部が生成する前記要因解析データは、前記ユーザによって好ましい要因解析データおよび/または前記ユーザによって好ましくない要因解析データを含む、態様11または12に記載のサーバ装置。
【0132】
<態様14>
前記サーバ装置は、前記通信回路を介して、前記加工処理の実行対象となる前記動画データの特定の区間の指定を受け付ける、態様12または13に記載のサーバ装置。
【産業上の利用可能性】
【0133】
本開示は、撮像装置システム及びサーバ装置に適用可能である。
【符号の説明】
【0134】
10 スマートグラス
20 サーバ装置
100 CPU
102 メモリ
104 通信回路
106 インタフェース装置
110 視線センサ
114 撮像センサ
118 マイク
122 動きセンサ
126 生体センサ
200 CPU(感情判定部、データ生成部)
202 記憶部
204 画像処理回路
206 通信回路