IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社JVCケンウッドの特許一覧

特開2024-164474アバタ生成装置、アバタ生成方法、及びプログラム
<>
  • 特開-アバタ生成装置、アバタ生成方法、及びプログラム 図1
  • 特開-アバタ生成装置、アバタ生成方法、及びプログラム 図2
  • 特開-アバタ生成装置、アバタ生成方法、及びプログラム 図3
  • 特開-アバタ生成装置、アバタ生成方法、及びプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024164474
(43)【公開日】2024-11-27
(54)【発明の名称】アバタ生成装置、アバタ生成方法、及びプログラム
(51)【国際特許分類】
   G06F 3/01 20060101AFI20241120BHJP
   H04N 21/431 20110101ALI20241120BHJP
   H04N 21/439 20110101ALI20241120BHJP
   G10L 15/22 20060101ALI20241120BHJP
   G10L 15/00 20130101ALI20241120BHJP
   G06F 3/16 20060101ALI20241120BHJP
   G06T 19/00 20110101ALI20241120BHJP
【FI】
G06F3/01 510
H04N21/431
H04N21/439
G10L15/22 460Z
G10L15/00 200C
G06F3/01 570
G06F3/16 650
G06F3/16 610
G06F3/16 620
G06T19/00 300A
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023079968
(22)【出願日】2023-05-15
(71)【出願人】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】笈川 美貴
(72)【発明者】
【氏名】清水 薫
(72)【発明者】
【氏名】五十嵐 剛
(72)【発明者】
【氏名】西岡 陽子
【テーマコード(参考)】
5B050
5C164
5E555
【Fターム(参考)】
5B050AA10
5B050BA09
5B050BA11
5B050CA06
5B050CA07
5B050CA08
5B050EA09
5B050EA27
5B050FA02
5B050FA05
5B050FA08
5C164PA44
5C164PA45
5C164UB08P
5C164UB41S
5C164UB90P
5C164YA12
5E555AA46
5E555AA64
5E555BA38
5E555BB38
5E555BC08
5E555BD07
5E555BE08
5E555CA42
5E555CA47
5E555CB64
5E555CB66
5E555CC22
5E555DA32
5E555DA33
5E555DB32
5E555DB41
5E555DB57
5E555DC13
5E555DC84
5E555DC85
5E555DD06
5E555EA22
5E555EA23
5E555FA00
(57)【要約】
【課題】手話利用者と音声利用者が適切にコミュニケーションすることができるアバタ生成装置、方法、プログラムを提供する。
【解決手段】
本実施の形態にかかるアバタ生成装置100は、音声信号を取得する音声信号取得部122と、第1ユーザのユーザ動作を検出する動作検出部110と、第1アバタの連動動作を生成する連動動作生成部137と、音声信号をテキストデータに変換するテキスト変換部134と、テキストデータを手話言語に変換して、第1アバタの手話動作を生成する手話動作生成部135と、第1ユーザの発話中に、連動動作生成部137による連動動作を停止して、第1アバタに手話動作を実施させる動作管理部と、を備えている。
【選択図】図2
【特許請求の範囲】
【請求項1】
第1ユーザの発話をマイクで収音して、音声信号を取得する音声信号取得部と、
第1センサを用いて、前記第1ユーザのユーザ動作を検出する第1動作検出部と、
前記第1動作検出部で検出されたユーザ動作に連動して第1アバタが動作するように、前記第1アバタの連動動作を生成する連動動作生成部と、
前記音声信号をテキストデータに変換するテキスト変換部と、
前記テキストデータを手話言語に変換して、前記第1アバタの手話動作を生成する手話動作生成部と、
前記第1ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させ、前記第1ユーザの発話中に、前記連動動作生成部による前記連動動作を停止して、前記第1アバタに前記手話動作を実施させる動作管理部と、を備えたアバタ生成装置。
【請求項2】
手話利用者である第2ユーザに対して、前記第1アバタを表示する表示部と、
前記第2ユーザの動作を検出する第2動作検出部と、
前記第2ユーザの動作が手話動作か否かを判定する手話判定部と、
前記第2ユーザの動作が手話動作である場合に、前記手話動作を自然言語に変換する自然言語変換部と、
前記自然言語の音声を前記第1ユーザに対して出力する音声出力部と、を備えた請求項1に記載のアバタ生成装置。
【請求項3】
前記手話判定部が、前記手話言語の種類を特定し、
前記手話動作生成部が、特定された前記手話言語の手話動作を生成する請求項2に記載のアバタ生成装置。
【請求項4】
第1ユーザの発話をマイクで収音して、音声信号を取得するステップと、
第1センサを用いて、前記第1ユーザのユーザ動作を検出するステップと、
前記ユーザ動作に連動して第1アバタが動作するように、前記第1アバタの連動動作を生成するステップと、
前記音声信号をテキストデータに変換するステップと、
前記テキストデータを手話言語に変換して、前記第1アバタの手話動作を生成するステップと、
前記第1ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させるステップと、
前記第1ユーザの発話中に、前記連動動作を停止して、前記第1アバタに前記手話動作を実施させるステップと、を備えたアバタ生成方法。
【請求項5】
コンピュータに対して、アバタ生成方法を実行させるためのプログラムであって、
前記アバタ生成方法は、
第1ユーザの発話をマイクで収音して、音声信号を取得するステップと、
第1センサを用いて、前記第1ユーザのユーザ動作を検出するステップと、
前記ユーザ動作に連動して第1アバタが動作するように、前記第1アバタの連動動作を生成するステップと、
前記音声信号をテキストデータに変換するステップと、
前記テキストデータを手話言語に変換して、前記第1アバタの手話動作を生成するステップと、
前記第1ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させるステップと、
前記第1ユーザの発話中に、前記連動動作を停止して、前記第1アバタに前記手話動作を実施させるステップと、を備えた、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アバタ生成装置、アバタ生成方法、及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、音声利用者と手話利用者とがコミュニケーションするための情報処理装置が開示されている。この情報処理装置は、音声利用者が音声言語を利用して表現したメッセージをマイクでセンシングしてている。情報処理装置は、メッセージに対応する手話言語のジェスチャを行うアバタの動画に変換する。さらに、情報処理装置は、手話利用者の手話動作を音声に変換して、音声利用者に出力している。
【0003】
特許文献2には、オペレータのアバタを表示するコミュニケーションシステムが開示されている。このコミュニケーションシステムでは、応答音声データに同期して、アバタの口唇部を動かすリップシンク処理を行っている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2019-8570号公報
【特許文献2】特開2021-56940号公報
【非特許文献】
【0005】
【非特許文献1】https://qiita.com/yukihiko_a/items/43d09db5628334789fab
【非特許文献2】https://www.moguravr.com/full-tracking-tool-matome/
【発明の概要】
【発明が解決しようとする課題】
【0006】
健常者(自然言語利用者又は音声利用者とも言う)と手話利用者とがコミュニケーションを行う場合、健常者が手話を習得する必要がある。あるいは、手話習得した健常者が通訳を行う必要がある。特許文献1では、メッセージに対応する手話言語のジェスチャをアバタの動画に変換している。しかしながら、特許文献1では、アバタが手話のジェスチャのみを行うため、手話利用者が健常者の手話以外の動作を見ることができないという問題がある。
【0007】
本開示は上記の点に鑑みなされたものであり、手話利用者と音声利用者が適切にコミュニケーションすることができるアバタ生成装置、アバタ生成方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本実施形態にかかるアバタ生成装置は、第1ユーザの発話をマイクで収音して、音声信号を取得する音声信号取得部と、第1センサを用いて、前記第1ユーザのユーザ動作を検出する第1動作検出部と、前記第1動作検出部で検出されたユーザ動作に連動して第1アバタが動作するように、前記第1アバタの連動動作を生成する連動動作生成部と、前記音声信号をテキストデータに変換するテキスト変換部と、前記テキストデータを手話言語に変換して、前記第1アバタの手話動作を生成する手話動作生成部と、前記第1ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させ、前記第1ユーザの発話中に、前記連動動作生成部による前記連動動作を停止して、前記第1アバタに前記手話動作を実施させる動作管理部と、を備えている。
【0009】
本実施形態にかかるアバタ生成方法は、第1ユーザの発話をマイクで収音して、音声信号を取得するステップと、第1センサを用いて、前記第1ユーザのユーザ動作を検出するステップと、前記ユーザ動作に連動して第1アバタが動作するように、前記第1アバタの連動動作を生成するステップと、前記音声信号をテキストデータに変換するステップと、前記テキストデータを手話言語に変換して、前記第1アバタの手話動作を生成するステップと、前記第1ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させるステップと、前記第1ユーザの発話中に、前記連動動作を停止して、前記第1アバタに前記手話動作を実施させるステップと、を備えている。
【0010】
本実施形態にかかるプログラムは、コンピュータに対して、アバタ生成方法を実行させるためのプログラムであって、前記アバタ生成方法は、第1ユーザの発話をマイクで収音して、音声信号を取得するステップと、第1センサを用いて、前記第1ユーザのユーザ動作を検出するステップと、前記ユーザ動作に連動して第1アバタが動作するように、前記第1アバタの連動動作を生成するステップと、前記音声信号をテキストデータに変換するステップと、前記テキストデータを手話言語に変換して、前記第1アバタの手話動作を生成するステップと、前記第1ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させるステップと、前記第1ユーザの発話中に、前記連動動作を停止して、前記第1アバタに前記手話動作を実施させるステップと、を備えている。
【発明の効果】
【0011】
本開示によれば、手話利用者と音声利用者が適切にコミュニケーションすることができるアバタ生成装置、アバタ生成方法、及びプログラムを提供することを目的とする。
【図面の簡単な説明】
【0012】
図1】アバタ生成装置の全体構成を模式的に示す図である。
図2】アバタ生成装置のシステム構成を示す制御ブロック図である。
図3】アバタ生成装置のシステム構成を示す制御ブロック図である。
図4】アバタ生成方法を示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、本発明を適用した具体的な実施形態について、図面を参照しながら詳細に説明する。ただし、本開示が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載および図面は、適宜、簡略化されている。
【0014】
図1は、本実施の形態にかかるアバタ生成装置のシステム構成を示す模式図である。アバタ生成装置100は、第1ユーザU1と第2ユーザU2との間でコミュニケーションするために第1アバタA1、及び第2アバタA2を生成する。アバタ生成装置100は、第1アバタA1、及び第2アバタA2を表示する。図1に示すように、第1アバタA1は、第1ユーザU1のアバタであり、第2アバタA2は第2ユーザU2のアバタである。第1ユーザU1は、例えば、音声利用者(自然言語利用者)であり、第2ユーザは手話利用者である。例えば、第1ユーザU1は、健常者であり、手話を理解することができないものとする。また、第2ユーザU2は、聴覚障害者であり、音声を聴くことができないものとする。
【0015】
アバタ生成装置100を用いることで、第1ユーザU1と第2ユーザU2はアバタA1、A2を介して互いにコミュニケーションすることができる。つまり、仮想空間上において、自然言語利用者である第1ユーザU1と、手話利用者である第2ユーザU2がそれぞれアバタA1、A2を介して会話する。アバタA1、A2は、ユーザの本人画像であってもよく、ユーザの本人画像から生成されたアニメーション画像であってもよい。また、アバタA1,A2は、本人画像と関係なく選択されたアニメーション画像などであってもよい。
【0016】
第1アバタA1は、第1ユーザU1の動作に連動して動作する。例えば、第1ユーザU1が右手を上げる動作を行うと、アバタ生成装置100は、第1アバタA1の右手を上げるようにデータを生成して、表示する。これにより、第1アバタA1の動作が、第1ユーザU1の動作に連動する。つまり、第1アバタA1は、第1ユーザU1の動作を模した動作を行う。同様に、第2アバタA2は、第2ユーザU2の動作に連動して動作する。なお、以下の説明では、第1ユーザU1と第2ユーザU2との2人が会話する例について説明するが、3人以上が会話を行ってもよい。つまり、第1ユーザU1、及び第2ユーザU2以外のユーザが会話に加わっていてもよい。
【0017】
アバタ生成装置100は、パーソナルコンピュータ、スマートフォン、タブレットパソコンなどの通信端末である。アバタ生成装置100は、ヘッドマウントディスプレイ、スマートウォッチ、スマートグラスなどのウェアラブルデバイスなどであってもよい。アバタ生成装置100は、アバタA1、A2をAR(Augmented Reality)表示、VR(Virtual Reality)表示、MR(Mixed Reality)表示するデバイスであってもよい。
【0018】
第1ユーザU1と第2ユーザU2は、遠隔地にいてもよく、同じ場所にいてもよい。第1ユーザU1と第2ユーザU2とが遠隔地にいる場合、第1ユーザU1と第2ユーザU2とがそれぞれアバタ生成装置100となるユーザ端末を所持している。そして、2つのアバタ生成装置100は、無線又は有線により通信可能になっている。例えば、アバタ生成装置100は、WiFi(登録商標)等の無線LAN(Local Area Network)機器でネットワークに接続されている。アバタ生成装置100はネットワークからのデータを受信可能であり、かつネットワークへデータを送信可能である。ネットワークの通信プロトコルについては、公知のものを用いることができるため説明を省略する。
【0019】
第1ユーザU1と第2ユーザU2とが遠隔地にいる場合、第1ユーザU1のアバタ生成装置100が、第2アバタA2をディスプレイ上に表示する。このとき、第1ユーザのアバタ生成装置100は、第1ユーザU1の本人画像、あるいは第1ユーザU1の第1アバタA1に、第2アバタA2を重畳して表示してもよい。もちろん、第1ユーザのアバタ生成装置100は、第1ユーザU1や第1アバタA1を表示せずに、第2アバタA2を単独で表示してもよい。
【0020】
同様に、第2ユーザU2のアバタ生成装置100が、第1アバタA1をディスプレイ上に表示する。このとき、第2ユーザU2のアバタ生成装置100は、第2ユーザU2の本人画像、あるいは第2アバタA2に、第1アバタA1を重畳して表示してもよい。もちろん、第2ユーザのアバタ生成装置100は、第2ユーザU2や第2アバタA2等を表示せずに、第1アバタA1を単独で表示してもよい。
【0021】
第1ユーザU1と第2ユーザU2とが同じ場所にいる場合、第1ユーザU1と第2ユーザU2とでアバタ生成装置100が共通となっていてもよい。例えば、同じ部屋内に大型のスクリーンやモニタなどの表示デバイスがある場合、アバタ生成装置100は、その表示デバイス上に、第1アバタA1と第2アバタA2を表示してもよい。もちろん、第1ユーザU1と第2ユーザU2とが同じ場所にいる場合であっても、第1ユーザU1と第2ユーザU2とがそれぞれのアバタ生成装置100を使用してもよい。つまり、第1ユーザU1のアバタ生成装置100と第2ユーザU2のアバタ生成装置100は物理的に単一の装置であってもよく、異なる装置であってもよい。
【0022】
図2は、アバタ生成装置100を備えたシステム構成を示す制御ブロック図である。システムは、アバタ生成装置100と、アバタ生成装置100Aと、サーバ300と、を備えている。アバタ生成装置100は、第1ユーザU1が利用するユーザ端末で有り、アバタ生成装置100Aは、第2ユーザU2が利用するユーザ端末である。以下の説明では、第1ユーザU1と第2ユーザU2とが遠隔地におり、サーバ300を介して通信するものとして説明する。
【0023】
第1ユーザU1は、アバタ生成装置100を介して仮想空間を提供するサーバ300にアクセスする。サーバ300は、アバタA1、A2が動作する仮想空間に対応するデータを格納している。サーバ300がアバタA1、A2が動作する仮想空間のデータをアバタ生成装置100、100Aに送信する。
【0024】
アバタ生成装置100とアバタ生成装置100Aとは、動作データや音声データ等を送受信する。アバタ生成装置100は、アバタ生成装置100Aから直接各種データを送受信してもよく、サーバ300などを介してデータを送受信してもよい。ここでは、アバタ生成装置100が、サーバ300を介して、アバタ生成装置100Aからのデータを送受信するとして説明する。
【0025】
アバタ生成装置100は、動作検出部110と、音声入出力部120と、アバタ処理部130と、記憶部140と、表示部150とを備えている。動作検出部110は、カメラ111と、動作取得部112とを備えている。音声入出力部120は、マイク121と、音声信号取得部122と、スピーカ123とを備えている。アバタ処理部130は、動き情報抽出部131と、手話判定部132と、と、自然言語変換部133とテキスト変換部134、と、手話動作生成部135と、アバタ動作管理部136と、連動動作生成部137を備えている。
【0026】
(発話を手話動作に変換する処理)
アバタ生成装置100は、第1ユーザU1の音声を手話動作に変換する。そして、第1アバタA1が手話動作を行う。手話利用者である第2ユーザU2が第1アバタA1を視認することで、第1ユーザU1の発話を理解することができる。以下、アバタ生成装置100が、第1ユーザU1の発話を手話動作に変換する処理について説明する。
【0027】
マイク121は、第1ユーザU1の発話を収音する音声センサである。マイク121は、PC(Personal Computer)やスマートフォンなどに内蔵されていてもよく、USB(登録商標)マイクやBluetooth(登録商標)マイクなどの単独で設けられたものであってもよい。マイク121は収音した音声信号を音声信号取得部122に出力する。音声信号取得部122は、マイク121で収音された音声信号を取得すると、音声信号に対してA/D変換などを行うことで、音声データを生成する。音声信号取得部122は、音声データをテキスト変換部134に出力する。
【0028】
テキスト変換部134は、音声データをテキストデータに変換する。テキスト変換部134は音声解析を行って、音声データから文字を起こす文字起しプログラムを用いることができる。
【0029】
手話動作生成部135は、テキストデータから手話動作を生成する。手話動作生成部135は、第1ユーザU1の発話内容を手話言語に変換して、手話動作を生成する。手話動作生成部135は、手話生成プログラムを用いて、手話動作を生成する。
【0030】
例えば、記憶部140は、テキストデータを手話動作に変換するための変換データベースを格納している。記憶部140は、手話動作の要素となる指文字や単語などの手話データを記憶している。記憶部140は手話動作と指文字、単語などを対応付けて格納している。手話動作生成部135は、記憶部140に記憶されている変換データベースを参照して、テキストデータを手話動作に変換する。手話動作生成部135は手話動作をアバタ動作管理部136に出力する。
【0031】
動作検出部110は、カメラ111を用いて、第1ユーザU1の動作を検出する。カメラ111は、CMOS(Complementary Metal Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサなどの光学センサである。カメラ111は、第1ユーザU1を撮像する。ここでは、カメラ111は動画像を撮像する。動作取得部112は、カメラ111で撮像された画像から、第1ユーザU1の動作を取得する。例えば、動作取得部112は、動画像に対して画像解析を行うことで、第1ユーザU1の腕、指、頭部等の各部位の動作を取得する。
【0032】
具体的には、動作取得部112は、画像解析によって、画像における第1ユーザU1の部位を特定して、トラッキングする。動作取得部112は、フレーム画像を順次比較することで、動いている部位、動作方向、動作角度、動作量などを算出する。第1ユーザU1が腕、指、目、口、頭部、足、脚等を動かした場合、動作検出部110は、その動作を検出する。なお、動作検出部110が使用するセンサは、カメラ111に限らず、モーションキャプチャセンサなどの他のセンサであってもよい。さらに、動作検出部110は、カメラ111とモーションキャプチャセンサの両方を用いてもよい。
【0033】
例えば、非特許文献1では、映像から顔や前進のトラッキングを行うトラッキングソフトが開示されている。非特許文献2には、複数のトラッカを体に取り付けてトラッキングする技術が開示されている。それぞれのトラックのセンサ部は各部位の位置、速度、加速度等のモーション情報を生成する。そして、システムは、モーション情報を基に、全身のVRを生成している。
【0034】
連動動作生成部137は、第1ユーザU1の動作に連動して、第1アバタA1を動作させるための連動動作を生成する。連動動作は、動作する部位、動作方向、動作角度、動作量などを含むデータとなっていてもよい。例えば、第1ユーザU1が右腕を上げた場合、第1アバタA1の右腕を上げる動作が連動動作となる。もちろん、第1ユーザU1が腕に限らず、指、目、口、頭部、足、脚などを動かした場合、第1アバタA1の同じ部位を同様に動作させる。このように、連動動作生成部137は、第1アバタA1が第1ユーザU1の動作を模した連動動作をするための動作データを生成する。連動動作生成部137は、連動動作をアバタ動作管理部136に出力する。
【0035】
アバタ動作管理部136は、連動動作及び手話動作に基づいて、第1アバタA1のアバタ動作を管理する。アバタ動作管理部136は、第1アバタA1が、手話動作又は連動動作の一方を選択的に行うように、第1アバタA1を制御する。つまり、アバタ動作管理部136は、手話動作、又は連動動作の一方を選択して、アバタ動作としてサーバ300に送信する。第1ユーザU1が発話している時、アバタ動作管理部136が手話動作を選択するため、連動動作生成部137による連動動作の同期を停止する。第1ユーザU1が発話していない時、アバタ動作管理部136が連動動作生成部137による連動動作を選択する。
【0036】
アバタ動作管理部136は、第1ユーザU1の発話中以外に、連動動作生成部137による連動動作を第1アバタA1に実施させる。第1ユーザU1が発話していない場合、アバタ動作管理部136は連動動作生成部137による連動動作を同期させる。これにより、第1アバタA1が連動動作を行う。一方、アバタ動作管理部136は、第1ユーザの発話中に、連動動作生成部137による連動動作を停止して、第1アバタに手話動作を実施させる。つまり、発話中は、手話動作を優先的に実施させるように、アバタ動作管理部136が第1アバタA1の動作を管理する。アバタ動作管理部136は、マイク121の収音信号に基づいて、第1ユーザU1が発話中か否かを判定してもよい。
【0037】
アバタ動作管理部136は、手話動作又は連動動作をアバタ動作としてサーバ300に送信する。サーバ300は、手話動作又は連動動作を第2ユーザU2のアバタ生成装置100Aに送信する。アバタ生成装置100Aは、表示部150Aを備えている(図3参照)。表示部150Aは、手話動作又は連動動作を行う第1アバタA1を表示する。表示部150Aは、手話動作を行う第1アバタA1の動画像を表示する。これにより、第2ユーザU2が第1アバタA1を視認することができる。第2ユーザU2が、手話動作を行う第1アバタA1を視認することで、第1ユーザU1の発話内容を理解することができる。
【0038】
アバタ生成装置100の表示部150が第1アバタA1を表示してもよい。第1ユーザU1は、手話動作又は連動動作を行う第1アバタA1を視認することができる。また、後述するように、表示部150は、第2ユーザU2の動作に連動する第2アバタA2を表示してもよいが、表示しなくてもよい。
【0039】
なお、アバタ生成装置100の処理の少なくとも一部は、サーバ300又はアバタ生成装置100Aで実行されていてもよい。例えば、サーバ300、又はアバタ生成装置100Aが第2ユーザU2の手話動作をテキストデータに変換して、アバタ生成装置100に送信してもよい。
【0040】
このように、第1ユーザU1が発話中である場合、アバタ動作管理部136は、第1ユーザU1のユーザ動作に応じた連動動作の第1アバタA1の同期を停止する。第1アバタA1が連動動作の同期を停止して、手話動作を行う。つまり、アバタ動作管理部136は第1ユーザU1の発話中では、第1アバタA1が手話動作するように、第1アバタA1の動作を管理する。第1アバタA1は、第1ユーザU1の発話に同期して、手話動作を行う。これにより、第2ユーザU2がストレスなく、第1ユーザU1の発話内容を理解することができる。
【0041】
第1ユーザU1が発話中でない場合、アバタ動作管理部136は第1アバタA1が連動動作を行うように、第1アバタA1の動作を管理する。これにより、第1ユーザU1が発話中でない場合、第2ユーザU2が第1ユーザU1のユーザ動作を模した連動動作を行う第1アバタを視認することができる。従って、第1ユーザU1の動作を視認することができるため、適切なコミュニケーションが可能となる。第2ユーザU2は、手話動作以外の動作を視認することができるため、コミュニケーションを取りやすくなる。
【0042】
(手話を自然言語に変換する処理)
次に、第2ユーザU2の手話を自然言語に変換する処理について、図2,および図3を用いて説明する。図3は、アバタ生成装置100Aの構成を示す制御ブロック図である。なお、アバタ生成装置100Aの構成、及び処理は、基本的にアバタ生成装置100の構成、及び処理と同一であるため、適宜、図示、及び説明を省略する。また、以下の説明において、アバタ生成装置100Aが行う処理の少なくとも一部は、アバタ生成装置100が行ってもよい。反対に、アバタ生成装置100が行う処理の少なくとも一部は、アバタ生成装置100Aが行ってもよい。
【0043】
アバタ生成装置100Aは、アバタ生成装置100と同様に、動作検出部110A、アバタ処理部130A、記憶部140A、表示部150A等を備えている。なお。アバタ生成装置100Aの構成の一部は、アバタ生成装置100の構成と異なっているが、アバタ生成装置100と同一の構成にしてもよい。つまり、アバタ生成装置100Aの各ブロックは、アバタ生成装置100の各ブロックと同じであってもよく、異なっていてもよい。
【0044】
動作検出部110Aは、カメラ111Aを用いて、第2ユーザU2の動作を検出する。第2ユーザU2は、手話利用者である。よって、第2ユーザU2の動作は手話動作と、手話動作以外の動作がある。アバタ生成装置100Aは、サーバ300を介して、第2ユーザU2の動作を示す動作データをアバタ生成装置100にサーバ300を介して、送信する。また、アバタ生成装置100Aは、第2ユーザU2の動画像の画像データを動作データとして、アバタ生成装置100に送信してもよい。あるいは、アバタ生成装置100Aは、画像解析などによって動画像から抽出されたデータを動作データとしてアバタ生成装置100に送信してもよい。
【0045】
図2に示すアバタ生成装置100は、サーバ300を介して、第2ユーザU2の動作を示す動作データを取得する。動き情報抽出部131は、動作データから第2ユーザU2の動きを抽出する。例えば、動き情報抽出部131は、画像データに対して画像処理を行うことで、第2ユーザU2の手、腕、指、足、脚、頭部などの動きを抽出する。動き情報は、部位毎の動きを示す情報である。
【0046】
動き情報抽出部131は、動き情報を手話判定部132に出力する。手話判定部132は、動き情報に基づいて、第2ユーザU2の動作が手話動作か否かを判定する。手話判定部132は、動き情報から連続する動きと、区切りとを抽出する。手話判定部132は、動き情報と、手話データを照会することで、第2ユーザU2の動作が手話動作と一致するか否かを判定する。第2ユーザU2の動作が手話と判定された場合、手話判定部132は、トラッキングされた動き情報の順にテキストデータに変換して、自然言語変換部133に出力する。手話判定部132は、記憶部140にある手話データに基づいて、テキストデータを生成する。
【0047】
自然言語変換部133は、変換されたテキストデータを自然言語に変換して、スピーカ123に出力する。つまり、自然言語変換部133は、テキストデータを音声信号に変換する。スピーカ123は、音声信号を第1ユーザU1に向けて出力する。これにより、第1ユーザU1が手話に対応する音声を聞くことができる。なお、スピーカ123は、音声出力できるデバイスであれば、ヘッドホンやイヤホンであってもよい。
【0048】
このように、アバタ生成装置100は、手話動作を音声信号に変換して、第1ユーザU1に出力している。第1ユーザU1は第2ユーザU2の手話による発話内容を自然言語の音声で聴取することができる。手話を理解できない第1ユーザU1が、手話の内容を理解できることができる。よって、適切なコミュニケーションが可能となる。
【0049】
アバタ動作管理部136は、第2アバタA2の動きを音声出力と同時に表示部150に出力してもよい。表示部150は、第2ユーザU2のアバタA2を表示する。ここで、アバタ動作管理部136は、第2アバタA2の少なくとも頭部と腕、および、手指による手話動作を停止して、別の動きに置き換えてもよい。あるいは、アバタ動作管理部136は、手話動作をそのまま表示部150に出力してもよい。また、第2ユーザU2が手話の内容に応じて、第2アバタA2の口を動作させてもよい。これにより、第2アバタA2が手話の内容を話しているように表示部150が第2アバタA2を表示することができる。つまり、テキストデータに応じて、第2アバタA2の口が変化する。
【0050】
手話判定部132で手話と判定された場合には、アバタ生成装置100が、自動的に第1アバタA1の動きを手話動作に置き替えて、サーバ300に送信してもよい。これにより、第1ユーザU1のみがアバタ生成装置100を有している場合であっても、仮想空間上で第2ユーザU2との会話を成立させる補助ができる。この場合、第2ユーザU2は第1アバタA1を表示できる表示デバイスを利用すればよい。もちろん、アバタ生成装置100がテキストデータをサーバ300に送信してもよい。この場合、アバタ生成装置100Aがテキストデータを手話動作に変換してもよい。
【0051】
手話判定部132で手話と判定されなかった場合は、アバタ生成装置100は、サーバ300から受信した動作をそのまま表示部150に表示する。つまり、第2アバタA2がユーザ動作に連動した連動動作を実施するように、表示部150が第2アバタA2を表示する。
【0052】
さらに、手話判定部132は、手話言語の種類を特定してもよい。例えば、国や地域毎に手話言語が異なる。手や指の動きが同じであっても、手話が異なる意味の単語に対応することがある。同じ単語であっても、手や指の動きが異なることがある。手話判定部132は、動作に基づいて、手話言語の種類を特定してもよい。例えば、手話判定部132は、手話動作をテキストデータに変換できるか否かに応じて、手話言語を特定する。あるいは、手話判定部132は、変換したテキストデータが適切な意味となっているか否かに応じて、手話言語を特定する。
【0053】
(手話言語の変換)
さらに、第1ユーザU1と第2ユーザU2が異なる手話言語を用いる場合、アバタ生成装置100Aは、手話言語を変換する処理を行ってもよい。アバタ生成装置100Aは、ある手話言語による手話動作を他の手話言語による手話動作に変換する処理を行ってもよい。例えば、第1ユーザU1と第2ユーザU2が手話利用者であっても、第1ユーザU1と第2ユーザU2が異なる国籍である場合、第1ユーザU1と第2ユーザU2の手話言語が異なっている。この場合、第1ユーザU1と第2ユーザU2とがそのままでは手話による会話ができない。そこで、本実施の形態では、アバタ生成装置100Aが、異なる手話言語を変換する処理を行っている。
【0054】
以下、手話言語を変換する処理について、図3を用いて説明する。また、図2を用いて説明した処理や構成については、適宜説明を省略する。例えば、アバタ処理部130Aの各構成は、アバタ処理部130の各構成と同様の処理を行う。
【0055】
動作取得部112Aは、第2ユーザU2のユーザ動作を取得して、動き情報抽出部131A、及び連動動作生成部137Aに出力する。連動動作生成部137Aは、第2ユーザU2のユーザ動作に応じた連動動作を生成する。動き情報抽出部131Aは、第2ユーザU2の各部位の動き情報を抽出する。手話判定部132Aは動き情報に基づいて、第2ユーザU2の動作が手話動作であるか否かを判定する。さらに、第2ユーザU2の動作が手話動作である場合、手話判定部132Aは、第2ユーザU2の手話言語を特定し、第1ユーザU1の手話言語と一致するか判定する。例えば、手話判定部132Aは、第1ユーザU1の手話言語を特定するための情報をサーバ300等から取得している。そして、手話判定部132Aは、第2ユーザU2の手話言語が、第1ユーザU1の手話言語と同じ手話言語であるか否かを判定する。
【0056】
第1ユーザU1の手話言語と一致しない場合、テキスト変換部134Aは、第2ユーザU2の手話動作をテキストデータに変換する。手話動作生成部135Aは、テキストデータに基づいて、第1ユーザU1が使用する手話言語の手話動作を生成する。これによって、第2ユーザU2の手話動作の内容が第1ユーザU1の使用する手話言語の手話動作に変換される。
【0057】
アバタ動作管理部136Aは、第2ユーザU2が手話動作を行っている場合、連動動作生成部137Aによる連動動作である変換前の手話動作の同期を停止して、変換後の手話動作をアバタ動作として、サーバ300に送信する。サーバ300が手話動作をアバタ生成装置100に送信すると、表示部150が第2アバタA2を表示する。これにより、第1ユーザU1が使用する手話言語で第2アバタA2が手話動作を行う。また、アバタ生成装置100がアバタ生成装置100Aと同様に手話言語を変換してもよい。手話言語が異なる手話使用者同士のコミュニケーションも、互いのアバタでボーダレスにコミュニケーションがとれるようになる。
【0058】
また、第2ユーザU2が手話動作を行っていない場合、アバタ動作管理部136Aは、連動動作をアバタ動作として、サーバ300に送信する。サーバ300が手話動作と関係のない連動動作をアバタ生成装置100に送信すると、表示部150が第2アバタA2を表示する。これにより、第2アバタA2が手話動作以外の連動動作を行う。よって、第1ユーザU1と第2ユーザU2とが適切にコミュニケーションすることができる。つまり、第1ユーザU1は、第2ユーザU2の手話動作以外の動作を視認することができるため、コミュニケーションが取りやすくなる。
【0059】
第1ユーザU1、第2ユーザU2は予め国籍や使用している手話言語をアバタ生成装置100、100Aに入力するようにしても良い。これにより、手話判定部132及び手話動作生成部135が、使用している手話データを記憶部140から読み出すことができる。手話判定部132が、正確に判定を行うことができる。さらに、手話動作生成部135が、手話動作を正確に生成することができる。国籍の異なる手話利用者同士が、3Dアバタとなり、手話を変換してボーダレスに会話するようにしてもよい。
【0060】
次に、図4を用いて、アバタ生成方法について説明する。図4は、アバタ生成装置100によるアバタ生成方法を示すフローチャートである。
【0061】
音声信号取得部122が、マイク121を用いて、音声信号を取得する(S101)。例えば、マイク121が第1ユーザU1の音声を収音することで、音声信号取得部122が音声信号を取得する。次に、動作検出部110がカメラ111を用いて、第1ユーザのユーザ動作を取得する(S102)。連動動作生成部137が、ユーザ動作に基づいて、第1アバタA1の連動動作を生成する(S103)。
【0062】
テキスト変換部134が音声信号の音声データをテキストデータに変換する(S104)。手話動作生成部135がテキストデータから手話動作を生成する(S105)。これにより、第1ユーザU1の発話内容に応じた手話動作が生成される。なお、音声データが検出されない場合、あるいは手話動作でない場合、ステップS104、S105の処理は省略してもよい。
【0063】
アバタ動作管理部136は、第1ユーザU1が発話中であるか否かを判定する(S106)。第1ユーザU1が発話中である場合(S106のYES)、アバタ動作管理部136が手話動作を選択する(S107)。第1ユーザU1の発話中には、アバタ動作管理部136は、第1アバタA1に手話動作を実施させる。そして、表示部150が手話動作を行う第1アバタA1を動画像として表示する(S109)。第1ユーザU1の発話中には、アバタ動作管理部136は、第1アバタA1に手話動作を実施させる。第1ユーザU1が発話している場合、第1アバタA1が連動動作を停止して、手話動作を実施する。よって、手話動作を通じて、第2ユーザU2が第1ユーザU1の発話内容を理解することができる。
【0064】
第1ユーザU1が発話中でない場合(S106のNO)、アバタ動作管理部136が連動動作を選択する(S108)。つまり、発話中以外に、アバタ動作管理部136は、第1アバタA1に連動動作を実施させる。表示部150が、連動動作を行う第1アバタA1を動画像として表示する(S109)。第1ユーザU1が発話中以外には、第1アバタA1が連動動作を行う。よって、第2ユーザU2は、第1ユーザU1の動作を模した連動動作を視ることができる。ユーザが、より適切にコミュニケーションを取ることができる。
【0065】
手話利用者と健常者がスムースにコミュニケーションを行うことができる。例えば、健常者である第1ユーザU1が手話を習得せずとも、第1ユーザU1と第2ユーザU2とコミュニケーションすることができる。また、手話を取得した健常者が通訳者として介在せずとも、第1ユーザU1と第2ユーザU2とがコミュニケーションすることができる。テキストなど視覚で補うツールを利用した場合は、そのテキストを注視する必要がある。本実施の形態によれば、第2ユーザU2が第1アバタA1を見ながら,手話での会話が可能となる。お互い仮想空間内にいるため、適切なコミュニケーションが可能となる。また、第1ユーザU1は第2ユーザU2の手話動作以外の動作を視ることができる。
【0066】
また、ボリュメトリクス技術を用いて、3次元の手話動作を検出することで、正確な読み取りが可能となる。また、手話動作とテキストデータとの間の変換処理は、機械学習で生成されたAI(Artificial Intelligence)モデルなどを用いてもよい。
【0067】
また、第1ユーザU1の第1アバタA1のみを第2ユーザU2に対して表示してもよい。つまり、第2ユーザU2の第2アバタA2は、表示しなくてもよい。例えば、第1ユーザU1が3Dアバタとなり第2ユーザの目の前に表れて、手話を使って話しかけることができる。ユーザが他の手話変換ツールを見なくてもよいため、face to face でリアルにコミュニケーションしている体験が得られる。会話している相手以外の端末などのデバイスを見ることなく会話できるため、相手とより近い感覚が得られる。
【0068】
上記処理のうちの一部又は全部は、コンピュータプログラムによって実行されてもよい。上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0069】
さらに、アバタ生成装置100,100Aにおける処理は、スマートフォン等のアプリケーションプログラム(アプリ)として実現することができる。例えば、ユーザがスマートフォンにアプリを予めインストールしておくことで、ユーザが容易にコミュニケーションを取ることができる。この場合、手話利用者用のアプリと、健常者用のアプリとは別のプログラムであってもよい。また、手話利用者はアプリを通じて、使用する手話言語を予め入力するようにしてもよい。例えば、手話利用者は、プルダウンメニューなどから複数の手話言語から使用する手話言語を選択してもよい。
【0070】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記実施の形態に限られたものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。上記の実施の形態の2つ以上を適宜組み合わせることも可能である。
【符号の説明】
【0071】
100、100A アバタ生成装置
110、110A 動作検出部
111、111A カメラ
112、112A 動作取得部
120 音声入出力部
121 マイク
122 音声信号取得部
123 スピーカ
130、130A アバタ処理部
131、131A 動き情報抽出部
132、132A 手話判定部
133 自然言語変換部
134、134A テキスト変換部
135、135A 手話動作生成部
136、136A アバタ動作管理部
137、137A 連動動作生成部
140、140A 記憶部
150、150A 表示部
U1 第1ユーザ
U2 第2ユーザ
A1 第1アバタ
A2 第2アバタ
図1
図2
図3
図4