特開2024-164474 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特開2024-164474アバタ生成装置、アバタ生成方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024164474

(43)【公開日】2024-11-27

(54)【発明の名称】アバタ生成装置、アバタ生成方法、及びプログラム

(51)【国際特許分類】

G06F 3/01 20060101AFI20241120BHJP

H04N 21/431 20110101ALI20241120BHJP

H04N 21/439 20110101ALI20241120BHJP

G10L 15/22 20060101ALI20241120BHJP

G10L 15/00 20130101ALI20241120BHJP

G06F 3/16 20060101ALI20241120BHJP

G06T 19/00 20110101ALI20241120BHJP

【ＦＩ】

G06F3/01 510

H04N21/431

H04N21/439

G10L15/22 460Z

G10L15/00 200C

G06F3/01 570

G06F3/16 650

G06F3/16 610

G06F3/16 620

G06T19/00 300A

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023079968

(22)【出願日】2023-05-15

(71)【出願人】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】笈川美貴

(72)【発明者】

【氏名】清水薫

(72)【発明者】

【氏名】五十嵐剛

(72)【発明者】

【氏名】西岡陽子

【テーマコード（参考）】

5B050

5C164

5E555

【Ｆターム（参考）】

5B050AA10

5B050BA09

5B050BA11

5B050CA06

5B050CA07

5B050CA08

5B050EA09

5B050EA27

5B050FA02

5B050FA05

5B050FA08

5C164PA44

5C164PA45

5C164UB08P

5C164UB41S

5C164UB90P

5C164YA12

5E555AA46

5E555AA64

5E555BA38

5E555BB38

5E555BC08

5E555BD07

5E555BE08

5E555CA42

5E555CA47

5E555CB64

5E555CB66

5E555CC22

5E555DA32

5E555DA33

5E555DB32

5E555DB41

5E555DB57

5E555DC13

5E555DC84

5E555DC85

5E555DD06

5E555EA22

5E555EA23

5E555FA00

(57)【要約】

【課題】手話利用者と音声利用者が適切にコミュニケーションすることができるアバタ生成装置、方法、プログラムを提供する。
【解決手段】
本実施の形態にかかるアバタ生成装置１００は、音声信号を取得する音声信号取得部１２２と、第１ユーザのユーザ動作を検出する動作検出部１１０と、第１アバタの連動動作を生成する連動動作生成部１３７と、音声信号をテキストデータに変換するテキスト変換部１３４と、テキストデータを手話言語に変換して、第１アバタの手話動作を生成する手話動作生成部１３５と、第１ユーザの発話中に、連動動作生成部１３７による連動動作を停止して、第１アバタに手話動作を実施させる動作管理部と、を備えている。
【選択図】図２

【特許請求の範囲】

【請求項1】

第１ユーザの発話をマイクで収音して、音声信号を取得する音声信号取得部と、
第１センサを用いて、前記第１ユーザのユーザ動作を検出する第１動作検出部と、
前記第１動作検出部で検出されたユーザ動作に連動して第１アバタが動作するように、前記第１アバタの連動動作を生成する連動動作生成部と、
前記音声信号をテキストデータに変換するテキスト変換部と、
前記テキストデータを手話言語に変換して、前記第１アバタの手話動作を生成する手話動作生成部と、
前記第１ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させ、前記第１ユーザの発話中に、前記連動動作生成部による前記連動動作を停止して、前記第１アバタに前記手話動作を実施させる動作管理部と、を備えたアバタ生成装置。

【請求項2】

手話利用者である第２ユーザに対して、前記第１アバタを表示する表示部と、
前記第２ユーザの動作を検出する第２動作検出部と、
前記第２ユーザの動作が手話動作か否かを判定する手話判定部と、
前記第２ユーザの動作が手話動作である場合に、前記手話動作を自然言語に変換する自然言語変換部と、
前記自然言語の音声を前記第１ユーザに対して出力する音声出力部と、を備えた請求項１に記載のアバタ生成装置。

【請求項3】

前記手話判定部が、前記手話言語の種類を特定し、
前記手話動作生成部が、特定された前記手話言語の手話動作を生成する請求項２に記載のアバタ生成装置。

【請求項4】

第１ユーザの発話をマイクで収音して、音声信号を取得するステップと、
第１センサを用いて、前記第１ユーザのユーザ動作を検出するステップと、
前記ユーザ動作に連動して第１アバタが動作するように、前記第１アバタの連動動作を生成するステップと、
前記音声信号をテキストデータに変換するステップと、
前記テキストデータを手話言語に変換して、前記第１アバタの手話動作を生成するステップと、
前記第１ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させるステップと、
前記第１ユーザの発話中に、前記連動動作を停止して、前記第１アバタに前記手話動作を実施させるステップと、を備えたアバタ生成方法。

【請求項5】

コンピュータに対して、アバタ生成方法を実行させるためのプログラムであって、
前記アバタ生成方法は、
第１ユーザの発話をマイクで収音して、音声信号を取得するステップと、
第１センサを用いて、前記第１ユーザのユーザ動作を検出するステップと、
前記ユーザ動作に連動して第１アバタが動作するように、前記第１アバタの連動動作を生成するステップと、
前記音声信号をテキストデータに変換するステップと、
前記テキストデータを手話言語に変換して、前記第１アバタの手話動作を生成するステップと、
前記第１ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させるステップと、
前記第１ユーザの発話中に、前記連動動作を停止して、前記第１アバタに前記手話動作を実施させるステップと、を備えた、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、アバタ生成装置、アバタ生成方法、及びプログラムに関する。

【背景技術】

【0002】

特許文献１には、音声利用者と手話利用者とがコミュニケーションするための情報処理装置が開示されている。この情報処理装置は、音声利用者が音声言語を利用して表現したメッセージをマイクでセンシングしてている。情報処理装置は、メッセージに対応する手話言語のジェスチャを行うアバタの動画に変換する。さらに、情報処理装置は、手話利用者の手話動作を音声に変換して、音声利用者に出力している。

【0003】

特許文献２には、オペレータのアバタを表示するコミュニケーションシステムが開示されている。このコミュニケーションシステムでは、応答音声データに同期して、アバタの口唇部を動かすリップシンク処理を行っている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１９－８５７０号公報

【特許文献2】特開２０２１－５６９４０号公報

【非特許文献】

【0005】

【非特許文献1】https://qiita.com/yukihiko_a/items/43d09db5628334789fab

【非特許文献2】https://www.moguravr.com/full-tracking-tool-matome/

【発明の概要】

【発明が解決しようとする課題】

【0006】

健常者（自然言語利用者又は音声利用者とも言う）と手話利用者とがコミュニケーションを行う場合、健常者が手話を習得する必要がある。あるいは、手話習得した健常者が通訳を行う必要がある。特許文献１では、メッセージに対応する手話言語のジェスチャをアバタの動画に変換している。しかしながら、特許文献１では、アバタが手話のジェスチャのみを行うため、手話利用者が健常者の手話以外の動作を見ることができないという問題がある。

【0007】

本開示は上記の点に鑑みなされたものであり、手話利用者と音声利用者が適切にコミュニケーションすることができるアバタ生成装置、アバタ生成方法、及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

本実施形態にかかるアバタ生成装置は、第１ユーザの発話をマイクで収音して、音声信号を取得する音声信号取得部と、第１センサを用いて、前記第１ユーザのユーザ動作を検出する第１動作検出部と、前記第１動作検出部で検出されたユーザ動作に連動して第１アバタが動作するように、前記第１アバタの連動動作を生成する連動動作生成部と、前記音声信号をテキストデータに変換するテキスト変換部と、前記テキストデータを手話言語に変換して、前記第１アバタの手話動作を生成する手話動作生成部と、前記第１ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させ、前記第１ユーザの発話中に、前記連動動作生成部による前記連動動作を停止して、前記第１アバタに前記手話動作を実施させる動作管理部と、を備えている。

【0009】

本実施形態にかかるアバタ生成方法は、第１ユーザの発話をマイクで収音して、音声信号を取得するステップと、第１センサを用いて、前記第１ユーザのユーザ動作を検出するステップと、前記ユーザ動作に連動して第１アバタが動作するように、前記第１アバタの連動動作を生成するステップと、前記音声信号をテキストデータに変換するステップと、前記テキストデータを手話言語に変換して、前記第１アバタの手話動作を生成するステップと、前記第１ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させるステップと、前記第１ユーザの発話中に、前記連動動作を停止して、前記第１アバタに前記手話動作を実施させるステップと、を備えている。

【0010】

本実施形態にかかるプログラムは、コンピュータに対して、アバタ生成方法を実行させるためのプログラムであって、前記アバタ生成方法は、第１ユーザの発話をマイクで収音して、音声信号を取得するステップと、第１センサを用いて、前記第１ユーザのユーザ動作を検出するステップと、前記ユーザ動作に連動して第１アバタが動作するように、前記第１アバタの連動動作を生成するステップと、前記音声信号をテキストデータに変換するステップと、前記テキストデータを手話言語に変換して、前記第１アバタの手話動作を生成するステップと、前記第１ユーザの発話中以外に、前記連動動作生成部による前記連動動作を実施させるステップと、前記第１ユーザの発話中に、前記連動動作を停止して、前記第１アバタに前記手話動作を実施させるステップと、を備えている。

【発明の効果】

【0011】

本開示によれば、手話利用者と音声利用者が適切にコミュニケーションすることができるアバタ生成装置、アバタ生成方法、及びプログラムを提供することを目的とする。

【図面の簡単な説明】

【0012】

【図1】アバタ生成装置の全体構成を模式的に示す図である。

【図2】アバタ生成装置のシステム構成を示す制御ブロック図である。

【図3】アバタ生成装置のシステム構成を示す制御ブロック図である。

【図4】アバタ生成方法を示すフローチャートである。

【発明を実施するための形態】

【0013】

以下、本発明を適用した具体的な実施形態について、図面を参照しながら詳細に説明する。ただし、本開示が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載および図面は、適宜、簡略化されている。

【0014】

図１は、本実施の形態にかかるアバタ生成装置のシステム構成を示す模式図である。アバタ生成装置１００は、第１ユーザＵ１と第２ユーザＵ２との間でコミュニケーションするために第１アバタＡ１、及び第２アバタＡ２を生成する。アバタ生成装置１００は、第１アバタＡ１、及び第２アバタＡ２を表示する。図１に示すように、第１アバタＡ１は、第１ユーザＵ１のアバタであり、第２アバタＡ２は第２ユーザＵ２のアバタである。第１ユーザＵ１は、例えば、音声利用者（自然言語利用者）であり、第２ユーザは手話利用者である。例えば、第１ユーザＵ１は、健常者であり、手話を理解することができないものとする。また、第２ユーザＵ２は、聴覚障害者であり、音声を聴くことができないものとする。

【0015】

アバタ生成装置１００を用いることで、第１ユーザＵ１と第２ユーザＵ２はアバタＡ１、Ａ２を介して互いにコミュニケーションすることができる。つまり、仮想空間上において、自然言語利用者である第１ユーザＵ１と、手話利用者である第２ユーザＵ２がそれぞれアバタＡ１、Ａ２を介して会話する。アバタＡ１、Ａ２は、ユーザの本人画像であってもよく、ユーザの本人画像から生成されたアニメーション画像であってもよい。また、アバタＡ１，Ａ２は、本人画像と関係なく選択されたアニメーション画像などであってもよい。

【0016】

第１アバタＡ１は、第１ユーザＵ１の動作に連動して動作する。例えば、第１ユーザＵ１が右手を上げる動作を行うと、アバタ生成装置１００は、第１アバタＡ１の右手を上げるようにデータを生成して、表示する。これにより、第１アバタＡ１の動作が、第１ユーザＵ１の動作に連動する。つまり、第１アバタＡ１は、第１ユーザＵ１の動作を模した動作を行う。同様に、第２アバタＡ２は、第２ユーザＵ２の動作に連動して動作する。なお、以下の説明では、第１ユーザＵ１と第２ユーザＵ２との２人が会話する例について説明するが、３人以上が会話を行ってもよい。つまり、第１ユーザＵ１、及び第２ユーザＵ２以外のユーザが会話に加わっていてもよい。

【0017】

アバタ生成装置１００は、パーソナルコンピュータ、スマートフォン、タブレットパソコンなどの通信端末である。アバタ生成装置１００は、ヘッドマウントディスプレイ、スマートウォッチ、スマートグラスなどのウェアラブルデバイスなどであってもよい。アバタ生成装置１００は、アバタＡ１、Ａ２をＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）表示、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）表示、ＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ）表示するデバイスであってもよい。

【0018】

第１ユーザＵ１と第２ユーザＵ２は、遠隔地にいてもよく、同じ場所にいてもよい。第１ユーザＵ１と第２ユーザＵ２とが遠隔地にいる場合、第１ユーザＵ１と第２ユーザＵ２とがそれぞれアバタ生成装置１００となるユーザ端末を所持している。そして、２つのアバタ生成装置１００は、無線又は有線により通信可能になっている。例えば、アバタ生成装置１００は、ＷｉＦｉ（登録商標）等の無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）機器でネットワークに接続されている。アバタ生成装置１００はネットワークからのデータを受信可能であり、かつネットワークへデータを送信可能である。ネットワークの通信プロトコルについては、公知のものを用いることができるため説明を省略する。

【0019】

第１ユーザＵ１と第２ユーザＵ２とが遠隔地にいる場合、第１ユーザＵ１のアバタ生成装置１００が、第２アバタＡ２をディスプレイ上に表示する。このとき、第１ユーザのアバタ生成装置１００は、第１ユーザＵ１の本人画像、あるいは第１ユーザＵ１の第１アバタＡ１に、第２アバタＡ２を重畳して表示してもよい。もちろん、第１ユーザのアバタ生成装置１００は、第１ユーザＵ１や第１アバタＡ１を表示せずに、第２アバタＡ２を単独で表示してもよい。

【0020】

同様に、第２ユーザＵ２のアバタ生成装置１００が、第１アバタＡ１をディスプレイ上に表示する。このとき、第２ユーザＵ２のアバタ生成装置１００は、第２ユーザＵ２の本人画像、あるいは第２アバタＡ２に、第１アバタＡ１を重畳して表示してもよい。もちろん、第２ユーザのアバタ生成装置１００は、第２ユーザＵ２や第２アバタＡ２等を表示せずに、第１アバタＡ１を単独で表示してもよい。

【0021】

第１ユーザＵ１と第２ユーザＵ２とが同じ場所にいる場合、第１ユーザＵ１と第２ユーザＵ２とでアバタ生成装置１００が共通となっていてもよい。例えば、同じ部屋内に大型のスクリーンやモニタなどの表示デバイスがある場合、アバタ生成装置１００は、その表示デバイス上に、第１アバタＡ１と第２アバタＡ２を表示してもよい。もちろん、第１ユーザＵ１と第２ユーザＵ２とが同じ場所にいる場合であっても、第１ユーザＵ１と第２ユーザＵ２とがそれぞれのアバタ生成装置１００を使用してもよい。つまり、第１ユーザＵ１のアバタ生成装置１００と第２ユーザＵ２のアバタ生成装置１００は物理的に単一の装置であってもよく、異なる装置であってもよい。

【0022】

図２は、アバタ生成装置１００を備えたシステム構成を示す制御ブロック図である。システムは、アバタ生成装置１００と、アバタ生成装置１００Ａと、サーバ３００と、を備えている。アバタ生成装置１００は、第１ユーザＵ１が利用するユーザ端末で有り、アバタ生成装置１００Ａは、第２ユーザＵ２が利用するユーザ端末である。以下の説明では、第１ユーザＵ１と第２ユーザＵ２とが遠隔地におり、サーバ３００を介して通信するものとして説明する。

【0023】

第１ユーザＵ１は、アバタ生成装置１００を介して仮想空間を提供するサーバ３００にアクセスする。サーバ３００は、アバタＡ１、Ａ２が動作する仮想空間に対応するデータを格納している。サーバ３００がアバタＡ１、Ａ２が動作する仮想空間のデータをアバタ生成装置１００、１００Ａに送信する。

【0024】

アバタ生成装置１００とアバタ生成装置１００Ａとは、動作データや音声データ等を送受信する。アバタ生成装置１００は、アバタ生成装置１００Ａから直接各種データを送受信してもよく、サーバ３００などを介してデータを送受信してもよい。ここでは、アバタ生成装置１００が、サーバ３００を介して、アバタ生成装置１００Ａからのデータを送受信するとして説明する。

【0025】

アバタ生成装置１００は、動作検出部１１０と、音声入出力部１２０と、アバタ処理部１３０と、記憶部１４０と、表示部１５０とを備えている。動作検出部１１０は、カメラ１１１と、動作取得部１１２とを備えている。音声入出力部１２０は、マイク１２１と、音声信号取得部１２２と、スピーカ１２３とを備えている。アバタ処理部１３０は、動き情報抽出部１３１と、手話判定部１３２と、と、自然言語変換部１３３とテキスト変換部１３４、と、手話動作生成部１３５と、アバタ動作管理部１３６と、連動動作生成部１３７を備えている。

【0026】

（発話を手話動作に変換する処理）
アバタ生成装置１００は、第１ユーザＵ１の音声を手話動作に変換する。そして、第１アバタＡ１が手話動作を行う。手話利用者である第２ユーザＵ２が第１アバタＡ１を視認することで、第１ユーザＵ１の発話を理解することができる。以下、アバタ生成装置１００が、第１ユーザＵ１の発話を手話動作に変換する処理について説明する。

【0027】

マイク１２１は、第１ユーザＵ１の発話を収音する音声センサである。マイク１２１は、ＰＣ(ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ)やスマートフォンなどに内蔵されていてもよく、ＵＳＢ（登録商標）マイクやＢｌｕｅｔｏｏｔｈ（登録商標）マイクなどの単独で設けられたものであってもよい。マイク１２１は収音した音声信号を音声信号取得部１２２に出力する。音声信号取得部１２２は、マイク１２１で収音された音声信号を取得すると、音声信号に対してＡ／Ｄ変換などを行うことで、音声データを生成する。音声信号取得部１２２は、音声データをテキスト変換部１３４に出力する。

【0028】

テキスト変換部１３４は、音声データをテキストデータに変換する。テキスト変換部１３４は音声解析を行って、音声データから文字を起こす文字起しプログラムを用いることができる。

【0029】

手話動作生成部１３５は、テキストデータから手話動作を生成する。手話動作生成部１３５は、第１ユーザＵ１の発話内容を手話言語に変換して、手話動作を生成する。手話動作生成部１３５は、手話生成プログラムを用いて、手話動作を生成する。

【0030】

例えば、記憶部１４０は、テキストデータを手話動作に変換するための変換データベースを格納している。記憶部１４０は、手話動作の要素となる指文字や単語などの手話データを記憶している。記憶部１４０は手話動作と指文字、単語などを対応付けて格納している。手話動作生成部１３５は、記憶部１４０に記憶されている変換データベースを参照して、テキストデータを手話動作に変換する。手話動作生成部１３５は手話動作をアバタ動作管理部１３６に出力する。

【0031】

動作検出部１１０は、カメラ１１１を用いて、第１ユーザＵ１の動作を検出する。カメラ１１１は、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサやＣＣＤ（Charge Coupled Device）センサなどの光学センサである。カメラ１１１は、第１ユーザＵ１を撮像する。ここでは、カメラ１１１は動画像を撮像する。動作取得部１１２は、カメラ１１１で撮像された画像から、第１ユーザＵ１の動作を取得する。例えば、動作取得部１１２は、動画像に対して画像解析を行うことで、第１ユーザＵ１の腕、指、頭部等の各部位の動作を取得する。

【0032】

具体的には、動作取得部１１２は、画像解析によって、画像における第１ユーザＵ１の部位を特定して、トラッキングする。動作取得部１１２は、フレーム画像を順次比較することで、動いている部位、動作方向、動作角度、動作量などを算出する。第１ユーザＵ１が腕、指、目、口、頭部、足、脚等を動かした場合、動作検出部１１０は、その動作を検出する。なお、動作検出部１１０が使用するセンサは、カメラ１１１に限らず、モーションキャプチャセンサなどの他のセンサであってもよい。さらに、動作検出部１１０は、カメラ１１１とモーションキャプチャセンサの両方を用いてもよい。

【0033】

例えば、非特許文献１では、映像から顔や前進のトラッキングを行うトラッキングソフトが開示されている。非特許文献２には、複数のトラッカを体に取り付けてトラッキングする技術が開示されている。それぞれのトラックのセンサ部は各部位の位置、速度、加速度等のモーション情報を生成する。そして、システムは、モーション情報を基に、全身のＶＲを生成している。

【0034】

連動動作生成部１３７は、第１ユーザＵ１の動作に連動して、第１アバタＡ１を動作させるための連動動作を生成する。連動動作は、動作する部位、動作方向、動作角度、動作量などを含むデータとなっていてもよい。例えば、第１ユーザＵ１が右腕を上げた場合、第１アバタＡ１の右腕を上げる動作が連動動作となる。もちろん、第１ユーザＵ１が腕に限らず、指、目、口、頭部、足、脚などを動かした場合、第１アバタＡ１の同じ部位を同様に動作させる。このように、連動動作生成部１３７は、第１アバタＡ１が第１ユーザＵ１の動作を模した連動動作をするための動作データを生成する。連動動作生成部１３７は、連動動作をアバタ動作管理部１３６に出力する。

【0035】

アバタ動作管理部１３６は、連動動作及び手話動作に基づいて、第１アバタＡ１のアバタ動作を管理する。アバタ動作管理部１３６は、第１アバタＡ１が、手話動作又は連動動作の一方を選択的に行うように、第１アバタＡ１を制御する。つまり、アバタ動作管理部１３６は、手話動作、又は連動動作の一方を選択して、アバタ動作としてサーバ３００に送信する。第１ユーザＵ１が発話している時、アバタ動作管理部１３６が手話動作を選択するため、連動動作生成部１３７による連動動作の同期を停止する。第１ユーザＵ１が発話していない時、アバタ動作管理部１３６が連動動作生成部１３７による連動動作を選択する。

【0036】

アバタ動作管理部１３６は、第１ユーザＵ１の発話中以外に、連動動作生成部１３７による連動動作を第１アバタＡ１に実施させる。第１ユーザＵ１が発話していない場合、アバタ動作管理部１３６は連動動作生成部１３７による連動動作を同期させる。これにより、第１アバタＡ１が連動動作を行う。一方、アバタ動作管理部１３６は、第１ユーザの発話中に、連動動作生成部１３７による連動動作を停止して、第１アバタに手話動作を実施させる。つまり、発話中は、手話動作を優先的に実施させるように、アバタ動作管理部１３６が第１アバタＡ１の動作を管理する。アバタ動作管理部１３６は、マイク１２１の収音信号に基づいて、第１ユーザＵ１が発話中か否かを判定してもよい。

【0037】

アバタ動作管理部１３６は、手話動作又は連動動作をアバタ動作としてサーバ３００に送信する。サーバ３００は、手話動作又は連動動作を第２ユーザＵ２のアバタ生成装置１００Ａに送信する。アバタ生成装置１００Ａは、表示部１５０Ａを備えている（図３参照）。表示部１５０Ａは、手話動作又は連動動作を行う第１アバタＡ１を表示する。表示部１５０Ａは、手話動作を行う第１アバタＡ１の動画像を表示する。これにより、第２ユーザＵ２が第１アバタＡ１を視認することができる。第２ユーザＵ２が、手話動作を行う第１アバタＡ１を視認することで、第１ユーザＵ１の発話内容を理解することができる。

【0038】

アバタ生成装置１００の表示部１５０が第１アバタＡ１を表示してもよい。第１ユーザＵ１は、手話動作又は連動動作を行う第１アバタＡ１を視認することができる。また、後述するように、表示部１５０は、第２ユーザＵ２の動作に連動する第２アバタＡ２を表示してもよいが、表示しなくてもよい。

【0039】

なお、アバタ生成装置１００の処理の少なくとも一部は、サーバ３００又はアバタ生成装置１００Ａで実行されていてもよい。例えば、サーバ３００、又はアバタ生成装置１００Ａが第２ユーザＵ２の手話動作をテキストデータに変換して、アバタ生成装置１００に送信してもよい。

【0040】

このように、第１ユーザＵ１が発話中である場合、アバタ動作管理部１３６は、第１ユーザＵ１のユーザ動作に応じた連動動作の第１アバタＡ１の同期を停止する。第１アバタＡ１が連動動作の同期を停止して、手話動作を行う。つまり、アバタ動作管理部１３６は第１ユーザＵ１の発話中では、第１アバタＡ１が手話動作するように、第１アバタＡ１の動作を管理する。第１アバタＡ１は、第１ユーザＵ１の発話に同期して、手話動作を行う。これにより、第２ユーザＵ２がストレスなく、第１ユーザＵ１の発話内容を理解することができる。

【0041】

第１ユーザＵ１が発話中でない場合、アバタ動作管理部１３６は第１アバタＡ１が連動動作を行うように、第１アバタＡ１の動作を管理する。これにより、第１ユーザＵ１が発話中でない場合、第２ユーザＵ２が第１ユーザＵ１のユーザ動作を模した連動動作を行う第１アバタを視認することができる。従って、第１ユーザＵ１の動作を視認することができるため、適切なコミュニケーションが可能となる。第２ユーザＵ２は、手話動作以外の動作を視認することができるため、コミュニケーションを取りやすくなる。

【0042】

（手話を自然言語に変換する処理）
次に、第２ユーザＵ２の手話を自然言語に変換する処理について、図２，および図３を用いて説明する。図３は、アバタ生成装置１００Ａの構成を示す制御ブロック図である。なお、アバタ生成装置１００Ａの構成、及び処理は、基本的にアバタ生成装置１００の構成、及び処理と同一であるため、適宜、図示、及び説明を省略する。また、以下の説明において、アバタ生成装置１００Ａが行う処理の少なくとも一部は、アバタ生成装置１００が行ってもよい。反対に、アバタ生成装置１００が行う処理の少なくとも一部は、アバタ生成装置１００Ａが行ってもよい。

【0043】

アバタ生成装置１００Ａは、アバタ生成装置１００と同様に、動作検出部１１０Ａ、アバタ処理部１３０Ａ、記憶部１４０Ａ、表示部１５０Ａ等を備えている。なお。アバタ生成装置１００Ａの構成の一部は、アバタ生成装置１００の構成と異なっているが、アバタ生成装置１００と同一の構成にしてもよい。つまり、アバタ生成装置１００Ａの各ブロックは、アバタ生成装置１００の各ブロックと同じであってもよく、異なっていてもよい。

【0044】

動作検出部１１０Ａは、カメラ１１１Ａを用いて、第２ユーザＵ２の動作を検出する。第２ユーザＵ２は、手話利用者である。よって、第２ユーザＵ２の動作は手話動作と、手話動作以外の動作がある。アバタ生成装置１００Ａは、サーバ３００を介して、第２ユーザＵ２の動作を示す動作データをアバタ生成装置１００にサーバ３００を介して、送信する。また、アバタ生成装置１００Ａは、第２ユーザＵ２の動画像の画像データを動作データとして、アバタ生成装置１００に送信してもよい。あるいは、アバタ生成装置１００Ａは、画像解析などによって動画像から抽出されたデータを動作データとしてアバタ生成装置１００に送信してもよい。

【0045】

図２に示すアバタ生成装置１００は、サーバ３００を介して、第２ユーザＵ２の動作を示す動作データを取得する。動き情報抽出部１３１は、動作データから第２ユーザＵ２の動きを抽出する。例えば、動き情報抽出部１３１は、画像データに対して画像処理を行うことで、第２ユーザＵ２の手、腕、指、足、脚、頭部などの動きを抽出する。動き情報は、部位毎の動きを示す情報である。

【0046】

動き情報抽出部１３１は、動き情報を手話判定部１３２に出力する。手話判定部１３２は、動き情報に基づいて、第２ユーザＵ２の動作が手話動作か否かを判定する。手話判定部１３２は、動き情報から連続する動きと、区切りとを抽出する。手話判定部１３２は、動き情報と、手話データを照会することで、第２ユーザＵ２の動作が手話動作と一致するか否かを判定する。第２ユーザＵ２の動作が手話と判定された場合、手話判定部１３２は、トラッキングされた動き情報の順にテキストデータに変換して、自然言語変換部１３３に出力する。手話判定部１３２は、記憶部１４０にある手話データに基づいて、テキストデータを生成する。

【0047】

自然言語変換部１３３は、変換されたテキストデータを自然言語に変換して、スピーカ１２３に出力する。つまり、自然言語変換部１３３は、テキストデータを音声信号に変換する。スピーカ１２３は、音声信号を第１ユーザＵ１に向けて出力する。これにより、第１ユーザＵ１が手話に対応する音声を聞くことができる。なお、スピーカ１２３は、音声出力できるデバイスであれば、ヘッドホンやイヤホンであってもよい。

【0048】

このように、アバタ生成装置１００は、手話動作を音声信号に変換して、第１ユーザＵ１に出力している。第１ユーザＵ１は第２ユーザＵ２の手話による発話内容を自然言語の音声で聴取することができる。手話を理解できない第１ユーザＵ１が、手話の内容を理解できることができる。よって、適切なコミュニケーションが可能となる。

【0049】

アバタ動作管理部１３６は、第２アバタＡ２の動きを音声出力と同時に表示部１５０に出力してもよい。表示部１５０は、第２ユーザＵ２のアバタＡ２を表示する。ここで、アバタ動作管理部１３６は、第２アバタＡ２の少なくとも頭部と腕、および、手指による手話動作を停止して、別の動きに置き換えてもよい。あるいは、アバタ動作管理部１３６は、手話動作をそのまま表示部１５０に出力してもよい。また、第２ユーザＵ２が手話の内容に応じて、第２アバタＡ２の口を動作させてもよい。これにより、第２アバタＡ２が手話の内容を話しているように表示部１５０が第２アバタＡ２を表示することができる。つまり、テキストデータに応じて、第２アバタＡ２の口が変化する。

【0050】

手話判定部１３２で手話と判定された場合には、アバタ生成装置１００が、自動的に第１アバタＡ１の動きを手話動作に置き替えて、サーバ３００に送信してもよい。これにより、第１ユーザＵ１のみがアバタ生成装置１００を有している場合であっても、仮想空間上で第２ユーザＵ２との会話を成立させる補助ができる。この場合、第２ユーザＵ２は第１アバタＡ１を表示できる表示デバイスを利用すればよい。もちろん、アバタ生成装置１００がテキストデータをサーバ３００に送信してもよい。この場合、アバタ生成装置１００Ａがテキストデータを手話動作に変換してもよい。

【0051】

手話判定部１３２で手話と判定されなかった場合は、アバタ生成装置１００は、サーバ３００から受信した動作をそのまま表示部１５０に表示する。つまり、第２アバタＡ２がユーザ動作に連動した連動動作を実施するように、表示部１５０が第２アバタＡ２を表示する。

【0052】

さらに、手話判定部１３２は、手話言語の種類を特定してもよい。例えば、国や地域毎に手話言語が異なる。手や指の動きが同じであっても、手話が異なる意味の単語に対応することがある。同じ単語であっても、手や指の動きが異なることがある。手話判定部１３２は、動作に基づいて、手話言語の種類を特定してもよい。例えば、手話判定部１３２は、手話動作をテキストデータに変換できるか否かに応じて、手話言語を特定する。あるいは、手話判定部１３２は、変換したテキストデータが適切な意味となっているか否かに応じて、手話言語を特定する。

【0053】

（手話言語の変換）
さらに、第１ユーザＵ１と第２ユーザＵ２が異なる手話言語を用いる場合、アバタ生成装置１００Ａは、手話言語を変換する処理を行ってもよい。アバタ生成装置１００Ａは、ある手話言語による手話動作を他の手話言語による手話動作に変換する処理を行ってもよい。例えば、第１ユーザＵ１と第２ユーザＵ２が手話利用者であっても、第１ユーザＵ１と第２ユーザＵ２が異なる国籍である場合、第１ユーザＵ１と第２ユーザＵ２の手話言語が異なっている。この場合、第１ユーザＵ１と第２ユーザＵ２とがそのままでは手話による会話ができない。そこで、本実施の形態では、アバタ生成装置１００Ａが、異なる手話言語を変換する処理を行っている。

【0054】

以下、手話言語を変換する処理について、図３を用いて説明する。また、図２を用いて説明した処理や構成については、適宜説明を省略する。例えば、アバタ処理部１３０Ａの各構成は、アバタ処理部１３０の各構成と同様の処理を行う。

【0055】

動作取得部１１２Ａは、第２ユーザＵ２のユーザ動作を取得して、動き情報抽出部１３１Ａ、及び連動動作生成部１３７Ａに出力する。連動動作生成部１３７Ａは、第２ユーザＵ２のユーザ動作に応じた連動動作を生成する。動き情報抽出部１３１Ａは、第２ユーザＵ２の各部位の動き情報を抽出する。手話判定部１３２Ａは動き情報に基づいて、第２ユーザＵ２の動作が手話動作であるか否かを判定する。さらに、第２ユーザＵ２の動作が手話動作である場合、手話判定部１３２Ａは、第２ユーザＵ２の手話言語を特定し、第１ユーザＵ１の手話言語と一致するか判定する。例えば、手話判定部１３２Ａは、第１ユーザＵ１の手話言語を特定するための情報をサーバ３００等から取得している。そして、手話判定部１３２Ａは、第２ユーザＵ２の手話言語が、第１ユーザＵ１の手話言語と同じ手話言語であるか否かを判定する。

【0056】

第１ユーザＵ１の手話言語と一致しない場合、テキスト変換部１３４Ａは、第２ユーザＵ２の手話動作をテキストデータに変換する。手話動作生成部１３５Ａは、テキストデータに基づいて、第１ユーザＵ１が使用する手話言語の手話動作を生成する。これによって、第２ユーザＵ２の手話動作の内容が第１ユーザＵ１の使用する手話言語の手話動作に変換される。

【0057】

アバタ動作管理部１３６Ａは、第２ユーザＵ２が手話動作を行っている場合、連動動作生成部１３７Ａによる連動動作である変換前の手話動作の同期を停止して、変換後の手話動作をアバタ動作として、サーバ３００に送信する。サーバ３００が手話動作をアバタ生成装置１００に送信すると、表示部１５０が第２アバタＡ２を表示する。これにより、第１ユーザＵ１が使用する手話言語で第２アバタＡ２が手話動作を行う。また、アバタ生成装置１００がアバタ生成装置１００Ａと同様に手話言語を変換してもよい。手話言語が異なる手話使用者同士のコミュニケーションも、互いのアバタでボーダレスにコミュニケーションがとれるようになる。

【0058】

また、第２ユーザＵ２が手話動作を行っていない場合、アバタ動作管理部１３６Ａは、連動動作をアバタ動作として、サーバ３００に送信する。サーバ３００が手話動作と関係のない連動動作をアバタ生成装置１００に送信すると、表示部１５０が第２アバタＡ２を表示する。これにより、第２アバタＡ２が手話動作以外の連動動作を行う。よって、第１ユーザＵ１と第２ユーザＵ２とが適切にコミュニケーションすることができる。つまり、第１ユーザＵ１は、第２ユーザＵ２の手話動作以外の動作を視認することができるため、コミュニケーションが取りやすくなる。

【0059】

第１ユーザＵ１、第２ユーザＵ２は予め国籍や使用している手話言語をアバタ生成装置１００、１００Ａに入力するようにしても良い。これにより、手話判定部１３２及び手話動作生成部１３５が、使用している手話データを記憶部１４０から読み出すことができる。手話判定部１３２が、正確に判定を行うことができる。さらに、手話動作生成部１３５が、手話動作を正確に生成することができる。国籍の異なる手話利用者同士が、３Ｄアバタとなり、手話を変換してボーダレスに会話するようにしてもよい。

【0060】

次に、図４を用いて、アバタ生成方法について説明する。図４は、アバタ生成装置１００によるアバタ生成方法を示すフローチャートである。

【0061】

音声信号取得部１２２が、マイク１２１を用いて、音声信号を取得する（Ｓ１０１）。例えば、マイク１２１が第１ユーザＵ１の音声を収音することで、音声信号取得部１２２が音声信号を取得する。次に、動作検出部１１０がカメラ１１１を用いて、第１ユーザのユーザ動作を取得する（Ｓ１０２）。連動動作生成部１３７が、ユーザ動作に基づいて、第１アバタＡ１の連動動作を生成する（Ｓ１０３）。

【0062】

テキスト変換部１３４が音声信号の音声データをテキストデータに変換する（Ｓ１０４）。手話動作生成部１３５がテキストデータから手話動作を生成する（Ｓ１０５）。これにより、第１ユーザＵ１の発話内容に応じた手話動作が生成される。なお、音声データが検出されない場合、あるいは手話動作でない場合、ステップＳ１０４、Ｓ１０５の処理は省略してもよい。

【0063】

アバタ動作管理部１３６は、第１ユーザＵ１が発話中であるか否かを判定する（Ｓ１０６）。第１ユーザＵ１が発話中である場合（Ｓ１０６のＹＥＳ）、アバタ動作管理部１３６が手話動作を選択する（Ｓ１０７）。第１ユーザＵ１の発話中には、アバタ動作管理部１３６は、第１アバタＡ１に手話動作を実施させる。そして、表示部１５０が手話動作を行う第１アバタＡ１を動画像として表示する（Ｓ１０９）。第１ユーザＵ１の発話中には、アバタ動作管理部１３６は、第１アバタＡ１に手話動作を実施させる。第１ユーザＵ１が発話している場合、第１アバタＡ１が連動動作を停止して、手話動作を実施する。よって、手話動作を通じて、第２ユーザＵ２が第１ユーザＵ１の発話内容を理解することができる。

【0064】

第１ユーザＵ１が発話中でない場合（Ｓ１０６のＮＯ）、アバタ動作管理部１３６が連動動作を選択する（Ｓ１０８）。つまり、発話中以外に、アバタ動作管理部１３６は、第１アバタＡ１に連動動作を実施させる。表示部１５０が、連動動作を行う第１アバタＡ１を動画像として表示する（Ｓ１０９）。第１ユーザＵ１が発話中以外には、第１アバタＡ１が連動動作を行う。よって、第２ユーザＵ２は、第１ユーザＵ１の動作を模した連動動作を視ることができる。ユーザが、より適切にコミュニケーションを取ることができる。

【0065】

手話利用者と健常者がスムースにコミュニケーションを行うことができる。例えば、健常者である第１ユーザＵ１が手話を習得せずとも、第１ユーザＵ１と第２ユーザＵ２とコミュニケーションすることができる。また、手話を取得した健常者が通訳者として介在せずとも、第１ユーザＵ１と第２ユーザＵ２とがコミュニケーションすることができる。テキストなど視覚で補うツールを利用した場合は、そのテキストを注視する必要がある。本実施の形態によれば、第２ユーザＵ２が第１アバタＡ１を見ながら，手話での会話が可能となる。お互い仮想空間内にいるため、適切なコミュニケーションが可能となる。また、第１ユーザＵ１は第２ユーザＵ２の手話動作以外の動作を視ることができる。

【0066】

また、ボリュメトリクス技術を用いて、３次元の手話動作を検出することで、正確な読み取りが可能となる。また、手話動作とテキストデータとの間の変換処理は、機械学習で生成されたＡＩ（Artificial Intelligence）モデルなどを用いてもよい。

【0067】

また、第１ユーザＵ１の第１アバタＡ１のみを第２ユーザＵ２に対して表示してもよい。つまり、第２ユーザＵ２の第２アバタＡ２は、表示しなくてもよい。例えば、第１ユーザＵ１が３Ｄアバタとなり第２ユーザの目の前に表れて、手話を使って話しかけることができる。ユーザが他の手話変換ツールを見なくてもよいため、face to face でリアルにコミュニケーションしている体験が得られる。会話している相手以外の端末などのデバイスを見ることなく会話できるため、相手とより近い感覚が得られる。

【0068】

上記処理のうちの一部又は全部は、コンピュータプログラムによって実行されてもよい。上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（ｔａｎｇｉｂｌｅｓｔｏｒａｇｅｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ)、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ)、フラッシュＲＯＭ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

【0069】

さらに、アバタ生成装置１００，１００Ａにおける処理は、スマートフォン等のアプリケーションプログラム（アプリ）として実現することができる。例えば、ユーザがスマートフォンにアプリを予めインストールしておくことで、ユーザが容易にコミュニケーションを取ることができる。この場合、手話利用者用のアプリと、健常者用のアプリとは別のプログラムであってもよい。また、手話利用者はアプリを通じて、使用する手話言語を予め入力するようにしてもよい。例えば、手話利用者は、プルダウンメニューなどから複数の手話言語から使用する手話言語を選択してもよい。

【0070】

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記実施の形態に限られたものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。上記の実施の形態の２つ以上を適宜組み合わせることも可能である。

【符号の説明】

【0071】

１００、１００Ａアバタ生成装置
１１０、１１０Ａ動作検出部
１１１、１１１Ａカメラ
１１２、１１２Ａ動作取得部
１２０音声入出力部
１２１マイク
１２２音声信号取得部
１２３スピーカ
１３０、１３０Ａアバタ処理部
１３１、１３１Ａ動き情報抽出部
１３２、１３２Ａ手話判定部
１３３自然言語変換部
１３４、１３４Ａテキスト変換部
１３５、１３５Ａ手話動作生成部
１３６、１３６Ａアバタ動作管理部
１３７、１３７Ａ連動動作生成部
１４０、１４０Ａ記憶部
１５０、１５０Ａ表示部
Ｕ１第１ユーザ
Ｕ２第２ユーザ
Ａ１第１アバタ
Ａ２第２アバタ

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版