特開2023-112556 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＮＥＣプラットフォームズ株式会社の特許一覧

特開2023-112556視覚化装置、視覚化方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023112556

(43)【公開日】2023-08-14

(54)【発明の名称】視覚化装置、視覚化方法、及びプログラム

(51)【国際特許分類】

H04N 5/64 20060101AFI20230804BHJP

G10L 15/22 20060101ALI20230804BHJP

G10L 15/10 20060101ALI20230804BHJP

G10L 25/63 20130101ALI20230804BHJP

【ＦＩ】

H04N5/64 511A

G10L15/22 460Z

G10L15/10 400R

G10L25/63

【審査請求】有

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022014425

(22)【出願日】2022-02-01

(71)【出願人】

【識別番号】000227205

【氏名又は名称】ＮＥＣプラットフォームズ株式会社

(74)【代理人】

【識別番号】100080816

【弁理士】

【氏名又は名称】加藤朝道

(74)【代理人】

【識別番号】100098648

【弁理士】

【氏名又は名称】内田潔人

(72)【発明者】

【氏名】渡邊恵理子

(57)【要約】

【課題】会話時にマスク等で口が隠れている場合にも円滑にコミュニケーションをとることに貢献する視覚化装置、視覚化方法、及びプログラムの提供。
【解決手段】音声を取得する音声取得部と、前記音声を認識して認識データとする音声認識部と、前記認識データを視覚化した視覚化データを生成する視覚化部と、前記視覚化データを映像として提示する提示部と、を有する視覚化装置を提供する。
【選択図】図１

【特許請求の範囲】

【請求項1】

音声を取得する音声取得部と、
前記音声を認識して認識データとする音声認識部と、
前記認識データを視覚化した視覚化データを生成する視覚化部と、
前記視覚化データを映像として提示する提示部と、
を有する視覚化装置。

【請求項2】

前記視覚化部は、前記認識データを発話したときの口の形状を表す映像である視覚化データを生成する、
請求項１の視覚化装置。

【請求項3】

前記音声認識部は、前記音声を構成する各音に含まれる母音を抽出し認識データとする、請求項１又は２の視覚化装置。

【請求項4】

前記提示部は、前記視覚化データを透過型表示装置に提示する、
請求項１から３のいずれか一の視覚化装置。

【請求項5】

会話の相手の身体の部位を認識した身体認識データを生成する身体認識部をさらに有し、
提示部は、前記身体認識データに基づいて視覚化データを提示する、
請求項１から４のいずれか一の視覚化装置。

【請求項6】

前記身体認識部は、会話の相手の口の位置を認識した身体認識データを生成し、
前記提示部は前記視覚化データにかかる前記口の形状を表す映像を、前記身体認識データを用いて会話の相手の口の位置に配置する、
請求項５の視覚化装置。

【請求項7】

前記音声認識部は、さらに前記音声を認識してテキスト形式の認識データとし、
前記提示部は、さらに前記テキスト形式の認識データを提示する、
請求項１から６のいずれか一の視覚化装置。

【請求項8】

前記音声認識部は、さらに前記音声から会話の相手の感情を推定した感情データを取得し、
前記視覚化部は、さらに前記感情データに基づいて視覚化データを生成する、
請求項１から７のいずれか一の視覚化装置。

【請求項9】

音声を取得するステップと、
前記音声を認識して認識データとするステップと、
前記認識データを視覚化した視覚化データを生成するステップと、
前記視覚化データを提示するステップと、
を有する視覚化方法。

【請求項10】

音声を取得する処理と、
前記音声を認識して認識データとする処理と、
前記認識データを視覚化した視覚化データを生成する処理と、
前記視覚化データを提示する処理と、
をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、視覚化装置、視覚化方法、及びプログラムに関する。

【背景技術】

【0002】

聴覚に障がいをもつ人で、相手の口の動きを読み取って会話の補助とする場合があるが、疾病予防などのためにマスクを着用している人が多くなると口の動きを読み取ることができず、コミュニケーションに困難が生じる場合がある。

【0003】

特許文献１には以下のような情報処理装置が開示されている。第１の動作主体が音声利用者で第２の動作主体が手話利用者である場合に、同装置は、第１の動作主体が音声で発話したメッセージを、当該メッセージに対応する手話のジェスチャを行う手の動画に変換し、透過型ディスプレイに映る第１の動作主体に重畳して表示する発明が記載されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】国際公開第２０１９／００３６１６号

【発明の概要】

【発明が解決しようとする課題】

【0005】

なお、上記先行技術文献の各開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明者らによってなされたものである。

【0006】

しかしながら、聴覚に障がいのある方でも、手話によってコミュニケーションをとることができない場合が少なくなく、若干の音声と相手の口の動きでコミュニケーションを行ないたいという要望が存在する。

【0007】

本発明は、会話時にマスク等で口が隠れている場合にも円滑にコミュニケーションをとることが可能な視覚化装置、視覚化方法、及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

本発明乃至開示の第一の視点によれば、音声を取得する音声取得部と、前記音声を認識して認識データとする音声認識部と、前記認識データを視覚化した視覚化データを生成する視覚化部と、前記視覚化データを映像として提示する提示部と、を有する視覚化装置が提供される。

【0009】

本発明乃至開示の第二の視点によれば音声を取得するステップと、前記音声を認識して認識データとするステップと、前記認識データを視覚化した視覚化データを生成するステップと、前記視覚化データを提示するステップと、を有する視覚化方法が提供される。

【0010】

本発明乃至開示の第三の視点によれば、音声を取得する処理と、前記音声を認識して認識データとする処理と、前記認識データを視覚化した視覚化データを生成する処理と、前記視覚化データを提示する処理と、をコンピュータに実行させるためのプログラムが提供される。

【発明の効果】

【0011】

本発明乃至開示の各視点によれば、会話時にマスク等で口が隠れている場合にも円滑にコミュニケーションをとることに貢献する視覚化装置、視覚化方法、及びプログラムを提供する。

【図面の簡単な説明】

【0012】

【図1】一実施形態に係る視覚化装置の構成の一例を示すブロック図である。

【図2】第１の実施形態における本実施形態の視覚化装置の構成の一例を示すブロック図である。

【図3】第１の実施形態における視覚化装置における処理の概要を示すための概略図である。

【図4】第１の実施形態に係る視覚化装置の動作の一例を示すフローチャートである。

【図5】第１の実施形態に係る視覚化装置のハードウエア構成を示す概略図である。

【図6】第２の実施形態に係る視覚化装置に対応する補助器具Ａの処理を示すための概略図である。

【図7】第２の実施形態に係る視覚化装置に対応する補助器具Ａの構成を示すための概略図である。

【図8】第２の実施形態に係る視覚化装置に対応する補助器具Ａの処理を示すための別の概略図である。

【図9】第２の実施形態に係る音声解析部の動作の詳細を示すためのフローチャートである。

【図10】第２の実施形態に係る画面表示部の動作の詳細を示すためのフローチャートである。

【発明を実施するための形態】

【0013】

初めに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。また、各図におけるブロック間の接続線は、双方向及び単方向の双方を含む。一方向矢印については、主たる信号（データ）の流れを模式的に示すものであり、双方向性を排除するものではない。さらに、本願開示に示す回路図、ブロック図、内部構成図、接続図などにおいて、明示は省略するが、入力ポート及び出力ポートが各接続線の入力端及び出力端のそれぞれに存在する。入出力インタフェースも同様である。

【0014】

図１は一実施形態に係る視覚化装置の構成の一例を示すブロック図である。この図にあるように、一実施形態に係る視覚化装置１０は、音声取得部１１と、音声認識部１２と、視覚化部１３と、提示部１４と、を有する。

【0015】

音声取得部１１は音声を取得する。「音声」は発話時の音声を指すが、必ずしも発話者が目の前に居る必要はない。例えば、駅や車内、防災無線等におけるアナウンスの声なども「音声」に含まれる。「取得」とは、マイク等の入力装置により音声を取得して音声データとして記憶域に一時的に格納することにより音声データ化されたデータをネットワークや記憶媒体を介して取得する態様も含まれる。音声データの形式は特に限定されないが、会話時に即時認識しながら視覚化処理を実行するためには展開処理に時間がかかり応答性能が悪くなるため、非圧縮又は圧縮率の低いデータであることが望ましい。格納された音声データは後述の音声認識部１２へ送られる。

【0016】

音声認識部１２は、前記音声を認識して認識データとする。音声データを音声認識プログラムに入力し、認識データを出力する。音声認識プログラムの認識方式は特に限定されないが、会話時には即時処理の必要性が高いため、高速に処理可能であり、かつ、音声データを入力しながら同時に認識処理を遂行することができる方式が望ましい。「認識データ」とは一般に音声データをテキストデータへ出力したものを指す場合が多いが、必ずしもテキストデータとする必要はなく、例えば音声データを音素からなるデータへ出力したものでもよい。さらに、高速化のため、音素中の母音のみを認識し、データとして出力したものでもよい。

【0017】

また例えば、音声の波形データと発話時の視覚化データの要素である口の形状とを関連付けて、波形データと音声データの類似度に応じて口の形状をアウトプットする態様でもよい。このように言語非依存の音響モデルと視覚化データを直接関連付けすることによって、日本語に限定されず外国語の音声も視覚化することが可能である。

【0018】

視覚化部１３は、前記認識データを視覚化した視覚化データを生成する。「視覚化」とは音声の特徴量を視覚で認識可能な態様に変換することを指し、例えばテキストや、手話などのジェスチャ、口の動きなどが含まれる他、空間的なパターンやその動き、色、といった抽象度が高い態様に変換するといった処理も含まれる。「生成」とは、例えば認識データと、口の形状といったあらかじめ用意された視覚化データとが関連付けられていてもよいし、認識データに応じて即時に生成される視覚化のデータであってもよい。生成された視覚化データは提示部に送られる。

【0019】

提示部１４は、前記視覚化データを映像として提示する。生成された視覚化データをディスプレイ装置等の出力インタフェースより出力する。提示の態様は視覚で認識可能な態様であれば種々の方式に基づく態様が考えられ、一つの態様に限定されない。

【0020】

以下に具体的な実施の形態について、図面を参照してさらに詳しく説明する。なお、各実施形態において同一構成要素には同一の符号を付し、その説明を省略する。

【0021】

［第１の実施形態］
図２は本実施形態の視覚化装置の構成の一例を示すブロック図である。本実施形態の視覚化装置１０は下記の構成を有する。すなわち、第１の実施形態に係る視覚化装置１０は、図１に示す通り一実施形態と同様に、音声取得部１１と、音声認識部１２と、視覚化部１３と、提示部１４と、を有する。本実施形態の視覚化装置１０は上記構成要件に加えて身体認識部１５を新たに有する。

【0022】

本実施形態の視覚化部１３は、音声認識部１２にて認識された認識データを発話したときの口の形状を表す映像である視覚化データを生成してもよい。図３（Ａ）～（Ｆ）は、本実施形態の視覚化装置１０における処理の概要を示すための概略図である。「口の形状を表す映像」とは、図３（Ｂ）における点線部内の映像を指す。あらかじめ図３（Ａ）の口元が隠れていない映像を撮影し、図３（Ｂ）に示すように口元が含まれる切り取り範囲を決定し、図３（Ｃ）のような切り取った映像を生成する。このとき切り取り範囲の幅や高さ等のサイズや、切り取り範囲の位置、例えば両眼からの相対位置などを取得し映像に関連付けて記憶域に保持しておく。

【0023】

次に図３（Ｄ）で示すようなマスクを装着した映像を撮影し、その映像に図３（Ｃ）の切り取り範囲の映像を重畳する。このとき図３（Ｅ）で示すように重畳する位置を例えば両眼からの相対位置から算出する。このとき映像の画角が図３（Ｂ）と図３（Ｅ）とで異なる場合には適宜重畳する映像である図３（Ｃ）を拡大又は縮小して大きさを調整する。図３（Ｆ）が提示部１４が提示する映像の一例である。

【0024】

図３（Ｃ）の重畳すべき切り取り範囲の映像は認識された音声によって異なるため、事前に認識された音声に対応する口の形状を表す映像を収集してもよい。また、全ての音声に対して切り取り範囲の映像を撮影するのは時間と手間がかかるので、少なくとも１以上で、認識された音声の種類より少ない映像を撮影し、画像処理により変形させて全ての認識された音声に対応する口の形状を表す映像を生成してもよい。

【0025】

提示部１４は、透明ディスプレイ装置などの透過型表示装置に視覚化データを提示してもよい。例えば、上記の図３（Ｃ）の映像を透過型表示装置より透過して見えている話者の実物に位置合わせを行って図３（Ｆ）に示すような映像が提示される態様であってもよい。この場合においては後述する身体認識部１５による前処理が必要となる。

【0026】

身体認識部１５は会話の相手の身体の部位を認識した身体認識データを生成する。「身体認識データ」とは、眼、口、鼻等の身体の部位をその形状により認識を行って、認識された部位の画面内の位置を求めたデータを指す。

【0027】

身体認識部１５は、さらに会話の相手の口の位置を認識した身体認識データを生成し、提示部１４は生成された視覚化データにかかる口の形状を表す映像を、生成された身体認識データを用いて会話の相手の口の位置に配置する処理を行ってもよい。例えば、透過型表示装置により実物に位置合わせを行いながら図３（Ｃ）のような口の形状を表す映像を重畳して提示する場合において、当部の処理により眼や頭などの身体の部位を認識してその位置を求め、基準とすることで、口の形状を表す映像の位置決めを行うことが可能である。

【0028】

音声認識部１２は、さらに音声から会話の相手の感情を推定した感情データを取得し、視覚化部１３は、取得された感情データに基づいて視覚化データを生成する態様であってもよい。例えば音声認識の際に入力された音声の大きさや抑揚を通常時の音響モデルと比較し、あらかじめ保持されている特徴量の特定の差異に基づいて、喜怒哀楽等の感情を推定してもよい。例えば、視覚化部は推定された感情データに応じて、図３（Ｃ）で示す口の形状を表す映像を画像処理により変形することにより、感情が表出された口の形状を生成してもよい。例えば「喜び」の感情が推定された場合には、口角を上げた映像を画像処理により生成してもよい。

【0029】

なお、音声認識部１２は、さらに音声を認識してテキスト形式の認識データとし、提示部１４は、テキスト形式の認識データを提示する態様であってもよい。例えば提示部１４は、透過型表示装置の画面の一部にテキストの認識データを表示し、話者を表示装置越しに見ながら認識されたテキストをキャプションの様に表示する態様であってもよい。

【0030】

［動作の説明］
本実施形態の視覚化装置１０の動作の一例について図４を用いて説明する。図４は、第１の実施形態に係る視覚化装置１０の動作の一例を示すフローチャートである。

【0031】

同装置が動作を開始すると、カメラ等の装置により話者の映像を走査して、身体認識データを生成する（ステップＳ４１）。なおこの処理は視覚化装置の動作を開始した後に一度だけ実行してもよい（ステップＳ４６、Ｎの場合の実線部）し、話者が動くことにより口の位置が画面内で変わる場合には、話中に繰り返し実行してもよい（ステップＳ４６、Ｎの場合の点線部）。次に、マイク等の装置により音声を取得する（ステップＳ４２）。次に取得した音声を認識して認識データとする（ステップＳ４３）。認識データを用いて視覚化データを生成する（ステップＳ４４）。次に、身体認識データに基づいて視覚化データを映像として提示する（ステップＳ４５）。その後終了か否かの判断を実行し（ステップＳ４６）、終了の場合（ステップＳ４６、Ｙ）には動作を終了し、終了でない場合（ステップＳ４６、Ｎ）には、引き続き音声を取得（ステップＳ４２）、又は身体認識データを生成（ステップＳ４１）する処理に戻る。

【0032】

身体認識データを生成するステップ（ステップＳ４１）は、視覚化データを映像として提示するステップ（ステップＳ４５）までに実行されていればよく、他の処理と並行して実行されてもよい。

【0033】

［ハードウエア構成］
本実施形態の視覚化装置１０は、情報処理装置（コンピュータ）により構成可能であり、図５に例示する構成を備える。例えば、視覚化装置１０は、内部バス５５により相互に接続される、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５１、メモリ５２、入出力インタフェース５３及び通信手段であるＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）５４等を備える。

【0034】

但し、図５に示す構成は、視覚化装置１０のハードウエア構成を限定する趣旨ではない。視覚化装置１０は、図示しないハードウエアを含んでもよい。また、視覚化装置１０に含まれるＣＰＵ等の数も図５の例示に限定する趣旨ではなく、例えば、複数のＣＰＵが視覚化装置１０に含まれていてもよい。

【0035】

メモリ５２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、補助記憶装置（ハードディスク等）である。

【0036】

入出力インタフェース５３は、図示しない表示装置や入力装置のインタフェースとなる手段である。表示装置は、例えば、透過型表示装置である透明ディスプレイやこれを搭載したスマートグラス等である。入力装置は、例えば、キーボードやマウス、ジェスチャ入力を受付けるセンサ等のユーザ操作を受付ける装置やマイク、カメラ等の対象の映像や音声を取得するための装置である。

【0037】

視覚化装置１０の機能は、メモリ５２に格納された音声取得プログラム、音声認識プログラム、視覚化プログラム、提示プログラム、身体認識プログラム等といったプログラム群（処理モジュール）と、音声認識のための音響モデルや、口の形状を提示するための視覚化データなどのデータ等のデータ群により実現される。当該処理モジュールは、例えば、メモリ５２に格納された各プログラムをＣＰＵ５１が実行することで実現される。また、そのプログラムは、ネットワークを介してダウンロードするか、あるいは、プログラムを記憶した記憶媒体を用いて、更新することができる。さらに、上記処理モジュールは、半導体チップにより実現されてもよい。即ち、上記処理モジュールが行う機能を何らかのハードウエア、及び／又は、ソフトウエアで実行する手段があればよい。

【0038】

［ハードウエアの動作］
視覚化装置１０は、動作を開始すると、身体認識プログラムがメモリ５２から呼び出されＣＰＵ５１で実行状態となる。同プログラムはカメラを制御し、会話の相手である話者の身体の映像を取得し、例えば基準となる眼の位置や、口や鼻の相対位置を形状認識により身体認識データとして取得する。取得されたデータはメモリ５２に一時的に格納される。

【0039】

次に音声取得プログラムがメモリ５２から呼び出されＣＰＵ５１で実行状態となる。同プログラムは、マイクを制御し話者の音声を取得する。取得された音声は音声データとしてメモリ５２に一時的に格納される。

【0040】

次に音声認識プログラムがメモリ５２から呼び出されＣＰＵ５１で実行状態となる。同プログラムはメモリ５２に一時的に格納されている音声データを読み込み、例えばメモリ５２上に格納されている音響モデルの特徴量とのマッチング処理を行う。音声認識プログラムは既存の種々の音声認識方式を採用可能である。認識の結果は、例えば音素単位であってもよいし言語モデルを使用した単語レベルのものでもよい。認識データはメモリ５２に一時的に格納される。

【0041】

次に視覚化プログラムがメモリ５２から呼び出されＣＰＵ５１で実行状態となる。同プログラムはメモリ５２に一時的に格納されている認識データを読み込み、認識データに関連付けられた、発声時の口の形状を表す映像を取得し、これを後述の提示プログラムに送る。あるいは、ベースとなる口の形状を表す映像を画像処理により変形させ認識結果に対応する視覚化データである映像を生成し、これを提示プログラムに送る。

【0042】

次に提示プログラムがメモリ５２から呼び出されＣＰＵ５１で実行状態となる。同プログラムは、視覚化プログラムから視覚化データを読み込み、透明ディスプレイなどの表示装置に出力する。ここで、同プログラムはメモリ５２に一時的に格納されている身体認識データを読み込み、視覚化データを表示する位置決め処理を実行する。具体的には例えば透明ディスプレイに映る話者の眼の位置を基準とし、身体認識データに含まれる眼の位置からの相対距離の分だけ離れた位置等に視覚化データを配置する処理を実行する。これにより透明ディスプレイを透して見える実物の話者の口の位置と、口の形状を表す映像である図３（Ｃ）のような視覚化データの位置を合わせて図３（Ｆ）のように話者を映すことが可能である。

【0043】

［効果の説明］
上記第１の実施形態に係る視覚化装置により、会話時にマスク等で口が隠れている場合にも円滑にコミュニケーションをとることが可能である。また、透明ディスプレイに映る実物の話者の姿に視覚化データを重畳する場合において、会話の際に発話者が動いても、自然な形で口の動きを提示することが可能である。

【0044】

［第２の実施形態］
本実施形態では、透過型表示装置であるスマートグラスに映る話者の姿に口の形の映像を重畳する機器（補助器具Ａ、視覚化装置１０に対応）について述べる。図６は本実施形態の視覚化装置に対応する補助器具Ａの処理を示すための概略図である。この図にあるように、補助器具Ａは透過型のディスプレイを有するスマートグラス６０１とマイク６０２及び音声解析機能とディスプレイへの画面表示機能とをもつ。スマートグラス６０１は聴き手６０３が装着し、マイク６０２で収音した話者６０４の音声を音声解析部にて単音の単位に分解・分析し、分析した結果をもとに画面表示部からスマートグラス６０１へ表示を行う。

【0045】

本実施形態の補助器具Ａは下記の構成を有する。図７は本実施形態の視覚化装置に対応する補助器具Ａの構成を示すための概略図である。また図８は第２の実施形態に係る視覚化装置に対応する補助器具Ａの処理を示すための別の概略図である。すなわち、図７に示す通り、例えばグラス型のウェアブルデバイスで、マイク７０１（音声取得部１１に対応）、透過型ディスプレイ７０２（提示部１４に対応）、音声解析部７０３（音声認識部１２に対応）、画面表示部７０４（視覚化部１３と提示部１４とに対応）で構成される。音声解析部７０３は、マイクから入力された音声を解析し、口の形の画像を生成し、画面表示部７０４は、図８の通り生成した口の形の画像８０１をスマートグラス８０２が有する透過型ディスプレイ８０３に表示する。

【0046】

図９は、第２の実施形態に係る音声解析部７０３の動作の詳細を示すためのフローチャートである。まず一定時間の間（ステップＳ９０１）入力音声データを蓄積し（ステップＳ９０２）、一定時間後に蓄積した音声データを解析し、母音の単位で分割する（ステップＳ９０３）。その後、分割した音声データを1音ずつ画面表示部に送信する（ステップＳ９０４）。

【0047】

図１０は、第２の実施形態に係る画面表示部７０４の動作の詳細を示すためのフローチャートである。音声解析部から受信した1音分の音データから、その音に合致した口の形の画像を生成し（ステップＳ１００１）、一定時間の間（ステップＳ１００３）ディスプレイに表示（ステップＳ１００２）してもよい。

【0048】

前述の実施形態の一部又は全部は、以下の各付記のようにも記載することができる。しかしながら、以下の各付記は、あくまでも、本発明の単なる例示に過ぎず、本発明は、かかる場合のみに限るものではない。
［付記１］
上述の第一の視点に係る視覚化装置のとおりである。
［付記２］
視覚化部は、認識データを発話したときの口の形状を表す映像である視覚化データを生成する、好ましくは付記１の視覚化装置。
［付記３］
音声認識部は、音声を構成する各音に含まれる母音を抽出し認識データとする、好ましくは付記１又は２の視覚化装置。
［付記４］
提示部は、視覚化データを透過型表示装置に提示する、好ましくは付記１から３のいずれか一の視覚化装置。
［付記５］
会話の相手の身体の部位を認識した身体認識データを生成する身体認識部をさらに有し、提示部は、前記身体認識データに基づいて視覚化データを提示する、好ましくは付記１から４のいずれか一の視覚化装置。
［付記６］
身体認識部は、会話の相手の口の位置を認識した身体認識データを生成し、提示部は視覚化データにかかる口の形状を表す映像を、身体認識データを用いて会話の相手の口の位置に配置する、好ましくは付記５の視覚化装置。
［付記７］
音声認識部は、さらに前記音声を認識してテキスト形式の認識データとし、提示部は、さらに前記テキスト形式の認識データを提示する、好ましくは付記１から６のいずれか一の視覚化装置。
［付記８］
音声認識部は、さらに音声から会話の相手の感情を推定した感情データを取得し、視覚化部は、さらに感情データに基づいて視覚化データを生成する、好ましくは付記１から７のいずれか一の視覚化装置。
［付記９］
上述の第二の視点に係る視覚化方法のとおりである。
［付記１０］
上述の第三の視点に係るプログラムのとおりである。
なお、付記９及び付記１０は、付記１と同様に、付記２～付記８に展開することが可能である。

【0049】

なお、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。本発明の全開示（特許請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素（各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む）の多様な組み合わせ、ないし、選択（部分的削除を含む）が可能である。すなわち、本発明は、特許請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。

【符号の説明】

【0050】

１０：視覚化装置
１１：音声取得部
１２：音声認識部
１３：視覚化部
１４：提示部
１５：身体認識部
５１：ＣＰＵ
５２：メモリ
５３：入出力インタフェース
５５：内部バス
６０１：スマートグラス
６０２：マイク
６０３：聴き手
６０４：話者
７０１：マイク
７０２：透過型ディスプレイ
７０３：音声解析部
７０４：画面表示部
８０１：画像
８０２：スマートグラス
８０３：透過型ディスプレイ

【図1】