IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ NECプラットフォームズ株式会社の特許一覧

特開2023-112556視覚化装置、視覚化方法、及びプログラム
<>
  • 特開-視覚化装置、視覚化方法、及びプログラム 図1
  • 特開-視覚化装置、視覚化方法、及びプログラム 図2
  • 特開-視覚化装置、視覚化方法、及びプログラム 図3
  • 特開-視覚化装置、視覚化方法、及びプログラム 図4
  • 特開-視覚化装置、視覚化方法、及びプログラム 図5
  • 特開-視覚化装置、視覚化方法、及びプログラム 図6
  • 特開-視覚化装置、視覚化方法、及びプログラム 図7
  • 特開-視覚化装置、視覚化方法、及びプログラム 図8
  • 特開-視覚化装置、視覚化方法、及びプログラム 図9
  • 特開-視覚化装置、視覚化方法、及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023112556
(43)【公開日】2023-08-14
(54)【発明の名称】視覚化装置、視覚化方法、及びプログラム
(51)【国際特許分類】
   H04N 5/64 20060101AFI20230804BHJP
   G10L 15/22 20060101ALI20230804BHJP
   G10L 15/10 20060101ALI20230804BHJP
   G10L 25/63 20130101ALI20230804BHJP
【FI】
H04N5/64 511A
G10L15/22 460Z
G10L15/10 400R
G10L25/63
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022014425
(22)【出願日】2022-02-01
(71)【出願人】
【識別番号】000227205
【氏名又は名称】NECプラットフォームズ株式会社
(74)【代理人】
【識別番号】100080816
【弁理士】
【氏名又は名称】加藤 朝道
(74)【代理人】
【識別番号】100098648
【弁理士】
【氏名又は名称】内田 潔人
(72)【発明者】
【氏名】渡邊 恵理子
(57)【要約】
【課題】会話時にマスク等で口が隠れている場合にも円滑にコミュニケーションをとることに貢献する視覚化装置、視覚化方法、及びプログラムの提供。
【解決手段】音声を取得する音声取得部と、前記音声を認識して認識データとする音声認識部と、前記認識データを視覚化した視覚化データを生成する視覚化部と、前記視覚化データを映像として提示する提示部と、を有する視覚化装置を提供する。
【選択図】図1
【特許請求の範囲】
【請求項1】
音声を取得する音声取得部と、
前記音声を認識して認識データとする音声認識部と、
前記認識データを視覚化した視覚化データを生成する視覚化部と、
前記視覚化データを映像として提示する提示部と、
を有する視覚化装置。
【請求項2】
前記視覚化部は、前記認識データを発話したときの口の形状を表す映像である視覚化データを生成する、
請求項1の視覚化装置。
【請求項3】
前記音声認識部は、前記音声を構成する各音に含まれる母音を抽出し認識データとする、請求項1又は2の視覚化装置。
【請求項4】
前記提示部は、前記視覚化データを透過型表示装置に提示する、
請求項1から3のいずれか一の視覚化装置。
【請求項5】
会話の相手の身体の部位を認識した身体認識データを生成する身体認識部をさらに有し、
提示部は、前記身体認識データに基づいて視覚化データを提示する、
請求項1から4のいずれか一の視覚化装置。
【請求項6】
前記身体認識部は、会話の相手の口の位置を認識した身体認識データを生成し、
前記提示部は前記視覚化データにかかる前記口の形状を表す映像を、前記身体認識データを用いて会話の相手の口の位置に配置する、
請求項5の視覚化装置。
【請求項7】
前記音声認識部は、さらに前記音声を認識してテキスト形式の認識データとし、
前記提示部は、さらに前記テキスト形式の認識データを提示する、
請求項1から6のいずれか一の視覚化装置。
【請求項8】
前記音声認識部は、さらに前記音声から会話の相手の感情を推定した感情データを取得し、
前記視覚化部は、さらに前記感情データに基づいて視覚化データを生成する、
請求項1から7のいずれか一の視覚化装置。
【請求項9】
音声を取得するステップと、
前記音声を認識して認識データとするステップと、
前記認識データを視覚化した視覚化データを生成するステップと、
前記視覚化データを提示するステップと、
を有する視覚化方法。
【請求項10】
音声を取得する処理と、
前記音声を認識して認識データとする処理と、
前記認識データを視覚化した視覚化データを生成する処理と、
前記視覚化データを提示する処理と、
をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視覚化装置、視覚化方法、及びプログラムに関する。
【背景技術】
【0002】
聴覚に障がいをもつ人で、相手の口の動きを読み取って会話の補助とする場合があるが、疾病予防などのためにマスクを着用している人が多くなると口の動きを読み取ることができず、コミュニケーションに困難が生じる場合がある。
【0003】
特許文献1には以下のような情報処理装置が開示されている。第1の動作主体が音声利用者で第2の動作主体が手話利用者である場合に、同装置は、第1の動作主体が音声で発話したメッセージを、当該メッセージに対応する手話のジェスチャを行う手の動画に変換し、透過型ディスプレイに映る第1の動作主体に重畳して表示する発明が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2019/003616号
【発明の概要】
【発明が解決しようとする課題】
【0005】
なお、上記先行技術文献の各開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明者らによってなされたものである。
【0006】
しかしながら、聴覚に障がいのある方でも、手話によってコミュニケーションをとることができない場合が少なくなく、若干の音声と相手の口の動きでコミュニケーションを行ないたいという要望が存在する。
【0007】
本発明は、会話時にマスク等で口が隠れている場合にも円滑にコミュニケーションをとることが可能な視覚化装置、視覚化方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明乃至開示の第一の視点によれば、音声を取得する音声取得部と、前記音声を認識して認識データとする音声認識部と、前記認識データを視覚化した視覚化データを生成する視覚化部と、前記視覚化データを映像として提示する提示部と、を有する視覚化装置が提供される。
【0009】
本発明乃至開示の第二の視点によれば音声を取得するステップと、前記音声を認識して認識データとするステップと、前記認識データを視覚化した視覚化データを生成するステップと、前記視覚化データを提示するステップと、を有する視覚化方法が提供される。
【0010】
本発明乃至開示の第三の視点によれば、音声を取得する処理と、前記音声を認識して認識データとする処理と、前記認識データを視覚化した視覚化データを生成する処理と、前記視覚化データを提示する処理と、をコンピュータに実行させるためのプログラムが提供される。
【発明の効果】
【0011】
本発明乃至開示の各視点によれば、会話時にマスク等で口が隠れている場合にも円滑にコミュニケーションをとることに貢献する視覚化装置、視覚化方法、及びプログラムを提供する。
【図面の簡単な説明】
【0012】
図1】一実施形態に係る視覚化装置の構成の一例を示すブロック図である。
図2】第1の実施形態における本実施形態の視覚化装置の構成の一例を示すブロック図である。
図3】第1の実施形態における視覚化装置における処理の概要を示すための概略図である。
図4】第1の実施形態に係る視覚化装置の動作の一例を示すフローチャートである。
図5】第1の実施形態に係る視覚化装置のハードウエア構成を示す概略図である。
図6】第2の実施形態に係る視覚化装置に対応する補助器具Aの処理を示すための概略図である。
図7】第2の実施形態に係る視覚化装置に対応する補助器具Aの構成を示すための概略図である。
図8】第2の実施形態に係る視覚化装置に対応する補助器具Aの処理を示すための別の概略図である。
図9】第2の実施形態に係る音声解析部の動作の詳細を示すためのフローチャートである。
図10】第2の実施形態に係る画面表示部の動作の詳細を示すためのフローチャートである。
【発明を実施するための形態】
【0013】
初めに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。また、各図におけるブロック間の接続線は、双方向及び単方向の双方を含む。一方向矢印については、主たる信号(データ)の流れを模式的に示すものであり、双方向性を排除するものではない。さらに、本願開示に示す回路図、ブロック図、内部構成図、接続図などにおいて、明示は省略するが、入力ポート及び出力ポートが各接続線の入力端及び出力端のそれぞれに存在する。入出力インタフェースも同様である。
【0014】
図1は一実施形態に係る視覚化装置の構成の一例を示すブロック図である。この図にあるように、一実施形態に係る視覚化装置10は、音声取得部11と、音声認識部12と、視覚化部13と、提示部14と、を有する。
【0015】
音声取得部11は音声を取得する。「音声」は発話時の音声を指すが、必ずしも発話者が目の前に居る必要はない。例えば、駅や車内、防災無線等におけるアナウンスの声なども「音声」に含まれる。「取得」とは、マイク等の入力装置により音声を取得して音声データとして記憶域に一時的に格納することにより音声データ化されたデータをネットワークや記憶媒体を介して取得する態様も含まれる。音声データの形式は特に限定されないが、会話時に即時認識しながら視覚化処理を実行するためには展開処理に時間がかかり応答性能が悪くなるため、非圧縮又は圧縮率の低いデータであることが望ましい。格納された音声データは後述の音声認識部12へ送られる。
【0016】
音声認識部12は、前記音声を認識して認識データとする。音声データを音声認識プログラムに入力し、認識データを出力する。音声認識プログラムの認識方式は特に限定されないが、会話時には即時処理の必要性が高いため、高速に処理可能であり、かつ、音声データを入力しながら同時に認識処理を遂行することができる方式が望ましい。「認識データ」とは一般に音声データをテキストデータへ出力したものを指す場合が多いが、必ずしもテキストデータとする必要はなく、例えば音声データを音素からなるデータへ出力したものでもよい。さらに、高速化のため、音素中の母音のみを認識し、データとして出力したものでもよい。
【0017】
また例えば、音声の波形データと発話時の視覚化データの要素である口の形状とを関連付けて、波形データと音声データの類似度に応じて口の形状をアウトプットする態様でもよい。このように言語非依存の音響モデルと視覚化データを直接関連付けすることによって、日本語に限定されず外国語の音声も視覚化することが可能である。
【0018】
視覚化部13は、前記認識データを視覚化した視覚化データを生成する。「視覚化」とは音声の特徴量を視覚で認識可能な態様に変換することを指し、例えばテキストや、手話などのジェスチャ、口の動きなどが含まれる他、空間的なパターンやその動き、色、といった抽象度が高い態様に変換するといった処理も含まれる。「生成」とは、例えば認識データと、口の形状といったあらかじめ用意された視覚化データとが関連付けられていてもよいし、認識データに応じて即時に生成される視覚化のデータであってもよい。生成された視覚化データは提示部に送られる。
【0019】
提示部14は、前記視覚化データを映像として提示する。生成された視覚化データをディスプレイ装置等の出力インタフェースより出力する。提示の態様は視覚で認識可能な態様であれば種々の方式に基づく態様が考えられ、一つの態様に限定されない。
【0020】
以下に具体的な実施の形態について、図面を参照してさらに詳しく説明する。なお、各実施形態において同一構成要素には同一の符号を付し、その説明を省略する。
【0021】
[第1の実施形態]
図2は本実施形態の視覚化装置の構成の一例を示すブロック図である。本実施形態の視覚化装置10は下記の構成を有する。すなわち、第1の実施形態に係る視覚化装置10は、図1に示す通り一実施形態と同様に、音声取得部11と、音声認識部12と、視覚化部13と、提示部14と、を有する。本実施形態の視覚化装置10は上記構成要件に加えて身体認識部15を新たに有する。
【0022】
本実施形態の視覚化部13は、音声認識部12にて認識された認識データを発話したときの口の形状を表す映像である視覚化データを生成してもよい。図3(A)~(F)は、本実施形態の視覚化装置10における処理の概要を示すための概略図である。「口の形状を表す映像」とは、図3(B)における点線部内の映像を指す。あらかじめ図3(A)の口元が隠れていない映像を撮影し、図3(B)に示すように口元が含まれる切り取り範囲を決定し、図3(C)のような切り取った映像を生成する。このとき切り取り範囲の幅や高さ等のサイズや、切り取り範囲の位置、例えば両眼からの相対位置などを取得し映像に関連付けて記憶域に保持しておく。
【0023】
次に図3(D)で示すようなマスクを装着した映像を撮影し、その映像に図3(C)の切り取り範囲の映像を重畳する。このとき図3(E)で示すように重畳する位置を例えば両眼からの相対位置から算出する。このとき映像の画角が図3(B)と図3(E)とで異なる場合には適宜重畳する映像である図3(C)を拡大又は縮小して大きさを調整する。図3(F)が提示部14が提示する映像の一例である。
【0024】
図3(C)の重畳すべき切り取り範囲の映像は認識された音声によって異なるため、事前に認識された音声に対応する口の形状を表す映像を収集してもよい。また、全ての音声に対して切り取り範囲の映像を撮影するのは時間と手間がかかるので、少なくとも1以上で、認識された音声の種類より少ない映像を撮影し、画像処理により変形させて全ての認識された音声に対応する口の形状を表す映像を生成してもよい。
【0025】
提示部14は、透明ディスプレイ装置などの透過型表示装置に視覚化データを提示してもよい。例えば、上記の図3(C)の映像を透過型表示装置より透過して見えている話者の実物に位置合わせを行って図3(F)に示すような映像が提示される態様であってもよい。この場合においては後述する身体認識部15による前処理が必要となる。
【0026】
身体認識部15は会話の相手の身体の部位を認識した身体認識データを生成する。「身体認識データ」とは、眼、口、鼻等の身体の部位をその形状により認識を行って、認識された部位の画面内の位置を求めたデータを指す。
【0027】
身体認識部15は、さらに会話の相手の口の位置を認識した身体認識データを生成し、提示部14は生成された視覚化データにかかる口の形状を表す映像を、生成された身体認識データを用いて会話の相手の口の位置に配置する処理を行ってもよい。例えば、透過型表示装置により実物に位置合わせを行いながら図3(C)のような口の形状を表す映像を重畳して提示する場合において、当部の処理により眼や頭などの身体の部位を認識してその位置を求め、基準とすることで、口の形状を表す映像の位置決めを行うことが可能である。
【0028】
音声認識部12は、さらに音声から会話の相手の感情を推定した感情データを取得し、視覚化部13は、取得された感情データに基づいて視覚化データを生成する態様であってもよい。例えば音声認識の際に入力された音声の大きさや抑揚を通常時の音響モデルと比較し、あらかじめ保持されている特徴量の特定の差異に基づいて、喜怒哀楽等の感情を推定してもよい。例えば、視覚化部は推定された感情データに応じて、図3(C)で示す口の形状を表す映像を画像処理により変形することにより、感情が表出された口の形状を生成してもよい。例えば「喜び」の感情が推定された場合には、口角を上げた映像を画像処理により生成してもよい。
【0029】
なお、音声認識部12は、さらに音声を認識してテキスト形式の認識データとし、提示部14は、テキスト形式の認識データを提示する態様であってもよい。例えば提示部14は、透過型表示装置の画面の一部にテキストの認識データを表示し、話者を表示装置越しに見ながら認識されたテキストをキャプションの様に表示する態様であってもよい。
【0030】
[動作の説明]
本実施形態の視覚化装置10の動作の一例について図4を用いて説明する。図4は、第1の実施形態に係る視覚化装置10の動作の一例を示すフローチャートである。
【0031】
同装置が動作を開始すると、カメラ等の装置により話者の映像を走査して、身体認識データを生成する(ステップS41)。なおこの処理は視覚化装置の動作を開始した後に一度だけ実行してもよい(ステップS46、Nの場合の実線部)し、話者が動くことにより口の位置が画面内で変わる場合には、話中に繰り返し実行してもよい(ステップS46、Nの場合の点線部)。次に、マイク等の装置により音声を取得する(ステップS42)。次に取得した音声を認識して認識データとする(ステップS43)。認識データを用いて視覚化データを生成する(ステップS44)。次に、身体認識データに基づいて視覚化データを映像として提示する(ステップS45)。その後終了か否かの判断を実行し(ステップS46)、終了の場合(ステップS46、Y)には動作を終了し、終了でない場合(ステップS46、N)には、引き続き音声を取得(ステップS42)、又は身体認識データを生成(ステップS41)する処理に戻る。
【0032】
身体認識データを生成するステップ(ステップS41)は、視覚化データを映像として提示するステップ(ステップS45)までに実行されていればよく、他の処理と並行して実行されてもよい。
【0033】
[ハードウエア構成]
本実施形態の視覚化装置10は、情報処理装置(コンピュータ)により構成可能であり、図5に例示する構成を備える。例えば、視覚化装置10は、内部バス55により相互に接続される、CPU(Central Processing Unit)51、メモリ52、入出力インタフェース53及び通信手段であるNIC(Network Interface Card)54等を備える。
【0034】
但し、図5に示す構成は、視覚化装置10のハードウエア構成を限定する趣旨ではない。視覚化装置10は、図示しないハードウエアを含んでもよい。また、視覚化装置10に含まれるCPU等の数も図5の例示に限定する趣旨ではなく、例えば、複数のCPUが視覚化装置10に含まれていてもよい。
【0035】
メモリ52は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)である。
【0036】
入出力インタフェース53は、図示しない表示装置や入力装置のインタフェースとなる手段である。表示装置は、例えば、透過型表示装置である透明ディスプレイやこれを搭載したスマートグラス等である。入力装置は、例えば、キーボードやマウス、ジェスチャ入力を受付けるセンサ等のユーザ操作を受付ける装置やマイク、カメラ等の対象の映像や音声を取得するための装置である。
【0037】
視覚化装置10の機能は、メモリ52に格納された音声取得プログラム、音声認識プログラム、視覚化プログラム、提示プログラム、身体認識プログラム等といったプログラム群(処理モジュール)と、音声認識のための音響モデルや、口の形状を提示するための視覚化データなどのデータ等のデータ群により実現される。当該処理モジュールは、例えば、メモリ52に格納された各プログラムをCPU51が実行することで実現される。また、そのプログラムは、ネットワークを介してダウンロードするか、あるいは、プログラムを記憶した記憶媒体を用いて、更新することができる。さらに、上記処理モジュールは、半導体チップにより実現されてもよい。即ち、上記処理モジュールが行う機能を何らかのハードウエア、及び/又は、ソフトウエアで実行する手段があればよい。
【0038】
[ハードウエアの動作]
視覚化装置10は、動作を開始すると、身体認識プログラムがメモリ52から呼び出されCPU51で実行状態となる。同プログラムはカメラを制御し、会話の相手である話者の身体の映像を取得し、例えば基準となる眼の位置や、口や鼻の相対位置を形状認識により身体認識データとして取得する。取得されたデータはメモリ52に一時的に格納される。
【0039】
次に音声取得プログラムがメモリ52から呼び出されCPU51で実行状態となる。同プログラムは、マイクを制御し話者の音声を取得する。取得された音声は音声データとしてメモリ52に一時的に格納される。
【0040】
次に音声認識プログラムがメモリ52から呼び出されCPU51で実行状態となる。同プログラムはメモリ52に一時的に格納されている音声データを読み込み、例えばメモリ52上に格納されている音響モデルの特徴量とのマッチング処理を行う。音声認識プログラムは既存の種々の音声認識方式を採用可能である。認識の結果は、例えば音素単位であってもよいし言語モデルを使用した単語レベルのものでもよい。認識データはメモリ52に一時的に格納される。
【0041】
次に視覚化プログラムがメモリ52から呼び出されCPU51で実行状態となる。同プログラムはメモリ52に一時的に格納されている認識データを読み込み、認識データに関連付けられた、発声時の口の形状を表す映像を取得し、これを後述の提示プログラムに送る。あるいは、ベースとなる口の形状を表す映像を画像処理により変形させ認識結果に対応する視覚化データである映像を生成し、これを提示プログラムに送る。
【0042】
次に提示プログラムがメモリ52から呼び出されCPU51で実行状態となる。同プログラムは、視覚化プログラムから視覚化データを読み込み、透明ディスプレイなどの表示装置に出力する。ここで、同プログラムはメモリ52に一時的に格納されている身体認識データを読み込み、視覚化データを表示する位置決め処理を実行する。具体的には例えば透明ディスプレイに映る話者の眼の位置を基準とし、身体認識データに含まれる眼の位置からの相対距離の分だけ離れた位置等に視覚化データを配置する処理を実行する。これにより透明ディスプレイを透して見える実物の話者の口の位置と、口の形状を表す映像である図3(C)のような視覚化データの位置を合わせて図3(F)のように話者を映すことが可能である。
【0043】
[効果の説明]
上記第1の実施形態に係る視覚化装置により、会話時にマスク等で口が隠れている場合にも円滑にコミュニケーションをとることが可能である。また、透明ディスプレイに映る実物の話者の姿に視覚化データを重畳する場合において、会話の際に発話者が動いても、自然な形で口の動きを提示することが可能である。
【0044】
[第2の実施形態]
本実施形態では、透過型表示装置であるスマートグラスに映る話者の姿に口の形の映像を重畳する機器(補助器具A、視覚化装置10に対応)について述べる。図6は本実施形態の視覚化装置に対応する補助器具Aの処理を示すための概略図である。この図にあるように、補助器具Aは透過型のディスプレイを有するスマートグラス601とマイク602及び音声解析機能とディスプレイへの画面表示機能とをもつ。スマートグラス601は聴き手603が装着し、マイク602で収音した話者604の音声を音声解析部にて単音の単位に分解・分析し、分析した結果をもとに画面表示部からスマートグラス601へ表示を行う。
【0045】
本実施形態の補助器具Aは下記の構成を有する。図7は本実施形態の視覚化装置に対応する補助器具Aの構成を示すための概略図である。また図8は第2の実施形態に係る視覚化装置に対応する補助器具Aの処理を示すための別の概略図である。すなわち、図7に示す通り、例えばグラス型のウェアブルデバイスで、マイク701(音声取得部11に対応)、透過型ディスプレイ702(提示部14に対応)、音声解析部703(音声認識部12に対応)、画面表示部704(視覚化部13と提示部14とに対応)で構成される。音声解析部703は、マイクから入力された音声を解析し、口の形の画像を生成し、画面表示部704は、図8の通り生成した口の形の画像801をスマートグラス802が有する透過型ディスプレイ803に表示する。
【0046】
図9は、第2の実施形態に係る音声解析部703の動作の詳細を示すためのフローチャートである。まず一定時間の間(ステップS901)入力音声データを蓄積し(ステップS902)、一定時間後に蓄積した音声データを解析し、母音の単位で分割する(ステップS903)。その後、分割した音声データを1音ずつ画面表示部に送信する(ステップS904)。
【0047】
図10は、第2の実施形態に係る画面表示部704の動作の詳細を示すためのフローチャートである。音声解析部から受信した1音分の音データから、その音に合致した口の形の画像を生成し(ステップS1001)、一定時間の間(ステップS1003)ディスプレイに表示(ステップS1002)してもよい。
【0048】
前述の実施形態の一部又は全部は、以下の各付記のようにも記載することができる。しかしながら、以下の各付記は、あくまでも、本発明の単なる例示に過ぎず、本発明は、かかる場合のみに限るものではない。
[付記1]
上述の第一の視点に係る視覚化装置のとおりである。
[付記2]
視覚化部は、認識データを発話したときの口の形状を表す映像である視覚化データを生成する、好ましくは付記1の視覚化装置。
[付記3]
音声認識部は、音声を構成する各音に含まれる母音を抽出し認識データとする、好ましくは付記1又は2の視覚化装置。
[付記4]
提示部は、視覚化データを透過型表示装置に提示する、好ましくは付記1から3のいずれか一の視覚化装置。
[付記5]
会話の相手の身体の部位を認識した身体認識データを生成する身体認識部をさらに有し、提示部は、前記身体認識データに基づいて視覚化データを提示する、好ましくは付記1から4のいずれか一の視覚化装置。
[付記6]
身体認識部は、会話の相手の口の位置を認識した身体認識データを生成し、提示部は視覚化データにかかる口の形状を表す映像を、身体認識データを用いて会話の相手の口の位置に配置する、好ましくは付記5の視覚化装置。
[付記7]
音声認識部は、さらに前記音声を認識してテキスト形式の認識データとし、提示部は、さらに前記テキスト形式の認識データを提示する、好ましくは付記1から6のいずれか一の視覚化装置。
[付記8]
音声認識部は、さらに音声から会話の相手の感情を推定した感情データを取得し、視覚化部は、さらに感情データに基づいて視覚化データを生成する、好ましくは付記1から7のいずれか一の視覚化装置。
[付記9]
上述の第二の視点に係る視覚化方法のとおりである。
[付記10]
上述の第三の視点に係るプログラムのとおりである。
なお、付記9及び付記10は、付記1と同様に、付記2~付記8に展開することが可能である。
【0049】
なお、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。本発明の全開示(特許請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択(部分的削除を含む)が可能である。すなわち、本発明は、特許請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
【符号の説明】
【0050】
10:視覚化装置
11:音声取得部
12:音声認識部
13:視覚化部
14:提示部
15:身体認識部
51:CPU
52:メモリ
53:入出力インタフェース
55:内部バス
601:スマートグラス
602:マイク
603:聴き手
604:話者
701:マイク
702:透過型ディスプレイ
703:音声解析部
704:画面表示部
801:画像
802:スマートグラス
803:透過型ディスプレイ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10