IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社JVCケンウッドの特許一覧

特許7574589コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラム
<>
  • 特許-コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラム 図1
  • 特許-コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラム 図2
  • 特許-コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラム 図3
  • 特許-コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラム 図4
  • 特許-コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラム 図5
  • 特許-コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-21
(45)【発行日】2024-10-29
(54)【発明の名称】コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラム
(51)【国際特許分類】
   G10L 15/28 20130101AFI20241022BHJP
   G06F 3/16 20060101ALI20241022BHJP
   G10L 15/10 20060101ALN20241022BHJP
【FI】
G10L15/28 400
G06F3/16 650
G10L15/10 400R
【請求項の数】 6
(21)【出願番号】P 2020160163
(22)【出願日】2020-09-24
(65)【公開番号】P2022053367
(43)【公開日】2022-04-05
【審査請求日】2023-06-30
(73)【特許権者】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】鶴 秀生
(72)【発明者】
【氏名】高田 規
(72)【発明者】
【氏名】辻井 秀弥
【審査官】土井 悠生
(56)【参考文献】
【文献】米国特許出願公開第2020/0344544(US,A1)
【文献】国際公開第2020/079918(WO,A1)
【文献】国際公開第2019/044594(WO,A1)
【文献】国際公開第2015/190360(WO,A1)
【文献】特開2014-143582(JP,A)
【文献】特開2006-025333(JP,A)
【文献】国際公開第2008/062782(WO,A1)
【文献】特開2020-064199(JP,A)
【文献】特開2000-206986(JP,A)
【文献】特開2017-009956(JP,A)
【文献】特開2004-032339(JP,A)
【文献】特開2003-284194(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
対象者の第1部分に超音波である入力振動波を送信する振動送信部と、
前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される超音波である出力振動波を前記対象者の第2部分で受信する振動受信部と、
前記入力振動波と前記出力振動波との超音波の差分波に基づいて、前記対象者が発話する音素を認識する発話認識装置と、を備える、
コミュニケーション装置。
【請求項2】
前記発話認識装置は、
前記超音波の差分波を算出する差分波生成部と、
前記超音波の差分波を直交変換して前記超音波の差分波の周波数スペクトルを算出する直交変換部と、
前記周波数スペクトルの特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記特徴量に基づいて前記対象者が発話する音素を特定する処理部と、を有する、
請求項1に記載のコミュニケーション装置。
【請求項3】
前記対象者が発話する音素と前記周波数スペクトルとの関係を示す教師データを取得し、取得した前記教師データに基づいて、前記周波数スペクトルを入力とし前記対象者が発話する音素を出力とする学習済モデルを記憶する学習済モデル記憶部を備え、
前記処理部は、前記特徴量抽出部により抽出された前記特徴量を前記学習済モデルに入力して前記音素を特定する、
請求項2に記載のコミュニケーション装置。
【請求項4】
前記第1部分と前記第2部分とは、前記対象者の中心線に対して左右対称の顎関節の関節円板の位置にある、
請求項1から請求項3のいずれか一項に記載のコミュニケーション装置。
【請求項5】
対象者の第1部分に超音波である入力振動波を送信するステップと、
前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される超音波である出力振動波を前記対象者の第2部分で受信するステップと、
前記入力振動波と前記出力振動波との超音波の差分波に基づいて、前記対象者が発話する音素を認識するステップと、を含む、
コミュニケーション方法。
【請求項6】
対象者の第1部分に超音波である入力振動波を送信するステップと、
前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される超音波である出力振動波を前記対象者の第2部分で受信するステップと、
前記入力振動波と前記出力振動波との超音波の差分波に基づいて、前記対象者が発話する音素を認識するステップと、を含むコミュニケーション方法を、コンピュータに実行させる、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラムに関する。
【背景技術】
【0002】
特許文献1に開示されているように、ユーザの発話を認識する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019-208138公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
対象者が発話できない環境又は小さい声で発話する必要がある環境において、対象者が発話しようとする音素を認識できる技術が要望される。
【0005】
本発明は、対象者が発話する音素を認識することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係るコミュニケーション装置は、対象者の第1部分に入力振動波を送信する振動送信部と、前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される出力振動波を前記対象者の第2部分で受信する振動受信部と、前記入力振動波と前記出力振動波との差分波に基づいて、前記対象者が発話する音素を認識する発話認識装置と、を備える。
【0007】
本発明の一態様に係るコミュニケーション方法は、対象者の第1部分に入力振動波を送信するステップと、前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される出力振動波を前記対象者の第2部分で受信するステップと、前記入力振動波と前記出力振動波との差分波に基づいて、前記対象者が発話する音素を認識するステップと、を含む。
【0008】
本発明の一態様に係るコンピュータプログラムは、対象者の第1部分に入力振動波を送信するステップと、前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される出力振動波を前記対象者の第2部分で受信するステップと、前記入力振動波と前記出力振動波との差分波に基づいて、前記対象者が発話する音素を認識するステップと、を含むコミュニケーション方法を、コンピュータに実行させる。
【発明の効果】
【0009】
本発明によれば、対象者が発話する音素を認識することができる。
【図面の簡単な説明】
【0010】
図1図1は、第1実施形態に係るコミュニケーション装置を示す模式図である。
図2図2は、第1実施形態に係る発話認識装置を示す機能ブロック図である。
図3図3は、第1実施形態に係る入力振動波と出力振動波との差分波との関係を模式的に示す図である。
図4図4は、第1実施形態に係る差分波の周波数スペクトルを模式的に示す図である。
図5図5は、第1実施形態に係るコミュニケーション方法を示すフローチャートである。
図6図6は、第2実施形態に係るコミュニケーション装置を示す模式図である。
【発明を実施するための形態】
【0011】
以下に、本発明の実施形態を図面に基づいて詳細に説明する。なお、以下に説明する実施形態により本発明が限定されるものではない。
【0012】
[第1実施形態]
(コミュニケーション装置)
図1は、本実施形態に係るコミュニケーション装置1を示す模式図である。図1に示すように、コミュニケーション装置1は、振動発生装置2と、振動送信部3と、振動受信部4と、発話認識装置5と、出力装置6とを備える。
【0013】
振動発生装置2は、所定の周波数の入力振動波Vaを発生する。本実施形態において、入力振動波Vaは、超音波である。
【0014】
振動送信部3は、振動発生装置2が発生した入力振動波Vaに基づいて振動する。振動送信部3は、対象者Maの身体の第1部分Paに設置される。振動送信部3は、第1部分Paに入力振動波Vaを送信する。入力振動波Vaは、対象者Maの身体の少なくとも一部を伝播する。
【0015】
振動受信部4は、対象者Maの身体の少なくとも一部を伝播した入力振動波Vaに基づいて生成される出力振動波Vbを受信する。振動受信部4は、対象者Maの身体の第2部分Pbに設置される。第2部分Pbは、第1部分Paとは異なる。振動受信部4は、第2部分Pbで出力振動波Vbを受信する。
【0016】
人間である対象者Maの骨格は、左右対称である。人間の頭部の骨格は厳密には左右非対称であるが、目鼻口などの各パーツは概ね左右対称に配置されていると言える。こうした対称性に基づき、第1部分Paと第2部分Pbとは、対象者Maの身体の中心線に対して左右対称の位置にあることが好ましい。中心線は、対象者Maの上下方向に延伸する。
【0017】
本実施形態において、第1部分Pa及び第2部分Pbのそれぞれは、対象者Maの顔に規定される。第1部分Pa及び第2部分Pbのそれぞれは、対象者Maの耳の周囲の少なくとも一部に規定される。振動送信部3と振動受信部4とは、顔の中心線に対して左右対称の位置に配置されることが好ましい。コミュニケーション装置1は、複数組の振動送信部3及び振動受信部4を備えていてもよい。人体は、姿勢や表情等の変化によって振動の伝播する特性がリアルタイムで変化する。その特性の変化により、人体を伝播しやすい周波数帯域と伝播しにくい周波数帯域とが種々の状況によって生じ得る。人体の異なる位置に、複数組の振動送信部3及び振動受信部4を備えることで、一方の振動送信部3及び振動受信部4においては伝播しにくい周波数帯域が、他方の振動送信部3及び振動受信部4においては伝播しやすい場合がある。よって、コミュニケーション装置1は、複数組の振動送信部3及び振動受信部4を備えることで、振動を受信する精度を高めることができる場合がある。
【0018】
本実施形態において、第1部分Pa及び第2部分Pbのそれぞれは、顎関節の関節円板に規定されることがさらに好ましい。第1部分Paは、顔の右側の関節円板に規定されることがさらに好ましい。第2部分Pbは、顔の左側の関節円板に設置されることがさらに好ましい。振動送信部3は、顔の右側の関節円板に設置されることがさらに好ましい。振動受信部4は、顔の左側の関節円板に設置されることがさらに好ましい。
【0019】
振動送信部3から第1部分Paに送信された入力振動波Vaは、上顎及び下顎角等を伝播して、出力振動波Vbとして第2部分Pbに到達する。振動受信部4は、第2部分Pbに到達した出力振動波Vbを受信する。
【0020】
対象者Maの口の開け方により、第1部分Paと第2部分Pbとの間の振動波の伝達特性が変化する。そのため、対象者Maの口の開け方により、振動受信部4が受信する出力振動波Vbの周波数特性は変化する。例えば、対象者Maが音素「あ」を発話しようと口を開けたときに振動受信部4に受信される出力振動波Vbの周波数特性と、対象者Maが音素「す」を発話しようと口を開けたときに振動受信部4に受信される出力振動波Vbの周波数特性とは、異なる。
【0021】
発話認識装置5は、振動送信部3が送信した入力振動波Vaと振動受信部4が受信した出力振動波Vbとの差分波Vdとに基づいて、対象者Maが発話する音素を認識する。発話認識装置5は、対象者Maが実際に発話しなくても、差分波Vdに基づいて、対象者Maが発話しようとする音素を認識する。なお、発話認識装置5は、例えば対象者Maが小さい声で発話した場合において、差分波Vdに基づいて、対象者Maが発話した音素を認識してもよい。
【0022】
(発話認識装置)
図2は、本実施形態に係る発話認識装置5を示す機能ブロック図である。発話認識装置5は、コンピュータを含む。発話認識装置5は、プロセッサ51と、メインメモリ52と、ストレージ53と、インタフェース54とを有する。プロセッサ51として、CPU(Central Processing Unit)又はMPU(Micro Processing Unit)が例示される。メインメモリ52として、不揮発性メモリ又は揮発性メモリが例示される。不揮発性メモリとして、ROM(Read Only Memory)が例示される。揮発性メモリとして、RAM(Random Access Memory)が例示される。ストレージ53として、ハードディスクドライブ(HDD:Hard Disk Drive)又はソリッドステートドライブ(SSD:Solid State Drive)が例示される。インタフェース54として、入出力回路又は通信回路が例示される。
【0023】
コンピュータプログラム55がメインメモリ52に展開される。プロセッサ51は、コンピュータプログラム55に従って、本実施形態に係るコミュニケーション方法を実行する。インタフェース54は、振動送信部3、振動受信部4、及び出力装置6のそれぞれと接続される。
【0024】
発話認識装置5は、振動波データ取得部7と、差分波生成部8と、直交変換部9と、特徴量抽出部10と、学習部11と、処理部12と、出力部13と、学習済モデル記憶部14とを有する。発話認識装置5は、学習部11を必ずしも備える必要はない。発話認識装置5は、発話認識装置5とは異なる装置において学習された学習済モデルを、学習済モデル記憶部14に記憶してもよい。
【0025】
プロセッサ51は、差分波生成部8、直交変換部9、特徴量抽出部10、学習部11、及び処理部12として機能する。なお、学習部11は先述のとおり任意の構成である。ストレージ53は、学習済モデル記憶部14として機能する。インタフェース54は、振動波データ取得部7及び出力部13として機能する。
【0026】
振動波データ取得部7は、振動送信部3から入力振動波Vaを示す入力振動波データを取得する。また、振動波データ取得部7は、振動受信部4から出力振動波Vbを示す出力振動波データを取得する。
【0027】
差分波生成部8は、振動波データ取得部7により取得された入力振動波データと出力振動波形データとに基づいて、入力振動波Vaと出力振動波Vbとの差分波Vdを生成する。
【0028】
図3は、本実施形態に係る入力振動波Vaと出力振動波Vbとの差分波Vdとの関係を模式的に示す図である。本実施形態において、振動送信部3は、任意の入力振動波Vaを送信する。対象者Maの口の開け方により、振動受信部4が受信する出力振動波Vbは変化する。差分波生成部8は、入力振動波Vaと出力振動波Vbとの差を示す差分波Vdを生成する。入力振動波Vaと出力振動波Vbとの差とは、入力振動波Vaの振幅と出力振動波Vbの振幅との差をいう。なお、差分波生成部8は、入力振動波Va及び出力振動波Vbをそれぞれ時間方向に平滑化してから差分波Vdを生成してもよい。差分波生成部8は、差分波Vdを時間方向に平滑化して差分波Vdとしてもよい。
【0029】
本実施形態において、差分波生成部8は、振動波データ取得部7が同時点で取得した入力振動波Vaと出力振動波Vbとに基づいて、差分波Vdを生成する。例えば、差分波生成部8は、時点t0で取得された入力振動波Vaの振幅と時点t0で取得された出力振動波Vbの振幅との差に基づいて、時点t0における差分波Vdの振幅を算出する。
【0030】
なお、差分波生成部8は、第1時点t1で取得された入力振動波Vaと、第1時点t1よりも後の第2時点t2で取得された出力振動波Vbとに基づいて、差分波Vdを生成してもよい。第1時点t1と第2時点t2との差は、第1部分Paに送信された入力振動波Vaが出力振動波Vbとして第2部分Pbに到達するまでの時間に相当する。差分波生成部8は、第1時点t1で取得された入力振動波Vaの振幅と第2時点t2で取得された出力振動波Vbの振幅との差に基づいて、差分波Vdの振幅を算出してもよい。
【0031】
直交変換部9は、差分波生成部8により生成された差分波Vdを直交変換して、差分波Vdの周波数スペクトルを算出する。本実施形態において、直交変換部9は、直交変換として差分波Vdを高速フーリエ変換(FFT:Fast Fourier Transform)して、差分波Vdの周波数スペクトルを算出する。直交変換部9は、所定時間長の窓関数を用いて差分波Vdを所定時間長の信号として切り出し、切り出した各信号を直交変換して差分波Vdの周波数スペクトルを算出してもよい。直交変換部9は、所定時間長毎の差分波Vdの周波数スペクトルからスペクトログラムを求めてもよい。スペクトログラムは、時間、周波数、信号成分の強さ(振幅)で構成される3次元のグラフであり、周波数スペクトルの時間変化を示す。
【0032】
図4は、本実施形態に係る差分波Vdの周波数スペクトルを模式的に示す図である。周波数スペクトルは、周波数と振幅との関係を示す。図4は、対象者Maが音素「あ」「い」「う」「え」「お」のそれぞれを発話しようと口を開けたときの差分波Vdの周波数スペクトルを示す。図4は、音素が異なることにより、差分波Vdの周波数スペクトルがそれぞれ異なることを模式的に示している。対象者Maの口の開け方、顎の骨の構造、顎の骨の大きさ、舌の使い方、及び喉から発生する基音周波数等により、差分波Vdの周波数スペクトルの特徴量が変化する。
【0033】
本実施形態において、差分波Vdの周波数スペクトルの特徴量は、周波数スペクトルの包絡線の形状を用いてもよい。特徴量抽出部10は、周波数スペクトルの包絡線を、複数の周波数のそれぞれの最大振幅値(最大パワー値)を結ぶように求めてもよい。最大振幅値とは、振幅の絶対値の最大値をいう。すなわち、周波数スペクトルの特徴量は、周波数軸と振幅軸とで規定される2次元平面内における包絡線の2次元形状(スペクトル形状)である。特徴量抽出部10は、差分波Vdの周波数スペクトルを周波数方向に平滑化して包絡線を求めてもよい。特徴量抽出部10は、公知の移動平均法やSavitzky-Golay法などを用いて、差分波Vdの周波数スペクトルを平滑化してもよい。特徴量抽出部10は、スペクトログラムを特徴量としてもよい。特徴量抽出部10は、スペクトログラムにガウシアンフィルタなどの公知の平滑化フィルタを適用し、平滑化したスペクトログラムを特徴量としてもよい。
【0034】
特徴量抽出部10は、差分波Vdの周波数スペクトルの包絡線から周波数及び振幅で規定される多次元ベクトルを抽出し、特徴量を生成してもよい。特徴量抽出部10は、差分波Vdのスペクトログラムから時間、周波数、及び振幅で規定される多次元ベクトルを抽出し、特徴量を生成してもよい。特徴量抽出部10は、差分波Vdの特徴量を、周波数スペクトルの包絡線又はスペクトログラムから幾何学的に抽出してもよい。すなわち、特徴量抽出部10は、差分波Vdの周波数スペクトルの包絡線又はスペクトログラムを二次元画像として捉え、二次元画像から特徴量を抽出する公知の手法を用いて特徴量を抽出してもよい。二次元画像からの特徴量の抽出方法として、局所特徴量及びフィッシャー重みマップを用いる方法が例示される。
【0035】
学習部11は、対象者Maが発話する音素と差分波Vdの周波数スペクトルとの関係を示す教師データを取得する。教師データにおいて、対象者Maが発話する音素は、対象者Maが実際に発話したときの音素でもよい。教師データにおいて、差分波Vdの周波数スペクトルは、差分波Vdの周波数スペクトルの特徴量を含む。差分波Vdの周波数スペクトルの特徴量は、周波数スペクトルの包絡線の形状など、先に例示した種々の特徴量を用いることができる。学習部11は、取得した教師データに基づいて機械学習を実行して、差分波Vdの周波数スペクトルを入力とし、対象者Maが発話する音素を出力とする学習済モデルを作成する。学習部11は、機械学習に代えて、音素毎に基準となる特徴量を生成してもよい。この場合、後述する処理部12は、特徴量抽出部10により抽出された差分波Vdの特徴量と、基準となる特徴量との類似度を求め、類似度が最も高い基準となる特徴量に対応する音素を、対象者Maが発話する音素として特定してもよい。処理部12は、コサイン類似度などの公知の手法を用いて類似度を算出してもよい。
【0036】
学習部11は、機械学習の手法として、GMM(ガウス混合モデル)、GMM-HMM(ガウス混合モデルを用いた隠れマルコフモデル)、CNN(畳み込みニューラルネットワーク)、RNN(再帰型ニューラルネットワーク)など、種々の公知の手法を用いてよい。学習部11は、特徴量が時間変化の情報を含まない場合は、GMM又はCNNを用いることが好ましい。学習部11は、特徴量が時間変化の情報を含む場合は、GMM-HMM又はRNNを用いることが好ましい。学習部11は、時間変換の情報を含む特徴量であるスペクトログラムを二次元画像として扱い、CNNを用いてもよい。学習部11で作成された学習済モデルは、学習済モデル記憶部14に記憶される。なお、先述のとおり、本実施形態の発話認識装置5において、学習部11は任意の構成である。
【0037】
処理部12は、特徴量抽出部10により抽出された差分波Vdの特徴量に基づいて、対象者Maが発話する音素を特定する。本実施形態において、処理部12は、特徴量抽出部10により抽出された差分波Vdの特徴量を学習済モデルに入力して、最も適合度が高いとされた音素を取得し、対象者Maが発話する音素を特定する。処理部12は、前の音素と次の音素とのつながりを加味して、音素を特定してもよい。処理部12は、例えば、前の音素から次の音素への遷移確率を求め、学習済モデルにおける音素の適合度と組み合わせて音素を特定してもよい。処理部12は、前の音素から次の音素への遷移確率と、学習済モデルにおける音素の適合度との積が最も大きい音素を求め、特定結果としてもよい。
【0038】
出力部13は、処理部12で特定された音素を出力装置6に出力する。出力装置6として、文字表示装置又は音声出力装置が例示される。文字表示装置は、例えば液晶ディスプレイである。音声出力装置は、例えばスピーカである。出力装置6が文字表示装置である場合、処理部12で特定された音素が文字として文字表示装置に表示される。対象者Maが発話する音素の集合体が文字列として文字表示装置に表示される。出力装置6が音声出力装置である場合、処理部12で特定された音素が音声として音声出力装置から出力される。対象者Maが発話する音素の集合体が音声として音声出力装置から出力される。なお、出力装置6が発話認識装置5の遠隔地にある場合、出力部13は、処理部12で特定された音素を、ネットワークを介して出力装置6に伝送してもよい。
【0039】
(コミュニケーション方法)
図5は、本実施形態に係るコミュニケーション方法を示すフローチャートである。コンピュータプログラム55は、コミュニケーション方法を発話認識装置5に実行させることができる。
【0040】
振動発生装置2は、対象者Maの身体の第1部分Paに設置されている振動送信部3を振動させる。振動送信部3は、第1部分Paに入力振動波Vaを送信する(ステップS1)。
【0041】
第1部分Paに送信された入力振動波Vaは、対象者Maの顔の少なくとも一部を伝播する。振動受信部4は、第2部分Pbで出力振動波Vbを受信する(ステップS2)。
【0042】
振動波データ取得部7は、ステップS1において第1部分Paに送信された入力振動波Vaを示す入力振動波データを取得する。また、振動波データ取得部7は、ステップS2において第2部分Pbで受信された出力振動波Vbを示す出力振動波データを取得する(ステップS3)。
【0043】
差分波生成部8は、ステップS3において取得された入力振動波データと出力振動波形データとに基づいて、入力振動波Vaと出力振動波Vbとの差分波Vdを生成する(ステップS4)。
【0044】
直交変換部9は、ステップS4において生成された差分波Vdを直交変換して、差分波Vdの周波数スペクトルを算出する(ステップS5)。
【0045】
特徴量抽出部10は、ステップS5において算出された差分波Vdの周波数スペクトルの特徴量を抽出する(ステップS6)。
【0046】
処理部12は、ステップS6において抽出された差分波Vdの周波数スペクトルの特徴量を学習済モデルに入力して、対象者Maが発話しようとする音素を特定する(ステップS7)。
【0047】
出力部13は、ステップS7において特定された音素を出力装置6に出力する(ステップS8)。
【0048】
対象者Maが発話しようとする音素に基づく文字又は音声が出力装置6から出力される。
【0049】
(効果)
以上説明したように、本実施形態によれば、対象者Maの身体の第1部分Paに入力振動波Vaが送信される。対象者Maの身体の少なくとも一部を伝播した入力振動波Vaに基づいて生成された出力振動波Vbが、対象者Maの身体の第2部分Pbで受信される。対象者Maが発話する音素により、第1部分Paと第2部分Pbとの間の振動波の伝達特性が変化する。これにより、発話認識装置5は、対象者Maが実際に発話しなくても、入力振動波Vaと出力振動波Vbとの差分波Vdに基づいて、対象者Maが発話しようとする音素を認識することができる。したがって、対象者Maが発話できない環境又は小さい声で発話する必要がある環境にあっても、対象者Maが発話しようとする音素が認識される。
【0050】
振動送信部3が設置される第1部分Paと、振動受信部4が設置される第2部分Pbとは、身体の異なる部分である。振動波の送信機能と受信機能とが分離されるので、振動波の干渉が発生し難い。そのため、対象者Maが発話する音素を高精度に認識することができる。
【0051】
第1部分Paと第2部分Pbとは、対象者Maの身体の中心線に対して左右対称の位置にある。また、第1部分Paと第2部分Pbとは、対象者Maの身体のうち同機能の器官に設置される。本実施形態において、第1部分Paと第2部分Pbとは、関節円板に設置される。これにより、振動波に対する外乱の影響が抑制され、信号雑音比(signal noise ratio)が良好な周波数スペクトルが得られる。
【0052】
本実施形態において、入力振動波Vaは、超音波である。超音波は、可聴帯域の音波よりも高い直進性を有する。したがって、振動送信部3が設置される第1部分Paと振動受信部4が設置される第2部分Pbとの相対位置が適正に定められることにより、振動受信部4は、出力振動波Vbを高感度に受信することができる。
【0053】
[第2実施形態]
第2実施形態について説明する。以下の説明において、上述の実施形態と同一又は同等の構成要素については同一の符号を付し、その構成要素の説明を簡略又は省略する。
【0054】
図6は、本実施形態に係るコミュニケーション装置100を示す模式図である。本実施形態において、振動発生装置20は、超音波である入力振動波Vaと、可聴帯域の音波Vcとを発生する。振動送信部3は、超音波である入力振動波Vaと可聴帯域の音波Vcとを第1部分Paに同時に送信する。
【0055】
第1部分Paは、対象者Maの右耳の周囲の少なくとも一部に規定される。可聴帯域の音波Vcが第1部分Paに送信されることにより、対象者Maは、右耳で音波Vcを聞くことができる。音波Vcは、骨導音として右耳の聴覚神経に伝わってもよいし、気導音として右耳の鼓膜に伝わってもよい。
【0056】
上述の実施形態と同様、入力振動波Vaは、顔の少なくとも一部を伝播して、第2部分Pbに伝達される。振動受信部4は、入力振動波Vaに基づいて生成される出力振動波Vbを第2部分Pbで受信する。また、音波Vcも、第2部分Pbに伝達される。第2部分Pbは、対象者Maの左耳の周囲の少なくとも一部に規定される。可聴帯域の音波Vcが第2部分Pbに伝達されることにより、対象者Maは、右耳のみならず左耳でも音波Vcを聞くことができる。すなわち、対象者Maは、両耳で音波Vcを聞くことができる。音波Vcは、骨導音として左耳の聴覚神経に伝わってもよいし、気導音として左耳の鼓膜に伝わってもよい。
【0057】
なお、差分波Vdには、音波Vcの成分が含まれないことが好ましい。そのため、振動受信部4が受信する出力振動波Vbに音波Vcの成分が含まれないように、音波Vcをカットするローパスフィルタ処理が実施されてもよい。
【0058】
音波Vcは、発話認識装置5で認識された音素の音声でもよい。出力装置6が音声出力装置である場合、発話認識装置5の処理部12で特定された音素を音声として出力することができる。出力装置6は、処理部12で特定された音素の音声を振動発生装置20に出力する。これにより、振動送信部3は、発話認識装置5で認識された、対象者Maが発話しようとする音素の音波Vcを第1部分Paに送信することができる。対象者Maは、対象者Maが発話しようとする音素の音声を聞きながら、発話せずに口を動かすことができる。
【0059】
なお、音波Vcは、楽曲コンテンツの音波でもよい。これにより、対象者Maは、両耳で楽曲を楽しみながら、発話せずに口を動かし、コミュニケーションができる。
【符号の説明】
【0060】
1…コミュニケーション装置、2…振動発生装置、3…振動送信部、4…振動受信部、5…発話認識装置、6…出力装置、7…振動波データ取得部、8…差分波生成部、9…直交変換部、10…特徴量抽出部、11…学習部、12…処理部、13…出力部、14…学習済モデル記憶部、20…振動発生装置、51…プロセッサ、52…メインメモリ、53…ストレージ、54…インタフェース、55…コンピュータプログラム、100…コミュニケーション装置、Ma…対象者、Pa…第1部分、Pb…第2部分、Va…入力振動波、Vb…出力振動波、Vc…音波、Vd…差分波。
図1
図2
図3
図4
図5
図6