特許7574589 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社ＪＶＣケンウッドの特許一覧

特許7574589コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-21

(45)【発行日】2024-10-29

(54)【発明の名称】コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラム

(51)【国際特許分類】

G10L 15/28 20130101AFI20241022BHJP

G06F 3/16 20060101ALI20241022BHJP

G10L 15/10 20060101ALN20241022BHJP

【ＦＩ】

G10L15/28 400

G06F3/16 650

G10L15/10 400R

【請求項の数】 6

(21)【出願番号】P 2020160163

(22)【出願日】2020-09-24

(65)【公開番号】P2022053367

(43)【公開日】2022-04-05

【審査請求日】2023-06-30

(73)【特許権者】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】鶴秀生

(72)【発明者】

【氏名】高田規

(72)【発明者】

【氏名】辻井秀弥

【審査官】土井悠生

(56)【参考文献】

【文献】米国特許出願公開第２０２０／０３４４５４４（ＵＳ，Ａ１）

【文献】国際公開第２０２０／０７９９１８（ＷＯ，Ａ１）

【文献】国際公開第２０１９／０４４５９４（ＷＯ，Ａ１）

【文献】国際公開第２０１５／１９０３６０（ＷＯ，Ａ１）

【文献】特開２０１４－１４３５８２（ＪＰ，Ａ）

【文献】特開２００６－０２５３３３（ＪＰ，Ａ）

【文献】国際公開第２００８／０６２７８２（ＷＯ，Ａ１）

【文献】特開２０２０－０６４１９９（ＪＰ，Ａ）

【文献】特開２０００－２０６９８６（ＪＰ，Ａ）

【文献】特開２０１７－００９９５６（ＪＰ，Ａ）

【文献】特開２００４－０３２３３９（ＪＰ，Ａ）

【文献】特開２００３－２８４１９４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１７／２６

Ｇ０６Ｆ３／１６

(57)【特許請求の範囲】

【請求項1】

対象者の第１部分に超音波である入力振動波を送信する振動送信部と、
前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される超音波である出力振動波を前記対象者の第２部分で受信する振動受信部と、
前記入力振動波と前記出力振動波との超音波の差分波に基づいて、前記対象者が発話する音素を認識する発話認識装置と、を備える、
コミュニケーション装置。

【請求項2】

前記発話認識装置は、
前記超音波の差分波を算出する差分波生成部と、
前記超音波の差分波を直交変換して前記超音波の差分波の周波数スペクトルを算出する直交変換部と、
前記周波数スペクトルの特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記特徴量に基づいて前記対象者が発話する音素を特定する処理部と、を有する、
請求項１に記載のコミュニケーション装置。

【請求項3】

前記対象者が発話する音素と前記周波数スペクトルとの関係を示す教師データを取得し、取得した前記教師データに基づいて、前記周波数スペクトルを入力とし前記対象者が発話する音素を出力とする学習済モデルを記憶する学習済モデル記憶部を備え、
前記処理部は、前記特徴量抽出部により抽出された前記特徴量を前記学習済モデルに入力して前記音素を特定する、
請求項２に記載のコミュニケーション装置。

【請求項4】

前記第１部分と前記第２部分とは、前記対象者の中心線に対して左右対称の顎関節の関節円板の位置にある、
請求項１から請求項３のいずれか一項に記載のコミュニケーション装置。

【請求項5】

対象者の第１部分に超音波である入力振動波を送信するステップと、
前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される超音波である出力振動波を前記対象者の第２部分で受信するステップと、
前記入力振動波と前記出力振動波との超音波の差分波に基づいて、前記対象者が発話する音素を認識するステップと、を含む、
コミュニケーション方法。

【請求項6】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、コミュニケーション装置、コミュニケーション方法、及びコンピュータプログラムに関する。

【背景技術】

【0002】

特許文献１に開示されているように、ユーザの発話を認識する技術が知られている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－２０８１３８公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

対象者が発話できない環境又は小さい声で発話する必要がある環境において、対象者が発話しようとする音素を認識できる技術が要望される。

【0005】

本発明は、対象者が発話する音素を認識することを目的とする。

【課題を解決するための手段】

【0006】

本発明の一態様に係るコミュニケーション装置は、対象者の第１部分に入力振動波を送信する振動送信部と、前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される出力振動波を前記対象者の第２部分で受信する振動受信部と、前記入力振動波と前記出力振動波との差分波に基づいて、前記対象者が発話する音素を認識する発話認識装置と、を備える。

【0007】

本発明の一態様に係るコミュニケーション方法は、対象者の第１部分に入力振動波を送信するステップと、前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される出力振動波を前記対象者の第２部分で受信するステップと、前記入力振動波と前記出力振動波との差分波に基づいて、前記対象者が発話する音素を認識するステップと、を含む。

【0008】

本発明の一態様に係るコンピュータプログラムは、対象者の第１部分に入力振動波を送信するステップと、前記対象者の少なくとも一部を伝播した前記入力振動波に基づいて生成される出力振動波を前記対象者の第２部分で受信するステップと、前記入力振動波と前記出力振動波との差分波に基づいて、前記対象者が発話する音素を認識するステップと、を含むコミュニケーション方法を、コンピュータに実行させる。

【発明の効果】

【0009】

本発明によれば、対象者が発話する音素を認識することができる。

【図面の簡単な説明】

【0010】

【図1】図１は、第１実施形態に係るコミュニケーション装置を示す模式図である。

【図2】図２は、第１実施形態に係る発話認識装置を示す機能ブロック図である。

【図3】図３は、第１実施形態に係る入力振動波と出力振動波との差分波との関係を模式的に示す図である。

【図4】図４は、第１実施形態に係る差分波の周波数スペクトルを模式的に示す図である。

【図5】図５は、第１実施形態に係るコミュニケーション方法を示すフローチャートである。

【図6】図６は、第２実施形態に係るコミュニケーション装置を示す模式図である。

【発明を実施するための形態】

【0011】

以下に、本発明の実施形態を図面に基づいて詳細に説明する。なお、以下に説明する実施形態により本発明が限定されるものではない。

【0012】

［第１実施形態］
（コミュニケーション装置）
図１は、本実施形態に係るコミュニケーション装置１を示す模式図である。図１に示すように、コミュニケーション装置１は、振動発生装置２と、振動送信部３と、振動受信部４と、発話認識装置５と、出力装置６とを備える。

【0013】

振動発生装置２は、所定の周波数の入力振動波Ｖａを発生する。本実施形態において、入力振動波Ｖａは、超音波である。

【0014】

振動送信部３は、振動発生装置２が発生した入力振動波Ｖａに基づいて振動する。振動送信部３は、対象者Ｍａの身体の第１部分Ｐａに設置される。振動送信部３は、第１部分Ｐａに入力振動波Ｖａを送信する。入力振動波Ｖａは、対象者Ｍａの身体の少なくとも一部を伝播する。

【0015】

振動受信部４は、対象者Ｍａの身体の少なくとも一部を伝播した入力振動波Ｖａに基づいて生成される出力振動波Ｖｂを受信する。振動受信部４は、対象者Ｍａの身体の第２部分Ｐｂに設置される。第２部分Ｐｂは、第１部分Ｐａとは異なる。振動受信部４は、第２部分Ｐｂで出力振動波Ｖｂを受信する。

【0016】

人間である対象者Ｍａの骨格は、左右対称である。人間の頭部の骨格は厳密には左右非対称であるが、目鼻口などの各パーツは概ね左右対称に配置されていると言える。こうした対称性に基づき、第１部分Ｐａと第２部分Ｐｂとは、対象者Ｍａの身体の中心線に対して左右対称の位置にあることが好ましい。中心線は、対象者Ｍａの上下方向に延伸する。

【0017】

本実施形態において、第１部分Ｐａ及び第２部分Ｐｂのそれぞれは、対象者Ｍａの顔に規定される。第１部分Ｐａ及び第２部分Ｐｂのそれぞれは、対象者Ｍａの耳の周囲の少なくとも一部に規定される。振動送信部３と振動受信部４とは、顔の中心線に対して左右対称の位置に配置されることが好ましい。コミュニケーション装置１は、複数組の振動送信部３及び振動受信部４を備えていてもよい。人体は、姿勢や表情等の変化によって振動の伝播する特性がリアルタイムで変化する。その特性の変化により、人体を伝播しやすい周波数帯域と伝播しにくい周波数帯域とが種々の状況によって生じ得る。人体の異なる位置に、複数組の振動送信部３及び振動受信部４を備えることで、一方の振動送信部３及び振動受信部４においては伝播しにくい周波数帯域が、他方の振動送信部３及び振動受信部４においては伝播しやすい場合がある。よって、コミュニケーション装置１は、複数組の振動送信部３及び振動受信部４を備えることで、振動を受信する精度を高めることができる場合がある。

【0018】

本実施形態において、第１部分Ｐａ及び第２部分Ｐｂのそれぞれは、顎関節の関節円板に規定されることがさらに好ましい。第１部分Ｐａは、顔の右側の関節円板に規定されることがさらに好ましい。第２部分Ｐｂは、顔の左側の関節円板に設置されることがさらに好ましい。振動送信部３は、顔の右側の関節円板に設置されることがさらに好ましい。振動受信部４は、顔の左側の関節円板に設置されることがさらに好ましい。

【0019】

振動送信部３から第１部分Ｐａに送信された入力振動波Ｖａは、上顎及び下顎角等を伝播して、出力振動波Ｖｂとして第２部分Ｐｂに到達する。振動受信部４は、第２部分Ｐｂに到達した出力振動波Ｖｂを受信する。

【0020】

対象者Ｍａの口の開け方により、第１部分Ｐａと第２部分Ｐｂとの間の振動波の伝達特性が変化する。そのため、対象者Ｍａの口の開け方により、振動受信部４が受信する出力振動波Ｖｂの周波数特性は変化する。例えば、対象者Ｍａが音素「あ」を発話しようと口を開けたときに振動受信部４に受信される出力振動波Ｖｂの周波数特性と、対象者Ｍａが音素「す」を発話しようと口を開けたときに振動受信部４に受信される出力振動波Ｖｂの周波数特性とは、異なる。

【0021】

発話認識装置５は、振動送信部３が送信した入力振動波Ｖａと振動受信部４が受信した出力振動波Ｖｂとの差分波Ｖｄとに基づいて、対象者Ｍａが発話する音素を認識する。発話認識装置５は、対象者Ｍａが実際に発話しなくても、差分波Ｖｄに基づいて、対象者Ｍａが発話しようとする音素を認識する。なお、発話認識装置５は、例えば対象者Ｍａが小さい声で発話した場合において、差分波Ｖｄに基づいて、対象者Ｍａが発話した音素を認識してもよい。

【0022】

（発話認識装置）
図２は、本実施形態に係る発話認識装置５を示す機能ブロック図である。発話認識装置５は、コンピュータを含む。発話認識装置５は、プロセッサ５１と、メインメモリ５２と、ストレージ５３と、インタフェース５４とを有する。プロセッサ５１として、ＣＰＵ（Central Processing Unit）又はＭＰＵ（Micro Processing Unit）が例示される。メインメモリ５２として、不揮発性メモリ又は揮発性メモリが例示される。不揮発性メモリとして、ＲＯＭ（Read Only Memory）が例示される。揮発性メモリとして、ＲＡＭ（Random Access Memory）が例示される。ストレージ５３として、ハードディスクドライブ（ＨＤＤ：Hard Disk Drive）又はソリッドステートドライブ（ＳＳＤ：Solid State Drive）が例示される。インタフェース５４として、入出力回路又は通信回路が例示される。

【0023】

コンピュータプログラム５５がメインメモリ５２に展開される。プロセッサ５１は、コンピュータプログラム５５に従って、本実施形態に係るコミュニケーション方法を実行する。インタフェース５４は、振動送信部３、振動受信部４、及び出力装置６のそれぞれと接続される。

【0024】

発話認識装置５は、振動波データ取得部７と、差分波生成部８と、直交変換部９と、特徴量抽出部１０と、学習部１１と、処理部１２と、出力部１３と、学習済モデル記憶部１４とを有する。発話認識装置５は、学習部１１を必ずしも備える必要はない。発話認識装置５は、発話認識装置５とは異なる装置において学習された学習済モデルを、学習済モデル記憶部１４に記憶してもよい。

【0025】

プロセッサ５１は、差分波生成部８、直交変換部９、特徴量抽出部１０、学習部１１、及び処理部１２として機能する。なお、学習部１１は先述のとおり任意の構成である。ストレージ５３は、学習済モデル記憶部１４として機能する。インタフェース５４は、振動波データ取得部７及び出力部１３として機能する。

【0026】

振動波データ取得部７は、振動送信部３から入力振動波Ｖａを示す入力振動波データを取得する。また、振動波データ取得部７は、振動受信部４から出力振動波Ｖｂを示す出力振動波データを取得する。

【0027】

差分波生成部８は、振動波データ取得部７により取得された入力振動波データと出力振動波形データとに基づいて、入力振動波Ｖａと出力振動波Ｖｂとの差分波Ｖｄを生成する。

【0028】

図３は、本実施形態に係る入力振動波Ｖａと出力振動波Ｖｂとの差分波Ｖｄとの関係を模式的に示す図である。本実施形態において、振動送信部３は、任意の入力振動波Ｖａを送信する。対象者Ｍａの口の開け方により、振動受信部４が受信する出力振動波Ｖｂは変化する。差分波生成部８は、入力振動波Ｖａと出力振動波Ｖｂとの差を示す差分波Ｖｄを生成する。入力振動波Ｖａと出力振動波Ｖｂとの差とは、入力振動波Ｖａの振幅と出力振動波Ｖｂの振幅との差をいう。なお、差分波生成部８は、入力振動波Ｖａ及び出力振動波Ｖｂをそれぞれ時間方向に平滑化してから差分波Ｖｄを生成してもよい。差分波生成部８は、差分波Ｖｄを時間方向に平滑化して差分波Ｖｄとしてもよい。

【0029】

本実施形態において、差分波生成部８は、振動波データ取得部７が同時点で取得した入力振動波Ｖａと出力振動波Ｖｂとに基づいて、差分波Ｖｄを生成する。例えば、差分波生成部８は、時点ｔ０で取得された入力振動波Ｖａの振幅と時点ｔ０で取得された出力振動波Ｖｂの振幅との差に基づいて、時点ｔ０における差分波Ｖｄの振幅を算出する。

【0030】

なお、差分波生成部８は、第１時点ｔ１で取得された入力振動波Ｖａと、第１時点ｔ１よりも後の第２時点ｔ２で取得された出力振動波Ｖｂとに基づいて、差分波Ｖｄを生成してもよい。第１時点ｔ１と第２時点ｔ２との差は、第１部分Ｐａに送信された入力振動波Ｖａが出力振動波Ｖｂとして第２部分Ｐｂに到達するまでの時間に相当する。差分波生成部８は、第１時点ｔ１で取得された入力振動波Ｖａの振幅と第２時点ｔ２で取得された出力振動波Ｖｂの振幅との差に基づいて、差分波Ｖｄの振幅を算出してもよい。

【0031】

直交変換部９は、差分波生成部８により生成された差分波Ｖｄを直交変換して、差分波Ｖｄの周波数スペクトルを算出する。本実施形態において、直交変換部９は、直交変換として差分波Ｖｄを高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）して、差分波Ｖｄの周波数スペクトルを算出する。直交変換部９は、所定時間長の窓関数を用いて差分波Ｖｄを所定時間長の信号として切り出し、切り出した各信号を直交変換して差分波Ｖｄの周波数スペクトルを算出してもよい。直交変換部９は、所定時間長毎の差分波Ｖｄの周波数スペクトルからスペクトログラムを求めてもよい。スペクトログラムは、時間、周波数、信号成分の強さ（振幅）で構成される３次元のグラフであり、周波数スペクトルの時間変化を示す。

【0032】

図４は、本実施形態に係る差分波Ｖｄの周波数スペクトルを模式的に示す図である。周波数スペクトルは、周波数と振幅との関係を示す。図４は、対象者Ｍａが音素「あ」「い」「う」「え」「お」のそれぞれを発話しようと口を開けたときの差分波Ｖｄの周波数スペクトルを示す。図４は、音素が異なることにより、差分波Ｖｄの周波数スペクトルがそれぞれ異なることを模式的に示している。対象者Ｍａの口の開け方、顎の骨の構造、顎の骨の大きさ、舌の使い方、及び喉から発生する基音周波数等により、差分波Ｖｄの周波数スペクトルの特徴量が変化する。

【0033】

本実施形態において、差分波Ｖｄの周波数スペクトルの特徴量は、周波数スペクトルの包絡線の形状を用いてもよい。特徴量抽出部１０は、周波数スペクトルの包絡線を、複数の周波数のそれぞれの最大振幅値（最大パワー値）を結ぶように求めてもよい。最大振幅値とは、振幅の絶対値の最大値をいう。すなわち、周波数スペクトルの特徴量は、周波数軸と振幅軸とで規定される２次元平面内における包絡線の２次元形状（スペクトル形状）である。特徴量抽出部１０は、差分波Ｖｄの周波数スペクトルを周波数方向に平滑化して包絡線を求めてもよい。特徴量抽出部１０は、公知の移動平均法やSavitzky-Golay法などを用いて、差分波Ｖｄの周波数スペクトルを平滑化してもよい。特徴量抽出部１０は、スペクトログラムを特徴量としてもよい。特徴量抽出部１０は、スペクトログラムにガウシアンフィルタなどの公知の平滑化フィルタを適用し、平滑化したスペクトログラムを特徴量としてもよい。

【0034】

特徴量抽出部１０は、差分波Ｖｄの周波数スペクトルの包絡線から周波数及び振幅で規定される多次元ベクトルを抽出し、特徴量を生成してもよい。特徴量抽出部１０は、差分波Ｖｄのスペクトログラムから時間、周波数、及び振幅で規定される多次元ベクトルを抽出し、特徴量を生成してもよい。特徴量抽出部１０は、差分波Ｖｄの特徴量を、周波数スペクトルの包絡線又はスペクトログラムから幾何学的に抽出してもよい。すなわち、特徴量抽出部１０は、差分波Ｖｄの周波数スペクトルの包絡線又はスペクトログラムを二次元画像として捉え、二次元画像から特徴量を抽出する公知の手法を用いて特徴量を抽出してもよい。二次元画像からの特徴量の抽出方法として、局所特徴量及びフィッシャー重みマップを用いる方法が例示される。

【0035】

学習部１１は、対象者Ｍａが発話する音素と差分波Ｖｄの周波数スペクトルとの関係を示す教師データを取得する。教師データにおいて、対象者Ｍａが発話する音素は、対象者Ｍａが実際に発話したときの音素でもよい。教師データにおいて、差分波Ｖｄの周波数スペクトルは、差分波Ｖｄの周波数スペクトルの特徴量を含む。差分波Ｖｄの周波数スペクトルの特徴量は、周波数スペクトルの包絡線の形状など、先に例示した種々の特徴量を用いることができる。学習部１１は、取得した教師データに基づいて機械学習を実行して、差分波Ｖｄの周波数スペクトルを入力とし、対象者Ｍａが発話する音素を出力とする学習済モデルを作成する。学習部１１は、機械学習に代えて、音素毎に基準となる特徴量を生成してもよい。この場合、後述する処理部１２は、特徴量抽出部１０により抽出された差分波Ｖｄの特徴量と、基準となる特徴量との類似度を求め、類似度が最も高い基準となる特徴量に対応する音素を、対象者Ｍａが発話する音素として特定してもよい。処理部１２は、コサイン類似度などの公知の手法を用いて類似度を算出してもよい。

【0036】

学習部１１は、機械学習の手法として、ＧＭＭ（ガウス混合モデル）、ＧＭＭ－ＨＭＭ（ガウス混合モデルを用いた隠れマルコフモデル）、ＣＮＮ（畳み込みニューラルネットワーク）、ＲＮＮ（再帰型ニューラルネットワーク）など、種々の公知の手法を用いてよい。学習部１１は、特徴量が時間変化の情報を含まない場合は、ＧＭＭ又はＣＮＮを用いることが好ましい。学習部１１は、特徴量が時間変化の情報を含む場合は、ＧＭＭ－ＨＭＭ又はＲＮＮを用いることが好ましい。学習部１１は、時間変換の情報を含む特徴量であるスペクトログラムを二次元画像として扱い、ＣＮＮを用いてもよい。学習部１１で作成された学習済モデルは、学習済モデル記憶部１４に記憶される。なお、先述のとおり、本実施形態の発話認識装置５において、学習部１１は任意の構成である。

【0037】

処理部１２は、特徴量抽出部１０により抽出された差分波Ｖｄの特徴量に基づいて、対象者Ｍａが発話する音素を特定する。本実施形態において、処理部１２は、特徴量抽出部１０により抽出された差分波Ｖｄの特徴量を学習済モデルに入力して、最も適合度が高いとされた音素を取得し、対象者Ｍａが発話する音素を特定する。処理部１２は、前の音素と次の音素とのつながりを加味して、音素を特定してもよい。処理部１２は、例えば、前の音素から次の音素への遷移確率を求め、学習済モデルにおける音素の適合度と組み合わせて音素を特定してもよい。処理部１２は、前の音素から次の音素への遷移確率と、学習済モデルにおける音素の適合度との積が最も大きい音素を求め、特定結果としてもよい。

【0038】

出力部１３は、処理部１２で特定された音素を出力装置６に出力する。出力装置６として、文字表示装置又は音声出力装置が例示される。文字表示装置は、例えば液晶ディスプレイである。音声出力装置は、例えばスピーカである。出力装置６が文字表示装置である場合、処理部１２で特定された音素が文字として文字表示装置に表示される。対象者Ｍａが発話する音素の集合体が文字列として文字表示装置に表示される。出力装置６が音声出力装置である場合、処理部１２で特定された音素が音声として音声出力装置から出力される。対象者Ｍａが発話する音素の集合体が音声として音声出力装置から出力される。なお、出力装置６が発話認識装置５の遠隔地にある場合、出力部１３は、処理部１２で特定された音素を、ネットワークを介して出力装置６に伝送してもよい。

【0039】

（コミュニケーション方法）
図５は、本実施形態に係るコミュニケーション方法を示すフローチャートである。コンピュータプログラム５５は、コミュニケーション方法を発話認識装置５に実行させることができる。

【0040】

振動発生装置２は、対象者Ｍａの身体の第１部分Ｐａに設置されている振動送信部３を振動させる。振動送信部３は、第１部分Ｐａに入力振動波Ｖａを送信する（ステップＳ１）。

【0041】

第１部分Ｐａに送信された入力振動波Ｖａは、対象者Ｍａの顔の少なくとも一部を伝播する。振動受信部４は、第２部分Ｐｂで出力振動波Ｖｂを受信する（ステップＳ２）。

【0042】

振動波データ取得部７は、ステップＳ１において第１部分Ｐａに送信された入力振動波Ｖａを示す入力振動波データを取得する。また、振動波データ取得部７は、ステップＳ２において第２部分Ｐｂで受信された出力振動波Ｖｂを示す出力振動波データを取得する（ステップＳ３）。

【0043】

差分波生成部８は、ステップＳ３において取得された入力振動波データと出力振動波形データとに基づいて、入力振動波Ｖａと出力振動波Ｖｂとの差分波Ｖｄを生成する（ステップＳ４）。

【0044】

直交変換部９は、ステップＳ４において生成された差分波Ｖｄを直交変換して、差分波Ｖｄの周波数スペクトルを算出する（ステップＳ５）。

【0045】

特徴量抽出部１０は、ステップＳ５において算出された差分波Ｖｄの周波数スペクトルの特徴量を抽出する（ステップＳ６）。

【0046】

処理部１２は、ステップＳ６において抽出された差分波Ｖｄの周波数スペクトルの特徴量を学習済モデルに入力して、対象者Ｍａが発話しようとする音素を特定する（ステップＳ７）。

【0047】

出力部１３は、ステップＳ７において特定された音素を出力装置６に出力する（ステップＳ８）。

【0048】

対象者Ｍａが発話しようとする音素に基づく文字又は音声が出力装置６から出力される。

【0049】

（効果）
以上説明したように、本実施形態によれば、対象者Ｍａの身体の第１部分Ｐａに入力振動波Ｖａが送信される。対象者Ｍａの身体の少なくとも一部を伝播した入力振動波Ｖａに基づいて生成された出力振動波Ｖｂが、対象者Ｍａの身体の第２部分Ｐｂで受信される。対象者Ｍａが発話する音素により、第１部分Ｐａと第２部分Ｐｂとの間の振動波の伝達特性が変化する。これにより、発話認識装置５は、対象者Ｍａが実際に発話しなくても、入力振動波Ｖａと出力振動波Ｖｂとの差分波Ｖｄに基づいて、対象者Ｍａが発話しようとする音素を認識することができる。したがって、対象者Ｍａが発話できない環境又は小さい声で発話する必要がある環境にあっても、対象者Ｍａが発話しようとする音素が認識される。

【0050】

振動送信部３が設置される第１部分Ｐａと、振動受信部４が設置される第２部分Ｐｂとは、身体の異なる部分である。振動波の送信機能と受信機能とが分離されるので、振動波の干渉が発生し難い。そのため、対象者Ｍａが発話する音素を高精度に認識することができる。

【0051】

第１部分Ｐａと第２部分Ｐｂとは、対象者Ｍａの身体の中心線に対して左右対称の位置にある。また、第１部分Ｐａと第２部分Ｐｂとは、対象者Ｍａの身体のうち同機能の器官に設置される。本実施形態において、第１部分Ｐａと第２部分Ｐｂとは、関節円板に設置される。これにより、振動波に対する外乱の影響が抑制され、信号雑音比（signal noise ratio）が良好な周波数スペクトルが得られる。

【0052】

本実施形態において、入力振動波Ｖａは、超音波である。超音波は、可聴帯域の音波よりも高い直進性を有する。したがって、振動送信部３が設置される第１部分Ｐａと振動受信部４が設置される第２部分Ｐｂとの相対位置が適正に定められることにより、振動受信部４は、出力振動波Ｖｂを高感度に受信することができる。

【0053】

［第２実施形態］
第２実施形態について説明する。以下の説明において、上述の実施形態と同一又は同等の構成要素については同一の符号を付し、その構成要素の説明を簡略又は省略する。

【0054】

図６は、本実施形態に係るコミュニケーション装置１００を示す模式図である。本実施形態において、振動発生装置２０は、超音波である入力振動波Ｖａと、可聴帯域の音波Ｖｃとを発生する。振動送信部３は、超音波である入力振動波Ｖａと可聴帯域の音波Ｖｃとを第１部分Ｐａに同時に送信する。

【0055】

第１部分Ｐａは、対象者Ｍａの右耳の周囲の少なくとも一部に規定される。可聴帯域の音波Ｖｃが第１部分Ｐａに送信されることにより、対象者Ｍａは、右耳で音波Ｖｃを聞くことができる。音波Ｖｃは、骨導音として右耳の聴覚神経に伝わってもよいし、気導音として右耳の鼓膜に伝わってもよい。

【0056】

上述の実施形態と同様、入力振動波Ｖａは、顔の少なくとも一部を伝播して、第２部分Ｐｂに伝達される。振動受信部４は、入力振動波Ｖａに基づいて生成される出力振動波Ｖｂを第２部分Ｐｂで受信する。また、音波Ｖｃも、第２部分Ｐｂに伝達される。第２部分Ｐｂは、対象者Ｍａの左耳の周囲の少なくとも一部に規定される。可聴帯域の音波Ｖｃが第２部分Ｐｂに伝達されることにより、対象者Ｍａは、右耳のみならず左耳でも音波Ｖｃを聞くことができる。すなわち、対象者Ｍａは、両耳で音波Ｖｃを聞くことができる。音波Ｖｃは、骨導音として左耳の聴覚神経に伝わってもよいし、気導音として左耳の鼓膜に伝わってもよい。

【0057】

なお、差分波Ｖｄには、音波Ｖｃの成分が含まれないことが好ましい。そのため、振動受信部４が受信する出力振動波Ｖｂに音波Ｖｃの成分が含まれないように、音波Ｖｃをカットするローパスフィルタ処理が実施されてもよい。

【0058】

音波Ｖｃは、発話認識装置５で認識された音素の音声でもよい。出力装置６が音声出力装置である場合、発話認識装置５の処理部１２で特定された音素を音声として出力することができる。出力装置６は、処理部１２で特定された音素の音声を振動発生装置２０に出力する。これにより、振動送信部３は、発話認識装置５で認識された、対象者Ｍａが発話しようとする音素の音波Ｖｃを第１部分Ｐａに送信することができる。対象者Ｍａは、対象者Ｍａが発話しようとする音素の音声を聞きながら、発話せずに口を動かすことができる。

【0059】

なお、音波Ｖｃは、楽曲コンテンツの音波でもよい。これにより、対象者Ｍａは、両耳で楽曲を楽しみながら、発話せずに口を動かし、コミュニケーションができる。

【符号の説明】

【0060】

１…コミュニケーション装置、２…振動発生装置、３…振動送信部、４…振動受信部、５…発話認識装置、６…出力装置、７…振動波データ取得部、８…差分波生成部、９…直交変換部、１０…特徴量抽出部、１１…学習部、１２…処理部、１３…出力部、１４…学習済モデル記憶部、２０…振動発生装置、５１…プロセッサ、５２…メインメモリ、５３…ストレージ、５４…インタフェース、５５…コンピュータプログラム、１００…コミュニケーション装置、Ｍａ…対象者、Ｐａ…第１部分、Ｐｂ…第２部分、Ｖａ…入力振動波、Ｖｂ…出力振動波、Ｖｃ…音波、Ｖｄ…差分波。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版