(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-06
(45)【発行日】2025-01-15
(54)【発明の名称】音声認識装置
(51)【国際特許分類】
G10L 15/25 20130101AFI20250107BHJP
G10L 15/02 20060101ALI20250107BHJP
G06T 7/00 20170101ALI20250107BHJP
【FI】
G10L15/25
G10L15/02 300Z
G06T7/00 P
G06T7/00 660A
(21)【出願番号】P 2020167873
(22)【出願日】2020-10-02
【審査請求日】2023-09-26
(73)【特許権者】
【識別番号】000001960
【氏名又は名称】シチズン時計株式会社
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100114018
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100180806
【氏名又は名称】三浦 剛
(74)【代理人】
【識別番号】100151459
【氏名又は名称】中村 健一
(72)【発明者】
【氏名】清水 秀樹
【審査官】大野 弘
(56)【参考文献】
【文献】特開平09-325793(JP,A)
【文献】特開昭58-220196(JP,A)
【文献】特開2019-015773(JP,A)
【文献】特開2018-180424(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/25
G10L 15/02
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
話者の発話動作中における口唇領域を含む画像を取得する撮像部と、
前記画像から話者の唇動の軌跡を検出する唇動軌跡検出部と、
前記話者が
声帯を使わずに発話する際の音声から空中を伝搬する非可聴音を検出する非可聴音検出部と、
前記非可聴音の周波数特性を解析し、周波数パターンを抽出する周波数パターン抽出部と、
前記唇動の軌跡と
仮名文字との対応関係を予め記憶した唇動軌跡データ記憶部と、
前記非可聴音の周波数パターンと
仮名文字との対応関係を予め記憶した非可聴音パターン記憶部と、
前記唇動軌跡データ記憶部を参照して、前記唇動の軌跡から
仮名文字の候補を抽出する発話候補抽出部と、
前記発話候補抽出部が複数の
仮名文字の候補を抽出した場合は、前記非可聴音パターン記憶部を参照して、
抽出された周波数パターンと前記複数の仮名文字の候補の各記憶されている周波数パターンとを照合することにより、前記複数の
仮名文字の候補の中から特定の
仮名文字を決定する発話決定部と、
前記発話決定部によって決定された
仮名文字に関する情報を出力する出力部と、
を有することを特徴とする音声認識装置。
【請求項2】
前記非可聴音検出部は、前記唇動軌跡検出部が検出した前記話者の唇動開始をトリガーとして、前記話者の非可聴音の検出を開始する、請求項1に記載の音声認識装置。
【請求項3】
前記非可聴音検出部は、前記非可聴音として、20kHz以上かつ70kHz以下の音波を検出する、請求項1または2に記載の音声認識装置。
【請求項4】
前記発話決定部は、前記周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、
仮名文字を決定する、請求項1乃至3のいずれか一項に記載の音声認識装置。
【請求項5】
前記唇動の軌跡が略同一である複数の
仮名文字は、「な」、「た」、及び「だ」のうちの少なくとも2つを含む、請求項1乃至4のいずれか一項に記載の音声認識装置。
【請求項6】
前記唇動の軌跡が略同一である複数の
仮名文字は、「し」及び「ち」を含む、請求項1乃至4のいずれか一項に記載の音声認識装置。
【請求項7】
前記唇動の軌跡が略同一である複数の
仮名文字は、「あ」及び「は」を含む、請求項1乃至4のいずれか一項に記載の音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置に関する。
【背景技術】
【0002】
高齢者の中には声帯を使わずに話す人が多く存在する。また、小声で話す場合には、声帯を使わずに発話が行われることがある。声帯を使わない人の発話内容を知る方法として、口の動きから言葉を認識する方法が報告されている(例えば、特許文献1)。
【0003】
特許文献1には、口の動きに基づいて言葉を認識する読唇装置において、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第1の口形、および、1つの音を発し終える際に形作られる口形である第2の口形を検出する第1の口形検出手段と、検出された第1の口形および第2の口形に基づいて、話者が発した言葉を認識する認識手段とを含む読唇装置が記載されている。
【0004】
また、声帯を使わずに話したときに発せられる非可聴音から発話内容を検出する方法が報告されている(例えば、特許文献2)。
【0005】
特許文献2には、人間の体表に聴診器型のマイクロフォンを装着させ、声帯の規則唇動を用いない発話行動に伴って調音される非可聴つぶやき音の肉伝導の振動音を採取する方法が開示されている。
【0006】
しかしながら、日本語は同じ唇の動きをする発話が複数あり、特許文献1のようにカメラで唇の動きを解読する方法では、限られた言葉しか解読できないという問題があった。
【0007】
また、特許文献2に記載の方法では、予め専用のマイクを装着しなければならず、使用できるシーンが限られるという問題があった。
【先行技術文献】
【特許文献】
【0008】
【文献】特開2008-310382号公報
【文献】国際公開第2004/021738号
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は、話者が声帯を使わずに発話した場合であっても、発話内容を認識可能な音声認識装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
本開示の実施形態に係る音声認識装置は、話者の発話動作中における口唇領域を含む画像を取得する撮像部と、画像から話者の唇動の軌跡を検出する唇動軌跡検出部と、話者が発話する際の音声から空中を伝搬する非可聴音を検出する非可聴音検出部と、非可聴音の周波数特性を解析し、周波数パターンを抽出する周波数パターン抽出部と、唇動の軌跡と発話内容との対応関係を予め記憶した唇動軌跡データ記憶部と、非可聴音の周波数パターンと発話内容との対応関係を予め記憶した非可聴音パターン記憶部と、唇動軌跡データ記憶部を参照して、唇動の軌跡から発話内容の候補を抽出する発話候補抽出部と、発話候補抽出部が複数の発話内容の候補を抽出した場合は、非可聴音パターン記憶部を参照して、複数の発話内容の候補の中から特定の発話内容を決定する発話決定部と、発話決定部によって決定された発話内容に関する情報を出力する出力部と、を有することを特徴とする。
【0011】
上記の音声認識装置において、非可聴音検出部は、唇動軌跡検出部が検出した話者の唇動開始をトリガーとして、話者の非可聴音の検出を開始することが好ましい。
【0012】
上記の音声認識装置において、非可聴音検出部は、非可聴音として、20kHz以上かつ70kHz以下の音波を検出することが好ましい。
【0013】
上記の音声認識装置において、発話決定部は、周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、発話内容を決定することが好ましい。
【0014】
上記の音声認識装置において、唇動の軌跡が略同一である複数の発話内容は、「な」、「た」、及び「だ」のうちの少なくとも2つを含んでいてもよい。
【0015】
上記の音声認識装置において、唇動の軌跡が略同一である複数の発話内容は、「し」及び「ち」を含んでいてもよい。
【0016】
上記の音声認識装置において、唇動の軌跡が略同一である複数の発話内容は、「あ」及び「は」を含んでいてもよい。
【発明の効果】
【0017】
本発明の音声認識装置によれば、話者が声帯を使わずに発話した場合であっても、発話内容を認識することができる。
【図面の簡単な説明】
【0018】
【
図1】本開示の実施形態に係る音声認識装置のブロック図である。
【
図2】(a)は、顔画像認識部によって認識した顔の輪郭の例であり、(b)は(a)の顔の輪郭に含まれる口の輪郭の例である。
【
図3】「な」、「た」、及び「だ」と発話したときの唇動の軌跡を表す図であり、(a)はy方向の唇動の軌跡を表し、(b)はx方向の唇動の軌跡を表す。
【
図4】(a)~(c)は、それぞれ、「な」、「た」、及び「だ」と発話したときの音声の周波数スペクトルである。
【
図5】本開示の実施形態に係る音声認識装置の動作手順を説明するためのフローチャートである。
【
図6】「し」及び「ち」と発話したときの唇動の軌跡を表す図であり、(a)はy方向の唇動の軌跡を表し、(b)はx方向の唇動の軌跡を表す。
【
図7】(a)及び(b)は、それぞれ、「し」及び「ち」と発話したときの音声の周波数スペクトルである。
【
図8】「あ」及び「は」と発話したときの唇動の軌跡を表す図であり、(a)はy方向の唇動の軌跡を表し、(b)はx方向の唇動の軌跡を表す。
【
図9】(a)及び(b)は、それぞれ、「あ」及び「は」と発話したときの音声の周波数スペクトルである。
【
図10】実施例1に係る音声認識装置を用いた会話システムの構成概略図である。
【
図11】実施例1に係る音声認識装置のブロック図である。
【
図12】実施例1の変形例に係る音声認識装置のブロック図である。
【
図13】実施例2に係る音声認識装置を用いた通訳装置の構成概略図である。
【
図14】実施例2に係る音声認識装置のブロック図である。
【
図15】実施例3に係る音声認識装置を用いた音声機器操作システムの構成概略図である。
【
図16】実施例3に係る音声認識装置のブロック図である。
【発明を実施するための形態】
【0019】
以下、図面を参照して、本発明に係る音声認識装置について説明する。ただし、本発明の技術的範囲はそれらの実施の形態には限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。
【0020】
図1に本開示の実施形態に係る音声認識装置1001のブロック図を示す。音声認識装置1001は、撮像部1と、唇動軌跡検出部2と、非可聴音検出部3と、周波数パターン抽出部4と、唇動軌跡データ記憶部5と、非可聴音パターン記憶部6と、発話候補抽出部7と、発話決定部8と、出力部9と、顔画像認識部10と、を有する。音声認識装置1001には、スマートフォンやタブレット端末等の情報端末を用いることができる。ただし、このような例には限られず、シングルボードコンピュータを用いた組込みモジュールとして実現することもできる。あるいは、音声認識装置1001をサーバ上に配置し、撮像部1及び非可聴音検出部3で取得したデータをサーバに送信するようにしてもよい。撮像部1はカメラにより構成され、非可聴音検出部3はマイクにより構成される。唇動軌跡データ記憶部5及び非可聴音パターン記憶部6は、ハードディスク、または半導体メモリで構成される。唇動軌跡検出部2、周波数パターン抽出部4、発話候補抽出部7、発話決定部8、出力部9、及び顔画像認識部10は、CPU、ROM及びRAMなどを含む音声認識装置1001に設けられているコンピュータにより、ソフトウエア(プログラム)として実現される。
【0021】
撮像部1は、カメラであり、CMOS(Complementary Metal Oxide Semiconductor)型又はCCD(Charge Coupled Device)型のイメージセンサを備えている。撮像部1は、話者の発話動作中における口唇領域を含む画像を取得し、撮像した画像をフレーム毎に顔画像認識部10に供給する。カメラは、スマートフォンやタブレット端末等の情報端末に予め備えられているものを利用することができ、外付けのカメラを利用することもできる。
【0022】
顔画像認識部10は、内蔵する顔認識のためのアプリケーションプログラムによって、話者の顔及び口唇の輪郭を識別し、自動的に追尾する機能を有している。これにより、話者が撮像部1の撮像範囲内で移動しても、話者の顔画像を捉えることができる。
【0023】
唇動軌跡検出部2は、撮像部1が取得した画像から話者の唇動の軌跡を検出する。
図2(a)は、顔画像認識部10によって認識した顔の輪郭の例であり、
図2(b)は
図2(a)の顔の輪郭に含まれる口の輪郭の例である。
図2(a)に示すように、顔画像認識部10により、顔21、眉22、目23、鼻24、及び口25のそれぞれの輪郭の位置を決定することができる。
図2(b)に示すように、発話によって、口唇は上下方向(y方向)に開閉し、左右方向(x方向)に伸縮する。そこで、口唇の動きを示すための特徴点を、上唇の下端y1、下唇の上端y2、唇の左側端部x1、及び唇の右側端部x2とした。また、口唇の動作の特徴量を上下方向の距離(Δy=y1-y2)の時間的変化と、左右方向の距離(Δx=x2-x1)の時間的変化とした。
【0024】
唇動軌跡データ記憶部5は、唇動の軌跡(発話唇動プロファイル)と発話内容との対応関係を予め記憶している。
図3は、「な」、「た」、「だ」と発話したときの唇動の軌跡を表す図であり、
図3(a)はy方向の唇動の軌跡を表し、
図3(b)はx方向の唇動の軌跡を表す。
図3(a)及び(b)の横軸は唇動を開始してからの時間(秒)である。
図3(a)の縦軸は上下方向の距離Δy(mm)であり、
図3(b)の縦軸は左右方向の距離Δx(mm)である。
図3(a)において、Lny、Lty、Ldyは、それぞれ、「な」、「た」、「だ」と発話したときのy方向の唇動の軌跡を表す。また、
図3(b)において、Lnx、Ltx、Ldxは、それぞれ、「な」、「た」、「だ」と発話したときのx方向の唇動の軌跡を表す。唇動軌跡データ記憶部5は、上記の例以外にも種々の発話における唇動の軌跡と発話内容との対応関係を予め記憶している。唇動軌跡データ記憶部5は、唇動の軌跡の特徴量が、どの発話内容に近いのかを人工知能(AI)を用いて機械学習により生成した学習モデルを記憶していてもよい。
【0025】
発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補を抽出する。
図3(a)及び(b)に示した例では、「な」、「た」、「だ」と発話したときの唇動のy方向の時間的変化を表す3つの曲線(Lny、Lty、Ldy)はほぼ同じ軌跡を描き、唇動のx方向の時間的変化を表す3つの曲線(Lnx、Ltx、Ldx)がほぼ同じ軌跡を描いている。そのため、唇動のy方向の時間的変化を表す曲線が、3つの曲線(Lny、Lty、Ldy)のうちのいずれかに類似し、かつ、唇動のx方向の時間的変化を表す曲線が、3つの曲線(Lnx、Ltx、Ldx)のうちのいずれかに類似した曲線を示す発話を検出した場合、発話内容は、「な」、「た」、「だ」のいずれかであることは分かるが、これらの内のどの発話であるのかは特定できない。そこで、このような場合は、発話内容の候補は3つ抽出されることとなる。
【0026】
非可聴音検出部3は、話者が発話する際の音声から空中を伝搬する非可聴音を検出する。非可聴音検出部3として、スマートフォンやタブレット端末に内蔵されているMEMS(Micro Electro Mechanical Systems)マイクを用いることができる。MEMSマイクを用いることにより、非可聴音の周波数帯域を含めた発話を検知することができる。スマートフォン等の端末に内蔵されたMEMSマイクにおいて、ノイズ低減のために非可聴音の帯域をカットしている場合は、そのような帯域制限を解除すればよい。スマートフォン等に予め備えられているマイクを使用する代わりに、非可聴音を検出可能なマイクを外付けするようにしてもよい。非可聴音検出部3は、非可聴音として、20kHz以上かつ70kHz以下の音波を検出することが好ましい。
【0027】
非可聴音検出部3は、唇動軌跡検出部2が検出した話者の唇動開始をトリガーとして、話者の非可聴音の検出を開始することが好ましい。非可聴音は話者が発話する場合に生じるもの以外にも、話者が体を動かした場合等によっても発生する場合があり、これがノイズとなるため、話者が発話を開始するタイミングを非可聴音のみから検出することが難しい場合もあり得る。そこで、非可聴音検出部3は、唇動軌跡検出部2が、話者の口唇が動き始めたことを検出してから非可聴音の検出を開始することが好ましい。このようにすることで、話者の発話によって生じる非可聴音を正確に検出することができる。
【0028】
周波数パターン抽出部4は、非可聴音の周波数特性を解析し、周波数パターンを抽出する。
図4(a)は、「な」と発話したときの音声の周波数スペクトルであり、
図4(b)は、「た」と発話したときの音声の周波数スペクトルであり、
図4(c)は、「だ」と発話したときの音声の周波数スペクトルである。
図4(a)~(c)において、横軸は周波数(kHz)、縦軸はパワー(dB)を示す。声帯を使わずに発話が行われた場合であっても、舌使いや喉の息の出し方により、非可聴音領域の周波数分布(周波数パターン)に差異が現れる。この周波数分布の違いを利用することにより、唇動軌跡では特定しきれない発話を識別することができる。
【0029】
非可聴音パターン記憶部6は、非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。即ち、非可聴音パターン記憶部6は、唇動軌跡が略同一の複数の発話のそれぞれを識別するための、周波数パターンにおける特徴点として、特定の周波数においてピークが発生するか否か、及びピークが発生する場合は、特定の周波数帯域において生じるピークの位置に関する情報を記憶している。例えば、非可聴音パターン記憶部6は、「な」、「た」、「だ」のそれぞれの非可聴音の周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置を記憶していることが好ましい。具体的には、
図4(a)に示すように、「な」と発話した場合、舌全体を上顎に軽く押し当てるため、20kHz~30kHzの範囲の周波数パターンには明確なピークは現れない。また、
図4(b)に示すように、「た」と発話した場合、舌先を上顎に弾くように強く当てるため、周波数パターンには25kHz~30kHzの範囲にピークPtが現れる。さらに、
図4(c)に示すように、「だ」と発話した場合、濁音のため「た」の場合より舌先を上顎に軽く当てるため、周波数パターンには「た」よりも低い20kHz~25kHzの範囲にピークPdが現れる。このように、非可聴音パターン記憶部6は、発話内容が「な」の場合は20kHz~30kHzの範囲の周波数パターンには明確なピークは現れないこと、発話内容が「た」の場合は周波数パターンには25kHz~30kHzの範囲にピークが現れること、及び、発話内容が「だ」の場合は周波数パターンには20kHz~25kHzの範囲にピークが現れることを記憶している。このように、非可聴音パターン記憶部6は、唇動軌跡が略同一の複数の発話のそれぞれについて、非可聴音の周波数パターンにおいて、特定の周波数においてピークが発生するか否か、及びピークが発生する場合は、どの周波数帯域にピークが生じるかという情報を予め記憶している。ただし、非可聴音パターン記憶部6は、これら以外にも、「し」及び「ち」、並びに「あ」及び「は」のように、唇動の軌跡が略同一で非可聴音の周波数パターンが異なる発話の他の組み合わせについても記憶している。
【0030】
発話決定部8は、発話候補抽出部7が複数の発話内容の候補を抽出した場合は、非可聴音パターン記憶部6を参照して、複数の発話内容の候補の中から特定の発話内容を決定する。例えば、発話候補抽出部7が3つの発話内容の候補「な」、「た」、及び「だ」を抽出した場合は、非可聴音パターン記憶部6を参照して、上記3つの発話内容の候補の中から特定の発話内容を決定する。上述した通り、唇動軌跡検出部2が検出した唇動の軌跡が
図3(a)及び(b)に類似した曲線となった場合には、発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補として「な」、「た」、及び「だ」を抽出する。次に、発話決定部8は、非可聴音パターン記憶部6を参照して、検出した非可聴音の周波数パターンを3つの発話内容の候補(「な」、「た」、「だ」)のそれぞれの周波数パターンと照合することにより、3つの発話内容の候補の中から特定の発話内容を決定する。
【0031】
発話決定部8は、周波数パターンにおける特定の周波数帯域において発生するピークの有無及びピークの位置に基づいて、発話内容を決定することができる。例えば、
図4(a)のように、20kHz~30kHzの範囲の周波数においてパワーのピークが検出されなかった場合には、検出した発話は「な」であると判定することができる。また、
図4(b)のように、25kHz~30kHzの範囲の周波数においてパワーのピークPtが検出された場合には、検出した発話は「た」であると判定することができる。あるいは、
図4(c)のように、20kHz~25kHzの範囲の周波数においてパワーのピークPdが検出された場合には、検出した発話は「だ」であると判定することができる。以上のようにして、発話決定部8は、発話候補抽出部7が3つの発話内容の候補(「な」、「た」、「だ」)を抽出した場合は、非可聴音パターン記憶部6を参照して、3つの発話内容の候補の中から特定の発話内容として「な」、「た」、及び「だ」のいずれか1つを決定する。
【0032】
発話決定部8は、発話候補抽出部7が1つの発話内容の候補を抽出した場合は、非可聴の周波数パターンを参照せずに、当該候補を話者が発した発話内容と決定することができる。この場合は、非可聴の周波数パターンを参照する工程を省略することができるため、話者が発した発話の内容を迅速に決定することができ、音声認識装置1001における処理負荷を低減することができる。ただし、発話決定部8は、能力的に問題無ければ、検出した音声の周波数パターンと、非可聴音パターン記憶部6に記憶した周波数パターンとの比較を行うようにしてもよい。これにより、この発音決定の信頼性を上げることが可能となる。
【0033】
出力部9は、発話決定部8によって決定された発話内容に関する情報を出力する。出力部9に表示装置を接続した場合には、表示装置の画面に検出した発話内容を文字情報として表示することができる。また、出力部9に音声再生装置を接続した場合には、検出した発話内容を音声として出力することができる。例えば、画面表示の他に、イヤホンなどでの音声出力も併用するようにしてもよい。
【0034】
次に、本実施形態に係る音声認識装置の動作手順について説明する。
図5は、本開示の実施形態に係る音声認識装置の動作手順を説明するためのフローチャートである。まず、ステップS101において、撮像部1であるカメラを作動させる。カメラは、話者の発話動作中における口唇領域を含む画像を取得する。
【0035】
次に、ステップS102において、顔画像認識部10が、話者の顔及び口唇の輪郭を識別する。
【0036】
次に、ステップS103において、唇動軌跡検出部2が、カメラが撮像した画像から話者の唇動の軌跡を検出する。
【0037】
次に、ステップS104において、発話候補抽出部7が、唇動の軌跡と発話内容との対応関係を予め記憶した唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補を抽出する。
【0038】
一方、カメラが作動し、話者の口唇が動き始めたことを検出した後、これをトリガーとして、ステップS105において非可聴音検出部3である非可聴音センサが作動し、話者が発話する際の音声から空中を伝播する非可聴音を検出する。
【0039】
次に、ステップS106において、周波数パターン抽出部4が、非可聴音の周波数特性を解析し、ステップS107において周波数パターンを抽出する。
【0040】
次に、ステップS108において、発話候補抽出部7がステップS104において抽出した発話候補が複数個であるか1つであるかを判断する。発話候補が1つのみである場合は、ステップS109において、発話決定部8が、話者による発話を単独の発話候補に決定する。発話候補が1つのみである場合の例として、例えば、母音等がある。この場合は、唇動の軌跡のみで発話内容を決定することができる。従って、発話候補が1つのみである場合は、非可聴音の周波数パターンを参照する必要がないため、効率的に発話内容を決定することができる。ただし、発話決定部8は、能力的に問題無ければ、検出した音声の周波数パターンと、非可聴音パターン記憶部6に記憶した周波数パターンとの比較を行うようにしてもよい。これにより、この発音決定の信頼性を上げることが可能となる。
【0041】
一方、発話候補抽出部7が複数の発話内容の候補を抽出した場合は、ステップS110において、発話決定部8が、非可聴音の周波数パターンと発話内容との対応関係を予め記憶した非可聴音パターン記憶部6を参照して、複数の発話内容の候補の中から周波数パターンに基づいて特定の発話内容を決定する。
【0042】
次に、ステップS111において、出力部9が、決定した発話内容を出力する。
【0043】
上記の説明においては、唇動軌跡から抽出される複数の発話候補として、「な」、「た」、及び「だ」の組み合わせを例示したが、このような例には限られない。即ち、唇動の軌跡が略同一である複数の発話内容が、「な」、「た」、及び「だ」のうちの2つの組み合わせである場合において、その2つの組み合わせの中から1つの発話内容を決定するようにしてもよい。さらに、複数の発話候補の他の例として、「し」及び「ち」の組み合わせ、並びに「あ」及び「は」の組み合わせがあり、これらの組み合わせから、特定の発話を決定する方法について以下に説明する。
【0044】
まず、複数の発話候補が「し」及び「ち」の組み合わせである場合について説明する。
図6は、「し」及び「ち」と発話したときの唇動の軌跡を表す図であり、
図6(a)はy方向の唇動の軌跡を表し、
図6(b)はx方向の唇動の軌跡を表す。
図6(a)において、Lsy及びLcyは、それぞれ、「し」及び「ち」と発話したときにおける、
図2(b)に示したy方向の唇動(Δy=y1-y2)の軌跡を表す。また、
図6(b)において、Lsx及びLcxは、それぞれ、「し」及び「ち」と発話したときのx方向の唇動(Δx=x2-x1)の軌跡を表す。
【0045】
発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補を抽出する。
図6(a)及び(b)に示した例では、「し」、「ち」と発話したときの唇動のy方向の時間的変化を表す曲線LsyとLcyがほぼ同じ曲線であり、かつ、唇動のx方向の時間的変化を表す曲線LsxとLcxがほぼ同じ曲線である。唇動軌跡検出部2が検出した唇動のy方向の軌跡が
図6(a)に示した曲線に類似し、かつ、唇動のx方向の軌跡が
図6(b)に示した曲線に類似している場合には、発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補として「し」及び「ち」を抽出する。従って、この場合、発話内容は、「し」及び「ち」のいずれかであることは分かるが、これらの内のどの発話であるのかは特定できない。そこで、このような場合は、発話内容の候補は2つ抽出されることとなる。
【0046】
周波数パターン抽出部4は、非可聴音の周波数特性を解析し、周波数パターンを抽出する。
図7(a)は、「し」と発話したときの音声の周波数スペクトルであり、
図7(b)は、「ち」と発話したときの音声の周波数スペクトルである。
【0047】
非可聴音パターン記憶部6は、非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。例えば、
図7(a)に示すように、「し」と発話した場合、40kHz近傍の周波数パターンには明確なピークは現れない。一方、
図7(b)に示すように、「ち」と発話した場合、舌の中央を上顎に押し付けることにより、周波数パターンには40kHz近傍にピークPcが現れる。このように、非可聴音パターン記憶部6は、「し」及び「ち」の非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。
【0048】
次に、発話決定部8は、非可聴音パターン記憶部6を参照して、検出した非可聴音の周波数パターンを2つの発話内容の候補(「し」、「ち」)のそれぞれの周波数パターンと照合することにより、2つの発話内容の候補の中から特定の発話内容を決定する。
【0049】
発話決定部8は、周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、発話内容を決定することができる。
図7(a)のように、40kHz近傍の周波数においてパワーのピークが検出されなかった場合には、検出した発話は「し」であると判定することができる。また、
図7(b)のように、40kHz近傍においてパワーのピークPcが検出された場合には、検出した発話は「ち」であると判定することができる。以上のようにして、発話決定部8は、発話候補抽出部7が2つの発話内容の候補(「し」、「ち」)を抽出した場合は、非可聴音パターン記憶部6を参照して、2つの発話内容の候補の中から特定の発話内容として「し」及び「ち」のいずれか1つを決定する。
【0050】
次に、複数の発話候補が「あ」及び「は」の組み合わせである場合について説明する。
図8は、「あ」及び「は」と発話したときの唇動の軌跡を表す図であり、
図8(a)はy方向の唇動の軌跡を表し、
図8(b)はx方向の唇動の軌跡を表す。
図8(a)において、Lay及びLhyは、それぞれ、「あ」及び「は」と発話したときにおける、
図2(b)に示したy方向の唇動(Δy=y1-y2)の軌跡を表す。また、
図8(b)において、Lax及びLhxは、それぞれ、「あ」及び「は」と発話したときのx方向の唇動(Δx=x2-x1)の軌跡を表す。
【0051】
発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補を抽出する。
図8(a)及び(b)に示した例では、「あ」、「は」と発話したときの唇動のy方向の時間的変化を表す曲線LayとLhyがほぼ同じ曲線であり、かつ、唇動のx方向の時間的変化を表す曲線LaxとLhxがほぼ同じ曲線である。唇動軌跡検出部2が検出した唇動のy方向の軌跡が
図8(a)に示した曲線に類似し、かつ、唇動のx方向の軌跡が
図8(b)に示した曲線に類似している場合には、発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補として「あ」及び「は」を抽出する。従って、この場合、発話内容は、「あ」及び「は」のいずれかであることは分かるが、これらの内のどの発話であるのかは特定できない。そこで、このような場合は、発話内容の候補は2つ抽出されることとなる。
【0052】
周波数パターン抽出部4は、非可聴音の周波数特性を解析し、周波数パターンを抽出する。
図9(a)は、「あ」と発話したときの音声の周波数スペクトルであり、
図9(b)は、「は」と発話したときの音声の周波数スペクトルである。
【0053】
非可聴音パターン記憶部6は、非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。例えば、
図9(a)に示すように、「あ」と発話した場合、舌全体を上顎に軽く押し当てるため、20kHz近傍の周波数パターンには明確なピークは現れない。また、
図9(b)に示すように、「は」と発話した場合、舌の中央を上顎に押し付けることにより、周波数パターンには20kHz近傍にピークPhが現れる。このように、非可聴音パターン記憶部6は、「あ」及び「は」の非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。
【0054】
次に、発話決定部8は、非可聴音パターン記憶部6を参照して、検出した非可聴音の周波数パターンを2つの発話内容の候補(「あ」、「は」)のそれぞれの周波数パターンと照合することにより、2つの発話内容の候補の中から特定の発話内容を決定する。
【0055】
発話決定部8は、周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、発話内容を決定することができる。
図9(a)のように、20kHz近傍の周波数パターンにおいてパワーのピークが検出されなかった場合には、検出した発話は「あ」であると判定することができる。また、
図9(b)のように、20kHz近傍の周波数パターンにおいてパワーのピークが検出された場合には、検出した発話は「は」であると判定することができる。以上のようにして、発話決定部8は、発話候補抽出部7が2つの発話内容の候補(「あ」、「は」)を抽出した場合は、非可聴音パターン記憶部6を参照して、2つの発話内容の候補の中から特定の発話内容として「あ」及び「は」のいずれか1つを決定する。
【0056】
上記の通り、唇動の軌跡が略同一である複数の発話内容の例として、「な」、「た」、及び「だ」の組み合わせ、「し」及び「ち」の組み合わせ、並びに「あ」及び「は」の組み合わせを示したが、このような例には限られず、唇動の軌跡が略同一である他の複数の発話内容の組み合わせに対しても、本開示の実施形態に係る音声認識装置を用いることができる。
【0057】
以上説明したように本開示の実施形態に係る音声認識装置によれば、声帯を使わない発話(呟き声)を非接触で判定することができ、唇動軌跡から予測発話の粗候補を抽出し、非可聴音による周波数パターンから予測候補の中から話者による発話を確定することができる。さらに、唇動によるパターン判定と非可聴音による判定を組み合わせることにより、発話内容の予測精度を向上させることができる。本開示の実施形態に係る音声認識装置によれば、声帯を使わずに発話される高齢者の会話を解読することができる。また、静寂が求められる乗り物内等において、声帯を使わずに小声で行われる通話内容を把握することができる。この場合、非可聴音によって会話を行うことができるため、プライバシーを保護し、あるいは情報漏洩を防ぎながら、会話を行うことができる。さらに、予め話者に専用機材を装着する必要が無いため、多目的な用途に使用することができる。
【0058】
[実施例1]
次に、実施例1に係る音声認識装置について説明する。
図10は、実施例1に係る音声認識装置を用いた会話システムの構成概略図である。話者(120、220)が高齢者等である場合、声帯を使わずに話すことにより、互いに相手の話す内容が聞き取れず、その結果うまくコミュニケーションを取ることができないという問題が生じうる。実施例1に係る音声認識装置(100、200)は、自己が発した言葉の内容を自己が所持した音声認識装置に表示させて相手に見せることでコミュニケーションを取るものである。
【0059】
ここで、第1話者120が第1の音声認識装置100を持ち、第2話者220が第2の音声認識装置200を持つものとする。第1の音声認識装置100及び第2の音声認識装置200にはタブレット端末等の情報端末を用いることができる。第1話者120は、第1の音声認識装置100を首から下げて表示部113を第2話者220に向けると共に、撮像部101が第2話者220の口唇領域220mの画像を撮像できるようにする。同様に、第2話者220は、第2の音声認識装置200を首から下げて表示部213を第1話者120に向けると共に、撮像部201が第1話者120の口唇領域120mの画像を撮像できるようにする。
【0060】
まず、第2話者220が発話した際の画像及び非可聴音を第1の音声認識装置100で解析した後、解析結果を第2の音声認識装置200の表示部213に表示させる手順について説明する。
図11は、実施例1に係る音声認識装置(100、200)のブロック図である。第1の音声認識装置100及び第2の音声認識装置200は、
図1に示した音声認識装置1001の構成に加えて、受信部(111、211)、送信部(112、212)、及び表示部(113、213)を備えている。その他の構成は、
図1に示した音声認識装置1001の構成と同様である。
【0061】
第1の音声認識装置100の撮像部101は、第2話者220が「今日のゴハンは?」と声帯を使わずに発話しているときの口唇領域220mを含む画像を取得する。また、非可聴音検出部103は、第2話者220が発話する際の音声から空中を伝搬する非可聴音を検出する。
【0062】
第1の音声認識装置100は、取得した口唇領域220mの画像及び非可聴音から第2話者220の発話内容は「今日のゴハンは?」であると決定し、決定した結果を出力部109が送信部112に出力する。送信部112は、第2話者220の発話内容に関する情報を第2の音声認識装置200の受信部211に送信する。
【0063】
第2の音声認識装置200の受信部211は、発話内容に関する情報を受信し、表示部213に送信する。表示部213は取得した情報に基づいて、表示画面に「今日のゴハンは?」と表示する。第1話者120は、第2の音声認識装置200の表示部213を視認することにより、第2話者220が発話した内容は「今日のゴハンは?」であることを認識する。このとき、第2話者220の発話が一旦終了し、第1話者120からの回答を待っていることを表示部213に表示することにより、第1話者120が発話するタイミングを取りやすくするようにしてもよい。
【0064】
次に、第1話者120が発話した際の画像及び非可聴音を第2の音声認識装置200で解析した後、解析結果を第1の音声認識装置100の表示部113に表示させる手順について説明する。第2の音声認識装置200の撮像部201は、第1話者120が「カレーよ」と声帯を使わずに発話しているときの口唇領域120mを含む画像を取得する。また、非可聴音検出部203は、第1話者120が発話する際の音声から空中を伝搬する非可聴音を検出する。
【0065】
第2の音声認識装置200は、取得した口唇領域120mの画像及び非可聴音から第1話者120の発話内容は「カレーよ」であると決定し、決定した結果を出力部209が送信部212に出力する。送信部212は、第1話者120の発話内容に関する情報を第1の音声認識装置100の受信部111に送信する。
【0066】
第1の音声認識装置100の受信部111は、発話内容に関する情報を受信し、表示部113に送信する。表示部113は取得した情報に基づいて、表示画面に「カレーよ」と表示する。第2話者220は、第1の音声認識装置100の表示部113を視認することにより、第1話者120が発話した内容は「カレーよ」であることを認識する。
【0067】
以上のようにして、実施例1に係る音声認識装置を用いることにより、第1話者120と第2話者220が声帯を使わずに発話した場合でも互いに相手の発話内容を把握することができ、コミュニケーションを取ることができる。
【0068】
次に、実施例1の変形例として、第2話者220が発話した際の画像及び非可聴音に関する情報を第1の音声認識装置100´で取得した後、取得した情報を第2の音声認識装置200´に送信し、第2の音声認識装置200´で解析し、解析結果を表示させる手順について説明する。
図12に実施例1の変形例に係る音声認識装置のブロック図を示す。
【0069】
第1の音声認識装置100´の撮像部101は、第2話者220が「今日のゴハンは?」と声帯を使わずに発話しているときの口唇領域220mを含む画像を取得する。また、非可聴音検出部103は、第2話者220が発話する際の音声から空中を伝搬する非可聴音を検出する。
【0070】
第1の音声認識装置100´の撮像部101が取得した画像データ及び非可聴音検出部103が取得した非可聴音のデータは送信部112に供給され、送信部112はこれらのデータを第2の音声認識装置200´の受信部211に送信する。
【0071】
第2の音声認識装置200´は、受信部211が受信した口唇領域220mの画像及び非可聴音から第2話者220の発話内容は「今日のゴハンは?」であると決定し、決定した結果を表示部213に表示する。
【0072】
第1話者120は、第2の音声認識装置200´の表示部213を視認することにより、第2話者220が発話した内容は「今日のゴハンは?」であることを認識する。このとき、第2話者220の発話が一旦終了し、第1話者120からの回答を待っていることを表示部213に表示することにより、第1話者120が発話するタイミングを取りやすくするようにしてもよい。
【0073】
次に、第1話者120が発話した内容を第2の音声認識装置200´で取得した後、取得した情報を第1の音声認識装置100´に送信し、第1の音声認識装置100´で解析し、表示させる手順について説明する。
【0074】
第2の音声認識装置200´の撮像部201は、第1話者120が「カレーよ」と声帯を使わずに発話しているときの口唇領域120mを含む画像を取得する。また、非可聴音検出部203は、第1話者120が発話する際の音声から空中を伝搬する非可聴音を検出する。
【0075】
第2の音声認識装置200´の撮像部201が取得した画像データ及び非可聴音検出部203が取得した非可聴音のデータは送信部212に供給され、送信部212はこれらのデータを第1の音声認識装置100´の受信部111に送信する。
【0076】
第1の音声認識装置100´は、受信部111が受信した口唇領域120mの画像及び非可聴音から第1話者120の発話内容は「カレーよ」であると決定し、決定した結果を表示部113に表示する。
【0077】
第2話者220は、第1の音声認識装置100´の表示部113を視認することにより、第1話者120が発話した内容は「カレーよ」であることを認識する。
【0078】
以上のようにして、実施例1の変形例に係る音声認識装置を用いることにより、第1話者120と第2話者220が声帯を使わずに発話した場合でも互いに相手の発話内容を把握することができ、コミュニケーションを取ることができる。
【0079】
[実施例2]
次に、実施例2に係る音声認識装置について説明する。
図13は、実施例2に係る音声認識装置1002を用いた通訳装置の構成概略図である。介護士30は、話者である高齢者40の感情を会話内容から把握しようとするが、高齢者40が声帯を使わずに話す場合、発話した内容を聞き取ることができず、感情を把握することが難しい場合がある。実施例2に係る音声認識装置1002は、高齢者40が声帯を使わずに発話した内容を表示部13に表示させることにより高齢者40の発話内容を認識するものである。
【0080】
図14は、実施例2に係る音声認識装置1002のブロック図である。実施例2に係る音声認識装置1002は、
図1に示した音声認識装置1001に加えて表示部13を備えている。その他の構成は、音声認識装置1001における構成と同様である。
【0081】
音声認識装置1002の撮像部1は、話者である高齢者40が声帯を使わずに発話しているときの口唇領域40mを含む画像を取得する。また、非可聴音検出部3は、高齢者40が発話する際の音声から空中を伝搬する非可聴音を検出する。
【0082】
音声認識装置1002は、取得した口唇領域40mを含む画像及び検出した非可聴音に基づいて、高齢者40の発話内容を決定し、出力部9が決定した発話内容に関するデータを表示部13に出力する。表示部13は、取得したデータに基づいて発話内容を表示する。
【0083】
実施例2に係る音声認識装置1002によれば、高齢者40が声帯を使わずに発話した場合であっても発話内容を表示部13に表示することができるため、高齢者40の発話内容を認識することができる。
【0084】
[実施例3]
次に、実施例3に係る音声認識装置について説明する。
図15は、実施例3に係る音声認識装置1003を用いた音声機器操作システムの構成概略図である。近年、音声で家電を操作したり、自動車のナビシステムを制御したりする装置が開発されている。これらの装置は、受信した音声を認識することで制御が可能となるが、高齢者等が声帯を使わずに発話して操作しようとしても、これらの装置はそのような声帯を使わずに発せられた音声を認識することができないという問題がある。実施例3に係る音声認識装置1003は、高齢者50が声帯を使わずに発話した内容を認識し、可聴音声に変換して、家電等の機器60に可聴音声に変換した音声を認識させるものである。
【0085】
図16は、実施例3に係る音声認識装置1003のブロック図である。実施例3に係る音声認識装置1003は、
図1に示した音声認識装置1001に加えて音声再生部14を備えている。その他の構成は、音声認識装置1001における構成と同様である。
【0086】
音声認識装置1003の撮像部1は、話者である高齢者50が声帯を使わずに発話しているときの口唇領域50mを含む画像を取得する。また、非可聴音検出部3は、高齢者50が発話する際の音声から空中を伝搬する非可聴音を検出する。
【0087】
音声認識装置1003は、取得した口唇領域50mを含む画像及び検出した非可聴音に基づいて、高齢者50の発話内容を決定し、出力部9が音声再生部14に発話内容を出力する。音声再生部14は、高齢者50の発話内容を可聴音として再生し、機器60は、再生された可聴音を認識して、所定の制御を実行する。
【0088】
実施例3に係る音声認識装置1003によれば、高齢者50が声帯を使わずに発話した場合であっても、発話内容を可聴音に変換して音声再生部14から出力することができるため、機器60における音声認識精度を向上させることができる。
【符号の説明】
【0089】
1 撮像部
2 唇動軌跡検出部
3 非可聴音検出部
4 周波数パターン抽出部
5 唇動軌跡データ記憶部
6 非可聴音パターン記憶部
7 発話候補抽出部
8 発話決定部
9 出力部
10 顔画像認識部
13 表示部
14 音声再生部