特許7613867 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ シチズンホールディングス株式会社の特許一覧

特許7613867音声認識装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-01-06

(45)【発行日】2025-01-15

(54)【発明の名称】音声認識装置

(51)【国際特許分類】

G10L 15/25 20130101AFI20250107BHJP

G10L 15/02 20060101ALI20250107BHJP

G06T 7/00 20170101ALI20250107BHJP

【ＦＩ】

G10L15/25

G10L15/02 300Z

G06T7/00 P

G06T7/00 660A

【請求項の数】 7

(21)【出願番号】P 2020167873

(22)【出願日】2020-10-02

(65)【公開番号】P2022059957

(43)【公開日】2022-04-14

【審査請求日】2023-09-26

(73)【特許権者】

【識別番号】000001960

【氏名又は名称】シチズン時計株式会社

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100114018

【弁理士】

【氏名又は名称】南山知広

(74)【代理人】

【識別番号】100180806

【弁理士】

【氏名又は名称】三浦剛

(74)【代理人】

【識別番号】100151459

【弁理士】

【氏名又は名称】中村健一

(72)【発明者】

【氏名】清水秀樹

【審査官】大野弘

(56)【参考文献】

【文献】特開平０９－３２５７９３（ＪＰ，Ａ）

【文献】特開昭５８－２２０１９６（ＪＰ，Ａ）

【文献】特開２０１９－０１５７７３（ＪＰ，Ａ）

【文献】特開２０１８－１８０４２４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／２５

Ｇ１０Ｌ１５／０２

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

話者の発話動作中における口唇領域を含む画像を取得する撮像部と、
前記画像から話者の唇動の軌跡を検出する唇動軌跡検出部と、
前記話者が声帯を使わずに発話する際の音声から空中を伝搬する非可聴音を検出する非可聴音検出部と、
前記非可聴音の周波数特性を解析し、周波数パターンを抽出する周波数パターン抽出部と、
前記唇動の軌跡と仮名文字との対応関係を予め記憶した唇動軌跡データ記憶部と、
前記非可聴音の周波数パターンと仮名文字との対応関係を予め記憶した非可聴音パターン記憶部と、
前記唇動軌跡データ記憶部を参照して、前記唇動の軌跡から仮名文字の候補を抽出する発話候補抽出部と、
前記発話候補抽出部が複数の仮名文字の候補を抽出した場合は、前記非可聴音パターン記憶部を参照して、抽出された周波数パターンと前記複数の仮名文字の候補の各記憶されている周波数パターンとを照合することにより、前記複数の仮名文字の候補の中から特定の仮名文字を決定する発話決定部と、
前記発話決定部によって決定された仮名文字に関する情報を出力する出力部と、
を有することを特徴とする音声認識装置。

【請求項2】

前記非可聴音検出部は、前記唇動軌跡検出部が検出した前記話者の唇動開始をトリガーとして、前記話者の非可聴音の検出を開始する、請求項１に記載の音声認識装置。

【請求項3】

前記非可聴音検出部は、前記非可聴音として、２０ｋＨｚ以上かつ７０ｋＨｚ以下の音波を検出する、請求項１または２に記載の音声認識装置。

【請求項4】

前記発話決定部は、前記周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、仮名文字を決定する、請求項１乃至３のいずれか一項に記載の音声認識装置。

【請求項5】

前記唇動の軌跡が略同一である複数の仮名文字は、「な」、「た」、及び「だ」のうちの少なくとも２つを含む、請求項１乃至４のいずれか一項に記載の音声認識装置。

【請求項6】

前記唇動の軌跡が略同一である複数の仮名文字は、「し」及び「ち」を含む、請求項１乃至４のいずれか一項に記載の音声認識装置。

【請求項7】

前記唇動の軌跡が略同一である複数の仮名文字は、「あ」及び「は」を含む、請求項１乃至４のいずれか一項に記載の音声認識装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識装置に関する。

【背景技術】

【0002】

高齢者の中には声帯を使わずに話す人が多く存在する。また、小声で話す場合には、声帯を使わずに発話が行われることがある。声帯を使わない人の発話内容を知る方法として、口の動きから言葉を認識する方法が報告されている（例えば、特許文献１）。

【0003】

特許文献１には、口の動きに基づいて言葉を認識する読唇装置において、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する第１の口形検出手段と、検出された第１の口形および第２の口形に基づいて、話者が発した言葉を認識する認識手段とを含む読唇装置が記載されている。

【0004】

また、声帯を使わずに話したときに発せられる非可聴音から発話内容を検出する方法が報告されている（例えば、特許文献２）。

【0005】

特許文献２には、人間の体表に聴診器型のマイクロフォンを装着させ、声帯の規則唇動を用いない発話行動に伴って調音される非可聴つぶやき音の肉伝導の振動音を採取する方法が開示されている。

【0006】

しかしながら、日本語は同じ唇の動きをする発話が複数あり、特許文献１のようにカメラで唇の動きを解読する方法では、限られた言葉しか解読できないという問題があった。

【0007】

また、特許文献２に記載の方法では、予め専用のマイクを装着しなければならず、使用できるシーンが限られるという問題があった。

【先行技術文献】

【特許文献】

【0008】

【文献】特開２００８－３１０３８２号公報

【文献】国際公開第２００４／０２１７３８号

【発明の概要】

【発明が解決しようとする課題】

【0009】

本発明は、話者が声帯を使わずに発話した場合であっても、発話内容を認識可能な音声認識装置を提供することを目的とする。

【課題を解決するための手段】

【0010】

本開示の実施形態に係る音声認識装置は、話者の発話動作中における口唇領域を含む画像を取得する撮像部と、画像から話者の唇動の軌跡を検出する唇動軌跡検出部と、話者が発話する際の音声から空中を伝搬する非可聴音を検出する非可聴音検出部と、非可聴音の周波数特性を解析し、周波数パターンを抽出する周波数パターン抽出部と、唇動の軌跡と発話内容との対応関係を予め記憶した唇動軌跡データ記憶部と、非可聴音の周波数パターンと発話内容との対応関係を予め記憶した非可聴音パターン記憶部と、唇動軌跡データ記憶部を参照して、唇動の軌跡から発話内容の候補を抽出する発話候補抽出部と、発話候補抽出部が複数の発話内容の候補を抽出した場合は、非可聴音パターン記憶部を参照して、複数の発話内容の候補の中から特定の発話内容を決定する発話決定部と、発話決定部によって決定された発話内容に関する情報を出力する出力部と、を有することを特徴とする。

【0011】

上記の音声認識装置において、非可聴音検出部は、唇動軌跡検出部が検出した話者の唇動開始をトリガーとして、話者の非可聴音の検出を開始することが好ましい。

【0012】

上記の音声認識装置において、非可聴音検出部は、非可聴音として、２０ｋＨｚ以上かつ７０ｋＨｚ以下の音波を検出することが好ましい。

【0013】

上記の音声認識装置において、発話決定部は、周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、発話内容を決定することが好ましい。

【0014】

上記の音声認識装置において、唇動の軌跡が略同一である複数の発話内容は、「な」、「た」、及び「だ」のうちの少なくとも２つを含んでいてもよい。

【0015】

上記の音声認識装置において、唇動の軌跡が略同一である複数の発話内容は、「し」及び「ち」を含んでいてもよい。

【0016】

上記の音声認識装置において、唇動の軌跡が略同一である複数の発話内容は、「あ」及び「は」を含んでいてもよい。

【発明の効果】

【0017】

本発明の音声認識装置によれば、話者が声帯を使わずに発話した場合であっても、発話内容を認識することができる。

【図面の簡単な説明】

【0018】

【図1】本開示の実施形態に係る音声認識装置のブロック図である。

【図2】（ａ）は、顔画像認識部によって認識した顔の輪郭の例であり、（ｂ）は（ａ）の顔の輪郭に含まれる口の輪郭の例である。

【図3】「な」、「た」、及び「だ」と発話したときの唇動の軌跡を表す図であり、（ａ）はｙ方向の唇動の軌跡を表し、（ｂ）はｘ方向の唇動の軌跡を表す。

【図4】（ａ）～（ｃ）は、それぞれ、「な」、「た」、及び「だ」と発話したときの音声の周波数スペクトルである。

【図5】本開示の実施形態に係る音声認識装置の動作手順を説明するためのフローチャートである。

【図6】「し」及び「ち」と発話したときの唇動の軌跡を表す図であり、（ａ）はｙ方向の唇動の軌跡を表し、（ｂ）はｘ方向の唇動の軌跡を表す。

【図7】（ａ）及び（ｂ）は、それぞれ、「し」及び「ち」と発話したときの音声の周波数スペクトルである。

【図8】「あ」及び「は」と発話したときの唇動の軌跡を表す図であり、（ａ）はｙ方向の唇動の軌跡を表し、（ｂ）はｘ方向の唇動の軌跡を表す。

【図9】（ａ）及び（ｂ）は、それぞれ、「あ」及び「は」と発話したときの音声の周波数スペクトルである。

【図10】実施例１に係る音声認識装置を用いた会話システムの構成概略図である。

【図11】実施例１に係る音声認識装置のブロック図である。

【図12】実施例１の変形例に係る音声認識装置のブロック図である。

【図13】実施例２に係る音声認識装置を用いた通訳装置の構成概略図である。

【図14】実施例２に係る音声認識装置のブロック図である。

【図15】実施例３に係る音声認識装置を用いた音声機器操作システムの構成概略図である。

【図16】実施例３に係る音声認識装置のブロック図である。

【発明を実施するための形態】

【0019】

以下、図面を参照して、本発明に係る音声認識装置について説明する。ただし、本発明の技術的範囲はそれらの実施の形態には限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。

【0020】

図１に本開示の実施形態に係る音声認識装置１００１のブロック図を示す。音声認識装置１００１は、撮像部１と、唇動軌跡検出部２と、非可聴音検出部３と、周波数パターン抽出部４と、唇動軌跡データ記憶部５と、非可聴音パターン記憶部６と、発話候補抽出部７と、発話決定部８と、出力部９と、顔画像認識部１０と、を有する。音声認識装置１００１には、スマートフォンやタブレット端末等の情報端末を用いることができる。ただし、このような例には限られず、シングルボードコンピュータを用いた組込みモジュールとして実現することもできる。あるいは、音声認識装置１００１をサーバ上に配置し、撮像部１及び非可聴音検出部３で取得したデータをサーバに送信するようにしてもよい。撮像部１はカメラにより構成され、非可聴音検出部３はマイクにより構成される。唇動軌跡データ記憶部５及び非可聴音パターン記憶部６は、ハードディスク、または半導体メモリで構成される。唇動軌跡検出部２、周波数パターン抽出部４、発話候補抽出部７、発話決定部８、出力部９、及び顔画像認識部１０は、ＣＰＵ、ＲＯＭ及びＲＡＭなどを含む音声認識装置１００１に設けられているコンピュータにより、ソフトウエア（プログラム）として実現される。

【0021】

撮像部１は、カメラであり、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）型又はＣＣＤ（Charge Coupled Device）型のイメージセンサを備えている。撮像部１は、話者の発話動作中における口唇領域を含む画像を取得し、撮像した画像をフレーム毎に顔画像認識部１０に供給する。カメラは、スマートフォンやタブレット端末等の情報端末に予め備えられているものを利用することができ、外付けのカメラを利用することもできる。

【0022】

顔画像認識部１０は、内蔵する顔認識のためのアプリケーションプログラムによって、話者の顔及び口唇の輪郭を識別し、自動的に追尾する機能を有している。これにより、話者が撮像部１の撮像範囲内で移動しても、話者の顔画像を捉えることができる。

【0023】

唇動軌跡検出部２は、撮像部１が取得した画像から話者の唇動の軌跡を検出する。図２（ａ）は、顔画像認識部１０によって認識した顔の輪郭の例であり、図２（ｂ）は図２（ａ）の顔の輪郭に含まれる口の輪郭の例である。図２（ａ）に示すように、顔画像認識部１０により、顔２１、眉２２、目２３、鼻２４、及び口２５のそれぞれの輪郭の位置を決定することができる。図２（ｂ）に示すように、発話によって、口唇は上下方向（ｙ方向）に開閉し、左右方向（ｘ方向）に伸縮する。そこで、口唇の動きを示すための特徴点を、上唇の下端ｙ１、下唇の上端ｙ２、唇の左側端部ｘ１、及び唇の右側端部ｘ２とした。また、口唇の動作の特徴量を上下方向の距離（Δｙ＝ｙ１－ｙ２）の時間的変化と、左右方向の距離（Δｘ＝ｘ２－ｘ１）の時間的変化とした。

【0024】

唇動軌跡データ記憶部５は、唇動の軌跡（発話唇動プロファイル）と発話内容との対応関係を予め記憶している。図３は、「な」、「た」、「だ」と発話したときの唇動の軌跡を表す図であり、図３（ａ）はｙ方向の唇動の軌跡を表し、図３（ｂ）はｘ方向の唇動の軌跡を表す。図３（ａ）及び（ｂ）の横軸は唇動を開始してからの時間（秒）である。図３（ａ）の縦軸は上下方向の距離Δｙ（ｍｍ）であり、図３（ｂ）の縦軸は左右方向の距離Δｘ（ｍｍ）である。図３（ａ）において、Ｌｎｙ、Ｌｔｙ、Ｌｄｙは、それぞれ、「な」、「た」、「だ」と発話したときのｙ方向の唇動の軌跡を表す。また、図３（ｂ）において、Ｌｎｘ、Ｌｔｘ、Ｌｄｘは、それぞれ、「な」、「た」、「だ」と発話したときのｘ方向の唇動の軌跡を表す。唇動軌跡データ記憶部５は、上記の例以外にも種々の発話における唇動の軌跡と発話内容との対応関係を予め記憶している。唇動軌跡データ記憶部５は、唇動の軌跡の特徴量が、どの発話内容に近いのかを人工知能（ＡＩ）を用いて機械学習により生成した学習モデルを記憶していてもよい。

【0025】

発話候補抽出部７は、唇動軌跡データ記憶部５を参照して、唇動の軌跡から発話内容の候補を抽出する。図３（ａ）及び（ｂ）に示した例では、「な」、「た」、「だ」と発話したときの唇動のｙ方向の時間的変化を表す３つの曲線（Ｌｎｙ、Ｌｔｙ、Ｌｄｙ）はほぼ同じ軌跡を描き、唇動のｘ方向の時間的変化を表す３つの曲線（Ｌｎｘ、Ｌｔｘ、Ｌｄｘ）がほぼ同じ軌跡を描いている。そのため、唇動のｙ方向の時間的変化を表す曲線が、３つの曲線（Ｌｎｙ、Ｌｔｙ、Ｌｄｙ）のうちのいずれかに類似し、かつ、唇動のｘ方向の時間的変化を表す曲線が、３つの曲線（Ｌｎｘ、Ｌｔｘ、Ｌｄｘ）のうちのいずれかに類似した曲線を示す発話を検出した場合、発話内容は、「な」、「た」、「だ」のいずれかであることは分かるが、これらの内のどの発話であるのかは特定できない。そこで、このような場合は、発話内容の候補は３つ抽出されることとなる。

【0026】

非可聴音検出部３は、話者が発話する際の音声から空中を伝搬する非可聴音を検出する。非可聴音検出部３として、スマートフォンやタブレット端末に内蔵されているＭＥＭＳ（Micro Electro Mechanical Systems）マイクを用いることができる。ＭＥＭＳマイクを用いることにより、非可聴音の周波数帯域を含めた発話を検知することができる。スマートフォン等の端末に内蔵されたＭＥＭＳマイクにおいて、ノイズ低減のために非可聴音の帯域をカットしている場合は、そのような帯域制限を解除すればよい。スマートフォン等に予め備えられているマイクを使用する代わりに、非可聴音を検出可能なマイクを外付けするようにしてもよい。非可聴音検出部３は、非可聴音として、２０ｋＨｚ以上かつ７０ｋＨｚ以下の音波を検出することが好ましい。

【0027】

非可聴音検出部３は、唇動軌跡検出部２が検出した話者の唇動開始をトリガーとして、話者の非可聴音の検出を開始することが好ましい。非可聴音は話者が発話する場合に生じるもの以外にも、話者が体を動かした場合等によっても発生する場合があり、これがノイズとなるため、話者が発話を開始するタイミングを非可聴音のみから検出することが難しい場合もあり得る。そこで、非可聴音検出部３は、唇動軌跡検出部２が、話者の口唇が動き始めたことを検出してから非可聴音の検出を開始することが好ましい。このようにすることで、話者の発話によって生じる非可聴音を正確に検出することができる。

【0028】

周波数パターン抽出部４は、非可聴音の周波数特性を解析し、周波数パターンを抽出する。図４（ａ）は、「な」と発話したときの音声の周波数スペクトルであり、図４（ｂ）は、「た」と発話したときの音声の周波数スペクトルであり、図４（ｃ）は、「だ」と発話したときの音声の周波数スペクトルである。図４（ａ）～（ｃ）において、横軸は周波数（ｋＨｚ）、縦軸はパワー（ｄＢ）を示す。声帯を使わずに発話が行われた場合であっても、舌使いや喉の息の出し方により、非可聴音領域の周波数分布（周波数パターン）に差異が現れる。この周波数分布の違いを利用することにより、唇動軌跡では特定しきれない発話を識別することができる。

【0029】

非可聴音パターン記憶部６は、非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。即ち、非可聴音パターン記憶部６は、唇動軌跡が略同一の複数の発話のそれぞれを識別するための、周波数パターンにおける特徴点として、特定の周波数においてピークが発生するか否か、及びピークが発生する場合は、特定の周波数帯域において生じるピークの位置に関する情報を記憶している。例えば、非可聴音パターン記憶部６は、「な」、「た」、「だ」のそれぞれの非可聴音の周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置を記憶していることが好ましい。具体的には、図４（ａ）に示すように、「な」と発話した場合、舌全体を上顎に軽く押し当てるため、２０ｋＨｚ～３０ｋＨｚの範囲の周波数パターンには明確なピークは現れない。また、図４（ｂ）に示すように、「た」と発話した場合、舌先を上顎に弾くように強く当てるため、周波数パターンには２５ｋＨｚ～３０ｋＨｚの範囲にピークＰｔが現れる。さらに、図４（ｃ）に示すように、「だ」と発話した場合、濁音のため「た」の場合より舌先を上顎に軽く当てるため、周波数パターンには「た」よりも低い２０ｋＨｚ～２５ｋＨｚの範囲にピークＰｄが現れる。このように、非可聴音パターン記憶部６は、発話内容が「な」の場合は２０ｋＨｚ～３０ｋＨｚの範囲の周波数パターンには明確なピークは現れないこと、発話内容が「た」の場合は周波数パターンには２５ｋＨｚ～３０ｋＨｚの範囲にピークが現れること、及び、発話内容が「だ」の場合は周波数パターンには２０ｋＨｚ～２５ｋＨｚの範囲にピークが現れることを記憶している。このように、非可聴音パターン記憶部６は、唇動軌跡が略同一の複数の発話のそれぞれについて、非可聴音の周波数パターンにおいて、特定の周波数においてピークが発生するか否か、及びピークが発生する場合は、どの周波数帯域にピークが生じるかという情報を予め記憶している。ただし、非可聴音パターン記憶部６は、これら以外にも、「し」及び「ち」、並びに「あ」及び「は」のように、唇動の軌跡が略同一で非可聴音の周波数パターンが異なる発話の他の組み合わせについても記憶している。

【0030】

発話決定部８は、発話候補抽出部７が複数の発話内容の候補を抽出した場合は、非可聴音パターン記憶部６を参照して、複数の発話内容の候補の中から特定の発話内容を決定する。例えば、発話候補抽出部７が３つの発話内容の候補「な」、「た」、及び「だ」を抽出した場合は、非可聴音パターン記憶部６を参照して、上記３つの発話内容の候補の中から特定の発話内容を決定する。上述した通り、唇動軌跡検出部２が検出した唇動の軌跡が図３（ａ）及び（ｂ）に類似した曲線となった場合には、発話候補抽出部７は、唇動軌跡データ記憶部５を参照して、唇動の軌跡から発話内容の候補として「な」、「た」、及び「だ」を抽出する。次に、発話決定部８は、非可聴音パターン記憶部６を参照して、検出した非可聴音の周波数パターンを３つの発話内容の候補（「な」、「た」、「だ」）のそれぞれの周波数パターンと照合することにより、３つの発話内容の候補の中から特定の発話内容を決定する。

【0031】

発話決定部８は、周波数パターンにおける特定の周波数帯域において発生するピークの有無及びピークの位置に基づいて、発話内容を決定することができる。例えば、図４（ａ）のように、２０ｋＨｚ～３０ｋＨｚの範囲の周波数においてパワーのピークが検出されなかった場合には、検出した発話は「な」であると判定することができる。また、図４（ｂ）のように、２５ｋＨｚ～３０ｋＨｚの範囲の周波数においてパワーのピークＰｔが検出された場合には、検出した発話は「た」であると判定することができる。あるいは、図４（ｃ）のように、２０ｋＨｚ～２５ｋＨｚの範囲の周波数においてパワーのピークＰｄが検出された場合には、検出した発話は「だ」であると判定することができる。以上のようにして、発話決定部８は、発話候補抽出部７が３つの発話内容の候補（「な」、「た」、「だ」）を抽出した場合は、非可聴音パターン記憶部６を参照して、３つの発話内容の候補の中から特定の発話内容として「な」、「た」、及び「だ」のいずれか１つを決定する。

【0032】

発話決定部８は、発話候補抽出部７が１つの発話内容の候補を抽出した場合は、非可聴の周波数パターンを参照せずに、当該候補を話者が発した発話内容と決定することができる。この場合は、非可聴の周波数パターンを参照する工程を省略することができるため、話者が発した発話の内容を迅速に決定することができ、音声認識装置１００１における処理負荷を低減することができる。ただし、発話決定部８は、能力的に問題無ければ、検出した音声の周波数パターンと、非可聴音パターン記憶部６に記憶した周波数パターンとの比較を行うようにしてもよい。これにより、この発音決定の信頼性を上げることが可能となる。

【0033】

出力部９は、発話決定部８によって決定された発話内容に関する情報を出力する。出力部９に表示装置を接続した場合には、表示装置の画面に検出した発話内容を文字情報として表示することができる。また、出力部９に音声再生装置を接続した場合には、検出した発話内容を音声として出力することができる。例えば、画面表示の他に、イヤホンなどでの音声出力も併用するようにしてもよい。

【0034】

次に、本実施形態に係る音声認識装置の動作手順について説明する。図５は、本開示の実施形態に係る音声認識装置の動作手順を説明するためのフローチャートである。まず、ステップＳ１０１において、撮像部１であるカメラを作動させる。カメラは、話者の発話動作中における口唇領域を含む画像を取得する。

【0035】

次に、ステップＳ１０２において、顔画像認識部１０が、話者の顔及び口唇の輪郭を識別する。

【0036】

次に、ステップＳ１０３において、唇動軌跡検出部２が、カメラが撮像した画像から話者の唇動の軌跡を検出する。

【0037】

次に、ステップＳ１０４において、発話候補抽出部７が、唇動の軌跡と発話内容との対応関係を予め記憶した唇動軌跡データ記憶部５を参照して、唇動の軌跡から発話内容の候補を抽出する。

【0038】

一方、カメラが作動し、話者の口唇が動き始めたことを検出した後、これをトリガーとして、ステップＳ１０５において非可聴音検出部３である非可聴音センサが作動し、話者が発話する際の音声から空中を伝播する非可聴音を検出する。

【0039】

次に、ステップＳ１０６において、周波数パターン抽出部４が、非可聴音の周波数特性を解析し、ステップＳ１０７において周波数パターンを抽出する。

【0040】

次に、ステップＳ１０８において、発話候補抽出部７がステップＳ１０４において抽出した発話候補が複数個であるか１つであるかを判断する。発話候補が１つのみである場合は、ステップＳ１０９において、発話決定部８が、話者による発話を単独の発話候補に決定する。発話候補が１つのみである場合の例として、例えば、母音等がある。この場合は、唇動の軌跡のみで発話内容を決定することができる。従って、発話候補が１つのみである場合は、非可聴音の周波数パターンを参照する必要がないため、効率的に発話内容を決定することができる。ただし、発話決定部８は、能力的に問題無ければ、検出した音声の周波数パターンと、非可聴音パターン記憶部６に記憶した周波数パターンとの比較を行うようにしてもよい。これにより、この発音決定の信頼性を上げることが可能となる。

【0041】

一方、発話候補抽出部７が複数の発話内容の候補を抽出した場合は、ステップＳ１１０において、発話決定部８が、非可聴音の周波数パターンと発話内容との対応関係を予め記憶した非可聴音パターン記憶部６を参照して、複数の発話内容の候補の中から周波数パターンに基づいて特定の発話内容を決定する。

【0042】

次に、ステップＳ１１１において、出力部９が、決定した発話内容を出力する。

【0043】

上記の説明においては、唇動軌跡から抽出される複数の発話候補として、「な」、「た」、及び「だ」の組み合わせを例示したが、このような例には限られない。即ち、唇動の軌跡が略同一である複数の発話内容が、「な」、「た」、及び「だ」のうちの２つの組み合わせである場合において、その２つの組み合わせの中から１つの発話内容を決定するようにしてもよい。さらに、複数の発話候補の他の例として、「し」及び「ち」の組み合わせ、並びに「あ」及び「は」の組み合わせがあり、これらの組み合わせから、特定の発話を決定する方法について以下に説明する。

【0044】

まず、複数の発話候補が「し」及び「ち」の組み合わせである場合について説明する。図６は、「し」及び「ち」と発話したときの唇動の軌跡を表す図であり、図６（ａ）はｙ方向の唇動の軌跡を表し、図６（ｂ）はｘ方向の唇動の軌跡を表す。図６（ａ）において、Ｌｓｙ及びＬｃｙは、それぞれ、「し」及び「ち」と発話したときにおける、図２（ｂ）に示したｙ方向の唇動（Δｙ＝ｙ１－ｙ２）の軌跡を表す。また、図６（ｂ）において、Ｌｓｘ及びＬｃｘは、それぞれ、「し」及び「ち」と発話したときのｘ方向の唇動（Δｘ＝ｘ２－ｘ１）の軌跡を表す。

【0045】

発話候補抽出部７は、唇動軌跡データ記憶部５を参照して、唇動の軌跡から発話内容の候補を抽出する。図６（ａ）及び（ｂ）に示した例では、「し」、「ち」と発話したときの唇動のｙ方向の時間的変化を表す曲線ＬｓｙとＬｃｙがほぼ同じ曲線であり、かつ、唇動のｘ方向の時間的変化を表す曲線ＬｓｘとＬｃｘがほぼ同じ曲線である。唇動軌跡検出部２が検出した唇動のｙ方向の軌跡が図６（ａ）に示した曲線に類似し、かつ、唇動のｘ方向の軌跡が図６（ｂ）に示した曲線に類似している場合には、発話候補抽出部７は、唇動軌跡データ記憶部５を参照して、唇動の軌跡から発話内容の候補として「し」及び「ち」を抽出する。従って、この場合、発話内容は、「し」及び「ち」のいずれかであることは分かるが、これらの内のどの発話であるのかは特定できない。そこで、このような場合は、発話内容の候補は２つ抽出されることとなる。

【0046】

周波数パターン抽出部４は、非可聴音の周波数特性を解析し、周波数パターンを抽出する。図７（ａ）は、「し」と発話したときの音声の周波数スペクトルであり、図７（ｂ）は、「ち」と発話したときの音声の周波数スペクトルである。

【0047】

非可聴音パターン記憶部６は、非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。例えば、図７（ａ）に示すように、「し」と発話した場合、４０ｋＨｚ近傍の周波数パターンには明確なピークは現れない。一方、図７（ｂ）に示すように、「ち」と発話した場合、舌の中央を上顎に押し付けることにより、周波数パターンには４０ｋＨｚ近傍にピークＰｃが現れる。このように、非可聴音パターン記憶部６は、「し」及び「ち」の非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。

【0048】

次に、発話決定部８は、非可聴音パターン記憶部６を参照して、検出した非可聴音の周波数パターンを２つの発話内容の候補（「し」、「ち」）のそれぞれの周波数パターンと照合することにより、２つの発話内容の候補の中から特定の発話内容を決定する。

【0049】

発話決定部８は、周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、発話内容を決定することができる。図７（ａ）のように、４０ｋＨｚ近傍の周波数においてパワーのピークが検出されなかった場合には、検出した発話は「し」であると判定することができる。また、図７（ｂ）のように、４０ｋＨｚ近傍においてパワーのピークＰｃが検出された場合には、検出した発話は「ち」であると判定することができる。以上のようにして、発話決定部８は、発話候補抽出部７が２つの発話内容の候補（「し」、「ち」）を抽出した場合は、非可聴音パターン記憶部６を参照して、２つの発話内容の候補の中から特定の発話内容として「し」及び「ち」のいずれか１つを決定する。

【0050】

次に、複数の発話候補が「あ」及び「は」の組み合わせである場合について説明する。図８は、「あ」及び「は」と発話したときの唇動の軌跡を表す図であり、図８（ａ）はｙ方向の唇動の軌跡を表し、図８（ｂ）はｘ方向の唇動の軌跡を表す。図８（ａ）において、Ｌａｙ及びＬｈｙは、それぞれ、「あ」及び「は」と発話したときにおける、図２（ｂ）に示したｙ方向の唇動（Δｙ＝ｙ１－ｙ２）の軌跡を表す。また、図８（ｂ）において、Ｌａｘ及びＬｈｘは、それぞれ、「あ」及び「は」と発話したときのｘ方向の唇動（Δｘ＝ｘ２－ｘ１）の軌跡を表す。

【0051】

発話候補抽出部７は、唇動軌跡データ記憶部５を参照して、唇動の軌跡から発話内容の候補を抽出する。図８（ａ）及び（ｂ）に示した例では、「あ」、「は」と発話したときの唇動のｙ方向の時間的変化を表す曲線ＬａｙとＬｈｙがほぼ同じ曲線であり、かつ、唇動のｘ方向の時間的変化を表す曲線ＬａｘとＬｈｘがほぼ同じ曲線である。唇動軌跡検出部２が検出した唇動のｙ方向の軌跡が図８（ａ）に示した曲線に類似し、かつ、唇動のｘ方向の軌跡が図８（ｂ）に示した曲線に類似している場合には、発話候補抽出部７は、唇動軌跡データ記憶部５を参照して、唇動の軌跡から発話内容の候補として「あ」及び「は」を抽出する。従って、この場合、発話内容は、「あ」及び「は」のいずれかであることは分かるが、これらの内のどの発話であるのかは特定できない。そこで、このような場合は、発話内容の候補は２つ抽出されることとなる。

【0052】

周波数パターン抽出部４は、非可聴音の周波数特性を解析し、周波数パターンを抽出する。図９（ａ）は、「あ」と発話したときの音声の周波数スペクトルであり、図９（ｂ）は、「は」と発話したときの音声の周波数スペクトルである。

【0053】

非可聴音パターン記憶部６は、非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。例えば、図９（ａ）に示すように、「あ」と発話した場合、舌全体を上顎に軽く押し当てるため、２０ｋＨｚ近傍の周波数パターンには明確なピークは現れない。また、図９（ｂ）に示すように、「は」と発話した場合、舌の中央を上顎に押し付けることにより、周波数パターンには２０ｋＨｚ近傍にピークＰｈが現れる。このように、非可聴音パターン記憶部６は、「あ」及び「は」の非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。

【0054】

次に、発話決定部８は、非可聴音パターン記憶部６を参照して、検出した非可聴音の周波数パターンを２つの発話内容の候補（「あ」、「は」）のそれぞれの周波数パターンと照合することにより、２つの発話内容の候補の中から特定の発話内容を決定する。

【0055】

発話決定部８は、周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、発話内容を決定することができる。図９（ａ）のように、２０ｋＨｚ近傍の周波数パターンにおいてパワーのピークが検出されなかった場合には、検出した発話は「あ」であると判定することができる。また、図９（ｂ）のように、２０ｋＨｚ近傍の周波数パターンにおいてパワーのピークが検出された場合には、検出した発話は「は」であると判定することができる。以上のようにして、発話決定部８は、発話候補抽出部７が２つの発話内容の候補（「あ」、「は」）を抽出した場合は、非可聴音パターン記憶部６を参照して、２つの発話内容の候補の中から特定の発話内容として「あ」及び「は」のいずれか１つを決定する。

【0056】

上記の通り、唇動の軌跡が略同一である複数の発話内容の例として、「な」、「た」、及び「だ」の組み合わせ、「し」及び「ち」の組み合わせ、並びに「あ」及び「は」の組み合わせを示したが、このような例には限られず、唇動の軌跡が略同一である他の複数の発話内容の組み合わせに対しても、本開示の実施形態に係る音声認識装置を用いることができる。

【0057】

以上説明したように本開示の実施形態に係る音声認識装置によれば、声帯を使わない発話（呟き声）を非接触で判定することができ、唇動軌跡から予測発話の粗候補を抽出し、非可聴音による周波数パターンから予測候補の中から話者による発話を確定することができる。さらに、唇動によるパターン判定と非可聴音による判定を組み合わせることにより、発話内容の予測精度を向上させることができる。本開示の実施形態に係る音声認識装置によれば、声帯を使わずに発話される高齢者の会話を解読することができる。また、静寂が求められる乗り物内等において、声帯を使わずに小声で行われる通話内容を把握することができる。この場合、非可聴音によって会話を行うことができるため、プライバシーを保護し、あるいは情報漏洩を防ぎながら、会話を行うことができる。さらに、予め話者に専用機材を装着する必要が無いため、多目的な用途に使用することができる。

【0058】

［実施例１］
次に、実施例１に係る音声認識装置について説明する。図１０は、実施例１に係る音声認識装置を用いた会話システムの構成概略図である。話者（１２０、２２０）が高齢者等である場合、声帯を使わずに話すことにより、互いに相手の話す内容が聞き取れず、その結果うまくコミュニケーションを取ることができないという問題が生じうる。実施例１に係る音声認識装置（１００、２００）は、自己が発した言葉の内容を自己が所持した音声認識装置に表示させて相手に見せることでコミュニケーションを取るものである。

【0059】

ここで、第１話者１２０が第１の音声認識装置１００を持ち、第２話者２２０が第２の音声認識装置２００を持つものとする。第１の音声認識装置１００及び第２の音声認識装置２００にはタブレット端末等の情報端末を用いることができる。第１話者１２０は、第１の音声認識装置１００を首から下げて表示部１１３を第２話者２２０に向けると共に、撮像部１０１が第２話者２２０の口唇領域２２０ｍの画像を撮像できるようにする。同様に、第２話者２２０は、第２の音声認識装置２００を首から下げて表示部２１３を第１話者１２０に向けると共に、撮像部２０１が第１話者１２０の口唇領域１２０ｍの画像を撮像できるようにする。

【0060】

まず、第２話者２２０が発話した際の画像及び非可聴音を第１の音声認識装置１００で解析した後、解析結果を第２の音声認識装置２００の表示部２１３に表示させる手順について説明する。図１１は、実施例１に係る音声認識装置（１００、２００）のブロック図である。第１の音声認識装置１００及び第２の音声認識装置２００は、図１に示した音声認識装置１００１の構成に加えて、受信部（１１１、２１１）、送信部（１１２、２１２）、及び表示部（１１３、２１３）を備えている。その他の構成は、図１に示した音声認識装置１００１の構成と同様である。

【0061】

第１の音声認識装置１００の撮像部１０１は、第２話者２２０が「今日のゴハンは？」と声帯を使わずに発話しているときの口唇領域２２０ｍを含む画像を取得する。また、非可聴音検出部１０３は、第２話者２２０が発話する際の音声から空中を伝搬する非可聴音を検出する。

【0062】

第１の音声認識装置１００は、取得した口唇領域２２０ｍの画像及び非可聴音から第２話者２２０の発話内容は「今日のゴハンは？」であると決定し、決定した結果を出力部１０９が送信部１１２に出力する。送信部１１２は、第２話者２２０の発話内容に関する情報を第２の音声認識装置２００の受信部２１１に送信する。

【0063】

第２の音声認識装置２００の受信部２１１は、発話内容に関する情報を受信し、表示部２１３に送信する。表示部２１３は取得した情報に基づいて、表示画面に「今日のゴハンは？」と表示する。第１話者１２０は、第２の音声認識装置２００の表示部２１３を視認することにより、第２話者２２０が発話した内容は「今日のゴハンは？」であることを認識する。このとき、第２話者２２０の発話が一旦終了し、第１話者１２０からの回答を待っていることを表示部２１３に表示することにより、第１話者１２０が発話するタイミングを取りやすくするようにしてもよい。

【0064】

次に、第１話者１２０が発話した際の画像及び非可聴音を第２の音声認識装置２００で解析した後、解析結果を第１の音声認識装置１００の表示部１１３に表示させる手順について説明する。第２の音声認識装置２００の撮像部２０１は、第１話者１２０が「カレーよ」と声帯を使わずに発話しているときの口唇領域１２０ｍを含む画像を取得する。また、非可聴音検出部２０３は、第１話者１２０が発話する際の音声から空中を伝搬する非可聴音を検出する。

【0065】

第２の音声認識装置２００は、取得した口唇領域１２０ｍの画像及び非可聴音から第１話者１２０の発話内容は「カレーよ」であると決定し、決定した結果を出力部２０９が送信部２１２に出力する。送信部２１２は、第１話者１２０の発話内容に関する情報を第１の音声認識装置１００の受信部１１１に送信する。

【0066】

第１の音声認識装置１００の受信部１１１は、発話内容に関する情報を受信し、表示部１１３に送信する。表示部１１３は取得した情報に基づいて、表示画面に「カレーよ」と表示する。第２話者２２０は、第１の音声認識装置１００の表示部１１３を視認することにより、第１話者１２０が発話した内容は「カレーよ」であることを認識する。

【0067】

以上のようにして、実施例１に係る音声認識装置を用いることにより、第１話者１２０と第２話者２２０が声帯を使わずに発話した場合でも互いに相手の発話内容を把握することができ、コミュニケーションを取ることができる。

【0068】

次に、実施例１の変形例として、第２話者２２０が発話した際の画像及び非可聴音に関する情報を第１の音声認識装置１００´で取得した後、取得した情報を第２の音声認識装置２００´に送信し、第２の音声認識装置２００´で解析し、解析結果を表示させる手順について説明する。図１２に実施例１の変形例に係る音声認識装置のブロック図を示す。

【0069】

第１の音声認識装置１００´の撮像部１０１は、第２話者２２０が「今日のゴハンは？」と声帯を使わずに発話しているときの口唇領域２２０ｍを含む画像を取得する。また、非可聴音検出部１０３は、第２話者２２０が発話する際の音声から空中を伝搬する非可聴音を検出する。

【0070】

第１の音声認識装置１００´の撮像部１０１が取得した画像データ及び非可聴音検出部１０３が取得した非可聴音のデータは送信部１１２に供給され、送信部１１２はこれらのデータを第２の音声認識装置２００´の受信部２１１に送信する。

【0071】

第２の音声認識装置２００´は、受信部２１１が受信した口唇領域２２０ｍの画像及び非可聴音から第２話者２２０の発話内容は「今日のゴハンは？」であると決定し、決定した結果を表示部２１３に表示する。

【0072】

第１話者１２０は、第２の音声認識装置２００´の表示部２１３を視認することにより、第２話者２２０が発話した内容は「今日のゴハンは？」であることを認識する。このとき、第２話者２２０の発話が一旦終了し、第１話者１２０からの回答を待っていることを表示部２１３に表示することにより、第１話者１２０が発話するタイミングを取りやすくするようにしてもよい。

【0073】

次に、第１話者１２０が発話した内容を第２の音声認識装置２００´で取得した後、取得した情報を第１の音声認識装置１００´に送信し、第１の音声認識装置１００´で解析し、表示させる手順について説明する。

【0074】

第２の音声認識装置２００´の撮像部２０１は、第１話者１２０が「カレーよ」と声帯を使わずに発話しているときの口唇領域１２０ｍを含む画像を取得する。また、非可聴音検出部２０３は、第１話者１２０が発話する際の音声から空中を伝搬する非可聴音を検出する。

【0075】

第２の音声認識装置２００´の撮像部２０１が取得した画像データ及び非可聴音検出部２０３が取得した非可聴音のデータは送信部２１２に供給され、送信部２１２はこれらのデータを第１の音声認識装置１００´の受信部１１１に送信する。

【0076】

第１の音声認識装置１００´は、受信部１１１が受信した口唇領域１２０ｍの画像及び非可聴音から第１話者１２０の発話内容は「カレーよ」であると決定し、決定した結果を表示部１１３に表示する。

【0077】

第２話者２２０は、第１の音声認識装置１００´の表示部１１３を視認することにより、第１話者１２０が発話した内容は「カレーよ」であることを認識する。

【0078】

以上のようにして、実施例１の変形例に係る音声認識装置を用いることにより、第１話者１２０と第２話者２２０が声帯を使わずに発話した場合でも互いに相手の発話内容を把握することができ、コミュニケーションを取ることができる。

【0079】

［実施例２］
次に、実施例２に係る音声認識装置について説明する。図１３は、実施例２に係る音声認識装置１００２を用いた通訳装置の構成概略図である。介護士３０は、話者である高齢者４０の感情を会話内容から把握しようとするが、高齢者４０が声帯を使わずに話す場合、発話した内容を聞き取ることができず、感情を把握することが難しい場合がある。実施例２に係る音声認識装置１００２は、高齢者４０が声帯を使わずに発話した内容を表示部１３に表示させることにより高齢者４０の発話内容を認識するものである。

【0080】

図１４は、実施例２に係る音声認識装置１００２のブロック図である。実施例２に係る音声認識装置１００２は、図１に示した音声認識装置１００１に加えて表示部１３を備えている。その他の構成は、音声認識装置１００１における構成と同様である。

【0081】

音声認識装置１００２の撮像部１は、話者である高齢者４０が声帯を使わずに発話しているときの口唇領域４０ｍを含む画像を取得する。また、非可聴音検出部３は、高齢者４０が発話する際の音声から空中を伝搬する非可聴音を検出する。

【0082】

音声認識装置１００２は、取得した口唇領域４０ｍを含む画像及び検出した非可聴音に基づいて、高齢者４０の発話内容を決定し、出力部９が決定した発話内容に関するデータを表示部１３に出力する。表示部１３は、取得したデータに基づいて発話内容を表示する。

【0083】

実施例２に係る音声認識装置１００２によれば、高齢者４０が声帯を使わずに発話した場合であっても発話内容を表示部１３に表示することができるため、高齢者４０の発話内容を認識することができる。

【0084】

［実施例３］
次に、実施例３に係る音声認識装置について説明する。図１５は、実施例３に係る音声認識装置１００３を用いた音声機器操作システムの構成概略図である。近年、音声で家電を操作したり、自動車のナビシステムを制御したりする装置が開発されている。これらの装置は、受信した音声を認識することで制御が可能となるが、高齢者等が声帯を使わずに発話して操作しようとしても、これらの装置はそのような声帯を使わずに発せられた音声を認識することができないという問題がある。実施例３に係る音声認識装置１００３は、高齢者５０が声帯を使わずに発話した内容を認識し、可聴音声に変換して、家電等の機器６０に可聴音声に変換した音声を認識させるものである。

【0085】

図１６は、実施例３に係る音声認識装置１００３のブロック図である。実施例３に係る音声認識装置１００３は、図１に示した音声認識装置１００１に加えて音声再生部１４を備えている。その他の構成は、音声認識装置１００１における構成と同様である。

【0086】

音声認識装置１００３の撮像部１は、話者である高齢者５０が声帯を使わずに発話しているときの口唇領域５０ｍを含む画像を取得する。また、非可聴音検出部３は、高齢者５０が発話する際の音声から空中を伝搬する非可聴音を検出する。

【0087】

音声認識装置１００３は、取得した口唇領域５０ｍを含む画像及び検出した非可聴音に基づいて、高齢者５０の発話内容を決定し、出力部９が音声再生部１４に発話内容を出力する。音声再生部１４は、高齢者５０の発話内容を可聴音として再生し、機器６０は、再生された可聴音を認識して、所定の制御を実行する。

【0088】

実施例３に係る音声認識装置１００３によれば、高齢者５０が声帯を使わずに発話した場合であっても、発話内容を可聴音に変換して音声再生部１４から出力することができるため、機器６０における音声認識精度を向上させることができる。

【符号の説明】

【0089】

１撮像部
２唇動軌跡検出部
３非可聴音検出部
４周波数パターン抽出部
５唇動軌跡データ記憶部
６非可聴音パターン記憶部
７発話候補抽出部
８発話決定部
９出力部
１０顔画像認識部
１３表示部
１４音声再生部

【図1】