(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-26
(45)【発行日】2023-11-06
(54)【発明の名称】音声テキスト変換システムおよび音声テキスト変換装置
(51)【国際特許分類】
G10L 15/28 20130101AFI20231027BHJP
G10L 15/30 20130101ALI20231027BHJP
G06F 3/16 20060101ALI20231027BHJP
【FI】
G10L15/28 400
G10L15/30
G06F3/16 650
(21)【出願番号】P 2019103763
(22)【出願日】2019-06-03
【審査請求日】2022-06-01
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】110002000
【氏名又は名称】弁理士法人栄光事務所
(72)【発明者】
【氏名】田坂 啓
(72)【発明者】
【氏名】中尾 克
(72)【発明者】
【氏名】国本 浩
(72)【発明者】
【氏名】西郷 賀津雄
【審査官】大石 剛
(56)【参考文献】
【文献】特開2002-258729(JP,A)
【文献】特開2014-191238(JP,A)
【文献】特開2000-250577(JP,A)
【文献】特開2004-279768(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/28
G10L 15/30
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
音声を収音する受音器が接続された端末装置とサーバとの間で通信可能な音声テキスト変換システムであって、
前記端末装置は、
前記受音器により収音された前記音声の音声信号を前記サーバに送信し、
前記サーバは、
前記端末装置から受信された前記音声信号
のスペクトル特性のうち高周波数成分と低周波数成分との比率に基づいて、前記音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別し、
前記音声が前記骨導音声の場合、
前記骨導音声を前記気導音声に変換し、
前記気導音声をテキスト情報に変換し、
変換された前記テキスト情報を出力する、
音声テキスト変換システム。
【請求項2】
音声を収音する受音器が接続された端末装置とサーバとの間で通信可能な音声テキスト変換システムであって、
前記端末装置は、
前記受音器により収音された前記音声の音声信号を前記サーバに送信し、
前記サーバは、
前記端末装置から受信された前記音声信号
を受信した際に、前記受音器における電圧降下値に基づいて、前記音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別し、
前記音声が前記骨導音声の場合、
前記骨導音声を前記気導音声に変換し、
前記気導音声をテキスト情報に変換し、
変換された前記テキスト情報を出力する、
音声テキスト変換システム。
【請求項3】
前記音声が前記気導音声の場合、前記気導音声をテキスト情報に変換し、変換された前記テキスト情報を出力する、
請求項1
または2に記載の音声テキスト変換システム。
【請求項4】
前記受音器は、前記骨導音声を取得する骨導マイクロホンまたは前記気導音声を取得する気導マイクロホンのいずれか一方を備える、
請求項1
~3のいずれか1項に記載の音声テキスト変換システム。
【請求項5】
前記サーバは、前記受音器により収音された前記音声が前記骨導音声の場合、前記音声が前記骨導音声であることを示す識別子を前記音声信号に付与する、
請求項
1または
2に記載の音声テキスト変換システム。
【請求項6】
前記サーバは、前記識別子の有無に基づいて、前記音声が前記骨導音声または前記気導音声であるかを判別する、
請求項
5に記載の音声テキスト変換システム。
【請求項7】
前記識別子は、前記音声と異なる周波数帯域の音源の音声信号である、
請求項
5に記載の音声テキスト変換システム。
【請求項8】
前記サーバは、前記骨導音声を前記気導音声に変換するための学習モデルを有し、
前記学習モデルは、前記骨導マイクロホンと前記気導マイクロホンとから同時に収音された前記音声に基づいて、前記骨導音声および前記気導音声のそれぞれの特徴量を抽出し、抽出された前記骨導音声の特徴量を前記気導音声の特徴量に変換する、
請求項
4に記載の音声テキスト変換システム。
【請求項9】
前記サーバは、前記気導音声をデータベースとする音響モデルを用いて音声認識する、
請求項1
~3のいずれか1項に記載の音声テキスト変換システム。
【請求項10】
音声を収音する受音器が接続された端末装置とサーバとの間で通信可能な音声テキスト変換システムであって、
前記端末装置は、
前記受音器により収音された前記音声の音声信号を前記サーバに送信し、
前記サーバは、
前記端末装置から受信された前記音声信号に基づいて、前記音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別し、
前記音声が前記骨導音声の場合、
前記骨導音声
に基づいて変換された前記気導音声
を第1のテキスト情報に変換する第1の音声認識処理と、前記骨導音声を第2のテキスト情報に変換する第2の音声認識処理とを実行し、
前記第1のテキスト情報および前記第2のテキスト情報のそれぞれにおける信頼度を判定して比較し、前記信頼度が高い方のテキスト情報を出力する、
音声テキスト変換システム。
【請求項11】
音声を収音する受音器との間で通信可能な音声テキスト変換装置であって、
前記受音器により収音された前記音声
のスペクトル特性のうち高周波数成分と低周波数成分との比率に基づいて、前記音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別する音声判別部と、
前記骨導音声を前記気導音声に変換する音声変換部と、
前記気導音声をテキスト情報に変換する音声認識部と、
変換された前記テキスト情報を出力する出力部と、を備える、
音声テキスト変換装置。
【請求項12】
音声を収音する受音器との間で通信可能な音声テキスト変換装置であって、
前記受音器により収音された前記音声
を受信した際の、前記受音器における電圧降下値に基づいて、前記音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別する音声判別部と、
前記骨導音声を前記気導音声に変換する音声変換部と、
前記気導音声をテキスト情報に変換する音声認識部と、
変換された前記テキスト情報を出力する出力部と、を備える、
音声テキスト変換装置。
【請求項13】
音声を収音する受音器との間で通信可能な音声テキスト変換装置であって、
前記受音器により収音された前記音声が、ユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別する音声判別部と、
前記骨導音声を前記気導音声に変換する音声変換部と、
前記気導音声をテキスト情報に変換
し、前記骨導音声に基づいて変換された前記気導音声を第1のテキスト情報に変換する第1の音声認識処理と、前記骨導音声を第2のテキスト情報に変換する第2の音声認識処理とを実行する音声認識部と、
前記第1のテキスト情報および前記第2のテキスト情報のそれぞれにおける信頼度を判定して比較し、前記信頼度が高い方のテキスト情報を出力する出力部と、を備える、
音声テキスト変換装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声テキスト変換システムおよび音声テキスト変換装置に関する。
【背景技術】
【0002】
特許文献1には、騒音を低減し、聞き取りやすい音声信号を生成できる音声補正装置が提案されている。この音声補正装置は、空気の振動を用いて気導音を収音する気導マイクと、ユーザの骨の振動を用いて骨導音を収音する骨伝導マイクと、気導音でのユーザの音声の雑音に対する比率を算出する算出部と、骨導音の周波数スペクトルを、比率が第1の閾値以上のときの気導音中の周波数スペクトルに一致させるための補正係数を記憶する記憶部と、骨導音を、補正係数を用いて補正する補正部と、比率が第2の閾値より小さくなると、補正後の骨導音から出力信号を生成する生成部と、を備える。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、上述した従来の事情に鑑みて案出され、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる音声テキスト変換システムおよび音声テキスト変換装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
本開示は、音声を収音する受音器が接続された端末装置とサーバとの間で通信可能な音声テキスト変換システムであって、前記端末装置は、前記受音器により収音された前記音声の音声信号を前記サーバに送信し、前記サーバは、前記端末装置から受信された前記音声信号のスペクトル特性のうち高周波数成分と低周波数成分との比率に基づいて、前記音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別し、前記音声が前記骨導音声の場合、前記骨導音声を前記気導音声に変換し、前記気導音声をテキスト情報に変換し、変換された前記テキスト情報を出力する、音声テキスト変換システムを提供する。
【0006】
また、本開示は、音声を収音する受音器との間で通信可能な音声テキスト変換装置であって、前記受音器により収音された前記音声のスペクトル特性のうち高周波数成分と低周波数成分との比率に基づいて、前記音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別する音声判別部と、前記骨導音声を前記気導音声に変換する音声変換部と、前記気導音声をテキスト情報に変換する音声認識部と、変換された前記テキスト情報を出力する出力部と、を備える、音声テキスト変換装置を提供する。
【発明の効果】
【0007】
本開示によれば、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。
【図面の簡単な説明】
【0008】
【
図1】実施の形態1に係る音声テキスト変換システムのユースケース例を示す図
【
図2】実施の形態1に係る音声テキスト変換システムの内部構成例を示すブロック図
【
図4】実施の形態1に係る音声テキスト変換システムの動作手順例を示すシーケンス図
【
図5】実施の形態1に係る音声テキスト変換システムの音声判別手順例を示すフローチャート
【
図6A】実施の形態1に係る音声テキスト変換システムの音声認識例1を示す図
【
図6B】実施の形態1に係る音声テキスト変換システムの音声認識例2を示す図
【発明を実施するための形態】
【0009】
(実施の形態1の内容に至る経緯)
特許文献1には、収音された気導音におけるユーザの音声の雑音に対する比率(SNR(Signal to Noise Ratio))に基づいて、骨伝導マイクによって収音された骨導音を補正する音声補正装置が提案されている。この音声補正装置は、比率が第1の閾値以上となる場合に、補正係数(例えば、気導マイクロホンで得られた信号強度を骨導マイクロホンから得られた信号強度で割った値)を用いて骨導音の周波数スペクトルを気導音中の周波数スペクトルに一致させる。音声補正装置は、比率が第2の閾値より小さくなるまで補正を繰り返し、補正後の骨導音から出力信号を生成する。しかし、上述した音声補正装置は、骨導マイクロホンと気導音マイクロホンとを同時に使用して音声を収音する必要があり、一方のマイクロホンによって収音された音声を補正することは困難だった。
【0010】
そこで、以下の各種の実施の形態においては、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる音声テキスト変換システムおよび音声テキスト変換装置の例を説明する。
【0011】
以下、適宜図面を参照しながら、本開示に係る音声テキスト変換システムおよび音声テキスト変換装置の構成および作用を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になることを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるものであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
【0012】
(実施の形態1)
図1は、実施の形態1に係る音声テキスト変換システム100のユースケース例を示す図である。音声テキスト変換システム100は、受音器1と、端末装置2と、サーバ3と、を含んで構成される。受音器1には、骨導マイクロホンMC1または気導マイクロホンMC2のいずれか一方が接続される。
【0013】
受音器1は、端末装置2との間で有線通信可能に接続された骨導ヘッドセットであり、マイク接続端子11と、スピーカ(不図示)と、を含んで構成される。マイク接続端子11は、骨導マイクロホンMC1と気導マイクロホンMC2とを切り替えて接続可能に構成される。受音器1は、接続されたマイクロホンにより収音されたアナログ音声信号(例えば、骨導マイクロホンMC1により収音された骨導音声、または気導マイクロホンMC2により収音された気導音声に基づいて変換されたアナログ音声信号)を端末装置2に送信する。また、受音器1が備えるスピーカは、骨伝導スピーカ(不図示)である。
【0014】
骨導マイクロホンMC1は、ユーザの声帯付近に装着され、声帯の振動(骨導音声)を収音する圧電素子を有して構成される。骨導マイクロホンMC1は、収音された声帯の振動に伴う機械的応力から電位を発生させ、電位を音声信号(つまり、アナログ音声信号)に変換する。なお、骨導マイクロホンMC1は、声帯付近に限らず、例えば頬骨弓部上に装着され、声帯の振動が伝播した鼻腔音の振動を拾ってもよい。
【0015】
骨導マイクロホンMC1は、収音された骨導音声(振動)を増幅する増幅器(不図示)を内蔵し、骨導音声の振動を増幅する。これにより、骨導マイクロホンMC1によって変換されるアナログ音声信号は、増幅器によって利得が上げられているため、デジタル信号変換の際の電圧降下が、気導マイクロホンMC2よりも大きくなる。したがって、端末装置2およびサーバ3は、受信されたアナログ音声信号またはデジタル音声信号の電圧値を検出することにより、音声信号が骨伝導音を変換したものであるか、または気導音声を変換したものであるかを判別することができる。
【0016】
また、骨導マイクロホンMC1は、ユーザの声帯付近に装備され、気導マイクロホンMC2よりも優れた耐騒音性を有している。よって、骨導マイクロホンMC1は、例えば80~90dBの騒音が発生する工事現場または高架下などであってもユーザの音声を収音することができる。
【0017】
気導マイクロホンMC2は、空気を伝搬するユーザの気導音声を音声信号(つまり、アナログ音声信号)に変換する。また、気導マイクロホンMC2は、無指向性マイクロホン、単一指向性マイクロホンまたは相指向性マイクロホンのいずれであってもよいし、またはこれらを組み合わせて複数の種類のマイクのそれぞれとして区別されてもよい。
【0018】
骨伝導スピーカ(不図示)は、音声信号を機械的振動に変換してその振動をユーザの皮膚、頭蓋骨を経由して伝播させ、聴覚神経に伝える。即ち、通常のスピーカは空気の振動で伝えられた音(気導音)を聴くのに対し、骨伝導スピーカは骨の振動で伝えられた音(骨導音)を聴く。また、骨伝導スピーカにより骨伝導で伝わる音声は、外部雑音の影響をほとんど受けない。即ち、骨伝導スピーカを備える受音器1は、外部の騒音を拾いにくいため、耐騒音性を高めることができる。さらに、骨導マイクロホンMC1を備える受音器1は、口元が完全にオープンとなる。これにより、受音器1は、例えばユーザが防塵・防毒マスクなどを併用しても通常に通信が可能となる。
【0019】
端末装置2は、例えば、スマートフォン、タブレット端末あるいはPC(Personal Computer)であり、受音器1との間で有線通信可能に接続される。また、端末装置2は、サーバ3との間でネットワークNW1を介して無線通信可能に接続される。端末装置2は、受音器1から受信されたアナログ音声信号をデジタル音声信号に変換し、サーバ3に送信する。また、端末装置2は、アナログ音声信号に基づいてテキストに変換されたテキスト情報、あるいはテキスト情報に基づいて変換された音声信号を受信する。
【0020】
ネットワークNW1は、無線ネットワークである。無線ネットワークは、例えば無線LAN(Local Area Network)、無線WAN(Wide Area Network)、4G(第4世代移動通信システム)、LTE(Long Term Evolution)、LTE-Advanced、5G(第5世代移動通信方式)、Wi-fi(登録商標)、またはWiGig(Wireless Gigabit)である。
【0021】
サーバ3は、端末装置2との間でネットワークNW1を介して無線通信可能に接続される。サーバ3は、受信されたデジタル音声信号をテキスト情報に変換して端末装置2に送信する。また、サーバ3は、変換したテキスト情報に基づいて再度デジタル音声信号に変換し、端末装置2に送信する。
【0022】
図2は、実施の形態1に係る音声テキスト変換システム100の内部構成例を示すブロック図である。受音器1については、
図1を参照して説明したため、詳細な説明を省略する。
【0023】
まず、端末装置2の内部構成例について説明する。端末装置2は、通信部20と、プロセッサ21と、メモリ22と、A/D(Analog―to―Digital)変換部23と、を含んで構成される。
【0024】
通信部20は、ネットワークNW1を介してサーバ3と通信可能に接続される。通信部20は、A/D変換部23によって変換されたデジタル音声信号をサーバ3に送信し、テキスト情報またはテキスト情報に基づいて生成されたデジタル音声信号をサーバ3から受信する。
【0025】
プロセッサ21は、例えばCPU(Central Processing unit)またはFPGA(Field Programmable Gate Array)を用いて構成されて、メモリ22と協働して、各種の処理および制御を行う。具体的には、プロセッサ21はメモリ22に保持されたプログラムおよびデータを参照し、そのプログラムを実行することにより、各部の機能を実現する。各部の機能は、例えば、受音器1から受信されたアナログ音声信号をデジタル音声信号に変換する機能などである。
【0026】
メモリ22は、例えばプロセッサ21の各処理を実行する際に用いられるワークメモリとしてのRAM(Random Access Memory)と、プロセッサ21の動作を規定したプログラムおよびデータを格納するROM(Read Only Memory)とを有する。RAMには、プロセッサ21により生成あるいは取得されたデータもしくは情報が一時的に保存される。ROMには、プロセッサ21の動作を規定するプログラムが書き込まれている。また、メモリ22は、サーバ3に送信されたデジタル音声信号およびサーバ3から受信されたテキスト情報を記憶する。
【0027】
A/D変換部23は、受音器1から受信されたアナログ音声信号をデジタル音声信号に変換する。A/D変換部23は、変換したデジタル音声信号を、ネットワークNW1を介してサーバ3に送信する。また、A/D変換部23は、受音器1からアナログ音声信号を受信した際の電圧降下によって降下した電圧値を測定する。測定された電圧値の情報は、サーバ3に送信される。
【0028】
次に、サーバ3の内部構成例について説明する。サーバ3は、通信部30と、プロセッサ31と、メモリ32と、音声判別部33と、音声変換部34と、音声認識部35と、出力部36と、記憶部37と、テキスト音声変換部38と、を含んで構成される。なお、テキスト音声変換部38は、必須の構成でなく、省略されても端末装置2に備えられてもよい。
【0029】
通信部30は、ネットワークNW1を介して端末装置2と通信可能に接続される。通信部30は、デジタル音声信号を端末装置2から受信し、テキスト情報またはテキスト情報に基づいて生成されたデジタル音声信号を端末装置2に送信する。
【0030】
プロセッサ31は、例えばCPU(Central Processing unit)またはFPGA(Field Programmable Gate Array)を用いて構成されて、メモリ32と協働して、各種の処理および制御を行う。具体的には、プロセッサ31はメモリ32に保持されたプログラムおよびデータを参照し、そのプログラムを実行することにより、各部の機能を実現する。各部の機能は、例えば、デジタル音声信号が骨導音声または気導音声のどちらであるかを判定する機能、およびデジタル音声信号を予め生成されている学習データに基づいてテキスト情報に変換する機能などである。
【0031】
メモリ32は、例えばプロセッサ31の各処理を実行する際に用いられるワークメモリとしてのRAM(Random Access Memory)と、プロセッサ31の動作を規定したプログラムおよびデータを格納するROM(Read Only Memory)とを有する。RAMには、プロセッサ31により生成あるいは取得されたデータもしくは情報が一時的に保存される。ROMには、プロセッサ31の動作を規定するプログラムが書き込まれている。また、メモリ32は、学習データ、音響モデル、発音辞書、言語モデル、認識デコーダなどを記憶する。
【0032】
音声判別部33は、端末装置2からデジタル音声信号と降下した電圧値の情報とを受信し、電圧値の情報に基づいて、デジタル音声信号の基となる音声が骨導音声あるいは気導音声であるかを判別する。
【0033】
音声判別部33は、デジタル音声信号が骨導音声に基づいて変換された音声信号であると判別した場合には、識別子を付与する。識別子は、例えば、人の音声とは異なる周波数帯域の人工音、あるいは特定の識別信号(例えば、「110011」)などである。音声判別部33は、電圧値の情報が所定の閾値以下であり、さらに識別子が付与されていると判別すると、デジタル音声信号の基となる音声が骨導音声であることを示す判別結果を音声変換部34に出力する。
【0034】
また、音声判別部33は、デジタル音声信号のスペクトル特性のうち、高周波数帯域(例えば、1001~8000Hz)における信号レベル(dB)に対する低周波数帯域(例えば、0~1000Hz)における信号レベル(dB)の比率を算出し、この比率に基づいて、デジタル音声信号の基となる音声が骨導音声あるいは気導音声であるかを判別してよい。骨導音声は、ユーザの音声による振動を、体内を通じて収音するため、体内減衰により高周波数帯域において信号レベルが小さくなる。よって、音声判別部33は、比率の値が小さいほど低周波数帯域における信号レベルが高周波数帯域における信号レベルに対する相対的な減衰が小さい場合には気導音声と判別し、相対的な減衰が大きい場合には骨導音声と判別する。
【0035】
なお、上述した比率に基づくデジタル音声信号の基となる音声の判別方法は、ユーザによる個人差および環境差によって得られるスペクトル特性が変化する。よって、音声判別部33は、予め収集された複数のスペクトル特性に基づいて生成された判別データがメモリ32に記憶されている場合には、スペクトル特性とこの判別データとを用いてデジタル音声信号の基となる音声が骨導音声あるいは気導音声であるかを判別してもよい。
【0036】
音声変換部34は、音声判別部33より入力されたデジタル音声信号が骨導音声の場合には、予め生成された学習モデルを用いて骨導音声の特徴量を気導音声の特徴量にマッピングすることにより、骨導音声のデジタル音声信号を気導音声のデジタル音声信号に変換する。学習モデルは、メモリ32に予め記憶されており、骨導マイクロホンMC1と気導マイクロホンMC2とから同時に収音した音声から骨導音声および気導音声の特徴量をそれぞれ抽出し、骨導音声の特徴量を気導音声の特徴量にマッピングすることにより生成される。なお、音声の特徴量は、例えば基本周波数(声の高さ)、音声信号のスペクトル特性(声質)、非周期信号(声のかすれ)などの情報である。音声変換部34は、変換後の気導音声を音声認識部35に出力する。なお、音声変換部34は、音声判別部33により入力されたデジタル音声信号が気導音声の場合には、そのまま音声認識部35に出力する。
【0037】
音声認識部35は、例えば音声認識エンジンであり、気導マイクロホンMC2によって収音された音声をデータベースとする音響モデルを用いて、音声変換部34より入力された気導音声のデジタル音声信号に含まれる音素(例えば、/a/,/k/など)を判別する。なお、音響モデルは、気導マイクロホンMC2によって収音された数千人、数千時間の音声の周波数特性および時間特性を統計処理して予め生成され、メモリ32に記憶される。
【0038】
また、音声認識部35は、言語モデルを用いて、音声変換部34より入力された気導音声のデジタル音声信号に含まれる文字列または単語列が言語として適切か否かを評価する。言語モデルは、各国の言語におけるテキストを収集し、統計処理されて生成される。具体的には、言語モデルは、自然言語処理などを実行し、文の品詞および統語構造、単語同士あるいは文書同士の関係性などを定式化したものであり、統計学的な観点から確率的に定められる。言語モデルは、例えばNグラムモデル、隠れマルコフモデル、最大エントロピーモデルなどであり、メモリ32に記憶される。
【0039】
音声認識部35は、音響モデルを用いて判別されたデジタル音声信号に含まれる音素と言語モデルを用いて評価された文字列または単語列とを、発音辞書に基づいて音素を結びつけて単語発話(例えば、/sakura/)を構成し、認識デコーダによって音響的かつ言語的に最も適合する言語表現を解読してテキスト情報に変換される。なお、発音辞書は、音響モデルと言語モデルとを結びつけるためのデータであり、メモリ32に記憶される。認識デコーダは、所謂解読装置であり、音響モデル、発音辞書および言語モデルを用いて音声信号をその発話内容に対応する言語表現に解読して変換する処理を実行する。音声認識部35は、認識デコーダにより変換されたテキスト情報を出力部36に出力する。
【0040】
また、上述した気導音声に変換された骨導音声をテキスト情報に変換する処理を第1の音声認識処理として、音声認識部35は、骨導音声をテキスト情報に変換する第2の音声認識処理を実行してもよい。この場合、音声変換部34は、音声判別部33から入力されたデジタル音声信号が骨導音声であると判別すると、骨導音声と骨導音声から音声変換した気導音声とを音声認識部35に出力する。
【0041】
音声認識部35は、変換された第1のテキスト情報と第2のテキスト情報とに対して信頼度を判定し、より高い信頼度を有するテキスト情報を出力部36に出力する。音声認識部35は、テキスト情報に対して単語信頼度に基づく信頼度の判定を実行する。具体的には、音声認識部35は、認識デコーダにより音声信号を第1のテキスト情報および第2のテキスト情報のそれぞれに変換する際に用いられた音響モデルと言語モデルとに基づいて、単語信頼度を判定する。音声認識部35は、テキスト情報に含まれる各単語に対して近い他の候補の単語が存在するか否かを判定し、その単語に似たスコアを有する他の候補がなければ信頼度が高いと判定し、その単語に同程度のスコアを有する他の候補が多いほど信頼度が低いと判定する。音声認識部35は、より信頼度が高い方のテキスト情報を出力部36に出力する。
【0042】
出力部36は、音声認識部35より入力されたテキスト情報を記憶部37およびテキスト音声変換部38に出力し、通信部30に出力する。通信部30は、ネットワークNW1を介してテキスト情報を端末装置2に送信する。
【0043】
記憶部37は、所謂ストレージであり、音声認識部35によって変換されたテキスト情報を記憶する。また、記憶部37は、端末装置ごと(つまり、ユーザごと)にテキスト情報を記憶してもよい。
【0044】
テキスト音声変換部38は、出力部36より入力されたテキスト情報を音声信号に変換する。変換された音声信号は、ネットワークNW1を介して端末装置2に送信され、再生される。これにより、ユーザは、発話内容が正しくテキスト情報に変換されたか否かを音声によって確認することができる。また、この音声信号は、一度テキスト情報に変換されたことでノイズレスの音声信号として生成されるため、より聞き取りやすい音声となる。したがって、ユーザは、ノイズが低減された音声を再生することができる。
【0045】
また、テキスト音声変換部38は、ユーザの音声データに基づいて生成された音響モデルを用いた音声合成エンジンを有してもよい。これにより、テキスト音声変換部38は、ユーザの音声に変換して音声信号を再生することができる。
【0046】
以上により、音声テキスト変換システム100は、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。
【0047】
図3Aおよび
図3Bを参照して、受音器1の使用例を説明する。
図3Aは、骨導マイクロホンMC1の使用例を示す図である。
図3Bは、気導マイクロホンMC2の使用例を示す図である。
【0048】
受音器1は、骨導マイクロホンMC1あるいは気導マイクロホンMC2のいずれか一方を、マイク接続端子11に接続して使用される。骨導マイクロホンMC1は、ユーザの声帯付近に接触して装着されて使用される。また、気導マイクロホンMC2は、ユーザの口の前に位置するように配置されて使用される。
【0049】
図4は、実施の形態1に係る音声テキスト変換システム100の動作手順例を示すシーケンス図である。なお、
図4において、ネットワークNW1の図示は省略されている。
【0050】
受音器1は、接続された骨導マイクロホンMC1あるいは気導マイクロホンMC2のいずれか一方のマイクロホンを用いて、ユーザの音声を収音してアナログ音声信号に変換する(T1)。
【0051】
受音器1は、アナログ音声信号を端末装置2に送信する(T2)。
【0052】
端末装置2は、受信されたアナログ音声信号をデジタル音声信号に変換する(T3)。なお、端末装置2は、アナログ信号を受信した際の電圧降下に基づいて、降下した電圧値を測定する。
【0053】
端末装置2は、変換したデジタル音声信号を、ネットワークNW1を介してサーバ3に送信する(T4)。また、端末装置2は、測定された電圧値の情報を、ネットワークNW1を介してサーバ3に送信する。
【0054】
サーバ3は、端末装置2から受信した電圧降下に基づく電圧値の情報に基づいて、デジタル音声信号の基となる音声が骨導音声か否かを判別する(T5)。また、ステップT5の処理においてサーバ3は、デジタル音声信号の基となる音声が骨導音声である場合、デジタル音声信号に識別子を付与する。
【0055】
サーバ3は、ステップT5の処理の結果、骨導音声である場合には気導音声のデジタル音声信号に変換する(T6)。なお、サーバ3は、気導音声である場合には何の処理も実行しない。
【0056】
サーバ3は、気導音声を音声認識してテキスト情報に変換する(T7)。なお、
図4には示していないが、さらにサーバ3は、テキスト情報に基づいて音声信号を生成してもよい。
【0057】
サーバ3は、変換されたテキスト情報を、ネットワークNW1を介して端末装置2に送信する(T8)。なお、サーバ3は、ステップT7の処理においてさらに音声信号を生成する場合には、生成された音声信号とテキスト情報とのうち少なくとも一方を端末装置2に送信する。
【0058】
端末装置2は、テキスト情報を受信する(T9)。受信されたテキスト情報は、端末装置2に表示されてもよいし、さらに音声信号に変換されて受音器1に送信されてもよい。
【0059】
図5は、実施の形態1に係る音声テキスト変換システム100の音声判別手順例を示すフローチャートである。
図5に示す音声判別処理は、サーバ3における音声判別部33によって実行される。
【0060】
音声判別部33は、端末装置2よりデジタル音声信号を受信する(St1)。また、音声判別部33は、この際に電圧降下により降下した電圧値の情報を受信する。
【0061】
音声判別部33は、端末装置2より受信された電圧降下により降下した電圧値の情報に基づいて、電圧値が閾値Th以下であるか否かを判定する(St2)。
【0062】
音声判別部33は、ステップSt2の処理において、降下した電圧値が閾値Th以下の場合(St2,YES)には、デジタル音声信号に識別子を付与する(St3)。
【0063】
音声判別部33は、デジタル音声信号に識別子があるか否かを判別する(St4)。これにより、音声判別部33は、デジタル音声信号の基となる音声が気導音声であるにも関わらず、降下した電圧値が大きくなってしまった場合に骨導音声と誤判別する可能性を低くすることができる。
【0064】
音声判別部33は、ステップSt4の処理において、識別子が付与されている場合(St4,YES)には、デジタル音声信号の基となる音声が骨導音声であると判定する(St5)。
【0065】
音声判別部33は、ステップSt4の処理において、識別子が付与されていない場合(St4,NO)には、デジタル音声信号の基となる音声が気導音声であると判定する(St6)。
【0066】
以上により、音声テキスト変換システム100は、音声判別処理を終了する。
【0067】
図6Aおよび
図6Bを参照して、実施の形態1に係る音声テキスト変換システム100によって実行された音声認識結果の一例について説明する。
図6Aは、実施の形態1に係る音声テキスト変換システム100の音声認識例1を示す図である。
図6Bは、実施の形態1に係る音声テキスト変換システム100の音声認識例2を示す図である。
図6Aおよび
図6Bでは、骨導音声、気導音声、学習モデルを用いて骨度音声から変換された気導音声のそれぞれを音声認識した音声認識結果の一例を示す。発話内容U11,U12のそれぞれは、ユーザによって実際に発話された音声である。
【0068】
発話内容U11は、「テレビ ゲーム や パソコンで ゲーム を して 遊ぶ」である。音声認識結果An11は、骨導音声に基づいて音声認識を実行して得られた結果であり、「テレビ ゲーム や 若く 音 で、 ゲーム を し て 遊ぶ」というテキスト情報に変換される。音声認識結果An21は、気導音声に基づいて音声認識を実行して得られた結果であり、「あれ は テレビ ゲーム や パソコン で ワン ゲーム を し て 遊ぶ なあ」というテキスト情報に変換される。音声認識結果An31は、学習モデルを用いて骨導音声から変換された気導音声に基づいて音声認識を実行して得られた結果であり、「テレビ ゲーム や パソコンで ゲーム を し て 遊ぶ」というテキスト情報に変換される。
【0069】
発話内容U12は、「あらゆる 現実を すべて 自分の方へ ねじ曲げたのだ」である。音声認識結果An12は、骨導音声に基づいて音声認識を実行して得られた結果であり、「あらゆる 現 F を、ら すべて 自分 の 方 へ、 ねじ曲げ た の だ」というテキスト情報に変換される。音声認識結果An22は、気導音声に基づいて音声認識を実行して得られた結果であり、「うーん あらゆる 現実 を ら すべて の 主婦 の 方 へ、 ねじ曲げ た の だろ う」というテキスト情報に変換される。音声認識結果An32は、学習モデルを用いて骨導音声から変換された気導音声に基づいて音声認識を実行して得られた結果であり、「あらゆる 現実 を、 すべて 自分 の 方 へ、 ねじ曲げ た の だ」というテキスト情報に変換される。
【0070】
以上により、音声テキスト変換システム100は、学習モデルを用いて骨導音声を気導音声に変換することにより、ユーザの発話内容を類似する音声認識結果(テキスト情報)を得ることができる。
【0071】
また、音声テキスト変換システム100は、音声認識結果(テキスト情報)を用いることにより、ノイズを低減した音声信号を生成することができる。
【0072】
また、実施の形態1に係る音声テキスト変換システム100について、その他の実施例について説明する。
【0073】
端末装置2は、
図2に示す内部構成例に限定されない。端末装置2は、例えば、サーバ3の構成を含んで構成されてもよい。この場合、音声テキスト変換装置100Aは、ネットワークNW1およびサーバ3が不要となり省略することができる。以下、
図7を参照して説明する。
【0074】
図7は、音声テキスト変換装置100Aの一例を示す図である。なお、
図7に示す音声テキスト変換装置100Aの構成は、実施の形態1に係る音声テキスト変換システム100において説明した構成が有する機能と略同一の機能を有するため、同一の構成については同一の符号を付与して説明を省略する。
【0075】
図7に示す音声テキスト変換装置100Aは、受音器1と、端末装置2と、を含んで構成される。端末装置2は、さらに音声判別部33と、音声変換部34と、音声認識部35と、出力部36と、記憶部37と、テキスト音声変換部38と、を含んで構成される。なお、テキスト音声変換部38は必須の構成でなく、省略されてもよい。また、端末装置2は、さらにテキスト情報を表示する表示部(不図示)などを備えてもよい。
【0076】
以上により、実施の形態1に係る音声テキスト変換システム100は、音声を収音する受音器1が接続された端末装置2とサーバ3との間が通信可能であり、端末装置2は、受音器により収音された音声の音声信号をサーバ3に送信し、サーバ3は、端末装置2から受信された音声信号に基づいて、音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介したユーザの鼓膜の振動に基づく気導音声のいずれかを判別し、骨導音声を気導音声に変換し、気導音声をテキスト情報に変換し、変換されたテキスト情報を出力する。
【0077】
これにより、実施の形態1に係る音声テキスト変換システム100は、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。
【0078】
また、音声テキスト変換システム100は、音声が気導音声の場合、気導音声をテキスト情報に変換し、変換されたテキスト情報を出力する。これにより、実施の形態1に係る音声テキスト変換システム100は、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。
【0079】
また、受音器1は、骨導音声を取得する骨導マイクロホンMC1または気導音声を取得する気導マイクロホンMC2のいずれか一方を備える。これにより、音声テキスト変換システム100は、複数の種類のマイクロホンを接続可能であり、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。
【0080】
また、サーバ3は、音声信号のスペクトル特性のうち高周波数成分と低周波数成分との比率に基づいて、音声信号が骨導音声あるいは気導音声のいずれかを判別する。これにより、音声テキスト変換システム100は、音声信号の基となる音声が骨導音声あるいは気導音声のいずれかを判別可能であり、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。
【0081】
また、サーバ3は、端末装置2から音声信号を受信した際に降下する電圧値(つまり、電圧降下値)に基づいて、音声信号が骨導音声あるいは気導音声のいずれかを判別する。これにより、音声テキスト変換システム100は、音声信号の基となる音声が骨導音声あるいは気導音声のいずれかを判別可能であり、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。
【0082】
また、サーバ3は、受音器1により収音された音声が骨導音声の場合、音声信号に前記音声が骨導音声であることを示す識別子を付与する。これにより、音声テキスト変換システム100は、音声信号の基となる音声が骨導音声であることを、より明確にしてその後の処理を実行できる。
【0083】
また、サーバ3は、識別子が付与されているか否かに基づいて、音声が骨導音声または気導音声であるかを判別する。これにより、音声テキスト変換システム100は、音声信号の基となる音声が骨導音声であることをより確実に判別できる。また、音声テキスト変換システム100は、デジタル音声信号の基となる音声が気導音声であるにも関わらず、降下した電圧値が大きくなってしまった場合に骨導音声と誤判別する可能性を低くすることができる。
【0084】
また、識別子は、音声と異なる周波数帯域の音源である。これにより、音声テキスト変換システム100は、ユーザの音声を損なうことなく識別子を付与することができ、さらに誤判別する可能性を低くすることができる。
【0085】
また、サーバ3は、骨導音声を気導音声に変換するための学習モデルを有し、学習モデルは、骨導マイクロホンと気導マイクロホンとから同時に収音された音声に基づいて、骨導音声と気導音声の特徴量をそれぞれ抽出する。サーバ3は、抽出された骨導音声の特徴量を気導音声の特徴量に変換する。これにより、音声テキスト変換システム100は、効率的な音声認識を実行することができるとともに、気導音声の特徴量に変換する際に骨導音声特有の雑音を除去することができる。
【0086】
また、サーバ3は、気導音声をデータベースとする音響モデルを用いて音声認識する。これにより、音声テキスト変換システム100は、効率的な音声認識を実行することができる。
【0087】
また、サーバ3は、受音器1により収音された音声が骨導音声の場合に、骨導音声に基づいて変換された気導音声を第1のテキスト情報に変換する第1の音声認識処理と、骨導音声を第2のテキスト情報に変換する第2の音声認識処理とを実行する。サーバ3は、第1のテキスト情報および第2のテキスト情報のそれぞれにおける信頼度を判定して比較し、信頼度が高い方のテキスト情報を出力する。これにより、音声テキスト変換システム100は、受音器1によって収音された音声をより正確にテキスト情報に変換できる。
【0088】
実施の形態1の変形例に係る音声テキスト変換装置100Aは、音声を収音する受音器1との間で通信可能な音声テキスト変換装置100Aであって、受音器により収音された音声が、ユーザの声帯の振動に基づく骨導音声あるいは空気を介したユーザの鼓膜の振動に基づく気導音声のいずれかを判別する音声判別部と、骨導音声を前記気導音声に変換する音声変換部と、気導音声をテキスト情報に変換する音声認識部と、変換された前記テキスト情報を出力する出力部と、を備える。
【0089】
これにより、実施の形態1の変形例に係る音声テキスト変換装置100Aは、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。
【0090】
以上、添付図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
【産業上の利用可能性】
【0091】
本開示は、音声テキスト変換システムおよび音声テキスト変換装置の提示において、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる音声テキスト変換システムおよび音声テキスト変換装置の提示の提示として有用である。
【符号の説明】
【0092】
1 受音器
11 マイク接続端子
2 端末装置
20,30 通信部
21,31 プロセッサ
22,32 メモリ
23 A/D変換部
3 サーバ
33 音声判別部
34 音声変換部
35 音声認識部
36 出力部
37 記憶部
100 音声テキスト変換システム
100A 音声テキスト変換装置
NW1 ネットワーク
MC1 骨導マイクロホン
MC2 気導マイクロホン