IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社タダノの特許一覧

特開2022-69766骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラム
<>
  • 特開-骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラム 図1
  • 特開-骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラム 図2
  • 特開-骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラム 図3
  • 特開-骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラム 図4
  • 特開-骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラム 図5
  • 特開-骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022069766
(43)【公開日】2022-05-12
(54)【発明の名称】骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラム
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20220502BHJP
   G10L 25/30 20130101ALI20220502BHJP
   H04R 1/00 20060101ALI20220502BHJP
   G10L 21/007 20130101ALI20220502BHJP
【FI】
G10L21/0208 100Z
G10L25/30
G10L21/0208 100A
H04R1/00 327Z
G10L21/007
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2020178602
(22)【出願日】2020-10-26
(71)【出願人】
【識別番号】000148759
【氏名又は名称】株式会社タダノ
(74)【代理人】
【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100131152
【弁理士】
【氏名又は名称】八島 耕司
(74)【代理人】
【識別番号】100145229
【弁理士】
【氏名又は名称】秋山 雅則
(74)【代理人】
【識別番号】100201352
【弁理士】
【氏名又は名称】豊田 朝子
(72)【発明者】
【氏名】マムティミン マルダン
(57)【要約】
【課題】より明瞭な音声を簡易な処理で得ることができる骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラムを提供する。
【解決手段】骨伝導マイクロホンは、人の体に接触して声帯振動を検出する振動検出素子と、振動検出素子が検出した声帯振動のデータを第一発話コードと第一音質コードに変換する変換器23と、声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する第二変換器が、音声データを第二発話コードと第二音質コードに変換したときの、第二音質コードを記憶する記憶装置21と、変換器23が変換した第一発話コードと記憶装置21が記憶する第二音質コードとに基づいて、音声を強調した音声強調データを生成する生成器24と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
人の体に接触して声帯振動を検出する振動検出素子と、
前記振動検出素子が検出した前記声帯振動のデータを第一発話コードと第一音質コードに変換する第一変換器と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する第二変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
前記第一変換器が変換した前記第一発話コードと前記記憶装置が記憶する前記第二音質コードとに基づいて、音声を強調した音声強調データを生成する生成器と、
を備える骨伝導マイクロホン。
【請求項2】
前記第一変換器は、前記第一発話コードと前記第一音質コードから前記声帯振動のデータを復元する第一デコーダと組み合わせられた場合に第一オートエンコーダを形成する第一エンコーダである、
請求項1に記載の骨伝導マイクロホン。
【請求項3】
前記第二変換器は、前記第二発話コードと前記第二音質コードから前記音声データを復元する第二デコーダと組み合わせられた場合に第二オートエンコーダを形成する第二エンコーダである、
請求項1または2に記載の骨伝導マイクロホン。
【請求項4】
人の体に接触して声帯振動を検出する骨伝導マイクロホンが備える振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードとに基づいて前記音声データの音声を強調した音声強調データを生成する生成ステップと、
を備える骨伝導マイクロホンの音声強調方法。
【請求項5】
人の体に接触して声帯振動を検出する振動検出素子と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
を備える骨伝導マイクロホンの音声強調プログラムであって、
コンピュータに、
前記振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードに基づいて、音声を強調した音声強調データを生成する生成ステップと、
を実行させるための音声強調プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラムに関する。
【背景技術】
【0002】
骨伝導マイクロホンは、骨を伝導する声帯振動を検出する装置である。しかし、声帯振動は骨を伝導すると高周波成分が減衰してしまうので、骨伝導マイクロホンが検出する音声は、通常明瞭でないことが多い。そこで、より明瞭な音声を得るために、骨伝導マイクロホンが検出した音声データのうち音声成分を強調する音声強調装置が開発されている。
【0003】
例えば、特許文献1には、骨伝導マイクロホンが検出した音声データを分析して有声音か無声音かを判別する判別手段と、有声音と判別された音声データを補正して第一気導音声データを生成する第一補正手段と、無性音と判別された音声データを補正して第二気導音声データを生成する第二補正手段と、生成された第一気導音声データと第二気導音声データを合わせて出力データを生成する出力生成手段と、を備える音声強調装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2012-208177号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載の音声強調装置では、骨伝導マイクロホンの音声を分析して有声音と無声音に分けるため、音声データの処理が複雑である。
【0006】
本発明は上記の課題を解決するためになされたもので、より明瞭な音声を簡易な処理で得ることができる骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の目的を達成するため、本発明の第一の観点に係る骨伝導マイクロホンは、
人の体に接触して声帯振動を検出する振動検出素子と、
前記振動検出素子が検出した前記声帯振動のデータを第一発話コードと第一音質コードに変換する第一変換器と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する第二変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
前記第一変換器が変換した前記第一発話コードと前記記憶装置が記憶する前記第二音質コードとに基づいて、音声を強調した音声強調データを生成する生成器と、
を備える。
【0008】
前記第一変換器は、前記第一発話コードと前記第一音質コードから前記声帯振動のデータを復元する第一デコーダと組み合わせられた場合に第一オートエンコーダを形成する第一エンコーダであってもよい。
【0009】
前記第二変換器は、前記第二発話コードと前記第二音質コードから前記音声データを復元する第二デコーダと組み合わせられた場合に第二オートエンコーダを形成する第二エンコーダであってもよい。
【0010】
本発明の第二の観点に係る骨伝導マイクロホンの音声強調方法は、
人の体に接触して声帯振動を検出する骨伝導マイクロホンが備える振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードとに基づいて前記音声データの音声を強調した音声強調データを生成する生成ステップと、
を備える。
【0011】
本発明の第三の観点に係る音声強調プログラムは、
人の体に接触して声帯振動を検出する振動検出素子と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
を備える骨伝導マイクロホンの音声強調プログラムであって、
コンピュータに、
前記振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードに基づいて、音声を強調した音声強調データを生成する生成ステップと、
を実行させるためのものである。
【発明の効果】
【0012】
本発明の構成によれば、第一変換器は、振動検出素子が検出した声帯振動のデータを第一発話コードと第一音質コードに変換し、生成器は、その第一発話コードと、記憶部に記憶された、人の声の音声データを第二変換器が変換したときの第二音質コードとに基づいて、音声を強調した音声強調データを生成する。これにより、声帯振動のデータから明瞭な音声のデータが得られる。また、声帯振動のデータに複雑な前処理を施す必要がなく、処理が簡易である。
【図面の簡単な説明】
【0013】
図1】本発明の実施の形態に係る骨伝導マイクロホンの部品構成図である。
図2】骨伝導マイクロホンが備える音声強調装置のブロック図である。
図3】音声強調装置が備える記憶装置に格納された音質テーブルのデータ構成図である。
図4】音声強調装置が備えるエンコーダとデコーダを学習させる学習装置のブロック図である。
図5】学習装置が備える学習モデルのブロック図である。
図6】学習装置が実施する学習処理のフローチャートである。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態に係る骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラムについて図面を参照して詳細に説明する。なお、図中、同一又は同等の部分には同一の符号を付す。
【0015】
実施の形態に係る骨伝導マイクロホンは、明瞭な音声を得るため、学習済みニューラルネットワークを用いて、振動検出素子が検出した声帯振動のデータから音声強調データを生成する。まず、図1図3を参照して、骨伝導マイクロホンの構成について説明する。
【0016】
図1は、本発明の実施の形態に係る骨伝導マイクロホン100の部品構成図である。図2は、骨伝導マイクロホン100が備える音声強調装置20のブロック図である。図3は、音声強調装置20が備える記憶装置21に格納された音質テーブル212のデータ構成図である。なお、図1では、理解を容易にするため、骨伝導マイクロホン100が出力するスピーカ200もあわせて示している。
【0017】
図1に示すように、骨伝導マイクロホン100は、声帯振動を検出する振動検出素子10と、振動検出素子10が検出した声帯振動のデータに基づいて音声強調データを生成する音声強調装置20と、を備える。
【0018】
振動検出素子10は、図示しないが、ケースと、ケースに収容された圧電素子とを備える。振動検出素子10では、ケースに振動が伝搬すると、その振動によって圧電素子がたわみ、圧電素子に電位が発生する。振動検出素子10は、その電位から振動を検出する。
【0019】
振動検出素子10のケースは、人体の部位、例えば、頭頂部、側頭部、咽頭部、鼻腔部等の皮膚に接触可能な形状を有する。これにより、振動検出素子10は、ケースが人体の部位に接触した状態に装着される。振動検出素子10は、この状態で、頭蓋骨等の人体の一部を伝搬する声帯振動を検出する。振動検出素子10は、検出した声帯振動のデータを音声強調装置20に送信する。
【0020】
音声強調装置20は、声帯振動のデータを受信する。音声強調装置20は、その声帯振動のデータを処理するため、記憶装置21およびコントローラ22を備える。
【0021】
記憶装置21は、EEPROM(Electrical Erasable Programmable Read-Only Memory)又はフラッシュメモリ等を有する。そして、記憶装置21は、声帯振動のデータから音声強調データを生成する音声強調プログラム211を記憶する。また、記憶装置21は、音声強調プログラム211のパラメータを格納するモデルデータベース213を記憶する。
【0022】
コントローラ22は、演算処理を行うCPU(Central ProcessingUnit)と、ROM(Read Only Memory)及びRAM(Random Access Memory)を含むメモリとを含むマイクロコンピュータを備える。CPUは、ROM又は記憶装置21に記憶されたプログラムをRAMに読み出して実行することにより、各種処理を行う。例えば、コントローラ22は、CPUが上記音声強調プログラム211を実行する。そして、モデルデータベース213を読み出す。これにより、音声強調処理を行う。コントローラ22は、この音声強調処理を行うため、図2に示すように、ソフトウエアとして構成される変換器23および生成器24の処理ブロックを備える。
【0023】
変換器23は、図1に示す振動検出素子10が検出した声帯振動のデータを受信する。変換器23は、図2に示すように、エンコーダE1を含み、そのエンコーダE1によって声帯振動のデータを発話コードとマイク音質コード(以下、発話コードC1と音質コードC2という)に変換する。変換器23は、変換した発話コードC1と音質コードC2を生成器24に送信する。
【0024】
一方、記憶装置21には、音質テーブル212が格納されている。その音質テーブル212には、通常のマイクロホンを用いて記録した音声のデータを、エンコーダE1とは別の、後述するエンコーダE2が、発話コードとマイク音質コード(以下、発話コードC3と音質コードC4という)に変換したときの、音質コードC4が、図3に示すように、上記エンコーダE1の音質コードC2に対応付けられている。
【0025】
生成器24は、図2に示すように、上述した変換器23から発話コードC1と音質コードC2を受信する。また、生成器24は、受信した音質コードC2に対応する音質コードC4を記憶装置21の音質テーブル212から読み取る。生成器24は、デコーダD4を含み、そのデコーダD4が上記の受信した発話コードC1と読み取った音質コードC4に基づいて、振動検出素子10が検出した声帯振動に対応する音声を強調した音声強調データを生成する。詳細には、デコーダD4は、発話コードC1と音質コードC4を復号することにより、音声強調データを生成する。
【0026】
生成器24は、生成した音声強調データを外部機器に出力する。例えば、生成器24は、図1に例示するスピーカ200に音声強調データを出力する。音声強調データでは音声が強調されている。このため、骨伝導マイクロホン100が取得した音は、音声が明瞭で聞き取りやすい。
【0027】
上述した変換器23のエンコーダE1と生成器24のデコーダD4は、学習済みニューラルネットワークを使用することにより変換処理と生成処理を行う。続いて、図4および図5を参照して、エンコーダE1とデコーダD4のニューラルネットワークを学習させる学習装置300について説明する。
【0028】
図4は、音声強調装置20が備えるエンコーダE1とデコーダD4を学習させる学習装置300のブロック図である。図5は、学習装置300が備える学習モデル330のブロック図である。
【0029】
学習装置300では、図示しないCPUが、図4に示す記憶装置310に記憶された学習プログラム311をRAMに読み出して実行する。これにより、学習装置300は、学習処理を行う。その結果、学習装置300は、ソフトウエアとして構成される学習部320および学習モデル330を備える。
【0030】
記憶装置310には、学習データ312が記憶されている。学習部320は、記憶装置310から学習データ312を読み出し、読み出した学習データ312を学習モデル330に入力する。
【0031】
学習モデル330は、図5に示すように、エンコーダE1、E2と、デコーダD1-D4と、が組み合わされたモデルである。学習モデル330では、エンコーダE1とデコーダD1が一組のネットワークを形成している。また、エンコーダE2とデコーダD2がもう一組のネットワークを形成している。さらに、デコーダD3、D4それぞれは、エンコーダE1とエンコーダE2に接続され、それぞれが別のネットワークを形成している。
【0032】
図示しないが、エンコーダE1とデコーダD1は、入力層、隠れ層及び出力層を有するニューラルネットワークモデルによって構築されている。そのニューラルネットワークモデルの入力層と出力層は、次元数が同じであり、隠れ層は、入力層と出力層よりも次元数が小さい。そして、エンコーダE1は、ニューラルネットワークモデルの入力層から隠れ層までの部分によって構築され、デコーダD1は、そのニューラルネットワークモデルの隠れ層から出力層までの部分によって構築されている。
【0033】
上述した学習データ312には、図4に示すように、振動検出素子10を用いて予め記録しておいた声帯振動データAと、通常のマイクロホンを用いて予め記録しておいた音声データBと、が格納されている。
【0034】
ここで、音声データBは、声帯振動データAを記録したときの、その声帯振動によって発せられた音声を記録したデータである。すなわち、音声データBは、声帯振動データAに対応する音声を記録している。なお、本明細書では、通常のマイクロホンとは、声帯振動によって空気が振動することにより発生する音声を電気信号に変換するマイクロホンのことをいい、気導音マイクロホンともいう。
【0035】
学習部320は、学習データ312のうち、声帯振動データAを、図5に示すように、エンコーダE1に入力する。そして、声帯振動データAとデコーダD1の出力を比較して、ニューラルネットワークモデル内のノード間の重みを調整する。これにより、学習部320は、声帯振動データAとデコーダD1の出力の誤差を小さくする。その結果、エンコーダE1とデコーダD1が、オートエンコーダを学習する。すなわち、自己符号化を学習する。
【0036】
また、エンコーダE2とデコーダD2は、エンコーダE1とデコーダD1で説明したニューラルネットワークモデルとは別のニューラルネットワークモデルによって構築されている。なお、この別のニューラルネットワークモデルは、エンコーダE1とデコーダD1で説明したニューラルネットワークモデルと同じ層構造を備える。
【0037】
学習部320は、学習データ312の音声データBをエンコーダE2に入力する。そして、学習部320は、音声データBとデコーダD2の出力を比較して、上記別のニューラルネットワークモデル内のノード間の重みを調整する。これにより、音声データBとデコーダD2の出力の誤差を小さくする。その結果、エンコーダE2とデコーダD2が自己符号化を学習する。
【0038】
エンコーダE1とデコーダD1、エンコーダE2とデコーダD2がそれぞれ自己符号化を学習すると、エンコーダE1は、声帯振動データAを符号化した発話コードC1と音質コードC2を出力する。また、エンコーダE2は、音声データBを符号化した発話コードC3と音質コードC4を出力する。
【0039】
一方、デコーダD3は、デコーダD1、D2と同じ層構造を有するニューラルネットワーク部によって構築されている。学習部320は、デコーダD3に、エンコーダE1が出力する音質コードC2と、エンコーダE2が出力する発話コードC3とを入力する。ここで、音質コードC2は、声帯振動データAを記録した振動検出素子10のマイク音質のコードである。学習部320は、そのマイク音質のコードに対応した出力を得るため、声帯振動データAとデコーダD3の出力を比較する。学習部320は、その比較結果に基づいてニューラルネットワーク部のノード間の重みを調整して、声帯振動データAとデコーダD3の出力の誤差を小さくする。これにより、学習部320は、声帯振動データAを出力する状態にデコーダD3を学習させる。
【0040】
デコーダD4は、デコーダD3のニューラルネットワーク部と同じ層構造を有する別のニューラルネットワーク部によって構築されている。学習部320は、デコーダD4に、エンコーダE1が出力する発話コードC1と、エンコーダE2が出力する音質コードC4とを入力する。その音質コードC4は、音声データBを記録した通常のマイクロホンのマイク音質のコードである。学習部320は、このマイク音質のコードに対応した出力を得るため、音声データBとデコーダD4の出力を比較して、ニューラルネットワーク部のノード間の重みを調整する。これにより、学習部320は、音声データBとデコーダD4の出力の誤差を小さくする。その結果、学習部320は、音声データBを出力する状態にデコーダD4を学習させる。
【0041】
学習部320は、エンコーダE1、E2とデコーダD1-D4を学習させると、すなわち、学習モデル330を学習させると、学習済みの学習モデル330のエンコーダE1、デコーダD4の重み係数等のパラメータを、図2に示すモデルデータベース213として記憶装置21に記憶させる。これにより、学習部320は、変換器23と生成器24の動作に必要なデータベースを音声強調装置20に供給する。
【0042】
また、学習部320は、学習済みの学習モデル330に、再度学習データ312を入力する。学習部320は、そのときにエンコーダE1が出力する音質コードC2と、エンコーダE2が出力する音質コードC4とを用いて、図3に示す音質テーブル212を作成する。学習部320は、作成した音質テーブル212を記憶装置21に記憶させる。これにより、学習部320は、生成器24の動作に必要なテーブルを音声強調装置20に供給する。その結果、上述したように、音声強調装置20が音声強調データを生成して、振動検出素子10が検出した振動を明瞭で聞き取りやすい音声に変換する。
【0043】
次に、図6を参照して、学習装置300の学習方法をより詳細に説明する。以下の説明では、図示しないが、学習装置300は、パーソナルコンピュータまたはサーバー(以下、サーバー等という)によって構成されているものとする。そして、それらサーバー等に設けられた記憶装置に学習プログラム311と学習データ312が格納され、さらに、その学習プログラム311のアイコンがディスプレイ装置に表示されているものとする。また、それらサーバー等は、インターネットを介して、骨伝導マイクロホン100の音声強調装置20が備えるコントローラに接続されているものとする。
【0044】
図6は、学習装置300が実施する学習処理のフローチャートである。
【0045】
はじめに、学習装置300のユーザーが、上記アイコンを押して、学習プログラム311を起動させる。これにより、サーバーまたは、パーソナルコンピュータのCPUによって学習プログラムが実行され、学習処理のフローが開始される。
【0046】
学習処理のフローが開始されると、まず、学習部320は、記憶装置310から学習データ312を読み出す。これにより、学習データ312を取得する(ステップS1)。
【0047】
なお、学習データ312には、音声強調装置20が強調できる音声の種類を増やすため、人が様々な発音をしたときの、声帯振動データAと音声データBが格納されていることが望ましい。例えば、学習データ312には、特定の言語のほとんどの文字について、それら文字を読んだときの声帯振動データAと音声データBが文字毎に格納されていることが望ましい。
【0048】
続いて、学習部320は、取得した学習データ312を用いて、学習モデル330のエンコーダE1とデコーダD1のニューラルネットワークと、エンコーダE2とデコーダD2のニューラルネットワークを学習させる(ステップS2)。
【0049】
詳細には、エンコーダE1に学習データ312の声帯振動データAを入力し、エンコーダE2に学習データ312の音声データBを入力する。そしてデコーダD1の出力をA、デコーダD1の出力をBとする場合に、数式1-数式3で表されるコスト関数Lallが一定値以内に収束するまで、ネットワーク内のノード間の重みを調整する。これにより、エンコーダE1とデコーダD1のネットワークと、エンコーダE2とデコーダD2のネットワークを学習させる。
【0050】
【数1】
【0051】
【数2】
【0052】
【数3】
【0053】
次に、学習部320は、学習データ312を用いて、学習モデル330全体を学習させる(ステップS3)。
【0054】
詳細には、ステップS2と同じく、エンコーダE1に学習データ312の声帯振動データAを入力し、エンコーダE2に学習データ312の音声データBを入力する。そして、デコーダD3の出力をA**、デコーダD4の出力をB**とする場合に、数式4-数式6で表されるコスト関数Lallが一定値以内に収束するまで、ネットワーク内のノード間の重みを調整する。これにより、デコーダD3、D4を含む学習モデル330全体を学習させる。
【0055】
【数4】
【0056】
【数5】
【0057】
【数6】
【0058】
学習モデル330全体の学習が完了すると、学習部320は、学習済みの学習モデル330のパラメータを記憶装置21に格納する(ステップS4)。詳細には、エンコーダE1とデコーダD4のネットワークの層数、ノード数、ノード間の重み係数等のパラメータを記憶装置21のモデルデータベース213に格納する。
【0059】
また、学習部320は、学習済みの学習モデル330を用いて、音質テーブル212を作成し、その音質テーブル212を記憶装置21に格納する(ステップS5)。
【0060】
詳細には、学習部320は、学習済みの学習モデル330に学習データ312を入力し、そのときのエンコーダE1、E2の出力のデータから、エンコーダE1の出力である音質コードC2に、エンコーダE2の出力である音質コードC4を対応付ける。このとき、例えば、特定の言語の文字ほとんどについて、声帯振動データAと音声データBが学習データ312に格納されている場合、それら文字毎に、音質コードC2に音質コードC4を対応付ける。これにより、学習部320は、音質テーブル212を作成する。そして、作成した音質テーブル212を記憶装置21に格納する。
【0061】
以上のステップにより、学習装置300の学習が完了する。
【0062】
学習装置300の学習が完了した後、骨伝導マイクロホン100の図示しない電源ボタンが押されて、骨伝導マイクロホン100が起動すると、コントローラ22は、上記ステップS4で記憶装置21に格納したモデルデータベース213を読み出し、読み出したモデルデータベース213に基づいて、エンコーダE1とデコーダD4のニューラルネットワークモデルを構築する。これにより、学習装置300の学習を骨伝導マイクロホン100の動作に反映させる。
【0063】
続いて、骨伝導マイクロホン100の振動検出素子10が声帯振動を検出すると、コントローラ22は、その振動検出素子10から声帯振動データを取得し、取得した声帯振動データを、モデルデータベース213で構築したニューラルネットワークモデルのエンコーダE1によって発話コードC1と音質コードC2に変換する(このステップのことを変換ステップともいう)。
【0064】
コントローラ22は、上記ステップS5で記憶装置21に格納した音質テーブル212から、変換した音質コードC2に対応する音質コードC4を読み出し、上記エンコーダE1によって変換した発話コードC1と読み出した音質コードC4をデコーダD4に入力することにより、発話コードC1と音質コードC4を復号させる。これにより、コントローラ22は、音声強調データを生成する(このステップのことを生成ステップともいう)。その結果、骨伝導マイクロホン100では、音声が強調され、聞き取りやすい。
【0065】
なお、上述したエンコーダE1、E2は、本明細書及び特許請求の範囲でいうところの第一変換器または第一エンコーダ、第二変換器または第二エンコーダの一例である。デコーダD1、D2は、本明細書及び特許請求の範囲でいうところの第一デコーダ、第二デコーダの一例である。また、エンコーダE1とデコーダD1によって構成されるオートエンコーダとエンコーダE2とデコーダD2によって構成されるオートエンコーダは、本明細書及び特許請求の範囲でいうところの第一オートエンコーダ、第二オートエンコーダの一例である。さらに、エンコーダE1、E2が変換する発話コードC1、音質コードC2、発話コードC3および音質コードC4は、本明細書及び特許請求の範囲でいうところの第一発話コード、第一音質コード、第二発話コードおよび第二音質コードの一例である。
【0066】
また、上記の実施の形態では、学習部320には、骨伝導マイクロホン100が接続され、通常のマイクロホンは接続されていないが、学習部320は、骨伝導マイクロホン100のほかに、通常のマイクロホンに接続されていてもよい。この場合に、ユーザーがテキストデータを声に出して読んで、骨伝導マイクロホン100の振動検出素子10が、そのときのユーザーの声帯振動を検出すると共に、通常のマイクロホンがそのときの音声を検出するとよい。そして、学習部320は、検出した声帯振動と音声のデータをステップS1の学習データ312として利用してもよい。この場合、学習部320は、検出した声帯振動と音声のデータを学習データ312として記憶装置310に記憶させるとよい。
【0067】
以上のように、実施の形態に係る骨伝導マイクロホン100では、変換器23が含むエンコーダE1が、振動検出素子10によって検出された声帯振動データを発話コードC1、音質コードC2に変換し、生成器24が含むデコーダD4が、エンコーダE1によって変換された発話コードC1と、記憶装置21の音質テーブル212に格納され、エンコーダE1によって変換された音質コードC2に対応する音質コードC4と、に基づいて、音声強調データを生成する。このため、骨伝導マイクロホン100では、明瞭かつ、聞き取りやすい音声を得ることができる。また、声帯振動データに複雑な前処理を施す必要がなく、処理が簡易である。
【0068】
また、変換器23が含むエンコーダE1と生成器24が含むデコーダD4は、学習装置300によって学習する。このため、骨伝導マイクロホン100のユーザーの声帯振動データと音声データを格納した学習データ312を用いてエンコーダE1とデコーダD4を学習させることにより、そのユーザーの声帯振動、音声に応じた音声強調データを生成することができる。
【0069】
以上、本発明の実施の形態を説明したが、本発明は上記の実施の形態に限定されるものではない。例えば、実施の形態では、振動検出素子10が圧電素子を備えているが、本発明はこれに限定されない。本発明では、振動検出素子10が声帯の振動を検出できればよく、その限りにおいて素子は任意である。例えば、圧電素子の換わりに、電磁型素子、静電型素子であってもよい。
【0070】
また、上記の実施の形態では、骨伝導マイクロホン100が接続される外部機器としてスピーカ200が例示されているが、本発明はこれに限定されない。本発明では、骨伝導マイクロホン100が音声を強調した音声強調データを生成すればよく、その接続先は限定されない。例えば、骨伝導マイクロホン100は、クレーン装置、高所作業車等のキャビンのコントローラに接続されてもよい。そして、そのコントローラを介して、キャビン内に配置されたスピーカ200に接続されてもよい。また、骨伝導イヤホンに接続されてもよい。このような形態であれば、大きい作業音が発生して作業者の音声が聞き取りにくい環境であっても、作業者の音声を聞き取りやすくすることができる。
【0071】
上記の実施の形態では、学習装置300が、骨伝導マイクロホン100とは別の装置である。しかし、本発明はこれに限定されない。本発明では、骨伝導マイクロホン100が学習装置300を備えていてもよい。例えば、音声強調装置20のコントローラ22が、学習装置300、すなわち、学習部320と学習モデル330を備えていてもよい。この場合、コントローラ22が通常のマイクロホンに接続されているとよい。そして、音声強調装置20では、学習モードと動作モードが切り替え可能であり、学習モード時に、振動検出素子10が検出した声帯音声データと通常のマイクロホンが検出した音声データに基づいて、学習モデル330が学習するとよい。このような形態であれば、ユーザーの声帯振動、音声に応じて骨伝導マイクロホン100を調整することができる。
【符号の説明】
【0072】
10…振動検出素子、20…音声強調装置、21…記憶装置、22…コントローラ、23…変換器、24…生成器、100…骨伝導マイクロホン、200…スピーカ、211…音声強調プログラム、212…音質テーブル、213…モデルデータベース、300…学習装置、310…記憶装置、311…学習プログラム、312…学習データ、320…学習部、330…学習モデル、C1,C3…発話コード、C2,C4…音質コード、D1-D4…デコーダ、E1,E2…エンコーダ
図1
図2
図3
図4
図5
図6