IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人立命館の特許一覧

特開2022-191075肉伝導マイクロフォンシステム、及び、音声採取方法
<>
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図1
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図2
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図3
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図4
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図5
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図6
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図7
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図8
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図9
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図10
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図11
  • 特開-肉伝導マイクロフォンシステム、及び、音声採取方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022191075
(43)【公開日】2022-12-27
(54)【発明の名称】肉伝導マイクロフォンシステム、及び、音声採取方法
(51)【国際特許分類】
   H04R 1/00 20060101AFI20221220BHJP
   G06F 3/16 20060101ALI20221220BHJP
   H04R 1/14 20060101ALI20221220BHJP
【FI】
H04R1/00 327Z
G06F3/16 690
H04R1/14
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021099704
(22)【出願日】2021-06-15
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和二年度、国立研究開発法人科学技術振興機構 研究成果展開事業 センター・オブ・イノベーションプログラム『運動の生活カルチャー化により活力ある未来をつくるアクティブ・フォー・オール拠点』委託研究開発、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】593006630
【氏名又は名称】学校法人立命館
(74)【代理人】
【識別番号】100111567
【弁理士】
【氏名又は名称】坂本 寛
(72)【発明者】
【氏名】西浦 敬信
(57)【要約】
【課題】安定して再現性の高い肉伝導音を採取することができる肉伝導マイクロフォンシステムを提供する。
【解決手段】肉伝導マイクロフォンシステム100は、肉伝導音を採取する肉伝導マイクロフォンシステムであって、皮膚表面に密着されることにより肉伝導音を伝播させる伝播部11と、伝播部に接して設けられて、伝播部を伝播する肉伝導音を電気信号に変換するマイクロフォン12と、マイクロフォンから出力された電気信号に基づいて音声を生成する処理を実行する処理部5と、伝播部を皮膚表面に所定の押圧力で押し付けるための押圧部3と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
肉伝導音を採取する肉伝導マイクロフォンシステムであって、
皮膚表面に密着されることにより前記肉伝導音を伝播させる伝播部と、
前記伝播部に接して設けられて、前記伝播部を伝播する前記肉伝導音を電気信号に変換するマイクロフォンと、
前記マイクロフォンから出力された前記電気信号に基づいて音声を生成する処理を実行する処理部と、
前記伝播部を前記皮膚表面に所定の押圧力で押し付けるための押圧部と、
を備える
肉伝導マイクロフォンシステム。
【請求項2】
前記音声を生成する処理は、音声復元用モデルに前記電気信号を入力値として入力して出力値を得ることを含み、
前記音声復元用モデルは、肉伝導音に基づく電気信号を入力値として、前記肉伝導音に対応した可聴音を出力値として出力するよう機械学習された機械学習モデルである
請求項1に記載の肉伝導マイクロフォンシステム。
【請求項3】
前記音声復元用モデルは、同一のユーザについての前記肉伝導音が変換された前記電気信号と、前記肉伝導音に対応した発声音と、を学習用データとして用いて機械学習された機械学習モデルである
請求項2に記載の肉伝導マイクロフォンシステム。
【請求項4】
前記押圧部は、前記肉伝導音を採取する対象に対して前記マイクロフォンを装着するためのガイド部を有する
請求項1~3のいずれか一項に記載の肉伝導マイクロフォンシステム。
【請求項5】
前記処理部は、規定音についての肉伝導音に基づく電気信号を判定用信号として予め記憶しておき、前記伝播部を伝播する前記肉伝導音から得られた前記電気信号と前記判定用信号との比較に基づく判定結果を出力する
請求項1~4のいずれか一項に記載の肉伝導マイクロフォンシステム。
【請求項6】
前記押圧部は、前記押圧力を調整可能な調整部を有する
請求項1~5のいずれか一項に記載の肉伝導マイクロフォンシステム。
【請求項7】
肉伝導音を採取する肉伝導音採取用マイクロフォンを用いた音声採取方法であって、
押圧部を用いて、伝播部を皮膚表面に所定の押圧力で押し付けて、前記伝播部を前記皮膚表面に密着させ、
前記皮膚表面に密着させた前記伝播部に前記肉伝導音を伝播させ、
前記伝播部に接して設けられたマイクロフォンによって、前記伝播部を伝播する前記肉伝導音を電気信号に変換し、
前記マイクロフォンから出力された前記電気信号に基づいて音声を生成する、ことを備える
音声採取方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、肉伝導マイクロフォンシステム、及び、音声採取方法に関する。
【背景技術】
【0002】
周囲環境に制約されずに会話を伴うコミュニケーションを実現するツールとして、例えば、特開2008-42741号公報(以下、特許文献1)に開示されているような肉伝導マイクロフォンシステムが挙げられる。
【0003】
例えば、公共施設などの発声が制限される環境や、周囲に他人が存在する環境や、障害などによって通常音声を発声できない身体環境である場合などに、肉伝導マイクロフォンシステムを用いて非可聴音声を採取し、音声に変換することによって、会話を伴うコミュニケーションを実現することができる。非可聴音声は、声帯の規則振動を伴わない音声(無声音)であって、外部からは非可聴な体内軟部組織を伝播する振動音(呼吸音)を指す。
【0004】
このような非可聴音声を採取するため、肉伝導マイクロフォンは、一例として、人体の耳介下部に密着するよう装着される。これにより、声道で発声して体内の軟組成(骨以外の筋肉や脂肪など)を伝わる肉伝導音が採取される。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2008-42741号公報
【発明の概要】
【0006】
肉伝導マイクロフォンを装着する方法として、皮膚表面に貼る方法がある。この方法では、貼り方により採取される音質が変化する。肉伝導マイクロフォンを装着する他の方法として、肉伝導マイクロフォンを紐などで首に締め付けて装着する方法もある。しかしながら、この方法でも、締め方により採取される音質が変化する。
【0007】
そこで、本開示は、安定して再現性の高い肉伝導音を採取することができる肉伝導マイクロフォンシステム、及び、音声採取方法を提供することを目的の1つとしている。
【0008】
ある実施の形態に従うと、肉伝導マイクロフォンシステムは、肉伝導音を採取する肉伝導マイクロフォンシステムであって、皮膚表面に密着されることにより肉伝導音を伝播させる伝播部と、伝播部に接して設けられて、伝播部を伝播する肉伝導音を電気信号に変換するマイクロフォンと、マイクロフォンから出力された電気信号に基づいて音声を生成する処理を実行する処理部と、伝播部を皮膚表面に所定の押圧力で押し付けるための押圧部と、を備える。
【0009】
ある実施の形態に従うと、肉伝導での音声採取方法は、肉伝導音を採取する肉伝導音採取用マイクロフォンを用いた音声採取方法であって、押圧部を用いて、伝播部を皮膚表面に所定の押圧力で押し付けて、伝播部を皮膚表面に密着させ、皮膚表面に密着させた伝播部に肉伝導音を伝播させ、伝播部に接して設けられたマイクロフォンによって、伝播部を伝播する肉伝導音を電気信号に変換し、マイクロフォンから出力された電気信号に基づいて音声を生成する、ことを備える。
【0010】
更なる詳細は、後述の実施形態として説明される。
【図面の簡単な説明】
【0011】
図1図1は、実施の形態に係る肉伝導マイクロフォンシステムの構成の一例を表した概略図である。
図2図2は、図1の肉伝導マイクロフォンの、ユーザへの装着状態を表した概略図である。
図3図3は、図1のA部分の拡大図である。
図4図4は、図1及び図3の肉伝導マイクロフォンの、E-E断面概略図である。
図5図5は、処理装置の概略を表したブロック図である。
図6図6は、実施の形態に係る、肉伝導音採取用マイクロフォンを用いた音声採取方法の流れの一例を表したフローチャートである。
図7図7は、発明者による検証実験の条件3,4における肉伝導マイクロフォンのユーザへの装着状態を表した概略図である。
図8図8は、発明者による検証実験の条件1で得られた肉伝導音を復元して得られた可聴音の振幅及び周波数の時間変化を表した図である。
図9図9は、発明者による検証実験の条件2で得られた肉伝導音を復元して得られた可聴音の振幅及び周波数の時間変化を表した図である。
図10図10は、発明者による検証実験の条件3で得られた肉伝導音を復元して得られた可聴音の振幅及び周波数の時間変化を表した図である。
図11図11は、発明者による検証実験の条件4で得られた肉伝導音を復元して得られた可聴音の振幅及び周波数の時間変化を表した図である。
図12図12は、発明者による検証実験のための気伝導音の振幅及び周波数の時間変化を表した図である。
【発明を実施するための形態】
【0012】
<1.肉伝導マイクロフォンシステム、及び、音声採取方法の概要>
【0013】
(1)実施の形態に係る肉伝導マイクロフォンシステムは、肉伝導音を採取する肉伝導マイクロフォンシステムであって、皮膚表面に密着されることにより肉伝導音を伝播させる伝播部と、伝播部に接して設けられて、伝播部を伝播する肉伝導音を電気信号に変換するマイクロフォンと、マイクロフォンから出力された電気信号に基づいて音声を生成する処理を実行する処理部と、伝播部を皮膚表面に所定の押圧力で押し付けるための押圧部と、を備える。
【0014】
肉伝導マイクロフォンシステムが押圧部を備えていることによって、伝播部を皮膚表面に張り付けたり、手などを用いて押さえたりしなくても、伝播部は皮膚表面に所定の押圧力で押し付けられるようになる。その結果、肉伝導マイクロフォンの用い方に特別な技術を必要とせずに安定して再現性の高い肉伝導音の採取が可能になる。
【0015】
(2)好ましくは、音声を生成する処理は、音声復元用モデルに電気信号を入力値として入力して出力値を得ることを含み、音声復元用モデルは、肉伝導音に基づく電気信号を入力値として、肉伝導音に対応した可聴音を出力値として出力するよう機械学習された機械学習モデルである。これにより、肉伝導音を容易に可聴音に変換することが可能になる。
【0016】
(3)好ましくは、音声復元用モデルは、同一のユーザについての肉伝導音が変換された電気信号と、肉伝導音に対応した発声音と、を学習用データとして用いて機械学習された機械学習モデルである。発声音は、例えば、肉伝導マイクロフォンで採取された音声であってもよいし、通常のマイクロフォンで収録した気伝導音であってもよい。これにより、肉伝導音を、音声を採取したユーザ自身の発声音によって再現することが可能になる。
【0017】
(4)好ましくは、押圧部は、肉伝導音を採取する対象に対してマイクロフォンを装着するためのガイド部を有する。これにより、肉伝導音の採取に適した位置にマイクロフォンを取り付けることが可能になる。そのため、マイクロフォンの取り付けに特別な技術を必要とせずに安定して再現性の高い肉伝導音の採取が可能になる。
【0018】
(5)好ましくは、処理部は、規定音についての肉伝導音に基づく電気信号を判定用信号として予め記憶しておき、伝播部を伝播する肉伝導音から得られた電気信号と判定用信号との比較に基づく判定結果を出力する。判定用信号として、肉伝導音の採取に適した位置にマイクロフォンを取り付けた際に採取される肉伝導音に基づく電気信号を用いた場合、これらを比較することによって、肉伝導音の採取時のマイクロフォンの位置が、適切であるか否かを判定することができる。判定結果が出力されることで、マイクロフォンの位置を調整することが可能になり、その結果、再現性の高い肉伝導音の採取が可能になる。
【0019】
(6)好ましくは、押圧部は、押圧力を調整可能な調整部を有する。これにより、押圧の調整が容易になる。その結果、適した押圧力でマイクロフォンを皮膚表面に押し付けることができるようになり、再現性の高い肉伝導音の採取が可能になる。
【0020】
(7)実施の形態に係る肉伝導での音声採取方法は、肉伝導音を採取する肉伝導音採取用マイクロフォンを用いた音声採取方法であって、押圧部を用いて、伝播部を皮膚表面に所定の押圧力で押し付けて、伝播部を皮膚表面に密着させ、皮膚表面に密着させた伝播部に肉伝導音を伝播させ、伝播部に接して設けられたマイクロフォンによって、伝播部を伝播する肉伝導音を電気信号に変換し、マイクロフォンから出力された電気信号に基づいて音声を生成する、ことを備える。押圧部を用いることによって、伝播部を皮膚表面に張り付けたり、手などを用いて押さえたりしなくても、伝播部は皮膚表面に所定の押圧力で押し付けられるようになる。その結果、肉伝導マイクロフォンの用い方に特別な技術を必要とせずに安定して再現性の高い肉伝導音の採取が可能になる。
【0021】
<2.肉伝導マイクロフォンシステム、及び、音声採取方法の例>
【0022】
図1は、本実施の形態に係る肉伝導マイクロフォンシステム100の構成の一例を表した概略図である。図2は、肉伝導マイクロフォン1の、ユーザ2への装着状態を表した概略図である。図2では、上方向を向いたユーザ2を真上から見下ろした状態が表されている。
【0023】
肉伝導マイクロフォンシステム100は、肉伝導マイクロフォン1を備える。肉伝導マイクロフォン1は、ユーザ2に装着され、ユーザ2の肉伝導音を採取するために用いられる。肉伝導音とは、発声により誘発される皮膚や肉の振動から得られる音声を指す。一例として、肉伝導マイクロフォン1は、ユーザ2の喉周辺の皮膚や肉の振動を検出し、その振動を電気信号に変換する。
【0024】
肉伝導マイクロフォンシステム100は、押圧部3を備える。押圧部3は、肉伝導マイクロフォン1をユーザ2の皮膚表面に所定の圧力で押し付ける。好ましくは、押圧部3は、肉伝導マイクロフォン1をユーザ2の耳介201の後方の位置202に押し付ける。これにより、肉伝導マイクロフォン1がユーザの喉周辺の皮膚や肉の振動を検出しやすくなり、音声が得られやすくなる。
【0025】
押圧部3は、ガイド部31を有する。ガイド部31は、一部の欠けた円形状であって、ユーザの首周りに回されるベルト状の部材である。図1及び図2の例では、ガイド部31は、半円形である。
【0026】
ガイド部31の直径は、両肉伝導マイクロフォン1の当接面1Aの間の距離L1が、装着したユーザ2の左右の位置202の間の距離L2よりも小さくなる大きさである。距離L2は、肉伝導マイクロフォン1を用いて肉伝導音を採取する対象と想定されるさまざまなユーザのうち最もサイズの小さいユーザの左右の位置202の間の距離が想定される。
【0027】
押圧部3は、少なくともガイド部31が可撓性を有する素材で成形されている。可撓性を有する素材としては、例えば、樹脂材料などが用いられる。樹脂材料は、例えば、ポリ塩化ビニル、ポリエチレン、ポリプロピレン、ABS樹脂、AES樹脂、ポリカーボネート、変性ポリフェニレンエーテル、ポリエチレンテレフタレート、ポリブチレンテレフタレート、ナイロンの群より選ばれる少なくとも1以上の材料が挙げられる。これにより、円弧状のガイド部31の成形が容易となるとともに、可撓性によって後述するような所定の押圧力が得られる。
【0028】
ガイド部31の両端には、それぞれ、調整部32が設けられ、両調整部32には、それぞれ、肉伝導マイクロフォン1が取り付けられている。両肉伝導マイクロフォン1は、いずれも、皮膚表面に密着させる側の面である当接面1Aがガイド部31の円弧の中心側に向くように、調整部32に取り付けられている。これにより、後述するようにユーザに取り付けられたときに、肉伝導マイクロフォン1がユーザの皮膚表面に所定の圧力で押し付けられるようになる。
【0029】
図2を参照して、肉伝導マイクロフォン1は、ガイド部31の円弧の頂点31Aの内側がユーザ2の首200Bの真後ろの位置203に当たるように押圧部3をユーザ2の首200Bの周りに回し、肉伝導マイクロフォン1をユーザ2の頭部200Aの左右に向けて装着される。これにより、肉伝導マイクロフォン1は、ユーザ2の左右の耳介201の後方の位置202付近に位置するようになり、適切な位置にガイドされる。
【0030】
距離L1が距離L2よりも小さいため、図2に示されたようにユーザ2が肉伝導マイクロフォン1を首200Bの周りに装着すると、押圧部3の可撓性によってガイド部31がやや開く。このため、ガイド部31から延伸した調整部32には、内側に向かう力Fが生じる。それにより、押圧部3は、位置202において、肉伝導マイクロフォン1をユーザ2の皮膚表面に所定の押圧力である力Fで押し付けるようになる。
【0031】
調整部32は、肉伝導マイクロフォン1をユーザ2の皮膚表面に押し付ける押圧力を調整可能である。一例として、調整部32は、肉伝導マイクロフォン1を矢印B方向に移動可能に取り付けることによって、押圧力を調整可能とする。矢印Bは、ガイド部31の両端から調整部32が向く方向であって、一例として、円形状のガイド部31の両端における接線方向である。
【0032】
図3は、図1のA部分の拡大図であって、調整部32の一例を表す概略図である。図3では、図1の矢印Cの向きで見た調整部32が示されている。図1及び図3を参照して、調整部32は、肉伝導マイクロフォン1に取り付けられた取付部材21を有する。取付部材21に対して、肉伝導マイクロフォン1は、相対的な位置を固定して取り付けられている。一例として、肉伝導マイクロフォン1は、取付部材21に対して接着剤などで貼り付けられている。
【0033】
取付部材21の、肉伝導マイクロフォン1が取り付けられている位置とは異なる位置には、固定用孔21Aが設けられている。固定用孔21Aは、後述する、棒状の固定部材23を挿通可能な孔である。
【0034】
調整部32は、取付部材21を取り付けるスライド部22を有する。スライド部22は、ガイド部31の先端から延伸する部分である。スライド部22には、スライド用孔22Aが設けられている。スライド用孔22Aは、長手方向が延伸方向に一致した長さWを有する長孔である。スライド用孔22Aは、後述する固定部材23を挿通可能な孔である。
【0035】
調整部32は、棒状の固定部材23を有する。固定部材23は、固定用孔21A及びスライド用孔22Aに挿通されことで、スライド部22に対して取付部材21を固定可能な部材である。固定部材23は、一例としてボルトである。
【0036】
取付部材21は、スライド用孔22Aの長手方向に沿って位置が可変である。つまり、取付部材21は、長手方向に長さWの範囲で位置が可変である。取付部材21を長さWの範囲内の任意の位置において固定部材23によって固定することにより、取付部材21のスライド部22に対する長手方向の位置が調整可能となる。
【0037】
図1図2の例ではガイド部31が半円形状であるため、両調整部32は、平行である。この場合、肉伝導マイクロフォン1が図2のようにユーザ2に装着されると、矢印B方向は、ユーザ2の前後方向Dと一致する。つまり、この場合、調整部32は、肉伝導マイクロフォン1の位置をユーザ2の前後方向Dに調整可能である。
【0038】
肉伝導マイクロフォン1の位置が調整されることによって、肉伝導音を採取に適したユーザ2の位置202に肉伝導マイクロフォン1を配置することが可能であるとともに、位置202、又は、位置202近傍において肉伝導マイクロフォン1のユーザ2への角度を調整することが可能になる。その結果、ガイド部31の可撓性によって生じる力の、肉伝導マイクロフォン1がユーザ2の皮膚表面に押し付けられる角度に作用する力F、つまり、肉伝導マイクロフォン1をユーザ2の皮膚表面に押し付ける押圧力を調整可能となる。
【0039】
図4は、肉伝導マイクロフォン1の、図1及び図3のE-E断面概略図である。図4を参照して、肉伝導マイクロフォン1は、伝播部11を有する。伝播部11は、ユーザ2の皮膚表面に密着されることにより、ユーザ2の肉伝導音を伝播させる。
【0040】
伝播部11は、外郭であるケース10の内部であって、当接面1A側の面11Aが当接面1Aとなるケース10の面10Aに接するように配置される。これにより、肉伝導マイクロフォン1がユーザ2の皮膚表面に押し付けられたときに、伝播部11の面11Aがユーザ2の皮膚表面に密着するようになる。
【0041】
好ましくは、伝播部11は、図4に示されたように、面11Aが面10Aより外側に位置し、凸形状となるようにケース10に配置される。これにより、肉伝導マイクロフォン1がユーザ2の皮膚表面に押し付けられたときに、伝播部11の面11Aがユーザ2の皮膚表面により密着するようになる。
【0042】
肉伝導マイクロフォン1は、マイクロフォン12を有する。マイクロフォン12は、伝播部11に接して設けられて、伝播部11を伝播する肉伝導音を電気信号に変換する。マイクロフォン12には通信線13が接続されており、変換された電気信号は、通信線13を介して送出される。
【0043】
肉伝導マイクロフォンシステム100は、処理装置5を備える。処理装置5は、一般的なコンピュータで構成される専用の装置であってもよいし、スマートフォンなどの端末装置に搭載されるものであってもよい。
【0044】
処理装置5は、肉伝導マイクロフォン1と通信線13で接続されて通信可能であって、肉伝導マイクロフォン1から電気信号を受信する。処理装置5は、肉伝導マイクロフォン1からの電気信号に基づいて音声を生成する処理を実行する。処理装置5と肉伝導マイクロフォン1との通信は、図1に示されたように有線での通信であってもよいし、無線での通信であってもよい。
【0045】
図5は、処理装置5の概略を表したブロック図である。処理装置5は、プロセッサ51と、メモリ52と、を有する一般的なコンピュータなどで構成される。プロセッサ51は、例えば、CPU(Central Processing Unit)である。
【0046】
メモリ52は、一次記憶装置であってもよいし、二次記憶装置であってもよい。メモリ52は、プロセッサ51によって実行されるプログラム521を記憶している。プロセッサ51は、メモリ52に記憶されているプログラム521を実行することで演算処理を実行する。
【0047】
処理装置5は、通信装置53を含む。通信装置53は、一例として、通信モジュールである。通信装置53は、通信線13を介してマイクロフォン12と通信する。通信装置53は、マイクロフォン12と通信することによって、マイクロフォン12から出力された電気信号を受信する。通信装置53は、受信した電気信号をプロセッサ51に入力する。
【0048】
処理装置5は、可聴音に基づく情報を出力する出力装置の一例であるスピーカ55に接続されている。この場合、出力装置からは可聴音そのものが出力される。出力装置は、他の例として、ディスプレイであってもよい。この場合、出力装置からは、可聴音を文字に変換されて出力される。
【0049】
プロセッサ51の実行する演算処理は、生成処理511を含む。生成処理511は、マイクロフォン12から出力された電気信号に基づいて音声を生成することを含む。音声を生成することは、一例として、音声復元用モデル512に電気信号を入力値として入力して出力値を得ることを含む。これにより、プロセッサ51は、音声復元用モデル512からの出力値として音声を得ることができる。
【0050】
音声復元用モデル512は、肉伝導音に基づく電気信号を入力値として、肉伝導音に対応した可聴音を出力値として出力するよう機械学習された機械学習モデルである。これにより、マイクロフォン12で採取された肉伝導音に対応した可聴音が、音声復元用モデル512からの出力値として得られる。すなわち、プロセッサ51は、肉伝導音からの音声の復元を、音声復元用モデル512を用いて容易に行うことができる。
【0051】
好ましくは、音声復元用モデル512は、同一のユーザについての肉伝導音が変換された電気信号を入力値とし、肉伝導音に対応した発声音を出力値として出力するよう機械学習された機械学習モデルである。これにより、マイクロフォン12でユーザから採取された肉伝導音に対応したユーザの発声音が、音声復元用モデル512からの出力値として得られる。肉伝導音に対応した発声音は、いわゆるクリーン音声であって、例えば、通常のマイクロフォンを用いて、空気伝導にて採取(録音)された可聴音であってもよいし、マイクロフォン12において採取された肉伝導音のうちの音質のよいであってもよい。
【0052】
出力値が同一のユーザについての発声音である音声復元用モデル512を用いることによって、ユーザ2から採取された肉伝導音が、ユーザ2のクリーン音声によって再現されるようになり、よりリアルな再現性が実現される。
【0053】
プロセッサ51の実行する演算処理は、出力処理515を含む。出力処理515は、生成処理511によって得られた可聴音に基づく情報を出力装置で出力させることを含む。具体的には、出力処理515は、生成処理511によって得られた可聴音を、スピーカ55から出力させることを含む。これにより、マイクロフォン12で採取された肉伝導音に対応した可聴音がスピーカ55から出力される。そのため、ユーザ2の肉伝導音が可聴音に復元され、スピーカ55を用いて聞くことができる。
【0054】
好ましくは、プロセッサ51の実行する演算処理は、判定処理513を含む。判定処理513は、マイクロフォン12から出力された電気信号と、判定用信号514との比較に基づく判定結果を出力することを含む。判定用信号514は、規定音についての肉伝導音に基づく電気信号であって、プロセッサ51に予め記憶されている。
【0055】
判定用信号514は、肉伝導マイクロフォン1を理想的な押圧力でユーザ2の皮膚表面に押し付けた際にマイクロフォン12によって採取される肉伝導音から得られる電気信号である。具体的には、判定用の単語(例えば「テスト」など)が予め規定されており、肉伝導マイクロフォン1を理想的な押圧力でユーザ2の皮膚表面に押し付けた状態でユーザ2が判定用の単語を発したときにマイクロフォン12によって採取された肉伝導音から得られる電気信号が、判定用信号514として記憶されている。
【0056】
ユーザ2が発した判定用の単語の肉伝導音をマイクロフォン12によって採取し、得られた電気信号を判定用信号514と比較して得られた判定結果は、肉伝導音を採取時の肉伝導マイクロフォン1の皮膚表面への押圧力が理想的な押圧力と一致しているか否か、又は、理想的な押圧力と比較して許容範囲にあるか否か、を表すものである。従って、判定処理513の結果が出力されることにより、必要に応じて調整部32によって押圧力を調整することができる。その結果、肉伝導マイクロフォン1の皮膚表面への押圧力を理想的な押圧力とすることができ、可聴音への復元精度を向上させることができる。
【0057】
プロセッサ51が複数の音声復元用モデル512を有している場合、好ましくは、判定処理513は、ユーザ2に適した音声復元用モデル512を判定することを含んでもよい。複数の音声復元用モデル512は、例えば、出力値とする発声音がユーザごとの発声音であったり、環境ごとの発声音であったりしてよい。
【0058】
この場合、判定用信号514は、一例として、音声復元用モデル512ごとに用意されている。判定処理513においてプロセッサ51は、ユーザ2が発した判定用の単語の肉伝導音をマイクロフォン12によって採取し、得られた電気信号を複数の判定用信号514それぞれと比較することによって、用いる音声復元用モデル512を判定する。これにより、例えば、マイクロフォン12によって採取された肉伝導音が、ユーザ2に応じた発声音で復元されたり、ユーザ2の環境に応じた発声音で復元されたりするようになる。
【0059】
好ましくは、プロセッサ51の実行する演算処理は、学習処理516を含む。学習処理516は、音声復元用モデル512の学習を行うことを含む。学習処理516でプロセッサ51は、同一のユーザについての、マイクロフォン12において採取された肉伝導音が変換された電気信号と、その肉伝導音に対応した発声音と、を学習データとして用いる。
【0060】
プロセッサ51は、肉伝導音に対応した発声音の入力を他の装置から受け付けてもよい。また、図5に示されたように、処理装置5が、音声を空気伝導で採取するマイクロフォン56に接続されて、マイクロフォン56からの入力を肉伝導音に対応した発声音としてもよい。
【0061】
プロセッサ51によって学習処理516が行われることによって、ユーザ2による肉伝導音と発声音との組み合せで音声復元用モデル512の学習が行われるようになる。音声復元用モデル512がユーザ2による肉伝導音と発声音との組み合せで予め機械学習されている機械学習モデルである場合、プロセッサ51によって学習処理516が行われることによって、音声復元用モデル512による復元精度をより向上させることができる。
【0062】
音声復元用モデル512がユーザ2による肉伝導音と発声音との組み合せで予め機械学習されている機械学習モデルでなかった場合、プロセッサ51によって学習処理516が行われることによって、ユーザ2が肉伝導マイクロフォンシステム100を使い続けるうちに、音声復元用モデル512がユーザ2による肉伝導音を入力値としてユーザ2による発声音を出力値とする機械学習モデルに更新される。その結果、肉伝導音がユーザ2の発声によって再現されるようになり、よりリアルな再現性が実現される。
【0063】
図6は、本実施の形態に係る、肉伝導音採取用マイクロフォンを用いた音声採取方法の流れの一例を表したフローチャートである。図6を参照して、初めに、押圧部3を用いて、肉伝導マイクロフォン1の伝播部11をユーザ2の位置202の皮膚表面に所定の押圧力で押し付けて、伝播部11を皮膚表面に密着させる(ステップS100)。皮膚表面に密着させた伝播部11に肉伝導音を伝播させることによって、ユーザ2によって発声された判定用の単語の肉伝導音をマイクロフォン12にて採取する(ステップS101)。採取された肉伝導音は、マイクロフォン12によって電気信号に変換される(ステップS103)。
【0064】
得られた電気信号は、予め記憶されている判定用信号514と比較され、判定結果が出力される(ステップS105,S107)。一例として、得られた電気信号に基づく値が、判定用信号514に基づく値から予め規定された許容範囲にあるか否かが判定される。
【0065】
比較の結果、許容範囲になかった場合(ステップS105でNO)、エラー出力などによってその結果が報知される(ステップS107)。これにより、肉伝導マイクロフォン1のユーザ2の皮膚表面への押圧力を調整することができる。
【0066】
好ましくは、音声採取方法では、得られた電気信号に基づく値が許容範囲となるまで、ステップS101~S107が繰り返される。その結果、肉伝導マイクロフォン1のユーザ2の皮膚表面への押圧力を、理想的な押圧力とすることができる。
【0067】
得られた電気信号に基づく値が許容範囲である場合(ステップS105でYES)、マイクロフォン12によってユーザ2の肉伝導音が採取され(ステップS109)、電気信号に変換される(ステップS111)。得られた電気信号は、音声復元用モデル512に入力値として入力されることによって、その出力値として対応する可聴音が取得される(ステップS113)。これにより、肉伝導音に対応した音声が生成される。生成された音声は、可聴音としてスピーカ55から出力される(ステップS115)。
【0068】
発明者は、実施の形態に係る音声採取方法で得られた肉伝導音の再現性を評価するための検証実験を行った。検証実験には、図1,3,4,5に表された肉伝導マイクロフォンシステム100を用いた。
【0069】
肉伝導音の再現性の評価は、同じ発声について、肉伝導マイクロフォンシステム100で採取された肉伝導音を復元して得られた可聴音と、気伝導マイクロフォンで録音された気伝導音と、を比較することで行った。気伝導音に近いほど、可聴音の再現性が高い、すなわち、再現性の高い肉伝導音が採取される、と言える。
【0070】
検証実験において、下の条件1~4で肉伝導を採取した。各条件において、肉伝導音の復元には、同一の音声復元用モデル512が用いられた。比較する値は、振幅及び周波数の時間変化とした。肉伝導音から得られた可聴音は、同一のスピーカ55から出力され、同一のマイクで収集した。
条件1:位置202に肉伝導マイクロフォン1を装着し、肉伝導マイクロフォン1の位置202への接触を維持する押圧力F1で皮膚表面に押し付け
条件2:位置202に肉伝導マイクロフォン1を装着し、押圧部3による押圧力F2で皮膚表面に押し付け
条件3:位置202と異なる位置205に片側のみ接触するように肉伝導マイクロフォン1を装着し、肉伝導マイクロフォン1の位置205への接触を維持する押圧力F1で皮膚表面に押し付け
条件4:位置202と異なる位置205に片側のみ接触するように肉伝導マイクロフォン1を装着し、押圧部3による押圧力F2で皮膚表面に押し付け
【0071】
図7は、条件3,4における肉伝導マイクロフォン1の、ユーザ2への装着状態を表した概略図である。条件3,4の場合、ガイド部31の円弧の頂点31Aをユーザ2の首200Bの真後ろの位置203より後方に大きくずらして首200Bの周りにガイド部31を装着する。その結果、肉伝導マイクロフォン1は、位置202より後方の位置205に位置する。これにより、頂点31Aを位置203に当たるように装着した場合よりもガイド部31に広がりが小さくなる。そのため、頂点31Aを位置203に当たるように装着した場合よりも肉伝導マイクロフォン1を皮膚表面に押し付ける押圧力が小さい。
【0072】
また、条件3,4では、左右両側に設けられた肉伝導マイクロフォン1の一方を位置205に接触させ、他方はほぼ接触させない状態とした。この状態でも、皮膚表面に接触した側の肉伝導マイクロフォン1によって肉伝導音の採取は可能である。
【0073】
図8図11は、それぞれ、条件1~4で得られた肉伝導音を復元して得られた可聴音の振幅及び周波数の時間変化を表している。図12は、気伝導音の振幅及び周波数の時間変化を表している。図8,9と図1,11とを比較すると、条件1,2の方が、振幅及び周波数のいずれも、条件3,4よりも大きく現れており、図12の振幅及び周波数に近いことがわかった。これより、位置205よりも位置202に肉伝導マイクロフォン1を接触させた方が、再現性が高いことがわかった。
【0074】
図8図9それぞれと図12とを比較すると、条件1の場合も再現率がある程度あると言えるものの、条件2の方が、再現性がより高いことがわかった。一方、図10図11それぞれと図12とを比較すると、条件3では再現性が極めて低く、条件4では、条件3よりも再現性は高くなるものの、条件1よりも再現性が低いことがわかった。
【0075】
以上の結果より、肉伝導マイクロフォン1は、肉伝導の採取に適した位置である位置202の皮膚表面に接触させた方が再現性の高い肉伝導音が採取されることが検証された。また、肉伝導マイクロフォン1は、適正な押圧力F2で皮膚表面に押圧された方が、より再現性の高い肉伝導音が採取されることが検証された。なお、肉伝導マイクロフォン1を接触させる位置が適切ではないものの、一方の肉伝導マイクロフォン1のみ用いても再現可能な肉伝導音が採取され得ることが検証された。
【0076】
実施の形態に係る肉伝導マイクロフォンシステム100では、押圧部3を用いて肉伝導マイクロフォン1をユーザ2に装着する構成であるため、ユーザ2が適切に首200Bの周りに装着すると、位置202に肉伝導マイクロフォン1が接触し、押圧部3によって適切な押圧力にて皮膚表面に押し付けられる。そのため、肉伝導マイクロフォンシステム100では、誰が用いても条件2のような状態で肉伝導音を採取可能となり、安定して復元性の高い肉伝導音が採取されることが検証された。
【0077】
<3.付記>
本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。
【符号の説明】
【0078】
1 :肉伝導マイクロフォン
1A :当接面
2 :ユーザ
3 :押圧部
5 :処理装置
10 :ケース
10A :面
11 :伝播部
11A :面
12 :マイクロフォン
13 :通信線
21 :取付部材
21A :固定用孔
22 :スライド部
22A :スライド用孔
23 :固定部材
31 :ガイド部
31A :頂点
32 :調整部
51 :プロセッサ
52 :メモリ
53 :通信装置
55 :スピーカ
56 :マイクロフォン
100 :肉伝導マイクロフォンシステム
200 :ユーザ
200A :頭部
200B :首
201 :耳介
511 :生成処理
512 :音声復元用モデル
513 :判定処理
514 :判定用信号
515 :出力処理
516 :学習処理
521 :プログラム
B :矢印
C :矢印
D :方向
F :力
F1 :押圧力
F2 :押圧力
L1 :距離
L2 :距離
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12