(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022189155
(43)【公開日】2022-12-22
(54)【発明の名称】音声処理装置、及びプログラム
(51)【国際特許分類】
G10L 21/007 20130101AFI20221215BHJP
【FI】
G10L21/007
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021097564
(22)【出願日】2021-06-10
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和3年2月24日に日本音響学会春季講演論文集,2-2Q-7,pp.1089-1092(2021)にて発表 [刊行物等] 令和3年3月1日に下記アドレス https://acoustics.jp/news/2021%E5%B9%B4%E6%98%A5%E5%AD%A3%E7%A0%94%E7%A9%B6%E7%99%BA%E8%A1%A8%E4%BC%9A%E3%81%AE%E8%AC%9B%E6%BC%94%E8%A6%81%E6%97%A8%E3%82%92%E5%85%AC%E9%96%8B%E3%81%97%E3%81%BE%E3%81%97%E3%81%9F/ でダウンロードされた日本音響学会2021年春季研究発表会講演要旨の第91頁にて発表 [刊行物等] 令和3年3月11日に日本音響学会2021年春季研究発表会にて発表
(71)【出願人】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100122275
【弁理士】
【氏名又は名称】竹居 信利
(74)【代理人】
【識別番号】100102716
【弁理士】
【氏名又は名称】在原 元司
(72)【発明者】
【氏名】峯松 信明
(72)【発明者】
【氏名】陳 瑞彦
(72)【発明者】
【氏名】西村 多寿子
(72)【発明者】
【氏名】齋藤 大輔
(57)【要約】 (修正有)
【課題】再現性を向上した自己聴取音を出力できる音声処理装置及びプログラムを提供する。
【解決手段】音声処理装置は、利用者の発声する音声のうち、利用者自身の身体の振動を介して伝達する音である骨導音の情報を、身体の少なくとも一つの箇所で取得するとともに、空中を伝播した、利用者の発声する音声である気導音の音声の情報を取得し、取得した骨導音に基づき、利用者自身が聴取する、利用者の発声する音声である自己聴取音から、気導音を除いた体内音を推定する。また当該推定された体内音と、気導音とを合成し、自己聴取音を推定する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
利用者の発声する音声のうち、利用者自身の身体の振動を介して伝達する音である骨導音の情報を、身体の少なくとも一つの箇所で取得する骨導音取得手段と、
空中を伝播した、前記利用者の発声する音声である気導音の音声の情報を取得する気導音取得手段と、
前記取得した骨導音に基づき、利用者自身が聴取する、利用者の発声する音声である自己聴取音から気導音を除いた体内音を推定する体内音推定手段と、
前記推定された体内音と、前記気導音とを合成し、自己聴取音を推定する自己聴取音推定手段と、
を有し、
前記推定された自己聴取音が、所定の処理に供される音声処理装置。
【請求項2】
請求項1に記載の音声処理装置であって、
前記骨導音取得手段が、身体の複数の箇所で骨導音を取得する音声処理装置。
【請求項3】
請求項2に記載の音声処理装置であって、
前記骨導音取得手段は、外耳の位置と、喉の位置とでそれぞれ骨導音とを取得し、
前記体内音推定手段は、当該外耳の位置と喉の位置とでそれぞれ取得した骨導音に基づき、体内音を推定する音声処理装置。
【請求項4】
請求項3に記載の音声処理装置であって、
前記体内音推定手段は、前記取得した気導音と、外耳の位置で取得した骨導音と、喉の位置で取得した骨導音とのそれぞれに対応して設定されたフィルタを適用して合成し、体内音の推定結果を得る音声処理装置。
【請求項5】
コンピュータを、
利用者の発声する音声のうち、利用者自身の身体の振動を介して伝達する音である骨導音の情報を、身体の少なくとも一つの箇所で取得する骨導音取得手段と、
空中を伝播した、前記利用者の発声する音声である気導音の音声の情報を取得する気導音取得手段と、
前記取得した骨導音に基づき、利用者自身が聴取する、利用者の発声する音声である自己聴取音から気導音を除いた体内音を推定する体内音推定手段と、
前記推定された体内音と、前記気導音とを合成し、自己聴取音を推定する自己聴取音推定手段と、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発声された音声を処理する音声処理装置に関する。
【背景技術】
【0002】
人が発声している間に当該発声している当人が聴取する音声(以下、自己聴取音と呼ぶ)と、当該発声した音声を録音等して再生した音声とが互いに異なって聞こえることは広く知られている。
【0003】
これは録音等により記録される音声が、発声された音声を空気の振動を介して取得した音声(気導音)のみで構成されるのに対し、自己聴取音は、発声した人の身体(皮膚や骨、その他の組織)を通じて耳に到達する振動(骨導音)と気導音との合成音となるからである。
【0004】
従来、種々の目的で自己聴取音を再現するために、さまざまな研究が行われている。例えば被験者の外耳道付近の骨導音を取得可能な骨伝導マイクを用いて、気導音と骨導音とを一斉に取得し、これらを重みづけ合成して自己聴取音を模倣しようとする研究がある(非特許文献1)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】森幹男ほか、自己聴取音に占める気導音と骨導音の割合の推定,電気通信学会論文誌C,127(8),1268-1269,2007年
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記従来の研究による技術では、自己聴取音が十分再現できていないのが現状である。
【0007】
本発明は上記実情に鑑みて為されたもので、再現性を向上した自己聴取音を出力できる音声処理装置及びプログラムを提供することを、その目的の一つとする。
【課題を解決するための手段】
【0008】
上記従来例の問題点を解決するための本発明の一態様は、音声処理装置であって、利用者の発声する音声のうち、利用者自身の身体の振動を介して伝達する音である骨導音の情報を、身体の少なくとも一つの箇所で取得する骨導音取得手段と、空中を伝播した、前記利用者の発声する音声である気導音の音声の情報を取得する気導音取得手段と、前記取得した骨導音に基づき、利用者自身が聴取する、利用者の発声する音声である自己聴取音から気導音を除いた体内音を推定する体内音推定手段と、前記推定された体内音と、前記気導音とを合成し、自己聴取音を推定する自己聴取音推定手段と、を有し、前記推定された自己聴取音が、所定の処理に供されることとしたものである。
【発明の効果】
【0009】
本発明によると、身体内で複雑な経路を経て発声者の耳に到来する体内音を推定し、この体内音を用いて自己聴取音を推定することで、再現性を向上した自己聴取音の出力を可能としている。
【図面の簡単な説明】
【0010】
【
図1】本発明の実施の形態に係る音声処理装置の構成例を表すブロック図である。
【
図2】本発明の実施の形態に係る音声処理装置の例を表す機能ブロック図である。
【
図3】本発明の実施の形態に係る音声処理装置の動作例を表す流れ図である。
【発明を実施するための形態】
【0011】
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態の音声処理装置1では、従来の研究において考慮されていない次の点について考慮して音声の処理を行う。
【0012】
すなわち、自己聴取音に含まれる気導音以外の音声(体内音)には、口腔から身体を経由して到来する振動として、
(1)外耳道内放射、
(2)中耳耳小骨の慣性骨導、
(3)内耳リンパ液の慣性骨導、
(4)内耳リンパ液の圧縮骨導、
(5)脳髄液の圧力伝達、
など、複数の伝達経路を介した振動を聴取した音声が含まれる。従って、被験者の外耳道付近の骨導音を利用するだけでなく、他の伝達経路を考慮した音声処理を行うこととする。
【0013】
このような考慮を行った本発明の実施の形態に係る音声処理装置1は、
図1に例示するように、制御部11、記憶部12、操作部13、表示部14、及びインタフェース部15を含んだ一般的なコンピュータ装置により実現できる。またこの音声処理装置1は、マイク21と、少なくとも一つの骨伝導マイク22a,22b…(以下、それぞれを特に区別する必要のないときには、骨伝導マイク22と表記する)とに、インタフェース部15を介して接続されている。
【0014】
制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態ではこの制御部11は、自己の発声する音声のうち、自身の身体の振動を介して伝達する音である骨導音の情報(骨導音を表すデジタルデータ)を、身体の少なくとも一つの箇所で取得する骨伝導マイク22a,22b…から、当該取得した骨導音の情報の入力をそれぞれ受け入れる。また制御部11は、当該受け入れた骨導音の情報に基づき、自己が聴取する自己の発声する音声である自己聴取音から、気導音を除いたものとして規定される体内音を推定する。ここで気導音は、自己の発声する音声のうち、空中を伝播して空気の振動を介して聴取される音をいうものとする。そして制御部11は、当該推定された体内音を用い、例えば当該体内音と別途取得した気導音とを合成することで自己聴取音を推定する処理を行い、当該推定した自己聴取音を、所定の処理に供する。この制御部11の動作については後に詳しく述べる。
【0015】
記憶部12は、メモリデバイス等であり、制御部11によって実行されるプログラムを保持する。このプログラムは、コンピュータ可読かつ非一時的な記録媒体に格納されて提供され、この記憶部12にインストールされたものでよい。またこの記憶部12は、制御部11のワークメモリとしても動作する。
【0016】
操作部13は、マウスやキーボード等であり、利用者の操作を受け入れて、当該操作の内容を表す情報を、制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って情報を表示する。
【0017】
インタフェース部15は、USBインタフェースやブルートゥース(登録商標)インタフェース等を含み、マイク21や、骨伝導マイク22から入力される音声の情報を、制御部11に出力する。
【0018】
マイク21は、利用者の発声する音声を、利用者の身体に触れない位置で集音し、当該音声をデジタル化した音声の情報を出力する。つまり、このマイク21が集音する音声の情報は、利用者の発声する音声が空中を伝播してこのマイク21まで到来した音声の情報であり、気導音に相当する。
【0019】
骨伝導マイク22は、利用者が発声し、当該利用者の身体を媒体として伝導した振動を、利用者の身体に触れる位置で検出し、当該振動をデジタル化した振動情報を、骨導音の情報として出力する。本実施の形態の一例では、2つの骨伝導マイク22a,22bを用いるものとする。
【0020】
また骨伝導マイク22bは、利用者の喉に装着する。つまり、骨伝導マイク22aにより利用者の外耳に伝達された振動を検出し、骨伝導マイク22bにより利用者の喉に伝達された振動を検出する。各骨伝導マイク22a,bは、検出した振動を表す骨導音の情報を、インタフェース部15を介して制御部11に出力する。
【0021】
また本実施の形態では、推定された体内音等の確認のため、気導音を遮断して当該音声を聴取させるべく、ノイズキャンセル・イヤーマフ30を利用する。このノイズキャンセル・イヤーマフ30の内部には、ブルートゥース(登録商標)等、無線にて音声処理装置1に接続され、音声処理装置1から入力される指示に従って音声を鳴動するスピーカー31が配される。また、ノイズキャンセル・イヤーマフ30の内側には吸音材が配されており、反射波(定常波)の発生が抑制される。つまり、スピーカー31により提示される音声に対して、不要な音響効果が抑制される。
【0022】
次に本実施の形態の音声処理装置1の制御部11の動作について説明する。本実施の形態の一例では、この制御部11は、記憶部12に格納されたプログラムを実行することで、
図2に例示するように、骨導音取得部51と、気導音取得部52と、体内音推定部53と、自己聴取音推定部54と、音声鳴動部55とを含んで構成される。
【0023】
また本実施の形態の一例では、体内音推定部53は、気導音入力部531と、気導音フィルタ部532と、骨伝導マイク22a,b…のそれぞれに対応して設けられる骨導音処理部533a,533b…と、体内音合成部534とを含む。ここで骨導音処理部533a,b…は、それぞれ、骨導音入力部5331と、骨導音フィルタ部5332とを含んで構成される。
【0024】
骨導音取得部51は、インタフェース部15を介して各骨伝導マイク22a,b…から入力される骨導音の情報を、それぞれ対応する骨導音処理部533a,b…に出力する。
【0025】
気導音取得部52は、インタフェース部15を介してマイク21から入力される音声の情報を、気導音入力部531に出力する。
【0026】
体内音推定部53は、骨導音取得部51と気導音取得部52とから入力される骨導音及び音声の情報を用いて、自己が聴取する自己の発声する音声である自己聴取音から、当該自己の発声する音声のうち空気の振動を介して聴取される音である気導音を除いた体内音を推定する。
【0027】
具体的にこの体内音推定部53の気導音入力部531は、気導音取得部52から入力される音声の情報を、気導音フィルタ部532と、自己聴取音推定部54とに出力する。
【0028】
気導音フィルタ部532は、気導音入力部531から入力される気導音の音声の情報に対して、所定のフィルタ関数Ha(ω)(ωは角周波数)に係るフィルタ演算を行ってフィルタを適用し、フィルタ処理後の音声の情報Saを得て体内音合成部534に出力する。このフィルタ関数Ha(ω)については後述する。
【0029】
各骨導音処理部533(それぞれを区別しない場合は骨導音処理部533と表記する)の骨導音入力部5331は、骨導音取得部51から入力される、対応する骨伝導マイク22にて検出された骨導音の情報を、骨導音フィルタ部5332に出力する。
【0030】
骨導音フィルタ部5332は、骨導音入力部5331から入力される骨導音の情報に対して、所定のフィルタ関数Hb_i(ω)(i=1,2…)のそれぞれに係るフィルタ演算を行って、それぞれにフィルタを適用し、各フィルタ処理後の音声の情報Sb_iを得て体内音合成部534に出力する。ここでのフィルタ関数Hb_i(ω)についても後述する。
【0031】
体内音合成部534は、気導音フィルタ部532から入力されるフィルタ処理後の気導音の音声の情報Saと、各骨導音処理部533から入力される、フィルタ処理後の骨導音の情報Sb_i(i=1,2…)とを、重みづけ合成する。
【0032】
具体的に、ここでは骨導音処理部533aは、骨伝導マイク22aから入力される外耳の骨導音に対してフィルタ演算を行った骨導音の情報Sb_1を出力し、骨導音処理部533bは、骨伝導マイク22bから入力される喉の骨導音に対してフィルタ演算を行った骨導音の情報Sb_2を出力する。そして体内音合成部534は、気導音フィルタ部532から入力されるフィルタ処理後の気導音の音声の情報Saに対して重みαを乗じ、骨導音処理部533aから入力されるフィルタ処理後の骨導音の情報Sb_1に対して重みβ1を乗じ、骨導音処理部533bから入力されるフィルタ処理後の骨導音の情報Sb_2に対して重みβ2=1-α-β1を乗じて、これらを相加した音声の情報を得て、推定された体内音の情報として出力する。つまり、ここでは重みの総計が「1」となるようにしている。
【0033】
本実施の形態の例では、この体内音合成部534の出力が、体内音に近似したものとなるよう、フィルタ関数Ha(ω),Hb_i(ω)(i=1,2,…)及び、重みα,βi(i=1,2,…、またα+β1+β2+…=1とする)を調整しておくものとする。
【0034】
自己聴取音推定部54は、自己聴取音合成部541を有し、この自己聴取音合成部541により、気導音入力部531が出力する気導音の情報と、体内音合成部534が出力する音声の情報とをそれぞれ重みγ,1-γを乗じて相加し、自己聴取音の推定結果として出力する。
【0035】
音声鳴動部55は、体内音推定部53が推定した体内音の音声の情報、または、自己聴取音推定部54により推定された自己聴取音の音声の情報のうち、いずれか利用者が選択した音声の情報に基づきスピーカー31等のスピーカーを鳴動制御して、推定された体内音または自己聴取音を、スピーカー31等のスピーカーに鳴動させる。なお、後に説明するように、利用者が発声した音声に基づいてリアルタイムに推定した体内音を鳴動させる際や、利用者が音声を発声した直後に推定した体内音を鳴動させる際には、利用者に、ノイズキャンセル・イヤーマフ30を装着してもらうこととする。もっとも、推定した体内音を後で利用者に(別のスピーカー等で鳴動して)聴取させる場合や、推定した自己聴取音を出力する際には、ノイズキャンセル・イヤーマフ30の装着は必ずしも必要ではない。
【0036】
[フィルタ関数及び重みの設定]
本実施の形態の一例では、フィルタ関数Ha(ω),Hb_i(ω)(i=1,2,…)は、その特性が時間とともに変化しない非時変フィルタでよい。また、各フィルタ関数により生じる音声の情報の遅延は、後の合成のため、互いに一致しているものとする。具体的な例として、これらのフィルタ関数Ha(ω),Hb_i(ω)(i=1,2,…)は、それぞれカットオフ周波数fcや減衰特性(カットオフ周波数より高い周波数の音声の減衰率)が設定されたローパスフィルタである。
【0037】
ここで、フィルタ関数と重みとは、実験的に定めることとしてよい。具体的にこれらを設定するにあたっては、被験者(性別、年齢などが互いに異なる複数の被験者が存在することが好ましい)に、骨伝導マイク22a,22bをそれぞれ外耳と喉とに装着してもらい、またノイズキャンセル・イヤーマフ30を装着してもらう。
【0038】
また、ノイズキャンセル・イヤーマフ30の内部(気導音を遮蔽した空間内)には、無線にて音声処理装置1に接続されて、音声処理装置1から入力される指示に従って音声を鳴動するスピーカー31を配する。
【0039】
そして被験者に例えば孤立した5つの母音「a」、「i」、「u」、「e」、「o」を発声してもらう。被験者はこのとき、各母音を発声したときの体内音(自己聴取音のうち、ノイズキャンセル・イヤーマフ30で遮断される気導音を除く音声)を聴取することとなる。
【0040】
音声処理装置1は、マイク21により、当該発声された音声を利用者の身体に触れない位置で集音する。このマイク21が出力する音声の情報は、被験者の発声した音声の気導音に相当する。当該音声処理装置1は、発声時に外耳へ伝達される骨導音の情報を、骨伝導マイク22aにより取得する。さらに発声時に喉へ伝達される骨導音の情報を、骨伝導マイク22bにより取得する。
【0041】
音声処理装置1は、これら気導音の音声の情報と、外耳への骨導音の音声の情報と、喉への骨導音の音声の情報とにそれぞれ、設定されたフィルタ関数Ha(ω),Hb_1(ω),Hb_2(ω)を適用して、設定された重み(便宜的に以下では、第1の重みと呼ぶ)でこれらを合成して体内音を推定する。
【0042】
また音声処理装置1は、推定した体内音を、ノイズキャンセル・イヤーマフ30内のスピーカー31に鳴動させる。被験者は、発声時に自ら聴取した実際の体内音と、当該音声処理装置1により推定された体内音とを聞き比べて、これらがより近似するよう、フィルタ関数Ha(ω),Hb_1(ω),Hb_2(ω)の設定と、上記第1の重みの設定とを変更する。そして音声処理装置1は、当該音声処理装置1により推定された体内音との差が十分小さいと判断するまで次の処理を繰り返させる。すなわち、
(1)被験者が母音等を発声したときに、体内音を推定して聴取させる。
(2)被験者に、被験者が母音等を発声したときに聴取した実際の体内音と、当該推定された体内音とを比較させ、
(3)フィルタ関数及び第1の重みの設定変更を受け入れる。
【0043】
被験者が、実際の体内音と、当該音声処理装置1により推定された体内音との差が十分小さいと被験者が判断したときには、音声処理装置1は、その旨の指示を受け入れる。そして音声処理装置1は、そのときのフィルタ関数Ha(ω),Hb_1(ω),Hb_2(ω)の設定と、上記第1の重みの設定と、被験者の属性(性別や年齢層など)に関連付けてプリセットとして記録する。
【0044】
あるいは、音声処理装置1は、被験者の性別ごとに、各性別に関連付けられた設定値を平均して、性別ごとのプリセットを得て、性別を特定する情報に関連付けて記憶してもよい。
【0045】
[動作]
本実施の形態の音声処理装置1は、基本的に以上の構成を備えており、次のように動作する。音声処理装置1の利用者S(自己聴取音や体内音を得ようとする者)は、まず、骨伝導マイク22a,22bをそれぞれ外耳と喉とに装着し、推定された体内音を発声直後に聴取するために、ノイズキャンセル・イヤーマフ30を装着する。
【0046】
なお、ノイズキャンセル・イヤーマフ30の内部(気導音を遮蔽した空間内)には、無線にて音声処理装置1に接続されて、音声処理装置1から入力される指示に従って音声を鳴動するスピーカー31を配しておく。
【0047】
利用者Sは、マイク21や骨伝導マイク22、スピーカー31に接続した音声処理装置1を起動して、推定した体内音を出力するよう指示しておき、例えば孤立した5つの母音「a」、「i」、「u」、「e」、「o」を発声する。この発声の間、利用者Sは自身の身体内を通じて耳に到来する音(体内音)を聴取することとなる。
【0048】
音声処理装置1は、マイク21により、当該発声された音声を利用者Sの身体に触れない位置で集音して、気導音x(t)を得る。また音声処理装置1は、発声時の外耳への骨導音の情報を、骨伝導マイク22aにより取得し、発声時の喉への骨導音の情報を、骨伝導マイク22bにより取得する。ここで外耳へ伝達された骨導音の情報をy(t)、喉へ伝達された骨導音の情報をz(t)とする。ここでtは時刻であり、気導音、骨導音x,y,z…が時刻により変化することを表している。
【0049】
音声処理装置1は、マイク21で集音した気導音の音声の情報と、骨伝導マイク22で集音した外耳へ伝達された骨導音の情報及び、喉へ伝達された骨導音の情報にそれぞれ、設定されたフィルタ関数Ha(ω),Hb_1(ω),Hb_2(ω)を用いたフィルタを適用し、設定された第1の重みでこれらフィルタ処理後の情報を合成して利用者Sの体内音u(t)を推定する:
【数1】
なお、
【数2】
とする。
【0050】
ここでhsα(t)は、利用者Sが設定したフィルタ関数Ha(ω)のインパルス応答であり、hsb1(t)は、利用者Sが設定したフィルタ関数Hb_1(ω)のインパルス応答であり、hsb2(t)は、利用者Sが設定したフィルタ関数Hb_2(ω)のインパルス応答である。
【0051】
音声処理装置1は、推定した利用者Sの体内音u(t)をスピーカー31に鳴動させる。これにより利用者Sは、発声時に自ら聴取した実際の体内音と、当該音声処理装置1により推定された体内音とを聞き比べることが可能となる。
【0052】
利用者Sはこれら実際の体内音と推定された体内音とがより近似するよう、フィルタ関数Ha(ω),Hb_1(ω),Hb_2(ω)の設定と、上記第1の重みの設定とを変更して、所望であれば、再度、孤立した5つの母音「a」、「i」、「u」、「e」、「o」の発声から繰り返す。
【0053】
そして利用者Sは、実際の体内音と推定された体内音とが十分近似したと判断したならば、音声処理装置1を操作して、そのときのフィルタ関数Ha(ω),Hb_1(ω),Hb_2(ω)の設定と、上記第1の重みの設定とを記憶させる。これにより音声処理装置1は、利用者Sの音声の情報に基づく、利用者Sの自己聴取音の推定が可能となる。
【0054】
自己聴取音を推定させようとする利用者Sもまた、骨伝導マイク22a,22bをそれぞれ外耳と喉とに装着する。このときはノイズキャンセル・イヤーマフ30を装着する必要は必ずしもない。また、この利用者Sの発声した音声の気導音を集音するためのマイク21を配しておく。利用者Sは、この状態で、自己聴取音を推定させるため、音声処理装置1に対して推定した自己聴取音を出力するよう指示し、自己聴取音を生成したい音声を発声する。
【0055】
音声処理装置1は、
図3に例示するように、マイク21により、当該利用者Sにより発声された音声を利用者の身体に触れない位置で集音する。また音声処理装置1は、利用者Sの発声時の外耳への骨導音の音声の情報を、骨伝導マイク22aにより取得し、同様に、利用者Sの発声時の喉への骨導音の音声の情報を、骨伝導マイク22bにより取得する(S1)。
【0056】
音声処理装置1は、マイク21で集音した気導音の音声の情報x(t)と、骨伝導マイク22で集音した外耳への骨導音の音声の情報y(t)及び、喉への骨導音の音声の情報z(t)にそれぞれ、記憶したフィルタ関数Ha(ω),Hb_1(ω),Hb_2(ω)を用いたフィルタを適用し(S2)、記憶した第1の重みでこれらのフィルタ処理後の音声の情報を合成して体内音u(t)を推定する(S3):
【数3】
ここで、
【数4】
とする。
【0057】
音声処理装置1は、さらに、この推定した利用者Sの体内音u(t)に対して、マイク21で集音した気導音の音声の情報x(t)を所定の第2の重みγで合成して自己聴取音v(t)を推定する(S4):
【数5】
【0058】
そして音声処理装置1は、当該推定した自己聴取音の音声の情報v(t)を出力する(S5)。この音声の情報v(t)は、例えばスピーカー等で鳴動され、あるいはレコーダーなどで録音されて利用される。
【0059】
[ニューラルネットワークの利用]
また、本実施の形態の音声処理装置1を用いて、利用者が発声した音声の情報(原情報)から、推定した自己聴取音の音声の情報(変換後の情報)を生成することで、機械学習用のパラレルコーパスを得てもよい。
【0060】
本実施の形態の別の例に係る音声処理装置は、このようにして得られた利用者の音声に係る原情報と関連する変換後の情報とを教師データとして、公知の音声変換用のニューラルネットワークを機械学習して用いる。この例の音声処理装置では、この機械学習した状態にあるニューラルネットワークを利用して、利用者の発声した音声の情報(気導音)のみを入力として、対応する自己聴取音を得る。すなわちこの例による音声処理装置によると、骨伝導マイクを利用する必要がない。
【0061】
[自己聴取音の他の利用態様]
このようにして生成される自己聴取音は、例えば次のようにして利用される。
(1)語学学習用の音声
語学学習において、外国語の発音習得のためには、学習者が、発音指導者の自己聴取音を模倣することが好ましいとする研究がある。そこで本実施の形態の音声処理装置1により、発音指導者の指導音声に係る、当該指導者の自己聴取音を推定してその音声の情報を得て記録し、発音指導に利用することが考えられる。また、気導音を入力として自己聴取音を得ることのできる音声処理装置を利用して、学習者の自己聴取音を作成してもよい。具体的にこの例では、広く知られたクロスリンガル音声変換(cross-lingual voice conversion)の方法で、発音指導者の指導音声の話者性を学習者の話者性に変換した音声(気導音に相当する)を得ておく。そして当該変換した音声を、音声処理装置の入力として処理し、対応する自己聴取音を推定して出力させる。この方法によると、学習者が自己の目的とするべき発音をしている状態での自己聴取音が推定される。このように推定された自己聴取音を聴取することで、発音の学習が容易になると考えられる。
【0062】
(2)演劇などにおける音響効果としての利用
演劇などの分野において、通常の台詞と、傍白とを区別させるため、傍白を、演技者の音声に基づいて推定した自己聴取音とすることが考えられる。
【0063】
(3)心理学等の研究に利用する例
認識に関する研究において、自己聴取音と気導音とのそれぞれを聴取したときの、発声者自身の脳の活動などを調べ、自己(self)に関する研究を行うことに利用できる。
【0064】
[変形例]
なお、本実施の形態のここまでの説明では利用者Sが設定したフィルタ関数や重みは、当該利用者Sの発声した音声の情報を、利用者Sの自己聴取音を生成する際に用いることとしたが、本実施の形態はこれに限られない。
【0065】
例えば、利用者Sと生物学的に同じ性別の別の利用者S′が、利用者Sが設定したフィルタ関数や重みを利用して、利用者S′の発声した音声の情報を、利用者S′の自己聴取音を生成する際に用いることとしてもよい。利用者Sと同等の身体内の音声伝達特性を有する利用者S′であれば、このようにすることで、フィルタ関数や重みの設定の手間を省くことが可能となる。
【0066】
また本実施の形態の一例では、音声処理装置1は、複数の利用者により過去に設定されたフィルタ関数や重みを試用して、当該試用したフィルタ関数や重みを用いて自己聴取音を仮に推定させて試行できるようにしておくことも好適である。
【0067】
このようにしておけば、利用者は、過去に設定されたフィルタ関数や重みのうち、利用者の自己聴取音を推定するのに適したフィルタ関数や重みを選択して利用することができ、フィルタ関数や重みの設定の手間を省くことが可能となる。
【0068】
また、ここまでの説明ではフィルタ関数が表すフィルタはローパスフィルタであるものとしたが、本実施の形態はこれに限られず、このフィルタは、ローシェルピングフィルタ(LSF)や、グラフィック・イコライザによるフィルタ、パラメトリック・イコライザによるフィルタなどであってもよい。
【0069】
[実施形態の効果]
本実施の形態によると、自己発声音(体内音)を聴取できるようにするとともに、音声処理装置1で推定した体内音も(無線スピーカー等を用いてノイズキャンセル・イヤーマフ内で鳴動させて)聴取可能としておく。そして利用者が、気導音や骨導音などを利用してフィルタやミキシングを調整して自己の体内音を模倣できるように音声処理装置1を設定し、このように設定された音声処理装置1を利用して、利用者が発声した音に基づく体内音の推定を可能としたうえで、当該推定した体内音と気導音とを合成して利用者の自己聴取音を推定することとした。このように、本実施の形態の音声処理装置1では、身体内で複雑な経路を通って耳に到来する体内音を推定し、当該推定した体内音を気導音と合成することで、再現性を向上した自己聴取音の推定を可能としている。
【符号の説明】
【0070】
1 音声処理装置、11 制御部、12 記憶部、13 操作部、14 表示部、15 インタフェース部、21 マイク、22 骨伝導マイク、30 ノイズキャンセル・イヤーマフ、31 スピーカー、51 骨導音取得部、52 気導音取得部、53 体内音推定部、54 自己聴取音推定部、55 音声鳴動部、531 気導音入力部、532 気導音フィルタ部、533 骨導音処理部、533a 骨導音処理部、533b 骨導音処理部、534 体内音合成部、541 自己聴取音合成部、5331 骨導音入力部、5332 骨導音フィルタ部。