特開2022-189155 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人　東京大学の特許一覧

特開2022-189155音声処理装置、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022189155

(43)【公開日】2022-12-22

(54)【発明の名称】音声処理装置、及びプログラム

(51)【国際特許分類】

G10L 21/007 20130101AFI20221215BHJP

【ＦＩ】

G10L21/007

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2021097564

(22)【出願日】2021-06-10

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り令和３年２月２４日に日本音響学会春季講演論文集，２－２Ｑ－７，ｐｐ．１０８９－１０９２（２０２１）にて発表［刊行物等］令和３年３月１日に下記アドレスｈｔｔｐｓ：／／ａｃｏｕｓｔｉｃｓ．ｊｐ／ｎｅｗｓ／２０２１％Ｅ５％Ｂ９％Ｂ４％Ｅ６％９８％Ａ５％Ｅ５％ＡＤ％Ａ３％Ｅ７％Ａ０％９４％Ｅ７％Ａ９％Ｂ６％Ｅ７％９９％ＢＡ％Ｅ８％Ａ１％Ａ８％Ｅ４％ＢＣ％９Ａ％Ｅ３％８１％ＡＥ％Ｅ８％ＡＣ％９Ｂ％Ｅ６％ＢＣ％９４％Ｅ８％Ａ６％８１％Ｅ６％９７％Ａ８％Ｅ３％８２％９２％Ｅ５％８５％ＡＣ％Ｅ９％９６％８Ｂ％Ｅ３％８１％９７％Ｅ３％８１％ＢＥ％Ｅ３％８１％９７％Ｅ３％８１％９Ｆ／でダウンロードされた日本音響学会２０２１年春季研究発表会講演要旨の第９１頁にて発表［刊行物等］令和３年３月１１日に日本音響学会２０２１年春季研究発表会にて発表

(71)【出願人】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】100122275

【弁理士】

【氏名又は名称】竹居信利

(74)【代理人】

【識別番号】100102716

【弁理士】

【氏名又は名称】在原元司

(72)【発明者】

【氏名】峯松信明

(72)【発明者】

【氏名】陳瑞彦

(72)【発明者】

【氏名】西村多寿子

(72)【発明者】

【氏名】齋藤大輔

(57)【要約】（修正有）

【課題】再現性を向上した自己聴取音を出力できる音声処理装置及びプログラムを提供する。
【解決手段】音声処理装置は、利用者の発声する音声のうち、利用者自身の身体の振動を介して伝達する音である骨導音の情報を、身体の少なくとも一つの箇所で取得するとともに、空中を伝播した、利用者の発声する音声である気導音の音声の情報を取得し、取得した骨導音に基づき、利用者自身が聴取する、利用者の発声する音声である自己聴取音から、気導音を除いた体内音を推定する。また当該推定された体内音と、気導音とを合成し、自己聴取音を推定する。
【選択図】図３

【特許請求の範囲】

【請求項1】

利用者の発声する音声のうち、利用者自身の身体の振動を介して伝達する音である骨導音の情報を、身体の少なくとも一つの箇所で取得する骨導音取得手段と、
空中を伝播した、前記利用者の発声する音声である気導音の音声の情報を取得する気導音取得手段と、
前記取得した骨導音に基づき、利用者自身が聴取する、利用者の発声する音声である自己聴取音から気導音を除いた体内音を推定する体内音推定手段と、
前記推定された体内音と、前記気導音とを合成し、自己聴取音を推定する自己聴取音推定手段と、
を有し、
前記推定された自己聴取音が、所定の処理に供される音声処理装置。

【請求項2】

請求項１に記載の音声処理装置であって、
前記骨導音取得手段が、身体の複数の箇所で骨導音を取得する音声処理装置。

【請求項3】

請求項２に記載の音声処理装置であって、
前記骨導音取得手段は、外耳の位置と、喉の位置とでそれぞれ骨導音とを取得し、
前記体内音推定手段は、当該外耳の位置と喉の位置とでそれぞれ取得した骨導音に基づき、体内音を推定する音声処理装置。

【請求項4】

請求項３に記載の音声処理装置であって、
前記体内音推定手段は、前記取得した気導音と、外耳の位置で取得した骨導音と、喉の位置で取得した骨導音とのそれぞれに対応して設定されたフィルタを適用して合成し、体内音の推定結果を得る音声処理装置。

【請求項5】

コンピュータを、
利用者の発声する音声のうち、利用者自身の身体の振動を介して伝達する音である骨導音の情報を、身体の少なくとも一つの箇所で取得する骨導音取得手段と、
空中を伝播した、前記利用者の発声する音声である気導音の音声の情報を取得する気導音取得手段と、
前記取得した骨導音に基づき、利用者自身が聴取する、利用者の発声する音声である自己聴取音から気導音を除いた体内音を推定する体内音推定手段と、
前記推定された体内音と、前記気導音とを合成し、自己聴取音を推定する自己聴取音推定手段と、
として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、発声された音声を処理する音声処理装置に関する。

【背景技術】

【0002】

人が発声している間に当該発声している当人が聴取する音声（以下、自己聴取音と呼ぶ）と、当該発声した音声を録音等して再生した音声とが互いに異なって聞こえることは広く知られている。

【0003】

これは録音等により記録される音声が、発声された音声を空気の振動を介して取得した音声（気導音）のみで構成されるのに対し、自己聴取音は、発声した人の身体（皮膚や骨、その他の組織）を通じて耳に到達する振動（骨導音）と気導音との合成音となるからである。

【0004】

従来、種々の目的で自己聴取音を再現するために、さまざまな研究が行われている。例えば被験者の外耳道付近の骨導音を取得可能な骨伝導マイクを用いて、気導音と骨導音とを一斉に取得し、これらを重みづけ合成して自己聴取音を模倣しようとする研究がある（非特許文献１）。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】森幹男ほか、自己聴取音に占める気導音と骨導音の割合の推定，電気通信学会論文誌Ｃ，127(8)，1268-1269，2007年

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、上記従来の研究による技術では、自己聴取音が十分再現できていないのが現状である。

【0007】

本発明は上記実情に鑑みて為されたもので、再現性を向上した自己聴取音を出力できる音声処理装置及びプログラムを提供することを、その目的の一つとする。

【課題を解決するための手段】

【0008】

上記従来例の問題点を解決するための本発明の一態様は、音声処理装置であって、利用者の発声する音声のうち、利用者自身の身体の振動を介して伝達する音である骨導音の情報を、身体の少なくとも一つの箇所で取得する骨導音取得手段と、空中を伝播した、前記利用者の発声する音声である気導音の音声の情報を取得する気導音取得手段と、前記取得した骨導音に基づき、利用者自身が聴取する、利用者の発声する音声である自己聴取音から気導音を除いた体内音を推定する体内音推定手段と、前記推定された体内音と、前記気導音とを合成し、自己聴取音を推定する自己聴取音推定手段と、を有し、前記推定された自己聴取音が、所定の処理に供されることとしたものである。

【発明の効果】

【0009】

本発明によると、身体内で複雑な経路を経て発声者の耳に到来する体内音を推定し、この体内音を用いて自己聴取音を推定することで、再現性を向上した自己聴取音の出力を可能としている。

【図面の簡単な説明】

【0010】

【図1】本発明の実施の形態に係る音声処理装置の構成例を表すブロック図である。

【図2】本発明の実施の形態に係る音声処理装置の例を表す機能ブロック図である。

【図3】本発明の実施の形態に係る音声処理装置の動作例を表す流れ図である。

【発明を実施するための形態】

【0011】

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態の音声処理装置１では、従来の研究において考慮されていない次の点について考慮して音声の処理を行う。

【0012】

すなわち、自己聴取音に含まれる気導音以外の音声（体内音）には、口腔から身体を経由して到来する振動として、
（１）外耳道内放射、
（２）中耳耳小骨の慣性骨導、
（３）内耳リンパ液の慣性骨導、
（４）内耳リンパ液の圧縮骨導、
（５）脳髄液の圧力伝達、
など、複数の伝達経路を介した振動を聴取した音声が含まれる。従って、被験者の外耳道付近の骨導音を利用するだけでなく、他の伝達経路を考慮した音声処理を行うこととする。

【0013】

このような考慮を行った本発明の実施の形態に係る音声処理装置１は、図１に例示するように、制御部１１、記憶部１２、操作部１３、表示部１４、及びインタフェース部１５を含んだ一般的なコンピュータ装置により実現できる。またこの音声処理装置１は、マイク２１と、少なくとも一つの骨伝導マイク２２ａ，２２ｂ…（以下、それぞれを特に区別する必要のないときには、骨伝導マイク２２と表記する）とに、インタフェース部１５を介して接続されている。

【0014】

制御部１１は、ＣＰＵ等のプログラム制御デバイスであり、記憶部１２に格納されたプログラムに従って動作する。本実施の形態ではこの制御部１１は、自己の発声する音声のうち、自身の身体の振動を介して伝達する音である骨導音の情報（骨導音を表すデジタルデータ）を、身体の少なくとも一つの箇所で取得する骨伝導マイク２２ａ，２２ｂ…から、当該取得した骨導音の情報の入力をそれぞれ受け入れる。また制御部１１は、当該受け入れた骨導音の情報に基づき、自己が聴取する自己の発声する音声である自己聴取音から、気導音を除いたものとして規定される体内音を推定する。ここで気導音は、自己の発声する音声のうち、空中を伝播して空気の振動を介して聴取される音をいうものとする。そして制御部１１は、当該推定された体内音を用い、例えば当該体内音と別途取得した気導音とを合成することで自己聴取音を推定する処理を行い、当該推定した自己聴取音を、所定の処理に供する。この制御部１１の動作については後に詳しく述べる。

【0015】

記憶部１２は、メモリデバイス等であり、制御部１１によって実行されるプログラムを保持する。このプログラムは、コンピュータ可読かつ非一時的な記録媒体に格納されて提供され、この記憶部１２にインストールされたものでよい。またこの記憶部１２は、制御部１１のワークメモリとしても動作する。

【0016】

操作部１３は、マウスやキーボード等であり、利用者の操作を受け入れて、当該操作の内容を表す情報を、制御部１１に出力する。表示部１４は、ディスプレイ等であり、制御部１１から入力される指示に従って情報を表示する。

【0017】

インタフェース部１５は、ＵＳＢインタフェースやブルートゥース（登録商標）インタフェース等を含み、マイク２１や、骨伝導マイク２２から入力される音声の情報を、制御部１１に出力する。

【0018】

マイク２１は、利用者の発声する音声を、利用者の身体に触れない位置で集音し、当該音声をデジタル化した音声の情報を出力する。つまり、このマイク２１が集音する音声の情報は、利用者の発声する音声が空中を伝播してこのマイク２１まで到来した音声の情報であり、気導音に相当する。

【0019】

骨伝導マイク２２は、利用者が発声し、当該利用者の身体を媒体として伝導した振動を、利用者の身体に触れる位置で検出し、当該振動をデジタル化した振動情報を、骨導音の情報として出力する。本実施の形態の一例では、２つの骨伝導マイク２２ａ，２２ｂを用いるものとする。

【0020】

また骨伝導マイク２２ｂは、利用者の喉に装着する。つまり、骨伝導マイク２２ａにより利用者の外耳に伝達された振動を検出し、骨伝導マイク２２ｂにより利用者の喉に伝達された振動を検出する。各骨伝導マイク２２ａ，ｂは、検出した振動を表す骨導音の情報を、インタフェース部１５を介して制御部１１に出力する。

【0021】

また本実施の形態では、推定された体内音等の確認のため、気導音を遮断して当該音声を聴取させるべく、ノイズキャンセル・イヤーマフ３０を利用する。このノイズキャンセル・イヤーマフ３０の内部には、ブルートゥース（登録商標）等、無線にて音声処理装置１に接続され、音声処理装置１から入力される指示に従って音声を鳴動するスピーカー３１が配される。また、ノイズキャンセル・イヤーマフ３０の内側には吸音材が配されており、反射波（定常波）の発生が抑制される。つまり、スピーカー３１により提示される音声に対して、不要な音響効果が抑制される。

【0022】

次に本実施の形態の音声処理装置１の制御部１１の動作について説明する。本実施の形態の一例では、この制御部１１は、記憶部１２に格納されたプログラムを実行することで、図２に例示するように、骨導音取得部５１と、気導音取得部５２と、体内音推定部５３と、自己聴取音推定部５４と、音声鳴動部５５とを含んで構成される。

【0023】

また本実施の形態の一例では、体内音推定部５３は、気導音入力部５３１と、気導音フィルタ部５３２と、骨伝導マイク２２ａ，ｂ…のそれぞれに対応して設けられる骨導音処理部５３３ａ，５３３ｂ…と、体内音合成部５３４とを含む。ここで骨導音処理部５３３ａ，ｂ…は、それぞれ、骨導音入力部５３３１と、骨導音フィルタ部５３３２とを含んで構成される。

【0024】

骨導音取得部５１は、インタフェース部１５を介して各骨伝導マイク２２ａ，ｂ…から入力される骨導音の情報を、それぞれ対応する骨導音処理部５３３ａ，ｂ…に出力する。

【0025】

気導音取得部５２は、インタフェース部１５を介してマイク２１から入力される音声の情報を、気導音入力部５３１に出力する。

【0026】

体内音推定部５３は、骨導音取得部５１と気導音取得部５２とから入力される骨導音及び音声の情報を用いて、自己が聴取する自己の発声する音声である自己聴取音から、当該自己の発声する音声のうち空気の振動を介して聴取される音である気導音を除いた体内音を推定する。

【0027】

具体的にこの体内音推定部５３の気導音入力部５３１は、気導音取得部５２から入力される音声の情報を、気導音フィルタ部５３２と、自己聴取音推定部５４とに出力する。

【0028】

気導音フィルタ部５３２は、気導音入力部５３１から入力される気導音の音声の情報に対して、所定のフィルタ関数Ｈa（ω）（ωは角周波数）に係るフィルタ演算を行ってフィルタを適用し、フィルタ処理後の音声の情報Ｓaを得て体内音合成部５３４に出力する。このフィルタ関数Ｈa（ω）については後述する。

【0029】

各骨導音処理部５３３（それぞれを区別しない場合は骨導音処理部５３３と表記する）の骨導音入力部５３３１は、骨導音取得部５１から入力される、対応する骨伝導マイク２２にて検出された骨導音の情報を、骨導音フィルタ部５３３２に出力する。

【0030】

骨導音フィルタ部５３３２は、骨導音入力部５３３１から入力される骨導音の情報に対して、所定のフィルタ関数Ｈb_i（ω）（ｉ＝１，２…）のそれぞれに係るフィルタ演算を行って、それぞれにフィルタを適用し、各フィルタ処理後の音声の情報Ｓb_iを得て体内音合成部５３４に出力する。ここでのフィルタ関数Ｈb_i（ω）についても後述する。

【0031】

体内音合成部５３４は、気導音フィルタ部５３２から入力されるフィルタ処理後の気導音の音声の情報Ｓaと、各骨導音処理部５３３から入力される、フィルタ処理後の骨導音の情報Ｓb_i（ｉ＝１，２…）とを、重みづけ合成する。

【0032】

具体的に、ここでは骨導音処理部５３３ａは、骨伝導マイク２２ａから入力される外耳の骨導音に対してフィルタ演算を行った骨導音の情報Ｓb_1を出力し、骨導音処理部５３３ｂは、骨伝導マイク２２ｂから入力される喉の骨導音に対してフィルタ演算を行った骨導音の情報Ｓb_2を出力する。そして体内音合成部５３４は、気導音フィルタ部５３２から入力されるフィルタ処理後の気導音の音声の情報Ｓaに対して重みαを乗じ、骨導音処理部５３３ａから入力されるフィルタ処理後の骨導音の情報Ｓb_1に対して重みβ1を乗じ、骨導音処理部５３３ｂから入力されるフィルタ処理後の骨導音の情報Ｓb_2に対して重みβ2＝１－α－β1を乗じて、これらを相加した音声の情報を得て、推定された体内音の情報として出力する。つまり、ここでは重みの総計が「１」となるようにしている。

【0033】

本実施の形態の例では、この体内音合成部５３４の出力が、体内音に近似したものとなるよう、フィルタ関数Ｈa（ω），Ｈb_i（ω）（ｉ＝１，２，…）及び、重みα，βi（ｉ＝１，２，…、またα＋β1＋β2＋…＝１とする）を調整しておくものとする。

【0034】

自己聴取音推定部５４は、自己聴取音合成部５４１を有し、この自己聴取音合成部５４１により、気導音入力部５３１が出力する気導音の情報と、体内音合成部５３４が出力する音声の情報とをそれぞれ重みγ，１－γを乗じて相加し、自己聴取音の推定結果として出力する。

【0035】

音声鳴動部５５は、体内音推定部５３が推定した体内音の音声の情報、または、自己聴取音推定部５４により推定された自己聴取音の音声の情報のうち、いずれか利用者が選択した音声の情報に基づきスピーカー３１等のスピーカーを鳴動制御して、推定された体内音または自己聴取音を、スピーカー３１等のスピーカーに鳴動させる。なお、後に説明するように、利用者が発声した音声に基づいてリアルタイムに推定した体内音を鳴動させる際や、利用者が音声を発声した直後に推定した体内音を鳴動させる際には、利用者に、ノイズキャンセル・イヤーマフ３０を装着してもらうこととする。もっとも、推定した体内音を後で利用者に（別のスピーカー等で鳴動して）聴取させる場合や、推定した自己聴取音を出力する際には、ノイズキャンセル・イヤーマフ３０の装着は必ずしも必要ではない。

【0036】

［フィルタ関数及び重みの設定］
本実施の形態の一例では、フィルタ関数Ｈa（ω），Ｈb_i（ω）（ｉ＝１，２，…）は、その特性が時間とともに変化しない非時変フィルタでよい。また、各フィルタ関数により生じる音声の情報の遅延は、後の合成のため、互いに一致しているものとする。具体的な例として、これらのフィルタ関数Ｈa（ω），Ｈb_i（ω）（ｉ＝１，２，…）は、それぞれカットオフ周波数ｆｃや減衰特性（カットオフ周波数より高い周波数の音声の減衰率）が設定されたローパスフィルタである。

【0037】

ここで、フィルタ関数と重みとは、実験的に定めることとしてよい。具体的にこれらを設定するにあたっては、被験者（性別、年齢などが互いに異なる複数の被験者が存在することが好ましい）に、骨伝導マイク２２ａ，２２ｂをそれぞれ外耳と喉とに装着してもらい、またノイズキャンセル・イヤーマフ３０を装着してもらう。

【0038】

また、ノイズキャンセル・イヤーマフ３０の内部（気導音を遮蔽した空間内）には、無線にて音声処理装置１に接続されて、音声処理装置１から入力される指示に従って音声を鳴動するスピーカー３１を配する。

【0039】

そして被験者に例えば孤立した５つの母音「a」、「i」、「u」、「e」、「o」を発声してもらう。被験者はこのとき、各母音を発声したときの体内音（自己聴取音のうち、ノイズキャンセル・イヤーマフ３０で遮断される気導音を除く音声）を聴取することとなる。

【0040】

音声処理装置１は、マイク２１により、当該発声された音声を利用者の身体に触れない位置で集音する。このマイク２１が出力する音声の情報は、被験者の発声した音声の気導音に相当する。当該音声処理装置１は、発声時に外耳へ伝達される骨導音の情報を、骨伝導マイク２２ａにより取得する。さらに発声時に喉へ伝達される骨導音の情報を、骨伝導マイク２２ｂにより取得する。

【0041】

音声処理装置１は、これら気導音の音声の情報と、外耳への骨導音の音声の情報と、喉への骨導音の音声の情報とにそれぞれ、設定されたフィルタ関数Ｈa（ω），Ｈb_1（ω），Ｈb_2（ω）を適用して、設定された重み（便宜的に以下では、第１の重みと呼ぶ）でこれらを合成して体内音を推定する。

【0042】

また音声処理装置１は、推定した体内音を、ノイズキャンセル・イヤーマフ３０内のスピーカー３１に鳴動させる。被験者は、発声時に自ら聴取した実際の体内音と、当該音声処理装置１により推定された体内音とを聞き比べて、これらがより近似するよう、フィルタ関数Ｈa（ω），Ｈb_1（ω），Ｈb_2（ω）の設定と、上記第１の重みの設定とを変更する。そして音声処理装置１は、当該音声処理装置１により推定された体内音との差が十分小さいと判断するまで次の処理を繰り返させる。すなわち、
（１）被験者が母音等を発声したときに、体内音を推定して聴取させる。
（２）被験者に、被験者が母音等を発声したときに聴取した実際の体内音と、当該推定された体内音とを比較させ、
（３）フィルタ関数及び第１の重みの設定変更を受け入れる。

【0043】

被験者が、実際の体内音と、当該音声処理装置１により推定された体内音との差が十分小さいと被験者が判断したときには、音声処理装置１は、その旨の指示を受け入れる。そして音声処理装置１は、そのときのフィルタ関数Ｈa（ω），Ｈb_1（ω），Ｈb_2（ω）の設定と、上記第１の重みの設定と、被験者の属性（性別や年齢層など）に関連付けてプリセットとして記録する。

【0044】

あるいは、音声処理装置１は、被験者の性別ごとに、各性別に関連付けられた設定値を平均して、性別ごとのプリセットを得て、性別を特定する情報に関連付けて記憶してもよい。

【0045】

［動作］
本実施の形態の音声処理装置１は、基本的に以上の構成を備えており、次のように動作する。音声処理装置１の利用者Ｓ（自己聴取音や体内音を得ようとする者）は、まず、骨伝導マイク２２ａ，２２ｂをそれぞれ外耳と喉とに装着し、推定された体内音を発声直後に聴取するために、ノイズキャンセル・イヤーマフ３０を装着する。

【0046】

なお、ノイズキャンセル・イヤーマフ３０の内部（気導音を遮蔽した空間内）には、無線にて音声処理装置１に接続されて、音声処理装置１から入力される指示に従って音声を鳴動するスピーカー３１を配しておく。

【0047】

利用者Ｓは、マイク２１や骨伝導マイク２２、スピーカー３１に接続した音声処理装置１を起動して、推定した体内音を出力するよう指示しておき、例えば孤立した５つの母音「a」、「i」、「u」、「e」、「o」を発声する。この発声の間、利用者Ｓは自身の身体内を通じて耳に到来する音（体内音）を聴取することとなる。

【0048】

音声処理装置１は、マイク２１により、当該発声された音声を利用者Ｓの身体に触れない位置で集音して、気導音ｘ（ｔ）を得る。また音声処理装置１は、発声時の外耳への骨導音の情報を、骨伝導マイク２２ａにより取得し、発声時の喉への骨導音の情報を、骨伝導マイク２２ｂにより取得する。ここで外耳へ伝達された骨導音の情報をｙ（ｔ）、喉へ伝達された骨導音の情報をｚ（ｔ）とする。ここでｔは時刻であり、気導音、骨導音ｘ，ｙ，ｚ…が時刻により変化することを表している。

【0049】

音声処理装置１は、マイク２１で集音した気導音の音声の情報と、骨伝導マイク２２で集音した外耳へ伝達された骨導音の情報及び、喉へ伝達された骨導音の情報にそれぞれ、設定されたフィルタ関数Ｈa（ω），Ｈb_1（ω），Ｈb_2（ω）を用いたフィルタを適用し、設定された第１の重みでこれらフィルタ処理後の情報を合成して利用者Ｓの体内音ｕ（ｔ）を推定する：

【数1】

なお、

【数2】

とする。

【0050】

ここでｈs^α（ｔ）は、利用者Ｓが設定したフィルタ関数Ｈa（ω）のインパルス応答であり、ｈs^b1（ｔ）は、利用者Ｓが設定したフィルタ関数Ｈb_1（ω）のインパルス応答であり、ｈs^b2（ｔ）は、利用者Ｓが設定したフィルタ関数Ｈb_2（ω）のインパルス応答である。

【0051】

音声処理装置１は、推定した利用者Ｓの体内音ｕ（ｔ）をスピーカー３１に鳴動させる。これにより利用者Ｓは、発声時に自ら聴取した実際の体内音と、当該音声処理装置１により推定された体内音とを聞き比べることが可能となる。

【0052】

利用者Ｓはこれら実際の体内音と推定された体内音とがより近似するよう、フィルタ関数Ｈa（ω），Ｈb_1（ω），Ｈb_2（ω）の設定と、上記第１の重みの設定とを変更して、所望であれば、再度、孤立した５つの母音「a」、「i」、「u」、「e」、「o」の発声から繰り返す。

【0053】

そして利用者Ｓは、実際の体内音と推定された体内音とが十分近似したと判断したならば、音声処理装置１を操作して、そのときのフィルタ関数Ｈa（ω），Ｈb_1（ω），Ｈb_2（ω）の設定と、上記第１の重みの設定とを記憶させる。これにより音声処理装置１は、利用者Ｓの音声の情報に基づく、利用者Ｓの自己聴取音の推定が可能となる。

【0054】

自己聴取音を推定させようとする利用者Ｓもまた、骨伝導マイク２２ａ，２２ｂをそれぞれ外耳と喉とに装着する。このときはノイズキャンセル・イヤーマフ３０を装着する必要は必ずしもない。また、この利用者Ｓの発声した音声の気導音を集音するためのマイク２１を配しておく。利用者Ｓは、この状態で、自己聴取音を推定させるため、音声処理装置１に対して推定した自己聴取音を出力するよう指示し、自己聴取音を生成したい音声を発声する。

【0055】

音声処理装置１は、図３に例示するように、マイク２１により、当該利用者Ｓにより発声された音声を利用者の身体に触れない位置で集音する。また音声処理装置１は、利用者Ｓの発声時の外耳への骨導音の音声の情報を、骨伝導マイク２２ａにより取得し、同様に、利用者Ｓの発声時の喉への骨導音の音声の情報を、骨伝導マイク２２ｂにより取得する（Ｓ１）。

【0056】

音声処理装置１は、マイク２１で集音した気導音の音声の情報ｘ（ｔ）と、骨伝導マイク２２で集音した外耳への骨導音の音声の情報ｙ（ｔ）及び、喉への骨導音の音声の情報ｚ（ｔ）にそれぞれ、記憶したフィルタ関数Ｈa（ω），Ｈb_1（ω），Ｈb_2（ω）を用いたフィルタを適用し（Ｓ２）、記憶した第１の重みでこれらのフィルタ処理後の音声の情報を合成して体内音ｕ（ｔ）を推定する（Ｓ３）：

【数3】

ここで、

【数4】

とする。

【0057】

音声処理装置１は、さらに、この推定した利用者Ｓの体内音ｕ（ｔ）に対して、マイク２１で集音した気導音の音声の情報ｘ（ｔ）を所定の第２の重みγで合成して自己聴取音ｖ（ｔ）を推定する（Ｓ４）：

【数5】

【0058】

そして音声処理装置１は、当該推定した自己聴取音の音声の情報ｖ（ｔ）を出力する（Ｓ５）。この音声の情報ｖ（ｔ）は、例えばスピーカー等で鳴動され、あるいはレコーダーなどで録音されて利用される。

【0059】

［ニューラルネットワークの利用］
また、本実施の形態の音声処理装置１を用いて、利用者が発声した音声の情報（原情報）から、推定した自己聴取音の音声の情報（変換後の情報）を生成することで、機械学習用のパラレルコーパスを得てもよい。

【0060】

本実施の形態の別の例に係る音声処理装置は、このようにして得られた利用者の音声に係る原情報と関連する変換後の情報とを教師データとして、公知の音声変換用のニューラルネットワークを機械学習して用いる。この例の音声処理装置では、この機械学習した状態にあるニューラルネットワークを利用して、利用者の発声した音声の情報（気導音）のみを入力として、対応する自己聴取音を得る。すなわちこの例による音声処理装置によると、骨伝導マイクを利用する必要がない。

【0061】

［自己聴取音の他の利用態様］
このようにして生成される自己聴取音は、例えば次のようにして利用される。
（１）語学学習用の音声
語学学習において、外国語の発音習得のためには、学習者が、発音指導者の自己聴取音を模倣することが好ましいとする研究がある。そこで本実施の形態の音声処理装置１により、発音指導者の指導音声に係る、当該指導者の自己聴取音を推定してその音声の情報を得て記録し、発音指導に利用することが考えられる。また、気導音を入力として自己聴取音を得ることのできる音声処理装置を利用して、学習者の自己聴取音を作成してもよい。具体的にこの例では、広く知られたクロスリンガル音声変換（cross-lingual voice conversion）の方法で、発音指導者の指導音声の話者性を学習者の話者性に変換した音声（気導音に相当する）を得ておく。そして当該変換した音声を、音声処理装置の入力として処理し、対応する自己聴取音を推定して出力させる。この方法によると、学習者が自己の目的とするべき発音をしている状態での自己聴取音が推定される。このように推定された自己聴取音を聴取することで、発音の学習が容易になると考えられる。

【0062】

（２）演劇などにおける音響効果としての利用
演劇などの分野において、通常の台詞と、傍白とを区別させるため、傍白を、演技者の音声に基づいて推定した自己聴取音とすることが考えられる。

【0063】

（３）心理学等の研究に利用する例
認識に関する研究において、自己聴取音と気導音とのそれぞれを聴取したときの、発声者自身の脳の活動などを調べ、自己（self）に関する研究を行うことに利用できる。

【0064】

［変形例］
なお、本実施の形態のここまでの説明では利用者Ｓが設定したフィルタ関数や重みは、当該利用者Ｓの発声した音声の情報を、利用者Ｓの自己聴取音を生成する際に用いることとしたが、本実施の形態はこれに限られない。

【0065】

例えば、利用者Ｓと生物学的に同じ性別の別の利用者Ｓ′が、利用者Ｓが設定したフィルタ関数や重みを利用して、利用者Ｓ′の発声した音声の情報を、利用者Ｓ′の自己聴取音を生成する際に用いることとしてもよい。利用者Ｓと同等の身体内の音声伝達特性を有する利用者Ｓ′であれば、このようにすることで、フィルタ関数や重みの設定の手間を省くことが可能となる。

【0066】

また本実施の形態の一例では、音声処理装置１は、複数の利用者により過去に設定されたフィルタ関数や重みを試用して、当該試用したフィルタ関数や重みを用いて自己聴取音を仮に推定させて試行できるようにしておくことも好適である。

【0067】

このようにしておけば、利用者は、過去に設定されたフィルタ関数や重みのうち、利用者の自己聴取音を推定するのに適したフィルタ関数や重みを選択して利用することができ、フィルタ関数や重みの設定の手間を省くことが可能となる。

【0068】

また、ここまでの説明ではフィルタ関数が表すフィルタはローパスフィルタであるものとしたが、本実施の形態はこれに限られず、このフィルタは、ローシェルピングフィルタ（ＬＳＦ）や、グラフィック・イコライザによるフィルタ、パラメトリック・イコライザによるフィルタなどであってもよい。

【0069】

［実施形態の効果］
本実施の形態によると、自己発声音（体内音）を聴取できるようにするとともに、音声処理装置１で推定した体内音も（無線スピーカー等を用いてノイズキャンセル・イヤーマフ内で鳴動させて）聴取可能としておく。そして利用者が、気導音や骨導音などを利用してフィルタやミキシングを調整して自己の体内音を模倣できるように音声処理装置１を設定し、このように設定された音声処理装置１を利用して、利用者が発声した音に基づく体内音の推定を可能としたうえで、当該推定した体内音と気導音とを合成して利用者の自己聴取音を推定することとした。このように、本実施の形態の音声処理装置１では、身体内で複雑な経路を通って耳に到来する体内音を推定し、当該推定した体内音を気導音と合成することで、再現性を向上した自己聴取音の推定を可能としている。

【符号の説明】

【0070】

１音声処理装置、１１制御部、１２記憶部、１３操作部、１４表示部、１５インタフェース部、２１マイク、２２骨伝導マイク、３０ノイズキャンセル・イヤーマフ、３１スピーカー、５１骨導音取得部、５２気導音取得部、５３体内音推定部、５４自己聴取音推定部、５５音声鳴動部、５３１気導音入力部、５３２気導音フィルタ部、５３３骨導音処理部、５３３ａ骨導音処理部、５３３ｂ骨導音処理部、５３４体内音合成部、５４１自己聴取音合成部、５３３１骨導音入力部、５３３２骨導音フィルタ部。

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版