特表2016-540432(P2016-540432A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

<>
  • 特表2016540432-基本周波数修正を用いた補聴装置 図000003
  • 特表2016540432-基本周波数修正を用いた補聴装置 図000004
  • 特表2016540432-基本周波数修正を用いた補聴装置 図000005
  • 特表2016540432-基本周波数修正を用いた補聴装置 図000006
  • 特表2016540432-基本周波数修正を用いた補聴装置 図000007
  • 特表2016540432-基本周波数修正を用いた補聴装置 図000008
  • 特表2016540432-基本周波数修正を用いた補聴装置 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2016-540432(P2016-540432A)
(43)【公表日】2016年12月22日
(54)【発明の名称】基本周波数修正を用いた補聴装置
(51)【国際特許分類】
   H04R 25/00 20060101AFI20161125BHJP
   G10L 21/013 20130101ALI20161125BHJP
   A61F 11/00 20060101ALI20161125BHJP
【FI】
   H04R25/00 L
   H04R25/00 M
   G10L21/013
   A61F11/00 305
【審査請求】有
【予備審査請求】未請求
【全頁数】21
(21)【出願番号】特願2016-532612(P2016-532612)
(86)(22)【出願日】2014年11月11日
(85)【翻訳文提出日】2016年7月5日
(86)【国際出願番号】EP2014074258
(87)【国際公開番号】WO2015078689
(87)【国際公開日】20150604
(31)【優先権主張番号】102013224417.7
(32)【優先日】2013年11月28日
(33)【優先権主張国】DE
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ハーツゾース・タマース
(57)【要約】
補聴装置は、発話信号のある時間部分について、発話信号の瞬時基本周波数値を決定するように構成されている周波数分析デバイスを含む。統計評価デバイスは、いくつかの時間部分にわたる発話信号の平均基本周波数値を決定するように構成されている。補聴装置は、特定の関数に従って、平均基本周波数値に対する瞬時基本周波数値の差または商が変更されるように、瞬時基本周波数値を、修正基本周波数値に修正するように構成されている基本周波数修正器をさらに含む。それによって、基本周波数値がその中で変動する周波数範囲が修正され得る。補聴装置は、修正基本周波数値に基づいて、基本周波数に関して修正された発話信号を生成するように構成されている発話信号生成器をさらに含む。
【特許請求の範囲】
【請求項1】
発話信号のある時間部分について、前記発話信号の瞬時基本周波数値を決定するように構成されている周波数分析デバイスと、
いくつかの時間部分にわたる前記発話信号の平均基本周波数値を決定するように構成されている統計評価デバイスと、
特定の関数に従って、前記平均基本周波数値に対する前記瞬時基本周波数値の差または商が変更されて、したがって、前記基本周波数値がその中で変化する周波数範囲が修正されるように、前記瞬時基本周波数値を修正基本周波数値に修正するように構成されている基本周波数修正器と、
前記修正基本周波数値に基づいて、前記基本周波数に関して修正された発話信号を生成するように構成されている発話信号生成器とを含む、補聴装置。
【請求項2】
前記補聴装置は、有声時間部分および無声時間部分を分類するためのデバイスをさらに含み、前記周波数分析デバイスおよび前記統計評価デバイスは、有声であるとして分類されている前記発話信号の時間部分を用いて前記瞬時基本周波数値および前記平均基本周波数値を決定するように構成されている、請求項1に記載の補聴装置。
【請求項3】
前記発話信号生成器は、前記発話信号のフォルマント周波数を実質的に変化させないように構成されている、請求項1または2に記載の補聴装置。
【請求項4】
前記基本周波数修正器は、平均修正基本周波数値を、前記平均基本周波数値と実質的に同一のままにするように構成されている、請求項1〜3のいずれか一項に記載の補聴装置。
【請求項5】
前記周波数分析デバイスは、線形予測コード化分析(LPC)のためのデバイスの一部分であり、前記発話信号生成器は、線形予測コード化合成のためのデバイスである、請求項1〜4のいずれか一項に記載の補聴装置。
【請求項6】
前記発話信号生成器は、高速フーリエ変換またはPSOLA(ピッチ同期重畳加算)に基づく、請求項1〜4のいずれか一項に記載の補聴装置。
【請求項7】
それを用いて前記差または前記商が変更される前記特定の関数は、比例係数(PRF)を有する線形関数であり、それによって、前記差または前記商が、前記比例係数を用いてスケーリングされる、請求項1〜6のいずれか一項に記載の補聴装置。
【請求項8】
前記基本周波数修正器は、前記修正基本周波数値を、下限値および上限値の少なくとも一方において制限するように構成されている、請求項1〜7のいずれか一項に記載の補聴装置。
【請求項9】
前記統計評価デバイスは、いくつかの時間部分の前記基本周波数値の時間的不変性を決定し、前記時間的不変性が最小値を上回るときにのみ、前記平均基本周波数値を前記基本周波数修正器に送信するように構成されている、請求項1〜8のいずれか一項に記載の補聴装置。
【請求項10】
前記補聴装置は、前記発話信号内で第1の話者から別の話者への変化が発生した場合を検出するように構成されている話者変化検出器をさらに含み、前記統計評価デバイスおよび前記基本周波数修正器は、前記話者変化検出器が前記第1の話者に戻る変化を検出するまで、前記第1の話者に関するデータ処理を中断するように構成されている、請求項1〜9のいずれか一項に記載の補聴装置。
【請求項11】
発話信号のある時間部分について、前記発話信号の瞬時基本周波数値を決定することと、
いくつかの時間部分にわたる前記発話信号の平均基本周波数値を決定することと、
特定の関数に従って、前記平均基本周波数値に対する前記瞬時基本周波数値の差または商が変更されて、前記基本周波数値がその中で変化する周波数範囲が修正されるように、前記瞬時基本周波数値を、修正基本周波数値に修正することと、
前記修正基本周波数値に基づいて、前記基本周波数に関して修正された発話信号を生成することとを含む、発話信号を処理するための方法。
【請求項12】
請求項11に記載の方法を実施するためのプログラムコードを有する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、補聴装置に関する。本発明のさらなる実施形態は、発話信号を処理するための方法に関する。さらなる実施形態は、プロセッサ、マイクロコントローラまたは同等の装置を用いて、コンピュータ上で発話信号を処理するための方法を実行するためのコンピュータプログラムに関する。さらなる実施形態は、聴覚補助のためのトーン範囲拡張またはピッチ範囲拡大、および、言語の韻律的特徴の知覚を改善するための埋め込み可能補聴器に関する。
【背景技術】
【0002】
現在(2013年11月)までに、世界中でおよそ250,000人が人工内耳を受け入れていると推定される。人工内耳は、最も一般的な形態の補聴器である。人工内耳は、中程度〜重度の感音性聴覚障害を患っている人が、音声を知覚することを可能にし、静かな環境において相当に十分な聴解力をもてるようにするために十分な聴覚情報を提供する。埋め込み中、電気インパルスを用いて聴神経を刺激する電極アレイが、蝸牛内に導入される。聴神経が損傷している場合、その機能が人工内耳に非常に類似している脳幹インプラントが、埋め込み可能補聴器よりも良好な選択肢である。しかしながら、発話知覚に関して、脳幹インプラントは通常、人工内耳の効率を達成することが可能でない。
【0003】
各電極が特定の周波数帯域に対応する、埋め込み可能補聴器に使用される電極アレイとは対照的に、損傷を受けていない蝸牛は、3,000個を超える内有毛細胞を備え、これによって、(一般的な人工内耳のおよそ10〜50個の電極または周波数帯域と比較して)はるかに良好な周波数分解能が可能である。
【0004】
埋め込み可能補聴器(埋め込み型補聴器)のユーザとは別に、低度〜重症の聴力損失を患っているおよそ四千万人が、非埋め込み型補聴器を使用している。特定の事例(主に低スケールの聴力損失と関連する)における補聴器は高レベルの聴覚機能を回復することが可能であるが、ほとんどの場合、補聴器によって補助される聴覚は、正常な聴覚に遅れを取る。
【0005】
現在、補聴器、人工内耳および脳幹インプラントのための音声処理装置は、自動利得および感度制御、ダイナミックレンジの最適な、背景雑音低減、風雑音低減などを含む複数の前処理アルゴリズムを使用している。今日、補聴器および埋め込み可能補聴器を用いた処置は、単語および文章の知覚の改善に焦点を当てている。しかしながら、イントネーションのような情報の拾得(添付)は補聴器ユーザにとっては減弱しており、インプラントユーザにとっては知覚可能でないことが多い。結果として、これらのユーザは、韻律にコード化される背景情報の重要な要素、または、話者によって言語的に表現される感情を知覚することが可能でない。多くの場合、インプラントユーザは、多くの場合文が疑問文であるかまたは平叙文であるかを判定することすら可能でなく、これによって、確信が持てず、社会的に孤立することになってしまうおそれがある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、韻律および/または感情のような言語的背景情報の知覚を改善して、補聴器ユーザがそうするときに、他者との会話への参加を改善することである。
【課題を解決するための手段】
【0007】
この目的および/またはさらなる目的は独立請求項によって解決される。
本発明の実施形態は、周波数分析デバイス、統計評価デバイス、基本周波数修正器および発話信号生成器を有する補聴装置を提供する。周波数分析デバイスは、発話信号のある時間部分について、発話信号の瞬時基本周波数値を決定するように構成されている。統計評価デバイスは、いくつかの時間部分にわたる発話信号の平均基本周波数値を決定するように構成されている。基本周波数修正器は、特定の関数に従って、平均基本周波数値に対する瞬時基本周波数値の差または商が変更されて、したがって、基本周波数値がその中で変化する周波数範囲が修正されるように、瞬時基本周波数値を修正基本周波数値に修正するように構成されている。発話信号生成器は、修正基本周波数値に基づいて、基本周波数に関して修正された発話信号を生成するように構成されている。
【0008】
本発明の実施形態は、補聴器、特に埋め込み可能補聴器の周波数分解能が相対的に低いことに起因して、韻律のような言語的サイド情報(中でも、言葉のイントネーションおよびそれによって伝達される感情)の知覚が、そのような補聴器については非常に限られた範囲までしか可能でないという認識に基づく。特に、聴覚の正常な人間はピッチの明瞭な変化を絶対的に認識することができるが、言語、特に基本周波数は限られた周波数範囲内でしか変化しないため、特定の人によって発話される文章は、少数の電極を通じてしか再生されない。対照的に、使用される電極の数が少ないことに起因して、特に、埋め込み型補聴器のユーザは、中でも、疑問文と平叙文との間の区別および文境界の認識に重要であるピッチの変化の検出に問題があることが多い。これを解決するために、本発明は、発話信号の、複雑で誤っている場合が多い構文解析を避けて、たとえば、疑問文、平叙文および文境界を示すために、特定の話者の基本周波数画素の中で変化する周波数範囲を拡張することを提案する。したがって、本発明の少なくともいくつかの実施形態はまた、日常使用における補聴器の実際の問題が、その後、基本周波数の修正を実施するために、コンピュータ実施アルゴリズムを用いて発話信号の信頼可能な構文解析を実施することであるという追加のまたは代替的な認識にも基づく。日常生活における補聴器の使用のこれらの要件とは対照的に、この分野における科学的研究は、一方では明確に定義された試験データを自由に有するために、また、他方では補聴器ユーザの理解力に対する基本周波数変動の影響を検査するために、手動で選択された部分の文章の基本周波数を常に手動で適合させている。対照的に、本発明はここで、特定の話者の基本周波数の変動の範囲が増大されるように、元の発話信号に存在する基本周波数のピッチ変動を増大(増幅)することを提案する。したがって、本発明は、中でも、発話信号のいずれの部分がそれらの基本周波数に関連して修正されるべきか、および、いずれの様式で(基本周波数の増大、基本周波数の低減、基本周波数の実質的な維持)修正されるべきかを補聴器がどのように決定することができるかという問題を解決する。本発明は、現在の話者の平均基本周波数、および、話者が現在発話している様式(たとえば、自然、静か、興奮している、喜んでいる、怒っている、など)を判定することによって、これを行う。この平均基本周波数はこのとき、基本周波数を修正するための基準周波数(「ピボット」のような)としての役割を果たす。
【0009】
基本周波数値の修正は、修正基本周波数値を決定する役割を果たす。上記修正は、その中で瞬時基本周波数値と平均基本周波数値との間の差が引数として反映される関数または(数学的)写像を用いて行うことができる。関数または(数学的)写像は、1つまたは複数のパラメータを用いてパラメータ化可能であり得る。パラメータの一例として、瞬時基本周波数値と平均基本周波数との間の差がどの程度だけスケーリングまたは拡張されるべきかを示す、ピッチ範囲係数(PRF)に言及すべきである。差の代わりに、商のような、瞬時基本周波数値と平均基本周波数値との間の異なる関係も可能である。
【0010】
いくつかの実施形態によれば、補聴装置は、有声時間部分および無声時間部分を分類するためのデバイスをさらに含むことができ、周波数分析デバイスおよび統計評価デバイスは、有声であるとして分類されている発話信号の時間部分を用いて瞬時基本周波数値および平均基本周波数値を決定するように構成されている。多くの場合、基本周波数の決定および変更は発話信号の有声時間部分内でしか意味をなさず、それによって、有声時間部分と無声時間部分との間で区別することによって、有声部分による、瞬時基本周波数値および平均基本周波数値の決定における歪みを大きく回避することができる。
【0011】
いくつかの実施形態によれば、周波数分析デバイスは、線形予測コード化分析(LPC)のためのデバイスの一部分であってもよく、発話信号生成器は、線形予測コード化合成のためのデバイスであってもよい。線形予測コード化は、人類による発話信号の自然な生成を、かなり写実的にモデル化する。線形予測コード化分析の文脈の中で、基本周波数値は、一般的にいくつかの信号パラメータのうちの1つの信号パラメータとして決定される。線形予測コード化合成において、元の発話信号に実質的に一致するか、または少なくとも、元の発話信号からそれほど大きくは異ならない発話信号が、信号パラメータから再生される。そうするにあたって、最初にいわゆるソース信号を生成するために、基本周波数が使用される。ソース信号を生成するために残差信号も使用される場合もある。その後、ソース信号がフィルタリングされ、これは、フォルマントパラメータを用いて対応するフィルタを(話者の声道、すなわち、話者の喉および口領域に従って)モデル化することを伴う。フィルタ出力において、このように再生された発話信号(LPC合成発話信号)が出力される。LPC分析の文脈の中で、フォルマントパラメータから独立した合成において、基本周波数値が反映されるため、再生発話信号のピッチ変化は、再生発話信号のフォルマント周波数および/または振幅を実質的に変化させることなく、基本周波数値を修正することによって達成することができる。フォルマント周波数は修正されないため、特に母音(ア、エ、イ、オ、ウ(a,e,i,o,u))および同様の音声は通常通り理解可能なままである。さらに、発声は依然として自然に聞こえ、言葉のイントネーションのみがより目立って感じられる。
【0012】
いくつかの実施形態によれば、発話信号生成器は、高速フーリエ変換(FFT)またはPSOLA(ピッチ同期重畳加算)に基づいてもよい。原理上、これらの方法は、基本周波数が、フォルマント周波数から独立して発話信号の合成に反映されることを可能にし、それによって、発話信号の基本周波数を、フォルマントを実質的に歪めることなく時間部分ごとに変化させることができるという可能性をもたらす。
【0013】
いくつかの実施形態によれば、発話信号生成器は、発話信号のフォルマント周波数を実質的に変化させないように構成することができる。前述したように、このようにして、特に母音および他の有声または部分的有声音の理解可能性が維持される。
【0014】
いくつかの実施形態によれば、基本周波数修正器は、平均修正基本周波数値を、平均基本周波数値と実質的に同一のままにするように構成されてもよい。したがって、補聴器ユーザは依然として、様々な話者および話者の性質(男性、女声、子ども)の間で区別するためのベンチマークを与えられる。言い換えれば、補聴器ユーザは実質的に、依然として、性別の間で区別し、話者を識別することができ、これは、2人以上の話し相手がいる状況において、補聴器ユーザにとって有用であり得る。
【0015】
いくつかの実施形態によれば、それを用いて差または商が変更される特定の関数は、比例係数(PRF)を有する線形関数であってもよく、それによって、差または商が、比例係数を用いてスケーリングされる。代替的に、シグモイド関数のような他の関数も可能である。
【0016】
いくつかの実施形態によれば、基本周波数修正器は、修正基本周波数値を、下限値および上限値の少なくとも一方において制限するように構成されてもよい。話者が目立った言葉のイントネーションをすでに有している状況において、補聴器ユーザが、基本周波数を修正することさえなく元の発話信号内の韻律および感情に関する十分な情報を知覚し、かつ/または、基本周波数の無制限の修正が、修正発話信号内のピッチの過度の変動をもたらす可能性がある。さらに、可聴および/または技術的に実現可能な周波数範囲に対する制限はこのようにして、修正基本周波数が、たとえば、50Hzを下回って、または、さらには0Hzを下回って降下することができないように達成することができる。
【0017】
いくつかの実施形態によれば、統計評価デバイスは、いくつかの時間部分の基本周波数値の時間的不変性を決定し、この時間的不変性が最小値を上回るときにのみ、平均基本周波数値を基本周波数修正器に送信するように構成されてもよい。時間的不変性は、たとえば、考慮される時間部分の最小数としての基本周波数値の標準偏差によって表現されてもよい(より高い標準偏差、より低い時間的不変性、およびそれらの逆)。
【0018】
いくつかの実施形態によれば、補聴装置は、発話信号内で第1の話者から別の話者への変化が発生した場合を検出するように構成されている話者変化検出器をさらに含むことができ、統計評価デバイスおよび基本周波数修正器は、話者変化検出器が第1の話者に戻る変化を検出するまで、第1の話者に関するデータ処理を中断するように構成されている。そこから導出される実施形態において、いくつかの話者のためのデータメモリが提供され得る。話者変化検出器は、特有の性質(たとえば、基本周波数、フォルマント周波数、発話速度(たとえば、2つの有声時間部分の間の平均時間感覚による))を用いて、データメモリに記憶されている話者を識別し、識別の直後に、実質的にいかなる遅延もなしに、データメモリに記憶されている値を使用することによって、統計評価デバイスおよび基本周波数修正器内でのデータ処理を継続するように構成することができる。
【0019】
実施形態は、発話信号を処理するための方法を提供する。方法は、発話信号のある時間部分について、発話信号の瞬時基本周波数値を決定することと、いくつかの時間部分にわたる発話信号の平均基本周波数値を決定することとを含む。特定の関数に従って、平均基本周波数値に対する瞬時基本周波数値の差または商が変更されて、基本周波数値がその中で変化する周波数範囲が修正されるように、瞬時基本周波数値が、修正基本周波数値に修正される。方法は、修正基本周波数値に基づいて、基本周波数に関して修正された発話信号を生成することをさらに含む。
【0020】
実施形態は、コンピュータ、プロセッサ、マイクロコントローラまたは任意の他のプログラム可能信号処理装置を用いて、発話信号を処理するための方法を実行するためのコンピュータプログラムを提供する。
【0021】
本発明の実施形態を、添付の図面を用いて下記に説明する。
【図面の簡単な説明】
【0022】
図1】提案されるピッチ範囲拡張器の一般的な概観の概略ブロック図である。
図2】LPC(線形予測コード化)を使用する、本明細書において提案されるピッチ範囲拡張器の一実施形態の概略ブロック図である。
図3】発話信号の時系列、ならびに、発話信号の、および、種々の値のピッチ範囲係数PRFの修正発話信号のいくつかのスペクトログラムを示す図である。
図4】基本周波数、および、ピッチ範囲係数PRF=40%による線形ピッチ範囲スケーリング(実際にはピッチ範囲の低減)に関する修正基本周波数の概略系列を示す図である。
図5】基本周波数、および、ピッチ範囲係数PRF=150%による線形ピッチ範囲スケーリングに関する修正基本周波数の概略系列を示す図である。
図6】基本周波数、および、ピッチ範囲係数PRF=200%による線形ピッチ範囲スケーリングに関する修正基本周波数の概略系列を示す図である。
図7】一実施形態による発話信号を処理するための概略流れ図である。
【発明を実施するための形態】
【0023】
添付の図面を用いて本発明の実施形態を詳細に説明する前に、同一のまたは均等な要素または構造には、その説明が相互に適用可能かつ/または交換可能であるように、同一の参照符号が与えられることが留意されるべきである。
【0024】
本明細書および特許請求の範囲の文脈において、「補聴器」という用語は、聴覚に不自由があるか、または、聴覚が損傷している人の聴覚機能を改善するための技術的装置の総称を示す。補聴器のグループ内で、とりわけ、埋め込み可能補聴器および非埋め込み可能補聴器がサブグループとして示され得る。上述したように、埋め込み可能補聴器のサブグループ内で、とりわけ、人工内耳および脳幹インプラントが区別され得る。
【0025】
現在、補聴器(特に、人工内耳および脳幹インプラント)のための音声処理装置は、自動利得および感度制御、ダイナミックレンジの最適な、背景雑音低減、風雑音低減などを含む複数の前処理アルゴリズムを使用している。しかしながら、現在、韻律指示を改善し、それゆえ、韻律の知覚を改善するための前処理アルゴリズムは、知られていない。本明細書に記載されている方法および装置が、このギャップを埋める。
【0026】
言語学において、韻律は、リズム、強調およびイントネーションの態様を含む。リズムおよび強調は、補聴器によって補助されている、聴覚に損傷のある聴き手によって比較的良好に知覚されるが、聴覚および聴覚学の研究は、イントネーションの知覚が不十分なこと、および、そのマイナス要素の理由を解明することに特に重きを置き始めている。
【0027】
イントネーションの音響特徴は、主にピッチ変動に符号化される。本発明の実施形態は、補聴器の前処理チェーンに含まれるように、ピッチ変動を増大させることによってイントネーションの音響特徴を改善するための方法および装置を提供し、これは、デジタル化音声のブロックごとの処理が可能であり、話者の発声が歪められておらず、または、改ざんされていないものとして聴き手が性別および話者を識別することを可能にすることを意味し、これは、基本周波数F0およびその高調波を一致して変化させ、フォルマント周波数は大きく変化させないことによって達成される。
【0028】
図1は、提案されるピッチ範囲拡張器の一般的な概観を示す。有声発話サンプルのブロックが、入力データとしての役割を果たす。このブロックは、たとえば、話者によって生成され、補聴装置のマイクロホンによって検出される発話信号の時間部分を表す。複数の単一デジタル化発話サンプルを得るために、発話信号の時間的サンプリングおよび後続のアナログ−デジタル変換を実施することができる。
【0029】
補聴装置の一部分とすることができるピッチ範囲拡張器は、特に周波数分析デバイスとすることができる分析デバイス110を含む。上記周波数分析デバイス110は、発話信号のある時間部分について、発話信号の瞬時基本周波数値(瞬時F0)を決定するように構成されており、本明細書において、時間部分は有声発話サンプルのブロックに対応する。しかしながら、発話サンプルのブロックと時間部分との間の他の関係も可能である。瞬時基本周波数F0は、いくつかの時間部分にわたる発話信号の平均基本周波数値F0*を決定するように構成されている統計評価デバイス120に供給される。瞬時基本周波数値F0および平均基本周波数値F0*は、さらなる入力データとして周波数分析デバイス110からの発話信号に関する追加の信号パラメータを得る合成デバイスまたは発話信号生成器130に送信される。瞬時基本周波数値F0、平均基本周波数値F0*および制御パラメータに基づいて、この時点で修正基本周波数が決定されている。その目的のために、特定の所定関数に従って、平均基本周波数F0*に対する関係における瞬時基本周波数値F0の差または商が変更されて、基本周波数値がその中で複数の時間部分にわたって変化する周波数範囲が修正される。この文脈において、制御パラメータは、修正の程度を定義する。合成デバイス130は、対応する時間部分内の修正発話信号を生成するために、修正基本周波数値を使用する。したがって、合成デバイス130は、各事例においてブロックごとに、有声発話サンプルのピッチ範囲拡張ブロックを出力する。言い換えれば、合成デバイス130は、修正基本周波数値に基づいて、基本周波数に関して修正された発話信号を生成するように構成されている。
【0030】
図2は、線形予測コード化(LPC)を使用する、提案される方法の一実施形態の概略ブロック図を示す。図1におけるように、瞬時基本周波数値を決定するために、有声発話サンプルのブロックが周波数分析デバイス110によって分析される。たとえば、ブロックはサイズNを有してもよく、したがって、N個の音声サンプルを含む。図2の周波数分析デバイス110は、現在のブロックに有効である発話信号の瞬時基本周波数に加えて、一連のさらなるLPCパラメータ、特に、係数、利得、発話信号の対応する時間部分またはブロックの有声化に関する情報をも提供する。LPCパラメータは、分析デバイス110から、ピッチシフトまたは基本周波数変更(F0変更)を実施する基本周波数修正器125に送信される。この目的のために、基本周波数修正器125はまた、統計評価デバイス120から平均基本周波数値F0*をも得る。図1におけるように、ピッチ範囲変化の程度を設定する少なくとも1つの制御パラメータも提供される。図2の実施形態において、修正基本周波数値を含むLPCパラメータが、LPC合成を実施する発話信号生成器130に送信される。現在のブロックのLPCパラメータから、発話生成器は、修正発話信号のN個の音声サンプルから成るブロックおよび/または有声発話シンボルのピッチ範囲拡張ブロックを生成する。
【0031】
したがって、図2に示す実施形態において、デジタル化音声サンプルのブロックは、線形予測コード化技法によって分析される。係数、利得、基本周波数F0および有声/無声パラメータのセットが、短い音声部分について決定される。連続する(有声信号部分の)瞬時基本周波数F0に基づいて、統計が構築される。特に、F0*として示されている、入来する音声の平均基本周波数値(たとえば、中央値であってもよい)が計算される。基本周波数修正器またはピッチシフトユニット125もまた、すでに処理されたデータの平均F0)たとえば、F0**として示す)を維持する。基本周波数の平均がおおよそ同じままである、すなわち、F0*≒F0**であるが、F0*と瞬時基本周波数F0との間の差はPRF係数に従ってスケーリングされるように、ピッチ範囲が拡張される。それゆえ、PRF=100%は、変化がないことを意味し、PRF=200%は、F0範囲(最大F0−最小F0)が倍増することを意味する。高いPRF値は、可能な最小および/または可能な最大F0を制約または制限することを必要とし得る。さらに、最初に、実際にピッチを変更することなく、(最大数百ミリ秒にわたる)F0統計を構築する必要があり得る。必要な場合、システムは、数人の話者が同時に発話しているときに処理(特に、基本周波数の変更および統計の更新)をバイパスするように拡張することができる。システムの別の可能性のある拡張は、話者の突然の変化を検出するシステムに存し得る。
【0032】
LPC(図2に示すような)の代わりに、異なるフォルマント保持ピッチ変更方法が使用されてもよい。これらは、FFT(高速フーリエ変換)、PSOLA(ピッチ同期重畳加算)または他の技法に基づいてもよい。
【0033】
図1および図2による実施形態において、制御パラメータは、図3に例示的に表現されているようなピッチ範囲の拡張の程度を指定する。制御パラメータは、たとえば、ピッチ範囲係数PRFであってもよい。
【0034】
上側部分において、図3は、疑問文としてのイントネーションで発話された(基本周波数が最後の音節に向かって上昇する)短いドイツ語文「Britta kauft Schuhe?」(「Brittaは靴を買っているか?」)を表す発話信号の時間的波形を示す。4つの下側の部分図は、制御パラメータとして複数の異なる値のピッチ範囲係数PRF、特に、PRF=40%(基本周波数のピッチ範囲の低減)、PRF=100%(元の発話信号の変化なし)、PRF=150%(基本周波数のピッチ範囲の中程度の増大)およびPRF=200%(基本周波数のピッチ範囲の著しい増大)を使用した処理後の言語表現のスペクトログラムを示す。フォルマント周波数の進行が、黒点によって示されている。スペクトログラムおよびフォルマント周波数については、0Hz〜5000Hzの左手側周波数スケールが有効である。基本周波数の進行は、白線によって示されている(75Hz〜800Hzの右手側周波数スケール)。基本周波数の進行は、有声として分類されている時間部分についてのみ示されている。無声として分類されている時間部分について、基本周波数の進行は示されていない。
【0035】
図3は、特にPRF=150%およびPRF=200%の事例において、基本周波数が、PRF=100%の変化のない事例よりも明瞭に、文の終わりに向かってより強く増大することを明瞭に示している。それによって、補聴器を有する人は、この文が疑問文であるとより容易に認識することが可能である。図3において、また、黒点によって表されているフォルマント周波数がほとんど変化していないことも諒解される。
【0036】
先行する臨床研究および本発明者の最初の自己実験に基づいて、提案されている方法に従って処理されている発話信号に対して、イントネーションの知覚の大幅な改善を期待することができる。言及した臨床研究は、特定の単語または音節がそれらのピッチに関して手動で変更された、手動で処理された発話信号を使用した。手動変更を実施する者について、当該者が対応する言語(ドイツ語、英語、中国語、日本語、...)を知っており、オーディオ信号処理の基本知識がある場合、グラフで表されている信号波形内の対応する単語をマークし、上記信号部分に、修正基本周波数による線形予測コード化を受けさせることは問題ない。手動処理について、当該者は、特に、対応する言語の意味および構文の自身の知識を使用する。しかしながら、補聴器における応用については、コンピュータによる補助を受ける意味および構文の分析を伴う、記憶されているデータまたはデータ量に課される高い計算コストおよび高い要件なしにこれを行うことが望ましい。さらに、各言語(ドイツ語、英語...)についてのコンピュータによる補助を受ける意味および構文の分析は、一方では、補聴器を有する人にとって厄介であり得、他方では、意味および構文の分析においてプログラミングおよび人員の訓練に多大な労力を伴うことを意味する、異なるプログラムの実行または少なくとも異なる構成のロードを必要とする。一方、提案されている発明は、普遍的に、話者の言語とは無関係に使用することができ、所望の結果を信頼可能にもたらし、補聴器内のわずかな追加の信号処理労力しか必要としない。
【0037】
図4図6は、PRF値40%、150%および200%についての、元の基本周波数F0の修正基本周波数F0*への修正を概略的に示す。図面は各々、時間軸上に50個のブロックを示している。各ブロックは、N個のサンプルを含み得る。図4図6に表現されているすべての事例において、平均基本周波数は常に150Hzであり、点線として表現されている。平均基本周波数の決定は、移動平均として、たとえば、平均基本周波数があるブロックから次のブロックへと(わずかに)変化し得るように実施され得ることが留意されるべきである。
【0038】
図5において、差Δ=F0−F0*および修正差Δ・PRF=(F0−F0*)・PRFが、例示を目的としてグラフで表されている。差の代わりに、たとえば、商F0/F0*のような、瞬時基本周波数F0と平均基本周波数F0*値との間の異なる関係も使用されてもよい。
【0039】
図7は、本発明の実施形態による発話信号を処理するための概略流れ図を示す。ステップ71において、発話信号のある時間部分について、発話信号の瞬時基本周波数値F0が決定される。後続のステップ72において、いくつかの時間部分にわたる発話信号の平均基本周波数値F0*が決定される。その後、ステップ73において、瞬時基本周波数値F0が修正基本周波数値に修正される。この目的のために、たとえば、平均基本周波数値F0*に対する関係における瞬時基本周波数値F0の差または商が、特定の関数に従って変更される。それによって、基本周波数値がその中で変動する周波数範囲(特に、周波数範囲の幅)が修正され得る。ステップ74において、修正基本周波数値に基づいて、基本周波数に関して修正された発話信号が生成される。
【0040】
さらなる実施形態によれば、方法は、有声時間部分および無声時間部分の分類を含むことができ、瞬時基本周波数値および平均基本周波数値の上記決定は、有声として分類されている発話信号の時間部分を用いて実施されなければならない。一方で、無声として分類されている時間部分は通常、瞬時基本周波数値および平均基本周波数値の決定には使用されない。
【0041】
瞬時基本周波数値の決定は、線形予測コード化分析(LPC)の文脈の中で実施されてもよい。修正発話信号の生成は、線形予測コード化合成に従って実施されてもよく、その使用は、修正基本周波数値から成る。その代替的な実施形態によれば、修正発話信号の生成は、高速フーリエ変換(FFT)またはPSOLA(ピッチ同期重畳加算)に基づいてもよい。
【0042】
実施形態によれば、発話信号のフォルマント周波数は実質的に変更されない。一般的に、これは主に修正発話信号の生成に関連する。
【0043】
実施形態によれば、瞬時基本周波数値を修正するステップの間、平均修正基本周波数値が平均基本周波数値と実質的に同一のままであることを保証するために、注意が払われ得る。
【0044】
それを用いて差または商が変更される特定の関数は、たとえば、比例係数(PRF)を有する線形関数であってもよく、それによって、差または商が、比例係数を用いてスケーリングされる。
【0045】
実施形態によれば、基本周波数の過剰なまたは過度の変化を防止するために、修正基本周波数値は、下限値および上限値の少なくとも一方において制限されてもよい。
【0046】
実施形態によれば、方法は、いくつかの時間部分の中での基本周波数値の時間的不変性を決定することをさらに含んでもよい。時間的不変性がプリセットの(構成済みの)最小値を上回るときにのみ、瞬時基本周波数値が、平均基本周波数値に基づいて修正される。それによって、たとえば、話者が変化する場合に、遷移効果が望ましくない様態で基本周波数値の修正に影響を与えることが防止され得る。
【0047】
さらなる可能な実施形態によれば、方法は、話者の変化を検出するためのステップを含んでもよい。したがって、発話信号内で、第1の話者から別の話者への変化が発生した場合を検出することが可能である。第1の話者についての平均基本周波数の決定および瞬時基本周波数値の修正は、第1の話者に戻る、話者のもう1度の変化が検出されるまで中断することができる。
【0048】
たとえいくつかの態様がデバイスの文脈の中で説明されているとしても、上記態様は、対応する方法の説明をも表し、それによって、デバイスのブロックまたは構造構成要素はまた、対応する方法ステップまたは方法ステップの特徴としても理解されるべきであることが理解される。それと同様に、方法ステップの文脈の中でまたは方法ステップとして説明されている態様も、対応するデバイスの対応するブロックまたは詳細または特徴の説明を表す。方法ステップのいくつかまたはすべては、マイクロプロセッサ、プログラム可能コンピュータまたは電子回路のようなハードウェアデバイスによって(またはハードウェアデバイスを使用しながら)実施されてもよい。いくつかの実施形態において、最も重要な方法ステップのいくつかまたは一部は、そのようなデバイスによって実施されてもよい。
【0049】
したがって、本発明によるいくつかの実施形態は、本明細書に記載されている方法のいずれかが実施されるようにプログラム可能コンピュータシステムと協働することが可能である電子可読制御信号を含むデータキャリアを含む。
【0050】
一般的に本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装されてもよく、プログラムコードは、コンピュータプログラム製品がコンピュータ上で作動するときに方法のいずれかを実施するように動作可能である。
【0051】
プログラムコードはまた、たとえば、機械可読キャリア上に記憶されてもよい。
【0052】
他の実施形態は、本明細書に記載されている方法のいずれかを実施するためのコンピュータプログラムを含み、上記コンピュータプログラムは、機械可読キャリア上に記憶されている。
【0053】
したがって、言い換えれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で作動するときに、本明細書に記載されている方法のいずれかを実施するためのコンピュータコードを有するコンピュータプログラムである。
【0054】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載されている方法のいずれかを実施するためのコンピュータプログラムが記録されているデータキャリア(またはデジタル記憶媒体もしくはコンピュータ可読媒体)である。
【0055】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載されている方法のいずれかを実施するためのコンピュータプログラムを表すデータストリームまたは信号系列である。データストリームまたは信号系列は、たとえば、データ通信リンクを介して、たとえば、インターネットを介して転送されるように構成することができる。
【0056】
さらなる実施形態は、本明細書に記載されている方法のいずれかを実施するように構成または適合されている処理手段、たとえば、コンピュータまたはプログラム可能論理デバイスを含む。
【0057】
さらなる実施形態は、本明細書に記載されている方法のいずれかを実施するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0058】
本発明によるさらなる実施形態は、本明細書に記載されている方法の少なくとも1つを実施するためのコンピュータプログラムを受信機に送信するように構成されているデバイスまたはシステムを含む。送信は、たとえば、電子または光学式であってもよい。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスまたは同様のデバイスであってもよい。デバイスまたはシステムは、たとえば、コンピュータプログラムを受信機に送信するためのファイルサーバを含んでもよい。
【0059】
いくつかの実施形態において、プログラム可能論理デバイス(たとえば、フィールドプログラマブルゲートアレイ、FPGA)が、本明細書に記載されている方法の異能のいくつかまたはすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法のいずれかを実施するためにマイクロプロセッサと協働してもよい。一般的に、方法は、いくつかの実施形態において、任意のハードウェアデバイスによって実施される。上記ハードウェアデバイスは、コンピュータプロセッサ(CPU)のような任意の普遍的に適用可能なハードウェアであってもよく、または、ASICのような、本方法に特有のハードウェアであってもよい。
【0060】
上述した実施形態は、本発明の原理の例示を表すに過ぎない。本明細書に記載されている構成および詳細の修正および変更を、他の当業者は理解することが理解される。これが、本発明が実施形態の記載および説明を用いて本明細書において提示されている特定の詳細によってではなく、添付の特許請求項の範囲のみによって限定されることが意図されている理由である。
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】