(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-01
(54)【発明の名称】人が発声した倍音の認識または合成
(51)【国際特許分類】
G10L 15/187 20130101AFI20240423BHJP
G10L 25/18 20130101ALI20240423BHJP
G10L 25/51 20130101ALI20240423BHJP
G10L 25/90 20130101ALI20240423BHJP
【FI】
G10L15/187
G10L25/18
G10L25/51
G10L25/90
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2023571852
(86)(22)【出願日】2022-05-13
(85)【翻訳文提出日】2024-01-17
(86)【国際出願番号】 IB2022054502
(87)【国際公開番号】W WO2022243828
(87)【国際公開日】2022-11-24
(32)【優先日】2021-05-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】523436687
【氏名又は名称】フリードマン-ミンツ,ボリス
(74)【代理人】
【識別番号】110001999
【氏名又は名称】弁理士法人はなぶさ特許商標事務所
(72)【発明者】
【氏名】フリードマン-ミンツ,ボリス
(57)【要約】
人間の音声を表す波形の分析から得られた一連のスペクトルの各倍音スペクトル内に、基本音響周波数の整数倍で区切られた周波数を持つ2つ以上の基本または調和成分が特定される。410Hzより大きい最も高い調和周波数は、一次キャップ周波数であり、音響スペクトルが利用可能な音声和音の集合から、音声和音のサブセットに対応する一次音声音を選択するために使用される。また、スペクトルデータには、一次帯域、二次帯域(または二次音)、基底帯域、または低減基底帯域の音響成分の周波数を含めることができ、選択された一次音に対応する音声和音のサブセットから音声和音を選択するために使用できる。
【特許請求の範囲】
【請求項1】
人間の発話に由来する経時的電子波形内に表される1つまたは複数の音声和音を特定するためのコンピュータが実行する方法であって、
(a)波形から導出された音響スペクトルの時間的シーケンスのうちの複数の調和音響スペクトルの各々について、その調和音響スペクトル内の2つ以上の基本成分または調和成分を特定することであって、各特定された成分は、検出閾値を超える強度を有し、特定された成分は、その音響スペクトルに関連付けられた基本音響周波数の少なくとも1つの整数倍によって分離された周波数を有すること、
(b)複数の音響スペクトルの少なくともいくつかについて、特定された調和成分のうち最も高い調和周波数を一次キャップ周波数として特定することであって、この最も高い調和周波数も410Hzより大きいこと、および、
(c)(b)において一次キャップ周波数が特定された複数の音響スペクトルの各々について、特定された一次キャップ周波数を使用して、一次音声音として、1セットの音声音の中から少なくとも1つの音声音を選択することであって、選択された一次音声音は、1セットの音声音の中の音声和音のサブセットに対応すること、
のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用する、ことを含む方法。
【請求項2】
前記音響スペクトルの各々が、前記波形の時間的サンプル間隔のシーケンスのうちの1つに対応し、
(A)時間的シーケンスのうちの少なくともいくつかの音響スペクトルを、調和、非調和、混成、または無声のうちの1つのみに分類すること、
(B)パート(A)で調和として分類された時間的サンプル区間の少なくともいくつかについて、パート(a)から(c)を実行し、選択された主音を電子波形のその時間的サンプル区間に対応するものとして特定すること、
のためにプログラムされたコンピュータシステムの電子プロセッサのうちの1つまたは複数を使用することをさらに含む、請求項1に記載の方法。
【請求項3】
前記音響スペクトルの各々が、前記波形の時間依存音響スペクトルが単一の音声和音に一致したままである一連の別個の時間セグメントのうちの1つに対応し、
(A)前記時間セグメントのうちの少なくともいくつかを、その音響スペクトルに基づいて、調和、非調和、または混成のうちの1つのみとして分類すること、および、
(B)パート(A)で調和として分類された時間セグメントの少なくともいくつかについて、パート(a)から(c)を実行し、選択された主音を電子波形のその時間セグメントに対応するものとして特定すること、
のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用することをさらに含む、請求項1に記載の方法。
【請求項4】
プログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用して、経時的電子波形から音響スペクトルの時間シーケンスを導出することをさらに含む請求項1に記載の方法。
【請求項5】
1つ以上の異なる基本波成分または調和成分について、それぞれの検出閾値が音響周波数に応じて互いに異なる、請求項1に記載の方法。
【請求項6】
前記プログラムされたコンピュータシステムの電子プロセッサの1つまたは複数を使用して、前記波形から得られる音響スペクトルの時間的シーケンスのうちの調和音響スペクトルの少なくとも1つについて、前記調和音響スペクトル内で、基本音響周波数および検出閾値を超える強度を有する基本成分を特定することをさらに含む、請求項1に記載の方法。
【請求項7】
プログラムされたコンピュータシステムの電子プロセッサの1つまたは複数を使用して、(i)サブセットの音声和音に予想される調和周波数を示す保存データと、(ii)調和音響スペクトルの一次帯域の調和成分の調和周波数との比較に少なくとも部分的に基づいて、複数の音響スペクトルの特定の調和音響スペクトルについて、パート(c)の音声波和音のサブセットの中から音波和音を選択することをさらに含み、一次帯域は、一次キャップ周波数と、一次キャップ周波数より小さく、410Hzより大きく、410Hzより大きく一次キャップ周波数より小さい基本音響周波数の最小整数倍より大きい、基本音響周波数の1、2、または3の最大連続倍数における調和成分を含む、請求項1記載の方法。
【請求項8】
プログラムされたコンピュータシステムの電子プロセッサのうちの1つまたは複数を使用して、複数の音響スペクトルのうちの特定の調和音響スペクトルについて、(i)記憶されたデータであって、そのセットの音声和音に予想される調和周波数を示すデータと、(ii)調和音響スペクトルの副帯域の調和成分の調和周波数との比較に少なくとも部分的に基づいて、パート(c)のサブセットの中から音声和音を選択することをさらに含み、二次帯域は、410Hzより大きい基本音声周波数の最小整数倍よりも大きく、かつ、音響スペクトルが調和成分を欠く基本音声周波数の少なくとも1つの介在する倍数によって一次キャップ周波数から分離された1つまたは複数の調和音響周波数における調和成分を含む、請求項1に記載の方法。
【請求項9】
プログラムされたコンピュータシステムの電子プロセッサの1つまたは複数を使用して、複数の音響スペクトルの特定の調和音響スペクトルについて、パート(c)の選択を、(i)セットの音声和音について予想される調和周波数を示す保存データと、(ii)調和音響スペクトルの基底帯域の調和成分の調和周波数との比較に少なくとも部分的に基づいて行うことをさらに含み、基底帯域は、410Hzより小さいか、または410Hzと一次キャップ周波数との間にある基本音響周波数の最小の整数倍に等しい、1つまたは複数の基本または調和音響周波数における調和成分を含む、請求項1に記載の方法。
【請求項10】
特定された調和成分の最高調和音響周波数が410Hz未満である選択された調和音響スペクトルについて、プログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用して、(i)セットの音響スキーマに期待される調和周波数を示す(A)保存データと、(B)特定された各基本または調和成分の調和周波数との比較、および(ii)より高い周波数の非調和周波数成分の有無に少なくとも部分的に基づいて、調和または混成音響スキーマのセットからそれらのスキーマの1つを選択する、ことをさらに含む、請求項1に記載の方法。
【請求項11】
コンピュータが実行する方法であって、1セットの音声和音のそれぞれの調和音響スペクトルに予想される調和周波数を示す記憶データを生成し、
(a)セットの各音声和音について、1人または複数の人間の被験者がその音声和音を発声することから得られる複数の電子波形をスペクトル分析することであって、スペクトル分析は、各電子波形について、基本音響周波数の推定と、それぞれが検出閾値を超える強度と、基本音響周波数または基本音響周波数の整数倍に等しい調和音響周波数である音響周波数とを有する2つまたは複数の基本または調和成分の特定とを含むこと、および、
(b)特定された調和成分のうち、410Hzより大きい最も高い調和音響周波数を一次キャップ周波数として特定することであって、一次キャップ周波数が特定された各音声和音について、一次キャップ周波数の電子指標、および特定された各基本または調和成分の音響周波数を、一過性の伝搬信号ではない有形かつ非一過性のコンピュータ読み取り可能な記憶媒体に記憶すること、
のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用することを含む、方法。
【請求項12】
共通の主音を有する音声和音のサブセットについて、および1人または複数の人間の被験体による複数の異なる基本周波数での複数の発話について、(i)一次キャップ周波数から、音声和音のサブセットに対応する共通の主音の焦点周波数を推定することと、(ii)一過性の伝搬信号ではない、有形で非一過性のコンピュータ読み取り可能な記憶媒体に、主音の焦点周波数の電子指標を記憶することとをさらに含む、請求項11に記載の方法。
【請求項13】
検出閾値が音響周波数の関数として変化する、請求項11記載の方法。
【請求項14】
前記記憶されたデータは、前記セットの音波和音の少なくともいくつかについて、対応する調和音響スペクトルの一次帯域の調和成分の調和周波数を含み、前記一次帯域は、一次キャップ周波数、および基本音響周波数の1、2、3、またはそれ以上の最も大きい連続する倍数であって、(i)一次キャップ周波数より小さく、(ii)410Hzより大きく、(iii)410Hzより大きく一次キャップ周波数より小さい基本音響周波数の最も小さい整数倍より大きい倍数の調和成分を含む、請求項11に記載の方法。
【請求項15】
前記記憶されたデータは、前記セットの音声和音の少なくともいくつかについて、対応する調和音響スペクトルの二次帯域の調和成分の調和周波数を含み、前記二次帯域は、410Hzより大きい基本音響周波数の最小整数倍より大きく、音響スペクトルが調和成分を欠く基本音響周波数の少なくとも1つの介在する倍数によって一次キャップ周波数から分離された調和音響周波数における1つまたは複数の調和成分を含む、請求項11に記載の方法。
【請求項16】
前記記憶されたデータは、前記セットの音声和音の少なくともいくつかについて、対応する調和音響スペクトルの基底帯域の調和成分の調和周波数を含み、前記基底帯域は、410Hzより小さいか、または410Hzと一次キャップ周波数との間にある基本音響周波数の最小の整数倍に等しい1つまたは複数の基本音響周波数または調和音響周波数における1つまたは複数の調和成分を含む、請求項11に記載の方法。
【請求項17】
(a)付加的な調和音響スキーマまたは混成音響スキーマの各1つについて、1人または複数の人間の被験者がそのスキーマを発話した際に得られる複数の電子波形をスペクトル分析することであって、各電子波形について、スペクトル分析は、基本音響周波数の推定と、それぞれが検出閾値を超える強度と基本音響周波数または基本音響周波数の整数倍に等しい調和音響周波数を有する2つ以上の基本または調和成分の特定であって、基本および調和音響周波数のそれぞれが410Hz未満である、特定と、
(b)パート(a)で複数の波形が分析された各音響スキーマについて、一過性の伝搬信号ではない、有形かつ非一過性のコンピュータ読み取り可能な記憶媒体に、特定された各基本または調和成分に関する1つまたは複数の基本および調和音響周波数、および高周波の非調和波成分の有無を電子的に示す情報を記憶すること、をさらに含む請求項11に記載の方法。
【請求項18】
電子波形の時間的セグメントを合成し、その波形セグメントを電気音響変換器に適用したときに、1セットの音声和音の中から選択された音声和音の音を生成するためのコンピュータが実行する方法であって、
(a)選択された音声和音に対応する主音と、その主音の焦点周波数とを示す受信、検索、または計算されたデータを使用して、焦点周波数と選択された基本音波周波数とを使用して主キャップ周波数を決定することであって、一次キャップ周波数は、(i)選択された基本音波周波数の整数倍であり、(ii)410Hzより大きく、(iii)他の音声の焦点周波数よりも対応する主音の焦点周波数に近いこと、および、
(b)波形セグメントに、一次キャップ周波数の調和成分を含めることであって、一次キャップ周波数は、波形セグメントに含まれる他のすべての調和成分の音響周波数よりも大きいこと、
のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用する、ことを含む方法。
【請求項19】
人間の発話を一緒に構成する、非調和セグメントまたは無声セグメント、およびそれらの間の移行セグメントとともに、複数の異なる調和セグメントまたは混成セグメントの時間的シーケンスの中の各音声和音について、請求項18に記載の方法を繰り返すことをさらに含む、請求項18に記載の方法。
【請求項20】
選択された音声和音の音を生成するための波形セグメントを電気音響変換器に適用することを含む、請求項18に記載の方法。
【請求項21】
前記セットの1つまたは複数の音声和音について、前記波形セグメントに一次帯域の調和成分を含めることをさらに含み、一次帯域は、一次キャップ周波数、および基本音響周波数の1、2、3、またはそれ以上の最も大きい連続する倍数であって、(i)一次キャップ周波数未満、(ii)410Hzより大きい、(iii)410Hzより大きくかつ一次キャップ周波数未満の基本音響周波数の最も小さい整数倍より大きい、1、2、3、またはそれ以上の最も大きい連続する倍数の調和成分を含む、請求項18に記載の方法。
【請求項22】
前記セットの1つまたは複数の音声和音について、前記波形セグメントに一次帯域の調和成分を含み、前記一次帯域は、一次キャップ周波数、および基本音響周波数の少なくとも3つの最大連続倍数であって、(i)一次キャップ周波数未満であり、(ii)410Hzより大きく、(iii)410Hzより大きくかつ一次キャップ周波数未満の基本音響周波数の最小整数倍より大きい、少なくとも3つの最大連続倍数の調和成分を含む、請求項18に記載の方法。
【請求項23】
前記セットの1つまたは複数の音声和音について、
(a)選択された音声和音に対応する二次的な音声とその二次的な音声の焦点周波数を示す受信、検索、または計算されたデータを使用して、焦点周波数と選択された基本音響周波数を使用して二次キャップ周波数を決定することであって、二次キャップ周波数は、(i)選択された基本周波数の整数倍であり、(ii)410Hzより大きく、(iii)他の音声の焦点周波数よりも対応する二次的な音声の焦点周波数に近い、ことと、
(b)波形セグメントに1つ以上の二次帯域の調和成分を含み、二次帯域は、(i)410Hzより大きい基本音響周波数の最小整数倍よりも大きく、(ii)二次キャップ周波数以下である調和音響周波数の調和成分を含むこと、
をさらに含む請求項18に記載の方法。
【請求項24】
前記セットの1つまたは複数の音声和音について、波形セグメントに基底帯域の1つまたは複数の調和成分を含めることをさらに含み、基底帯域は、(i)410Hz未満、または(ii)410Hzと一次キャップ周波数との間にある基本音響周波数の最小整数倍に等しい1つまたは複数の基本音響周波数または調和音響周波数における調和成分を含む、請求項18に記載の方法。
【請求項25】
前記音響スキーマのセットのうちの選択された調和または混成音響スキーマに対応する電子波形の少なくとも1つの追加的な時間セグメントについて、低減基底帯域のみの1つまたは複数の調和成分を追加的な波形セグメントに含めることであって、低減された基底帯域は、410Hz未満の1つまたは複数の基本または調和音響周波数における調和成分のみを含むこと、をさらに含む請求項18に記載の方法。
【請求項26】
前記音響スキーマのセットのうちの選択された調和または混成音響スキーマに対応する電子波形の少なくとも1つの追加的な時間セグメントについて、追加波形セグメントに、(i)低減基底帯域のみの1つまたは複数の調和成分を含めることをさらに含み、低減基底帯域は、410Hz未満の1つまたは複数の基本または調和音響周波数の調和成分のみを含み、(ii)1つまたは複数の高周波非調和波成分を含む、請求項18に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の分野は、人間が発声した発話の認識または合成に関する。特に、人間が発声した調和音を認識または合成するためのコンピュータが実行する方法が開示される。
【背景技術】
【0002】
発話の処理または合成の装置または方法のいくつかの例が、以下に開示されている。
- 1995年04月11日付けで Jarvinen に付与され、『Noise attenuation system』と題された米国特許第5,406,635号。
- 2004年09月16日付けでGaoの名において発行され、『Voicing index controls for CELP speech encoding』と題された米国特許出願公開第2004/0181411号。
- 2005年08月02日付でGaoに付与され、『Method and apparatus for improved noise reduction in a speech encoder』と題された米国特許第6,925,435号。
- 2009年04月07日付でSeltzer等に付与され、『Method and apparatus using harmonic-model-based front end for robust speech recognition』と題された米国特許第7,516,067号。
- 2009年12月15日付でFukudaに付与され、『Speech recognition method for determining missing speech』と題された米国特許第7,634,401号。
- 2013年10月22日付でPinson 等に付与され、『System and method for automatic speech to text conversion』と題された米国特許第8,566,088号。
- 2013年12月10日付でLi等に付与され、『Speech enhancement through partial speech reconstruction』と題された米国特許第8,606,566号。
- 2014年08月19日付でFukuda等に付与され、『System, method and program for speech processing』と題された米国特許第8,812,312号。
- 2015年07月21日付でIchikawa等に付与され、『Noise reduction method, program product, and apparatus』と題された米国特許第9,087,513号。
- 2015年11月15日付でIchikawaに付与され、『Local peak weighted-minimum mean square error (LPW- MMSE) estimation for robust speech』と題された米国特許第9,190,072号。
- 2017年02月14日付でPinsonに付与され、『System and method for noise reduction in processing speech signals by targeting speech and disregarding noise』と題された米国特許第9,570,072号。
- Dieter Maurer著、『Acoustic of the Vowel: Preliminaries』、Peter Lang AG、Bern 2016。
- Bruno H. Repp著、『Categorical Perception: Issues, Methods, Findings』、SPEECH AND LANGUAGE: Advances in Basic Research and Practice, Vol. 10 p. 243 (Academic Press 1984)、https://doi.org/10.1016/B978-0-12-608610-2.50012-1。
- 2015年09月29日付でFridman-Mintz (本発明の発明者)に付与され、『Syllable based speech processing method』と題された米国特許第9,147,393号。
- 2016年10月04日付でFridman-Mintz(本発明の発明者)に付与され、『Method and apparatus for electronically recognizing a series of words based on syllable-defining beats』と題された米国特許第9,460,707号。
- 2017年08月29日付でFridman-Mintz(本発明の発明者)に付与され、『Method and apparatus for electronically synthesizing acoustic waveforms representing a series of words based on syllable-defining beats』と題された米国特許第9,747,892号。
【0003】
上に挙げた(それぞれFridman-Mintzに付与された)最後の3つの特許は、参照により、その全体が本明細書に記載されているかのように組み込まれる。
【発明の概要】
【0004】
人間の発話に由来する経時的電子波形内に表される1つまたは複数の音声和音(例えば、調和音(ハーモニック音:harmonic phones)を特定するために、コンピュータが実行する方法が採用される。ある実施態様では、波形から得られる音響スペクトルの時間的シーケンスから、その時間的シーケンスの中の複数の調和(ハーモニック)音響スペクトルの各々が分析され、その調和音響スペクトル内で、各々が検出閾値を超える強度を有する2つ以上の基本または調和成分が特定される。特定された成分は、その音響スペクトルに関連する基本音響周波数の少なくとも1つの整数倍で区切られた周波数を有する。複数の音響スペクトルの少なくともいくつかについて、一次キャップ周波数が特定され、一次キャップ周波数は410Hzより大きく、特定された調和成分の中で最も高い調和周波数でもある。一次キャップ周波数が特定された各音響スペクトルについて、その特定された一次キャップ周波数は、1セットの音声の中から少なくとも1つの音声音を一次音声音として選択するために使用される。選択された一次音声音は、1セットの音声和音の中の音声和音のサブセットに対応する。
【0005】
ある実施態様では、時間的シーケンスの音響スペクトルは、波形の時間的サンプル間隔のシーケンスのうちの1つに対応するものであってもよく、他の実施態様では、音響スペクトルは、波形の時間依存音響スペクトルが単一の音声和音に一致したままである、別個の時間的セグメントのシーケンスのうちの1つに対応する。場合によっては、(それぞれ後述する)一次帯域(一次バンド)、二次帯域(二次バンド)、基底帯域(ベースバンド)、または低減基底帯域(低減ベースバンド)のうちの1つ以上を含む調和音響スペクトルに存在する調和成分に基づいて、音声和音を選択することができる。
【0006】
人間が発声した音声を分析し、上記の方法における調和音声和音の特定に使用できるスペクトルデータを生成するために、コンピュータが実行する方法が採用されている。各音声和音について、1人または複数の人間の被験者によるその音声和音の発声から得られた波形がスペクトル分析される。スペクトル分析には、各電子波形について、基本音響周波数の推定と、それぞれが検出閾値を超える強度を有し、基本音響周波数またはその調和である音響周波数を有する2つ以上の基本または調和成分の特定が含まれる。一次キャップ周波数は、各音声和音について特定され、特定された各基本または調和成分の音響周波数とともに記憶される。焦点周波数は、観測された一次キャップ周波数(例えば、平均値、または中央値)を使用して、音声和音のサブセットに共通する一次音声について推定することができる。場合によっては、記憶されたスペクトルデータは、一次帯域、二次帯域、基底帯域、または低減基底帯域のうちの1つ以上のデータを含むことができる。
【0007】
電子波形の時間的セグメントを合成するためのコンピュータが実行する方法が採用される。この波形セグメントを電気音響変換器に適用することにより、音声和音が生成される。選択された音声和音に対応する一次音声と、その一次音声の焦点周波数を示すデータは、一次キャップ周波数を決定するために使用される。一次キャップ周波数は、(i)選択された基本周波数の整数倍であり、(ii)410Hzより大きく、(iii)他の音声の焦点周波数よりも、対応する主音の焦点周波数に近い。一次キャップ周波数の調和成分が波形セグメントに含まれる。一次キャップ周波数は、波形セグメントに含まれる調和成分の中で最大の周波数である。波形セグメントには、一次帯域、二次帯域、基底帯域、または低減基底帯域の1つまたは複数の調和周波数の成分をさらに含めることができる。この方法は、複数の異なる調和セグメントまたは混成セグメント、非調和セグメントまたは無声セグメント、およびそれらの間の移行セグメントとともに、人間の発話を構成する時間的シーケンスの中の各音声和音について繰り返すことができる。
【0008】
人間の音声の認識または合成に関する目的および利点は、図面に図示され、以下の説明または添付の特許請求の範囲に開示される例示的な実施形態を参照することにより明らかになるであろう。
【0009】
本概要は、詳細な説明に後述する概念の一部を簡略化して紹介するために提供される。本概要は、特許請求される主題の主要な特徴または本質的な特徴を特定することを意図したものではなく、特許請求される主題の範囲を決定する際の補助として使用することを意図したものでもない。
【図面の簡単な説明】
【0010】
【数1】
音声和音の音響スペクトルの例である。強度検出閾値、基部キャップ周波数、二次キャップ周波数、および一次キャップ周波数は、対応する周波数で示されている。
【
図2】
図2は、基本的な音声の音響スペクトルデータ表の一例であり、各音声の後に、その定義焦点周波数(例えば、対応する音声カテゴリの平均、中央値、またはその他の特徴的なキャップ周波数)が続く。この表は、すべての音声言語において、調和音声を音声和音として分類特定するための、音響学に基づく基準として提案されている。3番目の列は、提案されている音声のセットが、国際音声学会(IPA)の標準アルファベットで表される特定の音声とどのように相関しているかを示している。
【
図3A】
図3Aおよび
図3Bは、録音された複数の音声和音について、その一次キャップ周波数と(該当する場合は)二次キャップ周波数を示す音響スペクトルデータ表の一例である。音響データは、John Wells、Jill Flouse、Peter Ladefogedの録音から抽出した(phonetics.ucla.edu/course/chapter1/wells/wells.htmlで入手可能)。
【
図3B】
図3Aおよび
図3BBは、録音された複数の音声和音について、その一次キャップ周波数と(該当する場合は)二次キャップ周波数を示す音響スペクトルデータ表の一例である。音響データはJohn Wells、Jill Flouse、Peter Ladefogedの録音から抽出した(phonetics.ucla.edu/course/chapter1/wells/wells.htmlで入手可能)。
【数2】
の和音に対する時間波形と対応する音響スペクトルの例を示している。
図4Aの波形は基本周波数192Hzで合成され、
図4Bの波形は録音されたもので、推定基本周波数211.4Hzを示している。
【数3】
の和音に対する時間波形と対応する音響スペクトルの例を示している。
図4Aの波形は基本周波数192Hzで合成され、
図4Bの波形は録音されたもので、推定基本周波数211.4Hzを示している。
【
図5】
図5は、推定基本周波数103.4Hzの2音
【数4】
和音を録音した場合の時間波形と対応する音響スペクトルの例である。
【数5】
の和音に対する時間波形と対応する音響スペクトルの例を示している。
図6Aの波形は録音されたもので、推定基本周波数127Hzを示し、
図6Bの波形は基本周波数127Hzを用いて合成されたものである。
【数6】
の和音に対する時間波形と対応する音響スペクトルの例を示している。
図6Aの波形は録音されたもので、推定基本周波数127Hzを示し、
図6Bの波形は基本周波数127Hzを用いて合成されたものである。
【
図7】
図7は、推定基本周波数138.4Hzの2音
【数7】
和音を録音した場合の経時的波形と対応する音響スペクトルの例である。
【
図8】
図8は、推定基本周波数138.4Hzを用いて合成された2音
【数8】
和音の経時的波形と対応する音響スペクトルの例である。
【発明を実施するための形態】
【0011】
図面に描かれている例または実施形態は、概略的に示されているに過ぎず、全ての特徴が完全に詳細に示されているわけでも、適切な比率で示されているわけでもなく、明確にするために、特定の特徴または構造が、他の特徴または構造に対して誇張または低減されている場合もあれば、完全に省略されている場合もある。図面は、縮尺通りであると明示的に示されていない限り、縮尺通りであるとみなされるべきではない。図示された実施形態は例示に過ぎず、本開示または発明的主題の範囲を限定するものと解釈されるべきではない。同一の参照番号は、異なる図全体を通して同様の要素を指す。
【0012】
以下の詳細な説明は、図面を参照して読まれるべきである。詳細な説明は、例として主題の原理を説明するものであり、限定するものではない。
【0013】
本明細書で開示する方法は、音声和音(例えば、母音、鼻母音、鼻音、および近似音などの調和音)については、調和音響スペクトル成分(すなわち、基本音響周波数の整数倍の周波数を有する成分)が、それらの音声和音を伝達する言語学的に関連する情報の中核を担うという観察に部分的に依拠している。したがって、開示された方法には、このような調和成分の検出、特定、または生成を使用する音波和音の認識または合成が含まれる。各音声は(例えば、
図2のリストの例のように)基本的な和音要素に対応し、各音声和音は、(例えば、
図3Aおよび
図3Bのリストの例のように)与えられた音声のコンテキストにおいて複数の和音周波数を含むことができる。
【0014】
発話認識システムを動作させる一環として、人間の音声の発話に由来する経時的な電子波形内に表される1つまたは複数の音声和音を特定するためのコンピュータが実行する方法が採用される。音響スペクトルの時間シーケンスが、(後述する)適切な方法で波形から導出され、それらの音響スペクトルの一部が、調和音響スペクトル、すなわち、基本音響周波数の1または複数の整数倍の周波数成分を含むスペクトルであると特定される。時間シーケンス内の調和音響スペクトルの一部またはすべてについて、検出閾値を超えるそれぞれの強度を有し、その調和音響スペクトルの対応する基本音響周波数の整数倍で区切られる2つ以上の基本または調和成分が特定される。いくつかの例では、様々な理由により、基本周波数成分が失われるかまたは隠される可能性がある。この理由は、例えば、近傍の他の強度の高い周波数成分との干渉、音響経路の障害物による減衰、小柄な話者による低音域の生成の弱さなどである。調和スペクトルに基本波成分が存在しない場合でも、その調和スペクトルは、対応する基本音響周波数によって特徴付けることができ、その整数倍が調和スペクトルの調和成分を分離する。
【0015】
基本波成分および調和成分は、通常、(例えば、
図1のような)バックグラウンドレベルより高いピーク状のスペクトル特徴として現れる。成分の対応する周波数は、例えば最大強度の周波数や成分の重心など、適切な方法で定義することができる。スペクトル特徴の幅がゼロでない場合、それらの特徴に対応する周波数を割り当てる際にある程度の不確実性が生じる可能性があり、通常、スペクトル特徴が基本周波数の整数倍であるかどうかを判断する際にはある程度の余裕がある。成分の強度は、例えば最大強度やピーク強度、あるいは積分強度など、適切な方法で特徴付けることができる。強度は、通常、バックグランドノイズレベル、聴力閾値レベル、あるいは別の基準レベルに対する相対的な用語(例えばデシベル)で表される。相対強度がどのように定義されようとも、所与のスペクトル特徴が所与の調和スペクトルの基本または調和成分として「検出」され、「特定」されたかどうかを決定するために、適切な検出閾値を選択することができる。いくつかの例では、あるデシベルレベルが、選択された基準レベルを上回るか、バックグラウンドノイズレベルを上回るか、指定されるかもしれない。いくつかの例では、(例えば、
図1のように)、検出閾値は周波数に依存するため、スペクトルの基本波成分と調和成分で異なることがある。
【0016】
調和音響スペクトルの少なくともいくつかについて、特定された調和成分の中で最も高い調和周波数である一次キャップ周波数が特定される。ただし、最高高調波周波数も410Hzより大きい。そのような一次キャップ周波数が特定された各調和音響スペクトルについて、その一次キャップ周波数は、(例えば、
図2の表のような)基本音声音のセットの中から少なくとも1つの音声音を選択するために使用される。このような選択が可能になるのは、人間が発した数多くの音声和音を記録・分析することにより、発せられた特定の音声和音と最も密接に相関するのが一次キャップ周波数であることが観察されているからである。(例えば、
図2のような)基本音声音の表を作成するために収集されたデータには、各音声音について、特徴的な一次キャップ周波数(すなわち、焦点周波数)と、それが相関する一次記号ラベルを含めることができる。他の音声音データセットを採用することもできる。そのような音声音データセットの生成については後述する。他の音声認識システムは、母音の知覚および認識はカテゴリ知覚や特徴分析に基づくものではないという仮定のもと、音響スペクトルに存在するあらゆる調和成分を実質的に無視しながら、基本周波数、および場合によっては2つまたは3つのフォルマント(基本周波数から独立した周波数値を持つ、時間的に整列した強度のピーク)に依存することが多い。本明細書で開示する方法は、対応する音声和音とその1つ以上の構成音声を特定するために、これまで利用されていなかったこれらの調和スペクトル成分を利用し、母音の特定が、場合によってはプロトタイプのカテゴリ知覚に基づくことができることを実証する。
【0017】
異なるピッチ(すなわち、異なる基本周波数)で発声された所定の音声和音について、一次キャップ周波数は変化する可能性があるため、確定的な特定(たとえば、
図2のデータテーブルからの一義的な選択)を常に実現することはできない。
図3Aおよび
図3Bの表に、インスタンス化された和音データの例を示す。インスタンス化された一次キャップの各周波数は、隣接する音声音のペア(例えば、表2)の焦点周波数の間に入るか、さもなければ最も高い焦点周波数よりも高い。一対の音声音(
図3Aおよび
図3Bの表では「特定された」和音および「近接した」和音とラベル付けされている)の間にある場合、インスタンス化された音声和音は、これら2つの音声音のうちの1つ(この例では「特定された」和音)に対応するものとして特定することができる。最高焦点周波数を超える(例えば、
図2の表では4160Hzを超える)場合、インスタンス化された和音は、
音声音に対応するものとして特定できる。いくつかの例では、インスタンス化された音声和音は、隣接する音声音のペアのうち、インスタンス化された一次キャップ周波数により近い焦点周波数を持つ音声音に対応するものとして特定される。
図3Aおよび
図3Bの表の信頼度の列は、対応する隣接する焦点周波数のペアに対する、インスタンス化された一次キャップ周波数の相対的な近さを示す。特定のインスタンス化されたハーモニックスペクトルと一致する可能性のある、異なる可能性のある音声和音を決定するために、他の適切なテストまたはアルゴリズムを採用することができる。いくつかの例では、人工知能(Al)システムまたはニューラルネットワークを訓練して選択を行うことができる。いくつかの例では、いわゆる「ファジー論理」アルゴリズムを採用することができる。いくつかの例では、観測された一次キャップ周波数、二次キャップ周波数、または基部キャップ周波数(さらに後述)と一致する焦点周波数を有する異なる音声を区別するために、観測された調和スペクトルの追加の基本または調和スペクトル成分(例えば、後述する一次帯域、二次帯域、基部帯域)の特定を採用することができる。
【0018】
一部の例示的な方法は、経時的電子波形から音響スペクトルの時間シーケンスを導出することを含むものであってもよく、他の例では、音響スペクトルの時間シーケンスは、方法を実行する前に電子波形から既に導出されている。いずれの場合も、音響スペクトルの時間シーケンスは、例えば、電子スペクトルアナライザを使用して電子波形自体を処理する、またはフーリエ変換技術を使用して波形の数値表現を処理するなど、適切な方法で波形から導出することができる。
【0019】
いくつかの例では、音響スペクトルの各々は、波形の時間的サンプル間隔のシーケンスのうちの1つに対応し、そのようなサンプル間隔は、等しい持続時間であり得るが、必ずしもそうである必要はない。このような時間的シーケンスのうちの少なくともいくつかの音響スペクトルは、調和、非調和、混成、または無声のうちの1つにのみ分類することができる。調和として分類された時間的サンプル間隔の少なくともいくつかについて、上述または後述の方法を採用して、電子波形のその時間的サンプル間隔に対応する音声和音(それぞれ特徴的な音の組み合わせを含む)のセットの中から音声和音を特定することができる。
【0020】
いくつかの例では、音響スペクトルの各々は、その時間依存音響スペクトルが単一の音声和音と一致したままである一連の異なる時間セグメントのうちの1つに対応する。音響スペクトルが「単一の音声和音と一致したままである」という判断は、和音をすでに特定していなくても行うことができ、異なる和音を示す音響スペクトルへの遷移が発生していないことが観察されればよい。時間セグメントの少なくともいくつかは、その音響スペクトルに基づいて、和声、非和声、混成、無声のいずれか1つにのみ分類することができる。調和として分類された時間セグメントの少なくともいくつかについては、上述または後述する方法を採用して、電子波形のその時間セグメントに対応するものとして、1セットの音声和音の中から音声和音を特定することができる。
【0021】
一次キャップ周波数に加えて、付加的な基本周波数または調和周波数を特定することで、時間シーケンス内の調和スペクトルに対応する音声和音の特定をさらに容易にすることができる。場合によっては、付加的な基本周波数または調和成分の特定は、類似した一次キャップ周波数を持つ音声和音を区別するのに役立つ。付加的な基本成分または調和成分は、一次帯域、二次帯域、または基音帯域のうちの1つ以上を形成する例もある。
【0022】
いくつかの例では、時間シーケンスの少なくともいくつかの調和スペクトルにおいて、調和成分の一次帯域を特定することができる。一次帯域は、一次キャップ周波数、および(i)一次キャップ周波数より小さく、(ii)410Hzより大きく、(iii)410Hzより大きい基本音波周波数の最小整数倍より大きい、基本音波周波数の1、2、3、またはそれ以上の最大連続倍数における調和成分を含むことができる。音声和音セットの記憶データには、一次キャップ周波数に加えて、一次帯域の他の調和成分の周波数を含めることができる。その一次帯域のデータと、電子波形から得られる特定の調和スペクトルの観測された周波数との比較に基づいて、セットの音声和音を、その調和スペクトルおよび波形の対応する時間部分に対応するものとして選択することができる。
図4A/4B、
図5、
図6A/6B、
図7、および
図8は、録音および合成された波形と、調和成分の一次帯域に基づいて潜在的に区別できる調和スペクトルのいくつかの例を示している。
【0023】
いくつかの例では、時間シーケンスの少なくともいくつかの調和スペクトルにおいて、調和成分の二次帯域を特定することができる。二次帯域は、410Hzを超える基本音響周波数の最小整数倍よりも大きく、音響スペクトルが調和成分を欠く基本音響周波数の少なくとも1つの介在する倍数によって一次キャップ周波数から分離される1つ以上の調和音響周波数における調和成分を含むことができる。言い換えれば、二次帯域は、一次帯域の最低周波数成分と二次帯域の最高周波数成分との間の「調和ギャップ」または1つ以上の「欠落した倍音」を下回る。二次帯域の最高周波数成分の周波数は、二次キャップ周波数と呼ばれることがある。
【0024】
音声和音のセットについて記憶されたデータには、一次キャップ周波数(または対応する一次記号)に加えて、二次キャップ周波数(または対応する二次記号)および二次帯域の1つまたは複数の他の調和成分の周波数(もしあれば)を含めることができる。その二次帯域データと、電子波形から得られる特定の調和スペクトルの観測された周波数との比較に基づいて、その調和スペクトルおよび波形の対応する時間的部分に対応するものとして、セットの音声和音を選択することができる。例えば、二次帯域を観察することにより、(i)一次帯域から1つだけ欠落した倍音によって分離された二次帯域を有する第1の音声和音と、(ii)一次帯域から2つ以上の欠落した倍音によって分離された二次帯域を有する第2の音声和音とを区別することができる。いくつかの例では、二次帯域データと観測成分の比較は、一次帯域データと観測成分の比較と併せて使用することができる。他の例では、一次帯域データと成分を使用せずに、二次帯域データと成分を使用することができる。
図4A/4B、
図5、
図6A/6B、
図7、および図 8 は、調和成分の二次帯域に基づいて区別される可能性のある、記録および合成された波形と調和スペクトルのいくつかの例を示している。
【0025】
いくつかの例では、時間シーケンスの少なくともいくつかの調和スペクトルにおいて、調和成分の基底帯域を特定することができる。基底帯域は、410Hz未満の1つ以上の基本または調和音響周波数における調和成分を含むことができ、410Hzを超える最小の調和音響周波数における調和成分を含むこともできる(その調和周波数が一次キャップ周波数である場合を除く)。基底帯域の最も高い周波数成分の周波数は、基底キャップ周波数と呼ぶことができる。一次キャップ周波数が410 Hzを超える唯一の調和周波数でもある例では、調和スペクトルは一次キャップ成分と基底帯域成分のみを含み、他の一次帯域成分や二次帯域成分はない。保存された和音セットのデータには、一次キャップ周波数(または対応する一次音声音)に加えて、基音キャップ周波数と、基音帯域の1つまたは複数の他の倍音成分の周波数を含めることができる。。その基音帯データと、電子波形から得られる特定の調和スペクトルの観測周波数との比較に基づいて、その調和スペクトルおよび波形の対応する時間的部分に対応するものとして、セットの音声和音を選択することができる。
【0026】
いくつかの例では、基底帯域データと観測された成分の比較は、一次帯域データと観測された成分の比較と組み合わせて使用することができ、他の例では、基底帯域データと成分は、二次帯域データと観測された成分の比較と組み合わせて使用することができ、他の例では、基底帯域データと成分は、一次帯域データと二次帯域データの両方と観測された成分の比較と組み合わせて使用することができ、他の例では、基底帯域データと成分は、一次帯域データと二次帯域データのいずれとも使用せずに使用することができる。
図4A/4B、
図5、
図6A/6B、
図7、および
図8は、調和成分の基底帯域に基づいて区別できる可能性のある、記録および合成された波形と調和スペクトルのいくつかの例を示している。
【0027】
いくつかの例では、時間的シーケンスの調和音響スペクトルは、410 Hz 未満の上限周波数を持つ基底帯域成分のみを含む場合がある。このような調和音響スペクトルは、低減基底帯域と呼ばれ、特定の調和音響スキーマ(例えば、鼻音、鼻音化母音、または近似音)または混成音響スキーマ(例えば、有声摩擦音)に対応することができる。これらの音響スキーマの保存データは、低減基底帯域の調和成分の周波数を含むことができる。その低減基底帯域データと、電子波形から得られる特定の調和スペクトルの観測周波数との比較に基づいて、セットの調和または混成音響スキーマを、その調和スペクトルおよび波形の対応する時間的部分に対応するものとして選択することができる。高周波の非調和周波数成分の有無も、(i)低減基底帯域調和スキーマ(たとえば、
図2の第1列に対応)および (ii 混成スキーマ(たとえば、
などの有声摩擦音)を区別するために使用できる。
【0028】
発音された人間の発話内の音声音および和音を認識するために本明細書で開示される様々な方法は、各音声音または和音について予想される調和周波数を含む、複数の音声音または和音それぞれの調和スペクトルを示す記憶されたデータに依存する(例えば、
図2、3A、および3Bの表)。1セットの音声音および和音についてそのデータを生成する方法には、ある特定の音または単語を明瞭に発音するよう指示された1人または複数の人間の被験者が、指示された発音のラベル付け情報を保持した状態で、音声和音の複数の発話について音響スペクトル分析を実行することを含めることができる。このようなプロセスは、人間の発話を表す波形内で各音声和音が発生したときに、それを認識するようにシステムに「教える」ことと類似している。一部の例では、特定の被験者の発話を認識するためにシステムを訓練するために、単一の人間の被験者の発話に基づいて調和スペクトルデータを生成することができる。他の例では、より一般的な音声認識のためにシステムを訓練するために、複数の人間の被験者の発話の平均または他の分析に基づいて、音声スペクトルデータを生成することができる。
【0029】
各音声音または和音について、スペクトル分析には、基本音響周波数の推定と、スペクトル内で検出または特定された2つ以上の基本または調和成分の特定が含まれる。上述したように、「検出」または「特定」される成分は、1つまたは複数の適切に定義された検出閾値を超える強度を有するものである。各成分は、基本音響周波数または調和音響周波数(すなわち、基本音響周波数の整数倍)である音響周波数を有する。スペクトルは基本音響周波数によって特徴付けられるが、スペクトルはその基本音響周波数に基本成分を含んでも含まなくてもよい。特定された倍音成分のうち、410 Hzより大きい最も高い調和音響周波数が一次キャップ周波数として特定され、その周波数は音声コードのデータの一部として保存される。また、上述したように、特定された各基本または調和成分の音響周波数も保存される。一部の和音については、上述したように、一次帯域、二次帯域、基音帯域のうち1つ以上の特定された調和成分の音響周波数もデータに含めることができる。
【0030】
音声音の焦点周波数を推定するには、1人または複数の被験者が複数の異なる基本周波数で音声和音のサブセットを複数回発声し、スペクトル分析する。サブセットの音声和音は主音を共有している。共通する主音の焦点周波数は、発声された音声和音の一次キャップ周波数から推定することができる。焦点周波数は、観察された一次キャップ周波数から、観察された一次キャップ周波数の平均値や中央値など、適切な方法で推定することができる。
【0031】
いくつかの調和的な音響スキーマ(例えば、鼻音、鼻音化母音、または近似音)または混成音響スキーマ(例えば、有声摩擦音)では、スペクトル分析により、基本または調和的な成分が、低減基底帯域周波数として上述した410 Hz未満の周波数でのみ特定される場合がある。これらの低減基底帯域成分の音響周波数は、対応する調和または混成音響スキーマを記述するデータセットに含めることができ、それぞれ、より高い周波数の非調和成分が存在しないか、または存在するかのインジケータも含まれる。
【0032】
人間が発声した発話における音声音および和音の認識における調和成分の重要性を認識することで、発話合成の改善も可能になる。和音を認識するために使用される上述のスペクトルデータは、和音を生成するために使用することもできる。選択された音声和音を合成するために、対応する主音(一次音)と選択された基本周波数(すなわちピッチ)に基づいて一次キャップ周波数を決定することができる。調和音声和音の場合、一次キャップ周波数は、(i)選択された基本周波数の整数倍であり、(ii)410Hzより大きく、(iii)他の音声音の焦点周波数よりも対応する主音の焦点周波数に近い。主音の周波数の周波数成分は、合成された波形セグメントに含まれる。いくつかの例では、選択された音声和音が二次音を含む場合、二次キャップ周波数を、主音とキャップ周波数について上述したように決定し、二次キャップ周波数における周波数成分を合成波形セグメントに含めることができる。
【0033】
この方法は、複数の異なる調和セグメント(母音、鼻母音、鼻音、近似母音など)および混成セグメント(有声摩擦音など)が散在する時間的シーケンスの中で、和音および基本周波数の各セットについて繰り返すことができる。合成された調和セグメントは、合成された非調和セグメント(例えば、無声摩擦音)、合成された無声セグメント(例えば、閉塞音、トリル音内、フラップ音内)、およびそれらの間の移行セグメントとともに、合成された人間の発話を構成する。このようにしてスペクトルデータを用いて生成された電子波形は、電気音響変換器(スピーカーなど)に適用され、合成された音声和音を生成する。このような和音の列を生成して、合成音声シーケンスを構成することができる。
【0034】
いくつかの例では、スペクトルデータが利用可能な音声和音を生成するために、その和音に対応する電子波形が、対応するスペクトルデータ(調和成分の音響周波数とともに一次キャップ周波数)を使用して作成される。一部の音声音および和音については、上述したように、一次帯域、二次帯域、基底帯域のうち1つ以上の特定された調和成分の音響周波数をデータに含めることができる。一部の調和または混成音響スキーマ(例えば、鼻音や有声摩擦音など、一次および二次成分を欠く音声和音)については、データは、低減基底帯域成分、および高周波数の非調和成分の有無の指標を含むことができる。
【0035】
本明細書で開示されるシステムおよび方法は、ソフトウェアを通じてプログラムされた汎用または特殊用途のコンピュータ、サーバ、または他のプログラム可能なハードウェア装置として、あるいはハード配線を通じて「プログラムされた」ハードウェアまたは機器として、あるいはこれら2つの組み合わせとして、またはこれらと共に実施することができる。コンピュータ」または「サーバ」は、単一の機械で構成されることも、複数の相互作用する機械(単一の場所または複数の遠隔地にある)で構成されることもある。コンピュータプログラムまたは他のソフトウェアコードは、使用される場合、マイクロコード、マシンコード、一緒に動作するネットワークベースまたはウェブベースまたは分散ソフトウェアモジュール、RAM、ROM、CD-ROM、CD-R、CD-R/W、DVD-ROM、DVD±R、DVD±R/W、ハードドライブ、サムドライブ、フラッシュメモリ、光媒体、磁気媒体、半導体媒体、または任意の将来のコンピュータ読み取り可能なストレージ代替物におけるプログラミングを含むなど、有形の、非一時的な、一時的または永久的なストレージまたは交換可能な媒体に実装することができる。データセットの電子的指標は、本明細書で言及する有形かつ非一過性のコンピュータ可読媒体のいずれかから読み取るか、そこから受信するか、またはそのいずれかに保存することができる。
【0036】
上記に加えて、以下の例示的な実施形態は、本開示または添付の特許請求の範囲に含まれる。
【0037】
例1。人間の音声の発話に由来する経時的電子波形内に表される1つまたは複数の音声和音を特定するためにコンピュータが実行する方法であって、(a)波形に由来する音響スペクトルの時間的シーケンスのうちの複数の調和音響スペクトルの各々について、その調和音響スペクトル内で2つ以上の基本または調和成分を特定することであって、特定された各成分は検出閾値を超える強度を有し、特定された成分は、その音響スペクトルに関連する基本音響周波数の少なくとも1つの整数倍によって分離された周波数を有すること、(b)複数の音響スペクトルの少なくともいくつかについて、特定された調和成分のうち最も高い調和周波数を一次キャップ周波数として特定することであって、この最も高い調和周波数も410Hzより大きいこと、および、c)パート(b)で一次キャップ周波数が特定された複数の音響スペクトルのそれぞれについて、特定された一次キャップ周波数を使用して、一次音声として、音声のセットの中から少なくとも1つの音声を選択することであって、選択された一次音声は、音声音のセットの中の音声和音のサブセットに対応すること、のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用する、ことを含む方法。
【0038】
例2。音響スペクトルの各々が、波形の時間的サンプル間隔のシーケンスのうちの1つに対応し、プログラムされたコンピュータシステムの電子プロセッサのうちの1つまたは複数を使用して、(A)時間的シーケンスのうちの少なくともいくつかの音響スペクトルを、調和、非調和、混成、または無声のうちの1つのみとして分類することと、(B)パート(A)において調和として分類された時間的サンプル区間の少なくともいくつかについて、パート(a)~(c)を実行し、選択された主音を、電子波形のその時間的サンプル区間に対応するものとして特定すること、をさらに含む、例1に記載の方法。
【0039】
例3。音響スペクトルの各々が、波形の時間依存音響スペクトルが単一の音声和音と一致したままである一連の別個の時間セグメントのうちの1つに対応し、プログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用して、(A)時間セグメントの少なくともいくつかを、その音響スペクトルに基づいて、調和、非調和、またはハイブリッドのうちの1つのみに分類し、(B)パート(A)で調和に分類された時間セグメントの少なくともいくつかについて、パート(a)~(c)を実行し、選択された主音を、電子波形のその時間セグメントに対応するものとして特定する、ことをさらに含む、例1に記載の方法。
【0040】
例4。プログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用して、経時的電子波形から音響スペクトルの時間シーケンスを導出することをさらに含む、例1から例3のいずれかに記載の方法。
【0041】
例5。1つ以上の異なる基本波成分または調和成分について、それぞれの検出閾値が音響周波数に応じて互いに異なる、例1から4のいずれかに記載の方法。
【0042】
例6。プログラムされたコンピュータシステムの電子プロセッサのうちの1つまたは複数を使用して、波形から導出された音響スペクトルの時間的シーケンスのうちの調和音響スペクトルの少なくとも1つについて、調和音響スペクトル内で、基本音響周波数および検出閾値を超える強度を有する基本成分を特定することをさらに含む、例1から5のいずれかに記載の方法。
【0043】
例7。プログラムされたコンピュータシステムの電子プロセッサのうちの1つまたは複数を使用して、(i)サブセットの音声和音に予想される調和周波数を示す保存データと、(ii)調和音響スペクトルの一次帯域の調和成分の調和周波数との比較に少なくとも部分的に基づいて、複数の音響スペクトルの特定の調和音響スペクトルについて、パート(c)の音声和音のサブセットの中から音波和音を選択することをさらに含み、一次バンドは、一次キャップ周波数と、一次キャップ周波数より小さく、410Hzより大きく、410Hzより大きく一次キャップ周波数より小さい基本音響周波数の最小整数倍より大きい、基本音響周波数の1、2、または3の最大連続倍数における高調波成分を含む、例1から6のいずれかに記載の方法。
【0044】
例8。プログラムされたコンピュータシステムの電子プロセッサのうちの1つまたは複数を使用して、複数の音響スペクトルのうちの特定の調和音響スペクトルについて、(i)記憶されたデータであって、そのセットの音波和音に予想される調和周波数を示すデータと、(ii)調和音響スペクトルの副帯域の調和成分の調和周波数との比較に少なくとも部分的に基づいて、パート(c)のサブセットの中から音波和音を選択することをさらに含み、この二次帯域は、410Hzを超える基本音波周波数の最小整数倍よりも大きく、かつ、音響スペクトルが調和成分を欠く基本音声周波数の少なくとも1つの介在する倍数によって一次キャップ周波数から分離された1つまたは複数の調和音響周波数における高調波成分を含む、をさらに含む例1から7のいずれかに記載の方法。
【0045】
例9。プログラムされたコンピュータシステムの電子プロセッサのうちの1つまたは複数を使用して、複数の音響スペクトルの特定の調和音響スペクトルについて、パート(c)のの選択を、(i)セットの音声和音について予想される調和周波数を示す保存データと、(ii)調和音響スペクトルの基底帯域の調和成分の調和周波数との比較に少なくとも部分的に基づいて行うことをさらに含み、基底帯域は、410Hz未満であるか、または410Hzと一次キャップ周波数との間にある基本音響周波数の最小の整数倍に等しい、1つまたは複数の基本または調和音響周波数における調和成分を含む、例1から8のいずれかに記載の方法、
【0046】
例10。特定された調和成分の最高調和音響周波数が410Hz未満である選択された調和音響スペクトルについて、プログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用して、(i)セットの音響スキーマに期待される調和周波数を示す(A)国されたデータと、(B)識別された各基本または調和成分の調和周波数との比較、および(ii)より高い周波数の非調和周波数成分の有無に少なくとも部分的に基づいて、調和または混成音響スキーマのセットからそれらのスキーマの1つを選択する、ことをさらに含む例1から9のいずれかに記載の方法。
【0047】
例11。1セットの音声和音のそれぞれの調和音響スペクトルについて予想される調和周波数を示す記憶されたデータを生成するためのコンピュータが実行する方法であって、(a)セットの各音声和音について、1人または複数の人間の被験者がその音声和音を発声した際に得られる複数の電子波形をスペクトル分析することであって、そのスペクトル分析は、各電子波形について、基本音響周波数の推定と、それぞれが検出閾値を超える強度と、基本音響周波数または基本音響周波数の整数倍に等しい調和音響周波数である音響周波数とを有する2つまたは複数の基本または調和成分の特定とを含むこと、および、(b)特定された調和成分のうち、410Hzよりも大きい最も高い調和音響周波数を一次キャップ周波数として特定することであって、このようにして一次キャップ周波数が特定された各音声和音について、一次キャップ周波数の電子的指標、および特定された各基本または調和成分の音響周波数を、一過性の伝搬信号ではない有形かつ非一過性のコンピュータ読み取り可能な記憶媒体に記憶すること、のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用する、ことを含む方法。
【0048】
例12。共通の一次音声を有する音声和音のサブセットについて、かつ、1人または複数のヒト被験体による複数の異なる基本周波数での複数の発話について、(i)一次キャップ周波数から、音声和音のサブセットに対応する共通の一次音声の焦点周波数を推定することと、(ii)一次音声の焦点周波数の電子指標を、一過性の伝搬信号ではない、有形かつ非一過性のコンピュータ読み取り可能な記憶媒体に記憶することと、をさらに含む、例11に記載の方法。
【0049】
例13。検出閾値が音響周波数の関数として変化する、例11または12のいずれかに記載の方法。
【0050】
例14。記憶されたデータが、セットの音声和音の少なくともいくつかについて、対応する調和音響スペクトルの一次帯域の調和成分の調和周波数を含み、一次帯域は、一次キャップ周波数、および基本音響周波数の1、2、3、またはそれ以上の最も大きい連続する倍数であって、(i)一次キャップ周波数未満、(ii)410Hzより大きい、および(iii)410Hz以上で一次キャップ周波数未満の基本音響周波数の最も小さい整数倍より大きい調和成分を含む、例11から例13のいずれかに記載の方法。
【0051】
例15。記憶されたデータが、セットの音声和音の少なくともいくつかについて、対応する調和音響スペクトルの二次帯域の調和成分の調和周波数を含み、二次帯域は、410Hzを超える基本音響周波数の最小整数倍よりも大きく、音響スペクトルが調和成分を欠く基本音響周波数の少なくとも1つの介在する倍数によって一次キャップ周波数から分離された調和音響周波数における1つまたは複数の調和成分を含む、例11から例14のいずれかに記載の方法。
【0052】
例16。記憶されたデータが、セットの音声和音の少なくともいくつかについて、対応する調和音響スペクトルの基底帯域の調和成分の調和周波数を含み、基底帯域が、410Hz未満であるか、または410Hzと一次キャップ周波数との間にある基本音響周波数の最小の整数倍に等しい、1つまたは複数の基本音響周波数または調和音響周波数における1つまたは複数の調和成分を含む、例11から15のいずれかに記載の方法。
【0053】
例17。(a)付加的な調和音響スキーマまたは混成音響スキーマの各1つについて、1人または複数の人間の被験者がそのスキーマを発話した際に得られる複数の電子波形をスペクトル分析することであって、各電子波形について、スペクトル分析は、基本音響周波数の推定と、各々が検出閾値を超える強度を有し、基本音響周波数または基本音響周波数の整数倍に等しい調和音響周波数を有する2つ以上の基本または高調波成分の特定であって、基本および調和音響周波数の各々が410Hz未満である、特定と、b)パート(a)で複数の波形が分析された各音響スキーマについて、一過性の伝搬信号ではない有形かつ非一過性のコンピュータ読み取り可能な記憶媒体に、特定された各基本または調和成分の1つまたは複数の基本および調和音響周波数、および高周波の非調和波成分の有無を電子的に示す指標を記憶すること、をさらに含む実施例11から16のいずれかに記載の方法。
【0054】
例18。電子波形の時間的セグメントを合成し、その波形セグメントを電気音響変換器に適用したときに、1セットの音声和音の中から選択された音声和音の音を生成するためにコンピュータが実行する方法であって、(a)選択された音声和音に対応する主音と、その主音の焦点周波数とを示す受信、取得、または計算されたデータを用いて、焦点周波数と選択された基本音響周波数とを用いて、一次キャップ周波数を決定することであって、一次キャップ周波数は、(i)選択された基本周波数の整数倍であり、(ii)410Hzより大きく、(iii)他の音声和音の焦点周波数よりも、対応する主音の焦点周波数に近い、決定と、 b)波形セグメントに、一次キャップ周波数の高調波成分を含めることであって、一次キャップ周波数は、波形セグメントに含まれる他のすべての高調波成分の音響周波数よりも大きいこと、のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用する、ことを含む方法。
【0055】
例19。人間の発話を一緒に構成する、非調和セグメントまたは無声セグメント、およびその間の移行セグメントとともに、複数の異なる調和セグメントまたは混成セグメントの時間的シーケンスの中の各音声和音について、例18の方法を繰り返すことをさらに含む、例18の方法。
【0056】
例20。選択された音声和音の音を生成するための波形セグメントを電気音響変換器に適用することをさらに含む、例18または19のいずれかに記載の方法。
【0057】
例21。セットの1つまたは複数の音声和音について、一次帯域の調和成分を波形セグメントに含めることであって、一次帯域は、一次キャップ周波数、および(i)一次キャップ周波数未満であり、(ii)410Hzより大きく、(iii)410Hz以上で一次キャップ周波数未満である基本音響周波数の最小整数倍より大きい、基本音響周波数の1つ、2つ、3つ、またはそれ以上の最大の連続する倍数における調和成分を含むこと、をさらに含む例18から20のいずれかに記載の方法。
【0058】
例22。セットの1つまたは複数の音声和音について、一次帯域の調和成分を波形セグメントに含めることであって、一次帯域は、一次キャップ周波数、および基本音響周波数の少なくとも3つの最大連続倍数であって、(i)一次キャップ周波数未満であり、(ii)410Hzより大きく、(iii)410Hzより大きくかつ一次キャップ周波数未満の基本音響周波数の最小整数倍より大きい、少なくとも3つの最大連続倍数の調和成分を含むこと、をさらに含む例18から20のいずれかに記載の方法。
【0059】
例23。セットの1つまたは複数の音声和音について、(a)選択された音波和音に対応する二次音波とその二次音波の焦点周波数とを示す受信された、検索された、または計算されたデータを使用して、焦点周波数と選択された基本音響周波数とを使用して二次キャップ周波数を決定することであって、二次キャップ周波数は、(i)選択された基本周波数の整数倍であり、(ii)410Hzより大きく、(iii)他の音声和音の焦点周波数よりも対応する二次音声の焦点周波数に近いこと、および、b)波形セグメントに、二次帯域の1つまたは複数の調和成分を含めることであって、二次帯域は、(i)410Hzを超える基本音響周波数の最小整数倍よりも大きく、(ii)二次キャップ周波数以下の調和音響周波数の調和成分を含こと、をさらに含む、例18から22のいずれかに記載の方法。
【0060】
例24。セットの1つまたは複数の音声和音について、波形セグメントに基底帯域の1つまたは複数の調和成分を含めることであって、基底帯域は、(i)410Hz未満、または(ii)410Hzと一次キャップ周波数との間にある基本音響周波数の最小整数倍に等しい、1つまたは複数の基本音響周波数または調和音響周波数における調和成分を含むこと、をさらに含む、例18から23のいずれか1つに記載の方法。
【0061】
例25。このような音響スキーマのセットのうちの選択された調和または混成音響スキーマに対応する電子波形の少なくとも1つの追加的な時間セグメントについて、低減基底帯域のみの1つまたは複数の調和成分を追加的な波形セグメントに含めることであって、低減基底帯域は、410Hz未満である1つまたは複数の基本または調和音響周波数における調和成分のみを含むこと、をさらに含む例18から24のいずれかに記載の方法。
【0062】
例26。このような音響スキーマのセットの選択された調和または混成音響スキーマに対応する電子波形の少なくとも1つの追加的な時間セグメントについて、追加的な波形セグメントに、(i)低減基底帯域のみの1つまたは複数の調和成分を含めることをさらに含み、、低減基底帯域は、410Hz未満の1つまたは複数の基本または調和音響周波数の調和成分のみと、(ii)1つまたは複数の高周波の非調和成分とを含む、例18から25のいずれかに記載の方法。
【0063】
例27。1つまたは複数の電子プロセッサと、該1つまたは複数のプロセッサに動作可能に結合された1つまたは複数の有形のコンピュータ読み取り可能な記憶媒体とを含むプログラムされたコンピュータ化された機械であって、該機械は、例1から例26のいずれかの方法を実行するように構成され、プログラムされている、コンピュータ化された機械。
【0064】
例28.一過性の伝搬信号ではない有形の媒体を含む物品であって、該媒体は、コンピュータシステムに適用されると、例1から例26のいずれかの方法を実行するように該コンピュータシステムに指示するコンピュータ可読命令が符号化されている物品。
【0065】
本開示は例示であり、限定的なものではない。さらなる改変は、本開示に照らして当業者には明らかであり、本開示の範囲内に入ることが意図される。開示された例示的な実施形態および方法の均等物、またはそれらの改変は、本開示の範囲内に含まれることが意図されている。
【0066】
前述の詳細な説明では、本開示を合理化する目的で、いくつかの例示的な実施形態において様々な特徴をグループ化することがある。この開示方法は、特定された実施形態が、そこに明示的に記載されているよりも多くの特徴を必要とするという意図を反映していると解釈されるものではない。むしろ、発明の主題は、単一の開示された例示的実施形態のすべての特徴よりも少ない特徴にある可能性がある。したがって、本開示は、本願において示され、記載され、または特定される1つまたは複数の特徴の任意の好適なサブセットを有する任意の実施形態を暗黙的に開示するものと解釈される。特徴の「好適な」サブセットには、そのサブセットの他の特徴に関して非互換でも相互排他的でもない特徴のみが含まれる。さらに、上に列挙した実施例の累積的範囲は、本願に開示された主題の全体を包含し得るが、必ずしも包含しないことに留意すべきである。
【0067】
本開示の目的には、以下の解釈が適用されるものとする。「含む(comprising)」、「含む(including)」、「有する(having)」、およびそれらの変形語は、それらが現れるところであればどこでも、明示的に別段の記載がない限り、その各例に「少なくとも」のような語句が付加される場合と同じ意味を有する、オープンエンドの用語として解釈されるものとする。単数の名詞は、「唯一の」、「単一の」、または他の同様な限定が明示的に述べられているかまたは特定の文脈が暗示するものではない限り、1つまたは複数と解釈されるものとする。接続詞「または」は、(i)例えば「いずれか一方」、「いずれか1つのみ」、または類似の文言の使用により、そうでないことが明示的に述べられている場合、または(ii)列挙された選択肢のうちの2つ以上が、特定の文脈の中で互換性がない、または相互に排他的であると理解または開示(暗黙的または明示的に)されている場合を除き、包括的に解釈される。後者の場合、「または」は、相互に排他的でない選択肢を含む組み合わせのみを包含すると理解される。一例では、「1匹の犬または1匹の猫」、「1匹の犬または1匹の猫の1匹または複数」、「1匹または複数の犬または猫」のそれぞれは、1匹または複数の犬(猫はいない)、1匹または複数の猫(犬はいない)、またはそれぞれが1匹または複数と解釈される。別の例では、「1匹の犬、1匹の猫、または1匹のネズミ」、「1匹の犬、1匹の猫、または1匹のネズミの1匹または複数」、「1匹または複数の犬、猫、またはネズミ」のそれぞれは、(i)1匹または複数の犬(猫またはネズミはいない)、(ii)1匹または複数の猫(犬またはネズミはいない)、(iii)1匹または複数のネズミ(犬または猫はいない)、(iv) 1匹または複数の犬および1匹または複数の猫(ネズミはいない)、(v)1匹または複数の犬および1匹または複数のネズミ(猫はいない)、(vi)1匹または複数の猫および1匹または複数のネズミ(犬はいない)(vii)1匹または複数の犬、1匹または複数の猫、および1匹または複数のネズミ、と解釈される。別の例では、「1匹の犬、1匹の猫、または1匹のネズミのうちの2匹以上」または「2匹以上の犬、猫、またはネズミ」のそれぞれは、(i)1匹または複数の犬および1または複数の猫(ネズミはいない)、(ii) 1匹または複数の犬および1匹または複数のネズミ(猫はいない)、(iii)1匹または複数の猫および1匹または複数のネズミ(犬はいない)、または(iv)1匹または複数の犬および1匹または複数の猫および1匹または複数のネズミ、と解釈される。「3匹以上」、「4匹以上」なども同様に解釈される。
【0068】
本開示又は添付の特許請求の範囲において、数値量に関連して「ほぼ等しい」、「実質的に等しい」、「ほぼ大きい」、「ほぼ小さい」などの用語が使用される場合、異なる解釈が明示的に規定されない限り、測定精度及び有効数字に関する標準的な慣例が適用されるものとする。実質的に防止された」、「実質的に存在しない」、「実質的に排除された」、「ほぼゼロに等しい」、 「無視できる」などの表現で記述された無効量について、そのような表現はそれぞれ問題の量がその程度まで低減または減少した場合を示すものとし、開示されたまたは特許請求された装置または方法の意図された操作又は使用の文脈における実用的な目的のために、装置または方法の全体的な挙動又は性能は、実際に無効な量が完全に除去されていた場合、正確にゼロに等しかった場合、またはその他の方法で正確に無効化されていた場合に生じたであろう挙動又は性能と異ならない。
【0069】
本開示の目的のために、実施形態または実施例の要素、ステップ、限定、または他の部分の任意のラベル付け(例えば、第1、第2、第3等、(a)、(b)、(c)等、または(i)、(ii)、(iii)等)は、明瞭化の目的のためだけに使用されるものであり、そのようにラベル付けされた部分の何らかの順序付けまたは優先順位を暗示するものとして解釈されないものとする。このような順序付けや優先順位が意図される場合は、実施形態または実施例において明示的に記載されるか、場合によっては、実施形態または実施例の具体的な内容に基づいて暗黙的または固有のものとなる。米国特許法第112条(f)の規定、またはは「手段+機能」もしくは「ステップ+機能」のクレーム様式に関連する対応する法律が、装置の説明において援用されることが望まれる場合、「手段」という語はその説明の中に記載される。これらの規定が方法の説明において援用されることが望まれる場合、その説明には「ステップ」という文言が記載される。逆に、「手段」または「ステップ」という単語が表示されない場合は、そのような規定の発動を意図していないことになる。
【0070】
いずれか1つまたは複数の開示が参照により本明細書に組み込まれ、そのような組み込まれた開示が本開示と一部または全部が矛盾するか、または範囲が異なる場合、矛盾する範囲、より広範な開示、またはより広範な用語の定義については、本開示が優先する。組み込まれた開示の一部または全部が本開示と矛盾する場合は、矛盾する範囲において、後日開示された開示が適用される。
【0071】
要約は、特許文献内で特定の主題を検索する際の補助として提供される。しかしながら、要約は、そこに記載されている要素、特徴、または限定が、必ずしも特定の明細書に包含されること、または何らかの形で要求されることを意味することを意図するものではない。
【手続補正書】
【提出日】2022-12-08
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
人間の発話に由来する経時的電子波形
によって表される
可聴域の人間の発話を認識するためのコンピュータが実行する方法であって、
(a)波形から導出された音響スペクトルの時間的シーケンスのうちの複数の調和音響スペクトルの各々について、その調和音響スペクトル内の2つ以上の基本成分または調和成分を特定することであって、各特定された成分は、検出閾値を超える強度を有し、特定された成分は、その音響スペクトルに関連付けられた基本音響周波数の少なくとも1つの整数倍によって分離された周波数を有すること、
(b)複数の音響スペクトルの少なくともいくつかについて、特定された調和成分のうち最も高い調和周波数を一次キャップ周波数として特定することであって、この最も高い調和周波数も410Hzより大きいこと
、
(c)(b)において一次キャップ周波数が特定された複数の音響スペクトルの各々について、特定された一次キャップ周波数を使用して、一次音声音として、1セットの音声音の中から少なくとも1つの音声音を選択することであって、選択された一次音声音は、1セットの音声音の中の音声和音のサブセットに対応すること
、および、
(d)パート(c)の選択に少なくとも部分的に基づいて、可聴域の人間の発話を表すテキストの電子指標を生成すること、
のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用する、ことを含む方法。
【請求項2】
前記音響スペクトルの各々が、前記波形の時間的サンプル間隔のシーケンスのうちの1つに対応し、
(A)時間的シーケンスのうちの少なくともいくつかの音響スペクトルを、調和、非調和、混成、または無声のうちの1つのみに分類すること、
(B)パート(A)で調和として分類された時間的サンプル区間の少なくともいくつかについて、パート(a)から(c)を実行し、選択された主音を電子波形のその時間的サンプル区間に対応するものとして特定すること、
のためにプログラムされたコンピュータシステムの電子プロセッサのうちの1つまたは複数を使用することをさらに含む、請求項1に記載の方法。
【請求項3】
前記音響スペクトルの各々が、前記波形の時間依存音響スペクトルが単一の音声和音に一致したままである一連の別個の時間セグメントのうちの1つに対応し、
(A)前記時間セグメントのうちの少なくともいくつかを、その音響スペクトルに基づいて、調和、非調和、または混成のうちの1つのみとして分類すること、および、
(B)パート(A)で調和として分類された時間セグメントの少なくともいくつかについて、パート(a)から(c)を実行し、選択された主音を電子波形のその時間セグメントに対応するものとして特定すること、
のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用することをさらに含む、請求項1に記載の方法。
【請求項4】
プログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用して、経時的電子波形から音響スペクトルの時間シーケンスを導出することをさらに含む請求項1に記載の方法。
【請求項5】
1つ以上の異なる基本波成分または調和成分について、それぞれの検出閾値が音響周波数に応じて互いに異なる、請求項1に記載の方法。
【請求項6】
前記プログラムされたコンピュータシステムの電子プロセッサの1つまたは複数を使用して、前記波形から得られる音響スペクトルの時間的シーケンスのうちの調和音響スペクトルの少なくとも1つについて、前記調和音響スペクトル内で、基本音響周波数および検出閾値を超える強度を有する基本成分を特定することをさらに含む、請求項1に記載の方法。
【請求項7】
プログラムされたコンピュータシステムの電子プロセッサの1つまたは複数を使用して、(i)サブセットの音声和音に予想される調和周波数を示す保存データと、(ii)調和音響スペクトルの一次帯域の調和成分の調和周波数との比較に少なくとも部分的に基づいて、複数の音響スペクトルの特定の調和音響スペクトルについて、パート(c)の音声波和音のサブセットの中から音波和音を選択することをさらに含み、一次帯域は、一次キャップ周波数と、一次キャップ周波数より小さく、410Hzより大きく、410Hzより大きく一次キャップ周波数より小さい基本音響周波数の最小整数倍より大きい、基本音響周波数の1、2、または3の最大連続倍数における調和成分を含む、請求項1記載の方法。
【請求項8】
プログラムされたコンピュータシステムの電子プロセッサのうちの1つまたは複数を使用して、複数の音響スペクトルのうちの特定の調和音響スペクトルについて、(i)記憶されたデータであって、そのセットの音声和音に予想される調和周波数を示すデータと、(ii)調和音響スペクトルの副帯域の調和成分の調和周波数との比較に少なくとも部分的に基づいて、パート(c)のサブセットの中から音声和音を選択することをさらに含み、二次帯域は、410Hzより大きい基本音声周波数の最小整数倍よりも大きく、かつ、音響スペクトルが調和成分を欠く基本音声周波数の少なくとも1つの介在する倍数によって一次キャップ周波数から分離された1つまたは複数の調和音響周波数における調和成分を含む、請求項1に記載の方法。
【請求項9】
プログラムされたコンピュータシステムの電子プロセッサの1つまたは複数を使用して、複数の音響スペクトルの特定の調和音響スペクトルについて、パート(c)の選択を、(i)セットの音声和音について予想される調和周波数を示す保存データと、(ii)調和音響スペクトルの基底帯域の調和成分の調和周波数との比較に少なくとも部分的に基づいて行うことをさらに含み、基底帯域は、410Hzより小さいか、または410Hzと一次キャップ周波数との間にある基本音響周波数の最小の整数倍に等しい、1つまたは複数の基本または調和音響周波数における調和成分を含む、請求項1に記載の方法。
【請求項10】
特定された調和成分の最高調和音響周波数が410Hz未満である選択された調和音響スペクトルについて、プログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用して、(i)セットの音響スキーマに期待される調和周波数を示す(A)保存データと、(B)特定された各基本または調和成分の調和周波数との比較、および(ii)より高い周波数の非調和周波数成分の有無に少なくとも部分的に基づいて、調和または混成音響スキーマのセットからそれらのスキーマの1つを選択する、ことをさらに含む、請求項1に記載の方法。
【請求項11】
コンピュータが実行する方法であって、1セットの音声和音のそれぞれの調和音響スペクトルに予想される調和周波数を示す記憶データ
に少なくとも部分的に基づいて主音が選択され、
該記憶データは、
(a)セットの各音声和音について、1人または複数の人間の被験者がその音声和音を発声することから得られる複数の電子波形をスペクトル分析することであって、スペクトル分析は、各電子波形について、基本音響周波数の推定と、それぞれが検出閾値を超える強度と、基本音響周波数または基本音響周波数の整数倍に等しい調和音響周波数である音響周波数とを有する2つまたは複数の基本または調和成分の特定とを含むこと、および、
(b)特定された調和成分のうち、410Hzより大きい最も高い調和音響周波数を一次キャップ周波数として特定することであって、一次キャップ周波数が特定された各音声和音について、一次キャップ周波数の電子指標、および特定された各基本または調和成分の音響周波数を、一過性の伝搬信号ではない有形かつ非一過性のコンピュータ読み取り可能な記憶媒体に記憶すること、
のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用することを含む
方法によって生成される、請求項1に記載の方法。
【請求項12】
共通の主音を有する音声和音のサブセットについて、および1人または複数の人間の被験体による複数の異なる基本周波数での複数の発話について、(i)一次キャップ周波数から、音声和音のサブセットに対応する共通の主音の焦点周波数を推定することと、(ii)一過性の伝搬信号ではない、有形で非一過性のコンピュータ読み取り可能な記憶媒体に、主音の焦点周波数の電子指標を記憶することとをさらに含む、請求項11に記載の方法。
【請求項13】
検出閾値が音響周波数の関数として変化する、請求項11記載の方法。
【請求項14】
前記記憶されたデータは、前記セットの音波和音の少なくともいくつかについて、対応する調和音響スペクトルの一次帯域の調和成分の調和周波数を含み、前記一次帯域は、一次キャップ周波数、および基本音響周波数の1、2、3、またはそれ以上の最も大きい連続する倍数であって、(i)一次キャップ周波数より小さく、(ii)410Hzより大きく、(iii)410Hzより大きく一次キャップ周波数より小さい基本音響周波数の最も小さい整数倍より大きい倍数の調和成分を含む、請求項11に記載の方法。
【請求項15】
前記記憶されたデータは、前記セットの音声和音の少なくともいくつかについて、対応する調和音響スペクトルの二次帯域の調和成分の調和周波数を含み、前記二次帯域は、410Hzより大きい基本音響周波数の最小整数倍より大きく、音響スペクトルが調和成分を欠く基本音響周波数の少なくとも1つの介在する倍数によって一次キャップ周波数から分離された調和音響周波数における1つまたは複数の調和成分を含む、請求項11に記載の方法。
【請求項16】
前記記憶されたデータは、前記セットの音声和音の少なくともいくつかについて、対応する調和音響スペクトルの基底帯域の調和成分の調和周波数を含み、前記基底帯域は、410Hzより小さいか、または410Hzと一次キャップ周波数との間にある基本音響周波数の最小の整数倍に等しい1つまたは複数の基本音響周波数または調和音響周波数における1つまたは複数の調和成分を含む、請求項11に記載の方法。
【請求項17】
(a)付加的な調和音響スキーマまたは混成音響スキーマの各1つについて、1人または複数の人間の被験者がそのスキーマを発話した際に得られる複数の電子波形をスペクトル分析することであって、各電子波形について、スペクトル分析は、基本音響周波数の推定と、それぞれが検出閾値を超える強度と基本音響周波数または基本音響周波数の整数倍に等しい調和音響周波数を有する2つ以上の基本または調和成分の特定であって、基本および調和音響周波数のそれぞれが410Hz未満である、特定と、
(b)パート(a)で複数の波形が分析された各音響スキーマについて、一過性の伝搬信号ではない、有形かつ非一過性のコンピュータ読み取り可能な記憶媒体に、特定された各基本または調和成分に関する1つまたは複数の基本および調和音響周波数、および高周波の非調和波成分の有無を電子的に示す情報を記憶すること、をさらに含む請求項11に記載の方法。
【請求項18】
可聴域人間の発話を表すテキストから該発話を合成するためのコンピュータが実行する方法であって、
(a)
波形セグメントの時間シーケンスを含む電子波形の複数の調和セグメントについて、選択された音声和音に対応する主音と、その主音の焦点周波数とを示す受信、検索、または計算されたデータを使用して、焦点周波数と選択された基本音波周波数とを使用して主キャップ周波数を決定することであって、一次キャップ周波数は、(i)選択された基本音波周波数の整数倍であり、(ii)410Hzより大きく、(iii)他の音声の焦点周波数よりも対応する主音の焦点周波数に近
く、
(b)
複数の調和セグメントのそれぞれについて、波形セグメント
は、一次キャップ周波数の調和成分を含
み、一次キャップ周波数は、波形セグメントに含まれる他のすべての調和成分の音響周波数よりも大き
く、
(c)
電子波形は、電子音響変換器に適用されたときに、テキストに対応する人間の発話の音を生成する、こと
のためにプログラムされたコンピュータシステムの1つまたは複数の電子プロセッサを使用する、ことを含む方法。
【請求項19】
人間の発話の音を生成するため
に電子波
形を電気音響変換器に適用することを含む、請求項18に記載の方法。
【請求項20】
前記セットの1つまたは複数の音声和音について、前記波形セグメントに一次帯域の調和成分を含めることをさらに含み、一次帯域は、一次キャップ周波数、および基本音響周波数の1、2、3、またはそれ以上の最も大きい連続する倍数であって、(i)一次キャップ周波数未満、(ii)410Hzより大きい、(iii)410Hzより大きくかつ一次キャップ周波数未満の基本音響周波数の最も小さい整数倍より大きい、1、2、3、またはそれ以上の最も大きい連続する倍数の調和成分を含む、請求項18に記載の方法。
【請求項21】
前記セットの1つまたは複数の音声和音について、前記波形セグメントに一次帯域の調和成分を含み、前記一次帯域は、一次キャップ周波数、および基本音響周波数の少なくとも3つの最大連続倍数であって、(i)一次キャップ周波数未満であり、(ii)410Hzより大きく、(iii)410Hzより大きくかつ一次キャップ周波数未満の基本音響周波数の最小整数倍より大きい、少なくとも3つの最大連続倍数の調和成分を含む、請求項18に記載の方法。
【請求項22】
前記セットの1つまたは複数の音声和音について、
(a)選択された音声和音に対応する二次的な音声とその二次的な音声の焦点周波数を示す受信、検索、または計算されたデータを使用して、焦点周波数と選択された基本音響周波数を使用して二次キャップ周波数を決定することであって、二次キャップ周波数は、(i)選択された基本周波数の整数倍であり、(ii)410Hzより大きく、(iii)他の音声の焦点周波数よりも対応する二次的な音声の焦点周波数に近い、ことと、
(b)波形セグメントに1つ以上の二次帯域の調和成分を含み、二次帯域は、(i)410Hzより大きい基本音響周波数の最小整数倍よりも大きく、(ii)二次キャップ周波数以下である調和音響周波数の調和成分を含むこと、
をさらに含む請求項18に記載の方法。
【請求項23】
前記セットの1つまたは複数の音声和音について、波形セグメントに基底帯域の1つまたは複数の調和成分を含めることをさらに含み、基底帯域は、(i)410Hz未満、または(ii)410Hzと一次キャップ周波数との間にある基本音響周波数の最小整数倍に等しい1つまたは複数の基本音響周波数または調和音響周波数における調和成分を含む、請求項18に記載の方法。
【請求項24】
前記音響スキーマのセットのうちの選択された調和または混成音響スキーマに対応する電子波形の少なくとも1つの追加的な時間セグメントについて、低減基底帯域のみの1つまたは複数の調和成分を追加的な波形セグメントに含めることであって、低減された基底帯域は、410Hz未満の1つまたは複数の基本または調和音響周波数における調和成分のみを含むこと、をさらに含む請求項18に記載の方法。
【請求項25】
前記音響スキーマのセットのうちの選択された調和または混成音響スキーマに対応する電子波形の少なくとも1つの追加的な時間セグメントについて、追加波形セグメントに、(i)低減基底帯域のみの1つまたは複数の調和成分を含めることをさらに含み、低減基底帯域は、410Hz未満の1つまたは複数の基本または調和音響周波数の調和成分のみを含み、(ii)1つまたは複数の高周波非調和波成分を含む、請求項18に記載の方法。
【国際調査報告】