特許第6371531号(P6371531)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKエンジニアリングシステムの特許一覧

<>
  • 特許6371531-音声信号処理装置及びプログラム 図000009
  • 特許6371531-音声信号処理装置及びプログラム 図000010
  • 特許6371531-音声信号処理装置及びプログラム 図000011
  • 特許6371531-音声信号処理装置及びプログラム 図000012
  • 特許6371531-音声信号処理装置及びプログラム 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6371531
(24)【登録日】2018年7月20日
(45)【発行日】2018年8月8日
(54)【発明の名称】音声信号処理装置及びプログラム
(51)【国際特許分類】
   G10L 21/007 20130101AFI20180730BHJP
【FI】
   G10L21/007
【請求項の数】4
【全頁数】10
(21)【出願番号】特願2014-10587(P2014-10587)
(22)【出願日】2014年1月23日
(65)【公開番号】特開2015-138193(P2015-138193A)
(43)【公開日】2015年7月30日
【審査請求日】2016年11月29日
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】清山 信正
(72)【発明者】
【氏名】今井 篤
(72)【発明者】
【氏名】都木 徹
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特開平1−93799(JP,A)
【文献】 特開2006−10907(JP,A)
【文献】 特開2001−117600(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00−21/057
(57)【特許請求の範囲】
【請求項1】
入力音声の有音区間及び無音区間を判別する有音/無音判別部と、前記有音区間における音声波形の有声音区間及び無声音区間を判別する有声/無声判別部と、前記有声音区間における音声波形のピッチ区間を抽出するピッチ区間抽出部と、前記ピッチ区間の音声波形におけるピッチ周期列に対し所望の変更を加えてピッチ周波数を制御し、新たなピッチ周期列を生成するピッチ周波数制御部と、前記新たなピッチ周期列に応じて、前記抽出されたピッチ区間の音声波形におけるピッチ周波数を変換するピッチ周波数変換部と、前記ピッチ周波数が変換された有声音区間の音声波形、前記無音区間の音声波形及び前記無声音区間の音声波形を接続し、新たな音声波形を出力する区間接続部と、を備えた音声信号処理装置において、
前記ピッチ周波数制御部は、
前記ピッチ周期列における時間軸上のサンプルのピッチ周波数に対応して、新たなピッチ周波数を算出する際に、
一のサンプルより過去の所定サンプル数のピッチ周波数を平均して平均ピッチ周波数を算出し、前記一のサンプルのピッチ周波数、前記平均ピッチ周波数、及び前記一のサンプルのピッチ周波数を変化させる度合いを示すパラメータに基づいて、新たなピッチ周波数を算出し、各サンプルに対して算出した前記新たなピッチ周波数のそれぞれに基づいて、新たなピッチ周期列を生成する、ことを特徴とする音声信号処理装置。
【請求項2】
請求項1に記載の音声信号処理装置において、
前記所定サンプル数を1/2倍したサンプル数を1/2倍サンプル数として、
前記ピッチ周波数制御部は、
前記ピッチ周期列における時間軸上のサンプルのピッチ周波数に対応して、新たなピッチ周波数を算出する際に、
一のサンプルより過去の前記1/2倍サンプル数のピッチ周波数と、当該一のサンプルに対して先読みした前記1/2倍サンプル数のピッチ周波数とを平均して平均ピッチ周波数を算出し、前記一のサンプルのピッチ周波数、前記平均ピッチ周波数、及び前記一のサンプルのピッチ周波数を変化させる度合いを示すパラメータに基づいて、新たなピッチ周波数を算出し、各サンプルに対して算出した前記新たなピッチ周波数のそれぞれに基づいて、新たなピッチ周期列を生成する、ことを特徴とする音声信号処理装置。
【請求項3】
請求項1または2に記載の音声信号処理装置において、
前記所定サンプル数を、前記新たなピッチ周波数が算出される各サンプルについて固定数とする、ことを特徴とする音声信号処理装置。
【請求項4】
コンピュータを、請求項1から3までのいずれか一項に記載の音声信号処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を一時的に記憶し、その音声のピッチ周期を変化させて、再び音声として出力する技術に関し、特に、音声の抑揚(イントネーション)を変換する音声信号処理装置及びプログラムに関する。
【背景技術】
【0002】
従来、音声の有声音部分について、そのピッチ周波数を抽出し、音声の抑揚を変換する手法には様々なものが提案されている。
【0003】
例えば、比較的高品質に抑揚を変換する手法として、特許文献1に記載のものがある。特許文献1の音声信号処理装置は、入力音声から有声音区間を抽出し、有声音区間からピッチ周期を抽出し、抽出したピッチ周期に対応したそれぞれのピッチ区間において線形予測係数を求め、線形予測係数を用いてスペクトル包絡を算出する。
【0004】
そして、音声信号処理装置は、それぞれのピッチ区間の波形を、線形予測係数を援用することによって伸縮し、入力音声の発話時間長に変化がないように、それぞれのピッチ区間の波形を間引くかまたは繰り返すことによって、伸縮した音声波形を接続し、接続した波形に対して線形予測係数を求め、線形予測係数を用いてスペクトル包絡を算出する。
【0005】
そして、音声信号処理装置は、波形の伸縮前に算出したスペクトル包絡と伸縮後に算出したスペクトル包絡との差を歪み成分として求め、接続波形をフーリエ変換によって周波数領域に変換し、周波数領域のそれぞれの周波数成分から歪み成分を修正した後、逆フーリエ変換によって接続波形を時間領域に戻し、接続波形の平均ピッチ周期に対応した櫛形ろ波を接続波形に施した後、前後の無声音区間または無音区間と接続する。これにより、入力音声が新たなピッチ周期の音声に変換される。
【0006】
この音声信号処理装置は、ピッチ区間の波形を伸縮する際に、一連のピッチ周期の各々に所望の変更を加え、新たなピッチ周期列を算出し、これに基づいて波形の伸縮を行う。
【0007】
具体的には、ある有声音区間内において、初めのピッチからn番目のピッチの周期をP、ピッチ周波数をF=1/P、全ピッチ数をLとして、以下の式により、平均ピッチ周波数FAVEが算出される。
【数1】
この式は、人間の音声における高低の知覚機構を考慮したものであり、全ピッチ周波数の相乗平均にて定義される。
【0008】
原音声の平均ピッチ周波数FAVEを中心として抑揚を強調または抑圧する場合、ピッチ周波数Fは、ピッチ周期毎に倍率R倍される。
【数2】
ここで、Cは、音声の抑揚を強調または抑圧する度合いを示すパラメータ(ピッチ周波数Fnを変化させる度合いを示すパラメータ)であり、C>1の場合、音声の抑揚が強調され、0≦C<1の場合、音声の抑揚が抑圧される。
【0009】
つまり、音声の抑揚が強調または抑圧された新たなピッチ周波数F’nは、以下の式にて算出される。
【数3】
【0010】
このようにして、ピッチ区間の波形の伸縮に先立って、音声の抑揚が強調または抑圧された新たなピッチ周期列が算出される。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特許第2612867号公報
【発明の概要】
【発明が解決しようとする課題】
【0012】
前述した特許文献1の音声信号処理装置では、音声の抑揚を強調または抑圧する場合、前記式(1)に示したように、平均ピッチ周波数FAVEを算出するために全ピッチ周波数の相乗平均を求める必要がある。しかし、全ピッチ周波数の相乗平均を求める処理では、遅延時間が長くなってしまう。このため、この音声信号処理装置は、オフラインにて音声を変換する用途に利用することはできるが、オンラインのリアルタイムで音声を変換する用途には利用することができないという問題があった。
【0013】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、音声の抑揚を強調または抑圧するピッチ周波数の算出処理の負荷を低減し、リアルタイムに音声を変換可能な音声信号処理装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0014】
前記目的を達成するために、本発明による音声信号処理装置は、入力音声の有音区間及び無音区間を判別する有音/無音判別部と、前記有音区間における音声波形の有声音区間及び無声音区間を判別する有声/無声判別部と、前記有声音区間における音声波形のピッチ区間を抽出するピッチ区間抽出部と、前記ピッチ区間の音声波形におけるピッチ周期列に対し所望の変更を加えてピッチ周波数を制御し、新たなピッチ周期列を生成するピッチ周波数制御部と、前記新たなピッチ周期列に応じて、前記抽出されたピッチ区間の音声波形におけるピッチ周波数を変換するピッチ周波数変換部と、前記ピッチ周波数が変換された有声音区間の音声波形、前記無音区間の音声波形及び前記無声音区間の音声波形を接続し、新たな音声波形を出力する区間接続部と、を備えた音声信号処理装置において、前記ピッチ周波数制御部が、前記ピッチ周期列における時間軸上のサンプルのピッチ周波数に対応して、新たなピッチ周波数を算出する際に、一のサンプルより過去の所定サンプル数のピッチ周波数を平均して平均ピッチ周波数を算出し、前記一のサンプルのピッチ周波数、前記平均ピッチ周波数、及び前記一のサンプルのピッチ周波数を変化させる度合いを示すパラメータに基づいて、新たなピッチ周波数を算出し、各サンプルに対して算出した前記新たなピッチ周波数のそれぞれに基づいて、新たなピッチ周期列を生成する、ことを特徴とする。
【0015】
また、本発明による音声信号処理装置は、前記所定サンプル数を1/2倍したサンプル数を1/2倍サンプル数として、前記ピッチ周波数制御部が、前記ピッチ周期列における時間軸上のサンプルのピッチ周波数に対応して、新たなピッチ周波数を算出する際に、一のサンプルより過去の前記1/2倍サンプル数のピッチ周波数と、当該一のサンプルに対して先読みした前記1/2倍サンプル数のピッチ周波数とを平均して平均ピッチ周波数を算出し、前記一のサンプルのピッチ周波数、前記平均ピッチ周波数、及び前記一のサンプルのピッチ周波数を変化させる度合いを示すパラメータに基づいて、新たなピッチ周波数を算出し、各サンプルに対して算出した前記新たなピッチ周波数のそれぞれに基づいて、新たなピッチ周期列を生成する、ことを特徴とする。
【0016】
また、本発明による音声信号処理装置は、前記所定サンプル数を、前記新たなピッチ周波数が算出される各サンプルについて固定数とする、ことを特徴とする。
【0017】
さらに、本発明によるプログラムは、コンピュータを、前記音声信号処理装置として機能させることを特徴とする。
【発明の効果】
【0018】
以上のように、本発明によれば、音声の抑揚を強調または抑圧するピッチ周波数の算出処理の負荷を低減することができ、リアルタイムに音声を変換することが可能となる。
【図面の簡単な説明】
【0019】
図1】本発明の実施形態による音声信号処理装置の構成を示すブロック図である。
図2】ピッチ周波数制御部の処理を示すフローチャートである。
図3】平均ピッチ周波数の算出処理を説明する図である。
図4】(1)入力音声の周波数の例を模式的に示す図である。(2)抑揚が強調された音声の周波数の例を模式的に示す図である。(3)抑揚が抑圧された音声の周波数の例を模式的に示す図である。
図5】(1)抑揚が強調された音声の周波数の例を示す図である。(2)入力音声の周波数の例を示す図である。(3)抑揚が抑圧された音声の周波数の例を示す図である。
【発明を実施するための形態】
【0020】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔音声信号処理装置〕
まず、本発明の実施形態による音声信号処理装置について説明する。図1は、その音声信号処理装置の構成を示すブロック図である。この音声信号処理装置1は、有音/無音判別部10、有声/無声判別部11、ピッチ区間抽出部12、ピッチ周波数制御部13、ピッチ周波数変換部14及び区間接続部15を備えている。
【0021】
有音/無音判別部10は、図示しないA/D変換部によりA/D変換されて標本化された音声波形を入力し、入力した音声波形について、音声パワーの有無に基づいて、有音区間と無音区間とに判別する。有音/無音判別部10により判別された有音区間の音声波形は、有声/無声判別部11に出力され、無音区間の音声波形は、区間接続部15に出力される。
【0022】
有声/無声判別部11は、有音/無音判別部10から有音区間の音声波形を入力し、入力した有音区間の音声波形について、PARCOR分析及び零交さ分析を行い、有声音区間と無声音区間とに判別する。有声/無声判別部11により判別された有声音区間の音声波形は、ピッチ区間抽出部12に出力され、無声音区間の音声波形は、区間接続部15に出力される。
【0023】
ピッチ区間抽出部12は、有声/無声判別部11から有声音区間の音声波形を入力し、入力した有声音区間の音声波形の相関、ピークの間隔及びレベルに基づいて、ピッチ区間を抽出する。ピッチ区間抽出部12により抽出されたピッチ区間の音声波形(ピッチ区間波形)におけるピッチ周期列は、ピッチ周波数制御部13に出力される。尚、有音/無音判別部10及び有声/無声判別部11における判別手法、並びにピッチ区間抽出部12における抽出手法は例示であり、他の手法を用いることができる。
【0024】
ピッチ周波数制御部13は、ピッチ区間抽出部12からピッチ周期列を入力し、入力したピッチ周期列に対し、所望の変更を加えてピッチ周波数を制御し、抑揚を強調または抑圧した新たなピッチ周期列を生成する。ピッチ周波数制御部13により生成された新たなピッチ周期列は、ピッチ周波数変換部14に出力される。
【0025】
ピッチ周波数変換部14は、ピッチ周波数制御部13から新たなピッチ周期列を入力し、入力した新たなピッチ周期列に応じて、ピッチ区間抽出部12により抽出されたピッチ区間の音声波形であるピッチ区間波形のピッチ周波数を変換する。これにより、入力音声のピッチ区間波形が、新たなピッチ周期列のピッチ区間波形に伸縮される。ピッチ周波数変換部14により新たなピッチ周期列のピッチ周波数に変換された音声波形は、有声音区間の音声波形として区間接続部15に出力される。
【0026】
区間接続部15は、ピッチ周波数変換部14から有声音区間の音声波形を入力すると共に、有音/無音判別部10から無音区間の音声波形を、有声/無声判別部11から無声音区間の音声波形を入力する。そして、区間接続部15は、入力した各区間の音声波形を接続して合成し、合成後の音声波形を出力する。区間接続部15により出力された音声波形は、図示しないD/A変換部によりD/A変換され、出力音声として出力される。
【0027】
〔ピッチ周波数制御部〕
次に、図1に示したピッチ周波数制御部13の処理について説明する。前述のとおり、ピッチ周波数制御部13は、入力音声のピッチ周期列に対し、所望の変更を加えてピッチ周波数を制御し、抑揚を強調または抑圧した新たなピッチ周期列を生成する。
【0028】
図2は、ピッチ周波数制御部13の処理を示すフローチャートであり、図3は、平均ピッチ周波数の算出処理を説明する図である。また、図4(1)は、入力音声の周波数の例を模式的に示す図であり、図4(2)は、抑揚が強調された音声の周波数の例を模式的に示す図であり、図4(3)は、抑揚が抑圧された音声の周波数の例を模式的に示す図である。これらの図は、ピッチ周波数の時間変化を示すものであり、横軸は時間(サンプル番号)であり、縦軸は周波数である。
【0029】
ピッチ周波数制御部13は、ピッチ区間抽出部12から入力音声のピッチ周期列を入力し(ステップS201)、入力したピッチ周期列について、過去のサンプル数n個の平均ピッチ周波数
を算出する(ステップS202)。
【0030】
具体的には、ピッチ周波数制御部13は、入力音声のピッチ周期列におけるj番目のピッチ(サンプル)のピッチ周波数をfjとして、以下の式により相乗平均の演算を行い、図3に示すように、j番目のピッチを含む過去のサンプル数n個のピッチ周波数fj-n+1,・・・,fjからその平均値(平均ピッチ周波数)を算出する。
【数4】
【0031】
ここで、サンプル数nは、当該ピッチのインデックスjが、予め設定された固定長Nより小さい場合はjとし、固定長Nより大きいか等しい場合はNとする。尚、前記式(4)の平均ピッチ周波数は、実用上、発話者の変更に伴って改めて算出することが望ましい。
【0032】
図2に戻って、ピッチ周波数制御部13は、抑揚を強調または抑圧した音声のピッチ周波数f’jを算出する(ステップS203)。
【0033】
具体的には、ピッチ周波数制御部13は、入力したピッチ周期列のj番目のピッチのピッチ周波数fj、当該j番目のピッチを基準とした過去のサンプル数n個の平均ピッチ周波数
、及び、予め設定された抑揚の強調または抑圧度合いを示すパラメータ(ピッチ周波数fjを変化させる度合いを示すパラメータ)rintから、以下の式により、抑揚を強調または抑圧した音声のピッチ周波数f’jを算出する。
【数5】
ここで、rint>1の場合、図4(2)に示すように、音声の抑揚が強調される。また、0≦rint<1の場合、図4(3)に示すように、音声の抑揚が抑圧される。
【0034】
図4(2)から、抑揚が強調された音声のピッチ周波数f1’j(実線)と入力音声のピッチ周波数fj(点線)とを比較すると、実線に示すピッチ周波数f1’jの音声は、入力音声に対して抑揚が強調されていることがわかる。また、図4(3)から、抑揚が抑圧された音声のピッチ周波数f2’j(実線)と入力音声のピッチ周波数fj(点線)とを比較すると、実線に示すピッチ周波数f2’jの音声は、入力音声に対して抑揚が抑圧されていることがわかる。
【0035】
図2に戻って、ピッチ周波数制御部13は、ステップS203にて算出したピッチ周波数f’jに基づいて、当該j番目のピッチのピッチ周期k’j=fs/f’jを算出し、新たなピッチ周期列を生成する(ステップS204)。ここで、fsは、標本化周波数である。
【0036】
ピッチ周波数制御部13は、ステップS204にて生成した新たなピッチ周期列を出力する(ステップS205)。これにより、予め設定された強調または抑圧度合いを示すパラメータ(倍率)rintに従って、ピッチ周波数制御部13から、入力音声に対して抑揚が強調または抑圧された音声のピッチ周期列が出力される。
【0037】
図5は、抑揚が強調または抑圧された音声の周波数の例を示す図である。(1)は抑揚が強調された音声の周波数の例を示し、(2)は入力音声の周波数の例を示し、(3)は抑揚が抑圧された音声の周波数の例を示す。図5は、図3及び図4と同様に、ピッチ周波数の時間変化を示すものであり、横軸は時間(サンプル)であり、縦軸は周波数である。
【0038】
図5(1)に示す抑揚が強調された音声のピッチ周波数は、図5(2)に示す入力音声のピッチ周波数に対して、抑揚の概形を保持したまま、入力音声に対応したリアルタイムにて抑揚が強調されていることがわかる。同様に、図5(3)に示す抑揚が抑圧された音声のピッチ周波数は、図5(2)に示す入力音声のピッチ周波数に対して、抑揚の概形を保持したまま、入力音声に対応したリアルタイムにて抑揚が抑圧されていることがわかる。したがって、入力音声である原音声の音韻性及び自然性を良好に保ったまま、リアルタイムに抑揚変換を行うことができる。
【0039】
以上のように、本発明の実施形態の音声信号処理装置1によれば、ピッチ周波数制御部13は、入力音声における過去のサンプル数n個のピッチ周波数fj-n+1,・・・,fjからその平均値(平均ピッチ周波数)を算出し、入力音声のj番目のピッチのピッチ周波数fj、算出した平均値(平均ピッチ周波数)、及び予め設定されたパラメータ(倍率)rintから、抑揚を強調または抑圧した音声のピッチ周波数f’jを算出し、新たなピッチ周期列を生成するようにした。
【0040】
これにより、抑揚を強調または抑圧した音声のピッチ周波数f’jを算出する際に、入力音声の全ピッチ周波数を用いる必要がないから、簡易な処理で済む。したがって、遅延時間を短くすることができ、リアルタイムに抑揚変換した高品質な音声を得ることができる。
【0041】
尚、本発明の実施形態による音声信号処理装置1のハードウェア構成としては、通常のコンピュータを使用することができる。音声信号処理装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声信号処理装置1に備えた有音/無音判別部10、有声/無声判別部11、ピッチ区間抽出部12、ピッチ周波数制御部13、ピッチ周波数変換部14及び区間接続部15の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【0042】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施形態では、音声信号処理装置1のピッチ周波数制御部13は、j番目のピッチの平均ピッチ周波数を算出する際に、当該ピッチのピッチ周波数fjを含む過去のサンプル数n個のピッチ周波数fj-n+1,・・・,fjを用いて、相乗平均の演算を行うようにした。
【0043】
これに対し、ピッチ周波数制御部13は、相乗平均の演算の代わりに相加平均の演算を行うようにしてもよい。また、ピッチ周波数制御部13は、過去のサンプル数n個(サンプルの範囲)を、jの番号に関わらず固定長にするのではなく、jの番号に応じて可変長とするようにしてもよい。また、過去のサンプル数n個のピッチ周波数には、当該ピッチのピッチ周波数fjを含まないようにしてもよい。
【0044】
また、過去のサンプル数n個のピッチ周波数の代わりに、過去のn/2個のピッチ周波数及び先読みした未来のn/2個のピッチ周波数を用いるようにしてもよい。この場合、ピッチ周波数制御部13は、j番目のピッチの平均ピッチ周波数を算出する際に、リアルタイムの入力音声のピッチ周期列(先読みしたピッチ周波数を含む各ピッチのピッチ周波数)が格納されたメモリから、当該ピッチのピッチ周波数fjを基準にして、過去のn/2個のピッチ周波数fj-n/2+1,・・・,fj及び先読みした未来のn/2個のピッチ周波数fj+1,・・・,fj+n/2をメモリから読み出し、これらのピッチ周波数を用いて相乗平均等の演算を行う。
【符号の説明】
【0045】
1 音声信号処理装置
10 有音/無音判別部
11 有声/無声判別部
12 ピッチ区間抽出部
13 ピッチ周波数制御部
14 ピッチ周波数変換部
15 区間接続部
図1
図2
図3
図4
図5