特許6565206 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許6565206音声処理装置および音声処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6565206

(24)【登録日】2019年8月9日

(45)【発行日】2019年8月28日

(54)【発明の名称】音声処理装置および音声処理方法

(51)【国際特許分類】

G10L 21/007 20130101AFI20190819BHJP

【ＦＩ】

G10L21/007

【請求項の数】4

【全頁数】11

(21)【出願番号】特願2015-31366(P2015-31366)

(22)【出願日】2015年2月20日

(65)【公開番号】特開2016-153820(P2016-153820A)

(43)【公開日】2016年8月25日

【審査請求日】2017年12月22日

(73)【特許権者】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】100125689

【弁理士】

【氏名又は名称】大林章

(74)【代理人】

【識別番号】100128598

【弁理士】

【氏名又は名称】高田聖一

(74)【代理人】

【識別番号】100121108

【弁理士】

【氏名又は名称】高橋太朗

(72)【発明者】

【氏名】フェルナンドヴィラヴィセンシオ

【審査官】千本潤介

(56)【参考文献】

【文献】特開２００３−０６６９８２（ＪＰ，Ａ）

【文献】特開２００４−０８６１０２（ＪＰ，Ａ）

【文献】特表２００２−５０７２９１（ＪＰ，Ａ）

【文献】特表２０１４−５２４５９３（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／００ −１３／１０，

Ｇ１０Ｌ２１／００３−２１／０１３

(57)【特許請求の範囲】

【請求項1】

周波数領域における音声信号の包絡線を表現する線スペクトル対を示す複数の係数値を算定する係数算定手段と、
特定周波数の低域側では前記線スペクトル対の間隔が減少し、前記特定周波数の高域側では前記線スペクトル対の間隔が増加するように、前記係数算定手段が算定した複数の係数値を調整する調整処理手段と
を具備する音声処理装置。

【請求項2】

前記調整処理手段は、前記特定周波数の低域側の第１周波数における第１値から前記特定周波数における基準値まで減少するとともに、前記特定周波数の高域側の第２周波数における第２値まで前記基準値から増加する関数において前記複数の係数値の各々に対応する数値を、当該係数値に加算する
請求項１の音声処理装置。

【請求項3】

前記第１値と前記第２値と前記基準値との少なくともひとつを利用者からの指示に応じて可変に設定する変数設定手段
を具備する請求項２の音声処理装置。

【請求項4】

周波数領域における音声信号の包絡線を表現する線スペクトル対を示す複数の係数値を算定し、
特定周波数の低域側では前記線スペクトル対の間隔が減少し、前記特定周波数の高域側では前記線スペクトル対の間隔が増加するように、前記算定した複数の係数値を調整する
コンピュータにより実現される音声処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、歌唱音や会話音等の音声の声質を制御する音声処理に関する。

【背景技術】

【0002】

歌唱音や会話音等の音声の声質を変換する技術が従来から提案されている。例えば特許文献１には、音声素片の声質を変換したうえで歌唱音声を合成する素片接続型の音声合成技術が開示されている。また、特許文献２には、音声素片の非調波成分を制御することで合成音声のハスキー度を制御する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００４−０３８０７１号公報

【特許文献2】特開２００５−０１８０９７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１や特許文献２に開示された音声合成に代表される各種の音声処理では、例えば金属的な音声等の多様な声質の音声の生成と、声質変換に必要な処理負荷の軽減との両立が要求される。以上の事情を考慮して、本発明は、多様な声質の音声を簡便な処理で生成することを目的とする。

【課題を解決するための手段】

【0005】

以上の課題を解決するために、本発明の音声処理装置は、周波数領域における音声信号の包絡線を表現する線スペクトル対を示す複数の係数値を算定する係数算定手段と、特定周波数の低域側では線スペクトル対の間隔が第１方向に変化し、特定周波数の高域側では線スペクトル対の間隔が第１方向とは反対の第２方向に変化するように、係数算定手段が算定した複数の係数値を調整する調整処理手段とを具備する。以上の構成では、周波数領域での音声信号の包絡線を表現する線スペクトル対の間隔が、特定周波数の低域側では第１方向に変化するとともに高域側では反対の第２方向に変化する。したがって、聴感的な金属性を変化させた多様な声質の音声を、線スペクトル対を示す係数値の調整という簡便な処理で生成することが可能である。

【0006】

本発明の好適な態様において、調整処理手段は、特定周波数の低域側では線スペクトル対の間隔が減少し、特定周波数の高域側では線スペクトル対の間隔が増加するように、複数の係数値を調整する。以上の態様によれば、金属性を強調した音声を生成することが可能である。

【0007】

本発明の好適な態様において、調整処理手段は、特定周波数の低域側の第１周波数における第１値から特定周波数における基準値まで減少するとともに、特定周波数の高域側の第２周波数における第２値まで基準値から増加する関数において複数の係数値の各々に対応する数値を、当該係数値に加算する。以上の態様では、特定周波数を境界として増減が反転する関数の数値が係数値に加算されるから、多様な声質の音声を生成するための処理の簡素化という前述の効果は格別に顕著である。

【0008】

本発明の好適な態様に係る音声処理装置は、第１値と第２値と基準値との少なくともひとつを可変に設定する変数設定手段を具備する。以上の態様では、係数値の調整用の関数を規定する各数値が可変に設定されるから、金属性の度合を相違させた多様な音声を生成することが可能である。例えば利用者からの指示に応じて各数値を設定する構成によれば、利用者の意図や嗜好に応じた多様な声質の音声を生成できるという利点がある。

【0009】

以上の各態様に係る音声処理装置は、専用の電子回路で実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、通信網を介した配信の形態で本発明のプログラムを提供してコンピュータにインストールすることも可能である。
また、本発明は、前述の各態様に係る音声処理装置の動作方法（音声処理方法）としても表現され得る。

【図面の簡単な説明】

【0010】

【図1】本発明の第１実施形態に係る音声処理装置の構成図である。

【図2】金属性の音声の音響特性の説明図である。

【図3】金属性の音声の調音特性の説明図である。

【図4】線スペクトル対の各係数値の差分と周波数との関係の説明図である。

【図5】通常の音声に図４の特性を付加した場合の包絡線である。

【図6】変換処理部の構成図である。

【図7】調整処理部が各係数値の変換に利用する関数の説明図である。

【図8】関数の具体例である。

【図9】図８の関数を利用して生成される包絡線である。

【図10】変換処理部の動作のフローチャートである。

【図11】第２実施形態における変換処理部の構成図である。

【図12】変数設定部が設定した数値に応じた関数の説明図である。

【図13】図１２の関数を利用して生成される包絡線である。

【発明を実施するための形態】

【0011】

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置１００の構成図である。音声処理装置１００には外部機器１２から音声信号ＳXが供給される。音声信号ＳXは、発声者の声帯を含む発声器官で発生した声帯音声を声道および口腔等の調音器官で調音した特定の声質の音声（例えば歌唱音や会話音）を表す時間領域の信号である。本実施形態の音声処理装置１００は、音声信号ＳXとは声質が相違する音声を表す時間領域の音声信号ＳYを音声信号ＳXから生成する信号処理装置（声質変換装置）である。音声処理装置１００が生成した音声信号ＳYに応じた音響がスピーカやヘッドホン等の放音機器１４から放射される。

【0012】

図１に例示される通り、音声処理装置１００は、演算処理装置２２と記憶装置２４とを具備するコンピュータシステムで実現される。記憶装置２４は、演算処理装置２２が実行するプログラムと演算処理装置２２が使用する各種のデータとを記憶する。半導体記録媒体および磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置２４として任意に利用される。演算処理装置２２は、記憶装置２４に格納されたプログラムを実行することで、音声信号ＳXから音声信号ＳYを生成するための複数の機能（周波数解析部３２，変換処理部３４，波形生成部３６）を実現する。なお、演算処理装置２２の機能を複数の装置に分散した構成や、演算処理装置２２の機能の一部または全部を音声処理専用の電子回路が実現する構成も採用され得る。

【0013】

周波数解析部３２は、外部機器１２から供給される音声信号ＳXの周波数スペクトルＸを時間軸上の単位区間（フレーム）毎に順次に生成する。周波数スペクトルＸの生成には例えば高速フーリエ変換（FFT：Fast Fourier Transform）等の公知の周波数分析が任意に採用され得る。

【0014】

変換処理部３４は、音声信号ＳXの音高および音韻を維持しながら音声信号ＳXの声質を変換する。具体的には、第１実施形態の変換処理部３４は、周波数解析部３２が単位区間毎に生成する周波数スペクトルＸに対する変換処理で音声信号ＳYの周波数スペクトルＹを単位区間毎に順次に生成する。波形生成部３６は、変換処理部３４が単位区間毎に生成する周波数スペクトルＹから時間領域の音声信号ＳYを生成する。波形生成部３６が生成した音声信号ＳYが放音機器１４に供給されて音波として放射される。

【0015】

第１実施形態の変換処理部３４は、金属性の音声（metallic voice）を表す音声信号ＳYの周波数スペクトルＹを音声信号ＳXの周波数スペクトルＸから生成する。金属性の音声は、受聴者が金属的と感受する音声（例えばいわゆるキンキン声等の硬い音）である。金属性の音声の周波数特性について以下に検討する。

【0016】

図２は、金属性の度合を相違させて実際に発音された複数種の音声の周波数特性である。通常の音声（neutral）および金属性の音声（metallic）に加えて両者間の中間的な２種類の音声（neutral+delta，metallic-delta）について周波数特性が図２では併記されている。他方、図３は、図２に例示された各音声から声帯音声の影響を除外した調音特性、すなわち声道および口腔等の調音器官で声帯音声に付加される周波数特性であり、音声の周波数スペクトルの包絡線に相当する。

【0017】

図３に例示される通り、金属性が増加するほど、調波特性のうち特定の周波数（以下「特定周波数」という）Ｒの低域側（具体的には2kHz〜8kHz）における強度（エネルギー）の増加と、特定周波数Ｒの高域側の周波数帯域（具体的には約18kHz以上）における強度の減少とが顕在化する、という傾向が観測される。以上の傾向を考慮して、第１実施形態の変換処理部３４は、特定周波数Ｒの低域側の周波数成分が強調されるとともに高域側の周波数成分が抑制されるように音声信号ＳXの周波数スペクトルＸの包絡線を調整することで、金属性の音声の周波数スペクトルＹを生成する。特定周波数Ｒは、典型的にはシンギングフォルマントに対応する周波数である。具体的には、8kHz以上かつ18kHz以下の範囲内（13kHz±5kHz）の周波数（例えば13kHz）が特定周波数Ｒとして好適である。

【0018】

周波数スペクトルの包絡線（図３の調音特性）は、周波数軸上に配置された複数の線スペクトル対で規定される自己回帰モデル（全極型伝達関数）で近似される。Ｋ次の自己回帰モデルの線スペクトル対は、以下の数式(1)の条件を充足する複数（Ｋ個）の係数値ωk（ｋ＝１〜Ｋ）で規定される。
０＜ω1＜ω2＜ω3＜……＜ωK-1＜ωK＜π ……(1)

【0019】

各係数値ωkは、線スペクトル対を構成する線スペクトルの周波数（ＬＳＦパラメータ）に相当し、周波数軸上で各係数値ωkの周波数に設置される線スペクトルの疎密で包絡線のピークが表現される。具体的には、任意の１個の係数値ωkと当該係数値ωkの直近の係数値ωk+1との差分（すなわち、相互に隣合う第ｋ番目および第(k+1)番目の各線スペクトル対の間隔）が小さいほど包絡線のピークが急峻で高強度であることを意味する。

【0020】

図４の特性Ｆ0（original）は、金属性の音声の周波数スペクトルの包絡線を表現するＫ個の係数値ω1〜ωKのうち相互に隣合う任意の２個の係数値（ωk，ωk+1）の間の差分（すなわち各線スペクトル対の間隔）Ｄを周波数軸上に図示したグラフである。図４には、周波数軸上で特性Ｆ0を平滑化した特性Ｆ1（smoothed）が併記されている。図４の特性Ｆ0および特性Ｆ1から理解される通り、金属性の音声では、周波数軸上の0Hzから特定周波数Ｒ（約13kHz）にかけて差分Ｄが減少し、特定周波数Ｒに対する高域側では差分Ｄが増加する、という概略的な傾向が観測される。図４の特性Ｆ2（modeled）は、以上の傾向を近似的に表現する折線である。具体的には、低域側から特定周波数Ｒにかけて数値が減少するとともに特定周波数Ｒから高域側にかけて数値が増加するように選定された折線で特性Ｆ2は表現される。

【0021】

図５には、非金属性の通常の音声（modal voice）の周波数スペクトルの包絡線を表現するＫ個の係数値ωkに、以上に説明した特性Ｆ1（smoothed）および特性Ｆ2（modeled）の各数値を加算した場合の包絡線である。目標となる金属性の音声（target）の周波数スペクトルの包絡線が図５には併記されている。図５から理解される通り、Ｋ個の係数値ωkに特性Ｆ1または特性Ｆ2を付加することで、特定周波数Ｒの低域側の強調および高域側の抑制という金属性の音声（target）に特有の傾向が再現される。以上の知見を背景として、第１実施形態の変換処理部３４は、音声信号ＳYの周波数スペクトルＸの包絡線を表現する複数の係数値ωkに前述の近似的な特性Ｆ2を付与することで、金属性の音声の包絡線を表現する周波数スペクトルＹを生成する。

【0022】

図６は、変換処理部３４の構成図である。図６に例示される通り、第１実施形態の変換処理部３４は、係数算定部４２と調整処理部４４と声質変換部４６とを包含する。

【0023】

係数算定部４２は、周波数解析部３２が算定した周波数スペクトルＸの包絡線を表現する線スペクトル対のＫ個の係数値ωk（ω1〜ωK）を単位区間毎に順次に算定する。係数算定部４２によるＫ個の係数値ωkの算定には公知の技術が任意に採用され得る。例えば、周波数スペクトルＸの包絡線に対する逆フーリエ変換で算定される自己相関関数から周波数スペクトルＸの包絡線の自己回帰モデルを例えばYule-Walker方程式で推定し、当該自己回帰モデルの係数からＫ個の係数値ωkを算定することが可能である。係数算定部４２が算定するＫ個の係数値ωkは、前述の数式(1)の条件を充足する。

【0024】

図６の調整処理部４４は、係数算定部４２が算定するＫ個の係数値ωkの各々を調整することでＫ個の係数値ωk'（ω1'〜ωK'）を単位区間毎に順次に算定する。調整処理部４４による各係数値ωkの調整には、前述の特性Ｆ2を表現する関数Ｑ(ω)が利用される。

【0025】

図７は、関数Ｑ(ω)の説明図である。図７に例示される通り、第１実施形態の関数Ｑ(ω)は、特定周波数Ｒの低域側の周波数Ω1から特定周波数Ｒにかけて数値Ａ1（＝Ｑ(Ω1)）から数値（基準値）ＡRまで直線的に減少するとともに、特定周波数Ｒから高域側の周波数Ω2にかけて数値ＡRから数値Ａ2（＝Ｑ(Ω2)）まで直線的に増加する折線関数である（Ａ1，Ａ2＞ＡR）。すなわち、周波数（角周波数ω）の増加に対する関数Ｑ(ω)の変化の方向（増加／減少）は特定周波数Ｒを境界として逆転する。周波数Ω1は例えば０[rad]（０[Hz]）であり、周波数Ω2は例えばπ[rad]（Ｆs／２[Hz]）である。記号Ｆsは音声信号ＳXのサンプリング周波数を意味する。数値Ａ1および数値Ａ2は例えば0.01に設定され、数値ＡRは例えば-0.04に設定される。

【0026】

調整処理部４４は、以下の数式(2)で表現される通り、関数Ｑ(ω)において各係数値ωkに対応する数値Ｑ(ωk)を当該係数値ωkに加算することで係数値ωk'（ω1'〜ωK'）を算定する。
ωk'＝ωk＋Ｑ(ωk) ……(2)

【0027】

図７には、周波数Ω1から特定周波数Ｒまでの周波数帯域ＢL内で相互に隣合う係数値ω1および係数値ω2と、特定周波数Ｒから周波数Ω2までの周波数帯域ＢH内で相互に隣合う係数値ω3および係数値ω4とが例示されている。調整処理部４４による数式(2)の演算で各係数値ωkは以下のように変換される。
ω1'＝ω1＋Ｑ(ω1)
ω2'＝ω2＋Ｑ(ω2)
ω3'＝ω3＋Ｑ(ω3)
ω4'＝ω4＋Ｑ(ω4)

【0028】

したがって、係数値ω1'と係数値ω2'との差分（変換後の線スペクトル対の間隔）、および、係数値ω3'と係数値ω4'との差分は、以下のように表現される。
ω2'−ω1'＝(ω2−ω1)−{Ｑ(ω1)−Ｑ(ω2)}
ω4'−ω3'＝(ω4−ω3)＋{Ｑ(ω4)−Ｑ(ω3)}

【0029】

周波数帯域ＢL内で関数Ｑ(ω)は単調減少するから、数値Ｑ(ω1)と数値Ｑ(ω2)との差分{Ｑ(ω1)−Ｑ(ω2)}は正数である。したがって、変換後の係数値ω2'と係数値ω1'との差分(ω2'−ω1')は、変換前の係数値ω2と係数値ω1との差分(ω2−ω1)を下回る（ω2'−ω1'＜ω2−ω1）。すなわち、特定周波数Ｒの低域側の周波数帯域ＢL内では、相互に隣合う各係数値ωkの差分が調整処理部４４による処理で減少する。他方、周波数帯域ＢH内で関数Ｑ(ω)は単調増加するから、数値Ｑ(ω4)と数値Ｑ(ω3)との差分{Ｑ(ω4)−Ｑ(ω3)}は正数である。したがって、変換後の係数値ω4'と係数値ω3'との差分(ω4'−ω3')は、変換前の係数値ω4と係数値ω3との差分(ω4−ω3)を上回る（ω4'−ω3'＜ω4−ω3）。すなわち、特定周波数Ｒの高域側の周波数帯域ＢHでは、相互に隣合う各係数値ωkの差分が調整処理部４４による処理で増加する。

【0030】

以上の説明から理解される通り、第１実施形態の調整処理部４４は、特定周波数Ｒの低域側では線スペクトル対の間隔が減少し、特定周波数Ｒの高域側では線スペクトル対の間隔が増加するように、係数算定部４２が算定したＫ個の係数値ωkを調整する。通常の音声（original）の音声信号ＳXから算定されるＫ個の係数値ωkに図８の関数Ｑ(ω)を適用した場合の各係数値ωk'で表現される包絡線（metallic）が図９に図示されている。調整処理部４４が前述の例示のように線スペクトル対の間隔を調整する結果、図９からも理解される通り、調整処理部４４による処理後の各係数値ωk'は、調整前の周波数スペクトルＸの包絡線（original）と比較して、特定周波数Ｒの低域側の周波数成分が強調されるとともに高域側の周波数成分が抑制された金属性の音声の包絡線を表現する。

【0031】

図６の声質変換部４６は、調整処理部４４による処理後の各係数値ωk'で表現される包絡線の特性を音声信号ＳXの各単位区間の周波数スペクトルＸに付与することで音声信号ＳYの周波数スペクトルＹを単位区間毎に順次に生成する。具体的には、周波数スペクトルＹの包絡線が変換後の各係数値ωk'の包絡線に合致するように周波数スペクトルＸの各周波数の強度が調整される。声質変換部４６が生成した周波数スペクトルＹが図１の波形生成部３６に供給されて時間領域の音声信号ＳYに変換される。

【0032】

図１０は、変換処理部３４の動作のフローチャートである。周波数解析部３２が音声信号ＳXの任意の１個の単位区間について周波数スペクトルＸを算定するたびに図１０の処理が実行される。係数算定部４２は、周波数スペクトルＸの解析でＫ個の係数値ωkを算定する（Ｓ1）。調整処理部４４は、係数算定部４２が算定した係数値ωkを関数Ｑ(ω)に適用して変換後の係数値ωk'を算定する（Ｓ2）。声質変換部４６は、調整処理部４４による処理後のＫ個の係数値ωk'で表現される包絡線の周波数特性を音声信号ＳXの周波数スペクトルＸに付与することで金属性の音声の周波数スペクトルＹを生成する（Ｓ3）。

【0033】

以上に説明した通り、第１実施形態では、周波数領域での音声信号ＳXの包絡線を表現する線スペクトル対の間隔（相互に隣合う係数値ωkの差分Ｄ）を、特定周波数Ｒの低域側では減少させるとともに高域側では増加させることで金属性の音声を生成する。したがって、金属性を増加させた多様な声質の音声を簡便な処理で生成することが可能である。

【0034】

第１実施形態では、低域側の周波数Ω1から特定周波数Ｒにかけて数値Ａ1から数値ＡRに減少するとともに特定周波数Ｒから高域側の周波数Ω2にかけて数値ＡRから数値Ａ2に増加する関数Ｑ(ω)において各係数値ωkに対応する数値Ｑ(ωk)を当該係数値ωkに加算することで変換後の係数値ωk'が算定される。したがって、処理の簡素化という前述の効果は格別に顕著である。

【0035】

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において、作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

【0036】

図１１は、第２実施形態における変換処理部３４の構成図である。図１１に例示される通り、第２実施形態の変換処理部３４は、第１実施形態と同様の要素（係数算定部４２，調整処理部４４，声質変換部４６）に加えて変数設定部４８を包含する。

【0037】

変数設定部４８は、調整処理部４４による係数値ωk'の算定に適用される各種の変数を設定する。具体的には、変数設定部４８は、関数Ｑ(ω)を規定する各数値Ａ（Ａ1，Ａ2，ＡR）を利用者からの指示に応じて可変に設定する。調整処理部４４は、変数設定部４８が設定した各数値Ａで規定される関数Ｑ(ω)に各係数値ωkを適用することで変換後のＫ個の係数値ωk'を算定する。

【0038】

図１２は、各数値Ａを相違させた複数種の関数Ｑ(ω)（Ｑ1，Ｑ2，Ｑ3）のグラフである。また、非金属性の通常の音声（original）のＫ個の係数値ωkに図１２の各関数Ｑ(ω)を適用した場合のＫ個の係数値ωk'で表現される包絡線（Ｑ1，Ｑ2，Ｑ3）が図１３に図示されている。関数Ｑ(ω)の各数値Ａに応じて変換後の音声の金属性の度合が変化することが図１３から確認できる。具体的には、数値Ａ1または数値Ａ2と特定周波数Ｒでの数値ＡRとの差異が大きいほど、特定周波数Ｒの低域側の強調と高域側の抑制とが顕著となり、結果的に金属性の度合が高い音声が生成される。

【0039】

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、関数Ｑ(ω)を規定する各数値Ａ（Ａ1，Ａ2，ＡR）が可変に設定されるから、金属性の度合を相違させた多様な音声を生成することが可能である。なお、第２実施形態では関数Ｑ(ω)の各数値Ａを制御したが、以上の構成に代えて（または以上の構成に加えて）、各数値Ａに対応する周波数（Ω1，Ω2，Ｒ）を、変数設定部４８が利用者からの指示に応じて可変に設定することも可能である。

【0040】

＜変形例＞
以上に例示した形態は多様に変形される。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

【0041】

（１）前述の各形態では、周波数領域での音声信号ＳXの包絡線を表現する線スペクトル対の間隔を特定周波数Ｒの低域側で減少させるとともに高域側で増加させる構成を例示したが、線スペクトル対の間隔の増減を逆転させることも可能である。すなわち、線スペクトル対の間隔を特定周波数Ｒの低域側で増加させるとともに高域側で減少させる構成も採用され得る。以上の構成によれば、例えば金属性の音声の音声信号ＳXから金属性が低い音声（聴感的に柔らかい印象の音声）を生成するこことが可能である。

【0042】

以上の例示から理解される通り、調整処理部４４は、特定周波数Ｒの低域側では線スペクトル対の間隔が第１方向に変化し、特定周波数Ｒの高域側では線スペクトル対の間隔が第１方向とは反対の第２方向に変化するように、Ｋ個の係数値ωkを調整する要素として包括的に表現される。第１方向は増加および減少の一方であり、第２方向は増加および減少の他方である。

【0043】

（２）前述の各形態では、低域側の周波数Ω1から特定周波数Ｒにかけて直線的に減少するともに特定周波数Ｒから高域側の周波数Ω2にかけて直線的に増加する関数Ｑ(ω)を例示したが、関数Ｑ(ω)の内容は以上の例示（折線関数）に限定されない。例えば、周波数Ω1から特定周波数Ｒにかけて曲線的（例えば非線形または指数的）に減少するとともに特定周波数Ｒから周波数Ω2にかけて曲線的に増加する関数Ｑ(ω)を利用することも可能である。

【0044】

（３）移動通信網やインターネット等の通信網を介して端末装置（例えば携帯電話機やスマートフォン）と通信するサーバ装置で音声処理装置１００を実現することも可能である。具体的には、音声処理装置１００は、端末装置から通信網を介して受信した音声信号ＳXから前述の各形態と同様の処理で音声信号ＳYを生成して端末装置に送信する。以上の構成によれば、声質変換を代行するクラウドサービスを端末装置の利用者に提供することが可能である。なお、音声信号ＳXの周波数スペクトルＸが端末装置から音声処理装置１００に送信される構成（例えば端末装置が周波数解析部３２を具備する構成）では音声処理装置１００から周波数解析部３２が省略される。また、音声信号ＳYの周波数スペクトルＹを音声処理装置１００から端末装置に送信する構成（例えば端末装置が波形生成部３６を具備する構成）では音声処理装置１００から波形生成部３６が省略される。さらに、端末装置が声質変換部４６を具備する構成では、音声処理装置１００から声質変換部４６が省略され、調整処理部４４が生成したＫ個の係数値ωk'が端末装置に送信される。

【符号の説明】

【0045】

１００……音声処理装置、１２……外部機器、１４……放音機器、２２……演算処理装置、２４……記憶装置、３２……周波数解析部、３４……変換処理部、３６……波形生成部、４２……係数算定部、４４……調整処理部、４６……声質変換部、４８……変数設定部。

【図1】