特開2023-171108 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人　東京大学の特許一覧

特開2023-171108音声変換装置、音声変換方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023171108

(43)【公開日】2023-12-01

(54)【発明の名称】音声変換装置、音声変換方法、及びプログラム

(51)【国際特許分類】

G10L 21/007 20130101AFI20231124BHJP

【ＦＩ】

G10L21/007

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022083351

(22)【出願日】2022-05-20

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】100164471

【弁理士】

【氏名又は名称】岡野大和

(74)【代理人】

【識別番号】100176728

【弁理士】

【氏名又は名称】北村慎吾

(72)【発明者】

【氏名】井島勇祐

(72)【発明者】

【氏名】齋藤大輔

(57)【要約】

【課題】音声特徴量の動的特徴量のみを変化させることにより、話者性を保持したまま発声スキルのみを変換する。
【解決手段】音声変換装置（１）は、変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するモデル学習部（１１）と、変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、変換対象話者の音声特徴量に変換する音声変換部（１２）と、変換元話者の音声特徴量の動的特徴量と、変換対象話者の音声特徴量の動的特徴量とを用いて、変換元話者の音声特徴量を変換後音声特徴量に変換する動的特徴量変換部（１３）と、変換後音声特徴量から音声波形を生成する音声波形生成部（１４）と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

話者の音声特徴量の動的特徴量を変換する音声変換装置であって、
変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するモデル学習部と、
前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換する音声変換部と、
前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを用いて、前記変換元話者の音声特徴量を変換後音声特徴量に変換する動的特徴量変換部と、
前記変換後音声特徴量から音声波形を生成する音声波形生成部と、
を備える音声変換装置。

【請求項2】

前記動的特徴量変換部は、前記変換元話者の音声特徴量の動的特徴量を、前記変換対象話者の音声特徴量の動的特徴量と差し替えることにより、前記変換後音声特徴量を生成する、請求項１に記載の音声変換装置。

【請求項3】

前記動的特徴量変換部は、前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量との重み付き和を音声フレームごとに求めることにより、変換後動的特徴量を生成し、前記変換後動的特徴量を用いて、前記変換元話者の音声特徴量を前記変換後音声特徴量に変換する、請求項１に記載の音声変換装置。

【請求項4】

前記モデル学習部は、複数の話者の音声特徴量と、各話者に付与された発声スキルとを入力して、任意に変換元話者に定めた１名の話者の音声特徴量を、変換対象話者に定めた他の複数の話者の音声特徴量にそれぞれ変換する複数の音声変換モデルを学習し、
前記音声変換部は、前記変換元話者の音声特徴量と、目標発声スキルとを学習済みの音声変換モデルへ入力して、前記変換元話者の音声特徴量を、前記目標発声スキルに合致する発声スキルを有する変換対象話者の音声特徴量に変換する、請求項１から３のいずれか１項に記載の音声変換装置。

【請求項5】

話者の音声特徴量の動的特徴量を変換する音声変換方法であって、
音声変換装置により、
変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するステップと、
前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換するステップと、
前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを用いて、前記変換元話者の音声特徴量を変換後音声特徴量に変換するステップと、
前記変換後音声特徴量から音声波形を生成するステップと、
を含む音声変換方法。

【請求項6】

コンピュータを、請求項１から４のいずれか１項に記載の音声変換装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、入力された話者の音声の発声スキルを変換する音声変換装置、音声変換方法及び、プログラムに関する。

【背景技術】

【0002】

従来、アナウンサー、声優等の発声の専門家と、それ以外の素人とでは、発声スキルが大きく異なる。本開示において、発声スキルとは、話者により発声される音声の聞き取りやすさを示す指標をいう。たとえば、駅の構内放送、建物の館内放送等において、素人が発声したアナウンスは、聞き取りづらい等の課題があるため、発声した音声の話者性を変えずに、発声スキルのみを変換する技術が必要とされている。本開示において、話者性とは、音声に含まれるスペクトルに代表される音響特徴、音高、発話リズム等に代表される韻律特徴を合わせて指す。

【0003】

図６は、従来の音声変換装置の構成例を示すブロック図である。従来、音声（声質）変換とは、入力された変換元話者の音声特徴量を、目標とする変換対象話者の音声特徴量へ変換する技術とされる。図６に示すように、変換元話者の音声特徴量から変換対象話者の音声特徴量への変換は、音声変換アルゴリズムを用いて学習された音声変換モデルに、変換元話者の音声特徴量を入力することにより行われる。たとえば、非特許文献１には、ベクトル量子化を用いて任意の２名の話者間で音声を変換する音声変換アルゴリズムが記載されている。また、非特許文献２には、人工ニューラルネットワーク（ＡＮＮ）を用いて任意の２名の話者間で音声を変換する音声変換アルゴリズムが記載されている。非特許文献１及び非特許文献２に開示されたアルゴリズムを用いる場合、２名の話者の音声はパラレルデータ（２名の話者が同一の発話を発声した音声をいう。）である必要がある。一方、非特許文献３には、２名の話者の音声がパラレルデータであることを必要としない音声を活用できる、ＶＡＥ（バリエーショナル・オートエンコーダ）を用いた音声変換アルゴリズムが記載されている。

【0004】

つぎに、図６に示すように、音声合成アルゴリズムを用いて、変換対象話者の音声特徴量から音声波形を生成する。非特許文献４には、メル対数スペクトル近似（ＭＬＳＡ（Mel-Log Spectrum Approximatation））フィルタを用いた音声合成アルゴリズムが記載されている。

【0005】

さらに、本開示で用い得るアルゴリズムとして、非特許文献５には、動的特徴を用いたパラメータ生成アルゴリズムが、非特許文献６には、重回帰混合正規分布モデルが記載されている。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】Abe, Masanobu, et al. “Voice conversion through vector quantization.” Journal of the Acoustical Society of Japan (E) 11.2 (1990): 71-76

【非特許文献2】Desai, Srinivas, et al. “Spectral mapping using artificial neural networks for voice conversion.” IEEE Transactions on Audio, Speech, and Language Processing 18.5 (2010): 954-964.

【非特許文献3】Hsu, Chin-Cheng, et al. “Voice conversion from non-parallel corpora using variational auto-encoder.” Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2016 Asia-Pacific. IEEE, 2016.

【非特許文献4】今井聖、外２名、「音声合成のためのメル対数スペクトル近似（MLSA）フィルタ」、電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129、 Feb. 1983.

【非特許文献5】益子貴史、外３名、「動的特徴を用いたHMMに基づく音声合成」、信学論、vol.J79-D-II、no.12、pp.2184-2190、Dec. 1996.

【非特許文献6】太田久美、「重回帰混合正規分布モデルに基づく声質変換・制御法」、奈良先端科学技術大学院大学修士論文、 2008.

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかし、非特許文献１又は非特許文献２に開示された音声変換アルゴリズムを用いた、従来の音声変換装置によると、変換元話者の話者性もが、変換対象話者の話者性に変換されてしまい、変換元話者の話者性を保持したまま発声スキルのみを変換することが出来ないという課題があった。

【0008】

そこで、本開示では、発声スキルを滑舌の良し悪しと捉え、素人の話者の音声の音声特徴量の時間的変動のみを、専門家のものへと変換することにより、発声スキルのみを変換する技術に着目した。

【0009】

かかる事情に鑑みてなされた本開示の目的は、音声特徴量の時間的変動（動的特徴量）のみを変換することにより、話者性を保持したまま発声スキルのみを変換する音声変換装置、音声変換方法、及びプログラムを提供することにある。

【課題を解決するための手段】

【0010】

上記課題を解決するため、本実施形態に係る音声変換装置は、話者の音声特徴量の動的特徴量を変換する音声変換装置であって、変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するモデル学習部と、前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換する音声変換部と、前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを用いて、前記変換元話者の音声特徴量を変換後音声特徴量に変換する動的特徴量変換部と、前記変換後音声特徴量から音声波形を生成する音声波形生成部と、を備える。

【0011】

上記課題を解決するため、本実施形態に係る音声変換方法は、話者の音声特徴量の動的特徴量を変換する音声変換方法であって、音声変換装置により、変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するステップと、前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換するステップと、前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを入力して、前記変換元話者の音声特徴量を変換後音声特徴量に変換するステップと、前記変換後音声特徴量から音声波形を生成するステップと、を含む。

【0012】

上記課題を解決するため、本実施形態に係るプログラムは、コンピュータを、上記音声変換装置として機能させる。

【発明の効果】

【0013】

本開示によれば、音声特徴量の時間変動（動的特徴量）のみを変換することにより、話者性を保持したまま発声スキルのみを変換することが可能となる。

【図面の簡単な説明】

【0014】

【図1】第１の実施形態に係る音声変換装置の構成例を示すブロック図である。

【図2】第１の実施形態に係る音声変換装置が実行する音声変換方法の一例を示すフローチャートである。

【図3】第２の実施形態に係る音声変換装置の構成例を示すブロック図である。

【図4】第２の実施形態に係る音声変換装置が実行する音声変換方法の一例を示すフローチャートである。

【図5】音声変換装置として機能するコンピュータの概略構成を示すブロック図である。

【図6】従来の音声変換装置の構成例を示すブロック図である。

【発明を実施するための形態】

【0015】

以下、本発明を実施するための形態が、図面を参照しながら詳細に説明される。本発明は、以下の実施形態に限定されるものではなく、その要旨の範囲内で種々変形して実施することができる。

【0016】

（第１の実施形態）
図１は、第１の実施形態に係る音声変換装置１の構成例を示すブロック図である。図１に示すように、第１の実施形態に係る音声変換装置１は、モデル学習部１１と、音声変換部１２と、動的特徴量変換部１３と、音声波形生成部１４と、を備える。音声変換装置１は、話者の音声特徴量の動的特徴量を変換する。モデル学習部１１、音声変換部１２、動的特徴量変換部１３及び音声波形生成部１４により制御演算回路（コントローラ）が構成される。該制御演算回路は、ＡＳＩＣ(Application Specific Integrated Circuit)、ＦＰＧＡ(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。

【0017】

モデル学習部１１は、予め音声記憶部１５に保存されている変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習する。モデル学習部１１は、非特許文献１に記載されたベクトル量子化を用いた音声変換アルゴリズム、非特許文献２に記載された人工ニューラルネットワーク（ＡＮＮ）を用いた音声変換アルゴリズム、又は非特許文献３に記載されたＶＡＥ（バリエーショナル・オートエンコーダ）を用いた音声変換アルゴリズムを、学習アルゴリズムとして用いてもよい。

【0018】

モデル学習部１１が扱う音声は、音声信号に対してフーリエ変換、信号処理等を行った結果、得られる音声特徴量（音高パラメータ（基本周波数等）、スペクトルパラメータ（ケプストラム、メルケプストラム等））として音声記憶部１５に保持されている。本開示では、フーリエ変換、信号処理等により得られた音声特徴量（一般的に静的特徴量ともいう。）は、静的特徴量のみではなく、各時刻における１フレーム（音声フレーム）前から１フレーム後への時間的変動を捉えた動的特徴量も含んでいるものとする。上述した非特許文献１又は非特許文献２に記載された音声変換アルゴリズムを使用する場合、音声はパラレルデータ（２名の話者が同一発話を発声した音声）である必要がある。また、上記のアルゴリズムを用いる場合は、各話者の音声はあらかじめＤＰマッチング（ＤＴＷ; Dynamic Time Warping）等により、音声の時間情報の対応関係をとる必要がある。一方、非特許文献３に記載された音声変換アルゴリズムを使用する場合は、音声はパラレルデータである必要はなく、時間情報の対応付けも必要とされない。

【0019】

音声変換部１２は、変換元話者の音声特徴量２１を、モデル学習部１１により生成された学習済みの音声変換モデル１１ａへ入力して、変換対象話者の音声特徴量２２に変換する。

【0020】

動的特徴量変換部１３は、変換元話者の音声特徴量２１の動的特徴量と、変換対象話者の音声特徴量２２の動的特徴量とを用いて、変換元話者の音声特徴量２１を変換後音声特徴量２３に変換する。

【0021】

動的特徴量変換部１３は、変換元話者の音声特徴量２１の動的特徴量を、変換対象話者の音声特徴量２２の動的特徴量と差し替えて、変換対象話者の音声特徴量２２の動的特徴量を、変換元話者の音声特徴量２１の動的特徴量として取り扱うことにより、変換後の動的特徴量を生成してもよい。また、変換元話者の音声特徴量２１の動的特徴量と、変換対象話者の音声特徴量２２の動的特徴量との重み付き和を音声フレームごとに求めることにより、変換後動的特徴量を生成してもよい。後者の場合、変換元話者の音声特徴量２１の動的特徴量と、変換対象話者の音声特徴量２２の動的特徴量との重み付けにより、変換対象話者の発声スキルをどれだけ重視した変換を行うかを指定することができる。その後、たとえば非特許文献５に記載された動的特徴を用いたパラメータ生成アルゴリズム等により、変換元話者の音声特徴量２１は、変換後動的特徴量を用いて、変換対象話者の音声特徴量２２の動的特徴量を反映した変換後音声特徴量２３に変換される。

【0022】

音声波形生成部１４は、変換後音声特徴量２３から音声波形２４を生成する。音声波形生成部１４は、非特許文献４に記載されたメル対数スペクトル近似（ＭＬＳＡ（Mel-Log Spectrum Approximatation））フィルタ等を用いた音声合成アルゴリズムを用いて、音声波形２４を生成してもよい。

【0023】

音声記憶部１５は、変換の対象となる２名の話者が発話した音声を音声特徴量として収録（保持）しており、音声学習部１１の要求に応じ、音声特徴量を音声学習部１１へ出力する。

【0024】

図２は、第１の実施形態に係る音声変換装置１が実行する音声変換方法の一例を示すフローチャートである。

【0025】

ステップＳ１０１では、モデル学習部１１が、変換元話者の音声特徴量２１を変換対象話者の音声特徴量２２へ変換する音声変換モデル１１ａを学習する。

【0026】

ステップＳ１０２では、音声変換部１２が、学習済みの音声変換モデル１１ａへ変換元話者の音声特徴量２１を入力して、変換対象話者の音声特徴量２２に変換する。

【0027】

ステップＳ１０３では、動的特徴量変換部１３が、変換元話者の音声特徴量２１の動的特徴量と、変換対象話者の音声特徴量２２の動的特徴量とを用いて、変換元話者の音声特徴量２１を変換後音声特徴量２３に変換する。

【0028】

ステップＳ１０４では、音声波形生成部１４が、変換後音声特徴量２３から音声波形２４を生成する。

【0029】

本実施形態に係る音声変換装置１は、非特許文献１～非特許文献３に記載された従来技術が、音声特徴量全体を変換するのとは異なり、音声特徴量の動的特徴量（時間変動）のみを変換対象とする。これにより、音声変換装置１によれば、音声の話者性を変更することなく、滑舌の良し悪し等、発声スキルのみを変換することが可能になる。また、変換元話者を発声の素人、変換対象話者をアナウンサー、声優等の発声の専門家とすることにより、素人（変換元話者）の発声スキルを専門家（変換対象話者）の発声スキルへと近づけることが可能になる。

【0030】

（第２の実施形態）
図３は、第２の実施形態に係る音声変換装置１′の構成例を示すブロック図である。図３に示すように、第２の実施形態に係る音声変換装置１′は、モデル学習部１１′と、音声変換部１２′と、動的特徴量変換部１３と、音声波形生成部１４と、を備える。音声変換装置１′は、話者の音声特徴量の動的特徴量を変換する。本実施形態に係る音声変換装置１′は、第１の実施形態に係る音声変換装置１と比較して、モデル学習部１１′と、音声変換部１２′とが有する機能が異なるが、動的特徴量変換部１３及び音声波形生成部１４の機能は同じである。第１の実施形態と同一の構成については、第１の実施形態と同一の参照番号を付して適宜説明を省略する。モデル学習部１１′、音声変換部１２′、動的特徴量変換部１３及び音声波形生成部１４により制御演算回路（コントローラ）が構成される。該制御演算回路は、ＡＳＩＣ(Application Specific Integrated Circuit)、ＦＰＧＡ(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。

【0031】

モデル学習部１１′は、複数の話者の音声特徴量と、各話者に付与された発声スキルとを入力して、任意に変換元話者に定めた１名の話者の音声特徴量を、変換対象話者に定めた他の複数の話者の音声特徴量にそれぞれ変換する複数の音声変換モデルを学習する。モデル学習部１１′は、複数の音声変換モデルのうち、変換元話者に定めた１名の話者の音声特徴量２１を、任意に定めた目標発声スキル２５に合致する発声スキルを有する1名の変換対象話者の音声特徴量２２に変換する一つの音声変換モデル１１ａ′を保持する。たとえば、１０名の話者が発話した音声の音声特徴量と、１０名の話者のそれぞれに付与された発声スキルが入力される場合、モデル学習部１１′は、任意に定めた１名の変換元話者の音声特徴量を、その他の９名の変換対象話者の音声特徴量に変換する９通りの音声変換モデルを学習し、次に該１名の変換元話者の音声特徴量２１を、９名のうち別途任意に定めた目標発声スキル２５に合致する発声スキルを有する１名の変換対象話者の音声特徴量２２に変換する一つの音声変換モデル１１ａ′のみを保持する。学習アルゴリズムは、非特許文献６に記載された重回帰混合正規分布モデルを用いてもよい。非特許文献６に記載された重回帰混合正規分布モデルでは、従来の音声変換の拡張として、任意の声質（太い声から細い声等）へと変換する技術を提案しているが、本実施例では、声質の代わりに発声スキルを付与して学習することにより、任意の発声スキルへの変換を行う。

【0032】

音声変換部１２′は、変換元話者の音声特徴量２１と、目標発声スキル２５とをモデル学習部１１′により学習済みの音声変換モデル１１ａ′へ入力して、変換元話者の音声特徴量２１を、目標発声スキル２５に合致する発声スキルを有する変換対象話者の音声特徴量２２に変換する。

【0033】

音声変換装置１′が備える動的特徴量変換部１３及び音声波形生成部１４は、第１の実施形態に係る音声変換装置１が備える動的特徴量変換部１３及び音声波形生成部１４と同一である。動的特徴量変換部１３は、変換元話者の音声特徴量２１の動的特徴量と、変換対象話者の音声特徴量２２の動的特徴量とを用いて、変換元話者の音声特徴量２１を変換後音声特徴量２３に変換する。音声波形生成部１４は、変換後音声特徴量２３から音声波形２４を生成する。

【0034】

音声記憶部１５′は、第１の実施形態に係る音声記憶部１５が２名の話者が発話した音声の音声特徴量を収録しているのに対し、複数の話者（たとえば、１０名等より多くの話者）が発話した音声の音声特徴量と、各話者に付与された発声スキルを収録している。発声スキルは、評価者の聴取により各話者に付与された主観スコアを数値表現したもの（たとえば、１：スキルが著しく低い．．．５：スキルが著しく高い）を使用することが望ましい。音声記憶部１５′は、変換の対象となる複数の話者が発話した音声の音声特徴量と、各話者に付与された発声スキルとを収録（保持）しており、音声学習部１１′の要求に応じ、音声特徴量と発声スキルとを音声学習部１１′へ出力する。

【0035】

図４は、第２の実施形態に係る音声変換装置１′が実行する音声変換方法の一例を示すフローチャートである。

【0036】

ステップＳ２０１では、モデル学習部１１′が、変換元話者の音声特徴量２１を、他の複数の変換対象話者の音声特徴量２２へ変換する、複数の音声変換モデル１１ａ′を学習する。さらに、モデル学習部１１′は、変換元話者の音声特徴量２１を、目標発声スキル２５に合致した発声スキルを有する変換対象話者の音声特徴量２２へ変換する一つの音声変換モデル１１ａ′のみを保持する。

【0037】

ステップＳ２０２では、音声変換部１２′が、学習済みの音声変換モデル１１ａ′へ変換元話者の音声特徴量２１と目標発声スキル２５とを入力して、変換元話者の音声特徴量２１を目標発声スキル２５に合致する発声スキルを有する変換対象話者の音声特徴量２２に変換する。

【0038】

ステップＳ２０３では、動的特徴量変換部１３が、変換元話者の音声特徴量２１の動的特徴量と、変換対象話者の音声特徴量２２の動的特徴量とを用いて、変換元話者の音声特徴量２１を変換後音声特徴量２３に変換する。

【0039】

ステップＳ２０４では、音声波形生成部１４が、変換後音声特徴量２３から音声波形２４を生成する。

【0040】

第１の実施形態に係る音声変換装置１によれば、発声スキルが高い話者を発声の専門家であると仮定して、一方の話者（発声の素人）の発声スキルを、もう一方の話者（発声の専門家）の発声スキルに変換する。しかし、実際には発声の素人の中にも発声スキルが高い話者もいれば、発声の専門家の中でもそれぞれの発声スキルは異なる。本開示に係る音声変換装置１′によれば、複数の話者の音声特徴量と、各話者に付与された発声スキルとを用いることにより、任意に定めた変換元話者の音声特徴量を、任意の目標発声スキルに合致する発声スキルを有する変換対象話者の音声特徴量へ変換することが可能となる。

【0041】

上記の音声変換装置１及び１′を機能させるために、プログラム命令を実行可能なコンピュータを用いることも可能である。図５は、音声変換装置として機能するコンピュータの概略構成を示すブロック図である。ここで、音声変換装置１及び１′として機能するコンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、ＰＣ（Personal Computer）、電子ノートパッド等であってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメント等であってもよい。

【0042】

図５に示すように、コンピュータ１００は、プロセッサ１１０と、記憶部としてＲＯＭ（Read Only Memory）１２０、ＲＡＭ（Random Access Memory）１３０、及びストレージ１４０と、入力部１５０と、出力部１６０と、通信インターフェース（Ｉ／Ｆ）１７０と、を備える。各構成は、バス１８０を介して相互に通信可能に接続されている。

【0043】

ＲＯＭ１２０は、各種プログラム及び各種データを保存する。ＲＡＭ１３０は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４０は、ＨＤＤ（Hard Disk Drive)又はＳＳＤ(Solid State Drive）により構成され、オペレーティングシステムを含む各種プログラム及び各種データを保存する。本開示では、ＲＯＭ１２０又はストレージ１４０に、本開示に係るプログラムが保存されている。

【0044】

プロセッサ１１０は、具体的にはＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＳｏＣ（System on a Chip）等であり、同種又は異種の複数のプロセッサにより構成されてもよい。プロセッサ１１０は、ＲＯＭ１２０又はストレージ１４０からプログラムを読み出し、ＲＡＭ１３０を作業領域としてプログラムを実行することで、上記各構成の制御及び各種の演算処理を行う。なお、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。

【0045】

プログラムは、音声変換装置１及び１′が読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、音声変換装置１及び１′にインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性（non-transitory）の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢ（Universal Serial Bus）メモリ等であってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

【0046】

上述の実施形態は代表的な例として説明したが、本開示の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形又は変更が可能である。たとえば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

【符号の説明】

【0047】

１, １′ 音声変換装置
１１, １１′ モデル学習部
１１ａ，１１ａ′ 音声変換モデル
１２, １２′ 音声変換部
１３動的特徴量変換部
１４音声波形生成部
１５, １５′ 音声記憶部
２１変換元話者の音声特徴量
２２変換対象話者の音声特徴量
２３変換後音声特徴量
２４音声波形
２５目標発声スキル
１００コンピュータ
１１０プロセッサ
１２０ＲＯＭ
１３０ＲＡＭ
１４０ストレージ
１５０入力部
１６０出力部
１７０通信インターフェース（Ｉ／Ｆ）
１８０バス

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版