(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-16
(45)【発行日】2024-12-24
(54)【発明の名称】話者埋め込み装置、話者埋め込み方法、および、話者埋め込みプログラム
(51)【国際特許分類】
G10L 17/02 20130101AFI20241217BHJP
G10L 17/00 20130101ALI20241217BHJP
G10L 17/04 20130101ALI20241217BHJP
G10L 17/14 20130101ALI20241217BHJP
【FI】
G10L17/02
G10L17/00 200C
G10L17/04
G10L17/14
(21)【出願番号】P 2022579192
(86)(22)【出願日】2021-02-02
(86)【国際出願番号】 JP2021003782
(87)【国際公開番号】W WO2022168173
(87)【国際公開日】2022-08-11
【審査請求日】2023-05-31
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】井島 勇祐
(72)【発明者】
【氏名】藤田 健一
(72)【発明者】
【氏名】安藤 厚志
【審査官】中村 天真
(56)【参考文献】
【文献】大谷眞史, 外6名,音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリング,日本音響学会講演論文集,2020年09月,p.695-696,ISSN 1880-7658
【文献】曾根健太郎, 外2名,テキスト・音声間の双方向変換に基づくDNN音声認識・合成のための事前学習法,情報処理学会研究報告,2017年06月,Vol.2017-MUS-115, No.40,p.1-6,ISSN 2188-8752
【文献】高木信二, 山岸順一,統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出,電子情報通信学会技術研究報告,2015年11月,Vol.115, No.346,p.99-104,ISSN 0913-5685
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
(57)【特許請求の範囲】
【請求項1】
音声データの入力を受け付ける入力部と、
入力された前記音声データにおける話者の発話ごとの継続時間長を示した発話単位セグメンテーション情報を生成する情報生成部と、
生成された前記発話単位セグメンテーション情報に示される発話ごとの継続時間長を学習用データとし、話者の発話ごとの継続時間長が入力されると、話者の識別結果を出力する話者識別モデルを学習する学習部と、
話者ベクトル出力部とを備え、
前記話者識別モデルの学習後、
前記入力部は、
話者ベクトルへの変換対象の音声データの入力を受け付け、
前記情報生成部は、
入力された前記話者ベクトルへの変換対象の音声データの前記発話単位セグメンテーション情報を生成し、
前記話者ベクトル出力部は、
生成された前記発話単位セグメンテーション情報に示される発話ごとの継続時間長を、学習後の前記話者識別モデルに入力し、前記話者識別モデルの中間層における出力を、前記音声データの話者ベクトルとして出力する
ことを特徴とする話者埋め込み装置。
【請求項2】
前記学習部は、
前記発話単位セグメンテーション情報に示される発話および前記発話ごとの継続時間長を学習用データとし、話者の発話および前記発話ごとの継続時間長が入力されると、話者の識別結果を出力する話者識別モデルを学習
し、
前記話者ベクトル出力部は、
生成された前記発話単位セグメンテーション情報に示される発話および前記発話ごとの継続時間長を、学習後の前記話者識別モデルに入力し、前記話者識別モデルの中間層における出力を、前記音声データの話者ベクトルとして出力する
ことを特徴とする請求項
1に記載の話者埋め込み装置。
【請求項3】
生成された前記発話単位セグメンテーション情報に示される発話ごとの継続時間長を1次元の数値表現に変換する表現変換部をさらに備え、
前記学習部は、
変換された前記発話ごとの継続時間長の1次元の数値表現を学習用データとし、前記話者識別モデルを学習する
ことを特徴とする請求項1に記載の話者埋め込み装置。
【請求項4】
前記表現変換部は、
生成された前記発話単位セグメンテーション情報に示される発話および前記発話ごとの継続時間長を1次元の数値表現に変換し、
前記学習部は、
変換された前記発話および前記発話ごとの継続時間長の1次元の数値表現を学習用データとし、前記話者識別モデルを学習する
ことを特徴とする請求項
3に記載の話者埋め込み装置。
【請求項5】
話者埋め込み装置により実行される話者埋め込み方法であって、
音声データの入力を受け付ける工程と、
入力された前記音声データにおける話者の発話ごとの継続時間長を示した発話単位セグメンテーション情報を生成する工程と、
生成された前記発話単位セグメンテーション情報に示される発話ごとの継続時間長を学習用データとし、話者の発話ごとの継続時間長が入力されると、話者の識別結果を出力する話者識別モデルを学習する工程と、
話者ベクトルへの変換対象の音声データの入力を受け付ける工程と、
入力された前記話者ベクトルへの変換対象の音声データの前記発話単位セグメンテーション情報を生成する工程と、
生成した前記発話単位セグメンテーション情報に示される発話ごとの継続時間長を、学習後の前記話者識別モデルに入力し、前記話者識別モデルの中間層における出力を、前記音声データの話者ベクトルとして出力する工程と、
を含むことを特徴とする話者埋め込み方法。
【請求項6】
音声データの入力を受け付ける工程と、
入力された前記音声データにおける話者の発話ごとの継続時間長を示した発話単位セグメンテーション情報を生成する工程と、
生成された前記発話単位セグメンテーション情報に示される発話ごとの継続時間長を学習用データとし、話者の発話ごとの継続時間長が入力されると、話者の識別結果を出力する話者識別モデルを学習する工程と、
話者ベクトルへの変換対象の音声データの入力を受け付ける工程と、
入力された前記話者ベクトルへの変換対象の音声データの前記発話単位セグメンテーション情報を生成する工程と、
生成した前記発話単位セグメンテーション情報に示される発話ごとの継続時間長を、学習後の前記話者識別モデルに入力し、前記話者識別モデルの中間層における出力を、前記音声データの話者ベクトルとして出力する工程と、
をコンピュータに実行させることを特徴とする話者埋め込みプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話者埋め込み装置、話者埋め込み方法、および、話者埋め込みプログラムに関する。
【背景技術】
【0002】
従来、音声処理の分野で、話者の情報をベクトル化する技術(話者埋め込み技術)が提案されている(例えば、非特許文献1等)。上記の技術により、話者の情報をベクトル化し、連続値の空間上で表現することで、例えば、話者識別、話者認証、音声認識、音声合成、音声変換等の様々な音声処理タスクを行うことができる。
【0003】
従来の話者埋め込み技術では、まず、大量の話者の音声データから、話者を識別するようニューラルネットワークを学習する。そして、学習されたニューラルネットワークに、話者ベクトルへの変換対象となる話者の音声を入力し、当該ニューラルネットワークの中間層の情報を話者ベクトルとして出力する。
【0004】
ここで、上記のニューラルネットワークを学習する際には、音声から抽出される音響特徴量(例えば、音声のスペクトル、メル周波数ケプストラム(MFCC)、メルスペクトログラム等)を入力特徴量として用いることが一般的である。
【先行技術文献】
【非特許文献】
【0005】
【文献】David Snyder et al.:X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION,2018 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP),2018.4
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記の技術によれば、話者の声紋の特徴を捉えることができるが、話者の発話リズム等の話し方の特徴を捉えることは難しい。そのため、例えば、上記の技術により得られた話者ベクトルを用いて、上記の音声処理タスクを行おうとしても性能が高くならない場合があるという問題がある。
【0007】
そこで、本発明は、前記した問題を解決し、話者の発話リズムを捉えた話者ベクトルの抽出を行うことを課題とする。
【課題を解決するための手段】
【0008】
前記した課題を解決するため、本発明は、音声データの入力を受け付ける入力部と、入力された前記音声データにおける話者の発話ごとの継続時間長を示した発話単位セグメンテーション情報を生成する情報生成部と、生成された前記発話単位セグメンテーション情報に示される発話ごとの継続時間長を学習用データとし、話者の発話ごとの継続時間長が入力されると、話者の識別結果を出力する話者識別モデルを学習する学習部と、を備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、話者の発話リズムを捉えた話者ベクトルの抽出を行うことができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、第1の実施形態の話者埋め込みシステムの概要を説明するための図である。
【
図2】
図2は、第1の実施形態の話者埋め込みシステムの構成例を示す図である。
【
図3】
図3は、
図2の学習装置の概要を説明するための図である。
【
図4】
図4は、
図2のベクトル変換装置の概要を説明するための図である。
【
図5】
図5は、
図2の学習装置の処理手順の例を示すフローチャートである。
【
図6】
図6は、
図2のベクトル変換装置の処理手順の例を示すフローチャートである。
【
図7】
図7は、話者埋め込みプラグラムを実行するコンピュータの構成例を示す図である。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、本発明を実施するための形態(実施形態)を、第1の実施形態および第2の実施形態に分けて説明する。本発明は、以下に説明する各実施形態に限定されない。
【0012】
[第1の実施形態]
まず、
図1を用いて第1の実施形態の話者埋め込み装置(話者埋め込みシステム)の概要を説明する。
【0013】
話者埋め込みシステム(以下、システムと略す)は、話者識別モデルに入力する特徴量として、話者の発話単位セグメンテーション情報を用いることを特徴とする。この発話単位セグメンテーション情報は、例えば、発話者の音声データに対して、発話単位(例えば、音素、モーラ、音節、フレーズ等)の継続時間長を示した情報である(
図1の符号101参照)。
【0014】
システムは、例えば、符号102に示すように、大量の話者の発話単位セグメンテーション情報を用いて、話者識別モデルの学習を行い、学習後の話者識別モデルを用いて、話者ベクトルを得る。
【0015】
この話者識別モデルは、発話ごとの継続時間長が入力されると、話者の識別結果を出力するモデルである。例えば、話者識別モデルは、発話単位セグメンテーション情報における発話ごとの継続時間長の系列(d(1),d(2),…,d(Nf-1),d(N))が入力されると、話者事後確率(例えば、p(s(1)),p(s(2)),…,p(s(N-1)),p(s(N)))を出力するモデルである。この話者識別モデルは、例えば、ニューラルネットワークにより実現される。
【0016】
システムは、大量の発話単位セグメンテーション情報に示される発話ごとの継続時間長を用いて、話者識別モデルの学習を行う。そして、システムは、学習後の話者識別モデルに、話者ベクトルへの変換対象の音声データの発話ごとの継続時間長を入力し、当該話者識別モデルにおける中間層の出力を、当該話者の話者ベクトルとして出力する。
【0017】
このように、システムは、話者識別モデルに入力する特徴量として、話者の発話ごとの継続時間長を用いることで、話者の発話リズムを捉えた話者ベクトルの抽出を行うことができる。
【0018】
[構成例]
次に、
図2を用いて、システムの構成例を説明する。
図2に示すように、システム1は、学習装置10と、ベクトル変換装置20とを備える。学習装置10は、発話単位セグメンテーション情報を用いて話者識別モデルの学習を行う。ベクトル変換装置20は、学習後の話者識別モデルを用いて、入力された話者の音声データを話者ベクトルに変換する。
【0019】
[学習装置]
学習装置10は、例えば、表現変換部132により学習用の発話単位セグメンテーション情報の表現変換を行う。そして、学習装置10は、表現変換後の発話単位セグメンテーション情報を用いて、話者識別モデルの学習を行う(
図3参照)。
【0020】
学習装置10は、入出力部11と、記憶部12と、制御部13とを備える。入出力部11は、各種データの入出力を司る。入出力部11は、例えば、学習用の音声データの入力を受け付ける。
【0021】
記憶部12は、制御部13が各種処理を行う際に参照するデータや、制御部13により生成されたデータを記憶する。例えば、記憶部12は、制御部13により生成された、学習用の音声データの発話単位セグメンテーション情報、制御部13により学習が行われた話者識別モデル等を記憶する。
【0022】
制御部13は、学習装置10全体の制御を司り、例えば、情報生成部131と、表現変換部132と、学習部133とを備える。
【0023】
情報生成部131は、話者の音声データに基づき、話者の発話(例えば、音素)ごとの継続時間長を示した発話単位セグメンテーション情報を生成する。この発話単位セグメンテーション情報は、例えば、記憶部12に格納される。
【0024】
例えば、情報生成部131は、音声認識装置を用いて、学習用の音声データであるN名の話者の音声データに対して、音素ごとの継続時間長を付与した発話単位セグメンテーション情報を生成する。この発話単位セグメンテーション情報は、例えば、
図1の符号101に示すように、音声データに含まれる音素ごとに当該音素の継続時間長を示したものである。この発話単位セグメンテーション情報は、符号101に示すように発話(例えば、音素)の開始時間および終了時間を含んでいてもよい。
【0025】
なお、話者識別モデルの学習に用いられる音声データの話者の数は、例えば、数百名以上である。また、話者1人あたりが発声する文章数は、例えば、数十以上である。
【0026】
表現変換部132は、発話単位セグメンテーション情報を、学習部133で使用可能な表現に変換する。例えば、表現変換部132は、情報生成部131により生成された発話単位セグメンテーション情報を1次元の数値表現に変換する。
【0027】
例えば、話者sのn番目の発話文章に含まれる音素数がTsn個であった場合、1次元の数値表現においては、発話単位セグメンテーション情報内の継続時間長を1次元のベクトルdsn(t)として扱う。
【0028】
また、表現変換部132は、発話単位セグメンテーション情報を、以下の式(1)に示すone-hot表現に変換することも可能である。
【0029】
【0030】
上記の式(1)に示すone-hot表現の場合、dsn(t)(v)は、dsn(t)のv次元目の情報を表す。また、dsn(t)における各次元は、発話単位セグメンテーション情報内の発話ごとの継続時間長を、例えば、k-means法等でクラスタリングした結果得られるV個のクラスタに相当する。例えば、表現変換部132は、発話単位セグメンテーション情報内の発話ごとの継続時間長の該当するクラスタvの次元(dsn(t)(v))を1とし、それ以外の次元を0としたベクトルに変換する。
【0031】
学習部133は、表現変換部132による表現変換後の発話単位セグメンテーション情報を用いて、話者識別モデルの学習を行う。話者識別モデルは、例えば、表現変換後の発話単位セグメンテーション情報(1次元の数値表現、または、V次元のone-hot表現)を、話者のone-hot表現(N次元ベクトル)へと変換するニューラルネットワークにより実現される。このニューラルネットワークは、例えば、以下の式(2)のfd→pのように表される。
【0032】
【0033】
なお、話者識別モデルに用いられるニューラルネットワークは、通常のMultilayer perceptron(MLP)でもよいし、その他のニューラルネットワークでもよい。例えば、話者識別モデルに用いられるニューラルネットワークは、Recurrent Neural Network(RNN)、RNN-LSTM(RNN-Long Short Term Memory)等の前後の単語を考慮可能なニューラルネットワークを用いてよい。また、話者識別モデルに用いられるニューラルネットワークは、上記のニューラルネットワークを組み合わせたものでもよい。
【0034】
[ベクトル変換装置]
次に、ベクトル変換装置20を説明する。なお、以下、ベクトル変換装置20が用いる話者識別モデルは、ニューラルネットワークを用いた話者識別モデルである場合を例に説明する。
【0035】
ベクトル変換装置20は、例えば、表現変換部132により、話者ベクトルへの変換対象の音声データの発話単位セグメンテーション情報の表現変換を行う。次に、ベクトル変換装置20は、表現変換後の発話単位セグメンテーション情報を、学習後の話者識別モデルに入力する。そして、ベクトル変換装置20は、当該話者識別モデルのニューラルネットワークの順伝搬処理を行い、ニューラルネットワークの任意のbottleneck featureを、当該話者の話者ベクトルとして出力する(
図4参照)。
【0036】
ベクトル変換装置20は、入出力部21と、記憶部22と、制御部23とを備える。入出力部21は、各種データの入出力を司る。入出力部21は、例えば、話者ベクトルへの変換対象の話者の音声データの入力を受け付ける。
【0037】
記憶部22は、制御部23が各種処理を行う際に参照するデータや、制御部23により生成されたデータを記憶する。例えば、記憶部22は、制御部23により生成された、話者ベクトルへの変換対象の発話単位セグメンテーション情報等を記憶する。
【0038】
制御部23は、ベクトル変換装置20全体の制御を司り、例えば、情報生成部231と、表現変換部232と、話者ベクトル出力部233とを備える。
【0039】
情報生成部231は、学習装置10の情報生成部131と同様に、話者の音声データに基づき、話者の発話ごとの継続時間長を示した発話単位セグメンテーション情報を生成する。
【0040】
例えば、情報生成部231は、音声認識装置を用いて、話者ベクトルへの変換対象の話者の音声データに、各音素の継続時間長を付与した発話単位セグメンテーション情報を生成する。情報生成部231により生成された発話単位セグメンテーション情報は、例えば、記憶部22に格納される。
【0041】
表現変換部232は、発話単位セグメンテーション情報を、話者識別モデルで処理可能な表現に変換する。例えば、表現変換部232は、学習装置10の表現変換部132と同様に、情報生成部231により生成された発話単位セグメンテーション情報を1次元の数値表現に変換する。
【0042】
話者ベクトル出力部233は、学習後の話者識別モデルを用いて、情報生成部231により生成された発話単位セグメンテーション情報を話者ベクトルに変換する。例えば、話者ベクトル出力部233は、表現変換部232による表現変換後の発話単位セグメンテーション情報を、学習後の話者識別モデルに入力する。次に、話者ベクトル出力部233は、当該話者識別モデルにおけるニューラルネットワークの順伝搬処理を実施する。そして、話者ベクトル出力部233は、当該ニューラルネットワークの任意の中間層(bottleneck feature)における出力を、入出力部21から入力された音声データの話者ベクトルとして出力する。
【0043】
このように、システム1は、話者識別モデルに入力する特徴量として、話者の発話単位の継続時間長を示した発話単位セグメンテーション情報を用いるので、話者の発話リズムを捉えた話者ベクトルの抽出を行うことができる。
【0044】
[処理手順の例]
次に、
図5および
図6を用いて、システム1の処理手順の例を説明する。まず、システム1の学習装置10は、学習用の話者の音声データの入力を受け付ける(
図5のS1)。次に、学習装置10の情報生成部131は、S1で入力された音声データの発話単位セグメンテーション情報を生成する(S2)。そして、表現変換部132は、S2で生成された発話単位セグメンテーション情報を、話者識別モデルで処理可能な1次元の数値表現へ変換する(S3)。その後、学習部133は、S3で変換された1次元の数値表現を用いて、話者識別モデルを学習する(S4)。
【0045】
図5のS4の後、ベクトル変換装置20が話者ベクトルへの変換対象の話者の音声データの入力を受け付ける(
図6のS11)。次に、ベクトル変換装置20の情報生成部231は、S11で入力された音声データの発話単位セグメンテーション情報を生成する(S12)。そして、表現変換部232は、S12で生成された発話単位セグメンテーション情報を、話者識別モデルで処理可能な1次元の数値表現へ変換する(S13)。
【0046】
その後、話者ベクトル出力部233は、S13で変換された1次元の数値表現を、学習済みの話者識別モデルへ入力する(S14)。そして、話者ベクトル出力部233は、話者識別モデルの中間層における出力を、話者ベクトルとして出力する(S15)。
【0047】
このようにすることで、システム1は、話者の発話リズムを捉えた話者ベクトルの抽出を行うことができる。
【0048】
[第2の実施形態]
次に、本発明の第2の実施形態を説明する。第1の実施形態と同じ構成は同じ符号を付して、説明を略す。
【0049】
第2の実施形態のシステム1は、話者識別モデルの学習に、発話単位セグメンテーション情報に含まれる発話の継続時間長のみならず、発話の情報(例えば、音素の情報)も用いることを特徴とする。
【0050】
つまり、第2の実施形態のシステム1における学習装置10の表現変換部132、および、ベクトル変換装置20の表現変換部223は、発話単位セグメンテーション情報を話者識別モデルで処理可能な1次元の通知表現に変換する際、発話単位セグメンテーション情報に含まれる発話の継続時間長のみならず、当該発話の情報も変換する。
【0051】
例えば学習装置10の表現変換部132は、第1の実施形態と同様に発話単位セグメンテーション情報内の継続時間長を、1次元の数値表現、または、one-hot表現に変換する。次に、表現変換部132は、当該発話単位セグメンテーション情報内の発話(例えば、音素)の情報をone-hot表現に変換する。
【0052】
例えば、学習用の音声データに含まれる音素数をIとした場合、Phsn(t)を以下の式(3)に示すone-hot表現に変換する。
【0053】
【0054】
上記の式(3)における、Phsn(t)(i)は、Phsn(t)のi次元目(i=1,…,I:音声データ内の含まれる音素数)の情報を表す。例えば、表現変換部132は、発話単位セグメンテーション情報の音素名に該当する次元(Phsn(t)(i))を1とし、それ以外の次元を0としたベクトルに変換する。そして、表現変換部132は、発話単位セグメンテーション情報に含まれる継続時間長に関するベクトルdsn(t)および音素名に関するベクトルPhsn(t)を結合したベクトルを出力する。
【0055】
そして、学習部133は、表現変換部132から出力された、発話単位セグメンテーション情報に含まれる継続時間長に関するベクトルdsn(t)および音素名に関するベクトルPhsn(t)を結合したベクトルを用いて、話者識別モデルの学習を行う。
【0056】
また、ベクトル変換装置20の表現変換部223は、話者ベクトルへの変換対象の音声データの発話単位セグメンテーション情報について、上記と同様に、継続時間長に関するベクトルdsn(t)および音素名に関するベクトルPhsn(t)を結合したベクトルを出力する。
【0057】
そして、話者ベクトル出力部233は、上記の学習済みの話者識別モデルに、上記の表現変換部232により出力されたベクトルを入力し、話者ベクトルを出力する。
【0058】
このようすることでシステム1は、より精度よく発話リズムを捉えた話者ベクトルの抽出を行うことができる。
【0059】
なお、前記した各実施形態のシステム1は、学習装置10およびベクトル変換装置20を備える構成としたが、これに限定されない。例えば、システム1は、学習装置10またはベクトル変換装置20のみを備える構成としてもよい。さらに、発話単位セグメンテーション情報は、システム1が生成することとしたが、これに限定されない。例えば、システム1は外部装置により生成された発話単位セグメンテーション情報を用いて各種処理を実行してもよい。
【0060】
[システム構成等]
また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0061】
また、前記した各実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0062】
[プログラム]
前記したシステム1は、パッケージソフトウェアやオンラインソフトウェアとしてプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を各実施形態のシステム1として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等の端末等がその範疇に含まれる。
【0063】
また、システム1は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
【0064】
図7は、話者埋め込みプログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0065】
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0066】
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のシステム1が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、システム1における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
【0067】
また、上述した各実施形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
【0068】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワされたーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【符号の説明】
【0069】
1 システム
10 学習装置
11,21 入出力部
12,22 記憶部
13,23 制御部
20 ベクトル変換装置
131,231 情報生成部
132,232 表現変換部
133 学習部
233 話者ベクトル出力部