IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

<>
  • 特許-推定装置、推定方法、及びプログラム 図1
  • 特許-推定装置、推定方法、及びプログラム 図2
  • 特許-推定装置、推定方法、及びプログラム 図3
  • 特許-推定装置、推定方法、及びプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-20
(45)【発行日】2022-12-28
(54)【発明の名称】推定装置、推定方法、及びプログラム
(51)【国際特許分類】
   G10L 13/10 20130101AFI20221221BHJP
【FI】
G10L13/10 111F
G10L13/10 113Z
【請求項の数】 5
(21)【出願番号】P 2019022596
(22)【出願日】2019-02-12
(65)【公開番号】P2020129099
(43)【公開日】2020-08-27
【審査請求日】2021-05-28
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】100153017
【弁理士】
【氏名又は名称】大倉 昭人
(72)【発明者】
【氏名】井島 勇祐
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2000-310996(JP,A)
【文献】特開2001-282279(JP,A)
【文献】国際公開第2017/046887(WO,A1)
【文献】特開2001-265375(JP,A)
【文献】特開2001-350491(JP,A)
【文献】特開2007-11042(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/34
(57)【特許請求の範囲】
【請求項1】
音声区間の継続時間長を推定する推定装置であって、
学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する表現変換部と、
複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成する推定用データ生成部と、
前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習する推定モデル学習部と、
前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する推定部と、
を備え
前記推定用データ生成部は、
推定対象となる発話より過去の発話の学習用発話情報に含まれる複数の単語が表現変換された複数の数値表現データを用いて、前記過去の発話に関する第1データを取得し、
前記推定対象となる発話の学習用発話情報に含まれる推定対象となる単語が表現変換された数値表現データを用いて、前記推定対象となる発話に関する第2データを取得し、
前記第1データ及び前記第2データに基づいて、前記推定用データを生成する、推定装置。
【請求項2】
前記推定用データ生成部は、
前記推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データの統計量を用いて、前記第1データを取得する、
請求項に記載の推定装置。
【請求項3】
前記推定用データ生成部は、
前記推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データの中から、前記推定対象となる単語が表現変換された数値表現データと最も類似する数値表現データを選択し、選択した数値表現データを用いて、前記第1データを取得する、
請求項に記載の推定装置。
【請求項4】
音声区間の継続時間長を推定する推定装置による推定方法であって、
学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換するステップと、
複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成するステップと、
前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習するステップと、
前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定するステップと、
を含み、
前記推定用データを生成するステップは、
推定対象となる発話より過去の発話の学習用発話情報に含まれる複数の単語が表現変換された複数の数値表現データを用いて、前記過去の発話に関する第1データを取得し、
前記推定対象となる発話の学習用発話情報に含まれる推定対象となる単語が表現変換された数値表現データを用いて、前記推定対象となる発話に関する第2データを取得し、
前記第1データ及び前記第2データに基づいて、前記推定用データを生成する、推定方法。
【請求項5】
コンピュータを、請求項1からのいずれか一項に記載の推定装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声区間の継続時間長を推定する推定装置、推定方法、及びプログラムに関する。
【背景技術】
【0002】
例えば、音声対話システムにおいて、ユーザとのより自然な対話を実現するために、合成音声の品質を高める技術の開発が進められている。合成音声を生成する要素技術の一つとして、テキストなどの情報に基づいて、音声区間(例えば、音素、モーラ、文節、単語)の継続時間長を推定する技術が挙げられる。
【0003】
例えば、非特許文献1、及び非特許文献2では、対話行為情報(ユーザの意図に相当する情報)などのタグ情報を、合成音声の生成対象となる1つの文章に対して付与し、タグ情報に基づいて、音声区間の継続時間長を推定している。例えば、非特許文献3では、所定の音声区間の継続時間長を、人手により変更している。
【先行技術文献】
【非特許文献】
【0004】
【文献】Tsiakoulis, Pirros, et al. “Dialogue context sensitive HMM-based speech synthesis.” Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.
【文献】北条伸克, 井島勇祐, 杉山弘晃, 「対話行為情報を表現可能な音声合成の検討」, 人工知能学会全国大会, 2O4-OS-23a-4, June 2016.
【文献】Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka. “Prosodic Variation Enhancement Using Unsupervised Context Labeling for HMM-based Expressive Speech Synthesis”, Speech Communication, Elsevier, Vol. 57, No. 3, pp. 144-154, Feb. 2014.
【文献】Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, “Efficient estimation of word representations in vector space”, 2013, ICLR
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の技術では、所定の音声区間の継続時間長を高精度に推定することが困難であった。このため、例えば、音声対話システムにおいて、生成される合成音声の品質が低く、ユーザとの自然な対話を実現し難いという問題があった。
【0006】
上記のような問題点に鑑みてなされた本発明の目的は、所定の音声区間の継続時間長を高精度に推定する推定装置、推定方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明に係る推定装置は、音声区間の継続時間長を推定する推定装置であって、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する表現変換部と、複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成する推定用データ生成部と、前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習する推定モデル学習部と、前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する推定部と、を備え、前記推定用データ生成部は、推定対象となる発話より過去の発話の学習用発話情報に含まれる複数の単語が表現変換された複数の数値表現データを用いて、前記過去の発話に関する第1データを取得し、前記推定対象となる発話の学習用発話情報に含まれる推定対象となる単語が表現変換された数値表現データを用いて、前記推定対象となる発話に関する第2データを取得し、前記第1データ及び前記第2データに基づいて、前記推定用データを生成することを特徴とする。
【0008】
また、上記課題を解決するため、本発明に係る推定方法は、音声区間の継続時間長を推定する推定装置による推定方法であって、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換するステップと、複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成するステップと、前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習するステップと、前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定するステップと、を含み、前記推定用データを生成するステップは、推定対象となる発話より過去の発話の学習用発話情報に含まれる複数の単語が表現変換された複数の数値表現データを用いて、前記過去の発話に関する第1データを取得し、前記推定対象となる発話の学習用発話情報に含まれる推定対象となる単語が表現変換された数値表現データを用いて、前記推定対象となる発話に関する第2データを取得し、前記第1データ及び前記第2データに基づいて、前記推定用データを生成することを特徴とする。
【0009】
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の推定装置として機能させることを特徴とする。
【発明の効果】
【0010】
本発明によれば、所定の音声区間の継続時間長を高精度に推定可能となる。
【図面の簡単な説明】
【0011】
図1】本実施形態に係る推定装置の構成の一例を示す図である。
図2】本実施形態に係る推定方法の一例を示すフローチャートである。
図3】本実施形態に係る音声データの一例を示す図である。
図4】本実施形態に係る単語セグメンテーション情報の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、本発明を実施するための形態について、図面を参照しながら詳細に説明する。
【0013】
<第1実施形態>
図1乃至図4を参照して、本実施形態に係る推定装置100の構成及び推定方法について説明する。
【0014】
図1に示すように、推定装置100は、学習部10と、推定部20と、を備える。学習部10は、表現変換部11と、推定用データ生成部12と、推定モデル学習部13と、を備える。
【0015】
推定装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに所定のプログラムが読み込まれて構成された装置である。推定装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。推定装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。推定装置100の各処理部は、少なくとも一部が集積回路などのハードウェアによって構成されていてもよい。推定装置100が備える各記憶部は、例えば、RAMなどの主記憶装置、または、リレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも推定装置100がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリのような半導体メモリ素子により構成される補助記憶装置により構成し、推定装置100の外部に備える構成としてもよい。
【0016】
推定装置100は、推定モデルを用いて、ユーザ(例えば、音声対話システムの対話相手)の発話情報に基づいて、所定の音声区間(例えば、合成音声の生成対象となる1つの文章に含まれる重要な単語)の継続時間長を推定する。推定モデルは、学習データ(例えば、学習用音声データ、学習用発話情報)から構築されるデータ(例えば、ベクトル)を、推定された音声区間の継続時間長に変換するニューラルネットワークである。ニューラルネットワークとしては、例えば、MLP(Multilayer perceptron)、RNN(Recurrent Neural Network)、RNN-LSTM(Recurrent Neural Network-Long Short Term Memory)、CNN(Convolutional Neural Network)、などが挙げられる。なお、音声区間としては、例えば、単語、音素、モーラ、文節、などが挙げられるが、本明細書では、音声区間に「単語」を適用する場合を一例に挙げて説明する。
【0017】
音声データは、複数の発話、複数の発話の順序、などを含むデータである。音声データは、例えば、基本周波数などの音高パラメータ、ケプストラム或いはメルケプストラムなどのスペクトルパラメータ、などの音響特徴量であってよい。
【0018】
図3は、音声データの一例を示す図である。図3に示すように、音声データは、例えば、話者1の発話1~発話N、話者2の発話1~発話N、話者1の発話1~発話N及び話者2の発話1~発話Nの順序、などを含む。
【0019】
発話情報は、音声データに含まれる発話(例えば、発話1:「今日の天気は?」)に関する情報であり、例えば、発話に含まれる単語(例えば、発話1に含まれる3番目の単語:「天気」)、発話に含まれる単語の発話開始時間及び発話終了時間、発話に含まれる音素、発話に含まれるモーラ、発話に含まれる文節、発話に関する音声、発話に関する文章、などを含む情報である。
【0020】
図4は、発話に含まれる単語の発話開始時間及び発話終了時間の情報(単語セグメンテーション情報)の一例を示す図である。図4に示すように、単語セグメンテーション情報は、例えば、単語が「今日」である場合、発話開始時間が0[ms]、発話終了時間が350[ms]となる。また、単語セグメンテーション情報は、例えば、単語が「の」である場合、発話開始時間は350[ms]、発話終了時間は600[ms]となる。単語セグメンテーション情報は、例えば、単語が「天気」である場合、発話開始時間が600[ms]、発話終了時間は680[ms]となる。単語セグメンテーション情報は、例えば、単語が「は」である場合、発話開始時間が680[ms]、発話終了時間が830[ms]となる。なお、単語セグメンテーション情報は、人手により付与されてもよいし、音声認識器などを用いて自動で付与されてもよい。
【0021】
以下、各部の詳細について説明する。
【0022】
表現変換部11は、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する(図2に示すステップS201参照)。表現変換部11は、表現変換した複数の数値表現データを、推定用データ生成部12へと出力する。
【0023】
例えば、表現変換部11は、Word2Vec(例えば、非特許文献4参照)における単語-ベクトル変換モデルを用いて、学習用発話情報に含まれる複数の単語を、複数のベクトルwsn(t)に表現変換する。ベクトルwsn(t)は、話者s(1≦s≦2)のn番目(1≦n≦N)の発話に含まれるt番目(1≦t≦Tsn)の単語が表現変換されたベクトルを示している。Nは発話の数、Tsnは話者sのn番目の発話に含まれる単語の数、を示している。例えば、ベクトルw11(t)は、話者1の1番目の発話1に含まれるt番目の単語が表現変換されたベクトルを示している。例えば、ベクトルw22(t)は、話者2の発話2に含まれるt番目の単語が表現変換されたベクトルを示している。
【0024】
推定用データ生成部12は、複数の学習用発話情報及び表現変換部11から入力される複数の数値表現データを用いて、推定用データを生成する(図2に示すステップS202参照)。推定用データ生成部12は、生成した推定用データを、推定モデル学習部13へと出力する。
【0025】
具体的には、推定用データ生成部12は、推定対象となる発話(例えば、話者2の発話5)より過去の発話(例えば、話者1の発話1~発話5、話者2の発話1~発話4)の学習用発話情報に含まれる複数の単語が表現変換された複数のベクトルを用いて、過去の発話に関するベクトルvpsn(t)(第1データ)を取得する。ベクトルvpsn(t)は、話者s(1≦s≦2)のn番目(1≦n≦N)の発話に関するベクトルを示している。例えば、推定用データ生成部12は、推定対象となる発話(例えば、話者2の発話5)の直前の発話(例えば、話者1の発話5)の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの統計量(平均、分散、など)を用いて、過去の発話に関するベクトルを取得する。
【0026】
なお、推定用データ生成部12は、過去の発話を任意に選択して、過去の発話に関するベクトルを取得することが可能である。例えば、推定用データ生成部12は、推定対象となる発話の直前の発話のみを選択して、過去の発話に関するベクトルを取得してもよい。例えば、推定用データ生成部12は、推定対象となる発話に時間的に近い過去の発話を複数選択して、過去の発話に関するベクトルを取得してもよい。例えば、推定用データ生成部12は、推定対象となる発話より過去の発話を全て選択して、過去の発話に関するベクトルを取得してもよい。
【0027】
そして、推定用データ生成部12は、推定対象となる発話(例えば、話者2の発話5)の学習用発話情報に含まれる推定対象となる単語(例えば、話者2の発話5に含まれる3番目の単語)が表現変換されたベクトルを用いて、推定対象となる発話に関するベクトルvcsn(t)(第2データ)を取得する。ベクトルvcsn(t)は、話者s(1≦s≦2)のn番目(1≦n≦N)の発話に関するベクトルを示している。
【0028】
なお、推定用データ生成部12は、推定対象となる発話(例えば、話者2の発話5)の学習用発話情報に含まれる推定対象となる単語が表現変換されたベクトルの他、推定対象となる単語に含まれる音素、推定対象となる単語に含まれるモーラ、などの継続時間長に関する情報を用いて、推定対象となる発話に関するベクトルを取得してもよい。
【0029】
そして、推定用データ生成部12は、過去の発話に関するベクトルvpsn(t)と、推定対象となる発話に関するベクトルvcsn(t)と、を連結して、推定用ベクトルvsn(t)を生成する。ベクトルvsn(t)は、話者s(1≦s≦2)のn番目(1≦n≦N)の発話に含まれるt番目(1≦t≦Tsn)の単語の継続時間長を推定するためのベクトルを示している。
【0030】
推定用データ生成部12が、推定対象となる発話に関するベクトルvcsn(t)のみならず、過去の発話に関するベクトルvpsn(t)を含めて推定用ベクトルvsn(t)を生成することで、推定対象となる単語の継続時間長の推定精度を高めることができる。
【0031】
推定モデル学習部13は、推定用データ及び学習用発話情報に含まれる複数の単語の継続時間長を用いて、推定モデルを学習する(図2に示すステップS203参照)。例えば、推定モデル学習部13は、過去の発話に関するベクトルvpsn(t)と推定対象となる発話に関するベクトルvcsn(t)とを連結した推定用ベクトルvsn(t)、及び単語セグメンテーション情報(図4参照)を用いて、推定モデルを学習する。推定モデルは、例えば、次式(1)のように表すことができる。
【数1】
ここで、dは、単語の継続時間長を示している。
は、推定された単語の継続時間長を示している。
【0032】
推定モデルは、例えば、Multilayer perceptron、Recurrent Neural Network、Recurrent Neural Network-Long Short Term Memory、Convolutional Neural Network、などのニューラルネットワーク、或いは、これらを組み合わせたニューラルネットワークである。例えば、推定モデルが、Recurrent Neural Network、Recurrent Neural Network-Long Short Term Memory、などのような時系列を考慮したニューラルネットワークである場合、推定モデル学習部13は、過去の発話を考慮した学習を行い易くなるため、推定対象となる単語の継続時間長の推定精度を高めることができる。
【0033】
推定モデル学習部13は、例えば、図4に示すような単語セグメンテーション情報に基づいて、学習用発話情報に含まれる複数の単語の継続時間長dを取得する。例えば、単語が「今日」であれば、「今日」の継続時間長dは、350[ms]である。また、例えば、単語が「の」であれば、「の」の継続時間長dは、250[ms]である。また、例えば、単語が「天気」であれば、「天気」の継続時間長dは、80[ms]である。また、例えば、単語が「は」であれば、「は」の継続時間長dは、150[ms]である。
【0034】
推定部20は、学習部10が学習した推定モデルを用いて、ユーザの発話情報に基づいて、所定の単語の継続時間長を推定する(図2に示すステップS204参照)。そして、推定部20は、推定した所定の単語の継続時間長を、音声合成部(不図示)へと出力する。所定の単語とは、音声合成部が合成音声を生成する際、合成音声の生成対象となる1つの文章に含まれる単語であればよく、例えば、重要な単語、繰り返される単語、などである。なお、音声合成部の構成は、特に限定されるものではない。
【0035】
第1実施形態に係る推定装置100によれば、推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する。これにより、所定の音声区間の継続時間長を高精度に推定することができる。
【0036】
また、第1実施形態に係る推定装置100によれば、推定用データ生成部12が、過去の発話などを考慮して、推定用データを生成する。これにより、重要な情報を繰り返す復唱などの事象に対しても、所定の音声区間の継続時間長を高精度に推定することができる。
【0037】
また、第1実施形態に係る推定装置100を、音声対話システムに適用することで、例えば、重要な単語を強調した合成音声、重要な単語の発話速度を遅くした合成音声、など適切な音声区間の継続時間長を有する合成音声(高品質な合成音声)を生成することができる。これにより、ユーザとの自然な対話をリアルタイムで行い、音声対話の自然性を向上させた音声対話システムを実現できる。
【0038】
<第2実施形態>
次に、第2実施形態に係る推定装置100Aについて説明する。
【0039】
第2実施形態に係る推定装置100Aが、第1実施形態に係る推定装置100と異なる点は、第1実施形態に係る推定装置100における推定用データ生成部12が、過去の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データを用いて、過去の発話に関するベクトルを取得するのに対して、第2実施形態に係る推定装置100Aにおける推定用データ生成部12Aは、過去の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データの中から最適な数値表現データを選択し、選択した数値表現データを用いて、過去の発話に関するベクトルを取得する点である。なお、その他の構成は、第1実施形態に係る推定装置100と同じであるため、重複した説明を省略する。
【0040】
推定用データ生成部12Aは、複数の学習用発話情報及び表現変換部11から入力される複数の数値表現データを用いて、推定用データを生成する。推定用データ生成部12Aは、生成した推定用データを、推定モデル学習部13へと出力する。
【0041】
具体的には、推定用データ生成部12Aは、推定対象となる発話(例えば、話者2の発話5)より過去の発話(例えば、話者1の発話1~発話5、話者2の発話1~発話4)の学習用発話情報に含まれる複数の単語が表現変換された複数のベクトルを用いて、過去の発話に関するベクトルvpsn(t)(第1データ)を取得する。例えば、推定用データ生成部12Aは、推定対象となる発話(例えば、話者2の発話5)の直前の発話(例えば、話者1の発話5)の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの中から、推定対象となる単語(例えば、話者2の発話5に含まれる3番目の単語)が表現変換されたベクトルと最も類似するベクトルを選択し、選択したベクトルを用いて、過去の発話に関するベクトルを取得する。過去の発話に関するベクトルvpsn(t)は、例えば、次式(2)のように表すことができる。
【0042】
【数2】
ここで、Uは、推定対象となる発話の直前の発話に含まれる単語の数を示している。関数distは、2つのベクトル間の距離を示しており、例えば、ユークリッド距離、コサイン距離、などを用いることができる。
【0043】
なお、推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの中に、推定対象となる単語が表現変換されたベクトルに類似するベクトルが複数存在する場合には、推定用データ生成部12Aは、推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの中から、複数のベクトルを選択することも可能である。
【0044】
そして、推定用データ生成部12Aは、推定対象となる発話(例えば、話者2の発話5)の学習用発話情報に含まれる推定対象となる単語(例えば、話者2の発話5に含まれる3番目の単語)が表現変換されたベクトルを用いて、推定対象となる発話に関するベクトルvcsn(t)(第2データ)を取得する。
【0045】
そして、推定用データ生成部12Aは、過去の発話に関するベクトルvpsn(t)と、推定対象となる発話に関するベクトルvcsn(t)と、を連結して、推定用ベクトルvsn(t)を生成する。
【0046】
推定用データ生成部12Aが、推定対象となる発話より過去の発話の学習用発話情報に含まれる複数の単語の全てが表現変換されたベクトルの中から、最適なベクトルを選択し、当該最適なベクトルを用いることで、無駄な情報を省いて、過去の発話に関するベクトルを取得することができる。これにより、推定対象となる単語の継続時間長の推定精度を更に高めることができる。
【0047】
第2実施形態に係る推定装置100Aによれば、推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する。これにより、所定の音声区間の継続時間長を高精度に推定することができる。
【0048】
また、第2実施形態に係る推定装置100Aによれば、推定用データ生成部12Aが、推定対象となる発話より過去の発話に含まれる単語の中から、最適な単語を選択して、推定用データを生成する。これにより、重要な情報を繰り返す復唱などの事象に対しても、所定の音声区間の継続時間長を更に高精度に推定することができる。
【0049】
<変形例>
第1実施形態では、図1に示す推定装置100においては、学習部10と推定部20とを分けて記載しているが、学習部10と推定部20とは一体的に形成されていてもよい。従って、推定部20が、学習部10が備える各部を備えていてもよい。
【0050】
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0051】
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0052】
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形及び変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
【符号の説明】
【0053】
10 学習部
11 表現変換部
12,12A 推定用データ生成部
13 推定モデル学習部
20 推定部
100,100A 推定装置
図1
図2
図3
図4