(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-06-03
(45)【発行日】2025-06-11
(54)【発明の名称】音声認識システム、音声認識方法、及び記録媒体
(51)【国際特許分類】
G10L 21/007 20130101AFI20250604BHJP
G10L 13/02 20130101ALI20250604BHJP
G10L 15/20 20060101ALN20250604BHJP
【FI】
G10L21/007
G10L13/02 110Z
G10L15/20 300
(21)【出願番号】P 2024504041
(86)(22)【出願日】2022-03-01
(86)【国際出願番号】 JP2022008597
(87)【国際公開番号】W WO2023166557
(87)【国際公開日】2023-09-07
【審査請求日】2024-08-06
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】カク レイ
(72)【発明者】
【氏名】山本 仁
【審査官】大野 弘
(56)【参考文献】
【文献】特開2019-008120(JP,A)
【文献】特表2003-522978(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/007
G10L 13/02
G10L 15/20
(57)【特許請求の範囲】
【請求項1】
話者が発話したリアル発話データを取得する発話データ取得手段と、
前記リアル発話データをテキストデータに変換するテキスト変換手段と、
前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成する音声合成手段と、
前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成する変換モデル生成手段と、
前記変換モデルを用いて変換された前記合成音声を音声認識する音声認識手段と、
を備える音声認識システム。
【請求項2】
前記変換モデル生成手段は、前記入力音声と、前記音声認識手段の認識結果と、を用いて前記変換モデルのパラメータを調整する、
請求項1に記載の音声認識システム。
【請求項3】
前記対応合成音声を含むデータを用いて音声認識モデルを生成する音声認識モデル生成手段を更に備え、
前記音声認識手段は、前記音声認識モデルを用いて音声認識する、
請求項1又は2に記載の音声認識システム。
【請求項4】
前記音声認識モデル生成手段は、前記変換モデルを用いて変換された前記合成音声と、前記音声認識手段の認識結果と、を用いて前記音声認識モデルのパラメータを調整する、
請求項3に記載の音声認識システム。
【請求項5】
前記話者の属性を示す属性情報を取得する属性取得手段を更に備え、
前記音声合成手段は、前記属性情報を用いて音声合成を行うことで前記対応合成音声を生成する、
請求項1から4のいずれか一項に記載の音声認識システム。
【請求項6】
所定の条件ごとに前記リアル発話データを記憶する複数のリアル発話音声コーパスを更に備え、
前記発話データ取得手段は、前記複数のリアル発話音声コーパスから1つを選択して前記リアル発話データを取得する、
請求項1から5のいずれか一項に記載の音声認識システム。
【請求項7】
前記テキストデータ及び前記対応合成音声の少なくとも一方にノイズを付与するノイズ付与手段を更に備える、
請求項1から6のいずれか一項に記載の音声認識システム。
【請求項8】
手話データを取得する手話データ取得手段と、
前記手話データをテキストデータに変換するテキスト変換手段と、
前記テキストデータを用いた音声合成により、前記手話データに対応する対応合成音声を生成する音声合成手段と、
前記手話データ及び前記対応合成音声を用いて、入力される手話を合成音声に変換する変換モデルを生成する変換モデル生成手段と、
前記変換モデルを用いて変換された前記合成音声を音声認識する音声認識手段と、
を備える音声認識システム。
【請求項9】
少なくとも1つのコンピュータによって、
話者が発話したリアル発話データを取得し、
前記リアル発話データをテキストデータに変換し、
前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成し、
前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成し、
前記変換モデルを用いて変換された前記合成音声を音声認識する、
音声認識方法。
【請求項10】
少なくとも1つのコンピュータに、
話者が発話したリアル発話データを取得し、
前記リアル発話データをテキストデータに変換し、
前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成し、
前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成し、
前記変換モデルを用いて変換された前記合成音声を音声認識する、
音声認識方法を実行させる
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この開示は、音声認識システム、音声認識方法、及び記録媒体の技術分野に関する。
【背景技術】
【0002】
この種のシステムとして、合成音声を生成するものが知られている。例えば特許文献1では、音声の声色を表す特徴量を学習済みの変換モデルによって変換するなどして、合成音声を生成することが開示されている。特許文献2では、音声認識結果として取得されたテキストデータからターゲット言語の文を生成し、そのターゲット言語の文から合成音声を生成することが開示されている。
【0003】
その他の関連する技術として、例えば特許文献3では、学習用コーパスを用いて音声変換モデルの学習を行うことが開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】国際公開第2021/033685号
【文献】国際公開第2014/010450号
【文献】特開2020-166224号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
この開示は、先行技術文献に開示された技術を改善することを目的とする。
【課題を解決するための手段】
【0006】
この開示の音声認識システムの一の態様は、話者が発話したリアル発話データを取得する発話データ取得手段と、前記リアル発話データをテキストデータに変換するテキスト変換手段と、前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成する音声合成手段と、前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成する変換モデル生成手段と、前記変換モデルを用いて変換された前記合成音声を音声認識する音声認識手段と、を備える。
【0007】
この開示の音声認識システムの一の態様は、手話データを取得する手話データ取得手段と、前記手話データをテキストデータに変換するテキスト変換手段と、前記テキストデータを用いた音声合成により、前記手話データに対応する対応合成音声を生成する音声合成手段と、前記手話データ及び前記対応合成音声を用いて、入力される手話を合成音声に変換する変換モデルを生成する変換モデル生成手段と、前記変換モデルを用いて変換された前記合成音声を音声認識する音声認識手段と、を備える
【0008】
この開示の音声認識方法の一の態様は、少なくとも1つのコンピュータによって、話者が発話したリアル発話データを取得し、前記リアル発話データをテキストデータに変換し、前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成し、前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成し、前記変換モデルを用いて変換された前記合成音声を音声認識する。
【0009】
この開示の記録媒体の一の態様は、少なくとも1つのコンピュータに、話者が発話したリアル発話データを取得し、前記リアル発話データをテキストデータに変換し、前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成し、前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成し、前記変換モデルを用いて変換された前記合成音声を音声認識する、音声認識方法を実行させるコンピュータプログラムが記録されている。
【図面の簡単な説明】
【0010】
【
図1】第1実施形態に係る音声認識システムのハードウェア構成を示すブロック図である。
【
図2】第1実施形態に係る音声認識システムの機能的構成を示すブロック図である。
【
図3】第1実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。
【
図4】第1実施形態に係る音声認識システムによる音声認識動作の流れを示すフローチャートである。
【
図5】第2実施形態に係る音声認識システムの機能的構成を示すブロック図である。
【
図6】第2実施形態に係る音声認識システムによる変換モデル学習動作の流れを示すフローチャートである。
【
図7】第3実施形態に係る音声認識システムの機能的構成を示すブロック図である。
【
図8】第3実施形態に係る音声認識システムによる音声認識モデル生成動作の流れを示すフローチャートである。
【
図9】第4実施形態に係る音声認識システムの機能的構成を示すブロック図である。
【
図10】第4実施形態に係る音声認識システムによる音声認識モデル学習動作の流れを示すフローチャートである。
【
図11】第5実施形態に係る音声認識システムの機能的構成を示すブロック図である。
【
図12】第5実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。
【
図13】第6実施形態に係る音声認識システムの機能的構成を示すブロック図である。
【
図14】第6実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。
【
図15】第7実施形態に係る音声認識システムの機能的構成を示すブロック図である。
【
図16】第7実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。
【
図17】第7実施形態の変形例に係る音声認識システムの機能的構成を示すブロック図である。
【
図18】第7実施形態の変形例に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。
【
図19】第8実施形態の変形例に係る音声認識システムの機能的構成を示すブロック図である。
【
図20】第8実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。
【
図21】第8実施形態に係る音声認識システムによる音声認識動作の流れを示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、音声認識システム、音声認識方法、及び記録媒体の実施形態について説明する。
【0012】
<第1実施形態>
第1実施形態に係る音声認識システムについて、
図1から
図4を参照して説明する。
【0013】
(ハードウェア構成)
まず、
図1を参照しながら、第1実施形態に係る音声認識システムのハードウェア構成について説明する。
図1は、第1実施形態に係る音声認識システムのハードウェア構成を示すブロック図である。
【0014】
図1に示すように、第1実施形態に係る音声認識システム10は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。音声認識システム10は更に、入力装置15と、出力装置16と、を備えていてもよい。上述したプロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
【0015】
プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、音声認識システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、音声認識を行うための機能ブロックが実現される。即ち、プロセッサ11は、音声認識システム10における各制御を実行するコントローラとして機能してよい。
【0016】
プロセッサ11は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)として構成されてよい。プロセッサ11は、これらのうち一つで構成されてもよいし、複数を並列で用いるように構成されてもよい。
【0017】
RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic Random Access Memory)や、SRAM(Static Random Access Memory)であってよい。また、RAM12に代えて、他の種類の揮発性メモリが用いられてもよい。
【0018】
ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable Read Only Memory)や、EPROM(Erasable Read Only Memory)であってよい。また、ROM13に代えて、他の種類の不揮発性 メモリが用いられてもよい。
【0019】
記憶装置14は、音声認識システム10が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
【0020】
入力装置15は、音声認識システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置15は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。入力装置15は、例えばマイクを含む音声入力が可能な装置であってもよい。
【0021】
出力装置16は、音声認識システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、音声認識システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。また、出力装置16は、音声認識システム10に関する情報を音声出力可能なスピーカ等であってもよい。出力装置16は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。また、出力装置16は、画像以外の形式で情報を出力する装置であってもよい。例えば、出力装置16は、音声認識システム10に関する情報を音声で出力するスピーカであってもよい。
【0022】
なお、
図1では、複数の装置を含んで構成される音声認識システム10の例を挙げたが、これらの全部又は一部の機能を、1つの装置(音声認識装置)として実現してもよい。その場合、音声認識装置は、例えば上述したプロセッサ11、RAM12、ROM13のみを備えて構成され、その他の構成要素(即ち、記憶装置14、入力装置15、出力装置16)については、音声認識装置に接続される外部の装置が備えるようにしてもよい。また、音声認識装置は、一部の演算機能を外部の装置(例えば、外部サーバやクラウド等)によって実現するものであってもよい。
【0023】
(機能的構成)
次に、
図2を参照しながら、第1実施形態に係る音声認識システム10の機能的構成について説明する。
図2は、第1実施形態に係る音声認識システムの機能的構成を示すブロック図である。
【0024】
図2に示すように、第1実施形態に係る音声認識システム10は、その機能を実現するための構成要素として、発話データ取得部110と、テキスト変換部120と、音声合成部130と、変換モデル生成部140と、音声変換部210と、音声認識部220と、を備えて構成されている。発話データ取得部110、テキスト変換部120、音声合成部130、変換モデル生成部140、音声変換部210、音声認識部220の各々は、例えば上述したプロセッサ11(
図1参照)によって実現される処理ブロックであってよい。
【0025】
発話データ取得部110は、話者が発話したリアル発話データを取得可能に構成されている。リアル発話データは、音声データ(例えば、波形データ)であってよい。リアル発話データは、例えば複数のリアル発話データを蓄積するデータベース(リアル発話音声コーパス)から取得されてよい。発話データ取得部110で取得されたリアル発話データは、テキスト変換部120及び変換モデル生成部140に出力される構成となっている。
【0026】
テキスト変換部120は、発話データ取得部110で取得されたリアル発話データをテキストデータに変換可能に構成されている。即ち、テキスト変換部120は、音声データをテキスト変換する処理を実行可能に構成されている。なお、テキスト変換の具体的な手法については、既存の技術が適宜採用されてよい。テキスト変換部120で変換されたテキストデータ(即ち、リアル発話データに対応するテキストデータ)は、音声合成部130に出力される構成となっている。
【0027】
音声合成部130は、テキスト変換部120で変化されたテキストデータを音声合成することで、リアル発話データに対応する対応合成音声を生成可能に構成されている。なお、音声合成の具体的な手法については、既存の技術を適宜採用することができる。音声合成部130で生成された対応合成音声は、変換モデル生成部140に出力される構成となっている。なお、対応合成音声は、複数の対応合成を蓄積可能なデータベース(合成音声コーパス)に蓄積されてから、変換モデル生成部140に出力されてもよい。
【0028】
変換モデル生成部140は、発話データ取得部110で取得されたリアル発話データと、音声合成部130で合成された対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成可能に構成されている。変換モデルは、例えば、話者が発話した入力音声(即ち、人間の音声)を、合成音声(即ち、機械的な音声)に近づくように変換する。変換モデル生成部140は、例えばGAN(Generative Adversarial Network:敵対的生成ネットワーク)を用いて、変換モデルを生成するように構成されてよい。変換モデル生成部140で生成された変換モデルは、音声変換部210に出力される構成となっている。
【0029】
音声変換部210は、変換モデル生成部140で生成された変換モデルを用いて、入力音声を合成音声に変換可能に構成されている。音声変換部210に入力される入力音声は、例えばマイク等を用いて入力される音声であってよい。音声変換部210で変換された合成音声は、音声認識部220に出力される構成となっている。
【0030】
音声認識部220は、音声変換部210で変換された合成音声を音声認識することが可能に構成されている。即ち、音声認識部220は、合成音声をテキスト化する処理を実行可能に構成されている。音声認識部220は、合成音声の音声認識結果を出力可能に構成されてよい。なお、音声認識結果の利用方法については特に限定されない。
【0031】
(変換モデル生成動作)
次に、
図3を参照しながら、第1実施形態に係る音声認識システム10による変換モデルを生成する際の動作(以下、適宜「変換モデル生成動作」と称する)の流れについて説明する。
図3は、第1実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。
【0032】
図3に示すように、第1実施形態に係る音声認識システム10による変換モデル生成動作が開始されると、まず発話データ取得部110が、リアル発話データを取得する(ステップS101)。そして、テキスト変換部120が、発話データ取得部110で取得されたリアル発話データをテキストデータに変換する(ステップS102)。
【0033】
続いて、音声合成部130が、テキスト変換部120で変換されたテキストデータを音声合成し、リアル発話データに対応する対応合成音声を生成する(ステップS103)。そして、変換モデル生成部140が、発話データ取得部110で取得されたリアル発話データ及び音声合成部130で生成された対応合成音声に基づいて、変換モデルを生成する(ステップS104)。その後、変換モデル生成部140は、生成した変換モデルを音声変換部210に出力する(ステップS105)。
【0034】
(変換認識動作)
次に、
図4を参照しながら、第1実施形態に係る音声認識システム10による音声認識を行う際の動作(以下、適宜「音声認識動作」と称する)の流れについて説明する。
図3は、第1実施形態に係る音声認識システムによる音声認識動作の流れを示すフローチャートである。
【0035】
図4に示すように、第1実施形態に係る音声認識システム10による音声認識動作が開始されると、まず音声変換部210が入力音声を取得する(ステップS151)。そして、音声変換部210は、変換モデル生成部140で生成された変換モデルを読み込む(ステップS152)。その後、音声変換部210は、読み込んだ変換モデルを用いて音声変換を行い、入力音声を合成音声に変換する(ステップS153)。
【0036】
続いて、音声認識部220は、音声認識モデル(即ち、音声認識をするためのモデル)を読み込む(ステップS154)。そして、音声認識部220は、読み込んだ音声認識モデルを用いて、音声変換部210で合成された合成音声を音声認識する(ステップS155)。その後、音声認識部220は、音声認識結果を出力する(ステップS156)。
【0037】
(技術的効果)
次に、第1実施形態に係る音声認識システム10によって得られる技術的効果について説明する。
【0038】
図1から
図4で説明したように、第1実施形態に係る音声認識システム10では、変換モデルを生成する際に、リアル発話データ及びリアル発話データに対応する対応合成音声が用いられる。そして特に、リアル発話データに対応する対応合成音声は、リアル発話データをテキスト変換し、テキストデータを音声合成することで生成される。このようにすれば、リアル発話データと、それに対応する合成音声と、の両方を用意する必要がなくなる(即ち、リアル発話データのみ用意すれば、対応合成音声を生成できる)ため、変換モデルを生成するのに要するコストを抑制することができる。その結果、低コストで認識精度の高い音声認識を実現することが可能となる。
【0039】
<第2実施形態>
第2実施形態に係る音声認識システム10について、
図5及び
図6を参照して説明する。なお、第2実施形態は、上述した第1実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1実施形態と同一であってよい。このため、以下では、すでに説明した第1実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
【0040】
(機能的構成)
まず、
図5を参照しながら、第2実施形態に係る音声認識システム10の機能的構成について説明する。
図5は、第2実施形態に係る音声認識システムの機能的構成を示すブロック図である。なお、
図5では、
図2で示した構成要素と同様の要素に同一の符号を付している。
【0041】
図5に示すように、第2実施形態に係る音声認識システム10は、その機能を実現するための構成要素として、発話データ取得部110と、テキスト変換部120と、音声合成部130と、変換モデル生成部140と、音声変換部210と、音声認識部220と、を備えて構成されている。そして第2実施形態では特に、変換モデル生成部140に、音声変換部210に入力される入力音声及び音声認識部220による認識結果が入力される構成となっている。第2実施形態に係る変換モデル生成部140は、音声変換部210に入力される入力音声及び音声認識部220による認識結果に基づいて、変換モデルの学習を実行可能に構成されている。
【0042】
(変換モデル学習動作)
次に、
図6を参照しながら、第2実施形態に係る音声認識システム10による変換モデルを学習する際の動作(以下、適宜「変換モデル学習動作」と称する)の流れについて説明する。
図6は、第2実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。
【0043】
図6に示すように、第2実施形態に係る音声認識システム10による変換モデル学習動作が開始されると、まず変換モデル生成部140が、音声変換部210に入力される入力音声を取得する(ステップS201)。そして、変換モデル生成部140は更に、その入力音声が入力された際の音声認識結果(即ち、
図4に示すステップS156で出力される音声認識結果)を取得する(ステップS202)。
【0044】
続いて、変換モデル生成部140は、取得した入力音声及び音声認識結果に基づいて、変換モデルを学習する(ステップS203)。この際、変換モデル生成部140は、すでに生成していた変換モデルのパラメータ調整を行ってよい。その後、変換モデル生成部140は、学習した変換モデルを音声変換部210に出力する(ステップS204)。
【0045】
(技術的効果)
次に、第2実施形態に係る音声認識システム10によって得られる技術的効果について説明する。
【0046】
図5及び
図6で説明したように、第2実施形態に係る音声認識システム10では、入力音声及び音声認識結果に基づいて変換モデルが学習される。このようにすれば、入力音声が実際にどのように音声認識されるかを考慮して学習が行われるため、より適切な音声変換が行えるように変換モデルを学習できる。具体的には、音声変換した合成音声を用いて行う音声認識の精度が向上するように、変換モデルを学習できる。
【0047】
<第3実施形態>
第3実施形態に係る音声認識システム10について、
図7及び
図8を参照して説明する。なお、第3実施形態は、上述した第1及び第2実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1及び第2実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
【0048】
(機能的構成)
まず、
図7を参照しながら、第3実施形態に係る音声認識システム10の機能的構成について説明する。
図7は、第3実施形態に係る音声認識システムの機能的構成を示すブロック図である。なお、
図7では、
図2で示した構成要素と同様の要素に同一の符号を付している。
【0049】
図7に示すように、第3実施形態に係る音声認識システム10は、その機能を実現するための構成要素として、発話データ取得部110と、テキスト変換部120と、音声合成部130と、変換モデル生成部140と、音声変換部210と、音声認識部220と、音声認識モデル生成部310と、を備えて構成されている。即ち、第3実施形態に係る音声認識システム10は、第1実施形態の構成(
図2参照)に加えて、音声認識モデル生成部310を更に備えている。なお、音声認識モデル生成部310は、例えば上述したプロセッサ11(
図1参照)によって実現される処理ブロックであってよい。
【0050】
音声認識モデル生成部310は、入力音声を合成音声に変換する音声認識モデルを生成可能に構成されている。具体的には、音声認識モデル生成部310は、音声合成手段で生成された対応合成音声を用いて、音声認識モデルを生成可能に構成されている。なお、音声認識モデルは、対応合成音声と、それ以外の合成音声とを用いて、音声認識モデルを生成してもよい。音声認識モデル生成部310は、音声合成部130から直接対応合成音声を取得するよう構成されてもよいし、音声合成手段で生成された対応合成音声を複数記憶する合成音声コーパスから対応合成音声を取得するように構成されてもよい。音声認識モデル生成部310で生成された音声認識モデルは、音声認識部220に出力される構成となっている。
【0051】
(音声認識モデル生成動作)
次に、
図8を参照しながら、第3実施形態に係る音声認識システム10による音声認識モデルを生成する際の動作(以下、適宜「音声認識モデル生成動作」と称する)の流れについて説明する。
図8は、第3実施形態に係る音声認識システムによる音声認識モデル生成動作の流れを示すフローチャートである。
【0052】
図8に示すように、第3実施形態に係る音声認識システム10による音声認識モデル生成動作が開始されると、まず音声認識モデル生成部310が、音声合成部130で生成された対応合成音声を取得する(ステップS301)。
【0053】
続いて、音声認識モデル生成部310は、取得した対応合成音声を用いて音声認識モデルを生成する(ステップS302)。その後、音声認識モデル生成部310は、生成した音声認識モデルを音声認識部220に出力する(ステップS303)。
【0054】
(技術的効果)
次に、第3実施形態に係る音声認識システム10によって得られる技術的効果について説明する。
【0055】
図7及び
図8で説明したように、第3実施形態に係る音声認識システム10では、対応合成音声を用いて音声認識モデルが生成される。このようにすれば、音声認識モデルを生成するための合成音声を別途用意する必要がない(即ち、音声変換モデルを生成するために用いた対応合成音声を利用できる)ため、効率的に音声認識モデルを生成することが可能である。
【0056】
<第4実施形態>
第4実施形態に係る音声認識システム10について、
図9及び
図10を参照して説明する。なお、第4実施形態は、上述した第第3実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第3実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
【0057】
(機能的構成)
まず、
図9を参照しながら、第4実施形態に係る音声認識システム10の機能的構成について説明する。
図9は、第4実施形態に係る音声認識システムの機能的構成を示すブロック図である。なお、
図9では、
図7で示した構成要素と同様の要素に同一の符号を付している。
【0058】
図9に示すように、第4実施形態に係る音声認識システム10は、その機能を実現するための構成要素として、発話データ取得部110と、テキスト変換部120と、音声合成部130と、変換モデル生成部140と、音声変換部210と、音声認識部220と、音声認識モデル生成部310と、を備えて構成されている。そして第4実施形態では特に、音声認識モデル生成部310に、音声変換部210で変換された合成音声及び音声認識部220による認識結果が入力される構成となっている。第4実施形態に係る音声認識モデル生成部310は、音声変換部210で変換された合成音声及び音声認識部220による認識結果に基づいて、音声認識モデルの学習を実行可能に構成されている。
【0059】
(音声認識モデル学習動作)
次に、
図10を参照しながら、第4実施形態に係る音声認識システム10による音声認識モデルを学習する際の動作(以下、適宜「音声認識モデル学習動作」と称する)の流れについて説明する。
図10は、第3実施形態に係る音声認識システムによる音声認識モデル学習動作の流れを示すフローチャートである。
【0060】
図10に示すように、第4実施形態に係る音声認識システム10による音声認識モデル学習動作が開始されると、まず音声認識モデル生成部310が、音声変換部210で変換された合成音声(即ち、音声認識部220に入力される合成音声)を取得する(ステップS401)。そして、音声認識モデル生成部310は更に、その合成音声の音声認識結果(即ち、
図4に示すステップS156で出力される音声認識結果)を取得する(ステップS402)。
【0061】
続いて、音声認識モデル生成部310は、取得した合成音声及び音声認識結果に基づいて、音声認識モデルを学習する(ステップS403)。この際、音声認識モデル生成部310は、すでに生成していた変換モデルのパラメータ調整を行ってよい。その後、音声認識モデル生成部310は、学習した音声認識モデルを音声変換部210に出力する(ステップS404)。
【0062】
(技術的効果)
次に、第4実施形態に係る音声認識システム10によって得られる技術的効果について説明する。
【0063】
図9及び
図10で説明したように、第4実施形態に係る音声認識システム10では、合成音声及び音声認識結果に基づいて変換モデルが学習される。このようにすれば、合成音声が実際にどのように音声認識されるかを考慮して学習が行われるため、より適切な音声認識が行えるように音声認識モデルを学習できる。具体的には、音声認識の精度が向上するように、音声認識モデルを学習できる。
【0064】
<第5実施形態>
第5実施形態に係る音声認識システム10について、
図11及び
図12を参照して説明する。なお、第5実施形態は、上述した第1から第4実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第4実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
【0065】
(機能的構成)
まず、
図11を参照しながら、第5実施形態に係る音声認識システム10の機能的構成について説明する。
図11は、第5実施形態に係る音声認識システムの機能的構成を示すブロック図である。なお、
図11では、
図2で示した構成要素と同様の要素に同一の符号を付している。
【0066】
図11に示すように、第5実施形態に係る音声認識システム10は、その機能を実現するための構成要素として、発話データ取得部110と、テキスト変換部120と、音声合成部130と、変換モデル生成部140と、属性情報取得部150と、音声変換部210と、音声認識部220と、を備えて構成されている。即ち、第5実施形態に係る音声認識システム10は、第1実施形態の構成(
図2参照)に加えて、属性情報取得部150を更に備えている。なお、属性情報取得部150は、例えば上述したプロセッサ11(
図1参照)によって実現される処理ブロックであってよい。
【0067】
属性情報取得部150は、リアル発話データの話者に関する属性情報を取得可能に構成されている。属性情報は、例えば話者の性別、年齢、職業等に関する情報を含んでいてよい。属性情報取得部150は、例えば話者が保有する端末やIDカード等から属性情報を取得可能に構成されてよい。或いは、属性情報取得部150は、話者が入力した属性情報を取得するように構成されてよい。属性情報取得部150で取得された属性情報は、音声合成部130に出力される構成になっている。属性情報は、リアル発話データに紐付けた状態でリアル発話音声コーパスに記憶されてもよい。この場合、属性情報は、リアル発話音声コーパスから音声合成部130に出力されるように構成されればよい。
【0068】
(変換モデル生成動作)
次に、
図12を参照しながら、第5実施形態に係る音声認識システム10による変換モデル生成動作の流れについて説明する。
図12は、第5実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。なお、
図12では、
図3に示した処理と同様の処理に同一の符号を付している。
【0069】
図12に示すように、第5実施形態に係る音声認識システム10による変換モデル生成動作が開始されると、まず発話データ取得部110が、リアル発話データを取得する(ステップS101)。そして、属性情報取得部150が、リアル発話データの話者に関する属性情報を取得する(ステップS501)。なお、ステップS101とS102の処理は相前後して実行されてもよいし、同時に並行して実行されてもよい。
【0070】
続いて、テキスト変換部120が、発話データ取得部110で取得されたリアル発話データをテキストデータに変換する(ステップS102)。その後、音声合成部130が、テキスト変換部120で変換されたテキストデータを音声合成し、リアル発話データに対応する対応合成音声を生成するが、本実施形態では特に、属性情報も用いて音声合成を行う(ステップS502)。例えば、音声合成部130は、リアル発話データの話者の性別や年齢、職業等を考慮した音声合成を行ってよい。
【0071】
続いて、変換モデル生成部140が、発話データ取得部110で取得されたリアル発話データ及び音声合成部130で生成された対応合成音声(ここでは、属性情報に基づいて音声合成された合成音声)に基づいて、変換モデルを生成する(ステップS104)。なお、変換モデル生成部140に入力されるリアル発話データ及び対応合成音声の組には、属性情報が付与されていてよい。その場合、変換モデル生成部140は、属性情報も考慮して、変換モデルを生成してよい。その後、変換モデル生成部140は、生成した変換モデルを音声変換部210に出力する(ステップS105)。
【0072】
(技術的効果)
次に、第5実施形態に係る音声認識システム10によって得られる技術的効果について説明する。
【0073】
図11及び
図12で説明したように、第5実施形態に係る音声認識システム10では、話者の属性情報を用いて対応合成音声が生成される。このようにすれば、話者の属性が考慮された状態で対応合成音声が生成されるため、より適切な音声変換モデルを生成することが可能となる。また、上述した第3実施形態のように、対応合成音声を用いて音声認識モデルを生成する場合(
図7及び
図8参照)も、属性が考慮された対応合成音声が用いられることで、より適切な音声認識モデルを生成することが可能となる。
【0074】
<第6実施形態>
第6実施形態に係る音声認識システム10について、
図13及び
図14を参照して説明する。なお、第6実施形態は、上述した第1から第5実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第5実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
【0075】
(機能的構成)
まず、
図13を参照しながら、第6実施形態に係る音声認識システム10の機能的構成について説明する。
図13は、第6実施形態に係る音声認識システムの機能的構成を示すブロック図である。なお、
図13では、
図11で示した構成要素と同様の要素に同一の符号を付している。
【0076】
図13に示すように、第6実施形態に係る音声認識システム10は、その機能を実現するための構成要素として、複数のリアル発話音声コーパス105a、105b、及び105c(以下、適宜まとめて「リアル発話音声コーパス105」と称する)と、発話データ取得部110と、テキスト変換部120と、音声合成部130と、変換モデル生成部140と、音声変換部210と、音声認識部220と、を備えて構成されている。即ち、第6実施形態に係る音声認識システム10は、第1実施形態の構成(
図2参照)に加えて、複数のリアル発話音声コーパス105を更に備えている。なお、複数のリアル発話音声コーパス105は、例えば上述した記憶装置14(
図1参照)によって構成されてよい。
【0077】
複数のリアル発話音声コーパス105は、リアル発話データを所定の条件ごとに記憶している。ここでの「所定の条件」は、例えばリアル発話データを分類するために設定される条件である。例えば、複数のリアル発話音声コーパス105の各々は、分野別にリアル発話データを記憶するものであってよい。この場合、リアル発話音声コーパス105aが法律の分野に関するリアル発話データを記憶し、リアル発話音声コーパス105bが科学の分野に関するリアル発話データを記憶し、リアル発話音声コーパス105cが医療の分野に関するリアル発話データを記憶するように構成されてよい。なお、ここでは説明の便宜上3つのリアル発話音声コーパス105を図示しているが、リアル発話音声コーパス105の数は特に限定されるものではない。
【0078】
第6実施形態に係る発話データ取得部110は、上述した複数のリアル発話音声コーパス105から1つを選択してリアル発話データを取得可能に構成されている。なお、ここで選択されたリアル発話音声コーパス105に関する情報(具体的には、所定の条件に関する情報)は、リアル発話データと共に変換モデル生成部140に出力されてよい。そして、変換モデル生成部140は、変換モデルを生成する際に選択されたリアル発話音声コーパス105に関する情報を用いてもよい。また、上述した第3実施形態のように、音声認識モデルを生成する構成では、選択されたリアル発話音声コーパス105に関する情報が、音声認識モデル生成部310に出力されてもよい。そして、音声認識モデル生成部310は、音声認識モデルを生成する際に選択されたリアル発話音声コーパス105に関する情報を用いてもよい。
【0079】
(変換モデル生成動作)
次に、
図14を参照しながら、第6実施形態に係る音声認識システム10による変換モデル生成動作の流れについて説明する。
図14は、第6実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。なお、
図14では、
図12に示した処理と同様の処理に同一の符号を付している。
【0080】
図14に示すように、第6実施形態に係る音声認識システム10による変換モデル生成動作が開始されると、まず発話データ取得部110が、複数のリアル発話音声コーパス105の中から、発話データを取得するコーパスを選択する(ステップS601)。そして、発話データ取得部110は、選択したリアル発話音声コーパスから、リアル発話データを取得する(ステップS602)。
【0081】
続いて、テキスト変換部120が、発話データ取得部110で取得されたリアル発話データをテキストデータに変換する(ステップS102)。そして、音声合成部130が、テキスト変換部120で変換されたテキストデータを音声合成し、リアル発話データに対応する対応合成音声を生成する(ステップS103)。
【0082】
続いて、変換モデル生成部140が、発話データ取得部110で取得されたリアル発話データ及び音声合成部130で生成された対応合成音声に基づいて、変換モデルを生成するが、本実施形態では特に、選択されたリアル発話音声コーパスに関する情報も用いられる(ステップS606)。その後、変換モデル生成部140は、生成した変換モデルを音声変換部210に出力する(ステップS105)。
【0083】
(技術的効果)
次に、第6実施形態に係る音声認識システム10によって得られる技術的効果について説明する。
【0084】
図13及び
図14で説明したように、第6実施形態に係る音声認識システム10では、変換モデルを生成する際に、リアル発話データを取得する際に選択したリアル発話音声コーパス105に関する情報が用いられる。このようにすれば、リアル発話データの分類に用いられた所定の条件(例えば、分野)が考慮されることになるため、より適切な変換モデルを生成することが可能となる。
【0085】
<第7実施形態>
第7実施形態に係る音声認識システム10について、
図15及び
図16を参照して説明する。なお、第7実施形態は、上述した第1から第6実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第6実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
【0086】
(機能的構成)
まず、
図15を参照しながら、第7実施形態に係る音声認識システム10の機能的構成について説明する。
図15は、第7実施形態に係る音声認識システムの機能的構成を示すブロック図である。なお、
図15では、
図2で示した構成要素と同様の要素に同一の符号を付している。
【0087】
図15に示すように、第7実施形態に係る音声認識システム10は、その機能を実現するための構成要素として、発話データ取得部110と、テキスト変換部120と、音声合成部130と、変換モデル生成部140と、ノイズ付与部160と、音声変換部210と、音声認識部220と、を備えて構成されている。即ち、第7実施形態に係る音声認識システム10は、第1実施形態の構成(
図2参照)に加えて、ノイズ付与部160を更に備えている。なお、ノイズ付与部160は、例えば上述したプロセッサ11(
図1参照)によって実現される処理ブロックであってよい。
【0088】
ノイズ付与部160は、テキスト変換部120で生成されるテキストデータにノイズを付与可能に構成されている。ノイズ付与部160は、例えば、テキスト変換前のリアル発話データにノイズを付与することで、テキストデータにノイズが付与されるようにしてもよいし、テキスト変換後のテキストデータにノイズを付与するようにしてもよい。或いは、ノイズ付与部160は、テキスト変換部120がリアル発話データをテキスト変換する際にノイズを付与するようにしてよい。ノイズ付与部160は、予め設定されたノイズを付与するようにしてもよいし、ランダムに設定したノイズを付与するようにしてもよい。
【0089】
(変換モデル生成動作)
次に、
図16を参照しながら、第7実施形態に係る音声認識システム10による変換モデル生成動作の流れについて説明する。
図16は、第7実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。なお、
図16では、
図3に示した処理と同様の処理に同一の符号を付している。
【0090】
図16に示すように、第7実施形態に係る音声認識システム10による変換モデル生成動作が開始されると、まず発話データ取得部110が、リアル発話データを取得する(ステップS101)。ここで本実施形態では特に、ノイズ付与部160がテキスト変換部120にノイズ情報を出力する(ステップS701)。そして、テキスト変換部120は、発話データ取得部110で取得されたリアル発話データを、ノイズが付与されたテキストデータに変換する(ステップS702)。
【0091】
続いて、音声合成部130が、テキスト変換部120で変換されたテキストデータ(ここでは、ノイズが付与されたテキストデータ)を音声合成し、リアル発話データに対応する対応合成音声を生成する(ステップS103)。そして、変換モデル生成部140が、発話データ取得部110で取得されたリアル発話データ及び音声合成部130で生成された対応合成音声に基づいて、変換モデルを生成する(ステップS104)。その後、変換モデル生成部140は、生成した変換モデルを音声変換部210に出力する(ステップS105)。
【0092】
(技術的効果)
次に、第7実施形態に係る音声認識システム10によって得られる技術的効果について説明する。
【0093】
図15及び
図16で説明したように、第7実施形態に係る音声認識システム10では、リアル発話データが、ノイズが付与されたテキストデータに変換される。このようにすれば、ノイズを含むデータを用いて変換モデルが生成されることになるため、ノイズに強い変換モデル(例えば、入力音声にノイズが含まれていても適切に音声変換できる変換モデル)を生成することが可能である。
【0094】
<第7実施形態の変形例>
第7実施形態の変形例に係る音声認識システム10について、
図17及び
図18を参照して説明する。なお、第7実施形態の変形例は、上述した第7実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第7実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
【0095】
(機能的構成)
まず、
図17を参照しながら、第7実施形態の変形例に係る音声認識システム10の機能的構成について説明する。
図17は、第7実施形態の変形例に係る音声認識システムの機能的構成を示すブロック図である。なお、
図17では、
図15で示した構成要素と同様の要素に同一の符号を付している。
【0096】
図17に示すように、第7実施形態の変形例に係る音声認識システム10は、その機能を実現するための構成要素として、発話データ取得部110と、テキスト変換部120と、音声合成部130と、変換モデル生成部140と、ノイズ付与部160と、音声変換部210と、音声認識部220と、を備えて構成されている。ただし、第7実施形態の変形例に係る音声認識システム10では、ノイズ付与部160が、音声合成部130にノイズ情報を出力可能に構成されている。即ち、第7実施形態の変形例では、音声合成部130による音声合成の際にノイズが付与される構成となっている。
【0097】
(変換モデル生成動作)
次に、
図18を参照しながら、第7実施形態の変形例に係る音声認識システム10による変換モデル生成動作の流れについて説明する。
図18は、第7実施形態の変形例に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。なお、
図18では、
図16に示した処理と同様の処理に同一の符号を付している。
【0098】
図18に示すように、第7実施形態の変形例に係る音声認識システム10による変換モデル生成動作が開始されると、まず発話データ取得部110が、リアル発話データを取得する(ステップS101)。そして、テキスト変換部120が、発話データ取得部110で取得されたリアル発話データをテキストデータに変換する(ステップS102)。
【0099】
続いて、本実施形態では特に、ノイズ付与部160が音声合成部130にノイズ情報を出力する(ステップS751)。そして、音声合成部130は、テキスト変換部120で変換されたテキストデータを音声合成し、ノイズが付与された対応合成音声を生成する(ステップS752)。
【0100】
続いて、変換モデル生成部140が、発話データ取得部110で取得されたリアル発話データ及び音声合成部130で生成された対応合成音声(ここでは、ノイズが付与された対応合成音声)に基づいて、変換モデルを生成する(ステップS104)。その後、変換モデル生成部140は、生成した変換モデルを音声変換部210に出力する(ステップS105)。
【0101】
(技術的効果)
次に、第7実施形態の変形例に係る音声認識システム10によって得られる技術的効果について説明する。
【0102】
図17及び
図18で説明したように、第7実施形態の変形例に係る音声認識システム10では、ノイズが付与された対応合成音声が生成される。このようにすれば、ノイズを含むデータを用いて変換モデルが生成されることになるため、ノイズに強い変換モデル(例えば、入力音声にノイズが含まれていても適切に音声変換できる変換モデル)を生成することが可能である。
【0103】
<第8実施形態>
第8実施形態に係る音声認識システム10について、
図19から
図21を参照して説明する。なお、第8実施形態は、上述した第1から第7実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第7実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
【0104】
(機能的構成)
まず、
図19を参照しながら、第8実施形態に係る音声認識システム10の機能的構成について説明する。
図19は、第8実施形態に係る音声認識システムの機能的構成を示すブロック図である
【0105】
図19に示すように、第8実施形態に係る音声認識システム10は、その機能を実現するための構成要素として、手話データ取得部410と、テキスト変換部420と、音声合成部430と、変換モデル生成部440と、音声変換部510と、音声認識部520と、を備えて構成されている。手話データ取得部410、テキスト変換部420、音声合成部430、変換モデル生成部440、音声変換部510、音声認識部520の各々は、例えば上述したプロセッサ11(
図1参照)によって実現される処理ブロックであってよい。
【0106】
手話データ取得部410は、手話発話データを取得可能に構成されている。手話データは、例えば手話の動画データであってよい。手話データは、例えば複数の手話データを蓄積するデータベース(手話コーパス)から取得されてよい。手話データ取得部410で取得された手話データは、テキスト変換部120及び変換モデル生成部140に出力される構成となっている。
【0107】
テキスト変換部420は、手話データ取得部410で取得された手話データをテキストデータに変換可能に構成されている。即ち、テキスト変換部420は、手話データに含まれる手話の内容をテキスト変換する処理を実行可能に構成されている。なお、テキスト変換の具体的な手法については、既存の技術が適宜採用されてよい。テキスト変換部420で変換されたテキストデータ(即ち、手話データに対応するテキストデータ)は、音声合成部430に出力される構成となっている。
【0108】
音声合成部430は、テキスト変換部420で変化されたテキストデータを音声合成することで、手話データに対応する対応合成音声を生成可能に構成されている。なお、音声合成の具体的な手法については、既存の技術を適宜採用することができる。音声合成部430で生成された対応合成音声は、変換モデル生成部440に出力される構成となっている。なお、対応合成音声は、複数の対応合成を蓄積可能なデータベース(合成音声コーパス)に蓄積されてから、変換モデル生成部440に出力されてもよい。
【0109】
変換モデル生成部440は、手話データ取得部410で取得された手話データと、音声合成部430で合成された対応合成音声を用いて、入力手話を合成音声に変換する変換モデルを生成可能に構成されている。変換モデルは、例えば、入力される入力手話(例えば、手話の動画)を、合成音声(即ち、機械的な音声)に変換する。変換モデル生成部440は、例えばGANを用いて、変換モデルを生成するように構成されてよい。変換モデル生成部440で生成された変換モデルは、音声変換部510に出力される構成となっている。
【0110】
音声変換部510は、変換モデル生成部440で生成された変換モデルを用いて、入力手話を合成音声に変換可能に構成されている。音声変換部510に入力される入力手話は、例えばカメラ等を用いて入力される動画であってよい。音声変換部510で変換された合成音声は、音声認識部520に出力される構成となっている。
【0111】
音声認識部520は、音声変換部510で変換された合成音声を音声認識することが可能に構成されている。即ち、音声認識部520は、合成音声をテキスト化する処理を実行可能に構成されている。音声認識部520は、合成音声の音声認識結果を出力可能に構成されてよい。なお、音声認識結果の利用方法については特に限定されない。
【0112】
(変換モデル生成動作)
次に、
図20を参照しながら、第8実施形態に係る音声認識システム10による変換モデル生成動作の流れについて説明する。
図20は、第8実施形態に係る音声認識システムによる変換モデル生成動作の流れを示すフローチャートである。
【0113】
図20に示すように、第8実施形態に係る音声認識システム10による変換モデル生成動作が開始されると、まず手話データ取得部410が、手話データを取得する(ステップS801)。そして、テキスト変換部420が、手話データ取得部410で取得された手話データをテキストデータに変換する(ステップS802)。
【0114】
続いて、音声合成部430が、テキスト変換部420で変換されたテキストデータを音声合成し、手話データに対応する対応合成音声を生成する(ステップS403)。そして、変換モデル生成部140が、手話データ取得部410で取得された手話データ及び音声合成部430で生成された対応合成音声に基づいて、変換モデルを生成する(ステップS804)。その後、変換モデル生成部440は、生成した変換モデルを音声変換部510に出力する(ステップS805)。
【0115】
(変換認識動作)
次に、
図21を参照しながら、第8実施形態に係る音声認識システム10による音声認識動作の流れについて説明する。
図21は、第8実施形態に係る音声認識システムによる音声認識動作の流れを示すフローチャートである。
【0116】
図21に示すように、第1実施形態に係る音声認識システム10による音声認識動作が開始されると、まず音声変換部510が入力手話を取得する(ステップS851)。そして、音声変換部510は、変換モデル生成部440で生成された変換モデルを読み込む(ステップS852)。その後、音声変換部210は、読み込んだ変換モデルを用いて音声変換を行い、入力手話を合成音声に変換する(ステップS853)。
【0117】
続いて、音声認識部520は、音声認識モデルを読み込む(ステップS854)。そして、音声認識部520は、読み込んだ音声認識モデルを用いて、音声変換部510で合成された合成音声を音声認識する(ステップS855)。その後、音声認識部520は、音声認識結果を出力する(ステップS856)。
【0118】
(技術的効果)
次に、第8実施形態に係る音声認識システム10によって得られる技術的効果について説明する。
【0119】
図19から
図21で説明したように、第8実施形態に係る音声認識システム10では、変換モデルを生成する際に、手話データ及び手話データに対応する対応合成音声が用いられる。そして特に、手話データに対応する対応合成音声は、手話データをテキスト変換し、テキストデータを音声合成することで生成される。このようにすれば、手話データと、それに対応する合成音声と、の両方を用意する必要がなくなる(即ち、手話データのみ用意すれば、対応合成音声を生成できる)ため、変換モデルを生成するのに要するコストを抑制することができる。その結果、低コストで認識精度の高い音声認識を実現することが可能となる。
【0120】
上述した各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
【0121】
記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。更に、プログラム自体がサーバに記憶され、ユーザ端末にサーバからプログラムの一部または全てをダウンロード可能なようにしてもよい。
【0122】
<付記>
以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
【0123】
(付記1)
付記1に記載の音声認識システムは、話者が発話したリアル発話データを取得する発話データ取得手段と、前記リアル発話データをテキストデータに変換するテキスト変換手段と、前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成する音声合成手段と、前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成する変換モデル生成手段と、前記変換モデルを用いて変換された前記合成音声を音声認識する音声認識手段と、を備える音声認識システムである。
【0124】
(付記2)
付記2に記載の音声認識システムは、前記変換モデル生成手段は、前記入力音声と、前記音声認識手段の認識結果と、を用いて前記変換モデルのパラメータを調整する、付記1に記載の音声認識システムである。
【0125】
(付記3)
付記3に記載の音声認識システムは、前記対応合成音声を含むデータを用いて音声認識モデルを生成する音声認識モデル生成手段を更に備え、前記音声認識手段は、前記音声認識モデルを用いて音声認識する、付記1又は2に記載の音声認識システムである。
【0126】
(付記4)
付記4に記載の音声認識システムは、前記音声認識モデル生成手段は、前記変換モデルを用いて変換された前記合成音声と、前記音声認識手段の認識結果と、を用いて前記音声認識モデルのパラメータを調整する、付記3に記載の音声認識システムである。
【0127】
(付記5)
付記5に記載の音声認識システムは、前記話者の属性を示す属性情報を取得する属性取得手段を更に備え、前記音声合成手段は、前記属性情報を用いて音声合成を行うことで前記対応合成音声を生成する、付記1から4のいずれか一項に記載の音声認識システムムである。
【0128】
(付記6)
付記6に記載の音声認識システムは、所定の条件ごとに前記リアル発話データを記憶する複数のリアル発話音声コーパスを更に備え、前記発話データ取得手段は、前記複数のリアル発話音声コーパスから1つを選択して前記リアル発話データを取得する、付記1から5のいずれか一項に記載の音声認識システムである。
【0129】
(付記7)
付記7に記載の音声認識システムは、前記テキストデータ及び前記対応合成音声の少なくとも一方にノイズを付与するノイズ付与手段を更に備える、付記1から6のいずれか一項に記載の音声認識システムである。
【0130】
(付記8)
付記8に記載の音声認識システムは、手話データを取得する手話データ取得手段と、前記手話データをテキストデータに変換するテキスト変換手段と、前記テキストデータを用いた音声合成により、前記手話データに対応する対応合成音声を生成する音声合成手段と、前記手話データ及び前記対応合成音声を用いて、入力される手話を合成音声に変換する変換モデルを生成する変換モデル生成手段と、前記変換モデルを用いて変換された前記合成音声を音声認識する音声認識手段と、を備える音声認識システムである。
【0131】
(付記9)
付記9に記載の音声認識方法は、少なくとも1つのコンピュータによって、話者が発話したリアル発話データを取得し、前記リアル発話データをテキストデータに変換し、前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成し、前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成し、前記変換モデルを用いて変換された前記合成音声を音声認識する、音声認識方法である。
【0132】
(付記10)
付記10に記載の記録媒体は、少なくとも1つのコンピュータに、話者が発話したリアル発話データを取得し、前記リアル発話データをテキストデータに変換し、前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成し、前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成し、前記変換モデルを用いて変換された前記合成音声を音声認識する、音声認識方法を実行させるコンピュータプログラムが記録された記録媒体である。
【0133】
(付記11)
付記11に記載のコンピュータプログラムは、少なくとも1つのコンピュータに、話者が発話したリアル発話データを取得し、前記リアル発話データをテキストデータに変換し、前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成し、前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成し、前記変換モデルを用いて変換された前記合成音声を音声認識する、音声認識方法を実行させるコンピュータプログラムである。
【0134】
(付記12)
付記12に記載の音声認識装置は、話者が発話したリアル発話データを取得する発話データ取得手段と、前記リアル発話データをテキストデータに変換するテキスト変換手段と、前記テキストデータを用いた音声合成により、前記リアル発話データに対応する対応合成音声を生成する音声合成手段と、前記リアル発話データ及び前記対応合成音声を用いて、入力音声を合成音声に変換する変換モデルを生成する変換モデル生成手段と、前記変換モデルを用いて変換された前記合成音声を音声認識する音声認識手段と、を備える音声認識装置である。
【0135】
(付記13)
付記13に記載の音声認識方法は、少なくとも1つのコンピュータによって、手話データを取得し、前記手話データをテキストデータに変換し、前記テキストデータを用いた音声合成により、前記手話データに対応する対応合成音声を生成し、前記手話データ及び前記対応合成音声を用いて、入力される手話を合成音声に変換する変換モデルを生成し、前記変換モデルを用いて変換された前記合成音声を音声認識する、音声認識方法である。
【0136】
(付記14)
付記14に記載の記録媒体は、少なくとも1つのコンピュータに、手話データを取得し、前記手話データをテキストデータに変換し、前記テキストデータを用いた音声合成により、前記手話データに対応する対応合成音声を生成し、前記手話データ及び前記対応合成音声を用いて、入力される手話を合成音声に変換する変換モデルを生成し、前記変換モデルを用いて変換された前記合成音声を音声認識する、音声認識方法を実行させるコンピュータプログラムが記録された記録媒体である。
【0137】
(付記15)
付記15に記載のコンピュータプログラムは、少なくとも1つのコンピュータに、手話データを取得し、前記手話データをテキストデータに変換し、前記テキストデータを用いた音声合成により、前記手話データに対応する対応合成音声を生成し、前記手話データ及び前記対応合成音声を用いて、入力される手話を合成音声に変換する変換モデルを生成し、前記変換モデルを用いて変換された前記合成音声を音声認識する、音声認識方法を実行させるコンピュータプログラムである。
【0138】
(付記16)
付記16に記載の音声認識装置は、手話データを取得する手話データ取得手段と、前記手話データをテキストデータに変換するテキスト変換手段と、前記テキストデータを用いた音声合成により、前記手話データに対応する対応合成音声を生成する音声合成手段と、前記手話データ及び前記対応合成音声を用いて、入力される手話を合成音声に変換する変換モデルを生成する変換モデル生成手段と、前記変換モデルを用いて変換された前記合成音声を音声認識する音声認識手段と、を備える音声認識装置である。
【0139】
この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う音声認識システム、音声認識方法、及び記録媒体もまたこの開示の技術思想に含まれる。
【符号の説明】
【0140】
10 音声認識システム
11 プロセッサ
14 記憶装置
105 リアル発話音声コーパス
110 発話データ取得部
120 テキスト変換部
130 音声合成部
140 変換モデル生成部
150 属性情報取得部
160 ノイズ付与部
210 音声変換部
220 音声認識部
310 音声認識モデル生成部
410 手話データ取得部
420 テキスト変換部
430 音声合成部
440 変換モデル生成部
510 音声変換部
520 音声認識部