(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-01
(45)【発行日】2024-05-13
(54)【発明の名称】発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法
(51)【国際特許分類】
G10L 15/00 20130101AFI20240502BHJP
G10L 13/06 20130101ALI20240502BHJP
G10L 15/06 20130101ALI20240502BHJP
【FI】
G10L15/00 200Z
G10L13/06 230Z
G10L15/06 300Y
(21)【出願番号】P 2020083244
(22)【出願日】2020-05-11
【審査請求日】2023-04-12
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】栗原 清
(72)【発明者】
【氏名】伊藤 均
(72)【発明者】
【氏名】清山 信正
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2020-030367(JP,A)
【文献】特開2005-025413(JP,A)
【文献】特開2009-130411(JP,A)
【文献】国際公開第2018/037956(WO,A1)
【文献】栗原清 他,"ラベリング作業を必要としないsequence-to-sequence音響特徴量推定手法の有効性",情報処理学会研究報告,2019年11月29日,2019-SLP-130
【文献】清水渚佐 他,"語学学習番組を教材利用するための会話音声とテキストの対応付け",第11回情報科学技術フォーラム,2012年08月21日,pp.603-604
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/34
(57)【特許請求の範囲】
【請求項1】
複数の発話音声からなる音声データから、発話ごとの区間音声データの区切り位置を検出する音声区切り検出手段と、
前記区間音声データごとに音声認識を行う音声認識手段と、
前記音声認識手段の認識結果と、前記音声データの発話内容であるテキストデータとをマッチングすることで、前記区間音声データの時間に対応する区間テキストデータを推定するマッチング手段と、
前記区間テキストデータから、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとのコンテキスト情報を生成するコンテキスト情報生成手段と、
音素列の前記コンテキスト情報を、音素の出現順の読みを表す文字と韻律を表す予め定めた文字とを含む第2の区間テキストデータに変換する変換手段と、
を備えることを特徴とする発話音声テキスト生成装置。
【請求項2】
複数の発話音声と前記発話音声に対応する字幕とを含んだ字幕付きデータから、前記音声データと、前記テキストデータとなる字幕データとを分離する分離手段をさらに備えることを特徴とする請求項
1に記載の発話音声テキスト生成装置。
【請求項3】
前記区間音声データの前記区切り位置を操作者の操作に基づいて修正する音声区切り修正手段をさらに備えることを特徴とする請求項1
または請求項2に記載の発話音声テキスト生成装置。
【請求項4】
前記区間テキストデータを操作者の操作に基づいて修正するテキスト修正手段をさらに備えることを特徴とする請求項1から請求項
3のいずれか一項に記載の発話音声テキスト生成装置。
【請求項5】
コンピュータを、請求項1から請求項
4のいずれか一項に記載の発話音声テキスト生成装置として機能させるための発話音声テキスト生成プログラム。
【請求項6】
複数の発話音声からなる音声データから、発話ごとの区間音声データの区切り位置を音声区切り検出手段により検出するステップと、
前記区間音声データごとに音声認識手段により音声認識を行うステップと、
前記音声認識手段の認識結果と、前記音声データの発話内容であるテキストデータとを
マッチング手段によりマッチングすることで、前記区間音声データの時間に対応する区間テキストデータを推定するステップと、
前記区間テキストデータから、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとのコンテキスト情報をコンテキスト情報生成手段により生成するステップと、
音素列の前記コンテキスト情報を、変換手段により、音素の出現順の読みを表す文字と韻律を表す予め定めた文字とを含む第2の区間テキストデータに変換するステップと、
を含むことを特徴とする発話音声テキスト生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法に関する。
【背景技術】
【0002】
近年、音声合成や音声認識の分野では、ディープニューラルネットワーク(DNN:Deep Neural Network)を用いて、音声合成や音声認識を行う手法が一般化している。
例えば、DNNで構成された統計モデルを用いて、テキストデータから音声データを生成する音声合成手法が、特許文献1等に開示されている。
また、DNNで構成された音響モデル等を用いて、音声データからテキストデータを生成する音声認識手法が、特許文献2等に開示されている。
このようなDNNを用いた手法では、DNNのモデルを学習するための膨大な学習データが必要となる。
従来、この学習データを生成する手法として、放送番組の音声データと字幕データ(テキストデータ)とから、時刻に対応した音声データとテキストデータとを対応付けて学習データを生成する手法が、特許文献3等に開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019-219590号公報
【文献】特開2019-020597号公報
【文献】特許第6426971号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
放送番組のような字幕データ(クローズドキャプション)が重畳された放送データから、従来手法によって、音声データとテキストデータである字幕データとを対応付けて抽出する場合、以下に示す問題がある。
放送番組が生放送の場合、字幕作成者が、送出された音声を聞いた後にキーボードによって字幕を付加するため、実際の音声に対して字幕が遅延して放送されることになる。そのため、従来手法では、音声データと字幕データとに時間のずれが生じ、正しく学習データを生成することができないという問題がある。
また、生放送では、字幕の付加に人手が介在し、音声データと字幕データとの時間のずれが一定ではないため、音声データと字幕データとを調相して対応付けることは困難である。
【0005】
そこで、本発明は、複数の発話音声を含んだ音声データと対応するテキストデータとから、発話区間ごとの音声データとテキストデータとを生成することが可能な発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法を提供することを課題とする。
【課題を解決するための手段】
【0008】
前記課題を解決するため、本発明に係る発話音声テキスト生成装置は、音声区切り検出手段と、音声認識手段と、マッチング手段と、コンテキスト情報生成手段と、変換手段と、を備える構成とした。
【0009】
かかる構成において、発話音声テキスト生成装置は、音声区切り検出手段によって、複数の発話音声からなる音声データから、パワー等の音響特徴によって、発話ごとの区間音声データの区切り位置を検出する。
そして、発話音声テキスト生成装置は、音声認識手段によって、発話区間の区間音声データごとに音声認識を行う。
そして、発話音声テキスト生成装置は、マッチング手段によって、音声認識手段の認識結果と、音声データの発話内容であるテキストデータとをDPマッチング等のマッチング手法でマッチングすることで、区間音声データの時間に対応する区間テキストデータを推定する。
【0010】
さらに、発話音声テキスト生成装置は、コンテキスト情報生成手段によって、区間テキストデータから、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとのコンテキスト情報を生成する。このコンテキスト情報によって、音素ごとのアクセントの状態を認識することが可能になる。
そして、発話音声テキスト生成装置は、変換手段によって、音素列のコンテキスト情報を、音素の出現順の読みを表す文字とアクセントの状態を示す韻律を表す予め定めた文字とを含む第2の区間テキストデータに変換する。これによって、発話者が発した区間音声データの時間に対応する区間テキストデータ、第2の区間テキストデータを生成することができる。
【0011】
また、前記課題を解決するため、本発明に係る発話音声テキスト生成プログラムは、コンピュータを、前記した各手段として機能させるためのプログラムとして実現することができる。
また、前記課題を解決するため、本発明に係る発話音声テキスト生成方法は、前記した各手段の動作をステップとして含む手順として実現することができる。
【発明の効果】
【0012】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、複数の発話音声からなる音声データとその音声データに対応するテキストデータとに時間的にずれがある場合でも、発話ごとの音声データとテキストデータとを対応付けて抽出することができる。
【図面の簡単な説明】
【0013】
【
図1】
参考例の実施形態に係る発話音声テキスト生成装置を含む学習データ生成システムの構成を示すブロック構成図である。
【
図2】アップロード端末において字幕付きデータのファイルを選択する選択画面の例を示す図である。
【
図3】編集端末において音声の区切り位置およびテキストデータを修正する編集画面の例を示す図である。
【
図4】
参考例の実施形態に係る学習データ生成システムの動作を示すフローチャートである。
【
図5】本発明
の実施形態に係る発話音声テキスト生成装置を含む学習データ生成システムの構成を示すブロック構成図である。
【
図6】発話音声テキスト生成装置が生成する読み仮名と韻律記号とを含むPLPデータの例を説明するための説明図である。
【
図7】韻律記号の例を説明するための説明図である。
【
図8】コンテキスト情報の各ラベルの特徴を示す図(その1)である。
【
図9】コンテキスト情報の各ラベルの特徴を示す図(その2)である。
【
図10】コンテキスト情報の形式の例を示す図である。
【
図11】韻律記号を挿入する条件を説明するための説明図である。
【
図12】コンテキスト情報からPLPデータを生成する流れを説明するための説明図である。
【
図13】編集端末において音声の区切り位置およびテキストデータ(PLPデータ)を修正する編集画面の例を示す図である。
【
図14】編集端末において音声の区切り位置およびテキストデータ(仮名漢字交じり文、PLPデータ)を修正する編集画面の例を示す図である。
【
図15】本発明
の実施形態に係る学習データ生成システムの動作を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、
参考例および本発明の実施形態について図面を参照して説明する。
≪
参考例の実施形態≫
<学習データ生成システムの構成>
最初に、
図1を参照して、
参考例の実施形態に係る学習データ生成システム100の構成について説明する。
【0015】
学習データ生成システム100は、音声合成または音声認識に用いるディープニューラルネットワーク(DNN)のモデルを学習するための発話単位の音声データおよびその音声データに対応するテキストデータを学習データとして生成するものである。
学習データ生成システム100は、字幕付きデータ記憶装置1と、アップロード端末2と、発話音声テキスト生成装置3と、編集端末4と、を備える。
【0016】
〔字幕付きデータ記憶装置〕
字幕付きデータ記憶装置1は、複数の発話音声からなる音声データとその音声データに対応する字幕データとを含んだ字幕付きデータを記憶するものである。字幕付きデータは、例えば、XDCAM(登録商標)等のデータ形式の映像音声コンテンツ等である。なお、字幕付きデータは、少なくとも音声データとそれに対応する字幕データとを含んだものであればよく、映像データを含まないデータであってもよい。
字幕付きデータ記憶装置1には、字幕付きデータを1つのファイルとして予め複数記憶しておく。
【0017】
〔アップロード端末〕
アップロード端末2は、字幕付きデータ記憶装置1に記憶されている字幕付きデータ、または、現在放送中の字幕付きデータ(放送データ)から、音声データと字幕データ(テキストデータ)とを分離して、発話音声テキスト生成装置3に送信するクライアント端末である。
アップロード端末2は、ファイル選択手段20と、ファイル分離手段21と、放送データ受信手段22と、放送データ分離手段23と、を備える。
【0018】
ファイル選択手段20は、字幕付きデータ記憶装置1に記憶されている複数の字幕付きデータの各ファイルから、学習データを生成するためのファイルを選択するものである。
例えば、アップロード端末2は、ファイル選択手段20によって、
図2に示すような、ファイルを選択する選択画面G1を表示装置(不図示)に表示し、操作者によるマウス等の入力手段(不図示)の操作によって、ファイルを選択する。
【0019】
図2に示した選択画面G1は、実行g1、識別名g2、日時g3、ファイルパスg4、チャンネルg5、ステータスg6の欄と、開始ボタンBを表示した例を示している。
実行g1の欄は、選択対象のファイルを選択するチェック欄である。ここでは、ファイル選択手段20は、実行g1の欄を選択されることで、レ点を表示し、当該ファイルが選択されたことを示す。
識別名g2の欄は、字幕付きデータを識別する名称を表示する欄である。例えば、字幕付きデータのファイル名である。
日時g3は、字幕付きデータの時間情報を表示する欄である。この時間情報は、字幕付きデータを録音、録画した日時、あるいは、字幕付きデータ記憶装置1に字幕付きデータを記憶した日時である。
ファイルパスg4の欄は、字幕付きデータを記憶している字幕付きデータ記憶装置1のファイルパスを表示する欄である。
【0020】
チャンネルg5の欄は、チャンネル番号を指定する欄である。例えば、字幕付きデータがXDCAMの場合、最大8チャンネルの中から抽出したい音声チャンネルを選択する。
ステータスg6の欄は、選択された字幕付きデータのアップロードの状態を表示する欄である。例えば、ここでは、ファイルが選択されただけで、まだ、アップロードされていない(未送信)状態を示している。このステータスg6の欄は、後記するファイル分離手段21によって、音声データおよび字幕データが分離され、発話音声テキスト生成装置3にアップロードされた段階で、送信完了に更新される。
開始ボタンBは、選択されたファイルのアップロードを指示するボタンである。アップロード端末2は、ファイルを選択された後、マウス等の入力手段によって開始ボタンBを押下されることで、ファイルのアップロードを開始する。
【0021】
図1に戻って、アップロード端末2の構成について説明を続ける。
ファイル選択手段20は、選択された字幕付きデータを字幕付きデータ記憶装置1から読み出して、ファイル分離手段21に出力する。
【0022】
ファイル分離手段(分離手段)21は、ファイル選択手段20で選択された字幕付きデータから、音声データと字幕データとを分離するものである。
例えば、字幕付きデータがXDCAMの動画コンテンツの場合、映像データ、音声データおよび字幕データは、MXF(Material eXchange Format)の形式でコンテンツ内に格納されている。
そこで、ファイル分離手段21は、MXFの字幕付きデータから、音声ストリームを抽出し、WAVファイルに変換することで、音声データを分離する。
また、字幕データは、MXFの形式でARIB(Association of Radio Industries and Businesses:一般社団法人電波産業会)字幕ファイルとしてコンテンツ内に格納されている。
そこで、ファイル分離手段21は、MXFの字幕付きデータから、ARIB字幕ファイルを抽出し、ARIB字幕を文字コード(例えば、UTF-8)に変換することで、テキストデータとして字幕データを分離する。
【0023】
ファイル分離手段21は、分離した音声データおよびテキストデータを、発話音声テキスト生成装置3にアップロードする。
ここでは、ファイル分離手段21は、図示を省略した通信手段によって、ネットワークN,N
1を介して、音声データおよびテキストデータを対応付けて発話音声テキスト生成装置3に送信する。
なお、ファイル分離手段21は、音声データおよびテキストデータを、発話音声テキスト生成装置3にアップロードした後、
図2に示した選択画面G1のステータスg6の欄を「送信完了」に更新する。
これによって、操作者は、選択したファイルのアップロード状況を確認することができる。
【0024】
放送データ受信手段22は、デジタル放送で放送中の字幕付きデータ(放送データ)を受信し、ストリームデータ(トランスポートストリーム〔TS:Transport Stream〕)に復調するものである。
放送データ受信手段22は、例えば、外部から、字幕付きの放送データを放送しているチャンネルを指定されることで、復調したストリームデータ中のPSI/SI(Program Specific Information〔番組特定情報〕/Service Information〔番組配列情報〕)を解析し、指定されたチャンネルに対応するストリームデータを抽出する。
放送データ受信手段22は、抽出したストリームデータを放送データ分離手段23に出力する。
【0025】
放送データ分離手段(分離手段)23は、放送データ受信手段22で受信したストリームデータから、音声データと字幕データ(テキストデータ)とを分離するものである。
放送データ分離手段23は、ストリームデータに多重化されている音声データと、ストリームデータにクローズドキャプションとして多重化されているテキストデータである字幕データとをそれぞれ抽出する。
放送データ分離手段23は、分離した音声データおよびテキストデータを、発話音声テキスト生成装置3にアップロードする。
ここでは、放送データ分離手段23は、図示を省略した通信手段によって、ネットワークN,N1を介して、音声データおよびテキストデータを対応付けて発話音声テキスト生成装置3に送信する。
【0026】
以上、アップロード端末2の構成について説明したが、アップロード端末2は、この構成に限定されるものではない。例えば、アップロード端末2は、放送データ受信手段22および放送データ分離手段23を省略し、字幕付きデータ記憶装置1に記憶されている字幕付きデータから、音声データとテキストデータとを分離して、発話音声テキスト生成装置3に送信するものとして構成してもよい。また、例えば、アップロード端末2は、ファイル選択手段20およびファイル分離手段21を省略し、現在放送中の放送データから、音声データとテキストデータとを分離して、発話音声テキスト生成装置3に送信するものとして構成してもよい。
【0027】
〔発話音声テキスト生成装置〕
発話音声テキスト生成装置3は、複数の発話音声からなる音声データとその音声データに対応するテキストデータとから、発話区間の音声データ(区間音声データ)と、その音声データに対応するテキストデータ(区間テキストデータ)とを学習データとして生成するサーバである。
発話音声テキスト生成装置3は、音声テキスト記憶手段30と、音声区切り検出手段31と、音声認識手段32と、マッチング手段33と、を備える。
【0028】
音声テキスト記憶手段30は、複数の発話音声からなる音声データとその音声データに対応するテキストデータとを対応付けて記憶するものである。この音声テキスト記憶手段30は、ハードディスク等の一般的な記憶媒体で構成することができる。
音声テキスト記憶手段30に記憶する音声データおよびテキストデータは、図示を省略した通信手段によって、ネットワークN,N1を介して、アップロード端末2からアップロードされた音声データおよびテキストデータを受信して記憶されたデータである。
【0029】
音声区切り検出手段31は、複数の発話音声からなる音声データから、発話ごとの音声データ(区間音声データ)の区切り位置を検出するものである。
音声区切り検出手段31は、音声テキスト記憶手段30に記憶されている音声データから、発話区間を検出し、発話区間同士の間の位置(例えば、中間位置)を音声データの区切り位置として検出する。
音声区切り検出手段31における発話区間の検出手法は、一般的な手法を用いればよい。例えば、音声区切り検出手段31は、音声データから音響特徴量であるパワー(パワースペクトル)を抽出し、パワーが、予め定めた閾値よりも大きい場合に当該時間区間を発話区間とし、それ以外を非発話区間とする。
音声区切り検出手段31は、音声データと音声データの区切り位置とを音声認識手段32およびマッチング手段33に出力する。
【0030】
音声認識手段32は、音声区切り検出手段31で検出された区切り位置で区分される音声データ(区間音声データ)ごとに音声認識を行うものである。
音声認識手段32における音声認識手法は、一般的な手法を用いればよい。音声認識手段32は、図示を省略した言語モデル、音響モデルおよび発音辞書により、音声データの音声認識を行う。
音声認識手段32は、区間音声データごとの認識結果(漢字仮名交じり文)をマッチング手段33に出力する。
【0031】
マッチング手段33は、音声認識手段32で音声認識された認識結果と、音声テキスト記憶手段30に記憶されている音声データに対応するテキストデータとをマッチングするものである。
このマッチング手段33は、例えば、動的計画法(Dynamic Programming)によるマッチング手法(DPマッチング)により、単語または文字単位で認識結果とテキストデータとをマッチングすることで、認識結果に対応するテキストデータ(区間テキストデータ)を推定する。このとき、マッチング手段33は、類似の度合いとして、認識結果と推定した区間テキストデータとの間で、認識誤り、記号の挿入、書き換えを含んだ不一致率(matching error rate:MER)を算出する。
マッチング手段33は、不一致率が予め定めた閾値未満の区間テキストデータを、区切り位置で区切られた音声データ(区間音声データ)に対応するテキストデータとする。
そして、マッチング手段33は、区切り位置で区切った区間音声データと、マッチングした区間テキストデータとを対応付ける。
【0032】
マッチング手段33は、対応付けた区間音声データと区間テキストデータとを、図示を省略した通信手段によって、ネットワークN,N2を介して、編集端末4に送信する。
なお、マッチング手段33は、認識結果との不一致率が予め定めた閾値未満の区間テキストデータについては、対応する区間音声データとともに、編集端末4に送信を行わないこととする。あるいは、マッチング手段33は、区間音声データとともに、区間テキストデータをNULLデータとして、編集端末4に送信することとしてもよい。
【0033】
以上説明したように構成することで、発話音声テキスト生成装置3は、音声データとテキストデータとから、発話ごとに対応付けた区間音声データと区間テキストデータとを学習データとして生成することができる。このとき、発話音声テキスト生成装置3は、音声データに含まれる発話音声である区間音声データを、時間のずれに関係なく字幕データに対応した区間テキストデータに対応付けることができる。
なお、発話音声テキスト生成装置3は、図示を省略したコンピュータを、前記した各手段として機能させるための発話音声テキスト生成プログラムで動作させることができる。
【0034】
〔編集端末〕
編集端末4は、発話音声テキスト生成装置3で対応付けられた発話区間ごとの音声データ(区間音声データ)とテキストデータ(区間テキストデータ)とを修正するクライアント端末である。
編集端末4は、学習データ記憶手段40と、修正手段41と、を備える。
【0035】
学習データ記憶手段40は、発話音声テキスト生成装置3で生成された学習データである発話区間ごとの区間音声データと区間テキストデータとを対応付けて記憶するものである。この学習データ記憶手段40は、ハードディスク等の一般的な記憶媒体で構成することができる。
学習データ記憶手段40に記憶する区間音声データおよび区間テキストデータは、図示を省略した通信手段によって、ネットワークN,N2を介して、発話音声テキスト生成装置3から受信して記憶されたデータである。
【0036】
修正手段41は、操作者の操作によって、学習データ(区間音声データおよび区間テキストデータ)を修正するものである。
修正手段41は、
図3に示すような編集画面G2を表示し、操作者の操作によって、区間音声データおよび区間テキストデータを修正する。
【0037】
図3では、編集画面G2を、区間音声データの区切り位置を修正する区切り位置修正画面g10と、区間テキストデータを修正するテキスト修正画面g11とで構成した例を示している。
区切り位置修正画面g10は、修正対象の区間音声データの音声波形wを、前後の区間音声データの音声波形wf,wbとともに時系列に表示するとともに、修正対象の区間音声データの前後の区切り位置pf,pbを表示する画面である。
区切り位置修正画面g10は、操作者のマウス等の操作により、区切り位置pf,pbを修正するインタフェースを有する。
また、区切り位置修正画面g10は、さらに、再生ボタンb1、停止ボタンb2、一時停止ボタンb3、10秒戻るボタンb4、10秒進むボタンb5を備え、操作者が所望する位置からの音声データの再生の指示を受け付けるインタフェースを有する。
【0038】
テキスト修正画面g11は、修正対象の区間テキストデータを表示する画面である。
テキスト修正画面g11は、キーボード等の操作により、テキストデータを編集するインタフェースを有する。
また、編集画面G2は、修正対象を前の区間の文章(区間音声データ、区間テキストデータ)に切り替える戻るボタンb6、修正内容を保存して修正対象を次の区間に進める進むボタンb7、修正内容を保存せず、あるいは、修正を行わずに次の区間に進める進むボタンb8を備え、操作者が所望する修正対象の切り替えを行うインタフェースを有する。
【0039】
図1に戻って、編集端末4の構成について説明を続ける。
修正手段41は、音声区切り修正手段410と、テキスト修正手段411と、を備える。
【0040】
音声区切り修正手段410は、学習データ記憶手段40に記憶されている区間音声データの区切り位置を修正するものである。
音声区切り修正手段410は、
図3に示した編集画面G2の区切り位置修正画面g10において、修正対象の区間音声データの音声波形wを、前後の区間音声データの音声波形wf,wbとともに時系列に表示する。
また、音声区切り修正手段410は、修正対象の区間音声データの区切り位置pf,pbを表示する。
【0041】
音声区切り修正手段410は、再生ボタンb1、停止ボタンb2、一時停止ボタンb3、10秒戻るボタンb4、10秒進むボタンb5を操作者によって指示されることで、操作者が所望する位置からの音声データの再生、停止等を行う。これによって、操作者は、最適な音声データの区切り位置を判断することができる。
音声区切り修正手段410は、操作者の操作によって、例えば、マウス等で区切り位置pf,pbの線を左右にドラッグすることで、区切り位置pf,pbを修正する。
【0042】
なお、音声区切り修正手段410は、前の区切り位置pfを後ろ修正する、あるいは、後の区切り位置pbを前に修正する場合、修正対象の区間音声データの音声波形wにおいて指定された位置で音声波形を削除すればよい。また、音声区切り修正手段410は、前の区切り位置pfをさらに前に修正する、あるいは、後の区切り位置pbをさらに後ろに修正する場合、修正対象の区間音声データの音声波形wに前後の区間音声データの音声波形の一部を付加すればよい。
【0043】
テキスト修正手段411は、学習データ記憶手段40に記憶されている区間テキストデータを修正するものである。
テキスト修正手段411は、
図3に示した編集画面G2のテキスト修正画面g11に、修正対象の区間テキストデータを表示する。
そして、テキスト修正手段411は、操作者のキーボード等の操作によって、区間テキストデータを一般的なテキスト編集によって修正する。
修正手段41は、
図3に示した編集画面G2の戻るボタンb6、進むボタンb8をマウス等の入力手段によって押下されることで、修正対象を時系列で前または後に変更する。
また、修正手段41は、進むボタンb7をマウス等の入力手段によって押下されることで、修正した区間音声データおよび区間テキストデータで、学習データ記憶手段40のデータを更新する。
【0044】
以上説明したように、学習データ生成システム100は、字幕付きデータ(放送データ)から、音声合成または音声認識に用いるDNNのモデルを学習するための発話単位の音声データ(区間音声データ)およびその音声データに対応するテキストデータ(区間テキストデータ)を学習データとして生成することができる。
なお、学習データ生成システム100において、編集端末4は必ずしも必須構成ではない。しかし、学習データの精度を高める点において、編集端末4を備えることが好ましい。
また、学習データ生成システム100は、アップロード端末2と、発話音声テキスト生成装置3と、編集端末4と、を一体化した発話音声テキスト生成装置として構成してもよい。
【0045】
<学習データ生成システムの動作>
次に、
図4を参照(構成については適宜
図1参照)して、
参考例の実施形態に係る学習データ生成システム100の動作(発話音声テキスト生成方法)について説明する。
なお、字幕付きデータ記憶装置1には、複数の発話音声からなる音声データとその音声データに対応する字幕データとを含んだ字幕付きデータが予め記憶されているものとする。
【0046】
ステップS1において、アップロード端末2は、字幕付きデータを取得する。ここでは、アップロード端末2は、字幕付きデータ記憶装置1から、ファイル選択手段20によって、操作者が選択した字幕付きデータを取得する。あるいは、アップロード端末2は、放送データ受信手段22によって、放送データを受信し、指定されたチャンネルに対応するストリームデータを抽出する。
【0047】
ステップS2において、アップロード端末2は、字幕付きデータから、音声データとテキストデータ(字幕データ)とを分離する。
ステップS3において、アップロード端末2は、分離した音声データとテキストデータとを、発話音声テキスト生成装置3にアップロードする。
【0048】
ステップS4において、発話音声テキスト生成装置3は、ステップS3でアップロードされた音声データとテキストデータとを対応付けて音声テキスト記憶手段30に記憶する。
ステップS5において、発話音声テキスト生成装置3は、音声区切り検出手段31によって、複数の発話音声からなる音声データにおいて、発話ごとの音声データの区切り位置を検出する。
ステップS6において、発話音声テキスト生成装置3は、音声認識手段32によって、ステップS5で検出された区切り位置で区分される音声データである区間音声データごとに音声認識を行う。これによって、発話単位の音声データに対応する音声認識結果が生成される。
【0049】
ステップS7において、発話音声テキスト生成装置3は、マッチング手段33によって、ステップS6で音声認識された区間音声データの認識結果と、複数の発話音声からなる音声データに対応付けられているテキストデータとをマッチングすることで、認識結果に対応するテキストデータ(区間テキストデータ)を推定する。
ステップS8において、発話音声テキスト生成装置3は、生成した学習データ(区間音声データ、区間テキストデータ)を編集端末4に送信し、編集端末4は、区間音声データと区間テキストデータとを対応付けて学習データ記憶手段40に記憶する。
【0050】
ステップS9において、編集端末4は、修正手段41によって、区間音声データの区切り位置と、区間テキストデータの文字列とを、操作者の判断により必要に応じて修正する。
ここでは、編集端末4は、音声区切り修正手段410によって、区間音声データの区切り位置を修正し、テキスト修正手段411によって、区間テキストデータを修正する。
以上の動作によって、学習データ生成システム100は、音声合成または音声認識に用いるDNNのモデルを学習するための学習データを生成することができる。
【0051】
≪
本発明の実施形態≫
<学習データ生成システムの構成>
次に、
図5を参照して、本発明
の実施形態に係る学習データ生成システム100Bの構成について説明する。
以下の参考文献に記載されている音声合成方式において、音声合成に用いるDNNは、音声データと、それに対応する読み仮名および韻律記号とを学習データとして学習したものである。
(参考文献)栗原清、清山信正、熊野正、今井篤、“読み仮名と韻律記号を入力とする日本語End-to-End 音声合成方式の検討”、日本音響学会秋季研究発表会、1-4-1、Sep.2018.
この参考文献では、学習データとして、漢字仮名交じり文や片仮名のみのテキストデータよりも、読み仮名および韻律記号を用いる方が、音声合成結果の品質が向上する旨が記載されている。
【0052】
図5に示す学習データ生成システム100Bは、参考文献に記載の手法に対しても学習データを生成することを可能にするシステムである。
学習データ生成システム100Bは、音声合成または音声認識に用いるディープニューラルネットワーク(DNN)のモデルを学習するための発話単位の音声データおよびその音声データに対応する読み仮名および韻律記号を学習データとして生成するものである。
【0053】
ここで、
図6および
図7を参照して、学習データ生成システム100Bが生成する読み仮名および韻律記号について説明する。
図6は、「こんにちは正午のニュースです」(漢字仮名交じり文)に対応する読み仮名と韻律記号とを記載した例を示している。
ここでは、「コンニチワショーゴノニュースデス」が読み仮名で、読み仮名の途中や末尾に付加されている記号が韻律記号である。
なお、読み仮名は、
読みを表す文字であればよく、片仮名以外にも、平仮名、音素記号、発音記号、ローマ字等であってもよい。
韻律記号は、韻律を表す予め定めた文字であって、アクセント、句・フレーズの区切り、文末イントネーション、ポーズ等の位置や状態を示す記号である。
【0054】
図7に韻律記号の例を示す。アクセント位置の指定には、アクセント上昇を表す韻律記号「″」や、アクセント下降を表す韻律記号「&」が用いられる。句・フレーズの区切り指定には、アクセント句の区切りを表す韻律記号「#」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「(」や、疑問の文末を表す韻律記号「?」が用いられる。ポーズの指定には韻律記号「_」が用いられる。なお、これらの韻律記号は例であり、他の記号を用いてもよい。また、これらの例では、韻律記号を1字で表しているが、2字以上で表してもよい。また、
図7に示す韻律に加えて他の韻律の韻律記号を用いることもできる。
【0055】
図5に戻って説明を続ける。
学習データ生成システム100Bは、字幕付きデータ記憶装置1と、アップロード端末2と、発話音声テキスト生成装置3Bと、編集端末4と、を備える。
字幕付きデータ記憶装置1、アップロード端末2および編集端末4は、
図1で説明した構成と同じであるため、説明を省略する。
【0056】
〔発話音声テキスト生成装置〕
発話音声テキスト生成装置3Bは、複数の発話音声からなる音声データとその音声データに対応するテキストデータとから、発話区間の音声データ(区間音声データ)と、その音声データに対応するテキストデータである読み仮名および韻律記号とを学習データとして生成するサーバである。なお、読み仮名および韻律記号を、PLP(Symbols of phoneme and linguistic phonological features)データと記載する場合がある。
【0057】
発話音声テキスト生成装置3Bは、音声テキスト記憶手段30と、音声区切り検出手段31と、音声認識手段32と、マッチング手段33と、コンテキスト情報生成手段34と、変換手段35と、を備える。
音声テキスト記憶手段30、音声区切り検出手段31、音声認識手段32およびマッチング手段33は、
図1で説明した構成と同じであるため、説明を省略する。なお、ここでは、マッチング手段33は、区間テキストデータをコンテキスト情報生成手段34に出力し、区間音声データを変換手段35に出力することとする。
【0058】
コンテキスト情報生成手段34は、マッチング手段33で区間音声データに対応付けられた区間テキストデータ(漢字仮名交じり文)から、コンテキスト情報(コンテキストラベルデータ)を生成するものである。
コンテキスト情報は、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとの情報(コンテキスト)を、予め定めた指標(ラベル)ごとに表した情報である。
【0059】
図8および
図9にコンテキスト情報の各ラベルの特徴を示す。nは、先頭の音素を1番目としたときの音素の順番を表す。ラベルp
n、a
n~k
nは、n番目の音素を現在位置としたときの特徴を示す。
p
nは現在(n番目)の音素を中心とした音素の並びを表す。p
n,1は2つ前の音素(先先行音素)、p
n,2は1つ前の音素(先行音素)、p
n,3は現在(n番目)の音素、p
n,4は1つ後の音素(後続音素)、p
n,5は2つ後の音素(後後続音素)を表す。a
nは、アクセント型と位置に関する情報を示す。b
nは、先行単語の品詞、活用形および活用型に関する情報を示す。c
nは、現在の単語の品詞、活用形および活用型に関する情報を示す。d
nは、後続単語の品詞、活用形および活用型に関する情報を示す。e
nは、先行アクセント句の情報を示す。f
nは、現在のアクセント句の情報を示す。g
nは、後続アクセント句の情報を示す。h
nは、先行呼気段落の情報を示す。i
nは、現在の呼気段落の情報を示す。j
nは、後続呼気段落の情報を示す。k
nは、発話における呼気段落、アクセント句およびモーラ(音の分節)の数を示す。
【0060】
このように、コンテキスト情報は、発話における音素の情報、当該音素の前後の音素の情報、当該音素のアクセント句情報等を含む。アクセント句情報は、発話において現在の音素が含まれるアクセント句に関する特徴、および、当該アクセント句に隣接するアクセント句に関する特徴等を示す。なお、位置は、現在の音素の位置を”0”として、現在の音素よりも前の位置は負の値により、現在の音素のよりも後の位置は正の値により表される。
図10に、コンテキスト情報の形式例を示す。
図10のコンテキスト情報L
nは、音素列の中のn番目の音素の情報を示す。
【0061】
図5に戻って説明を続ける。
コンテキスト情報生成手段34は、区間テキストデータ(漢字仮名交じり文)から、音素ごとに、
図10に示すコンテキスト情報L
n(n=1~N,N:音素数)を生成する。
漢字仮名交じり文のテキストデータからコンテキスト情報を生成する手法は、一般的な手法を用いればよい。例えば、参考文献「“Open JTalk”,[online],[2020年3月6日検索],インターネット<http://open-jtalk.sourceforge.net/>」に記載の技術を用いることができる。この技術の手法は、形態素解析の機能とアクセント辞典の機能やその他の言語処理の機能を持ち、漢字仮名交じり文からコンテキストラベルの形式で各ラベルに情報を反映する。
コンテキスト情報生成手段34は、生成した音素列のコンテキスト情報を、変換手段35に出力する。
【0062】
変換手段35は、コンテキスト情報生成手段34で生成された音素列のコンテキスト情報を、音素の出現順の読みを表す文字と韻律を表す予め定めた文字とを含むテキストデータ(第2の区間テキストデータ)に変換するものである。
ここでは、変換手段35は、コンテキスト情報を、PLPデータ(読み仮名および韻律記号)に変換する。
変換手段35は、音素列のコンテキスト情報L
1,…,L
n,…,L
N(N:音素数)から、p
n,3(n=1~N,N:音素数)の音素(
図8参照)を順番に抽出して、音素列を生成する。
そして、変換手段35は、予め定めた条件に合致したとき、p
n,3の後ろに、予め定めた韻律記号を挿入する。
具体的には、変換手段35は、
図11に示す条件(1)~(6)に合致する場合(適宜
図8,
図9参照)、所定の韻律記号を挿入する。
【0063】
条件(1)は、コンテキスト情報Lnのan,3=1、かつ、コンテキスト情報Ln+1のan+1,2=1という条件である。an,3は、現在のアクセント句における現在のモーラの後ろからの位置を意味する。つまり、an,3=1とは、現在のモーラ位置が現在のアクセント句内において最も後ろであることを示す。an,2は、現在のアクセント句における現在のモーラの先頭からの位置を意味する。つまり、an+1,2=1とは、後続音素の位置を現在位置としたときに、現在のモーラ位置が現在のアクセント句内において先頭であることを示す。
この条件(1)を満たす場合、変換手段35は、音素pn,3の後ろに、アクセント句の区切りを示す韻律記号(“#”)を挿入する。
【0064】
条件(2)は、コンテキスト情報Lnのan,1=0、かつ、an,2≠fn,1という条件である。an,1=0は、現在のアクセント句においてアクセント型(アクセント核の位置)と現在のモーラ位置とが一致することを示す。an,2≠fn,1は、現在のアクセント句のモーラ数と現在のアクセント句における現在のモーラの先頭からの位置とが不一致であることを示す。つまり、コンテキスト情報Lnの音素は、現在のアクセント句における最後のモーラではないことを示す。
この条件(2)を満たす場合、変換手段35は、音素pn,3の後ろに、アクセント下降を示す韻律記号(「&」)を挿入する。
【0065】
条件(3)は、コンテキスト情報Lnのan,2=1、かつ、コンテキスト情報Ln+1のan+1,2=2という条件である。an,2は、現在のアクセント句における現在のモーラの先頭からの位置を表す。an,2=1とは、現在のモーラ位置が現在のアクセント句内において先頭であることを示す。また、an+1,2=2とは、後続音素の位置を現在位置としたときに、現在のモーラ位置が現在のアクセント句内において2番目であることを示す。
この条件(3)を満たす場合、変換手段35は、音素pn,3の後ろに、アクセント上昇を示す韻律記号(「”」)を挿入する。
【0066】
条件(4)は、コンテキスト情報Lnの音素pn,3がポーズを表す「pau」であるという条件である。
この条件(4)を満たす場合、変換手段35は、音素pn,3の「pau」を削除し、ポーズを表す韻律記号(「_」)を挿入する。
【0067】
条件(5)は、コンテキスト情報Lnの音素pn,3が無音を表す「sil」であり、かつ、n=Nであり、かつ、en,3=0であるという条件である。n=Nとは、現在の音素が発話における最後の音素であることを示す。en,3=0とは、文末イントネーションが疑問形ではない通常のイントネーションであることを示す。
この条件(5)を満たす場合、変換手段35は、音素pn,3の「sil」を削除し、文末(通常)を表す韻律記号(「(」)を挿入する。
【0068】
条件(6)は、コンテキスト情報Lnの音素pn,3が無音を表す「sil」であり、かつ、n=Nであり、かつ、en,3=1であるという条件である。n=Nとは、現在の音素が発話における最後の音素であることを示す。en,3=1とは、文末イントネーションが疑問形のイントネーションであることを示す。
この条件(6)を満たす場合、変換手段35は、音素pn,3の「sil」を削除し、文末(疑問)を表す韻律記号(「?」)を挿入する。
【0069】
これによって、変換手段35は、
図12に示すように、コンテキスト情報L
1,…,L
n,…,L
N(N:音素数)を、音素列p
1,3,p
2,3,…,p
N,3に韻律記号を挿入したテキストデータであるPLPデータ(PLP
N)に変換する。
なお、ここでは、PLPデータの読み仮名を音素記号(p
1,3等を示す音素記号)で表した例で示しているが、変換手段35は、音素記号を、平仮名、片仮名、発音記号、ローマ字等に変換してもよい。片仮名に変換した場合、
図6に示したPLPデータとなる。
【0070】
図5に戻って説明を続ける。
変換手段35は、マッチング手段33で区切られた区間音声データとその区間に対応するPLPデータである区間PLPデータ(第2の区間テキストデータ)とを、図示を省略した通信手段によって、ネットワークN,N
2を介して、編集端末4に送信する。
【0071】
以上説明したように構成することで、発話音声テキスト生成装置3Bは、音声データとテキストデータとから、発話ごとに対応付けた区間音声データと区間PLPデータとを学習データとして生成することができる。このとき、発話音声テキスト生成装置3Bは、音声データに含まれる発話音声である区間音声データを、時間のずれに関係なく字幕データに対応した区間PLPデータに対応付けることができる。
なお、発話音声テキスト生成装置3Bは、図示を省略したコンピュータを、前記した各手段として機能させるための学習宇データ生成プログラムで動作させることができる。
【0072】
学習データ生成システム100Bでは、編集端末4は、発話区間ごとの音声データ(区間音声データ)とテキストデータ(PLPデータ)とを学習データ記憶手段40に記憶する。そして、編集端末4は、
図13に示すように、編集画面G2のテキスト修正画面g11に、区間PLPデータを表し、修正を行う。
なお、発話音声テキスト生成装置3Bは、区間音声データと区間PLPデータとともに、区間テキストデータを編集端末4に送信することとしてもよい。
この場合、編集端末4は、修正手段41によって、
図14に示すように編集画面G2Bを表示し、区間テキストデータと区間PLPデータとを修正対象とることができる。
図14の例では、テキスト修正手段411が、テキスト修正画面を2つ(g11a,g11b)表示し、テキスト修正画面g11aにおいて区間テキストデータを修正し、テキスト修正画面g11bにおいて区間PLPデータを修正すればよい。
【0073】
<学習データ生成システムの動作>
次に、
図15を参照(構成については適宜
図5参照)して、本発明
の実施形態に係る学習データ生成システム100Bの動作(発話音声テキスト生成方法)について説明する。
なお、ステップS1からS7までの動作は、
図4で説明した学習データ生成システム100と同じ動作であるため説明を省略する。
【0074】
ステップS7Aにおいて、発話音声テキスト生成装置3Bは、コンテキスト情報生成手段34によって、ステップS7で区間音声データに対応付けられた区間テキストデータ(漢字仮名交じり文)に対して、形態素解析および言語解析を行うことで、区間テキストデータから、音素ごとのコンテキスト情報(コンテキストラベルデータ)を生成する。
ステップS7Bにおいて、発話音声テキスト生成装置3Bは、変換手段35によって、ステップ7Aで生成されたコンテキスト情報から音素列を抽出するとともに、
図11に示した条件に従って、韻律記号を付加することで、区間音声データに対応した音素列のコンテキスト情報をPLPデータ(区間PLPデータ;第2の区間テキストデータ)に変換する。
【0075】
ステップ8Aにおいて、発話音声テキスト生成装置3Bは、生成した学習データ(区間音声データ、区間PLPデータ)を編集端末4に送信し、編集端末4は、区間音声データと区間テキストデータとを対応付けて学習データ記憶手段40に記憶する。
ステップS9Bにおいて、編集端末4は、修正手段41によって、区間音声データの区切り位置と、区間PLPデータの文字列とを、操作者の判断により必要に応じて修正する。
ここでは、編集端末4は、音声区切り修正手段410によって、区間音声データの区切り位置を修正し、テキスト修正手段411によって、区間PLPデータを修正する。
以上の動作によって、学習データ生成システム100Bは、音声合成または音声認識に用いるDNNのモデルを学習するための学習データを生成することができる。
【符号の説明】
【0076】
100,100B 学習データ生成システム
1 字幕付きデータ記憶装置
2 アップロード端末
20 ファイル選択手段
21 ファイル分離手段(分離手段)
22 放送データ受信手段
23 放送データ分離手段(分離手段)
3,3B 発話音声テキスト生成装置
30 音声テキスト記憶手段
31 音声区切り検出手段
32 音声認識手段
33 マッチング手段
34 コンテキスト情報生成手段
35 変換手段
4 編集端末
40 学習データ記憶手段
41 修正手段
410 音声区切り修正手段
411 テキスト修正手段