IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2025-33170音声合成支援装置、音声合成支援方法、および音声合成支援プログラム
<>
  • 特開-音声合成支援装置、音声合成支援方法、および音声合成支援プログラム 図1
  • 特開-音声合成支援装置、音声合成支援方法、および音声合成支援プログラム 図2A
  • 特開-音声合成支援装置、音声合成支援方法、および音声合成支援プログラム 図2B
  • 特開-音声合成支援装置、音声合成支援方法、および音声合成支援プログラム 図2C
  • 特開-音声合成支援装置、音声合成支援方法、および音声合成支援プログラム 図3A
  • 特開-音声合成支援装置、音声合成支援方法、および音声合成支援プログラム 図3B
  • 特開-音声合成支援装置、音声合成支援方法、および音声合成支援プログラム 図3C
  • 特開-音声合成支援装置、音声合成支援方法、および音声合成支援プログラム 図4
  • 特開-音声合成支援装置、音声合成支援方法、および音声合成支援プログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025033170
(43)【公開日】2025-03-13
(54)【発明の名称】音声合成支援装置、音声合成支援方法、および音声合成支援プログラム
(51)【国際特許分類】
   G10L 13/06 20130101AFI20250306BHJP
【FI】
G10L13/06 200
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023138706
(22)【出願日】2023-08-29
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】倉田 宜典
(57)【要約】
【課題】テキストを正確な言語情報に容易に変換可能とする。
【解決手段】音声合成支援装置10は、変換部20Aと、受付部20Cと、登録部20Dと、を備える。変換部20Aは、言語辞書16Aを用いてテキストを解析しテキストを、合成音声データの生成に用いる合成音声辞書16Bに入力するための言語情報に変換する。受付部20Cは、言語情報の少なくとも一部の修正を受付ける。登録部20Dは、テキストと修正後の言語情報とを対応付けて言語辞書16Aに登録する。
【選択図】図1
【特許請求の範囲】
【請求項1】
言語辞書を用いてテキストを解析し前記テキストを、合成音声データの生成に用いる合成音声辞書に入力するための言語情報に変換する変換部と、
前記言語情報の少なくとも一部の修正を受付ける受付部と、
前記テキストと修正後の前記言語情報とを対応付けて前記言語辞書に登録する登録部と、
を備える音声合成支援装置。
【請求項2】
前記テキストと前記変換部によって変換された前記言語情報と、を含む第1表示画面を表示する表示制御部を備え、
前記表示制御部は、
前記言語情報の少なくとも一部の修正を受付けた時に、前記テキストと修正を受付けた修正後の前記言語情報との対応を表す第2表示画面を表示し、
前記登録部は、
前記第2表示画面を介して登録指示を受け付けた時に、前記第2表示画面に含まれる前記テキストと修正後の前記言語情報とを対応付けて前記言語辞書に登録する、
請求項1に記載の音声合成支援装置。
【請求項3】
前記登録部は、
前記第2表示画面に含まれる前記テキストと修正後の前記言語情報と、前記テキストの属するカテゴリと、を対応付けて前記言語辞書に登録する、
請求項1に記載の音声合成支援装置。
【請求項4】
前記表示制御部は、
前記テキストに対応する互いに異なる複数の前記言語情報の内の1つを選択可能に表示し、
前記登録部は、
前記テキストと、表示された複数の前記言語情報の内の選択を受け受けた1の前記言語情報と、を対応付けて前記言語辞書に登録する、
請求項1に記載の音声合成支援装置。
【請求項5】
前記言語情報の再生指示を受付けた時に、該言語情報および前記合成音声辞書を用いて合成音声データを生成する音声合成部と、
前記合成音声データを再生する再生部と、
を備える請求項1に記載の音声合成支援装置。
【請求項6】
音声合成支援装置によって実行される音声合成支援方法であって、
言語辞書を用いてテキストを解析し前記テキストを、合成音声データの生成に用いる合成音声辞書に入力するための言語情報に変換する変換ステップと、
前記言語情報の少なくとも一部の修正を受付ける受付ステップと、
前記テキストと修正後の前記言語情報とを対応付けて前記言語辞書に登録する登録ステップと、
を含む音声合成支援方法。
【請求項7】
言語辞書を用いてテキストを解析し前記テキストを、合成音声データの生成に用いる合成音声辞書に入力するための言語情報に変換する変換ステップと、
前記言語情報の少なくとも一部の修正を受付ける受付ステップと、
前記テキストと修正後の前記言語情報とを対応付けて前記言語辞書に登録する登録ステップと、
をコンピュータに実行させるための音声合成支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声合成支援装置、音声合成支援方法、および音声合成支援プログラムに関する。
【背景技術】
【0002】
言語辞書を用いてテキストを解析し、文章を構成する音素列、アクセントの位置、等の言語情報を生成し、言語情報から音声合成辞書を用いて合成音声データを生成する技術が開示されている。
【0003】
しかしながら従来技術では、テキストの解析結果である言語情報に誤りがある場合、ユーザによる操作指示等によって解析の度に毎回言語情報を修正する必要があり、テキストを正確な言語情報に容易に変換することは困難であった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2022-081691号公報
【特許文献2】特開2023-038957号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題はテキストを正確な言語情報に容易に変換することができる、音声合成支援装置、音声合成支援方法、および音声合成支援プログラムを提供することである。
【課題を解決するための手段】
【0006】
実施形態の音声合成支援装置は、変換部と、受付部と、登録部と、を備える。変換部は、言語辞書を用いてテキストを解析し前記テキストを、合成音声データの生成に用いる合成音声辞書に入力するための言語情報に変換する。受付部は、前記言語情報の少なくとも一部の修正を受付ける。登録部は、前記テキストと修正後の前記言語情報とを対応付けて前記言語辞書に登録する。
【図面の簡単な説明】
【0007】
図1図1は、音声合成支援装置の一例を示す図である。
図2A図2Aは、表示画面の一例の模式図である。
図2B図2Bは、表示画面の一例の模式図である。
図2C図2Cは、表示画面の一例の模式図である。
図3A図3Aは、表示画面の一例の模式図である。
図3B図3Bは、表示画面の一例の模式図である。
図3C図3Cは、表示画面の一例の模式図である。
図4図4は、音声合成支援装置が実行する情報処理の流れの一例を示すフローチャートである。
図5図5は、ハードウェア構成図である。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、音声合成支援装置、音声合成支援方法、および音声合成支援プログラムを詳細に説明する。
【0009】
図1は、本実施形態の音声合成支援装置10の一例を示す図である。
【0010】
音声合成支援装置10は、テキストの正確な言語情報への変換を支援する情報処理装置である。
【0011】
音声合成支援装置10は、通信部12と、UI(ユーザ・インターフェース)部14と、記憶部16と、処理部20と、を備える。通信部12、UI部14、記憶部16、および処理部20は、バス18を介して通信可能に接続されている。
【0012】
通信部12は、ネットワーク等を介して外部の他の情報処理装置と通信する。UI部14は、表示部14Aと、入力部14Bと、音声出力部14Cと、を含む。
【0013】
表示部14Aは、各種の情報を表示する。表示部14Aは、例えば、LCD(Liquid Crystal Display)、有機EL(Electro-Luminescence)などのディスプレイや、投影装置などである。
【0014】
入力部14Bは、ユーザの操作を受付ける。入力部14Bは、例えば、デジタルペン、マウス、またはトラックボール等のポインティングデバイスや、キーボード等の入力デバイスである。なお、表示部14Aと入力部14Bの少なくとも一部とを一体的に備えた、タッチパネルとして構成してもよい。
【0015】
音声出力部14Cは、音声を出力するスピーカである。
【0016】
記憶部16は、各種のデータを記憶する。記憶部16は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部16は、音声合成支援装置10の外部に設けられた記憶装置であってもよい。また、記憶部16は、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムや各種情報を、LAN(Local Area Network)やインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部16を、複数の記憶媒体から構成してもよい。
【0017】
本実施形態では、記憶部16は、言語辞書16Aおよび合成音声辞書16Bを記憶する。言語辞書16Aおよび合成音声辞書16Bの詳細は後述する。
【0018】
次に、処理部20について説明する。処理部20は、各種の情報処理を実行する。処理部20は、変換部20Aと、表示制御部20Bと、受付部20Cと、登録部20Dと、音声合成部20Eと、再生部20Fと、を備える。変換部20A、表示制御部20B、受付部20C、登録部20D、音声合成部20E、および再生部20Fは、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
【0019】
また、上記各部の少なくとも1つおよび記憶部16に記憶される情報の少なくとも一部は、クラウド上で処理を実行するクラウドサーバ等に搭載されていてもよい。
【0020】
変換部20Aは、言語辞書16Aを用いてテキストを解析し、テキストを言語情報に変換する。
【0021】
テキストとは、コンピュータで扱われる文字列や文章などの文字データである。テキストの言語は限定されない。テキストの言語は、例えば、日本語、英語、等の言語である。本実施形態では、テキストの言語が日本語である形態を一例として説明する。テキストの言語が日本語である場合、テキストは、例えば、漢字、平仮名、カタカナ、英数字、ローマ字、等の何れで表現されていてもよい。
【0022】
言語辞書16Aとは、テキストを解析し言語情報を出力するための辞書である。言語辞書16Aには、例えば、テキストと、言語情報と、が対応付けて登録されている。言語辞書16Aに登録されるテキストの単位は、例えば、形態素を少なくとも1つ含む単位であればよい。
【0023】
言語情報とは、テキストから抽出された言語の特長量である。言語情報は、言語特徴量と称される場合がある。例えば、言語情報は、前後の音素、発音に関する情報、アクセントの位置、漢字のよみ、文節(アクセントの句)の区切り、句末位置、文長、アクセント句長、モーラ長、モーラ位置、アクセント型、品詞、係り受け、等の情報である。
【0024】
変換部20Aは、ユーザによる入力部14Bの操作指示なとによって指定されたテキストを取得する。例えば、変換部20Aは、記憶部16または外部の情報処理装置等から、ユーザによる入力部14Bの操作指示等によって指定されたテキストを読取ることで、テキストを取得する。
【0025】
そして、変換部20Aは、取得したテキストに対応する言語情報を言語辞書16Aから読み取ることで、テキストを言語情報に変換する。
【0026】
表示制御部20Bは、各種の画像を表示部14Aに表示する。
【0027】
図2Aは、表示画面30Aの一例の模式図である。本実施形態では、表示画面30に表示される文字が、日本語である場合を一例として説明する。表示画面30Aは、表示部14Aに表示される表示画面30の一例である。また、表示画面30Aおよび後述する表示画面30Bは、第1表示画面の一例である。第1表示画面は、テキストと変換部20Aによる該テキストの変換により得られた言語情報の表示、および該言語情報の修正を受付けるための表示画面30である。
【0028】
表示画面30Aは、テキスト表示欄40Aと、言語情報表示欄40Bと、再生ボタン40Cと、保存/次へボタン40Pと、を含む。
【0029】
テキスト表示欄40Aは、変換部20Aによる変換対象のテキストの表示欄である。言語情報表示欄40Bは、テキスト表示欄40Aに表示されているテキストに対応する言語情報の表示欄および該言語情報に対する編集の受付を行うための表示欄である。再生ボタン40Cは、言語情報表示欄40Bに表示された言語情報に応じた合成音声データの再生を指示するときにユーザによって操作されるボタン画像領域である。保存/次へボタン40Pは、テキスト表示欄40Aに表示されているテキストを他のテキストに変更するときにユーザによって操作されるボタン画像領域である。
【0030】
変換部20Aがテキスト情報を言語情報に変換すると、表示制御部20Bは、該テキスト情報をテキスト表示欄40Aに表示し、該言語情報を言語情報表示欄40Bに表示する。
【0031】
図1に戻り説明を続ける。
【0032】
ここで、テキストから言語辞書16Aを用いて変換された言語情報の少なくとも一部が、該テキストの正確な音素やアクセント等の言語情報とは異なる場合がある。テキストから言語情報への変換は言語辞書16Aを用いて行われる。このため、言語辞書16Aに間違った言語情報が登録されている場合、同じテキストを言語情報に変換する場面では、常に間違った言語情報への変換が行われることとなる。
【0033】
そこで、受付部20Cは、言語情報の少なくとも一部の修正を受付ける。
【0034】
例えば、図2Aに示す表示画面30Aが表示部14Aに表示された場面を想定する。また、言語情報表示欄40Bに表示されている言語情報の一部が間違った情報である場合を想定する。この場合、ユーザは、入力部14Bを操作することで、言語情報表示欄40Bに表示されている言語情報の少なくとも一部を正しい情報に変更する。
【0035】
図2Bは、表示画面30Bの一例の模式図である。
【0036】
表示画面30Bは、表示画面30の一例である。また、表示画面30Bは、第1表示画面の一例である。表示画面30Bは、言語情報の修正の受付場面で表示部14Aに表示される表示画面30の一例である。表示画面30Bは、修正完了ボタン40Dを含む。修正完了ボタン40Dは、合成音声辞書16Bへの言語情報の保存指示を行う時にユーザによって操作されるボタン画像領域である。
【0037】
例えば、ユーザは入力部14Bを操作することで、表示画面30A(図2A参照)の言語情報表示欄40Bに表示されている言語情報の少なくとも一部を正しい情報に変更する(図2Bの表示画面30Bの言語情報表示欄40B中の下線部参照)。
【0038】
そして、ユーザは、言語情報表示欄40Bに表示されている言語情報の少なくとも一部を正しい情報に変更すると、入力部14Bを操作することで修正完了ボタン40Dを表示する。
【0039】
図1に戻り説明を続ける。
【0040】
ユーザによる入力部14Bの操作指示によって修正完了ボタン40Dが操作されることで、受付部20Cが修正完了指示を受付けると、表示制御部20Bは、テキストと修正を受付けた修正後の言語情報との対応を表す第2表示画面を表示部14Aに表示する。
【0041】
図2Cは、表示画面30Cの一例の模式図である。表示画面30Cは、表示画面30の一例である。また、表示画面30Cは、第2表示画面の一例である。
【0042】
表示画面30Cは、カテゴリ表示欄40Eと、テキスト表示欄40Fと、言語情報表示欄40Gと、登録ボタン40Hと、報告ボタン40Iと、を含む。
【0043】
カテゴリ表示欄40Eは、テキストの属するカテゴリの表示欄である。テキスト表示欄40Fは、テキストの表示欄である。言語情報表示欄40Gは、該テキストに対して入力を受付けた修正後の言語情報の表示欄である。登録ボタン40Hは、テキスト表示欄40Fに表示されているテキストと言語情報表示欄40Gに表示されている言語情報とを対応付けて言語辞書16Aに登録するときにユーザによって操作されるボタン画像領域である。報告ボタン40Iは、表示画面30Cのテキスト表示欄40Fに表示されているテキストと言語情報表示欄40Gに表示されている言語情報との対を学習データとして変換部20Aへ出力するときにユーザによって操作されるボタン画像領域である。
【0044】
表示制御部20Bは、テキストと修正を受付けた修正後の言語情報との対応を表す第2表示画面の一例である表示画面30Cを、第1表示画面の一例である表示画面30B上に重畳してポップアップ表示してもよい。また、表示制御部20Bは、第2表示画面の一例である表示画面30Cを、表示部14Aの表示面における、第1表示画面の一例である表示画面30Bとは非重複な位置に表示してもよい。また、表示制御部20Bは、表示画面30Bに替えて、表示画面30Cを表示部14Aに表示してもよい。
【0045】
表示制御部20Bは、テキストを公知の学習モデル等を用いて解析することで、該テキストの属するカテゴリをカテゴリ表示欄40Eに表示すればよい。また、表示制御部20Bは、ユーザによる入力部14Bの操作指示によって入力された、テキストの属するカテゴリをカテゴリ表示欄40Eに表示してもよい。また、表示制御部20Bは、表示画面30Bの言語情報表示欄40Bに表示された修正後の言語情報の内、修正前の言語情報と異なる文字を含む連続する文字列を選択的に抽出し、抽出した文字列を修正後の言語情報として言語情報表示欄40Gに表示してもよい。この場合、表示制御部20Bは、該修正後の言語情報に対応するテキストをテキスト表示欄40Fに表示すればよい。
【0046】
ユーザによる入力部14Bの操作指示によって報告ボタン40Iが操作されることで報告指示の入力を受付けると、表示制御部20Bは、表示画面30Cに含まれるテキスト表示欄40Fに表示されているテキストと言語情報表示欄40Gに表示されている言語情報との対を学習データとして変換部20Aへ出力する。また、表示制御部20Bは、表示画面30Cに含まれるカテゴリ表示欄40Eに表示されているカテゴリを更に含む学習データを変換部20Aへ出力してもよい。
【0047】
学習データを受付けた変換部20Aは、過去に受け受けた学習データを含む複数の学習データを用いて、テキストを入力とし、修正後の言語情報を出力とする学習モデルを公知の方法を用いて学習してもよい。
【0048】
ユーザによる入力部14Bの操作指示によって修正完了ボタン40Dまたは登録ボタン40Hが操作されることで、受付部20Cが修正完了指示を受付けると、登録部20Dは、テキストと修正後の言語情報とを対応付けて言語辞書16Aに登録する。本実施形態では、表示画面30Dは、ユーザによる入力部14Bの操作指示によって表示画面30Cに表示されている登録ボタン40Hが操作されることで修正完了指示を受付けた時に、テキストと修正後の言語情報とを対応付けて言語辞書16Aに登録する。
【0049】
このとき、登録部20Dは、例えば、記憶部16に登録されている、該テキストに対応する言語情報を、修正後の言語情報に上書き記録することで言語辞書16Aに登録する。これらの処理により、言語辞書16Aに登録されている該テキストに対応付けられていた誤った言語情報が、修正後の正確な言語情報に更新される。
【0050】
なお、登録部20Dは、表示画面30Cを介して受け付けたテキストの属するカテゴリを更に対応付けて言語辞書16Aに登録してもよい。また、記憶部16には、カテゴリごとに言語辞書16Aが記憶されていてもよい。この場合、登録部20Dは、表示画面30Cを介して受け付けたテキストの属するカテゴリに対応する言語辞書16Aに、テキストおよび該テキストに対応する修正後の言語情報を対応付けて登録すればよい。
【0051】
なお、上記には、言語辞書16Aには、テキストと、言語情報と、が1対1で対応付けて登録されている場合を想定して説明した。しかし、言語辞書16Aには、1つのテキストに対して、互い異なる複数の言語情報が対応付けて登録されていてもよい。
【0052】
この場合、変換部20Aは、ユーザによる入力部14Bの操作指示などによって指定されたテキストを取得すると、取得したテキストに対応する複数の言語情報を言語辞書16Aから読取ることで、1つのテキストを複数の言語情報に変換する。
【0053】
そして、表示制御部20Bは、該テキストを表示画面30に表示する。また、表示制御部20Bは、該テキストに対応する複数の言語情報を選択可能に表示画面30に表示する。
【0054】
図3Aおよび図3Bは、表示画面30の一例の模式図である。図3Aには、表示画面30の一例として表示画面30Eを示す。図3Bには、表示画面30の一例として表示画面30Fを示す。表示画面30Eおよび表示画面30Fは、第1表示画面の一例である。
【0055】
表示画面30Eおよび表示画面30Eは、テキスト表示欄40Aと、言語情報表示欄40Bと、再生ボタン40Cと、修正完了ボタン40Dと、次候補ボタン40Jと、を含む。
【0056】
表示制御部20Bは、取得したテキストをテキスト表示欄40Aに表示する。また、表示制御部20Bは、該テキストに対応する複数の言語情報の内の1つを、言語情報表示欄40Bに表示する。そして、ユーザによる入力部14Bの操作指示によって次候補ボタン40Jが操作されることで次候補表示指示が入力されるごとに、表示制御部20Bは、該テキストに対応する複数の言語情報の内の他の1つを、言語情報表示欄40Bに表示する。例えば、表示制御部20Bが表示画面30Eを表示部14Aに表示した状態でユーザによる入力部14Bの操作指示によって次候補ボタン40Jが操作されると、表示制御部20Bは、例えば、該テキストに対応する現在表示されている言語情報とは異なる言語情報を言語情報表示欄40Bに表示した表示画面30Fを表示部14Aに表示する(図3A図3B参照)。このため、ユーザは、1つのテキストに対する異なる複数の言語情報を順次確認することが可能となる。
【0057】
そして、ユーザは、複数の言語情報の内、テキストに対する正しい言語情報が言語情報表示欄40Bに表示されたときに、入力部14Bを操作することで修正完了ボタン40Dを操作する。登録部20Dは、修正完了ボタン40Dが操作されたときに言語情報表示欄40Bに表示されていた言語情報を修正後の正確な言語情報として受け付ける。そして、登録部20Dは、言語辞書16Aにおける、該テキストに対応する複数の言語情報の内、修正後の言語情報として受け付けた言語情報に正確な言語情報であることを表すフラグを付与する。
【0058】
また、登録部20Dは、言語辞書16Aにおける該テキストに対応する複数の言語情報の内の1つに該フラグが既に付与されている場合、該フラグを、修正後の言語情報として受け付けた言語情報に付け替えてもよい。この場合、言語辞書16Aに登録されている1のテキストに対応する複数の言語情報の内の1つに、正確な言語情報であることを表すフラグが付与された状態となる。
【0059】
また、登録部20Dは、言語辞書16Aにおける該テキストに対応する複数の言語情報の内の少なくとも1つに該フラグが既に付与されている場合、修正後の言語情報として受け付けた言語情報に更にフラグを付与すればよい。この場合、言語辞書16Aに登録されている1のテキストに対応する複数の言語情報の各々に、0、1または複数のフラグが付与された状態となる。
【0060】
なお、表示制御部20Bは、次回の表示画面30Eおよび表示画面30Fの表示時には、言語辞書16Aにおける1のテキストに対応する複数の言語情報の内、より多い数の該フラグの付与された言語情報から順に言語情報表示欄40Bに表示されるように制御してもよい。そして、ユーザによる入力部14Bの操作指示によって次候補ボタン40Jが操作されるごとに、より付与されたフラグの数の少ない言語情報を言語情報表示欄40Bに順次表示するように制御してもよい。
【0061】
また、表示制御部20Bは、表示画面30Eおよび表示画面30Fにおける修正完了ボタン40Dが操作された場合、上記同様に、表示画面30Cを表示部14Aに表示し(図2C参照)、上記と同様の処理を実行してもよい。
【0062】
また、表示制御部20Bは、言語辞書16Aにおける、変換部20Aで取得したテキストに対応する複数の言語情報の一覧を選択可能に表示画面30に表示してもよい。
【0063】
図3Cは、表示画面30Gの一例の模式図である。表示画面30Gは、表示画面30の一例である。また、表示画面30Gは、第1表示画面および第2表示画面の一例である。
【0064】
表示画面30Gは、テキスト表示欄40Aと、複数の言語情報表示欄40B(言語情報表示欄40B1~言語情報表示欄40B4)と、複数の言語情報表示欄40Bの各々の表示枠内に配置された複数の再生ボタン40C(再生ボタン40C1~再生ボタン40C4)、再生ボタン40Mと、修正完了ボタン40Dと、を含む。
【0065】
表示制御部20Bは、取得したテキストをテキスト表示欄40Aに表示する。また、表示制御部20Bは、該テキストに対応する複数の言語情報を、複数の言語情報表示欄40B(言語情報表示欄40B1~言語情報表示欄40B4)にそれぞれ表示する。図3Cには、4つの言語情報を言語情報表示欄40B1~言語情報表示欄40B4にそれぞれ表示した状態を一例として示す。これらの言語情報表示欄40B1~言語情報表示欄40B4の各々の表示枠内には、再生ボタン40C1~再生ボタン40C4がそれぞれ配置されている。再生ボタン40C1~再生ボタン40C4は、再生ボタン40Cの一例である。
【0066】
そして、ユーザは入力部14Bを操作することで、表示画面30Gに表示された複数の言語情報の内、テキストに対する正しい言語情報の表示欄を選択した上で、修正完了ボタン40Dを操作する。登録部20Dは、修正完了ボタン40Dが操作されたときに、表示画面30Gに表示されている複数の言語情報の内、選択を受付けた言語情報を修正後の言語情報として受け付ける。そして、言語辞書16Aにおける、該テキストに対応する複数の言語情報の内、修正後の言語情報として受け付けた言語情報に正確な言語情報であることを表すフラグを付与すればよい。
【0067】
そして、上記と同様に、登録部20Dは、言語辞書16Aにおける該テキストに対応する複数の言語情報の内の1つに該フラグが既に付与されている場合、該フラグを、修正後の言語情報として受け付けた言語情報に付け替えてもよい。この場合、言語辞書16Aに登録されている1のテキストに対応する複数の言語情報の内の1つに、正確な言語情報であることを表すフラグが付与された状態となる。
【0068】
また、登録部20Dは、言語辞書16Aにおける該テキストに対応する複数の言語情報の内の少なくとも1つに該フラグが既に付与されている場合、修正後の言語情報として受け付けた言語情報に更にフラグを付与すればよい。この場合、言語辞書16Aに登録されている1のテキストに対応する複数の言語情報の各々に、0、1または複数のフラグが付与された状態となる。
【0069】
なお、表示制御部20Bは、次回の表示画面30Gの表示時には、言語辞書16Aにおける1のテキストに対応する複数の言語情報の内、より多い数の該フラグの付与された言語情報から順に言語情報を並べ替えた上で、より多い数のフラグの付与された言語情報の優先順位が高くなるように表示画面30G中に配置し表示するように制御してもよい。
【0070】
また、表示制御部20Bは、表示画面30E~表示画面30Gにおける修正完了ボタン40Dが操作された場合、上記同様に、表示画面30Cを表示部14Aに表示し(図2C参照)、上記と同様の処理を実行してもよい。
【0071】
図1に戻り説明を続ける。
【0072】
音声合成部20Eは、言語情報の再生指示を受付けた時に、該言語情報および合成音声辞書16Bを用いて合成音声データを生成する。
【0073】
音声合成部20Eは、ユーザによる入力部14Bの操作指示によって操作された再生ボタン40Cの表示されている表示画面30内に1つの言語情報表示欄40Bのみが示されている場合、該言語情報表示欄40Bに表示されている言語情報を用いて合成音声データを生成する。
【0074】
具体的には、例えば、図3Bに示す表示画面30Fが表示部14Aに表示されている状態で再生ボタン40Cが操作指示された場合、音声合成部20Eは、該表示画面30Fの言語情報表示欄40Bに表示されている言語情報を用いて合成音声データを生成する。
【0075】
また、音声合成部20Eは、ユーザによる入力部14Bの操作指示によって操作された再生ボタン40Cの表示されている表示画面30内に複数の言語情報表示欄40Bが示されている場合、操作された再生ボタン40Cの配置されている言語情報表示欄40B内に表示されている言語情報を用いて合成音声データを生成する。
【0076】
具体的には、例えば、図3Cに示す表示画面30Gが表示部14Aに表示されている状態で再生ボタン40C2が操作指示された場合を想定する。この場合、音声合成部20Eは、該表示画面30Gの言語情報表示欄40B2に表示されている言語情報を用いて合成音声データを生成する。
【0077】
音声合成部20Eは、再生対象の言語情報と、合成音声辞書16Bと、を用いて合成音声データを生成する。
【0078】
合成音声辞書16Bとは、音声合成に用いられる辞書であり、声質をモデル化した音響モデルや、抑揚・リズムなどの韻律をモデル化した韻律モデル、その他の音声合成に必要な各種情報を含む。韻律モデルは、言語情報を入力とし、抑揚・リズム等の韻律パターンを出力とする学習モデルである。韻律パターンは、例えば、声の高さ(基本周波数)の時間変化パターン(ピッチ包絡とも称される)と、各音韻の長さと、によって表される。音響モデルは、韻律パターンを入力とし、音声波形によって表される合成音声データを出力する学習モデルである。
【0079】
音声合成部20Eは、再生対象の言語情報を合成音声辞書16Bに含まれる韻律モデルへ入力することで、韻律パターンを得る。そして、音声合成部20Eは、得られた韻律パターンを音響モデルへ入力することで、合成音声データを得る。これらの処理により、音声合成部20Eは、合成音声データを生成する。
【0080】
再生部20Fは、音声合成部20Eによって生成された合成音声データを再生する。合成音声データを再生するとは、該音声データによって表される音声を音声出力部14Cから出力することを意味する。
【0081】
このように、音声合成部20Eがユーザによって指示された言語情報を用いて合成音声データを生成し、再生部20Fが合成音声データを再生する。このため、ユーザは、選択または修正した言語情報から生成される合成音声データを試聴しながら、言語情報の修正を入力することが可能となる。
【0082】
次に、本実施形態の音声合成支援装置10が実行する情報処理の流れの一例を説明する。
【0083】
図4は、本実施形態の音声合成支援装置10が実行する情報処理の流れの一例を示すフローチャートである。
【0084】
変換部20Aは、言語辞書16Aを用いてテキストを解析し、テキストを言語情報に変換する(ステップS100)。
【0085】
表示制御部20Bは、ステップS100で解析されたテキストおよび変換された言語情報を含む表示画面30を表示部14Aに表示する(ステップS102)。ステップS102の処理によって、例えば、図2Aに示す表示画面30Aが表示部14Aに表示される。
【0086】
受付部20Cは、表示画面30の言語情報表示欄40Bに表示された言語情報の少なくとも一部の修正を受付けたか否かを判断する(ステップS104)。ユーザは、入力部14Bを操作することで、言語情報表示欄40Bに表示されている言語情報の少なくとも一部を正しい情報に変更する。受付部20Cは、ユーザによる操作指示によって入力された修正後の言語情報を受付けたか否かを判別することによって、ステップS104の判断を行う。ステップS104で否定判断すると(ステップS104:No)、後述するステップS108へ進む。ステップS104で肯定判断すると(ステップS104:Yes)、ステップS106へ進む。ステップS104で肯定判断した場合、例えば、図2Bの表示画面30Bに示すように、言語情報表示欄40Bに表示されている言語情報の少なくとも一部が修正される。図2B中、言語情報表示欄40Bに表示されている言語情報の内、下線の示された箇所が修正箇所を意味する。
【0087】
次に、受付部20Cは、修正完了指示を受付けたか否かを判断する(ステップS106)。受付部20Cは、ユーザによる入力部14Bの操作指示によって修正完了ボタン40Dが操作されることで該入力部14Bから修正完了指示の入力を受付けたか否かを判別することでステップS106の判断を実行する。ステップS106で否定判断すると(ステップS106:No)、ステップS108へ進む。
【0088】
ステップS108では、受付部20Cは、再生指示を受付けたか否かを判断する(ステップS108)。受付部20Cは、ユーザによる再生ボタン40Cの操作指示によって再生指示信号の入力を受付けたか否を判別することで、ステップS108の判断を行う。
【0089】
ステップS108で否定判断すると(ステップS108:No)、上記ステップS104へ戻る。ステップS108で肯定判断すると(ステップS108:Yes)、ステップS110へ進む。
【0090】
ステップS110では、音声合成部20Eは、ユーザによる入力部14Bの操作指示によって操作された再生ボタン40Cに応じた位置に表示されている言語情報および合成音声辞書16Bを用いて合成音声データを生成する(ステップS110)。再生部20Fは、ステップS110で生成された合成音声データを再生する(ステップS112)。そして、上記ステップS104へ戻る。
【0091】
一方、ステップS106で修正完了指示を受付けたと判断すると(ステップS106:Yes)、ステップS114へ進む。
【0092】
ステップS141では、表示制御部20Bが、ステップS100で変換対象としたテキストとステップS104で修正を受付けた修正後の言語情報との対応を表す第2表示画面を表示部14Aに表示する(ステップS114)。ステップS114の処理によって、例えば、図2Cに示す表示画面30Cが表示部14Aに表示される。
【0093】
ユーザによる入力部14Bの操作指示によって表示画面30Cにおける登録ボタン40Hが操作されることで、受付部20Cが修正完了指示を受付けると(ステップS116)、登録部20Dは、テキストと修正後の言語情報とを対応付けて言語辞書16Aに登録する(ステップS118)。そして、本ルーチンを終了する。
【0094】
以上説明したように、本実施形態の音声合成支援装置10は、変換部20Aと、受付部20Cと、登録部20Dと、を備える。変換部20Aは、言語辞書16Aを用いてテキストを解析しテキストを、合成音声データの生成に用いる合成音声辞書16Bに入力するための言語情報に変換する。受付部20Cは、言語情報の少なくとも一部の修正を受付ける。登録部20Dは、テキストと修正後の言語情報とを対応付けて言語辞書16Aに登録する。
【0095】
従来技術では、テキストの解析結果である言語情報に誤りがある場合、ユーザによる操作指示等によって解析の度に毎回言語情報を修正する必要があり、テキストを正確な言語情報に容易に変換することは困難であった。
【0096】
一方、本実施形態では、登録部20Dは、テキストと修正後の言語情報とを対応付けて言語辞書16Aに登録する。
【0097】
このため、言語辞書16Aに誤った言語情報が登録されていた場合であっても、ユーザによって修正された言語情報が言語辞書16Aに容易に登録される。よって、テキストから合成音声データを生成する生成時には、修正された言語情報の登録された言語辞書16Aにより変換された言語情報を用いて合成音声データを作成することが可能となる。
【0098】
従って、本実施形態の音声合成支援装置10は、テキストを正確な言語情報に容易に変換可能とすることができる。
【0099】
また、ユーザは、表示画面30の言語情報表示欄40Bに表示された言語情報を視認しながら入力部14Bを操作することで、該言語情報の少なくとも一部を容易に修正することができる。また、本実施系A地の音声合成支援装置10では、テキストを正確な言語情報に変換可能な言語辞書16Aを提供することが可能となる。
【0100】
また、本実施形態の音声合成支援装置10では、1つのテキストに対して複数の言語情報を候補として表示し、複数の言語情報からユーザによって選択された1つの言語情報を、該テキストに対する正確な言語情報として言語辞書16Aに登録する。このため、ユーザは、複数の言語情報の中から正確な言語情報を容易に選択し、言語辞書16Aに登録するように操作指示することができる。
【0101】
また、音声合成部20Eは、ユーザによって選択された言語情報から合成音声データを生成し、再生部20Fは該合成音声データを再生する。このため、ユーザは、言語情報から生成される合成音声データを試聴しながら、言語情報を容易に修正することが可能となる。
【0102】
次に、本実施形態の音声合成支援装置10のハードウェア構成を説明する。
【0103】
図5は、本実施形態の音声合成支援装置10の一例のハードウェア構成図である。
【0104】
本実施形態の音声合成支援装置10は、CPU10Aなどの制御装置と、ROM(Read Only Memory)10BやRAM(Random Access Memory)10Cなどの記憶装置と、HDD(ハードディスクドライブ)10Dと、ネットワークに接続して通信を行うI/F10Eと、各部を接続するバス10Fと、を備える。
【0105】
本実施形態の音声合成支援装置10で実行されるプログラムは、ROM10B等に予め組み込まれて提供される。
【0106】
本実施形態の音声合成支援装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
【0107】
さらに、本実施形態の音声合成支援装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる音声合成支援装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0108】
本実施形態の音声合成支援装置10で実行されるプログラムは、コンピュータを上述した音声合成支援装置10の各部として機能させうる。このコンピュータは、CPU10Aがコンピュータで読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
【0109】
なお、上記実施形態では、音声合成支援装置10が、単体の装置として構成されていることを想定して説明した。しかし、音声合成支援装置10は、物理的に分離されてネットワークなどを介して通信可能に接続された複数の装置により構成されていてもよい。
【0110】
また、上記実施形態の音声合成支援装置10は、クラウドシステム上で動作する仮想マシンとして実現されていてもよい。
【0111】
なお、上記には、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0112】
10 音声合成支援装置
20A 変換部
20B 表示制御部
20C 受付部
20D 登録部
20E 音声合成部
20F 再生部
図1
図2A
図2B
図2C
図3A
図3B
図3C
図4
図5