(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025035206
(43)【公開日】2025-03-13
(54)【発明の名称】音声加工支援装置、音声加工支援方法、および音声加工支援プログラム
(51)【国際特許分類】
G10L 13/10 20130101AFI20250306BHJP
【FI】
G10L13/10 114
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023142105
(22)【出願日】2023-09-01
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】倉田 宜典
(57)【要約】
【課題】時間軸上で変化する感情の推移に関するパラメータを詳細に設定可能に提供する。
【解決手段】音声加工支援装置10は、入力受付部20Bと、記録部20Fと、を備える。入力受付部20Bは、編集対象の音声データの再生中に、互いに異なる複数の感情の種類と、複数種類の感情の混合比率と、を少なくとも含むパラメータの入力を受付ける。記録部20Fは、入力を受付けたパラメータを音声データにおける該パラメータの入力を受付けた再生タイミングに対応付けて記録する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
編集対象の音声データの再生中に、互いに異なる複数の感情の種類と、複数種類の感情の混合比率と、を少なくとも含むパラメータの入力を受付ける入力受付部と、
入力を受付けた前記パラメータを前記音声データにおける該パラメータの入力を受付けた再生タイミングに対応付けて記録する記録部と、
を備える音声加工支援装置。
【請求項2】
前記パラメータは、
感情の強度、話速、および音圧レベル、の少なくとも1つを更に含む、
請求項1に記載の音声加工支援装置。
【請求項3】
複数種類の感情の相関を表す感情マップを含む表示画面を表示する表示制御部を備え、
前記入力受付部は、
ユーザによる前記感情マップ上の指定地点に対応する、前記種類の感情、前記混合比率、および感情の強度、の少なくとも1つを前記パラメータとして受け付ける、
請求項1に記載の音声加工支援装置。
【請求項4】
前記入力受付部は、
音声データに対する設定に用いる感情の種類に対応する音声辞書データの設定を受付ける、
請求項1に記載の音声加工支援装置。
【請求項5】
前記音声データについて、前記再生タイミングの各々に対応付けられた前記パラメータに応じた前記種類の感情に対応する音声辞書データに基づいた合成音声データを再生する再生部、
を備える請求項1に記載の音声加工支援装置。
【請求項6】
前記入力受付部は、
前記パラメータの編集を受付け、
前記記録部は、
編集を受付けた前記パラメータを前記合成音声データにおける選択された編集ポイントに対応付けて記憶する、
請求項5に記載の音声加工支援装置。
【請求項7】
前記入力受付部は、
前記合成音声データに対する文字情報の入力を受付け、
前記記録部は、
前記文字情報を前記合成音声データに対応付けて記録する、
請求項5に記載の音声加工支援装置。
【請求項8】
音声加工支援装置によって実行される音声加工支援方法であって、
編集対象の音声データの再生中に、互いに異なる複数の感情の種類と、複数種類の感情の混合比率と、を少なくとも含むパラメータの入力を受付ける入力受付ステップと、
入力を受付けた前記パラメータを前記音声データにおける該パラメータの入力を受付けた再生タイミングに対応付けて記録する記録ステップと、
を含む音声加工支援方法。
【請求項9】
編集対象の音声データの再生中に、互いに異なる複数の感情の種類と、複数種類の感情の混合比率と、を少なくとも含むパラメータの入力を受付ける入力受付ステップと、
入力を受付けた前記パラメータを前記音声データにおける該パラメータの入力を受付けた再生タイミングに対応付けて記録する記録ステップと、
をコンピュータに実行させるための音声加工支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声加工支援装置、音声加工支援方法、および音声加工支援プログラムに関する。
【背景技術】
【0002】
音声データを混合(モーフィング)することで、既存の音声とは声質の異なる音声を合成する技術が知られている。例えば、予め指定されたモーフィング比率に基づいて複数の音声データを合成した合成音声データを生成する技術が開示されている。
【0003】
しかしながら従来技術では、音声データの全体に対してモーフィング比率等のパラメータを設定することは可能であるが、時間軸上で変化する感情の推移に関するパラメータを詳細に設定することは困難であった。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、時間軸上で変化する感情の推移に関するパラメータを詳細に設定可能に提供することができる、音声加工支援装置、音声加工支援方法、および音声加工支援プログラムを提供することである。
【課題を解決するための手段】
【0006】
実施形態の音声加工支援装置は、入力受付部と、記録部と、を備える。入力受付部は、編集対象の音声データの再生中に、互いに異なる複数の感情の種類と、前記複数種類の感情の混合比率と、を少なくとも含むパラメータの入力を受付ける。記録部は、入力を受付けた前記パラメータを前記音声データにおける該パラメータの入力を受付けた再生タイミングに対応付けて記録する。
【図面の簡単な説明】
【0007】
【
図1】
図1は、実施形態の音声加工支援装置の一例を示す図である。
【
図6】
図6は、本実施形態の音声加工支援装置で実行する情報処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、音声加工支援装置、音声加工支援方法、および音声加工支援プログラムを詳細に説明する。
【0009】
図1は、本実施形態の音声加工支援装置10の一例を示す図である。
【0010】
音声加工支援装置10は、音声データの加工を支援する情報処理装置である。
【0011】
音声加工支援装置10は、通信部12と、UI(ユーザ・インターフェース)部14と、記憶部16と、処理部20と、を備える。通信部12、UI部14、記憶部16、および処理部20は、バス18を介して通信可能に接続されている。
【0012】
通信部12は、ネットワーク等を介して外部の他の情報処理装置と通信する。UI部14は、表示部14Aと、入力部14Bと、を含む。
【0013】
表示部14Aは、各種の情報を表示する。表示部14Aは、例えば、LCD(Liquid Crystal Display)、有機EL(Electro-Luminescence)などのディスプレイや、投影装置などである。
【0014】
入力部14Bは、ユーザの操作を受付ける。入力部14Bは、例えば、デジタルペン、マウス、またはトラックボール等のポインティングデバイスや、キーボード等の入力デバイスである。なお、表示部14Aと入力部14Bの少なくとも一部とを一体的に備えた、タッチパネルとして構成してもよい。本実施形態では、入力部14Bは、第1操作部14B1および第2操作部14B2を含む。
【0015】
第1操作部14B1は、操作方向および操作量の入力機器である。第1操作部14B1は、例えば、レバー(スティック)を傾けることで傾斜方向および傾斜角による操作方向および操作量入力の行える入力機器である。このような第1操作部14B1は、ジョイスティックと称される場合がある。また、第1操作部14B1は、例えば、タッチパッドであってもよい。本実施形態では、第1操作部14B1がジョイスティックである形態を一例として説明する。
【0016】
第2操作部14B2は、操作量の入力機器である。第2操作部14B2は、例えば、ユーザによる脚部等によって押圧されるペダル式、ボタン式、の入力機器である。本実施形態では、第2操作部14B2が、ユーザによる脚部等による押圧によって操作量の入力されるペダル式である形態を一例として説明する。
【0017】
音声出力部14Cは、音声を出力するスピーカである。
【0018】
記憶部16は、各種のデータを記憶する。記憶部16は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部16は、音声加工支援装置10の外部に設けられた記憶装置であってもよい。また、記憶部16は、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムや各種情報を、LAN(Local Area Network)やインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部16を、複数の記憶媒体から構成してもよい。
【0019】
次に、処理部20について説明する。処理部20は、各種の情報処理を実行する。処理部20は、表示制御部20Aと、入力受付部20Bと、設定部20Cと、取得部20Dと、再生部20Eと、記録部20Fと、を備える。
【0020】
表示制御部20A、入力受付部20B、設定部20C、取得部20D、再生部20E、および記録部20Fは、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
【0021】
また、上記各部の少なくとも1つおよび記憶部16に記憶される情報の少なくとも一部は、クラウド上で処理を実行するクラウドサーバ等に搭載されていてもよい。
【0022】
表示制御部20Aは、各種の表示画面をUI部14に表示する。表示画面の詳細は後述する。
【0023】
入力受付部20Bは、ユーザによるUI部14の操作入力を受付ける。
【0024】
例えば、ユーザがある音声データを用いて合成音声データの生成を希望する場面を想定する。詳細には、ユーザが音声データについて、時間軸に沿って所定の感情を所定の感情の強度で含む合成音声データとなるように加工および編集することを希望する場合を想定する。
【0025】
この場合、ユーザは、入力部14Bを操作することで、音声データに対する設定に用いる感情の種類に対応する音声辞書データを設定する。本実施形態では、入力受付部20Bは、表示部14Aに表示した表示画面を介してユーザによる入力を受付ける。
【0026】
図2は、表示画面30Aの一例の模式図である。表示画面30Aは、表示部14Aに表示される表示画面30の一例である。
【0027】
表示画面30Aは、感情マップMと、感情設定欄40Aと、音声辞書データ設定欄40Bと、を含む。
【0028】
感情マップMとは、複数種類の感情の相関を表すマップである。例えば、感情マップMは、感情の種類を色で表し、それを立体的に組み合わせることで、感情同士が混ざり合うような複雑な感情まで表現可能にした図である。感情マップMには、例えば、8種類の基本感情である、喜び、信頼、恐れ、驚き、悲しみ、嫌悪、怒り、期待、の各々の種類の領域が、無感情の領域を中心として互いに異なる方向に放射線状に伸びるように配置されている。また、感情マップMには、それぞれ相反する種類の感情の領域が中心に配置されている無感情の領域を介して180°反対側に配置されている。また、感情マップMには、8種類の基本感情をポジティブ、ネガティブ、中立、の3つのグループに分類し、各グループに属する種類の感情の領域が隣接する位置に配置されるようにマッピングされている。また、感情マップMに示される各種類の感情の領域は、中心に配置された無感情の領域に近づくほど弱い感情を表し、無感情の領域から離れるほど強い感情を表す。
【0029】
なお、感情マップMは、複数種類の感情の相関を表すマップであればよく、
図2に示す形態に限定されない。
【0030】
感情設定欄40Aは、音声データに対する設定に用いる感情の種類の入力欄である。例えば、ユーザは表示画面30Aの感情マップMを視認しながら入力部14Bを操作することで、音声データに対して付加することを希望する感情の種類を感情設定欄40Aに入力する。表示画面30Aは感情マップMを含むため、ユーザは表示画面30Aに含まれる感情マップMを視認することで、容易に感情の種類を感情設定欄40Aに入力することができる。
【0031】
音声辞書データ設定欄40Bは、感情設定欄40Aに入力された感情の種類に対応する音声辞書データの設定の入力欄である。
【0032】
音声辞書データとは、言語特徴量から音響特徴量を導出するための音響モデルである。音声辞書データは、予め作成されている。言語特徴量とは、発話者の発話する音声のテキストから抽出された、言語の特徴量である。例えば、言語特徴量は、前後の音素、発音に関する情報、句末位置、文長、アクセント句長、モーラ長、モーラ位置、アクセント型、品詞、係り受け情報などである。言語特徴量は、言語情報と称される場合がある。音響特徴量とは、音声データから抽出された、音声または音響の特徴量である。音響特徴量は、例えば、HMM(隠れマルコフモデル(Hidden Markov Model))音声合成で使われる音響特徴量を用いればよい。例えば、音響特徴量は、音韻や声色を表すメルケプストラム係数、メルLPC係数、メルLSP係数、声の高さを表す基本周波数(F0)、音声の周期・非周期成分の割合を表す非周期性指標(BAP)などである。音響特徴量は、これらの係数は周波数等によって表される音声波形によって表現される。
【0033】
本実施形態では、記憶部16には、1または複数の発話者の各々が互いに異なる感情をこめて発話した音響特徴量を出力するための、複数の音声辞書データが予め記憶さているものとする。
【0034】
ユーザは表示画面30Aを視認しながら入力部14Bを操作することで、感情設定欄40Aに入力した感情の種類に対して用いる音声辞書データを設定する。具体的には、例えば、ユーザは、入力部14Bを操作することで、記憶部16に記憶されている複数の音声辞書データの内、対応する種類の感情に相当すると考えられる音声辞書データを選択し、音声辞書データ設定欄40Bに設定する。
【0035】
図2には、一例として、対応する感情の種類名を含むファイル名の音声辞書データを示す。しかし、音声辞書データのファイル名は、対応する感情の種類名を含まない形態であってもよい。
【0036】
なお、感情の種類「無感情」に対応する音声辞書データは、予め設定されているものとする。無感情に対応する音声辞書データは、発話者が感情をこめずに無感情で発話した音響特徴量を出力するための音声辞書データである。
【0037】
ユーザによるこれらの入力操作によって、処理部20の入力受付部20Bは、音声データに対する設定に用いる感情の種類、および感情の種類に対応する音声辞書データの設定を受付ける。
【0038】
【0039】
設定部20Cは、表示画面30Aを介して受け付けた感情の種類の各々に対応する音声辞書データを、音声データの編集に用いる音声辞書データとして設定する。例えば、設定部20Cは、表示画面30Aを介して受け付けた感情の種類の各々に対応する音声辞書データを記憶部16の特定の記憶領域に記憶する。
【0040】
取得部20Dは、編集対象の音声データを取得する。ユーザはUI部14を操作することで、記憶部16または外部の情報処理装置等に記憶されている、編集対象の音声データを指定する。取得部20Dは、ユーザによるUI部14の操作指示によって指定された音声データを、編集対象の音声データとして取得する。
【0041】
本実施形態では、入力受付部20Bは、表示部14Aに表示された表示画面30を介して、編集対象の音声データの指定の入力を受付ける。
【0042】
図3は、表示画面30Bの一例の模式図である。表示画面30Bは、表示画面30の一例である。表示画面30Bは、音声データの指定およびパラメータの入力受付時にUI部14に表示される表示画面30Bである。
【0043】
表示制御部20Aは、ユーザによる入力部14Bの操作指示によって音声辞書データが設定されると、表示画面30Bを表示部14Aに表示する。
【0044】
表示画面30Bは、音声データファイル名入力表示欄40Cと、再生ボタン40Dと、音声波形表示欄40Eと、感情マップMと、ポインタ40Fと、話速調整ボタン40Gと、ゲイン調整ボタン40Hと、編集ボタン40Jと、合成音声再生ボタン40Kと、保存ボタン40Lと、を含む。
【0045】
音声データファイル名入力表示欄40Cは、編集対象の音声データのファイル名の入力および表示欄である。ユーザは表示画面30Bを視認しながら入力部14Bを操作することで、音声データファイル名入力表示欄40Cに編集対象の音声データのファイル名を入力する。取得部20Dは、入力されたファイル名の音声データを、編集対象の音声データとして取得する。また、ユーザは、表示画面30Bを視認しながら入力部14Bを操作することで、記憶部16等に記憶されている編集対象の音声データを指定してもよい。この場合、取得部20Dは、指定された音声データを、編集対象の音声データとして取得する。
【0046】
なお、ユーザは表示画面30Bを視認しながら入力部14Bを操作することで、編集対象のテキストデータのファイル名を入力してもよい。また、ユーザは表示画面30Bを視認しながら入力部14Bを操作することで、記憶部16等に記憶されている編集対象のテキストデータを指定してもよい。
【0047】
この場合、取得部20Dは、入力されたファイル名によって表されるテキストデータまたは指定されたテキストデータと、感情の種類「無感情」に対応する音声辞書データと、用いて公知の方法で音声データを生成することで、編集対象の音声データを取得すればよい。
【0048】
本実施形態では、音声加工支援装置10の処理部20は、編集対象の音声データの再生中に、パラメータの入力を受付ける。
【0049】
パラメータとは、編集対象の音声データから合成音声データを生成するときの、時間軸上で変化する感情の推移に関するパラメータである。詳細には、パラメータは、互いに異なる複数の感情の種類と、複数種類の感情の混合比率と、を少なくとも含む。また、パラメータは、感情の強度、話速、および音圧レベル、の少なくとも1つを更に含んでいてもよい。本実施形態では、パラメータが、互いに異なる複数の感情の種類と、複数種類の感情の混合比率と、複数の感情の各々の強度、話速、および音圧レベルを含む形態を一例として説明する。
【0050】
ユーザは、編集対象の音声データを指定すると、該音声データの再生を指示するための再生ボタン40Dを操作する。入力受付部20Bが、再生ボタン40Dの操作指示によって入力された再生指示信号を受付けると、再生部20Eは、該音声データの再生を開始する。音声データを再生するとは、該音声データによって表される音声を音声出力部14Cから出力することを意味する。
【0051】
音声データの再生が開始されると、表示制御部20Aは、該音声データの音量を表す波形を音声波形表示欄40Eに表示することが好ましい。
【0052】
音声データの再生が開始され、該音声データの音声の音声出力部14Cからの出力が開始されると、ユーザは、表示画面30Bを視認しながら入力部14Bを操作することで、所望の再生タイミングの時点に対するパラメータを入力する。再生タイミングとは、時間軸に沿って再生される音声データの再生中の各タイミングを意味する。すなわち、入力受付部20Bは、編集対象の音声データの再生中に、各再生タイミングの各々におけるパラメータの入力を受付ける。
【0053】
詳細には、ユーザは、表示画面30Bに表示されている感情マップM上のポインタ40F、話速調整ボタン40G、およびゲイン調整ボタン40Hの少なくとも1つを注視しながら入力部14Bを操作することで、再生中の音声データにおける所望の再生タイミングに対してパラメータを入力する。
【0054】
表示画面30Bに含まれる感情マップMは、上記感情マップMと同様である。感情マップMには、ポインタ40Fが示されている。ポインタ40Fは、感情マップM上におけるユーザによる指定地点を意味する。
【0055】
例えば、ユーザは、ジョイスティックである第1操作部14B1を操作することで、感情マップMにおけるポインタ40Fの位置を調整する。具体的には、例えば、第1操作部14B1であるジョイスティックの傾斜方向および傾斜角度を調整すると、表示画面30Bに表示されている感情マップMに示されるポインタ40Fの位置が、該ジョイスティックの傾斜方向に該傾斜角度に応じた量移動する。ユーザは、第1操作部14B1を操作することで、感情マップMに表示されているポインタ40Fの位置を、所望の感情の種類、所望の感情の種類の混合比率、および所望の感情の強さに相当する位置に調整する。入力受付部20Bは、感情マップMにおけるポインタ40Fの位置によって表される、感情の種類、複数種類の感情の混合比率、および感情の強度を受付ける。
【0056】
話速および音圧レベルは、表示画面30Bに含まれる話速調整ボタン40Gおよびゲイン調整ボタン40Hの各々の位置によって調整される。ユーザは、例えば、ペダル式の第2操作部14B2をユーザの脚部などを用いて操作することで、話速調整ボタン40Gおよびゲイン調整ボタン40Hの各々の表示画面30Bにおける位置を調整する。
【0057】
例えば、第2操作部14B2は、話速調整ボタン40Gに対応するペダルと、ゲイン調整ボタン40Hに対応するペダルと、を含む。
【0058】
ユーザが、話速調整ボタン40Gに対応する第2操作部14B2であるペダルの踏み込み量を調整すると、表示画面30Bに表示されている話速調整ボタン40Gの位置が、話速を上げる方向または下げる方向へ移動する。入力受付部20Bは、話速調整ボタン40Gに対応する第2操作部14B2の踏み込み量に応じた話速の入力を受付ける。
【0059】
同様に、ユーザが、ゲイン調整ボタン40Hに対応する第2操作部14B2であるペダルの踏み込み量を調整すると、表示画面30Bに表示されているゲイン調整ボタン40Hの位置が、音圧(ゲイン)を上げる方向または下げる方向へ移動する。入力受付部20Bは、ゲイン調整ボタン40Hに対応する第2操作部14B2の踏み込み量に応じた音圧の入力を受付ける。
【0060】
このように、ユーザは、音声データの再生中に、所望の再生タイミングの各々において、第1操作部14B1および第2操作部14B2の少なくとも一方を操作することで、該再生タイミングに対する、所望の感情の種類、複数種類の感情の混合比率、感情の強度、話速、および音圧レベルの少なくとも1つを含むパラメータを入力する。また、入力受付部20Bは、音声データの再生中に、各再生タイミングにおけるパラメータの入力を受付ける。
【0061】
【0062】
記録部20Fは、入力を受付けたパラメータを音声データにおける該パラメータの入力を受付けた再生タイミングに対応付けて記録する。詳細には、例えば、記録部20Fは、入力を受付けたパラメータと、音声データにおける該パラメータの入力を受付けた再生タイミングを表すタイムスタンプと、を対応付けて記憶する。なお、記録部20Fは、入力を受付けたパラメータを、音声データにおける該パラメータの入力を受付けた再生タイミングに相当する位置に対応付けて記録してもよい。
【0063】
再生部20Eは、編集対象の音声データについて、再生タイミングの各々に対応付けられたパラメータに応じた感情に対応する音声辞書データに基づいた合成音声データを生成する。
【0064】
具体的には、再生部20Eは、編集対象の音声データの再生タイミングにおける言語特徴量(言語情報)を、該再生タイミングに設定されたパラメータに含まれる複数の感情の種類の各々に対応する音声辞書データにそれぞれ入力することで、各種類の感情に対応する音響特徴量を得る。そして、再生部20Eは、得られた各種類の感情に対応する音響特徴量を、該再生タイミングに設定されたパラメータに含まれる感情の混合比率に応じて混合した第1混合音響特徴量を得る。更に、再生部20Eは、編集対象の音声データの該再生タイミングにおける言語特徴量を、無感情に対応する音声辞書データに入力することで、無感情に対応する第2音響特徴量を得る。そして、再生部20Eは、無感情に対応する第2音響特徴量と、第1混合音響特徴量とを、該再生タイミングに設定されたパラメータに含まれる感情の強度に応じた比率で混合することで、第2混合音響特徴量を得る。詳細には、再生部20Eは、感情の強度が低いほど無感情に対応する第2音響特徴量の比率を多くし、感情の強度が強いほど第1混合音響特徴量の比率を多くした、第2混合音響特徴量を得る。そして、再生部20Eは、第2混合音響特徴量によって表される音声波形である合成音声を、該再生タイミングにおける合成音声データとして生成する。
【0065】
再生部20Eは、音声データに含まれる時間軸に沿った複数の再生タイミングの各々について、再生タイミングに設定されたパラメータを用いた上記処理により合成音声を生成することで、音声データをパラメータに応じて合成した合成音声データを生成する。
【0066】
そして、記録部20Fは、生成された合成音声データにおける各再生タイミングに対応付けて、各再生タイミングの合成音声の生成に用いたパラメータを記録する。
【0067】
再生部20Eは、表示画面30Bにおける合成音声再生ボタン40Kがユーザによる入力部14Bの操作指示によって操作されると、合成音声データを再生する。再生部20Eは、生成した合成音声データを音声出力部14Cに出力することで、該合成音声データを再生する。なお、再生部20Eは、ユーザによる入力部14Bの操作指示によって合成音声再生ボタン40Kが操作されたときに、合成音声データを生成し再生してもよい。
【0068】
図4は、表示画面30Cの一例の模式図である。表示画面30Cは、表示画面30の一例である。表示画面30Cは、合成音声データの再生時に表示部14Aに表示される表示画面30である。表示制御部20Aは、ユーザによる入力部14Bの操作指示によって合成音声再生ボタン40Kが操作指示されると、表示画面30Cを表示部14Aに表示する。
【0069】
表示画面30Cは、上記表示画面30Bに加えて、再生タイミング画像40Iを含む。再生タイミング画像40Iは、音声波形表示欄40Eに表示された合成音声データを表す波形における、現在の再生タイミングを表す画像である。このため、表示制御部20Aは、合成音声データの再生による時間の経過に伴い、合成音声データを表す波形における現在の再生タイミングに相当する位置に表示されるように、再生タイミング画像40Iの表示位置を移動させる。
【0070】
また、表示制御部20Aは、合成音声データの各再生タイミングに設定されたパラメータに応じた表示位置となるように、表示画面30Cにおけるポインタ40F、話速調整ボタン40G、およびゲイン調整ボタン40Hの位置を調整することが好ましい。
【0071】
上述したように、記録部20Fは、合成音声データにおける各再生タイミングに対応付けて、各再生タイミングの合成音声の生成に用いたパラメータを対応付けて記録する。表示制御部20Aは、合成音声データの再生中、感情マップMにおける、現在の再生タイミングに対応付けて記録されたパラメータによって表される感情の種類、混合比率、および感情の強度を表す位置にポインタ40Fを表示する。また、表示制御部20Aは、合成音声データの再生中、話速調整ボタン40Gおよびゲイン調整ボタン40Hの各々を、現在の再生タイミングに対応付けて記録されたパラメータによって表される話速およびゲインを表す位置に表示する。
【0072】
ユーザは、パラメータの編集を希望する場合がある。この場合、ユーザは入力部14Bを操作することで、表示画面30Bにおける編集ボタン40Jを操作指示する。編集ボタン40Jが操作指示されると、入力受付部20Bは、パラメータの編集の受付を開始する。上述したように、入力部14Bは、デジタルペン、マウス、またはトラックボール等のポインティングデバイスや、キーボード等の入力デバイスである。また、入力部14Bは、ジョイスティック等の第1操作部14B1、およびペダル等の第2操作部14B2を含んでいてよい。このため、ユーザによるパラメータの操作入力は、ジョイスティック等の第1操作部14B1、およびペダル等の第2操作部14B2に限定されず、マウス、デジタルペン、ドラックボール等のポインティングデバイス、およびキーボード、等の1または複数を同時に操作することで入力されればよい。
【0073】
詳細には、ユーザは、入力部14Bを操作することで、表示画面30Bに含まれる音声波形表示欄40Eに表示されている音声データを表す波形における、編集対象とする編集ポイントを選択する。そして、ユーザは、表示画面30Bに表示されている感情マップM上のポインタ40F、話速調整ボタン40G、およびゲイン調整ボタン40Hの少なくとも1つを注視しながら入力部14Bを操作することで、該編集ポイントに対応付けられているパラメータを編集する。これらのパラメータの編集時の操作は、音声データに対するパラメータの入力操作時と同様である。
【0074】
すなわち、ユーザは、第1操作部14B1および第2操作部14B2の少なくとも一方を操作することで、選択した編集ポイントに対する、所望の感情の種類、複数種類の感情の混合比率、感情の強度、話速、および音圧レベルの少なくとも1つのパラメータを編集する。また、入力受付部20Bは、選択された編集ポイントにおけるパラメータの編集の入力を受付ける。
【0075】
記録部20Fは、編集を受付けたパラメータを合成音声データにおける選択された編集ポイントに付けて記録する。詳細には、例えば、記録部20Fは、編集の入力を受付けたパラメータと、合成音声データにおける選択された編集ポイントを表すタイムスタンプと、を対応付けて記憶する。なお、記録部20Fは、編集の入力を受付けたパラメータを、合成音声データにおける選択された編集ポイントに相当する位置に対応付けて記録してもよい。
【0076】
そして、再生部20Eは、編集を受付けたパラメータに応じて合成音声データを再生成する。再生部20Eは、パラメータの設定された音声データに応じた合成音声データの生成と同様にして、編集を受付けたパラメータに応じた合成音声データを生成すればよい。記録部20Fは、再生成された合成音声データと、各再生タイミングに設定されたパラメータと、を対応付けて記録する。
【0077】
ユーザは、パラメータの操作入力が終了すると、保存ボタン40Lを操作する。保存ボタン40Lは、パラメータの設定された音声データから生成された合成音声データの記憶部16への記憶を指示するときにユーザによって操作されるボタンである。保存ボタン40Lが操作されると、入力受付部20Bは、保存指示を受付ける。
【0078】
入力受付部20Bが保存指示を受付けると、表示制御部20Aは、合成音声データに対する文字情報の入力を受付けるための表示画面30を表示部14Aに表示する。
【0079】
図5は、表示画面30Dの一例の模式図である。表示画面30Dは、表示画面30の一例である。表示画面30Dは、ユーザによって保存ボタン40Lが操作されたときに表示される表示画面30である。
【0080】
ユーザによる入力部14Bの操作指示によって保存ボタン40Lが操作されると、表示制御部20Aは、表示画面30C上に文字情報入力欄40Mを重畳した表示画面30Dを表示部14Aに表示する。文字情報入力欄40Mは、合成音声データに対して付与する文字情報の入力欄である。例えば、ユーザは入力部14Bを操作することで、合成音声データに対する説明等の文字情報を文字情報入力欄40Mに入力する。
【0081】
入力受付部20Bは、文字情報入力欄40Mを介して、合成音声データに対する文字情報を受付ける。記録部20Fは、入力を受付けた文字情報を、合成音声データに対応付けて記憶部16に記憶する。
【0082】
これらの処理により、1つの合成音声データに対して、該合成音声データに関する説明を表す文書情報が対応付けて記憶される。このため、合成音声データの利用者等が該文字情報を確認することで、合成音声データの有効な再活用を図ることが可能となる。また、合成音声データと、合成音声データに付与された文字情報と、を学習用データとして用いることで、合成音声データから文字情報を正解ラベルとして出力するための学習モデルを生成することが可能となる。
【0083】
次に、本実施形態の音声加工支援装置10で実行する情報処理の流れの一例を説明する。
【0084】
図6は、本実施形態の音声加工支援装置10で実行する情報処理の流れの一例を示すフローチャートである。
【0085】
表示制御部20Aは、表示画面30Aを表示部14Aに表示する(ステップS100)。例えば、ユーザによる入力部14Bの操作指示等によって音声データの編集開始を表す信号が入力されると、表示制御部20Aは、感情の種類および音声辞書データの設定を受付けるための表示画面30Aを表示部14Aに表示する。
【0086】
ユーザは、表示画面30Aを視認しながら入力部14Bを操作することで、音声データに対する設定に用いる感情の種類および感情の種類に対して用いる音声辞書データを設定する。入力受付部20Bは、音声データに対する設定に用いる感情の種類、および感情の種類に対応する音声辞書データの設定を受付ける(ステップS102)。
【0087】
設定部20Cは、表示画面30Aを介して受け付けた感情の種類の各々に対応する音声辞書データを、音声データの編集に用いる音声辞書データとして設定する(ステップS104)。
【0088】
表示制御部20Aは、音声データに対するパラメータの設定を受付けるための表示画面30Bを表示部14Aに表示する(ステップS106)。ステップS106の処理によって、
図4に示す表示画面30Bが表示される。
【0089】
ユーザは表示画面30Bを視認しながら入力部14Bを操作することで、音声データファイル名入力表示欄40Cに編集対象の音声データのファイル名を入力する。取得部20Dは、入力されたファイル名の音声データを、編集対象の音声データとして取得する(ステップS108)。
【0090】
ユーザは、音声データの再生を指示するための再生ボタン40Dを操作する。入力受付部20Bは、再生ボタン40Dの操作指示によって入力された再生指示信号を受付けると、再生部20Eは、ステップS108で取得した音声データの再生を開始する(ステップS110)。
【0091】
音声データの再生が開始されると、ユーザは、再生された音声を試聴しながら、表示画面30Bに表示されている感情マップM上のポインタ40F、話速調整ボタン40G、およびゲイン調整ボタン40Hの少なくとも1つを注視しながら、ジョイスティック等の第1操作部14B1、ペダル式等の第2操作部14B2、マウス等の入力部14B、等を同時に操作することで、再生中の音声データにおける所望の再生タイミングに対してパラメータを入力する。すなわち、ユーザは、再生された音声を試聴しながら、所望の再生タイミングに対して、所望の感情の種類、複数種類の感情の混合比率、感情の強度、話速、および音圧レベル等のパラメータを、1つの再生タイミングに対して一括して入力する。そして、音声データの再生に応じてユーザが上記操作を行うことで、音声データの各再生タイミングの各々に対して、所望の感情の種類、複数種類の感情の混合比率、感情の強度、話速、および音圧レベル等を含むパラメータが一括して入力されることとなる。
【0092】
音声データの再生中、入力受付部20Bは、パラメータの入力を入力部14Bから受付けたか否かを判断する(ステップS112)。ステップS112で否定判断すると(ステップS112:No)、後述するステップS116へ進む。ステップS112で肯定判断すると(ステップS112:Yes)、ステップS114へ進む。
【0093】
ステップS114では、記録部20Fが、ステップS112で入力を受付けたパラメータを音声データにおける該パラメータの入力を受付けた再生タイミングに対応付けて記録する(ステップS114)。
【0094】
次に、再生部20Eは、音声データの再生が終了したか否かを判断する(ステップS116)。例えば、再生部20Eは、ステップS110で再生を開始した音声データの時間軸における最終タイミングまで再生が終了したか否かを判別することで、ステップS116の判断を行う。ステップS116で否定判断すると、ステップS112へ戻る。ステップS116で肯定判断すると(ステップS116:Yes)、ステップS118へ進む。
【0095】
再生部20Eは、ステップS108で取得した音声データについて、再生タイミングの各々に対応付けられたパラメータに応じた感情に対応する音声辞書データを合成した合成音声データを生成する(ステップS118)。
【0096】
記録部20Fは、生成された合成音声データにおける各再生タイミングに対応付けて、各再生タイミングの合成音声の生成に用いたパラメータを対応付けて記録する(ステップS120)。
【0097】
なお、ユーザは、合成音声データを試聴しながら、再度、各再生タイミングに対してパラメータを設定または編集することも可能である。また、上述したように、処理部20は、合成音声データに対して、表示画面30Bに表示された合成音声データの波形における編集ポイントの選択を受付け、該編集ポイントのパラメータの編集を受付けることで、編集されたパラメータを、合成音声データにおける選択された編集ポイントに相当する位置に対応付けて記録してもよい。
【0098】
表示制御部20Aは、文字情報入力欄40Mを重畳した表示画面30Dを表示する。入力受付部20Bは、ユーザによる入力部14Bの操作指示によって文字情報入力欄40Mに入力された文字情報を受付ける(ステップS122)。
【0099】
記録部20Fは、ステップS138で受付けた文字情報をステップS132で生成した合成音声データに対応付けて記録する(ステップS124)。そして、本ルーチンを終了する。
【0100】
以上説明したように、本実施形態の音声加工支援装置10は、入力受付部20Bと、記録部20Fと、を備える。入力受付部20Bは、編集対象の音声データの再生中に、互いに異なる複数の感情の種類と、複数種類の感情の混合比率と、を少なくとも含むパラメータの入力を受付ける。記録部20Fは、入力を受付けたパラメータを音声データにおける該パラメータの入力を受付けた再生タイミングに対応付けて記録する。
【0101】
ここで、従来技術では、音声データの全体に対してモーフィング比率等のパラメータを設定することは可能であるが、時間軸上で変化する感情の推移に関するパラメータを詳細に設定することは困難であった。
【0102】
一方、本実施形態の音声加工支援装置10では、編集対象の音声データの再生中に、互いに異なる複数の感情の種類と、複数種類の感情の混合比率と、を少なくとも含むパラメータの入力を受付ける。そして、音声加工支援装置10は、入力を受付けたパラメータを音声データにおける該パラメータの入力を受付けた再生タイミングに対応付けて記録する。
【0103】
このため、本実施形態の音声加工支援装置10では、音声データの時間軸に沿った各再生タイミングに対して、感情御種類および感情の混合比率を少なくとも含むパラメータを設定することが可能となる。
【0104】
従って、本実施形態の音声加工支援装置10は、時間軸上で変化する感情の推移に関するパラメータを詳細に設定可能に提供することができる。
【0105】
また、本実施形態の音声加工支援装置10では、時間軸上で感情および感情の強度が変化するダイナミックな音声表現を可能とするパラメータを音声データに対して設定することができる。
【0106】
また、本実施形態の音声加工支援装置10では、音声データの再生時に各再生タイミングにおけるパラメータの入力を受付けるため、音声データの再生と同時にリアルタイムに各再生タイミングに対するパラメータを設定することが可能となる。また、本実施形態の音声加工支援装置10では、ユーザは、入力部14Bを操作することで各再生タイミングに対するパラメータを設定することができる。このため、本実施形態の音声加工支援装置10は、ユーザによる入力や編集にかかる負荷の軽減と、時間軸上で変化するパラメータの詳細な設定と、を可能とすることができる。
【0107】
次に、本実施形態の音声加工支援装置10のハードウェア構成を説明する。
【0108】
図7は、本実施形態の音声加工支援装置10の一例のハードウェア構成図である。
【0109】
本実施形態の音声加工支援装置10は、CPU10Aなどの制御装置と、ROM(Read Only Memory)10BやRAM(Random Access Memory)10Cなどの記憶装置と、HDD(ハードディスクドライブ)10Dと、ネットワークに接続して通信を行うI/F10Eと、各部を接続するバス10Fと、を備える。
【0110】
本実施形態の音声加工支援装置10で実行されるプログラムは、ROM10B等に予め組み込まれて提供される。
【0111】
本実施形態の音声加工支援装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
【0112】
さらに、本実施形態の音声加工支援装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる音声加工支援装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0113】
本実施形態の音声加工支援装置10で実行されるプログラムは、コンピュータを上述した音声加工支援装置10の各部として機能させうる。このコンピュータは、CPU10Aがコンピュータで読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
【0114】
なお、上記実施形態では、音声加工支援装置10が、単体の装置として構成されていることを想定して説明した。しかし、音声加工支援装置10は、物理的に分離されてネットワークなどを介して通信可能に接続された複数の装置により構成されていてもよい。
【0115】
また、上記実施形態の音声加工支援装置10は、クラウドシステム上で動作する仮想マシンとして実現されていてもよい。
【0116】
なお、上記には、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0117】
10 音声加工支援装置
20A 表示制御部
20B 入力受付部
20C 設定部
20D 取得部
20E 再生部
20F 記録部