(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024016562
(43)【公開日】2024-02-07
(54)【発明の名称】音声加工支援装置、音声加工支援方法、音声加工支援プログラム、および音声加工支援システム
(51)【国際特許分類】
G10L 13/08 20130101AFI20240131BHJP
G10L 15/22 20060101ALI20240131BHJP
【FI】
G10L13/08 160
G10L15/22 460Z
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022118791
(22)【出願日】2022-07-26
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】倉田 宜典
(57)【要約】
【課題】録音音声データの加工に関するユーザによる容易な調整を支援する。
【解決手段】音声加工支援装置10は、第1受付部22Aと、表示制御部21と、第2受付部22Bと、を備える。第1受付部22Aは、録音された1または複数の基本録音音声データ70から、処理対象の基本録音音声データ70である対象録音音声データの選択を受付ける。表示制御部21は、対象録音音声データを基本文字列に変換し表示する。第2受付部22Bは、表示された基本文字列の内、変更対象の変更対象文字列の指定を受付ける。生成制御部24は、対象録音音声データおよび変更対象文字列に応じた加工済音声データを生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
録音された1または複数の基本録音音声データから、処理対象の前記基本録音音声データである対象録音音声データの選択を受付ける第1受付部と、
前記対象録音音声データを基本文字列に変換し表示する表示制御部と、
表示された前記基本文字列の内、変更対象の変更対象文字列の指定を受付ける第2受付部と、
前記対象録音音声データおよび前記変更対象文字列に応じた加工済音声データを生成する生成制御部と、
を備える音声加工支援装置。
【請求項2】
前記変更対象文字列に対する変更後文字列の入力を受付ける第3受付部を備え、
前記生成制御部は、
前記対象録音音声データおよび前記変更対象文字列に対する前記変更後文字列に応じた前記加工済音声データを生成する、
請求項1に記載の音声加工支援装置。
【請求項3】
前記生成制御部は、
前記対象録音音声データにおける、前記変更対象文字列に対応する変更対象音声区間に前記変更後文字列の変更後文字列音声データを合成した前記加工済音声データを生成する、
請求項2に記載の音声加工支援装置。
【請求項4】
前記基本文字列に含まれる前記変更対象文字列を前記変更後文字列に変換した出力対象文字列の、ユーザによる発話音声を教示用録音音声データとして取得する取得部、
を備え、
前記生成制御部は、
前記対象録音音声データにおける前記変更対象文字列に対応する変更対象音声区間に、前記教示用録音音声データにおける前記変更後文字列に対応する変更後録音音声データを合成した前記加工済音声データを生成する、
請求項2に記載の音声加工支援装置。
【請求項5】
前記生成制御部は、
前記変更後録音音声データによって表される音声の高さを、前記対象録音音声データにおける前記変更対象音声区間の音声の高さに調整し、
音声の高さを変換した前記変更後録音音声データに、前記対象録音音声データにおける前記変更対象音声区間の韻律を射影し、
韻律を射影した前記変更後録音音声データを、前記対象録音音声データにおける前記変更対象音声区間に合成した、前記加工済音声データを生成する、
請求項4に記載の音声加工支援装置。
【請求項6】
前記変更後文字列の音声の音響特徴量および合成方法の少なくとも一方の設定変更情報の入力を受付ける第4受付部、
を備え、
前記生成制御部は、
前記変更後文字列の音声区間の音声データの音響特徴量を、前記設定変更情報に含まれる音響特徴量に調整し、
前記対象録音音声データにおける前記変更対象文字列に対応する変更対象音声区間に、音響特徴量を調整した前記音声データを前記設定変更情報に含まれる合成方法に応じて合成した、前記加工済音声データを生成する、
請求項2に記載の音声加工支援装置。
【請求項7】
前記変更後文字列の音声の音響特徴量および合成方法の少なくとも一方の詳細編集情報の入力を受け付ける第5受付部、
を備え、
前記生成制御部は、
前記変更後文字列の音声区間の音声データの音響特徴量を、前記詳細編集情報に含まれる音響特徴量に調整し、
前記対象録音音声データにおける前記変更対象文字列に対応する変更対象音声区間に、音響特徴量を調整した前記音声データを前記詳細編集情報に含まれる合成方法に応じて合成した、前記加工済音声データを生成する、
請求項2に記載の音声加工支援装置。
【請求項8】
前記加工済音声データの再生指示を受付ける第6受付部と、
前記加工済音声データを再生する再生制御部と、
を備える請求項1に記載の音声加工支援装置。
【請求項9】
録音された1または複数の基本録音音声データから、処理対象の前記基本録音音声データである対象録音音声データの選択を受付けるステップと、
前記対象録音音声データを基本文字列に変換し表示するステップと、
表示された前記基本文字列の内、変更対象の変更対象文字列の指定を受付けるステップと、
前記対象録音音声データおよび前記変更対象文字列に応じた加工済音声データを生成するステップと、
を含む音声加工支援方法。
【請求項10】
録音された1または複数の基本録音音声データから、処理対象の前記基本録音音声データである対象録音音声データの選択を受付けるステップと、
前記対象録音音声データを基本文字列に変換し表示するステップと、
表示された前記基本文字列の内、変更対象の変更対象文字列の指定を受付けるステップと、
前記対象録音音声データおよび前記変更対象文字列に応じた加工済音声データを生成するステップと、
をコンピュータに実行させるための音声加工支援プログラム。
【請求項11】
音声加工支援装置と、情報処理装置と、を備えた音声加工支援システムであって、
前記音声加工支援装置は、
録音された1または複数の基本録音音声データから、処理対象の前記基本録音音声データである対象録音音声データの選択を受付ける第1受付部と、
前記対象録音音声データを基本文字列に変換し表示する表示制御部と、
表示された前記基本文字列の内、変更対象の変更対象文字列の指定を受付ける第2受付部と、
前記対象録音音声データおよび前記変更対象文字列に応じた加工済音声データを生成する生成制御部と、
前記加工済音声データの加工に関する加工関連情報を記憶する記憶制御部と、
を備え、
前記情報処理装置は、
前記加工関連情報を受付ける受付部と、
前記加工関連情報に基づいて前記対象録音音声データを加工した加工音声データを生成する加工処理部と、
を備える、
音声加工支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声加工支援装置、音声加工支援方法、音声加工支援プログラム、および音声加工支援システムに関する。
【背景技術】
【0002】
音声データの加工に関する技術として、録音音声データと合成音声データとを合成する技術が開示されている。例えば、従来技術には、入力文字列から録音音声を用いる部分文字列および合成音声を用いる部分文字列を自動抽出し、自動抽出結果を用いて録音音声と合成音声とを合成する技術が開示されている。
【0003】
しかしながら、従来技術では、ユーザによる操作指示を介さない自動抽出および自動合成によって音声データを加工した加工済音声データを生成している。このため、従来技術では、録音音声データの加工に関するユーザによる容易な調整を支援することは困難であった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008-107454号公報
【特許文献2】特開2009-20264号公報
【特許文献3】特開2003-295880号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、録音音声データの加工に関するユーザによる容易な調整を支援することができる、音声加工支援装置、音声加工支援方法、音声加工支援プログラム、および音声加工支援システムを提供することである。
【課題を解決するための手段】
【0006】
実施形態の音声加工支援装置は、第1受付部と、表示制御部と、第2受付部と、生成制御部と、を備える。第1受付部は、録音された1または複数の基本録音音声データから、処理対象の前記基本録音音声データである対象録音音声データの選択を受付ける。表示制御部は、前記対象録音音声データを基本文字列に変換し表示する。第2受付部は、表示された前記基本文字列の内、変更対象の変更対象文字列の指定を受付ける。生成制御部は、前記対象録音音声データおよび前記変更対象文字列に応じた加工済音声データを生成する。
【図面の簡単な説明】
【0007】
【
図1】
図1は、音声加工支援システムを示す図である。
【
図2F】
図2Fは、加工済音声データの生成の一例の説明図である。
【
図3】
図3は、音声加工支援装置が実行する情報処理の流れを示すフローチャートである。
【
図4】
図4は、情報処理装置が実行する情報処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、音声加工支援装置、音声加工支援方法、音声加工支援プログラム、および音声加工支援システムを詳細に説明する。
【0009】
図1は、本実施形態の音声加工支援システム1の一例を示す図である。
【0010】
音声加工支援システム1は、音声加工支援装置10と、情報処理装置30と、を備える。
【0011】
音声加工支援装置10と情報処理装置30とは、ネットワークNWなどを介してデータを授受可能に構成されている。音声加工支援装置10と情報処理装置30とは、音声加工支援装置10で生成された各種のデータを情報処理装置30で利用可能な構成であればよい。このため、音声加工支援装置10と情報処理装置30とは、USB(Universal Serial Bus)メモリなどの各種の記憶媒体を介してデータを授受可能な構成であってもよい。
【0012】
音声加工支援装置10は、録音音声データの加工を支援するための情報処理装置である。
【0013】
音声加工支援装置10は、記憶部12と、出力部14と、入力部16と、通信部18と、処理部20と、を備える。記憶部12、出力部14、入力部16、通信部18、および処理部20は、バス19を介して通信可能に接続されている。
【0014】
記憶部12は、各種のデータを記憶する。記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部12は、音声加工支援装置10の外部に設けられた記憶装置であってもよい。また、記憶部12は、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムや各種情報を、LAN(Local Area Network)やインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部12を、複数の記憶媒体から構成してもよい。
【0015】
本実施形態では、記憶部12は、1または複数の基本録音音声データ70を予め記憶する。
【0016】
基本録音音声データ70とは、ユーザが発話した音声を録音することによって得られる録音音声データである。詳細には、基本録音音声データ70は、録音音声データの内、音声加工支援システム1において処理対象の選択肢として提供可能な予め録音された録音音声データである。
【0017】
例えば、ユーザは、上演の元となる台本などに含まれる台詞を、台詞の発話場面などに応じた音声で発話する。台詞とは、上演対象の演劇や創作物の作中で登場する発話者が発する言葉である。発話者とは、台詞を発話する対象となるユーザである。
【0018】
例えば、ユーザは、韻律、アクセント、などの音響特徴量を調整しながら台詞を発話する。韻律には、抑揚、音調、強勢、音長、およびリズムの少なくとも1つが含まれる。アクセントには、高低アクセントおよび強勢アクセントの少なくとも一方が含まれる。
【0019】
音声加工支援装置10では、ユーザによって発話された音声をマイク16Bによって集音し、基本録音音声データ70として記憶部12に予め記憶する。
【0020】
なお、本実施形態では、基本録音音声データ70がユーザによる台詞の1回の発話によって録音された録音音声データである形態を一例として説明する。しかし、基本録音音声データ70は、ユーザによって発話された台詞の録音音声データに限定されない。例えば、基本録音音声データ70は、ユーザが日常会話などで発した音声を録音した録音音声データであってもよい。また、音声加工支援装置10は、他の情報処理装置で録音された録音音声データを、基本録音音声データ70として予め記憶部12に記憶してもよい。
【0021】
出力部14は、各種の情報を出力するための出力デバイスである。本実施形態では、出力部14は、表示部14Aと、スピーカ14Bと、を含む。表示部14Aは、各種の情報を表示する。表示部14Aは、例えば、LCD(Liquid Crystal Display)、有機EL(Electro-Luminescence)などのディスプレイや、投影装置などである。スピーカ14Bは、音声を出力する。
【0022】
入力部16は、ユーザによる各種の指示を受付けるための入力デバイスである。本実施形態では、入力部16は、操作入力部16Aと、マイク16Bと、を含む。操作入力部16Aは、ユーザによる操作指示を受付けるための入力デバイスである。操作入力部16Aは、例えば、デジタルペン、マウス、またはトラックボール等のポインティングデバイスや、キーボード等の入力デバイスである。マイク16Bは、音声を入力するための入力デバイスである。表示部14Aおよびマイク16Bは、一体的に構成されたタッチパネルであってもよい。
【0023】
通信部18は、ネットワークNWを介して外部の情報処理装置と通信する。本実施形態では、通信部18は、ネットワークNWを介して情報処理装置30と通信する。
【0024】
処理部20は、各種の情報処理を実行する。処理部20は、表示制御部21と、受付部22と、変換部23と、生成制御部24と、取得部25と、再生制御部26と、記憶処理部27と、を備える。受付部22は、第1受付部22Aと、第2受付部22Bと、第3受付部22Cと、第4受付部22Dと、第5受付部22Eと、第6受付部22Fと、を含む。
【0025】
表示制御部21、受付部22、第1受付部22A、第2受付部22B、第3受付部22C、第4受付部22D、第5受付部22E、第6受付部22F、変換部23、生成制御部24、取得部25、再生制御部26、および記憶処理部27は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
【0026】
また、上記各部の少なくとも1つは、クラウド上で処理を実行するクラウドサーバに搭載されていてもよい。
【0027】
表示制御部21は、各種の画像を表示部14Aへ表示する。
【0028】
受付部22は、ユーザによる操作指示やユーザによる発話音声の録音音声データを入力部16から受付ける。受付部22は、ユーザによる操作指示を表す情報を操作入力部16Aから受付ける。また、受付部22は、ユーザによる発話音声の録音音声データをマイク16Bから受付ける。
【0029】
本実施形態では、受付部22は、第1受付部22Aと、第2受付部22Bと、第3受付部22Cと、第4受付部22Dと、第5受付部22Eと、第6受付部22Fと、を有する。
【0030】
第1受付部22Aは、録音された1または複数の基本録音音声データ70から対象録音音声データの選択を受付ける。対象録音音声データとは、予め録音された基本録音音声データ70の内、ユーザが処理対象として選択した基本録音音声データ70を意味する。処理対象とは、加工対象であることを意味する。
【0031】
本実施形態では、第1受付部22Aは、表示制御部21が表示部14Aに表示した加工支援画面を介して対象録音音声データの選択を受付ける。
【0032】
図2Aは、加工支援画面50の一例の模式図である。表示制御部21は、例えば、ユーザによる操作入力部16Aの操作によって音声加工支援の開始指示が入力されると、
図2Aに示す加工支援画面50を表示する。
【0033】
加工支援画面50は、選択欄60Aを含む。選択欄60Aは、1または複数の基本録音音声データ70からユーザ所望の処理対象の基本録音音声データ70の選択を受付けるための入力欄である。
【0034】
例えば、ユーザによる操作入力部16Aの操作指示によって加工支援画面50の選択欄60Aが操作された場面を想定する。選択欄60Aが操作されると、表示制御部21は、記憶部12に記憶されている1または複数の基本録音音声データ70の一覧を表示部14Aに表示する。ユーザは、操作入力部16Aを操作することで、表示された1または複数の基本録音音声データ70の中から、所望の処理対象の1つの基本録音音声データ70を選択する。第1受付部22Aは、選択欄60Aを介して選択を受付けた1つの基本録音音声データ70を、対象録音音声データとして受け付ける。
【0035】
図2Bは、加工支援画面50の一例の模式図である。
図2Bには、第1受付部22Aが対象録音音声データ72の選択を受付けた場面を一例として示す。第1受付部22Aが対象録音音声データ72の選択を受付けると、表示制御部21は、加工支援画面50の選択欄60Aに、ユーザが処理対象として選択した基本録音音声データ70である対象録音音声データ72のファイル名を表示する。
【0036】
本実施形態では、基本録音音声データ70および対象録音音声データ72などの音声データのデータ形式がWAV(Waveform Audio File Format)ファイル形式である場合を一例として示す。しかし、音声データのデータ形式は、WAVファイル形式に限定されない。
【0037】
【0038】
変換部23は、選択を受付けた対象録音音声データ72を基本文字列に変換する。基本文字列とは、対象録音音声データ72によって表される音声を文字列で表したデータである。変換部23は、音声データを文字列に変換する公知の音声変換技術を用いて、対象録音音声データ72を基本文字列に変換すればよい。音声データとは、音声を表すデータである。本実施形態では、音声データは、基本録音音声データ70、対象録音音声データ72、などの録音音声データ、および録音以外の合成された音声データ、を総称した表現として用いる。
【0039】
表示制御部21は、選択を受付けた対象録音音声データ72を基本文字列に変換し表示する。本実施形態では、表示制御部21は、変換部23で変換された基本文字列を表示部14Aに表示する。
【0040】
図2Bを用いて説明する。第1受付部22Aが対象録音音声データ72の選択を受付けると、表示制御部21は、選択を受付けた対象録音音声データ72の基本文字列82を加工支援画面50の表示欄60Bに表示する。
【0041】
表示欄60Bは、出力対象文字列86の表示欄である。出力対象文字列86は、音声加工支援装置10が出力する対象の加工済音声データの文字列である。ユーザによる操作指示によって入力された加工に関する入力内容に応じて、表示欄60Bに表示される出力対象文字列86は変化する(詳細後述)。
【0042】
第1受付部22Aが対象録音音声データ72の選択を受付けた段階では、表示制御部21は、選択を受付けた対象録音音声データ72の基本文字列82を加工支援画面50の表示欄60Bに表示する。
【0043】
図2Bには、基本文字列82「俺にはマサオっていう大切な友達がいる」が表示欄60Bに表示された場面を一例として示す。ユーザは、加工支援画面50を視認することで、選択した対象録音音声データ72の基本文字列82を容易に確認することができる。
【0044】
第1受付部22Aが対象録音音声データ72の選択を受付けると、表示制御部21は、戻るボタン60Cおよび再生ボタン60Fをユーザに対して選択可能に加工支援画面50に表示する。戻るボタン60Cは、前回表示されていた表示画面に戻ることを指示するときにユーザが操作指示するための入力ボタンである。再生ボタン60Fは、音声データの再生を指示するときに、ユーザが操作指示するための入力ボタンである。
【0045】
【0046】
第2受付部22Bは、表示された基本文字列82の内、変更対象文字列の指定を受付ける。変更対象文字列とは、基本文字列82を構成する文字列の内の、変更対象の文字列である。言い換えると、変更対象文字列は、対象録音音声データ72における音声を変更する対象の音声区間の音声に対応する文字列である。変更対象文字列は、1文字であっても複数文字であってもよい。
【0047】
図2Cを用いて説明する。
図2Cは、加工支援画面50の一例の模式図である。
図2Cには、第2受付部22Bが変更対象文字列82Aの指定を受付けた場面を一例として示す。
【0048】
例えば、ユーザは操作入力部16Aを操作することで、表示欄60Bに表示されている基本文字列82の内、変更対象の変更対象文字列82Aを指定する。
図2Cには、基本文字列82「俺にはマサオっていう大切な友達がいる」の内、「マサオ」が変更対象文字列82Aとして指定された場面を一例として示す。
【0049】
ユーザによる操作入力部16Aの操作によって変更対象文字列82Aが指定されると、第2受付部22Bは、変更対象文字列82Aの指定を受付ける。
図2Cに示す例では、第2受付部22Bは、変更対象文字列82A「マサオ」を受け付ける。
【0050】
表示制御部21は、ユーザによって指定された変更対象文字列82Aの領域を、基本文字列82における未指定の他の文字列とは異なる表示形態で表示する。
図2Cには、指定を受付けた変更後文字列84Bの領域の背景部分を強調表示した場合を一例として示す。ユーザは加工支援画面50を視認ながら操作入力部16Aを操作することで、基本文字列82における変更後文字列84Bの指定および指定した変更後文字列84Bの確認を容易に行うことができる。
【0051】
第2受付部22Bが変更対象文字列82Aの指定を受付けると、表示制御部21は、保存ボタン60Gを更に選択可能に加工支援画面50に表示する。保存ボタン60Gは、表示欄60Bに表示されている文字列である出力対象文字列86に応じた加工済音声データの保存を指示するときに、ユーザが操作指示するための入力ボタンである。なお、表示制御部21は、変更対象文字列82Aの指定を受付ける前の段階で選択可能に加工支援画面50に表示してもよい。例えば、表示制御部21は、
図2Aおよび
図2Bの段階で、保存ボタン60Gを選択可能に加工支援画面50に表示してもよい。
【0052】
図1に戻り説明を続ける。生成制御部24は、対象録音音声データ72および変更対象文字列82Aに応じた加工済音声データを生成する。
【0053】
図2Cに示すように、基本文字列82に含まれる変更対象文字列82Aの指定を受付けた場面を想定する。この場合、音声の加工に関する情報が入力されていない段階であるため、生成制御部24は、対象録音音声データ72を加工済音声データとして生成する。
【0054】
ユーザによる操作入力部16Aの操作指示によって再生ボタン60Fが操作された場面を想定する。再生ボタン60Fが操作指示されると、第6受付部22Fが、加工済音声データの再生指示を受付ける。第6受付部22Fが加工済音声データの再生指示を受付けると、再生制御部26は、加工済音声データを再生する。詳細には、再生制御部26は、直前に生成制御部24で生成された加工済音声データをマイク16Bから出力する。
【0055】
ユーザは、操作入力部16Aを用いて再生ボタン60Fを操作することで、加工済音声データによって表される加工済音声を試聴することができる。
【0056】
また、ユーザによる操作入力部16Aの操作指示によって、保存ボタン60Gが操作された場面を想定する。保存ボタン60Gが操作指示されると、受付部22は、保存指示を受付ける。
【0057】
【0058】
記憶処理部27は、生成制御部24で生成された加工済音声データを記憶部12に記憶する。詳細には、受付部22が操作入力部16Aから保存指示を受付けると、記憶処理部27は、生成制御部24で生成された加工済音声データを記憶部12に記憶する。
【0059】
また、記憶処理部27は、加工関連情報を加工済音声データに対応付けて記憶部12に記憶する。
【0060】
加工関連情報とは、加工済音声データの加工に関する情報である。詳細には、加工関連情報は、加工済音声データの生成に用いられた情報である。具体的には、加工関連情報は、加工済音声データの生成に用いた対象録音音声データ72および対象録音音声データ72の識別情報の少なくとも一方と、基本文字列82と、変更対象文字列82Aと、を少なくとも含む。また、加工関連情報は、加工済音声データに施された加工内容に応じて、変更後文字列と、教示用録音音声データと、設定変更情報と、詳細修正情報と、の少なくとも1つの情報を更に含んでよい。教示用録音音声データ、変更後文字列、設定変更情報、および詳細修正情報の詳細は後述する。
【0061】
ユーザによる操作入力部16Aの操作によって、対象録音音声データ72が選択され、対象録音音声データ72の基本文字列82における変更対象文字列82Aが指定された段階で、保存ボタン60Gが操作指示された場面を想定する。また、生成制御部24が、対象録音音声データ72を加工済音声データとして生成した場面を想定する。この場合、記憶処理部27は、対象録音音声データ72または対象録音音声データ72の識別情報と、基本文字列82と、変更対象文字列82Aと、を含む加工関連情報を、加工済音声データに対応付けて記憶部12へ記憶する。
【0062】
第3受付部22Cは、変更対象文字列82Aに対する変更後文字列の入力を受付ける。変更後文字列とは、変更対象文字列82Aをユーザ所望の他の文字列に置き換えた文字列である。言い換えると、変更後文字列は、対象録音音声データ72における、変更対象文字列82Aに対応する変更対象音声区間の音素の、置き換え後の音素または音素群を表す文字列である。変更後文字列は、1文字であっても複数文字であってもよい。
【0063】
図2Dを用いて説明する。
図2Dは、加工支援画面50の一例の模式図である。
図2Dには、第3受付部22Cが変更後文字列84Bの入力を受付けた場面を一例として示す。
【0064】
図2Cを用いて説明したように、ユーザが操作入力部16Aを操作することで、表示欄60Bに表示されている基本文字列82の内の「マサオ」を変更対象文字列82Aとして選択した場面を想定する。そして、ユーザが更に操作入力部16Aを操作することで、変更対象文字列82A「マサオ」に替えて変更後文字列84B「タクミ」を入力した場面を想定する。
【0065】
この場合、第3受付部22Cは、変更後文字列84B「タクミ」の入力を操作入力部16Aから受付ける。
【0066】
表示制御部21は、基本文字列82における変更対象文字列82Aを変更後文字列84Bに置き換え、加工支援画面50の表示欄60Bに表示する。このため、加工支援画面50には、基本文字列82に含まれる変更対象文字列82Aの部分を変更後文字列84Bに置換した文字列が出力対象文字列86として表示される。
【0067】
変更後文字列84Bの入力を受付けると、生成制御部24は、対象録音音声データ72、および変更対象文字列82Aに対する変更後文字列84B、に応じた加工済音声データを生成する。
【0068】
詳細には、生成制御部24は、対象録音音声データ72における、変更対象文字列82Aに対応する変更対象音声区間に、変更後文字列84Bの変更後文字列音声データを合成した、加工済音声データを生成する。変更対象音声区間とは、対象録音音声データ72における、変更対象文字列82Aによって表される音素または音素群の音声区間である。
【0069】
具体的には、
図2Dに示すように、基本文字列82に含まれる変更対象文字列82A「マサオ」に替えて変更後文字列84B「タクミ」が入力された場面を想定する。この場合、生成制御部24は、対象録音音声データ72における、変更対象文字列82A「マサオ」に対応する音声区間である変更対象音声区間を特定する。この特定には、公知の方法を用いればよい。
【0070】
また、生成制御部24は、変更後文字列84B「タクミ」の音声である変更後文字列音声データを生成する。生成制御部24は、例えば、文字列を合成音声の音声データに変換する公知の変換方法を用いて、変更後文字列84B「タクミ」の変更後文字列音声データを生成すればよい。
【0071】
そして、生成制御部24は、対象録音音声データ72における特定した変更対象音声区間に、生成した変更後文字列音声データを合成することで、加工済音声データを生成する。
【0072】
第3受付部22Cが変更後文字列84Bの入力を受付けると、表示制御部21は、戻るボタン60C、再生ボタン60F、および保存ボタン60Gに加えて、詳細編集ボタン60D、簡単教示ボタン60E、および設定変更ボタン60Hを更に選択可能に加工支援画面50に表示する。詳細編集ボタン60D、簡単教示ボタン60E、設定変更ボタン60Hの詳細は後述する。
【0073】
この段階で、ユーザによる操作入力部16Aの操作指示によって再生ボタン60Fまたは保存ボタン60Gが操作された場面を想定する。すなわち、ユーザによる操作入力部16Aの操作によって、対象録音音声データ72が選択され、対象録音音声データ72の基本文字列82における変更対象文字列82Aが指定され、更に変更対象文字列82Aに対する変更後文字列84Bが入力された段階で、再生ボタン60Fまたは保存ボタン60Gが操作指示された場面を想定する。
【0074】
この場合、再生制御部26および記憶処理部27は、それぞれ上記と同様の処理を行えばよい。
【0075】
詳細には、ユーザによる操作入力部16Aの操作によって再生ボタン60Fが操作指示された場合を想定する。この場合、再生制御部26は、生成制御部24で直前に生成された加工済音声データを再生する。具体的には、再生制御部26は、基本文字列82における変更対象文字列82A「マサオ」を変更後文字列84B「タクミ」に変更した出力対象文字列86「俺にはタクミっていう大切な友達がいる」を表す加工済音声データを再生する。
【0076】
また、この場面で、ユーザによる操作入力部16Aの操作によって保存ボタン60Gが操作指示された場面を想定する。この場合、記憶処理部27は、生成制御部24で生成された加工済音声データを記憶部12に記憶する。また、記憶処理部27は、対象録音音声データ72または対象録音音声データ72の識別情報と、基本文字列82と、変更対象文字列82Aと、変更後文字列84Bと、を含む加工関連情報を、加工済音声データに対応付けて記憶部12へ記憶する。
【0077】
次に、ユーザによる操作入力部16Aの操作指示によって簡単教示ボタン60Eが操作された場面を想定する。簡単教示ボタン60Eは、出力対象文字列86の新たな発話音声の録音を指示するときに、ユーザが操作指示するための入力ボタンである。
【0078】
図1に戻り説明を続ける。簡単教示ボタン60Eが操作されると、取得部25は、基本文字列82に含まれる変更対象文字列82Aを変更後文字列84Bに変換した出力対象文字列86の、ユーザによる発話音声を教示用録音音声データ74として取得する。
【0079】
図2Eを用いて説明する。
図2Eは、加工支援画面50の一例の模式図である。
図2Eには、第3受付部22Cが変更後文字列84Bの入力を受付けた後に、簡単教示ボタン60Eが操作指示された場面を一例として示す。
【0080】
簡単教示ボタン60Eが操作指示されると、受付部22は、録音指示を操作入力部16Aから受付ける。取得部25は、受付部22から録音指示を受付けると、マイク16Bで収音した音声データの録音を開始し、録音した録音音声データを教示用録音音声データとして取得する。
【0081】
例えば、ユーザは、簡単教示ボタン60Eを操作指示した後に、表示欄60Bに表示されている出力対象文字列86を視認しながら所望の音響特徴量の音声を発話する。この段階では、表示欄60Bには、出力対象文字列86として基本文字列82の変更対象文字列82Aを変更後文字列84Bに変更した文字列が表示されている。ユーザは、基本文字列82における変更対象文字列82A「マサオ」を変更後文字列84B「タクミ」に変更した出力対象文字列86「俺にはタクミっていう大切な友達がいる」の音声を所望の音響特徴量で発話する。
【0082】
そして、例えば、ユーザが簡単教示ボタン60Eを再度操作指示すると、直前の簡単教示ボタン60Eの操作指示から今回の簡単教示ボタン60Eの操作指示までの間のユーザの発話音声が録音される。そして、取得部25は、出力対象文字列86「俺にはタクミっていう大切な友達がいる」のユーザによる発話音声を、教示用録音音声データとして取得する。
【0083】
図2Eに示すように、表示制御部21は、ユーザによる発話音声の録音中、簡単教示ボタン60Eを「録音中」を表す文字を表す録音中ボタン60E’に変更して表示してよい。録音終了すると、表示制御部21は、録音中ボタン60E’に替えて簡単教示ボタン60Eを表示する。
【0084】
図1に戻り説明を続ける。取得部25が教示用録音音声データを取得すると、生成制御部24は、対象録音音声データ72、変更対象文字列82Aに対する変更後文字列84B、および教示用録音音声データに応じた加工済音声データを生成する。
【0085】
図2Fを用いて説明する。
図2Fは、加工済音声データ76の生成の一例の説明図である。
【0086】
取得部25が教示用録音音声データ74を取得した場面を想定する。上述したように教示用録音音声データ74は、基本文字列82に含まれる変更対象文字列82Aを変更後文字列84Bに変換した出力対象文字列86の、ユーザによる発話音声を録音した録音音声データである。
【0087】
生成制御部24は、教示用録音音声データ74における、変更後文字列84Bに対応する音声区間の変更後録音音声データ74Bを特定する。また、生成制御部24は、対象録音音声データ72における、変更対象文字列82Aに対応する音声区間である変更対象音声区間72Aを特定する。そして、生成制御部24は、対象録音音声データ72における変更対象音声区間72Aに、教示用録音音声データ74から特定した変更後録音音声データ74Bを合成することによって、加工済音声データ76を生成する。
【0088】
具体的には、生成制御部24は、対象録音音声データ72における基本文字列82「俺にはマサオっていう大切な友達がいる」に含まれる変更対象文字列82A「マサオ」の変更対象音声区間72Aに、教示用録音音声データ74に含まれる変更後文字列84B「タクミ」に相当する変更後録音音声データ74Bを合成する。これらの合成処理によって、生成制御部24は、出力対象文字列86に応じた加工済音声データ76を生成する。
【0089】
詳細には、例えば、生成制御部24は、以下の処理を順次又は一括処理することで、加工済音声データ76を生成する。
【0090】
生成制御部24は、教示用録音音声データ74から特定された変更後文字列84Bに対応する音声区間の変更後録音音声データ74Bによって表される音声の高さを、対象録音音声データ72における変更対象音声区間72Aの音声の高さに調整する。音声の高さは、音程、音高、または、キー、と称される場合がある。
【0091】
また、生成制御部24は、音声の高さを調整した変更後録音音声データ74Bに、対象録音音声データ72における変更対象音声区間72Aの韻律を射影する。韻律を射影するとは、韻律を適用することを意味する。すなわち、生成制御部24は、音声の高さを調整した変更後録音音声データ74Bの韻律を、対象録音音声データ72における変更対象音声区間72Aの韻律と一致するように調整する。
【0092】
そして、生成制御部24は、韻律を射影した変更後録音音声データ74Bを、対象録音音声データ72における変更対象音声区間72Aに合成することで、加工済音声データ76を生成する。
【0093】
変更後録音音声データ74Bの対象録音音声データ72への合成には、公知の方法を用いればよい。合成に用いる公知の方法には、例えば、無音部を活用したミキシング、クロスフェード、などを用いればよい。
【0094】
具体的には、生成制御部24は、ユーザによって新たに録音された出力対象文字列86「俺にはタクミっていう大切な友達がいる」の発話音声の教示用録音音声データ74から、変更後文字列84B「タクミ」の変更後録音音声データ74Bを特定する。そして、生成制御部24は、変更後文字列84B「タクミ」の変更後録音音声データ74Bの音声の高さを、基本文字列82「俺にはマサオっていう大切な友達がいる」の対象録音音声データ72における「マサオ」の音声区間である変更対象音声区間72Aの音声の高さに調整する。
【0095】
また、生成制御部24は、音声の高さを調整した変更後録音音声データ74B「タクミ」の韻律を、基本文字列82「俺にはマサオっていう大切な友達がいる」の対象録音音声データ72における対象録音音声データ72「マサオ」の韻律に調整する。
【0096】
そして、生成制御部24は、韻律を調整した変更後録音音声データ74B「タクミ」を、対象録音音声データ72における変更対象音声区間72A「マサオ」の音声区間に合成することで、加工済音声データ76を生成する。
【0097】
この段階で、ユーザによる操作入力部16Aの操作指示によって再生ボタン60Fまたは保存ボタン60Gが操作された場面を想定する。すなわち、教示用録音音声データ74を用いた加工済音声データ76が生成された段階で、保存ボタン60Gが操作指示された場面を想定する。
【0098】
この場合、再生制御部26および記憶処理部27は、それぞれ上記と同様の処理を行えばよい。
【0099】
詳細には、ユーザによる操作入力部16Aの操作によって再生ボタン60Fが操作指示された場合を想定する。この場合、再生制御部26は、生成制御部24によって直前に生成された加工済音声データ76を再生する。詳細には、再生制御部26は、対象録音音声データ72における変更対象文字列82Aに対応する変更対象音声区間72Aに、教示用録音音声データ74における変更後文字列84Bに対応する変更後録音音声データ74Bを合成した、加工済音声データ76を再生する。
【0100】
また、この場面で、ユーザによる操作入力部16Aの操作によって保存ボタン60Gが操作指示された場面を想定する。この場合、記憶処理部27は、生成制御部24で直線に生成された加工済音声データ76を記憶部12に記憶する。また、記憶処理部27は、対象録音音声データ72または対象録音音声データ72の識別情報と、基本文字列82と、変更対象文字列82Aと、変更後文字列84Bと、教示用録音音声データ74と、を含む加工関連情報を、加工済音声データに対応付けて記憶部12へ記憶する。
【0101】
次に、ユーザによる操作入力部16Aの操作指示によって設定変更ボタン60Hが操作された場面を想定する。
【0102】
図2Eを用いて説明する、設定変更ボタン60Hは、変更後文字列84Bの音声の音響特徴量および合成方法の少なくとも一方の設定変更を指示するときに、ユーザが操作指示するための入力ボタンである。
【0103】
ユーザによる操作入力部16Aの操作指示によって設定変更ボタン60Hが操作されると、表示制御部21は、設定変更画面52を表示部14Aに表示する。
【0104】
図2Gは、設定変更画面52の一例の模式図である。設定変更画面52は、設定変更入力欄62Aと、設定変更反映ボタン62Bと、を含む。設定変更入力欄62Aは、変更後文字列84Bの音声の音響特徴量および合成方法の少なくとも一方の設定変更を受付けるための入力欄である。
図2Gには、音響特徴量として、音声の高さおよびゲイン(音量)の各々を調整するための入力欄を一例として示す。また、
図2Gには、合成方法として、クロスフェードを調整するための入力欄を一例として示す。
【0105】
ユーザは設定変更画面52を視認しながら操作入力部16Aを操作することで、変更後文字列84Bの音声の音響特徴量および合成方法の少なくとも一方の設定変更情報を入力する。設定変更情報は、変更後文字列84Bの設定変更後の音響特徴量および合成方法の少なくとも一方を表す情報である。
【0106】
更に、ユーザによる操作入力部16Aの操作指示によって設定変更反映ボタン62Bが操作されると、操作入力部16Aは、設定変更画面52を介して入力された設定変更情報を処理部20へ出力する。
【0107】
【0108】
第4受付部22Dは、操作入力部16Aから設定変更情報の入力を受付ける。すなわち、第4受付部22Dは、変更後文字列84Bの音声の音響特徴量および合成方法の少なくとも一方の設定変更情報の入力を受付ける。
【0109】
第4受付部22Dが設定変更情報の入力を受付けた場合、生成制御部24は、変更後文字列84Bの音声区間の音声データの音響特徴量を、入力を受付けた設定変更情報に含まれる音響特徴量に調整する。そして、生成制御部24は、対象録音音声データ72における変更対象音声区間72Aに、音響特徴量を調整した変更後文字列84Bの音声区間の音声データを該設定変更情報に含まれる合成方法に応じて合成した、加工済音声データ76を生成する。
【0110】
例えば、取得部25が教示用録音音声データ74を取得した段階で、ユーザによる操作入力部16Aの操作指示によって設定変更ボタン60Hが操作された場面を想定する。そして、ユーザによる操作入力部16Aの操作指示によって、設定変更画面52を介して設定変更情報が入力された場面を想定する。
【0111】
この場合、生成制御部24は、教示用録音音声データ74から特定された変更後録音音声データ74Bによって表される音声の音響特徴量を、設定変更情報に含まれる音響特徴量に調整する。例えば、生成制御部24は、教示用録音音声データ74から特定された変更後録音音声データ74Bによって表される音声の高さおよびゲインを、設定変更情報に含まれる音声の高さおよびゲインに調整する。そして、生成制御部24は、音響特徴量を調整した変更後録音音声データ74Bを、設定変更情報に含まれる合成方法に応じて対象録音音声データ72に合成することで、加工済音声データ76を生成する。
【0112】
この段階で、ユーザによる操作入力部16Aの操作指示によって再生ボタン60Fまたは保存ボタン60Gが操作された場面を想定する。すなわち、設定変更情報に応じて音響特徴量および合成方法の少なくとも一方を調整した加工済音声データ76が生成された段階で、保存ボタン60Gが操作指示された場面を想定する。
【0113】
この場合、再生制御部26および記憶処理部27は、それぞれ上記と同様の処理を行えばよい。
【0114】
詳細には、ユーザによる操作入力部16Aの操作によって再生ボタン60Fが操作指示された場合を想定する。この場合、再生制御部26は、設定変更情報に応じて音響特徴量および合成方法の少なくとも一方が調整された加工済音声データ76を再生する。
【0115】
また、この場面で、ユーザによる操作入力部16Aの操作によって保存ボタン60Gが操作指示された場面を想定する。この場合、記憶処理部27は、生成制御部24で生成された加工済音声データ76を記憶部12に記憶する。また、記憶処理部27は、対象録音音声データ72または対象録音音声データ72の識別情報と、基本文字列82と、変更対象文字列82Aと、変更後文字列84Bと、教示用録音音声データ74と、設定変更情報と、を含む加工関連情報を、加工済音声データ76に対応付けて記憶部12へ記憶する。
【0116】
次に、ユーザによる操作入力部16Aの操作指示によって詳細編集ボタン60Dが操作された場面を想定する。
【0117】
詳細編集ボタン60Dは、変更後文字列84Bの音声の音響特徴量および合成方法の少なくとも一方の詳細編集を指示するときに、ユーザが操作指示するための入力ボタンである。言い換えると、詳細編集ボタン60Dは、設定変更ボタン60Hに比べてより詳細な編集を指示するときに、ユーザが操作指示するための入力ボタンである。
【0118】
ユーザによる操作入力部16Aの操作指示によって詳細編集ボタン60Dが操作されると、表示制御部21は、詳細編集画面を表示部14Aに表示する。
【0119】
図2Hは、詳細編集画面54の一例の模式図である。詳細編集画面54は、詳細編集入力欄64Aと、詳細編集反映ボタン64Bと、を含む。詳細編集入力欄64Aは、変更後文字列84Bの音声の音響特徴量および合成方法の少なくとも一方の詳細編集情報の入力を受付けるための入力欄である。例えば、詳細編集入力欄64Aには、韻律などの音響特徴量と、クロスフェードポイントなどの合成方法と、を詳細に設定可能な画面が表示される。
【0120】
ユーザは詳細編集画面54を視認しながら操作入力部16Aを操作することで、変更後文字列84Bの音声の音響特徴量および合成方法の少なくとも一方の詳細編集情報を入力する。詳細編集情報は、変更後文字列84Bの詳細な音響特徴量および合成方法の少なくとも一方を表す情報である。
【0121】
【0122】
第5受付部22Eは、変更後文字列84Bの音声の音響特徴量および合成方法の少なくとも一方の詳細編集情報の入力を受け付ける。
【0123】
第5受付部22Eが詳細編集情報の入力を受付けた場合、生成制御部24は、変更後文字列84Bの音声データの音響特徴量を、入力を受付けた詳細編集情報に含まれる音響特徴量に調整する。そして、生成制御部24は、対象録音音声データ72における変更対象音声区間72Aに、音響特徴量を調整した変更後文字列84Bの音声区間の音声データを、該詳細編集情報に含まれる合成方法に応じて合成した、加工済音声データ76を生成する。
【0124】
例えば、取得部25が教示用録音音声データ74を取得した段階で、ユーザによる操作入力部16Aの操作指示によって詳細編集ボタン60Dが操作された場面を想定する。そして、ユーザによる操作入力部16Aの操作指示によって、詳細編集画面54を介して詳細編集情報が入力された場面を想定する。
【0125】
この場合、生成制御部24は、教示用録音音声データ74から特定された変更後録音音声データ74Bによって表される音声の音響特徴量を、詳細編集情報に含まれる音響特徴量に調整する。例えば、生成制御部24は、教示用録音音声データ74から特定された変更後録音音声データ74Bによって表される音声の韻律およびアクセント等の音響特徴量を、詳細編集情報に含まれ韻律およびアクセント等の音響特徴量に調整する。そして、生成制御部24は、音響特徴量を調整した変更後録音音声データ74Bを、詳細編集情報に含まれる合成方法に応じて合成することで、加工済音声データ76を生成する。
【0126】
この段階で、ユーザによる操作入力部16Aの操作指示によって再生ボタン60Fまたは保存ボタン60Gが操作された場面を想定する。すなわち、詳細編集情報に応じて音響特徴量および合成方法の少なくとも一方を調整した加工済音声データ76が生成された段階で、保存ボタン60Gが操作指示された場面を想定する。
【0127】
この場合、再生制御部26および記憶処理部27は、それぞれ上記と同様の処理を行えばよい。
【0128】
詳細には、ユーザによる操作入力部16Aの操作によって再生ボタン60Fが操作指示された場合を想定する。この場合、再生制御部26は、詳細編集情報に応じて音響特徴量および合成方法の少なくとも一方が調整された加工済音声データ76を再生する。
【0129】
また、この場面で、ユーザによる操作入力部16Aの操作によって保存ボタン60Gが操作指示された場面を想定する。この場合、記憶処理部27は、生成制御部24で生成された加工済音声データ76を記憶部12に記憶する。また、記憶処理部27は、対象録音音声データ72または対象録音音声データ72の識別情報と、基本文字列82と、変更対象文字列82Aと、変更後文字列84Bと、教示用録音音声データ74と、詳細編集情報と、を含む加工関連情報を、加工済音声データに対応付けて記憶部12へ記憶する。
【0130】
【0131】
次に、情報処理装置30について説明する。
【0132】
情報処理装置30は、音声加工支援装置10で生成された加工関連情報を利用して対象録音音声データ72を加工する情報処理装置である。
【0133】
情報処理装置30は、記憶部32と、出力部34と、入力部36と、通信部38と、処理部40と、を備える。記憶部32、出力部34、入力部36、通信部38、および処理部40は、バス39を介して通信可能に接続されている。
【0134】
記憶部32は、各種のデータを記憶する。出力部14は、各種の情報を出力するための出力デバイスである。本実施形態では、出力部14は、表示部と、スピーカと、を含む。表示部およびスピーカは、音声加工支援装置10の表示部14Aおよびスピーカ14Bと同様である。
【0135】
入力部36は、ユーザによる各種の指示を受付けるための入力デバイスである。入力部36は、例えば、デジタルペン、マウス、またはトラックボール等のポインティングデバイスや、キーボード、マイク、等の入力デバイスである。
【0136】
通信部38は、ネットワークNWを介して外部の情報処理装置と通信する。本実施形態では、通信部38は、ネットワークNWを介して音声加工支援装置10と通信する。
【0137】
処理部40は、各種の情報処理を実行する。処理部40は、受付部41と、加工処理部42と、を備える。受付部41および加工処理部42は、例えば、1または複数のプロセッサにより実現される。
【0138】
受付部41は、音声加工支援装置10から加工関連情報を受付ける。例えば、受付部41は、通信部38を介して音声加工支援装置10から加工関連情報を受信することで、加工関連情報を受付ける。また、例えば、受付部41は、音声加工支援装置10で生成された加工関連情報をUSBメモリなどの可搬型の記憶媒体を介して記憶部32へ記憶し、該記憶部32から加工関連情報を読取ることで、加工関連情報を受付けてもよい。
【0139】
加工関連情報は、上述したように、加工済音声データ76の加工に関する情報である。
【0140】
加工処理部42は、受付部41で受付けた加工関連情報に基づいて、対象録音音声データ72を加工した加工音声データを生成する。
【0141】
例えば、加工処理部42は、加工関連情報に含まれる対象録音音声データ72を特定する。加工関連情報に対象録音音声データ72の識別情報が含まれる場合、加工処理部42は、該識別情報によって識別される対象録音音声データ72を記憶部32などから特定する。
【0142】
そして、加工処理部42は、特定した対象録音音声データ72を、加工関連情報に応じて加工することで、加工音声データを生成する。加工処理部42は、特定した対象録音音声データ72を、加工関連情報に応じて上記生成制御部24と同様にして加工することで、加工音声データを生成すればよい。
【0143】
例えば、受付部41で受付けた加工関連情報に、対象録音音声データ72と、基本文字列82と、変更対象文字列82Aと、変更後文字列84Bと、教示用録音音声データ74と、詳細修正情報と、が含まれる場面を想定する。
【0144】
この場合、例えば、加工処理部42は、加工関連情報に含まれる対象録音音声データ72の基本文字列82に含まれる変更対象文字列82Aを変更後文字列84Bに置換する。そして、加工処理部42は、教示用録音音声データ74に含まれる変更後録音音声データ74Bの音響特徴量を、詳細編集情報に含まれる音響特徴量に調整する。そして、加工処理部42は、音響特徴量を調整した変更後録音音声データ74Bを、加工関連情報に含まれる合成方法に応じて合成することで、加工済音声データ76を生成する。
【0145】
また、受付部41は、受付けた加工関連情報の少なくとも一部の変更情報を入力部36から受付けてもよい。ユーザは入力部36を操作指示することで、加工関連情報に含まれる情報の一部の変更指示を入力する。この場合、加工処理部42は、対象録音音声データ72を変更後の加工関連情報を用いて加工することで、加工音声データを生成すればよい。
【0146】
例えば、ユーザが入力部36を操作指示することで、加工関連情報に含まれる変更対象文字列82Aおよび変更後文字列84Bを変更した場合を想定する。
【0147】
この場合、受付部41は、変更された変更対象文字列82Aおよび変更された変更後文字列84Bを変更情報として受け付ける。加工処理部42は、加工関連情報に含まれる対象録音音声データ72の基本文字列82の内、変更情報によって表される変更対象文字列82Aを変更情報によって表される変更後文字列84Bに置換する。
【0148】
そして、加工処理部42は、教示用録音音声データ74に含まれる変更後録音音声データ74Bの音響特徴量を、詳細編集情報に含まれる音響特徴量に調整する。そして、加工処理部42は、音響特徴量を調整した変更後録音音声データ74Bを、加工関連情報に含まれる合成方法に応じて合成することで、加工済音声データ76を生成する。
【0149】
このように、本実施形態の情報処理装置30は、音声加工支援装置10で作成された加工関連情報を用いて、対象録音音声データ72を加工する。このため、情報処理装置30は、容易に対象録音音声データ72を加工することができる。また、本実施形態の情報処理装置30は、受付けた加工関連情報の少なくとも一部の変更情報を入力部36から受付け、対象録音音声データ72を変更後の加工関連情報を用いて加工する。このため、本実施形態の情報処理装置30は、対象録音音声データ72などの録音音声データの加工に関するユーザによる容易な調整を支援することができる。
【0150】
次に、本実施形態の音声加工支援システム1で実行する情報処理を説明する。
【0151】
図3は、本実施形態の音声加工支援装置10が実行する情報処理の流れの一例を示すフローチャートである。
【0152】
音声加工支援装置10の表示制御部21は、加工支援画面50を表示部14Aに表示する(ステップS100)。ステップS100の処理によって、例えば、
図2Aに示す加工支援画面50が表示部14Aに表示される。
【0153】
第1受付部22Aは、ステップS100で表示された加工支援画面50を介して、基本録音音声データ70から対象録音音声データ72の選択を受付ける(ステップS102)。ユーザは、操作入力部16Aを操作することで、表示された1または複数の基本録音音声データ70の中から、所望の処理対象の1つの基本録音音声データ70を選択する。第1受付部22Aは、選択欄60Aを介して選択を受付けた1つの基本録音音声データ70を、対象録音音声データ72として受け付ける。
【0154】
変換部23は、ステップS102で選択を受付けた対象録音音声データ72を基本文字列82に変換する(ステップS104)。表示制御部21は、ステップS104で変換された基本文字列82を表示部14Aに表示する(ステップS106)。ステップS106の処理によって、例えば、
図2Bに示すように、加工支援画面50の表示欄60Bに基本文字列82が表示される。
【0155】
第2受付部22Bは、表示された基本文字列82の内、変更対象文字列82Aの指定を受付ける(ステップS108)。ステップS108の処理によって、
図2Cに示すように、例えば、表示欄60Bに表示されている基本文字列82「俺にはマサオっていう大切な友達がいる」の内、「マサオ」が変更対象文字列82Aとして指定される。
【0156】
次に、第3受付部22Cが、ステップS108で受付けた変更対象文字列82Aに対する変更後文字列84Bの入力を受付ける(ステップS110)。
図2Dに示すように、ユーザは、操作入力部16Aを操作することで、例えば、変更対象文字列82A「マサオ」に替えて変更後文字列84B「タクミ」を入力する。変更後文字列84Bが入力されると、第3受付部22Cは変更後文字列84Bの入力を受付ける。
【0157】
変更後文字列84Bの入力を受付けると、生成制御部24は、対象録音音声データ72、および変更対象文字列82Aに対する変更後文字列84B、に応じた加工済音声データ76を生成する(ステップ112)。ステップS122では、生成制御部24は、対象録音音声データ72における、変更対象文字列82Aに対応する変更対象音声区間72Aに、変更後文字列84Bの変更後録音音声データ74Bを合成した、加工済音声データ76を生成する。
【0158】
次に、受付部22が、再生指示を受付けたか否かを判断する(ステップS114)。受付部22は、ユーザによる操作入力部16Aの操作指示によって再生ボタン60Fが操作され、操作入力部16Aから再生指示を受付けたか否かを判別することでステップS114の判断を行う。ステップS114で否定判断すると(ステップS114:No)、後述するステップS118へ進む。
【0159】
再生指示を受付けた場合(ステップS114:Yes)、再生制御部26は、生成制御部24によって直前に生成された加工済音声データ76を再生する再生処理を実行する(ステップS116)。
【0160】
次に、受付部22は、保存指示を受付けたか否かを判断する(ステップS118)。保存指示を受付けた場合(ステップS118:Yes)、ステップS120へ進む。
【0161】
ステップS120では、記憶処理部27が記憶処理を実行する(ステップS120)。記憶処理部27は、直前に生成された加工済音声データ76を記憶部12に記憶する。また、記憶処理部27は、該加工済音声データ76の加工に関する加工関連情報を、該加工済音声データ76に対応付けて記憶部12に記憶する。そして、本ルーチンを終了する。
【0162】
一方、ステップS118で否定判断すると(ステップS118:No)、ステップS122へ進む。
【0163】
ステップS122では、受付部22が、簡単教示指示を受付けたか否かを判断する(ステップS122)。受付部22は、ユーザによる操作入力部16Aの操作指示によって簡単教示ボタン60Eが操作され、簡単教示ボタン60Eから簡単教示指示を受付けたか否かを判別することでステップS122の判断を行う。
【0164】
簡単教示指示を受付けたと判断すると(ステップS122:Yes)、ステップS124へ進む。ステップS124では、取得部25は、基本文字列82に含まれる変更対象文字列82Aを変更後文字列84Bに変換した出力対象文字列86の、ユーザによる発話音声を教示用録音音声データ74として取得する(ステップS124)。
【0165】
生成制御部24は、対象録音音声データ72、変更対象文字列82Aに対する変更後文字列84B、およびステップS124で取得した教示用録音音声データ74に応じた加工済音声データ76を生成する(ステップS126)。
図2Fに示すように、例えば、生成制御部24は、教示用録音音声データ74における、変更後文字列84Bに対応する音声区間の変更後録音音声データ74Bを特定する。また、生成制御部24は、対象録音音声データ72における、変更対象文字列82Aに対応する変更対象音声区間72Aを特定する。そして、生成制御部24は、対象録音音声データ72における変更対象音声区間72Aに、教示用録音音声データ74から特定した変更後録音音声データ74Bを合成することによって、加工済音声データ76を生成する。そして、上記ステップS114へ進む。
【0166】
上記ステップS122で否定判断すると(ステップS122:No)、ステップS128へ進む。ステップS128では、受付部22が、設定変更指示を受付けたか否かを判断する(ステップS128)。受付部22は、ユーザによる操作入力部16Aの操作指示によって設定変更ボタン60Hが操作され、設定変更ボタン60Hから設定変更指示を受付けたか否かを判別することでステップS128の判断を行う。
【0167】
設定変更指示を受付けたと判断すると(ステップS128:Yes)、ステップS130へ進む。ステップS130では、表示制御部21は、設定変更画面52を表示部14Aに表示する(ステップS130)。ステップS130の処理によって、例えば、
図2Gに示す設定変更画面52が表示される。ユーザは設定変更画面52を視認しながら操作入力部16Aを操作することで、変更後文字列84Bの音声の音響特徴量および合成方法の少なくとも一方の設定変更情報を入力する。ユーザによる操作入力部16Aの操作指示によって設定変更反映ボタン62Bが操作されると、第4受付部22Dは設定変更情報の入力を受付ける(ステップS132)。
【0168】
生成制御部24は、ステップS132で受付けた設定変更情報に応じた加工済音声データ76を生成する(ステップS134)。生成制御部24は、変更後文字列84Bの音声区間の音声データの音響特徴量を、ステップS132で受付けた設定変更情報に含まれる音響特徴量に調整する。そして、生成制御部24は、対象録音音声データ72における変更対象音声区間72Aに、音響特徴量を調整した変更後文字列84Bの音声区間の音声データを、ステップS132で受付けた設定変更情報に含まれる合成方法に応じて合成した、加工済音声データ76を生成する。そして、上記ステップS114へ進む。
【0169】
ステップS128で否定判断すると(ステップS128:No)、ステップS136へ進む。
【0170】
ステップS136では、受付部22が、詳細編集指示を受け付けたか否かを判断する(ステップS136)。受付部22は、ユーザによる操作入力部16Aの操作指示によって詳細編集ボタン60Dが操作され、詳細編集ボタン60Dから詳細編集指示を受付けたか否かを判別することでステップS136の判断を行う。ステップS136で否定判断すると(ステップS136:No)、上記ステップS114へ進む。なお、ステップS136で否定判断すると、ステップS102へ進んでもよい。
【0171】
詳細編集指示を受け付けたと判断すると(ステップS136:Yes)、ステップS138へ進む。ステップS138では、表示制御部21が詳細編集画面54を表示部14Aに表示する(ステップS138)。ステップS140の処理によって、例えば、
図2Hに示す詳細編集画面54が表示部14Aに表示される。
【0172】
ユーザは詳細編集画面54を視認しながら操作入力部16Aを操作することで、変更後文字列84Bの音声の音響特徴量および合成方法の少なくとも一方の詳細編集情報を入力する。ユーザによる操作入力部16Aの操作指示によって詳細編集反映ボタン64Bが操作されると、第5受付部22Eは詳細編集情報の入力を受付ける(ステップS140)。
【0173】
生成制御部24は、変更後文字列84Bの音声データの音響特徴量を、入力を受付けた詳細編集情報に含まれる音響特徴量に調整する。そして、生成制御部24は、対象録音音声データ72における変更対象音声区間72Aに、音響特徴量を調整した変更後文字列84Bの音声区間の音声データを、該詳細編集情報に含まれる合成方法に応じて合成した、加工済音声データ76を生成する(ステップS142)。そして、上記ステップ114へ進む。
【0174】
次に、本実施形態の情報処理装置30で実行する情報処理の流れの一例を説明する。
【0175】
図4は、本実施の形態の情報処理装置30が実行する情報処理の流れの一例を示すフローチャートである。
【0176】
受付部41は、音声加工支援装置10から加工関連情報を受付ける(ステップS200)。
【0177】
また、受付部41は、ステップS200で受付けた加工関連情報の少なくとも一部の変更情報を受付ける(ステップS202)。
【0178】
加工処理部42は、ステップ200で受付けた加工関連情報およびステップS202で受付けた変更情報を用いて、加工音声データを生成する(ステップS204)。そして、加工処理部42は、ステップS204で生成した加工音声データを、出力部34へ出力する(ステップS206)。例えば、加工処理部42は、ステップS04で生成した加工音声データの音声を、出力部34に含まれるマイクから出力する。加工処理部42は、ステップS204で生成した加工音声データを、記憶部32へ記憶してもよい。また、加工処理部42は、ステップS204で生成した加工音声データを、通信部38を介して外部の他の情報処理装置へ送信してもよい。そして、本ルーチンを終了する。
【0179】
以上説明したように、本実施形態の音声加工支援装置10は、第1受付部22Aと、表示制御部21と、第2受付部22Bと、を備える。第1受付部22Aは、録音された1または複数の基本録音音声データ70から、処理対象の基本録音音声データ70である対象録音音声データ72の選択を受付ける。表示制御部21は、対象録音音声データ72を基本文字列82に変換し表示する。第2受付部22Bは、表示された基本文字列82の内、変更対象の変更対象文字列82Aの指定を受付ける。生成制御部24は、対象録音音声データ72および変更対象文字列82Aに応じた加工済音声データ76を生成する。
【0180】
ここで、従来技術では、ユーザによる操作指示を介さない自動抽出および自動合成によって音声データを加工した加工済音声データを生成している。このため、従来技術では、録音音声データの加工に関するユーザによる容易な調整を支援することは困難であった。
【0181】
一方、本実施形態の音声加工支援装置10は、複数の基本録音音声データ70から、処理対象の基本録音音声データ70である対象録音音声データ72のユーザによる選択を受付ける。このため、ユーザは、複数の基本録音音声データ70の内、所望の基本録音音声データ70を対象録音音声データ72として選択することができる。また、本実施形態の音声加工支援装置10は、対象録音音声データ72の基本文字列82を表示し、基本文字列82における変更対象の変更対象文字列82Aの指定を受付ける。このため、ユーザは、対象録音音声データ72の基本文字列82の内、所望の文字列を変更対象文字列82Aとして指定することができる。そして、生成制御部24は、対象録音音声データ72および変更対象文字列82Aに応じた加工済音声データ76を生成する。このため、生成制御部24は、ユーザによる選択および指定に応じた加工済音声データ76を生成することができる。
【0182】
すなわち、本実施形態の音声加工支援装置10では、ユーザは、所望の基本録音音声データ70を対象録音音声データ72として選択し、対象録音音声データ72の基本文字列82の内の所望の文字列を変更対象文字列82Aとして指定することができる。
【0183】
従って、本実施形態の音声加工支援装置10は、基本録音音声データ70などの録音音声データの加工に関するユーザによる容易な調整を支援することができる。
【0184】
また、本実施形態の音声加工支援装置10は、基本録音音声データ70から選択された対象録音音声データ72および変更対象文字列82Aに応じた加工済音声データ76を生成する。
【0185】
このため、本実施形態の音声加工支援装置10は、録音された発話音声の基本録音音声データ70と同じ声質の発話音声を得ることが困難な場合であっても、基本録音音声データ70と同じまたは類似する声質の新たな台詞の加工済音声データ76を容易に生成することが可能となる。
【0186】
また、本実施形態の音声加工支援装置10は、第3受付部22Cを備えることができる。第3受付部22Cは、変更対象文字列82Aに対する変更後文字列84Bの入力を受付ける。生成制御部24は、対象録音音声データ72および変更対象文字列82Aに対する変更後文字列84Bに応じた、加工済音声データ76を生成する。
【0187】
このように、本実施形態の音声加工支援装置10は、対象録音音声データ72および変更後文字列84Bに応じた加工済音声データ76を生成する。このため、本実施形態の音声加工支援装置10は、上記効果に加えて、演者の意図などを反映した録音済の高音質および高品質の対象録音音声データ72を基準とした加工済音声データ76を容易に生成することができる。
【0188】
ここで、従来技術では、録音音声が潤沢にあるにもかかわらず、未収録の台詞や一部の文言を変更する場合、再度録音を行う必要があった。
【0189】
一方、本実施形態の音声加工支援装置10は、複数の基本録音音声データ70から選択された対象録音音声データ72に含まれる変更対象文字列82Aの変更対象音声区間72Aを、ユーザによって入力された変更後文字列84Bの音声データに置換した加工済音声データ76を生成する。
【0190】
このため、本実施形態の音声加工支援装置10では、複数の基本録音音声データ70が既に記憶されているにも拘わらず、一部の文言を変更した音声データを得るために、再度録音を行う必要がない。このため、本実施形態の音声加工支援装置10は、上記効果に加えて、ユーザの負荷軽減を図ることができる。
【0191】
また、従来技術では、台詞を発話するユーザの体調や声帯の変化等により、同じユーザが発話した音声の音声データであっても、合成すると違和感を含む加工済音声データが生成される場合があった。違和感を含む加工済音声データの調整には、時間およびコストを要する場合があった。
【0192】
また、従来技術では、高品質で且つ演者の意図に沿った発話音声の音声合成データを作成する場合、学習用音声データを多数収録し、機械学習を実施、および検証を行う必要があった。このため、従来技術では、多くのキャラクターの演技音声を短期間、低予算で作成したいという実現要求にこたえられなかった。また、合成音声のみを加工することで加工済音声データを調整する場合、音声の発話を職業とするユーザの仕事を奪うイメージを持たれる場合があった。
【0193】
一方、本実施形態の音声加工支援装置10は、複数の基本録音音声データ70から選択された対象録音音声データ72を基準とし、対象録音音声データ72の一部である変更対象文字列82Aの変更対象音声区間72Aを、ユーザによって入力された変更後文字列84Bの音声データに置換した加工済音声データ76を生成する。
【0194】
このため、本実施形態の音声加工支援装置10は、上記効果に加えて、ユーザによる発話音声の対象録音音声データ72を用いて、加工済音声データ76を低期間および低予算で容易に生成することができる。
【0195】
次に、本実施形態の音声加工支援装置10および情報処理装置30のハードウェア構成を説明する。
【0196】
図5は、本実施形態の音声加工支援装置10および情報処理装置30の一例のハードウェア構成図である。
【0197】
本実施形態の音声加工支援装置10および情報処理装置30は、CPU10Aなどの制御装置と、ROM(Read Only Memory)10BやRAM(Random Access Memory)10Cなどの記憶装置と、HDD(ハードディスクドライブ)10Dと、ネットワークに接続して通信を行うI/F10Eと、各部を接続するバス10Fと、を備える。
【0198】
本実施形態の音声加工支援装置10および情報処理装置30で実行されるプログラムは、ROM10B等に予め組み込まれて提供される。
【0199】
本実施形態の音声加工支援装置10および情報処理装置30で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
【0200】
さらに、本実施形態の音声加工支援装置10および情報処理装置30で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる音声加工支援装置10および情報処理装置30で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0201】
本実施形態の音声加工支援装置10および情報処理装置30で実行されるプログラムは、コンピュータを上述した音声加工支援装置10の各部として機能させうる。このコンピュータは、CPU10Aがコンピュータで読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
【0202】
なお、上記実施形態では、音声加工支援装置10および情報処理装置30が、単体の装置として構成されていることを想定して説明した。しかし、音声加工支援装置10および情報処理装置30は、物理的に分離されてネットワークなどを介して通信可能に接続された複数の装置により構成されていてもよい。
【0203】
なお、上記には、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0204】
1 音声加工支援システム
10 音声加工支援装置
21 表示制御部
22A 第1受付部
22B 第2受付部
22C 第3受付部
22D 第4受付部
22E 第5受付部
22F 第6受付部
24 生成制御部
25 取得部
26 再生制御部
30 情報処理装置
41 受付部
42 加工処理部