特開2024-16562 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2024-16562音声加工支援装置、音声加工支援方法、音声加工支援プログラム、および音声加工支援システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
2D
2E
2F
2G
2H
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024016562

(43)【公開日】2024-02-07

(54)【発明の名称】音声加工支援装置、音声加工支援方法、音声加工支援プログラム、および音声加工支援システム

(51)【国際特許分類】

G10L 13/08 20130101AFI20240131BHJP

G10L 15/22 20060101ALI20240131BHJP

【ＦＩ】

G10L13/08 160

G10L15/22 460Z

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2022118791

(22)【出願日】2022-07-26

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(71)【出願人】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】倉田宜典

(57)【要約】

【課題】録音音声データの加工に関するユーザによる容易な調整を支援する。
【解決手段】音声加工支援装置１０は、第１受付部２２Ａと、表示制御部２１と、第２受付部２２Ｂと、を備える。第１受付部２２Ａは、録音された１または複数の基本録音音声データ７０から、処理対象の基本録音音声データ７０である対象録音音声データの選択を受付ける。表示制御部２１は、対象録音音声データを基本文字列に変換し表示する。第２受付部２２Ｂは、表示された基本文字列の内、変更対象の変更対象文字列の指定を受付ける。生成制御部２４は、対象録音音声データおよび変更対象文字列に応じた加工済音声データを生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

録音された１または複数の基本録音音声データから、処理対象の前記基本録音音声データである対象録音音声データの選択を受付ける第１受付部と、
前記対象録音音声データを基本文字列に変換し表示する表示制御部と、
表示された前記基本文字列の内、変更対象の変更対象文字列の指定を受付ける第２受付部と、
前記対象録音音声データおよび前記変更対象文字列に応じた加工済音声データを生成する生成制御部と、
を備える音声加工支援装置。

【請求項2】

前記変更対象文字列に対する変更後文字列の入力を受付ける第３受付部を備え、
前記生成制御部は、
前記対象録音音声データおよび前記変更対象文字列に対する前記変更後文字列に応じた前記加工済音声データを生成する、
請求項１に記載の音声加工支援装置。

【請求項3】

前記生成制御部は、
前記対象録音音声データにおける、前記変更対象文字列に対応する変更対象音声区間に前記変更後文字列の変更後文字列音声データを合成した前記加工済音声データを生成する、
請求項２に記載の音声加工支援装置。

【請求項4】

前記基本文字列に含まれる前記変更対象文字列を前記変更後文字列に変換した出力対象文字列の、ユーザによる発話音声を教示用録音音声データとして取得する取得部、
を備え、
前記生成制御部は、
前記対象録音音声データにおける前記変更対象文字列に対応する変更対象音声区間に、前記教示用録音音声データにおける前記変更後文字列に対応する変更後録音音声データを合成した前記加工済音声データを生成する、
請求項２に記載の音声加工支援装置。

【請求項5】

前記生成制御部は、
前記変更後録音音声データによって表される音声の高さを、前記対象録音音声データにおける前記変更対象音声区間の音声の高さに調整し、
音声の高さを変換した前記変更後録音音声データに、前記対象録音音声データにおける前記変更対象音声区間の韻律を射影し、
韻律を射影した前記変更後録音音声データを、前記対象録音音声データにおける前記変更対象音声区間に合成した、前記加工済音声データを生成する、
請求項４に記載の音声加工支援装置。

【請求項6】

前記変更後文字列の音声の音響特徴量および合成方法の少なくとも一方の設定変更情報の入力を受付ける第４受付部、
を備え、
前記生成制御部は、
前記変更後文字列の音声区間の音声データの音響特徴量を、前記設定変更情報に含まれる音響特徴量に調整し、
前記対象録音音声データにおける前記変更対象文字列に対応する変更対象音声区間に、音響特徴量を調整した前記音声データを前記設定変更情報に含まれる合成方法に応じて合成した、前記加工済音声データを生成する、
請求項２に記載の音声加工支援装置。

【請求項7】

前記変更後文字列の音声の音響特徴量および合成方法の少なくとも一方の詳細編集情報の入力を受け付ける第５受付部、
を備え、
前記生成制御部は、
前記変更後文字列の音声区間の音声データの音響特徴量を、前記詳細編集情報に含まれる音響特徴量に調整し、
前記対象録音音声データにおける前記変更対象文字列に対応する変更対象音声区間に、音響特徴量を調整した前記音声データを前記詳細編集情報に含まれる合成方法に応じて合成した、前記加工済音声データを生成する、
請求項２に記載の音声加工支援装置。

【請求項8】

前記加工済音声データの再生指示を受付ける第６受付部と、
前記加工済音声データを再生する再生制御部と、
を備える請求項１に記載の音声加工支援装置。

【請求項9】

録音された１または複数の基本録音音声データから、処理対象の前記基本録音音声データである対象録音音声データの選択を受付けるステップと、
前記対象録音音声データを基本文字列に変換し表示するステップと、
表示された前記基本文字列の内、変更対象の変更対象文字列の指定を受付けるステップと、
前記対象録音音声データおよび前記変更対象文字列に応じた加工済音声データを生成するステップと、
を含む音声加工支援方法。

【請求項10】

【請求項11】

音声加工支援装置と、情報処理装置と、を備えた音声加工支援システムであって、
前記音声加工支援装置は、
録音された１または複数の基本録音音声データから、処理対象の前記基本録音音声データである対象録音音声データの選択を受付ける第１受付部と、
前記対象録音音声データを基本文字列に変換し表示する表示制御部と、
表示された前記基本文字列の内、変更対象の変更対象文字列の指定を受付ける第２受付部と、
前記対象録音音声データおよび前記変更対象文字列に応じた加工済音声データを生成する生成制御部と、
前記加工済音声データの加工に関する加工関連情報を記憶する記憶制御部と、
を備え、
前記情報処理装置は、
前記加工関連情報を受付ける受付部と、
前記加工関連情報に基づいて前記対象録音音声データを加工した加工音声データを生成する加工処理部と、
を備える、
音声加工支援システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、音声加工支援装置、音声加工支援方法、音声加工支援プログラム、および音声加工支援システムに関する。

【背景技術】

【0002】

音声データの加工に関する技術として、録音音声データと合成音声データとを合成する技術が開示されている。例えば、従来技術には、入力文字列から録音音声を用いる部分文字列および合成音声を用いる部分文字列を自動抽出し、自動抽出結果を用いて録音音声と合成音声とを合成する技術が開示されている。

【0003】

しかしながら、従来技術では、ユーザによる操作指示を介さない自動抽出および自動合成によって音声データを加工した加工済音声データを生成している。このため、従来技術では、録音音声データの加工に関するユーザによる容易な調整を支援することは困難であった。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００８－１０７４５４号公報

【特許文献2】特開２００９－２０２６４号公報

【特許文献3】特開２００３－２９５８８０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明が解決しようとする課題は、録音音声データの加工に関するユーザによる容易な調整を支援することができる、音声加工支援装置、音声加工支援方法、音声加工支援プログラム、および音声加工支援システムを提供することである。

【課題を解決するための手段】

【0006】

実施形態の音声加工支援装置は、第１受付部と、表示制御部と、第２受付部と、生成制御部と、を備える。第１受付部は、録音された１または複数の基本録音音声データから、処理対象の前記基本録音音声データである対象録音音声データの選択を受付ける。表示制御部は、前記対象録音音声データを基本文字列に変換し表示する。第２受付部は、表示された前記基本文字列の内、変更対象の変更対象文字列の指定を受付ける。生成制御部は、前記対象録音音声データおよび前記変更対象文字列に応じた加工済音声データを生成する。

【図面の簡単な説明】

【0007】

【図1】図１は、音声加工支援システムを示す図である。

【図2A】図２Ａは、加工支援画面の模式図である。

【図2B】図２Ｂは、加工支援画面の模式図である。

【図2C】図２Ｃは、加工支援画面の模式図である。

【図2D】図２Ｄは、加工支援画面の模式図である。

【図2E】図２Ｅは、加工支援画面の模式図である。

【図2F】図２Ｆは、加工済音声データの生成の一例の説明図である。

【図2G】図２Ｇは、設定変更画面の模式図である。

【図2H】図２Ｈは、詳細編集画面の模式図である。

【図3】図３は、音声加工支援装置が実行する情報処理の流れを示すフローチャートである。

【図4】図４は、情報処理装置が実行する情報処理の流れを示すフローチャートである。

【図5】図５は、ハードウェア構成図である。

【発明を実施するための形態】

【0008】

以下に添付図面を参照して、音声加工支援装置、音声加工支援方法、音声加工支援プログラム、および音声加工支援システムを詳細に説明する。

【0009】

図１は、本実施形態の音声加工支援システム１の一例を示す図である。

【0010】

音声加工支援システム１は、音声加工支援装置１０と、情報処理装置３０と、を備える。

【0011】

音声加工支援装置１０と情報処理装置３０とは、ネットワークＮＷなどを介してデータを授受可能に構成されている。音声加工支援装置１０と情報処理装置３０とは、音声加工支援装置１０で生成された各種のデータを情報処理装置３０で利用可能な構成であればよい。このため、音声加工支援装置１０と情報処理装置３０とは、ＵＳＢ（Universal Serial Bus）メモリなどの各種の記憶媒体を介してデータを授受可能な構成であってもよい。

【0012】

音声加工支援装置１０は、録音音声データの加工を支援するための情報処理装置である。

【0013】

音声加工支援装置１０は、記憶部１２と、出力部１４と、入力部１６と、通信部１８と、処理部２０と、を備える。記憶部１２、出力部１４、入力部１６、通信部１８、および処理部２０は、バス１９を介して通信可能に接続されている。

【0014】

記憶部１２は、各種のデータを記憶する。記憶部１２は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部１２は、音声加工支援装置１０の外部に設けられた記憶装置であってもよい。また、記憶部１２は、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムや各種情報を、ＬＡＮ（Local Area Network）やインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部１２を、複数の記憶媒体から構成してもよい。

【0015】

本実施形態では、記憶部１２は、１または複数の基本録音音声データ７０を予め記憶する。

【0016】

基本録音音声データ７０とは、ユーザが発話した音声を録音することによって得られる録音音声データである。詳細には、基本録音音声データ７０は、録音音声データの内、音声加工支援システム１において処理対象の選択肢として提供可能な予め録音された録音音声データである。

【0017】

例えば、ユーザは、上演の元となる台本などに含まれる台詞を、台詞の発話場面などに応じた音声で発話する。台詞とは、上演対象の演劇や創作物の作中で登場する発話者が発する言葉である。発話者とは、台詞を発話する対象となるユーザである。

【0018】

例えば、ユーザは、韻律、アクセント、などの音響特徴量を調整しながら台詞を発話する。韻律には、抑揚、音調、強勢、音長、およびリズムの少なくとも１つが含まれる。アクセントには、高低アクセントおよび強勢アクセントの少なくとも一方が含まれる。

【0019】

音声加工支援装置１０では、ユーザによって発話された音声をマイク１６Ｂによって集音し、基本録音音声データ７０として記憶部１２に予め記憶する。

【0020】

なお、本実施形態では、基本録音音声データ７０がユーザによる台詞の１回の発話によって録音された録音音声データである形態を一例として説明する。しかし、基本録音音声データ７０は、ユーザによって発話された台詞の録音音声データに限定されない。例えば、基本録音音声データ７０は、ユーザが日常会話などで発した音声を録音した録音音声データであってもよい。また、音声加工支援装置１０は、他の情報処理装置で録音された録音音声データを、基本録音音声データ７０として予め記憶部１２に記憶してもよい。

【0021】

出力部１４は、各種の情報を出力するための出力デバイスである。本実施形態では、出力部１４は、表示部１４Ａと、スピーカ１４Ｂと、を含む。表示部１４Ａは、各種の情報を表示する。表示部１４Ａは、例えば、ＬＣＤ（Liquid Crystal Display）、有機ＥＬ（Electro-Luminescence）などのディスプレイや、投影装置などである。スピーカ１４Ｂは、音声を出力する。

【0022】

入力部１６は、ユーザによる各種の指示を受付けるための入力デバイスである。本実施形態では、入力部１６は、操作入力部１６Ａと、マイク１６Ｂと、を含む。操作入力部１６Ａは、ユーザによる操作指示を受付けるための入力デバイスである。操作入力部１６Ａは、例えば、デジタルペン、マウス、またはトラックボール等のポインティングデバイスや、キーボード等の入力デバイスである。マイク１６Ｂは、音声を入力するための入力デバイスである。表示部１４Ａおよびマイク１６Ｂは、一体的に構成されたタッチパネルであってもよい。

【0023】

通信部１８は、ネットワークＮＷを介して外部の情報処理装置と通信する。本実施形態では、通信部１８は、ネットワークＮＷを介して情報処理装置３０と通信する。

【0024】

処理部２０は、各種の情報処理を実行する。処理部２０は、表示制御部２１と、受付部２２と、変換部２３と、生成制御部２４と、取得部２５と、再生制御部２６と、記憶処理部２７と、を備える。受付部２２は、第１受付部２２Ａと、第２受付部２２Ｂと、第３受付部２２Ｃと、第４受付部２２Ｄと、第５受付部２２Ｅと、第６受付部２２Ｆと、を含む。

【0025】

表示制御部２１、受付部２２、第１受付部２２Ａ、第２受付部２２Ｂ、第３受付部２２Ｃ、第４受付部２２Ｄ、第５受付部２２Ｅ、第６受付部２２Ｆ、変換部２３、生成制御部２４、取得部２５、再生制御部２６、および記憶処理部２７は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

【0026】

また、上記各部の少なくとも１つは、クラウド上で処理を実行するクラウドサーバに搭載されていてもよい。

【0027】

表示制御部２１は、各種の画像を表示部１４Ａへ表示する。

【0028】

受付部２２は、ユーザによる操作指示やユーザによる発話音声の録音音声データを入力部１６から受付ける。受付部２２は、ユーザによる操作指示を表す情報を操作入力部１６Ａから受付ける。また、受付部２２は、ユーザによる発話音声の録音音声データをマイク１６Ｂから受付ける。

【0029】

本実施形態では、受付部２２は、第１受付部２２Ａと、第２受付部２２Ｂと、第３受付部２２Ｃと、第４受付部２２Ｄと、第５受付部２２Ｅと、第６受付部２２Ｆと、を有する。

【0030】

第１受付部２２Ａは、録音された１または複数の基本録音音声データ７０から対象録音音声データの選択を受付ける。対象録音音声データとは、予め録音された基本録音音声データ７０の内、ユーザが処理対象として選択した基本録音音声データ７０を意味する。処理対象とは、加工対象であることを意味する。

【0031】

本実施形態では、第１受付部２２Ａは、表示制御部２１が表示部１４Ａに表示した加工支援画面を介して対象録音音声データの選択を受付ける。

【0032】

図２Ａは、加工支援画面５０の一例の模式図である。表示制御部２１は、例えば、ユーザによる操作入力部１６Ａの操作によって音声加工支援の開始指示が入力されると、図２Ａに示す加工支援画面５０を表示する。

【0033】

加工支援画面５０は、選択欄６０Ａを含む。選択欄６０Ａは、１または複数の基本録音音声データ７０からユーザ所望の処理対象の基本録音音声データ７０の選択を受付けるための入力欄である。

【0034】

例えば、ユーザによる操作入力部１６Ａの操作指示によって加工支援画面５０の選択欄６０Ａが操作された場面を想定する。選択欄６０Ａが操作されると、表示制御部２１は、記憶部１２に記憶されている１または複数の基本録音音声データ７０の一覧を表示部１４Ａに表示する。ユーザは、操作入力部１６Ａを操作することで、表示された１または複数の基本録音音声データ７０の中から、所望の処理対象の１つの基本録音音声データ７０を選択する。第１受付部２２Ａは、選択欄６０Ａを介して選択を受付けた１つの基本録音音声データ７０を、対象録音音声データとして受け付ける。

【0035】

図２Ｂは、加工支援画面５０の一例の模式図である。図２Ｂには、第１受付部２２Ａが対象録音音声データ７２の選択を受付けた場面を一例として示す。第１受付部２２Ａが対象録音音声データ７２の選択を受付けると、表示制御部２１は、加工支援画面５０の選択欄６０Ａに、ユーザが処理対象として選択した基本録音音声データ７０である対象録音音声データ７２のファイル名を表示する。

【0036】

本実施形態では、基本録音音声データ７０および対象録音音声データ７２などの音声データのデータ形式がＷＡＶ（Waveform Audio File Format）ファイル形式である場合を一例として示す。しかし、音声データのデータ形式は、ＷＡＶファイル形式に限定されない。

【0037】

図１に戻り説明を続ける。

【0038】

変換部２３は、選択を受付けた対象録音音声データ７２を基本文字列に変換する。基本文字列とは、対象録音音声データ７２によって表される音声を文字列で表したデータである。変換部２３は、音声データを文字列に変換する公知の音声変換技術を用いて、対象録音音声データ７２を基本文字列に変換すればよい。音声データとは、音声を表すデータである。本実施形態では、音声データは、基本録音音声データ７０、対象録音音声データ７２、などの録音音声データ、および録音以外の合成された音声データ、を総称した表現として用いる。

【0039】

表示制御部２１は、選択を受付けた対象録音音声データ７２を基本文字列に変換し表示する。本実施形態では、表示制御部２１は、変換部２３で変換された基本文字列を表示部１４Ａに表示する。

【0040】

図２Ｂを用いて説明する。第１受付部２２Ａが対象録音音声データ７２の選択を受付けると、表示制御部２１は、選択を受付けた対象録音音声データ７２の基本文字列８２を加工支援画面５０の表示欄６０Ｂに表示する。

【0041】

表示欄６０Ｂは、出力対象文字列８６の表示欄である。出力対象文字列８６は、音声加工支援装置１０が出力する対象の加工済音声データの文字列である。ユーザによる操作指示によって入力された加工に関する入力内容に応じて、表示欄６０Ｂに表示される出力対象文字列８６は変化する（詳細後述）。

【0042】

第１受付部２２Ａが対象録音音声データ７２の選択を受付けた段階では、表示制御部２１は、選択を受付けた対象録音音声データ７２の基本文字列８２を加工支援画面５０の表示欄６０Ｂに表示する。

【0043】

図２Ｂには、基本文字列８２「俺にはマサオっていう大切な友達がいる」が表示欄６０Ｂに表示された場面を一例として示す。ユーザは、加工支援画面５０を視認することで、選択した対象録音音声データ７２の基本文字列８２を容易に確認することができる。

【0044】

第１受付部２２Ａが対象録音音声データ７２の選択を受付けると、表示制御部２１は、戻るボタン６０Ｃおよび再生ボタン６０Ｆをユーザに対して選択可能に加工支援画面５０に表示する。戻るボタン６０Ｃは、前回表示されていた表示画面に戻ることを指示するときにユーザが操作指示するための入力ボタンである。再生ボタン６０Ｆは、音声データの再生を指示するときに、ユーザが操作指示するための入力ボタンである。

【0045】

図１に戻り説明を続ける。

【0046】

第２受付部２２Ｂは、表示された基本文字列８２の内、変更対象文字列の指定を受付ける。変更対象文字列とは、基本文字列８２を構成する文字列の内の、変更対象の文字列である。言い換えると、変更対象文字列は、対象録音音声データ７２における音声を変更する対象の音声区間の音声に対応する文字列である。変更対象文字列は、１文字であっても複数文字であってもよい。

【0047】

図２Ｃを用いて説明する。図２Ｃは、加工支援画面５０の一例の模式図である。図２Ｃには、第２受付部２２Ｂが変更対象文字列８２Ａの指定を受付けた場面を一例として示す。

【0048】

例えば、ユーザは操作入力部１６Ａを操作することで、表示欄６０Ｂに表示されている基本文字列８２の内、変更対象の変更対象文字列８２Ａを指定する。図２Ｃには、基本文字列８２「俺にはマサオっていう大切な友達がいる」の内、「マサオ」が変更対象文字列８２Ａとして指定された場面を一例として示す。

【0049】

ユーザによる操作入力部１６Ａの操作によって変更対象文字列８２Ａが指定されると、第２受付部２２Ｂは、変更対象文字列８２Ａの指定を受付ける。図２Ｃに示す例では、第２受付部２２Ｂは、変更対象文字列８２Ａ「マサオ」を受け付ける。

【0050】

表示制御部２１は、ユーザによって指定された変更対象文字列８２Ａの領域を、基本文字列８２における未指定の他の文字列とは異なる表示形態で表示する。図２Ｃには、指定を受付けた変更後文字列８４Ｂの領域の背景部分を強調表示した場合を一例として示す。ユーザは加工支援画面５０を視認ながら操作入力部１６Ａを操作することで、基本文字列８２における変更後文字列８４Ｂの指定および指定した変更後文字列８４Ｂの確認を容易に行うことができる。

【0051】

第２受付部２２Ｂが変更対象文字列８２Ａの指定を受付けると、表示制御部２１は、保存ボタン６０Ｇを更に選択可能に加工支援画面５０に表示する。保存ボタン６０Ｇは、表示欄６０Ｂに表示されている文字列である出力対象文字列８６に応じた加工済音声データの保存を指示するときに、ユーザが操作指示するための入力ボタンである。なお、表示制御部２１は、変更対象文字列８２Ａの指定を受付ける前の段階で選択可能に加工支援画面５０に表示してもよい。例えば、表示制御部２１は、図２Ａおよび図２Ｂの段階で、保存ボタン６０Ｇを選択可能に加工支援画面５０に表示してもよい。

【0052】

図１に戻り説明を続ける。生成制御部２４は、対象録音音声データ７２および変更対象文字列８２Ａに応じた加工済音声データを生成する。

【0053】

図２Ｃに示すように、基本文字列８２に含まれる変更対象文字列８２Ａの指定を受付けた場面を想定する。この場合、音声の加工に関する情報が入力されていない段階であるため、生成制御部２４は、対象録音音声データ７２を加工済音声データとして生成する。

【0054】

ユーザによる操作入力部１６Ａの操作指示によって再生ボタン６０Ｆが操作された場面を想定する。再生ボタン６０Ｆが操作指示されると、第６受付部２２Ｆが、加工済音声データの再生指示を受付ける。第６受付部２２Ｆが加工済音声データの再生指示を受付けると、再生制御部２６は、加工済音声データを再生する。詳細には、再生制御部２６は、直前に生成制御部２４で生成された加工済音声データをマイク１６Ｂから出力する。

【0055】

ユーザは、操作入力部１６Ａを用いて再生ボタン６０Ｆを操作することで、加工済音声データによって表される加工済音声を試聴することができる。

【0056】

また、ユーザによる操作入力部１６Ａの操作指示によって、保存ボタン６０Ｇが操作された場面を想定する。保存ボタン６０Ｇが操作指示されると、受付部２２は、保存指示を受付ける。

【0057】

図１に戻り説明を続ける。

【0058】

記憶処理部２７は、生成制御部２４で生成された加工済音声データを記憶部１２に記憶する。詳細には、受付部２２が操作入力部１６Ａから保存指示を受付けると、記憶処理部２７は、生成制御部２４で生成された加工済音声データを記憶部１２に記憶する。

【0059】

また、記憶処理部２７は、加工関連情報を加工済音声データに対応付けて記憶部１２に記憶する。

【0060】

加工関連情報とは、加工済音声データの加工に関する情報である。詳細には、加工関連情報は、加工済音声データの生成に用いられた情報である。具体的には、加工関連情報は、加工済音声データの生成に用いた対象録音音声データ７２および対象録音音声データ７２の識別情報の少なくとも一方と、基本文字列８２と、変更対象文字列８２Ａと、を少なくとも含む。また、加工関連情報は、加工済音声データに施された加工内容に応じて、変更後文字列と、教示用録音音声データと、設定変更情報と、詳細修正情報と、の少なくとも１つの情報を更に含んでよい。教示用録音音声データ、変更後文字列、設定変更情報、および詳細修正情報の詳細は後述する。

【0061】

ユーザによる操作入力部１６Ａの操作によって、対象録音音声データ７２が選択され、対象録音音声データ７２の基本文字列８２における変更対象文字列８２Ａが指定された段階で、保存ボタン６０Ｇが操作指示された場面を想定する。また、生成制御部２４が、対象録音音声データ７２を加工済音声データとして生成した場面を想定する。この場合、記憶処理部２７は、対象録音音声データ７２または対象録音音声データ７２の識別情報と、基本文字列８２と、変更対象文字列８２Ａと、を含む加工関連情報を、加工済音声データに対応付けて記憶部１２へ記憶する。

【0062】

第３受付部２２Ｃは、変更対象文字列８２Ａに対する変更後文字列の入力を受付ける。変更後文字列とは、変更対象文字列８２Ａをユーザ所望の他の文字列に置き換えた文字列である。言い換えると、変更後文字列は、対象録音音声データ７２における、変更対象文字列８２Ａに対応する変更対象音声区間の音素の、置き換え後の音素または音素群を表す文字列である。変更後文字列は、１文字であっても複数文字であってもよい。

【0063】

図２Ｄを用いて説明する。図２Ｄは、加工支援画面５０の一例の模式図である。図２Ｄには、第３受付部２２Ｃが変更後文字列８４Ｂの入力を受付けた場面を一例として示す。

【0064】

図２Ｃを用いて説明したように、ユーザが操作入力部１６Ａを操作することで、表示欄６０Ｂに表示されている基本文字列８２の内の「マサオ」を変更対象文字列８２Ａとして選択した場面を想定する。そして、ユーザが更に操作入力部１６Ａを操作することで、変更対象文字列８２Ａ「マサオ」に替えて変更後文字列８４Ｂ「タクミ」を入力した場面を想定する。

【0065】

この場合、第３受付部２２Ｃは、変更後文字列８４Ｂ「タクミ」の入力を操作入力部１６Ａから受付ける。

【0066】

表示制御部２１は、基本文字列８２における変更対象文字列８２Ａを変更後文字列８４Ｂに置き換え、加工支援画面５０の表示欄６０Ｂに表示する。このため、加工支援画面５０には、基本文字列８２に含まれる変更対象文字列８２Ａの部分を変更後文字列８４Ｂに置換した文字列が出力対象文字列８６として表示される。

【0067】

変更後文字列８４Ｂの入力を受付けると、生成制御部２４は、対象録音音声データ７２、および変更対象文字列８２Ａに対する変更後文字列８４Ｂ、に応じた加工済音声データを生成する。

【0068】

詳細には、生成制御部２４は、対象録音音声データ７２における、変更対象文字列８２Ａに対応する変更対象音声区間に、変更後文字列８４Ｂの変更後文字列音声データを合成した、加工済音声データを生成する。変更対象音声区間とは、対象録音音声データ７２における、変更対象文字列８２Ａによって表される音素または音素群の音声区間である。

【0069】

具体的には、図２Ｄに示すように、基本文字列８２に含まれる変更対象文字列８２Ａ「マサオ」に替えて変更後文字列８４Ｂ「タクミ」が入力された場面を想定する。この場合、生成制御部２４は、対象録音音声データ７２における、変更対象文字列８２Ａ「マサオ」に対応する音声区間である変更対象音声区間を特定する。この特定には、公知の方法を用いればよい。

【0070】

また、生成制御部２４は、変更後文字列８４Ｂ「タクミ」の音声である変更後文字列音声データを生成する。生成制御部２４は、例えば、文字列を合成音声の音声データに変換する公知の変換方法を用いて、変更後文字列８４Ｂ「タクミ」の変更後文字列音声データを生成すればよい。

【0071】

そして、生成制御部２４は、対象録音音声データ７２における特定した変更対象音声区間に、生成した変更後文字列音声データを合成することで、加工済音声データを生成する。

【0072】

第３受付部２２Ｃが変更後文字列８４Ｂの入力を受付けると、表示制御部２１は、戻るボタン６０Ｃ、再生ボタン６０Ｆ、および保存ボタン６０Ｇに加えて、詳細編集ボタン６０Ｄ、簡単教示ボタン６０Ｅ、および設定変更ボタン６０Ｈを更に選択可能に加工支援画面５０に表示する。詳細編集ボタン６０Ｄ、簡単教示ボタン６０Ｅ、設定変更ボタン６０Ｈの詳細は後述する。

【0073】

この段階で、ユーザによる操作入力部１６Ａの操作指示によって再生ボタン６０Ｆまたは保存ボタン６０Ｇが操作された場面を想定する。すなわち、ユーザによる操作入力部１６Ａの操作によって、対象録音音声データ７２が選択され、対象録音音声データ７２の基本文字列８２における変更対象文字列８２Ａが指定され、更に変更対象文字列８２Ａに対する変更後文字列８４Ｂが入力された段階で、再生ボタン６０Ｆまたは保存ボタン６０Ｇが操作指示された場面を想定する。

【0074】

この場合、再生制御部２６および記憶処理部２７は、それぞれ上記と同様の処理を行えばよい。

【0075】

詳細には、ユーザによる操作入力部１６Ａの操作によって再生ボタン６０Ｆが操作指示された場合を想定する。この場合、再生制御部２６は、生成制御部２４で直前に生成された加工済音声データを再生する。具体的には、再生制御部２６は、基本文字列８２における変更対象文字列８２Ａ「マサオ」を変更後文字列８４Ｂ「タクミ」に変更した出力対象文字列８６「俺にはタクミっていう大切な友達がいる」を表す加工済音声データを再生する。

【0076】

また、この場面で、ユーザによる操作入力部１６Ａの操作によって保存ボタン６０Ｇが操作指示された場面を想定する。この場合、記憶処理部２７は、生成制御部２４で生成された加工済音声データを記憶部１２に記憶する。また、記憶処理部２７は、対象録音音声データ７２または対象録音音声データ７２の識別情報と、基本文字列８２と、変更対象文字列８２Ａと、変更後文字列８４Ｂと、を含む加工関連情報を、加工済音声データに対応付けて記憶部１２へ記憶する。

【0077】

次に、ユーザによる操作入力部１６Ａの操作指示によって簡単教示ボタン６０Ｅが操作された場面を想定する。簡単教示ボタン６０Ｅは、出力対象文字列８６の新たな発話音声の録音を指示するときに、ユーザが操作指示するための入力ボタンである。

【0078】

図１に戻り説明を続ける。簡単教示ボタン６０Ｅが操作されると、取得部２５は、基本文字列８２に含まれる変更対象文字列８２Ａを変更後文字列８４Ｂに変換した出力対象文字列８６の、ユーザによる発話音声を教示用録音音声データ７４として取得する。

【0079】

図２Ｅを用いて説明する。図２Ｅは、加工支援画面５０の一例の模式図である。図２Ｅには、第３受付部２２Ｃが変更後文字列８４Ｂの入力を受付けた後に、簡単教示ボタン６０Ｅが操作指示された場面を一例として示す。

【0080】

簡単教示ボタン６０Ｅが操作指示されると、受付部２２は、録音指示を操作入力部１６Ａから受付ける。取得部２５は、受付部２２から録音指示を受付けると、マイク１６Ｂで収音した音声データの録音を開始し、録音した録音音声データを教示用録音音声データとして取得する。

【0081】

例えば、ユーザは、簡単教示ボタン６０Ｅを操作指示した後に、表示欄６０Ｂに表示されている出力対象文字列８６を視認しながら所望の音響特徴量の音声を発話する。この段階では、表示欄６０Ｂには、出力対象文字列８６として基本文字列８２の変更対象文字列８２Ａを変更後文字列８４Ｂに変更した文字列が表示されている。ユーザは、基本文字列８２における変更対象文字列８２Ａ「マサオ」を変更後文字列８４Ｂ「タクミ」に変更した出力対象文字列８６「俺にはタクミっていう大切な友達がいる」の音声を所望の音響特徴量で発話する。

【0082】

そして、例えば、ユーザが簡単教示ボタン６０Ｅを再度操作指示すると、直前の簡単教示ボタン６０Ｅの操作指示から今回の簡単教示ボタン６０Ｅの操作指示までの間のユーザの発話音声が録音される。そして、取得部２５は、出力対象文字列８６「俺にはタクミっていう大切な友達がいる」のユーザによる発話音声を、教示用録音音声データとして取得する。

【0083】

図２Ｅに示すように、表示制御部２１は、ユーザによる発話音声の録音中、簡単教示ボタン６０Ｅを「録音中」を表す文字を表す録音中ボタン６０Ｅ’に変更して表示してよい。録音終了すると、表示制御部２１は、録音中ボタン６０Ｅ’に替えて簡単教示ボタン６０Ｅを表示する。

【0084】

図１に戻り説明を続ける。取得部２５が教示用録音音声データを取得すると、生成制御部２４は、対象録音音声データ７２、変更対象文字列８２Ａに対する変更後文字列８４Ｂ、および教示用録音音声データに応じた加工済音声データを生成する。

【0085】

図２Ｆを用いて説明する。図２Ｆは、加工済音声データ７６の生成の一例の説明図である。

【0086】

取得部２５が教示用録音音声データ７４を取得した場面を想定する。上述したように教示用録音音声データ７４は、基本文字列８２に含まれる変更対象文字列８２Ａを変更後文字列８４Ｂに変換した出力対象文字列８６の、ユーザによる発話音声を録音した録音音声データである。

【0087】

生成制御部２４は、教示用録音音声データ７４における、変更後文字列８４Ｂに対応する音声区間の変更後録音音声データ７４Ｂを特定する。また、生成制御部２４は、対象録音音声データ７２における、変更対象文字列８２Ａに対応する音声区間である変更対象音声区間７２Ａを特定する。そして、生成制御部２４は、対象録音音声データ７２における変更対象音声区間７２Ａに、教示用録音音声データ７４から特定した変更後録音音声データ７４Ｂを合成することによって、加工済音声データ７６を生成する。

【0088】

具体的には、生成制御部２４は、対象録音音声データ７２における基本文字列８２「俺にはマサオっていう大切な友達がいる」に含まれる変更対象文字列８２Ａ「マサオ」の変更対象音声区間７２Ａに、教示用録音音声データ７４に含まれる変更後文字列８４Ｂ「タクミ」に相当する変更後録音音声データ７４Ｂを合成する。これらの合成処理によって、生成制御部２４は、出力対象文字列８６に応じた加工済音声データ７６を生成する。

【0089】

詳細には、例えば、生成制御部２４は、以下の処理を順次又は一括処理することで、加工済音声データ７６を生成する。

【0090】

生成制御部２４は、教示用録音音声データ７４から特定された変更後文字列８４Ｂに対応する音声区間の変更後録音音声データ７４Ｂによって表される音声の高さを、対象録音音声データ７２における変更対象音声区間７２Ａの音声の高さに調整する。音声の高さは、音程、音高、または、キー、と称される場合がある。

【0091】

また、生成制御部２４は、音声の高さを調整した変更後録音音声データ７４Ｂに、対象録音音声データ７２における変更対象音声区間７２Ａの韻律を射影する。韻律を射影するとは、韻律を適用することを意味する。すなわち、生成制御部２４は、音声の高さを調整した変更後録音音声データ７４Ｂの韻律を、対象録音音声データ７２における変更対象音声区間７２Ａの韻律と一致するように調整する。

【0092】

そして、生成制御部２４は、韻律を射影した変更後録音音声データ７４Ｂを、対象録音音声データ７２における変更対象音声区間７２Ａに合成することで、加工済音声データ７６を生成する。

【0093】

変更後録音音声データ７４Ｂの対象録音音声データ７２への合成には、公知の方法を用いればよい。合成に用いる公知の方法には、例えば、無音部を活用したミキシング、クロスフェード、などを用いればよい。

【0094】

具体的には、生成制御部２４は、ユーザによって新たに録音された出力対象文字列８６「俺にはタクミっていう大切な友達がいる」の発話音声の教示用録音音声データ７４から、変更後文字列８４Ｂ「タクミ」の変更後録音音声データ７４Ｂを特定する。そして、生成制御部２４は、変更後文字列８４Ｂ「タクミ」の変更後録音音声データ７４Ｂの音声の高さを、基本文字列８２「俺にはマサオっていう大切な友達がいる」の対象録音音声データ７２における「マサオ」の音声区間である変更対象音声区間７２Ａの音声の高さに調整する。

【0095】

また、生成制御部２４は、音声の高さを調整した変更後録音音声データ７４Ｂ「タクミ」の韻律を、基本文字列８２「俺にはマサオっていう大切な友達がいる」の対象録音音声データ７２における対象録音音声データ７２「マサオ」の韻律に調整する。

【0096】

そして、生成制御部２４は、韻律を調整した変更後録音音声データ７４Ｂ「タクミ」を、対象録音音声データ７２における変更対象音声区間７２Ａ「マサオ」の音声区間に合成することで、加工済音声データ７６を生成する。

【0097】

この段階で、ユーザによる操作入力部１６Ａの操作指示によって再生ボタン６０Ｆまたは保存ボタン６０Ｇが操作された場面を想定する。すなわち、教示用録音音声データ７４を用いた加工済音声データ７６が生成された段階で、保存ボタン６０Ｇが操作指示された場面を想定する。

【0098】

この場合、再生制御部２６および記憶処理部２７は、それぞれ上記と同様の処理を行えばよい。

【0099】

詳細には、ユーザによる操作入力部１６Ａの操作によって再生ボタン６０Ｆが操作指示された場合を想定する。この場合、再生制御部２６は、生成制御部２４によって直前に生成された加工済音声データ７６を再生する。詳細には、再生制御部２６は、対象録音音声データ７２における変更対象文字列８２Ａに対応する変更対象音声区間７２Ａに、教示用録音音声データ７４における変更後文字列８４Ｂに対応する変更後録音音声データ７４Ｂを合成した、加工済音声データ７６を再生する。

【0100】

また、この場面で、ユーザによる操作入力部１６Ａの操作によって保存ボタン６０Ｇが操作指示された場面を想定する。この場合、記憶処理部２７は、生成制御部２４で直線に生成された加工済音声データ７６を記憶部１２に記憶する。また、記憶処理部２７は、対象録音音声データ７２または対象録音音声データ７２の識別情報と、基本文字列８２と、変更対象文字列８２Ａと、変更後文字列８４Ｂと、教示用録音音声データ７４と、を含む加工関連情報を、加工済音声データに対応付けて記憶部１２へ記憶する。

【0101】

次に、ユーザによる操作入力部１６Ａの操作指示によって設定変更ボタン６０Ｈが操作された場面を想定する。

【0102】

図２Ｅを用いて説明する、設定変更ボタン６０Ｈは、変更後文字列８４Ｂの音声の音響特徴量および合成方法の少なくとも一方の設定変更を指示するときに、ユーザが操作指示するための入力ボタンである。

【0103】

ユーザによる操作入力部１６Ａの操作指示によって設定変更ボタン６０Ｈが操作されると、表示制御部２１は、設定変更画面５２を表示部１４Ａに表示する。

【0104】

図２Ｇは、設定変更画面５２の一例の模式図である。設定変更画面５２は、設定変更入力欄６２Ａと、設定変更反映ボタン６２Ｂと、を含む。設定変更入力欄６２Ａは、変更後文字列８４Ｂの音声の音響特徴量および合成方法の少なくとも一方の設定変更を受付けるための入力欄である。図２Ｇには、音響特徴量として、音声の高さおよびゲイン(音量)の各々を調整するための入力欄を一例として示す。また、図２Ｇには、合成方法として、クロスフェードを調整するための入力欄を一例として示す。

【0105】

ユーザは設定変更画面５２を視認しながら操作入力部１６Ａを操作することで、変更後文字列８４Ｂの音声の音響特徴量および合成方法の少なくとも一方の設定変更情報を入力する。設定変更情報は、変更後文字列８４Ｂの設定変更後の音響特徴量および合成方法の少なくとも一方を表す情報である。

【0106】

更に、ユーザによる操作入力部１６Ａの操作指示によって設定変更反映ボタン６２Ｂが操作されると、操作入力部１６Ａは、設定変更画面５２を介して入力された設定変更情報を処理部２０へ出力する。

【0107】

図１に戻り説明を続ける。

【0108】

第４受付部２２Ｄは、操作入力部１６Ａから設定変更情報の入力を受付ける。すなわち、第４受付部２２Ｄは、変更後文字列８４Ｂの音声の音響特徴量および合成方法の少なくとも一方の設定変更情報の入力を受付ける。

【0109】

第４受付部２２Ｄが設定変更情報の入力を受付けた場合、生成制御部２４は、変更後文字列８４Ｂの音声区間の音声データの音響特徴量を、入力を受付けた設定変更情報に含まれる音響特徴量に調整する。そして、生成制御部２４は、対象録音音声データ７２における変更対象音声区間７２Ａに、音響特徴量を調整した変更後文字列８４Ｂの音声区間の音声データを該設定変更情報に含まれる合成方法に応じて合成した、加工済音声データ７６を生成する。

【0110】

例えば、取得部２５が教示用録音音声データ７４を取得した段階で、ユーザによる操作入力部１６Ａの操作指示によって設定変更ボタン６０Ｈが操作された場面を想定する。そして、ユーザによる操作入力部１６Ａの操作指示によって、設定変更画面５２を介して設定変更情報が入力された場面を想定する。

【0111】

この場合、生成制御部２４は、教示用録音音声データ７４から特定された変更後録音音声データ７４Ｂによって表される音声の音響特徴量を、設定変更情報に含まれる音響特徴量に調整する。例えば、生成制御部２４は、教示用録音音声データ７４から特定された変更後録音音声データ７４Ｂによって表される音声の高さおよびゲインを、設定変更情報に含まれる音声の高さおよびゲインに調整する。そして、生成制御部２４は、音響特徴量を調整した変更後録音音声データ７４Ｂを、設定変更情報に含まれる合成方法に応じて対象録音音声データ７２に合成することで、加工済音声データ７６を生成する。

【0112】

この段階で、ユーザによる操作入力部１６Ａの操作指示によって再生ボタン６０Ｆまたは保存ボタン６０Ｇが操作された場面を想定する。すなわち、設定変更情報に応じて音響特徴量および合成方法の少なくとも一方を調整した加工済音声データ７６が生成された段階で、保存ボタン６０Ｇが操作指示された場面を想定する。

【0113】

この場合、再生制御部２６および記憶処理部２７は、それぞれ上記と同様の処理を行えばよい。

【0114】

詳細には、ユーザによる操作入力部１６Ａの操作によって再生ボタン６０Ｆが操作指示された場合を想定する。この場合、再生制御部２６は、設定変更情報に応じて音響特徴量および合成方法の少なくとも一方が調整された加工済音声データ７６を再生する。

【0115】

また、この場面で、ユーザによる操作入力部１６Ａの操作によって保存ボタン６０Ｇが操作指示された場面を想定する。この場合、記憶処理部２７は、生成制御部２４で生成された加工済音声データ７６を記憶部１２に記憶する。また、記憶処理部２７は、対象録音音声データ７２または対象録音音声データ７２の識別情報と、基本文字列８２と、変更対象文字列８２Ａと、変更後文字列８４Ｂと、教示用録音音声データ７４と、設定変更情報と、を含む加工関連情報を、加工済音声データ７６に対応付けて記憶部１２へ記憶する。

【0116】

次に、ユーザによる操作入力部１６Ａの操作指示によって詳細編集ボタン６０Ｄが操作された場面を想定する。

【0117】

詳細編集ボタン６０Ｄは、変更後文字列８４Ｂの音声の音響特徴量および合成方法の少なくとも一方の詳細編集を指示するときに、ユーザが操作指示するための入力ボタンである。言い換えると、詳細編集ボタン６０Ｄは、設定変更ボタン６０Ｈに比べてより詳細な編集を指示するときに、ユーザが操作指示するための入力ボタンである。

【0118】

ユーザによる操作入力部１６Ａの操作指示によって詳細編集ボタン６０Ｄが操作されると、表示制御部２１は、詳細編集画面を表示部１４Ａに表示する。

【0119】

図２Ｈは、詳細編集画面５４の一例の模式図である。詳細編集画面５４は、詳細編集入力欄６４Ａと、詳細編集反映ボタン６４Ｂと、を含む。詳細編集入力欄６４Ａは、変更後文字列８４Ｂの音声の音響特徴量および合成方法の少なくとも一方の詳細編集情報の入力を受付けるための入力欄である。例えば、詳細編集入力欄６４Ａには、韻律などの音響特徴量と、クロスフェードポイントなどの合成方法と、を詳細に設定可能な画面が表示される。

【0120】

ユーザは詳細編集画面５４を視認しながら操作入力部１６Ａを操作することで、変更後文字列８４Ｂの音声の音響特徴量および合成方法の少なくとも一方の詳細編集情報を入力する。詳細編集情報は、変更後文字列８４Ｂの詳細な音響特徴量および合成方法の少なくとも一方を表す情報である。

【0121】

図１に戻り説明を続ける。

【0122】

第５受付部２２Ｅは、変更後文字列８４Ｂの音声の音響特徴量および合成方法の少なくとも一方の詳細編集情報の入力を受け付ける。

【0123】

第５受付部２２Ｅが詳細編集情報の入力を受付けた場合、生成制御部２４は、変更後文字列８４Ｂの音声データの音響特徴量を、入力を受付けた詳細編集情報に含まれる音響特徴量に調整する。そして、生成制御部２４は、対象録音音声データ７２における変更対象音声区間７２Ａに、音響特徴量を調整した変更後文字列８４Ｂの音声区間の音声データを、該詳細編集情報に含まれる合成方法に応じて合成した、加工済音声データ７６を生成する。

【0124】

例えば、取得部２５が教示用録音音声データ７４を取得した段階で、ユーザによる操作入力部１６Ａの操作指示によって詳細編集ボタン６０Ｄが操作された場面を想定する。そして、ユーザによる操作入力部１６Ａの操作指示によって、詳細編集画面５４を介して詳細編集情報が入力された場面を想定する。

【0125】

この場合、生成制御部２４は、教示用録音音声データ７４から特定された変更後録音音声データ７４Ｂによって表される音声の音響特徴量を、詳細編集情報に含まれる音響特徴量に調整する。例えば、生成制御部２４は、教示用録音音声データ７４から特定された変更後録音音声データ７４Ｂによって表される音声の韻律およびアクセント等の音響特徴量を、詳細編集情報に含まれ韻律およびアクセント等の音響特徴量に調整する。そして、生成制御部２４は、音響特徴量を調整した変更後録音音声データ７４Ｂを、詳細編集情報に含まれる合成方法に応じて合成することで、加工済音声データ７６を生成する。

【0126】

この段階で、ユーザによる操作入力部１６Ａの操作指示によって再生ボタン６０Ｆまたは保存ボタン６０Ｇが操作された場面を想定する。すなわち、詳細編集情報に応じて音響特徴量および合成方法の少なくとも一方を調整した加工済音声データ７６が生成された段階で、保存ボタン６０Ｇが操作指示された場面を想定する。

【0127】

この場合、再生制御部２６および記憶処理部２７は、それぞれ上記と同様の処理を行えばよい。

【0128】

詳細には、ユーザによる操作入力部１６Ａの操作によって再生ボタン６０Ｆが操作指示された場合を想定する。この場合、再生制御部２６は、詳細編集情報に応じて音響特徴量および合成方法の少なくとも一方が調整された加工済音声データ７６を再生する。

【0129】

また、この場面で、ユーザによる操作入力部１６Ａの操作によって保存ボタン６０Ｇが操作指示された場面を想定する。この場合、記憶処理部２７は、生成制御部２４で生成された加工済音声データ７６を記憶部１２に記憶する。また、記憶処理部２７は、対象録音音声データ７２または対象録音音声データ７２の識別情報と、基本文字列８２と、変更対象文字列８２Ａと、変更後文字列８４Ｂと、教示用録音音声データ７４と、詳細編集情報と、を含む加工関連情報を、加工済音声データに対応付けて記憶部１２へ記憶する。

【0130】

図１に戻り説明を続ける。

【0131】

次に、情報処理装置３０について説明する。

【0132】

情報処理装置３０は、音声加工支援装置１０で生成された加工関連情報を利用して対象録音音声データ７２を加工する情報処理装置である。

【0133】

情報処理装置３０は、記憶部３２と、出力部３４と、入力部３６と、通信部３８と、処理部４０と、を備える。記憶部３２、出力部３４、入力部３６、通信部３８、および処理部４０は、バス３９を介して通信可能に接続されている。

【0134】

記憶部３２は、各種のデータを記憶する。出力部１４は、各種の情報を出力するための出力デバイスである。本実施形態では、出力部１４は、表示部と、スピーカと、を含む。表示部およびスピーカは、音声加工支援装置１０の表示部１４Ａおよびスピーカ１４Ｂと同様である。

【0135】

入力部３６は、ユーザによる各種の指示を受付けるための入力デバイスである。入力部３６は、例えば、デジタルペン、マウス、またはトラックボール等のポインティングデバイスや、キーボード、マイク、等の入力デバイスである。

【0136】

通信部３８は、ネットワークＮＷを介して外部の情報処理装置と通信する。本実施形態では、通信部３８は、ネットワークＮＷを介して音声加工支援装置１０と通信する。

【0137】

処理部４０は、各種の情報処理を実行する。処理部４０は、受付部４１と、加工処理部４２と、を備える。受付部４１および加工処理部４２は、例えば、１または複数のプロセッサにより実現される。

【0138】

受付部４１は、音声加工支援装置１０から加工関連情報を受付ける。例えば、受付部４１は、通信部３８を介して音声加工支援装置１０から加工関連情報を受信することで、加工関連情報を受付ける。また、例えば、受付部４１は、音声加工支援装置１０で生成された加工関連情報をＵＳＢメモリなどの可搬型の記憶媒体を介して記憶部３２へ記憶し、該記憶部３２から加工関連情報を読取ることで、加工関連情報を受付けてもよい。

【0139】

加工関連情報は、上述したように、加工済音声データ７６の加工に関する情報である。

【0140】

加工処理部４２は、受付部４１で受付けた加工関連情報に基づいて、対象録音音声データ７２を加工した加工音声データを生成する。

【0141】

例えば、加工処理部４２は、加工関連情報に含まれる対象録音音声データ７２を特定する。加工関連情報に対象録音音声データ７２の識別情報が含まれる場合、加工処理部４２は、該識別情報によって識別される対象録音音声データ７２を記憶部３２などから特定する。

【0142】

そして、加工処理部４２は、特定した対象録音音声データ７２を、加工関連情報に応じて加工することで、加工音声データを生成する。加工処理部４２は、特定した対象録音音声データ７２を、加工関連情報に応じて上記生成制御部２４と同様にして加工することで、加工音声データを生成すればよい。

【0143】

例えば、受付部４１で受付けた加工関連情報に、対象録音音声データ７２と、基本文字列８２と、変更対象文字列８２Ａと、変更後文字列８４Ｂと、教示用録音音声データ７４と、詳細修正情報と、が含まれる場面を想定する。

【0144】

この場合、例えば、加工処理部４２は、加工関連情報に含まれる対象録音音声データ７２の基本文字列８２に含まれる変更対象文字列８２Ａを変更後文字列８４Ｂに置換する。そして、加工処理部４２は、教示用録音音声データ７４に含まれる変更後録音音声データ７４Ｂの音響特徴量を、詳細編集情報に含まれる音響特徴量に調整する。そして、加工処理部４２は、音響特徴量を調整した変更後録音音声データ７４Ｂを、加工関連情報に含まれる合成方法に応じて合成することで、加工済音声データ７６を生成する。

【0145】

また、受付部４１は、受付けた加工関連情報の少なくとも一部の変更情報を入力部３６から受付けてもよい。ユーザは入力部３６を操作指示することで、加工関連情報に含まれる情報の一部の変更指示を入力する。この場合、加工処理部４２は、対象録音音声データ７２を変更後の加工関連情報を用いて加工することで、加工音声データを生成すればよい。

【0146】

例えば、ユーザが入力部３６を操作指示することで、加工関連情報に含まれる変更対象文字列８２Ａおよび変更後文字列８４Ｂを変更した場合を想定する。

【0147】

この場合、受付部４１は、変更された変更対象文字列８２Ａおよび変更された変更後文字列８４Ｂを変更情報として受け付ける。加工処理部４２は、加工関連情報に含まれる対象録音音声データ７２の基本文字列８２の内、変更情報によって表される変更対象文字列８２Ａを変更情報によって表される変更後文字列８４Ｂに置換する。

【0148】

そして、加工処理部４２は、教示用録音音声データ７４に含まれる変更後録音音声データ７４Ｂの音響特徴量を、詳細編集情報に含まれる音響特徴量に調整する。そして、加工処理部４２は、音響特徴量を調整した変更後録音音声データ７４Ｂを、加工関連情報に含まれる合成方法に応じて合成することで、加工済音声データ７６を生成する。

【0149】

このように、本実施形態の情報処理装置３０は、音声加工支援装置１０で作成された加工関連情報を用いて、対象録音音声データ７２を加工する。このため、情報処理装置３０は、容易に対象録音音声データ７２を加工することができる。また、本実施形態の情報処理装置３０は、受付けた加工関連情報の少なくとも一部の変更情報を入力部３６から受付け、対象録音音声データ７２を変更後の加工関連情報を用いて加工する。このため、本実施形態の情報処理装置３０は、対象録音音声データ７２などの録音音声データの加工に関するユーザによる容易な調整を支援することができる。

【0150】

次に、本実施形態の音声加工支援システム１で実行する情報処理を説明する。

【0151】

図３は、本実施形態の音声加工支援装置１０が実行する情報処理の流れの一例を示すフローチャートである。

【0152】

音声加工支援装置１０の表示制御部２１は、加工支援画面５０を表示部１４Ａに表示する（ステップＳ１００）。ステップＳ１００の処理によって、例えば、図２Ａに示す加工支援画面５０が表示部１４Ａに表示される。

【0153】

第１受付部２２Ａは、ステップＳ１００で表示された加工支援画面５０を介して、基本録音音声データ７０から対象録音音声データ７２の選択を受付ける（ステップＳ１０２）。ユーザは、操作入力部１６Ａを操作することで、表示された１または複数の基本録音音声データ７０の中から、所望の処理対象の１つの基本録音音声データ７０を選択する。第１受付部２２Ａは、選択欄６０Ａを介して選択を受付けた１つの基本録音音声データ７０を、対象録音音声データ７２として受け付ける。

【0154】

変換部２３は、ステップＳ１０２で選択を受付けた対象録音音声データ７２を基本文字列８２に変換する（ステップＳ１０４）。表示制御部２１は、ステップＳ１０４で変換された基本文字列８２を表示部１４Ａに表示する（ステップＳ１０６）。ステップＳ１０６の処理によって、例えば、図２Ｂに示すように、加工支援画面５０の表示欄６０Ｂに基本文字列８２が表示される。

【0155】

第２受付部２２Ｂは、表示された基本文字列８２の内、変更対象文字列８２Ａの指定を受付ける（ステップＳ１０８）。ステップＳ１０８の処理によって、図２Ｃに示すように、例えば、表示欄６０Ｂに表示されている基本文字列８２「俺にはマサオっていう大切な友達がいる」の内、「マサオ」が変更対象文字列８２Ａとして指定される。

【0156】

次に、第３受付部２２Ｃが、ステップＳ１０８で受付けた変更対象文字列８２Ａに対する変更後文字列８４Ｂの入力を受付ける（ステップＳ１１０）。図２Ｄに示すように、ユーザは、操作入力部１６Ａを操作することで、例えば、変更対象文字列８２Ａ「マサオ」に替えて変更後文字列８４Ｂ「タクミ」を入力する。変更後文字列８４Ｂが入力されると、第３受付部２２Ｃは変更後文字列８４Ｂの入力を受付ける。

【0157】

変更後文字列８４Ｂの入力を受付けると、生成制御部２４は、対象録音音声データ７２、および変更対象文字列８２Ａに対する変更後文字列８４Ｂ、に応じた加工済音声データ７６を生成する（ステップ１１２）。ステップＳ１２２では、生成制御部２４は、対象録音音声データ７２における、変更対象文字列８２Ａに対応する変更対象音声区間７２Ａに、変更後文字列８４Ｂの変更後録音音声データ７４Ｂを合成した、加工済音声データ７６を生成する。

【0158】

次に、受付部２２が、再生指示を受付けたか否かを判断する（ステップＳ１１４）。受付部２２は、ユーザによる操作入力部１６Ａの操作指示によって再生ボタン６０Ｆが操作され、操作入力部１６Ａから再生指示を受付けたか否かを判別することでステップＳ１１４の判断を行う。ステップＳ１１４で否定判断すると（ステップＳ１１４：Ｎｏ）、後述するステップＳ１１８へ進む。

【0159】

再生指示を受付けた場合（ステップＳ１１４：Ｙｅｓ）、再生制御部２６は、生成制御部２４によって直前に生成された加工済音声データ７６を再生する再生処理を実行する（ステップＳ１１６）。

【0160】

次に、受付部２２は、保存指示を受付けたか否かを判断する（ステップＳ１１８）。保存指示を受付けた場合（ステップＳ１１８：Ｙｅｓ）、ステップＳ１２０へ進む。

【0161】

ステップＳ１２０では、記憶処理部２７が記憶処理を実行する（ステップＳ１２０）。記憶処理部２７は、直前に生成された加工済音声データ７６を記憶部１２に記憶する。また、記憶処理部２７は、該加工済音声データ７６の加工に関する加工関連情報を、該加工済音声データ７６に対応付けて記憶部１２に記憶する。そして、本ルーチンを終了する。

【0162】

一方、ステップＳ１１８で否定判断すると（ステップＳ１１８：Ｎｏ）、ステップＳ１２２へ進む。

【0163】

ステップＳ１２２では、受付部２２が、簡単教示指示を受付けたか否かを判断する（ステップＳ１２２）。受付部２２は、ユーザによる操作入力部１６Ａの操作指示によって簡単教示ボタン６０Ｅが操作され、簡単教示ボタン６０Ｅから簡単教示指示を受付けたか否かを判別することでステップＳ１２２の判断を行う。

【0164】

簡単教示指示を受付けたと判断すると（ステップＳ１２２：Ｙｅｓ）、ステップＳ１２４へ進む。ステップＳ１２４では、取得部２５は、基本文字列８２に含まれる変更対象文字列８２Ａを変更後文字列８４Ｂに変換した出力対象文字列８６の、ユーザによる発話音声を教示用録音音声データ７４として取得する（ステップＳ１２４）。

【0165】

生成制御部２４は、対象録音音声データ７２、変更対象文字列８２Ａに対する変更後文字列８４Ｂ、およびステップＳ１２４で取得した教示用録音音声データ７４に応じた加工済音声データ７６を生成する（ステップＳ１２６）。図２Ｆに示すように、例えば、生成制御部２４は、教示用録音音声データ７４における、変更後文字列８４Ｂに対応する音声区間の変更後録音音声データ７４Ｂを特定する。また、生成制御部２４は、対象録音音声データ７２における、変更対象文字列８２Ａに対応する変更対象音声区間７２Ａを特定する。そして、生成制御部２４は、対象録音音声データ７２における変更対象音声区間７２Ａに、教示用録音音声データ７４から特定した変更後録音音声データ７４Ｂを合成することによって、加工済音声データ７６を生成する。そして、上記ステップＳ１１４へ進む。

【0166】

上記ステップＳ１２２で否定判断すると（ステップＳ１２２：Ｎｏ）、ステップＳ１２８へ進む。ステップＳ１２８では、受付部２２が、設定変更指示を受付けたか否かを判断する（ステップＳ１２８）。受付部２２は、ユーザによる操作入力部１６Ａの操作指示によって設定変更ボタン６０Ｈが操作され、設定変更ボタン６０Ｈから設定変更指示を受付けたか否かを判別することでステップＳ１２８の判断を行う。

【0167】

設定変更指示を受付けたと判断すると（ステップＳ１２８：Ｙｅｓ）、ステップＳ１３０へ進む。ステップＳ１３０では、表示制御部２１は、設定変更画面５２を表示部１４Ａに表示する（ステップＳ１３０）。ステップＳ１３０の処理によって、例えば、図２Ｇに示す設定変更画面５２が表示される。ユーザは設定変更画面５２を視認しながら操作入力部１６Ａを操作することで、変更後文字列８４Ｂの音声の音響特徴量および合成方法の少なくとも一方の設定変更情報を入力する。ユーザによる操作入力部１６Ａの操作指示によって設定変更反映ボタン６２Ｂが操作されると、第４受付部２２Ｄは設定変更情報の入力を受付ける（ステップＳ１３２）。

【0168】

生成制御部２４は、ステップＳ１３２で受付けた設定変更情報に応じた加工済音声データ７６を生成する（ステップＳ１３４）。生成制御部２４は、変更後文字列８４Ｂの音声区間の音声データの音響特徴量を、ステップＳ１３２で受付けた設定変更情報に含まれる音響特徴量に調整する。そして、生成制御部２４は、対象録音音声データ７２における変更対象音声区間７２Ａに、音響特徴量を調整した変更後文字列８４Ｂの音声区間の音声データを、ステップＳ１３２で受付けた設定変更情報に含まれる合成方法に応じて合成した、加工済音声データ７６を生成する。そして、上記ステップＳ１１４へ進む。

【0169】

ステップＳ１２８で否定判断すると（ステップＳ１２８：Ｎｏ）、ステップＳ１３６へ進む。

【0170】

ステップＳ１３６では、受付部２２が、詳細編集指示を受け付けたか否かを判断する（ステップＳ１３６）。受付部２２は、ユーザによる操作入力部１６Ａの操作指示によって詳細編集ボタン６０Ｄが操作され、詳細編集ボタン６０Ｄから詳細編集指示を受付けたか否かを判別することでステップＳ１３６の判断を行う。ステップＳ１３６で否定判断すると（ステップＳ１３６：Ｎｏ）、上記ステップＳ１１４へ進む。なお、ステップＳ１３６で否定判断すると、ステップＳ１０２へ進んでもよい。

【0171】

詳細編集指示を受け付けたと判断すると（ステップＳ１３６：Ｙｅｓ）、ステップＳ１３８へ進む。ステップＳ１３８では、表示制御部２１が詳細編集画面５４を表示部１４Ａに表示する（ステップＳ１３８）。ステップＳ１４０の処理によって、例えば、図２Ｈに示す詳細編集画面５４が表示部１４Ａに表示される。

【0172】

ユーザは詳細編集画面５４を視認しながら操作入力部１６Ａを操作することで、変更後文字列８４Ｂの音声の音響特徴量および合成方法の少なくとも一方の詳細編集情報を入力する。ユーザによる操作入力部１６Ａの操作指示によって詳細編集反映ボタン６４Ｂが操作されると、第５受付部２２Ｅは詳細編集情報の入力を受付ける（ステップＳ１４０）。

【0173】

生成制御部２４は、変更後文字列８４Ｂの音声データの音響特徴量を、入力を受付けた詳細編集情報に含まれる音響特徴量に調整する。そして、生成制御部２４は、対象録音音声データ７２における変更対象音声区間７２Ａに、音響特徴量を調整した変更後文字列８４Ｂの音声区間の音声データを、該詳細編集情報に含まれる合成方法に応じて合成した、加工済音声データ７６を生成する（ステップＳ１４２）。そして、上記ステップ１１４へ進む。

【0174】

次に、本実施形態の情報処理装置３０で実行する情報処理の流れの一例を説明する。

【0175】

図４は、本実施の形態の情報処理装置３０が実行する情報処理の流れの一例を示すフローチャートである。

【0176】

受付部４１は、音声加工支援装置１０から加工関連情報を受付ける（ステップＳ２００）。

【0177】

また、受付部４１は、ステップＳ２００で受付けた加工関連情報の少なくとも一部の変更情報を受付ける（ステップＳ２０２）。

【0178】

加工処理部４２は、ステップ２００で受付けた加工関連情報およびステップＳ２０２で受付けた変更情報を用いて、加工音声データを生成する（ステップＳ２０４）。そして、加工処理部４２は、ステップＳ２０４で生成した加工音声データを、出力部３４へ出力する（ステップＳ２０６）。例えば、加工処理部４２は、ステップＳ０４で生成した加工音声データの音声を、出力部３４に含まれるマイクから出力する。加工処理部４２は、ステップＳ２０４で生成した加工音声データを、記憶部３２へ記憶してもよい。また、加工処理部４２は、ステップＳ２０４で生成した加工音声データを、通信部３８を介して外部の他の情報処理装置へ送信してもよい。そして、本ルーチンを終了する。

【0179】

以上説明したように、本実施形態の音声加工支援装置１０は、第１受付部２２Ａと、表示制御部２１と、第２受付部２２Ｂと、を備える。第１受付部２２Ａは、録音された１または複数の基本録音音声データ７０から、処理対象の基本録音音声データ７０である対象録音音声データ７２の選択を受付ける。表示制御部２１は、対象録音音声データ７２を基本文字列８２に変換し表示する。第２受付部２２Ｂは、表示された基本文字列８２の内、変更対象の変更対象文字列８２Ａの指定を受付ける。生成制御部２４は、対象録音音声データ７２および変更対象文字列８２Ａに応じた加工済音声データ７６を生成する。

【0180】

ここで、従来技術では、ユーザによる操作指示を介さない自動抽出および自動合成によって音声データを加工した加工済音声データを生成している。このため、従来技術では、録音音声データの加工に関するユーザによる容易な調整を支援することは困難であった。

【0181】

一方、本実施形態の音声加工支援装置１０は、複数の基本録音音声データ７０から、処理対象の基本録音音声データ７０である対象録音音声データ７２のユーザによる選択を受付ける。このため、ユーザは、複数の基本録音音声データ７０の内、所望の基本録音音声データ７０を対象録音音声データ７２として選択することができる。また、本実施形態の音声加工支援装置１０は、対象録音音声データ７２の基本文字列８２を表示し、基本文字列８２における変更対象の変更対象文字列８２Ａの指定を受付ける。このため、ユーザは、対象録音音声データ７２の基本文字列８２の内、所望の文字列を変更対象文字列８２Ａとして指定することができる。そして、生成制御部２４は、対象録音音声データ７２および変更対象文字列８２Ａに応じた加工済音声データ７６を生成する。このため、生成制御部２４は、ユーザによる選択および指定に応じた加工済音声データ７６を生成することができる。

【0182】

すなわち、本実施形態の音声加工支援装置１０では、ユーザは、所望の基本録音音声データ７０を対象録音音声データ７２として選択し、対象録音音声データ７２の基本文字列８２の内の所望の文字列を変更対象文字列８２Ａとして指定することができる。

【0183】

従って、本実施形態の音声加工支援装置１０は、基本録音音声データ７０などの録音音声データの加工に関するユーザによる容易な調整を支援することができる。

【0184】

また、本実施形態の音声加工支援装置１０は、基本録音音声データ７０から選択された対象録音音声データ７２および変更対象文字列８２Ａに応じた加工済音声データ７６を生成する。

【0185】

このため、本実施形態の音声加工支援装置１０は、録音された発話音声の基本録音音声データ７０と同じ声質の発話音声を得ることが困難な場合であっても、基本録音音声データ７０と同じまたは類似する声質の新たな台詞の加工済音声データ７６を容易に生成することが可能となる。

【0186】

また、本実施形態の音声加工支援装置１０は、第３受付部２２Ｃを備えることができる。第３受付部２２Ｃは、変更対象文字列８２Ａに対する変更後文字列８４Ｂの入力を受付ける。生成制御部２４は、対象録音音声データ７２および変更対象文字列８２Ａに対する変更後文字列８４Ｂに応じた、加工済音声データ７６を生成する。

【0187】

このように、本実施形態の音声加工支援装置１０は、対象録音音声データ７２および変更後文字列８４Ｂに応じた加工済音声データ７６を生成する。このため、本実施形態の音声加工支援装置１０は、上記効果に加えて、演者の意図などを反映した録音済の高音質および高品質の対象録音音声データ７２を基準とした加工済音声データ７６を容易に生成することができる。

【0188】

ここで、従来技術では、録音音声が潤沢にあるにもかかわらず、未収録の台詞や一部の文言を変更する場合、再度録音を行う必要があった。

【0189】

一方、本実施形態の音声加工支援装置１０は、複数の基本録音音声データ７０から選択された対象録音音声データ７２に含まれる変更対象文字列８２Ａの変更対象音声区間７２Ａを、ユーザによって入力された変更後文字列８４Ｂの音声データに置換した加工済音声データ７６を生成する。

【0190】

このため、本実施形態の音声加工支援装置１０では、複数の基本録音音声データ７０が既に記憶されているにも拘わらず、一部の文言を変更した音声データを得るために、再度録音を行う必要がない。このため、本実施形態の音声加工支援装置１０は、上記効果に加えて、ユーザの負荷軽減を図ることができる。

【0191】

また、従来技術では、台詞を発話するユーザの体調や声帯の変化等により、同じユーザが発話した音声の音声データであっても、合成すると違和感を含む加工済音声データが生成される場合があった。違和感を含む加工済音声データの調整には、時間およびコストを要する場合があった。

【0192】

また、従来技術では、高品質で且つ演者の意図に沿った発話音声の音声合成データを作成する場合、学習用音声データを多数収録し、機械学習を実施、および検証を行う必要があった。このため、従来技術では、多くのキャラクターの演技音声を短期間、低予算で作成したいという実現要求にこたえられなかった。また、合成音声のみを加工することで加工済音声データを調整する場合、音声の発話を職業とするユーザの仕事を奪うイメージを持たれる場合があった。

【0193】

一方、本実施形態の音声加工支援装置１０は、複数の基本録音音声データ７０から選択された対象録音音声データ７２を基準とし、対象録音音声データ７２の一部である変更対象文字列８２Ａの変更対象音声区間７２Ａを、ユーザによって入力された変更後文字列８４Ｂの音声データに置換した加工済音声データ７６を生成する。

【0194】

このため、本実施形態の音声加工支援装置１０は、上記効果に加えて、ユーザによる発話音声の対象録音音声データ７２を用いて、加工済音声データ７６を低期間および低予算で容易に生成することができる。

【0195】

次に、本実施形態の音声加工支援装置１０および情報処理装置３０のハードウェア構成を説明する。

【0196】

図５は、本実施形態の音声加工支援装置１０および情報処理装置３０の一例のハードウェア構成図である。

【0197】

本実施形態の音声加工支援装置１０および情報処理装置３０は、ＣＰＵ１０Ａなどの制御装置と、ＲＯＭ（Read Only Memory）１０ＢやＲＡＭ（Random Access Memory）１０Ｃなどの記憶装置と、ＨＤＤ（ハードディスクドライブ）１０Ｄと、ネットワークに接続して通信を行うＩ／Ｆ１０Ｅと、各部を接続するバス１０Ｆと、を備える。

【0198】

本実施形態の音声加工支援装置１０および情報処理装置３０で実行されるプログラムは、ＲＯＭ１０Ｂ等に予め組み込まれて提供される。

【0199】

本実施形態の音声加工支援装置１０および情報処理装置３０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（FD）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0200】

さらに、本実施形態の音声加工支援装置１０および情報処理装置３０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる音声加工支援装置１０および情報処理装置３０で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0201】

本実施形態の音声加工支援装置１０および情報処理装置３０で実行されるプログラムは、コンピュータを上述した音声加工支援装置１０の各部として機能させうる。このコンピュータは、ＣＰＵ１０Ａがコンピュータで読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0202】

なお、上記実施形態では、音声加工支援装置１０および情報処理装置３０が、単体の装置として構成されていることを想定して説明した。しかし、音声加工支援装置１０および情報処理装置３０は、物理的に分離されてネットワークなどを介して通信可能に接続された複数の装置により構成されていてもよい。

【0203】

なお、上記には、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0204】

１音声加工支援システム
１０音声加工支援装置
２１表示制御部
２２Ａ第１受付部
２２Ｂ第２受付部
２２Ｃ第３受付部
２２Ｄ第４受付部
２２Ｅ第５受付部
２２Ｆ第６受付部
２４生成制御部
２５取得部
２６再生制御部
３０情報処理装置
４１受付部
４２加工処理部

【図1】