(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-01
(45)【発行日】2023-05-12
(54)【発明の名称】クラウド音声変換システム
(51)【国際特許分類】
G10L 21/003 20130101AFI20230502BHJP
【FI】
G10L21/003
(21)【出願番号】P 2023018018
(22)【出願日】2023-02-09
(62)【分割の表示】P 2018187315の分割
【原出願日】2018-10-02
【審査請求日】2023-02-09
【早期審査対象出願】
(73)【特許権者】
【識別番号】518351034
【氏名又は名称】株式会社TARVO
(74)【代理人】
【識別番号】100212923
【氏名又は名称】清水 貴雄
(72)【発明者】
【氏名】小林 和弘
【審査官】大野 弘
(56)【参考文献】
【文献】特開2008-026489(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/003
(57)【特許請求の範囲】
【請求項1】
ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声(以下、「入力音声」という。)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記端末装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置にて起動させるための起動信号を前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記起動信号を受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システム。
【請求項2】
前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置にて起動させるための前記起動信号を送信する、
請求項1に記載の音声変換システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声変換システムに関する。
【背景技術】
【0002】
従来から、話者ユーザが発声する音声(以下、「入力音声」という。)を異なる音声に変換する音声変換システムが知られている(例えば、特許文献1参照)。この従来の音声変換システムによれば、話者ユーザがマイクに入力音声を入力した場合に、あらかじめ用意されたアニメキャラクタなどの目標の音声であるターゲット音声に近づくよう入力音声が音声変換されて生成された変換音声がスピーカから出力される。
【先行技術文献】
【特許文献】
【0003】
【発明の開示】
【発明が解決しようとする課題】
【0004】
近年、インターネットあるいは仮想空間上において、一のユーザが他のユーザと音声でコミュニケーションをとる機会が増えている。音声変換技術は音声コミュニケーションの付加価値を高めるものであるが、その機会が増えるに従って、どのユーザでも、どの端末装置からでも利用することのできる音声変換が求められるようになっている。しかしながら、その要望を実現することのできる音声変換システムは存在していなかった。
【0005】
また、従来の音声変換システムは、話者ユーザから入力音声が入力されるたびに分析されたスペクトル特徴量などの音響特徴量が用いられて、入力音声が音声変換されるにすぎなかった。そのため、話者ユーザそれぞれの特性(例えば、年齢、性別)に基づいて最適な変換音声が提供されるわけではなかった。
【0006】
本発明の目的は、クラウドを通じて変換音声を提供することのできる音声変換システムを提供することである。
【課題を解決するための手段】
【0007】
第1の発明は、
ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声(以下、「入力音声」という。)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記サーバ装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記変換モデルを受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システムである。
【0008】
また、第1の発明において、
前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置に送信してもよい。
【0009】
第2の発明は、
ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声(以下、「入力音声」という。)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記端末装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置にて起動させるための起動信号を前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記起動信号を受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システムである。
【0010】
また、第2の発明において、
前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置にて起動させるための前記起動信号を送信してもよい。
【0011】
また、第1および第2の発明において、
前記変換音声は、前記入力音声を音声変換して生成された音声であることを識別する情報を含んでいてもよい。
【0012】
また、第1および第2の発明において、
前記サーバ装置は、前記変換音声を前記記憶部に記憶させる記憶手段をさらに備え、
前記端末装置は、前記変換音声を評価する評価手段をさらに備え、
前記記憶手段は、前記端末装置において評価された前記変換音声を、その評価に関連づけて前記記憶部に記憶させてもよい。
【0013】
また、第1および第2の発明において、
前記サーバ装置は、前記変換音声を前記記憶部に記憶させる記憶手段、および前記変換音声を評価する評価手段をさらに備え、
前記記憶手段は、前記サーバ装置において評価された前記変換音声を、その評価に関連づけて前記記憶部に記憶させてもよい。
【0014】
また、第1および第2の発明において、
前記記憶部は、前記ユーザに関する情報、前記入力音声、前記ターゲット音声、前記変換音声、および前記評価を記憶しており、
前記サーバ装置は、前記記憶部に記憶された前記ユーザに関する情報、前記入力音声、前記ターゲット音声、前記変換音声、および前記評価をアプリケーションプログラミングインターフェース(API)に共有する共有手段をさらに備えてもよい。
【0015】
また、第1および第2の発明において、
前記端末装置は、前記ユーザが前記ターゲット音声の音の高さを再現する際の目安となるガイドを表示部に表示させる表示手段をさらに備えてもよい。
【発明の効果】
【0016】
本発明によれば、クラウドを通じて変換音声を提供することのできる音声変換システムを提供することができる。
【図面の簡単な説明】
【0017】
【
図1】本実施形態における、クラウド音声変換システムの機能的構成を示す図である。
【
図2】本実施形態における、音声変換処理の模式図である。
【
図3】本実施形態における、音声変換の概略を示す図である。
【
図4】本実施形態における、音声変換処理のフローを示す図である。
【
図5】本実施形態における、音声評価処理の模式図である。
【
図6】本実施形態における、音声評価処理のフローを示す図である。
【発明を実施するための形態】
【0018】
[実施形態]
本発明の実施の形態にかかるクラウド音声変換システム1について、
図1~
図6を参照して説明する。以下では、端末装置3を操作する人物をまとめて「ユーザ」という。また、説明の便宜上、自身の音声(入力音声)を入力するユーザを「話者ユーザ」といい、変換音声のダウンロードの要求を行うユーザは「要求ユーザ」といい、クラウドを通じて変換音声あるいはターゲット音声を提供するユーザを「提供ユーザ」という場合がある。
【0019】
また、「変換音声」は入力音声を変換モデルに基づいて変換した音声である。「ターゲット音声」は、話者ユーザが自身の音声を近づけたいと目標にする音声である。したがって、「変換音声」が「ターゲット音声」となることがある。
【0020】
また、本実施形態において、「音声」には、「声質」、「音高」、および「話し方(イントネーション、話す速さなど)」が含まれる。
【0021】
<クラウド音声変換システム1の説明>
図1に示される本発明のクラウド音声変換システム1では、ユーザの操作を受けつける端末装置3と、端末装置3と通信ネットワーク4を介して接続されるとともに記憶部21を備えるクラウドサーバ装置2とを備える。
【0022】
<ハードウェア構成>
図1を参照して、本発明のクラウド音声変換システム1を構成するクラウドサーバ装置2のハードウェア構成、および、音声変換が提供される端末装置3のハードウェア構成について説明する。
【0023】
なお、各ユーザには、それぞれ異なるアカウント(識別情報)が付与される。各端末装置3が通信ネットワーク4を介してクラウドサーバ装置2と通信を行う場合には、その端末装置3からユーザのアカウントが送信される。送信されたアカウントは、クラウドサーバ装置2において所定の認証がなされる。これにより、クラウドサーバ装置2と各端末装置3との通信が可能となる。
【0024】
<クラウドサーバ装置2の説明>
クラウドサーバ装置2は、制御部20、記憶部21、および、ネットワークインターフェース22を備える。
【0025】
記憶部21およびネットワークインターフェース22は、バス200を介してクラウドサーバ装置2の制御部20に接続される。
【0026】
制御部20は、クラウドサーバ装置2の動作を制御する。
【0027】
記憶部21は、主にHDD(Hard Disk Drive)、RAM(Random Access Memory)およびROM(Read Only Memory)で構成される。記憶部21には、後述の変換音声などがユーザのアカウントに関連づけられた状態で、蓄積されて記憶される。
【0028】
ネットワークインターフェース22は、クラウドサーバ装置2と端末装置3との間でデータを送受信するために、通信ネットワーク4に接続される。
【0029】
<クラウドサーバ装置2の制御部20の機能的構成>
クラウドサーバ装置2の制御部20は、所定のプログラムを実行することにより、照合手段201、記憶手段202、モデル提供手段203、音声提供手段204、および通信手段205として機能する。
【0030】
<照合手段201の説明>
照合手段201は、端末装置3から送信されるユーザのアカウントを用いて、ユーザのアカウントの認証を行う。
【0031】
<記憶手段202の説明>
記憶手段202は、端末装置3に入力された話者ユーザの入力音声を音声変換することで生成された変換音声を記憶部21に蓄積して記憶させる。
【0032】
また、記憶手段202は、入力音声を入力した話者ユーザのアカウント、変換音声をクラウドサーバ装置2にアップロードした提供ユーザのアカウント、および変換音声をダウンロードした要求ユーザのアカウントなどを入力音声、変換音声などと関連づけて記憶部21に記憶させる。
【0033】
<モデル提供手段203の説明>
モデル提供手段203は、話者ユーザの求めに応じて、クラウドサーバ装置2に格納される変換モデルであって入力音声を音声変換して変換音声を生成する変換モデルを端末装置3に送信する。
【0034】
なお、この変換モデルは、例えば、平均的な変換モデル、あるいは最適化するよう学習(生成)された変換モデルなどで構成される。
【0035】
平均的な変換モデルは、話者ユーザが、話者ユーザに関する情報をクラウドサーバ装置2に送信しなくとも提供される変換モデルである。すなわち、平均的な変換モデルは、ユーザの情報(ユーザのアカウント、および、ユーザの年齢、性別などの属性情報など)を登録することなく(ログインすることなく)使用することができるが、音声変換の質が低い。
【0036】
一方、最適化するよう学習された変換モデルは、話者ユーザが、話者ユーザに関する情報をクラウドサーバ装置2に送信することにより提供される。すなわち、最適化するよう学習された変換モデルは、ユーザの情報を登録する(ログインする)必要があるが、話者ユーザの属性情報(年齢、性別など)に基づいて音声変換を最適化するように学習される。したがって、最適化するよう学習された変換モデルは、平均的なモデルよりも音声変換の質が高い。
【0037】
最適化は、話者ユーザの属性情報に応じて、最適な変換モデルが選択されることにより実施される。例えば、話者ユーザの年齢、性別などの属性情報(パラメータ)に基づいて、複数の変換モデルで構成される変換モデル群から、最適な変換関数を備えた1つの変換モデルが選択される。
【0038】
以下では、モデル提供手段203が、端末装置3に対して最適化するよう学習された変換モデルを提供する例が記載されている。
【0039】
<音声提供手段204の説明>
音声提供手段204は、要求ユーザの操作に応じて、クラウドを通じて要求ユーザの端末装置3に変換音声を提供する。具体的には、音声提供手段204は、要求ユーザが記憶部21に記憶されている提供ユーザの変換音声をクラウドを通じてダウンロードしたい旨の要求を行った場合に、記憶部21からその変換音声を読み出す。音声提供手段204は、記憶部21から読み出された提供ユーザの変換音声を、通信手段207を介して要求ユーザの端末装置3へ送信する。
【0040】
なお、この提供ユーザの変換音声をダウンロードした要求ユーザのアカウントは、ダウンロードされた変換音声に関連づけられて記憶部21に記憶される。これにより、いずれのユーザがどのユーザの変換音声をダウンロードしたかが蓄積して記憶部21に記憶される。
【0041】
<通信手段205の説明>
通信手段205は、ユーザのアカウント、変換モデルを要求する情報などを端末装置3から受信する。
【0042】
また、通信手段205は、変換モデル、変換音声などを端末装置3へ送信する。
【0043】
<端末装置3の説明>
端末装置3は、スピーカ330、およびマイク360が外部接続される、スマートフォンなどの端末装置である。この端末装置3において、クラウドサーバ装置2から提供される変換モデル、ならびに所定のプログラムおよびデータに基づいて音声変換が行われる。
【0044】
また、端末装置3は、他端末装置3およびクラウドサーバ装置2との間で、インターネットあるいはLANなどの通信ネットワーク4を介して互いにデータ通信をすることができる。
【0045】
端末装置3は、制御部30、記憶部31、ネットワークインターフェース32、オーディオ処理部33、グラフィック処理部34、操作部35、音声入力部36を備える。
【0046】
記憶部31、ネットワークインターフェース32、オーディオ処理部33、グラフィック処理部34、操作部35、および音声入力部36は、バス300を介して、制御部30に接続される。
【0047】
制御部30は、端末装置3の動作を制御する。
【0048】
記憶部31は、主にHDD、RAMおよびROMで構成される。記憶部31には、例えば、本実施形態における音声変換を実行するための変換モデル、変換音声、ユーザのアカウントなどが記憶される。
【0049】
ネットワークインターフェース32は、端末装置3とクラウドサーバ装置2との間でデータを送受信するために、通信ネットワーク4に接続される。これにより、端末装置3は、クラウドサーバ装置2との間で、ユーザのアカウント、入力音声、変換音声等を送受信することができる。
【0050】
オーディオ処理部33は、制御部30の指示に従ってデジタルの音声を再生および合成する。また、オーディオ処理部33には、スピーカ330が外部接続される。音声は、スピーカ330から出力される。
【0051】
グラフィック処理部34は、制御部30の指示に従って画像および映像を描画する。グラフィック処理部34にて描画された画像および映像は、液晶画面340に表示される。
【0052】
操作部35には、ユーザからの操作信号が入力される。本実施形態において操作部35には、入力位置検出装置であるタッチパッド350を介してユーザからの操作信号が入力される。
【0053】
音声入力部36は、ユーザの入力音声を検出する。音声入力部36には、マイク360が外部接続されている。音声入力部36は、ユーザの声の音声認識を行い、その情報を制御部30へ送信する。
【0054】
<端末装置3の制御部30の機能的構成>
端末装置3の制御部30は、所定のプログラムを実行することで、入力手段301、変換指示手段302、出力手段303、評価手段304、および通信手段305として機能する。
【0055】
<入力手段301の説明>
入力手段301は、マイク360を介して話者ユーザの入力音声を入力する。この入力音声に関する情報は後述の変換指示手段302へと送信される。
【0056】
また、入力手段301は、話者ユーザの操作に基づいて、ターゲット音声を入力(指定)する。具体的には、話者ユーザは、後述の第1~第3の方法のいずれかにより、目標とするターゲット音声を入力することができる。
【0057】
第1の方法として、話者ユーザは、インターネットなどから自分の好きな人の音声をダウンロードし、その音声をターゲット音声に指定することができる。
【0058】
第2の方法として、話者ユーザは、ターゲット音声を編集により指定することもできる。具体的には、例えば声の高さ等を決定するスライドバーを用いて、すでにある音声を編集することにより、ターゲット音声を生成することもできる。
【0059】
第3の方法として、前述のとおり、クラウドサーバ装置2から提供ユーザがアップロードしている変換音声を話者ユーザがダウンロードすることにより、話者ユーザはその変換音声をターゲット音声に指定することができる。
【0060】
なお、前述のターゲット音声の指定方法は一例であり、話者ユーザは様々な手法でターゲット音声を指定することができる。
【0061】
<変換指示手段302の説明>
変換指示手段302は、話者ユーザの操作に基づいて、通信手段305を介して話者ユーザのアカウントを送信(ログイン)するとともに、変換モデルを要求する情報をクラウドサーバ装置2へ送信する。これにより、クラウドサーバ装置2は変換モデルを端末装置3へ送信する。
【0062】
変換モデルを受信したのち、変換指示手段302は、変換モデルを端末装置3にインストールする。
【0063】
また、変換指示手段302は、話者ユーザの操作に基づいて、端末装置3にてインストールされた変換モデルを起動させる。
【0064】
変換指示手段302は、入力音声とターゲット音声とに基づいて、変換モデルの学習および変換モデルを用いた音声変換を行う。
【0065】
(変換モデルの学習時の説明)
変換モデルの学習時には、変換指示手段302は、話者ユーザが発声した入力音声および話者ユーザが指定したターゲット音声を読み込む。
【0066】
ついで、変換指示手段302は、読み込んだ入力音声およびターゲット音声を分析する。
【0067】
例えば、変換指示手段302は、声の高さ等を表現する基本周波数等に関する音高分析、ならびに、音韻性および声質等を表現するスペクトル特徴量(スペクトル包絡)に関する分析により、入力音声およびターゲット音声の音響特徴量を分析する。なお、本実施形態では、音響特徴量の分析結果に基づいて変換音声の音声波形が生成される例が記載されているが、音響特徴量の分析結果に基づかず変換音声の音声波形を生成することもできる。
【0068】
ついで、変換指示手段302は、分析された音響特徴量およびユーザの属性情報(年齢など)の少なくともいずれか一方に基づいて最適化するよう変換モデルの学習(生成)を行う。
【0069】
また、最適化するよう学習された変換モデルは、ユーザのアカウントと対応づけられて、端末装置3の記憶部31およびクラウドサーバ装置2の記憶部21に記憶される。
【0070】
(変換モデルを用いた音声変換時の説明)
音声変換時には、変換指示手段302は、話者ユーザが発声した入力音声を読み込むとともに、分析する。
【0071】
この分析結果に応じて、変換モデルは、入力音声に対し最適な音声変換を行うことで変換音声の音声波形を生成する。
【0072】
また、変換指示手段302は、変換音声を生成する際あるいは生成したのちに、当該変換音声は入力音声を音声変換して生成された音声であることを示す情報を変換音声に付加する。例えば、変換指示手段302は変換音声の非可聴領域にウォーターマークを埋め込む。これにより、音声が入力音声(話者ユーザが直に発した音声)なのか変換音声なのかを把握することができる。
【0073】
<出力手段303の説明>
出力手段303は、スピーカ330を介して変換モデルによって生成された変換音声を出力する。例えば、話者ユーザがマイク360に入力音声を入力した場合には、スピーカ330からリアルタイムに変換音声が出力される。
【0074】
<評価手段304の説明>
評価手段304は、要求ユーザの操作に基づいて、出力された変換音声を評価する。具体的には、クラウドを介して出力された変換音声を聞いた要求ユーザが「良い」、「普通」、「悪い」などの評価ボタンで変換音声を評価することができる。
【0075】
この評価ボタンが押された回数は累積してカウントされ、変換音声に関する情報に対応づけられて、クラウドサーバ装置2の記憶部21にスコアとして記憶される。スコアが高い音声は、高評価の音声として記憶部21に記憶される。
【0076】
<通信手段305の説明>
通信手段305は、ユーザの情報(ユーザのアカウント、および、ユーザの年齢、性別などの属性情報など)、話者ユーザの入力音声、変換音声、変換音声の評価等をクラウドサーバ装置2へ送信する。
【0077】
また、通信手段305は、変換モデル、提供ユーザの入力音声に基づいて生成された変換音声等をクラウドサーバ装置2から受信する。
【0078】
<音声変換処理の説明>
以下にて、
図2、
図3を参照しつつ、
図4のフローチャートを用いて、音声変換処理について説明する。なお、後述の制御手段および処理手順は一例であり、本発明の実施形態はこれらには限られない。処理手順等は、本発明の要旨を変更しない範囲で適宜設計変更が可能である。
【0079】
図2(A)のとおり、まず端末装置3の変換指示手段302が、話者ユーザの操作に基づいて、通信手段305を介して話者ユーザのアカウント、および変換モデルを要求する情報をクラウドサーバ装置2へ送信する(ステップS101)。このようにユーザは、ログインをすることにより、高品質の変換モデルを要求することができる。
【0080】
これを受けて、クラウドサーバ装置2の通信手段205が、
図2(B)のとおり、変換モデルを端末装置3へ送信し、端末装置3の変換指示手段302が変換モデルをインストールする(ステップS102)。
【0081】
ついで、端末装置3の変換指示手段302が、話者ユーザの操作に基づいて、端末装置3内にて変換モデルを起動させる(ステップS103)。
【0082】
ついで、
図3のとおり、端末装置3の入力手段301が、マイク360を介して話者ユーザの入力音声を入力するとともに、話者ユーザの操作に基づいてターゲット音声を指定(入力)する(ステップS104)。
【0083】
ついで、変換指示手段302が、入力音声およびターゲット音声の音声分析を行う(ステップS105)。具体的には、変換指示手段302は、入力音声およびターゲット音声の基本周波数およびスペクトル特徴量などの音響特徴量を分析する。
【0084】
ついで、変換指示手段302は、分析された音響特徴量およびユーザの属性情報の少なくともいずれか一方から、音声変換の最適化のための変換モデルの学習を行う(ステップS106)。
【0085】
ついで、端末装置3の通信手段305が、
図2(C)のとおり、話者ユーザのアカウント、および最適化するよう学習された変換モデルをクラウドサーバ装置2へ送信する(ステップS107)。
【0086】
ついで、クラウドサーバ装置2の記憶手段202が、話者ユーザのアカウント、および話者ユーザの属性情報に対応づけられて最適化するよう学習された変換モデルを記憶部21に記憶させる(ステップS108)。
【0087】
また、端末装置3にインストールされた変換モデルは、分析された入力音声の音響特徴量をターゲット音声に近づくよう変換する(ステップS109)。
【0088】
ついで、変換モデルは、変換された音響特徴量から変換音声の音声波形を生成する(ステップS110)。
【0089】
また、変換指示手段302は、前記変換音声を生成したあとに、当該音声の非可聴領域にウォーターマークを埋め込む(ステップS111)。
【0090】
ついで、端末装置3の出力手段303が、
図3のとおり、スピーカ330より、変換音声を出力する(ステップS112)。
【0091】
ついで、端末装置3の通信手段305が、
図2(D)のとおり、話者ユーザのアカウント、入力音声、および変換音声をクラウドサーバ装置2の記憶手段202へ送信する(ステップS113)。
【0092】
ついで、クラウドサーバ装置2の記憶手段202が、話者ユーザの情報、入力音声、および変換音声を関連づけて記憶部21に記憶させる(ステップS114)。
以上の手順により、本発明の音声変換処理が実行される。
【0093】
<音声評価処理の説明>
つぎに、
図5を参照しつつ、
図6のフローチャートを用いて、本発明の音声評価処理について説明する。
【0094】
まず、端末装置3の入力手段301が、要求ユーザの操作に基づいて、ダウンロードしたい提供ユーザの変換音声を指定する(ステップS201)。
【0095】
ついで、端末装置3の通信手段305が、
図5(A)のとおり、要求ユーザのアカウントおよびダウンロードしたい変換音声に関する情報をクラウドサーバ装置2へ送信する(ステップS202)。
【0096】
ついで、クラウドサーバ装置2の音声提供手段204が、
図5(B)のとおり、通信手段205を介して変換音声を端末装置3へ送信する。これにより、端末装置3に変換音声がダウンロードされる(ステップS203)。
【0097】
ついで、端末装置3の出力手段303が、変換音声をスピーカ330から出力する(ステップS204)。
【0098】
ついで、端末装置3の評価手段304が、要求ユーザの操作に基づいて、変換音声の評価を行う(ステップS205)。具体的には、変換音声を聞いた要求ユーザが、「良い」、「普通」、「悪い」などのように変換音声を評価する。
【0099】
ついで、端末装置3の評価手段304が、
図5(C)のとおり、端末装置3の通信手段305を介して、要求ユーザのアカウント、および、その変換音声の評価等の情報をクラウドサーバ装置2へ送信する(ステップS206)。
【0100】
ついで、クラウドサーバ装置2の記憶手段202が、端末装置3から送信されてきた要求ユーザのアカウント、変換音声の評価等の情報を各々関連づけて記憶部21に記憶させる(ステップS207)。
以上の手順により、本発明の音声評価処理が実行される。
【0101】
(応用例1)
本発明を用いれば、VR(ヴァーチャルリアリティ)などによって提供される仮想空間上で、物品の販売者である話者ユーザの音声を変換することができる。例えば、VR上でeコマースが提供される場合において、話者ユーザは自身好みの声で物品の販売を行うことができる。
【0102】
このとき、例えば、クラウドサーバ装置2に営業成績の良い話者ユーザの音声が例えばスコア順に記憶されていれば、販売者である話者ユーザはスコアが高い音声を使用することもできる。
【0103】
(応用例2)
クラウドサーバ装置2の音声提供手段203は、端末装置3において、記憶部21に記憶された変換音声を1つ以上のアプリケーションプログラミングインターフェース(API)にて提供することができてもよい。この場合には、ユーザは様々なAPI内で、例えば、自分好みのアバターを用いつつ、自分好みの声で話をすることができる。さらには、例えば2つのAPIにまたがってユーザ好みの声で他のユーザと話をすることもできる。
【0104】
(応用例3)
あるユーザが「良い」のボタンを押した回数の多い音声をサーバ装置2が備える評価手段が記憶部21に当該ユーザのアカウントに対応つけて記憶させておくこともできる。そして、当該ユーザにおいて高評価となった音声によって、当該ユーザが参加する仮想空間上における広告文が読み上げられるといったことも可能となる。
【0105】
以上をまとめると、本実施形態のクラウド音声変換システム1は、
ユーザの操作を受けつける端末装置3と、端末装置3と通信ネットワーク4を介して接続されるとともに記憶部21が接続されたサーバ装置2とを備え、ユーザが発声する音声(入力音声)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システム1であって、
サーバ装置2は、
ユーザの求めに応じて、サーバ装置2に格納される変換モデルであって入力音声を音声変換して変換音声を生成する変換モデルを端末装置3に送信するモデル提供手段302、
を備え、
端末装置3は、
ユーザの発声に基づいて入力音声を取り込む入力手段301、
サーバ装置2より変換モデルを受信したのちに、ユーザの操作に基づいて、変換モデルを起動させて入力音声を音声変換して変換音声を生成する変換指示手段302、および
変換音声を出力する出力手段303、
を備える。
【0106】
<発明の効果>
本実施形態の音声変換システムによれば、クラウドを通じて変換音声を提供することができる。
【0107】
[他の実施形態]
前記実施形態においては、ユーザの属性情報に基づいて変換モデルが最適化される例が記載されているが、本発明はこれには限られない。例えば、音声変換が提供されるシーンの情報に基づいて変換モデルが最適化されてもよい。具体的には、eコマースが提供されるシーンで、購入ユーザが物を購入したくなるような音声を生成することができるように、最適化するよう学習された変換モデルが提供されてもよい。
【0108】
また、端末装置は、話者ユーザがターゲット音声の音の高さを再現する際の目安となるガイドを液晶画面に表示させる表示手段を備えていてもよい。これにより、話者ユーザは、ターゲット音声の音の高さを再現しやすくなる。なお、ガイドとしては、例えば、話者ユーザが発した音声の音高がターゲット音声の音高とほぼ同じであれば「GOOD!」などが表示されるユーザインターフェース(UI)が考えられる。
【0109】
また、前記実施形態においては、変換モデルが端末装置にインストールされる例が記載されているが、本発明はこれには限られない。例えば、話者ユーザは端末装置に変換モデルをインストールすることなく、クラウドサーバ装置2が提供するブラウザにて変換モデルを使用することができてもよい。この場合において、音声変換、変換音声へのウォーターマークの埋め込み、およびターゲット音声の評価等はクラウドサーバ装置にて行われてもよい。
【0110】
また、前記実施形態とは異なり、サーバ装置が変換音声を評価する評価手段を備えていてもよい。この場合には、ユーザの評価によらず、サーバ装置が自動的に変換音声を評価することができる。
【0111】
また、前記実施形態においては、変換モデルはクラウドサーバ装置上に記憶されている例が記載されているが、本発明はこれには限られない。例えば、変換モデルは端末装置に記憶されており、変換モデルを起動させるためにユーザがログインして、クラウドサーバ装置から変換モデルの起動信号を受信してもよい。
【0112】
前記実施形態では、変換音声の非可聴領域にウォーターマークを埋め込むことで、当該音声は音声変換された音声であることが識別される例が記載されているが、本発明はこれには限られない。例えば、端末装置あるいはクラウドサーバ装置で変換音声から聴覚上影響を与えない部分が削られ(マスク処理がなされ)、音声変換された音声であることが識別されてもよい。
【0113】
また、ユーザが聞いていている音声の非可聴領域に埋め込まれたウォーターマークを読み込むことで当該音声が音声変換されて生成されたことを識別する機能を端末装置が備えていてもよい。
【0114】
前記実施形態では、話者ユーザがマイクに入力音声を入力した場合には、スピーカからリアルタイムに変換音声が出力される例が記載されているが、本発明はこれには限られない。例えば、話者ユーザがマイクに入力音声を入力したのちスピーカから若干遅れて変換音声が出力されてもよく、また、変換音声が出力されるタイミングを話者ユーザが指定することができてもよい。
【0115】
前記実施形態では、端末装置は1つの装置で構成されていたが、例えば、端末装置は、入力手段を備えた装置、および出力手段を備えた装置の2つの装置で構成されていてもよい。
【0116】
また、前記実施形態では、端末装置にスピーカが直に外部接続されている例が記載されているが、端末装置とスピーカとの間に、例えばノイズキャンセル用のエフェクタが配置されてもよい。
【0117】
また、前記実施形態では、クラウドサーバ装置に記憶部が内蔵されており、その記憶部に変換音声などが記憶されている例が記載されているが、本発明はこれには限られない。例えば、記憶部がクラウドサーバ装置に外部接続されていてもよい。
【0118】
また、端末装置は、前記実施形態とは異なり、マイクおよびスピーカを内蔵していてもよい。
【0119】
前記実施形態では、端末装置はスマートフォンであったが、例えば、パーソナルコンピュータ、テレビジョン装置、VRあるいはAR(オーグメンテッドリアリティ)用のスタンドアローン型のヘッドマウントディスプレイ、または、据置型あるいは携帯型のゲーム装置であってもよい。
【符号の説明】
【0120】
1 クラウド音声変換システム
2 クラウドサーバ装置
201 照合手段
202 記憶手段
203 モデル提供手段
204 音声提供手段
205 通信手段
3 端末装置
301 入力手段
302 変換指示手段
303 出力手段
304 評価手段
305 通信手段
4 通信ネットワーク