(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-11-01
(45)【発行日】2024-11-12
(54)【発明の名称】再生装置、再生方法、プログラム、および再生システム
(51)【国際特許分類】
G10L 21/007 20130101AFI20241105BHJP
G10L 21/0272 20130101ALI20241105BHJP
【FI】
G10L21/007
G10L21/0272 100Z
(21)【出願番号】P 2024008470
(22)【出願日】2024-01-24
【審査請求日】2024-01-24
【早期審査対象出願】
(73)【特許権者】
【識別番号】598138327
【氏名又は名称】株式会社ドワンゴ
(74)【代理人】
【識別番号】100083806
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100111235
【氏名又は名称】原 裕子
(74)【代理人】
【識別番号】100170575
【氏名又は名称】森 太士
(72)【発明者】
【氏名】廣芝 和之
【審査官】中村 天真
(56)【参考文献】
【文献】特開2016-156938(JP,A)
【文献】特開2000-112488(JP,A)
【文献】特開2020-064151(JP,A)
【文献】特開2021-139992(JP,A)
【文献】特開2010-014913(JP,A)
【文献】特開2021-196462(JP,A)
【文献】蜂日,RVCを使ってYouTubeを推しの声で聴く,[online],2023年06月01日,インターネット〈URL: https://web.archive.org/web/20230531230541/https://zenn.dev/hachivi/articles/428267ec877115 〉
【文献】山田智也、他3名,統計的手法に基づく楽曲中の歌声加工のための歌声分離法の検討,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2018年03月12日,第117巻、第515号,第209~214頁
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00 -13/10
15/00 -15/34
21/003 -21/013
21/0272-21/0308
(57)【特許請求の範囲】
【請求項1】
コンテンツを再生する再生部と、
前記再生部の出力するオーディオ信号を入力する仮想オーディオデバイスと、
前記仮想オーディオデバイスから前記オーディオ信号を入力し、前記オーディオ信号に含まれる音声の声質を変換する変換部と、
声質を変換した前記音声を出力するオーディオデバイスを備え
、
前記変換部は、前記コンテンツに複数人の音声が含まれている場合、話者ごとに異なる声質に変換する
再生装置。
【請求項2】
コンテンツを再生する再生部と、
前記再生部の出力するオーディオ信号を入力する仮想オーディオデバイスと、
前記仮想オーディオデバイスから前記オーディオ信号を入力し、前記オーディオ信号に含まれる音声の声質を変換する変換部と、
声質を変換した前記音声を出力するオーディオデバイスを備え、
前記変換部は、
前記オーディオ信号に含まれる音声と音声以外の背景音とを分離する分離部と、
前記音声の声質を変換する声変換部と、
声質を変換した音声と前記背景音とを
同期をとらずに合成するミキサーを備える
再生装置。
【請求項3】
請求項1に記載の再生装置であって、
前記変換部は、
前記オーディオ信号に含まれる音声を音声認識してテキストに変換する音声認識部と、
前記テキストの表現を変換するテキスト変換部と、
表現が変換されたテキストを読み上げる音声を合成する声合成部を備える
再生装置。
【請求項4】
請求項1ないし3のいずれかに記載の再生装置であって、
前記変換部は当該再生装置で実行されるアプリケーションであり、起動されたときに、当該再生装置の既定のオーディオ出力とオーディオ入力をそれぞれ前記仮想オーディオデバイスに設定し、前記変換部のオーディオ出力を前記オーディオデバイスに設定し、
前記変換部の機能が停止されるときに、当該再生装置の
既定のオーディオ出力とオーディオ入力を起動前の状態に戻す
再生装置。
【請求項5】
再生装置による再生方法であって、
コンテンツを再生してオーディオ信号を仮想オーディオデバイスに入力し、
前記仮想オーディオデバイスから前記オーディオ信号を入力し、前記オーディオ信号に含まれる音声の声質を変換し、
声質を変換した前記音声を出力
し、
前記コンテンツに複数人の音声が含まれている場合、話者ごとに異なる声質に変換する
再生方法。
【請求項6】
コンピュータに、
コンテンツを再生してオーディオ信号を仮想オーディオデバイスに入力する処理と、
前記仮想オーディオデバイスから前記オーディオ信号を入力し、前記オーディオ信号に含まれる音声の声質を変換する処理と、
声質を変換した前記音声を出力する処理を実行させ
、
前記コンテンツに複数人の音声が含まれている場合、話者ごとに異なる声質に変換する
プログラム。
【請求項7】
再生装置と声質変換サーバとを備える再生システムであって、
前記再生装置は、
コンテンツを再生する再生部と、
前記再生部の出力するオーディオ信号を入力する仮想オーディオデバイスと、
前記仮想オーディオデバイスから前記オーディオ信号を入力して
前記声質変換サーバへ送信し、声質が変換されたオーディオ信号を受信する変換部と、
声質
が変換されたオーディオ信号を出力するオーディオデバイスを備え
、
前記声質変換サーバは、前記コンテンツに複数人の音声が含まれている場合、話者ごとに異なる声質に変換する
再生システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、再生装置、再生方法、プログラム、および再生システムに関する。
【背景技術】
【0002】
近年、リアルタイムで声質を変換する声質変換技術が発達している。非特許文献1の技術は、自分の声を別のキャラクターの音声にリアルタイムで変換することができる。特許文献1の技術は、ささやき声、裏声、および怒り声などの声の特徴を反映させて声質を変換することができる。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【文献】“Voice Changer”、[online]、株式会社CoeFont、インターネット〈 URL:https://vc.coefont.cloud/ 〉
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の声質変換アプリケーションは、マイクから入力した自分の声を深層学習モデルに入力して自分の声の声質を変換するものであり、携帯端末やパーソナルコンピュータなどで再生中のコンテンツ(動画やラジオ)の音声の声質を変換することを想定していない。そもそも、コンテンツの音声の声質をリアルタイムで変換するという課題は認識されていない。
【0006】
例えば講義を録音または録画したコンテンツなど、コンテンツの内容には興味があるものの視聴する気が起きない状況を改善するためには、コンテンツの音声の声質をユーザの好みに合わせて変換することが効果的であると考えられる。あるいは、コンテンツの音声の声質を変換することで、コンテンツの新たな面白さを発見できることもある。
【0007】
本開示は、上記に鑑みてなされたものであり、再生中のコンテンツの音声の声質を変換することを目的とする。
【課題を解決するための手段】
【0008】
本開示の一態様の再生装置は、コンテンツを再生する再生部と、前記再生部の出力するオーディオ信号を入力する仮想オーディオデバイスと、前記仮想オーディオデバイスから前記オーディオ信号を入力し、前記オーディオ信号に含まれる音声の声質を変換する変換部と、声質を変換した前記音声を出力するオーディオデバイスを備え、前記変換部は、前記コンテンツに複数人の音声が含まれている場合、話者ごとに異なる声質に変換する。
【発明の効果】
【0009】
本開示によれば、再生中のコンテンツの音声の声質を変換することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、第1の実施形態の再生装置の構成の一例を示す図である。
【
図2】
図2は、第1の実施形態の再生装置の処理の流れの一例を示すフローチャートである。
【
図3】
図3は、再生装置のサウンド設定画面の一例を示す図である。
【
図4】
図4は、第2の実施形態の再生装置の構成の一例を示す図である。
【
図5】
図5は、第2の実施形態の再生装置の処理の流れの一例を示すフローチャートである。
【
図6】
図6は、第3の実施形態の再生装置の構成の一例を示す図である。
【
図7】
図7は、第3の実施形態の再生装置の処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
[第1の実施形態]
図1は、第1の実施形態の再生装置10の構成の一例を示す図である。同図に示す再生装置10は、コンテンツプレイヤー11、仮想オーディオデバイス12、声変換部13、およびオーディオデバイス14を備える。
【0012】
再生装置10として、ウェアラブルデバイス、スマートフォン、タブレット、あるいはポータブルメディアプレイヤーなどの携帯端末、および、パーソナルコンピュータ、ゲーム機、スマートホームデバイス、スマートテレビなどの端末を利用できる。
【0013】
コンテンツプレイヤー11はコンテンツを再生する。コンテンツは、例えば、リモート会議、講義、ボイスチャット、ラジオ、およびオーディオブックなど人の発話音声を含むコンテンツが挙げられる。コンテンツは音声コンテンツだけでなく、音声と映像を含む動画であってもよい。コンテンツプレイヤー11は、端末にダウンロード済みのコンテンツを再生してもよいし、ネットワークからコンテンツをダウンロードしながら再生(ストリーミング再生)してもよい。
【0014】
コンテンツプレイヤー11は、コンテンツの種類ごとに異なるアプリケーションであってよい。コンテンツプレイヤー11として利用できるアプリケーションは、例えば、リモート会議アプリ、チャットアプリ、ネットラジオアプリ、オーディオブックアプリ、および動画再生アプリなどが挙げられる。
【0015】
仮想オーディオデバイス12は、物理デバイスを必要とせずに、ソフトウェア上でオーディオ信号の入出力を擬似的に実現する。オーディオ信号の出力先をスピーカーから仮想オーディオデバイス12に変更すると、オーディオ信号が仮想オーディオデバイス12へ入力される。オーディオ信号の入力元をマイクから仮想オーディオデバイス12に変更すると、オーディオ入力を処理するオーディオアプリケーション(例えば声変換アプリケーション、録音アプリケーション、ミキサーアプリケーションなど)は仮想オーディオデバイス12からオーディオ信号を入力して処理できる。再生装置10のオーディオ信号の入力と出力を仮想オーディオデバイス12に設定することで、コンテンツプレイヤー11のオーディオ出力が仮想オーディオデバイス12に入力され、声変換部13は仮想オーディオデバイス12からオーディオ入力する。
【0016】
図1では、オーディオ信号の出力がオーディオデバイス14(例えばスピーカーやイヤホン)に設定されている場合は、コンテンツプレイヤー11のオーディオ信号は破線の矢印の先のオーディオデバイス14に入力される。オーディオ信号の出力が仮想オーディオデバイス12に設定されている場合は、コンテンツプレイヤー11のオーディオ信号は実線の矢印の先の仮想オーディオデバイス12に入力される。
【0017】
仮想オーディオデバイス12は、アプリケーションとして提供されてもよい。再生装置10にアプリケーションをインストールすることで、再生装置10や再生装置10上で動作するアプリケーションは、オーディオ出力とオーディオ入力を仮想オーディオデバイス12に設定できるようになる。
【0018】
声変換部13は、入力したオーディオ信号の音声(コンテンツの音声)を任意の声質にリアルタイムで変換し、声質変換後の音声(オーディオ信号)をオーディオデバイス14に出力する。声変換部13には、例えば特許文献1および非特許文献1の技術を利用できる。具体的には、声変換部13は、深層学習済みのニューラルネットワーク(声変換AI)にコンテンツの音声を入力して、声質が変換された音声を得る。声変換部13は、コンテンツの音声を声変換AIに入力する前に、ノイズ除去や音量の調節などの前処理を行ってもよい。
【0019】
声変換部13は、変換後の声質を指定する情報を声変換AIに入力して、任意の声質に変換された音声を得てもよい。例えば、声変換部13が複数人の話者の声質に変換できる場合、声変換部13は、ユーザから変換後の声質の話者の指定(話者の識別子)を受け付け、コンテンツの音声と話者の指定を声変換AIに入力して、指定の話者の声質に変換された音声を得る。ユーザから声質の指定を受け付ける場合、声変換部13は、数人から数十人分の話者をユーザに提示して変換後の声質の話者の選択を受け付けてもよいし、変換後の声質の特徴(例えば男性、女性、子ども、大人、高い、低いなど)をユーザから受け付けてもよい。
【0020】
声変換部13は、特許文献1の技術を利用し、発声の仕方(例えば、平静音、ささやき声、裏声、怒り声など)の情報を声変換AIに入力して、任意の発声の仕方に変換された音声を得てもよい。声変換部13は、発声の仕方をユーザに提示し、発声の仕方を任意に選択できるようにしてもよい。
【0021】
声変換部13は、オーディオ入力を仮想オーディオデバイス12に設定し、オーディオ出力をオーディオデバイス14とする。ユーザが声変換部13のオーディオ出力を設定できてもよい。例えば、ユーザは、声変換部13のオーディオ出力をスピーカー、イヤホン、外部機器、録音アプリケーション、あるいはミキサーアプリケーションなどに設定できる。声変換部13のオーディオ出力を録音アプリケーションやミキサーアプリケーションなどのオーディオアプリケーションに設定すると、変換後の音声を別のオーディオアプリケーションで処理できる。
【0022】
声変換部13はアプリケーションとして提供されてもよい。声変換部13が仮想オーディオデバイス12の機能を備えてもよい。
【0023】
オーディオデバイス14は、スピーカーやイヤホンなどの実際に音を出力する物理的なハードウェアである。オーディオデバイス14にオーディオ信号が入力されると、スピーカーやイヤホンなどから音が出力される。声変換部13の出力をオーディオデバイス14に設定することで、声変換部13で変換された音声が出力される。コンテンツプレイヤー11の出力は仮想オーディオデバイス12に設定されるので、コンテンツプレイヤー11が再生するコンテンツの音声は出力されずに、声変換部13で変換された音声が出力される。
【0024】
次に、
図2のフローチャートを参照し、第1の実施形態の再生装置10の処理の流れについて説明する。
【0025】
ステップS11にて、システムのオーディオ出力を仮想オーディオデバイス12に設定する。システムのオーディオ出力とは、再生装置10の音の既定の出力先の設定である。システムのオーディオ出力をスピーカーやイヤホンに設定した場合、再生装置10の出力する音(例えばコンテンツプレイヤー11で再生したコンテンツの音声)はスピーカーやイヤホンから出力される。システムのオーディオ出力を仮想オーディオデバイス12に設定することで、再生装置10の出力する音(オーディオ信号)は、仮想オーディオデバイス12に入力される。
【0026】
アプリケーションごとにオーディオ出力を設定しない場合、アプリケーションの音はシステムのオーディオ出力の設定に従って出力される。アプリケーションで個別にオーディオ出力を設定した場合、アプリケーションの音はアプリケーションのオーディオ出力の設定に従って出力される。ステップS11では、コンテンツプレイヤー11のオーディオ出力を仮想オーディオデバイス12に設定してもよい。
【0027】
ステップS12にて、システムのオーディオ入力を仮想オーディオデバイス12に設定する。システムのオーディオ入力とは、再生装置10への音の既定の入力元(ソース)の設定である。システムのオーディオ入力を仮想オーディオデバイス12に設定することで、声変換部13は仮想オーディオデバイス12に入力された音声の声質を変換する。例えば、システムのオーディオ入力をマイクに設定した場合は、声変換部13はマイクで集音された音声の声質を変換する。なお、声変換部13が自身のオーディオ入力を設定できる場合は、システムのオーディオ入力を変更せずに、声変換部13のオーディオ入力を仮想オーディオデバイス12に設定してもよい。
【0028】
ステップS13にて、声変換部13のオーディオ出力をオーディオデバイス14に設定する。システムのオーディオ出力を仮想オーディオデバイス12に設定しているので、既定値を用いると変換後の音声が仮想オーディオデバイス12に入力されてしまう。声変換部13のオーディオ出力をオーディオデバイス14に設定することで、声変換部13で変換された音声はスピーカーやイヤホンなどのオーディオデバイス14から出力される。
【0029】
図3に、再生装置10のサウンド設定画面100の一例を示す。同図に示すサウンド設定画面100では、システム用の設定欄110と声変換部13用の設定欄120を図示している。システムのオーディオ出力とオーディオ入力は項目111,112で設定する。声変換部13のオーディオ出力とオーディオ入力は項目121,122で設定する。
図3では、システムのオーディオ出力とオーディオ入力をいずれも仮想オーディオデバイス12に設定している。声変換部13のオーディオ入力を仮想オーディオデバイス12に設定し、オーディオ出力をスピーカーに設定している。
【0030】
ステップS11からS13までの処理で、再生装置10内でのオーディオ信号の流れが
図1の実線の矢印で示したように設定される。ステップS11からS13までの処理は、ユーザが行ってもよいし、声変換部13が行ってもよい。例えば、声変換部13を起動したときに、声変換部13がサウンド設定を変更してもよい。システムのオーディオ出力とオーディオ入力を仮想オーディオデバイス12に設定し、声変換部13のオーディオ出力には、それまでのシステムのオーディオ出力(例えばスピーカーやイヤホン)を設定する。声変換部13の機能が停止されるときに、声変換部13はサウンド設定を声変換部13の起動前の状態に戻す。
【0031】
声変換部13が仮想オーディオデバイス12の機能を備える場合は、システムまたはコンテンツプレイヤー11のオーディオ出力を声変換部13に設定し、声変換部13のオーディオ出力をオーディオデバイス14に設定する。
【0032】
サウンドの設定後、コンテンツプレイヤー11がコンテンツの再生を開始すると、ステップS14にて、コンテンツプレイヤー11の出力するオーディオ信号が仮想オーディオデバイス12を経由して声変換部13に入力される。
【0033】
ステップS15にて、声変換部13は入力されたオーディオ信号の音声の声質を変換する。
【0034】
ステップS16にて、声変換部13は変換後の音声をスピーカーに出力する。
【0035】
ステップS14からS16の処理が繰り返されて、コンテンツプレイヤー11の出力する音声は、声変換部13でリアルタイムに声質が変換されてスピーカーから出力される。
【0036】
以上説明したように、本実施形態の再生装置10は、コンテンツを再生するコンテンツプレイヤー11と、コンテンツプレイヤー11の出力するオーディオ信号を入力する仮想オーディオデバイス12と、仮想オーディオデバイス12からオーディオ信号を入力し、オーディオ信号に含まれる音声の声質を変換する声変換部13と、声質を変換した音声を出力するオーディオデバイス14を備える。これにより、再生装置10内で動作するコンテンツプレイヤー11の再生するコンテンツの音声の声質を変換することができる。
【0037】
再生装置10の既定のオーディオ出力とオーディオ入力をそれぞれ仮想オーディオデバイス12に設定し、声変換部13のオーディオ出力をオーディオデバイス14に設定することで、再生装置10が出力する音声を所望の声質に変換することができる。従来の声変換アプリケーションは、マイクなどの外部から入力された音声の声質を変換するものであったが、再生装置10は、再生装置10内で動作する他のアプリケーションが出力する音声の声質を変換することができる。
【0038】
[第2の実施形態]
図4は、第2の実施形態の再生装置20の構成の一例を示す図である。同図に示す再生装置20は、第1の実施形態の再生装置10に音声分離部21とミキサー22を追加したものである。再生装置20は、コンテンツに人の声とバックグラウンドの環境音や音楽(以下、背景音と称する)が含まれる場合に、声と背景音とを分離し、声のみを変換し、変換後の声と背景音とを合成する。第1の実施形態の再生装置10と同じ構成については、ここでの重複する説明は省略する。
【0039】
音声分離部21は、仮想オーディオデバイス12からコンテンツプレイヤー11の出力するオーディオ信号を入力し、オーディオ信号を人の声と人の声以外の背景音に分離する。音声分離部21は、人の声のオーディオ信号を声変換部13に入力し、背景音のオーディオ信号をミキサー22に入力する。
【0040】
人の声は完全に分離できなくてもよい。人の声に多少の背景音が混ざっていても、声変換部13でノイズ除去や音量調整などの前処理を行って、声を所望の声質に変換する。また、背景音に多少の人の声が混ざっていても、ミキサー22で変換後の声と背景音を合成するので気にならない。
【0041】
声変換部13は、分離した人の声のみを入力し、リアルタイムで、声を任意の声質に変換する。声変換部13は、第1の実施形態と同様である。
【0042】
ミキサー22は、声変換部13で変換した声と音声分離部21で分離した背景音を入力して合成し、合成した音声をオーディオデバイス14に出力する。声変換部13の処理で遅延が発生した結果、合成後の音声に違和感がある場合、ミキサー22は、背景音をバッファリングしておき、変換後の声と背景音との同期をとって合成してもよい。
【0043】
ミキサー22は、変換後の声と背景音を合成せずに、変換後の声のみをオーディオデバイス14に出力してもよい。この場合、コンテンツの音声を所望の声質に変換するとともに、背景音を取り除いた出力が得られる。
【0044】
音声分離部21、声変換部13、およびミキサー22をそれぞれ別のアプリケーションで構成してもよいし、声変換部13が音声分離部21とミキサー22の機能を備えて、音声分離部21、声変換部13、およびミキサー22を1つの声変換アプリケーションで構成してもよい。
【0045】
再生装置20として、ウェアラブルデバイス、スマートフォン、タブレット、あるいはポータブルメディアプレイヤーなどの携帯端末、および、パーソナルコンピュータ、ゲーム機、スマートホームデバイス、スマートテレビなどの端末を利用できる。
【0046】
次に、
図5のフローチャートを参照し、第2の実施形態の再生装置20の処理の流れについて説明する。
【0047】
再生装置20の変換処理の前に、サウンドの設定つまりオーディオ信号の流れを
図4の実線の矢印で示したように設定しておく。例えば、システムのオーディオ出力とオーディオ入力を仮想オーディオデバイス12に設定する。音声分離部21のオーディオ入力を仮想オーディオデバイス12に設定し、音声分離部21のオーディオ出力を声変換部13とミキサー22に設定する。声変換部13には声が入力され、ミキサー22には背景音が入力されるように設定する。ミキサー22のオーディオ入力を声変換部13と音声分離部21に設定し、ミキサー22のオーディオ出力をオーディオデバイス14に設定する。なお、声変換部13が音声分離部21とミキサー22の機能を備える場合は、第1の実施形態と同様に、システムのオーディオ出力とオーディオ入力を仮想オーディオデバイス12に設定し、声変換部13のオーディオ出力をオーディオデバイス14に設定する。
【0048】
サウンドの設定後、コンテンツプレイヤー11がコンテンツの再生を開始すると、ステップS21にて、音声分離部21にコンテンツプレイヤー11の出力するオーディオ信号が入力される。
【0049】
ステップS22にて、音声分離部21は、入力したオーディオ信号を人の声と背景音に分離する。人の声のオーディオ信号は声変換部13に入力され、背景音のオーディオ信号はミキサー22に入力される。
【0050】
ステップS23にて、声変換部13は、入力されたオーディオ信号の音声の声質を変換する。変換後の音声のオーディオ信号はミキサー22に入力される。
【0051】
ステップS24にて、ミキサー22は、変換後の音声と背景音をミックスする。
【0052】
ステップS25にて、ミキサー22は、変換後の音声と背景音をミックスした音声をスピーカーから出力する。
【0053】
ステップS21からS25の処理が繰り返されて、コンテンツプレイヤー11の出力する音声は、声変換部13でリアルタイムに変換されてスピーカーから出力される。
【0054】
本実施形態の再生装置20は、コンテンツのオーディオ信号に含まれる音声と音声以外の背景音とを分離する音声分離部21と、音声の声質を変換する声変換部13と、声質を変換した音声と背景音とを合成するミキサー22を備える。これにより、人の声以外の背景音が流れるコンテンツの声変換の品質を高めることができる。また、背景音をミックスしなければ、コンテンツから音声のみを分離して所望の声質に変換した音声を得ることができる。
【0055】
[第3の実施形態]
図6は、第3の実施形態の再生装置30の構成の一例を示す図である。同図に示す再生装置30は、声変換部13として、音声認識部31、テキスト変換部32、および声合成部33を備え、声の声質だけでなく、一人称の言い方、語尾、敬語の変更、あるいは言い回しなどの表現も変換する。第1の実施形態の再生装置10と同じ構成については、ここでの重複する説明は省略する。
【0056】
音声認識部31は、仮想オーディオデバイス12からコンテンツプレイヤー11の出力するオーディオ信号を入力して音声認識し、コンテンツの音声をテキストに変換する。人の声のテキストの変換には、既存の音声認識技術を用いることができる。音声認識部31は、外部の音声認識サービスを利用してもよい。例えば、音声認識部31は入力したオーディオ信号を音声認識サービス(音声認識サーバ)に転送し、音声認識サービスから音声認識結果のテキストを受信する。
【0057】
テキスト変換部32は、音声認識部31から入力したテキストの内容を大きく変えずに別の表現に変換する。例えば、テキスト変換部32は、テキスト内の文について、一人称の言い方、語尾、敬語の変更、あるいは言い回しなどの表現を所望の表現に変換する。テキストの変換には、既存のLarge Language Model (LLM)技術を用いることができる。例えば、テキスト変換部32は、変換前のテキストとテキストの表現を変える指示をLLMに入力し、LLMから変換後のテキストを得る。LLMは外部のサービスを用いてもよい。あるいは、テキスト変換部32は、入力したテキストの言葉を別の言葉に単純に置換するものでもよい。
【0058】
ユーザが、一人称の言い方や語尾などの変換後のテキストの表現を指定してもよい。
【0059】
声合成部33は、変換後のテキストを任意の声で読み上げた音声を合成する。声合成部33は、例えば特許文献1のニューラルネットワークをText-to-Speech (TTS) モデルとして利用し、テキストを任意の声で読み上げた音声を合成する。合成する音声について、第1の実施形態と同様に、ユーザが変換後の声質や発生の仕方を任意に選択できるようにしてもよい。音合成部33は、外部の音声合成サービスを利用してもよい。例えば、音合成部33は入力したテキストを音声合成サービス(音声合成サーバ)に転送し、音声合成サービスからテキストを読み上げた音声のオーディオ信号を受信する。音声合成サービスに、声質や発生の仕方を入力し、任意の声質や発生の仕方で音声合成してもよい。
【0060】
上記の声変換部13の構成は、第1、第2の実施形態の再生装置10,20の声変換部13のいずれにも適用できる。
【0061】
再生装置30として、ウェアラブルデバイス、スマートフォン、タブレット、あるいはポータブルメディアプレイヤーなどの携帯端末、および、パーソナルコンピュータ、ゲーム機、スマートホームデバイス、スマートテレビなどの端末を利用できる。
【0062】
次に、
図7のフローチャートを参照し、第3の実施形態の再生装置30の処理の流れについて説明する。
【0063】
再生装置30の変換処理の前に、サウンドの設定つまりオーディオ信号の流れを
図6の実線の矢印で示したように設定しておく。例えば、第1の実施形態と同様に、システムのオーディオ出力とオーディオ入力を仮想オーディオデバイス12に設定し、声変換部13のオーディオ出力をオーディオデバイス14に設定する。なお、
図6の破線の矢印はテキスト情報の流れを示す。
【0064】
サウンドの設定後、コンテンツプレイヤー11がコンテンツの再生を開始すると、ステップS31にて、音声認識部31にコンテンツプレイヤー11の出力するオーディオ信号が入力される。
【0065】
ステップS32にて、音声認識部31は、入力したオーディオ信号を音声認識してテキストに変換する。
【0066】
ステップS33にて、テキスト変換部32は、テキストを所望の表現に変更する。
【0067】
ステップS34にて、声合成部33は、テキストを読み上げる音声を合成する。
【0068】
ステップS35にて、声合成部33は、合成した音声をスピーカーに出力する。
【0069】
ステップS31からS35の処理が繰り返されて、コンテンツプレイヤー11の出力する音声は、表現が変更され、声変換部13でリアルタイムに変換されてスピーカーから出力される。
【0070】
以上説明したように、声変換部13は、オーディオ信号に含まれる音声を音声認識してテキストに変換する音声認識部31と、テキストの表現を変換するテキスト変換部32と、表現が変換されたテキストを読み上げる音声を合成する声合成部33を備える。これにより、コンテンツの音声の声質に加えて、一人称の言い方や語尾などを所望の表現に変換した音声を得ることができる。
【0071】
[変形例]
次に、再生装置10,20,30の変形例の一例について説明する。
【0072】
コンテンツに複数人の音声が含まれている場合、声変換部13は、話者ごとに異なる声質に変換してもよいし、特定の話者の声の声質のみを変換してもよい。例えば、音声分離部21がコンテンツの音声を話者ごとに分離し、声変換部13が話者の音声のそれぞれを個別に声質変換し、ミキサー22が声質変換後の音声をミックスする。
【0073】
コンテンツの声の滑舌が悪く聞き取りにくい場合、滑舌が良くなるように声質変換してもよい。例えば、音声認識部31がコンテンツの声をテキスト変換し、テキスト変換部32が滑舌が悪いために生じた変換の誤りなどをLLMで推論して訂正し、声合成部33が訂正後のテキストを音声合成して出力する。
【0074】
音声のみのコンテンツの場合、変換後の声質に応じたキャラクターを表示し、音声に合わせてキャラクターに口パクをさせてもよい。
【0075】
再生装置10,20,30の声変換部13は、外部の声質変換サービスを利用してもよい。例えば、再生システムが、再生装置10,20,30と声質変換サーバを備える。声質変換サーバは、音声(オーディオ信号)を入力し、入力した音声の声質を変換して、声質変換後の音声を返却する。再生装置10,20,30の声変換部13は、入力したオーディオ信号を声質変換サーバに送信し、声質変換サーバから声質変換後のオーディオ信号を受信する。
【0076】
声質変換サーバには、非特許文献1のサービスや特許文献1の技術を利用したサーバを用いることができる。声質変換サーバは、変換後の声質を指定する話者の識別子やパラメータを受信し、指定の声質に変換してもよい。声質変換サーバは、変換後の発声の仕方を入力し、変換後の音声を指定の発声の仕方に変換してもよい。
【0077】
本開示で述べた各機能部の任意の一部または全部をプログラムによって実現するようにしてもよい。本開示で言及したプログラムは、コンピュータ読み取り可能な記録媒体に非一時的に記録して頒布されてもよいし、インターネットなどの通信回線(無線通信も含む)を介して頒布されてもよいし、任意の端末にインストールされた状態で頒布されてもよい。上記の記載に基づいて、当業者であれば、本発明の追加の効果や種々の変形例を想到できるかもしれないが、本開示の態様は、上述した個々の実施形態には限定されるものではない。特許請求の範囲に規定された内容およびその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更および部分的削除が可能である。例えば、本開示において1台の装置(あるいは部材、以下同じ)として説明されるもの(図面において1台の装置として描かれているものを含む)を複数の装置によって実現してもよい。逆に、本開示において複数の装置として説明されるもの(図面において複数の装置として描かれているものを含む)を1台の装置によって実現してもよい。あるいは、ある装置(例えばサーバ)に含まれるとした手段や機能の一部または全部が、他の装置(例えばユーザ端末)に含まれるようにしてもよい。また、「システム」とは、1台の装置から構成されてもよいし、2以上の装置(例えばサーバとユーザ端末、あるいは複数のユーザ端末)から構成されてもよい。
【0078】
また、本開示に記載された事項の全てが必須の要件というわけではない。特に、本開示に記載され、特許請求の範囲に記載されていない事項は任意の付加的事項ということができる。
【0079】
なお、本出願人は本開示の「先行技術文献」欄の文献に記載された文献公知発明を知っているにすぎず、本開示は必ずしも同文献公知発明における課題を解決することを目的とするものではないことにも留意されたい。本開示が解決しようとする課題は本開示全体を考慮して認定されるべきものである。例えば、本開示において、特定の構成によって所定の効果を奏する旨の記載がある場合、当該所定の効果の裏返しとなる課題が解決されるということもできる。ただし、必ずしもそのような特定の構成を必須の要件とする趣旨ではない。
【符号の説明】
【0080】
10,20,30 再生装置
11 コンテンツプレイヤー
12 仮想オーディオデバイス
13 声変換部
14 オーディオデバイス
21 音声分離部
22 ミキサー
31 音声認識部
32 テキスト変換部
33 声合成部
【要約】
【課題】再生中のコンテンツの音声の声質を変換する。
【解決手段】再生装置10は、コンテンツを再生するコンテンツプレイヤー11と、コンテンツプレイヤー11の出力するオーディオ信号を入力する仮想オーディオデバイス12と、仮想オーディオデバイス12からオーディオ信号を入力し、オーディオ信号に含まれる音声の声質を変換する声変換部13と、音声の声質を変換したオーディオ信号を出力するオーディオデバイス14を備える。
【選択図】
図1