(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024179936
(43)【公開日】2024-12-26
(54)【発明の名称】システム、方法、プログラム、情報処理装置
(51)【国際特許分類】
G06F 3/16 20060101AFI20241219BHJP
G06F 3/01 20060101ALI20241219BHJP
H04M 1/724 20210101ALI20241219BHJP
H04M 3/42 20060101ALI20241219BHJP
H04M 11/00 20060101ALI20241219BHJP
H04N 7/14 20060101ALI20241219BHJP
H04N 7/15 20060101ALI20241219BHJP
G10L 15/00 20130101ALI20241219BHJP
G10L 13/00 20060101ALI20241219BHJP
G10L 13/10 20130101ALI20241219BHJP
G10L 15/22 20060101ALI20241219BHJP
【FI】
G06F3/16 650
G06F3/16 690
G06F3/01 510
H04M1/724
H04M3/42 P
H04M11/00 302
H04N7/14 110
H04N7/15 170
H04N7/14 170
G10L15/00 200C
G10L13/00 100G
G10L13/00 100M
G10L13/10 112B
G10L15/22 300Z
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023099280
(22)【出願日】2023-06-16
(71)【出願人】
【識別番号】304012596
【氏名又は名称】株式会社CRI・ミドルウェア
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】伊藤 一彦
(72)【発明者】
【氏名】鴫原 智秀
【テーマコード(参考)】
5C164
5E555
5K127
5K201
【Fターム(参考)】
5C164FA09
5C164PA44
5C164UB90S
5C164VA07P
5C164VA09P
5E555AA17
5E555AA46
5E555AA61
5E555BA02
5E555BA04
5E555BB04
5E555BC04
5E555BD06
5E555CA02
5E555CA12
5E555CA18
5E555CA45
5E555CA47
5E555CB64
5E555DA23
5E555DB32
5E555EA05
5E555EA07
5E555EA19
5E555EA23
5E555FA00
5K127BA03
5K127CA27
5K127CB33
5K127FA05
5K127KA04
5K127KA05
5K127KA23
5K201CA09
5K201CB13
5K201DC05
5K201DC06
5K201DC07
5K201EC06
5K201ED05
5K201EE08
(57)【要約】
【課題】リアルタイムでの多様なコミュニケーションを実現する技術を提供する。
【解決手段】ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行するシステムが提供される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
プロセッサを有するコンピュータを備え、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、
ユーザが発した音声を受け付けるステップと、
受け付けた前記音声についての音声情報をテキスト情報に変換するステップと、
前記テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、
変換した前記音声情報を、他のユーザに対して出力するステップと、を実行する、システム。
【請求項2】
前記テキスト情報をコンピュータ間で送受信するステップを実行する、請求項1に記載のシステム。
【請求項3】
前記所定の処理として、前記テキスト情報に対して翻訳処理を実行する、請求項1に記載のシステム。
【請求項4】
前記出力するステップでは、ユーザに対応するアバターの音声で、他のユーザに対して出力する、請求項1に記載のシステム。
【請求項5】
ユーザから前記アバターの選択を受け付ける、請求項4に記載のシステム。
【請求項6】
前記所定の処理として、前記テキスト情報に基づいて、アバター同士の会話内容を生成し、生成した会話の内容を音声情報に変換するステップを実行する、請求項1に記載のシステム。
【請求項7】
生成した前記アバターの会話内容に対して翻訳処理を実行する、請求項6に記載のシステム。
【請求項8】
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、前記プロセッサが、請求項1から請求項7のいずれかに係る発明において実行される全てのステップを実行する、方法。
【請求項9】
プロセッサと、メモリとを備えるコンピュータに、請求項1から請求項7のいずれかに係る発明において実行される全てのステップを実行させる、プログラム。
【請求項10】
制御部と、記憶部とを備える情報処理装置であって、前記制御部が、請求項1から請求項7のいずれかに係る発明において実行される全てのステップを実行する、情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、システム、方法、プログラム、情報処理装置に関する。
【背景技術】
【0002】
昨今、ユーザ間のコミュニケーションを支援するシステムが開発されている。例えば、特許文献1には、VR空間内でのアバターを介したユーザ間での会話を、映像または音声で記録するシステムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
一方、上記技術では、コミュニケーションのリアルタイム性および多様性の観点で改善の余地があった。
【0005】
本開示の目的は、リアルタイムでの多様なコミュニケーションを実現する技術を提供することにある。
【課題を解決するための手段】
【0006】
本開示では、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行するシステムが提供される。
【発明の効果】
【0007】
本開示によれば、リアルタイムでのコミュニケーションをより多様な形で行うことが可能となる。
【図面の簡単な説明】
【0008】
【
図1】システム1の処理の一例を説明する図である。
【
図2】システム1のハードウェア構成を示すブロック図である。
【
図3】端末装置10の機能構成を示すブロック図である。
【
図4】サーバ20の機能構成を示すブロック図である。
【
図5】端末装置10の記憶部180に記憶されるデータベースの構造を示す図である。
【
図6】システム1の処理の流れを説明するフロー図である。
【
図7】第2実施形態におけるサーバ20の機能構成を示すブロック図である。
【
図8】第2実施形態におけるシステム1の処理の一例を説明する図である。
【発明を実施するための形態】
【0009】
以下、図面を参照しつつ、本開示の実施形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称及び機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
【0010】
<1.第1実施形態>
(1-1.システム1の概要)
図1を参照して、システム1が提供する機能(以下、本機能ともいう)の概要を説明する。
図1に示すように、システム1は、複数の端末装置10と、サーバ20を備える。システム1を利用するユーザ間では、ユーザそれぞれが端末装置10を使用することにより、ボイスチャット(ネットワークを利用して行われる音声通話)によるリアルタイムでのコミュニケーションが行われる。
【0011】
端末装置10は、ユーザが発した音声を受け付けると、当該音声についての音声情報をテキスト情報に変換して、サーバ20へ送信する。サーバ20は、受信したテキスト情報に対して、翻訳処理などの所定の処理を行い、翻訳後のテキスト情報を他の端末装置10へ送信する。他の端末装置10は、受信したテキスト情報を音声情報に変換して、音声としてユーザに出力する。
【0012】
このように、システム1では、ユーザが発した音声を、テキスト情報に変換してデータの送受信を行うため、データ送受信時の処理を軽減することができる。また、音声情報をテキスト情報に変換するため、翻訳などの処理を行うことができ、リアルタイムでのコミュニケーションをより多様な形で行うことが可能となる。以下、詳細を説明する。
【0013】
(1-2.システム1のハードウェア構成)
図2は、システム1のハードウェア構成の例を示すブロック図である。システム1は、複数の端末装置10と、サーバ20とを備える。端末装置10およびサーバ20は、ネットワーク30を介して通信可能に接続されている。なお、
図2に示す例では、システム1は3つの端末装置10を備えているが、端末装置10の数はこの例に限定されることはなく、2つであってもよく、4つ以上でもよい。
【0014】
本実施形態において、複数の装置の集合体を1つのサーバ20としてもよい。1つ又は複数のハードウェアに対して本実施形態に係るサーバ20を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び/又はサーバ20に求められる仕様等に鑑みて適宜決定することができる。
【0015】
端末装置10は、一例として、タブレット端末、又はスマートフォン等の携帯端末として実現してもよい。端末装置10は、通信IF(Interface)12と、入力装置13と、出力装置14と、メモリ15と、ストレージ16と、プロセッサ19とを備える。
【0016】
通信IF12は、端末装置10が外部の装置と通信するため、信号を入出力するためのインタフェースである。
【0017】
入力装置13は、ユーザからの入力操作を受け付けるための装置(例えば、タッチパネル、マイク等)である。
【0018】
出力装置14は、ユーザに対して情報を提示するための装置(ディスプレイ、スピーカ等)である。
【0019】
メモリ15は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
【0020】
ストレージ16は、データを保存するためのものであり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。
【0021】
プロセッサ19は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路等により構成される。
【0022】
サーバ20は、インターネットなどのネットワーク30を介して端末装置10と通信可能なコンピュータであり、いわゆるクラウドサーバとして実現される。サーバ20は、通信IF22と、入出力IF23と、メモリ25と、ストレージ26と、プロセッサ29とを備える。
【0023】
入出力IFは、サーバ20に対して何らかの入力操作を行う場合、または、サーバ20から情報を出力する場合に、入出力装置を接続するためのインタフェースである。
【0024】
通信IF22、メモリ25、ストレージ26およびプロセッサ29は、端末装置10の通信IF12、メモリ15、ストレージ16およびプロセッサ19と同様に構成されるため、説明は繰り返さない。
【0025】
(1-3.端末装置10の機能構成)
図3は、端末装置10の機能構成の例を示すブロック図である。
図3に示すように、端末装置10は、入力装置13と、出力装置14と、通信部150と、音声処理部170と、記憶部180と、位置情報センサ190と、制御部200を備える。
図2において端末装置10に含まれる各ブロックは、例えば、バス等により電気的に接続される。
【0026】
通信部150は、端末装置10が他の装置と通信するための変復調処理等の処理を行う。通信部150は、制御部200で生成された信号に送信処理を施し、外部(例えば、他の端末装置10)へ送信する。通信部150は、外部から受信した信号に受信処理を施し、制御部200へ出力する。
【0027】
入力装置13は、端末装置10を操作するユーザが指示、又は情報を入力するための装置である。入力装置13は、例えば、操作面へ触れることで指示が入力されるタッチセンシティブデバイス131等により実現される。入力装置13は、キーボードまたはマウスを含んでいてもよい。入力装置13は、ユーザから入力される指示、又は情報を電気信号へ変換し、電気信号を制御部200へ出力する。なお、入力装置13には、例えば、外部の入力機器から入力される電気信号を受け付ける受信ポートが含まれてもよい。
【0028】
出力装置14は、端末装置10を操作するユーザへ情報を提示するための装置である。出力装置14は、例えば、ディスプレイ141等により実現される。ディスプレイ141は、制御部200の制御に応じたデータを表示する。ディスプレイ141は、例えば、LCD(Liquid Crystal Display)、又は有機EL(Electro-Luminescence)ディスプレイ等によって実現される。
【0029】
音声処理部170は、例えば、音声信号のデジタル-アナログ変換処理を行う。音声処理部170は、マイク171から与えられる信号をデジタル信号に変換して、変換後の信号を制御部200へ与える。また、音声処理部170は、音声信号をスピーカ172へ与える。音声処理部170は、例えば音声処理用のプロセッサによって実現される。マイク171は、音声入力を受け付けて、当該音声入力に対応する音声信号を音声処理部170へ与える。スピーカ172は、音声処理部170から与えられる音声信号を音声に変換して当該音声を端末装置10の外部へ出力する。
【0030】
記憶部180は、例えば、メモリ15、及びストレージ16等により実現され、端末装置10が使用するデータ、及びプログラムを記憶する。記憶部180は、一例として、ユーザデータベース(DB:DataBase)181と、アバターデータベース182と、演出データベース183を記憶する。
【0031】
ユーザデータベース181は、ユーザの情報を記憶するためのデータベースである。ユーザデータベース181には、当該端末装置10を利用するユーザに関する情報が記憶される。一例として、ユーザデータベース181は、端末装置10にインストールされた本機能を提供するソフトウェアを利用して、ユーザがユーザ登録の作業を行ったタイミングで、レコードが生成される仕様としてもよい。ユーザデータベース181のデータ構造の詳細は後述する。
【0032】
アバターデータベース182は、ユーザに対応づけられるアバターの情報を記憶するためのデータベースである。アバターとは、ユーザの分身としての機能を備える仮想のキャラクタであって、システム1において、ユーザの代わりに各種情報を音声で伝達する役割を果たすように構成されている。アバターデータベース182には、アバターそれぞれに設定される情報が記憶されている。一例として、アバターデータベース182は、本機能を実行するために端末装置10にインストールされたソフトウェアを利用して、ユーザがアバターの情報を登録する作業を行ったタイミングでレコードが生成される仕様としてもよい。アバターデータベース182のデータ構造の詳細は後述する。
【0033】
演出データベース183は、アバターごとに設定される演出の情報を記憶するためのデータベースである。本実施形態では、演出としてアバターが発する音声について、声色や声の高さなどの各種パラメータを設定可能な仕様となっている。演出データベース183では、アバターに設定可能な演出の情報が記憶されている。一例として、演出データベース183は、本機能を実行するためのソフトウェアを端末装置10にインストールしたタイミングで、初期設定として用意されたレコードが生成される仕様としてもよい。また、当該初期設定のレコードに加えて、ユーザが演出の情報を設定する作業を行ったタイミングで、追加のレコードが生成される仕様としてもよい。演出データベース183のデータ構造の詳細は後述する。
【0034】
位置情報センサ190は、端末装置10の位置を検出するセンサであり、例えばGPS(Global Positioning System)モジュールである。GPSモジュールは、衛星測位システムで用いられる受信装置である。衛星測位システムでは、少なくとも3個または4個の衛星からの信号を受信し、受信した信号に基づいて、GPSモジュールが搭載される端末装置10の現在位置を検出する。なお、GPS以外の衛星測位システム、例えばGNSS(Global Navigation Satellite System:全地球航法衛星システム)と呼ばれるシステムを用いた位置情報センサ190であってもよい。
【0035】
制御部200は、プロセッサ19が記憶部180に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部200は、端末装置10の動作を制御する。制御部200は、プログラムに従って動作することにより、操作受付部201と、送受信部202と、表示制御部203と、音声受付部204と、音声変換部205と、音声出力部206としての機能を発揮する。
【0036】
操作受付部201は、入力装置13から入力される指示、又は情報を受け付けるための処理を行う。具体的には、例えば、操作受付部201は、タッチセンシティブデバイス131等から入力される指示に基づく情報を受け付ける。
【0037】
送受信部202は、端末装置10が、外部の装置と通信プロトコルに従ってデータを送受信するための処理を行う。
【0038】
表示制御部203は、ユーザに対する情報のディスプレイ141に代表される出力装置14への表示を制御する。
【0039】
音声受付部204は、ユーザが発する音声を受け付ける。具体的には、例えば、ユーザが発する音声の入力を端末装置10のマイク171で検出し、音声処理部170における音声信号のデジタル-アナログ変換処理を行って、音声受付部204によってユーザが発した音声が受け付けられる仕様としてもよい。
【0040】
音声変換部205は、音声受付部204が受け付けた音声についての音声情報を、テキスト情報に変換する。また、音声受付部204は、サーバ20から受信したテキスト情報を、音声情報に変換する。音声情報とテキスト情報との変換処理は、既存の音声認識技術を採用してもよい。一例として、音声変換部205は、DNN-HMM型音声認識を行ってもよいし、ディープラーニング(深層学習)によるEnd-to-Endモデルでの音声認識を行ってもよい。
【0041】
音声出力部206は、音声変換部205が変換した音声情報を出力する。具体的には、例えば、音声出力部206は、音声変換部205が変換した音声情報を音声処理部170へ与える。音声処理部170は、受け付けた音声情報に対応する音声信号のスピーカ172へ与える。スピーカ172は、音声処理部170から与えられる音声信号を音声に変換して、端末装置10の外部へ出力する。
【0042】
(1-4.サーバ20の機能構成)
図4は、サーバ20は、通信部210と、記憶部220と、制御部230を備える。
図4においてサーバ20に含まれる各ブロックは、例えば、バス等により電気的に接続される。
【0043】
通信部210は、サーバ20が外部の装置と通信するための処理を行う。
【0044】
記憶部220は、例えば、メモリ25、及びストレージ26等により実現され、サーバ20が使用するデータ、及びプログラムを記憶する。
【0045】
制御部230は、プロセッサ29が記憶部220に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部230は、プログラムに従って動作することにより、送受信モジュール231、翻訳モジュール232を備える。
【0046】
送受信モジュール231は、サーバ20が、外部の装置と通信プロトコルに従ってデータを送受信するための処理を行う。
【0047】
翻訳モジュール232は、サーバ20が受信したテキスト情報の翻訳を行う。テキスト情報の翻訳は、既存の機械翻訳の技術を用いることができる。例えば、翻訳モジュール232は、深層学習(ディープラーニング)を利用したニューラル機械翻訳を実行する既存のソフトウェアまたはライブラリを利用して、テキスト情報の翻訳を行ってもよい。
【0048】
(1-5.データ構造)
図5を参照し、システム1で使用するデータベースのデータ構造を説明する。なお、以下に説明するデータ構造はあくまでも一例であり、他のデータベースおよびデータ項目の保有を除外するものではない。
【0049】
図5は、端末装置10の記憶部180が記憶するユーザデータベース181、アバターデータベース182、演出データベース183のデータ構造の一例を示す図である。
【0050】
図5に示すように、ユーザデータベース181のレコードは、項目「ユーザID」と、項目「ユーザ名」と、項目「年齢」と、項目「性別」と、項目「登録日時」等を含む。
【0051】
項目「ユーザID」は、ユーザを識別するための識別情報であり、ユーザデータベース181におけるレコードを一意に特定するための主キーである
【0052】
項目「ユーザ名」は、ユーザの名前についての情報である。ユーザ名は、ユーザの本名であってもよいし、ニックネームなどの本人を特定しない情報であってもよい。
【0053】
項目「年齢」は、ユーザの年齢についての情報である。
【0054】
項目「性別」は、ユーザの性別についての情報である。
【0055】
項目「登録日」は、ユーザデータベースに当該レコードが登録された日付についての情報である。
【0056】
ユーザは、端末装置10にインストールされた本機能を提供するソフトウェアを利用して、ユーザ情報を登録してユーザデータベース181にレコードを追加できる仕様としてもよい。
【0057】
アバターデータベース182のレコードは、項目「アバターID」と、項目「アバター名」と、項目「年齢」と、項目「性別」と、項目「対応ユーザ」と、項目「対応演出」等を含む。
【0058】
項目「アバターID」は、アバターを識別するための識別情報であり、アバターデータベース182におけるレコードを一意に特定するための主キーである。
【0059】
項目「アバター名」は、アバターの名前についての情報である。
【0060】
項目「年齢」は、アバターの年齢についての情報である。
【0061】
項目「性別」は、アバターの性別についての情報である。
【0062】
項目「対応ユーザ」は、アバターに対応付けて登録されるユーザを特定するための情報であり、ユーザデータベース181の項目「ユーザID」が外部キーとして保持される。本実施形態では、1のアバターに対して1のユーザが対応づけられて、アバターデータベース182に記憶される。
【0063】
項目「対応演出」は、アバターに対して適用される演出を特定するための識別情報であり、演出データベース183の項目「演出ID」が外部キーとして保持される。このように、アバターそれぞれに対して適用される演出についての情報が、アバターデータベース182に記憶される。
【0064】
一例として、端末装置10に本機能を提供するソフトウェアをインストールするタイミングで、初期設定として用意されているレコードを備えるアバターデータベース182が生成される仕様としてもよい。また、ユーザは、当該ソフトウェアを利用して、アバターデータベース182のレコードにおける各項目の内容を更新できる仕様としてもよい。また、ユーザは、当該ソフトウェアを利用して、アバターに関する情報を新たに登録してアバターデータベース182にレコードを追加できる仕様としてもよい。
【0065】
演出データベース183のレコードは、項目「演出ID」と、項目「声色」と、項目「声の高さ」と、項目「語尾」等を含む。
【0066】
項目「演出ID」は、アバターに対して適用される演出を識別するための識別情報であり、演出データベース183のレコードを一意に特定するための主キーである。
【0067】
項目「声色」は、アバターの声における音色についての情報であり、具体的には、アバターが発生する音声の音波における波形についての情報である。
【0068】
項目「声の高さ」は、アバターの声の高さについての情報であり、具体的には、アバターが発生する音声の音波における周波数についての情報である。
【0069】
項目「語尾」は、アバターの発言に対して末尾に付加される言葉についての情報である。具体的には、「~だよ」、「~じゃ」、「~ぴょん」といった発言内容の語尾に付加され得る言葉についての情報である。
【0070】
(1-6.処理の流れ)
以下、
図6を参照して、システム1の処理の一例を説明する。以下の説明においては、システム1は、端末装置10として端末装置10Aおよび端末装置10Bを備える。
【0071】
ステップS111において、端末装置10Aの操作受付部201は、ユーザからアバターの選択を受け付ける。一例として、ユーザは、アバターの選択に伴い、当該アバターの発声において付加される演出(声色、声の高さ、語尾等)を選択できる仕様としてもよい。操作受付部201は、ユーザからアバターおよび演出の選択を受け付けると、記憶部180のアバターデータベース182にレコードを追加する。
【0072】
ステップS112において、端末装置10Aの音声受付部204は、ユーザが発する音声を受け付ける。音声受付部204は、所定の条件が満たされた場合に、ユーザが発した音声についての音声情報を取得する仕様としてもよい。例えば、音声受付部204は、ユーザによる端末装置10への所定の操作を条件として、ユーザが発した音声についての音声情報を取得してもよい。具体的には、端末装置10のディスプレイ141に音声を受け付けるためのボタン等が表示され、ユーザが当該ボタンを押下したことを条件として、音声受付部204はユーザが発した音声についての音声情報を取得する仕様としてもよい。
【0073】
または、音声受付部204は、ユーザが特定の発言をしたことを条件として、ユーザが発した音声についての音声情報を取得する仕様としてもよい。例えば、予め定められた文章、キーワード、合言葉などの発言を行った場合に、音声受付部204は、ユーザが発した音声についての音声情報を取得する仕様としてもよい。他の例として、ユーザが自身に対応付けられているアバターの名前を呼ぶことを条件として、ユーザが発した音声についての音声情報を取得する仕様としてもよい。
【0074】
ステップS113において、端末装置10Aの音声変換部205は、ユーザから受け付けた音声をテキスト情報に変換する。
【0075】
ステップS114において、端末装置10Aの送受信部202は、音声変換部205が変換したテキスト情報をサーバ20へ送信する。ステップS121において、サーバ20の送受信モジュール231は、端末装置10Aからテキスト情報を受信する。
【0076】
ステップS122において、サーバ20の翻訳モジュール232は、受信したテキスト情報に対して翻訳処理を実行する。一例として、翻訳モジュール232は、機械翻訳を行う既存のソフトウェアまたはライブラリを利用して、テキスト情報の翻訳処理を実行する。
【0077】
ステップS123において、サーバ20の送受信モジュール231は、テキスト情報を端末装置10Aへ送信する。ステップS131において、端末装置10Bの送受信部202は、テキスト情報をサーバ20から受信する。
【0078】
ステップS132において、端末装置10Bの音声変換部205は、サーバ20から受信したテキスト情報を音声情報に変換する。ステップS133において、端末装置10Bの音声出力部206は、変換された音声情報を音声処理部170へ出力することにより、スピーカ172から出力する。
【0079】
(1-7.小括)
以上のようにして、本実施形態では、システム1は、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行し、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行する。このようにすることにより、リアルタイムでのコミュニケーションをより多様な形で行うことが可能となる。
【0080】
また、システム1では、テキスト情報を端末装置10とサーバ20との間で送受信するステップを実行する。このようにすることにより、コンピュータ間でのデータ送受信における負荷を軽減することが可能となる。
【0081】
また、システム1では、所定の処理として、テキスト情報に対して翻訳処理を実行する。このようにすることにより、受け付けた音声情報を翻訳することが可能となるため、多様なコミュニケーションを実現することができる。
【0082】
<2 第2実施形態>
図7および
図8を参照して、本開示における第2実施形態を説明する。
図7に示すように、第2実施形態では、サーバ20の制御部230は、翻訳モジュール232に代わって生成モジュール233を備える点で第1実施形態と異なる。以下、第1実施形態との相違点を中心に説明する。
【0083】
生成モジュール233は、テキスト情報に基づいて、アバター同士の会話の内容(以下、会話内容ともいう)を生成する。本実施形態では、生成モジュール233は、端末装置10から受信したテキスト情報に対して自然言語処理を行い、アバター同士の会話内容を生成する。生成モジュール233が生成した会話内容は、テキスト情報として端末装置10へ送信される。端末装置10は、当該テキスト情報を音声に変換してユーザに対して出力する。
【0084】
図8に示すように、第2実施形態では、端末装置10Aおよび端末装置10Bは、いずれもステップS112~ステップS114において、ユーザから受け付けた音声をテキスト情報に変換して、サーバ20へ送信する。サーバ20は、ステップS121においてテキスト情報を受信すると、ステップS122において、生成処理を行う。
【0085】
生成処理では、端末装置10Aおよび端末装置10Bから受信したテキスト情報に基づいてアバター同士の会話内容がテキスト情報として生成される。ステップS123において、生成された会話内容が端末装置10Aおよび10Bへ送信されると、端末装置10において音声情報に変換されて音声として出力される。
【0086】
このようにすることにより、ユーザは、自身の発言に基づいて生成されたアバター同士の会話について、ラジオをきくような体験を味わうことができ、ユーザ体験が向上する。
【0087】
<3 他の実施形態>
以上、本発明における実施形態およびその変形例について説明したが、本開示の適用は上述の内容に限定されるものではない。例えば、サーバ20の制御部230は、翻訳モジュール232と生成モジュール233とをいずれも有しており、生成モジュール233が生成したアバター同士の会話内容を、翻訳モジュール232が翻訳する仕様としてもよい。
【0088】
また、上記実施形態では、ボイスチャットを想定しているため、話者と聴取者が同じとなっているが、この態様に限定されることはなく、話者と聴取者が異なってもよい。一例として、ポッドキャストのようなインターネットを利用した音声配信において、複数の話者が参加する場合に、本開示の技術的思想を適用してもよい。
【0089】
また、上記実施形態では、話者としてのユーザが存在する音声での同期コミュニケーションを想定しているが、この態様に限定されることはない。例えば、話者として対応するユーザが存在しない仮想のキャラクタが複数存在し、当該キャラクタが発する音声は、コンピュータが合成した音声であってもよい。
【0090】
また上記実施形態において、音声データと合わせて、アバターの口の動きを再現するためのリップシンク情報をサーバ20へ送信する仕様としてもよい。この場合、ユーザから音声データを受け付けた端末装置10において、当該音声データの解析を行い、口の動きに関するリップシンク情報を生成する。具体的には、リップシンク情報には、入力音声に対する口形の幅や高さに関する情報、および/または入力音声に含まれる各音素の割合に関する情報が含まれ得る。また、音声データと合わせて、音声に対応する字幕情報をサーバ20へ送信する仕様としてもよい。この場合、ユーザから音声データを受け付けた端末装置10において、当該音声データの解析を行い、字幕情報を生成する。音声データの解析に基づくリップシンク情報の生成、または字幕情報の生成については、周知の技術を用いて行うことができる。サーバ20は、受信したリップシンク情報または字幕情報を端末装置10へ送信し、端末装置10において、音声データの出力に合わせてアバターの口の動きが再現され、または字幕が表示される。
【0091】
また、通信回線を介した所定情報の共有は、主にインターネットなどのWANを介して行われるが、情報処理装置間では、WANを介さずにBluetooth(登録商標)等の近距離の無線通信、及び赤外線通信等のみを介して行われてもよい。
【0092】
また、上記実施形態では、各機能を端末装置10またはサーバ20が備える態様の一例について説明したが、この形態に限定されることはなく、一部または全部の機能について上記実施形態と異なる態様で端末装置10、サーバ20、又は端末装置10とサーバ20の両方が備える構成としてもよい。
【0093】
また、上記実施形態において端末装置10に実行させるものとして記載されていた各ステップをサーバ20に実行させてもよく、サーバ20に実行させるものとして記載されていた各ステップを端末装置10に実行させてもよい。
【0094】
さらに、本発明は、上述した端末装置10またはサーバ20が備える機能を情報処理装置に実行させるプログラムとして実現してもよいし、当該プログラムを格納する、コンピュータ読み取り可能な非一時的な記録媒体として実現してもよい。
【0095】
<付記>
以上の各実施形態で説明した事項を以下に付記する。
(付記1)
プロセッサを有するコンピュータを備え、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた前記音声についての音声情報をテキスト情報に変換するステップと、前記テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した前記音声情報を、他のユーザに対して出力するステップと、を実行する、システム。
(付記2)
前記テキスト情報をコンピュータ間で送受信するステップを実行する、付記1に記載のシステム。
(付記3)
前記所定の処理として、前記テキスト情報に対して翻訳処理を実行する、付記1に記載のシステム。
(付記4)
前記出力するステップでは、ユーザに対応するアバターの音声で、他のユーザに対して出力する、付記1に記載のシステム。
(付記5)
ユーザから前記アバターの選択を受け付ける、付記4に記載のシステム。
(付記6)
前記所定の処理として、前記テキスト情報に基づいて、アバター同士の会話内容を生成し、生成した会話の内容を音声情報に変換するステップを実行する、付記1に記載のシステム。
(付記7)
生成した前記アバターの会話内容に対して翻訳処理を実行する、付記6に記載のシステム。
【0096】
以上、本開示のいくつかの実施形態を説明したが、これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものとする。
【符号の説明】
【0097】
1:システム、10:端末装置、13:入力装置、14:出力装置、15:メモリ、16:ストレージ、19:プロセッサ、20:サーバ、25:メモリ、26:ストレージ、29:プロセッサ、30:ネットワーク、131:タッチセンシティブデバイス、141:ディスプレイ、150:通信部、170:音声処理部、171:マイク、172:スピーカ、180:記憶部、181:ユーザデータベース、182:アバターデータベース、183:演出データベース、190:位置情報センサ、200:制御部、201:操作受付部、202:送受信部、203:表示制御部、204:音声受付部、205:音声変換部、206:音声出力部、210:通信部、220:記憶部、230:制御部、231:送受信モジュール、232:翻訳モジュール、233:生成モジュール。