(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023137119
(43)【公開日】2023-09-29
(54)【発明の名称】処理装置、処理方法及び処理プログラム
(51)【国際特許分類】
G06Q 50/10 20120101AFI20230922BHJP
【FI】
G06Q50/10
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022043151
(22)【出願日】2022-03-17
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】吉澤 雄輝
(72)【発明者】
【氏名】大貫 明人
(72)【発明者】
【氏名】友田 光哉
(72)【発明者】
【氏名】今田 晴菜
(72)【発明者】
【氏名】稲富 梨奈
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC12
(57)【要約】
【課題】仮想現実空間での会議中、ユーザの発言を、正しい敬語で相手に伝えることができる。
【解決手段】サーバ装置10は、会議が可能であるVR空間を構築して、第1のユーザが使用する第1のユーザ端末と、第2のユーザが使用する第2のユーザ端末とに提供する構築部132と、第1のユーザの第1の発言により、第1のユーザ端末から音声データが入力されると、入力された音声データに対して、音声認識を行う音声認識部133と、音声認識部133による音声認識結果を基に、第1の発言に正しい敬語が使用されているか否かを判定する判定部135と、判定部135によって、第1の発言に正しい敬語が使用されていないと判定された場合、第1の発言を、正しい敬語を使用した第2の発言に変換する変換部136と、第2の発言に対応するデータを、第2のユーザ端末に送信する通信部11と、を有する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
会議が可能である仮想現実空間を構築して、第1のユーザが使用する第1のユーザ端末と、第2のユーザが使用する第2のユーザ端末とに提供する構築部と、
前記第1のユーザの第1の発言により、前記第1のユーザ端末から音声データが入力されると、入力された前記音声データに対して、音声認識を行う音声認識部と、
前記音声認識部による音声認識結果を基に、前記第1の発言に正しい敬語が使用されているか否かを判定する判定部と、
前記判定部によって、前記第1の発言に正しい敬語が使用されていないと判定された場合、前記第1の発言を、正しい敬語を使用した第2の発言に変換する変換部と、
前記第2の発言に対応するデータを、前記第2のユーザ端末に送信する送信部と、
を有することを特徴とする処理装置。
【請求項2】
前記送信部は、前記判定部によって、前記第1の発言に正しい敬語が使用されていると判定された場合、前記音声データを前記第2のユーザ端末に送信することを特徴とする請求項1に記載の処理装置。
【請求項3】
前記変換部は、前記判定部によって、前記第1の発言に正しい敬語が使用されていないと判定された場合、前記第1の発言を前記第2の発言に変換し、前記第2の発言の内容を示すテキストデータを生成し、
前記送信部は、前記変換部が生成したテキストデータを、前記第2のユーザ端末に送信することを特徴とする請求項1または2に記載の処理装置。
【請求項4】
前記変換部は、前記判定部によって、前記第1の発言に正しい敬語が使用されていないと判定された場合、前記第1のユーザの発言を前記第2の発言に変換し、予め収録された前記第1のユーザの音声を基に、前記第2の発言の内容を示す音声データを生成し、
前記送信部は、前記変換部が生成した音声データを、前記第2のユーザ端末に送信することを特徴とする請求項1または2に記載の処理装置。
【請求項5】
会議の重要度、前記第1のユーザの属性、前記第2のユーザの属性、前記第1のユーザと前記第2のユーザの関係、及び、前記第1のユーザと前記第2のユーザとの間の会議の回数、の少なくとも一つを基に、前記第1のユーザが発言者であり、その相手が前記第2のユーザである場合のスコアをスコアリングするスコアリング部をさらに有し、
前記判定部は、
前記スコアリング部によってスコアリングされた前記スコアに応じて、前記第1のユーザが前記第2のユーザに対して使用すべき敬語の種類を判定する第1の判定部と、
前記音声認識部による音声認識結果を基に、前記第1の発言で、前記第1のユーザが前記第2のユーザに対して使用すべき種類の敬語が使用されているか否かを判定する第2の判定部と、
を有し、
前記変換部は、前記第2の判定部によって、前記第1の発言で、前記第1のユーザが前記第2のユーザに対して使用すべき種類の敬語が使用されていないと判定された場合、前記第1の発言を、前記第1のユーザが使用すべき種類の敬語を使用した前記第2の発言に変換することを特徴とする請求項1~4のいずれか一つに記載の処理装置。
【請求項6】
処理装置が実行する処理方法であって、
会議が可能である仮想現実空間を構築して、第1のユーザが使用する第1のユーザ端末と、第2のユーザが使用する第2のユーザ端末とに提供する構築工程と、
前記第1のユーザの第1の発言により、前記第1のユーザ端末から音声データが入力されると、入力された前記音声データに対して、音声認識を行う音声認識工程と、
前記音声認識工程における音声認識結果を基に、前記第1の発言に正しい敬語が使用されているか否かを判定する判定工程と、
前記判定工程において、前記第1の発言に正しい敬語が使用されていないと判定された場合、前記第1の発言を、正しい敬語を使用した第2の発言に変換する変換工程と、
前記第2の発言に対応するデータを、前記第2のユーザ端末に送信する送信工程と、
を含んだことを特徴とする処理方法。
【請求項7】
会議が可能である仮想現実空間を構築して、第1のユーザが使用する第1のユーザ端末と、第2のユーザが使用する第2のユーザ端末とに提供する構築ステップと、
前記第1のユーザの第1の発言により、前記第1のユーザ端末から音声データが入力されると、入力された前記音声データに対して、音声認識を行う音声認識ステップと、
前記音声認識ステップにおける音声認識結果を基に、前記第1の発言に正しい敬語が使用されているか否かを判定する判定ステップと、
前記判定ステップにおいて、前記第1の発言に正しい敬語が使用されていないと判定された場合、前記第1の発言を、正しい敬語を使用した第2の発言に変換する変換ステップと、
前記第2の発言に対応するデータを、前記第2のユーザ端末に送信する送信ステップと、
をコンピュータに実行させるための処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理装置、処理方法及び処理プログラムに関する。
【背景技術】
【0002】
近年では、アプリケーションやブラウザを介して接続するWeb会議サービスが広く普及している。これらのサービスでは、会議サービスを提供する設備がネットワーク上に設置されており、利用者は、端末上で動作するアプリケーションやブラウザを用いて会議に参加する。さらに、会議室を表現した仮想現実(VR:Virtual Reality)空間を構築し、VR空間上での会議を可能とする技術が提案されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
高齢者等、年齢層が上の人は、敬語の使い方などに厳しい傾向がある。この場合、若者は、敬語をうまく使えず、正しい敬語を使っているか不安になる場合がある。このため、会議中、若者が、自分と年齢が離れた人との会話を負担に感じることがある。
【0005】
本発明は、上記に鑑みてなされたものであって、仮想現実空間での会議中、ユーザの発言を、正しい敬語で相手に伝えることができる処理装置、処理方法及び処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明に係る処理装置は、会議が可能である仮想現実空間を構築して、第1のユーザが使用する第1のユーザ端末と、第2のユーザが使用する第2のユーザ端末とに提供する構築部と、第1のユーザの第1の発言により、第1のユーザ端末から音声データが入力されると、入力された音声データに対して、音声認識を行う音声認識部と、音声認識部による音声認識結果を基に、第1の発言に正しい敬語が使用されているか否かを判定する判定部と、判定部によって、第1の発言に正しい敬語が使用されていないと判定された場合、第1の発言を、正しい敬語を使用した第2の発言に変換する変換部と、第2の発言に対応するデータを、第2のユーザ端末に送信する送信部と、を有することを特徴とする。
【発明の効果】
【0007】
本発明によれば、仮想現実空間での会議中、ユーザの発言を、正しい敬語で相手に伝えることができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施の形態に係る通信システムの構成の一例を示すブロック図である。
【
図2】
図2は、
図1に示すサーバ装置の構成の一例を示すブロック図である。
【
図3】
図3は、ユーザ情報のデータ構成の一例を示す図である。
【
図4】
図4は、ユーザ情報のデータ構成の一例を示す図である。
【
図5】
図5は、サーバ装置がユーザ端末に提供する会議VR空間を説明する図である。
【
図6】
図6は、実施の形態1に係る通信処理の処理手順の一例を示すシーケンス図である。
【
図7】
図7は、実施の形態1の変形例に係る通信処理の処理手順の一例を示すシーケンス図である。
【
図8】
図8は、実施の形態2に係るサーバ装置の構成の一例を示すブロック図である。
【
図9】
図9は、スコアリングルールのデータ構成の一例を示す図である。
【
図10】
図10は、分類情報のデータ構成の一例を示す図である。
【
図11】
図11は、
図8に示すサーバ装置がユーザ端末に提供する会議VR空間を説明する図である。
【
図12】
図12は、実施の形態2に係る通信処理の処理手順の一例を示すシーケンス図である。
【
図13】
図13は、実施の形態2の変形例に係る通信処理の処理手順の一例を示すシーケンス図である。
【
図14】
図14は、プログラムを実行するコンピュータを示す図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る処理装置、処理方法及び処理プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る処理装置及び処理方法が限定されるものではない。
【0010】
[実施の形態1]
まず、実施の形態1について説明する。実施の形態1では、会議が可能であるVR空間(会議VR空間)をユーザに提供する通信システムについて説明する。
【0011】
実施の形態1に係る通信システムでは、サーバ装置が、ユーザ(例えば、ユーザA)の発言において正しい敬語が使用されているか否かを判定し、この発言に正しい敬語が使用されていない場合、正しい敬語を使用した発言に変換し、会議に参加する他のユーザ(例えば、ユーザB)に送信する。このため、VR空間での会議中、ユーザAが、敬語をうまく使えない場合であっても、正しい敬語が使用された発言がユーザBに送信される。例えば、ユーザAがユーザA自身に尊敬語を使用した場合には、サーバ装置は、この尊敬語を使用した箇所を謙譲語に使用した内容に変換して、ユーザBに送信する。
【0012】
[通信システムの構成]
実施の形態に係る通信システムの構成を説明する。
図1は、実施の形態に係る通信システムの構成の一例を示すブロック図である。
【0013】
図1に示すように、実施の形態に係る通信システムは、ユーザA(第1のユーザ)が使用するユーザ端末20A(第1のユーザ端末)と、ユーザB(第2のユーザ)が使用する20B(第2のユーザ端末)と、VR提供事業者のサーバ装置10(処理装置)とを有する。なお、
図1に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。また、ユーザ端末20A,20Bをユーザ端末20と総称することがある。実施の形態では、会議に参加するユーザがユーザA,Bである場合を例に説明するが、ユーザの人数は二人に限るものではなく、三人以上であってもよい。
【0014】
サーバ装置10は、会議が可能である会議VR空間(第1の仮想現実空間)をユーザに提供するVR提供事業者のサーバ装置である。例えば、サーバ装置10は、仮想空間上に会議室を表現する会議VR空間を構築し、その会議VR空間に、各ユーザのアバターを配置する。サーバ装置10は、ユーザが使用するユーザ端末20に、他のユーザが発した音声を送信し、出力させる。また、サーバ装置10は、ユーザ端末20に、会議に参加する他のユーザが作成したテキストを送信し、出力させる。これによって、サーバ装置10は、各ユーザ端末20を介して、VR空間上での会議を各ユーザに提供する。
【0015】
サーバ装置10は、ユーザ(例えば、ユーザA)の発言に正しい敬語が使用されているか否かを判定し、この発言に正しい敬語が使用されていない場合、この発言を、正しい敬語を使用した発言に変換し、他のユーザ(例えば、ユーザB)が使用するユーザ端末20に送信する。
【0016】
ユーザ端末20は、ノートPC(Personal Computer)やデスクトップPC等の情報処理装置電子や、タブレット、スマートフォン等のスマートデバイスである。ユーザ端末20は、ネットワークNを介して、サーバ装置10に接続し、サーバ装置10が構築したVR空間の提供を受ける。例えば、ユーザは、例えばVRゴーグルを装着し、ユーザ端末20を操作することで、会議VR空間を体感することができる。
【0017】
[サーバ装置]
次に、サーバ装置10について説明する。
図2は、
図1に示すサーバ装置10の構成の一例を示すブロック図である。
図2に示すように、サーバ装置10は、各種情報に関する通信を制御する通信部11(送信部)、制御部13による各種処理に必要なデータおよびプログラムを格納する記憶部12、及び、種々の処理を実行する制御部13を有する。
【0018】
通信部11は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部11は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置と制御部13(後述)との間の通信を行う。
【0019】
例えば、通信部11は、ネットワークNを介して、ユーザ端末20から、会議VR空間への入室要求を受信する。また、通信部11は、ユーザ端末20間で音声及びデータが通信可能となるように、ネットワークNを介して、ユーザ端末20から送信された音声、テキスト等の各種データを受信し、他のユーザ端末20に送信する。
【0020】
また、通信部11は、ユーザ端末20から、ユーザの発言に対応する音声データを受信する。通信部11は、ユーザの発言(第1の発言(後述))に対応する音声データ、または、変換部136が変換した発言(第2の発言(後述))に対応するデータを、他のユーザ端末20に送信する。変換部136が変換した発言に対応するデータは、テキストデータである。
【0021】
記憶部12は、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶装置である。なお、記憶部12は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部12は、サーバ装置10で実行されるOS(Operating System)や各種プログラムを記憶する。さらに、記憶部12は、プログラムの実行で用いられる各種情報を記憶する。記憶部12は、構築用情報121、ユーザ情報122及び敬語辞典123を記憶する。
【0022】
構築用情報121は、VR空間を仮想空間上で構築するために要する情報である。構築用情報121は、会議VR空間を仮想空間上で構築するための、画像処理条件や画像処理プログラムを含む。また、構築用情報121は、VR空間で表現したい会議室の内装、机、椅子、ホワイトボード等を、定点或いは360°で撮影した写真、或いは、これらの写真を画像処理して構築したVR空間の画像を含む。構築用情報121は、例えば、VR空間が、CG(Computer Graphics)で構築される場合には、VR空間で表現したい会議室内部を再現した画像である。
【0023】
ユーザ情報122は、会議VR空間の入室者として登録されている各ユーザに関する情報である。ユーザ情報122は、例えば、ユーザのID、ユーザの所属先、ユーザの役職レベル、各ユーザIDに対応付けられた入室履歴、他の参加者なったユーザのID及び役職レベル、会議に参加する各ユーザ間の関係、会議の重要度、会議の回数、等を含む。
【0024】
図3及び
図4は、ユーザ情報122のデータ構成の一例を示す図である。
図3に示すテーブル122-1は、ユーザのID、所属先及び役職レベルを項目として有する。例えば、ユーザID「A」のユーザは、所属先が「J社K部」であり、役職レベルが「一般」である。ユーザID「E」のユーザは、所属先が「L社M部」であり、役職レベルが「主任」である。
【0025】
また、
図4に示すテーブル122-2は、発言者と、その相手となるユーザのID、所属先、役職レベルと、発言者とその相手との関係と、発言者とその相手との間で実施される会議の重要度及び回数と、を項目として有する。
【0026】
例えば、ユーザA(ユーザID「A」)が発言者であり、ユーザB(ユーザID「B」)がその相手である会議について説明する。この場合、発言者とその相手との関係が「部下と上司」であり、発言者とその相手との間で実施される会議の重要度が「標準」であり、及び、会議の回数が「15」である。
【0027】
また、例えば、ユーザAが発言者であり、ユーザE(ユーザID「E」)がその相手である会議について説明する。この場合、発言者とその相手との関係が「担当と顧客」であり、発言者とその相手との間で実施される会議の重要度が「高い」であり、及び、会議の回数が「1」である。なお、会議の重要度は、ユーザ自身が登録してもよいし、サーバ装置10が、ユーザ情報や過去の会議の履歴等を基に判定してもよい。
【0028】
敬語辞典123は、例えば、動詞や名詞に対し、正しい敬語表現がそれぞれ対応付けられたものである。敬語辞典123は、例えば、行為をする人や対象となる物に応じて、日常的に使用される尊敬語、謙譲語、丁寧語がそれぞれ対応付けられる。また、敬語辞典123は、例えば、行為をする人や対象となる物に応じて、文化庁の敬語の指針([online],[令和4年1月11日検索]、インターネット<URL:https://www.bunka.go.jp/seisaku/bunkashingikai/kokugo/hokoku/pdf/keigo_tosin.pdf>)に示す、尊敬語、謙譲語I、謙譲語II、丁寧語及び美化語の5分類の敬語がそれぞれ対応付けられたものでもよい。
【0029】
制御部13は、サーバ装置10全体を制御する。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部13は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部13は、各種のプログラムが動作することにより各種の処理部として機能する。
【0030】
制御部13は、受付部131、構築部132、音声認識部133、判定部135及び変換部136を有する。実施の形態1の説明として、ユーザA(第1のユーザ)が、ユーザB(第2のユーザ)に発言した場合を例に、制御部13の機能の説明を行う。
【0031】
受付部131は、ユーザ端末20から、ユーザの会議VR空間への入室を受け付ける。構築部132は、画像或いはCGを用いて、会議室を表現した会議VR空間を仮想空間上に構築する。
【0032】
図5は、
図2に示すサーバ装置10がユーザ端末20に提供する会議VR空間を説明する図である。構築部132は、受付部131がユーザの会議VR空間への入室を受け付けると、構築用情報121を取得して、入室を受け付けた会議VR空間V1(
図5の(1))を仮想空間上に構築する。そして、構築部132は、構築したVR空間をユーザ端末20A,20Bに提供する。構築部132は、会議VR空間V1に、入室した各ユーザA,BのアバターUa,Ubを配置する。
【0033】
音声認識部133は、ユーザAの第1の発言により、ユーザ端末20Aから音声データが入力されると、入力された音声データに対して、音声認識を行う。音声認識部133は、音声データをテキストに変換した音声認識結果を出力する。
【0034】
図5の(1)に示すように、ユーザAとユーザBとがVR空間V1で会議を行っていた場合を例に説明する。ここで、ユーザAの発言(第1の発言)により、ユーザ端末20Aから音声データが入力された場合、音声認識部133は、入力された音声データに対して、音声認識を行う。
【0035】
判定部135は、音声認識部133による音声認識結果を基に、第1の発言に正しい敬語が使用されているか否かを判定する。例えば、判定部135は、第1の発言で、ユーザA自身の行為に尊敬語を使用している場合、この第1の発言は、正しい敬語を使用していないと判定する。また、判定部135は、第1の発言で、ユーザA自身の行為に謙譲語を使用している場合、この第1の発言は、正しい敬語を使用していると判定する。
【0036】
変換部136は、判定部135によって、第1の発言に正しい敬語が使用されていないと判定された場合、敬語辞典123を参照して、この第1の発言を、正しい敬語を使用した第2の発言に変換する。
【0037】
例えば、変換部136は、第1の発言がユーザA自身に尊敬語を使用している場合、この尊敬語を使用した箇所を謙譲語に使用した第2の発言に変換する。変換部136は、判定部135によって、第1の発言に正しい敬語が使用されていないと判定された場合、第1の発言を第2の発言に変換し、第2の発言の内容を示すテキストデータを生成する。さらに、変換部136は、第2の発言に対し、ユーザBに伝わりやすいように、短文に区切る等の変換を行ってもよい。
【0038】
通信部11は、判定部135によって、第1の発言に正しい敬語が使用されていないと判定された場合、第2の発言に対応するデータを、ユーザ端末20Bに送信する。通信部11は、変換部136によって変換された第2の発言を示すテキストデータをユーザ端末20Bに送信する。
【0039】
この結果、ユーザBが利用するVR空間V1には、第2の発言を示すテキストデータT1が、アバターUaの発言として表示される(
図5の(2))。このように、ユーザAが正しい敬語を使用していない場合には、正しい敬語に変換された発言が、ユーザBに伝わることとなる。
【0040】
なお、判定部135が第1の発言に正しい敬語が使用されていると判定された場合について説明する。この場合、ユーザAの第1の発言には正しい敬語が使用されているため、通信部11は、ユーザ端末20Aから入力された第1の発言の音声データを、そのままユーザ端末20Bに送信する。
【0041】
[通信処理の処理手順]
図6は、実施の形態1に係る通信処理の処理手順の一例を示すシーケンス図である。
【0042】
図6に示すように、サーバ装置10は、ユーザ端末20A,20Bから会議VR空間への入室申し込みを受け付けると(ステップS1,S2)、入室を受け付けた会議VR空間を仮想空間上に構築し(ステップS3)、ユーザ端末20A,20Bに提供する(ステップS4,S5)。
【0043】
そして、ユーザAの発言(第1の発言)により、ユーザ端末20Aから音声データが入力されると(ステップS6)、サーバ装置10は、入力された音声データに対して、音声認識を行う(ステップS7)。
【0044】
サーバ装置10は、音声認識処理(ステップS7)の音声認識結果を基に、第1の発言に正しい敬語が使用されているか否かを判定する(ステップS8)。第1の発言に正しい敬語が使用されている場合(ステップS8:Yes)、サーバ装置10は、ユーザ端末20Aから入力された第1の発言の音声データを、そのままユーザ端末20Bに送信し(ステップS9)、ユーザ端末20Bに音声を出力させる(ステップS10)。
【0045】
一方、第1の発言に正しい敬語が使用されていない場合(ステップS8:No)、サーバ装置10は、第1の発言の音声データをユーザ端末20Bに送信せず、この第1の発言を、正しい敬語を使用した第2の発言に変換する(ステップS11)。サーバ装置10は、第2の発言を文字起こしし(ステップS12)、第2の発言の内容を示すテキストデータを生成する。サーバ装置10は、生成したテキストデータをユーザ端末20Bに送信し(ステップS13)、ユーザ端末20Bにテキストを表示させる(ステップS14)。
【0046】
[実施の形態1の効果]
このように、実施の形態1に係るサーバ装置10は、ユーザAの第1の発言において正しい敬語が使用されているか否かを判定する。そして、サーバ装置10は、第1の発言に正しい敬語が使用されていない場合、正しい敬語を使用した発言に変換し、会議に参加するユーザBに送信する。このため、VR空間での会議中、ユーザAが、敬語をうまく使えない場合であっても、正しい敬語が使用された発言がユーザBに送信される。
【0047】
したがって、実施の形態1によれば、VR空間での会議中、ユーザAの発言に正しい敬語が使用されていない場合には、この発言を変換し、正しい敬語でユーザBに伝える。このため、ユーザAは、会議中、会議に参加するユーザBが、高齢者等である場合等、敬語を正しく使用すべき相手であった場合でも、敬語の使い方を精査せずともよく、ユーザBとの間の会話を負担に感じることなく、円滑に会議を進めることができる。
【0048】
[実施の形態1の変形例]
図7は、実施の形態1の変形例に係る通信処理の処理手順の一例を示すシーケンス図である。
図7に示すステップS21~ステップS31は、
図6に示すステップS1~ステップS11と同じ処理である。
【0049】
変換部136は、予め収録された第1のユーザの音声を基に、第2の発言の内容を示す音声データを生成する(ステップS32)。この場合、第1のユーザの音声を予め収録しておく。そして、変換部136は、収録した音声のうち、第2の発言を示す各文字に対応する音の音声を抽出し、抽出した音の音声を、第2の発言の内容に応じた順序で合成した合成音声データを生成する。通信部11は、変換部136が生成した合成音声データを、ユーザ端末20Bに送信し(ステップS33)、出力させる(ステップS34)。
【0050】
実施の形態1の変形例は、第1の発言に正しい敬語が使用されていないと判定された場合、サーバ装置10が、第1の発言の音声データをユーザ端末20Bに送信せず、予め収録した第1のユーザの音声を基に、第2の発言の内容を示す合成音声データを生成する。そして、サーバ装置10は、この合成音声データをユーザ端末20Bに出力させる。実施の形態1の変形例では、ユーザ端末20Bからは、ユーザAの声で合成された第2の発言が音声出力されるため、実施の形態1と同様の効果を奏する。
【0051】
なお、サーバ装置10は、第2の発言に対応するテキストデータ及び合成音声データの双方をユーザ端末20Bに送信してもよい。また、サーバ装置10は、第2の発言に対応するデータとして、テキストデータ及び合成音声データのいずれかを選択して、ユーザ端末20Bに送信してもよい。
【0052】
また、変換部136は、人の音声を学習し、指示された文章を読ませるモデルを用いて、第2の発言の内容を示す音声データを生成してもよい。モデルは、予め収録された第1のユーザの音声を学習し、このユーザの音声で第2の発言の内容を再生する。
【0053】
[実施の形態2]
次に、実施の形態2について説明する。実施の形態2に係る通信システムでは、サーバ装置は、VR空間上の会議において、第1のユーザが発言者であり、その相手が第2のユーザである場合のスコアをスコアリングする。そして、サーバ装置は、第1のユーザの発言を、スコアリングしたスコアに応じた種類の敬語に変換する。
【0054】
図8は、実施の形態2に係るサーバ装置の構成の一例を示すブロック図である。
図8に示すように、実施の形態2に係るサーバ装置210において、記憶部12は、スコアリングルール124及び分類情報125を記憶する。
【0055】
スコアリングルール124は、会議のスコアのカウント対象と、加算するスコアとを対応付けたデータである。スコアリングルール124は、VR空間提供事業者の管理者等によって、予め設定され、適宜更新される。サーバ装置210が、スコアリングルール124の内容を、ユーザ情報や過去の会議の履歴等を基に更新してもよい。
【0056】
図9は、スコアリングルール124のデータ構成の一例を示す図である。
図9に示すテーブル124-1に示すように、スコアリングルール124は、カウント対象と、加算するスコアとを項目として有する。カウント対象は、会議を行うユーザ間の関係、会議の重要度、会議の回数等である。
【0057】
テーブル124-1では、「関係」については、発言者であるユーザと、その相手であるユーザとの関係として、例えば、「上司と部下」、「部下と上司」または「担当と顧客」が設定されており、各設定に応じたスコアが対応付けられる。テーブル124-1では、会議の重要度として、例えば、「低い」、「標準」または「高い」が設定されており、各設定に応じたスコアが対応付けられる。テーブル124-1では、会議の回数に応じたスコアが対応付けられる。
【0058】
分類情報125は、スコアリング部2134(後述)がスコアリングする会議のスコアと、スコアに応じた敬語の種類とを対応付けたデータである。スコアに応じた敬語の種類とは、発言者が、会議の相手に対して使用すべき敬語の種類である。分類情報125は、VR空間提供事業者の管理者等によって、予め設定され、適宜更新される。
【0059】
図10は、分類情報125のデータ構成の一例を示す図である。
図10に示すテーブル125-1は、スコア及び敬語の種類を項目として有する。例えば、テーブル125-1は、スコアリング部2134がスコアリングした会議のスコアが0~15のいずれかである場合には、敬語は不要であることを示す。テーブル125-1は、会議のスコアが、16~49のいずれかである場合には、使用すべき敬語の種類は「丁寧語」であることを示す。テーブル125-1は、会議のスコアが50以上である場合には、使用すべき敬語の種類は「丁寧語、尊敬語、謙譲語」であることを示す。
【0060】
なお、
図10の例では、敬語の種類として、日常的に使用される尊敬語、謙譲語、丁寧語を例示したが、これに限らない。分類情報125が示す敬語の種類は、文化庁の敬語の指針に示す、尊敬語、謙譲語I、謙譲語II、丁寧語及び美化語の5種類であってもよい。
【0061】
サーバ装置210は、
図2に示す制御部13に代えて、制御部213を有する。制御部213は、スコアリング部2134をさらに有する。そして、制御部213は、
図2に示す判定部135及び変換部136に代えて、判定部2135及び変換部2136を有する。
【0062】
スコアリング部2134は、会議の重要度、発言者(第1のユーザ)の属性、その相手(第2のユーザ)の属性、発言者とその相手との関係、及び、発言者とその相手との間の会議の回数、の少なくとも一つを基に、第1のユーザが発言者であり、会議の相手が第2のユーザである場合のスコアをスコアリングする。スコアリング部2134は、ユーザ情報122を参照し、スコアリングルール124に従って、スコアを計算する。
【0063】
例えば、発言者がユーザA(ユーザID「A」)であり、その相手がユーザB(ユーザID「B」)である場合を例に説明する。スコアリング部2134は、テーブル122-1,122-2(
図3,4)を参照する。そして、スコアリング部2134は、ユーザAとユーザBとの関係が「部下と上司」であり、会議の重要度が「標準」であり、会議回数が「15」回であると判定する。
【0064】
そして、スコアリング部2134は、例えばテーブルT124-1に従い、発言者がユーザAであり、その相手がユーザBであるのスコアをカウントする。具体的には、スコアリング部2134は、「部下と上司」に対応するスコア「10」と、会議の重要度「標準」に対応するスコア「10」と、会議の回数「15」に対応するスコア「0」とを加算した「20」を、この場合のスコアとする。
【0065】
また、発言者がユーザAであり、その相手がユーザE(ユーザID「E」)である場合を例に説明する。スコアリング部2134は、テーブル122-1,122-2を参照する。スコアリング部2134は、ユーザAとユーザEとの関係が「担当と顧客」であり、会議の重要度が「高い」であり、会議回数が「0」回であると判定する。
【0066】
そして、スコアリング部2134は、テーブルT124-1に従い、発言者がユーザAであり、その相手がユーザEである場合のスコアをカウントする。具体的には、スコアリング部2134は、「担当と顧客」に対応するスコア「20」と、会議の重要度「重要」に対応するスコア「20」と、会議の回数「0」に対応するスコア「20」とを加算した「60」をこの場合のスコアとする。
【0067】
判定部2135は、音声認識部133による音声認識結果を基に、ユーザの発言で、正しい種類の敬語が使用されているか否かを判定する。判定部2135は、第1の判定部21351と、第2の判定部21352とを有する。
【0068】
第1の判定部21351は、スコアリング部2134によってスコアリングされたスコアに応じて、発言者であるユーザ(第1のユーザ)が、会議の相手であるユーザ(第2のユーザ)に対して使用すべき敬語の種類を判定する。
【0069】
例えば、発言者がユーザAであり、その相手がユーザBである場合について説明する。この場合、第1の判定部21351は、分類情報125を参照し、スコア「20」に対応する「丁寧語」が、ユーザAがユーザBに使用すべき敬語の種類であることを判定する。
【0070】
また、発言者がユーザAであり、その相手がユーザEである場合について説明する。この場合、第1の判定部21351は、分類情報125を参照し、スコア「60」に対応する「丁寧語、尊敬語、謙譲語」が、ユーザAがユーザEに使用すべき敬語の種類であることを判定する。
【0071】
第2の判定部21352は、音声認識部133による音声認識結果を基に、発言者であるユーザ(第1のユーザ)の発言(第1の発言)で、このユーザが、その相手のユーザ(第2のユーザ)に対して、使用すべき種類の敬語が使用されているか否かを判定する。
【0072】
例えば、発言者がユーザAであり、その相手がユーザBである場合、ユーザAの発言に丁寧語が使用されているか否かを判定する。また、発言者がユーザAであり、その相手がユーザEである場合、ユーザAの発言に、丁寧語、尊敬語、謙譲語が使用されているかを判定する。なお、ユーザが使用すべき敬語の種類は、第1の判定部21351によって判定される。
【0073】
変換部2136は、第2の判定部21352によって、第1の発言で、第1のユーザが第2のユーザに対して使用すべき種類の敬語が使用されていないと判定された場合、敬語辞典123を参照し、第1の発言を、第1のユーザが使用すべき種類の敬語を使用した第2の発言に変換する。
【0074】
例えば、ユーザAがユーザBとの会議の際に、丁寧語を使用せずに発言した場合、この発言を、丁寧語を使用した発言に変換する。また、ユーザAがユーザEとの会議の際に、謙譲語を使用せずに発言した場合、ユーザAの発言を、謙譲語を使用した発言に変換する。変換部2136は、変換した発言の内容を示すテキストデータを生成する。通信部11は、変換部2136が生成したテキストデータをユーザ端末20Bに送信し、表示させる。なお、変換部2136は、変換した発言に対し、相手に伝わりやすいように、さらに、短文に区切る等の変換を行ってもよい。
【0075】
図11は、
図8に示すサーバ装置210がユーザ端末20に提供する会議VR空間を説明する図である。サーバ装置210は、正しい敬語に変換する際に、相手や会議の回数などに応じた敬語の種類を選択して、ユーザの発言を変換する。
【0076】
例えば、
図11に示すように、変換する敬語の種類を分類する。例えば、何度も話す上司(ユーザB)については、サーバ装置210は、丁寧語のみを使用した、若干崩した敬語に変換する(
図11の(2-1))。また、初めて話す取引先の担当者(ユーザE)が相手の場合には、丁寧語、尊敬語及び謙譲語を使用した正しい敬語に変換する(
図11の(2-2))。
【0077】
[通信処理の処理手順]
図12は、実施の形態2に係る通信処理の処理手順の一例を示すシーケンス図である。
図12では、ユーザAが、ユーザBに発言した場合を例に説明する。
【0078】
図12に示すステップS41~ステップS47は、
図6に示すステップS1~ステップS7と同じ処理である。サーバ装置210は、ユーザ情報122を参照し、スコアリングルール124に従って、ユーザAが発言者であり、その相手がユーザBである場合のスコアをスコアリングする(ステップS48)。
【0079】
サーバ装置210は、ステップS48においてスコアリングしたスコアを基に、分類情報125を参照して、ユーザAがユーザBに使用すべき敬語の種類を判定する(ステップS49)。
【0080】
サーバ装置210は、音声認識処理(ステップS47)における音声認識結果を基に、発言者であるユーザAの第1の発言で、ユーザAがユーザBに対して、使用すべき種類の敬語が使用されているか否かを判定する(ステップS50)。
【0081】
第1の発言で、ユーザAがユーザBに対して使用すべき種類の敬語が使用されている場合(ステップS50:Yes)、ユーザ端末20Aから入力された第1の発言の音声データを、そのままユーザ端末20Bに送信し(ステップS51)、ユーザ端末20Bに音声を出力させる(ステップS52)。
【0082】
一方、第1の発言で、ユーザAがユーザBに対して使用すべき種類の敬語が使用されていない場合(ステップS50:No)、サーバ装置210は、第1の発言の音声データをユーザ端末20Bに送信しない。そして、サーバ装置210は、敬語辞典123を参照し、第1の発言を、第1のユーザが使用すべき種類の敬語を使用した第2の発言に変換する(ステップS53)。そして、サーバ装置210は、第2の発言を文字起こしし(ステップS54)、第2の発言の内容を示すテキストデータを生成する。サーバ装置w10は、生成したテキストデータをユーザ端末20Bに送信し(ステップS55)、ユーザ端末20Bにテキストを表示させる(ステップS56)。
【0083】
[実施の形態2の効果]
このように、実施の形態2に係るサーバ装置210は、VR空間上の会議において、第1のユーザが発言者であり、その相手が第2のユーザである場合のスコアをスコアリングし、スコアリングしたスコアに応じた種類の敬語に変換する。これによって、VR空間での会議中、ユーザAが、敬語をうまく使えない場合であっても、その場に応じた正しい種類の敬語が使用された発言がユーザBに送信される。このため、ユーザAは、ユーザBとの間の会話を負担に感じることなく、円滑に会議を進めることができる。
【0084】
[実施の形態2の変形例]
図13は、実施の形態2の変形例に係る通信処理の処理手順の一例を示すシーケンス図である。
図13に示すステップS61~ステップS73は、
図12に示すステップS41~ステップS53と同じ処理である。
【0085】
変換部2136は、予め収録された第1のユーザの音声、または、予め第1のユーザの音声を学習済みであるモデルを用いて、第2の発言の内容を示す音声データを生成する(ステップS74)。通信部11は、変換部2136が生成した合成音声データを、ユーザ端末20Bに送信し(ステップS75)、出力させる(ステップS76)。
【0086】
サーバ装置210は、正しい種類の敬語が使用された第2の発言を示す合成音声データを生成し、この合成音声データをユーザ端末20Bに出力させることで、実施の形態2と同様の効果を奏する。
【0087】
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUやGPU及び当該CPUやGPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0088】
また、本実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0089】
[プログラム]
また、上記実施形態において説明したサーバ装置10,210が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態におけるサーバ装置10,210が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
【0090】
図14は、プログラムを実行するコンピュータを示す図である。
図14に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
【0091】
メモリ1010は、
図14に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、
図14に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0092】
ここで、
図14に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の、プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
【0093】
また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
【0094】
なお、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0095】
上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0096】
10,210 サーバ装置
11 通信部
12 記憶部
13,213 制御部
20A,20B ユーザ端末
121 構築用情報
122 ユーザ情報
123 敬語辞典
124 スコアリングルール
125 分類情報
131 受付部
132 構築部
133 音声認識部
135,2135 判定部
136 変換部
2134 スコアリング部
21351 第1の判定部
21352 第2の判定部