(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023124145
(43)【公開日】2023-09-06
(54)【発明の名称】通話システム、通話方法、及びコンピュータプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20230830BHJP
G10L 15/00 20130101ALI20230830BHJP
G10L 25/60 20130101ALI20230830BHJP
H04M 11/00 20060101ALI20230830BHJP
【FI】
G10L15/22 470Z
G10L15/00 200C
G10L15/22 460Z
G10L25/60
H04M11/00 302
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022027748
(22)【出願日】2022-02-25
(71)【出願人】
【識別番号】515161858
【氏名又は名称】株式会社みらい翻訳
(74)【代理人】
【識別番号】100103872
【弁理士】
【氏名又は名称】粕川 敏夫
(74)【代理人】
【識別番号】100149456
【弁理士】
【氏名又は名称】清水 喜幹
(74)【代理人】
【識別番号】100194238
【弁理士】
【氏名又は名称】狩生 咲
(74)【代理人】
【識別番号】100205648
【弁理士】
【氏名又は名称】森田 真一
(72)【発明者】
【氏名】伊藤 鶴美
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201CA01
5K201CA07
5K201DC05
5K201DC07
5K201EC06
5K201ED05
5K201EF03
5K201EF10
(57)【要約】
【課題】遠隔にいる通話相手に、簡便な操作で自身の状態を把握させる。
【解決手段】複数の端末が所定のサーバを介して音声通話を行う通話システム1であって、第1の端末21から入力される音声を取得する音声取得部11aと、音声に含まれる発話内容を音声認識して第1言語から第2言語に翻訳した翻訳文を第2の端末22の表示部に表示させるとともに、第1の端末に、翻訳文を第1言語に逆翻訳した逆翻訳文を表示させる表示制御部14と、第1の端末からの操作に基づいて、発話内容の修正を受け付ける修正受付部15と、操作に基づいて、第1の端末において修正を受け付けている旨を、第2の端末を介して第2の端末のユーザに通知する通知部16と、を備える、通話システム1。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の端末が所定のサーバを介して音声通話を行う通話システムであって、
第1の前記端末から入力される音声を取得する音声取得部と、
前記音声に含まれる発話内容を音声認識して第1言語から第2言語に翻訳した翻訳文を第2の前記端末の表示部に表示させるとともに、前記第1の前記端末に、前記翻訳文を前記第1言語に逆翻訳した逆翻訳文を表示させる表示制御部と、
前記第1の前記端末からの操作に基づいて、前記発話内容の修正を受け付ける修正受付部と、
前記操作に基づいて前記第1の前記端末において前記修正を受け付けている旨を、前記第2の前記端末を介して前記第2の前記端末のユーザに通知する通知部と、
を備える、
通話システム。
【請求項2】
前記通知部は、前記第2の前記端末における前記翻訳文の表示領域に、前記修正を受け付けている旨を表示する、
請求項1記載の通話システム。
【請求項3】
前記操作は、前記第1の前記端末の表示部における前記逆翻訳文の表示領域を選択する操作を含む、
請求項1又は2記載の通話システム。
【請求項4】
前記修正受付部は、前記第1の前記端末から入力される音声を修正後の発話内容として受け付け、前記表示制御部は、当該修正後の発話内容の翻訳文を前記第2の前記端末の表示部に表示する、
請求項1乃至3のいずれかに記載の通話システム。
【請求項5】
前記表示制御部は、前記音声に含まれる発話内容が音声認識されて生成される認識文を表示させ、
前記修正受付部は、前記第1の前記端末を介して前記認識文の文字編集を受け付け、前記表示制御部は、当該文字編集された認識文を前記第2言語に翻訳した翻訳文を前記第2の前記端末上に表示する、
請求項1乃至4のいずれかに記載の通話システム。
【請求項6】
前記表示制御部は、前記第1の前記端末において前記修正を受け付ける際に、前記第1の前記端末における前記逆翻訳文の表示領域に、前記発話内容の修正中である旨を表示する、
請求項1乃至5のいずれかに記載の通話システム。
【請求項7】
前記音声取得部により取得される前記音声の明瞭度を評価する評価部をさらに備え、
前記修正受付部は、前記評価部により前記音声が認識に適した明瞭度で取得されていないと判断される場合に、当該音声が取得される端末を介して前記発話内容の修正を受け付ける、
請求項1乃至6のいずれかに記載の通話システム。
【請求項8】
前記評価部は、前記明瞭度が低い要因を推定し、
前記表示制御部は、前記修正受付部により前記修正を受け付ける際に、前記要因を解消する対策案を前記端末に提示する、
請求項7記載の通話システム。
【請求項9】
前記第1の前記端末における第2の操作に基づいて、前記第2の前記端末に定型文を表示させる定型文送信部をさらに備える、
請求項1乃至8のいずれかに記載の通話システム。
【請求項10】
複数の端末が所定のサーバを介して音声通話を行う通話方法であって、
第1の前記端末から入力される音声を取得する音声取得ステップと、
前記音声に含まれる発話内容を音声認識して第1言語から第2言語に翻訳した翻訳文を第2の前記端末の表示部に表示させるとともに、前記第1の前記端末に、前記翻訳文を前記第1言語に逆翻訳した逆翻訳文を表示させる表示制御ステップと、
前記第1の前記端末からの操作に基づいて、前記発話内容の修正を受け付ける修正受付ステップと、
前記操作に基づいて前記第1の前記端末において前記修正を受け付けている旨を、前記第2の前記端末を介して前記第2の前記端末のユーザに通知する通知ステップと、
をコンピュータにより実行する、
通話方法。
【請求項11】
複数の端末が所定のサーバを介して音声通話を行うコンピュータプログラムであって、
第1の前記端末から入力される音声を取得する音声取得命令と、
前記音声に含まれる発話内容を音声認識して第1言語から第2言語に翻訳した翻訳文を第2の前記端末の表示部に表示させるとともに、前記第1の前記端末に、前記翻訳文を前記第1言語に逆翻訳した逆翻訳文を表示させる表示制御命令と、
前記第1の前記端末からの操作に基づいて、前記発話内容の修正を受け付ける修正受付命令と、
前記操作に基づいて前記第1の前記端末において前記修正を受け付けている旨を、前記第2の前記端末を介して前記第2の前記端末のユーザに通知する通知命令と、
をコンピュータに実行させる、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通話システム、通話方法、及びコンピュータプログラムに関する。
【背景技術】
【0002】
遠隔にいる別言語の話者同士が翻訳を介して意思疎通することを可能にする、翻訳機能を備えた通話システムが知られている。しかしながら、音声認識処理や翻訳処理を介するために、発話内容が相手に正確に伝達されない場合があった。また、話者は互いに遠隔にいるため、通話相手の状態を把握することが困難な場合があった。そこで、簡便な操作で自身の状態を通話相手に把握させることができる技術が必要とされている。
【0003】
特許文献1には、入力された音声を翻訳するシステムであって、入力された音声をテキストデータに変換すること、テキストデータを翻訳すること、翻訳データを元の言語に再翻訳すること、再翻訳のデータに誤りがあった場合に、ユーザからの指摘に応じて誤っていた翻訳データを消去することが開示されている。
【0004】
特許文献2には、店員と客が対面で会話する際、店員と顧客の会話がそれぞれの母語に翻訳されると共に、店員と客の間に置かれた端末の画面上に翻訳されたテキストが表示されるシステムが開示されている。この端末には、テキストの内容を逆翻訳する逆翻訳ボタンB4が設けられているほか、翻訳結果の誤りを報告するための誤訳通知ボタンB5、対訳のテキストT6の内容を再生するための音声出力ボタンB6、発話をやり直すための再入力ボタンB7等が表示されている。
【0005】
特許文献3には、チャットルームにおいて、修正ボタン905が選択された直後から、原文修正中には、すべての会議参加者側の基本モード画面600上から修正前の原文と翻訳文は消え、修正による状態情報が表示されること等が記載されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2019-175426号公報
【特許文献2】特開2017-182394号公報
【特許文献3】特開2021-190052号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、遠隔にいる通話相手に、簡便な操作で自身の状態を把握させることを目的の一つとする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明の一の観点に係る通話システムは、複数の端末が所定のサーバを介して音声通話を行う通話システムであって、第1の前記端末から入力される音声を取得する音声取得部と、前記音声に含まれる発話内容を音声認識して第1言語から第2言語に翻訳した翻訳文を第2の前記端末の表示部に表示させるとともに、前記第1の前記端末に、前記翻訳文を前記第1言語に逆翻訳した逆翻訳文を表示させる表示制御部と、前記第1の前記端末からの操作に基づいて、前記発話内容の修正を受け付ける修正受付部と、前記操作に基づいて前記第1の前記端末において前記修正を受け付けている旨を、前記第2の前記端末を介して前記第2の前記端末のユーザに通知する通知部と、を備える、通話システム。
【0009】
前記通知部は、前記第2の前記端末における前記翻訳文の表示領域に、前記修正を受け付けている旨を表示するものとしてもよい。
【0010】
前記操作は、前記第1の前記端末の表示部における前記逆翻訳文の表示領域を選択する操作を含むものとしてもよい。
【0011】
前記修正受付部は、前記第1の前記端末から入力される音声を修正後の発話内容として受け付け、前記表示制御部は、当該修正後の発話内容の翻訳文を前記第2の前記端末の表示部に表示するものとしてもよい。
【0012】
前記表示制御部は、前記音声に含まれる発話内容が音声認識されて生成される認識文を表示させ、前記修正受付部は、前記第1の前記端末を介して前記認識文の文字編集を受け付け、前記表示制御部は、当該文字編集された認識文を前記第2言語に翻訳した翻訳文を前記第2の前記端末上に表示するものとしてもよい。
【0013】
前記表示制御部は、前記第1の前記端末において前記修正を受け付ける際に、前記第1の前記端末における前記逆翻訳文の表示領域に、前記発話内容の修正中である旨を表示するものとしてもよい。
【0014】
前記音声取得部により取得される前記音声の明瞭度を評価する評価部をさらに備え、前記修正受付部は、前記評価部により前記音声が認識に適した明瞭度で取得されていないと判断される場合に、当該音声が取得される端末を介して前記発話内容の修正を受け付けるものとしてもよい。
【0015】
前記評価部は、前記明瞭度が低い要因を推定し、前記表示制御部は、前記修正受付部により前記修正を受け付ける際に、前記要因を解消する対策案を前記端末に提示するものとしてもよい。
【0016】
前記第1の前記端末における第2の操作に基づいて、前記第2の前記端末に定型文を表示させる定型文送信部をさらに備えるものとしてもよい。
【0017】
上記目的を達成するため、本発明の別の観点に係る通話方法は、複数の端末が所定のサーバを介して音声通話を行う通話方法であって、第1の前記端末から入力される音声を取得する音声取得ステップと、前記音声に含まれる発話内容を音声認識して第1言語から第2言語に翻訳した翻訳文を第2の前記端末の表示部に表示させるとともに、前記第1の前記端末に、前記翻訳文を前記第1言語に逆翻訳した逆翻訳文を表示させる表示制御ステップと、前記第1の前記端末からの操作に基づいて、前記発話内容の修正を受け付ける修正受付ステップと、前記操作に基づいて前記第1の前記端末において前記修正を受け付けている旨を、前記第2の前記端末を介して前記第2の前記端末のユーザに通知する通知ステップと、をコンピュータにより実行する。
【0018】
上記目的を達成するため、本発明のさらに別の観点に係るコンピュータプログラムは、複数の端末が所定のサーバを介して音声通話を行うコンピュータプログラムであって、第1の前記端末から入力される音声を取得する音声取得命令と、前記音声に含まれる発話内容を音声認識して第1言語から第2言語に翻訳した翻訳文を第2の前記端末の表示部に表示させるとともに、前記第1の前記端末に、前記翻訳文を前記第1言語に逆翻訳した逆翻訳文を表示させる表示制御命令と、前記第1の前記端末からの操作に基づいて、前記発話内容の修正を受け付ける修正受付命令と、前記操作に基づいて前記第1の前記端末において前記修正を受け付けている旨を、前記第2の前記端末を介して前記第2の前記端末のユーザに通知する通知命令と、をコンピュータに実行させる。
【0019】
なお、コンピュータプログラムは、各種のデータ読取可能な記録媒体に格納して提供したり、インターネット等のネットワークを介してダウンロード可能に提供したりすることができる。
【発明の効果】
【0020】
本発明によれば、遠隔にいる通話相手に、簡便な操作で自身の状態を把握させることができる。
【図面の簡単な説明】
【0021】
【
図1】本発明の実施形態に係る通話システムの構成及び機能を示した機能ブロック図である。
【
図2】上記通話システムに接続されるユーザ端末に表示される画面の(a)第1例、(b)第2例、(c)第3例、である。
【
図3】上記通話システムに接続されるユーザ端末に表示される画面の(a)第4例、(b)第5例、(c)第6例、(d)第7例である。
【
図4】上記通話システムに接続されるユーザ端末に表示される画面の(a)第8例、(b)第9例、(c)第10例、(d)第11例である。
【
図5】上記通話システムに接続されるユーザ端末に表示される画面の(a)第12例、(b)第13例、(c)第14例、(d)第15例である。
【
図6】上記通話システムに接続されるユーザ端末に表示される画面の(a)第16例、(b)第17例、(c)第18例である。
【
図7】上記通話システムに接続されるユーザ端末に表示される画面の(a)第19例、(b)第20例、(c)第21例、(d)第22例である。
【
図8】上記通話システムに接続されるユーザ端末に表示される画面の(a)第23例、(b)第24例、(c)第25例、(d)第26例、(e)第27例、(f)第28例、(g)第29例である。
【
図9】上記通話システムにおいて実行される処理フローの1例を示す図である。
【発明を実施するための形態】
【0022】
●概要
以下、本発明の実施形態に係る通話システムについて、図を参照して説明する。
本実施形態に係る通話システムは、複数のユーザ端末が所定のサーバを介して音声通話を行うシステムである。通話システムは、例えばパーソナルコンピュータにおいて所定のコンピュータプログラムを実行することで実現される他、機能の一部又は全部がクラウドコンピュータにより実現されていてもよい。また、通話システムは、複数のハードウェア構成により成っていてもよく、機能の一部又は全部が、ユーザ端末に備えられていてもよい。
【0023】
また、各機能部の説明と共に、
図2から
図8を用いて表示制御部14によりユーザ端末2に表示される画面の例について説明する。
以降の説明において、画面における「選択」操作とは操作を決定するための適宜の操作であり、あらかじめ定められた各種の操作である。操作は、例えばマウス操作におけるクリック又はダブルクリックであってもよいし、タッチパネル上の操作におけるタップ又はダブルタップであってもよい。また、以降の説明でカーソルを所定領域上に移動させる操作を「ホバーさせる」と表現する場合があり、このホバー操作は、選択操作とは異なるものとして説明する。
また、説明において、他の図面と同様の構成については同一の符号を付与し、適宜説明を省略する。また、同図の説明に用いられない符号について適宜省略する。
【0024】
図1に示されるように、通話システム1は、複数のユーザ端末2(21、22)とネットワークNWを通じて互いに接続されている。
ユーザ端末2は、例えばパーソナルコンピュータ、タブレット端末又はスマートホンである。ユーザ端末2は、通話システム1から提示される文を表示する表示部と、ユーザからの音声又は文字入力を受け付ける入力部とを少なくとも備える。ユーザ端末21、22はそれぞれ、互いに異なる言語を理解するユーザにより使用される。ユーザ端末21、22は、第1の端末および第2の端末の例である。以下の説明においては、便宜上、発話内容を受け付ける第1の端末をユーザ端末21、発話を受け取る第2の端末をユーザ端末22として説明する。なお、ユーザ端末21およびユーザ端末22は相互に発話内容を送受信する端末であり、両者の構造上の差異はない。
【0025】
また、本説明においては2個のユーザ端末2により送受信を行う態様を例に説明するが、同時に通話可能な端末数は3個以上であってもよい。
【0026】
●通話システム1
通話システム1は、例えば、CPU(Central Processing Unit)などの演算装置、CPUによって実行されるコンピュータプログラム、RAM(Random Access Memory)やROM(Read Only Memory)等の内部メモリ等を備えたサーバ等によって実現される。通話システム1はこれにより、主として、発話内容取得部11、音声認識部12、翻訳部13、表示制御部14、修正受付部15、通知部16、評価部17、定型文送信部18、通信処理部19、記憶部1Aからなる機能ブロックを構成する。
【0027】
●記憶部1A
記憶部1Aは、本システムに必要なデータを記憶する機能部であって、1又は複数のハードウェア装置で構成される他、通話システム1に通信回線を通じてデータを送受信可能なクラウドコンピュータにより構成されていてもよい。記憶部1Aは、通話システム1を使用するユーザの識別情報又はログイン情報、音声認識のためのデータベースおよび翻訳データベース等を格納している。各データベースは複数の言語のデータを格納する。音声認識データベースおよび翻訳データベースは、ニューラルネットワークにより構成されていてもよい。
【0028】
●発話内容取得部11
発話内容取得部11は、ユーザ端末2から入力されるユーザの発話内容を取得する機能部である。発話内容取得部11は、ユーザ端末2から入力される音声を取得する音声取得部11aと、ユーザ端末2から入力される文字を取得する文字取得部11bと、を有する。すなわち、ユーザは、声を通して発話内容を通話システム1に送信することができる他、文字入力により発話内容を送信できる。
【0029】
●音声認識部12
音声認識部12は、音声取得部11aにより取得される音声に含まれる発話内容を音声認識し、文字列に変換する機能部である。音声認識部12により生成された文字列を、「認識文」ともいう。なお、音声認識部12はネットワークNWを介した外部のシステムにあってもよく、音声取得部11aで取得した音声をネットワークNWを通して外部の音声認識部12に送付し、認識文を同じくネットワークNWを介して入手する構成としてもよい。
【0030】
●翻訳部13
翻訳部13は、発話内容を翻訳し、翻訳文を生成する機能部である。翻訳部13は、発話内容取得部11により取得されるユーザの発話内容を翻訳する。翻訳部13は、音声認識部12により生成された文字列を翻訳する他、入力された文字列を翻訳してもよい。また、翻訳部13は、入力された音声そのものを翻訳する機能を有していてもよい。さらに、翻訳部13は、生成された翻訳文を入力された言語に逆翻訳した逆翻訳文を生成する。なお、翻訳部13は、ネットワークNWを介した外部のシステムにあってもよく、発話内容取得部11で取得した発話内容をネットワークNWを通して外部の翻訳部13に送付し、生成された翻訳文を同じくネットワークNWを介して入手する構成としてもよい。
【0031】
●表示制御部14
表示制御部14は、ユーザ端末21、22に表示する内容を制御する機能部である。
表示制御部14は、音声認識部12により生成される認識文をユーザ端末21に表示させる。また、表示制御部14は、翻訳文を、発話内容が入力されたユーザ端末21とは異なるユーザ端末22に表示するとともに、当該翻訳文の逆翻訳文をユーザ端末21に表示させる。
【0032】
図2は、ユーザ端末2に表示される画面G100の1例である。
図2(a)に示す画面G100では、主として、参加者の映像表示領域G101、翻訳文の履歴表示の有無を切り替える切替ボタンG102、少なくとも1個のユーザ端末2の画面を他のユーザ端末2に表示させる画面共有領域G103、自身以外の発話内容の翻訳文を表示する翻訳文表示領域G104、自身の発話内容の逆翻訳文を表示する逆翻訳文表示領域G105、自身の発話内容が音声認識されて生成された認識文を表示する認識文表示領域G106、認識文の編集を受け付ける編集ボタンG107、および翻訳文の履歴を表示する履歴領域G108等が表示されている。なお、翻訳文表示領域G104には、3人以上で通話する場合には自身以外が発話した最新の発話内容の翻訳文が表示されていてよい。
【0033】
認識文および逆翻訳文が同一画面に表示される構成によれば、ユーザは、自身の発話内容の音声認識の結果および逆翻訳文を確認することで、通話相手に発話内容が適切に伝わっているか確認することができる。
【0034】
翻訳文表示領域G104、逆翻訳文表示領域G105および認識文表示領域G106は、それぞれ表示する翻訳文、逆翻訳文および認識文が生成されていない場合、又は生成中の場合には、生成中である旨の状態情報が表示される。例えば、各領域G104~G106には、認識中又は翻訳中のメッセージが表示される。このような構成によれば、通話システム1の処理状況がユーザに明確になり、ユーザに安心感を与えることができる。
【0035】
なお、ユーザ端末22から入力される発話内容がユーザ端末21のユーザが使用する言語で発話された内容の場合には、認識文の翻訳を行わず、認識文がそのまま翻訳文表示領域G104に表示されてもよい。ユーザが使用する言語の判定は、ユーザ端末22に使用言語をあらかじめ設定しておくものとしてもよいし、取得した音声に基づいて言語を判定してもよい。
また、ユーザ端末21、22は、発話内容を文字入力により取得してもよく、この場合例えば認識文表示領域G106に文字入力が可能になっていてもよい。認識文表示領域G106を選択することで、文字入力欄に切り替わるようになっていてもよい。
【0036】
図2(b)に示す画面G110は、履歴領域G108が非表示になっている様子を示している。切替ボタンG102を選択すると、履歴領域G108の表示の有無が切り替わる。また、画面G110は、別のユーザ端末22において発話内容を取得中又は翻訳文を生成中に、ユーザ端末21に表示される画面である。この画面G110の翻訳文表示領域G104では、ユーザ端末22により取得された発話内容は非表示となっており、発話内容に代えて別のユーザ端末22の発話内容の表示を準備中である旨の状態情報が表示される。同図においては、「認識中」とのメッセージが表示されている。
【0037】
図2(c)に示す画面G120は、本画面G120が表示されているユーザ端末21から発話内容が入力されている場合の様子を示している。翻訳文表示領域G104には、別のユーザ端末22から取得された発話内容の翻訳文が表示されている。逆翻訳文表示領域G105には、逆翻訳文に代えて、ユーザ端末21から取得される発話内容が翻訳中又は逆翻訳文中である旨の状態情報が表示されている。認識文表示領域G106には、認識文に代えて、ユーザ端末21から取得される発話内容が音声認識中である旨の状態情報が表示される。このような構成によれば、通話システム1の状況を容易に把握することができる。発話内容の認識、翻訳および逆翻訳中においては、編集ボタンG107はグレーアウトしており、選択を受け付けない状態となっている。
【0038】
●修正受付部15および通知部16
修正受付部15は、発話内容が入力されたユーザ端末21からの操作に基づいて、発話内容の修正を受け付ける機能部である。修正受付部15は、ユーザ端末21から入力される音声を修正後の発話内容として受け付ける。表示制御部14は、当該修正後の発話内容の翻訳文をユーザ端末21の表示部に表示する。
【0039】
修正受付部15は、ユーザ端末21を介して認識文の文字編集を受け付けてもよい。認識文の文字編集操作は、発話内容の修正操作の別の態様である。表示制御部14は、当該文字編集された認識文を翻訳した翻訳文をユーザ端末22上に表示する。
【0040】
通知部16は、ユーザ端末21において修正を受け付けている旨を、ユーザ端末22を介してユーザ端末22のユーザに通知する。通知部16は、ユーザ端末22における翻訳文表示領域(
図3(c)の翻訳文表示領域G104参照)に、修正を受け付けている旨を表示する。
なお、通知部16は、メッセージの表示に代えて、修正中である旨を音声によりユーザ端末22から発報してもよい。
【0041】
図3(a)に示す画面G130は、ユーザ端末21を操作するユーザが自ら音声の再発話を開始する操作を行う様子を示している。同図においては、ユーザにより画面上のカーソルが逆翻訳文表示領域G105にホバーされている様子を示しており、逆翻訳文表示領域G105に、再発話開始ボタンG131が表示されている。再発話開始ボタンG131には「話し直す」とのメッセージが表示される。逆翻訳文表示領域G105の再発話開始ボタンG131が選択されると、修正受付部15がこれを受け付け、再発話の録音が開始される。このような構成によれば、逆翻訳文表示領域G105に表示される逆翻訳文を視認して発話内容の修正が必要であると判断したユーザが、当該領域G105を選択することで再発話ができるので、ユーザの視線の行き来が不要であり、快適な操作性を実現できる。なお、ホバーではなく選択操作で再発話開始ボタンG131を表示する構成でも良いし、あらかじめ再発話開始ボタンG131を表示する構成としても良い。以後の説明で、ホバーすることでボタンが表示される構成についても同様である。
再発話開始ボタンG131の押下は、修正開始操作の例である。
【0042】
図3(b)に示す画面G140は、再発話開始ボタンG131がクリックされた場合に当該ユーザ端末21に表示される画面の例を示している。逆翻訳文表示領域G105には、表示制御部14により、逆翻訳文に代えて発話内容の修正中、すなわち話し中である旨のメッセージが表示される。認識文表示領域G106には、認識文に代えて、再発話を促すメッセージが表示される。編集ボタンG107はグレーアウトしており、選択を受け付けない状態になっている。
【0043】
図3(c)に示す画面G150は、再発話開始ボタンG131がクリックされた場合に表示される画面の別の例を示しており、例えば1個の発話内容に対して複数回修正を行っている場合に表示される。認識文表示領域G106には、再発話を促すメッセージと共に、音声認識又は翻訳に適した明瞭度で音声を取得させる発話のアドバイスが表示されている。
【0044】
図3(d)に示す画面G160は、ユーザ端末21において発話内容の修正を行っている間に、ユーザ端末22に表示される画面の例である。当該画面G160において、翻訳文表示領域G104には、翻訳文は非表示となっており、翻訳文に代えて、発話を修正中である旨が通知部16により通知されている。
【0045】
図4(a)に示す画面G200は、発話内容の修正開始操作の別の態様として、編集ボタンG107が選択された場合に、編集ボタンG107が選択されたユーザ端末21において表示される画面の例である。逆翻訳文表示領域G105には、逆翻訳文は非表示となっており、逆翻訳文に代えて発話を修正している旨のメッセージが表示されている。編集ボタンG107は選択を受け付けない状態となっている一方、認識文表示領域G106は、文の編集を受付可能となっている。また、認識文表示領域G106の上方には、編集前の認識文が表示されている。認識文表示領域G106の右部には、文字編集を確定する確定ボタンG201が表示されている。ユーザ端末21で修正操作を行っている間、ユーザ端末22には
図3(d)の画面G160が表示されている。確定ボタンG201が選択されると、編集後の認識文の翻訳が行われ、別のユーザ端末22に発話内容が伝達される。
【0046】
このような構成によれば、修正を要するユーザが、修正する旨を口頭で伝えることなく通話相手に修正中の旨を伝達することができる。修正が必要となる状況では、ユーザの発話内容の音声認識又は翻訳に困難が生じている状況であるため、ユーザの発話を総じて適切に伝えられない蓋然性が高い。したがって、仮に修正したい旨を口頭で伝えようとすると、当該発話自体の誤認識又は誤翻訳が生じ、さらなる混乱が生じた結果、通話が円滑に進行できないおそれがある。これに対し、本願構成によれば、簡易な操作で修正を開始できるとともに、修正中である旨を通話相手に伝達することができるため、誤認識又は誤翻訳が生じた場合にも、通話の円滑な進行を継続することができる。
【0047】
ここで、翻訳文を受信したユーザ端末22から翻訳元の発話を行ったユーザのユーザ端末21に対して発話内容の修正を要望する操作を受け付けた場合に、表示制御部14により表示される各端末21、22の画面例について説明する。
【0048】
図4(b)に示す画面G210は、翻訳文表示領域G104にカーソルが存在している場合、すなわち翻訳文表示領域G104をホバーした場合の様子を示す図である。この場合、翻訳文がやや薄くなり、重畳して、翻訳文の意味が理解できないことを伝達するわからないボタンG211が表示される。この構成によれば、翻訳文表示領域G104を視認し、通話相手の発話内容を翻訳文で把握しようとしたユーザが、当該領域G104をそのまま選択することで不理解を通話相手に伝達できるため、操作性がよい。また、翻訳文が意味不明であることを通話相手に口頭で伝えるのは、そのセリフ自体が意味不明になるおそれもあり困難である。したがって、わからないボタンG211を選択するだけで、意味不明であった文と、意味不明の旨を通話相手に即座に伝えることができ、簡便である。また、ホバーすることでわからないボタンG211が表示されるので、操作に慣れないユーザでも操作方法を把握できる。
【0049】
図4(c)に示す画面G220は、ユーザ端末21においてわからないボタンG211が選択された後の、当該ユーザ端末21に表示される画面の例である。翻訳文表示領域G104は、翻訳文がやや薄くなり、重畳して、ユーザ端末21において発話内容が修正中である旨のメッセージが表示される。
【0050】
図4(d)に示す画面G230は、ユーザ端末21において所定の翻訳文に対してわからないボタンG211が押下された場合に、当該翻訳文の発話内容を取得したユーザ端末22に表示される画面の例である。同画面においては、逆翻訳文表示領域G105の一部および認識文表示領域G106に、ユーザ端末21のユーザがわからないと言っている旨のメッセージを表示するメッセージ欄G231が表示されている。また、メッセージ欄G231には、わからないボタンG211が選択された際に翻訳文表示領域G104に表示されていた翻訳文が表示される。この構成によれば、発話したユーザにとって、通話相手がわからなかった文が明確である。
【0051】
図5(a)に示す画面G240は、メッセージ欄G231をホバーした場合にユーザ端末22に表示される画面の例である。メッセージ欄G231には、上述のメッセージに代えて、再発話開始の操作を受け付ける再発話開始ボタンG241が表示される。再発話開始ボタンG241の選択操作は、修正開始操作の別の例である。ユーザ端末22において再発話開始ボタンG241が選択されると、
図3(b)の画面G140が当該ユーザ端末22上に表示される。この構成によれば、ユーザは、修正を要する発話内容の表示されたメッセージ欄G231を選択することでそのまま再発話を開始できるため、発話内容の修正にあたり視点の移動を最小限に抑えることができる。
【0052】
図5(b)は、ユーザ端末21の履歴領域G108において、別のユーザ端末22から取得された発話内容が選択された場合にユーザ端末21に表示される画面G250の例である。発話内容を選択すると、翻訳文表示領域G104に当該発話内容が表示される。同図の例では、発話内容が翻訳文表示領域G104の規定のサイズに表示しきれない場合を示しており、翻訳文表示領域G104は規定領域の上方に拡張して表示されている様子を示している。
【0053】
図5(c)に示す画面G260は、画面G250における翻訳文表示領域G104がホバーされた様子が示されている。当該画面G260では、翻訳文表示領域G104には画面G250で選択された翻訳文が薄く表示され、翻訳文表示領域G104と同一領域に重畳して、わからないボタンG261が表示されている。ユーザ端末21においてわからないボタンG261が選択されると、当該ユーザ端末21には
図4(c)に示す画面G220が表示される。
【0054】
図5(d)は、ユーザ端末21でわからないボタンG261が選択された場合に、ユーザ端末22においてメッセージ欄G231が翻訳文表示領域G104、逆翻訳文表示領域G105および認識文表示領域G106に重畳して表示されている画面G270を示している。メッセージ欄G231は、わからないボタンG261が選択された際に表示されている翻訳文の分量に応じて適宜拡張され、分量が所定以上である場合には画面共有領域G103の一部に重畳している。メッセージ欄G231をホバーすると再発話開始ボタンG241が表示される態様は
図5(a)に示す画面G240と同様である。
【0055】
●評価部17
評価部17は、音声取得部により取得される音声の明瞭度を評価する機能部である。評価部17は、音声が音声認識に適した明瞭度で取得されているかを判定する。また、評価部17は、音声が翻訳に適した明瞭度であるかを判定してもよい。
【0056】
評価部17は、明瞭度が低い要因を推定してもよい。
修正受付部15は、評価部17により音声が翻訳に適した明瞭度で取得されていないと判断される場合に、当該音声が取得されるユーザ端末21を介して発話内容の修正の受け付けてもよい。より具体的には例えば、修正受付部15は、明瞭度が所定以下である場合に、発話内容の修正を受け付ける。また、明瞭度が低い場合に、表示制御部14は、要因を解消する対策案をユーザ端末21に提示してもよい。この対策案は、修正を受け付ける際に表示される。
【0057】
図6(a)に示す画面G400は、音声が認識に適した明瞭度で取得されていない場合に表示される画面の1例であって、特に音声が小さい場合に表示される画面である。同画面G400では、逆翻訳文表示領域G105、認識文表示領域G106および編集ボタンG107に重畳して、発話内容の修正の一態様としての再発話を促すとともに音声を取得する旨を示す再取得ウィンドウG401が表示される。再取得ウィンドウG401には、明瞭に取得できなかった要因又は対策案をユーザに伝えるメッセージが表示され、ここでは「声が小さい」と表示されている。ユーザは、このメッセージを確認し、もっと大きな声で再発話を行う。
【0058】
図6(b)に示す画面G410は、音声が認識に適した明瞭度で取得されていない場合、特に音声が大きい場合に表示される画面である。同画面G410においては、再取得ウィンドウG401に、「声が大きい」と表示されている。
図6(c)に示す画面G420は、再取得ウィンドウG401に「ちょうどよい音量」と表示されている。すなわち、明瞭に取得できなかった要因は音量によるものではないことをユーザに伝えている。
【0059】
なお、対策案は、修正受付部15により修正を受け付けている画面において表示されてもよいし、修正を受け付ける直前に表示されるとともに、修正中には非表示となってもよい。
【0060】
上述のような構成によれば、音声認識又は翻訳に適した音声入力の仕方をユーザに示唆することができ、ひいては円滑な通話を支援することができる。
【0061】
●定型文送信部18
定型文送信部18は、ユーザ端末21における所定の第2の操作に基づいて、ユーザ端末22に定型文を表示させる機能部である。
【0062】
図7は、定型文送信部18等の処理により、通話相手への反応を簡易な操作で送信する態様について説明する図である。
図7(a)に示す画面G500は、認識文表示領域G106の下方をホバーした場合に表示される反応送信ウィンドウG501の様子を示している。反応送信ウィンドウG501は、認識文表示領域G106に重畳して表示されている。反応送信ウィンドウG501には、通話相手に対しすぐに発言したい要求を伝える即時発言要求ボタンG501a、次に発言したい要求を伝える次発言要求ボタンG501b、発話内容や会議内容が理解できていない旨を伝える理解不能ボタンG501cが表示されている。各ボタンG501a、G501b又はG501cの選択操作は、所定の第2の操作の例である。
【0063】
図7(b)に示す画面G510は、ユーザ端末21において反応送信ウィンドウG501の即時発言要求ボタンG501aが選択された場合に、少なくとも別のユーザ端末22に表示される画面の例である。この画面G510では、上部に即時発言要求バーG502aが表示されている。
【0064】
図7(c)に示す画面G520は、ユーザ端末21において反応送信ウィンドウG501の次発言要求ボタンG501bが選択された場合に、少なくとも別のユーザ端末22に表示される画面の例である。この画面G520では、上部に次発言要求バーG502bが表示されている。
【0065】
図7(d)に示す画面G530は、ユーザ端末21において反応送信ウィンドウG501の理解不能ボタンG501cが選択された場合に、少なくとも別のユーザ端末22に表示される画面の例である。この画面G530では、上部に理解不能バーG502cが表示されている。
【0066】
即時発言要求バーG502a、次発言要求バーG502bおよび理解不能バーG502cは、それぞれ対応するボタンG501a、G501b又はG501cと同色になっている。また、各バーG502a、G502bおよびG502c上には、各ボタンG501a、G501b又はG501cが選択されたユーザ端末21のユーザ情報と、ボタンG501a、G501b又はG501cに対応付けられるメッセージが表示される。このような構成によれば、意思を通話相手に簡便に伝えることができる。仮に音声により同内容のセリフを入力する場合、音声認識および翻訳の処理が必要になるため煩雑であり、音声の誤認識や誤翻訳が発生するおそれもある。その点、本構成によれば、少ない計算負荷で確実に意思を伝達することができる。
【0067】
各バーG502a、G502bおよびG502cは、ユーザ端末21の画面上にも表示されてもよい。また、各バーG502a、G502bおよびG502cは、所定時間表示されると消える構成でもよいし、各バーG502a、G502bおよびG502cが表示された際に発言しているユーザのユーザ端末22上からの操作により消去できるようになっていてもよい。また、あらかじめ設定された所定の権限を有するユーザ端末2からの操作により消去できてもよい。
【0068】
●通信処理部19
通信処理部19は、ユーザ端末2と、インターネット等のネットワークNWを介して各種のデータの送受信を実行する。より具体的には、通話システム1は、通信処理部19により、ユーザ端末2が取得した音声データ又は文字データを受信する。また、通信処理部19は、ユーザ端末21により取得される音声データを音声認識して生成した認識文を、ユーザ端末21に送信する。さらに、通信処理部19は、当該認識文の翻訳文をユーザ端末22に送信する。さらにまた、通信処理部19は、この翻訳文を認識文と同一の言語に逆翻訳した逆翻訳文をユーザ端末21に送信する。
【0069】
●履歴領域の修正
ここで、
図8を用いて履歴領域G108から発話内容の修正を行う操作および画面例について説明する。
図8(a)から(g)は、履歴領域G108の一部を示す図である。
図8(a)に示す領域G108aは、ユーザ端末21の履歴領域G108において別のユーザ端末22から取得された発話内容を選択するユーザ端末21に表示される画面の一部である。当該選択がなされると、ユーザ端末21において修正を受け付ける。より具体的には、選択された領域には、認識文表示領域G108aa、翻訳文表示領域G108ab、および逆翻訳文表示領域G108acが上からこの順に矢印等の関連性を示す記号と共に表示される。すなわち、認識文は発話者が話した内容として表示され、翻訳文は、ユーザ端末21のユーザが読む内容として表示される。この翻訳文表示領域G108abは、ユーザ端末21からの文字編集を受け付ける。
【0070】
修正された翻訳文は、当該翻訳文の下方に表示される逆翻訳文表示領域G108acに表示される。この逆翻訳文は、この発話の発話者が確認する内容として表示される。また、逆翻訳文の下方には、発話者に修正内容を送信する送信ボタンG108adが表示されている。さらに、送信ボタンG108adの右方には、修正内容をキャンセルするキャンセルボタンG108aeが表示されている。
【0071】
図8(b)に示す領域G108bは、送信ボタンG108adが選択された後に、ユーザ端末21に表示される領域の例であり、編集内容の承認を待っている旨のメッセージが表示されている。翻訳文表示領域G108abには編集後の内容が、他の履歴表示よりも薄い文字色で表示されている。
図8(c)は、修正を提案された発話を受け付けたユーザ端末22に表示される領域G108cの例である。領域G108cには、修正により削除された文字および追加された文字が、元の文字とは区別できる態様で表示されている。また、修正を入力したユーザ端末21のユーザの情報が表示されている。さらに、修正を承認する承認ボタンG108ca、および修正を否認する否認ボタンG108cbが表示されている。
【0072】
図8(d)に示す領域G108dは、少なくとも一部の修正が承認された場合にユーザ端末21に表示される領域の例であり、修正された箇所は、他の箇所とは異なる態様で表示されている。また、修正を入力したユーザ端末21のユーザの情報が表示されている。
図8(e)に示す領域G108eは、修正が否認された場合にユーザ端末21に表示される領域の例であり、修正前の文章が表示されるとともに、編集が承認されなかった旨のメッセージが表示されている。
【0073】
図8(f)に示す領域G108eは、ユーザ端末21から取得された発話内容をユーザ端末21から修正する場合に、ユーザ端末21に表示される領域の例である。領域G108aと同様に認識文表示領域G108aa、翻訳文表示領域G108ab、および逆翻訳文表示領域G108acが上からこの順に表示されている。逆翻訳文表示領域G108acの下方には、修正を完了する完了ボタンG108fdが表示されている。この完了ボタンG108fdが選択される場合は、ユーザが自身の発話を修正している場合であるので、他のユーザ端末22への確認依頼は送信されず、例えば領域G108dのような態様で履歴領域G108に修正が反映される。
【0074】
●処理の流れ
図9は、通話システム1が実行する処理の流れの1例を示すシーケンス図である。同図は、ユーザ端末21から第1言語の音声を受け付け、第2言語に翻訳してユーザ端末22に表示する流れを説明する図である。
まず、ユーザ端末21は、ユーザによる音声入力を受け付け(S101)、音声取得部11aにこれを送信する。通話システム1は、音声認識部12により、受け付けた音声を音声認識し、第1言語の認識文を生成する(S102)。認識文は、表示制御部14によりユーザ端末21に出力され(S103)、ユーザ端末21はこれを表示する(S104)。
【0075】
次いで、通話システム1は、翻訳部13により認識文を第1言語から第2言語に翻訳し、翻訳文を生成する(S105)。この翻訳文は、表示制御部14によりユーザ端末22に出力され(S106)、ユーザ端末22はこれを表示する(S107)。
【0076】
次いで、通話システム1は、翻訳部13により翻訳文を第2言語から第1言語に逆翻訳し、逆翻訳文を生成する(S108)。逆翻訳文は、表示制御部14によりユーザ端末21に出力され(S109)、ユーザ端末21はこれを表示する(S110)。なお、ステップS105からS107と、ステップS108からS110とは順不同であり、同時に行われてもよい。
【0077】
修正受付部15は、ユーザ端末21から入力された最新の発話内容の修正開始操作を、当該ユーザ端末21を介して受け付ける。修正開始操作が入力されずに次の発話が行われた場合には、当該修正開始操作による修正を受け付けない状態とし、ステップS101に戻る。
【0078】
一方、ユーザ端末21において修正開始操作が入力されると(S111)、当該ユーザ端末21から入力された最新の発話内容が修正可能になる。ここで修正される文は、例えば認識文である。通話システム1の修正受付部15は修正開始操作を受け付けると、通知部16により、発話内容が修正中である旨の情報をユーザ端末22に出力し(S112)、ユーザ端末22は修正中である旨のメッセージを表示する(S113)。ユーザ端末21からの修正が完了し、修正内容が通話システム1に送信されると(S114)、ステップS105に戻り、認識文の翻訳がなされる。
【0079】
以上の本発明の実施形態に係る通話システムによれば、簡便な操作で自身の状態を通話相手に把握させることができる。
【0080】
なお、以上の本実施形態に係る通話システムにおいて、各端末又は装置の機能構成は一例であり、本例で示した機能部が、本例とは異なる端末又は装置に備えさせることもできる。
【符号の説明】
【0081】
1 通話システム
11 発話内容取得部
11a 音声取得部
11b 文字取得部
12 音声取得部
13 翻訳部
14 表示制御部
15 修正受付部
16 通知部
17 評価部
18 定型文送信部
19 通信処理部
1A 記憶部
2(21、22) ユーザ端末