IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドーナッツロボティクス株式会社の特許一覧

特開2023-96916対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置
<>
  • 特開-対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置 図1
  • 特開-対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置 図2
  • 特開-対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置 図3
  • 特開-対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置 図4
  • 特開-対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置 図5
  • 特開-対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置 図6
  • 特開-対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置 図7
  • 特開-対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023096916
(43)【公開日】2023-07-07
(54)【発明の名称】対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置
(51)【国際特許分類】
   G06F 40/58 20200101AFI20230630BHJP
   H04N 7/15 20060101ALI20230630BHJP
【FI】
G06F40/58
H04N7/15
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021212977
(22)【出願日】2021-12-27
(71)【出願人】
【識別番号】520248667
【氏名又は名称】ドーナッツロボティクス株式会社
(74)【代理人】
【識別番号】100137338
【弁理士】
【氏名又は名称】辻田 朋子
(72)【発明者】
【氏名】小野 泰助
【テーマコード(参考)】
5B091
5C164
【Fターム(参考)】
5B091AA03
5C164FA10
5C164PA44
5C164UB88S
5C164VA09P
(57)【要約】      (修正有)
【課題】複数の対話者による対話を支援可能な対話支援システム、方法、プログラム及び装置を提供する。
【解決手段】音声入出力装置は、端末装置と近距離無線通信によりデータ通信可能であり、端末装置と、対話支援装置と、ビデオ会議サービス提供装置と、記憶部DBとが、通信ネットワークNWを介してデータ通信可能である対話支援システム1において、対話支援装置は、入力音声を取得する音声取得部と、第1の指定言語に基づき、入力音声に基づく第1テキストデータを生成する第1テキスト生成部と、第2の指定言語に基づき、第1テキストデータを変換処理し、第2テキストデータを生成処理する第2テキスト生成部と、第2テキストデータに基づき表示処理し、表示処理結果を送信する表示処理部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
複数の対話者による対話を支援する対話支援システムであって、
入力音声を取得する音声取得部と、
第1の指定言語に基づき、前記入力音声に基づく第1テキストデータを生成する第1テキスト生成部と、
第2の指定言語に基づき、前記第1テキストデータを変換処理し、第2テキストデータを生成処理する第2テキスト生成部と、
第2テキストデータに基づき表示処理し、表示処理結果を送信する表示処理部と、を備える対話支援システム。
【請求項2】
複数の対話者が属するグループを定義し、当該グループにおける対話者と、当該対話者の指定言語に関する登録を受け付けるグループ登録部を備え、
前記表示処理部は、前記グループに登録される対話者の指定言語である第2テキストデータに基づき表示処理する、請求項1に記載の対話支援システム。
【請求項3】
前記表示処理部は、送信先となる対話者の指定言語に基づき、前記第1テキストデータおよび前記第2テキストデータの少なくとも何れか一方をチャット表示として表示処理する、請求項1または請求項2の何れかに記載の対話支援システム。
【請求項4】
第1の指定言語の対話者より映像データを取得する映像処理部を備え、
前記表示処理部は、前記第2テキストデータに基づく字幕表示を前記映像データに重畳させた合成データを表示処理し、当該表示処理結果を第2の指定言語の話者に対して送信する、請求項1または請求項2に記載の対話支援システム。
【請求項5】
前記映像処理部は、前記合成データを仮想カメラの出力とする、請求項4に記載の対話支援システム。
【請求項6】
第1テキストデータは、対話者による発話日時を有し、
第1テキストデータを取得し、第1の指定言語または第2の指定言語に基づき、前記第1テキストデータを変換処理し、議事録データを生成処理する議事録生成部を備える、請求項1~請求項5の何れかに記載の対話支援システム。
【請求項7】
誤記データとそれに対応する正規データとを有する正誤表テーブルデータを有し、
前記第1テキストデータおよび/または前記第2テキストデータに含まれる誤記データを検出し、正規データに置換処理する修正処理部を備える、請求項1~請求項6の何れかに記載の対話支援システム。
【請求項8】
請求項1~請求項7の何れかに記載の対話支援システムにおいて用いられる音声入出力装置であって、
音声入力部と、音声出力部と、を備え、
前記音声出力部は、音声入出力装置の内部から外部に向けて音声を導通する管状の導通部に接続され、
前記導通部は、音声入出力装置の外部において引掛け部を取付可能に構成される、音声入出力装置。
【請求項9】
複数の対話者による対話を支援する対話支援方法であって、
入力音声を取得する音声取得工程と、
第1の指定言語に基づき、前記入力音声に基づく第1テキストデータを生成する第1テキスト生成工程と、
第2の指定言語に基づき、前記第1テキストデータを変換処理し、第2テキストデータを生成処理する第2テキスト生成工程と、
第2テキストデータに基づき表示処理し、表示処理結果を送信する表示処理工程と、をコンピュータが実行する対話支援方法。
【請求項10】
音声入出力装置と、対話支援装置と、を用いた対話支援方法であって、
音声入出力装置は、第1の指定言語による入力音声の入力を受け付け、
対話支援装置は、前記音声入出力装置を介して入力された入力音声を取得する音声取得工程と、
第1の指定言語に基づき、前記入力音声に基づく第1テキストデータを生成する第1テキスト生成工程と、
第2の指定言語に基づき、前記第1テキストデータを変換処理し、第2テキストデータを生成処理する第2テキスト生成工程と、を実行し、
前記音声入出力装置は、前記第2テキストデータに基づく出力音声を出力する、対話支援方法。
【請求項11】
複数の対話者による対話を支援する対話支援プログラムであって、
入力音声を取得する音声取得部と、
第1の指定言語に基づき、前記入力音声に基づく第1テキストデータを生成する第1テキスト生成部と、
第2の指定言語に基づき、前記第1テキストデータを変換処理し、第2テキストデータを生成処理する第2テキスト生成部と、
第2テキストデータに基づき表示処理し、表示処理結果を送信する表示処理部と、としてコンピュータを機能させる対話支援プログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話におけるデータ処理を好適に支援する対話支援システム、対話支援プログラム、対話支援方法、および、対話支援システムにおいて用いられる音声入出力装置に関する。
【背景技術】
【0002】
異なる言語による対話におけるデータ処理において、まず、第1言語の入力音声を取得し、入力音声を第1言語の第1テキストデータに変換処理し、第1言語の第1テキストデータを第2言語の第1テキストデータに翻訳処理し、第2言語の第1テキストデータを出力する、という流れが一般的に知られている。また、第2言語の第1テキストデータを第2言語の出力音声に変換して出力することで、異なる言語による対話を実現することが知られている。
【0003】
特許文献1に記載の双方向音声翻訳システムでは、受け付ける音声又は当該音声の言語に応じた適切な音声認識エンジン、翻訳エンジン、音声合成エンジンの組合せによる音声翻訳が実行できることが開示されている。
【0004】
このように、異なる言語間における音声対話では、第1言語および第2言語の間で翻訳処理を実行するための各種エンジンを制御し、第1言語の音声データおよび第1テキストデータ、並びに、その翻訳結果である第2言語の音声データおよびテキストデータが生成されるように、多数のデータと処理を伴うことから複雑な構成であることが把握される。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】国際公開第2019/111346号
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載の技術では、双方向音声翻訳システムであって、第1言語と第2言語の間における翻訳処理と、その翻訳処理結果による他言語への音声合成処理などが開示されている。しかしながら、双方向音声翻訳に適合したシステムであるものの、3者以上の話者を想定したものではなく、多数の話者に適合した対話データ処理とする点において改善の余地があった。
【0007】
また、2者間の対話データ処理であっても、それにより生じる対話データの更なる活用を想定することで、新規な対話支援を実現する点において、改善の余地があった。
【0008】
本発明は、上述したような状況に鑑みてなされたものであって、複数の対話者による対話を支援し、それぞれの対話者に好適な対話データを提供することを解決すべき課題とする。
【課題を解決するための手段】
【0009】
上述したような課題に鑑みて、本発明は、複数の対話者による対話を支援する対話支援システムであって、入力音声を取得する音声取得部と、第1の指定言語に基づき、前記入力音声に基づく第1テキストデータを生成する第1テキスト生成部と、第2の指定言語に基づき、前記第1テキストデータを変換処理し、第2テキストデータを生成処理する第2テキスト生成部と、第2テキストデータに基づき表示処理し、表示処理結果を送信する表示処理部と、を備える。
【0010】
また、本発明は、複数の対話者による対話を支援する対話支援方法であって、入力音声を取得する音声取得工程と、第1の指定言語に基づき、前記入力音声に基づく第1テキストデータを生成する第1テキスト生成工程と、第2の指定言語に基づき、前記第1テキストデータを変換処理し、第2テキストデータを生成処理する第2テキスト生成工程と、第2テキストデータに基づき表示処理し、表示処理結果を送信する表示処理工程と、をコンピュータが実行する。
【0011】
また、本発明は、複数の対話者による対話を支援する対話支援プログラムであって、入力音声を取得する音声取得部と、第1の指定言語に基づき、前記入力音声に基づく第1テキストデータを生成する第1テキスト生成部と、第2の指定言語に基づき、前記第1テキストデータを変換処理し、第2テキストデータを生成処理する第2テキスト生成部と、第2テキストデータに基づき表示処理し、表示処理結果を送信する表示処理部と、としてコンピュータを機能させる。
【0012】
このような構成とすることで、第1の対話者および第2の対話者のそれぞれの指定言語に基づき第2テキストデータを生成し、更に、複数の対話者のそれぞれに好適な表示処理として提供することができる。
【0013】
本発明の好ましい形態では、複数の対話者が属するグループを定義し、当該グループにおける対話者と、当該対話者の指定言語に関する登録を受け付けるグループ登録部を備え、前記表示処理部は、前記グループに登録される対話者の指定言語である第2テキストデータに基づき表示処理する。
このような構成とすることで、グループに属する対話者によりそれぞれ登録された指定言語である第2テキストデータを提供することができる。
【0014】
本発明の好ましい形態では、前記表示処理部は、送信先となる対話者の指定言語に基づき、前記第1テキストデータおよび前記第2テキストデータの少なくとも何れか一方をチャット表示として表示処理する。
このような構成とすることで、それぞれの対話者の指定言語に応じた好適なチャット表示を提供することができる。
【0015】
本発明の好ましい形態では、第1の指定言語の対話者より映像データを取得する映像処理部を備え、前記表示処理部は、前記第2テキストデータに基づく字幕表示を前記映像データに重畳させた合成データを表示処理し、当該表示処理結果を第2の指定言語の話者に対して送信する。
本発明の好ましい形態では、前記映像処理部は、前記合成データを仮想カメラの出力とする。
【0016】
このような構成とすることで、映像と字幕表示を含む合成データを提供することができる。また、合成データを会議ツールなどにおいてカメラ入力として利用することができる。合成データをカメラ入力として利用することで、映像と字幕表示のタイミングが一致した合成データが共有されるため、字幕表示の遅延などによる混乱を防止できる。
【0017】
本発明の好ましい形態では、第1テキストデータは、対話者による発話日時を有し、第1テキストデータを取得し、第1の指定言語または第2の指定言語に基づき、前記第1テキストデータを変換処理し、議事録データを生成処理する議事録生成部を備える。
このような構成とすることで、第1テキストデータを利用して議事録を簡単に生成することができる。
【0018】
本発明の好ましい形態では、誤記データとそれに対応する正規データとを有する正誤表テーブルデータを有し、前記第1テキストデータおよび/または前記第2テキストデータに含まれる誤記データを検出し、正規データに置換処理する修正処理部を備える。
このような構成とすることで、誤記が修正されたうえで第2テキストデータを提供することができる。
【0019】
本発明の好ましい形態では、対話支援システムにおける音声入出力装置であって、音声入力部と、音声出力部と、を備え、前記音声出力部は、音声入出力装置の内部から外部に向けて音声を導通する管状の導通部に接続され、前記導通部は、音声入出力装置の外部において引掛け部を取付可能に構成される。
このような構成とすることで、引掛け部の取り替えを容易にでき、また、引掛け部の支持部分が耳の中央付近となるため、装着時の安定性を向上させることができる。
【0020】
本発明は、音声入出力装置と、対話支援装置と、を用いた対話支援方法であって、音声入出力装置は、第1の指定言語による入力音声の入力を受け付け、対話支援装置は、前記音声入出力装置を介して入力された入力音声を取得する音声取得工程と、第1の指定言語に基づき、前記入力音声に基づく第1テキストデータを生成する第1テキスト生成工程と、第2の指定言語に基づき、前記第1テキストデータを変換処理し、第2テキストデータを生成処理する第2テキスト生成工程と、を実行し、前記音声入出力装置は、前記第2テキストデータに基づく出力音声を出力する。
このような方法とすることで、それぞれの対話者に好適な出力音声を提供することができる。
【発明の効果】
【0021】
本発明によれば、複数の対話者による対話を支援し、それぞれの対話者に好適な第2テキストデータを提供する対話支援システム、対話支援方法を提供することができる。また、対話支援システム、対話支援方法の実現に好適な音声入出力装置を提供することができる。
【図面の簡単な説明】
【0022】
図1】本実施形態における対話支援システムのブロック図を示す。
図2】本実施形態における各種デバイスのハードウェア構成図を示す。
図3】本実施形態における音声入力から第2テキストデータ生成までの処理に関するフローチャートを示す。
図4】本実施形態における各種データの構造例を示す。
図5】本実施形態における第2テキストデータの画面表示例を示す。
図6】本実施形態における第2テキストデータの画面表示例を示す。
図7】本実施形態における議事録データの画面表示例を示す。
図8】本実施形態における音声入出力装置の構成図を示す。
【発明を実施するための形態】
【0023】
以下、図面を用いて、本発明の対話支援システムについて説明する。なお、以下に示す実施形態は本発明の一例であり、本発明を以下の実施形態に限定するものではなく、様々な構成を採用することもできる。
【0024】
本実施形態では対話支援システムの構成、動作等について説明するが、同様の構成の対話支援方法、対話支援装置、対話支援プログラム、対話支援プログラム記録媒体等も、同様の作用効果を奏することができる。以下で説明する本実施形態にかかる一連の処理は、コンピュータで実行可能なプログラムとして提供され、CD-ROMやフレキシブルディスクなどの非一過性コンピュータ可読記録媒体、更には通信回線を経て提供可能である。
【0025】
対話支援システムの各機能構成部と、対話支援方法の各工程と、は同様の作用効果を実現する。対話支援システムを構成するコンピュータは、CPU(Central Processing Unit)などの演算装置および記憶装置を有する。当該コンピュータは、記憶装置に格納される対話支援プログラムを、演算装置により実行することで、各機能構成部の機能を実現する。
【0026】
本実施形態における対話とは、2者以上による音声またはテキストを介したコミュニケーションを示す。本実施形態では、特に異なる言語を用いる2者以上の間における音声またはテキストを介した円滑な対話を支援する。
【0027】
図1は、対話支援システム1のシステム構成図を示す。対話支援システム1は、音声入出力装置2と、端末装置3と、対話支援装置4と、ビデオ会議サービスを提供するためのビデオ会議サービス提供装置5と、データベースとしての記憶部DBと、を備える。音声入出力装置2は、端末装置3と近距離無線通信により通信接続され、データ通信可能に構成される。端末装置3、対話支援装置4、ビデオ会議サービス提供装置5と、記憶部DBは、通信ネットワークNWを介して通信接続され、データ通信可能に構成される。音声入出力装置2および端末装置3は、対話者により所有される。図1において、対話支援システム1は、音声入出力装置2A、2Bおよび端末装置3A、3Bのそれぞれ2つを示したが、これらは3つ以上であってもよい。
【0028】
記憶部DBは、対話支援装置4とデータ通信可能な構成であればよく、例えば、対話支援装置4の内部または外部に設置され、対話支援装置4と接続されてもよい。
【0029】
対話支援装置4は、機能構成要素として、音声取得部401と、第1テキスト生成部402と、第2テキスト生成部403と、表示処理部404と、グループ登録部405と、議事録生成部406と、修正処理部407と、映像処理部408と、を備える。なお、これら機能構成要素の一部は、端末装置3が備える構成であってもよく、対話支援システム1の全体において、機能構成要素(401-408)が実現されればよい。
【0030】
図2(a)は、音声入出力装置2のハードウェア構成図を示す。音声入出力装置2は、ハードウェア構成として、CPUなどによる制御部21と、近距離無線通信を実現する通信部22と、記憶部23と、対話者からの指示入力を受け付ける入力インターフェイスとしての入力部24と、対話者からの音声データの入力を受け付けるマイク部25と、音声データの出力するスピーカ部26と、を備え、各構成部はバスインターフェイスにより接続されている。
【0031】
図2(b)は、端末装置3のハードウェア構成図を示す。端末装置3は、スマートフォン、タブレット端末、パーソナルコンピュータなどのコンピュータ装置を利用でき、ハードウェア構成として、CPUなどの演算装置31と、RAM(Random Access Memory)などの主記憶装置32と、補助記憶装置33と、無線通信のための通信装置34と、対話者からの指示入力を受け付ける入力インターフェイスとしての入力装置35と、ディスプレイなどによる出力装置36と、を備え、各構成部はバスインターフェイスにより接続される。通信装置34は、Bluetooth(登録商標)などによる近距離無線通信規格、および、通信ネットワークNWに接続するための無線通信規格にそれぞれ対応し、データ通信を実現する。
【0032】
補助記憶装置33は、オペレーティングシステム(OS)と、ビデオ会議サービスを利用するためのビデオ会議アプリケーション、または、ウェブアプリを利用するためのウェブブラウザアプリケーションを格納している。演算装置31がこれらのアプリケーションを実行することで、端末装置3においてアプリケーションの機能を実現することができる。
【0033】
対話支援装置4は、サーバ装置などのコンピュータを利用でき、ハードウェア構成として、演算装置、主記憶装置、補助記憶装置、通信装置を備え、各構成部はバスインターフェイスにより接続されている。補助記憶装置には、オペレーティングシステム(OS)と、OSと協働しその機能を発揮する対話支援プログラムと、各種データが記憶されている。対話支援装置4は、対話支援プログラムが演算装置により実行されることで、上述した機能構成要素(401―408)を実現することができる。
【0034】
なお、ビデオ会議サービス提供装置5は、サーバ装置などのコンピュータ装置として構成され、対話支援装置4と同様のハードウェア構成であってよい。
【0035】
以下の説明において、第1の指定言語を日本語、第2の指定言語を英語として説明するが、第1の指定言語と第2の指定言語はそれぞれ何れの言語であってよく、限定されない。第1の指定言語、第2の指定言語は、対話者の立場によって入れ替わる。また、対話者は、第1の指定言語の話者と、第2の指定言語の話者と、の2者とするが、3者以上であってよい。また、3者以上の場合、第3の指定言語が使用されてよく、対話者の数および指定言語の数に制限はない。また、本発明は、第1の指定言語の話者同士の対話においても、同様の作用効果を奏する。
【0036】
対話支援装置4は、端末装置3を介してそれぞれの対話者の基本情報の入力を受け付け、記憶部DBに格納する。基本情報は、対話者を識別するための対話者IDと、対話者の名称と、それぞれの対話者が使用する言語を示す指定言語と、を含む。また、基本情報は、メールアドレス、電話番号、アイコン画像を含んでもよい。
【0037】
対話支援システム1において、対話は、複数の対話者が属するグループにおいて実施される。グループ登録部405は、端末装置3を介してグループデータを生成するための指示入力を受け付け、生成処理したグループデータを記憶部DBに格納する。
【0038】
グループ登録部405は、端末装置3を介してグループにおける対話者の登録を受け付け、グループデータに当該対話者の対話者IDを紐づけて格納する。対話者の登録は、対話者ID、名称または、メールアドレスの入力の何れかによって実行される。
【0039】
図3は、対話者による発話の処理の流れに関するフローチャートを示す。
はじめに、音声入出力装置2は、マイク部25により対話者の発した音声の入力を受け付け、電気信号である入力音声データに変換し、入力音声データを通信接続された端末装置3に送信する(ステップS11)。
端末装置3は、音声入出力装置2より受信した入力音声データを、対話支援装置4に送信する(ステップS12)。
対話支援装置4の音声取得部401は、入力音声データを取得する(ステップS13)。端末装置3による送信時または対話支援装置4による受信時に、端末装置3の使用者の対話者IDと、発話日時と、が入力音声データに紐づけられる。
第1テキスト生成部402は、第1の指定言語に基づき、入力音声データに基づく第1テキストデータを生成処理し、記憶部DBに格納する(ステップS14)。ここで、第1の指定言語は、入力音声データに紐づけられる対話者IDにより識別される対話者の指定言語である。
第2テキスト生成部403は、第2の指定言語に基づき、第1テキストデータを変換処理し、第2テキストデータを生成処理し、記憶部DBに格納する(ステップS15)。ここで、変換処理は、翻訳処理の結果に基づくデータ生成処理であって、第1の指定言語のテキスト内容を第2の指定言語のテキスト内容に変換する処理を示す。第2の指定言語は、グループに属する他の対話者IDにより識別される対話者の指定言語である。第2の指定言語は、1または複数の言語であってよい。
【0040】
また、翻訳処理は、翻訳エンジンによって実行され、翻訳元の第1の指定言語のテキストデータを入力とし、翻訳先の第2の指定言語のテキストデータを出力として、変換する処理を示す。本実施形態において、対話支援装置4が翻訳エンジンを備える。または、対話支援装置4は、翻訳エンジンを備える翻訳サーバに対して、第1テキストデータを送信し、翻訳処理された第2テキストデータを取得する構成であってもよい。
【0041】
図4は、記憶部DBに格納される各種データのデータ構造例を示す。記憶部DBは、グループデータと、第1テキストデータと、第2テキストデータと、を格納する。
【0042】
グループデータは、図4(a)に示すように、グループIDと、グループ名と、対話者IDと、を有する。対話者IDは、複数であってよい。グループデータは、ある一連の対話のために生成されてよく、当該グループにおける対話の開始日時を有してよい。
【0043】
第1テキストデータは、図4(b)に示すように、第1テキストデータIDと、テキスト内容と、発話した対話者を示す対話者IDと、グループIDと、発話日時と、翻訳情報と、指定言語と、を有する。翻訳情報は、翻訳処理の有無を示し、第1テキストデータでは「false」が格納される。
【0044】
第2テキストデータは、図4(c)に示すように、第2テキストデータIDと、テキスト内容と、対話者IDと、グループIDと、発話日時と、翻訳情報と、指定言語と、を有する。翻訳情報は、第2テキストデータでは「true」が格納される。
【0045】
第2テキスト生成部403は、第1の指定言語の第1テキストデータを変換処理し、第2の指定言語の第2テキストデータを生成処理する。すなわち、図4(b)のテキスト内容は、第1の指定言語である日本語のテキストを格納し、図4(c)のテキスト内容は、第2の指定言語(英語)のテキストを格納する。
【0046】
第2テキストデータは、第1テキストデータに対応付けて記憶される。または、第2テキストデータは、第1テキストデータと同じIDを有し、翻訳の有無を示す情報と、翻訳言語と、翻訳されたテキスト内容を含む構成であってもよい。対応付けの態様は特に限定されない。
【0047】
表示処理部404は、第1テキストデータおよび/または第2テキストデータに基づき表示処理し、当該表示処理結果を送信する。以下、図面を参酌しながら、表示処理の実施形態1と実施形態2を説明する。
【0048】
<実施形態1>
表示処理部404は、少なくとも第2テキストデータに基づき、第1表示処理を実行し、図5に示すようなチャット画面W1、W2を生成し、表示処理結果を端末装置3に送信する。なお、表示処理部404は、更に第1テキストデータに基づきチャット画面の少なくとも一部のチャット表示を生成する。
【0049】
図5において、対話者は、第1の指定言語を指定する対話者UA、第2の指定言語を指定する対話者UB、UCであって、図5(a)は、対話者UAにより操作される端末装置3Aにおけるチャット画面W1を示し、図5(b)は、対話者UBにより操作される端末装置3Bにおけるチャット画面W1Bを示す。
【0050】
図5(a)において、チャット画面W1は、チャットW11~W14をそれぞれ表示する。各チャットは、第1テキストデータおよび/または第2テキストデータに含まれるテキスト内容、対話者ID、発話日時のそれぞれに基づき表示処理される。
【0051】
チャットW11、W12、W14は、対話者UB、UCの対話者IDを有する第1テキストデータおよび第2テキストデータに基づき表示処理されている。チャットW11において、内容W11Aは、第1の指定言語によるテキスト内容を示し、内容W11Bは、第2の指定言語によるテキスト内容を示す。
【0052】
チャットW13は、対話者UAの対話者IDを有する第1テキストデータに基づき、表示処理されている。内容W13Aは、第1の指定言語によるテキスト内容を示す。
【0053】
図5(b)において、チャット画面W2は、チャットW15~W18をそれぞれ表示する。チャットW15~W18とチャットW11~W14はそれぞれ対応する。チャットW15、W17、W18は、対話者UA、UCの対話者IDを有する第1テキストデータおよび/または第2テキストデータに基づき表示処理されている。チャットW16は、対話者UBの対話者IDを有する第1テキストデータに基づき表示処理されている。
【0054】
チャットW17において、内容W17Aは、第2の指定言語によるテキスト内容を示し、内容W17Bは、第1の指定言語によるテキスト内容を示す。
【0055】
チャットW15、W18は、対話者UCの対話者IDを有する第1テキストデータに基づき表示処理されている。チャットW16は、対話者UBの対話者IDを有する第1テキストデータに基づき表示処理されている。これらのチャット内容は、第2の指定言語によるテキスト内容を示す。ここで、対話者UBは、第2の指定言語を指定するため、共通する第2の指定言語を指定する対話者UCの第1テキストデータに基づくテキスト内容のみが表示されている。
【0056】
第1表示処理の具体的な処理手順として、表示処理部404は、端末装置3Aにおける第1の指定言語を特定する。表示処理部404は、翻訳情報が「false」の第1テキストデータのテキスト内容を表示する。表示処理部404は、翻訳情報が「true」の第2テキストデータにおいて指定言語が端末装置3Aの指定言語と同じ場合、更に当該第2テキストデータのテキスト内容を表示する。
【0057】
表示処理部404は、第2テキストデータの発話日時に基づき、各チャットを順に表示処理することで、複数の対話者によるリアルタイムな対話を実現する。また、表示処理部404は、第2テキストデータの対話者IDに紐づく基本情報を参照し、対話者の名称や対話者の画像データなどを各チャットと並列で表示処理することで、それぞれの対話者を判別可能に示すことができる。
【0058】
<実施形態2>
実施形態2では、表示処理部404は、ビデオ会議サービスと連動し、当該ビデオ会議サービスにより対話者の間に共有される映像において字幕表示を表示させる。ビデオ会議サービスは、ビデオ会議サービス提供装置5により提供され、端末装置3は当該サービスにアクセスすることで、音声データおよび/または映像データを指定された対話者の間において共有することができる。
【0059】
図6を参酌しながら、表示処理部404による第2表示処理の流れを説明する。なお、図6において、第1の指定言語の対話者UAと、第2の指定言語の対話者UB、UCとする。
【0060】
まず、端末装置3は、対話支援プログラムを起動するか、または、ウェブブラウザを介して対話支援プログラムを起動し、対話者IDを指示入力することで、対話支援装置4に接続する。本実施形態では、端末装置3は、ウェブアプリケーションを介して対話支援装置4に接続する。
【0061】
対話支援装置4は、端末装置3を介して、翻訳元の言語である第1の指定言語と、翻訳先の言語である第2の指定言語と、の指示入力を受け付ける。対話支援装置4は、グループデータに含まれる対話者IDにより特定されるそれぞれの対話者の指定言語に基づいて、翻訳元の第1の指定言語および翻訳先の第2の指定言語を決定してもよい。また、ウェブアプリケーションのページ別に翻訳元および/または翻訳先の言語が設定されていてもよい。ここで、翻訳先の言語である第2の指定言語は複数であってもよい。
【0062】
映像処理部408は、端末装置3を介して映像データを取得する。なお、端末装置3は、カメラなどの映像入力装置により映像データの入力を受け付ける。映像データは、ビデオ会議サービスにおいて、自身の映像として各対話者に共有されるデータを示す。映像処理部408は、端末装置3が有する構成であってもよい。
【0063】
また、対話支援装置4は、上述した映像処理部408による映像データの取得と同時に図3に示す処理を実行し、対話者UAの入力音声に基づく第2テキストデータを生成する。
【0064】
表示処理部404は、翻訳先の言語として指定された第2の指定言語である第2テキストデータに基づき、当該テキスト内容を字幕表示として表示処理する。映像処理部408は、当該字幕表示を取得した映像データに重畳させて合成データとすることができる。表示処理部404は、前記第2テキストデータに基づく字幕表示を前記映像データに重畳させた合成データを表示処理することができる。
【0065】
映像処理部408は、合成データを仮想カメラの出力として処理する。仮想カメラの出力は、通常のカメラの出力と同様に処理される。すなわち、仮想カメラの出力は、通常のカメラの出力と同様に、ビデオ会議サービスに出力することで、合成データをビデオ会議サービスの参加者に共有することができる。
【0066】
図6(a)は、端末装置3における字幕表示画面W6の画面表示例を示す。字幕表示画面W6は、表示処理部404による表示処理結果として、合成データW61を表示する。合成データW61は、映像データに字幕表示W62を重畳させたデータを示す。
【0067】
図6(b)は、ビデオ会議サービスにより提供される会議画面W7の画面表示例を示す。会議画面W7は、それぞれの対話者の映像を表示する映像表示部W71と、映像表示部W71の映像の出力元に関する設定入力を受け付ける映像設定部W72と、を備える。図示例は、初期状態を示し、対話者UAの映像表示部W71Aにおいて、字幕表示は表示されていない。
【0068】
映像設定部W72は、初期状態では、端末装置における内部カメラなどが出力元として選択されている。映像設定部W72は、仮想カメラの出力である合成データW61を出力元として選択入力を受け付けることができる。
【0069】
映像設定部W72を介して合成データW61が出力元として設定されることで、図6(c)に示すように、映像表示部W71Aが合成データW61となった会議画面W8が表示される。これによって、対話者UAによる第1の指定言語による発話が、第2の指定言語による字幕表示として、対話者の間で共有され、異なる言語間における円滑な対話を支援することができる。
【0070】
上述したように、第1表示処理および第2表示処理によって、それぞれの対話者にとって好適な第2テキストデータを提供することができる。
【0071】
<議事録生成>
第2テキストデータは、議事録として活用することができる。議事録生成部406は、グループデータを指示する指示入力を受け付ける。議事録生成部406は、指示入力されたグループデータIDを有する第1テキストデータを取得する。議事録生成部406は、生成する議事録データにおける指定言語の入力を受け付ける。議事録生成部406は、当該指定言語に基づき、テキスト内容を翻訳処理することで、議事録データとして生成処理し、記憶部DBに格納する。議事録生成部406は、同じ指定言語である第2テキストデータを抽出し、議事録データの一部を生成処理してもよい。
【0072】
議事録データは、図7に示すように、議事録画面W9として表示処理される。議事録画面W9は、グループに関する情報を表示するグループ表示部W91と、現在の言語設定を示し、他の言語への変換処理の指示入力を受け付ける言語表示選択部W92と、議事録に関する情報を表示する議事録表示部W93と、議事録データをデータファイルとして共有するための共有ボタンW94と、を備える。
【0073】
議事録生成部406は、言語表示選択部W92を介して、言語の指示入力を受け付けると、指示入力された言語への翻訳する翻訳処理を実行し、翻訳処理結果を議事録表示部W93に表示処理する。
【0074】
議事録生成部406は、端末装置3の補助記憶装置に記憶される第1テキストデータおよび/または第2テキストデータに基づき、議事録データを生成処理する構成としてもよい。
【0075】
<修正処理工程>
記憶部DBは、修正処理部407による修正処理のための正誤表テーブルデータを格納する。正誤表テーブルデータは、誤記データと、それに対応する正規データと、を有する。誤記データは、対話において頻出する言い間違えなどの誤記や、翻訳処理により頻出する誤訳などに関するデータを示す。正規データは、当該誤記データに対応し、正規な表現に関するデータを示す。正誤表テーブルデータは、端末装置3を介して、誤記データおよび正規データの入力を受け付けることで、追加されてもよい。なお、正誤表テーブルデータは、それぞれの指定言語に対応したデータとして定義される。
【0076】
修正処理部407は、第1テキストデータのテキスト内容および/または第2テキストデータのテキスト内容に含まれる誤記データを、正誤表テーブルデータを参照することで検出し、当該誤記データに対応する正規データに置換処理することで、テキスト内容および/またはテキスト内容を修正して記憶部DBに格納する。
【0077】
正誤表テーブルデータは、第1テキストデータと第2テキストデータのそれぞれにおいて異なるデータとして定義されてもよい。例えば、第1テキストデータにおける正誤表テーブルデータは、専門用語、固有名詞などの言い間違えに起因する誤記データと正規データとし、第2テキストデータにおける正誤表テーブルデータは、誤訳に起因する誤記データと正規データとすることで、誤記データの検出精度と、正規データの正当性を向上させることができる。
【0078】
以上に説明したように、本発明は、対話者のそれぞれに好適な第2テキストデータを提供することで、異なる言語間での円滑な対話を支援することができる。
【0079】
図8は、音声入出力装置2の外観図の一例を示す。図8(a)~(c)は、音声入出力装置2の前面図、底面図(A方向からの視点)、および、背面図(B方向からの視点)をそれぞれ示す。また、図8(d)は、引掛け部29を取り付けた背面図を示す。
【0080】
図8(a)によると、音声入出力装置2の本体部20は、ボタンによる入力部24、ランプ部27を有する。入力部24は、近距離無線通信の再接続、マイク部25および/またはスピーカ部26のON/OFF、電源のON/OFFなどの指示入力を受け付ける。ランプ部27は、充電の状態、電源の状態などを発光により示す。
【0081】
図8(b)によると、本体部20は底面にマイク部25を有する。マイク部25は、空孔として形成され本体部20に内蔵されるマイクに入力音声を導通する。図8(b)、(c)によると、本体部20は背面にスピーカ部26を有する。スピーカ部26は、本体部20の内部から外部に向けて出力音声を導通する管状の導通部28に接続される。
【0082】
図8(d)によると、管状の導通部28は、引掛け部29を取付可能に構成されている。音声入出力装置2は、引掛け部29を利用者の耳に引掛けることで、装着されて使用される。引掛け部29は、利用者の耳の形状や大きさに合わせて任意の形状とすることができる。ここで、引掛け部29を耳に装着したとき、スピーカ部26は利用者の耳の穴の中央付近に近接する。また、引掛け部29は、スピーカ部26に接続する導通部28に取り付けられ、支持されるため、装着時の安定感が増す。
【0083】
図8の音声入出力装置2は、右耳に装着されて使用される。音声入出力装置2は、マイク部25の配置を変更することなどにより、左耳に装着可能であってもよい。マイク部25は、本体部20の底面に配置されることで、装着時に入力音声を精度よく認識することができる。
【0084】
音声入出力装置2は、片耳にのみ装着されることで、もう一方の耳を塞ぐことなく、環境音と、スピーカ部26からの音声と、を両方聞きながら対話に参加することができ、安全面などに好適な設計となっている。
【0085】
音声入出力装置2は、第1の指定言語に依る入力音声の入力を受け付け、対話支援装置4は、入力音声に基づいて、第2テキストデータを生成することができる。また、対話支援装置4または音声合成サーバは、第2テキストデータに基づき音声信号を生成することで、音声入出力装置2は、当該音声信号を出力音声として出力することができる。これによって、音声入出力装置2は、異なる言語間での好適な対話を実現することができる。
【0086】
なお、音声入出力装置2は、共通の言語間での対話において使用されてもよい。
【符号の説明】
【0087】
1 対話支援システム
2 音声入出力装置
21 制御部
22 通信部
23 記憶部
24 入力部
25 マイク部
26 スピーカ部
27 ランプ部
28 導通部
29 引掛け部
3 端末装置
31 演算装置
32 主記憶装置
33 補助記憶装置
34 通信装置
35 入力装置
36 出力装置
4 対話支援装置
41 演算装置
42 主記憶装置
43 補助記憶装置
44 通信装置
401 音声取得部
402 第1テキスト生成部
403 第2テキスト生成部
404 表示処理部
405 グループ登録部
406 議事録生成部
407 修正処理部
408 映像処理部
5 ビデオ会議サービス提供装置
DB データベース
図1
図2
図3
図4
図5
図6
図7
図8