特開2023-96916 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ドーナッツロボティクス株式会社の特許一覧

特開2023-96916対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023096916

(43)【公開日】2023-07-07

(54)【発明の名称】対話支援システム、対話支援方法、対話支援プログラム、音声入出力装置

(51)【国際特許分類】

G06F 40/58 20200101AFI20230630BHJP

H04N 7/15 20060101ALI20230630BHJP

【ＦＩ】

G06F40/58

H04N7/15

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2021212977

(22)【出願日】2021-12-27

(71)【出願人】

【識別番号】520248667

【氏名又は名称】ドーナッツロボティクス株式会社

(74)【代理人】

【識別番号】100137338

【弁理士】

【氏名又は名称】辻田朋子

(72)【発明者】

【氏名】小野泰助

【テーマコード（参考）】

5B091

5C164

【Ｆターム（参考）】

5B091AA03

5C164FA10

5C164PA44

5C164UB88S

5C164VA09P

(57)【要約】（修正有）

【課題】複数の対話者による対話を支援可能な対話支援システム、方法、プログラム及び装置を提供する。
【解決手段】音声入出力装置は、端末装置と近距離無線通信によりデータ通信可能であり、端末装置と、対話支援装置と、ビデオ会議サービス提供装置と、記憶部ＤＢとが、通信ネットワークＮＷを介してデータ通信可能である対話支援システム１において、対話支援装置は、入力音声を取得する音声取得部と、第１の指定言語に基づき、入力音声に基づく第１テキストデータを生成する第１テキスト生成部と、第２の指定言語に基づき、第１テキストデータを変換処理し、第２テキストデータを生成処理する第２テキスト生成部と、第２テキストデータに基づき表示処理し、表示処理結果を送信する表示処理部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数の対話者による対話を支援する対話支援システムであって、
入力音声を取得する音声取得部と、
第１の指定言語に基づき、前記入力音声に基づく第１テキストデータを生成する第１テキスト生成部と、
第２の指定言語に基づき、前記第１テキストデータを変換処理し、第２テキストデータを生成処理する第２テキスト生成部と、
第２テキストデータに基づき表示処理し、表示処理結果を送信する表示処理部と、を備える対話支援システム。

【請求項2】

複数の対話者が属するグループを定義し、当該グループにおける対話者と、当該対話者の指定言語に関する登録を受け付けるグループ登録部を備え、
前記表示処理部は、前記グループに登録される対話者の指定言語である第２テキストデータに基づき表示処理する、請求項１に記載の対話支援システム。

【請求項3】

前記表示処理部は、送信先となる対話者の指定言語に基づき、前記第１テキストデータおよび前記第２テキストデータの少なくとも何れか一方をチャット表示として表示処理する、請求項１または請求項２の何れかに記載の対話支援システム。

【請求項4】

第１の指定言語の対話者より映像データを取得する映像処理部を備え、
前記表示処理部は、前記第２テキストデータに基づく字幕表示を前記映像データに重畳させた合成データを表示処理し、当該表示処理結果を第２の指定言語の話者に対して送信する、請求項１または請求項２に記載の対話支援システム。

【請求項5】

前記映像処理部は、前記合成データを仮想カメラの出力とする、請求項４に記載の対話支援システム。

【請求項6】

第１テキストデータは、対話者による発話日時を有し、
第１テキストデータを取得し、第１の指定言語または第２の指定言語に基づき、前記第１テキストデータを変換処理し、議事録データを生成処理する議事録生成部を備える、請求項１～請求項５の何れかに記載の対話支援システム。

【請求項7】

誤記データとそれに対応する正規データとを有する正誤表テーブルデータを有し、
前記第１テキストデータおよび／または前記第２テキストデータに含まれる誤記データを検出し、正規データに置換処理する修正処理部を備える、請求項１～請求項６の何れかに記載の対話支援システム。

【請求項8】

請求項１～請求項７の何れかに記載の対話支援システムにおいて用いられる音声入出力装置であって、
音声入力部と、音声出力部と、を備え、
前記音声出力部は、音声入出力装置の内部から外部に向けて音声を導通する管状の導通部に接続され、
前記導通部は、音声入出力装置の外部において引掛け部を取付可能に構成される、音声入出力装置。

【請求項9】

複数の対話者による対話を支援する対話支援方法であって、
入力音声を取得する音声取得工程と、
第１の指定言語に基づき、前記入力音声に基づく第１テキストデータを生成する第１テキスト生成工程と、
第２の指定言語に基づき、前記第１テキストデータを変換処理し、第２テキストデータを生成処理する第２テキスト生成工程と、
第２テキストデータに基づき表示処理し、表示処理結果を送信する表示処理工程と、をコンピュータが実行する対話支援方法。

【請求項10】

音声入出力装置と、対話支援装置と、を用いた対話支援方法であって、
音声入出力装置は、第１の指定言語による入力音声の入力を受け付け、
対話支援装置は、前記音声入出力装置を介して入力された入力音声を取得する音声取得工程と、
第１の指定言語に基づき、前記入力音声に基づく第１テキストデータを生成する第１テキスト生成工程と、
第２の指定言語に基づき、前記第１テキストデータを変換処理し、第２テキストデータを生成処理する第２テキスト生成工程と、を実行し、
前記音声入出力装置は、前記第２テキストデータに基づく出力音声を出力する、対話支援方法。

【請求項11】

複数の対話者による対話を支援する対話支援プログラムであって、
入力音声を取得する音声取得部と、
第１の指定言語に基づき、前記入力音声に基づく第１テキストデータを生成する第１テキスト生成部と、
第２の指定言語に基づき、前記第１テキストデータを変換処理し、第２テキストデータを生成処理する第２テキスト生成部と、
第２テキストデータに基づき表示処理し、表示処理結果を送信する表示処理部と、としてコンピュータを機能させる対話支援プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、対話におけるデータ処理を好適に支援する対話支援システム、対話支援プログラム、対話支援方法、および、対話支援システムにおいて用いられる音声入出力装置に関する。

【背景技術】

【0002】

異なる言語による対話におけるデータ処理において、まず、第１言語の入力音声を取得し、入力音声を第１言語の第１テキストデータに変換処理し、第１言語の第１テキストデータを第２言語の第１テキストデータに翻訳処理し、第２言語の第１テキストデータを出力する、という流れが一般的に知られている。また、第２言語の第１テキストデータを第２言語の出力音声に変換して出力することで、異なる言語による対話を実現することが知られている。

【0003】

特許文献１に記載の双方向音声翻訳システムでは、受け付ける音声又は当該音声の言語に応じた適切な音声認識エンジン、翻訳エンジン、音声合成エンジンの組合せによる音声翻訳が実行できることが開示されている。

【0004】

このように、異なる言語間における音声対話では、第１言語および第２言語の間で翻訳処理を実行するための各種エンジンを制御し、第１言語の音声データおよび第１テキストデータ、並びに、その翻訳結果である第２言語の音声データおよびテキストデータが生成されるように、多数のデータと処理を伴うことから複雑な構成であることが把握される。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】国際公開第２０１９／１１１３４６号

【発明の概要】

【発明が解決しようとする課題】

【0006】

特許文献１に記載の技術では、双方向音声翻訳システムであって、第１言語と第２言語の間における翻訳処理と、その翻訳処理結果による他言語への音声合成処理などが開示されている。しかしながら、双方向音声翻訳に適合したシステムであるものの、３者以上の話者を想定したものではなく、多数の話者に適合した対話データ処理とする点において改善の余地があった。

【0007】

また、２者間の対話データ処理であっても、それにより生じる対話データの更なる活用を想定することで、新規な対話支援を実現する点において、改善の余地があった。

【0008】

本発明は、上述したような状況に鑑みてなされたものであって、複数の対話者による対話を支援し、それぞれの対話者に好適な対話データを提供することを解決すべき課題とする。

【課題を解決するための手段】

【0009】

上述したような課題に鑑みて、本発明は、複数の対話者による対話を支援する対話支援システムであって、入力音声を取得する音声取得部と、第１の指定言語に基づき、前記入力音声に基づく第１テキストデータを生成する第１テキスト生成部と、第２の指定言語に基づき、前記第１テキストデータを変換処理し、第２テキストデータを生成処理する第２テキスト生成部と、第２テキストデータに基づき表示処理し、表示処理結果を送信する表示処理部と、を備える。

【0010】

また、本発明は、複数の対話者による対話を支援する対話支援方法であって、入力音声を取得する音声取得工程と、第１の指定言語に基づき、前記入力音声に基づく第１テキストデータを生成する第１テキスト生成工程と、第２の指定言語に基づき、前記第１テキストデータを変換処理し、第２テキストデータを生成処理する第２テキスト生成工程と、第２テキストデータに基づき表示処理し、表示処理結果を送信する表示処理工程と、をコンピュータが実行する。

【0011】

また、本発明は、複数の対話者による対話を支援する対話支援プログラムであって、入力音声を取得する音声取得部と、第１の指定言語に基づき、前記入力音声に基づく第１テキストデータを生成する第１テキスト生成部と、第２の指定言語に基づき、前記第１テキストデータを変換処理し、第２テキストデータを生成処理する第２テキスト生成部と、第２テキストデータに基づき表示処理し、表示処理結果を送信する表示処理部と、としてコンピュータを機能させる。

【0012】

このような構成とすることで、第１の対話者および第２の対話者のそれぞれの指定言語に基づき第２テキストデータを生成し、更に、複数の対話者のそれぞれに好適な表示処理として提供することができる。

【0013】

本発明の好ましい形態では、複数の対話者が属するグループを定義し、当該グループにおける対話者と、当該対話者の指定言語に関する登録を受け付けるグループ登録部を備え、前記表示処理部は、前記グループに登録される対話者の指定言語である第２テキストデータに基づき表示処理する。
このような構成とすることで、グループに属する対話者によりそれぞれ登録された指定言語である第２テキストデータを提供することができる。

【0014】

本発明の好ましい形態では、前記表示処理部は、送信先となる対話者の指定言語に基づき、前記第１テキストデータおよび前記第２テキストデータの少なくとも何れか一方をチャット表示として表示処理する。
このような構成とすることで、それぞれの対話者の指定言語に応じた好適なチャット表示を提供することができる。

【0015】

本発明の好ましい形態では、第１の指定言語の対話者より映像データを取得する映像処理部を備え、前記表示処理部は、前記第２テキストデータに基づく字幕表示を前記映像データに重畳させた合成データを表示処理し、当該表示処理結果を第２の指定言語の話者に対して送信する。
本発明の好ましい形態では、前記映像処理部は、前記合成データを仮想カメラの出力とする。

【0016】

このような構成とすることで、映像と字幕表示を含む合成データを提供することができる。また、合成データを会議ツールなどにおいてカメラ入力として利用することができる。合成データをカメラ入力として利用することで、映像と字幕表示のタイミングが一致した合成データが共有されるため、字幕表示の遅延などによる混乱を防止できる。

【0017】

本発明の好ましい形態では、第１テキストデータは、対話者による発話日時を有し、第１テキストデータを取得し、第１の指定言語または第２の指定言語に基づき、前記第１テキストデータを変換処理し、議事録データを生成処理する議事録生成部を備える。
このような構成とすることで、第１テキストデータを利用して議事録を簡単に生成することができる。

【0018】

本発明の好ましい形態では、誤記データとそれに対応する正規データとを有する正誤表テーブルデータを有し、前記第１テキストデータおよび／または前記第２テキストデータに含まれる誤記データを検出し、正規データに置換処理する修正処理部を備える。
このような構成とすることで、誤記が修正されたうえで第２テキストデータを提供することができる。

【0019】

本発明の好ましい形態では、対話支援システムにおける音声入出力装置であって、音声入力部と、音声出力部と、を備え、前記音声出力部は、音声入出力装置の内部から外部に向けて音声を導通する管状の導通部に接続され、前記導通部は、音声入出力装置の外部において引掛け部を取付可能に構成される。
このような構成とすることで、引掛け部の取り替えを容易にでき、また、引掛け部の支持部分が耳の中央付近となるため、装着時の安定性を向上させることができる。

【0020】

本発明は、音声入出力装置と、対話支援装置と、を用いた対話支援方法であって、音声入出力装置は、第１の指定言語による入力音声の入力を受け付け、対話支援装置は、前記音声入出力装置を介して入力された入力音声を取得する音声取得工程と、第１の指定言語に基づき、前記入力音声に基づく第１テキストデータを生成する第１テキスト生成工程と、第２の指定言語に基づき、前記第１テキストデータを変換処理し、第２テキストデータを生成処理する第２テキスト生成工程と、を実行し、前記音声入出力装置は、前記第２テキストデータに基づく出力音声を出力する。
このような方法とすることで、それぞれの対話者に好適な出力音声を提供することができる。

【発明の効果】

【0021】

本発明によれば、複数の対話者による対話を支援し、それぞれの対話者に好適な第２テキストデータを提供する対話支援システム、対話支援方法を提供することができる。また、対話支援システム、対話支援方法の実現に好適な音声入出力装置を提供することができる。

【図面の簡単な説明】

【0022】

【図1】本実施形態における対話支援システムのブロック図を示す。

【図2】本実施形態における各種デバイスのハードウェア構成図を示す。

【図3】本実施形態における音声入力から第２テキストデータ生成までの処理に関するフローチャートを示す。

【図4】本実施形態における各種データの構造例を示す。

【図5】本実施形態における第２テキストデータの画面表示例を示す。

【図6】本実施形態における第２テキストデータの画面表示例を示す。

【図7】本実施形態における議事録データの画面表示例を示す。

【図8】本実施形態における音声入出力装置の構成図を示す。

【発明を実施するための形態】

【0023】

以下、図面を用いて、本発明の対話支援システムについて説明する。なお、以下に示す実施形態は本発明の一例であり、本発明を以下の実施形態に限定するものではなく、様々な構成を採用することもできる。

【0024】

本実施形態では対話支援システムの構成、動作等について説明するが、同様の構成の対話支援方法、対話支援装置、対話支援プログラム、対話支援プログラム記録媒体等も、同様の作用効果を奏することができる。以下で説明する本実施形態にかかる一連の処理は、コンピュータで実行可能なプログラムとして提供され、ＣＤ－ＲＯＭやフレキシブルディスクなどの非一過性コンピュータ可読記録媒体、更には通信回線を経て提供可能である。

【0025】

対話支援システムの各機能構成部と、対話支援方法の各工程と、は同様の作用効果を実現する。対話支援システムを構成するコンピュータは、ＣＰＵ（Central Processing Unit）などの演算装置および記憶装置を有する。当該コンピュータは、記憶装置に格納される対話支援プログラムを、演算装置により実行することで、各機能構成部の機能を実現する。

【0026】

本実施形態における対話とは、２者以上による音声またはテキストを介したコミュニケーションを示す。本実施形態では、特に異なる言語を用いる２者以上の間における音声またはテキストを介した円滑な対話を支援する。

【0027】

図１は、対話支援システム１のシステム構成図を示す。対話支援システム１は、音声入出力装置２と、端末装置３と、対話支援装置４と、ビデオ会議サービスを提供するためのビデオ会議サービス提供装置５と、データベースとしての記憶部ＤＢと、を備える。音声入出力装置２は、端末装置３と近距離無線通信により通信接続され、データ通信可能に構成される。端末装置３、対話支援装置４、ビデオ会議サービス提供装置５と、記憶部ＤＢは、通信ネットワークＮＷを介して通信接続され、データ通信可能に構成される。音声入出力装置２および端末装置３は、対話者により所有される。図１において、対話支援システム１は、音声入出力装置２Ａ、２Ｂおよび端末装置３Ａ、３Ｂのそれぞれ２つを示したが、これらは３つ以上であってもよい。

【0028】

記憶部ＤＢは、対話支援装置４とデータ通信可能な構成であればよく、例えば、対話支援装置４の内部または外部に設置され、対話支援装置４と接続されてもよい。

【0029】

対話支援装置４は、機能構成要素として、音声取得部４０１と、第１テキスト生成部４０２と、第２テキスト生成部４０３と、表示処理部４０４と、グループ登録部４０５と、議事録生成部４０６と、修正処理部４０７と、映像処理部４０８と、を備える。なお、これら機能構成要素の一部は、端末装置３が備える構成であってもよく、対話支援システム１の全体において、機能構成要素（４０１－４０８）が実現されればよい。

【0030】

図２（ａ）は、音声入出力装置２のハードウェア構成図を示す。音声入出力装置２は、ハードウェア構成として、ＣＰＵなどによる制御部２１と、近距離無線通信を実現する通信部２２と、記憶部２３と、対話者からの指示入力を受け付ける入力インターフェイスとしての入力部２４と、対話者からの音声データの入力を受け付けるマイク部２５と、音声データの出力するスピーカ部２６と、を備え、各構成部はバスインターフェイスにより接続されている。

【0031】

図２（ｂ）は、端末装置３のハードウェア構成図を示す。端末装置３は、スマートフォン、タブレット端末、パーソナルコンピュータなどのコンピュータ装置を利用でき、ハードウェア構成として、ＣＰＵなどの演算装置３１と、ＲＡＭ（Random Access Memory）などの主記憶装置３２と、補助記憶装置３３と、無線通信のための通信装置３４と、対話者からの指示入力を受け付ける入力インターフェイスとしての入力装置３５と、ディスプレイなどによる出力装置３６と、を備え、各構成部はバスインターフェイスにより接続される。通信装置３４は、Bluetooth（登録商標）などによる近距離無線通信規格、および、通信ネットワークＮＷに接続するための無線通信規格にそれぞれ対応し、データ通信を実現する。

【0032】

補助記憶装置３３は、オペレーティングシステム（ＯＳ）と、ビデオ会議サービスを利用するためのビデオ会議アプリケーション、または、ウェブアプリを利用するためのウェブブラウザアプリケーションを格納している。演算装置３１がこれらのアプリケーションを実行することで、端末装置３においてアプリケーションの機能を実現することができる。

【0033】

対話支援装置４は、サーバ装置などのコンピュータを利用でき、ハードウェア構成として、演算装置、主記憶装置、補助記憶装置、通信装置を備え、各構成部はバスインターフェイスにより接続されている。補助記憶装置には、オペレーティングシステム（ＯＳ）と、ＯＳと協働しその機能を発揮する対話支援プログラムと、各種データが記憶されている。対話支援装置４は、対話支援プログラムが演算装置により実行されることで、上述した機能構成要素（４０１―４０８）を実現することができる。

【0034】

なお、ビデオ会議サービス提供装置５は、サーバ装置などのコンピュータ装置として構成され、対話支援装置４と同様のハードウェア構成であってよい。

【0035】

以下の説明において、第１の指定言語を日本語、第２の指定言語を英語として説明するが、第１の指定言語と第２の指定言語はそれぞれ何れの言語であってよく、限定されない。第１の指定言語、第２の指定言語は、対話者の立場によって入れ替わる。また、対話者は、第１の指定言語の話者と、第２の指定言語の話者と、の２者とするが、３者以上であってよい。また、３者以上の場合、第３の指定言語が使用されてよく、対話者の数および指定言語の数に制限はない。また、本発明は、第１の指定言語の話者同士の対話においても、同様の作用効果を奏する。

【0036】

対話支援装置４は、端末装置３を介してそれぞれの対話者の基本情報の入力を受け付け、記憶部ＤＢに格納する。基本情報は、対話者を識別するための対話者ＩＤと、対話者の名称と、それぞれの対話者が使用する言語を示す指定言語と、を含む。また、基本情報は、メールアドレス、電話番号、アイコン画像を含んでもよい。

【0037】

対話支援システム１において、対話は、複数の対話者が属するグループにおいて実施される。グループ登録部４０５は、端末装置３を介してグループデータを生成するための指示入力を受け付け、生成処理したグループデータを記憶部ＤＢに格納する。

【0038】

グループ登録部４０５は、端末装置３を介してグループにおける対話者の登録を受け付け、グループデータに当該対話者の対話者ＩＤを紐づけて格納する。対話者の登録は、対話者ＩＤ、名称または、メールアドレスの入力の何れかによって実行される。

【0039】

図３は、対話者による発話の処理の流れに関するフローチャートを示す。
はじめに、音声入出力装置２は、マイク部２５により対話者の発した音声の入力を受け付け、電気信号である入力音声データに変換し、入力音声データを通信接続された端末装置３に送信する（ステップＳ１１）。
端末装置３は、音声入出力装置２より受信した入力音声データを、対話支援装置４に送信する（ステップＳ１２）。
対話支援装置４の音声取得部４０１は、入力音声データを取得する（ステップＳ１３）。端末装置３による送信時または対話支援装置４による受信時に、端末装置３の使用者の対話者ＩＤと、発話日時と、が入力音声データに紐づけられる。
第１テキスト生成部４０２は、第１の指定言語に基づき、入力音声データに基づく第１テキストデータを生成処理し、記憶部ＤＢに格納する（ステップＳ１４）。ここで、第１の指定言語は、入力音声データに紐づけられる対話者ＩＤにより識別される対話者の指定言語である。
第２テキスト生成部４０３は、第２の指定言語に基づき、第１テキストデータを変換処理し、第２テキストデータを生成処理し、記憶部ＤＢに格納する（ステップＳ１５）。ここで、変換処理は、翻訳処理の結果に基づくデータ生成処理であって、第１の指定言語のテキスト内容を第２の指定言語のテキスト内容に変換する処理を示す。第２の指定言語は、グループに属する他の対話者ＩＤにより識別される対話者の指定言語である。第２の指定言語は、１または複数の言語であってよい。

【0040】

また、翻訳処理は、翻訳エンジンによって実行され、翻訳元の第１の指定言語のテキストデータを入力とし、翻訳先の第２の指定言語のテキストデータを出力として、変換する処理を示す。本実施形態において、対話支援装置４が翻訳エンジンを備える。または、対話支援装置４は、翻訳エンジンを備える翻訳サーバに対して、第１テキストデータを送信し、翻訳処理された第２テキストデータを取得する構成であってもよい。

【0041】

図４は、記憶部ＤＢに格納される各種データのデータ構造例を示す。記憶部ＤＢは、グループデータと、第１テキストデータと、第２テキストデータと、を格納する。

【0042】

グループデータは、図４（ａ）に示すように、グループＩＤと、グループ名と、対話者ＩＤと、を有する。対話者ＩＤは、複数であってよい。グループデータは、ある一連の対話のために生成されてよく、当該グループにおける対話の開始日時を有してよい。

【0043】

第１テキストデータは、図４（ｂ）に示すように、第１テキストデータＩＤと、テキスト内容と、発話した対話者を示す対話者ＩＤと、グループＩＤと、発話日時と、翻訳情報と、指定言語と、を有する。翻訳情報は、翻訳処理の有無を示し、第１テキストデータでは「ｆａｌｓｅ」が格納される。

【0044】

第２テキストデータは、図４（ｃ）に示すように、第２テキストデータＩＤと、テキスト内容と、対話者ＩＤと、グループＩＤと、発話日時と、翻訳情報と、指定言語と、を有する。翻訳情報は、第２テキストデータでは「ｔｒｕｅ」が格納される。

【0045】

第２テキスト生成部４０３は、第１の指定言語の第１テキストデータを変換処理し、第２の指定言語の第２テキストデータを生成処理する。すなわち、図４（ｂ）のテキスト内容は、第１の指定言語である日本語のテキストを格納し、図４（ｃ）のテキスト内容は、第２の指定言語（英語）のテキストを格納する。

【0046】

第２テキストデータは、第１テキストデータに対応付けて記憶される。または、第２テキストデータは、第１テキストデータと同じＩＤを有し、翻訳の有無を示す情報と、翻訳言語と、翻訳されたテキスト内容を含む構成であってもよい。対応付けの態様は特に限定されない。

【0047】

表示処理部４０４は、第１テキストデータおよび／または第２テキストデータに基づき表示処理し、当該表示処理結果を送信する。以下、図面を参酌しながら、表示処理の実施形態１と実施形態２を説明する。

【0048】

＜実施形態１＞
表示処理部４０４は、少なくとも第２テキストデータに基づき、第１表示処理を実行し、図５に示すようなチャット画面Ｗ１、Ｗ２を生成し、表示処理結果を端末装置３に送信する。なお、表示処理部４０４は、更に第１テキストデータに基づきチャット画面の少なくとも一部のチャット表示を生成する。

【0049】

図５において、対話者は、第１の指定言語を指定する対話者ＵＡ、第２の指定言語を指定する対話者ＵＢ、ＵＣであって、図５（ａ）は、対話者ＵＡにより操作される端末装置３Ａにおけるチャット画面Ｗ１を示し、図５（ｂ）は、対話者ＵＢにより操作される端末装置３Ｂにおけるチャット画面Ｗ１Ｂを示す。

【0050】

図５（ａ）において、チャット画面Ｗ１は、チャットＷ１１～Ｗ１４をそれぞれ表示する。各チャットは、第１テキストデータおよび／または第２テキストデータに含まれるテキスト内容、対話者ＩＤ、発話日時のそれぞれに基づき表示処理される。

【0051】

チャットＷ１１、Ｗ１２、Ｗ１４は、対話者ＵＢ、ＵＣの対話者ＩＤを有する第１テキストデータおよび第２テキストデータに基づき表示処理されている。チャットＷ１１において、内容Ｗ１１Ａは、第１の指定言語によるテキスト内容を示し、内容Ｗ１１Ｂは、第２の指定言語によるテキスト内容を示す。

【0052】

チャットＷ１３は、対話者ＵＡの対話者ＩＤを有する第１テキストデータに基づき、表示処理されている。内容Ｗ１３Ａは、第１の指定言語によるテキスト内容を示す。

【0053】

図５（ｂ）において、チャット画面Ｗ２は、チャットＷ１５～Ｗ１８をそれぞれ表示する。チャットＷ１５～Ｗ１８とチャットＷ１１～Ｗ１４はそれぞれ対応する。チャットＷ１５、Ｗ１７、Ｗ１８は、対話者ＵＡ、ＵＣの対話者ＩＤを有する第１テキストデータおよび／または第２テキストデータに基づき表示処理されている。チャットＷ１６は、対話者ＵＢの対話者ＩＤを有する第１テキストデータに基づき表示処理されている。

【0054】

チャットＷ１７において、内容Ｗ１７Ａは、第２の指定言語によるテキスト内容を示し、内容Ｗ１７Ｂは、第１の指定言語によるテキスト内容を示す。

【0055】

チャットＷ１５、Ｗ１８は、対話者ＵＣの対話者ＩＤを有する第１テキストデータに基づき表示処理されている。チャットＷ１６は、対話者ＵＢの対話者ＩＤを有する第１テキストデータに基づき表示処理されている。これらのチャット内容は、第２の指定言語によるテキスト内容を示す。ここで、対話者ＵＢは、第２の指定言語を指定するため、共通する第２の指定言語を指定する対話者ＵＣの第１テキストデータに基づくテキスト内容のみが表示されている。

【0056】

第１表示処理の具体的な処理手順として、表示処理部４０４は、端末装置３Ａにおける第１の指定言語を特定する。表示処理部４０４は、翻訳情報が「ｆａｌｓｅ」の第１テキストデータのテキスト内容を表示する。表示処理部４０４は、翻訳情報が「ｔｒｕｅ」の第２テキストデータにおいて指定言語が端末装置３Ａの指定言語と同じ場合、更に当該第２テキストデータのテキスト内容を表示する。

【0057】

表示処理部４０４は、第２テキストデータの発話日時に基づき、各チャットを順に表示処理することで、複数の対話者によるリアルタイムな対話を実現する。また、表示処理部４０４は、第２テキストデータの対話者ＩＤに紐づく基本情報を参照し、対話者の名称や対話者の画像データなどを各チャットと並列で表示処理することで、それぞれの対話者を判別可能に示すことができる。

【0058】

＜実施形態２＞
実施形態２では、表示処理部４０４は、ビデオ会議サービスと連動し、当該ビデオ会議サービスにより対話者の間に共有される映像において字幕表示を表示させる。ビデオ会議サービスは、ビデオ会議サービス提供装置５により提供され、端末装置３は当該サービスにアクセスすることで、音声データおよび／または映像データを指定された対話者の間において共有することができる。

【0059】

図６を参酌しながら、表示処理部４０４による第２表示処理の流れを説明する。なお、図６において、第１の指定言語の対話者ＵＡと、第２の指定言語の対話者ＵＢ、ＵＣとする。

【0060】

まず、端末装置３は、対話支援プログラムを起動するか、または、ウェブブラウザを介して対話支援プログラムを起動し、対話者ＩＤを指示入力することで、対話支援装置４に接続する。本実施形態では、端末装置３は、ウェブアプリケーションを介して対話支援装置４に接続する。

【0061】

対話支援装置４は、端末装置３を介して、翻訳元の言語である第１の指定言語と、翻訳先の言語である第２の指定言語と、の指示入力を受け付ける。対話支援装置４は、グループデータに含まれる対話者ＩＤにより特定されるそれぞれの対話者の指定言語に基づいて、翻訳元の第１の指定言語および翻訳先の第２の指定言語を決定してもよい。また、ウェブアプリケーションのページ別に翻訳元および／または翻訳先の言語が設定されていてもよい。ここで、翻訳先の言語である第２の指定言語は複数であってもよい。

【0062】

映像処理部４０８は、端末装置３を介して映像データを取得する。なお、端末装置３は、カメラなどの映像入力装置により映像データの入力を受け付ける。映像データは、ビデオ会議サービスにおいて、自身の映像として各対話者に共有されるデータを示す。映像処理部４０８は、端末装置３が有する構成であってもよい。

【0063】

また、対話支援装置４は、上述した映像処理部４０８による映像データの取得と同時に図３に示す処理を実行し、対話者ＵＡの入力音声に基づく第２テキストデータを生成する。

【0064】

表示処理部４０４は、翻訳先の言語として指定された第２の指定言語である第２テキストデータに基づき、当該テキスト内容を字幕表示として表示処理する。映像処理部４０８は、当該字幕表示を取得した映像データに重畳させて合成データとすることができる。表示処理部４０４は、前記第２テキストデータに基づく字幕表示を前記映像データに重畳させた合成データを表示処理することができる。

【0065】

映像処理部４０８は、合成データを仮想カメラの出力として処理する。仮想カメラの出力は、通常のカメラの出力と同様に処理される。すなわち、仮想カメラの出力は、通常のカメラの出力と同様に、ビデオ会議サービスに出力することで、合成データをビデオ会議サービスの参加者に共有することができる。

【0066】

図６（ａ）は、端末装置３における字幕表示画面Ｗ６の画面表示例を示す。字幕表示画面Ｗ６は、表示処理部４０４による表示処理結果として、合成データＷ６１を表示する。合成データＷ６１は、映像データに字幕表示Ｗ６２を重畳させたデータを示す。

【0067】

図６（ｂ）は、ビデオ会議サービスにより提供される会議画面Ｗ７の画面表示例を示す。会議画面Ｗ７は、それぞれの対話者の映像を表示する映像表示部Ｗ７１と、映像表示部Ｗ７１の映像の出力元に関する設定入力を受け付ける映像設定部Ｗ７２と、を備える。図示例は、初期状態を示し、対話者ＵＡの映像表示部Ｗ７１Ａにおいて、字幕表示は表示されていない。

【0068】

映像設定部Ｗ７２は、初期状態では、端末装置における内部カメラなどが出力元として選択されている。映像設定部Ｗ７２は、仮想カメラの出力である合成データＷ６１を出力元として選択入力を受け付けることができる。

【0069】

映像設定部Ｗ７２を介して合成データＷ６１が出力元として設定されることで、図６（ｃ）に示すように、映像表示部Ｗ７１Ａが合成データＷ６１となった会議画面Ｗ８が表示される。これによって、対話者ＵＡによる第１の指定言語による発話が、第２の指定言語による字幕表示として、対話者の間で共有され、異なる言語間における円滑な対話を支援することができる。

【0070】

上述したように、第１表示処理および第２表示処理によって、それぞれの対話者にとって好適な第２テキストデータを提供することができる。

【0071】

＜議事録生成＞
第２テキストデータは、議事録として活用することができる。議事録生成部４０６は、グループデータを指示する指示入力を受け付ける。議事録生成部４０６は、指示入力されたグループデータＩＤを有する第１テキストデータを取得する。議事録生成部４０６は、生成する議事録データにおける指定言語の入力を受け付ける。議事録生成部４０６は、当該指定言語に基づき、テキスト内容を翻訳処理することで、議事録データとして生成処理し、記憶部ＤＢに格納する。議事録生成部４０６は、同じ指定言語である第２テキストデータを抽出し、議事録データの一部を生成処理してもよい。

【0072】

議事録データは、図７に示すように、議事録画面Ｗ９として表示処理される。議事録画面Ｗ９は、グループに関する情報を表示するグループ表示部Ｗ９１と、現在の言語設定を示し、他の言語への変換処理の指示入力を受け付ける言語表示選択部Ｗ９２と、議事録に関する情報を表示する議事録表示部Ｗ９３と、議事録データをデータファイルとして共有するための共有ボタンＷ９４と、を備える。

【0073】

議事録生成部４０６は、言語表示選択部Ｗ９２を介して、言語の指示入力を受け付けると、指示入力された言語への翻訳する翻訳処理を実行し、翻訳処理結果を議事録表示部Ｗ９３に表示処理する。

【0074】

議事録生成部４０６は、端末装置３の補助記憶装置に記憶される第１テキストデータおよび／または第２テキストデータに基づき、議事録データを生成処理する構成としてもよい。

【0075】

＜修正処理工程＞
記憶部ＤＢは、修正処理部４０７による修正処理のための正誤表テーブルデータを格納する。正誤表テーブルデータは、誤記データと、それに対応する正規データと、を有する。誤記データは、対話において頻出する言い間違えなどの誤記や、翻訳処理により頻出する誤訳などに関するデータを示す。正規データは、当該誤記データに対応し、正規な表現に関するデータを示す。正誤表テーブルデータは、端末装置３を介して、誤記データおよび正規データの入力を受け付けることで、追加されてもよい。なお、正誤表テーブルデータは、それぞれの指定言語に対応したデータとして定義される。

【0076】

修正処理部４０７は、第１テキストデータのテキスト内容および／または第２テキストデータのテキスト内容に含まれる誤記データを、正誤表テーブルデータを参照することで検出し、当該誤記データに対応する正規データに置換処理することで、テキスト内容および／またはテキスト内容を修正して記憶部ＤＢに格納する。

【0077】

正誤表テーブルデータは、第１テキストデータと第２テキストデータのそれぞれにおいて異なるデータとして定義されてもよい。例えば、第１テキストデータにおける正誤表テーブルデータは、専門用語、固有名詞などの言い間違えに起因する誤記データと正規データとし、第２テキストデータにおける正誤表テーブルデータは、誤訳に起因する誤記データと正規データとすることで、誤記データの検出精度と、正規データの正当性を向上させることができる。

【0078】

以上に説明したように、本発明は、対話者のそれぞれに好適な第２テキストデータを提供することで、異なる言語間での円滑な対話を支援することができる。

【0079】

図８は、音声入出力装置２の外観図の一例を示す。図８（ａ）～（ｃ）は、音声入出力装置２の前面図、底面図（Ａ方向からの視点）、および、背面図（Ｂ方向からの視点）をそれぞれ示す。また、図８（ｄ）は、引掛け部２９を取り付けた背面図を示す。

【0080】

図８（ａ）によると、音声入出力装置２の本体部２０は、ボタンによる入力部２４、ランプ部２７を有する。入力部２４は、近距離無線通信の再接続、マイク部２５および／またはスピーカ部２６のＯＮ／ＯＦＦ、電源のＯＮ／ＯＦＦなどの指示入力を受け付ける。ランプ部２７は、充電の状態、電源の状態などを発光により示す。

【0081】

図８（ｂ）によると、本体部２０は底面にマイク部２５を有する。マイク部２５は、空孔として形成され本体部２０に内蔵されるマイクに入力音声を導通する。図８（ｂ）、（ｃ）によると、本体部２０は背面にスピーカ部２６を有する。スピーカ部２６は、本体部２０の内部から外部に向けて出力音声を導通する管状の導通部２８に接続される。

【0082】

図８（ｄ）によると、管状の導通部２８は、引掛け部２９を取付可能に構成されている。音声入出力装置２は、引掛け部２９を利用者の耳に引掛けることで、装着されて使用される。引掛け部２９は、利用者の耳の形状や大きさに合わせて任意の形状とすることができる。ここで、引掛け部２９を耳に装着したとき、スピーカ部２６は利用者の耳の穴の中央付近に近接する。また、引掛け部２９は、スピーカ部２６に接続する導通部２８に取り付けられ、支持されるため、装着時の安定感が増す。

【0083】

図８の音声入出力装置２は、右耳に装着されて使用される。音声入出力装置２は、マイク部２５の配置を変更することなどにより、左耳に装着可能であってもよい。マイク部２５は、本体部２０の底面に配置されることで、装着時に入力音声を精度よく認識することができる。

【0084】

音声入出力装置２は、片耳にのみ装着されることで、もう一方の耳を塞ぐことなく、環境音と、スピーカ部２６からの音声と、を両方聞きながら対話に参加することができ、安全面などに好適な設計となっている。

【0085】

音声入出力装置２は、第１の指定言語に依る入力音声の入力を受け付け、対話支援装置４は、入力音声に基づいて、第２テキストデータを生成することができる。また、対話支援装置４または音声合成サーバは、第２テキストデータに基づき音声信号を生成することで、音声入出力装置２は、当該音声信号を出力音声として出力することができる。これによって、音声入出力装置２は、異なる言語間での好適な対話を実現することができる。

【0086】

なお、音声入出力装置２は、共通の言語間での対話において使用されてもよい。

【符号の説明】

【0087】

１対話支援システム
２音声入出力装置
２１制御部
２２通信部
２３記憶部
２４入力部
２５マイク部
２６スピーカ部
２７ランプ部
２８導通部
２９引掛け部
３端末装置
３１演算装置
３２主記憶装置
３３補助記憶装置
３４通信装置
３５入力装置
３６出力装置
４対話支援装置
４１演算装置
４２主記憶装置
４３補助記憶装置
４４通信装置
４０１音声取得部
４０２第１テキスト生成部
４０３第２テキスト生成部
４０４表示処理部
４０５グループ登録部
４０６議事録生成部
４０７修正処理部
４０８映像処理部
５ビデオ会議サービス提供装置
ＤＢデータベース

【図1】