(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024110057
(43)【公開日】2024-08-15
(54)【発明の名称】通訳システム、通訳方法、および通訳プログラム
(51)【国際特許分類】
G06F 40/289 20200101AFI20240807BHJP
G06F 40/44 20200101ALI20240807BHJP
G06F 40/279 20200101ALI20240807BHJP
G10L 15/00 20130101ALI20240807BHJP
G10L 13/00 20060101ALI20240807BHJP
G10L 13/10 20130101ALI20240807BHJP
【FI】
G06F40/289
G06F40/44
G06F40/279
G10L15/00 200C
G10L13/00 100G
G10L13/10 111F
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023014393
(22)【出願日】2023-02-02
(71)【出願人】
【識別番号】301022471
【氏名又は名称】国立研究開発法人情報通信研究機構
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】河井 恒
(72)【発明者】
【氏名】白原 義朗
(72)【発明者】
【氏名】隅田 英一郎
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA03
5B091CB12
5B091CB32
5B091EA01
(57)【要約】
【課題】より良好なコミュニケーションを実現するための新たなソリューションを提供する。
【解決手段】通訳システムは、第1言語の音声に対応する第1テキストを生成する音声認識部と、第1テキストをチャンク単位で第2言語の第2テキストに翻訳する翻訳部と、第2テキストが生成される毎に、第2テキストから音声を合成して出力する音声合成部と、第1テキストを文単位で翻訳した第3テキストを表示出力する出力部とを含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
第1言語の音声に対応する第1テキストを生成する音声認識部と、
前記第1テキストをチャンク単位で第2言語の第2テキストに翻訳する翻訳部と、
前記第2テキストが生成される毎に、前記第2テキストから音声を合成して出力する音声合成部と、
前記第1テキストを文単位で翻訳した第3テキストを表示出力する出力部とを備える、通訳システム。
【請求項2】
前記音声合成部は、通常の話速より早くなるように、前記第2テキストから合成音を生成する、請求項1に記載の通訳システム。
【請求項3】
前記翻訳部は、チャンク単位で学習された第1学習済モデルと、文単位で学習された第2学習済モデルとを含む、請求項1または2に記載の通訳システム。
【請求項4】
前記第1テキスト、前記第2テキストおよび前記第3テキストのいずれかから要約を生成する要約部をさらに備える、請求項1または2に記載の通訳システム。
【請求項5】
コンピュータが実行する通訳方法であって、
第1言語の音声に対応する第1テキストを生成するステップと、
前記第1テキストをチャンク単位で第2言語の第2テキストに翻訳するステップと、
前記第2テキストが生成される毎に、前記第2テキストから音声を合成して出力するステップと、
前記第1テキストを文単位で翻訳した第3テキストを表示出力するステップとを備える、通訳方法。
【請求項6】
通訳プログラムであって、コンピュータに、
第1言語の音声に対応する第1テキストを生成するステップと、
前記第1テキストをチャンク単位で第2言語の第2テキストに翻訳するステップと、
前記第2テキストが生成される毎に、前記第2テキストから音声を合成して出力するステップと、
前記第1テキストを文単位で翻訳した第3テキストを表示出力するステップとを実行させる、通訳プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通訳システム、通訳方法、および通訳プログラムに関する。
【背景技術】
【0002】
近年のニューラルネットワークなどの急速な進歩に伴って、コンピュータを用いた同時通訳のシステムが実用化されている。例えば、特開2022-152805号公報(特許文献1)は、信頼性の高い同時翻訳を実現できる同時翻訳システムなどを開示する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
同時通訳がより手軽に利用できるようになることで、異なる言語を話すユーザ同士が良好なコミュニケーションをとることができるようになると期待されている。
【0005】
本発明は、より良好なコミュニケーションを実現するための新たなソリューションを提供することを目的とする。
【課題を解決するための手段】
【0006】
ある実施の形態に従う通訳システムは、第1言語の音声に対応する第1テキストを生成する音声認識部と、第1テキストをチャンク単位で第2言語の第2テキストに翻訳する翻訳部と、第2テキストが生成される毎に、第2テキストから音声を合成して出力する音声合成部と、第1テキストを文単位で翻訳した第3テキストを表示出力する出力部とを含む。
【0007】
出力部は、第1テキストに含まれる文の最終のチャンクに対応する音声の出力が完了したタイミングで、第3テキストを表示出力してもよい。
【0008】
出力部は、第1テキストに含まれる文の最終のチャンクに対応する音声の出力が開始されるタイミングで、第3テキストを表示出力してもよい。
【0009】
音声合成部は、通常の話速より早くなるように、第2テキストから合成音を生成してもよい。
【0010】
チャンク単位は、何らかの意味をもつ1または複数の単語からなる集合の単位であてもよい。
【0011】
翻訳部は、学習済モデルに基づいて、第1テキストをチャンク単位に分割してもよい。
翻訳部は、チャンク単位で学習された第1学習済モデルと、文単位で学習された第2学習済モデルとを含んでもよい。
【0012】
通訳システムは、第1テキスト、第2テキストおよび第3テキストのいずれかから要約を生成する要約部をさらに含んでもよい。
【0013】
別の実施の形態に従うコンピュータが実行する通訳方法は、第1言語の音声に対応する第1テキストを生成するステップと、第1テキストをチャンク単位で第2言語の第2テキストに翻訳するステップと、第2テキストが生成される毎に、第2テキストから音声を合成して出力するステップと、第1テキストを文単位で翻訳した第3テキストを表示出力するステップとを含む。
【0014】
さらに別の実施の形態に従う通訳プログラムは、コンピュータに、第1言語の音声に対応する第1テキストを生成するステップと、第1テキストをチャンク単位で第2言語の第2テキストに翻訳するステップと、第2テキストが生成される毎に、第2テキストから音声を合成して出力するステップと、第1テキストを文単位で翻訳した第3テキストを表示出力するステップとを実行させる。
【発明の効果】
【0015】
本発明によれば、より良好なコミュニケーションを実現するための新たなソリューションを提供できる。
【図面の簡単な説明】
【0016】
【
図1】本実施の形態に従う通訳システムの全体構成例を示す模式図である。
【
図2】本実施の形態に従う情報処理装置のハードウェア構成例を示す模式図である。
【
図3】本実施の形態に従う通訳システムの機能構成例を示す模式図である。
【
図4】
図3に示す翻訳モジュールの構成例を示す模式図である。
【
図5】本実施の形態に従う通訳システムの通訳処理の一例を示すタイムチャートである。
【
図6】本実施の形態に従う通訳システムの通訳処理の一例を示すフローチャートである。
【
図7】本実施の形態の変形例に従う通訳システムの全体構成例を示す模式図である。
【
図8】本実施の形態の別の変形例に従う通訳システムの全体構成例を示す模式図である。
【
図9】本実施の形態のさらに別の変形例に従う通訳システムの全体構成例を示す模式図である。
【発明を実施するための形態】
【0017】
本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。
【0018】
[A.全体構成]
本実施の形態に従う通訳システムの全体構成の一例について説明する。
【0019】
図1は、本実施の形態に従う通訳システム1の全体構成例を示す模式図である。
図1を参照して、通訳システム1は、1または複数の発話者2による発話(第1言語)を翻訳し、翻訳結果(第2言語)をテキスト(文字列)および合成音として出力する。より具体的には、通訳システム1は、情報処理装置100と、ディスプレイ10と、マイク12とを含む。
【0020】
情報処理装置100は、マイク12を介して入力される音声信号に基づいて、発話者2による発話を翻訳する。後述するように、情報処理装置100は、必要な処理を実行するために、他のコンピューティングリソースを利用することもある。なお、情報処理装置100には、マイク12を介して音声信号が直接入力されてもよいし、何らかの記録媒体を介して音声信号が入力されるようにしてもよい。
【0021】
ディスプレイ10は、情報処理装置100からの映像信号に従って映像を表示する。ディスプレイ10は、図示しないスピーカを含んでおり、情報処理装置100からの音声信号に従って合成音(翻訳結果を含む)を出力する。なお、スピーカは、ディスプレイ10とは別に設けられていてもよい。
【0022】
例えば、ディスプレイ10は、発話者2を撮像した画像16と、翻訳結果のテキストを示す画像18とを表示するようにしてもよい。出力される合成音は、発話者2と同じ性別の声質であってもよいし、発話者2とは異なる性別の声質であってもよい。ユーザが聞き取り易いと思われる種類の合成音を任意に選択できてもよい。
【0023】
通訳システム1は、カメラ14を含んでいてもよい。カメラ14からの映像信号は情報処理装置100に入力されて、ディスプレイ10に表示されてもよい。
【0024】
本実施の形態に従う通訳システム1は、典型的には、発話者2による第1言語の発話を翻訳し、第2言語のテキストおよび合成音を出力するが、第1言語と第2言語とは同一の言語であってもよい。例えば、第1言語がある言語の標準語であり、第2言語が同じ言語の非標準語(方言など)であってもよい。本明細書において、「言語」との用語は、通常の意味に加えて、このような同一言語内の相違を含み得る。
【0025】
図1には、講演を行う発話者2を例示するが、発話者2は講演者に限らず、例えば、何らかの会議に参加して発言を行う者であってもよい。
【0026】
[B.ハードウェア構成例]
次に、本実施の形態に従う通訳システム1に含まれる情報処理装置100のハードウェア構成の一例について説明する。
【0027】
図2は、本実施の形態に従う情報処理装置100のハードウェア構成例を示す模式図である。情報処理装置100は、例えば、汎用的なコンピュータを用いて実現できる。
【0028】
図2を参照して、情報処理装置100は、主要なハードウェアコンポーネントとして、CPU(central processing unit)102と、GPU(graphics processing unit)104と、主メモリ106と、入力デバイス108と、ネットワークインターフェイス(I/F:interface)110と、ストレージ112と、入力インターフェイス122と、出力インターフェイス124と、光学ドライブ126とを含む。これらのコンポーネントは、内部バス130を介して互いに接続される。
【0029】
CPU102および/またはGPU104は、通訳システム1の実現に必要な処理を実行するプロセッサである。CPU102およびGPU104は、複数個配置されてもよいし、複数のコアを有していてもよい。
【0030】
主メモリ106は、プロセッサ(CPU102および/またはGPU104)が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に保持(あるいは、キャッシュ)する記憶領域であり、例えば、DRAM(dynamic random access memory)やSRAM(static random access memory)などの揮発性メモリなどで構成される。
【0031】
入力デバイス108は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。
【0032】
ネットワークインターフェイス110は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータをやり取りする。ネットワークインターフェイス110としては、例えば、イーサネット(登録商標)、無線LAN(local area network)、Bluetooth(登録商標)などの任意の通信方式を採用できる。
【0033】
入力インターフェイス122は、マイク12およびカメラ14からの信号(音声信号および映像信号)を受け付ける。
【0034】
出力インターフェイス124は、ディスプレイ10へ信号(映像信号および音声信号)を出力する。
【0035】
光学ドライブ126は、CD-ROM(compact disc read only memory)、DVD(digital versatile disc)などの光学ディスク128に格納されている情報を読出して、内部バス130を介して他のコンポーネントへ出力する。光学ディスク128は、非一過的(non-transitory)な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ126が光学ディスク128からプログラムを読み出して、ストレージ112などにインストールすることで、コンピュータが情報処理装置100として機能するようになる。したがって、本発明の主題は、ストレージ112などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク128などの記録媒体でもあり得る。
【0036】
図2には、非一過的な記録媒体の一例として、光学ディスク128などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、MO(magneto-optical disk)などの光磁気記録媒体を用いてもよい。
【0037】
ストレージ112は、コンピュータを情報処理装置100として機能させるために必要なプログラム(通訳プログラム)およびデータを格納する。ストレージ112は、例えば、ハードディスク、SSD(solid state drive)などの不揮発性記憶装置で構成される。
【0038】
より具体的には、ストレージ112は、図示しないOS(operating system)の他、音声認識プログラム114と、翻訳プログラム116と、音声合成プログラム118と、学習済モデル120とを格納している。
【0039】
音声認識プログラム114は、入力される音声信号を認識してテキストを出力するためのコンピュータ読取可能な命令を含む。
【0040】
翻訳プログラム116は、入力されるテキストを翻訳して別の言語のテキストを出力するためのコンピュータ読取可能な命令を含む。
【0041】
音声合成プログラム118は、入力されるテキストから音声を合成するためのコンピュータ読取可能な命令を含む。
【0042】
学習済モデル120は、音声認識プログラム114が音声認識をするために参照するデータと、翻訳プログラム116が翻訳をするために参照するデータと、音声合成プログラム118が音声を合成するために参照するデータとを含む。
【0043】
本明細書において、通訳プログラムは、少なくとも、音声認識プログラム114と、翻訳プログラム116と、音声合成プログラム118とを含む。
【0044】
プロセッサ(CPU102および/またはGPU104)がプログラム(通訳プログラム)を実行する際に必要となるライブラリや機能モジュールの一部を、OSが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、OSの実行環境下にインストールされることで、目的の処理を実現できる。さらに、所定のライセンスの下で利用が許諾されている汎用的なライブラリまたは機能モジュールを用いるようにしてもよい。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。
【0045】
また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバなどからダウンロードすることで配布されてもよい。
【0046】
図2には、単一のコンピュータを用いて情報処理装置100を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、通訳システム1を実現するために必要な処理を実行するようにしてもよい。
【0047】
プロセッサ(CPU102および/またはGPU104)がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路(hard-wired circuit)を用いて実現してもよい。例えば、ASIC(application specific integrated circuit)やFPGA(field-programmable gate array)などを用いて実現してもよい。
【0048】
当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置100を実現できるであろう。
【0049】
[C.機能構成例]
次に、本実施の形態に従う通訳システム1が実行する必要を実現するための機能構成の一例について説明する。
【0050】
図3は、本実施の形態に従う通訳システム1の機能構成例を示す模式図である。
図3に示す各モジュールは、情報処理装置100のプロセッサ(CPU102および/またはGPU104)がプログラムを実行することで実現されてもよい。
【0051】
図3を参照して、通訳システム1は、機能構成として、音声認識モジュール150と、翻訳モジュール152と、音声合成モジュール154と、要約モジュール156と、表示制御モジュール158とを含む。
【0052】
音声認識モジュール150は、第1言語の音声を示す音声信号の入力を受けて、入力された第1言語の音声に対応する第1言語のテキスト160を逐次生成する。音声認識モジュール150は、音声認識のための学習済モデル(図示しない)を参照することで、入力される音声に対応するテキスト160を生成してもよい。
【0053】
翻訳モジュール152は、入力される第1言語のテキスト160をチャンク単位で翻訳したテキスト162(第2言語)を生成する。すなわち、翻訳モジュール152は、第1言語のテキスト160をチャンク単位で第2言語のテキスト162に翻訳する。
【0054】
本明細書において、「チャンク」は、何らかの意味をもつ1または複数の単語からなる集合(連続する1または複数の単語)を意味する。そのため、チャンク単位は、何らかの意味をもつ1または複数の単語からなる集合の単位に相当する。1文は、1または複数のチャンクを含む。言い換えれば、1文は、1または複数のチャンクに分割できる。チャンクは、フレーズと類似している場合もある。
【0055】
チャンク単位で翻訳するために、チャンク単位で機械学習した学習済モデルを予め用意してもよい。あるいは、入力されるテキストをチャンク単位に分割するための学習済モデルを用意するとともに、チャンク単位に分割されたテキストを任意の単位で機械学習した学習済モデルに入力するようにしてもよい。なお、チャンクに関しては、特許文献1なども参照されたい。
【0056】
図4は、
図3に示す翻訳モジュール152の構成例を示す模式図である。
図4(A)には、チャンク単位および文単位のそれぞれに応じた翻訳モデルを用意する例を示し、
図4(B)には、文およびチャンクを検出するための検出エンジンを用意する例を示す。
【0057】
図4(A)を参照して、翻訳モジュール152は、チャンク単位で学習された翻訳モデル1521と、文単位で学習された翻訳モデル1522とを含む。翻訳モデル1521は、入力される第1言語のテキスト160に対して、チャンク単位で翻訳したテキスト162(第2言語)を生成する。一方、翻訳モデル1522は、入力される第1言語のテキスト160に対して、文単位で翻訳したテキスト166(第2言語)を生成する。
【0058】
図4(A)に示す構成例において、翻訳モジュール152は、チャンク単位で学習された翻訳モデル1521(第1学習済モデル)と、文単位で学習された翻訳モデル1522(第2学習済モデル)とを含む。
【0059】
図4(B)を参照して、翻訳モジュール152は、入力されるテキストを文単位およびチャンク単位でそれぞれ区切るための文/チャンク検出モデル1523と、翻訳モデル1524とを含む。文/チャンク検出モデル1523は、入力される第1言語のテキスト160をチャンク単位に分割したテキスト172(第1言語)を生成するとともに、入力される第1言語のテキスト160を文単位に分割したテキスト174(第1言語)を生成する。
【0060】
図4(B)に示す構成例において、翻訳モジュール152は、文/チャンク検出モデル1523(学習済モデル)に基づいて、第1言語のテキスト160をチャンク単位に分割する。
【0061】
翻訳モデル1524は、チャンク単位のテキスト172(第1言語)からチャンク単位のテキスト162(第2言語)を生成し、文単位のテキスト174(第1言語)から文単位のテキスト166(第2言語)を生成する。なお、
図4(B)には、説明の便宜上、2つの翻訳モデル1524を描いているが、実際には共通の翻訳モデル1524を用意してもよい。
【0062】
再度
図3を参照して、翻訳モジュール152は、入力される第1言語のテキスト160を文単位で翻訳したテキスト166(第2言語)を生成するようにしてもよい。
【0063】
音声合成モジュール154は、翻訳モジュール152からチャンク単位で生成される第2言語のテキスト162に基づいて、対応する合成音164(第2言語)を生成する。すなわち、音声合成モジュール154は、第2言語のテキスト162が生成される毎に、テキスト162から音声を合成して出力する。音声合成モジュール154は、任意の話速で合成音を出力できる。
【0064】
要約モジュール156は、翻訳モジュール152からチャンク単位で生成される第2言語のテキスト162に基づいて、要約されたテキスト168(第2言語)を生成する。すなわち、要約モジュール156は、1または複数のテキスト162(第2言語)から文単位の要約を生成する。なお、要約モジュール156は、1文毎ではなく、複数の文毎に要約を生成してもよい。
【0065】
あるいは、要約モジュール156は、音声認識モジュール150が出力する第1言語のテキスト160に基づいて、要約されたテキスト(第1言語)を生成するようにしてもよい。この場合、要約モジュール156が生成した第1言語の要約は、翻訳モジュール152に入力されて、要約されたテキスト168(第2言語)が生成されてもよい。
【0066】
さらにあるいは、要約モジュール156は、翻訳モジュール152が出力する文単位で翻訳した第2言語のテキスト166に基づいて、要約されたテキスト168(第2言語)を生成してもよい。
【0067】
表示制御モジュール158は、第2言語への翻訳結果であるテキストの表示を制御する。表示制御モジュール158は、翻訳モジュール152から文単位で生成される第2言語のテキスト166を示す画像170をディスプレイ10に表示してもよいし、要約モジュール156から生成される要約されたテキスト168を示す画像170をディスプレイ10に表示してもよい。このように、表示制御モジュール158は、第1言語のテキスト160を文単位で翻訳または要約したテキスト(第3テキスト:テキスト166またはテキスト168)を示す画像170を表示出力する。
【0068】
音声合成モジュール154は、翻訳モジュール152からチャンク単位で生成される第2言語のテキストに基づいて、対応する合成音を生成するので、(1文が複数のチャンクを含む場合には)1文すべての翻訳結果が入力される前に、チャンク単位で合成音を出力できる。そのため、発話者2による発話の翻訳結果を示す合成音をより少ない遅れ時間で聞くことができる。また、文単位で翻訳結果または要約結果がディスプレイ10に表示されるので、1文毎に内容を視覚的に把握できる。
【0069】
このように、ユーザは、発話者2が話した内容をより少ない遅れ時間で聴覚的に理解できるとともに、発話者2が話した内容を1文毎により確実に視覚的に把握できる。このような聴覚的および視覚的に翻訳結果を提供することで、発話者2による発言をより自然に理解できる。
【0070】
[D.通訳処理例]
次に、本実施の形態に従う通訳システム1の通訳処理の一例について説明する。
【0071】
図5は、本実施の形態に従う通訳システム1の通訳処理の一例を示すタイムチャートである。
図5を参照して、発話者2が第1言語で発話したとする。この発話に対応する第1言語のテキスト160が逐次生成される。
図5に示す例では、テキスト160は、3つのチャンク(3つのテキスト172-1~172-3)を含む。
【0072】
テキスト160に含まれる1番目のチャンク(テキスト172-1)に対応して、翻訳された第2言語のテキスト162-1が生成される。すると、生成されたテキスト162-1に対応する合成音164-1の出力が開始される。
【0073】
その後、テキスト160に含まれる2番目のチャンク(テキスト172-2)に対応して、翻訳された第2言語のテキスト162-2が生成される。すると、生成されたテキスト162-2に対応する合成音164-2の出力が開始される。
【0074】
さらにその後、テキスト160に含まれる3番目のチャンク(テキスト172-3)に対応して、翻訳された第2言語のテキスト162-3が生成される。すると、生成されたテキスト162-2に対応する合成音164-3の出力が開始される。
【0075】
第2言語のテキスト162-3が生成されると、入力されたテキスト160を文単位で翻訳した第2言語のテキスト166(第2言語)、および/または、要約されたテキスト168(第2言語)も生成されるので、合成音164-3の生成に対応して、テキスト166またはテキスト168を示す画像170が表示出力される。
【0076】
なお、発話者2の発話の長さと合成音が出力される時間とは一致しないこともあるので、発話者2の発話に対して、合成音の出力の遅延が蓄積しないように、合成音の話速を通常の話速より速く設定してもよい。すなわち、音声合成モジュール154は、通常の話速より早くなるように、第2言語のテキスト162から合成音を生成してもよい。通常の話速より早くなるようにとは、発話者2が同一のテキストを発話する時間より短い時間で合成音の再生が終了することを意味する。なお、合成音の話速は予め設定しておいてもよいし、合成音の出力の遅延が蓄積した場合に限って、合成音の話速を速くするようにしてもよい。
【0077】
また、テキスト166またはテキスト168を示す画像170を表示出力するタイミングは、1文に含まれる最終のチャンク(
図5に示す例では、テキスト172-3)に対応する合成音164-3の出力が開始したタイミング(時刻t1)、または、合成音164-3の出力が完了したタイミング(時刻t2)としてもよい。
【0078】
すなわち、表示制御モジュール158は、第1言語のテキスト160に含まれる文の最終のチャンクに対応する合成音の出力が完了したタイミングで、テキスト(テキスト166またはテキスト168)を示す画像170を表示出力してもよい。あるいは、表示制御モジュール158は、第1言語のテキスト160に含まれる文の最終のチャンクに対応する合成音の出力が開始されるタイミングで、テキスト(テキスト166またはテキスト168)を示す画像170を表示出力してもよい。
【0079】
画像170を出力するタイミングを調整することで、入力された1文に対応するすべての合成音が出力される前に、テキスト166またはテキスト168を示す画像170が表示されることになる違和感を軽減できる。
【0080】
[E.処理手順]
次に、本実施の形態に従う通訳システム1の通訳処理の一例について説明する。
【0081】
図6は、本実施の形態に従う通訳システム1の通訳処理の一例を示すフローチャートである。
図6に示す各ステップは、情報処理装置100のプロセッサ(CPU102および/またはGPU104)がプログラムを実行することで実現されてもよい。
【0082】
図6を参照して、情報処理装置100は、入力される音声信号から第1言語の音声に対応する第1言語のテキスト160を逐次生成する(ステップS1)。逐次生成した第1言語のテキスト160に含まれるチャンクを検出すると(ステップS2においてYES)、情報処理装置100は、検出したチャンクに対応する第1言語のテキスト160を翻訳して第2言語のテキスト162を生成する(ステップS3)。すなわち、情報処理装置100は、第1言語のテキスト160をチャンク単位でテキスト162(第2言語)に翻訳する。
【0083】
そして、情報処理装置100は、生成した第2言語のテキスト162に対応する合成音164を生成し(ステップS4)、生成した合成音164を出力する(ステップS5)。すなわち、情報処理装置100は、第2言語のテキスト162が生成される毎に、テキスト162から音声を合成して出力する。
【0084】
逐次生成した第1言語のテキスト160に含まれる文の終わりを検出すると(ステップS6においてYES)、情報処理装置100は、文単位の翻訳結果である第2言語のテキスト166、または、文単位で要約された第2言語のテキスト168を生成する(ステップS7)。そして、情報処理装置100は、合成音164を出力タイミングに連動して、生成したテキストを示す画像170を表示出力する(ステップS8)。すなわち、情報処理装置100は、第1言語のテキスト160を文単位で翻訳または要約したテキスト(テキスト166またはテキスト168)を示す画像170を表示出力する。
【0085】
以下、ステップS1以下の処理が繰り返される。
[F.変形例]
上述した実施の形態については、以下のような様々な変形例が想定される。
【0086】
(f1:外部リソース利用)
上述したように、情報処理装置100単体ではなく、任意のコンピューティングリソースを利用してもよい。
【0087】
図7は、本実施の形態の変形例に従う通訳システム1Aの全体構成例を示す模式図である。
図7を参照して、通訳システム1Aは、情報処理装置100に加えて、情報処理装置100とネットワーク接続されたサーバ200を含む。
【0088】
サーバ200は、通訳システム1Aの通訳処理に必要な一部または全部の処理を実行する。サーバ200が実行する処理は、
図3に示すモジュールの一部または全部であってもよい。サーバ200は、クラウドコンピューティングリソースを用いて実装してもよい。
【0089】
このように、本実施の形態に従う通訳システムは、どのようなコンピューティングリソースを用いて実現してもよい。
【0090】
(f2:オンライン講演)
上述の実施の形態においては、ディスプレイ10に画像を表示しつつ、スピーカから合成音を出力する構成例について説明したが、オンライン講演を行う場合にも利用できる。
【0091】
図8は、本実施の形態の別の変形例に従う通訳システム1Bの全体構成例を示す模式図である。
図8を参照して、通訳システム1Bは、情報処理装置100に加えて、ネットワーク配信するための配信サーバ300を含む。
【0092】
配信サーバ300は、情報処理装置100が出力する翻訳結果(テキスト(文字列)および合成音)に対して、端末装置400がネットワーク30を介してアクセスするための環境を提供する。配信サーバ300は、例えば、Webサーバであって、端末装置400で実行されるブラウザアプリケーションからのアクセスを受け付けるとともに、当該ブラウザアプリケーションに対して翻訳結果を出力する。配信サーバ300は、翻訳結果を含む動画を配信してもよい。
【0093】
あるいは、端末装置400に専用のアプリケーションプログラムをインストールし、配信サーバ300は、当該アプリケーションプログラムからのアクセスを受け付けてもよい。
【0094】
さらに、配信サーバ300は、情報処理装置100が出力する翻訳結果のうち、テキストのみ、あるいは、画像のみを端末装置400に提供するようにしてもよい。例えば、発話者2の講演会にユーザが参加しており、当該会場では、発話者2の発話を翻訳した合成音のみが出力されており、発話者2の発話を翻訳したテキストについてはユーザ自身の端末装置400で確認するといった形態が想定される。
【0095】
(f3:オンライン会議)
上述の実施の形態においては、発話者2が一方的に発話する構成例について説明したが、オンライン会議を行う場合にも利用できる。
【0096】
図9は、本実施の形態のさらに別の変形例に従う通訳システム1Cの全体構成例を示す模式図である。
図9を参照して、通訳システム1Cは、情報処理装置100に加えて、ネットワーク配信するための配信サーバ300を含む。
【0097】
図9を参照して、通訳システム1Cにおいては、第1言語で発話する発話者2-1と、第2言語で発話する発話者2-2とがオンライン会議を行う例を示す。
【0098】
発話者2-1の発話により生成される音声信号は、端末装置400-1からネットワーク30を介して情報処理装置100に送信され、第2言語に翻訳される。翻訳された結果(テキストおよび合成音)は、情報処理装置100から発話者2-2が使用する端末装置400-2へ提供される。
【0099】
同様に、発話者2-2の発話により生成される音声信号は、端末装置400-2からネットワーク30を介して情報処理装置100に送信され、第1言語に翻訳される。翻訳された結果(テキストおよび合成音)は、情報処理装置100から発話者2-1が使用する端末装置400-1へ提供される。
【0100】
このように、発話者2-1および発話者2-2のそれぞれが発話した内容は、翻訳された上で相手方に提供される。この際、上述したような方法で、合成音およびテキストが出力されることになる。
【0101】
[G.利点]
良好なコミュニケーションをとるためには、即応性の高い通訳を行う必要がある。あわせて、通訳の内容が正確であることも求められる。特に、オンライン講演やオンライン会議などのような、オンラインによるコミュニケーションに適した同時通訳が要求されている。
【0102】
文単位の翻訳(通訳)では、発話者2による発話に対して、翻訳結果の提供が遅れることになり、良好なコミュニケーションをとりづらい。また、コミュニケーションをとる際には、相手の表情および口調から感情および情緒をくみ取ることが重要であるが、発話に対して対応する翻訳結果の提供が遅れると、相手の表情と口調とをリンクさせることが難しくなる。なお、同時通訳では、翻訳結果が逐次提供されるので、前に戻って再度翻訳結果を提供し直すようなことは難しい。
【0103】
同時通訳システムは、テキストおよび合成音の両方を同時に出力する点が利点である。一般的な同時通訳システムでは、発話者2の発話を同じ単位で区切り、テキストおよび合成音を出力する。これに対して、本実施の形態に従う通訳システムは、チャンク単位で翻訳されたテキストの合成音を出力する。また、本実施の形態に従う通訳システムは、基本的には文単位で翻訳されたテキストを表示出力する。
【0104】
このようなテキスト出力および合成音出力の単位を異ならせることで、通訳の即時性を提供しつつ、翻訳の正確性も担保できる。これによって、より良好なコミュニケーションを実現できる。
【0105】
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0106】
1,1A,1B,1C 通訳システム、2 発話者、10 ディスプレイ、12 マイク、14 カメラ、16,18,170 画像、30 ネットワーク、100 情報処理装置、102 CPU、104 GPU、106 主メモリ、108 入力デバイス、110 ネットワークインターフェイス、112 ストレージ、114 音声認識プログラム、116 翻訳プログラム、118 音声合成プログラム、120 学習済モデル、122 入力インターフェイス、124 出力インターフェイス、126 光学ドライブ、128 光学ディスク、130 内部バス、150 音声認識モジュール、152 翻訳モジュール、154 音声合成モジュール、156 要約モジュール、158 表示制御モジュール、160,162,166,168,172,174 テキスト、164 合成音、200 サーバ、300 配信サーバ、400 端末装置、1521,1522,1524 翻訳モデル、1523 チャンク検出モデル。