(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022054067
(43)【公開日】2022-04-06
(54)【発明の名称】表示制御装置、表示制御方法および表示制御プログラム
(51)【国際特許分類】
G06F 3/01 20060101AFI20220330BHJP
G06F 3/16 20060101ALI20220330BHJP
【FI】
G06F3/01 510
G06F3/16 650
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2020161052
(22)【出願日】2020-09-25
(71)【出願人】
【識別番号】598057291
【氏名又は名称】株式会社富士通エフサス
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】秋元 浩希
(72)【発明者】
【氏名】中村 勝
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA26
5E555AA76
5E555BA01
5E555BA04
5E555BA87
5E555BB01
5E555BB04
5E555BC04
5E555CA47
5E555CB64
5E555CC19
5E555DA01
5E555DB25
5E555DB41
5E555DC09
5E555DC84
5E555DD07
5E555EA05
5E555EA23
5E555FA00
(57)【要約】
【課題】適切な表示時間で字幕を表示すること。
【解決手段】表示制御装置100は、発話者の音声の入力を受け付けた場合、発話区間における音声の情報を文字列に変換する。表示制御装置100は、発話区間における文字列を基にして、発話者の発音速度を算出する。表示制御装置100は、発音速度を基にして、文字列を表示画面に表示する表示時間を制御する。
【選択図】
図5
【特許請求の範囲】
【請求項1】
発話者の音声の入力を受け付けた場合、発話区間における音声の情報を文字列に変換する変換部と、
前記発話区間における文字列を基にして、前記発話者の発音速度を算出する算出部と、
前記発音速度を基にして、前記文字列を表示画面に表示する表示時間を制御する表示制御部と
を有することを特徴とする表示制御装置。
【請求項2】
前記算出部は、前記発話区間における文字列を基にして、単位時間当たりの単語の数、単位時間当たりの音節の数、または、単位時間当たりの文字の数を、前記発音速度として算出することを特徴とする請求項1に記載の表示制御装置。
【請求項3】
前記変換部は、前記発話区間における第1言語の音声の情報を第1言語の文字列に変換し、前記第1言語の文字列を、第2言語の文字列に変換し、前記表示制御部は、前記第2言語の文字列を前記表示画面に表示することを特徴とする請求項1または2に記載の表示制御装置。
【請求項4】
前記算出部は、前記発話区間における第2言語の文字列を基にして、単位時間当たりの単語の数、単位時間当たりの音節の数、または、単位時間当たりの文字の数を、前記発音速度として算出することを特徴とする請求項3に記載の表示制御装置。
【請求項5】
前記表示制御部は、前記表示画面において、前の発話区間の第1文字列が表示されている場合、今回の発話区間の第2文字列を、前記第1文字列と重複しない前記表示画面の領域に表示させることを特徴とする請求項1~4のいずれか一つに記載の表示制御装置。
【請求項6】
前記表示制御部は、前記第1文字列の表示の特徴とは異なる表示の特徴によって、前記第2文字列を表示することを特徴とする請求項5に記載の表示制御装置。
【請求項7】
前記表示制御部は、前記発音速度が閾値以上である場合に、前記発話者の利用する端末装置の表示画面に、発話の停止を要求する情報を表示することを特徴とする請求項1~6のいずれか一つに記載の表示制御装置。
【請求項8】
コンピュータが実行する表示制御方法であって、
発話者の音声の入力を受け付けた場合、発話区間における音声の情報を文字列に変換し、
前記発話区間における文字列を基にして、前記発話者の発音速度を算出し、
前記発音速度を基にして、前記文字列を表示画面に表示する表示時間を制御する
処理を実行することを特徴とする表示制御方法。
【請求項9】
コンピュータに、
発話者の音声の入力を受け付けた場合、発話区間における音声の情報を文字列に変換し、
前記発話区間における文字列を基にして、前記発話者の発音速度を算出し、
前記発音速度を基にして、前記文字列を表示画面に表示する表示時間を制御する
処理を実行させることを特徴とする表示制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表示制御装置等に関する。
【背景技術】
【0002】
近年、働き方改革や感染症の対策として、Web会議システムや、テレビ会議システム等の会議システムが導入されている。会議システムでは、各利用者の端末装置をインターネット経由で接続し、会議システムに参加している各利用者の映像や、音声を、各利用者の端末装置で表示、再生する制御を行う。
【0003】
なお、会議システムにそれぞれ異なる言語を話す利用者が存在する場合には、翻訳機能を利用し、利用者の端末装置に翻訳した字幕を表示する従来技術がある。この従来技術によれば、英語を話す第1利用者と、日本語を話す第2利用者とが会議システムに参加している場合、第1利用者の発話内容(英語)を日本語に翻訳した字幕を、第2利用者の端末装置に表示させることで、第2利用者をサポートできる。
【0004】
たとえば、従来の会議システムでは、前回のセンテンスの字幕を、今回のセンテンスの字幕に切り替える処理を繰り返すことで、各センテンスの字幕を順番に表示させている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平7-250279号公報
【特許文献2】特開2009-098727号公報
【特許文献3】特開2001-188649号公報
【特許文献4】特開平5-244504号公報
【特許文献5】特開平7-087472号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来技術では、適切な表示時間で字幕を表示することができないという問題がある。
【0007】
翻訳システムの性能向上によって、通常のペースでの会話では、ほぼリアルタイムに会話の内容が翻訳されて、字幕として表示画面に表示されが、利用者の会話のペースが速い場合には、他の利用者が表示中の字幕を読み終わる前に、次の字幕に切り替わってしまう場合があった。
【0008】
また、各利用者が同一の言語で会話する場合でも、各種の目的によって、翻訳を行わないで、会話内容の字幕を表示画面に表示する場合もあるが、このような場合でも、利用者が早口である場合には、他の利用者が字幕を読み終わる前に、次の字幕が切り替わってしまう。
【0009】
1つの側面では、本発明は、適切な表示時間で字幕を表示することができる表示制御装置、表示制御方法および表示制御プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
第1の案では、表示制御装置は、変換部と、算出部と、表示制御部とを有する。変換部は、発話者の音声の入力を受け付けた場合、発話区間における音声の情報を文字列に変換する。算出部は、発話区間における文字列を基にして、発話者の発音速度を算出する。表示制御部は、発音速度を基にして、文字列を表示画面に表示する表示時間を制御する。
【発明の効果】
【0011】
適切な表示時間で字幕を表示することができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、本実施例に係る会議システムの構成を示す図である。
【
図2】
図2は、本実施例に係る表示制御装置の処理を説明するための図(1)である。
【
図3】
図3は、本実施例に係る表示制御装置の処理を説明するための図(2)である。
【
図4】
図4は、本実施例に係る表示制御装置の処理を説明するための図(3)である。
【
図5】
図5は、本実施例に係る表示制御装置の構成を示す機能ブロック図である。
【
図6】
図6は、映像バッファのデータ構造の一例を示す図である。
【
図7】
図7は、第1テキストテーブルのデータ構造の一例を示す図である。
【
図8】
図8は、第2テキストテーブルのデータ構造の一例を示す図である。
【
図9】
図9は、本実施例に係る表示制御装置の処理手順を示すフローチャート(1)である。
【
図10】
図10は、本実施例に係る表示制御装置の処理手順を示すフローチャート(2)である。
【
図11】
図11は、実施例の表示制御装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0013】
以下に、本願の開示する表示制御装置、表示制御方法および表示制御プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例0014】
本実施例に係る会議システムの構成について説明する。
図1は、本実施例に係る会議システムの構成を示す図である。
図1に示すように、この会議システムは、端末装置10a,10bと、表示制御装置100とを有する。
【0015】
端末装置10a,10bは、ネットワーク50を介して、表示制御装置100に接続される。
図1に示す例では、端末装置10a,10bを示すが、この会議システムは、他の端末装置を含んでいてもよい。
【0016】
端末装置10a,10bは、会議システムに参加する利用者が使用する端末装置であり、PC(Personal Computer)、ノートPC、タブレット端末、スマートフォン等に対応する。以下の説明では、適宜、端末装置10a,10bをまとめて、端末装置10と表記する。端末装置10は、カメラ、マイク、スピーカ、ディスプレイ等を備える。
【0017】
端末装置10は、カメラおよびマイクを用いて、利用者の映像情報を生成し、映像情報を、表示制御装置100に送信する。本実施例では、映像情報に利用者の音声情報が含まれるものとする。また、端末装置10は、表示制御装置100から、映像情報を受信し、スピーカ、ディスプレイを用いて、映像情報を出力する。
【0018】
ここで、一人の利用者が、一つの端末装置10を用いて、会議システムに参加してもよいし、複数の利用者が、一つの端末装置10を用いて、会議システムに参加してもよい。
【0019】
表示制御装置100は、ネットワーク50を介して、会議システムに参加する利用者の端末装置10を接続し、映像情報や音声情報に基づくテロップ(字幕)を、端末装置10に表示する。たとえば、表示制御装置100は、端末装置10aから受信する映像情報を、端末装置10bに送信して、表示させる。表示制御装置100は、映像情報に含まれる音声情報を基にしてテロップを生成し、生成したテロップを端末装置10bに送信して表示させる。
【0020】
一方、表示制御装置100は、端末装置10bから受信する映像情報を、端末装置10aに送信して表示させる。表示制御装置100は、映像情報に含まれる音声情報を基にしてテロップを生成し、生成したテロップを端末装置10aに送信して表示させる。
【0021】
なお、一例として、端末装置10aの利用者が発話する言語と、端末装置10bの利用者が発話する言語とが異なるものとする。たとえば、端末装置10aの利用者は、英語で会議システムに参加し、端末装置10bの利用者は、日本語で会議システムに参加するものとする。このため、表示制御装置100は、テロップを生成する前に、翻訳処理を実行し、他言語に翻訳したテロップを、端末装置10に表示させる。
【0022】
すなわち、表示制御装置100は、端末装置10aの利用者は「英語」で会話を行うため、端末装置10bには、英語を日本語に翻訳したテロップを表示する。表示制御装置100は、端末装置10bの利用者は「日本語」で会話を行うため、端末装置10aには、日本語を英語に翻訳したテロップを表示する。
【0023】
ここで、本実施例に係る表示制御装置100は、端末装置10にテロップを表示する場合に、利用者の発音速度を基にして、テロップの表示時間を調整する。たとえば、表示制御装置100は、利用者の発音速度が、所定の発音速度よりも早い場合には、テロップを長めに表示させることで、利用者がテロップを読み終わる前に、次のテロップを表示してしまうことを抑止する。
【0024】
図2~
図4は、本実施例に係る表示制御装置の処理を説明するための図である。
図2について説明する。
図2では、端末装置10bの表示画面11bを用いて説明する。表示画面11bには、端末装置10a側の利用者12a,12b,12cが表示されている。たとえば、利用者12cが英語で発話すると、表示制御装置100は、英語を日本語に翻訳したテロップ13aを端末装置10b(の表示画面11b)に表示させる。また、表示制御装置100は、利用者12cの発音速度を算出し、発音速度が標準の発音速度である場合には、予め設定した標準の表示時間によって、テロップ13aを表示させる。
【0025】
続いて、利用者12cが次のセンテンスを、英語で発話すると、表示制御装置100は、英語を日本語に翻訳したテロップ13bを端末装置10bに表示させる。また、表示制御装置100は、利用者12cの発音速度を算出し、発音速度が標準の発音速度である場合には、予め設定した標準の表示時間によって、テロップ13bを表示させる。
【0026】
図3について説明する。
図3では、端末装置10bの表示画面11bを用いて説明する。表示画面11bには、端末装置10a側の利用者12a,12b,12cが表示されている。たとえば、利用者12cが英語で発話すると、表示制御装置100は、英語を日本語に翻訳したテロップ13cを端末装置10bに表示させる。また、表示制御装置100は、利用者12cの発音速度を算出し、発音速度が標準の発音速度よりも早い発音速度である場合には、標準の表示時間に、遅延時間を加算した表示時間によって、テロップ13cを表示させる。
【0027】
続いて、利用者12cが次のセンテンスを英語で発話すると、表示制御装置100は、英語を日本語に翻訳したテロップ13dを表示画面11bに表示させる。ここで、表示時間を延長したことにより、前回のセンテンスのテロップ13cが、表示画面11bに表示されている場合には、表示制御装置100は、テロップ13cの表示時間が終了するまで、テロップ13cの下に、テロップ13dを表示させる制御を行う。
【0028】
図4について説明する。
図4の表示画面11aを、端末装置10aの表示画面とする。表示制御装置100は、利用者の発音速度を算出し、発音速度が、限界発音速度よりも早い発音速度である場合には、利用者の端末装置10に、発話の停止を要求する情報を表示する。たとえば、端末装置10aの利用者12cの発音速度が、限界発音速度よりも早い発音速度である場合には、表示画面11aに、停止アイコン14を表示させる。これによって、利用者が早口になりすぎることを抑止で得きる。
【0029】
上記のように、本実施例に係る表示制御装置100は、会話の内容をテロップに変換して表示画面に表示させる際に、利用者の発音速度が標準的な発音速度よりも早い場合に、テロップの表示時間を標準の表示時間よりも長めに表示させるため、テロップの表示時間を最適な時間に設定することができる。
【0030】
また、表示制御装置100は、テロップを表示させる場合に、前回のテロップが表示されている場合には、前回のテロップの表示時間が終わるまで、前回のテロップの下に、今回のテロップを表示させる。これによって、利用者がテロップを読み終わる前に、次のテロップに切り替わってしまうことを抑止できる。
【0031】
また、表示制御装置100は、利用者の発音速度が、限界発音速度よりも早い発音速度である場合には、表示画面に、停止アイコンを表示させる。これによって、利用者が早口になりすぎることを抑止できる。
【0032】
次に、本実施例に係る表示制御装置100の構成について説明する。
図5は、本実施例に係る表示制御装置の構成を示す機能ブロック図である。
図5に示すように、この表示制御装置100は、通信部110と、入力部120と、出力部130と、記憶部140と、制御部150とを有する。
【0033】
通信部110は、ネットワーク50を介して、端末装置10との間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。
【0034】
入力部120は、各種のデータを表示制御装置100の制御部150に入力するための入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
【0035】
出力部130は、制御部150から出力される情報を表示する表示装置である。出力部130は、有機EL(Electro Luminescence)ディスプレイ、液晶ディスプレイ、タッチパネル等に対応する。
【0036】
記憶部140は、映像バッファ141、第1テキストテーブル142、第2テキストテーブル143を有する。記憶部140は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
【0037】
映像バッファ141は、端末装置10から送信される映像情報を格納するバッファである。
図6は、映像バッファのデータ構造の一例を示す図である。
図6に示すように、映像バッファ141は、端末識別情報と、映像情報とを対応付ける。端末識別情報は、端末装置10を識別する情報である。端末識別情報10aの端末装置を、端末装置10aと表記する。端末識別情報10bの端末装置を、端末装置10bと表記する。
【0038】
映像情報は、端末装置10から受信した映像情報である。映像情報には、利用者の音声情報が含まれるものとする。
【0039】
図5の説明に戻る。第1テキストテーブル142は、映像情報に含まれる音声情報から抽出される各発話区間のテキストデータを保持するテーブルである。本実施例では、音声情報から抽出された文字列であって、翻訳前の文字列の情報を、「第1テキストデータ」と表記する。
【0040】
図7は、第1テキストテーブルのデータ構造の一例を示す図である。
図7に示すように、この第1テキストテーブル142は、端末識別情報と、第1テキストデータとを対応付ける。端末識別情報に関する説明は、
図6の端末識別情報に関する説明と同様である。第1テキストデータは、翻訳前の文字列のデータである。第1テキストデータは、発話区間毎に存在するものとする。
【0041】
発話区間は、発話の開始時刻から、発話の終了時刻までの区間を示す。たとえば、発話区間の開始時刻は、音声情報の強度が閾値以上となった時刻とする。発話区間の終了時刻については、発話区間の開始時刻後、音声情報の強度が閾値未満となってから、かかる強度が閾値未満となる状況が、一定時間連続した場合に、音声情報の強度が最初に閾値未満となった時刻を、発話区間の終了時刻とする。
【0042】
図5の説明に戻る。第2テキストテーブル143は、第1テキストデータを翻訳した文字列の情報である。本実施例では、第1テキストデータを翻訳した文字列の情報を「第2テキストデータ」と表記する。
【0043】
図8は、第2テキストテーブルのデータ構造の一例を示す図である。
図8に示すように、この第2テキストテーブル143は、端末識別情報と、第2テキストデータとを対応付ける。端末識別情報に関する説明は、
図6の端末識別情報に関する説明と同様である。第2テキストデータは、第1テキストデータを翻訳したデータである。第2テキストデータは、発話区間毎に存在するものとする。
【0044】
図5の説明に戻る。制御部150は、受信部151と、変換部152と、算出部153と、表示制御部154とを有する。制御部150は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部150は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
【0045】
受信部151は、端末装置10から映像情報を受信し、受信した映像情報を、映像バッファ141に登録する。受信部151は、端末装置10aから受信した映像情報を、識別情報「10a」と対応付けて、映像バッファ141に登録する。受信部151は、端末装置10bから受信した映像情報を、識別情報「10b」と対応付けて、映像バッファ141に登録する。
【0046】
変換部152は、映像バッファ141に登録された映像情報から音声情報を抽出し、文字列に変換する処理部である。たとえば、変換部152は、発話区間を特定する処理、第1変換処理、第2変換処理を実行する。以下の説明では、映像情報から抽出した音声情報を、単に、音声情報と表記する。
【0047】
変換部152が実行する「発話区間を特定する処理」について説明する。変換部152は、映像情報から音声情報を抽出し、音声情報の強度を時系列に走査する。変換部152は、音声情報の強度が閾値以上となる時刻を、発話区間の開始時刻として特定する。変換部152は、発話区間の開始時刻後、音声情報の強度が閾値未満となってから、かかる強度が閾値未満となる状況が、一定時間連続した場合に、音声情報の強度が最初に閾値未満となった時刻を、発話区間の終了時刻とする。
【0048】
変換部152は、上記処理を繰り返し実行することで、音声情報から、発話区間を特定する処理を繰り返し実行し、順次、発話区間を特定する。変換部152は、開始時刻から終了時刻までの時間が閾値Th未満となる発話区間を、発話区間から除外してもよい。
【0049】
変換部152が実行する「第1変換処理」について説明する。変換部152は、発話区間の音声情報と、文字列変換テーブル(図示略)とを比較して、発話区間に含まれる音声情報を、文字列に変換する。たとえば、文字列変換テーブルは、音素の特徴と、文字とを対応付けたテーブルである。
【0050】
変換部152は、音声情報の言語が英語の場合には、音素の特徴と、英語の文字とを対応付けた第1文字列変換テーブルを用いて、文字列に変換する。変換部152は、音声情報の言語が日本語の場合には、音素の特徴と、日本語の文字とを対応付けた第2文字列変換テーブルを用いて、文字列に変換する。変換部152が、音声情報に対して、第1文字列変換テーブルを用いるか、第2文字列変換テーブルを用いるかは、予め設定しておいてもよいし、音声情報の特徴から、変換部152が、自動で判定してもよい。
【0051】
以下の説明では、端末装置10aから受信した映像情報に含まれる音声情報であって、英語の会話を含む音声情報を、「英語音声情報」と表記する。端末装置10bから受信した映像情報に含まれる音声情報であって、日本語の会話を含む音声情報を、「日本語音声情報」と表記する。
【0052】
変換部152は、発話区間における英語音声情報と、第1文字列変換テーブルとを比較して、発話区間の英語音声情報を、英語の文字列に変換することで、第1テキストデータ(英語)を生成する。変換部152は、端末識別情報「10a」と対応付けて、第1テキストデータを第1テキストテーブル142に登録する。変換部152は、順次、特定される発話区間の英語音声情報に対して、上記処理を繰り返し実行する。
【0053】
変換部152は、発話区間における日本語音声情報と、第2文字列変換テーブルとを比較して、発話区間の日本語音声情報を、日本語の文字列に変換することで、第1テキストデータ(日本語)を生成する。変換部152は、端末識別情報「10b」と対応付けて、第1テキストデータを第1テキストテーブル142に登録する。変換部152は、順次、特定される発話区間の日本語音声情報に対して、上記処理を繰り返し実行する。
【0054】
変換部152が実行する「第2変換処理」について説明する。変換部152は、第1テキストテーブル142に格納された発話区間毎の第1テキストデータを、翻訳モデルに入力することで、翻訳後の第2テキストデータを生成する。翻訳モデルは、学習データによって、予め、機械学習されたNN(Neural Network)等のモデルに対応する。
【0055】
変換部152は、第1テキストデータ(英語)を、第2テキストデータ(日本語)に変換する場合には、英語文字列を、日本語文字列に変換する第1翻訳モデルを用いる。変換部152は、端末識別情報「10a」と対応付けて、第2テキストデータを、第2テキストテーブル143に登録する。なお、変換部152は、第2テキストデータ(日本語)に対応する発話区間の時間を関連付けて登録するものとする。
【0056】
変換部152は、第1テキストデータ(英語)について、上記の処理を繰り返し実行し、順次、第2テキストデータ(日本語)を生成する。
【0057】
変換部152は、第1テキストデータ(日本語)を、第2テキストデータ(英語)に変換する場合には、日本語文字列を、英語文字列に変換する第2翻訳モデルを用いる。変換部152は、端末識別情報「10b」と対応付けて、第2テキストデータを、第2テキストテーブル143に登録する。なお、変換部152は、第2テキストデータ(英語)に対応する発話区間の時間を関連付けて登録するものとする。
【0058】
変換部152は、各第1テキストデータ(日本語)について、上記の処理を繰り返し実行し、順次、第2テキストデータ(英語)を生成する。
【0059】
図5の説明に戻る。算出部153は、利用者(発話者)の発音速度を算出する処理部である。算出部153は、第2テキストテーブル143の、第2テキストデータに含まれる音素(あるいは、単語、文字、以下同様)の数をカウントし、カウントした音素の数を、発話区間の時間で除算することで、発音速度を算出する。算出部153は、端末識別情報と、第2テキストデータと、発音速度とを対応付けて、表示制御部154に出力する。
【0060】
算出部153は、第2テキストデータ(日本語)に含まれる音素の数をカウントし、カウントした音素の数を、発話区間の時間で除算することで、端末装置10aの利用者の発音速度を算出する。算出部153は、端末識別情報「10a」と、第2テキストデータ(日本語)と、発音速度とを対応付けて、表示制御部154に出力する。すなわち、英語で発話する利用者の発音速度は、翻訳後の第2テキストデータ(日本語)によって算出される。
【0061】
算出部153は、各第2テキストデータ(日本語)について、上記処理を繰り返し、端末識別情報「10a」と、第2テキストデータ(日本語)と、発音速度とを対応付けて、表示制御部154に出力する。算出部153は、各発音速度を保持しておき、発音速度の平均値を算出して、表示制御部154に出力してもよい。
【0062】
算出部153は、第2テキストデータ(英語)に含まれる音素の数をカウントし、カウントした音素の数を、発話区間の時間で除算することで、端末装置10bの利用者の発音速度を算出する。算出部153は、端末識別情報「10b」と、第2テキストデータ(英語)と、発音速度とを対応付けて、表示制御部154に出力する。すなわち、日本語で発話する利用者の発音速度は、翻訳後の第2テキストデータ(英語)によって算出される。
【0063】
算出部153は、各第2テキストデータ(英語)について、上記処理を繰り返し、端末識別情報「10b」と、第2テキストデータ(英語)と、発音速度とを対応付けて、表示制御部154に出力する。算出部153は、各発音速度を保持しておき、発音速度の平均値を算出して、表示制御部154に出力してもよい。
【0064】
表示制御部154は、映像バッファ141に格納された映像情報を、端末装置10に送信して表示させる処理部である。表示制御部154は、端末識別情報「10a」に対応する映像情報を、端末装置10bに送信して表示させる。表示制御部154は、端末識別情報「10b」に対応する映像情報を、端末装置10aに送信して表示させる。
【0065】
また、表示制御部154は、発話区間ごとの第2テキストデータをテロップ(字幕)として、端末装置10に表示させる。表示制御部154は、第2テキストデータに対応付けられた利用者の発音速度(平均の発音速度)を基にして、テロップの表示時間を制御する。表示制御部154は、第2テキストデータ(英語)のテロップを、端末装置10bの表示画面に表示し、第2テキストデータ(日本語)のテロップを、端末装置10aの表示画面に表示する。
【0066】
以下において、表示制御部154がテロップの表示時間を制御する処理の一例について説明する。
【0067】
表示制御部154は、平均の発音速度S
Aが、限界発音速度S
maxよりも大きい場合は、発音速度が速すぎるとして、発話側の端末装置10に、
図4で説明したような停止アイコン14を表示させる。
【0068】
表示制御部154は、平均の発音速度SAが、標準速度St未満である場合には、テロップの表示時間を標準の表示時間Tstに設定する。
【0069】
表示制御部154は、平均の発音速度SAが、標準速度St以上、限界発音速度Smax未満である場合には、標準の表示時間Tstに延長時間Tdを加算した表示時間を、テロップの表示時間に設定する。表示制御部154は、平均の発音速度SAと、標準速度Stとの差分が大きいほど、より大きな延長時間Tdを設定する。たとえば、表示制御部154は、式(1)によって、遅延時間Tdを算出する。標準音節数は、1センテンスに含まれる標準的な音節の数であり、あらかじめ設定される。補正係数は、予め所定の値が設定される。
【0070】
延長時間Td=標準音節数/(平均の発音速度SA-標準速度St)×補正係数・・・(1)
【0071】
表示制御部154は、上記の処理によって、テロップの表示時間を特定し、特定した表示時間だけ、端末装置10にテロップを表示させる。表示制御部154は、順に生成される第2テキストデータのテロップについて、上記処理を繰り返し実行する。
【0072】
ここで、表示制御部154は、今回のテロップを端末装置10の表示画面に表示する際に、前回のテロップの表示時間が経過しておらず、前回のテロップが、表示されている場合には、
図3で説明したように、前回のテロップの下に、今回のテロップを表示させる。
【0073】
表示制御部154は、今回のテロップと、前回のテロップとの違いを分かりやすくするために、前回のテロップの表示とは異なる表示の特徴によって、今回のテロップを表示してもよい。たとえば、表示制御部154は、前回のテロップと、今回のテロップとで、テロップのフォントの大きさや、種類、色等を変更する。表示制御部154は、前回のテロップを表示画面の下端(あるいは上端)に表示し、今回のテロップを表示画面の上端(あるいは下端)に表示してもよい。表示制御部154は、テロップの表示時間が終わりに近づくほど、テロップの透過率を高くし、表示時間の終了時において、テロップを消す制御を行ってもよい。
【0074】
次に、本実施例に係る表示制御装置100の処理手順について説明する。
図9、
図10は、本実施例に係る表示制御装置の処理手順を示すフローチャートである。
図9について説明する。表示制御装置100の受信部151は、端末装置10から映像情報の受信を開始する(ステップS101)。
【0075】
表示制御装置100の変換部152は、測定回数を初期値に設定する(ステップS102)。変換部152は、発話区間を特定する(ステップS103)。変換部152は、発話区間の時間を測定する(ステップS104)。変換部152は、発話区間の時間長が閾値Th以上でない場合には(ステップS105,No)、ステップS103に移行する。
【0076】
一方、変換部152は、発話区間の時間長が閾値Th以上である場合には(ステップS105,Yes)、測定回数に1を加算する(ステップS106)。変換部152は、発話区間の音声情報を基にして第1テキストデータを生成する(ステップS107)。
【0077】
変換部152は、第1テキストデータを翻訳することで、第2テキストデータを生成する(ステップS108)。表示制御装置100の算出部153は、第2テキストデータに含まれる音素の数をカウントする(ステップS109)。
【0078】
算出部153は、音素の数を、発話区間の時間で除算することで、発音時間を算出する(ステップS110)。算出部153は、測定回数を基にして、平均の発音速度S
Aを算出し(ステップS111)、
図10のステップS112に移行する。
【0079】
図10の説明に移行する。表示制御装置100の表示制御部154は、平均の発音速度S
Aが、限界発音速度S
max以上である場合には(ステップS112,Yes)、端末装置10の表示画面に停止アイコンを表示させ(ステップS113)、ステップS121に移行する。
【0080】
一方、表示制御部154は、平均の発音速度SAが、限界発音速度Smax以上でない場合には(ステップS112,No)、平均の発音速度SAが、標準速度St以上であるか否かを判定する(ステップS114)。表示制御部154は、平均の発音速度SAが、標準速度St以上でない場合には(ステップS114,No)、標準の表示時間を、今回のテロップの表示時間に設定し(ステップS115)、ステップS118に移行する。
【0081】
一方、表示制御部154は、平均の発音速度SAが、標準速度St以上となる場合には(ステップS114,Yes)、延長時間を算出する(ステップS116)。表示制御部154は、標準の表示時間に延長時間を加算した時間を、今回のテロップの表示時間に設定する(ステップS117)。
【0082】
表示制御部154は、前回のテロップが表示中でない場合には(ステップS118,No)、今回のテロップを端末装置の表示画面に表示し(ステップS119)、ステップS121に移行する。
【0083】
表示制御部154は、前回のテロップが表示中である場合には(ステップS118,Yes)、端末装置10の表示画面において、前回のテロップの下側に、今回のテロップを表示する(ステップS120)。
【0084】
表示制御部154は、処理を継続する場合には(ステップS121,Yes)、
図9のステップS103に移行する。一方、表示制御部154は、処理を継続しない場合には(ステップS121,No)、処理を終了する。
【0085】
次に、本実施例に係る表示制御装置100の効果について説明する。表示制御装置100は、会話の内容をテロップに変換して表示画面に表示させる際に、発話速度を基にして、テロップを端末装置10の表示画面に表示する表示時間を制御する。たとえば、表示制御装置100は、利用者の発音速度が標準的な発音速度よりも早い場合に、テロップの表示時間を標準の表示時間よりも長めに表示させるため、テロップの表示時間を最適な時間に設定することができる。
【0086】
表示制御装置100は、発話区間における単語の数、あるいは、音節の数を基にして、発音速度を算出する。これによって、発音速度を適切に算出することができる。
【0087】
表示制御装置100は、英語音声情報を、第1テキストデータ(英語)に変換し、第1テキストデータを翻訳した第2テキストデータ(日本語)をテロップとして表示する。また、表示制御装置100は、日本語音声情報を、第1テキストデータ(日本語)に変換し、第1テキストデータを翻訳した第2テキストデータ(英語)をテロップとして表示する。これによって、言語が異なる利用者が会議システムに参加した場合でも、利用者の理解をサポートすることができる。
【0088】
表示制御装置100は、英語で発話した利用者の発音速度を、翻訳後の第2テキストデータ(日本語)の単語数または音節数に応じて算出する。同様に、表示制御装置100は、日本語で発話した利用者の発音速度を、翻訳後の第2テキストデータ(語)の単語数または音節数に応じて算出する。これによって、翻訳後の単語数や、音節数に応じた発音速度を算出することができ、テロップの表示時間をより適切に設定することが可能となる。
【0089】
表示制御装置100は、テロップを表示させる場合に、前回のテロップが表示されている場合には、前回のテロップの表示時間が終わるまで、前回のテロップの下に、今回のテロップを表示させる。これによって、利用者がテロップを読み終わる前に、次のテロップに切り替わってしまうことを抑止できる。なお、表示制御装置100は、前回のテロップと、今回のテロップとが重ならなければ、前回のテロップの下以外の領域に、今回のテロップを表示させてもよい。
【0090】
表示制御装置100は、利用者の発音速度が、限界発音速度よりも早い発音速度である場合には、表示画面に、停止アイコンを表示させる。これによって、利用者が早口になりすぎることを抑止できる。
【0091】
なお、表示制御装置100は、端末装置10の表示画面に表示されているテロップの数が、所定数以上である場合に、停止アイコンを、端末装置10に表示する制御を行ってもよい。
【0092】
表示制御装置100は、発話区間に含まれる単語の数、音節の数を基にして、発音速度を算出したが、発話区間に含まれる文字の数を基にして、発音速度を算出してもよい。
【0093】
次に、上記実施例に示した表示制御装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。
図11は、実施例の表示制御装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0094】
図11に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る読み取り装置204と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
【0095】
ハードディスク装置207は、受信プログラム207a、変換プログラム207b、算出プログラム207c、表示制御プログラム207dを有する。また、CPU201は、各プログラム207a~207dを読み出してRAM206に展開する。
【0096】
受信プログラム207aは、受信プロセス206aとして機能する。変換プログラム207bは、変換プロセス206bとして機能する。算出プログラム207cは、算出プロセス206cとして機能する。表示制御プログラム207dは、表示制御プロセス206dとして機能する。
【0097】
受信プロセス206aの処理は、受信部151の処理に対応する。変換プロセス206bの処理は、変換部152の処理に対応する。算出プロセス206cの処理は、算出部153の処理に対応する。表示制御プロセス206dの処理は、表示制御部154の処理に対応する。
【0098】
なお、各プログラム207a~207dについては、必ずしも最初からハードディスク装置207に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207dを読み出して実行するようにしてもよい。