特開2022-54067 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社富士通エフサスの特許一覧

特開2022-54067表示制御装置、表示制御方法および表示制御プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022054067

(43)【公開日】2022-04-06

(54)【発明の名称】表示制御装置、表示制御方法および表示制御プログラム

(51)【国際特許分類】

G06F 3/01 20060101AFI20220330BHJP

G06F 3/16 20060101ALI20220330BHJP

【ＦＩ】

G06F3/01 510

G06F3/16 650

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2020161052

(22)【出願日】2020-09-25

(71)【出願人】

【識別番号】598057291

【氏名又は名称】株式会社富士通エフサス

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(72)【発明者】

【氏名】秋元浩希

(72)【発明者】

【氏名】中村勝

【テーマコード（参考）】

5E555

【Ｆターム（参考）】

5E555AA26

5E555AA76

5E555BA01

5E555BA04

5E555BA87

5E555BB01

5E555BB04

5E555BC04

5E555CA47

5E555CB64

5E555CC19

5E555DA01

5E555DB25

5E555DB41

5E555DC09

5E555DC84

5E555DD07

5E555EA05

5E555EA23

5E555FA00

(57)【要約】

【課題】適切な表示時間で字幕を表示すること。
【解決手段】表示制御装置１００は、発話者の音声の入力を受け付けた場合、発話区間における音声の情報を文字列に変換する。表示制御装置１００は、発話区間における文字列を基にして、発話者の発音速度を算出する。表示制御装置１００は、発音速度を基にして、文字列を表示画面に表示する表示時間を制御する。
【選択図】図５

【特許請求の範囲】

【請求項1】

発話者の音声の入力を受け付けた場合、発話区間における音声の情報を文字列に変換する変換部と、
前記発話区間における文字列を基にして、前記発話者の発音速度を算出する算出部と、
前記発音速度を基にして、前記文字列を表示画面に表示する表示時間を制御する表示制御部と
を有することを特徴とする表示制御装置。

【請求項2】

前記算出部は、前記発話区間における文字列を基にして、単位時間当たりの単語の数、単位時間当たりの音節の数、または、単位時間当たりの文字の数を、前記発音速度として算出することを特徴とする請求項１に記載の表示制御装置。

【請求項3】

前記変換部は、前記発話区間における第１言語の音声の情報を第１言語の文字列に変換し、前記第１言語の文字列を、第２言語の文字列に変換し、前記表示制御部は、前記第２言語の文字列を前記表示画面に表示することを特徴とする請求項１または２に記載の表示制御装置。

【請求項4】

前記算出部は、前記発話区間における第２言語の文字列を基にして、単位時間当たりの単語の数、単位時間当たりの音節の数、または、単位時間当たりの文字の数を、前記発音速度として算出することを特徴とする請求項３に記載の表示制御装置。

【請求項5】

前記表示制御部は、前記表示画面において、前の発話区間の第１文字列が表示されている場合、今回の発話区間の第２文字列を、前記第１文字列と重複しない前記表示画面の領域に表示させることを特徴とする請求項１～４のいずれか一つに記載の表示制御装置。

【請求項6】

前記表示制御部は、前記第１文字列の表示の特徴とは異なる表示の特徴によって、前記第２文字列を表示することを特徴とする請求項５に記載の表示制御装置。

【請求項7】

前記表示制御部は、前記発音速度が閾値以上である場合に、前記発話者の利用する端末装置の表示画面に、発話の停止を要求する情報を表示することを特徴とする請求項１～６のいずれか一つに記載の表示制御装置。

【請求項8】

コンピュータが実行する表示制御方法であって、
発話者の音声の入力を受け付けた場合、発話区間における音声の情報を文字列に変換し、
前記発話区間における文字列を基にして、前記発話者の発音速度を算出し、
前記発音速度を基にして、前記文字列を表示画面に表示する表示時間を制御する
処理を実行することを特徴とする表示制御方法。

【請求項9】

コンピュータに、
発話者の音声の入力を受け付けた場合、発話区間における音声の情報を文字列に変換し、
前記発話区間における文字列を基にして、前記発話者の発音速度を算出し、
前記発音速度を基にして、前記文字列を表示画面に表示する表示時間を制御する
処理を実行させることを特徴とする表示制御プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、表示制御装置等に関する。

【背景技術】

【0002】

近年、働き方改革や感染症の対策として、Ｗｅｂ会議システムや、テレビ会議システム等の会議システムが導入されている。会議システムでは、各利用者の端末装置をインターネット経由で接続し、会議システムに参加している各利用者の映像や、音声を、各利用者の端末装置で表示、再生する制御を行う。

【0003】

なお、会議システムにそれぞれ異なる言語を話す利用者が存在する場合には、翻訳機能を利用し、利用者の端末装置に翻訳した字幕を表示する従来技術がある。この従来技術によれば、英語を話す第１利用者と、日本語を話す第２利用者とが会議システムに参加している場合、第１利用者の発話内容（英語）を日本語に翻訳した字幕を、第２利用者の端末装置に表示させることで、第２利用者をサポートできる。

【0004】

たとえば、従来の会議システムでは、前回のセンテンスの字幕を、今回のセンテンスの字幕に切り替える処理を繰り返すことで、各センテンスの字幕を順番に表示させている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開平７－２５０２７９号公報

【特許文献2】特開２００９－０９８７２７号公報

【特許文献3】特開２００１－１８８６４９号公報

【特許文献4】特開平５－２４４５０４号公報

【特許文献5】特開平７－０８７４７２号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、上述した従来技術では、適切な表示時間で字幕を表示することができないという問題がある。

【0007】

翻訳システムの性能向上によって、通常のペースでの会話では、ほぼリアルタイムに会話の内容が翻訳されて、字幕として表示画面に表示されが、利用者の会話のペースが速い場合には、他の利用者が表示中の字幕を読み終わる前に、次の字幕に切り替わってしまう場合があった。

【0008】

また、各利用者が同一の言語で会話する場合でも、各種の目的によって、翻訳を行わないで、会話内容の字幕を表示画面に表示する場合もあるが、このような場合でも、利用者が早口である場合には、他の利用者が字幕を読み終わる前に、次の字幕が切り替わってしまう。

【0009】

１つの側面では、本発明は、適切な表示時間で字幕を表示することができる表示制御装置、表示制御方法および表示制御プログラムを提供することを目的とする。

【課題を解決するための手段】

【0010】

第１の案では、表示制御装置は、変換部と、算出部と、表示制御部とを有する。変換部は、発話者の音声の入力を受け付けた場合、発話区間における音声の情報を文字列に変換する。算出部は、発話区間における文字列を基にして、発話者の発音速度を算出する。表示制御部は、発音速度を基にして、文字列を表示画面に表示する表示時間を制御する。

【発明の効果】

【0011】

適切な表示時間で字幕を表示することができる。

【図面の簡単な説明】

【0012】

【図1】図１は、本実施例に係る会議システムの構成を示す図である。

【図2】図２は、本実施例に係る表示制御装置の処理を説明するための図（１）である。

【図3】図３は、本実施例に係る表示制御装置の処理を説明するための図（２）である。

【図4】図４は、本実施例に係る表示制御装置の処理を説明するための図（３）である。

【図5】図５は、本実施例に係る表示制御装置の構成を示す機能ブロック図である。

【図6】図６は、映像バッファのデータ構造の一例を示す図である。

【図7】図７は、第１テキストテーブルのデータ構造の一例を示す図である。

【図8】図８は、第２テキストテーブルのデータ構造の一例を示す図である。

【図9】図９は、本実施例に係る表示制御装置の処理手順を示すフローチャート（１）である。

【図10】図１０は、本実施例に係る表示制御装置の処理手順を示すフローチャート（２）である。

【図11】図１１は、実施例の表示制御装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0013】

以下に、本願の開示する表示制御装置、表示制御方法および表示制御プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例0014】

本実施例に係る会議システムの構成について説明する。図１は、本実施例に係る会議システムの構成を示す図である。図１に示すように、この会議システムは、端末装置１０ａ，１０ｂと、表示制御装置１００とを有する。

【0015】

端末装置１０ａ，１０ｂは、ネットワーク５０を介して、表示制御装置１００に接続される。図１に示す例では、端末装置１０ａ，１０ｂを示すが、この会議システムは、他の端末装置を含んでいてもよい。

【0016】

端末装置１０ａ，１０ｂは、会議システムに参加する利用者が使用する端末装置であり、ＰＣ（Personal Computer）、ノートＰＣ、タブレット端末、スマートフォン等に対応する。以下の説明では、適宜、端末装置１０ａ，１０ｂをまとめて、端末装置１０と表記する。端末装置１０は、カメラ、マイク、スピーカ、ディスプレイ等を備える。

【0017】

端末装置１０は、カメラおよびマイクを用いて、利用者の映像情報を生成し、映像情報を、表示制御装置１００に送信する。本実施例では、映像情報に利用者の音声情報が含まれるものとする。また、端末装置１０は、表示制御装置１００から、映像情報を受信し、スピーカ、ディスプレイを用いて、映像情報を出力する。

【0018】

ここで、一人の利用者が、一つの端末装置１０を用いて、会議システムに参加してもよいし、複数の利用者が、一つの端末装置１０を用いて、会議システムに参加してもよい。

【0019】

表示制御装置１００は、ネットワーク５０を介して、会議システムに参加する利用者の端末装置１０を接続し、映像情報や音声情報に基づくテロップ（字幕）を、端末装置１０に表示する。たとえば、表示制御装置１００は、端末装置１０ａから受信する映像情報を、端末装置１０ｂに送信して、表示させる。表示制御装置１００は、映像情報に含まれる音声情報を基にしてテロップを生成し、生成したテロップを端末装置１０ｂに送信して表示させる。

【0020】

一方、表示制御装置１００は、端末装置１０ｂから受信する映像情報を、端末装置１０ａに送信して表示させる。表示制御装置１００は、映像情報に含まれる音声情報を基にしてテロップを生成し、生成したテロップを端末装置１０ａに送信して表示させる。

【0021】

なお、一例として、端末装置１０ａの利用者が発話する言語と、端末装置１０ｂの利用者が発話する言語とが異なるものとする。たとえば、端末装置１０ａの利用者は、英語で会議システムに参加し、端末装置１０ｂの利用者は、日本語で会議システムに参加するものとする。このため、表示制御装置１００は、テロップを生成する前に、翻訳処理を実行し、他言語に翻訳したテロップを、端末装置１０に表示させる。

【0022】

すなわち、表示制御装置１００は、端末装置１０ａの利用者は「英語」で会話を行うため、端末装置１０ｂには、英語を日本語に翻訳したテロップを表示する。表示制御装置１００は、端末装置１０ｂの利用者は「日本語」で会話を行うため、端末装置１０ａには、日本語を英語に翻訳したテロップを表示する。

【0023】

ここで、本実施例に係る表示制御装置１００は、端末装置１０にテロップを表示する場合に、利用者の発音速度を基にして、テロップの表示時間を調整する。たとえば、表示制御装置１００は、利用者の発音速度が、所定の発音速度よりも早い場合には、テロップを長めに表示させることで、利用者がテロップを読み終わる前に、次のテロップを表示してしまうことを抑止する。

【0024】

図２～図４は、本実施例に係る表示制御装置の処理を説明するための図である。図２について説明する。図２では、端末装置１０ｂの表示画面１１ｂを用いて説明する。表示画面１１ｂには、端末装置１０ａ側の利用者１２ａ，１２ｂ，１２ｃが表示されている。たとえば、利用者１２ｃが英語で発話すると、表示制御装置１００は、英語を日本語に翻訳したテロップ１３ａを端末装置１０ｂ（の表示画面１１ｂ）に表示させる。また、表示制御装置１００は、利用者１２ｃの発音速度を算出し、発音速度が標準の発音速度である場合には、予め設定した標準の表示時間によって、テロップ１３ａを表示させる。

【0025】

続いて、利用者１２ｃが次のセンテンスを、英語で発話すると、表示制御装置１００は、英語を日本語に翻訳したテロップ１３ｂを端末装置１０ｂに表示させる。また、表示制御装置１００は、利用者１２ｃの発音速度を算出し、発音速度が標準の発音速度である場合には、予め設定した標準の表示時間によって、テロップ１３ｂを表示させる。

【0026】

図３について説明する。図３では、端末装置１０ｂの表示画面１１ｂを用いて説明する。表示画面１１ｂには、端末装置１０ａ側の利用者１２ａ，１２ｂ，１２ｃが表示されている。たとえば、利用者１２ｃが英語で発話すると、表示制御装置１００は、英語を日本語に翻訳したテロップ１３ｃを端末装置１０ｂに表示させる。また、表示制御装置１００は、利用者１２ｃの発音速度を算出し、発音速度が標準の発音速度よりも早い発音速度である場合には、標準の表示時間に、遅延時間を加算した表示時間によって、テロップ１３ｃを表示させる。

【0027】

続いて、利用者１２ｃが次のセンテンスを英語で発話すると、表示制御装置１００は、英語を日本語に翻訳したテロップ１３ｄを表示画面１１ｂに表示させる。ここで、表示時間を延長したことにより、前回のセンテンスのテロップ１３ｃが、表示画面１１ｂに表示されている場合には、表示制御装置１００は、テロップ１３ｃの表示時間が終了するまで、テロップ１３ｃの下に、テロップ１３ｄを表示させる制御を行う。

【0028】

図４について説明する。図４の表示画面１１ａを、端末装置１０ａの表示画面とする。表示制御装置１００は、利用者の発音速度を算出し、発音速度が、限界発音速度よりも早い発音速度である場合には、利用者の端末装置１０に、発話の停止を要求する情報を表示する。たとえば、端末装置１０ａの利用者１２ｃの発音速度が、限界発音速度よりも早い発音速度である場合には、表示画面１１ａに、停止アイコン１４を表示させる。これによって、利用者が早口になりすぎることを抑止で得きる。

【0029】

上記のように、本実施例に係る表示制御装置１００は、会話の内容をテロップに変換して表示画面に表示させる際に、利用者の発音速度が標準的な発音速度よりも早い場合に、テロップの表示時間を標準の表示時間よりも長めに表示させるため、テロップの表示時間を最適な時間に設定することができる。

【0030】

また、表示制御装置１００は、テロップを表示させる場合に、前回のテロップが表示されている場合には、前回のテロップの表示時間が終わるまで、前回のテロップの下に、今回のテロップを表示させる。これによって、利用者がテロップを読み終わる前に、次のテロップに切り替わってしまうことを抑止できる。

【0031】

また、表示制御装置１００は、利用者の発音速度が、限界発音速度よりも早い発音速度である場合には、表示画面に、停止アイコンを表示させる。これによって、利用者が早口になりすぎることを抑止できる。

【0032】

次に、本実施例に係る表示制御装置１００の構成について説明する。図５は、本実施例に係る表示制御装置の構成を示す機能ブロック図である。図５に示すように、この表示制御装置１００は、通信部１１０と、入力部１２０と、出力部１３０と、記憶部１４０と、制御部１５０とを有する。

【0033】

通信部１１０は、ネットワーク５０を介して、端末装置１０との間で情報の送受信を行う。たとえば、通信部１１０は、ＮＩＣ（Network Interface Card）等によって実現される。

【0034】

入力部１２０は、各種のデータを表示制御装置１００の制御部１５０に入力するための入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

【0035】

出力部１３０は、制御部１５０から出力される情報を表示する表示装置である。出力部１３０は、有機ＥＬ（Electro Luminescence）ディスプレイ、液晶ディスプレイ、タッチパネル等に対応する。

【0036】

記憶部１４０は、映像バッファ１４１、第１テキストテーブル１４２、第２テキストテーブル１４３を有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

【0037】

映像バッファ１４１は、端末装置１０から送信される映像情報を格納するバッファである。図６は、映像バッファのデータ構造の一例を示す図である。図６に示すように、映像バッファ１４１は、端末識別情報と、映像情報とを対応付ける。端末識別情報は、端末装置１０を識別する情報である。端末識別情報１０ａの端末装置を、端末装置１０ａと表記する。端末識別情報１０ｂの端末装置を、端末装置１０ｂと表記する。

【0038】

映像情報は、端末装置１０から受信した映像情報である。映像情報には、利用者の音声情報が含まれるものとする。

【0039】

図５の説明に戻る。第１テキストテーブル１４２は、映像情報に含まれる音声情報から抽出される各発話区間のテキストデータを保持するテーブルである。本実施例では、音声情報から抽出された文字列であって、翻訳前の文字列の情報を、「第１テキストデータ」と表記する。

【0040】

図７は、第１テキストテーブルのデータ構造の一例を示す図である。図７に示すように、この第１テキストテーブル１４２は、端末識別情報と、第１テキストデータとを対応付ける。端末識別情報に関する説明は、図６の端末識別情報に関する説明と同様である。第１テキストデータは、翻訳前の文字列のデータである。第１テキストデータは、発話区間毎に存在するものとする。

【0041】

発話区間は、発話の開始時刻から、発話の終了時刻までの区間を示す。たとえば、発話区間の開始時刻は、音声情報の強度が閾値以上となった時刻とする。発話区間の終了時刻については、発話区間の開始時刻後、音声情報の強度が閾値未満となってから、かかる強度が閾値未満となる状況が、一定時間連続した場合に、音声情報の強度が最初に閾値未満となった時刻を、発話区間の終了時刻とする。

【0042】

図５の説明に戻る。第２テキストテーブル１４３は、第１テキストデータを翻訳した文字列の情報である。本実施例では、第１テキストデータを翻訳した文字列の情報を「第２テキストデータ」と表記する。

【0043】

図８は、第２テキストテーブルのデータ構造の一例を示す図である。図８に示すように、この第２テキストテーブル１４３は、端末識別情報と、第２テキストデータとを対応付ける。端末識別情報に関する説明は、図６の端末識別情報に関する説明と同様である。第２テキストデータは、第１テキストデータを翻訳したデータである。第２テキストデータは、発話区間毎に存在するものとする。

【0044】

図５の説明に戻る。制御部１５０は、受信部１５１と、変換部１５２と、算出部１５３と、表示制御部１５４とを有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１５０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

【0045】

受信部１５１は、端末装置１０から映像情報を受信し、受信した映像情報を、映像バッファ１４１に登録する。受信部１５１は、端末装置１０ａから受信した映像情報を、識別情報「１０ａ」と対応付けて、映像バッファ１４１に登録する。受信部１５１は、端末装置１０ｂから受信した映像情報を、識別情報「１０ｂ」と対応付けて、映像バッファ１４１に登録する。

【0046】

変換部１５２は、映像バッファ１４１に登録された映像情報から音声情報を抽出し、文字列に変換する処理部である。たとえば、変換部１５２は、発話区間を特定する処理、第１変換処理、第２変換処理を実行する。以下の説明では、映像情報から抽出した音声情報を、単に、音声情報と表記する。

【0047】

変換部１５２が実行する「発話区間を特定する処理」について説明する。変換部１５２は、映像情報から音声情報を抽出し、音声情報の強度を時系列に走査する。変換部１５２は、音声情報の強度が閾値以上となる時刻を、発話区間の開始時刻として特定する。変換部１５２は、発話区間の開始時刻後、音声情報の強度が閾値未満となってから、かかる強度が閾値未満となる状況が、一定時間連続した場合に、音声情報の強度が最初に閾値未満となった時刻を、発話区間の終了時刻とする。

【0048】

変換部１５２は、上記処理を繰り返し実行することで、音声情報から、発話区間を特定する処理を繰り返し実行し、順次、発話区間を特定する。変換部１５２は、開始時刻から終了時刻までの時間が閾値Ｔｈ未満となる発話区間を、発話区間から除外してもよい。

【0049】

変換部１５２が実行する「第１変換処理」について説明する。変換部１５２は、発話区間の音声情報と、文字列変換テーブル（図示略）とを比較して、発話区間に含まれる音声情報を、文字列に変換する。たとえば、文字列変換テーブルは、音素の特徴と、文字とを対応付けたテーブルである。

【0050】

変換部１５２は、音声情報の言語が英語の場合には、音素の特徴と、英語の文字とを対応付けた第１文字列変換テーブルを用いて、文字列に変換する。変換部１５２は、音声情報の言語が日本語の場合には、音素の特徴と、日本語の文字とを対応付けた第２文字列変換テーブルを用いて、文字列に変換する。変換部１５２が、音声情報に対して、第１文字列変換テーブルを用いるか、第２文字列変換テーブルを用いるかは、予め設定しておいてもよいし、音声情報の特徴から、変換部１５２が、自動で判定してもよい。

【0051】

以下の説明では、端末装置１０ａから受信した映像情報に含まれる音声情報であって、英語の会話を含む音声情報を、「英語音声情報」と表記する。端末装置１０ｂから受信した映像情報に含まれる音声情報であって、日本語の会話を含む音声情報を、「日本語音声情報」と表記する。

【0052】

変換部１５２は、発話区間における英語音声情報と、第１文字列変換テーブルとを比較して、発話区間の英語音声情報を、英語の文字列に変換することで、第１テキストデータ（英語）を生成する。変換部１５２は、端末識別情報「１０ａ」と対応付けて、第１テキストデータを第１テキストテーブル１４２に登録する。変換部１５２は、順次、特定される発話区間の英語音声情報に対して、上記処理を繰り返し実行する。

【0053】

変換部１５２は、発話区間における日本語音声情報と、第２文字列変換テーブルとを比較して、発話区間の日本語音声情報を、日本語の文字列に変換することで、第１テキストデータ（日本語）を生成する。変換部１５２は、端末識別情報「１０ｂ」と対応付けて、第１テキストデータを第１テキストテーブル１４２に登録する。変換部１５２は、順次、特定される発話区間の日本語音声情報に対して、上記処理を繰り返し実行する。

【0054】

変換部１５２が実行する「第２変換処理」について説明する。変換部１５２は、第１テキストテーブル１４２に格納された発話区間毎の第１テキストデータを、翻訳モデルに入力することで、翻訳後の第２テキストデータを生成する。翻訳モデルは、学習データによって、予め、機械学習されたＮＮ（Neural Network）等のモデルに対応する。

【0055】

変換部１５２は、第１テキストデータ（英語）を、第２テキストデータ（日本語）に変換する場合には、英語文字列を、日本語文字列に変換する第１翻訳モデルを用いる。変換部１５２は、端末識別情報「１０ａ」と対応付けて、第２テキストデータを、第２テキストテーブル１４３に登録する。なお、変換部１５２は、第２テキストデータ（日本語）に対応する発話区間の時間を関連付けて登録するものとする。

【0056】

変換部１５２は、第１テキストデータ（英語）について、上記の処理を繰り返し実行し、順次、第２テキストデータ（日本語）を生成する。

【0057】

変換部１５２は、第１テキストデータ（日本語）を、第２テキストデータ（英語）に変換する場合には、日本語文字列を、英語文字列に変換する第２翻訳モデルを用いる。変換部１５２は、端末識別情報「１０ｂ」と対応付けて、第２テキストデータを、第２テキストテーブル１４３に登録する。なお、変換部１５２は、第２テキストデータ（英語）に対応する発話区間の時間を関連付けて登録するものとする。

【0058】

変換部１５２は、各第１テキストデータ（日本語）について、上記の処理を繰り返し実行し、順次、第２テキストデータ（英語）を生成する。

【0059】

図５の説明に戻る。算出部１５３は、利用者（発話者）の発音速度を算出する処理部である。算出部１５３は、第２テキストテーブル１４３の、第２テキストデータに含まれる音素（あるいは、単語、文字、以下同様）の数をカウントし、カウントした音素の数を、発話区間の時間で除算することで、発音速度を算出する。算出部１５３は、端末識別情報と、第２テキストデータと、発音速度とを対応付けて、表示制御部１５４に出力する。

【0060】

算出部１５３は、第２テキストデータ（日本語）に含まれる音素の数をカウントし、カウントした音素の数を、発話区間の時間で除算することで、端末装置１０ａの利用者の発音速度を算出する。算出部１５３は、端末識別情報「１０ａ」と、第２テキストデータ（日本語）と、発音速度とを対応付けて、表示制御部１５４に出力する。すなわち、英語で発話する利用者の発音速度は、翻訳後の第２テキストデータ（日本語）によって算出される。

【0061】

算出部１５３は、各第２テキストデータ（日本語）について、上記処理を繰り返し、端末識別情報「１０ａ」と、第２テキストデータ（日本語）と、発音速度とを対応付けて、表示制御部１５４に出力する。算出部１５３は、各発音速度を保持しておき、発音速度の平均値を算出して、表示制御部１５４に出力してもよい。

【0062】

算出部１５３は、第２テキストデータ（英語）に含まれる音素の数をカウントし、カウントした音素の数を、発話区間の時間で除算することで、端末装置１０ｂの利用者の発音速度を算出する。算出部１５３は、端末識別情報「１０ｂ」と、第２テキストデータ（英語）と、発音速度とを対応付けて、表示制御部１５４に出力する。すなわち、日本語で発話する利用者の発音速度は、翻訳後の第２テキストデータ（英語）によって算出される。

【0063】

算出部１５３は、各第２テキストデータ（英語）について、上記処理を繰り返し、端末識別情報「１０ｂ」と、第２テキストデータ（英語）と、発音速度とを対応付けて、表示制御部１５４に出力する。算出部１５３は、各発音速度を保持しておき、発音速度の平均値を算出して、表示制御部１５４に出力してもよい。

【0064】

表示制御部１５４は、映像バッファ１４１に格納された映像情報を、端末装置１０に送信して表示させる処理部である。表示制御部１５４は、端末識別情報「１０ａ」に対応する映像情報を、端末装置１０ｂに送信して表示させる。表示制御部１５４は、端末識別情報「１０ｂ」に対応する映像情報を、端末装置１０ａに送信して表示させる。

【0065】

また、表示制御部１５４は、発話区間ごとの第２テキストデータをテロップ（字幕）として、端末装置１０に表示させる。表示制御部１５４は、第２テキストデータに対応付けられた利用者の発音速度（平均の発音速度）を基にして、テロップの表示時間を制御する。表示制御部１５４は、第２テキストデータ（英語）のテロップを、端末装置１０ｂの表示画面に表示し、第２テキストデータ（日本語）のテロップを、端末装置１０ａの表示画面に表示する。

【0066】

以下において、表示制御部１５４がテロップの表示時間を制御する処理の一例について説明する。

【0067】

表示制御部１５４は、平均の発音速度Ｓ_Ａが、限界発音速度Ｓ_ｍａｘよりも大きい場合は、発音速度が速すぎるとして、発話側の端末装置１０に、図４で説明したような停止アイコン１４を表示させる。

【0068】

表示制御部１５４は、平均の発音速度Ｓ_Ａが、標準速度Ｓ_ｔ未満である場合には、テロップの表示時間を標準の表示時間Ｔ_ｓｔに設定する。

【0069】

表示制御部１５４は、平均の発音速度Ｓ_Ａが、標準速度Ｓ_ｔ以上、限界発音速度Ｓ_ｍａｘ未満である場合には、標準の表示時間Ｔ_ｓｔに延長時間Ｔ_ｄを加算した表示時間を、テロップの表示時間に設定する。表示制御部１５４は、平均の発音速度Ｓ_Ａと、標準速度Ｓ_ｔとの差分が大きいほど、より大きな延長時間Ｔ_ｄを設定する。たとえば、表示制御部１５４は、式（１）によって、遅延時間Ｔｄを算出する。標準音節数は、１センテンスに含まれる標準的な音節の数であり、あらかじめ設定される。補正係数は、予め所定の値が設定される。

【0070】

延長時間Ｔ_ｄ＝標準音節数／（平均の発音速度Ｓ_Ａ－標準速度Ｓ_ｔ）×補正係数・・・（１）

【0071】

表示制御部１５４は、上記の処理によって、テロップの表示時間を特定し、特定した表示時間だけ、端末装置１０にテロップを表示させる。表示制御部１５４は、順に生成される第２テキストデータのテロップについて、上記処理を繰り返し実行する。

【0072】

ここで、表示制御部１５４は、今回のテロップを端末装置１０の表示画面に表示する際に、前回のテロップの表示時間が経過しておらず、前回のテロップが、表示されている場合には、図３で説明したように、前回のテロップの下に、今回のテロップを表示させる。

【0073】

表示制御部１５４は、今回のテロップと、前回のテロップとの違いを分かりやすくするために、前回のテロップの表示とは異なる表示の特徴によって、今回のテロップを表示してもよい。たとえば、表示制御部１５４は、前回のテロップと、今回のテロップとで、テロップのフォントの大きさや、種類、色等を変更する。表示制御部１５４は、前回のテロップを表示画面の下端（あるいは上端）に表示し、今回のテロップを表示画面の上端（あるいは下端）に表示してもよい。表示制御部１５４は、テロップの表示時間が終わりに近づくほど、テロップの透過率を高くし、表示時間の終了時において、テロップを消す制御を行ってもよい。

【0074】

次に、本実施例に係る表示制御装置１００の処理手順について説明する。図９、図１０は、本実施例に係る表示制御装置の処理手順を示すフローチャートである。図９について説明する。表示制御装置１００の受信部１５１は、端末装置１０から映像情報の受信を開始する（ステップＳ１０１）。

【0075】

表示制御装置１００の変換部１５２は、測定回数を初期値に設定する（ステップＳ１０２）。変換部１５２は、発話区間を特定する（ステップＳ１０３）。変換部１５２は、発話区間の時間を測定する（ステップＳ１０４）。変換部１５２は、発話区間の時間長が閾値Ｔｈ以上でない場合には（ステップＳ１０５，Ｎｏ）、ステップＳ１０３に移行する。

【0076】

一方、変換部１５２は、発話区間の時間長が閾値Ｔｈ以上である場合には（ステップＳ１０５，Ｙｅｓ）、測定回数に１を加算する（ステップＳ１０６）。変換部１５２は、発話区間の音声情報を基にして第１テキストデータを生成する（ステップＳ１０７）。

【0077】

変換部１５２は、第１テキストデータを翻訳することで、第２テキストデータを生成する（ステップＳ１０８）。表示制御装置１００の算出部１５３は、第２テキストデータに含まれる音素の数をカウントする（ステップＳ１０９）。

【0078】

算出部１５３は、音素の数を、発話区間の時間で除算することで、発音時間を算出する（ステップＳ１１０）。算出部１５３は、測定回数を基にして、平均の発音速度Ｓ_Ａを算出し（ステップＳ１１１）、図１０のステップＳ１１２に移行する。

【0079】

図１０の説明に移行する。表示制御装置１００の表示制御部１５４は、平均の発音速度Ｓ_Ａが、限界発音速度Ｓ_ｍａｘ以上である場合には（ステップＳ１１２，Ｙｅｓ）、端末装置１０の表示画面に停止アイコンを表示させ（ステップＳ１１３）、ステップＳ１２１に移行する。

【0080】

一方、表示制御部１５４は、平均の発音速度Ｓ_Ａが、限界発音速度Ｓ_ｍａｘ以上でない場合には（ステップＳ１１２，Ｎｏ）、平均の発音速度Ｓ_Ａが、標準速度Ｓ_ｔ以上であるか否かを判定する（ステップＳ１１４）。表示制御部１５４は、平均の発音速度Ｓ_Ａが、標準速度Ｓ_ｔ以上でない場合には（ステップＳ１１４，Ｎｏ）、標準の表示時間を、今回のテロップの表示時間に設定し（ステップＳ１１５）、ステップＳ１１８に移行する。

【0081】

一方、表示制御部１５４は、平均の発音速度Ｓ_Ａが、標準速度Ｓ_ｔ以上となる場合には（ステップＳ１１４，Ｙｅｓ）、延長時間を算出する（ステップＳ１１６）。表示制御部１５４は、標準の表示時間に延長時間を加算した時間を、今回のテロップの表示時間に設定する（ステップＳ１１７）。

【0082】

表示制御部１５４は、前回のテロップが表示中でない場合には（ステップＳ１１８，Ｎｏ）、今回のテロップを端末装置の表示画面に表示し（ステップＳ１１９）、ステップＳ１２１に移行する。

【0083】

表示制御部１５４は、前回のテロップが表示中である場合には（ステップＳ１１８，Ｙｅｓ）、端末装置１０の表示画面において、前回のテロップの下側に、今回のテロップを表示する（ステップＳ１２０）。

【0084】

表示制御部１５４は、処理を継続する場合には（ステップＳ１２１，Ｙｅｓ）、図９のステップＳ１０３に移行する。一方、表示制御部１５４は、処理を継続しない場合には（ステップＳ１２１，Ｎｏ）、処理を終了する。

【0085】

次に、本実施例に係る表示制御装置１００の効果について説明する。表示制御装置１００は、会話の内容をテロップに変換して表示画面に表示させる際に、発話速度を基にして、テロップを端末装置１０の表示画面に表示する表示時間を制御する。たとえば、表示制御装置１００は、利用者の発音速度が標準的な発音速度よりも早い場合に、テロップの表示時間を標準の表示時間よりも長めに表示させるため、テロップの表示時間を最適な時間に設定することができる。

【0086】

表示制御装置１００は、発話区間における単語の数、あるいは、音節の数を基にして、発音速度を算出する。これによって、発音速度を適切に算出することができる。

【0087】

表示制御装置１００は、英語音声情報を、第１テキストデータ（英語）に変換し、第１テキストデータを翻訳した第２テキストデータ（日本語）をテロップとして表示する。また、表示制御装置１００は、日本語音声情報を、第１テキストデータ（日本語）に変換し、第１テキストデータを翻訳した第２テキストデータ（英語）をテロップとして表示する。これによって、言語が異なる利用者が会議システムに参加した場合でも、利用者の理解をサポートすることができる。

【0088】

表示制御装置１００は、英語で発話した利用者の発音速度を、翻訳後の第２テキストデータ（日本語）の単語数または音節数に応じて算出する。同様に、表示制御装置１００は、日本語で発話した利用者の発音速度を、翻訳後の第２テキストデータ（語）の単語数または音節数に応じて算出する。これによって、翻訳後の単語数や、音節数に応じた発音速度を算出することができ、テロップの表示時間をより適切に設定することが可能となる。

【0089】

表示制御装置１００は、テロップを表示させる場合に、前回のテロップが表示されている場合には、前回のテロップの表示時間が終わるまで、前回のテロップの下に、今回のテロップを表示させる。これによって、利用者がテロップを読み終わる前に、次のテロップに切り替わってしまうことを抑止できる。なお、表示制御装置１００は、前回のテロップと、今回のテロップとが重ならなければ、前回のテロップの下以外の領域に、今回のテロップを表示させてもよい。

【0090】

表示制御装置１００は、利用者の発音速度が、限界発音速度よりも早い発音速度である場合には、表示画面に、停止アイコンを表示させる。これによって、利用者が早口になりすぎることを抑止できる。

【0091】

なお、表示制御装置１００は、端末装置１０の表示画面に表示されているテロップの数が、所定数以上である場合に、停止アイコンを、端末装置１０に表示する制御を行ってもよい。

【0092】

表示制御装置１００は、発話区間に含まれる単語の数、音節の数を基にして、発音速度を算出したが、発話区間に含まれる文字の数を基にして、発音速度を算出してもよい。

【0093】

次に、上記実施例に示した表示制御装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１１は、実施例の表示制御装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0094】

図１１に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る読み取り装置２０４と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

【0095】

ハードディスク装置２０７は、受信プログラム２０７ａ、変換プログラム２０７ｂ、算出プログラム２０７ｃ、表示制御プログラム２０７ｄを有する。また、ＣＰＵ２０１は、各プログラム２０７ａ～２０７ｄを読み出してＲＡＭ２０６に展開する。

【0096】

受信プログラム２０７ａは、受信プロセス２０６ａとして機能する。変換プログラム２０７ｂは、変換プロセス２０６ｂとして機能する。算出プログラム２０７ｃは、算出プロセス２０６ｃとして機能する。表示制御プログラム２０７ｄは、表示制御プロセス２０６ｄとして機能する。

【0097】

受信プロセス２０６ａの処理は、受信部１５１の処理に対応する。変換プロセス２０６ｂの処理は、変換部１５２の処理に対応する。算出プロセス２０６ｃの処理は、算出部１５３の処理に対応する。表示制御プロセス２０６ｄの処理は、表示制御部１５４の処理に対応する。

【0098】

なお、各プログラム２０７ａ～２０７ｄについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｄを読み出して実行するようにしてもよい。

【符号の説明】

【0099】

１０ａ，１０ｂ端末装置
１００表示制御装置
１１０通信部
１２０入力部
１３０出力部
１４０記憶部
１４１映像バッファ
１４２第１テキストテーブル
１４３第２テキストテーブル
１５０制御部
１５１受信部
１５２変換部
１５３算出部
１５４表示制御部

【図1】