特許7148172 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＶｏｉｃｅＡｐｐ株式会社の特許一覧

特許7148172字幕表示処理プログラム、字幕表示処理装置、サーバ。

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-09-27

(45)【発行日】2022-10-05

(54)【発明の名称】字幕表示処理プログラム、字幕表示処理装置、サーバ。

(51)【国際特許分類】

G06F 3/0484 20220101AFI20220928BHJP

G06F 3/16 20060101ALI20220928BHJP

G06F 3/01 20060101ALI20220928BHJP

【ＦＩ】

G06F3/0484

G06F3/16 620

G06F3/01 510

【請求項の数】 10

(21)【出願番号】P 2021033839

(22)【出願日】2021-03-03

(65)【公開番号】P2022134600

(43)【公開日】2022-09-15

【審査請求日】2021-03-19

(73)【特許権者】

【識別番号】321000772

【氏名又は名称】ＶｏｉｃｅＡｐｐ株式会社

(74)【代理人】

【識別番号】110000578

【氏名又は名称】名古屋国際弁理士法人

(72)【発明者】

【氏名】足立洋介

【審査官】星野裕

(56)【参考文献】

【文献】国際公開第２０１９／１８１４８８（ＷＯ，Ａ１）

【文献】特開２００３－０８５５７２（ＪＰ，Ａ）

【文献】特開２０１７－１１７３７７（ＪＰ，Ａ）

【文献】特開２０１５－００５１２９（ＪＰ，Ａ）

【文献】特開２０１９－２０８１３８（ＪＰ，Ａ）

【文献】特開２０１２－２０９７７６（ＪＰ，Ａ）

【文献】特開２０１８－００５２８０（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０４８

Ｇ０６Ｆ３／１６

Ｇ０６Ｆ３／０１

(57)【特許請求の範囲】

【請求項1】

音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するデータ出力手段と、
前記データ出力手段により出力される前記文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定する表示設定手段と、
前記データ出力手段により出力される前記文字データを、前記文字表示領域に表示させる、表示手段と、
前記表示設定手段により設定された前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更する変更手段と、
としてコンピュータを機能させ、
前記表示画面に表示された背景データに含まれる文字と当該文字の前記表示位置のデータとを含む背景文字データを取得する背景文字取得手段として更に機能させ、
前記変更手段は、前記文字表示領域に表示される前の前記文字データの内容と一致する前記背景文字データが表示されている領域とは異なる領域に前記文字表示領域が表示されるように、前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を変更する、字幕表示処理プログラム。

【請求項2】

請求項１に記載の字幕表示処理プログラムであって、
あらかじめ決められた撮像部により取得された話者の表情に基づいて、前記文字表示領域の表示態様及び前記文字表示領域に表示される文字データの表示態様の少なくとも一方を変更する字幕表示態様変更手段として更に機能させる、字幕表示処理プログラム。

【請求項3】

請求項１又は請求項２に記載の字幕表示処理プログラムであって、
前記文字表示領域とは、異なる領域に表示され、更にあらかじめ決められたルールに従って区分されたあらかじめ決められた領域である吹き出し表示領域を表示させる吹き出し表示手段と、
前記吹き出し表示領域の表示態様及び前記吹き出し表示領域に表示される前記文字データの少なくとも一方の表示態様を変更する、吹き出し表示態様変更手段と、
して機能させ、
前記吹き出し表示態様変更手段は、あらかじめ決められた撮像部により取得された話者の表情に基づいて、前記吹き出し表示領域の表示態様及び前記吹き出し表示領域に表示される文字データの表示態様を変更する、字幕表示処理プログラム。

【請求項4】

請求項１から請求項３までのいずれか１項に記載の字幕表示処理プログラムであって、
前記変更手段は、前記表示画面上に表示されるマウスポインタの位置とは異なる領域に前記文字表示領域が表示されるように、前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を変更する、字幕表示処理プログラム。

【請求項5】

請求項１から請求項４までのいずれか１項に記載の字幕表示処理プログラムであって、
前記表示位置及び前記表示サイズに対応付けられた表示切替ボタンを前記表示画面上に表示するボタン表示手段として更に機能させ、
前記変更手段は、選択された前記表示切替ボタンに対応付けられた前記表示位置及び前記表示サイズに前記文字表示領域の位置及びサイズを変更する、字幕表示処理プログラム。

【請求項6】

請求項１から請求項５までのいずれか１項に記載の字幕表示処理プログラムであって、
前記文字表示領域が重畳する位置の背景の色を取得する背景色取得部と、
前記背景色取得部により取得された前記背景の色に応じて、前記文字表示領域の透過度を変更する表示態様変更手段として更に機能させる、字幕表示処理プログラム。

【請求項7】

音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するように構成されたデータ出力部と、
前記データ出力部により出力される前記文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定するように構成された表示設定部と、
前記データ出力部により出力される前記文字データを、前記文字表示領域に表示させるように構成された表示部と、
前記表示設定部により設定された前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更するように構成された変更部と、
前記表示画面に表示された背景データに含まれる文字と当該文字の前記表示位置のデータとを含む背景文字データを取得する表示取得部と、
を備え、
前記変更部は、前記文字表示領域に表示される前の前記文字データの内容と一致する前記背景文字データが表示されている領域とは異なる領域に前記文字表示領域が表示されるように、前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を変更する、字幕表示処理装置。

【請求項8】

請求項７に記載の字幕表示処理装置であって、
前記表示部は、前記字幕表示処理装置と当該字幕表示処理装置と通信を行う他の装置とに設けられた前記表示画面において、前記文字データを前記文字表示領域に表示させる、字幕表示処理装置。

【請求項9】

少なくとも１つの端末と通信可能に接続されたサーバであって、
前記少なくとも１つの端末から取得された音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するように構成されたデータ出力部と、
前記データ出力部により出力される前記文字データを、前記少なくとも１つの端末に備えられた表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定するように構成された表示設定部と、
前記データ出力部により出力される前記文字データを、前記文字表示領域に表示させるように構成された表示部と、
前記表示設定部により設定された前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更するように構成された変更部と、
前記表示画面に表示された背景データに含まれる文字と当該文字の前記表示位置のデータとを含む背景文字データを取得する表示取得部と、
を備え、
前記変更部は、前記文字表示領域に表示される前の前記文字データの内容と一致する前記背景文字データが表示されている領域とは異なる領域に前記文字表示領域が表示されるように、前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を変更する、サーバ。

【請求項10】

請求項９に記載のサーバであって、
あらかじめ決められた外部端末に対して、前記表示部により表示させた内容を表したログを送信するログ送信部と、を更に備える、サーバ。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、文字データを含む字幕表示領域を表示させる字幕表示処理プログラム、字幕表示処理装置及びサーバに関する。

【背景技術】

【0002】

話者の音声を音声認識により認識し、認識された音声の内容を文字として表示画面内の文字表示領域に表示する技術が知られている（特許文献１参照。）。
インターネットに接続されたＰＣなどの電子機器を用いて互いに音声通話や映像の送受信を行うウェブ会議においても、音声認識された文字を表示することにより、受講者などの話者の話を聞くユーザは、聴覚によって話者の話している内容を認識できるだけでなく、視覚により文字で話者の話している内容を認識することができる。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－１６２０６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、ウェブ会議などでは、話者は、受講者のＰＣの画面を参照させながら、資料の内容について話すことがあり、当該参照している画面の文字と話者の話している内容を表した文字が重なると、画面の文字を受講者であるユーザが視認するのが困難であった。

【0005】

一方で、文字が表示される字幕表示領域を話者が操作する場合、話者は受講者に対する説明等と並行して文字が表示される字幕表示領域の操作を行わなければならず、説明と操作を並行して操作を行うことが困難であった。

【0006】

本開示の字幕表示処理プログラムは、ウェブ会議などにおいて、話者が話しながら、より簡単に字幕表示領域を含む表示画面を見やすくする技術を提供することを目的とする。

【課題を解決するための手段】

【0007】

本開示の一態様は、字幕表示処理プログラムであって、データ出力手段と、表示設定手段と、表示手段と、変更手段と、としてコンピュータを機能させる。データ出力手段は、音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力する。表示設定手段は、データ出力手段により出力される文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定する。表示手段は、データ出力手段により出力される文字データを、文字表示領域に表示させる。変更手段は、表示設定手段により設定された文字表示領域の表示位置及び表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更する。

【0008】

このような構成によれば、あらかじめ決められた変更条件に従って、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更することにより、文字表示領域により重畳されている部分を変更することにより、文字表示領域が表示される表示画面を見やすくすることができる。

【0009】

また、あらかじめ決められた撮像部により取得された話者の表情に基づいて、文字表示領域の表示態様及び文字表示領域に表示される文字データの表示態様の少なくとも一方を変更する字幕表示態様変更手段として更に機能させてもよい。

【0010】

このような構成によれば、話者の表情に基づいて表示態様が変更されることで、話者の表情に応じた表示をすることができ、表示を視認したユーザは、話者の感情を認識することができる。

【0011】

本開示の一態様では、文字表示領域とは、異なる領域に表示され、更にあらかじめ決められたルールに従って区分されたあらかじめ決められた領域である吹き出し表示領域を表示させる吹き出し表示手段と、吹き出し表示領域の表示態様及び吹き出し表示領域に表示される文字データの少なくとも一方の表示態様を変更する、吹き出し表示態様変更手段と、して機能させてもよい。吹き出し表示態様変更手段は、あらかじめ決められた撮像部により取得された話者の表情に基づいて、吹き出し表示領域の表示態様及び吹き出し表示領域に表示される文字データの表示態様を変更してもよい。

【0012】

このような構成によれば、文字表示領域とは異なる場所に表示される、吹き出し表示領域の表示態様及び吹き出し表示領域に表示される文字データの少なくとも一方の表示態様が、話者の表情に応じて変更される。すなわち話者の表情に応じて表示態様を変化させることができる。これにより、当該表示を視認したユーザは、話者の感情を認識することができる。

【0013】

本開示の一態様では、変更手段は、表示画面上に表示されるマウスポインタの位置とは異なる領域に文字表示領域が表示されるように、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更してもよい。

【0014】

このような構成によれば、マウスポインタの位置とは異なる領域に文字表示領域が表示される。このため、マウスを操作し、マウスポインタの位置を動かすことにより、文字表示領域の位置を変更することができる。

【0015】

本開示の一態様は、表示位置及び表示サイズに対応付けられた表示切替ボタンを表示画面上に表示するボタン表示手段として更に機能させてもよい。変更手段は、選択された表示切替ボタンに対応付けられた表示位置及び表示サイズに文字表示領域の位置及びサイズを変更してもよい。

【0016】

このような構成によれば、表示切替ボタンが操作されることにより、当該表示切替ボタンに対応付けられた表示位置及び表示サイズに文字表示領域の位置及びサイズが変更される。これにより、文字表示領域の位置及びサイズを変更することができ、文字表示領域が表示される表示画面を見やすくすることができる。

【0017】

本開示の一態様は、表示画面に表示された背景データに含まれる文字と当該文字の表示位置のデータとを含む背景文字データを取得する背景文字取得手段として更に機能させてもよい。変更手段は、文字表示領域に表示される前の文字データの内容と一致する背景文字データが表示されている領域とは異なる領域に文字表示領域が表示されるように、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更してもよい。

【0018】

このような構成によれば、表示画面に表示された背景データに含まれる文字と当該文字の表示位置のデータとを含む背景文字データと、文字表示領域に表示される文字データとの内容が一致する場合には、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更することで、表示画面を見やすくすることができる。

【0019】

本開示の一態様は、文字表示領域が重畳する位置の背景の色を取得する背景色取得部と、背景色取得部により取得された背景の色に応じて、文字表示領域の透過度を変更する表示態様変更手段として更に機能させてもよい。

【0020】

このような構成によれば、背景色取得部により取得された背景の色に応じて文字表示領域の透過度が変更されるため、文字表示領域を見やすくすることができる。
本開示の一態様は、字幕表示処理装置であって、データ出力部と、表示設定部と、表示部と、変更部と、を備える。データ出力部は、音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するように構成される。表示設定部は、データ出力部により出力される文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定するように構成される。表示部は、データ出力部により出力される文字データを、文字表示領域に表示させるように構成される。変更部は、表示設定部により設定された文字表示領域の表示位置及び表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更するように構成される。

【0021】

このような構成を有する字幕表示処理装置によれば、あらかじめ決められた変更条件に従って、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更することにより、文字表示領域により重畳されている部分を変更することにより、文字表示領域が表示される表示画面を見やすくすることができる。

【0022】

本開示の一態様では、表示部は、字幕表示装置と当該字幕表示装置と通信を行う他の装置とに設けられた表示画面において、文字データを文字表示領域に表示させてもよい。
このような構成によれば、字幕表示装置及び字幕表示装置と通信を行う他の端末が有する表示画面において、表示部により、文字データを表示させた文字表示領域は、変更条件に従って、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更することにより、文字表示領域により重畳されている部分を変更することにより、文字表示領域が表示される表示画面を見やすくすることができる。

【0023】

本開示の一態様は、少なくとも１つの端末と通信可能に接続されたサーバであって、データ出力部と、表示設定部と、表示部と、変更部と、を備える。データ出力部は、少なくとも１つの端末から取得された音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するように構成される。表示設定部は、データ出力部により出力される文字データを、少なくとも１つの端末に備えられた表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定するように構成される。表示部は、データ出力部により出力される文字データを、文字表示領域に表示させるように構成される。変更部は、表示設定部により設定された文字表示領域の表示位置及び表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更するように構成される。

【0024】

このような構成によれば、サーバと通信する少なくとも１つの端末から取得された音声データに基づいて出力される文字データを表示させた文字表示領域の表示位置及び表示サイズの少なくとも一方を変更することにより、文字表示領域により重畳されている部分を変更することにより、文字表示領域が表示される表示画面を見やすくすることができる。

【0025】

本開示の一態様は、ログ送信部を更に備えてもよい。ログ送信部は、通信部によりあらかじめ決められた外部端末に対して、表示部により表示させた内容を表したログを送信する。

【0026】

このような構成によれば、外部端末を用いて、サーバと通信をすることにより、表示部により表示させた内容を表したログを取得することができる。

【図面の簡単な説明】

【0027】

【図1】本実施形態における、字幕表示処理システムの構成の一例を表した概略図である。

【図2】本実施形態における、端末のハードウェア構成の一例を表した図である。

【図3】本実施形態における、サーバのハードウェア構成の一例を表した図である。

【図4】本実施形態における、サーバの機能的構成の概要の一例を表した図である。

【図5】本実施形態における、サーバの機能的構成の詳細の一例を表した図である。

【図6】本実施形態における、設定表示の一例を表した図である。

【図7】本実施形態における、表示設定部により設定される、表示画面の表示の一例を表した図である。

【図8】本実施形態における、アイコン領域の表示の一例を表した図である。

【図9】本実施形態における、表示される位置設定ウィンドウの表示の一例を表した図である。

【図10】本実施形態における、ログウィンドウの一例を表した図である。

【図11】音声認識された内容を含むログウィンドウの一例において、表示態様の変更の一例を表した図である。

【図12】本実施形態における、外部端末のハードウェア構成の一例を表した図である。

【図13】字幕表示領域が重畳する他のアプリケーションの実施により表示されたウィンドウの表示の一例を表した図である。

【図14】本実施形態における、サーバのＣＰＵが実行する表示処理の一例を表したフローチャートである。

【図15】他のアプリケーションの実施により表示されたウィンドウの表示に字幕表示領域を重畳させる表示の一例を表した図である。

【図16】他のアプリケーションの実施により表示されたウィンドウの表示に重畳させた字幕表示領域を変更させた表示の一例を表した図である。

【図17】本実施形態における、サーバのＣＰＵが実行する取得処理の一例を表したフローチャートである。

【図18】本実施形態における、サーバのＣＰＵが実行するログ送信処理の一例を表したフローチャートである。

【図19】変形例における、表示される位置設定ウィンドウの表示の一例を表した図である。

【図20】他のアプリケーションの実施により表示されたウィンドウの表示の一例を表した図である。

【図21】ウィンドウに重畳した字幕表示領域の表示の一例を表した図である。

【図22】変更条件に従って、字幕表示領域の表示の位置が変更され、表示画面の上側に表示される一例を表した図である。

【図23】音声認識された内容を含むログウィンドウの一例において、表示態様の変更の一例を表した図である。

【図24】音声認識された内容を含むログウィンドウをタブレットに表示された表示画面の一例を表した図である。

【図25】変形例における、表示設定部により設定され、表示が行われた画面の一例を表した図である。

【図26】アイコンが付加されたログウィンドウの例を表した図である。

【図27】変形例における、音声認識された内容を含む表示画面への表示が行われた画面の表示の一例を表した図である。

【図28】変形例における、音声認識された内容を含むログウィンドウの一例を表した図である。

【発明を実施するための形態】

【0028】

［１．構成］
本実施形態の字幕表示処理システム１の例について、図を用いて説明する。字幕表示処理システム１は、複数の端末１００同士が、通信ネットワークを用いて音声、映像及び表示を用いて情報伝達を行うためのシステムである例に適用して説明する。具体的には、例えば、いわゆるウェブ会議に用いられるシステムである例に適用して説明する。

【0029】

なお、本実施形態の字幕表示処理システム１は、ウェブ会議を実行するために用いられるものに限定されるものではなく、例えばテレビ電話や、動画配信サービスなどの通信を用いた映像及び音声の配信などに用いられてもよい。

【0030】

図１は、字幕表示処理システム１の構成の概略図である。
図１に示すように、本実施形態の字幕表示処理システム１は、複数の端末１００と、サーバ２００と、を有する例に適用して説明する。また、本実施形態の字幕表示処理システム１は、更に外部端末３００と通信可能である例に適用して説明する。

【0031】

本実施形態では、字幕表示処理システム１に含まれる端末１００の数は２つである例に適用して説明する。以下では、複数の端末１００のそれぞれを区別する場合には、それぞれ、第１の端末１００ａ、第２の端末１００ｂとも記載する。また、本実施形態では、字幕表示処理システム１に含まれる端末１００の数は、２つである例について記載したが、字幕表示処理システム１に含まれる端末１００の数は３つ以上であってもよい。ここでいう端末１００は、通信ネットワークを用いてＰＣなどの他の端末１００と通信可能である例に適用して説明する。また、ここでいう通信ネットワークとは、インターネットである例に適用して説明する。

【0032】

サーバ２００は、複数の端末１００から通信ネットワークを通じて送信される要求に応じて、所定のサービスを提供する機能を実現するために稼働しているコンピュータである。ここで、本実施形態でいう、サーバ２００が提供する機能としては、ウェブ会議等において、音声認識等に基づく表示を行う機能を少なくとも含む例に適用して説明する。本実施形態においては、ウェブ会議を行っている端末１００の画面上に、音声認識などに基づく表示を重畳して行う例に適用して説明する。

【0033】

外部端末３００は、ウェブ会議において、音声認識などに基づいて表示された内容を取得するものである。本実施形態では、外部端末３００は、タブレット端末である例に適用して説明する。なお、外部端末３００は、タブレット端末に限定されるものではなくいわゆるスマートフォンでもよい。また、外部端末３００は、通信機能を有するＰＣであってもよい。

【0034】

図２は、端末１００のハードウェア構成の一例を表した図である。
図２に示すように、端末１００は、入力インターフェース１０と、出力インターフェース２０と、通信モジュール３０と、ＣＰＵ４０と、メモリ５０と、を備える。

【0035】

入力インターフェース１０は、端末１００に対して、情報や操作を入力するためのインターフェースである。
入力インターフェース１０には、キーボード１１と、マウス１２と、マイクモジュール１３と、カメラモジュール１４と、が含まれる。

【0036】

キーボード１１は、一般にＰＣに対する入力装置として用いられるものである例に適用して説明する。キーボード１１は、端末１００に対して文字の入力及び操作の入力をいわゆるタイピング操作による入力を行うために用いられる。

【0037】

マウス１２は、一般にＰＣに対する入力装置として用いられるものである例に適用して説明する。
マウス１２は、端末１００に対してクリック操作と、ポインティング操作と、ドラッグ操作と、を含む操作を入力するために用いられるものである例に適用して説明する。ここでいうクリック操作は、マウス１２に配置されたボタンを押下する操作をいう。ポインティング操作は、表示上に示されたマウス１２のカーソルの位置を所望の位置に配置させる操作をいう。また、ドラッグ操作は、マウス１２に配置されたボタンを押下した状態で、マウスポインタＰの位置を移動させる操作をいう。

【0038】

マイクモジュール１３は、端末１００に対して音声による入力を行うために用いられるものである例に適用して説明する。
カメラモジュール１４は、映像を撮像し、撮像した映像を端末１００に対する入力を行うために用いられるものである例に適用して説明する。本実施形態におけるカメラモジュール１４は、端末１００のユーザの顔を撮像する向きに配置される例に適用して説明する。具体的には、後述するディスプレイ２１の表示画面Ｄが表示する向きを向くように配置される。

【0039】

出力インターフェース２０は、端末１００から音声や表示等を出力するために用いられるものである例に適用して説明する。
出力インターフェース２０は、ディスプレイ２１と、スピーカー２２と、を備える例に適用して説明する。

【0040】

ディスプレイ２１は、入力される映像信号に応じて、表示の出力を行う例に適用して説明する。
スピーカー２２は、音声の出力を行う例に適用して説明する。

【0041】

通信モジュール３０は、他の装置と通信を行うために用いられる。ここで、通信モジュール３０は、通信ネットワークを通じて他の端末１００と外部端末３００と通信可能なものである例に適用して説明する。また、ここでいう通信ネットワークはインターネットである例に適用して説明する。

【0042】

ＣＰＵ４０は、所定のプログラムを実行するものである。ＣＰＵ４０は、少なくともメモリ５０に記憶されたプログラムを実行する。また、ＣＰＵ４０は、通信ネットワークを通じて、サーバ２００に記憶されたプログラムを実行する。

【0043】

メモリ５０は、種々の情報を記憶する記憶媒体である。メモリ５０には、ＣＰＵ４０により実行されるプログラムが含まれる。
なお、端末１００に備えられる、入力インターフェース１０、出力インターフェース２０、通信モジュール３０、ＣＰＵ４０及びメモリ５０は、着脱可能なものであってもよい。

【0044】

図３は、サーバ２００のハードウェア構成の一例を表した図である。
本実施形態のサーバ２００は、通信モジュール１０Ｓと、ＣＰＵ２０Ｓと、メモリ３０Ｓと、を有する例に適用して説明する。

【0045】

通信モジュール１０Ｓは、複数の端末１００と通信ネットワークを介しての通信に用いられる。通信モジュール１０Ｓと複数の端末１００とは、インターネットを通じた通信が可能である例に適用して説明する。

【0046】

ＣＰＵ２０Ｓは、所定のプログラムを実行する。ＣＰＵ２０Ｓは、少なくともＣＰＵ２０Ｓに記憶されたプログラムを実行する。また、ＣＰＵ２０Ｓは、複数の端末１００からの要求に応じてプログラムを実行する。

【0047】

メモリ３０Ｓは、種々の情報を記憶する記憶媒体である。メモリ３０Ｓには、ＣＰＵ２０Ｓにより実行されるプログラムが含まれる。さらに、メモリ３０Ｓには、複数の端末１００からの要求に応じて実行されるプログラムが含まれてもよい。メモリ３０Ｓに記憶されるプログラムには、後述する表示処理を実行するための字幕表示処理プログラムが含まれる。

【0048】

図４は、サーバ２００の機能的構成の概要を表した図である。
図４に示すように、サーバ２００は、取得部２１０と、処理部２２０と、記憶部２３０と、出力部２４０と、ログ送信部２５０と、を機能的構成として有する。本実施形態では、サーバ２００が有する機能的構成が有する各機能は、ＣＰＵ２０Ｓが実行するプログラムにより実現される例に適用して説明する。

【0049】

取得部２１０は、字幕表示処理システム１に含まれる端末１００から通信モジュール１０Ｓを用いて、情報を取得する。
処理部２２０は、取得部２１０により取得した情報に基づいて、処理を実行する。

【0050】

記憶部２３０は、処理部２２０による処理の結果を記憶する。
出力部２４０は、処理部２２０による処理の結果を、通信モジュール１０Ｓを用いて出力する。

【0051】

ログ送信部２５０は、端末１００に送信した字幕表示領域ｗ２の記録に対応したログウィンドウｗ５をログとして外部端末３００に送信する。なお、本実施形態では、ログ送信部２５０による外部端末３００へのログの送信は、通信モジュール１０Ｓを用いたものである例に適用して説明する。

【0052】

図５は、サーバ２００の機能的構成の詳細を表した図である。
取得部２１０は、音声取得部２１１と、操作取得部２１３と、表示取得部２１５と、映像取得部２１７と、設定取得部２１９と、を機能的構成として有する。

【0053】

音声取得部２１１は、通信モジュール１０Ｓを用いて、字幕表示処理システム１に含まれる端末１００から音声の情報を取得する。すなわち、音声取得部２１１は、各端末１００に入力された音声の情報を取得する。例えば、端末１００に備えられたマイクモジュール１３を用いて入力されたユーザの音声などを取得する。

【0054】

操作取得部２１３は、通信モジュール１０Ｓを用いて、字幕表示処理システム１に含まれる端末１００に入力された操作の情報を取得する。例えば、端末１００に備えられたキーボード１１及びマウス１２を用いて入力されたユーザの操作を取得する。

【0055】

表示取得部２１５は、通信モジュール１０Ｓを用いて、端末１００のディスプレイ２１への表示に関する情報である表示情報を取得する。ここで、表示情報には、ディスプレイ２１の表示の情報と、ディスプレイ２１に表示される内容の情報とが含まれる。ディスプレイ２１の情報には、例えば、ディスプレイのサイズ、数、解像度、表示可能色数の情報が含まれる例に適用して説明する。ディスプレイ２１の情報は、例えば、ＥＤＩＤのデータに含まれるものであってもよい。ここで、ＥＤＩＤとは、ＥｘｔｅｎｄｅｄＤｉｓｐｌａｙＩｄｅｎｔｉｆｉｃａｔｉｏｎＤａｔａの略称である。

【0056】

また、ディスプレイ２１に表示される内容の情報とは、ディスプレイ２１に画像または映像として出力される情報を表したものであり、文字や図形などの表示が含まれる。また、ディスプレイ２１に表示される内容の情報には、ディスプレイ２１の表示画面Ｄの背景の色及び表示されている文字の情報が含まれる。ディスプレイ２１に表示される内容の情報は、例えば、ウィンドウを表示しているソフトウェアを実行しているＯＳのＡＰＩを経由して検知を行ってもよい。なお、ＯＳとは、ＯｐｅｒａｔｉｏｎＳｙｓｔｅｍの略称である。また、ＡＰＩとは、ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅの略称である。

【0057】

映像取得部２１７は、通信モジュール１０Ｓを用いて、字幕表示処理システム１に含まれる端末１００に入力された映像の情報を取得する。例えば端末１００に備えられたカメラモジュール１４により撮像され、端末１００へと入力された映像の情報を取得する。

【0058】

設定取得部２１９は、通信モジュール１０Ｓを用いて、字幕表示処理システム１に含まれる端末１００において設定された設定情報を取得する。
本実施形態では、設定情報は、端末１００の表示画面Ｄに設定表示ｗ４が表示され、表示された設定表示ｗ４について、端末１００のユーザがキーボード１１及びマウス１２を用いた操作を行うことにより設定される情報である例に適用して説明する。

【0059】

図６は、設定表示ｗ４の一例を示す。
図６に示すように、設定表示ｗ４は、認識言語設定ボタンｈ１と、翻訳言語ボタンｈ２と、文字サイズ設定ボタンｈ３と、文字色設定ボタンｈ４と、透過度設定ボタンｈ５と、背景色設定ボタンｈ６と、話者設定ボタンｈ７と、ミュートボタンｈ８と、翻訳実施／終了ボタンｈ９と、を有する。

【0060】

認識言語設定ボタンｈ１は、音声認識の言語をあらかじめ設定するボタンである。認識言語設定ボタンｈ１がクリック操作されると、「日本語」、「英語」、「中国語」などの種々の言語が表示される。表示された言語から話者があらかじめ話す言語がクリック操作などにより選択されることにより、音声認識の言語が設定される。音声認識の言語が設定されると、当該選択された言語を表す文字で、音声認識の結果を音声認識表示ａ２に表示させる。

【0061】

翻訳言語ボタンｈ２は、入力された音声を翻訳した後の言語を設定するボタンである。翻訳言語ボタンｈ２がクリック操作されると、「日本語」、「英語」、「中国語」などの種々の言語が表示される。表示された言語から翻訳する言語がクリック操作などにより選択されることにより、翻訳する言語が設定される。翻訳する言語が設定されると、当該選択された言語を表す文字で、音声認識された内容が翻訳され翻訳表示ａ３に表示される。

【0062】

文字サイズ設定ボタンｈ３は、話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３に表示される文字のサイズを設定するために用いられるボタンである。文字サイズ設定ボタンｈ３がクリック操作されると、「１０ｐｔ」「１５ｐｔ」「２０ｐｔ」などの文字のサイズを表すボタンが表示され、いずれかのボタンがクリック操作で選択されることにより、選択されたボタンに対応したサイズに話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３に表示される文字のサイズが設定される。

【0063】

文字色設定ボタンｈ４は、話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３に表示される文字の色を設定するために用いられるボタンである。文字色設定ボタンｈ４がクリック操作されると、赤、青、緑などの文字の色を表すボタンが表示され、いずれかのボタンがクリック操作により選択されることにより、選択されたボタンに対応した色に話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３に表示される文字の色が設定される。当該文字の色を表すボタンとしては、当該色で表されたボタンが表示されてもよい。

【0064】

透過度設定ボタンｈ５は、話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３に表示される字幕表示領域ｗ２の背景の透過度を設定するために用いられるボタンである。透過度設定ボタンｈ５がクリック操作されると、「２０％」「５０％」「７０％」などの透過度を表すボタンが表示され、いずれかのボタンがクリック操作により選択されることにより、選択されたボタンに対応した透過度に字幕表示領域ｗ２の背景の透過度が設定される。

【0065】

背景色設定ボタンｈ６は、話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３に表示される字幕表示領域ｗ２の背景の色を設定するために用いられるボタンである。背景色設定ボタンｈ６がクリック操作されると、赤、青、緑などの透過度を表すボタンが表示され、いずれかのボタンがクリック操作により選択されることにより、選択されたボタンに対応した色に字幕表示領域ｗ２の背景の色が設定される。なお、当該背景の色を表すボタンとしては、当該色で表されたボタンが表示されてもよい。また、背景色設定ボタンｈ６で選択可能な背景の色は、文字色設定ボタンｈ４で選択可能に表示されるボタンの色に比べて薄い色または濃い色が選択可能に表示されてもよい。このように選択可能な背景の色が設定されることにより、同じ色が選択された場合でも、背景の色と文字の色とが同じになることにより文字が背景に埋もれることを防止しつつ、表示させることができる。

【0066】

話者設定ボタンｈ７は、話者ごとに表示を設定する際に用いられるボタンである。話者設定ボタンｈ７がクリック操作されると、選択可能な話者を表したボタンが表示され、いずれかのボタンがクリック操作により選択されることにより、選択されたボタンに対応した話者の表示が設定可能となる。デフォルトの値としては、例えば、操作をしている端末１００のユーザが選択される。そして、話者が選択された状態において、認識言語設定ボタンｈ１、翻訳言語ボタンｈ２、文字サイズ設定ボタンｈ３、文字色設定ボタンｈ４、透過度設定ボタンｈ５、背景色設定ボタンｈ６、ミュートボタンｈ８、翻訳実施／終了ボタンｈ９により表示を設定されることにより、当該話者に対応した表示の字幕表示領域ｗ２についての設定がなされる。

【0067】

ミュートボタンｈ８は、ミュートアイコンｃ１と同様に、ユーザによりクリック操作がされると、当該端末１００は、いわゆるミュート状態となる。
翻訳実施／終了ボタンｈ９は、字幕表示領域ｗ２において、翻訳の実施と終了を切り替えるボタンである。翻訳が実施されている状態では字幕表示領域ｗ２には翻訳表示ａ３が含まれ、翻訳された言語での表示が行われる。一方、翻訳が終了されている状態では、字幕表示領域ｗ２には翻訳表示ａ３が含まれず、翻訳された言語での表示が非表示となる。ここで、翻訳表示ａ３の表示が非表示である場合には、翻訳表示ａ３が表示されている場合に比べて、字幕表示領域ｗ２における話者表示ａ１及び音声認識表示ａ２の表示を大きく表示するように設定されてもよい。

【0068】

文字入力アイコンｃ５は、種々の文字を入力可能とするためのアイコンである。例えば、字幕表示領域ｗ２に加えて、文字を記録させたい場合などに当該アイコンがクリックされることにより入力可能なモードとなり、当該入力可能モードにおいて、字幕表示領域ｗ２が選択されることにより当該字幕表示領域ｗ２に入力された文字が、字幕表示領域ｗ２に表示される文字に加えられるものであってもよい。なお、すでに字幕表示領域ｗ２に表示されている文字を、キーボード１１を用いて削除可能としてもよい。

【0069】

処理部２２０は、認識部２２１と、表示設定部２２３と、を機能的構成として有する。
認識部２２１は、取得部２１０により取得された音声、映像及び表示の情報に基づいて所定の処理を実行する。

【0070】

認識部２２１は、音声認識部２２１ａと、翻訳部２２１ｂと、感情認識部２２１ｃと、話者認識部２２１ｄと、表示認識部２２１ｅと、を備える。
音声認識部２２１ａは、音声取得部２１１により取得された音声を音声認識する。ここでいう音声認識とは、音声取得部２１１により取得された音声を当該音声に対応した文字列に変換することをいう。音声認識には、人工知能を用いた音声認識エンジンが用いられる例に適用して説明する。

【0071】

翻訳部２２１ｂは、音声取得部２１１により取得された音声を所定の言語に翻訳する。翻訳には、人工知能による翻訳エンジンが用いられる例に適用して説明する。なお、翻訳部２２１ｂによる翻訳は、音声取得部２１１により取得された音声を直接翻訳してもよく、音声認識部２２１ａにより音声認識された結果をさらに翻訳してもよい。また、本実施形態では、翻訳部２２１ｂにより翻訳される言語、すなわち翻訳後の言語は、あらかじめ設定取得部２１９から取得されるものであってもよい。

【0072】

感情認識部２２１ｃは、音声取得部２１１により取得された端末１００に入力された話者の音声及び映像取得部２１７により取得された端末１００に入力された映像に含まれる話者の表情から、端末１００の話者の感情を認識する。ここでいう話者の感情は、喜怒哀楽の４つの分類をいう例に適用して説明する。なお、話者の感情は喜怒哀楽に限定されるものではなく、種々の感情に分類されてもよい。なお、話者の音声による感情認識は、音声の高低や、大きさにより認識される例に適用して説明する。また、話者の表情による感情認識は、人工知能を用いた技術が用いられる。さらに、話者の表情及び音声から話者の感情が最も高ぶった箇所を認識する例に適用して説明する。すなわち、感情認識において、喜怒哀楽の度合いを認識し、度合いの高い部分、低い部分を認識するように構成されてもよい。具体的には、認識された声の大きい箇所や、無表情の状態に対して目や口などの動きが大きい箇所で、特に喜怒哀楽の度合いが高いと判定されてもよい。

【0073】

話者認識部２２１ｄは、音声取得部２１１により取得された音声の話者を認識する。話者認識部２２１ｄによる話者の認識は、音声認識部２２１ａにより認識された音声に基づくものである例に適用して説明する。話者の認識は、音声認識部２２１ａによる音声認識の結果に基づくものに限定されるものではない。例えば、映像取得部２１７により取得されたユーザの顔の映像に基づくものであってもよい。具体的には、顔の動きから、話者を認識するものであってもよい。また、音声取得部２１１により取得された音声に基づくものであってもよい。例えば、端末１００がユーザのそれぞれに割り当てられている場合には、音声を認識した端末１００のユーザを話者として認識してもよい。

【0074】

表示認識部２２１ｅは、端末１００のディスプレイ２１における表示画面Ｄに表示された内容を認識するものである。
表示設定部２２３は、認識部２２１により認識された内容に基づいて表示を設定する。図７は、表示設定部２２３により設定される表示画面Ｄの表示の例を表した図である。

【0075】

図７に示すように、ディスプレイ２１の表示画面Ｄにおいて、種々の表示がなされるものとして説明する。すなわち、表示画面Ｄには、デスクトップの背景が表示される。本実施形態では、デスクトップの背景に、重畳にして、ウィンドウｗ１が表示されている例に適用して説明する。また、ウィンドウｗ１は、デスクトップの背景に重なって、いわゆる全画面表示で表示されている例に適用して説明する。

【0076】

表示設定部２２３により、設定される字幕表示領域ｗ２は、表示画面Ｄ及び表示されているウィンドウｗ１に重畳して表示されるように設定される。
表示設定部２２３により字幕表示領域ｗ２は、話者表示ａ１、音声認識表示ａ２、翻訳表示ａ３及びアイコン領域ｂ１を有する。

【0077】

話者表示ａ１は、話者認識部２２１ｄにより認識された話者の名前を表示する領域である。話者表示ａ１に表示される話者の名前は、図７に示すようにアルファベットで表示されるものであってもよく、ひらがなやカタカナ、漢字で表示されるものであってもよい。

【0078】

音声認識表示ａ２は、音声取得部２１１により取得された音声を音声認識部２２１ａにより音声認識された内容を文字列として表示する領域である。
翻訳表示ａ３は、音声取得部２１１により取得された音声を翻訳部２２１ｂにより所定の言語に翻訳された内容を文字列として表示する領域である。

【0079】

字幕表示領域ｗ２の話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３は、それぞれ、認識された話者が変更されるごとに切り替わる。また、字幕表示領域ｗ２の話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３は、同一の話者が続けて話している場合であっても、所定の時間が空いた場合には、表示を削除し、改めて話者、音声認識の内容、翻訳の内容が、それぞれ話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３に表示される。ここで、字幕表示領域ｗ２の音声認識表示ａ２及び翻訳表示ａ３に表示される文字数が、あらかじめ決められた文字数以上となった場合には、音声認識表示ａ２及び翻訳表示ａ３の表示がスクロールされて表示されてもよい。また、文字数が話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３に表示されるように文字のサイズを小さくするように表示が制御されてもよい。さらに文字の表示のサイズを小さくする場合に、字幕表示領域ｗ２の背景の色と話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３に表示される文字の色との明暗をより見やすいように、文字及び表示領域の背景の色とが調整されてもよい。本実施形態では、字幕表示領域ｗ２の背景の色の明度が、文字の色の明度に対して一定以上異なるように調整されるように設定される例に適用して説明する。

【0080】

アイコン領域ｂ１は、所定のアイコンが表示されている領域である。
アイコン領域ｂ１の表示の例を図８に示す。図８に示すように、アイコン領域ｂ１に表示されるアイコンには複数のアイコンが含まれる例に適用して説明する。ここで、複数のアイコンのそれぞれは、対応した機能を実行するために用いられる。

【0081】

本実施形態では、複数のアイコンとして、ミュートアイコンｃ１と、ダウンロードアイコンｃ２と、位置設定アイコンｃ３と、詳細設定アイコンｃ４と、文字入力アイコンｃ５と、が含まれる例に適用して説明する。

【0082】

ミュートアイコンｃ１は、ミュート状態のオンオフを切り替えるためのボタンである。具体的には、端末１００のディスプレイ２１に表示されたミュートアイコンｃ１がユーザによりクリック操作がされると、当該端末１００は、いわゆるミュート状態となる。ここでいうミュート状態とは、端末１００に配置されたマイクモジュール１３により取得された音声データのサーバ２００への送信を中止している状態を指す。なお、ミュート状態において、ミュートアイコンｃ１がクリック操作されることで、元の状態、すなわち、音声データのサーバ２００への送信を再開する。

【0083】

ダウンロードアイコンｃ２は、字幕表示領域ｗ２に表示された、話者表示ａ１、音声認識表示ａ２及び翻訳表示ａ３の内容をダウンロードするために用いられる。
位置設定アイコンｃ３は、当該端末１００の表示画面Ｄにおいて字幕表示領域ｗ２の位置を調整するために用いられるアイコンである。

【0084】

具体的には、位置設定アイコンｃ３が端末１００のマウス１２を用いてクリック操作されると、位置設定ウィンドウｗ３が表示される。表示される位置設定ウィンドウｗ３の表示の例を図９に示す。当該位置設定ウィンドウｗ３に表示されるボタンには複数のボタンが含まれる例に適用して説明する。位置設定ウィンドウｗ３に表示されるボタンの例として、表示切替ボタンｄ１と、ｄ２と、ｄ３と、ｄ４と、ｄ５と、を示す。

【0085】

表示切替ボタンｄ１、ｄ２、ｄ３、ｄ４、ｄ５はそれぞれ、画面上の位置に対応している。具体的には、表示切替ボタンｄ１がクリック操作されることにより、字幕表示領域ｗ２は表示画面Ｄの上側に表示される。ここで、表示画面Ｄの上側とは、ディスプレイ２１が配置された際の上側をいう。ただし、表示画面Ｄの上側は、ディスプレイ２１が配置された際の上側を意味するものに限定されるものではない。具体的には、表示画面Ｄにおいて、画像の信号が入力される最初の行が配置されている側であってもよい。

【0086】

同様に、表示切替ボタンｄ２がクリック操作されることにより、字幕表示領域ｗ２は表示画面Ｄの上下方向の中央に表示される。また、表示切替ボタンｄ３がクリック操作されることにより、字幕表示領域ｗ２は、表示画面Ｄの下側に表示される。さらに、表示切替ボタンｄ４がクリック操作されることにより、字幕表示領域ｗ２は、表示画面Ｄの左側に表示される。表示切替ボタンｄ５がクリック操作されることにより、字幕表示領域ｗ２は、表示画面Ｄの右側に表示される。

【0087】

本実施形態では、右側とは、表示画面Ｄの右側半分に含まれる範囲をいい、左側とは、表示画面Ｄの左側半分に含まれる範囲をいう。上側とは、表示画面Ｄの上側３分の１に含まれる範囲をいい、中央とは、表示画面Ｄの中央３分の１に含まれる範囲をいい、下側とは、表示画面Ｄの下側３分の１に含まれる範囲をいう。また、各位置に変更する際に、当該範囲に含まれるように、字幕表示領域ｗ２のサイズが変更される例に適用して説明する。なお、字幕表示領域ｗ２の表示は位置及びサイズの両方が変更されるものに限定されるものではなく、位置及びサイズの一方のみが変更されるものであってもよい。

【0088】

このように表示切替ボタンｄ１～ｄ５と、当該表示切替ボタンｄ１～ｄ５のそれぞれに対応した字幕表示領域ｗ２が表示される位置との対応関係を示したが、表示切替ボタンｄ１～ｄ５のそれぞれと字幕表示領域ｗ２の表示される位置との対応は、このような対応関係に限定されるものではない。具体的には、例えば、表示切替ボタンｄ１～ｄ５のそれぞれがクリック操作されることにより、上下、左右、中央の位置に表示されるものに限定されるものではなく、表示画面Ｄのそれぞれ互いに異なる位置に字幕表示領域ｗ２を表示させるものであってもよい。

【0089】

また、詳細設定アイコンｃ４は、例えば、字幕表示領域ｗ２の表示内容を設定するための設定表示ｗ４を表示するために用いられるアイコンである。詳細設定アイコンｃ４がクリック操作されることにより設定表示ｗ４が表示される。

【0090】

表示設定部２２３は、文字設定部２２３ａと、背景設定部２２３ｂと、領域設定部２２３ｃと、アイコン設定部２２３ｄと、を機能的構成として有する。
文字設定部２２３ａは、音声認識部２２１ａにより認識された内容及び翻訳部２２１ｂにより翻訳された内容を、文字列として表示する際の文字のサイズ、文字種及び色などの表示態様を設定する。文字設定部２２３ａは、音声認識部２２１ａにより認識された内容を表示する表示態様と、翻訳部２２１ｂにより翻訳された内容を表示する表示態様とが異なるように設定してもよい。具体的には、音声認識表示ａ２及び翻訳表示ａ３に表示される文字の表示態様を設定する。

【0091】

背景設定部２２３ｂは、音声認識部２２１ａにより認識された内容及び翻訳部２２１ｂにより翻訳された内容を表示する字幕表示領域ｗ２の背景の設定を行う。ここで、背景設定部２２３ｂにより設定される字幕表示領域ｗ２の背景の色は、端末１００のデスクトップの背景の色に基づいて設定されてもよい。さらに、端末１００において、所定のソフトウェアが実行され、実行されたソフトウェアに基づいてウィンドウｗ１が表示されている場合には、当該表示されているウィンドウｗ１に含まれる色に基づいて設定されてもよい。言い換えると、背景設定部２２３ｂにより設定される字幕表示領域ｗ２の背景の色は、字幕表示領域ｗ２により重畳される範囲の色に基づいて設定されてもよい。

【0092】

具体的には、ウィンドウｗ１の重畳される範囲の色と反転させた色が字幕表示領域ｗ２の背景の色として設定されてもよい。また、背景設定部２２３ｂにより設定される字幕表示領域ｗ２の背景の色は、当該字幕表示領域ｗ２に表示される文字色と、重畳されるウィンドウｗ１の範囲の色とに基づいて設定されてもよい。具体的には、背景設定部２２３ｂにより設定される字幕表示領域ｗ２の背景の色は、字幕表示領域ｗ２に表示される文字色を反転させた色が用いられてもよい。すなわち、例えば、字幕表示領域ｗ２に表示される文字の文字色が白色である場合には、字幕表示領域ｗ２の背景の色としては黒色が用いられてもよく、字幕表示領域ｗ２に表示される文字の文字色が黒色である場合には、字幕表示領域ｗ２の背景の色としては白色が用いられてもよい。

【0093】

次に、文字色と、その字幕表示領域ｗ２が重畳される範囲の色、具体的には、デスクトップの背景の色や表示されているウィンドウｗ１に含まれる色と、が類似する場合には、背景設定部２２３ｂにより設定される字幕表示領域ｗ２の背景の色が濃く表示されてもよい。また、文字色と、デスクトップの背景の色や表示されているウィンドウｗ１に含まれる色と、が非類似である場合には、背景設定部２２３ｂにより設定される字幕表示領域ｗ２の背景の色が薄く表示されてもよい。当該字幕表示領域ｗ２の背景の色の濃淡の設定は、いわゆる透過度を調整することにより行われてもよい。すなわち、透過度を低くすることにより、当該領域の背景は濃くなり、透過度を高くすることにより、当該領域の背景が薄くなるように調整されてもよい。また、色同士が非類似とは、例えば、色同士の明度及び再度が所定の閾値以上異なることをいう。

【0094】

また、背景設定部２２３ｂの背景の色は、感情認識部２２１ｃにより認識された話者の感情によって異なる色に設定されてもよい。具体的には、例えば、話者の怒りの感情を認識した場合に赤色となるように設定され、話者の悲しみの感情を認識した場合に、青色となるように設定されてもよい。他にも話者の感情を細かく分類できる場合には当該分類のそれぞれに応じて色が設定されてもよい。

【0095】

また、背景設定部２２３ｂの背景の色は、話者認識部２２１ｄにより認識された話者に応じて、色が変更されてもよい。すなわち、ある話者が話している内容を表示する場合には、赤色で表示し、その他の話者が話している内容を表示する場合には青色で表示するなどであってもよい。また、話者それぞれに色を割り当て、話者ごとに色が変更されてもよい。

【0096】

領域設定部２２３ｃは、字幕表示領域ｗ２が表示される位置を設定する。
記憶部２３０は、出力記憶部２３１と、設定記憶部２３３と、を機能的構成として有する。

【0097】

出力記憶部２３１は、出力部２４０により出力された映像、表示、文字をそれぞれメモリ３０Ｓに記憶させる。
設定記憶部２３３は、処理部２２０において処理を行う際に必要な情報をメモリ３０Ｓに記憶させる。処理部２２０において処理を行う際に必要な情報は、あらかじめ初期値を記憶させてもよい。また、字幕表示処理システム１の各端末１００に記憶された情報から取得した情報をメモリ３０Ｓに記憶させてもよい。

【0098】

出力部２４０は、表示設定部２２３により設定された字幕表示領域ｗ２と、字幕表示領域ｗ２とは異なる領域にログウィンドウｗ５を端末１００のディスプレイ２１の表示画面Ｄに表示させる。

【0099】

図１０は、ログウィンドウｗ５の一例を表した図である。図１０に示したログウィンドウｗ５は、は、音声認識された内容を含む。
図１０を用いて、表示されるログウィンドウｗ５の一例について説明する。表示されるログウィンドウｗ５は、表示された字幕表示領域ｗ２の表示に対応してブロックｆごとに分かれて表示される。ブロックｆは、例えば、字幕表示領域ｗ２の話者表示ａ１、音声認識表示ａ２、翻訳表示ａ３に表示された内容に対応して、話者ログｇ１、音声認識ログｇ２、翻訳ログｇ３を有する。

【0100】

ログウィンドウｗ５に含まれるブロックｆは、当該ブロックｆに含まれる内容の音声を認識した際の話者の感情に応じて表示態様が変更される例に適用して説明する。例えば、ブロックｆの背景の色が感情に応じて色が変化していてもよい。また、話者ログｇ１、音声認識ログｇ２、翻訳ログｇ３に含まれる文字の表示が、感情に応じて表示態様が変更されていてもよい。具体的には、話者ログｇ１、音声認識ログｇ２、翻訳ログｇ３の背景の色、文字の書体、サイズ及び色が感情に応じて変更されていてもよい。

【0101】

図１０に示したログウィンドウｗ５の表示例において、文字の大きさが変更された例を図１１に示す。図１１では、例えば、話者の感情が「喜」であった場合に、文字のサイズを大きくする例に適用して説明する。なお、表示態様を変更するのは、話者の感情が「喜」であると認識した場合に限定されるものではなく、「怒」「哀」「楽」のいずれかである場合に変更されるものであってもよく、認識された感情に応じてそれぞれ異なる表示態様で表示されるものであってもよい。

【0102】

また、変更される表示態様は文字のサイズに限定されるものではなく、文字の書体や色などであってもよい。本実施形態では、話者ログｇ１、音声認識ログｇ２及び翻訳ログｇ３の領域ごとに表示態様を変更する例に適用して説明するが、話者ログｇ１、音声認識ログｇ２及び翻訳ログｇ３それぞれの一部分を変更するものであってもよく、変更する一部分は、領域に表示される文字に対応する音声が認識された際に、最も話者の感情が認識された部分であってもよい。なお、認識された話者の感情の大きさは、後述する感情認識部２２１ｃによる認識によりなされる例に適用して説明する。

【0103】

次に外部端末３００のハードウェア構成を、図を用いて説明する。図１２は、本実施形態における外部端末３００のハードウェア構成を表した図である。
外部端末３００は、タッチパネル１０Ｔと、表示画面２０Ｔと、通信モジュール３０Ｔと、ＣＰＵ４０Ｔと、メモリ５０Ｔと、を備える。

【0104】

タッチパネル１０Ｔは、タッチ操作を行うことにより外部端末３００に対して入力操作が可能なインターフェースである。本実施形態でいうタッチ操作には、タップ操作、フリック操作などのユーザが触れることにより入力可能な種々の操作が含まれる例に適用して説明する。さらに、入力操作には、タッチパネル１０Ｔに指などを近づけて操作するホバー操作が含まれてもよい。タッチパネル１０Ｔとしては一般的なスマートフォンやタブレット端末に用いられるものであってもよい。

【0105】

表示画面２０Ｔは、本実施形態では、液晶パネルや有機ＥＬパネルなどの画面が用いられる例に適用して説明する。ここでいう有機ＥＬとは、有機Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅの略称である。

【0106】

通信モジュール３０Ｔは、字幕表示処理システム１の端末１００及びサーバ２００と通信するために用いられるモジュールである。本実施形態では、外部端末３００は、サーバ２００と直接通信を行う例に適用して説明する。なお、外部端末３００は、サーバ２００と直接通信するものに限定されるものではなく、端末１００を経由して、サーバ２００と通信するものであってもよい。

【0107】

ＣＰＵ４０Ｔは、種々のプログラムを実行するものである。本実施形態では、ＣＰＵ４０Ｔが実行するプログラムには、メモリ５０Ｔに記憶されたプログラムが含まれる例に適用して説明する。

【0108】

メモリ５０Ｔは、プログラムを含む種々の情報を記憶する記憶媒体である。本実施形態では、メモリ５０Ｔに記憶されたプログラムには、サーバ２００に記憶されたログの取得に用いられるプログラムが含まれる例に適用して説明する。

【0109】

なお、音声認識部２２１ａ及び翻訳部２２１ｂがデータ出力手段の一例に相当し、表示設定部２２３が表示設定手段及び変更手段の一例に相当し、出力部２４０が表示手段の一例に相当する。

【0110】

表示設定部２２３が字幕表示態様変更手段、吹き出し表示手段、吹き出し表示態様変更手段及びボタン表示手段の一例に相当する。
表示取得部２１５が背景文字取得手段及び背景色取得手段の一例に相当する。

【0111】

［２．作用］
＜表示処理＞
次に、サーバ２００のＣＰＵ２０Ｓが実行する表示処理について説明する。ここでいう表示処理は、字幕表示処理システム１に含まれる複数の端末１００同士が通信を行い、いわゆるウェブ会議を行う際に、当該複数の端末１００における字幕表示領域ｗ２の表示を制御する処理をいう。なお、本実施形態では、第１の端末１００ａが第２の端末１００ｂと通信を行い、ウェブ会議を行う例に適用して説明する。ここで、第１の端末１００ａの画面の表示を制御するとともに、第１の端末１００ａに表示されている画面と同様の表示を、第２の端末１００ｂの画面に表示させる例に適用して説明する。

【0112】

本実施形態では、表示処理は、字幕表示処理システム１に含まれる端末１００からの要求に応じて実行される例に適用して説明する。
ここで、端末１００から表示処理を実行する要求は、例えば、端末１００にあらかじめ記憶されたアプリなどのソフトウェアが実行されることにより行われるものであってもよい。本実施形態では、字幕表示処理システム１に含まれる第１の端末１００ａから、表示処理を実行する要求が送信された例に適用して説明する。

【0113】

また、表示画面Ｄへの表示の一例として、図１３に示すような画面が表示されている例に適用して説明する。すなわち、図１３に示すように、ウィンドウｗ１の領域ｉ１及び領域ｉ２に、文字が表示されている例に適用して説明する。

【0114】

図１４は、サーバ２００のＣＰＵ２０Ｓが実行する表示処理を表したフローチャートである。
図１４に示すように、Ｓ１１０で、ＣＰＵ２０Ｓは、取得処理を実行する。ここでいう取得処理は、表示処理を実行する要求を送信した端末１００である第１の端末１００ａと、当該第１の端末１００ａと、ウェブ会議を行う第２の端末１００ｂとから音声、表示、操作及び映像のデータを取得する処理である。第１の端末１００ａ及び第２の端末１００ｂからのデータの取得は、サーバ２００が備える通信モジュール１０Ｓと、第１の端末１００ａが備える通信モジュール３０及び第２の端末１００ｂが備える通信モジュール３０とが通信を行うことにより行われる例に適用して説明する。取得処理の詳細は後述する。

【0115】

Ｓ１２０で、ＣＰＵ２０Ｓは、Ｓ１１０で実行された取得処理により取得された音声の音声認識を行う。
Ｓ１３０で、ＣＰＵ２０Ｓは、Ｓ１１０の取得処理において取得された音声を所定の言語に翻訳する。翻訳には、例えば、人工知能による翻訳エンジンが用いられてもよい。

【0116】

Ｓ１４０で、ＣＰＵ２０Ｓは、Ｓ１１０の取得処理において取得された音声の話者認識を行う。
Ｓ１５０で、ＣＰＵ２０Ｓは、話者の感情を認識する処理を実行する。

【0117】

Ｓ１６０で、ＣＰＵ２０Ｓは、表示設定を実行する。ここでいう表示設定とは、Ｓ１１０からＳ１５０までで取得及び認識された情報に基づいて、第１の端末１００ａ及び第２の端末１００ｂへの表示を設定するものである。

【0118】

ここで、設定される内容には、表示される文字のサイズ、色及び背景の色、透過度の他、ディスプレイ２１の表示画面Ｄに表示される表示領域の位置が含まれる。
ここで、表示領域の位置は、表示位置の設定アイコンを操作することにより設定されてもよい。

【0119】

Ｓ１７０で、ＣＰＵ２０Ｓは、Ｓ１６０で設定された表示位置が変更条件を満たすか否かを判定する。ここで、変更条件とは、Ｓ１６０で設定された表示設定により設定された表示位置を変更する必要があるか否かを表した条件をいう。本実施形態では、変更条件は、Ｓ１６０で設定された表示位置と、マウス１２の操作により表示されているマウスポインタＰとの位置に基づいて判定される例に適用して説明する。すなわち、Ｓ１６０で設定された位置に字幕表示領域ｗ２が表示された場合に、当該字幕表示領域ｗ２とマウスポインタＰの表示とが重なる場合に、変更条件を満たすと判定し、そうでない場合に変更条件を満たさないと判定する。

【0120】

具体的に、図１５及び図１６を用いて説明する。
図１５に示すように、マウスポインタＰの位置は、字幕表示領域ｗ２と重なっていない。このため、字幕表示領域ｗ２は、あらかじめ設定された位置（例えば、表示画面Ｄの下側）に表示される。

【0121】

一方、字幕表示領域ｗ２と重なる位置にマウスポインタＰが移動した場合には、図１６に示すように、字幕表示領域ｗ２の位置が表示画面Ｄの上側に位置が変更される。すなわち、字幕表示領域ｗ２は、図１５において表示されていた位置から、マウスポインタＰと重ならない位置に位置するように表示される。

【0122】

ＣＰＵ２０Ｓは、Ｓ１７０で変更条件を満たすと判定した場合には、Ｓ１８０に処理を移行する。
Ｓ１８０で、ＣＰＵ２０Ｓは、Ｓ１６０で設定された字幕表示領域ｗ２の位置を変更する処理を実行する。具体的には、マウスポインタＰの位置と重ならない位置に字幕表示領域ｗ２を移動させるように変更させる。また、字幕表示領域ｗ２の位置の変更としては、例えば、Ｓ１６０で表示画面Ｄの下側に表示位置が設定されていた場合には、表示画面Ｄの中央に設定を変更してもよく、表示画面Ｄの上下方向の中央に表示位置が設定されていた場合には、表示画面Ｄの上側に設定を変更してもよい。また、表示画面Ｄの上側に表示するように表示位置が設定されていた場合には、表示画面Ｄの下側に設定を変更してもよい。

【0123】

また、表示画面Ｄの左側に表示位置が設定されていた場合には、表示画面Ｄの右側に表示位置の設定を変更してもよく、反対に、表示画面Ｄの右側に表示位置が設定されていた場合には、表示画面Ｄの左側に表示位置の設定を変更してもよい。

【0124】

Ｓ１９０で、ＣＰＵ２０Ｓは、Ｓ１６０で設定された表示態様に基づいて、字幕表示領域ｗ２を表示する。また、Ｓ１８０で設定が変更された場合には変更された表示態様に基づいて字幕表示領域ｗ２を表示する。本実施形態では、字幕表示領域ｗ２の表示は、第１の端末１００ａと第２の端末１００ｂとの両方に表示させる例に適用して説明する。

【0125】

Ｓ２００で、ＣＰＵ２０Ｓは、Ｓ１９０で第１の端末１００ａ及び第２の端末１００ｂに表示した情報を記憶する記憶処理を実行する。また、ＣＰＵ２０Ｓは、記憶処理において、Ｓ１６０で設定された設定情報を記憶する。

【0126】

Ｓ２１０で、ＣＰＵ２０Ｓは、ウェブ会議が終了されたか否かを判定する。ウェブ会議が終了されたか否かの判定は、例えば、第１の端末１００ａ及び第２の端末１００ｂの一方からウェブ会議終了の操作がなされたか否かにより判定されてもよい。

【0127】

ＣＰＵ２０Ｓは、ウェブ会議が終了したと判定した場合には、表示処理を終了する。
一方、ＣＰＵ２０Ｓは、ウェブ会議が終了していないと判定した場合には、Ｓ１１０に処理を移行し、以降の処理を実行する。

【0128】

なお、Ｓ１１０が、取得部２１０としての処理の一例に相当し、Ｓ１２０が、音声認識部２２１ａとしての処理の一例に相当し、Ｓ１３０が、翻訳部２２１ｂとしての処理の一例に相当し、Ｓ１４０が、話者認識部２２１ｄとしての処理の一例に相当し、Ｓ１５０が、感情認識部２２１ｃとしての処理の一例に相当する。

【0129】

Ｓ１６０、Ｓ１７０及びＳ１８０が、表示設定部２２３としての処理の一例に相当し、Ｓ１９０が、出力部２４０としての処理の一例に相当し、Ｓ２００が、記憶部２３０としての処理の一例に相当する。

【0130】

＜取得処理＞
次に、ＣＰＵ２０Ｓが、表示処理のＳ１１０で実行する取得処理の詳細について、図１７のフローチャートを用いて説明する。

【0131】

Ｓ３１０で、ＣＰＵ２０Ｓは、第１の端末１００ａ及び第２の端末１００ｂの音声のデータを取得する。
ここで、取得される音声のデータは、第１の端末１００ａ及び第２の端末１００ｂのそれぞれが有するマイクモジュール１３から入力されるものである例に適用して説明する。

【0132】

Ｓ３２０で、ＣＰＵ２０Ｓは、第１の端末１００ａ及び第２の端末１００ｂの操作のデータを取得する。
ここで、取得される操作のデータは、第１の端末１００ａ及び第２の端末１００ｂのそれぞれが有する、キーボード１１及びマウス１２から入力されるものである例に適用して説明する。

【0133】

なお、ここでいうキーボード１１を用いた操作には、キーボード１１を用いた打鍵による操作が含まれる。また、マウス１２を用いた操作には、マウス１２を用いたクリック、ドラッグ＆ドロップ、スクロールなどのボタンを用いた操作及び、マウス１２によるポインタを移動させる操作などの種々の操作が含まれる。

【0134】

さらに、キーボード１１及びマウス１２を用いた操作には、各ディスプレイ２１に表示されたアイコンなどの選択等をすることにより実行されるプログラムや機能などの情報が含まれる例に適用して説明する。

【0135】

Ｓ３３０で、ＣＰＵ２０Ｓは、第１の端末１００ａ及び第２の端末１００ｂの映像のデータを取得する。
映像のデータの取得は、第１の端末１００ａ及び第２の端末１００ｂに備えられるカメラモジュール１４により撮像されるものである例に適用して説明する。

【0136】

Ｓ３４０で、ＣＰＵ２０Ｓは、第１の端末１００ａ及び第２の端末１００ｂの表示のデータを取得する。
表示のデータの取得は、第１の端末１００ａ及び第２の端末１００ｂに備えられるディスプレイ２１へ表示する画面のデータである例に適用して説明する。ここで、表示のデータには、ディスプレイ２１に表示される画像のデータに加え、ディスプレイ２１のサイズのデータが含まれる例に適用して説明する。ディスプレイ２１のサイズのデータは、例えば、ＥＤＩＤのデータに含まれるものであってもよい。ここで、ＥＤＩＤとは、ＥｘｔｅｎｄｅｄＤｉｓｐｌａｙＩｄｅｎｔｉｆｉｃａｔｉｏｎＤａｔａの略称である。

【0137】

Ｓ３５０で、ＣＰＵ２０Ｓは、第１の端末１００ａ及び第２の端末１００ｂの設定のデータを取得し、取得処理を終了する。
ここで取得される設定のデータには、表示処理のＳ１３０で翻訳される言語のデータと、Ｓ１６０で設定される表示の表示態様に関するデータと、表示される領域の背景のデータが含まれていてもよい。翻訳される言語のデータとは、例えば、音声認識されたデータとは異なる言語に翻訳する際に、いずれの言語に翻訳するかを表したデータであってもよい。また、Ｓ１２０で音声認識された文字及び、音声認識された言語をＳ１３０で翻訳された文字のサイズ、書体、色などの表示態様が記憶されてもよい。さらに、表示される領域の背景のデータとしては、表示される領域の背景の色が設定されてもよい。また、表示される領域の背景の色は、表示される背景の色を直接表したものであってもよく、表示される領域と、その領域が重畳する部分の画像の色との差分が設定されてもよい。

【0138】

ここで、Ｓ３１０での処理が音声取得部２１１としての処理の一例に相当し、Ｓ３２０での処理が操作取得部２１３としての処理の一例に相当し、Ｓ３３０での処理が、映像取得部２１７としての処理の一例に相当する。まｔ、Ｓ３４０での処理が、表示取得部２１５としての処理の一例に相当し、Ｓ３５０での処理が、設定取得部２１９としての処理の一例に相当する。

【0139】

＜ログ送信処理＞
次に、サーバ２００のＣＰＵ２０Ｓが実行するログ送信処理について、図１８を用いて説明する。ログ送信処理は、行われたウェブ会議において音声認識の結果と翻訳の結果、字幕表示領域ｗ２に表示した内容とをログとして送信する処理をいう。

【0140】

本実施形態では、外部端末３００から通信を介して、ログを送信するように要求する信号をサーバ２００が受信した際に開始する例に適用して説明する。ログを送信するように要求する信号は、例えば、サーバ２００の通信モジュール１０Ｓを用いて受信されるものである例に適用して説明する。

【0141】

Ｓ５１０で、サーバ２００のＣＰＵ２０Ｓは、ログの送信を要求した外部端末３００に対して、認証情報を要求する。ここでは、認証情報として、ＩＤとパスワードを要求する例に適用して説明する。ここで、ＩＤとパスワードとは、例えば、ウェブ会議のログごとに設定される。ＩＤは、サーバ２００のメモリ３０Ｓに記憶されたログを識別するために用いられてもよい。パスワードは、ログを取得するために必要となる文字列である。すなわち、ＩＤにより特定されたログごとに設定された、パスワードが入力されることにより、認証が解除され、当該ログの情報がサーバ２００から送信される例に適用して説明する。設定されたＩＤとパスワードは、ウェブ会議が終了した際に、当該ウェブ会議に参加した端末１００に対して、通信を介して通知されるものであってもよい。

【0142】

Ｓ５２０で、ＣＰＵ２０Ｓは、Ｓ５１０で要求した認証情報に対して、外部端末３００から認証情報の受信があったか否かを判定する。
ＣＰＵ２０Ｓは、Ｓ５２０で、認証情報の受信がないと判定した場合には、引き続き認証情報の受信を待機した状態を継続する。

【0143】

一方、ＣＰＵ２０Ｓは、Ｓ５２０で、認証情報を受信したと判定した場合には、Ｓ５３０に処理を移行する。
Ｓ５３０で、ＣＰＵ２０Ｓは、受信した認証情報に基づいて、認証を許可するか否かを判定する。具体的には、外部端末３００から受信した、ログのＩＤに対応したパスワードが正しいか否かを判定することにより、認証を許可するか否かを判定する。外部端末３００から送信を要求されたログのＩＤに対応したパスワードと外部端末３００から受信したパスワードとが一致した場合には、認証を許可し、外部端末３００から送信を要求されたログのＩＤに対応したパスワードと外部端末３００から受信したパスワードとが不一致である場合には、認証を拒否する。

【0144】

ＣＰＵ２０Ｓは、Ｓ５３０で認証を拒否すると判定した場合には、ログ送信処理を終了する。なお、この際に、外部端末３００に対して、認証を拒否する旨を通知してもよい。
一方、ＣＰＵ２０Ｓは、Ｓ５３０で認証を許可すると判定した場合には、Ｓ５４０に処理を移行する。

【0145】

Ｓ５４０で、ＣＰＵ２０Ｓは、外部端末３００に対して、ログを送信し、ログ送信処理を終了する。
なお、本実施形態では、ログ送信処理は、ログ送信部２５０としての処理に相当する。

【0146】

［３．効果］
（１）上記実施形態によれば、位置設定ウィンドウｗ３に含まれる表示切替ボタンｄ１～ｄ５のそれぞれに対応した位置に字幕表示領域ｗ２が表示される。このため、ウェブ会議などで、話者が話しながら、字幕表示領域ｗ２の位置を変更したい場合に、行う操作の負担が軽減される。

【0147】

（２）特に、ウェブ会議などでは、話者は流ちょうな説明が求められることがあり、説明の流ちょうさによって、聴衆などのウェブ会議の相手に与える印象が大きく変化する。一方で、音声認識された文字や、音声認識された文字が翻訳された文字を表示する字幕表示領域ｗ２が、重畳して表示されるウィンドウｗ１と重なって表示される場合、ウィンドウｗ１との位置によっては、説明がわかりづらくなる。

【0148】

上記実施形態によれば、字幕表示領域ｗ２とウィンドウｗ１との位置を適宜調整することができ、当該調整の操作負担が軽減されるため、話者は説明しつつ、適切な位置に字幕表示領域ｗ２を移動させやすくすることができる。

【0149】

（３）また、上記実施形態には、あらかじめ決められた位置に字幕表示領域ｗ２を移動させることができるため、字幕表示領域ｗ２の位置を移動させるために係る端末１００及びサーバ２００の負荷を軽減させることができる。

【0150】

［４．他の実施形態］
（１）上記実施形態では、字幕表示領域ｗ２の位置を設定する際に、アイコン領域ｂ１に含まれる位置設定アイコンｃ３がクリック操作されることにより、位置設定ウィンドウｗ３が表示された。そして上記実施形態では、位置設定ウィンドウｗ３において、図９に示したように表示切替ボタンｄ１～ｄ５が上下方向に並んで表示される。しかしながら、ボタンが表示される態様は、図９に示す表示切替ボタンｄ１～ｄ５のように上下方向に並んで表示されるものに限定されない。例えば、図１９に示すように、表示切替ボタンｄ１～表示切替ボタンｄ５にそれぞれの代わりに表示切替ボタンｅ１～ｅ５が表示されてもよい。表示切替ボタンｅ１～ｅ５のそれぞれの相対的な配置が、表示画面Ｄ上における字幕表示領域ｗ２を表示させる位置と、対応していてもよい。すなわち、表示画面Ｄの中央に字幕表示領域ｗ２を表示させる表示切替ボタンｅ２は、中央に配置されてもよい。さらに、表示切替ボタンｅ２の上側に、表示画面Ｄの上側に字幕表示領域ｗ２を表示させる表示切替ボタンｅ１、表示切替ボタンｅ２の下側に、表示画面Ｄの下側に字幕表示領域ｗ２を表示させる表示切替ボタンｅ３が配置されてもよい。また、表示切替ボタンｅ２の左側に、表示画面Ｄの左側に字幕表示領域ｗ２を表示させる表示切替ボタンｅ４、表示切替ボタンｅ２の右側に、表示画面Ｄの右側に字幕表示領域ｗ２を表示させる表示切替ボタンｅ５が配置されてもよい。

【0151】

このような構成によれば直感的に、字幕表示領域ｗ２の位置を設定できるため、ウェブ会議などで端末１００のユーザである話者が話しているときに字幕表示領域ｗ２の位置の設定をより行いやすい。

【0152】

（２）また、上記実施形態では、位置設定ウィンドウｗ３に表示されたボタンをクリック操作することによりクリック操作されたボタンに対応した位置に字幕表示領域ｗ２の位置が設定された。しかしながら、字幕表示領域ｗ２の位置の設定はこのような方法に限定されるものではない。

【0153】

例えば、字幕表示領域ｗ２に表示される文字が表す内容と、字幕表示領域ｗ２が重畳して表示されるウィンドウｗ１に表示された文字とが重ならないように字幕表示領域ｗ２の位置が設定されてもよい。さらに、ウィンドウｗ１において表示された文字を取得し、当該取得された文字と、同様の内容を字幕表示領域ｗ２に表示する場合に、当該ウィンドウｗ１において取得された文字が表示されている位置以外の位置に、字幕表示領域ｗ２が表示されるように設定されてもよい。ウィンドウｗ１に表示されている文字の内容は、例えば、当該ウィンドウｗ１を表示しているソフトウェアを実行しているＯＳのＡＰＩを経由して検知する例に適用して説明する。

【0154】

具体的には、図２０、図２１及び図２２を用いて説明する。図２０は、他のアプリケーションの実施により表示されたウィンドウの表示の一例を表した図である。なお、図２０においては、マウスポインタＰの表示を省略している。

【0155】

ここで、ウィンドウｗ１に文字列が表示されている領域ｉ１，ｉ２において、それぞれ、「前年比率１１０％」、「宣伝広告による認知度の上昇」と記載されている例に適用して説明する。

【0156】

ここで、ウィンドウｗ１に重畳した字幕表示領域ｗ２の表示の一例について図２１を用いて説明する。具体的には、設定された位置である表示画面Ｄの下側に字幕表示領域ｗ２が位置するように表示される。

【0157】

次に、音声認識された内容が図２２に示すように、「この要因について分析した結果、宣伝広告による商品の認知度の上昇によるものではないかと考えられます。」との内容が音声認識で認識された例に適用して説明する。この場合、音声認識された内容において、「宣伝広告による」及び「認知度の上昇」がウィンドウｗ１において文字列が表示されている領域ｉ２に表示されている文字列と一致する。そして、表示画面Ｄの下側に表示されると、当該ｉ２の位置と重なる位置に字幕表示領域ｗ２が表示されることとなるため、図２２に示すように、当該字幕表示領域ｗ２は、表示画面Ｄの上側に表示される位置が変更される。

【0158】

（３）さらに、字幕表示領域ｗ２とウィンドウｗ１に表示された文字を認識した場合には、図２３に示すように、ログウィンドウｗ５において、当該ウィンドウｗ１に表示された文字と一致する箇所の表示箇所を変更するように構成されてもよい。具体的には、当該該当箇所の書式を太字、下線を引くように構成されてもよい。なお、変更後の表示態様は、太字や下線に限定されるものではなく、文字のサイズを既定のサイズよりも大きくするものであってもよい。

【0159】

外部端末３００としてタブレット端末が用いられ、タブレット端末の表示画面にログウィンドウｗ５が表示される例について図２４を用いて説明する。
図２４に示すように、ログウィンドウｗ５は、全画面に表示されるように構成されてもよい。ここで、ログウィンドウｗ５の表示は、外部端末３００のタッチパネル１０Ｔをフリック操作することにより、スクロールされるように構成されてもよい。

【0160】

（４）また、上記実施形態に加えて、表示された字幕表示領域ｗ２のサイズを、マウス１２を利用して、サイズの拡大又は縮小及び字幕表示領域ｗ２の移動が可能に構成されてもよい。

【0161】

（５）上記実施形態では、字幕表示領域ｗ２は、表示画面Ｄに１つ表示された。しかしながら、表示画面Ｄに表示されるｗ２の数は、１つに限定されるものではない。例えば、図２５に示すように、複数の字幕表示領域ｗ２である字幕表示領域ｗ２１、ｗ２２、ｗ２３、ｗ２４が表示されてもよい。また、各字幕表示領域ｗ２に表示される内容は、話者ごとに対応するように表示されてもよい。すなわち、複数の話者が存在する場合に、１つの字幕表示領域ｗ２を順次更新して表示させるものに限定されるものではなく、話者ごとに字幕表示領域ｗ２が設定されるものであってもよい。具体的には、字幕表示領域ｗ２１が第１の話者に、字幕表示領域ｗ２２が第２の話者に、字幕表示領域ｗ２３が第３の話者に、字幕表示領域ｗ２４が第４の話者に対応するように表示されてもよい。また、話者が増えた場合又は、ウェブ会議への参加者が増えた場合に字幕表示領域ｗ２が追加されて表示されてもよい。

【0162】

また、複数の字幕表示領域ｗ２のサイズは、それぞれ同一であっても異なっていてもよい。字幕表示領域ｗ２のそれぞれのサイズは、例えば役職ごとに異なっていてもよい。例えば、上位の役職の方が、字幕表示領域ｗ２を大きく表示してもよい。

【0163】

（６）上記実施形態において、音声認識に用いられる音声認識エンジン及び翻訳に用いられる翻訳エンジンは種々選択可能に構成されてもよい。これにより、ユーザが使用する音声認識エンジン及び翻訳エンジンをしようすることができる。すなわち、音声認識及び翻訳において、音声データが音声認識エンジン及び翻訳エンジンに取得されるため、当該音声認識エンジン及び翻訳エンジンが選択可能となることにより、当該音声認識エンジン及び翻訳エンジンに音声データを取得させることを許可させることができる。言い換えると、音声データの送信を希望しない相手が提供する音声認識エンジン及び翻訳エンジンを使用することを抑制することができる。

【0164】

（７）また、音声認識の内容に応じて、音声認識エンジン及び翻訳エンジンが選択されてもよい。例えば、音声認識された内容に音声認識エンジン及び翻訳エンジンの提供元と競合する企業名が含まれる場合に、当該音声認識エンジン及び翻訳エンジンが選択されることが抑制されてもよい。また、音声認識エンジン及び翻訳エンジンそれぞれには、日常会話の音声認識及び翻訳が得意なエンジンや、ビジネス会話の音声認識及び翻訳が得意なエンジンなど、特色が存在するため、それぞれの特色に合ったエンジンが選択されてもよい。すなわち、あらかじめ会話のジャンルごとに音声認識エンジン及び翻訳エンジンが設定されており、認識された音声の会話のジャンルに応じて、音声認識エンジン及び翻訳エンジンが選択されてもよい。

【0165】

（８）上記実施形態では、マウスポインタＰと字幕表示領域ｗ２との表示位置が重なる場合に、字幕表示領域ｗ２の表示位置を変更する。しかしながら、マウスポインタＰと字幕表示領域ｗ２との位置が重なる場合に必ずしも字幕表示領域ｗ２の位置が変更されなくてもよい。例えば、キーボード１１の所定のキーが入力されている場合に、マウスポインタＰと字幕表示領域ｗ２との位置が重なっても、字幕表示領域ｗ２の位置が変更しない構成であってもよい。このような構成によれば、字幕表示領域ｗ２のアイコン領域ｂ１のボタンをマウス１２によりクリック操作する際に、字幕表示領域ｗ２の位置が変更されてしまうことを抑制することができる。

【0166】

（９）また、変更条件は、マウスポインタＰと字幕表示領域ｗ２との表示位置が重なることに限定されるものではない。具体的には、アイコン領域ｂ１の位置設定アイコンｃ３がクリック操作され、表示切替ボタンｄ１～ｄ５が操作されることにより、字幕表示領域ｗ２の位置が変更されてもよい。

【0167】

（１０）上記実施形態では、端末１００が有するカメラモジュール１４を用いて端末１００の話者の表情を認識した。しかしながらカメラモジュール１４を用いて認識する対象は、端末１００の話者の表情に限定されるものではない。具体的には、話者の動き又はジェスチャーなどを認識してもよい。また話者のジェスチャーに応じて、字幕表示領域ｗ２の表示態様を変更してもよい。

【0168】

（１１）さらに、端末１００には、入力インターフェース１０として、モーションセンサがさらに設けられてもよい。ここでいう、モーションセンサは、話者などのユーザの動きの情報を取得するものである。モーションセンサは、距離画像センサと、ビデオカメラモジュールと、アレイマイクとを構成として備えていてもよい。

【0169】

距離画像センサは、深度センサとも表現される。距離画像センサは、赤外線レーザを照射し、照射した時刻から反射光を受信した時刻までの時間を測定することにより距離測定を行うＴＯＦ方式を用いたセンサであってもよい。距離画像センサは、ＴＯＦ方式である場合には、単眼カメラを用いたモジュールが用いられてもよい。なお、ここでいうＴＯＦ方式とは、ＴｉｍｅｏｆＦｌｉｇｈｔの略称である。

【0170】

また、距離画像センサはＴＯＦ方式を用いたものに限定されるものではなく、例えば、特定のパターンを赤外線レーザで照射し、反射光のパターンを解析して距離を測定するものであってもよい。距離画像センサは、例えば、均一なパターンドットを有する照射光を照射し、反射光を受信する。受信した反射光に含まれるパターンドットには、対象までの距離に応じた歪みが生じるため、反射光のパターンドットに含まれる歪みを解析することにより距離を測定するものであってもよい。

【0171】

また、距離画像センサには、２つの異なる位置から撮像を行うステレオカメラが用いられてもよい。
距離画像センサにより取得された画像において、話者などのユーザの姿勢認識に基づいて、ユーザの動きやジェスチャーが取得されるように構成されてもよい。ここでいう姿勢認識は、取得された画像から、腕や、頭部などの人体のパーツを認識し、関節の位置を導出することにより、人間の姿勢を推定する技術である。また、姿勢認識においても機械学習が用いられてもよい。

【0172】

さらに、モーションセンサにおいて、ユーザの動きを認識する際にビデオカメラモジュールにより認識された映像や、アレイマイクにより取得された音声認識の情報が用いられてもよい。

【0173】

また、モーションセンサとしては、上記構成に限定されるものではなく、モーションキャプチャデバイスとして用いられる機器が用いられてもよい。
さらに、モーションセンサは、カメラモジュール１４に代えて備えられるものであってもよい。

【0174】

（１２）また、端末１００が有するカメラモジュール１４により認識されたジェスチャーに応じて、当該ジェスチャーに対応した制御が実行されてもよい。
具体的には、例えば、口に人差し指を当てるようなジェスチャーをした場合には、話者の端末１００がミュート状態になるなどの制御が実行されてもよい。

【0175】

（１３）上記実施形態では、文字の表示態様及び背景の表示態様を変更する。しかしながら、表示態様を変更するものに限定されるものではなく、たとえば、「！」など、記号やアイコンを追加するものであってもよい。また、記号やアイコンの追加は、認識された話者の感情に応じて追加されるものであってもよい。

【0176】

このような記号やアイコンが文字として表示された場合には、例えば、聴覚障碍者などの音声を認識できないユーザも話者の感情を認識しやすくなる。
（１４）上記実施形態では、話者の感情認識をマイクモジュール１３から取得される声の音量及びカメラモジュール１４から取得される話者の表情に基づいて判定する例に適用して説明した。しかしながら、感情の認識はこれらの方法により取得されるものに限定されるものではなく、例えば、会話中に含まれる単語や、話の流れなどから判定するように構成されてもよい。単語と感情のつながりについては人工知能を用いて判定されるものであってもよい。また、話の流れについても人工知能に基づいて判定されるものであってもよい。

【0177】

（１５）上記実施形態では、字幕表示領域ｗ２には、話者の発言を認識したが、特定の話者の発言のみを認識する者であってもよい。また、特定の言語のみを認識する者であってもよい。

【0178】

（１６）さらに、上記実施形態では、音声認識部２２１ａは音声認識エンジンを、翻訳部２２１ｂは、翻訳エンジンを用いて、音声認識及び翻訳をそれぞれ実行する。しかしながら、音声認識及び翻訳を行う音声認識エンジン及び翻訳エンジンはそれぞれ１つずつに限定されるものではなく、例えば、それぞれ複数の音声認識エンジン、翻訳エンジンが実行してもよい。また、このような場合、例えば字幕表示領域ｗ２に表示される音声認識表示ａ２及び翻訳表示ａ３においては、それぞれの音声認識エンジン及び翻訳エンジンによる音声認識の内容、翻訳の内容が並列して表示されてもよい。

【0179】

（１７）また、上記実施形態では、ログウィンドウｗ５の内容が外部端末３００にログとして送信される例に適用して説明した。しかしながら、ログウィンドウｗ５が外部端末３００に送信されるものに限定されるものではなく、ログウィンドウｗ５のうち、特定の言語のものや翻訳文のみを外部端末３００に送信するものであってもよい。

【0180】

（１８）上記実施形態において、ウェブ会議に参加しているユーザ側のアプリは、ログウィンドウｗ５に含まれるブロックｆのそれぞれについて「いいね！」や「ハート」などのリアクションや評価を付け加えるように構成されていてもよい。ユーザは、リアクションや評価を付け加えるブロックｆを選択し、リアクションや評価のそれぞれに対応したアイコンをクリック操作することなどにより、リアクションや評価が付与されるように構成されてもよい。評価が加えられたログウィンドウｗ５の一例を図２６に示す。図２６に示すように絵文字ｊ１，ｊ２，ｊ３などにより、リアクションや評価が付け加えられてもよい。

【0181】

（１９）また、リアクションや評価の追加方法は、クリック操作により行われるものに限定されるものではなく、例えばカメラモジュール１４を用いてユーザの表情やジェスチャーを認識することにより行われてもよい。具体的には、ユーザの表情が笑顔である場合に「いいね」や「ハート」などのポジティブなリアクションや評価を、ユーザの表情が悲しい顔や怒った顔などである場合に、ネガティブなリアクションや評価を付与するものであってもよい。さらにジェスチャーとしては、指でＯＫサインを出した場合や顔をうなずかせる動作をした場合に、ポジティブなリアクションや評価を付与するものであってもよい。また、指で×をするサインや、手を左右方向に振るジェスチャーを行った場合に、ネガティブなリアクションや評価を付与するものであってもよい。

【0182】

なお、上記ユーザの表情やジェスチャーにより、字幕表示領域ｗ２及びログウィンドウｗ５の背景やそれらに含まれる文字の表示態様を変更するように構成されてもよい。
（２０）また、リアクションが付与されたブロックｆを抽出して記憶するように構成されてもよい。このような構成によれば、リアクションが付与されたブロックｆを、重要なブロックｆとして、当該重要なブロックｆをまとめて記憶することができる。

【0183】

（２１）さらに、リアクションが付与された数を集計する構成を有してもよい。集計は、サーバ２００により実行されてもよい。このような構成によれば、特にリアクションが多かったブロックｆを抽出することができる。抽出されたブロックｆは議事録などとして用いられるように体裁が整えられるように構成されてもよい。

【0184】

（２２）上記実施形態では、字幕表示領域ｗ２の表示の設定は、ＡＩを用いて設定されるものであってもよい。ＡＩを用いた設定には、取得部２１０により取得された情報に限定されるものではなく、取得された種々の情報を元に設定されてもよい。

【0185】

（２３）上記実施形態では、字幕表示領域ｗ２に表示される翻訳表示ａ３は、１か国語であったが、翻訳表示ａ３に表示される言語の数は１か国語に限定されるものではない。すなわち、複数の言語に翻訳されるように構成されてもよい。複数の言語に翻訳される例、すなわち、翻訳表示が複数である例の表示について図２７に一例を示す。

【0186】

図２７に示すように、翻訳表示ａ３ａと、翻訳表示ａ３ｂとが表示されてもよい。図２７では、翻訳表示ａ３ａには、英語で翻訳された文章が、翻訳表示ａ３ｂには、中国語で翻訳された文章が記載される例に適用して説明する。なお、翻訳表示ａ３ａ及び翻訳表示ａ３ｂに表示するために設定される翻訳の言語は、あらかじめ表示設定部２２３で設定されてもよい。また、翻訳される言語は、設定表示ｗ４に表示された翻訳言語ボタンｈ２を選択することにより設定されてもよい。この場合、翻訳言語ボタンｈ２により選択できる言語の数が複数になるように、表示されてもよい。また、複数の言語により翻訳された場合には、図２８に示すように複数の言語による翻訳を表わしたログウィンドウｗ５が生成されてもよい。

【0187】

（２４）本開示に記載のＣＰＵ２０Ｓ及びその手法は、コンピュータプログラムにより具体化された一つ乃至は複数の機能を実行するようにプログラムされたプロセッサ及びメモリを構成することによって提供された専用コンピュータにより、実現されてもよい。あるいは、本開示に記載のＣＰＵ２０Ｓ及びその手法は、一つ以上の専用ハードウェア論理回路によってプロセッサを構成することによって提供された専用コンピュータにより、実現されてもよい。もしくは、本開示に記載のＣＰＵ２０Ｓ及びその手法は、一つ乃至は複数の機能を実行するようにプログラムされたプロセッサ及びメモリと一つ以上のハードウェア論理回路によって構成されたプロセッサとの組み合わせにより構成された一つ以上の専用コンピュータにより、実現されてもよい。また、コンピュータプログラムは、コンピュータにより実行されるインストラクションとして、コンピュータ読み取り可能な非遷移有形記録媒体に記憶されてもよい。ＣＰＵ２０Ｓに含まれる各部の機能を実現する手法には、必ずしもソフトウェアが含まれている必要はなく、その全部の機能が、一つあるいは複数のハードウェアを用いて実現されてもよい。

【0188】

（２５）上記実施形態における１つの構成要素が有する複数の機能を、複数の構成要素によって実現したり、１つの構成要素が有する１つの機能を、複数の構成要素によって実現したりしてもよい。また、複数の構成要素が有する複数の機能を、１つの構成要素によって実現したり、複数の構成要素によって実現される１つの機能を、１つの構成要素によって実現したりしてもよい。また、上記実施形態の構成の一部を省略してもよい。また、上記実施形態の構成の少なくとも一部を、他の上記実施形態の構成に対して付加又は置換してもよい。

【0189】

（２６）上述したＣＰＵ２０Ｓの他、当該ＣＰＵ２０Ｓを構成要素とするシステム、当該ＣＰＵ２０Ｓとしてコンピュータを機能させるためのプログラム、このプログラムを記録した半導体メモリ等の非遷移的実態的記録媒体、字幕表示処理方法など、種々の形態で本開示を実現することもできる。

【0190】

（２６）具体的には、表示処理は、サーバ２００のＣＰＵ２０Ｓが実行するものに限定されるものではなく、端末１００が実行するものであってもよい。複数の端末１００のうち、第１の端末１００ａの表示画面Ｄにおける字幕表示領域ｗ２の表示と共に、第２の端末１００ｂの表示画面Ｄにおける字幕表示領域ｗ２の表示が変更されるように構成されてもよい。また、ネットワークを介さず、いわゆるスタンドアロンで実行されるものであってもよい。

【0191】

本実施形態における、端末１００が字幕表示処理装置としての構成の一例に相当する。

【符号の説明】

【0192】

１…字幕表示処理システム、１０…入力インターフェース、１０Ｓ，３０，３０Ｔ…通信モジュール、１０Ｔ…タッチパネル、１１…キーボード、１２…マウス、１３…マイクモジュール、１４…カメラモジュール、２０…出力インターフェース、２０Ｓ，４０，４０Ｔ…ＣＰＵ、２０Ｔ，Ｄ…表示画面、２１…ディスプレイ、２２…スピーカー、３０Ｓ，５０，５０Ｔ…メモリ、１００…端末、１００ａ…第１の端末、１００ｂ…第２の端末、２００…サーバ、２１０…取得部、２１１…音声取得部、２１３…操作取得部、２１５…表示取得部、２１７…映像取得部、２１９…設定取得部、２２０…処理部、２２１…認識部、２２１ａ…音声認識部、２２１ｂ…翻訳部、２２１ｃ…感情認識部、２２１ｄ…話者認識部、２２１ｅ…表示認識部、２２３…表示設定部、２２３ａ…文字設定部、２２３ｂ…背景設定部、２２３ｃ…領域設定部、２２３ｄ…アイコン設定部、２３０…記憶部、２３１…出力記憶部、２３３…設定記憶部、２４０…出力部、２５０…ログ送信部、３００…外部端末、Ｐ…マウスポインタ、ａ１…話者表示、ａ２…音声認識表示、ａ３，ａ３ａ，ａ３ｂ…翻訳表示、ｂ１…アイコン領域、ｃ１…ミュートアイコン、ｃ２…ダウンロードアイコン、ｃ３…位置設定アイコン、ｃ４…詳細設定アイコン、ｃ５…文字入力アイコン、ｄ１，ｄ１～ｄ５，ｄ２，ｄ３，ｄ４，ｄ５，ｅ１～ｅ５，ｅ２，ｅ３，ｅ４，ｅ５…表示切替ボタン、ｆ…ブロック、ｇ１…話者ログ、ｇ２…音声認識ログ、ｇ３…翻訳ログ、ｈ１…認識言語設定ボタン、ｈ２…翻訳言語ボタン、ｈ３…文字サイズ設定ボタン、ｈ４…文字色設定ボタン、ｈ５…透過度設定ボタン、ｈ６…背景色設定ボタン、ｈ７…話者設定ボタン、ｈ８…ミュートボタン、ｈ９…翻訳実施／終了ボタン、ｉ１，ｉ２…領域、ｊ１，ｊ２、ｊ３…アイコン、ｗ１…ウィンドウ、ｗ２，ｗ２１，ｗ２２，ｗ２３，ｗ２４…字幕表示領域、ｗ３…位置設定ウィンドウ、ｗ４…設定表示、ｗ５…ログウィンドウ。

【図1】