IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ VoiceApp株式会社の特許一覧

特開2022-134600字幕表示処理プログラム、字幕表示処理装置、サーバ。
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022134600
(43)【公開日】2022-09-15
(54)【発明の名称】字幕表示処理プログラム、字幕表示処理装置、サーバ。
(51)【国際特許分類】
   G06F 3/0482 20130101AFI20220908BHJP
【FI】
G06F3/0482
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021033839
(22)【出願日】2021-03-03
(71)【出願人】
【識別番号】321000772
【氏名又は名称】VoiceApp株式会社
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】足立 洋介
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA29
5E555BA05
5E555BA06
5E555BA13
5E555BA82
5E555BB05
5E555BB06
5E555BD01
5E555CA02
5E555CA42
5E555CA47
5E555CB05
5E555CB33
5E555CB34
5E555CB42
5E555CB64
5E555CB67
5E555CC03
5E555CC05
5E555CC23
5E555DA01
5E555DB25
5E555DB39
5E555DB44
5E555DC10
5E555DC19
5E555DC25
5E555DC33
5E555DC35
5E555DC75
5E555DD07
5E555DD11
5E555EA07
5E555EA11
5E555EA14
5E555EA23
5E555FA09
(57)【要約】
【課題】本開示の字幕表示処理プログラムは、ウェブ会議などにおいて、話者が話しながら文字が表示される領域の位置の調整をより簡単にする技術を提供する。
【解決手段】字幕表示処理プログラムは、データ出力手段と、表示設定手段と、表示手段と、変更手段と、としてコンピュータを機能させる。データ出力手段は、音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力する。表示設定手段は、データ出力手段により出力される文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定する。表示手段は、データ出力手段により出力される文字データを、文字表示領域に表示させる。変更手段は、表示設定手段により設定された文字表示領域の表示位置及び表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更する。
【選択図】図5
【特許請求の範囲】
【請求項1】
音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するデータ出力手段と、
前記データ出力手段により出力される前記文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定する表示設定手段と、
前記データ出力手段により出力される前記文字データを、前記文字表示領域に表示させる、表示手段と、
前記表示設定手段により設定された前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更する変更手段と、
としてコンピュータを機能させるための字幕表示処理プログラム。
【請求項2】
請求項1に記載の字幕表示処理プログラムであって、
あらかじめ決められた撮像部により取得された話者の表情に基づいて、前記文字表示領域の表示態様及び前記文字表示領域に表示される文字データの表示態様の少なくとも一方を変更する字幕表示態様変更手段として更に機能させる、字幕表示処理プログラム。
【請求項3】
請求項1又は請求項2に記載の字幕表示処理プログラムであって、
前記文字表示領域とは、異なる領域に表示され、更にあらかじめ決められたルールに従って区分されたあらかじめ決められた領域である吹き出し表示領域を表示させる吹き出し表示手段と、
前記吹き出し表示領域の表示態様及び前記吹き出し表示領域に表示される前記文字データの少なくとも一方の表示態様を変更する、吹き出し表示態様変更手段と、
して機能させ、
前記吹き出し表示態様変更手段は、あらかじめ決められた撮像部により取得された話者の表情に基づいて、前記吹き出し表示領域の表示態様及び前記吹き出し表示領域に表示される文字データの表示態様を変更する、字幕表示処理プログラム。
【請求項4】
請求項1から請求項3までのいずれか1項に記載の字幕表示処理プログラムであって、
前記変更手段は、前記表示画面上に表示されるマウスポインタの位置とは異なる領域に前記文字表示領域が表示されるように、前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を変更する、字幕表示処理プログラム。
【請求項5】
請求項1から請求項4までのいずれか1項に記載の字幕表示処理プログラムであって、
前記表示位置及び前記表示サイズに対応付けられた表示切替ボタンを前記表示画面上に表示するボタン表示手段として更に機能させ、
前記変更手段は、選択された前記表示切替ボタンに対応付けられた前記表示位置及び前記表示サイズに前記文字表示領域の位置及びサイズを変更する、字幕表示処理プログラム。
【請求項6】
請求項1から請求項5までのいずれか1項に記載の字幕表示処理プログラムであって、
前記表示画面に表示された背景データに含まれる文字と当該文字の前記表示位置のデータとを含む背景文字データを取得する背景文字取得手段として更に機能させ、
前記変更手段は、前記文字表示領域に表示される前の前記文字データの内容と一致する前記背景文字データが表示されている領域とは異なる領域に前記文字表示領域が表示されるように、前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を変更する、字幕表示処理プログラム。
【請求項7】
請求項1から請求項6までのいずれか1項に記載の字幕表示処理プログラムであって、
前記文字表示領域が重畳する位置の背景の色を取得する背景色取得部と、
前記背景色取得部により取得された前記背景の色に応じて、前記文字表示領域の透過度を変更する表示態様変更手段として更に機能させる、字幕表示処理プログラム。
【請求項8】
音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するように構成されたデータ出力部と、
前記データ出力部により出力される前記文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定するように構成された表示設定部と、
前記データ出力部により出力される前記文字データを、前記文字表示領域に表示させるように構成された表示部と、
前記表示設定部により設定された前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更するように構成された変更部と、
を備える、字幕表示処理装置。
【請求項9】
請求項8に記載の字幕表示処理装置であって、
前記表示部は、前記字幕表示処理装置と当該字幕表示処理装置と通信を行う他の装置とに設けられた前記表示画面において、前記文字データを前記文字表示領域に表示させる、字幕表示処理装置。
【請求項10】
少なくとも1つの端末と通信可能に接続されたサーバであって、
前記少なくとも1つの端末から取得された音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するように構成されたデータ出力部と、
前記データ出力部により出力される前記文字データを、前記少なくとも1つの端末に備えられた表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定するように構成された表示設定部と、
前記データ出力部により出力される前記文字データを、前記文字表示領域に表示させるように構成された表示部と、
前記表示設定部により設定された前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更するように構成された変更部と、
を備える、サーバ。
【請求項11】
請求項10に記載のサーバであって、
あらかじめ決められた外部端末に対して、前記表示部により表示させた内容を表したログを送信するログ送信部と、を更に備える、サーバ。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文字データを含む字幕表示領域を表示させる字幕表示処理プログラム、字幕表示処理装置及びサーバに関する。
【背景技術】
【0002】
話者の音声を音声認識により認識し、認識された音声の内容を文字として表示画面内の文字表示領域に表示する技術が知られている(特許文献1参照。)。
インターネットに接続されたPCなどの電子機器を用いて互いに音声通話や映像の送受信を行うウェブ会議においても、音声認識された文字を表示することにより、受講者などの話者の話を聞くユーザは、聴覚によって話者の話している内容を認識できるだけでなく、視覚により文字で話者の話している内容を認識することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-16206号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ウェブ会議などでは、話者は、受講者のPCの画面を参照させながら、資料の内容について話すことがあり、当該参照している画面の文字と話者の話している内容を表した文字が重なると、画面の文字を受講者であるユーザが視認するのが困難であった。
【0005】
一方で、文字が表示される字幕表示領域を話者が操作する場合、話者は受講者に対する説明等と並行して文字が表示される字幕表示領域の操作を行わなければならず、説明と操作を並行して操作を行うことが困難であった。
【0006】
本開示の字幕表示処理プログラムは、ウェブ会議などにおいて、話者が話しながら、より簡単に字幕表示領域を含む表示画面を見やすくする技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本開示の一態様は、字幕表示処理プログラムであって、データ出力手段と、表示設定手段と、表示手段と、変更手段と、としてコンピュータを機能させる。データ出力手段は、音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力する。表示設定手段は、データ出力手段により出力される文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定する。表示手段は、データ出力手段により出力される文字データを、文字表示領域に表示させる。変更手段は、表示設定手段により設定された文字表示領域の表示位置及び表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更する。
【0008】
このような構成によれば、あらかじめ決められた変更条件に従って、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更することにより、文字表示領域により重畳されている部分を変更することにより、文字表示領域が表示される表示画面を見やすくすることができる。
【0009】
また、あらかじめ決められた撮像部により取得された話者の表情に基づいて、文字表示領域の表示態様及び文字表示領域に表示される文字データの表示態様の少なくとも一方を変更する字幕表示態様変更手段として更に機能させてもよい。
【0010】
このような構成によれば、話者の表情に基づいて表示態様が変更されることで、話者の表情に応じた表示をすることができ、表示を視認したユーザは、話者の感情を認識することができる。
【0011】
本開示の一態様では、文字表示領域とは、異なる領域に表示され、更にあらかじめ決められたルールに従って区分されたあらかじめ決められた領域である吹き出し表示領域を表示させる吹き出し表示手段と、吹き出し表示領域の表示態様及び吹き出し表示領域に表示される文字データの少なくとも一方の表示態様を変更する、吹き出し表示態様変更手段と、して機能させてもよい。吹き出し表示態様変更手段は、あらかじめ決められた撮像部により取得された話者の表情に基づいて、吹き出し表示領域の表示態様及び吹き出し表示領域に表示される文字データの表示態様を変更してもよい。
【0012】
このような構成によれば、文字表示領域とは異なる場所に表示される、吹き出し表示領域の表示態様及び吹き出し表示領域に表示される文字データの少なくとも一方の表示態様が、話者の表情に応じて変更される。すなわち話者の表情に応じて表示態様を変化させることができる。これにより、当該表示を視認したユーザは、話者の感情を認識することができる。
【0013】
本開示の一態様では、変更手段は、表示画面上に表示されるマウスポインタの位置とは異なる領域に文字表示領域が表示されるように、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更してもよい。
【0014】
このような構成によれば、マウスポインタの位置とは異なる領域に文字表示領域が表示される。このため、マウスを操作し、マウスポインタの位置を動かすことにより、文字表示領域の位置を変更することができる。
【0015】
本開示の一態様は、表示位置及び表示サイズに対応付けられた表示切替ボタンを表示画面上に表示するボタン表示手段として更に機能させてもよい。変更手段は、選択された表示切替ボタンに対応付けられた表示位置及び表示サイズに文字表示領域の位置及びサイズを変更してもよい。
【0016】
このような構成によれば、表示切替ボタンが操作されることにより、当該表示切替ボタンに対応付けられた表示位置及び表示サイズに文字表示領域の位置及びサイズが変更される。これにより、文字表示領域の位置及びサイズを変更することができ、文字表示領域が表示される表示画面を見やすくすることができる。
【0017】
本開示の一態様は、表示画面に表示された背景データに含まれる文字と当該文字の表示位置のデータとを含む背景文字データを取得する背景文字取得手段として更に機能させてもよい。変更手段は、文字表示領域に表示される前の文字データの内容と一致する背景文字データが表示されている領域とは異なる領域に文字表示領域が表示されるように、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更してもよい。
【0018】
このような構成によれば、表示画面に表示された背景データに含まれる文字と当該文字の表示位置のデータとを含む背景文字データと、文字表示領域に表示される文字データとの内容が一致する場合には、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更することで、表示画面を見やすくすることができる。
【0019】
本開示の一態様は、文字表示領域が重畳する位置の背景の色を取得する背景色取得部と、背景色取得部により取得された背景の色に応じて、文字表示領域の透過度を変更する表示態様変更手段として更に機能させてもよい。
【0020】
このような構成によれば、背景色取得部により取得された背景の色に応じて文字表示領域の透過度が変更されるため、文字表示領域を見やすくすることができる。
本開示の一態様は、字幕表示処理装置であって、データ出力部と、表示設定部と、表示部と、変更部と、を備える。データ出力部は、音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するように構成される。表示設定部は、データ出力部により出力される文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定するように構成される。表示部は、データ出力部により出力される文字データを、文字表示領域に表示させるように構成される。変更部は、表示設定部により設定された文字表示領域の表示位置及び表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更するように構成される。
【0021】
このような構成を有する字幕表示処理装置によれば、あらかじめ決められた変更条件に従って、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更することにより、文字表示領域により重畳されている部分を変更することにより、文字表示領域が表示される表示画面を見やすくすることができる。
【0022】
本開示の一態様では、表示部は、字幕表示装置と当該字幕表示装置と通信を行う他の装置とに設けられた表示画面において、文字データを文字表示領域に表示させてもよい。
このような構成によれば、字幕表示装置及び字幕表示装置と通信を行う他の端末が有する表示画面において、表示部により、文字データを表示させた文字表示領域は、変更条件に従って、文字表示領域の表示位置及び表示サイズの少なくとも一方を変更することにより、文字表示領域により重畳されている部分を変更することにより、文字表示領域が表示される表示画面を見やすくすることができる。
【0023】
本開示の一態様は、少なくとも1つの端末と通信可能に接続されたサーバであって、データ出力部と、表示設定部と、表示部と、変更部と、を備える。データ出力部は、少なくとも1つの端末から取得された音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するように構成される。表示設定部は、データ出力部により出力される文字データを、少なくとも1つの端末に備えられた表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定するように構成される。表示部は、データ出力部により出力される文字データを、文字表示領域に表示させるように構成される。変更部は、表示設定部により設定された文字表示領域の表示位置及び表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更するように構成される。
【0024】
このような構成によれば、サーバと通信する少なくとも1つの端末から取得された音声データに基づいて出力される文字データを表示させた文字表示領域の表示位置及び表示サイズの少なくとも一方を変更することにより、文字表示領域により重畳されている部分を変更することにより、文字表示領域が表示される表示画面を見やすくすることができる。
【0025】
本開示の一態様は、ログ送信部を更に備えてもよい。ログ送信部は、通信部によりあらかじめ決められた外部端末に対して、表示部により表示させた内容を表したログを送信する。
【0026】
このような構成によれば、外部端末を用いて、サーバと通信をすることにより、表示部により表示させた内容を表したログを取得することができる。
【図面の簡単な説明】
【0027】
図1】本実施形態における、字幕表示処理システムの構成の一例を表した概略図である。
図2】本実施形態における、端末のハードウェア構成の一例を表した図である。
図3】本実施形態における、サーバのハードウェア構成の一例を表した図である。
図4】本実施形態における、サーバの機能的構成の概要の一例を表した図である。
図5】本実施形態における、サーバの機能的構成の詳細の一例を表した図である。
図6】本実施形態における、設定表示の一例を表した図である。
図7】本実施形態における、表示設定部により設定される、表示画面の表示の一例を表した図である。
図8】本実施形態における、アイコン領域の表示の一例を表した図である。
図9】本実施形態における、表示される位置設定ウィンドウの表示の一例を表した図である。
図10】本実施形態における、ログウィンドウの一例を表した図である。
図11】音声認識された内容を含むログウィンドウの一例において、表示態様の変更の一例を表した図である。
図12】本実施形態における、外部端末のハードウェア構成の一例を表した図である。
図13】字幕表示領域が重畳する他のアプリケーションの実施により表示されたウィンドウの表示の一例を表した図である。
図14】本実施形態における、サーバのCPUが実行する表示処理の一例を表したフローチャートである。
図15】他のアプリケーションの実施により表示されたウィンドウの表示に字幕表示領域を重畳させる表示の一例を表した図である。
図16】他のアプリケーションの実施により表示されたウィンドウの表示に重畳させた字幕表示領域を変更させた表示の一例を表した図である。
図17】本実施形態における、サーバのCPUが実行する取得処理の一例を表したフローチャートである。
図18】本実施形態における、サーバのCPUが実行するログ送信処理の一例を表したフローチャートである。
図19】変形例における、表示される位置設定ウィンドウの表示の一例を表した図である。
図20】他のアプリケーションの実施により表示されたウィンドウの表示の一例を表した図である。
図21】ウィンドウに重畳した字幕表示領域の表示の一例を表した図である。
図22】変更条件に従って、字幕表示領域の表示の位置が変更され、表示画面の上側に表示される一例を表した図である。
図23】音声認識された内容を含むログウィンドウの一例において、表示態様の変更の一例を表した図である。
図24】音声認識された内容を含むログウィンドウをタブレットに表示された表示画面の一例を表した図である。
図25】変形例における、表示設定部により設定され、表示が行われた画面の一例を表した図である。
図26】アイコンが付加されたログウィンドウの例を表した図である。
図27】変形例における、音声認識された内容を含む表示画面への表示が行われた画面の表示の一例を表した図である。
図28】変形例における、音声認識された内容を含むログウィンドウの一例を表した図である。
【発明を実施するための形態】
【0028】
[1.構成]
本実施形態の字幕表示処理システム1の例について、図を用いて説明する。字幕表示処理システム1は、複数の端末100同士が、通信ネットワークを用いて音声、映像及び表示を用いて情報伝達を行うためのシステムである例に適用して説明する。具体的には、例えば、いわゆるウェブ会議に用いられるシステムである例に適用して説明する。
【0029】
なお、本実施形態の字幕表示処理システム1は、ウェブ会議を実行するために用いられるものに限定されるものではなく、例えばテレビ電話や、動画配信サービスなどの通信を用いた映像及び音声の配信などに用いられてもよい。
【0030】
図1は、字幕表示処理システム1の構成の概略図である。
図1に示すように、本実施形態の字幕表示処理システム1は、複数の端末100と、サーバ200と、を有する例に適用して説明する。また、本実施形態の字幕表示処理システム1は、更に外部端末300と通信可能である例に適用して説明する。
【0031】
本実施形態では、字幕表示処理システム1に含まれる端末100の数は2つである例に適用して説明する。以下では、複数の端末100のそれぞれを区別する場合には、それぞれ、第1の端末100a、第2の端末100bとも記載する。また、本実施形態では、字幕表示処理システム1に含まれる端末100の数は、2つである例について記載したが、字幕表示処理システム1に含まれる端末100の数は3つ以上であってもよい。ここでいう端末100は、通信ネットワークを用いてPCなどの他の端末100と通信可能である例に適用して説明する。また、ここでいう通信ネットワークとは、インターネットである例に適用して説明する。
【0032】
サーバ200は、複数の端末100から通信ネットワークを通じて送信される要求に応じて、所定のサービスを提供する機能を実現するために稼働しているコンピュータである。ここで、本実施形態でいう、サーバ200が提供する機能としては、ウェブ会議等において、音声認識等に基づく表示を行う機能を少なくとも含む例に適用して説明する。本実施形態においては、ウェブ会議を行っている端末100の画面上に、音声認識などに基づく表示を重畳して行う例に適用して説明する。
【0033】
外部端末300は、ウェブ会議において、音声認識などに基づいて表示された内容を取得するものである。本実施形態では、外部端末300は、タブレット端末である例に適用して説明する。なお、外部端末300は、タブレット端末に限定されるものではなくいわゆるスマートフォンでもよい。また、外部端末300は、通信機能を有するPCであってもよい。
【0034】
図2は、端末100のハードウェア構成の一例を表した図である。
図2に示すように、端末100は、入力インターフェース10と、出力インターフェース20と、通信モジュール30と、CPU40と、メモリ50と、を備える。
【0035】
入力インターフェース10は、端末100に対して、情報や操作を入力するためのインターフェースである。
入力インターフェース10には、キーボード11と、マウス12と、マイクモジュール13と、カメラモジュール14と、が含まれる。
【0036】
キーボード11は、一般にPCに対する入力装置として用いられるものである例に適用して説明する。キーボード11は、端末100に対して文字の入力及び操作の入力をいわゆるタイピング操作による入力を行うために用いられる。
【0037】
マウス12は、一般にPCに対する入力装置として用いられるものである例に適用して説明する。
マウス12は、端末100に対してクリック操作と、ポインティング操作と、ドラッグ操作と、を含む操作を入力するために用いられるものである例に適用して説明する。ここでいうクリック操作は、マウス12に配置されたボタンを押下する操作をいう。ポインティング操作は、表示上に示されたマウス12のカーソルの位置を所望の位置に配置させる操作をいう。また、ドラッグ操作は、マウス12に配置されたボタンを押下した状態で、マウスポインタPの位置を移動させる操作をいう。
【0038】
マイクモジュール13は、端末100に対して音声による入力を行うために用いられるものである例に適用して説明する。
カメラモジュール14は、映像を撮像し、撮像した映像を端末100に対する入力を行うために用いられるものである例に適用して説明する。本実施形態におけるカメラモジュール14は、端末100のユーザの顔を撮像する向きに配置される例に適用して説明する。具体的には、後述するディスプレイ21の表示画面Dが表示する向きを向くように配置される。
【0039】
出力インターフェース20は、端末100から音声や表示等を出力するために用いられるものである例に適用して説明する。
出力インターフェース20は、ディスプレイ21と、スピーカー22と、を備える例に適用して説明する。
【0040】
ディスプレイ21は、入力される映像信号に応じて、表示の出力を行う例に適用して説明する。
スピーカー22は、音声の出力を行う例に適用して説明する。
【0041】
通信モジュール30は、他の装置と通信を行うために用いられる。ここで、通信モジュール30は、通信ネットワークを通じて他の端末100と外部端末300と通信可能なものである例に適用して説明する。また、ここでいう通信ネットワークはインターネットである例に適用して説明する。
【0042】
CPU40は、所定のプログラムを実行するものである。CPU40は、少なくともメモリ50に記憶されたプログラムを実行する。また、CPU40は、通信ネットワークを通じて、サーバ200に記憶されたプログラムを実行する。
【0043】
メモリ50は、種々の情報を記憶する記憶媒体である。メモリ50には、CPU40により実行されるプログラムが含まれる。
なお、端末100に備えられる、入力インターフェース10、出力インターフェース20、通信モジュール30、CPU40及びメモリ50は、着脱可能なものであってもよい。
【0044】
図3は、サーバ200のハードウェア構成の一例を表した図である。
本実施形態のサーバ200は、通信モジュール10Sと、CPU20Sと、メモリ30Sと、を有する例に適用して説明する。
【0045】
通信モジュール10Sは、複数の端末100と通信ネットワークを介しての通信に用いられる。通信モジュール10Sと複数の端末100とは、インターネットを通じた通信が可能である例に適用して説明する。
【0046】
CPU20Sは、所定のプログラムを実行する。CPU20Sは、少なくともCPU20Sに記憶されたプログラムを実行する。また、CPU20Sは、複数の端末100からの要求に応じてプログラムを実行する。
【0047】
メモリ30Sは、種々の情報を記憶する記憶媒体である。メモリ30Sには、CPU20Sにより実行されるプログラムが含まれる。さらに、メモリ30Sには、複数の端末100からの要求に応じて実行されるプログラムが含まれてもよい。メモリ30Sに記憶されるプログラムには、後述する表示処理を実行するための字幕表示処理プログラムが含まれる。
【0048】
図4は、サーバ200の機能的構成の概要を表した図である。
図4に示すように、サーバ200は、取得部210と、処理部220と、記憶部230と、出力部240と、ログ送信部250と、を機能的構成として有する。本実施形態では、サーバ200が有する機能的構成が有する各機能は、CPU20Sが実行するプログラムにより実現される例に適用して説明する。
【0049】
取得部210は、字幕表示処理システム1に含まれる端末100から通信モジュール10Sを用いて、情報を取得する。
処理部220は、取得部210により取得した情報に基づいて、処理を実行する。
【0050】
記憶部230は、処理部220による処理の結果を記憶する。
出力部240は、処理部220による処理の結果を、通信モジュール10Sを用いて出力する。
【0051】
ログ送信部250は、端末100に送信した字幕表示領域w2の記録に対応したログウィンドウw5をログとして外部端末300に送信する。なお、本実施形態では、ログ送信部250による外部端末300へのログの送信は、通信モジュール10Sを用いたものである例に適用して説明する。
【0052】
図5は、サーバ200の機能的構成の詳細を表した図である。
取得部210は、音声取得部211と、操作取得部213と、表示取得部215と、映像取得部217と、設定取得部219と、を機能的構成として有する。
【0053】
音声取得部211は、通信モジュール10Sを用いて、字幕表示処理システム1に含まれる端末100から音声の情報を取得する。すなわち、音声取得部211は、各端末100に入力された音声の情報を取得する。例えば、端末100に備えられたマイクモジュール13を用いて入力されたユーザの音声などを取得する。
【0054】
操作取得部213は、通信モジュール10Sを用いて、字幕表示処理システム1に含まれる端末100に入力された操作の情報を取得する。例えば、端末100に備えられたキーボード11及びマウス12を用いて入力されたユーザの操作を取得する。
【0055】
表示取得部215は、通信モジュール10Sを用いて、端末100のディスプレイ21への表示に関する情報である表示情報を取得する。ここで、表示情報には、ディスプレイ21の表示の情報と、ディスプレイ21に表示される内容の情報とが含まれる。ディスプレイ21の情報には、例えば、ディスプレイのサイズ、数、解像度、表示可能色数の情報が含まれる例に適用して説明する。ディスプレイ21の情報は、例えば、EDIDのデータに含まれるものであってもよい。ここで、EDIDとは、Extended Display Identification Dataの略称である。
【0056】
また、ディスプレイ21に表示される内容の情報とは、ディスプレイ21に画像または映像として出力される情報を表したものであり、文字や図形などの表示が含まれる。また、ディスプレイ21に表示される内容の情報には、ディスプレイ21の表示画面Dの背景の色及び表示されている文字の情報が含まれる。ディスプレイ21に表示される内容の情報は、例えば、ウィンドウを表示しているソフトウェアを実行しているOSのAPIを経由して検知を行ってもよい。なお、OSとは、Operation Systemの略称である。また、APIとは、Application Programming Interfaceの略称である。
【0057】
映像取得部217は、通信モジュール10Sを用いて、字幕表示処理システム1に含まれる端末100に入力された映像の情報を取得する。例えば端末100に備えられたカメラモジュール14により撮像され、端末100へと入力された映像の情報を取得する。
【0058】
設定取得部219は、通信モジュール10Sを用いて、字幕表示処理システム1に含まれる端末100において設定された設定情報を取得する。
本実施形態では、設定情報は、端末100の表示画面Dに設定表示w4が表示され、表示された設定表示w4について、端末100のユーザがキーボード11及びマウス12を用いた操作を行うことにより設定される情報である例に適用して説明する。
【0059】
図6は、設定表示w4の一例を示す。
図6に示すように、設定表示w4は、認識言語設定ボタンh1と、翻訳言語ボタンh2と、文字サイズ設定ボタンh3と、文字色設定ボタンh4と、透過度設定ボタンh5と、背景色設定ボタンh6と、話者設定ボタンh7と、ミュートボタンh8と、翻訳実施/終了ボタンh9と、を有する。
【0060】
認識言語設定ボタンh1は、音声認識の言語をあらかじめ設定するボタンである。認識言語設定ボタンh1がクリック操作されると、「日本語」、「英語」、「中国語」などの種々の言語が表示される。表示された言語から話者があらかじめ話す言語がクリック操作などにより選択されることにより、音声認識の言語が設定される。音声認識の言語が設定されると、当該選択された言語を表す文字で、音声認識の結果を音声認識表示a2に表示させる。
【0061】
翻訳言語ボタンh2は、入力された音声を翻訳した後の言語を設定するボタンである。翻訳言語ボタンh2がクリック操作されると、「日本語」、「英語」、「中国語」などの種々の言語が表示される。表示された言語から翻訳する言語がクリック操作などにより選択されることにより、翻訳する言語が設定される。翻訳する言語が設定されると、当該選択された言語を表す文字で、音声認識された内容が翻訳され翻訳表示a3に表示される。
【0062】
文字サイズ設定ボタンh3は、話者表示a1、音声認識表示a2及び翻訳表示a3に表示される文字のサイズを設定するために用いられるボタンである。文字サイズ設定ボタンh3がクリック操作されると、「10pt」「15pt」「20pt」などの文字のサイズを表すボタンが表示され、いずれかのボタンがクリック操作で選択されることにより、選択されたボタンに対応したサイズに話者表示a1、音声認識表示a2及び翻訳表示a3に表示される文字のサイズが設定される。
【0063】
文字色設定ボタンh4は、話者表示a1、音声認識表示a2及び翻訳表示a3に表示される文字の色を設定するために用いられるボタンである。文字色設定ボタンh4がクリック操作されると、赤、青、緑などの文字の色を表すボタンが表示され、いずれかのボタンがクリック操作により選択されることにより、選択されたボタンに対応した色に話者表示a1、音声認識表示a2及び翻訳表示a3に表示される文字の色が設定される。当該文字の色を表すボタンとしては、当該色で表されたボタンが表示されてもよい。
【0064】
透過度設定ボタンh5は、話者表示a1、音声認識表示a2及び翻訳表示a3に表示される字幕表示領域w2の背景の透過度を設定するために用いられるボタンである。透過度設定ボタンh5がクリック操作されると、「20%」「50%」「70%」などの透過度を表すボタンが表示され、いずれかのボタンがクリック操作により選択されることにより、選択されたボタンに対応した透過度に字幕表示領域w2の背景の透過度が設定される。
【0065】
背景色設定ボタンh6は、話者表示a1、音声認識表示a2及び翻訳表示a3に表示される字幕表示領域w2の背景の色を設定するために用いられるボタンである。背景色設定ボタンh6がクリック操作されると、赤、青、緑などの透過度を表すボタンが表示され、いずれかのボタンがクリック操作により選択されることにより、選択されたボタンに対応した色に字幕表示領域w2の背景の色が設定される。なお、当該背景の色を表すボタンとしては、当該色で表されたボタンが表示されてもよい。また、背景色設定ボタンh6で選択可能な背景の色は、文字色設定ボタンh4で選択可能に表示されるボタンの色に比べて薄い色または濃い色が選択可能に表示されてもよい。このように選択可能な背景の色が設定されることにより、同じ色が選択された場合でも、背景の色と文字の色とが同じになることにより文字が背景に埋もれることを防止しつつ、表示させることができる。
【0066】
話者設定ボタンh7は、話者ごとに表示を設定する際に用いられるボタンである。話者設定ボタンh7がクリック操作されると、選択可能な話者を表したボタンが表示され、いずれかのボタンがクリック操作により選択されることにより、選択されたボタンに対応した話者の表示が設定可能となる。デフォルトの値としては、例えば、操作をしている端末100のユーザが選択される。そして、話者が選択された状態において、認識言語設定ボタンh1、翻訳言語ボタンh2、文字サイズ設定ボタンh3、文字色設定ボタンh4、透過度設定ボタンh5、背景色設定ボタンh6、ミュートボタンh8、翻訳実施/終了ボタンh9により表示を設定されることにより、当該話者に対応した表示の字幕表示領域w2についての設定がなされる。
【0067】
ミュートボタンh8は、ミュートアイコンc1と同様に、ユーザによりクリック操作がされると、当該端末100は、いわゆるミュート状態となる。
翻訳実施/終了ボタンh9は、字幕表示領域w2において、翻訳の実施と終了を切り替えるボタンである。翻訳が実施されている状態では字幕表示領域w2には翻訳表示a3が含まれ、翻訳された言語での表示が行われる。一方、翻訳が終了されている状態では、字幕表示領域w2には翻訳表示a3が含まれず、翻訳された言語での表示が非表示となる。ここで、翻訳表示a3の表示が非表示である場合には、翻訳表示a3が表示されている場合に比べて、字幕表示領域w2における話者表示a1及び音声認識表示a2の表示を大きく表示するように設定されてもよい。
【0068】
文字入力アイコンc5は、種々の文字を入力可能とするためのアイコンである。例えば、字幕表示領域w2に加えて、文字を記録させたい場合などに当該アイコンがクリックされることにより入力可能なモードとなり、当該入力可能モードにおいて、字幕表示領域w2が選択されることにより当該字幕表示領域w2に入力された文字が、字幕表示領域w2に表示される文字に加えられるものであってもよい。なお、すでに字幕表示領域w2に表示されている文字を、キーボード11を用いて削除可能としてもよい。
【0069】
処理部220は、認識部221と、表示設定部223と、を機能的構成として有する。
認識部221は、取得部210により取得された音声、映像及び表示の情報に基づいて所定の処理を実行する。
【0070】
認識部221は、音声認識部221aと、翻訳部221bと、感情認識部221cと、話者認識部221dと、表示認識部221eと、を備える。
音声認識部221aは、音声取得部211により取得された音声を音声認識する。ここでいう音声認識とは、音声取得部211により取得された音声を当該音声に対応した文字列に変換することをいう。音声認識には、人工知能を用いた音声認識エンジンが用いられる例に適用して説明する。
【0071】
翻訳部221bは、音声取得部211により取得された音声を所定の言語に翻訳する。翻訳には、人工知能による翻訳エンジンが用いられる例に適用して説明する。なお、翻訳部221bによる翻訳は、音声取得部211により取得された音声を直接翻訳してもよく、音声認識部221aにより音声認識された結果をさらに翻訳してもよい。また、本実施形態では、翻訳部221bにより翻訳される言語、すなわち翻訳後の言語は、あらかじめ設定取得部219から取得されるものであってもよい。
【0072】
感情認識部221cは、音声取得部211により取得された端末100に入力された話者の音声及び映像取得部217により取得された端末100に入力された映像に含まれる話者の表情から、端末100の話者の感情を認識する。ここでいう話者の感情は、喜怒哀楽の4つの分類をいう例に適用して説明する。なお、話者の感情は喜怒哀楽に限定されるものではなく、種々の感情に分類されてもよい。なお、話者の音声による感情認識は、音声の高低や、大きさにより認識される例に適用して説明する。また、話者の表情による感情認識は、人工知能を用いた技術が用いられる。さらに、話者の表情及び音声から話者の感情が最も高ぶった箇所を認識する例に適用して説明する。すなわち、感情認識において、喜怒哀楽の度合いを認識し、度合いの高い部分、低い部分を認識するように構成されてもよい。具体的には、認識された声の大きい箇所や、無表情の状態に対して目や口などの動きが大きい箇所で、特に喜怒哀楽の度合いが高いと判定されてもよい。
【0073】
話者認識部221dは、音声取得部211により取得された音声の話者を認識する。話者認識部221dによる話者の認識は、音声認識部221aにより認識された音声に基づくものである例に適用して説明する。話者の認識は、音声認識部221aによる音声認識の結果に基づくものに限定されるものではない。例えば、映像取得部217により取得されたユーザの顔の映像に基づくものであってもよい。具体的には、顔の動きから、話者を認識するものであってもよい。また、音声取得部211により取得された音声に基づくものであってもよい。例えば、端末100がユーザのそれぞれに割り当てられている場合には、音声を認識した端末100のユーザを話者として認識してもよい。
【0074】
表示認識部221eは、端末100のディスプレイ21における表示画面Dに表示された内容を認識するものである。
表示設定部223は、認識部221により認識された内容に基づいて表示を設定する。図7は、表示設定部223により設定される表示画面Dの表示の例を表した図である。
【0075】
図7に示すように、ディスプレイ21の表示画面Dにおいて、種々の表示がなされるものとして説明する。すなわち、表示画面Dには、デスクトップの背景が表示される。本実施形態では、デスクトップの背景に、重畳にして、ウィンドウw1が表示されている例に適用して説明する。また、ウィンドウw1は、デスクトップの背景に重なって、いわゆる全画面表示で表示されている例に適用して説明する。
【0076】
表示設定部223により、設定される字幕表示領域w2は、表示画面D及び表示されているウィンドウw1に重畳して表示されるように設定される。
表示設定部223により字幕表示領域w2は、話者表示a1、音声認識表示a2、翻訳表示a3及びアイコン領域b1を有する。
【0077】
話者表示a1は、話者認識部221dにより認識された話者の名前を表示する領域である。話者表示a1に表示される話者の名前は、図7に示すようにアルファベットで表示されるものであってもよく、ひらがなやカタカナ、漢字で表示されるものであってもよい。
【0078】
音声認識表示a2は、音声取得部211により取得された音声を音声認識部221aにより音声認識された内容を文字列として表示する領域である。
翻訳表示a3は、音声取得部211により取得された音声を翻訳部221bにより所定の言語に翻訳された内容を文字列として表示する領域である。
【0079】
字幕表示領域w2の話者表示a1、音声認識表示a2及び翻訳表示a3は、それぞれ、認識された話者が変更されるごとに切り替わる。また、字幕表示領域w2の話者表示a1、音声認識表示a2及び翻訳表示a3は、同一の話者が続けて話している場合であっても、所定の時間が空いた場合には、表示を削除し、改めて話者、音声認識の内容、翻訳の内容が、それぞれ話者表示a1、音声認識表示a2及び翻訳表示a3に表示される。ここで、字幕表示領域w2の音声認識表示a2及び翻訳表示a3に表示される文字数が、あらかじめ決められた文字数以上となった場合には、音声認識表示a2及び翻訳表示a3の表示がスクロールされて表示されてもよい。また、文字数が話者表示a1、音声認識表示a2及び翻訳表示a3に表示されるように文字のサイズを小さくするように表示が制御されてもよい。さらに文字の表示のサイズを小さくする場合に、字幕表示領域w2の背景の色と話者表示a1、音声認識表示a2及び翻訳表示a3に表示される文字の色との明暗をより見やすいように、文字及び表示領域の背景の色とが調整されてもよい。本実施形態では、字幕表示領域w2の背景の色の明度が、文字の色の明度に対して一定以上異なるように調整されるように設定される例に適用して説明する。
【0080】
アイコン領域b1は、所定のアイコンが表示されている領域である。
アイコン領域b1の表示の例を図8に示す。図8に示すように、アイコン領域b1に表示されるアイコンには複数のアイコンが含まれる例に適用して説明する。ここで、複数のアイコンのそれぞれは、対応した機能を実行するために用いられる。
【0081】
本実施形態では、複数のアイコンとして、ミュートアイコンc1と、ダウンロードアイコンc2と、位置設定アイコンc3と、詳細設定アイコンc4と、文字入力アイコンc5と、が含まれる例に適用して説明する。
【0082】
ミュートアイコンc1は、ミュート状態のオンオフを切り替えるためのボタンである。具体的には、端末100のディスプレイ21に表示されたミュートアイコンc1がユーザによりクリック操作がされると、当該端末100は、いわゆるミュート状態となる。ここでいうミュート状態とは、端末100に配置されたマイクモジュール13により取得された音声データのサーバ200への送信を中止している状態を指す。なお、ミュート状態において、ミュートアイコンc1がクリック操作されることで、元の状態、すなわち、音声データのサーバ200への送信を再開する。
【0083】
ダウンロードアイコンc2は、字幕表示領域w2に表示された、話者表示a1、音声認識表示a2及び翻訳表示a3の内容をダウンロードするために用いられる。
位置設定アイコンc3は、当該端末100の表示画面Dにおいて字幕表示領域w2の位置を調整するために用いられるアイコンである。
【0084】
具体的には、位置設定アイコンc3が端末100のマウス12を用いてクリック操作されると、位置設定ウィンドウw3が表示される。表示される位置設定ウィンドウw3の表示の例を図9に示す。当該位置設定ウィンドウw3に表示されるボタンには複数のボタンが含まれる例に適用して説明する。位置設定ウィンドウw3に表示されるボタンの例として、表示切替ボタンd1と、d2と、d3と、d4と、d5と、を示す。
【0085】
表示切替ボタンd1、d2、d3、d4、d5はそれぞれ、画面上の位置に対応している。具体的には、表示切替ボタンd1がクリック操作されることにより、字幕表示領域w2は表示画面Dの上側に表示される。ここで、表示画面Dの上側とは、ディスプレイ21が配置された際の上側をいう。ただし、表示画面Dの上側は、ディスプレイ21が配置された際の上側を意味するものに限定されるものではない。具体的には、表示画面Dにおいて、画像の信号が入力される最初の行が配置されている側であってもよい。
【0086】
同様に、表示切替ボタンd2がクリック操作されることにより、字幕表示領域w2は表示画面Dの上下方向の中央に表示される。また、表示切替ボタンd3がクリック操作されることにより、字幕表示領域w2は、表示画面Dの下側に表示される。さらに、表示切替ボタンd4がクリック操作されることにより、字幕表示領域w2は、表示画面Dの左側に表示される。表示切替ボタンd5がクリック操作されることにより、字幕表示領域w2は、表示画面Dの右側に表示される。
【0087】
本実施形態では、右側とは、表示画面Dの右側半分に含まれる範囲をいい、左側とは、表示画面Dの左側半分に含まれる範囲をいう。上側とは、表示画面Dの上側3分の1に含まれる範囲をいい、中央とは、表示画面Dの中央3分の1に含まれる範囲をいい、下側とは、表示画面Dの下側3分の1に含まれる範囲をいう。また、各位置に変更する際に、当該範囲に含まれるように、字幕表示領域w2のサイズが変更される例に適用して説明する。なお、字幕表示領域w2の表示は位置及びサイズの両方が変更されるものに限定されるものではなく、位置及びサイズの一方のみが変更されるものであってもよい。
【0088】
このように表示切替ボタンd1~d5と、当該表示切替ボタンd1~d5のそれぞれに対応した字幕表示領域w2が表示される位置との対応関係を示したが、表示切替ボタンd1~d5のそれぞれと字幕表示領域w2の表示される位置との対応は、このような対応関係に限定されるものではない。具体的には、例えば、表示切替ボタンd1~d5のそれぞれがクリック操作されることにより、上下、左右、中央の位置に表示されるものに限定されるものではなく、表示画面Dのそれぞれ互いに異なる位置に字幕表示領域w2を表示させるものであってもよい。
【0089】
また、詳細設定アイコンc4は、例えば、字幕表示領域w2の表示内容を設定するための設定表示w4を表示するために用いられるアイコンである。詳細設定アイコンc4がクリック操作されることにより設定表示w4が表示される。
【0090】
表示設定部223は、文字設定部223aと、背景設定部223bと、領域設定部223cと、アイコン設定部223dと、を機能的構成として有する。
文字設定部223aは、音声認識部221aにより認識された内容及び翻訳部221bにより翻訳された内容を、文字列として表示する際の文字のサイズ、文字種及び色などの表示態様を設定する。文字設定部223aは、音声認識部221aにより認識された内容を表示する表示態様と、翻訳部221bにより翻訳された内容を表示する表示態様とが異なるように設定してもよい。具体的には、音声認識表示a2及び翻訳表示a3に表示される文字の表示態様を設定する。
【0091】
背景設定部223bは、音声認識部221aにより認識された内容及び翻訳部221bにより翻訳された内容を表示する字幕表示領域w2の背景の設定を行う。ここで、背景設定部223bにより設定される字幕表示領域w2の背景の色は、端末100のデスクトップの背景の色に基づいて設定されてもよい。さらに、端末100において、所定のソフトウェアが実行され、実行されたソフトウェアに基づいてウィンドウw1が表示されている場合には、当該表示されているウィンドウw1に含まれる色に基づいて設定されてもよい。言い換えると、背景設定部223bにより設定される字幕表示領域w2の背景の色は、字幕表示領域w2により重畳される範囲の色に基づいて設定されてもよい。
【0092】
具体的には、ウィンドウw1の重畳される範囲の色と反転させた色が字幕表示領域w2の背景の色として設定されてもよい。また、背景設定部223bにより設定される字幕表示領域w2の背景の色は、当該字幕表示領域w2に表示される文字色と、重畳されるウィンドウw1の範囲の色とに基づいて設定されてもよい。具体的には、背景設定部223bにより設定される字幕表示領域w2の背景の色は、字幕表示領域w2に表示される文字色を反転させた色が用いられてもよい。すなわち、例えば、字幕表示領域w2に表示される文字の文字色が白色である場合には、字幕表示領域w2の背景の色としては黒色が用いられてもよく、字幕表示領域w2に表示される文字の文字色が黒色である場合には、字幕表示領域w2の背景の色としては白色が用いられてもよい。
【0093】
次に、文字色と、その字幕表示領域w2が重畳される範囲の色、具体的には、デスクトップの背景の色や表示されているウィンドウw1に含まれる色と、が類似する場合には、背景設定部223bにより設定される字幕表示領域w2の背景の色が濃く表示されてもよい。また、文字色と、デスクトップの背景の色や表示されているウィンドウw1に含まれる色と、が非類似である場合には、背景設定部223bにより設定される字幕表示領域w2の背景の色が薄く表示されてもよい。当該字幕表示領域w2の背景の色の濃淡の設定は、いわゆる透過度を調整することにより行われてもよい。すなわち、透過度を低くすることにより、当該領域の背景は濃くなり、透過度を高くすることにより、当該領域の背景が薄くなるように調整されてもよい。また、色同士が非類似とは、例えば、色同士の明度及び再度が所定の閾値以上異なることをいう。
【0094】
また、背景設定部223bの背景の色は、感情認識部221cにより認識された話者の感情によって異なる色に設定されてもよい。具体的には、例えば、話者の怒りの感情を認識した場合に赤色となるように設定され、話者の悲しみの感情を認識した場合に、青色となるように設定されてもよい。他にも話者の感情を細かく分類できる場合には当該分類のそれぞれに応じて色が設定されてもよい。
【0095】
また、背景設定部223bの背景の色は、話者認識部221dにより認識された話者に応じて、色が変更されてもよい。すなわち、ある話者が話している内容を表示する場合には、赤色で表示し、その他の話者が話している内容を表示する場合には青色で表示するなどであってもよい。また、話者それぞれに色を割り当て、話者ごとに色が変更されてもよい。
【0096】
領域設定部223cは、字幕表示領域w2が表示される位置を設定する。
記憶部230は、出力記憶部231と、設定記憶部233と、を機能的構成として有する。
【0097】
出力記憶部231は、出力部240により出力された映像、表示、文字をそれぞれメモリ30Sに記憶させる。
設定記憶部233は、処理部220において処理を行う際に必要な情報をメモリ30Sに記憶させる。処理部220において処理を行う際に必要な情報は、あらかじめ初期値を記憶させてもよい。また、字幕表示処理システム1の各端末100に記憶された情報から取得した情報をメモリ30Sに記憶させてもよい。
【0098】
出力部240は、表示設定部223により設定された字幕表示領域w2と、字幕表示領域w2とは異なる領域にログウィンドウw5を端末100のディスプレイ21の表示画面Dに表示させる。
【0099】
図10は、ログウィンドウw5の一例を表した図である。図10に示したログウィンドウw5は、は、音声認識された内容を含む。
図10を用いて、表示されるログウィンドウw5の一例について説明する。表示されるログウィンドウw5は、表示された字幕表示領域w2の表示に対応してブロックfごとに分かれて表示される。ブロックfは、例えば、字幕表示領域w2の話者表示a1、音声認識表示a2、翻訳表示a3に表示された内容に対応して、話者ログg1、音声認識ログg2、翻訳ログg3を有する。
【0100】
ログウィンドウw5に含まれるブロックfは、当該ブロックfに含まれる内容の音声を認識した際の話者の感情に応じて表示態様が変更される例に適用して説明する。例えば、ブロックfの背景の色が感情に応じて色が変化していてもよい。また、話者ログg1、音声認識ログg2、翻訳ログg3に含まれる文字の表示が、感情に応じて表示態様が変更されていてもよい。具体的には、話者ログg1、音声認識ログg2、翻訳ログg3の背景の色、文字の書体、サイズ及び色が感情に応じて変更されていてもよい。
【0101】
図10に示したログウィンドウw5の表示例において、文字の大きさが変更された例を図11に示す。図11では、例えば、話者の感情が「喜」であった場合に、文字のサイズを大きくする例に適用して説明する。なお、表示態様を変更するのは、話者の感情が「喜」であると認識した場合に限定されるものではなく、「怒」「哀」「楽」のいずれかである場合に変更されるものであってもよく、認識された感情に応じてそれぞれ異なる表示態様で表示されるものであってもよい。
【0102】
また、変更される表示態様は文字のサイズに限定されるものではなく、文字の書体や色などであってもよい。本実施形態では、話者ログg1、音声認識ログg2及び翻訳ログg3の領域ごとに表示態様を変更する例に適用して説明するが、話者ログg1、音声認識ログg2及び翻訳ログg3それぞれの一部分を変更するものであってもよく、変更する一部分は、領域に表示される文字に対応する音声が認識された際に、最も話者の感情が認識された部分であってもよい。なお、認識された話者の感情の大きさは、後述する感情認識部221cによる認識によりなされる例に適用して説明する。
【0103】
次に外部端末300のハードウェア構成を、図を用いて説明する。図12は、本実施形態における外部端末300のハードウェア構成を表した図である。
外部端末300は、タッチパネル10Tと、表示画面20Tと、通信モジュール30Tと、CPU40Tと、メモリ50Tと、を備える。
【0104】
タッチパネル10Tは、タッチ操作を行うことにより外部端末300に対して入力操作が可能なインターフェースである。本実施形態でいうタッチ操作には、タップ操作、フリック操作などのユーザが触れることにより入力可能な種々の操作が含まれる例に適用して説明する。さらに、入力操作には、タッチパネル10Tに指などを近づけて操作するホバー操作が含まれてもよい。タッチパネル10Tとしては一般的なスマートフォンやタブレット端末に用いられるものであってもよい。
【0105】
表示画面20Tは、本実施形態では、液晶パネルや有機ELパネルなどの画面が用いられる例に適用して説明する。ここでいう有機ELとは、有機Electro-Luminescenceの略称である。
【0106】
通信モジュール30Tは、字幕表示処理システム1の端末100及びサーバ200と通信するために用いられるモジュールである。本実施形態では、外部端末300は、サーバ200と直接通信を行う例に適用して説明する。なお、外部端末300は、サーバ200と直接通信するものに限定されるものではなく、端末100を経由して、サーバ200と通信するものであってもよい。
【0107】
CPU40Tは、種々のプログラムを実行するものである。本実施形態では、CPU40Tが実行するプログラムには、メモリ50Tに記憶されたプログラムが含まれる例に適用して説明する。
【0108】
メモリ50Tは、プログラムを含む種々の情報を記憶する記憶媒体である。本実施形態では、メモリ50Tに記憶されたプログラムには、サーバ200に記憶されたログの取得に用いられるプログラムが含まれる例に適用して説明する。
【0109】
なお、音声認識部221a及び翻訳部221bがデータ出力手段の一例に相当し、表示設定部223が表示設定手段及び変更手段の一例に相当し、出力部240が表示手段の一例に相当する。
【0110】
表示設定部223が字幕表示態様変更手段、吹き出し表示手段、吹き出し表示態様変更手段及びボタン表示手段の一例に相当する。
表示取得部215が背景文字取得手段及び背景色取得手段の一例に相当する。
【0111】
[2.作用]
<表示処理>
次に、サーバ200のCPU20Sが実行する表示処理について説明する。ここでいう表示処理は、字幕表示処理システム1に含まれる複数の端末100同士が通信を行い、いわゆるウェブ会議を行う際に、当該複数の端末100における字幕表示領域w2の表示を制御する処理をいう。なお、本実施形態では、第1の端末100aが第2の端末100bと通信を行い、ウェブ会議を行う例に適用して説明する。ここで、第1の端末100aの画面の表示を制御するとともに、第1の端末100aに表示されている画面と同様の表示を、第2の端末100bの画面に表示させる例に適用して説明する。
【0112】
本実施形態では、表示処理は、字幕表示処理システム1に含まれる端末100からの要求に応じて実行される例に適用して説明する。
ここで、端末100から表示処理を実行する要求は、例えば、端末100にあらかじめ記憶されたアプリなどのソフトウェアが実行されることにより行われるものであってもよい。本実施形態では、字幕表示処理システム1に含まれる第1の端末100aから、表示処理を実行する要求が送信された例に適用して説明する。
【0113】
また、表示画面Dへの表示の一例として、図13に示すような画面が表示されている例に適用して説明する。すなわち、図13に示すように、ウィンドウw1の領域i1及び領域i2に、文字が表示されている例に適用して説明する。
【0114】
図14は、サーバ200のCPU20Sが実行する表示処理を表したフローチャートである。
図14に示すように、S110で、CPU20Sは、取得処理を実行する。ここでいう取得処理は、表示処理を実行する要求を送信した端末100である第1の端末100aと、当該第1の端末100aと、ウェブ会議を行う第2の端末100bとから音声、表示、操作及び映像のデータを取得する処理である。第1の端末100a及び第2の端末100bからのデータの取得は、サーバ200が備える通信モジュール10Sと、第1の端末100aが備える通信モジュール30及び第2の端末100bが備える通信モジュール30とが通信を行うことにより行われる例に適用して説明する。取得処理の詳細は後述する。
【0115】
S120で、CPU20Sは、S110で実行された取得処理により取得された音声の音声認識を行う。
S130で、CPU20Sは、S110の取得処理において取得された音声を所定の言語に翻訳する。翻訳には、例えば、人工知能による翻訳エンジンが用いられてもよい。
【0116】
S140で、CPU20Sは、S110の取得処理において取得された音声の話者認識を行う。
S150で、CPU20Sは、話者の感情を認識する処理を実行する。
【0117】
S160で、CPU20Sは、表示設定を実行する。ここでいう表示設定とは、S110からS150までで取得及び認識された情報に基づいて、第1の端末100a及び第2の端末100bへの表示を設定するものである。
【0118】
ここで、設定される内容には、表示される文字のサイズ、色及び背景の色、透過度の他、ディスプレイ21の表示画面Dに表示される表示領域の位置が含まれる。
ここで、表示領域の位置は、表示位置の設定アイコンを操作することにより設定されてもよい。
【0119】
S170で、CPU20Sは、S160で設定された表示位置が変更条件を満たすか否かを判定する。ここで、変更条件とは、S160で設定された表示設定により設定された表示位置を変更する必要があるか否かを表した条件をいう。本実施形態では、変更条件は、S160で設定された表示位置と、マウス12の操作により表示されているマウスポインタPとの位置に基づいて判定される例に適用して説明する。すなわち、S160で設定された位置に字幕表示領域w2が表示された場合に、当該字幕表示領域w2とマウスポインタPの表示とが重なる場合に、変更条件を満たすと判定し、そうでない場合に変更条件を満たさないと判定する。
【0120】
具体的に、図15及び図16を用いて説明する。
図15に示すように、マウスポインタPの位置は、字幕表示領域w2と重なっていない。このため、字幕表示領域w2は、あらかじめ設定された位置(例えば、表示画面Dの下側)に表示される。
【0121】
一方、字幕表示領域w2と重なる位置にマウスポインタPが移動した場合には、図16に示すように、字幕表示領域w2の位置が表示画面Dの上側に位置が変更される。すなわち、字幕表示領域w2は、図15において表示されていた位置から、マウスポインタPと重ならない位置に位置するように表示される。
【0122】
CPU20Sは、S170で変更条件を満たすと判定した場合には、S180に処理を移行する。
S180で、CPU20Sは、S160で設定された字幕表示領域w2の位置を変更する処理を実行する。具体的には、マウスポインタPの位置と重ならない位置に字幕表示領域w2を移動させるように変更させる。また、字幕表示領域w2の位置の変更としては、例えば、S160で表示画面Dの下側に表示位置が設定されていた場合には、表示画面Dの中央に設定を変更してもよく、表示画面Dの上下方向の中央に表示位置が設定されていた場合には、表示画面Dの上側に設定を変更してもよい。また、表示画面Dの上側に表示するように表示位置が設定されていた場合には、表示画面Dの下側に設定を変更してもよい。
【0123】
また、表示画面Dの左側に表示位置が設定されていた場合には、表示画面Dの右側に表示位置の設定を変更してもよく、反対に、表示画面Dの右側に表示位置が設定されていた場合には、表示画面Dの左側に表示位置の設定を変更してもよい。
【0124】
S190で、CPU20Sは、S160で設定された表示態様に基づいて、字幕表示領域w2を表示する。また、S180で設定が変更された場合には変更された表示態様に基づいて字幕表示領域w2を表示する。本実施形態では、字幕表示領域w2の表示は、第1の端末100aと第2の端末100bとの両方に表示させる例に適用して説明する。
【0125】
S200で、CPU20Sは、S190で第1の端末100a及び第2の端末100bに表示した情報を記憶する記憶処理を実行する。また、CPU20Sは、記憶処理において、S160で設定された設定情報を記憶する。
【0126】
S210で、CPU20Sは、ウェブ会議が終了されたか否かを判定する。ウェブ会議が終了されたか否かの判定は、例えば、第1の端末100a及び第2の端末100bの一方からウェブ会議終了の操作がなされたか否かにより判定されてもよい。
【0127】
CPU20Sは、ウェブ会議が終了したと判定した場合には、表示処理を終了する。
一方、CPU20Sは、ウェブ会議が終了していないと判定した場合には、S110に処理を移行し、以降の処理を実行する。
【0128】
なお、S110が、取得部210としての処理の一例に相当し、S120が、音声認識部221aとしての処理の一例に相当し、S130が、翻訳部221bとしての処理の一例に相当し、S140が、話者認識部221dとしての処理の一例に相当し、S150が、感情認識部221cとしての処理の一例に相当する。
【0129】
S160、S170及びS180が、表示設定部223としての処理の一例に相当し、S190が、出力部240としての処理の一例に相当し、S200が、記憶部230としての処理の一例に相当する。
【0130】
<取得処理>
次に、CPU20Sが、表示処理のS110で実行する取得処理の詳細について、図17のフローチャートを用いて説明する。
【0131】
S310で、CPU20Sは、第1の端末100a及び第2の端末100bの音声のデータを取得する。
ここで、取得される音声のデータは、第1の端末100a及び第2の端末100bのそれぞれが有するマイクモジュール13から入力されるものである例に適用して説明する。
【0132】
S320で、CPU20Sは、第1の端末100a及び第2の端末100bの操作のデータを取得する。
ここで、取得される操作のデータは、第1の端末100a及び第2の端末100bのそれぞれが有する、キーボード11及びマウス12から入力されるものである例に適用して説明する。
【0133】
なお、ここでいうキーボード11を用いた操作には、キーボード11を用いた打鍵による操作が含まれる。また、マウス12を用いた操作には、マウス12を用いたクリック、ドラッグ&ドロップ、スクロールなどのボタンを用いた操作及び、マウス12によるポインタを移動させる操作などの種々の操作が含まれる。
【0134】
さらに、キーボード11及びマウス12を用いた操作には、各ディスプレイ21に表示されたアイコンなどの選択等をすることにより実行されるプログラムや機能などの情報が含まれる例に適用して説明する。
【0135】
S330で、CPU20Sは、第1の端末100a及び第2の端末100bの映像のデータを取得する。
映像のデータの取得は、第1の端末100a及び第2の端末100bに備えられるカメラモジュール14により撮像されるものである例に適用して説明する。
【0136】
S340で、CPU20Sは、第1の端末100a及び第2の端末100bの表示のデータを取得する。
表示のデータの取得は、第1の端末100a及び第2の端末100bに備えられるディスプレイ21へ表示する画面のデータである例に適用して説明する。ここで、表示のデータには、ディスプレイ21に表示される画像のデータに加え、ディスプレイ21のサイズのデータが含まれる例に適用して説明する。ディスプレイ21のサイズのデータは、例えば、EDIDのデータに含まれるものであってもよい。ここで、EDIDとは、Extended Display Identification Dataの略称である。
【0137】
S350で、CPU20Sは、第1の端末100a及び第2の端末100bの設定のデータを取得し、取得処理を終了する。
ここで取得される設定のデータには、表示処理のS130で翻訳される言語のデータと、S160で設定される表示の表示態様に関するデータと、表示される領域の背景のデータが含まれていてもよい。翻訳される言語のデータとは、例えば、音声認識されたデータとは異なる言語に翻訳する際に、いずれの言語に翻訳するかを表したデータであってもよい。また、S120で音声認識された文字及び、音声認識された言語をS130で翻訳された文字のサイズ、書体、色などの表示態様が記憶されてもよい。さらに、表示される領域の背景のデータとしては、表示される領域の背景の色が設定されてもよい。また、表示される領域の背景の色は、表示される背景の色を直接表したものであってもよく、表示される領域と、その領域が重畳する部分の画像の色との差分が設定されてもよい。
【0138】
ここで、S310での処理が音声取得部211としての処理の一例に相当し、S320での処理が操作取得部213としての処理の一例に相当し、S330での処理が、映像取得部217としての処理の一例に相当する。まt、S340での処理が、表示取得部215としての処理の一例に相当し、S350での処理が、設定取得部219としての処理の一例に相当する。
【0139】
<ログ送信処理>
次に、サーバ200のCPU20Sが実行するログ送信処理について、図18を用いて説明する。ログ送信処理は、行われたウェブ会議において音声認識の結果と翻訳の結果、字幕表示領域w2に表示した内容とをログとして送信する処理をいう。
【0140】
本実施形態では、外部端末300から通信を介して、ログを送信するように要求する信号をサーバ200が受信した際に開始する例に適用して説明する。ログを送信するように要求する信号は、例えば、サーバ200の通信モジュール10Sを用いて受信されるものである例に適用して説明する。
【0141】
S510で、サーバ200のCPU20Sは、ログの送信を要求した外部端末300に対して、認証情報を要求する。ここでは、認証情報として、IDとパスワードを要求する例に適用して説明する。ここで、IDとパスワードとは、例えば、ウェブ会議のログごとに設定される。IDは、サーバ200のメモリ30Sに記憶されたログを識別するために用いられてもよい。パスワードは、ログを取得するために必要となる文字列である。すなわち、IDにより特定されたログごとに設定された、パスワードが入力されることにより、認証が解除され、当該ログの情報がサーバ200から送信される例に適用して説明する。設定されたIDとパスワードは、ウェブ会議が終了した際に、当該ウェブ会議に参加した端末100に対して、通信を介して通知されるものであってもよい。
【0142】
S520で、CPU20Sは、S510で要求した認証情報に対して、外部端末300から認証情報の受信があったか否かを判定する。
CPU20Sは、S520で、認証情報の受信がないと判定した場合には、引き続き認証情報の受信を待機した状態を継続する。
【0143】
一方、CPU20Sは、S520で、認証情報を受信したと判定した場合には、S530に処理を移行する。
S530で、CPU20Sは、受信した認証情報に基づいて、認証を許可するか否かを判定する。具体的には、外部端末300から受信した、ログのIDに対応したパスワードが正しいか否かを判定することにより、認証を許可するか否かを判定する。外部端末300から送信を要求されたログのIDに対応したパスワードと外部端末300から受信したパスワードとが一致した場合には、認証を許可し、外部端末300から送信を要求されたログのIDに対応したパスワードと外部端末300から受信したパスワードとが不一致である場合には、認証を拒否する。
【0144】
CPU20Sは、S530で認証を拒否すると判定した場合には、ログ送信処理を終了する。なお、この際に、外部端末300に対して、認証を拒否する旨を通知してもよい。
一方、CPU20Sは、S530で認証を許可すると判定した場合には、S540に処理を移行する。
【0145】
S540で、CPU20Sは、外部端末300に対して、ログを送信し、ログ送信処理を終了する。
なお、本実施形態では、ログ送信処理は、ログ送信部250としての処理に相当する。
【0146】
[3.効果]
(1)上記実施形態によれば、位置設定ウィンドウw3に含まれる表示切替ボタンd1~d5のそれぞれに対応した位置に字幕表示領域w2が表示される。このため、ウェブ会議などで、話者が話しながら、字幕表示領域w2の位置を変更したい場合に、行う操作の負担が軽減される。
【0147】
(2)特に、ウェブ会議などでは、話者は流ちょうな説明が求められることがあり、説明の流ちょうさによって、聴衆などのウェブ会議の相手に与える印象が大きく変化する。一方で、音声認識された文字や、音声認識された文字が翻訳された文字を表示する字幕表示領域w2が、重畳して表示されるウィンドウw1と重なって表示される場合、ウィンドウw1との位置によっては、説明がわかりづらくなる。
【0148】
上記実施形態によれば、字幕表示領域w2とウィンドウw1との位置を適宜調整することができ、当該調整の操作負担が軽減されるため、話者は説明しつつ、適切な位置に字幕表示領域w2を移動させやすくすることができる。
【0149】
(3)また、上記実施形態には、あらかじめ決められた位置に字幕表示領域w2を移動させることができるため、字幕表示領域w2の位置を移動させるために係る端末100及びサーバ200の負荷を軽減させることができる。
【0150】
[4.他の実施形態]
(1)上記実施形態では、字幕表示領域w2の位置を設定する際に、アイコン領域b1に含まれる位置設定アイコンc3がクリック操作されることにより、位置設定ウィンドウw3が表示された。そして上記実施形態では、位置設定ウィンドウw3において、図9に示したように表示切替ボタンd1~d5が上下方向に並んで表示される。しかしながら、ボタンが表示される態様は、図9に示す表示切替ボタンd1~d5のように上下方向に並んで表示されるものに限定されない。例えば、図19に示すように、表示切替ボタンd1~表示切替ボタンd5にそれぞれの代わりに表示切替ボタンe1~e5が表示されてもよい。表示切替ボタンe1~e5のそれぞれの相対的な配置が、表示画面D上における字幕表示領域w2を表示させる位置と、対応していてもよい。すなわち、表示画面Dの中央に字幕表示領域w2を表示させる表示切替ボタンe2は、中央に配置されてもよい。さらに、表示切替ボタンe2の上側に、表示画面Dの上側に字幕表示領域w2を表示させる表示切替ボタンe1、表示切替ボタンe2の下側に、表示画面Dの下側に字幕表示領域w2を表示させる表示切替ボタンe3が配置されてもよい。また、表示切替ボタンe2の左側に、表示画面Dの左側に字幕表示領域w2を表示させる表示切替ボタンe4、表示切替ボタンe2の右側に、表示画面Dの右側に字幕表示領域w2を表示させる表示切替ボタンe5が配置されてもよい。
【0151】
このような構成によれば直感的に、字幕表示領域w2の位置を設定できるため、ウェブ会議などで端末100のユーザである話者が話しているときに字幕表示領域w2の位置の設定をより行いやすい。
【0152】
(2)また、上記実施形態では、位置設定ウィンドウw3に表示されたボタンをクリック操作することによりクリック操作されたボタンに対応した位置に字幕表示領域w2の位置が設定された。しかしながら、字幕表示領域w2の位置の設定はこのような方法に限定されるものではない。
【0153】
例えば、字幕表示領域w2に表示される文字が表す内容と、字幕表示領域w2が重畳して表示されるウィンドウw1に表示された文字とが重ならないように字幕表示領域w2の位置が設定されてもよい。さらに、ウィンドウw1において表示された文字を取得し、当該取得された文字と、同様の内容を字幕表示領域w2に表示する場合に、当該ウィンドウw1において取得された文字が表示されている位置以外の位置に、字幕表示領域w2が表示されるように設定されてもよい。ウィンドウw1に表示されている文字の内容は、例えば、当該ウィンドウw1を表示しているソフトウェアを実行しているOSのAPIを経由して検知する例に適用して説明する。
【0154】
具体的には、図20図21及び図22を用いて説明する。図20は、他のアプリケーションの実施により表示されたウィンドウの表示の一例を表した図である。なお、図20においては、マウスポインタPの表示を省略している。
【0155】
ここで、ウィンドウw1に文字列が表示されている領域i1,i2において、それぞれ、「前年比率110%」、「宣伝広告による認知度の上昇」と記載されている例に適用して説明する。
【0156】
ここで、ウィンドウw1に重畳した字幕表示領域w2の表示の一例について図21を用いて説明する。具体的には、設定された位置である表示画面Dの下側に字幕表示領域w2が位置するように表示される。
【0157】
次に、音声認識された内容が図22に示すように、「この要因について分析した結果、宣伝広告による商品の認知度の上昇によるものではないかと考えられます。」との内容が音声認識で認識された例に適用して説明する。この場合、音声認識された内容において、「宣伝広告による」及び「認知度の上昇」がウィンドウw1において文字列が表示されている領域i2に表示されている文字列と一致する。そして、表示画面Dの下側に表示されると、当該i2の位置と重なる位置に字幕表示領域w2が表示されることとなるため、図22に示すように、当該字幕表示領域w2は、表示画面Dの上側に表示される位置が変更される。
【0158】
(3)さらに、字幕表示領域w2とウィンドウw1に表示された文字を認識した場合には、図23に示すように、ログウィンドウw5において、当該ウィンドウw1に表示された文字と一致する箇所の表示箇所を変更するように構成されてもよい。具体的には、当該該当箇所の書式を太字、下線を引くように構成されてもよい。なお、変更後の表示態様は、太字や下線に限定されるものではなく、文字のサイズを既定のサイズよりも大きくするものであってもよい。
【0159】
外部端末300としてタブレット端末が用いられ、タブレット端末の表示画面にログウィンドウw5が表示される例について図24を用いて説明する。
図24に示すように、ログウィンドウw5は、全画面に表示されるように構成されてもよい。ここで、ログウィンドウw5の表示は、外部端末300のタッチパネル10Tをフリック操作することにより、スクロールされるように構成されてもよい。
【0160】
(4)また、上記実施形態に加えて、表示された字幕表示領域w2のサイズを、マウス12を利用して、サイズの拡大又は縮小及び字幕表示領域w2の移動が可能に構成されてもよい。
【0161】
(5)上記実施形態では、字幕表示領域w2は、表示画面Dに1つ表示された。しかしながら、表示画面Dに表示されるw2の数は、1つに限定されるものではない。例えば、図25に示すように、複数の字幕表示領域w2である字幕表示領域w21、w22、w23、w24が表示されてもよい。また、各字幕表示領域w2に表示される内容は、話者ごとに対応するように表示されてもよい。すなわち、複数の話者が存在する場合に、1つの字幕表示領域w2を順次更新して表示させるものに限定されるものではなく、話者ごとに字幕表示領域w2が設定されるものであってもよい。具体的には、字幕表示領域w21が第1の話者に、字幕表示領域w22が第2の話者に、字幕表示領域w23が第3の話者に、字幕表示領域w24が第4の話者に対応するように表示されてもよい。また、話者が増えた場合又は、ウェブ会議への参加者が増えた場合に字幕表示領域w2が追加されて表示されてもよい。
【0162】
また、複数の字幕表示領域w2のサイズは、それぞれ同一であっても異なっていてもよい。字幕表示領域w2のそれぞれのサイズは、例えば役職ごとに異なっていてもよい。例えば、上位の役職の方が、字幕表示領域w2を大きく表示してもよい。
【0163】
(6)上記実施形態において、音声認識に用いられる音声認識エンジン及び翻訳に用いられる翻訳エンジンは種々選択可能に構成されてもよい。これにより、ユーザが使用する音声認識エンジン及び翻訳エンジンをしようすることができる。すなわち、音声認識及び翻訳において、音声データが音声認識エンジン及び翻訳エンジンに取得されるため、当該音声認識エンジン及び翻訳エンジンが選択可能となることにより、当該音声認識エンジン及び翻訳エンジンに音声データを取得させることを許可させることができる。言い換えると、音声データの送信を希望しない相手が提供する音声認識エンジン及び翻訳エンジンを使用することを抑制することができる。
【0164】
(7)また、音声認識の内容に応じて、音声認識エンジン及び翻訳エンジンが選択されてもよい。例えば、音声認識された内容に音声認識エンジン及び翻訳エンジンの提供元と競合する企業名が含まれる場合に、当該音声認識エンジン及び翻訳エンジンが選択されることが抑制されてもよい。また、音声認識エンジン及び翻訳エンジンそれぞれには、日常会話の音声認識及び翻訳が得意なエンジンや、ビジネス会話の音声認識及び翻訳が得意なエンジンなど、特色が存在するため、それぞれの特色に合ったエンジンが選択されてもよい。すなわち、あらかじめ会話のジャンルごとに音声認識エンジン及び翻訳エンジンが設定されており、認識された音声の会話のジャンルに応じて、音声認識エンジン及び翻訳エンジンが選択されてもよい。
【0165】
(8)上記実施形態では、マウスポインタPと字幕表示領域w2との表示位置が重なる場合に、字幕表示領域w2の表示位置を変更する。しかしながら、マウスポインタPと字幕表示領域w2との位置が重なる場合に必ずしも字幕表示領域w2の位置が変更されなくてもよい。例えば、キーボード11の所定のキーが入力されている場合に、マウスポインタPと字幕表示領域w2との位置が重なっても、字幕表示領域w2の位置が変更しない構成であってもよい。このような構成によれば、字幕表示領域w2のアイコン領域b1のボタンをマウス12によりクリック操作する際に、字幕表示領域w2の位置が変更されてしまうことを抑制することができる。
【0166】
(9)また、変更条件は、マウスポインタPと字幕表示領域w2との表示位置が重なることに限定されるものではない。具体的には、アイコン領域b1の位置設定アイコンc3がクリック操作され、表示切替ボタンd1~d5が操作されることにより、字幕表示領域w2の位置が変更されてもよい。
【0167】
(10)上記実施形態では、端末100が有するカメラモジュール14を用いて端末100の話者の表情を認識した。しかしながらカメラモジュール14を用いて認識する対象は、端末100の話者の表情に限定されるものではない。具体的には、話者の動き又はジェスチャーなどを認識してもよい。また話者のジェスチャーに応じて、字幕表示領域w2の表示態様を変更してもよい。
【0168】
(11)さらに、端末100には、入力インターフェース10として、モーションセンサがさらに設けられてもよい。ここでいう、モーションセンサは、話者などのユーザの動きの情報を取得するものである。モーションセンサは、距離画像センサと、ビデオカメラモジュールと、アレイマイクとを構成として備えていてもよい。
【0169】
距離画像センサは、深度センサとも表現される。距離画像センサは、赤外線レーザを照射し、照射した時刻から反射光を受信した時刻までの時間を測定することにより距離測定を行うTOF方式を用いたセンサであってもよい。距離画像センサは、TOF方式である場合には、単眼カメラを用いたモジュールが用いられてもよい。なお、ここでいうTOF方式とは、Time of Flightの略称である。
【0170】
また、距離画像センサはTOF方式を用いたものに限定されるものではなく、例えば、特定のパターンを赤外線レーザで照射し、反射光のパターンを解析して距離を測定するものであってもよい。距離画像センサは、例えば、均一なパターンドットを有する照射光を照射し、反射光を受信する。受信した反射光に含まれるパターンドットには、対象までの距離に応じた歪みが生じるため、反射光のパターンドットに含まれる歪みを解析することにより距離を測定するものであってもよい。
【0171】
また、距離画像センサには、2つの異なる位置から撮像を行うステレオカメラが用いられてもよい。
距離画像センサにより取得された画像において、話者などのユーザの姿勢認識に基づいて、ユーザの動きやジェスチャーが取得されるように構成されてもよい。ここでいう姿勢認識は、取得された画像から、腕や、頭部などの人体のパーツを認識し、関節の位置を導出することにより、人間の姿勢を推定する技術である。また、姿勢認識においても機械学習が用いられてもよい。
【0172】
さらに、モーションセンサにおいて、ユーザの動きを認識する際にビデオカメラモジュールにより認識された映像や、アレイマイクにより取得された音声認識の情報が用いられてもよい。
【0173】
また、モーションセンサとしては、上記構成に限定されるものではなく、モーションキャプチャデバイスとして用いられる機器が用いられてもよい。
さらに、モーションセンサは、カメラモジュール14に代えて備えられるものであってもよい。
【0174】
(12)また、端末100が有するカメラモジュール14により認識されたジェスチャーに応じて、当該ジェスチャーに対応した制御が実行されてもよい。
具体的には、例えば、口に人差し指を当てるようなジェスチャーをした場合には、話者の端末100がミュート状態になるなどの制御が実行されてもよい。
【0175】
(13)上記実施形態では、文字の表示態様及び背景の表示態様を変更する。しかしながら、表示態様を変更するものに限定されるものではなく、たとえば、「!」など、記号やアイコンを追加するものであってもよい。また、記号やアイコンの追加は、認識された話者の感情に応じて追加されるものであってもよい。
【0176】
このような記号やアイコンが文字として表示された場合には、例えば、聴覚障碍者などの音声を認識できないユーザも話者の感情を認識しやすくなる。
(14)上記実施形態では、話者の感情認識をマイクモジュール13から取得される声の音量及びカメラモジュール14から取得される話者の表情に基づいて判定する例に適用して説明した。しかしながら、感情の認識はこれらの方法により取得されるものに限定されるものではなく、例えば、会話中に含まれる単語や、話の流れなどから判定するように構成されてもよい。単語と感情のつながりについては人工知能を用いて判定されるものであってもよい。また、話の流れについても人工知能に基づいて判定されるものであってもよい。
【0177】
(15)上記実施形態では、字幕表示領域w2には、話者の発言を認識したが、特定の話者の発言のみを認識する者であってもよい。また、特定の言語のみを認識する者であってもよい。
【0178】
(16)さらに、上記実施形態では、音声認識部221aは音声認識エンジンを、翻訳部221bは、翻訳エンジンを用いて、音声認識及び翻訳をそれぞれ実行する。しかしながら、音声認識及び翻訳を行う音声認識エンジン及び翻訳エンジンはそれぞれ1つずつに限定されるものではなく、例えば、それぞれ複数の音声認識エンジン、翻訳エンジンが実行してもよい。また、このような場合、例えば字幕表示領域w2に表示される音声認識表示a2及び翻訳表示a3においては、それぞれの音声認識エンジン及び翻訳エンジンによる音声認識の内容、翻訳の内容が並列して表示されてもよい。
【0179】
(17)また、上記実施形態では、ログウィンドウw5の内容が外部端末300にログとして送信される例に適用して説明した。しかしながら、ログウィンドウw5が外部端末300に送信されるものに限定されるものではなく、ログウィンドウw5のうち、特定の言語のものや翻訳文のみを外部端末300に送信するものであってもよい。
【0180】
(18)上記実施形態において、ウェブ会議に参加しているユーザ側のアプリは、ログウィンドウw5に含まれるブロックfのそれぞれについて「いいね!」や「ハート」などのリアクションや評価を付け加えるように構成されていてもよい。ユーザは、リアクションや評価を付け加えるブロックfを選択し、リアクションや評価のそれぞれに対応したアイコンをクリック操作することなどにより、リアクションや評価が付与されるように構成されてもよい。評価が加えられたログウィンドウw5の一例を図26に示す。図26に示すように絵文字j1,j2,j3などにより、リアクションや評価が付け加えられてもよい。
【0181】
(19)また、リアクションや評価の追加方法は、クリック操作により行われるものに限定されるものではなく、例えばカメラモジュール14を用いてユーザの表情やジェスチャーを認識することにより行われてもよい。具体的には、ユーザの表情が笑顔である場合に「いいね」や「ハート」などのポジティブなリアクションや評価を、ユーザの表情が悲しい顔や怒った顔などである場合に、ネガティブなリアクションや評価を付与するものであってもよい。さらにジェスチャーとしては、指でOKサインを出した場合や顔をうなずかせる動作をした場合に、ポジティブなリアクションや評価を付与するものであってもよい。また、指で×をするサインや、手を左右方向に振るジェスチャーを行った場合に、ネガティブなリアクションや評価を付与するものであってもよい。
【0182】
なお、上記ユーザの表情やジェスチャーにより、字幕表示領域w2及びログウィンドウw5の背景やそれらに含まれる文字の表示態様を変更するように構成されてもよい。
(20)また、リアクションが付与されたブロックfを抽出して記憶するように構成されてもよい。このような構成によれば、リアクションが付与されたブロックfを、重要なブロックfとして、当該重要なブロックfをまとめて記憶することができる。
【0183】
(21)さらに、リアクションが付与された数を集計する構成を有してもよい。集計は、サーバ200により実行されてもよい。このような構成によれば、特にリアクションが多かったブロックfを抽出することができる。抽出されたブロックfは議事録などとして用いられるように体裁が整えられるように構成されてもよい。
【0184】
(22)上記実施形態では、字幕表示領域w2の表示の設定は、AIを用いて設定されるものであってもよい。AIを用いた設定には、取得部210により取得された情報に限定されるものではなく、取得された種々の情報を元に設定されてもよい。
【0185】
(23)上記実施形態では、字幕表示領域w2に表示される翻訳表示a3は、1か国語であったが、翻訳表示a3に表示される言語の数は1か国語に限定されるものではない。すなわち、複数の言語に翻訳されるように構成されてもよい。複数の言語に翻訳される例、すなわち、翻訳表示が複数である例の表示について図27に一例を示す。
【0186】
図27に示すように、翻訳表示a3aと、翻訳表示a3bとが表示されてもよい。図27では、翻訳表示a3aには、英語で翻訳された文章が、翻訳表示a3bには、中国語で翻訳された文章が記載される例に適用して説明する。なお、翻訳表示a3a及び翻訳表示a3bに表示するために設定される翻訳の言語は、あらかじめ表示設定部223で設定されてもよい。また、翻訳される言語は、設定表示w4に表示された翻訳言語ボタンh2を選択することにより設定されてもよい。この場合、翻訳言語ボタンh2により選択できる言語の数が複数になるように、表示されてもよい。また、複数の言語により翻訳された場合には、図28に示すように複数の言語による翻訳を表わしたログウィンドウw5が生成されてもよい。
【0187】
(24)本開示に記載のCPU20S及びその手法は、コンピュータプログラムにより具体化された一つ乃至は複数の機能を実行するようにプログラムされたプロセッサ及びメモリを構成することによって提供された専用コンピュータにより、実現されてもよい。あるいは、本開示に記載のCPU20S及びその手法は、一つ以上の専用ハードウェア論理回路によってプロセッサを構成することによって提供された専用コンピュータにより、実現されてもよい。もしくは、本開示に記載のCPU20S及びその手法は、一つ乃至は複数の機能を実行するようにプログラムされたプロセッサ及びメモリと一つ以上のハードウェア論理回路によって構成されたプロセッサとの組み合わせにより構成された一つ以上の専用コンピュータにより、実現されてもよい。また、コンピュータプログラムは、コンピュータにより実行されるインストラクションとして、コンピュータ読み取り可能な非遷移有形記録媒体に記憶されてもよい。CPU20Sに含まれる各部の機能を実現する手法には、必ずしもソフトウェアが含まれている必要はなく、その全部の機能が、一つあるいは複数のハードウェアを用いて実現されてもよい。
【0188】
(25)上記実施形態における1つの構成要素が有する複数の機能を、複数の構成要素によって実現したり、1つの構成要素が有する1つの機能を、複数の構成要素によって実現したりしてもよい。また、複数の構成要素が有する複数の機能を、1つの構成要素によって実現したり、複数の構成要素によって実現される1つの機能を、1つの構成要素によって実現したりしてもよい。また、上記実施形態の構成の一部を省略してもよい。また、上記実施形態の構成の少なくとも一部を、他の上記実施形態の構成に対して付加又は置換してもよい。
【0189】
(26)上述したCPU20Sの他、当該CPU20Sを構成要素とするシステム、当該CPU20Sとしてコンピュータを機能させるためのプログラム、このプログラムを記録した半導体メモリ等の非遷移的実態的記録媒体、字幕表示処理方法など、種々の形態で本開示を実現することもできる。
【0190】
(26)具体的には、表示処理は、サーバ200のCPU20Sが実行するものに限定されるものではなく、端末100が実行するものであってもよい。複数の端末100のうち、第1の端末100aの表示画面Dにおける字幕表示領域w2の表示と共に、第2の端末100bの表示画面Dにおける字幕表示領域w2の表示が変更されるように構成されてもよい。また、ネットワークを介さず、いわゆるスタンドアロンで実行されるものであってもよい。
【0191】
本実施形態における、端末100が字幕表示処理装置としての構成の一例に相当する。
【符号の説明】
【0192】
1…字幕表示処理システム、10…入力インターフェース、10S,30,30T…通信モジュール、10T…タッチパネル、11…キーボード、12…マウス、13…マイクモジュール、14…カメラモジュール、20…出力インターフェース、20S,40,40T…CPU、20T,D…表示画面、21…ディスプレイ、22…スピーカー、30S,50,50T…メモリ、100…端末、100a…第1の端末、100b…第2の端末、200…サーバ、210…取得部、211…音声取得部、213…操作取得部、215…表示取得部、217…映像取得部、219…設定取得部、220…処理部、221…認識部、221a…音声認識部、221b…翻訳部、221c…感情認識部、221d…話者認識部、221e…表示認識部、223…表示設定部、223a…文字設定部、223b…背景設定部、223c…領域設定部、223d…アイコン設定部、230…記憶部、231…出力記憶部、233…設定記憶部、240…出力部、250…ログ送信部、300…外部端末、P…マウスポインタ、a1…話者表示、a2…音声認識表示、a3,a3a,a3b…翻訳表示、b1…アイコン領域、c1…ミュートアイコン、c2…ダウンロードアイコン、c3…位置設定アイコン、c4…詳細設定アイコン、c5…文字入力アイコン、d1,d1~d5,d2,d3,d4,d5,e1~e5,e2,e3,e4,e5…表示切替ボタン、f…ブロック、g1…話者ログ、g2…音声認識ログ、g3…翻訳ログ、h1…認識言語設定ボタン、h2…翻訳言語ボタン、h3…文字サイズ設定ボタン、h4…文字色設定ボタン、h5…透過度設定ボタン、h6…背景色設定ボタン、h7…話者設定ボタン、h8…ミュートボタン、h9…翻訳実施/終了ボタン、i1,i2…領域、j1,j2、j3…アイコン、w1…ウィンドウ、w2,w21,w22,w23,w24…字幕表示領域、w3…位置設定ウィンドウ、w4…設定表示、w5…ログウィンドウ。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
【手続補正書】
【提出日】2022-03-31
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するデータ出力手段と、
前記データ出力手段により出力される前記文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定する表示設定手段と、
前記データ出力手段により出力される前記文字データを、前記文字表示領域に表示させる、表示手段と、
前記表示設定手段により設定された前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更する変更手段と、
としてコンピュータを機能させ、
前記表示画面に表示された背景データに含まれる文字と当該文字の前記表示位置のデータとを含む背景文字データを取得する背景文字取得手段として更に機能させ、
前記変更手段は、前記文字表示領域に表示される前の前記文字データの内容と一致する前記背景文字データが表示されている領域とは異なる領域に前記文字表示領域が表示されるように、前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を変更する、字幕表示処理プログラム。
【請求項2】
請求項1に記載の字幕表示処理プログラムであって、
あらかじめ決められた撮像部により取得された話者の表情に基づいて、前記文字表示領域の表示態様及び前記文字表示領域に表示される文字データの表示態様の少なくとも一方を変更する字幕表示態様変更手段として更に機能させる、字幕表示処理プログラム。
【請求項3】
請求項1又は請求項2に記載の字幕表示処理プログラムであって、
前記文字表示領域とは、異なる領域に表示され、更にあらかじめ決められたルールに従って区分されたあらかじめ決められた領域である吹き出し表示領域を表示させる吹き出し表示手段と、
前記吹き出し表示領域の表示態様及び前記吹き出し表示領域に表示される前記文字データの少なくとも一方の表示態様を変更する、吹き出し表示態様変更手段と、
して機能させ、
前記吹き出し表示態様変更手段は、あらかじめ決められた撮像部により取得された話者の表情に基づいて、前記吹き出し表示領域の表示態様及び前記吹き出し表示領域に表示される文字データの表示態様を変更する、字幕表示処理プログラム。
【請求項4】
請求項1から請求項3までのいずれか1項に記載の字幕表示処理プログラムであって、
前記変更手段は、前記表示画面上に表示されるマウスポインタの位置とは異なる領域に前記文字表示領域が表示されるように、前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を変更する、字幕表示処理プログラム。
【請求項5】
請求項1から請求項4までのいずれか1項に記載の字幕表示処理プログラムであって、
前記表示位置及び前記表示サイズに対応付けられた表示切替ボタンを前記表示画面上に表示するボタン表示手段として更に機能させ、
前記変更手段は、選択された前記表示切替ボタンに対応付けられた前記表示位置及び前記表示サイズに前記文字表示領域の位置及びサイズを変更する、字幕表示処理プログラム。
【請求項6】
請求項1から請求項までのいずれか1項に記載の字幕表示処理プログラムであって、
前記文字表示領域が重畳する位置の背景の色を取得する背景色取得部と、
前記背景色取得部により取得された前記背景の色に応じて、前記文字表示領域の透過度を変更する表示態様変更手段として更に機能させる、字幕表示処理プログラム。
【請求項7】
音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するように構成されたデータ出力部と、
前記データ出力部により出力される前記文字データを、表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定するように構成された表示設定部と、
前記データ出力部により出力される前記文字データを、前記文字表示領域に表示させるように構成された表示部と、
前記表示設定部により設定された前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更するように構成された変更部と、
前記表示画面に表示された背景データに含まれる文字と当該文字の前記表示位置のデータとを含む背景文字データを取得する表示取得部と、
を備え、
前記変更部は、前記文字表示領域に表示される前の前記文字データの内容と一致する前記背景文字データが表示されている領域とは異なる領域に前記文字表示領域が表示されるように、前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を変更する、字幕表示処理装置。
【請求項8】
請求項に記載の字幕表示処理装置であって、
前記表示部は、前記字幕表示処理装置と当該字幕表示処理装置と通信を行う他の装置とに設けられた前記表示画面において、前記文字データを前記文字表示領域に表示させる、字幕表示処理装置。
【請求項9】
少なくとも1つの端末と通信可能に接続されたサーバであって、
前記少なくとも1つの端末から取得された音声データを文字として出力する音声認識機能及び音声認識したデータを翻訳し出力する翻訳機能の少なくとも一方により文字データを出力するように構成されたデータ出力部と、
前記データ出力部により出力される前記文字データを、前記少なくとも1つの端末に備えられた表示画面上に表示させる領域である文字表示領域の表示位置及び表示サイズを設定するように構成された表示設定部と、
前記データ出力部により出力される前記文字データを、前記文字表示領域に表示させるように構成された表示部と、
前記表示設定部により設定された前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を、あらかじめ決められた変更条件に従って変更するように構成された変更部と、
前記表示画面に表示された背景データに含まれる文字と当該文字の前記表示位置のデータとを含む背景文字データを取得する表示取得部と、
を備え、
前記変更部は、前記文字表示領域に表示される前の前記文字データの内容と一致する前記背景文字データが表示されている領域とは異なる領域に前記文字表示領域が表示されるように、前記文字表示領域の前記表示位置及び前記表示サイズの少なくとも一方を変更する、サーバ。
【請求項10】
請求項に記載のサーバであって、
あらかじめ決められた外部端末に対して、前記表示部により表示させた内容を表したログを送信するログ送信部と、を更に備える、サーバ。