(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-04
(45)【発行日】2024-06-12
(54)【発明の名称】映像処理装置、テレビ受信機、及びプログラム
(51)【国際特許分類】
H04N 21/431 20110101AFI20240605BHJP
H04N 21/439 20110101ALI20240605BHJP
H04N 21/435 20110101ALI20240605BHJP
【FI】
H04N21/431
H04N21/439
H04N21/435
(21)【出願番号】P 2020092289
(22)【出願日】2020-05-27
【審査請求日】2023-03-22
(73)【特許権者】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】100147304
【氏名又は名称】井上 知哉
(72)【発明者】
【氏名】関口 裕也
(72)【発明者】
【氏名】小林 涼
(72)【発明者】
【氏名】田中 光憲
【審査官】川中 龍太
(56)【参考文献】
【文献】特開2012-181374(JP,A)
【文献】特開2004-304531(JP,A)
【文献】実開昭59-189333(JP,U)
【文献】特開昭57-196300(JP,A)
【文献】特開2007-129663(JP,A)
【文献】特開2012-070150(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 - 21/858
(57)【特許請求の範囲】
【請求項1】
表示部に映像を表示させる映像制御部と、
音声入力部から入力された音声に基づく音声認識を行い、音声認識結果を取得する音声認識部と、を備え、
前記映像制御部は、前記音声認識が行われている場合に、前記映像に関連する文字情報を前記映像に合成した合成映像を前記表示部に表示させる
映像処理装置。
【請求項2】
前記音声認識部は、前記音声入力部から入力された音声に基づきユーザによる発話を検出し、
前記映像制御部は、前記発話が検出された場合に、前記合成映像を前記表示部に表示させる
請求項1に記載の映像処理装置。
【請求項3】
前記音声入力部から入力された音声から前記映像に応じた音声を除去した除去音声を出力するエコーキャンセル部を更に備え、
前記音声認識部は、前記除去音声について前記音声認識を行い、
前記映像制御部は、前記除去音声の音量が第1閾値以上である場合に、前記合成映像を前記表示部に表示させる
請求項1又は2に記載の映像処理装置。
【請求項4】
前記映像制御部は、前記音声入力部から入力された音声の音量が第2閾値以上である場合に、前記合成映像を前記表示部に表示させる
請求項1から3のいずれか1項に記載の映像処理装置。
【請求項5】
前記映像制御部は、前記映像に応じた音声を出力する音声出力部からの出力音量が第3閾値未満の場合に、前記合成映像を前記表示部に表示させる
請求項1から4のいずれか1項に記載の映像処理装置。
【請求項6】
前記音声認識部は、開始指示に基づいて音声認識を開始し、
前記映像制御部は、前記開始指示に基づく前記音声認識の開始からの経過時間が所定時間以上の場合に、前記合成映像を前記表示部に表示させる
請求項1から5のいずれか1項に映像処理装置。
【請求項7】
請求項1から6のいずれか1項に記載の映像処理装置と、
テレビ放送によって送信された映像を受信する受信部と、を備える
テレビ受信機。
【請求項8】
コンピュータシステムに、映像制御処理と、音声認識処理と、を実行させるプログラムであって、
前記映像制御処理では、表示部に映像を表示させ、
前記音声認識処理では、開始指示に基づいて音声認識を開始させ、音声入力部から入力された音声に基づく音声認識結果を取得させ、
前記映像制御処理では、前記音声認識が行われている場合に、前記映像に関連する文字情報を前記映像に合成した合成映像を前記表示部に表示させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像処理装置、テレビ受信機、及びプログラムに関する。
【背景技術】
【0002】
ユーザの発話に対して音声認識を行って、音声認識結果に対応付けられた操作コマンドを実行するテレビジョン装置が知られている(例えば、特許文献1参照)。特許文献1に記載のテレビジョン装置は、ユーザによる音声認識開始の指示の入力を受けてから、音声認識処理が終わるまでの間、出力音量の設定値を一時的に閾値以下の値に変更する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載されたテレビジョン装置では、音声認識処理の際に、出力音量が閾値以下の値となるので、音声認識処理を行っていない場合と比べて出力音量が小さくなる場合がある。このため、ユーザは、音声認識処理の際に、テレビから出力された音声を聞き取ることができず、映像の内容を十分に理解できない場合があった。
【0005】
上述した課題に鑑み、本開示の主な目的は、音声認識処理の際に、映像の内容を理解しやすくすることができる映像処理装置、テレビ受信機、及びプログラムを提供することである。
【課題を解決するための手段】
【0006】
本開示の一態様に係る映像処理装置は、表示部に映像を表示させる映像制御部と、音声入力部から入力された音声に基づく音声認識を行い、音声認識結果を取得する音声認識部と、を備え、前記映像制御部は、前記音声認識が行われている場合に、前記映像に関連する文字情報を前記映像に合成した合成映像を前記表示部に表示させる。
【0007】
本開示の一態様に係るテレビ受信機は、前記映像処理装置と、テレビ放送によって送信された映像を受信する受信部と、を備える。
【0008】
本開示の一態様に係るプログラムは、コンピュータシステムに、映像制御処理と、音声認識処理と、を実行させるプログラムであって、前記映像制御処理では、表示部に映像を表示させ、前記音声認識処理では、開始指示に基づいて音声認識を開始させ、音声入力部から入力された音声に基づく音声認識結果を取得させ、前記映像制御処理では、前記音声認識が行われている場合に、前記映像に関連する文字情報を前記映像に合成した合成映像を前記表示部に表示させる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、第1実施形態に係る映像処理装置を含むテレビ受信機のブロック図である。
【
図2】
図2は、合成映像の生成処理を模式的に示す図である。
【
図3】
図3は、第1実施形態に係る映像処理装置の動作フローチャートである。
【
図4】
図4は、第2実施形態に係る映像処理装置の動作フローチャートである。
【
図5】
図5は、第3実施形態に係る映像処理装置を含むテレビ受信機のブロック図である。
【
図6】
図6は、第3実施形態に係る映像処理装置の動作フローチャートである。
【
図7】
図7は、第4実施形態に係る映像処理装置を含むテレビ受信機のブロック図である。
【
図8】
図8は、第4実施形態に係る映像処理装置の動作フローチャートである。
【
図9】
図9は、第5実施形態に係る映像処理装置を含むテレビ受信機のブロック図である。
【
図10】
図10は、第5実施形態に係る映像処理装置の動作フローチャートである。
【
図11】
図11は、第6実施形態に係る映像処理装置の動作フローチャートである。
【
図12】
図12は、映像処理装置によって表示される合成映像の他の例を示す図である。
【
図13】
図13は、一変形例に係る映像処理装置の動作フローチャートである。
【発明を実施するための形態】
【0010】
以下に説明する実施形態及び変形例は、本開示の一例に過ぎず、本開示は、実施形態及び変形例に限定されない。この実施形態及び変形例以外であっても、本開示の技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。
【0011】
(第1実施形態)
以下、第1実施形態に係る映像処理装置1、テレビ受信機10、及びプログラムについて、
図1~
図3を参照して説明する。
【0012】
(映像処理装置及びテレビ受信機の構成)
本実施形態のテレビ受信機10は、受信したテレビ放送の番組を表示するように構成されている。
図1に示すように、テレビ受信機10は、映像処理装置1と、受信部2と、表示部3と、スピーカー4と、マイク5と、通信部6と、を備えている。映像処理装置1は、マイク5から入力された音声に基づく音声認識を行い、音声認識結果を取得する。映像処理装置1は、音声認識が行われている場合に、映像に関連する文字情報を映像に合成した合成映像を表示部3に表示させる。
【0013】
表示部3は、例えば液晶ディスプレイである。表示部3は、映像処理装置1から出力された映像制御信号に基づいて、番組の映像を表示する。
【0014】
スピーカー4は、映像処理装置1から出力された音声制御信号に基づいて、番組の音声を出力する。
【0015】
マイク5は、ダイアフラムと、ダイアフラムの振動を電気信号に変換する変換器等を備える。マイク5は、ユーザの発話等のテレビ受信機10の周囲の音声を電気信号に変換する。
【0016】
通信部6は、通信インターフェースであり、ルータ、ゲートウェイ等を介してネットワークに接続され、ネットワークを介して通信可能に接続された他の機器との間でデータの送受信を行う。通信部6は、後述する音声認識処理による音声認識結果を、当該音声認識結果に基づく処理を行う処理サーバに送信してもよい。処理サーバは、音声認識結果に基づく処理を実施し、処理結果を通信部6に送信する。例えば、音声認識結果が、今日の天気に関する問い合わせである場合、通信部6は、処理サーバに音声認識結果を送信し、処理サーバから今日の天気の検索結果を取得する。
【0017】
受信部2は、テレビ放送によって送信された番組(映像を含む)を受信するように構成されている。受信部2は、チューナー21を備えている。チューナー21は、無線又は有線により、テレビ放送を受信する。テレビ放送の受信に無線を利用する場合、チューナー21のアンテナ入力端子には、例えば、アンテナケーブルを介して無線アンテナが接続される。テレビ放送の受信に有線を利用する場合、チューナー21のアンテナ入力端子には、例えば、アンテナケーブルを介して、有線通信(例えば光ファイバーを用いた光通信)の終端装置が接続される。
【0018】
受信部2から映像処理装置1に出力されるデータには、選択されたチャンネルに対応する番組の映像信号、音声信号等が含まれている。また、受信部2から映像処理装置1に出力されるデータには、映像信号及び音声信号に対応する字幕データや、データ放送に関する付加データが含まれている場合がある。字幕データは、映像に関連する文字情報の一つであり、映像信号及び音声信号に対応する字幕を表示部3に表示させるためのデータである。
【0019】
映像処理装置1は、受信部2(チューナー21)からのデータに基づいて、表示部3を制御することによりに映像(番組)を表示させる。映像処理装置1は、デコード部11、音声制御部12、音声入力部13、エコーキャンセル部14、音声認識処理部15、及び映像制御部16を備えている。映像処理装置1は、例えば、プロセッサ及びメモリを有するマイクロコンピュータで構成されている。つまり、映像処理装置1は、プロセッサ及びメモリを有するコンピュータシステムで実現されている。そして、プロセッサが適宜のプログラムを実行することにより、デコード部11、音声制御部12、音声入力部13、エコーキャンセル部14、音声認識処理部15、及び映像制御部16として機能する。プログラムは、メモリに予め記録されていてもよいし、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1ないし複数の電子回路で構成される。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。例えば、デコード部11、音声制御部12、音声入力部13、エコーキャンセル部14、音声認識処理部15、及び映像制御部16は、複数のマイクロコンピュータで実現されていてもよい。
【0020】
デコード部11は、受信部2の出力データを復号し、映像データ、音声データ、及び字幕データを取得する。デコード部11は、音声データを音声制御部12に、映像データを映像制御部15に、それぞれ出力する。デコード部11は、字幕データを取得した場合は、字幕データを映像制御部15に出力する。
【0021】
音声制御部12は、音声データに基づいて生成した音声制御信号をスピーカー4に出力することにより、番組の音声をスピーカー4から出力させる。また、音声制御部12は、音声制御信号をエコーキャンセル部14に出力する。スピーカー4から出力される音声の出力音量は、音声データの信号レベルと、ユーザが設定可能な音量の設定レベルとに基づいて決定される。
【0022】
音声制御部12は、音声認識処理部14による音声認識処理の際に、スピーカー4の出力音量が所定値以下となるように出力音量を調整する。例えば、音声制御部12は、設定レベルに基づく出力音量の最大値が所定値以下となるように調整前の出力音量を定数倍して出力音量を調整する。このように、音声制御部12は、音声認識処理の際のスピーカー4の出力音量を、通常時よりも小さくすることにより、音声認識処理の精度を向上させている。
【0023】
音声入力部13は、マイク5から入力された音声に応じた音声データである入力音声データを取得する。
【0024】
エコーキャンセル部14は、音声制御部12から出力された音声制御信号を用いて、マイク5から入力された音声から映像に応じた音声を除いた除去音声を出力する。すなわち、エコーキャンセル部14は、デコード部11から出力された音声データに基づいて、音声入力部13から入力された入力音声データから、スピーカー4から発せられた後にマイク5に入力された音声の少なくとも一部を除くエコーキャンセル処理を実施する。
【0025】
音声認識処理部15は、入力音声データに基づく音声認識処理を実施することにより、ユーザの発話による指示を音声認識結果として取得し、音声認識結果に基づく処理を実施する。音声認識処理部15は、受付部151と、音声認識部152と、を含む。
【0026】
受付部151は、音声認識処理の開始を指示する開始指示を受け付ける。音声認識の開始指示は、例えば、ユーザによる所定ワードの発話や、所定の操作である。受付部151は、入力音声データとして所定ワードが入力された場合や、リモートコントローラー等を用いた所定の操作が実施された場合に、開始指示を受けたと判断する。
【0027】
音声認識部152は、音声認識の開始指示に基づいて、音声認識処理を行う音声認識モードに移行する。音声認識モードでは、音声認識部152は、音声入力部14から入力された音声に基づく音声認識結果を取得する。例えば、音声認識部152は、ユーザの発話を検出すると、音声入力データをテキストに変換する変換処理を開始する。音声認識部152は、変換されたテキストデータを音声認識結果として取得する。音声認識部152は、音声認識結果を表示部3に表示させるために、音声認識結果を映像制御部16に出力してもよい。
【0028】
音声認識部152は、例えば、ユーザによる発話が終了した場合や、マイク5からの音声入力が無い期間が所定期間以上続く場合、音声認識モードを終了させる。なお、音声認識部152は、例えば、マイク5へ入力される音声の音量が所定値以下である場合、マイク5への音声入力が無いと判定する。上記所定値は、ユーザの発話以外の周囲音(例えば、音声認識モード時にスピーカー4から出力される音声や、周囲の雑音等)の音量よりも大きく設定されてもよい。これにより、周囲音が、ユーザによる発話として誤検知されることを抑制できる。また、上記所定値は、ユーザの発話の音量の平均値や最小値よりも小さく設定されてもよい。これにより、ユーザの発話が、検知されない検知エラーを抑制できる。
【0029】
なお、音声認識処理部15は、音声認識結果に応じた処理を実行する。例えば、音声認識結果が、音量調整や、表示チャンネルの変更等の、テレビ受信機1についての操作指示の場合、音声認識処理部15は、操作指示に対応するコマンドを出力する。また、音声認識結果が、例えば、ネットワークを介してテレビ受信機1と接続された処理サーバで実施される処理についての指示の場合、音声認識処理部15は、指示コマンドを出力する。通信部6は、処理サーバに指示コマンドを送信し、処理サーバから処理結果を取得する。
【0030】
映像制御部16は、映像データや字幕データ等に基づいて生成した表示制御信号を表示部3に出力することにより、映像を表示部3に表示させる。本実施形態では、映像制御部16は、音声認識部152による音声認識が行われている場合、映像に関連する文字情報である字幕を映像に合成した合成映像を、表示部3に表示させる。映像制御部16は、判定部161と、合成部162と、を含む。
【0031】
判定部161は、映像に関連する文字情報としての字幕を表示部3に表示させるか否かを判定する。判定部161は、例えば、音声認識部151において音声認識処理が実施されている音声認識モードであるか否かを判定し、音声認識モードの場合に字幕を表示させると判定する。また、判定部161は、音声認識モードでない場合でも、字幕表示が予めオンに設定されている場合、字幕を表示させると判定する。一方、判定部161は、字幕表示が予めオフに設定されている場合、字幕を表示させないと判定する。字幕表示の設定は、ユーザによって変更可能である。
【0032】
合成部162は、映像データと字幕データとを合成した合成映像を生成する。また、映像と併せて、音声認識結果を表示させる場合、合成部162は、映像データと音声認識結果とを合成した合成映像を生成する(
図2参照)。
図2に示す例では、合成部162は、映像データに基づく第1映像201に、字幕データに基づく第2映像202と、音声認識結果に基づく第3映像203と、を重畳させることにより合成映像204を生成する。第2映像202は、字幕データに基づく字幕221を含む。第3映像203は、音声認識結果231を含む。
【0033】
(映像処理装置による字幕表示処理)
図3は、映像処理装置1による字幕表示処理の一例を示すフローチャートである。以下、
図3を参照して、映像処理装置1による処理の一例について説明する。なお、映像処理装置1は、字幕表示処理の他に、音声認識処理部15による音声認識処理を実施する。受付部151が音声認識開始指示を受けた場合に、音声認識部152が音声認識処理を実施す音声認識モードを開始する。音声認識モードでは、音声制御部12は、スピーカー4の出力音量を所定値以下とするように出力音量を調整する。音声認識部152は、音声認識の終了条件を満たす場合に、音声認識モードを終了させる。
【0034】
字幕表示処理では、
図3に示すように、判定部161は、音声認識部152によって音声認識処理が実施される音声認識モードか否かを判定する(ステップS1)。受付部151が、開始指示を受け付け、音声認識部152が、音声認識処理を実施している場合、ステップS1において、判定部161は、音声認識処理が実施されている、すなわち音声認識モードに移行中と判断する(ステップS1:YES)。
【0035】
ステップS1でYESと判定された場合、すなわち、音声認識が行われている場合に、映像制御部16は、表示部3に字幕を表示させる(ステップS2)。具体的には、例えば、合成部162は、映像データと字幕データとに基づいて合成映像を生成する。映像制御部16は、生成した合成映像に基づく映像信号を出力して、表示部3に合成映像を表示させる。合成映像は、例えば、
図2に示す合成映像204である。合成映像は、第1映像201と、字幕データに基づく第2映像202とが合成された映像でもよい。
【0036】
上述のように、音声制御部12は、音声認識モードにおいて、スピーカー4の出力音量が所定値以下となるように出力音量を調整する。したがって、発話により、音声データに基づく音声が聞き取りにくくなり、映像の内容がわかりにくくなる場合がある。これに対して、ステップS2によって、音声認識モードの場合に、字幕を含む合成映像が表示されるので、音声データに基づく音声が聞き取りにくい場合であっても、映像の内容を理解しやすくできる。
【0037】
一方、ステップS1でNOと判定された場合、すなわち、音声認識部152が音声認識処理を実施していない場合、映像制御部16は、予め設定された字幕表示の設定に応じた字幕表示処理(以下、通常字幕処理とも称する)を行う(ステップS3)。ステップS3では、字幕表示の設定がオンに設定されている場合、判定部161は字幕を表示させると判定する。映像制御部16は、合成映像を表示部3に表示させる。一方、字幕表示の設定がオフに設定されている場合、判定部161は字幕を非表示と判定する。この場合、映像制御部16は、合成部162による字幕の合成を行わずに、映像データに基づく映像信号を出力し、字幕を含まない映像(例えば、
図2に示す第1映像201)を表示部3に表示させる。
【0038】
(第2実施形態)
以下、本開示に係る映像処理装置の第2実施形態について説明する。以下の説明では、上述した実施形態と同様の構成については、同一の符号を付して説明を適宜省略する。第2実施形態の映像処理装置は、音声認識モードにおいて、発話が検出された場合に、合成映像を表示部に表示させる点で、第1実施形態と異なる。
【0039】
図4は、第2実施形態に係る字幕表示処理の一例を示すフローチャートである。
図4に示すように、判定部161は、音声認識部152によって音声認識処理が実施される音声認識モードか否かを判定する(ステップS1)。
【0040】
ステップS1でYESと判定された場合、すなわち、音声認識モードの場合に、判定部161は、音声認識部152がユーザの発話を検出している否かを判定する(ステップS11)。具体的には、例えば、判定部161は、音声認識部152が音声入力データをテキストに変換する変換処理を行っている否かに基づいて、音声認識部152がユーザの発話を検出している否かを判定する。例えば、判定部161は、音声認識部152が音声入力データをテキストに変換する変換処理を行っている場合に、音声認識部152がユーザの発話を検出していると判定する。発話に基づく音声がマイク5から入力されている場合、音声認識部152は、音声入力部14から入力された入力音声データを即時にテキストに変換をする。
【0041】
ステップS11でYESと判定された場合、すなわち、ユーザの発話が検出されている場合に、映像制御部16は、映像データと字幕データとに基づいて生成された合成映像を表示部3に表示させる(ステップS2)。
【0042】
一方、音声認識モードではなくステップS1でNOと判定された場合や、音声認識モードであっても発話が検出されておらずステップS11でNOと判定された場合、映像制御部16は、字幕表示の設定に応じた通常字幕処理を行う(ステップS3)。音声認識モードであってもユーザが発話していない場合、字幕設定が非表示であれば、字幕が表示されない。音声認識モードのためスピーカー4からの出力音量が低減されていても、ユーザが発話していないため、ユーザが音声の内容を認識できる場合がある。このような場合に、映像制御部15は、字幕を非表示とすることができ、字幕が表示されることによる映像の視認性の低下を抑制できる。
【0043】
(第3実施形態)
以下、本開示に係る映像処理装置の第3実施形態について説明する。第3実施形態の映像処理装置は、音声認識モードにおいて、エコーキャンセル部から出力された除去音声の音量が第1閾値以上の場合に、合成映像を表示部3に表示させる点で、第1実施形態と異なる。
【0044】
図5は、第3実施形態に係る映像処理装置1Aを備えるテレビジョン受信機10Aを模式的に示す図である。
図6は、映像処理装置1Aによる映像処理の一例を示すフローチャートである。
図6に示すように、判定部161は、音声認識部152において音声認識処理が実施される音声認識モードか否かを判定する(ステップS1)。
【0045】
判定部161は、ステップS1でYES、すなわち音声認識処理が実施されていると判断すると、エコーキャンセル部14から出力された除去音声の音量が第1閾値以上か否かを判定する(ステップS12)。例えば、第1閾値は、ユーザの発話以外の周囲音の音量よりも大きくなるように設定されている。これにより、判定部161は、周囲音とユーザによる発話とを区別でき、ユーザの発話を検出できる。また、例えば、第1閾値は、発話中であってもユーザが音声を認識可能な発話音量の上限値でもよい。これにより、発話音量が音声を認識可能な程度か否かを判定できる。
【0046】
映像制御部15は、ステップS12でYESと判定された場合、すなわち、音声認識処理が実施されており、かつ、除去音声の音量が第1閾値以上の場合に、字幕を表示させる(ステップS2)。一方で、ステップS12でNOと判定された場合、すなわち、音声認識処理が実施されているものの、かつ、除去音声の音量が第1閾値未満の場合に、通常字幕処理を実施し、字幕の表示設定に応じて字幕を表示又は非表示とする(ステップS3)。音声認識モードにおいてスピーカー4からの出力音量が低減されていても、ユーザが発話していないか、発話音量が小さいため、ユーザが音声の内容を聞き取ることができる場合がある。このような場合に、映像制御部15は、字幕を非表示とすることにより、字幕が表示されることによる映像の視認性の低下を抑制できる。
【0047】
(第4実施形態)
以下、本開示に係る映像処理装置の第4実施形態について説明する。第4実施形態の映像処理装置は、音声認識モードにおいて、音声入力部から入力された音声(入力音声)の音量が第2閾値以上である場合に、合成映像を表示部3に表示させる点で、第1実施形態と異なる。
【0048】
図7は、第4実施形態に係る映像処理装置1Bを備えるテレビジョン受信機10Bを模式的に示す図である。
図8は、映像処理装置1Bによる映像処理の一例を示すフローチャートである。
図8に示すように、判定部161は、音声認識部152において音声認識処理が実施される音声認識モードか否かを判定する(ステップS1)。
【0049】
判定部161は、ステップS1でYES、すなわち音声認識処理が実施されていると判断すると、音声入力部13から入力された入力音声の音量が第2閾値以上か否かを判定する(ステップS13)。例えば、第2閾値は、ユーザが音声を認識可能な入力音声の音量の上限値である。これにより、スピーカー4からの音声をユーザが認識可能か否かを判定できる。
【0050】
映像制御部15は、ステップS13でYESと判定された場合、すなわち、音声認識処理が実施されており、かつ、入力音声の音量が第2閾値以上の場合に、字幕を表示させる(ステップS2)。一方で、ステップS13でNOと判定された場合、すなわち、音声認識処理が実施されているものの、かつ、入力音声の音量が第2閾値未満の場合に、通常字幕処理を実施し、字幕の表示設定に応じて字幕を表示又は非表示とする(ステップS3)。音声認識モードにおいてスピーカー4からの出力音量が低減されていても、スピーカー4からの音声以外の周囲音の音量が小さいため、ユーザが音声の内容を認識できる場合がある。このような場合に、映像制御部15は、字幕を非表示とすることにより、字幕が表示されることによる映像の視認性の低下を抑制できる。
【0051】
(第5実施形態)
以下、本開示に係る映像処理装置の第5実施形態について説明する。第5実施形態の映像処理装置は、音声認識モードにおいて、映像に応じた音声を出力する音声出力部(スピーカー4)からの出力音量が第3閾値以下の場合に、合成映像を表示部3に表示させる点で、第1実施形態と異なる。
【0052】
図9は、第4実施形態に係る映像処理装置1Cを備えるテレビジョン受信機10Bを模式的に示す図である。
図10は、映像処理装置1Cによる映像処理の一例を示すフローチャートである。
図10に示すように、判定部161は、音声認識部152において音声認識処理が実施される音声認識モードか否かを判定する(ステップS1)。
【0053】
判定部161は、ステップS1でYES、すなわち音声認識処理が実施されていると判断すると、音声制御部12から出力された音声制御信号に基づいて、スピーカー4からの出力音量が第3閾値未満か否かを判定する(ステップS14)。例えば、第3閾値は、ユーザが音声を認識可能な出力音量の下限値である。これにより、スピーカー4からの音声をユーザが認識可能か否かを判定できる。なお、第3閾値は、例えば、音声入力部13からの入力音声の音量や、エコーキャンセル部14からの除去音声の音量が大きいほど大きくなるように設定されてもよい。
【0054】
映像制御部15は、ステップS14でYESと判定された場合、すなわち、音声認識処理が実施されており、かつ、入力音声の音量が第3閾値未満の場合に、字幕を表示させる(ステップS2)。一方で、ステップS14でNOと判定された場合、すなわち、音声認識処理が実施され、かつ、入力音声の音量が第3閾値以上の場合に、通常字幕処理を実施し、字幕の表示設定に応じて字幕を表示又は非表示とする(ステップS3)。音声認識モードにおいてスピーカー4からの出力音量が低減されていても、スピーカー4からの音声の内容をユーザが認識できる場合がある。このような場合に、映像制御部15は、字幕を非表示とすることにより、字幕が表示されることによる映像の視認性の低下を抑制できる。
【0055】
(第6実施形態)
以下、本開示に係る映像処理装置の第6実施形態について説明する。第6実施形態の映像処理装置は、音声認識モードにおいて、開始指示に基づく音声認識の開始からの経過時間が所定時間以上の場合に、合成映像を表示部3に表示させる点で、第1実施形態と異なる。
【0056】
図11は、映像処理装置による映像処理の一例を示すフローチャートである。
図11に示すように、判定部161は、音声認識部152において音声認識処理が実施される音声認識モードか否かを判定する(ステップS1)。音声認識処理部15は、開始指示に基づいて音声認識を開始し、ユーザの発話を検出せずに所定の待機時間が経過した場合や、ユーザの発話が終了した場合に、音声認識を終了させる。
【0057】
判定部161は、ステップS1でYES、すなわち音声認識処理が実施されていると判断すると、音声認識の開始から所定時間以上が経過かしたか否かを判定する(ステップS15)。所定時間は、例えば、上述の音声認識処理における待機時間以上の値に設定されている。
【0058】
映像制御部15は、ステップS15でYESと判定された場合、すなわち、所定時間以上経過しても音声認識処理が実施されている場合に、字幕を表示させる(ステップS2)。一方で、ステップS15でNOと判定された場合、すなわち、音声認識処理が実施されているものの、音声認識の開始から所定時間が経過していない場合に、通常字幕処理を実施し、字幕の表示設定に応じて字幕を表示又は非表示とする(ステップS3)。
【0059】
ここで、例えば、音声認識の開始指示の誤検出により音声認識モードに移行した場合、所定時間(待機時間)が経過したら、音声認識処理が終了する。この場合、音声認識処理が実施されている間に、ユーザが発話していないので、スピーカー4からの音声の内容をユーザが認識できるにも関わらず字幕が表示され、視認性が低下する場合がある。これに対して、所定時間(待機時間)が経過しても音声認識処理が実施されている場合に字幕を表示させることにより、音声認識の開始指示の誤検出によって字幕が表示されることを抑制でき、字幕表示による視認性の低下を抑制できる。
【0060】
(変形例)
以下、上記実施形態に係る映像処理装置の変形例について説明する。また、以下に説明する変形例は、上記実施形態、又は他の変形例と適宜組み合わせて適用可能である。
【0061】
上記実施形態では、音声認識モードにおいて、映像に対応する音声の出力音量を低下させていたが、出力音量を低下させなくてもよい。この場合でも、音声認識モードにおいて、判定部161の判定結果に基づいて映像に関連する文字情報を表示させることにより、映像の内容を理解しやすくできる。
【0062】
上記実施形態では、映像処理装置が、テレビ放送によって送信された映像を用いていたが、これに限らない。例えば、映像処理装置は、映像及び音声を含むコンテンツを配信する配信サーバや、メディアを再生する再生装置から映像を取得してもよい。
【0063】
上記実施形態では、映像に関連する文字情報として字幕を表示させる際に、映像データに付加された字幕データを用いていたが、字幕データの取得方法はこれに限らない。例えば、音声認識部152が音声データを文字情報に変換することにより字幕データを取得してもよい。
【0064】
また、映像処理装置は、通信部6を介して通信可能に接続された外部装置から、字幕データを取得してもよい。例えば、映像処理装置は、外部の音声認識サーバと通信可能に接続されている場合、音声データを音声認識サーバに送信し、音声認識結果として字幕データを取得してもよい。また、映像処理装置は、映像データに対応する字幕データを記憶している外部装置から、通信部6を介して字幕データを取得してもよい。
【0065】
上記実施形態では、映像に関連する文字情報として、映像に対応する字幕を用いていたが、これに限定されない。例えば、データ放送に含まれる文字情報を用いてもよい。
図12は、データ放送画面301の一例を模式的に示す図である。データ放送画面301は、映像データに基づく第1映像302と、第1映像302に関連する文字情報303とを含む。第1映像302には、例えば野球放送画面が表示されている。文字情報303は、例えば、第1映像302の内容を示す文字情報として、野球の試合経過を示す情報(スコア、投手名、打者名等)を含む。
【0066】
映像処理装置は、通信部6を介して通信可能に接続されたソーシャルネットワークサーバー(SNSサーバ)から、文字情報を取得してもよい。すなわち、映像処理装置は、SNSサーバに投稿された文字情報のうち、視聴中の番組についてリアルタイムに投稿された文字情報を取得してもよい。例えば、映像処理装置は、視聴中の番組に関連付けられ、かつ、投稿からの経過時間が所定時間以内の文字情報を検索し、取得する。
【0067】
映像処理装置は、映像データに字幕データが付加されていない場合に、映像に関連する文字情報として、字幕以外の文字情報を表示してもよい。
図13は、
図12に示すデータ放送画面を表示させる際の映像処理の一例を示す。
図13に示すように、音声認識モードの場合(ステップS1:YES)、判定部161は、映像データに字幕データが付加されている、受信部によって受信されたコンテンツが字幕を含むか否かを判定する(ステップS16)。ステップS16でYESと判定されると、映像制御部16は、字幕を表示する(ステップS2)。一方、ステップS16でNOと判定されると、映像制御部16は、データ放送画面301を表示する。これにより、コンテンツが字幕を含んでいない場合でも、映像に関連する文字情報を表示させることができる。
【0068】
上述した例では、映像処理装置がテレビ受信機に適用される場合を例に説明したが、映像処理装置は、例えば、セットトップボックス、及びパーソナルコンピュータ等の電子装置や、スマートフォン等のモバイル端末に適用可能である。
【符号の説明】
【0069】
1 映像処理装置
10 テレビ受信機
11 デコード部
12 音声制御部
13 音声入力部
14 エコーキャンセル部
15 音声認識処理部
151 受付部
152 音声認識部
16 映像制御部
161 判定部
162 合成部
2 受信部
3 表示部
4 スピーカー
5 マイク
6 通信部