特許7498597 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ シャープ株式会社の特許一覧

特許7498597映像処理装置、テレビ受信機、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-04

(45)【発行日】2024-06-12

(54)【発明の名称】映像処理装置、テレビ受信機、及びプログラム

(51)【国際特許分類】

H04N 21/431 20110101AFI20240605BHJP

H04N 21/439 20110101ALI20240605BHJP

H04N 21/435 20110101ALI20240605BHJP

【ＦＩ】

H04N21/431

H04N21/439

H04N21/435

【請求項の数】 8

(21)【出願番号】P 2020092289

(22)【出願日】2020-05-27

(65)【公開番号】P2021190762

(43)【公開日】2021-12-13

【審査請求日】2023-03-22

(73)【特許権者】

【識別番号】000005049

【氏名又は名称】シャープ株式会社

(74)【代理人】

【識別番号】100147304

【弁理士】

【氏名又は名称】井上知哉

(72)【発明者】

【氏名】関口裕也

(72)【発明者】

【氏名】小林涼

(72)【発明者】

【氏名】田中光憲

【審査官】川中龍太

(56)【参考文献】

【文献】特開２０１２－１８１３７４（ＪＰ，Ａ）

【文献】特開２００４－３０４５３１（ＪＰ，Ａ）

【文献】実開昭５９－１８９３３３（ＪＰ，Ｕ）

【文献】特開昭５７－１９６３００（ＪＰ，Ａ）

【文献】特開２００７－１２９６６３（ＪＰ，Ａ）

【文献】特開２０１２－０７０１５０（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２１／００－２１／８５８

(57)【特許請求の範囲】

【請求項1】

表示部に映像を表示させる映像制御部と、
音声入力部から入力された音声に基づく音声認識を行い、音声認識結果を取得する音声認識部と、を備え、
前記映像制御部は、前記音声認識が行われている場合に、前記映像に関連する文字情報を前記映像に合成した合成映像を前記表示部に表示させる
映像処理装置。

【請求項2】

前記音声認識部は、前記音声入力部から入力された音声に基づきユーザによる発話を検出し、
前記映像制御部は、前記発話が検出された場合に、前記合成映像を前記表示部に表示させる
請求項１に記載の映像処理装置。

【請求項3】

前記音声入力部から入力された音声から前記映像に応じた音声を除去した除去音声を出力するエコーキャンセル部を更に備え、
前記音声認識部は、前記除去音声について前記音声認識を行い、
前記映像制御部は、前記除去音声の音量が第１閾値以上である場合に、前記合成映像を前記表示部に表示させる
請求項１又は２に記載の映像処理装置。

【請求項4】

前記映像制御部は、前記音声入力部から入力された音声の音量が第２閾値以上である場合に、前記合成映像を前記表示部に表示させる
請求項１から３のいずれか１項に記載の映像処理装置。

【請求項5】

前記映像制御部は、前記映像に応じた音声を出力する音声出力部からの出力音量が第３閾値未満の場合に、前記合成映像を前記表示部に表示させる
請求項１から４のいずれか１項に記載の映像処理装置。

【請求項6】

前記音声認識部は、開始指示に基づいて音声認識を開始し、
前記映像制御部は、前記開始指示に基づく前記音声認識の開始からの経過時間が所定時間以上の場合に、前記合成映像を前記表示部に表示させる
請求項１から５のいずれか１項に映像処理装置。

【請求項7】

請求項１から６のいずれか１項に記載の映像処理装置と、
テレビ放送によって送信された映像を受信する受信部と、を備える
テレビ受信機。

【請求項8】

コンピュータシステムに、映像制御処理と、音声認識処理と、を実行させるプログラムであって、
前記映像制御処理では、表示部に映像を表示させ、
前記音声認識処理では、開始指示に基づいて音声認識を開始させ、音声入力部から入力された音声に基づく音声認識結果を取得させ、
前記映像制御処理では、前記音声認識が行われている場合に、前記映像に関連する文字情報を前記映像に合成した合成映像を前記表示部に表示させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像処理装置、テレビ受信機、及びプログラムに関する。

【背景技術】

【0002】

ユーザの発話に対して音声認識を行って、音声認識結果に対応付けられた操作コマンドを実行するテレビジョン装置が知られている（例えば、特許文献１参照）。特許文献１に記載のテレビジョン装置は、ユーザによる音声認識開始の指示の入力を受けてから、音声認識処理が終わるまでの間、出力音量の設定値を一時的に閾値以下の値に変更する。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１２－１８１３７４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１に記載されたテレビジョン装置では、音声認識処理の際に、出力音量が閾値以下の値となるので、音声認識処理を行っていない場合と比べて出力音量が小さくなる場合がある。このため、ユーザは、音声認識処理の際に、テレビから出力された音声を聞き取ることができず、映像の内容を十分に理解できない場合があった。

【0005】

上述した課題に鑑み、本開示の主な目的は、音声認識処理の際に、映像の内容を理解しやすくすることができる映像処理装置、テレビ受信機、及びプログラムを提供することである。

【課題を解決するための手段】

【0006】

本開示の一態様に係る映像処理装置は、表示部に映像を表示させる映像制御部と、音声入力部から入力された音声に基づく音声認識を行い、音声認識結果を取得する音声認識部と、を備え、前記映像制御部は、前記音声認識が行われている場合に、前記映像に関連する文字情報を前記映像に合成した合成映像を前記表示部に表示させる。

【0007】

本開示の一態様に係るテレビ受信機は、前記映像処理装置と、テレビ放送によって送信された映像を受信する受信部と、を備える。

【0008】

本開示の一態様に係るプログラムは、コンピュータシステムに、映像制御処理と、音声認識処理と、を実行させるプログラムであって、前記映像制御処理では、表示部に映像を表示させ、前記音声認識処理では、開始指示に基づいて音声認識を開始させ、音声入力部から入力された音声に基づく音声認識結果を取得させ、前記映像制御処理では、前記音声認識が行われている場合に、前記映像に関連する文字情報を前記映像に合成した合成映像を前記表示部に表示させる。

【図面の簡単な説明】

【0009】

【図1】図１は、第１実施形態に係る映像処理装置を含むテレビ受信機のブロック図である。

【図2】図２は、合成映像の生成処理を模式的に示す図である。

【図3】図３は、第１実施形態に係る映像処理装置の動作フローチャートである。

【図4】図４は、第２実施形態に係る映像処理装置の動作フローチャートである。

【図5】図５は、第３実施形態に係る映像処理装置を含むテレビ受信機のブロック図である。

【図6】図６は、第３実施形態に係る映像処理装置の動作フローチャートである。

【図7】図７は、第４実施形態に係る映像処理装置を含むテレビ受信機のブロック図である。

【図8】図８は、第４実施形態に係る映像処理装置の動作フローチャートである。

【図9】図９は、第５実施形態に係る映像処理装置を含むテレビ受信機のブロック図である。

【図10】図１０は、第５実施形態に係る映像処理装置の動作フローチャートである。

【図11】図１１は、第６実施形態に係る映像処理装置の動作フローチャートである。

【図12】図１２は、映像処理装置によって表示される合成映像の他の例を示す図である。

【図13】図１３は、一変形例に係る映像処理装置の動作フローチャートである。

【発明を実施するための形態】

【0010】

以下に説明する実施形態及び変形例は、本開示の一例に過ぎず、本開示は、実施形態及び変形例に限定されない。この実施形態及び変形例以外であっても、本開示の技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。

【0011】

（第１実施形態）
以下、第１実施形態に係る映像処理装置１、テレビ受信機１０、及びプログラムについて、図１～図３を参照して説明する。

【0012】

（映像処理装置及びテレビ受信機の構成）
本実施形態のテレビ受信機１０は、受信したテレビ放送の番組を表示するように構成されている。図１に示すように、テレビ受信機１０は、映像処理装置１と、受信部２と、表示部３と、スピーカー４と、マイク５と、通信部６と、を備えている。映像処理装置１は、マイク５から入力された音声に基づく音声認識を行い、音声認識結果を取得する。映像処理装置１は、音声認識が行われている場合に、映像に関連する文字情報を映像に合成した合成映像を表示部３に表示させる。

【0013】

表示部３は、例えば液晶ディスプレイである。表示部３は、映像処理装置１から出力された映像制御信号に基づいて、番組の映像を表示する。

【0014】

スピーカー４は、映像処理装置１から出力された音声制御信号に基づいて、番組の音声を出力する。

【0015】

マイク５は、ダイアフラムと、ダイアフラムの振動を電気信号に変換する変換器等を備える。マイク５は、ユーザの発話等のテレビ受信機１０の周囲の音声を電気信号に変換する。

【0016】

通信部６は、通信インターフェースであり、ルータ、ゲートウェイ等を介してネットワークに接続され、ネットワークを介して通信可能に接続された他の機器との間でデータの送受信を行う。通信部６は、後述する音声認識処理による音声認識結果を、当該音声認識結果に基づく処理を行う処理サーバに送信してもよい。処理サーバは、音声認識結果に基づく処理を実施し、処理結果を通信部６に送信する。例えば、音声認識結果が、今日の天気に関する問い合わせである場合、通信部６は、処理サーバに音声認識結果を送信し、処理サーバから今日の天気の検索結果を取得する。

【0017】

受信部２は、テレビ放送によって送信された番組（映像を含む）を受信するように構成されている。受信部２は、チューナー２１を備えている。チューナー２１は、無線又は有線により、テレビ放送を受信する。テレビ放送の受信に無線を利用する場合、チューナー２１のアンテナ入力端子には、例えば、アンテナケーブルを介して無線アンテナが接続される。テレビ放送の受信に有線を利用する場合、チューナー２１のアンテナ入力端子には、例えば、アンテナケーブルを介して、有線通信（例えば光ファイバーを用いた光通信）の終端装置が接続される。

【0018】

受信部２から映像処理装置１に出力されるデータには、選択されたチャンネルに対応する番組の映像信号、音声信号等が含まれている。また、受信部２から映像処理装置１に出力されるデータには、映像信号及び音声信号に対応する字幕データや、データ放送に関する付加データが含まれている場合がある。字幕データは、映像に関連する文字情報の一つであり、映像信号及び音声信号に対応する字幕を表示部３に表示させるためのデータである。

【0019】

映像処理装置１は、受信部２（チューナー２１）からのデータに基づいて、表示部３を制御することによりに映像（番組）を表示させる。映像処理装置１は、デコード部１１、音声制御部１２、音声入力部１３、エコーキャンセル部１４、音声認識処理部１５、及び映像制御部１６を備えている。映像処理装置１は、例えば、プロセッサ及びメモリを有するマイクロコンピュータで構成されている。つまり、映像処理装置１は、プロセッサ及びメモリを有するコンピュータシステムで実現されている。そして、プロセッサが適宜のプログラムを実行することにより、デコード部１１、音声制御部１２、音声入力部１３、エコーキャンセル部１４、音声認識処理部１５、及び映像制御部１６として機能する。プログラムは、メモリに予め記録されていてもよいし、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路（ＩＣ）又は大規模集積回路（ＬＳＩ）を含む１ないし複数の電子回路で構成される。複数の電子回路は、１つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、１つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。例えば、デコード部１１、音声制御部１２、音声入力部１３、エコーキャンセル部１４、音声認識処理部１５、及び映像制御部１６は、複数のマイクロコンピュータで実現されていてもよい。

【0020】

デコード部１１は、受信部２の出力データを復号し、映像データ、音声データ、及び字幕データを取得する。デコード部１１は、音声データを音声制御部１２に、映像データを映像制御部１５に、それぞれ出力する。デコード部１１は、字幕データを取得した場合は、字幕データを映像制御部１５に出力する。

【0021】

音声制御部１２は、音声データに基づいて生成した音声制御信号をスピーカー４に出力することにより、番組の音声をスピーカー４から出力させる。また、音声制御部１２は、音声制御信号をエコーキャンセル部１４に出力する。スピーカー４から出力される音声の出力音量は、音声データの信号レベルと、ユーザが設定可能な音量の設定レベルとに基づいて決定される。

【0022】

音声制御部１２は、音声認識処理部１４による音声認識処理の際に、スピーカー４の出力音量が所定値以下となるように出力音量を調整する。例えば、音声制御部１２は、設定レベルに基づく出力音量の最大値が所定値以下となるように調整前の出力音量を定数倍して出力音量を調整する。このように、音声制御部１２は、音声認識処理の際のスピーカー４の出力音量を、通常時よりも小さくすることにより、音声認識処理の精度を向上させている。

【0023】

音声入力部１３は、マイク５から入力された音声に応じた音声データである入力音声データを取得する。

【0024】

エコーキャンセル部１４は、音声制御部１２から出力された音声制御信号を用いて、マイク５から入力された音声から映像に応じた音声を除いた除去音声を出力する。すなわち、エコーキャンセル部１４は、デコード部１１から出力された音声データに基づいて、音声入力部１３から入力された入力音声データから、スピーカー４から発せられた後にマイク５に入力された音声の少なくとも一部を除くエコーキャンセル処理を実施する。

【0025】

音声認識処理部１５は、入力音声データに基づく音声認識処理を実施することにより、ユーザの発話による指示を音声認識結果として取得し、音声認識結果に基づく処理を実施する。音声認識処理部１５は、受付部１５１と、音声認識部１５２と、を含む。

【0026】

受付部１５１は、音声認識処理の開始を指示する開始指示を受け付ける。音声認識の開始指示は、例えば、ユーザによる所定ワードの発話や、所定の操作である。受付部１５１は、入力音声データとして所定ワードが入力された場合や、リモートコントローラー等を用いた所定の操作が実施された場合に、開始指示を受けたと判断する。

【0027】

音声認識部１５２は、音声認識の開始指示に基づいて、音声認識処理を行う音声認識モードに移行する。音声認識モードでは、音声認識部１５２は、音声入力部１４から入力された音声に基づく音声認識結果を取得する。例えば、音声認識部１５２は、ユーザの発話を検出すると、音声入力データをテキストに変換する変換処理を開始する。音声認識部１５２は、変換されたテキストデータを音声認識結果として取得する。音声認識部１５２は、音声認識結果を表示部３に表示させるために、音声認識結果を映像制御部１６に出力してもよい。

【0028】

音声認識部１５２は、例えば、ユーザによる発話が終了した場合や、マイク５からの音声入力が無い期間が所定期間以上続く場合、音声認識モードを終了させる。なお、音声認識部１５２は、例えば、マイク５へ入力される音声の音量が所定値以下である場合、マイク５への音声入力が無いと判定する。上記所定値は、ユーザの発話以外の周囲音（例えば、音声認識モード時にスピーカー４から出力される音声や、周囲の雑音等）の音量よりも大きく設定されてもよい。これにより、周囲音が、ユーザによる発話として誤検知されることを抑制できる。また、上記所定値は、ユーザの発話の音量の平均値や最小値よりも小さく設定されてもよい。これにより、ユーザの発話が、検知されない検知エラーを抑制できる。

【0029】

なお、音声認識処理部１５は、音声認識結果に応じた処理を実行する。例えば、音声認識結果が、音量調整や、表示チャンネルの変更等の、テレビ受信機１についての操作指示の場合、音声認識処理部１５は、操作指示に対応するコマンドを出力する。また、音声認識結果が、例えば、ネットワークを介してテレビ受信機１と接続された処理サーバで実施される処理についての指示の場合、音声認識処理部１５は、指示コマンドを出力する。通信部６は、処理サーバに指示コマンドを送信し、処理サーバから処理結果を取得する。

【0030】

映像制御部１６は、映像データや字幕データ等に基づいて生成した表示制御信号を表示部３に出力することにより、映像を表示部３に表示させる。本実施形態では、映像制御部１６は、音声認識部１５２による音声認識が行われている場合、映像に関連する文字情報である字幕を映像に合成した合成映像を、表示部３に表示させる。映像制御部１６は、判定部１６１と、合成部１６２と、を含む。

【0031】

判定部１６１は、映像に関連する文字情報としての字幕を表示部３に表示させるか否かを判定する。判定部１６１は、例えば、音声認識部１５１において音声認識処理が実施されている音声認識モードであるか否かを判定し、音声認識モードの場合に字幕を表示させると判定する。また、判定部１６１は、音声認識モードでない場合でも、字幕表示が予めオンに設定されている場合、字幕を表示させると判定する。一方、判定部１６１は、字幕表示が予めオフに設定されている場合、字幕を表示させないと判定する。字幕表示の設定は、ユーザによって変更可能である。

【0032】

合成部１６２は、映像データと字幕データとを合成した合成映像を生成する。また、映像と併せて、音声認識結果を表示させる場合、合成部１６２は、映像データと音声認識結果とを合成した合成映像を生成する（図２参照）。図２に示す例では、合成部１６２は、映像データに基づく第１映像２０１に、字幕データに基づく第２映像２０２と、音声認識結果に基づく第３映像２０３と、を重畳させることにより合成映像２０４を生成する。第２映像２０２は、字幕データに基づく字幕２２１を含む。第３映像２０３は、音声認識結果２３１を含む。

【0033】

（映像処理装置による字幕表示処理）
図３は、映像処理装置１による字幕表示処理の一例を示すフローチャートである。以下、図３を参照して、映像処理装置１による処理の一例について説明する。なお、映像処理装置１は、字幕表示処理の他に、音声認識処理部１５による音声認識処理を実施する。受付部１５１が音声認識開始指示を受けた場合に、音声認識部１５２が音声認識処理を実施す音声認識モードを開始する。音声認識モードでは、音声制御部１２は、スピーカー４の出力音量を所定値以下とするように出力音量を調整する。音声認識部１５２は、音声認識の終了条件を満たす場合に、音声認識モードを終了させる。

【0034】

字幕表示処理では、図３に示すように、判定部１６１は、音声認識部１５２によって音声認識処理が実施される音声認識モードか否かを判定する（ステップＳ１）。受付部１５１が、開始指示を受け付け、音声認識部１５２が、音声認識処理を実施している場合、ステップＳ１において、判定部１６１は、音声認識処理が実施されている、すなわち音声認識モードに移行中と判断する（ステップＳ１：ＹＥＳ）。

【0035】

ステップＳ１でＹＥＳと判定された場合、すなわち、音声認識が行われている場合に、映像制御部１６は、表示部３に字幕を表示させる（ステップＳ２）。具体的には、例えば、合成部１６２は、映像データと字幕データとに基づいて合成映像を生成する。映像制御部１６は、生成した合成映像に基づく映像信号を出力して、表示部３に合成映像を表示させる。合成映像は、例えば、図２に示す合成映像２０４である。合成映像は、第１映像２０１と、字幕データに基づく第２映像２０２とが合成された映像でもよい。

【0036】

上述のように、音声制御部１２は、音声認識モードにおいて、スピーカー４の出力音量が所定値以下となるように出力音量を調整する。したがって、発話により、音声データに基づく音声が聞き取りにくくなり、映像の内容がわかりにくくなる場合がある。これに対して、ステップＳ２によって、音声認識モードの場合に、字幕を含む合成映像が表示されるので、音声データに基づく音声が聞き取りにくい場合であっても、映像の内容を理解しやすくできる。

【0037】

一方、ステップＳ１でＮＯと判定された場合、すなわち、音声認識部１５２が音声認識処理を実施していない場合、映像制御部１６は、予め設定された字幕表示の設定に応じた字幕表示処理（以下、通常字幕処理とも称する）を行う（ステップＳ３）。ステップＳ３では、字幕表示の設定がオンに設定されている場合、判定部１６１は字幕を表示させると判定する。映像制御部１６は、合成映像を表示部３に表示させる。一方、字幕表示の設定がオフに設定されている場合、判定部１６１は字幕を非表示と判定する。この場合、映像制御部１６は、合成部１６２による字幕の合成を行わずに、映像データに基づく映像信号を出力し、字幕を含まない映像（例えば、図２に示す第１映像２０１）を表示部３に表示させる。

【0038】

（第２実施形態）
以下、本開示に係る映像処理装置の第２実施形態について説明する。以下の説明では、上述した実施形態と同様の構成については、同一の符号を付して説明を適宜省略する。第２実施形態の映像処理装置は、音声認識モードにおいて、発話が検出された場合に、合成映像を表示部に表示させる点で、第１実施形態と異なる。

【0039】

図４は、第２実施形態に係る字幕表示処理の一例を示すフローチャートである。図４に示すように、判定部１６１は、音声認識部１５２によって音声認識処理が実施される音声認識モードか否かを判定する（ステップＳ１）。

【0040】

ステップＳ１でＹＥＳと判定された場合、すなわち、音声認識モードの場合に、判定部１６１は、音声認識部１５２がユーザの発話を検出している否かを判定する（ステップＳ１１）。具体的には、例えば、判定部１６１は、音声認識部１５２が音声入力データをテキストに変換する変換処理を行っている否かに基づいて、音声認識部１５２がユーザの発話を検出している否かを判定する。例えば、判定部１６１は、音声認識部１５２が音声入力データをテキストに変換する変換処理を行っている場合に、音声認識部１５２がユーザの発話を検出していると判定する。発話に基づく音声がマイク５から入力されている場合、音声認識部１５２は、音声入力部１４から入力された入力音声データを即時にテキストに変換をする。

【0041】

ステップＳ１１でＹＥＳと判定された場合、すなわち、ユーザの発話が検出されている場合に、映像制御部１６は、映像データと字幕データとに基づいて生成された合成映像を表示部３に表示させる（ステップＳ２）。

【0042】

一方、音声認識モードではなくステップＳ１でＮＯと判定された場合や、音声認識モードであっても発話が検出されておらずステップＳ１１でＮＯと判定された場合、映像制御部１６は、字幕表示の設定に応じた通常字幕処理を行う（ステップＳ３）。音声認識モードであってもユーザが発話していない場合、字幕設定が非表示であれば、字幕が表示されない。音声認識モードのためスピーカー４からの出力音量が低減されていても、ユーザが発話していないため、ユーザが音声の内容を認識できる場合がある。このような場合に、映像制御部１５は、字幕を非表示とすることができ、字幕が表示されることによる映像の視認性の低下を抑制できる。

【0043】

（第３実施形態）
以下、本開示に係る映像処理装置の第３実施形態について説明する。第３実施形態の映像処理装置は、音声認識モードにおいて、エコーキャンセル部から出力された除去音声の音量が第１閾値以上の場合に、合成映像を表示部３に表示させる点で、第１実施形態と異なる。

【0044】

図５は、第３実施形態に係る映像処理装置１Ａを備えるテレビジョン受信機１０Ａを模式的に示す図である。図６は、映像処理装置１Ａによる映像処理の一例を示すフローチャートである。図６に示すように、判定部１６１は、音声認識部１５２において音声認識処理が実施される音声認識モードか否かを判定する（ステップＳ１）。

【0045】

判定部１６１は、ステップＳ１でＹＥＳ、すなわち音声認識処理が実施されていると判断すると、エコーキャンセル部１４から出力された除去音声の音量が第１閾値以上か否かを判定する（ステップＳ１２）。例えば、第１閾値は、ユーザの発話以外の周囲音の音量よりも大きくなるように設定されている。これにより、判定部１６１は、周囲音とユーザによる発話とを区別でき、ユーザの発話を検出できる。また、例えば、第１閾値は、発話中であってもユーザが音声を認識可能な発話音量の上限値でもよい。これにより、発話音量が音声を認識可能な程度か否かを判定できる。

【0046】

映像制御部１５は、ステップＳ１２でＹＥＳと判定された場合、すなわち、音声認識処理が実施されており、かつ、除去音声の音量が第１閾値以上の場合に、字幕を表示させる（ステップＳ２）。一方で、ステップＳ１２でＮＯと判定された場合、すなわち、音声認識処理が実施されているものの、かつ、除去音声の音量が第１閾値未満の場合に、通常字幕処理を実施し、字幕の表示設定に応じて字幕を表示又は非表示とする（ステップＳ３）。音声認識モードにおいてスピーカー４からの出力音量が低減されていても、ユーザが発話していないか、発話音量が小さいため、ユーザが音声の内容を聞き取ることができる場合がある。このような場合に、映像制御部１５は、字幕を非表示とすることにより、字幕が表示されることによる映像の視認性の低下を抑制できる。

【0047】

（第４実施形態）
以下、本開示に係る映像処理装置の第４実施形態について説明する。第４実施形態の映像処理装置は、音声認識モードにおいて、音声入力部から入力された音声（入力音声）の音量が第２閾値以上である場合に、合成映像を表示部３に表示させる点で、第１実施形態と異なる。

【0048】

図７は、第４実施形態に係る映像処理装置１Ｂを備えるテレビジョン受信機１０Ｂを模式的に示す図である。図８は、映像処理装置１Ｂによる映像処理の一例を示すフローチャートである。図８に示すように、判定部１６１は、音声認識部１５２において音声認識処理が実施される音声認識モードか否かを判定する（ステップＳ１）。

【0049】

判定部１６１は、ステップＳ１でＹＥＳ、すなわち音声認識処理が実施されていると判断すると、音声入力部１３から入力された入力音声の音量が第２閾値以上か否かを判定する（ステップＳ１３）。例えば、第２閾値は、ユーザが音声を認識可能な入力音声の音量の上限値である。これにより、スピーカー４からの音声をユーザが認識可能か否かを判定できる。

【0050】

映像制御部１５は、ステップＳ１３でＹＥＳと判定された場合、すなわち、音声認識処理が実施されており、かつ、入力音声の音量が第２閾値以上の場合に、字幕を表示させる（ステップＳ２）。一方で、ステップＳ１３でＮＯと判定された場合、すなわち、音声認識処理が実施されているものの、かつ、入力音声の音量が第２閾値未満の場合に、通常字幕処理を実施し、字幕の表示設定に応じて字幕を表示又は非表示とする（ステップＳ３）。音声認識モードにおいてスピーカー４からの出力音量が低減されていても、スピーカー４からの音声以外の周囲音の音量が小さいため、ユーザが音声の内容を認識できる場合がある。このような場合に、映像制御部１５は、字幕を非表示とすることにより、字幕が表示されることによる映像の視認性の低下を抑制できる。

【0051】

（第５実施形態）
以下、本開示に係る映像処理装置の第５実施形態について説明する。第５実施形態の映像処理装置は、音声認識モードにおいて、映像に応じた音声を出力する音声出力部（スピーカー４）からの出力音量が第３閾値以下の場合に、合成映像を表示部３に表示させる点で、第１実施形態と異なる。

【0052】

図９は、第４実施形態に係る映像処理装置１Ｃを備えるテレビジョン受信機１０Ｂを模式的に示す図である。図１０は、映像処理装置１Ｃによる映像処理の一例を示すフローチャートである。図１０に示すように、判定部１６１は、音声認識部１５２において音声認識処理が実施される音声認識モードか否かを判定する（ステップＳ１）。

【0053】

判定部１６１は、ステップＳ１でＹＥＳ、すなわち音声認識処理が実施されていると判断すると、音声制御部１２から出力された音声制御信号に基づいて、スピーカー４からの出力音量が第３閾値未満か否かを判定する（ステップＳ１４）。例えば、第３閾値は、ユーザが音声を認識可能な出力音量の下限値である。これにより、スピーカー４からの音声をユーザが認識可能か否かを判定できる。なお、第３閾値は、例えば、音声入力部１３からの入力音声の音量や、エコーキャンセル部１４からの除去音声の音量が大きいほど大きくなるように設定されてもよい。

【0054】

映像制御部１５は、ステップＳ１４でＹＥＳと判定された場合、すなわち、音声認識処理が実施されており、かつ、入力音声の音量が第３閾値未満の場合に、字幕を表示させる（ステップＳ２）。一方で、ステップＳ１４でＮＯと判定された場合、すなわち、音声認識処理が実施され、かつ、入力音声の音量が第３閾値以上の場合に、通常字幕処理を実施し、字幕の表示設定に応じて字幕を表示又は非表示とする（ステップＳ３）。音声認識モードにおいてスピーカー４からの出力音量が低減されていても、スピーカー４からの音声の内容をユーザが認識できる場合がある。このような場合に、映像制御部１５は、字幕を非表示とすることにより、字幕が表示されることによる映像の視認性の低下を抑制できる。

【0055】

（第６実施形態）
以下、本開示に係る映像処理装置の第６実施形態について説明する。第６実施形態の映像処理装置は、音声認識モードにおいて、開始指示に基づく音声認識の開始からの経過時間が所定時間以上の場合に、合成映像を表示部３に表示させる点で、第１実施形態と異なる。

【0056】

図１１は、映像処理装置による映像処理の一例を示すフローチャートである。図１１に示すように、判定部１６１は、音声認識部１５２において音声認識処理が実施される音声認識モードか否かを判定する（ステップＳ１）。音声認識処理部１５は、開始指示に基づいて音声認識を開始し、ユーザの発話を検出せずに所定の待機時間が経過した場合や、ユーザの発話が終了した場合に、音声認識を終了させる。

【0057】

判定部１６１は、ステップＳ１でＹＥＳ、すなわち音声認識処理が実施されていると判断すると、音声認識の開始から所定時間以上が経過かしたか否かを判定する（ステップＳ１５）。所定時間は、例えば、上述の音声認識処理における待機時間以上の値に設定されている。

【0058】

映像制御部１５は、ステップＳ１５でＹＥＳと判定された場合、すなわち、所定時間以上経過しても音声認識処理が実施されている場合に、字幕を表示させる（ステップＳ２）。一方で、ステップＳ１５でＮＯと判定された場合、すなわち、音声認識処理が実施されているものの、音声認識の開始から所定時間が経過していない場合に、通常字幕処理を実施し、字幕の表示設定に応じて字幕を表示又は非表示とする（ステップＳ３）。

【0059】

ここで、例えば、音声認識の開始指示の誤検出により音声認識モードに移行した場合、所定時間（待機時間）が経過したら、音声認識処理が終了する。この場合、音声認識処理が実施されている間に、ユーザが発話していないので、スピーカー４からの音声の内容をユーザが認識できるにも関わらず字幕が表示され、視認性が低下する場合がある。これに対して、所定時間（待機時間）が経過しても音声認識処理が実施されている場合に字幕を表示させることにより、音声認識の開始指示の誤検出によって字幕が表示されることを抑制でき、字幕表示による視認性の低下を抑制できる。

【0060】

（変形例）
以下、上記実施形態に係る映像処理装置の変形例について説明する。また、以下に説明する変形例は、上記実施形態、又は他の変形例と適宜組み合わせて適用可能である。

【0061】

上記実施形態では、音声認識モードにおいて、映像に対応する音声の出力音量を低下させていたが、出力音量を低下させなくてもよい。この場合でも、音声認識モードにおいて、判定部１６１の判定結果に基づいて映像に関連する文字情報を表示させることにより、映像の内容を理解しやすくできる。

【0062】

上記実施形態では、映像処理装置が、テレビ放送によって送信された映像を用いていたが、これに限らない。例えば、映像処理装置は、映像及び音声を含むコンテンツを配信する配信サーバや、メディアを再生する再生装置から映像を取得してもよい。

【0063】

上記実施形態では、映像に関連する文字情報として字幕を表示させる際に、映像データに付加された字幕データを用いていたが、字幕データの取得方法はこれに限らない。例えば、音声認識部１５２が音声データを文字情報に変換することにより字幕データを取得してもよい。

【0064】

また、映像処理装置は、通信部６を介して通信可能に接続された外部装置から、字幕データを取得してもよい。例えば、映像処理装置は、外部の音声認識サーバと通信可能に接続されている場合、音声データを音声認識サーバに送信し、音声認識結果として字幕データを取得してもよい。また、映像処理装置は、映像データに対応する字幕データを記憶している外部装置から、通信部６を介して字幕データを取得してもよい。

【0065】

上記実施形態では、映像に関連する文字情報として、映像に対応する字幕を用いていたが、これに限定されない。例えば、データ放送に含まれる文字情報を用いてもよい。図１２は、データ放送画面３０１の一例を模式的に示す図である。データ放送画面３０１は、映像データに基づく第１映像３０２と、第１映像３０２に関連する文字情報３０３とを含む。第１映像３０２には、例えば野球放送画面が表示されている。文字情報３０３は、例えば、第１映像３０２の内容を示す文字情報として、野球の試合経過を示す情報（スコア、投手名、打者名等）を含む。

【0066】

映像処理装置は、通信部６を介して通信可能に接続されたソーシャルネットワークサーバー（ＳＮＳサーバ）から、文字情報を取得してもよい。すなわち、映像処理装置は、ＳＮＳサーバに投稿された文字情報のうち、視聴中の番組についてリアルタイムに投稿された文字情報を取得してもよい。例えば、映像処理装置は、視聴中の番組に関連付けられ、かつ、投稿からの経過時間が所定時間以内の文字情報を検索し、取得する。

【0067】

映像処理装置は、映像データに字幕データが付加されていない場合に、映像に関連する文字情報として、字幕以外の文字情報を表示してもよい。図１３は、図１２に示すデータ放送画面を表示させる際の映像処理の一例を示す。図１３に示すように、音声認識モードの場合（ステップＳ１：ＹＥＳ）、判定部１６１は、映像データに字幕データが付加されている、受信部によって受信されたコンテンツが字幕を含むか否かを判定する（ステップＳ１６）。ステップＳ１６でＹＥＳと判定されると、映像制御部１６は、字幕を表示する（ステップＳ２）。一方、ステップＳ１６でＮＯと判定されると、映像制御部１６は、データ放送画面３０１を表示する。これにより、コンテンツが字幕を含んでいない場合でも、映像に関連する文字情報を表示させることができる。

【0068】

上述した例では、映像処理装置がテレビ受信機に適用される場合を例に説明したが、映像処理装置は、例えば、セットトップボックス、及びパーソナルコンピュータ等の電子装置や、スマートフォン等のモバイル端末に適用可能である。

【符号の説明】

【0069】

１映像処理装置
１０テレビ受信機
１１デコード部
１２音声制御部
１３音声入力部
１４エコーキャンセル部
１５音声認識処理部
１５１受付部
１５２音声認識部
１６映像制御部
１６１判定部
１６２合成部
２受信部
３表示部
４スピーカー
５マイク
６通信部

【図1】