特開2022-185853 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ シャープ株式会社の特許一覧

特開2022-185853コンテンツ再生装置、コンテンツ再生方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022185853

(43)【公開日】2022-12-15

(54)【発明の名称】コンテンツ再生装置、コンテンツ再生方法、及びプログラム

(51)【国際特許分類】

G10L 15/00 20130101AFI20221208BHJP

G10L 15/10 20060101ALI20221208BHJP

G10L 15/28 20130101ALI20221208BHJP

H04N 5/93 20060101ALI20221208BHJP

G11B 20/10 20060101ALI20221208BHJP

G06F 3/16 20060101ALI20221208BHJP

【ＦＩ】

G10L15/00 200G

G10L15/10 200W

G10L15/28 230K

H04N5/93

G11B20/10 321Z

G06F3/16 650

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2021093741

(22)【出願日】2021-06-03

(71)【出願人】

【識別番号】000005049

【氏名又は名称】シャープ株式会社

(74)【代理人】

【識別番号】110000338

【氏名又は名称】特許業務法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】関口裕也

【テーマコード（参考）】

5C053

5D044

【Ｆターム（参考）】

5C053GB06

5C053GB11

5C053HA21

5C053JA21

5C053LA11

5D044AB05

5D044FG23

5D044GK11

(57)【要約】

【課題】音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることができる。
【解決手段】コンテンツ再生装置は、ユーザからの音声の認識を行う音声認識部と、コンテンツの録音及び再生を行う記録再生部と、を備え、前記記録再生部は、ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する。
【選択図】図１

【特許請求の範囲】

【請求項1】

ユーザからの音声の認識を行う音声認識部と、
コンテンツの録音及び再生を行う記録再生部と、
を備え、
前記記録再生部は、
ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、
前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する
ことを特徴とするコンテンツ再生装置。

【請求項2】

前記記録再生部は、
前記ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止すると共に、前記コンテンツの音声の録音を開始し、
前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データの出力を再開する
ことを特徴とする請求項１に記載のコンテンツ再生装置。

【請求項3】

前記記録再生部は、
前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を停止すると共に、前記コンテンツの映像の録画を開始し、
前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開する
ことを特徴とする請求項２に記載のコンテンツ再生装置。

【請求項4】

前記記録再生部は、
前記ユーザからの音声に含まれるウェイクワードの認識を契機として、前記コンテンツの音データの出力を停止する
ことを特徴とする請求項１から３の何れか１項に記載のコンテンツ再生装置。

【請求項5】

前記記録再生部は、
前記音声認識部による音声認識処理の前に前記コンテンツの音声の録音と映像の録画とを開始し、
前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を一時停止し、
前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開する
ことを特徴とする請求項２から４の何れか１項に記載のコンテンツ再生装置。

【請求項6】

前記記録再生部は、
前記音声認識部による音声認識処理の前に前記コンテンツの映像の録画を開始させ、
前記ユーザからの音声入力を契機として、前記コンテンツの音声データ及び映像データの出力を一時停止させ、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開し、
前記ユーザからの音声入力がない場合、録画を停止し、かつ録画した前記コンテンツの映像を消去する
ことを特徴とする請求項３から５の何れか１項に記載のコンテンツ再生装置。

【請求項7】

前記記録再生部は、
前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を停止すると共に、前記コンテンツの映像の録画を開始し、
前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記コンテンツの映像の録画を停止し、
前記コンテンツの放送が終了後に当該音データ及び映像データの出力を再開する
ことを特徴とする請求項３に記載のコンテンツ再生装置。

【請求項8】

ユーザからの音声の認識を行う音声認識工程と、
コンテンツの録音及び再生を行う記録再生工程と、
を含むコンテンツ再生方法であって、
前記記録再生工程においては、
ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、
前記音声認識工程における音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する
ことを特徴とするコンテンツ再生方法。

【請求項9】

請求項１に記載のコンテンツ再生装置としてコンピュータを機能させるためのプログラムであって、前記音声認識部、および前記記録再生部としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、コンテンツ再生装置、コンテンツ再生方法、及びプログラムに関する。

【背景技術】

【0002】

従来、音声認識により操作するテレビジョン装置が知られている。当該テレビジョン装置において、ユーザによる音声認識開始の指示の入力を受けてから、音声認識処理が終わるまでの間、出力音量の設定値を一時的に閾値以下の値に変更する（特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１２－１８１３７４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上述の従来技術は、音声認識している場合、音量低下するので、ユーザが放送の内容を理解しづらいという問題がある。

【0005】

本発明の一態様は、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることのできる技術を実現することを目的とする。

【課題を解決するための手段】

【0006】

上記の課題を解決するために、本発明の一態様に係るコンテンツ再生装置は、ユーザからの音声の認識を行う音声認識部と、コンテンツの録音及び再生を行う記録再生部と、を備え、前記記録再生部は、ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する。

【0007】

上記の課題を解決するために、本発明の一態様に係るコンテンツ再生方法は、ユーザからの音声の認識を行う音声認識工程と、コンテンツの録音及び再生を行う記録再生工程と、を含むコンテンツ再生方法であって、前記記録再生工程においては、ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、前記音声認識工程における音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する。

【発明の効果】

【0008】

本発明の一態様によれば、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることができる。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態１に係るコンテンツ再生装置の要部構成を示すブロック図である。

【図2】図１に示すコンテンツ再生装置の一例であるテレビジョン受像機を示す模式図である。

【図3】図１に示すコンテンツ再生装置による処理例１を説明するための図である。

【図4】図１に示すコンテンツ再生装置による処理例１を示すフローチャートである。

【図5】図１に示すコンテンツ再生装置による処理例２を示すフローチャートである。

【図6】図１に示すコンテンツ再生装置による処理例３を説明するための図である。

【図7】本発明の実施形態２に係るコンテンツ再生装置による処理例４を示すフローチャートである。

【図8】本発明の実施形態３に係るコンテンツ再生装置による処理例５を示すフローチャートである。

【図9】本発明の実施形態４に係るコンテンツ再生装置による処理例６を示すフローチャートである。

【図10】本発明の実施形態５に係るコンテンツ再生装置による処理例７を示すフローチャートである。

【発明を実施するための形態】

【0010】

〔実施形態１〕
以下、本発明の一実施形態について、図１～図６を参照しながら詳細に説明する。図１は、本実施形態に係るコンテンツ再生装置１の要部構成を示すブロック図である。図２は、図１に示すコンテンツ再生装置１の一例であるテレビジョン受像機１を示す模式図である。

【0011】

〔コンテンツ再生装置１の構成〕
図１に示すように、コンテンツ再生装置１は、記録再生部１０と、選択部１１と、デコード部１２と、表示部１３と、音声認識部１４と、エコーキャンセル部１５と、音処理部１６と、マイク１７と、スピーカー１８とを備えている。

【0012】

記録再生部１０は、例えばコンテンツ再生装置１が受信する放送コンテンツデータに含まれるコンテンツの録音・録画及び再生を行う。記録再生部１０からのデータは、選択部１１に供給する。以下、録音と録画とを合わせて記録と記載する場合がある。このように、本実施形態において、図１に示すように、コンテンツデータが直接選択部１１に供給する、または記録再生部１０を介して選択部１１に供給する。

【0013】

選択部１１は、音声認識部１４からの信号に基づき、直接のコンテンツデータと記録再生部１０からのデータとのうち、何れかを選択し、選択したデータをデコード部１２に供給する。

【0014】

選択部１１は、一旦、記録再生部１０からのデータを選択すると、その後は、当該コンテンツが終了するまで、記録再生部１０からのデータを選択し続ける。

【0015】

デコード部１２は、選択部１１によりデコード部１２に供給されたコンテンツデータを、デジタル信号例えば映像データ（映像信号）と音データ（音信号）とに変換する。当該映像データが表示部１３に供給され、当該音データが音処理部１６に供給される。

【0016】

表示部１３は、例えば液晶ディスプレイ、または有機ＥＬディスプレイなどのディスプレイデバイスであり、図示しない表示制御部の制御に基づいてコンテンツ再生装置１の表示画面に映像を表示する。

【0017】

音処理部１６は、入力される音データに対して、音調整処理を行う。例えば、音処理部１６では、後述するスピーカー１８の特性およびユーザが設定した音モード（例えば、映画モード、ダイナミックモード等）に合わせて、音調整処理を行う。音処理部１６による音調整処理が施された音データは、スピーカー１８およびエコーキャンセル部１５に供給される。

【0018】

スピーカー１８は、音処理部１６による音調整処理が施された音データを、アナログ信号に復号して出力する。

【0019】

マイク１７は、ユーザからの音声と背景音とを含む音信号を取得する。ここで、スピーカー１８から音が出力されている場合には、当該背景音に、スピーカー１８から出力されている音が含まれる。

【0020】

エコーキャンセル部１５は、マイク１７が取得した音信号が示す音から、音処理部１６による音調整処理が施された音データが示す音を取り除く処理（以下では、エコーキャンセル処理とも呼ぶ）を行う。このエコーキャンセル処理により、マイク１７が取得した音信号が示す音から、ユーザの音声を主として含む音声データを抽出することができる。エコーキャンセル処理によって得られた音声データ（エコーキャンセル処理が施された音声データとも呼ぶ）は、音声認識部１４に供給される。

【0021】

ここで、本明細書において「音声データ」とは、一例として、人の声を表すデータ、又は人の声を主として含む音データのことを指す。

【0022】

一方、「音データ」とは、一例として、必ずしも音声データを含むとは限らないより一般的な音を示すデータのことを指す。

【0023】

音声認識部１４は、エコーキャンセル処理が施された音声データに基づいて、コンテンツ再生装置１の制御のための音声認識を行う。例えば、予め特定の音声コマンド（音声認識結果）と対応づけられた操作コマンドをコンテンツ再生装置１の動作制御部（図示せず）に供給する。動作制御部では、コンテンツ再生装置１のチャンネル切替え、音量の変更、入力の切替え、および画面モードの切替えなどの操作を行う。図１において、音声認識部１４によりユーザからの音声入力を検知した場合、その旨を示す信号を記録再生部１０および選択部１１に供給する。

【0024】

そして、記録再生部１０は、前記ユーザからの音声入力を契機として、コンテンツデータに含まれる音データの出力を停止する。そして、記録再生部１０は、ユーザからの音声入力を契機として録音を開始する。そして、記録再生部１０は、音声認識部１４による音声認識処理の終了後、又はユーザからの音声入力の終了後に、当該音データの出力を再開する。

【0025】

録音の開始処理には時間が若干かかるので、実際に録音される音声データは音声データの出力を停止した点から少し後になっていてもよい。例えば時刻２１時２３分３０秒に音声データの出力を停止したとして、実際に録音される音声データは２１時２３分３３秒からの音声が録音されていてよい。また、出力の再開処理には時間が若干かかるので、実際に出力される音声は音声データの先頭から少し後になっていてもよい。２１時２３分３３秒からの音声が録音されている音声データを出力再開した際、実際に出力される音声は２１時２３分３４秒からの音声が出力されてもよい。

【0026】

再開のタイミングは、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点である。

【0027】

上記例の「出力を停止した点」は２１時２３分３０秒であり、「所定の範囲」は基準から前後１０秒以内であってよく、「出力を停止した点から所定の範囲内の点」は、２１時２３分２０秒から２１時２３分４０秒までの２０秒間のうちのどこかの点であってよい。

【0028】

また、ここでいう「記録再生部１０は、音声認識部１４による音声認識処理の終了、又はユーザからの音声入力の終了後に、当該音データの出力を再開する」という処理には、「記録再生部１０は、音声認識部１４による音声認識処理の終了、又はユーザからの音声入力の終了を契機として、当該音データの出力を再開する」という処理が含まれる。

【0029】

なお、「Ａを契機として、Ｂを行う」との表現は、Ｂを行うための条件の一つとしてＡという契機が存在していることを表す表現であり、それ以上の限定を招来するものではない。また、「Ａを契機として、Ｂを行う」との表現は、Ｂを行うことがＡよりも時間的に後になることを表しているが、それ以上の時間的限定を招来するものではない。

【0030】

また、ここでいう「音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点」は、音データにおける時系列上の点で、前記出力を停止した点から所定の時間を遡った時点から前記出力を停止した点から所定の時間を経過した時点までの範囲に含まれる時点を指す。

【0031】

上記の構成によれば、記録再生部１０は、音声認識部１４による音声認識処理の終了後、又はユーザからの音声入力の終了後に、当該音データの出力を再開するので、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることのできる技術を実現することができる。

【0032】

〔コンテンツの音データの出力を停止する契機〕
以下、記録再生部１０によるコンテンツの音データの出力を停止する契機について説明する。コンテンツの音データの出力を停止するには、音声認識部１４によるユーザからの音声に含まれるウェイクワードの認識を契機としてもよい。また、本実施形態において、上述したように、音声認識部１４による音声認識処理の開始も当該ウェイクワードの認識を契機としてもよい。

【0033】

ウェイクワードの例として、例えばコンテンツ再生装置１に予め設定された「ハローアクオス」（「アクオス」はシャープ株式会社の登録商標）などであってもよい。もちろん、上記のウェイクワードは上述の３つの例に限定されず、例えば後述する「今日の天気は？」のように、ユーザが自由に設定してもよい。また、ユーザが発声する任意の音声、または当該音声における最初の音をウェイクワードとして認識する構成としてもよい。

【0034】

音声認識部１４は、これらのウェイクワードを検出すると、その旨を示す信号を記録再生部１０および選択部１１に供給する。そして、記録再生部１０は、コンテンツデータに含まれる音データの出力を停止し、録音・録画を開始する。選択部１１は、記録再生部１０からのデータを選択し、選択したデータをデコード部１２に供給する。

【0035】

ここでは、音声認識部１４は、予め設定したウェイクワードを検出すると、記録再生部１０は、コンテンツの音データの出力を適切に停止することができる。この結果、後続の音声認識処理、録音・録画処理がスムーズに開始できる。

【0036】

〔コンテンツ再生装置１による処理例１〕
図３は、図１に示すコンテンツ再生装置１による処理例１を説明するための図である。図３の一番左側の図は、音声認識前の様子を示す図である。この一番左側の図において、コンテンツ再生装置１の表示部１３にある人物が映り、「こんにちは」という音声を発している様子を示す。そして、コンテンツ再生装置１を視聴しているユーザは、当該ある人物の映像を視認すると共に、当該ある人物による「こんにちは」という音声を聞くことができる。

【0037】

図３の中段の図は、音声認識開始後の音声認識中の様子を示す図である。この中段の図において、音声認識部１４によりユーザからの「今日の天気は？」という音声を検知した場合の処理を示している。

【0038】

まず、上述のように、音声認識部１４は、ユーザから「今日の天気は？」という音声を検知した旨の信号を記録再生部１０および選択部１１に供給する。そして、選択部１１は、記録再生部１０からのデータを選択し、選択したデータをデコード部１２に供給する。それとともに、記録再生部１０は、前記ある人物からの「お元気ですか？」という音声の出力を停止する。そして、記録再生部１０は、当該「お元気ですか？」という音声の録音と映像の録画とを開始させる。さらに、コンテンツ再生装置１は、表示部１３のユーザ提示内容領域１３Ａに「録音・録画中」という旨のメッセージを表示してユーザに提示する。また、この中段の図において、符号１３Ｂは、ユーザからの音声内容を示す認識用音声内容領域である。

【0039】

図３の一番右側の図は、音声認識・音声入力終了後の様子を示す図である。この一番右側の図において、音声認識部１４によりユーザからの音声認識処理が終了、又はユーザからの音声入力が終了したと判断した場合の処理を示している。「音声認識処理が終了」とは、例えばユーザからの「今日の天気は？」を的確に認識したことを指す。「ユーザからの音声入力が終了」とは、例えばユーザからの「今日の天気は？」という音声を検知してから所定の時間が経過したことを指す。

【0040】

記録再生部１０は、音声認識部１４による音声認識処理の終了後、又はユーザからの音声入力の終了後に、記録した音データおよび映像データの出力を再開する。再開のタイミングは、上述のように、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点である。

【0041】

具体的には、この一番右側の図において、コンテンツ再生装置１の音量を元に戻し、録音した「お元気ですか？」と録画した映像とを再生、いわゆる追っかけ再生を行う。また、表示部１３のユーザ提示内容領域１３Ａに「再生中」というメッセージを表示してユーザに提示してもよい。

【0042】

上記の構成によれば、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることができる。

【0043】

図４は、図１に示すコンテンツ再生装置１による処理例１を示すフローチャートである。図４に示すように、コンテンツ再生装置１が動作中、すなわち放送視聴スタートしたあと、ステップＳ４０において、音声認識部１４によりユーザからの音声入力があったか否かを検知する。

【0044】

そして、音声認識部１４によりユーザからの音声入力、例えば上述の「今日の天気は？」があったと検知した場合（ステップＳ４０：ＹＥＳ）、ステップＳ４１において、音声認識部１４によりユーザからの音声の認識を開始する。一方、音声認識部１４によりユーザからの音声入力がなかったと検知した場合（ステップＳ４０：ＮＯ）、フローチャートの最初に戻り、ユーザからの音声入力があるまで待機する。

【0045】

また、ステップＳ４２において、記録再生部１０により、コンテンツの音声出力を停止し、録音・録画、すなわち記録が開始する。そして、ステップＳ４３において、音声認識部１４により音声認識が終了、またはユーザからの音声入力が終了したと検知した場合、ステップＳ４４において、コンテンツの音声出力を停止した点から所定の範囲内の点から当該音声・映像出力を再開する。

【0046】

図４に図示していないが、再生が終了後、通常の放送視聴をしてもよい。

【0047】

〔コンテンツ再生装置１による処理例２〕
図５は、図１に示すコンテンツ再生装置１による処理例２を示すフローチャートである。この処理例では、上述の処理例１との相違点は、追っかけ再生中に、再度、音声認識する場合を想定している。ここで、ステップＳ５０からステップＳ５４までの処理内容は、図４におけるステップＳ４０からステップＳ４４までの処理内容と同様のためその説明を省略し、異なる点を説明する。

【0048】

ステップＳ５５において、音声認識部１４によりユーザから再度の音声入力があったか否かを検知する。そして、音声認識部１４によりユーザから再度の音声（ウェイクワード）入力があったと検知した場合（ステップＳ５５：ＹＥＳ）、ステップＳ５６において、音声認識部１４によりユーザからの音声の認識処理を開始する。一方、音声認識部１４によりユーザから再度の音声入力がなかったと検知した場合（ステップＳ５５：ＮＯ）、ステップＳ５５に戻り、ユーザから再度の音声入力があるまで再生をし続ける。

【0049】

また、ステップＳ５７において、記録再生部１０により、コンテンツの音声・映像出力の再生を一時停止する。そして、ステップＳ５８において、音声認識部１４により音声認識が終了、またはユーザからの音声入力が終了したと検知した場合、ステップＳ５９において、コンテンツの音声・映像出力を一時停止した点から所定の範囲内の点から当該音声・映像出力の再生を再開する。

【0050】

図５にも図示していないが、再生が終了後、通常の放送視聴をしてもよい。

【0051】

上記の構成によっても、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることができる。

【0052】

〔コンテンツ再生装置１による処理例３〕
図６は、図１に示すコンテンツ再生装置による処理例３を説明するための図である。上述の処理例１と比較すると、ユーザに提示する提示内容が異なる。また、図３と同様に、図６の一番左側の図も、音声認識前の様子を示す図である。この一番左側の図において、コンテンツ再生装置１の表示部１３にある人物が映り、「こんにちは」という音声を発している様子を示す。そして、コンテンツ再生装置１を視聴しているユーザは、当該ある人物の映像を視認すると共に、当該ある人物による「こんにちは」という音声を聞くことができる。

【0053】

図６の中段の図は、音声認識開始後の音声認識中の様子を示す図である。この中段の図において、音声認識部１４によりユーザからの「今日の天気は？」という音声を検知した場合の処理を示している。

【0054】

まず、上述のように、音声認識部１４は、ユーザから「今日の天気は？」という音声を検知した旨の信号を記録再生部１０および選択部１１に供給する。そして、選択部１１は、選択部１１は、記録再生部１０からのデータを選択し、選択したデータをデコード部１２に供給する。それとともに、記録再生部１０は、前記ある人物からの「お元気ですか？」という音声の出力を停止する。そして、記録再生部１０は、当該「お元気ですか？」という音声の録音と映像の録画とを開始させる。さらに、コンテンツ再生装置１は、表示部１３のユーザ提示内容領域１３Ａに「音声認識中で、コンテンツの音声を停止し、録音中！」という旨のメッセージを表示してユーザに提示する。また、この中段の図において、符号１３Ｂは、ユーザからの音声内容を示す認識用音声内容領域である。

【0055】

図６の一番右側の図は、音声認識・音声入力終了後の様子を示す図である。この一番右側の図において、音声認識部１４によりユーザからの音声認識処理が終了、又はユーザからの音声入力が終了したと判断した場合の処理を示している。「音声認識処理が終了」とは、例えばユーザからの「今日の天気は？」を的確に認識したことを指す。「ユーザからの音声入力が終了」とは、例えばユーザからの「今日の天気は？」という音声を検知してから所定の時間が経過したことを指す。

【0056】

まず、記録再生部１０は、音声認識部１４による音声認識処理の終了後、又はユーザからの音声入力の終了後に、記録した音データおよび映像データの出力を再開する。再開のタイミングは、上述のように、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点である。

【0057】

具体的には、この一番右側の図において、録音した「お元気ですか？」と録画した映像とを再生する。さらに、表示部１３のユーザ提示内容領域１３Ａに「音声認識終了、録音した音声を再生します！」というメッセージを表示してユーザに提示してもよい。

【0058】

上記の構成によれば、図３に示す処理例と比較すれば、コンテンツ再生装置１の現在状況をより明確にユーザに提示することができる。

【0059】

〔変形例〕
以下、本実施形態の変形例について説明する。本変形例において、コンテンツ再生装置１は、コンテンツの音データおよび映像データの出力を再開するか否かを制御する制御スイッチをさらに備えもよい。

【0060】

この場合、当該制御スイッチがオンの状態の場合、記録再生部１０は、前記ユーザからの音声入力を契機として、前記コンテンツの音データ及び映像データの出力を停止すると共に、前記コンテンツの音声の録音と映像の録画とを開始する。

【0061】

そして、記録再生部１０は、音声認識部１４による音声認識処理の終了後、又はユーザからの音声入力の終了後に、当該音データ及び映像データの出力を再開してもよい。再開のタイミングは、上述のように、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点である。

【0062】

上記の構成によれば、制御スイッチにより、追っかけ再生機能は、オン・オフ設定でき、オフの場合は録音・録画を再生しない。この結果、コンテンツ再生装置１の利便性を向上できる。

【0063】

〔実施形態２〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

【0064】

実施形態１において、音声認識処理が開始してから録音・録画を開始する構成を説明したが、実施形態２において、音声認識処理が開始する前に録音・録画を開始する点で実施形態１と異なる。

【0065】

本実施形態について、図７に基づいて以下に説明する。図７は、本実施形態に係るコンテンツ再生装置１による処理例４を示すフローチャートである。図７に示すように、コンテンツ再生装置１が動作中、すなわち放送視聴スタートしたあと、ステップＳ７０において、記録再生部１０により、コンテンツの録音・録画が開始する。

【0066】

そして、ステップＳ７１において、記録再生部１０により、録音した音声と録画した映像との再生を開始する。そして、ステップＳ７２において、音声認識部１４によりユーザからの音声入力があったか否かを検知する。

【0067】

そして、音声認識部１４によりユーザからの音声入力、例えば上述の「今日の天気は？」があったと検知した場合（ステップＳ７２：ＹＥＳ）、ステップＳ７３において、音声認識部１４によりユーザからの音声の認識を開始する。一方、音声認識部１４によりユーザからの音声入力がなかったと検知した場合（ステップＳ７２：ＮＯ）、ステップＳ７２に戻り、ユーザからの音声入力があるまで待機する。

【0068】

また、ステップＳ７４において、記録再生部１０により、コンテンツの音声・映像出力の再生を一時停止する。そして、ステップＳ７５において、音声認識部１４により音声認識が終了、またはユーザからの音声入力が終了したと検知した場合、ステップＳ７６において、コンテンツの音声・映像出力を一時停止した点から所定の範囲内の点から当該音声・映像出力の再生を再開する。

【0069】

換言すれば、本実施形態において、記録再生部１０は、音声認識部１４による音声認識処理の前にコンテンツの音声の録音と映像の録画とを開始する。そして、記録再生部１０は、ユーザからの音声入力を契機として、前記コンテンツの音データおよび映像データの出力を一時停止する。最後に、記録再生部１０は、音声認識部１４による音声認識処理の終了後又はユーザからの音声入力の終了後に、所定の範囲内の点から当該音データ及び映像データの出力を再開する。

【0070】

当該音声・映像出力の再開は、コンテンツの音声・映像出力を一時停止した点から所定の範囲内の点であればよく、この範囲内の点であれば一時停止した点から時間を少しさかのぼって再開してよい。

【0071】

例えば時刻２１時２３分３０秒にコンテンツの音声・映像出力を一時停止したとして、１０秒さかのぼり、時刻２１時２３分２０秒からの音データ及び映像データを出力再開してよい。

【0072】

さかのぼることによって一時停止する前に視聴していたコンテンツを、再開したあと少し重複して視聴することになるが、これによりコンテンツの音声・映像出力を一時停止する前のストーリーを思い出すのに役立つ。

【0073】

図７にも図示していないが、再生が終了後、通常の放送視聴をしてもよい。

【0074】

上記の構成によれば、音声認識処理が開始する前に録音・録画を開始するので、タイムラグによる頭切れは発生しなくなる。

【0075】

〔実施形態３〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

【0076】

実施形態３において、録音・録画したコンテンツを消去する点で上記実施形態と異なる。

【0077】

〔録画用デバイス〕
以下、録画用デバイスについて説明する。上述したように、本願の課題は「放送の内容が理解しづらい」であるため、再生は１度だけでも課題を十分解決することが出来る。よって、通常の録画（すなわち、コンテンツを保管し、何度も見直すこともある）とは異なり、一度再生すれば消去してもよいため、コンテンツ再生装置１の保存領域は少なくても良い。

【0078】

そこで、通常の録画で良く用いられる大容量のＨＤＤではなく、ユーザ領域のストレージを録画用のデバイスとして用いるか、あるいは低容量のＵＳＢメモリを録画用のデバイスとして用いることで、容易にかつ、通常の録画等を邪魔することなく、本願の課題を解決することが出来る。ユーザ領域のストレージを録画用のデバイスとして用いる場合、近年のテレビジョン受像機では、ｅＭＭＣといったＮＡＮＤフラッシュデバイスが、よく用いられる。

【0079】

以下、本実施形態について、図８に基づいて続けて説明する。図８は、本実施形態に係るコンテンツ再生装置による処理例５を示すフローチャートである。図８に示すように、ステップＳ８０からステップＳ８４までの処理内容は、図４におけるステップＳ４０からステップＳ４４までの処理内容と同様のためその説明を省略し、異なる点を説明する。

【0080】

ステップＳ８５において、ユーザが視聴している番組が終了した場合、ステップＳ８６において、記録再生部１０による記録を停止する。そして、ステップＳ８７において、記録再生部１０による再生を停止する。最後に、ステップＳ８８において、録音・録画したコンテンツを消去する。

【0081】

上記の構成によれば、上述のように、本願の録画は、通常の録画とは異なり、一度再生すれば消去してもよいため、コンテンツ再生装置１の保存領域は少なくても良い。

【0082】

〔実施形態４〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

【0083】

実施形態４において、コンテンツ再生装置１の容量不足にならないよう、録音・録画したコンテンツをこまめに消去する点で上記実施形態と異なる。

【0084】

本実施形態について、図９に基づいて以下に説明する。図９は、本実施形態に係るコンテンツ再生装置による処理例６を示すフローチャートである。図９に示すように、コンテンツ再生装置１が動作中、すなわち放送視聴スタートしたあと、ステップＳ９０において、記録再生部１０により、コンテンツの録音・録画が開始する。

【0085】

そして、ステップＳ９１において、音声認識部１４によりユーザからの音声入力があったか否かを検知する。

【0086】

音声認識部１４によりユーザからの音声入力、例えば上述の「今日の天気は？」があったと検知した場合（ステップＳ９１：ＹＥＳ）、ステップＳ９２において、記録再生部１０により、コンテンツの音声出力を停止し、録音・録画が開始する。そして、ステップＳ９３において、音声認識部１４により音声認識が終了、またはユーザからの音声入力が終了したと検知した場合、ステップＳ９４において、記録再生部１０は、コンテンツの音声出力を停止した点から所定の範囲内の点から当該音声・映像出力を再開する。

【0087】

一方、音声認識部１４によりユーザからの音声入力がなかったと検知した場合（ステップＳ９１：ＮＯ）、ステップＳ９５において、録音・録画を停止したうえ記録再生部１０により記録したコンテンツを消去する。そして、ステップＳ９０に戻る。

【0088】

換言すれば、本実施形態において、記録再生部１０は、音声認識部１４による音声認識処理の前に前記コンテンツの映像の録画を開始させ、ユーザからの音声入力を契機として、コンテンツの音データ及び映像データの出力を一時停止させる。そして、記録再生部１０は、音声認識部１４による音声認識処理の終了後又はユーザからの音声入力の終了後に、前記所定の範囲内の点から当該音データ及び映像データの出力を再開する。コンテンツ再生装置１は、前記ユーザからの音声入力がない場合、録音・録画を停止し、かつ録音・録画した前記コンテンツの映像を消去する。

【0089】

実施形態３に記載の通り、本願の録画は、通常の録画とは目的が異なるため、容量不足にならないように、こまめに消去しても良い。この結果、コンテンツ再生装置１の保存領域は少なくても良い。

【0090】

〔実施形態５〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

【0091】

実施形態１において、番組（コンテンツ）の終了後に、録音・録画したコンテンツをまとめて再生する点で上記実施形態と異なる。

【0092】

本実施形態について、図１０に基づいて以下に説明する。図１０は、本実施形態に係るコンテンツ再生装置による処理例７を示すフローチャートである。図１０に示すように、ステップＳ１００からステップＳ１０３までの処理内容は、図４におけるステップＳ４０からステップＳ４３までの処理内容と同様のためその説明を省略し、異なる点を説明する。

【0093】

ステップＳ１０４において、記録再生部１０による録音・録画を停止する。そして、ステップＳ１０５において、番組が終了した場合、ステップＳ１０６において、記録再生部１０により記録したコンテンツの再生を開始する。そして、ステップＳ１０７において、コンテンツの再生が終了した場合、ステップＳ１０８において、記録再生部１０により記録したコンテンツを消去する。

【0094】

換言すれば、本実施形態において、記録再生部１０は、ユーザからの音声入力を契機として、コンテンツの音データおよび映像データの出力を停止すると共に、前記コンテンツの音の録音と映像の録画とを開始する。そして、記録再生部１０は、音声認識部１４による音声認識処理の終了後又はユーザからの音声入力の終了後に、前記コンテンツの音の録音と映像の録画を停止する。最後に、記録再生部１０は、前記コンテンツの放送が終了後に当該音データ及び映像データの出力を再開する。

【0095】

上記の構成によれば、見逃し部のみ録画、番組終了後にまとめて再生するため、コンテンツ再生装置１の保存容量を節約することができる。この場合、音声認識部１４による音声認識中のみ録音・録画を行う。

【0096】

〔ソフトウェアによる実現例〕
コンテンツ再生装置（以下、「装置」と呼ぶ）の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック（特に音声認識部及び記録再生部に含まれる各部）としてコンピュータを機能させるためのプログラムにより実現することができる。

【0097】

この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも１つの制御装置（例えばプロセッサ）と少なくとも１つの記憶装置（例えばメモリ）を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。

【0098】

上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、１または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。

【0099】

また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。

【0100】

また、上記各実施形態で説明した各処理は、ＡＩ（Artificial Intelligence：人工知能）に実行させてもよい。この場合、ＡＩは上記制御装置で動作するものであってもよいし、他の装置（例えばエッジコンピュータまたはクラウドサーバ等）で動作するものであってもよい。

【0101】

〔まとめ〕
本発明の態様１に係るコンテンツ再生装置は、ユーザからの音声の認識を行う音声認識部と、コンテンツの録音及び再生を行う記録再生部と、を備え、前記記録再生部は、ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する。

【0102】

上記の構成によれば、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることができる。

【0103】

本発明の態様２に係るコンテンツ再生装置は、上記態様１において、前記記録再生部は、前記ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止すると共に、前記コンテンツの音声の録音を開始し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データの出力を再開してもよい。

【0104】

本発明の態様３に係るコンテンツ再生装置は、上記態様２において、前記記録再生部は、前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を停止すると共に、前記コンテンツの映像の録画を開始し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開してもよい。

【0105】

本発明の態様４に係るコンテンツ再生装置は、上記態様１から３の何れにおいて、前記記録再生部は、前記ユーザからの音声に含まれるウェイクワードの認識を契機として、前記コンテンツの音データの出力を停止してもよい。

【0106】

本発明の態様５に係るコンテンツ再生装置は、上記態様２から４の何れにおいて、前記記録再生部は、前記音声認識部による音声認識処理の前に前記コンテンツの音声の録音と映像の録画とを開始し、前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を一時停止し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開してもよい。

【0107】

本発明の態様６に係るコンテンツ再生装置は、上記態様３から５の何れにおいて、前記記録再生部は、前記音声認識部による音声認識処理の前に前記コンテンツの映像の録画を開始させ、前記ユーザからの音声入力を契機として、前記コンテンツの音声データ及び映像データの出力を一時停止させ、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開し、前記ユーザからの音声入力がない場合、録画を停止し、かつ録画した前記コンテンツの映像を消去してもよい。

【0108】

本発明の態様７に係るコンテンツ再生装置は、上記態様３において、前記記録再生部は、前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を停止すると共に、前記コンテンツの映像の録画を開始し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記コンテンツの映像の録画を停止し、前記コンテンツの放送が終了後に当該音データ及び映像データの出力を再開してもよい。

【0109】

本発明の態様８に係るコンテンツ再生方法は、ユーザからの音声の認識を行う音声認識工程と、コンテンツの録音及び再生を行う記録再生工程と、を含むコンテンツ再生方法であって、前記記録再生工程においては、ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、前記音声認識工程における音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する。

【0110】

上記の構成によれば、態様１と同様な効果を奏する。

【0111】

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

【符号の説明】

【0112】

１コンテンツ再生装置（テレビジョン受像機）
１０記録再生部
１１選択部
１２デコード部
１３表示部
１３Ａユーザ提示内容領域
１３Ｂ認識用音声内容領域
１４音声認識部
１５エコーキャンセル部
１６音処理部
１７マイク
１８スピーカー

【図1】