IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シャープ株式会社の特許一覧

特開2022-185853コンテンツ再生装置、コンテンツ再生方法、及びプログラム
<>
  • 特開-コンテンツ再生装置、コンテンツ再生方法、及びプログラム 図1
  • 特開-コンテンツ再生装置、コンテンツ再生方法、及びプログラム 図2
  • 特開-コンテンツ再生装置、コンテンツ再生方法、及びプログラム 図3
  • 特開-コンテンツ再生装置、コンテンツ再生方法、及びプログラム 図4
  • 特開-コンテンツ再生装置、コンテンツ再生方法、及びプログラム 図5
  • 特開-コンテンツ再生装置、コンテンツ再生方法、及びプログラム 図6
  • 特開-コンテンツ再生装置、コンテンツ再生方法、及びプログラム 図7
  • 特開-コンテンツ再生装置、コンテンツ再生方法、及びプログラム 図8
  • 特開-コンテンツ再生装置、コンテンツ再生方法、及びプログラム 図9
  • 特開-コンテンツ再生装置、コンテンツ再生方法、及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022185853
(43)【公開日】2022-12-15
(54)【発明の名称】コンテンツ再生装置、コンテンツ再生方法、及びプログラム
(51)【国際特許分類】
   G10L 15/00 20130101AFI20221208BHJP
   G10L 15/10 20060101ALI20221208BHJP
   G10L 15/28 20130101ALI20221208BHJP
   H04N 5/93 20060101ALI20221208BHJP
   G11B 20/10 20060101ALI20221208BHJP
   G06F 3/16 20060101ALI20221208BHJP
【FI】
G10L15/00 200G
G10L15/10 200W
G10L15/28 230K
H04N5/93
G11B20/10 321Z
G06F3/16 650
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021093741
(22)【出願日】2021-06-03
(71)【出願人】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】特許業務法人HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】関口 裕也
【テーマコード(参考)】
5C053
5D044
【Fターム(参考)】
5C053GB06
5C053GB11
5C053HA21
5C053JA21
5C053LA11
5D044AB05
5D044FG23
5D044GK11
(57)【要約】
【課題】音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることができる。
【解決手段】コンテンツ再生装置は、ユーザからの音声の認識を行う音声認識部と、コンテンツの録音及び再生を行う記録再生部と、を備え、前記記録再生部は、ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する。
【選択図】図1
【特許請求の範囲】
【請求項1】
ユーザからの音声の認識を行う音声認識部と、
コンテンツの録音及び再生を行う記録再生部と、
を備え、
前記記録再生部は、
ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、
前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する
ことを特徴とするコンテンツ再生装置。
【請求項2】
前記記録再生部は、
前記ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止すると共に、前記コンテンツの音声の録音を開始し、
前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データの出力を再開する
ことを特徴とする請求項1に記載のコンテンツ再生装置。
【請求項3】
前記記録再生部は、
前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を停止すると共に、前記コンテンツの映像の録画を開始し、
前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開する
ことを特徴とする請求項2に記載のコンテンツ再生装置。
【請求項4】
前記記録再生部は、
前記ユーザからの音声に含まれるウェイクワードの認識を契機として、前記コンテンツの音データの出力を停止する
ことを特徴とする請求項1から3の何れか1項に記載のコンテンツ再生装置。
【請求項5】
前記記録再生部は、
前記音声認識部による音声認識処理の前に前記コンテンツの音声の録音と映像の録画とを開始し、
前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を一時停止し、
前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開する
ことを特徴とする請求項2から4の何れか1項に記載のコンテンツ再生装置。
【請求項6】
前記記録再生部は、
前記音声認識部による音声認識処理の前に前記コンテンツの映像の録画を開始させ、
前記ユーザからの音声入力を契機として、前記コンテンツの音声データ及び映像データの出力を一時停止させ、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開し、
前記ユーザからの音声入力がない場合、録画を停止し、かつ録画した前記コンテンツの映像を消去する
ことを特徴とする請求項3から5の何れか1項に記載のコンテンツ再生装置。
【請求項7】
前記記録再生部は、
前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を停止すると共に、前記コンテンツの映像の録画を開始し、
前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記コンテンツの映像の録画を停止し、
前記コンテンツの放送が終了後に当該音データ及び映像データの出力を再開する
ことを特徴とする請求項3に記載のコンテンツ再生装置。
【請求項8】
ユーザからの音声の認識を行う音声認識工程と、
コンテンツの録音及び再生を行う記録再生工程と、
を含むコンテンツ再生方法であって、
前記記録再生工程においては、
ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、
前記音声認識工程における音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する
ことを特徴とするコンテンツ再生方法。
【請求項9】
請求項1に記載のコンテンツ再生装置としてコンピュータを機能させるためのプログラムであって、前記音声認識部、および前記記録再生部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ再生装置、コンテンツ再生方法、及びプログラムに関する。
【背景技術】
【0002】
従来、音声認識により操作するテレビジョン装置が知られている。当該テレビジョン装置において、ユーザによる音声認識開始の指示の入力を受けてから、音声認識処理が終わるまでの間、出力音量の設定値を一時的に閾値以下の値に変更する(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2012-181374号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述の従来技術は、音声認識している場合、音量低下するので、ユーザが放送の内容を理解しづらいという問題がある。
【0005】
本発明の一態様は、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることのできる技術を実現することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明の一態様に係るコンテンツ再生装置は、ユーザからの音声の認識を行う音声認識部と、コンテンツの録音及び再生を行う記録再生部と、を備え、前記記録再生部は、ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する。
【0007】
上記の課題を解決するために、本発明の一態様に係るコンテンツ再生方法は、ユーザからの音声の認識を行う音声認識工程と、コンテンツの録音及び再生を行う記録再生工程と、を含むコンテンツ再生方法であって、前記記録再生工程においては、ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、前記音声認識工程における音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する。
【発明の効果】
【0008】
本発明の一態様によれば、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることができる。
【図面の簡単な説明】
【0009】
図1】本発明の実施形態1に係るコンテンツ再生装置の要部構成を示すブロック図である。
図2図1に示すコンテンツ再生装置の一例であるテレビジョン受像機を示す模式図である。
図3図1に示すコンテンツ再生装置による処理例1を説明するための図である。
図4図1に示すコンテンツ再生装置による処理例1を示すフローチャートである。
図5図1に示すコンテンツ再生装置による処理例2を示すフローチャートである。
図6図1に示すコンテンツ再生装置による処理例3を説明するための図である。
図7】本発明の実施形態2に係るコンテンツ再生装置による処理例4を示すフローチャートである。
図8】本発明の実施形態3に係るコンテンツ再生装置による処理例5を示すフローチャートである。
図9】本発明の実施形態4に係るコンテンツ再生装置による処理例6を示すフローチャートである。
図10】本発明の実施形態5に係るコンテンツ再生装置による処理例7を示すフローチャートである。
【発明を実施するための形態】
【0010】
〔実施形態1〕
以下、本発明の一実施形態について、図1図6を参照しながら詳細に説明する。図1は、本実施形態に係るコンテンツ再生装置1の要部構成を示すブロック図である。図2は、図1に示すコンテンツ再生装置1の一例であるテレビジョン受像機1を示す模式図である。
【0011】
〔コンテンツ再生装置1の構成〕
図1に示すように、コンテンツ再生装置1は、記録再生部10と、選択部11と、デコード部12と、表示部13と、音声認識部14と、エコーキャンセル部15と、音処理部16と、マイク17と、スピーカー18とを備えている。
【0012】
記録再生部10は、例えばコンテンツ再生装置1が受信する放送コンテンツデータに含まれるコンテンツの録音・録画及び再生を行う。記録再生部10からのデータは、選択部11に供給する。以下、録音と録画とを合わせて記録と記載する場合がある。このように、本実施形態において、図1に示すように、コンテンツデータが直接選択部11に供給する、または記録再生部10を介して選択部11に供給する。
【0013】
選択部11は、音声認識部14からの信号に基づき、直接のコンテンツデータと記録再生部10からのデータとのうち、何れかを選択し、選択したデータをデコード部12に供給する。
【0014】
選択部11は、一旦、記録再生部10からのデータを選択すると、その後は、当該コンテンツが終了するまで、記録再生部10からのデータを選択し続ける。
【0015】
デコード部12は、選択部11によりデコード部12に供給されたコンテンツデータを、デジタル信号例えば映像データ(映像信号)と音データ(音信号)とに変換する。当該映像データが表示部13に供給され、当該音データが音処理部16に供給される。
【0016】
表示部13は、例えば液晶ディスプレイ、または有機ELディスプレイなどのディスプレイデバイスであり、図示しない表示制御部の制御に基づいてコンテンツ再生装置1の表示画面に映像を表示する。
【0017】
音処理部16は、入力される音データに対して、音調整処理を行う。例えば、音処理部16では、後述するスピーカー18の特性およびユーザが設定した音モード(例えば、映画モード、ダイナミックモード等)に合わせて、音調整処理を行う。音処理部16による音調整処理が施された音データは、スピーカー18およびエコーキャンセル部15に供給される。
【0018】
スピーカー18は、音処理部16による音調整処理が施された音データを、アナログ信号に復号して出力する。
【0019】
マイク17は、ユーザからの音声と背景音とを含む音信号を取得する。ここで、スピーカー18から音が出力されている場合には、当該背景音に、スピーカー18から出力されている音が含まれる。
【0020】
エコーキャンセル部15は、マイク17が取得した音信号が示す音から、音処理部16による音調整処理が施された音データが示す音を取り除く処理(以下では、エコーキャンセル処理とも呼ぶ)を行う。このエコーキャンセル処理により、マイク17が取得した音信号が示す音から、ユーザの音声を主として含む音声データを抽出することができる。エコーキャンセル処理によって得られた音声データ(エコーキャンセル処理が施された音声データとも呼ぶ)は、音声認識部14に供給される。
【0021】
ここで、本明細書において「音声データ」とは、一例として、人の声を表すデータ、又は人の声を主として含む音データのことを指す。
【0022】
一方、「音データ」とは、一例として、必ずしも音声データを含むとは限らないより一般的な音を示すデータのことを指す。
【0023】
音声認識部14は、エコーキャンセル処理が施された音声データに基づいて、コンテンツ再生装置1の制御のための音声認識を行う。例えば、予め特定の音声コマンド(音声認識結果)と対応づけられた操作コマンドをコンテンツ再生装置1の動作制御部(図示せず)に供給する。動作制御部では、コンテンツ再生装置1のチャンネル切替え、音量の変更、入力の切替え、および画面モードの切替えなどの操作を行う。図1において、音声認識部14によりユーザからの音声入力を検知した場合、その旨を示す信号を記録再生部10および選択部11に供給する。
【0024】
そして、記録再生部10は、前記ユーザからの音声入力を契機として、コンテンツデータに含まれる音データの出力を停止する。そして、記録再生部10は、ユーザからの音声入力を契機として録音を開始する。そして、記録再生部10は、音声認識部14による音声認識処理の終了後、又はユーザからの音声入力の終了後に、当該音データの出力を再開する。
【0025】
録音の開始処理には時間が若干かかるので、実際に録音される音声データは音声データの出力を停止した点から少し後になっていてもよい。例えば時刻21時23分30秒に音声データの出力を停止したとして、実際に録音される音声データは21時23分33秒からの音声が録音されていてよい。また、出力の再開処理には時間が若干かかるので、実際に出力される音声は音声データの先頭から少し後になっていてもよい。21時23分33秒からの音声が録音されている音声データを出力再開した際、実際に出力される音声は21時23分34秒からの音声が出力されてもよい。
【0026】
再開のタイミングは、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点である。
【0027】
上記例の「出力を停止した点」は21時23分30秒であり、「所定の範囲」は基準から前後10秒以内であってよく、「出力を停止した点から所定の範囲内の点」は、21時23分20秒から21時23分40秒までの20秒間のうちのどこかの点であってよい。
【0028】
また、ここでいう「記録再生部10は、音声認識部14による音声認識処理の終了、又はユーザからの音声入力の終了後に、当該音データの出力を再開する」という処理には、「記録再生部10は、音声認識部14による音声認識処理の終了、又はユーザからの音声入力の終了を契機として、当該音データの出力を再開する」という処理が含まれる。
【0029】
なお、「Aを契機として、Bを行う」との表現は、Bを行うための条件の一つとしてAという契機が存在していることを表す表現であり、それ以上の限定を招来するものではない。また、「Aを契機として、Bを行う」との表現は、Bを行うことがAよりも時間的に後になることを表しているが、それ以上の時間的限定を招来するものではない。
【0030】
また、ここでいう「音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点」は、音データにおける時系列上の点で、前記出力を停止した点から所定の時間を遡った時点から前記出力を停止した点から所定の時間を経過した時点までの範囲に含まれる時点を指す。
【0031】
上記の構成によれば、記録再生部10は、音声認識部14による音声認識処理の終了後、又はユーザからの音声入力の終了後に、当該音データの出力を再開するので、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることのできる技術を実現することができる。
【0032】
〔コンテンツの音データの出力を停止する契機〕
以下、記録再生部10によるコンテンツの音データの出力を停止する契機について説明する。コンテンツの音データの出力を停止するには、音声認識部14によるユーザからの音声に含まれるウェイクワードの認識を契機としてもよい。また、本実施形態において、上述したように、音声認識部14による音声認識処理の開始も当該ウェイクワードの認識を契機としてもよい。
【0033】
ウェイクワードの例として、例えばコンテンツ再生装置1に予め設定された「ハロー アクオス」(「アクオス」はシャープ株式会社の登録商標)などであってもよい。もちろん、上記のウェイクワードは上述の3つの例に限定されず、例えば後述する「今日の天気は?」のように、ユーザが自由に設定してもよい。また、ユーザが発声する任意の音声、または当該音声における最初の音をウェイクワードとして認識する構成としてもよい。
【0034】
音声認識部14は、これらのウェイクワードを検出すると、その旨を示す信号を記録再生部10および選択部11に供給する。そして、記録再生部10は、コンテンツデータに含まれる音データの出力を停止し、録音・録画を開始する。選択部11は、記録再生部10からのデータを選択し、選択したデータをデコード部12に供給する。
【0035】
ここでは、音声認識部14は、予め設定したウェイクワードを検出すると、記録再生部10は、コンテンツの音データの出力を適切に停止することができる。この結果、後続の音声認識処理、録音・録画処理がスムーズに開始できる。
【0036】
〔コンテンツ再生装置1による処理例1〕
図3は、図1に示すコンテンツ再生装置1による処理例1を説明するための図である。図3の一番左側の図は、音声認識前の様子を示す図である。この一番左側の図において、コンテンツ再生装置1の表示部13にある人物が映り、「こんにちは」という音声を発している様子を示す。そして、コンテンツ再生装置1を視聴しているユーザは、当該ある人物の映像を視認すると共に、当該ある人物による「こんにちは」という音声を聞くことができる。
【0037】
図3の中段の図は、音声認識開始後の音声認識中の様子を示す図である。この中段の図において、音声認識部14によりユーザからの「今日の天気は?」という音声を検知した場合の処理を示している。
【0038】
まず、上述のように、音声認識部14は、ユーザから「今日の天気は?」という音声を検知した旨の信号を記録再生部10および選択部11に供給する。そして、選択部11は、記録再生部10からのデータを選択し、選択したデータをデコード部12に供給する。それとともに、記録再生部10は、前記ある人物からの「お元気ですか?」という音声の出力を停止する。そして、記録再生部10は、当該「お元気ですか?」という音声の録音と映像の録画とを開始させる。さらに、コンテンツ再生装置1は、表示部13のユーザ提示内容領域13Aに「録音・録画中」という旨のメッセージを表示してユーザに提示する。また、この中段の図において、符号13Bは、ユーザからの音声内容を示す認識用音声内容領域である。
【0039】
図3の一番右側の図は、音声認識・音声入力終了後の様子を示す図である。この一番右側の図において、音声認識部14によりユーザからの音声認識処理が終了、又はユーザからの音声入力が終了したと判断した場合の処理を示している。「音声認識処理が終了」とは、例えばユーザからの「今日の天気は?」を的確に認識したことを指す。「ユーザからの音声入力が終了」とは、例えばユーザからの「今日の天気は?」という音声を検知してから所定の時間が経過したことを指す。
【0040】
記録再生部10は、音声認識部14による音声認識処理の終了後、又はユーザからの音声入力の終了後に、記録した音データおよび映像データの出力を再開する。再開のタイミングは、上述のように、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点である。
【0041】
具体的には、この一番右側の図において、コンテンツ再生装置1の音量を元に戻し、録音した「お元気ですか?」と録画した映像とを再生、いわゆる追っかけ再生を行う。また、表示部13のユーザ提示内容領域13Aに「再生中」というメッセージを表示してユーザに提示してもよい。
【0042】
上記の構成によれば、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることができる。
【0043】
図4は、図1に示すコンテンツ再生装置1による処理例1を示すフローチャートである。図4に示すように、コンテンツ再生装置1が動作中、すなわち放送視聴スタートしたあと、ステップS40において、音声認識部14によりユーザからの音声入力があったか否かを検知する。
【0044】
そして、音声認識部14によりユーザからの音声入力、例えば上述の「今日の天気は?」があったと検知した場合(ステップS40:YES)、ステップS41において、音声認識部14によりユーザからの音声の認識を開始する。一方、音声認識部14によりユーザからの音声入力がなかったと検知した場合(ステップS40:NO)、フローチャートの最初に戻り、ユーザからの音声入力があるまで待機する。
【0045】
また、ステップS42において、記録再生部10により、コンテンツの音声出力を停止し、録音・録画、すなわち記録が開始する。そして、ステップS43において、音声認識部14により音声認識が終了、またはユーザからの音声入力が終了したと検知した場合、ステップS44において、コンテンツの音声出力を停止した点から所定の範囲内の点から当該音声・映像出力を再開する。
【0046】
図4に図示していないが、再生が終了後、通常の放送視聴をしてもよい。
【0047】
〔コンテンツ再生装置1による処理例2〕
図5は、図1に示すコンテンツ再生装置1による処理例2を示すフローチャートである。この処理例では、上述の処理例1との相違点は、追っかけ再生中に、再度、音声認識する場合を想定している。ここで、ステップS50からステップS54までの処理内容は、図4におけるステップS40からステップS44までの処理内容と同様のためその説明を省略し、異なる点を説明する。
【0048】
ステップS55において、音声認識部14によりユーザから再度の音声入力があったか否かを検知する。そして、音声認識部14によりユーザから再度の音声(ウェイクワード)入力があったと検知した場合(ステップS55:YES)、ステップS56において、音声認識部14によりユーザからの音声の認識処理を開始する。一方、音声認識部14によりユーザから再度の音声入力がなかったと検知した場合(ステップS55:NO)、ステップS55に戻り、ユーザから再度の音声入力があるまで再生をし続ける。
【0049】
また、ステップS57において、記録再生部10により、コンテンツの音声・映像出力の再生を一時停止する。そして、ステップS58において、音声認識部14により音声認識が終了、またはユーザからの音声入力が終了したと検知した場合、ステップS59において、コンテンツの音声・映像出力を一時停止した点から所定の範囲内の点から当該音声・映像出力の再生を再開する。
【0050】
図5にも図示していないが、再生が終了後、通常の放送視聴をしてもよい。
【0051】
上記の構成によっても、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることができる。
【0052】
〔コンテンツ再生装置1による処理例3〕
図6は、図1に示すコンテンツ再生装置による処理例3を説明するための図である。上述の処理例1と比較すると、ユーザに提示する提示内容が異なる。また、図3と同様に、図6の一番左側の図も、音声認識前の様子を示す図である。この一番左側の図において、コンテンツ再生装置1の表示部13にある人物が映り、「こんにちは」という音声を発している様子を示す。そして、コンテンツ再生装置1を視聴しているユーザは、当該ある人物の映像を視認すると共に、当該ある人物による「こんにちは」という音声を聞くことができる。
【0053】
図6の中段の図は、音声認識開始後の音声認識中の様子を示す図である。この中段の図において、音声認識部14によりユーザからの「今日の天気は?」という音声を検知した場合の処理を示している。
【0054】
まず、上述のように、音声認識部14は、ユーザから「今日の天気は?」という音声を検知した旨の信号を記録再生部10および選択部11に供給する。そして、選択部11は、選択部11は、記録再生部10からのデータを選択し、選択したデータをデコード部12に供給する。それとともに、記録再生部10は、前記ある人物からの「お元気ですか?」という音声の出力を停止する。そして、記録再生部10は、当該「お元気ですか?」という音声の録音と映像の録画とを開始させる。さらに、コンテンツ再生装置1は、表示部13のユーザ提示内容領域13Aに「音声認識中で、コンテンツの音声を停止し、録音中!」という旨のメッセージを表示してユーザに提示する。また、この中段の図において、符号13Bは、ユーザからの音声内容を示す認識用音声内容領域である。
【0055】
図6の一番右側の図は、音声認識・音声入力終了後の様子を示す図である。この一番右側の図において、音声認識部14によりユーザからの音声認識処理が終了、又はユーザからの音声入力が終了したと判断した場合の処理を示している。「音声認識処理が終了」とは、例えばユーザからの「今日の天気は?」を的確に認識したことを指す。「ユーザからの音声入力が終了」とは、例えばユーザからの「今日の天気は?」という音声を検知してから所定の時間が経過したことを指す。
【0056】
まず、記録再生部10は、音声認識部14による音声認識処理の終了後、又はユーザからの音声入力の終了後に、記録した音データおよび映像データの出力を再開する。再開のタイミングは、上述のように、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点である。
【0057】
具体的には、この一番右側の図において、録音した「お元気ですか?」と録画した映像とを再生する。さらに、表示部13のユーザ提示内容領域13Aに「音声認識終了、録音した音声を再生します!」というメッセージを表示してユーザに提示してもよい。
【0058】
上記の構成によれば、図3に示す処理例と比較すれば、コンテンツ再生装置1の現在状況をより明確にユーザに提示することができる。
【0059】
〔変形例〕
以下、本実施形態の変形例について説明する。本変形例において、コンテンツ再生装置1は、コンテンツの音データおよび映像データの出力を再開するか否かを制御する制御スイッチをさらに備えもよい。
【0060】
この場合、当該制御スイッチがオンの状態の場合、記録再生部10は、前記ユーザからの音声入力を契機として、前記コンテンツの音データ及び映像データの出力を停止すると共に、前記コンテンツの音声の録音と映像の録画とを開始する。
【0061】
そして、記録再生部10は、音声認識部14による音声認識処理の終了後、又はユーザからの音声入力の終了後に、当該音データ及び映像データの出力を再開してもよい。再開のタイミングは、上述のように、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点である。
【0062】
上記の構成によれば、制御スイッチにより、追っかけ再生機能は、オン・オフ設定でき、オフの場合は録音・録画を再生しない。この結果、コンテンツ再生装置1の利便性を向上できる。
【0063】
〔実施形態2〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
【0064】
実施形態1において、音声認識処理が開始してから録音・録画を開始する構成を説明したが、実施形態2において、音声認識処理が開始する前に録音・録画を開始する点で実施形態1と異なる。
【0065】
本実施形態について、図7に基づいて以下に説明する。図7は、本実施形態に係るコンテンツ再生装置1による処理例4を示すフローチャートである。図7に示すように、コンテンツ再生装置1が動作中、すなわち放送視聴スタートしたあと、ステップS70において、記録再生部10により、コンテンツの録音・録画が開始する。
【0066】
そして、ステップS71において、記録再生部10により、録音した音声と録画した映像との再生を開始する。そして、ステップS72において、音声認識部14によりユーザからの音声入力があったか否かを検知する。
【0067】
そして、音声認識部14によりユーザからの音声入力、例えば上述の「今日の天気は?」があったと検知した場合(ステップS72:YES)、ステップS73において、音声認識部14によりユーザからの音声の認識を開始する。一方、音声認識部14によりユーザからの音声入力がなかったと検知した場合(ステップS72:NO)、ステップS72に戻り、ユーザからの音声入力があるまで待機する。
【0068】
また、ステップS74において、記録再生部10により、コンテンツの音声・映像出力の再生を一時停止する。そして、ステップS75において、音声認識部14により音声認識が終了、またはユーザからの音声入力が終了したと検知した場合、ステップS76において、コンテンツの音声・映像出力を一時停止した点から所定の範囲内の点から当該音声・映像出力の再生を再開する。
【0069】
換言すれば、本実施形態において、記録再生部10は、音声認識部14による音声認識処理の前にコンテンツの音声の録音と映像の録画とを開始する。そして、記録再生部10は、ユーザからの音声入力を契機として、前記コンテンツの音データおよび映像データの出力を一時停止する。最後に、記録再生部10は、音声認識部14による音声認識処理の終了後又はユーザからの音声入力の終了後に、所定の範囲内の点から当該音データ及び映像データの出力を再開する。
【0070】
当該音声・映像出力の再開は、コンテンツの音声・映像出力を一時停止した点から所定の範囲内の点であればよく、この範囲内の点であれば一時停止した点から時間を少しさかのぼって再開してよい。
【0071】
例えば時刻21時23分30秒にコンテンツの音声・映像出力を一時停止したとして、10秒さかのぼり、時刻21時23分20秒からの音データ及び映像データを出力再開してよい。
【0072】
さかのぼることによって一時停止する前に視聴していたコンテンツを、再開したあと少し重複して視聴することになるが、これによりコンテンツの音声・映像出力を一時停止する前のストーリーを思い出すのに役立つ。
【0073】
図7にも図示していないが、再生が終了後、通常の放送視聴をしてもよい。
【0074】
上記の構成によれば、音声認識処理が開始する前に録音・録画を開始するので、タイムラグによる頭切れは発生しなくなる。
【0075】
〔実施形態3〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
【0076】
実施形態3において、録音・録画したコンテンツを消去する点で上記実施形態と異なる。
【0077】
〔録画用デバイス〕
以下、録画用デバイスについて説明する。上述したように、本願の課題は「放送の内容が理解しづらい」であるため、再生は1度だけでも課題を十分解決することが出来る。よって、通常の録画(すなわち、コンテンツを保管し、何度も見直すこともある)とは異なり、一度再生すれば消去してもよいため、コンテンツ再生装置1の保存領域は少なくても良い。
【0078】
そこで、通常の録画で良く用いられる大容量のHDDではなく、ユーザ領域のストレージを録画用のデバイスとして用いるか、あるいは低容量のUSBメモリを録画用のデバイスとして用いることで、容易にかつ、通常の録画等を邪魔することなく、本願の課題を解決することが出来る。ユーザ領域のストレージを録画用のデバイスとして用いる場合、近年のテレビジョン受像機では、eMMCといったNANDフラッシュデバイスが、よく用いられる。
【0079】
以下、本実施形態について、図8に基づいて続けて説明する。図8は、本実施形態に係るコンテンツ再生装置による処理例5を示すフローチャートである。図8に示すように、ステップS80からステップS84までの処理内容は、図4におけるステップS40からステップS44までの処理内容と同様のためその説明を省略し、異なる点を説明する。
【0080】
ステップS85において、ユーザが視聴している番組が終了した場合、ステップS86において、記録再生部10による記録を停止する。そして、ステップS87において、記録再生部10による再生を停止する。最後に、ステップS88において、録音・録画したコンテンツを消去する。
【0081】
上記の構成によれば、上述のように、本願の録画は、通常の録画とは異なり、一度再生すれば消去してもよいため、コンテンツ再生装置1の保存領域は少なくても良い。
【0082】
〔実施形態4〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
【0083】
実施形態4において、コンテンツ再生装置1の容量不足にならないよう、録音・録画したコンテンツをこまめに消去する点で上記実施形態と異なる。
【0084】
本実施形態について、図9に基づいて以下に説明する。図9は、本実施形態に係るコンテンツ再生装置による処理例6を示すフローチャートである。図9に示すように、コンテンツ再生装置1が動作中、すなわち放送視聴スタートしたあと、ステップS90において、記録再生部10により、コンテンツの録音・録画が開始する。
【0085】
そして、ステップS91において、音声認識部14によりユーザからの音声入力があったか否かを検知する。
【0086】
音声認識部14によりユーザからの音声入力、例えば上述の「今日の天気は?」があったと検知した場合(ステップS91:YES)、ステップS92において、記録再生部10により、コンテンツの音声出力を停止し、録音・録画が開始する。そして、ステップS93において、音声認識部14により音声認識が終了、またはユーザからの音声入力が終了したと検知した場合、ステップS94において、記録再生部10は、コンテンツの音声出力を停止した点から所定の範囲内の点から当該音声・映像出力を再開する。
【0087】
一方、音声認識部14によりユーザからの音声入力がなかったと検知した場合(ステップS91:NO)、ステップS95において、録音・録画を停止したうえ記録再生部10により記録したコンテンツを消去する。そして、ステップS90に戻る。
【0088】
換言すれば、本実施形態において、記録再生部10は、音声認識部14による音声認識処理の前に前記コンテンツの映像の録画を開始させ、ユーザからの音声入力を契機として、コンテンツの音データ及び映像データの出力を一時停止させる。そして、記録再生部10は、音声認識部14による音声認識処理の終了後又はユーザからの音声入力の終了後に、前記所定の範囲内の点から当該音データ及び映像データの出力を再開する。コンテンツ再生装置1は、前記ユーザからの音声入力がない場合、録音・録画を停止し、かつ録音・録画した前記コンテンツの映像を消去する。
【0089】
実施形態3に記載の通り、本願の録画は、通常の録画とは目的が異なるため、容量不足にならないように、こまめに消去しても良い。この結果、コンテンツ再生装置1の保存領域は少なくても良い。
【0090】
〔実施形態5〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
【0091】
実施形態1において、番組(コンテンツ)の終了後に、録音・録画したコンテンツをまとめて再生する点で上記実施形態と異なる。
【0092】
本実施形態について、図10に基づいて以下に説明する。図10は、本実施形態に係るコンテンツ再生装置による処理例7を示すフローチャートである。図10に示すように、ステップS100からステップS103までの処理内容は、図4におけるステップS40からステップS43までの処理内容と同様のためその説明を省略し、異なる点を説明する。
【0093】
ステップS104において、記録再生部10による録音・録画を停止する。そして、ステップS105において、番組が終了した場合、ステップS106において、記録再生部10により記録したコンテンツの再生を開始する。そして、ステップS107において、コンテンツの再生が終了した場合、ステップS108において、記録再生部10により記録したコンテンツを消去する。
【0094】
換言すれば、本実施形態において、記録再生部10は、ユーザからの音声入力を契機として、コンテンツの音データおよび映像データの出力を停止すると共に、前記コンテンツの音の録音と映像の録画とを開始する。そして、記録再生部10は、音声認識部14による音声認識処理の終了後又はユーザからの音声入力の終了後に、前記コンテンツの音の録音と映像の録画を停止する。最後に、記録再生部10は、前記コンテンツの放送が終了後に当該音データ及び映像データの出力を再開する。
【0095】
上記の構成によれば、見逃し部のみ録画、番組終了後にまとめて再生するため、コンテンツ再生装置1の保存容量を節約することができる。この場合、音声認識部14による音声認識中のみ録音・録画を行う。
【0096】
〔ソフトウェアによる実現例〕
コンテンツ再生装置(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に音声認識部及び記録再生部に含まれる各部)としてコンピュータを機能させるためのプログラムにより実現することができる。
【0097】
この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
【0098】
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。
【0099】
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
【0100】
また、上記各実施形態で説明した各処理は、AI(Artificial Intelligence:人工知能)に実行させてもよい。この場合、AIは上記制御装置で動作するものであってもよいし、他の装置(例えばエッジコンピュータまたはクラウドサーバ等)で動作するものであってもよい。
【0101】
〔まとめ〕
本発明の態様1に係るコンテンツ再生装置は、ユーザからの音声の認識を行う音声認識部と、コンテンツの録音及び再生を行う記録再生部と、を備え、前記記録再生部は、ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する。
【0102】
上記の構成によれば、音声認識機能を有しつつ、ユーザが放送の内容を理解しやすくすることができる。
【0103】
本発明の態様2に係るコンテンツ再生装置は、上記態様1において、前記記録再生部は、前記ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止すると共に、前記コンテンツの音声の録音を開始し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データの出力を再開してもよい。
【0104】
本発明の態様3に係るコンテンツ再生装置は、上記態様2において、前記記録再生部は、前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を停止すると共に、前記コンテンツの映像の録画を開始し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開してもよい。
【0105】
本発明の態様4に係るコンテンツ再生装置は、上記態様1から3の何れにおいて、前記記録再生部は、前記ユーザからの音声に含まれるウェイクワードの認識を契機として、前記コンテンツの音データの出力を停止してもよい。
【0106】
本発明の態様5に係るコンテンツ再生装置は、上記態様2から4の何れにおいて、前記記録再生部は、前記音声認識部による音声認識処理の前に前記コンテンツの音声の録音と映像の録画とを開始し、前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を一時停止し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開してもよい。
【0107】
本発明の態様6に係るコンテンツ再生装置は、上記態様3から5の何れにおいて、前記記録再生部は、前記音声認識部による音声認識処理の前に前記コンテンツの映像の録画を開始させ、前記ユーザからの音声入力を契機として、前記コンテンツの音声データ及び映像データの出力を一時停止させ、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記所定の範囲内の点から当該音データ及び映像データの出力を再開し、前記ユーザからの音声入力がない場合、録画を停止し、かつ録画した前記コンテンツの映像を消去してもよい。
【0108】
本発明の態様7に係るコンテンツ再生装置は、上記態様3において、前記記録再生部は、前記ユーザからの音声入力を契機として、前記コンテンツの映像データの出力を停止すると共に、前記コンテンツの映像の録画を開始し、前記音声認識部による音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記コンテンツの映像の録画を停止し、前記コンテンツの放送が終了後に当該音データ及び映像データの出力を再開してもよい。
【0109】
本発明の態様8に係るコンテンツ再生方法は、ユーザからの音声の認識を行う音声認識工程と、コンテンツの録音及び再生を行う記録再生工程と、を含むコンテンツ再生方法であって、前記記録再生工程においては、ユーザからの音声入力を契機として、前記コンテンツの音データの出力を停止し、前記音声認識工程における音声認識処理の終了又はユーザからの音声入力の終了を契機として、前記音データにおける時系列上の点であって、前記出力を停止した点から所定の範囲内の点から当該音データの出力を再開する。
【0110】
上記の構成によれば、態様1と同様な効果を奏する。
【0111】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
【符号の説明】
【0112】
1 コンテンツ再生装置(テレビジョン受像機)
10 記録再生部
11 選択部
12 デコード部
13 表示部
13A ユーザ提示内容領域
13B 認識用音声内容領域
14 音声認識部
15 エコーキャンセル部
16 音処理部
17 マイク
18 スピーカー
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10