(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-14
(45)【発行日】2023-07-25
(54)【発明の名称】制御信号生成回路、受信装置、システム、生成方法、およびプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20230718BHJP
G10L 15/00 20130101ALI20230718BHJP
G11B 27/10 20060101ALI20230718BHJP
G11B 20/10 20060101ALI20230718BHJP
G06F 3/16 20060101ALI20230718BHJP
【FI】
G10L15/22 453
G10L15/00 200G
G11B27/10 A
G11B20/10 301Z
G06F3/16 630
(21)【出願番号】P 2020118464
(22)【出願日】2020-07-09
【審査請求日】2022-02-18
(73)【特許権者】
【識別番号】000214984
【氏名又は名称】TVS REGZA株式会社
(74)【代理人】
【識別番号】110001737
【氏名又は名称】弁理士法人スズエ国際特許事務所
(72)【発明者】
【氏名】松原 伸三
【審査官】中村 天真
(56)【参考文献】
【文献】特表2005-513560(JP,A)
【文献】特開2013-141237(JP,A)
【文献】特開2008-302146(JP,A)
【文献】特開2001-175281(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/16
G10L 15/00-15/34
G11B 20/10-20/16
27/10-27/34
H04N 5/76- 5/956
7/10- 7/56
(57)【特許請求の範囲】
【請求項1】
ユーザの発話する音声コマンドを音声認識して得たコマンドに基づいて制御対象を動作させるための制御信号を生成する制御信号生成回路において、
少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドとに基づいて制御信号を生成する制御信号生成回路
であって、
前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声認識による処理時間を含み、
前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、
前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、
前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである制御信号生成回路。
【請求項2】
前記制御信号には、前記時間移動量と前記制御遅延時間との和または差の値を含める請求項
1に記載の制御信号生成回路。
【請求項3】
前記時間移動コマンドは、前記再生記録装置が出力するチャプタを視聴中のユーザが、前記時間移動量で指定したチャプタ数だけ未来または過去のチャプタの先頭からコンテンツデータを出力させるコマンドである請求項
1に記載の制御信号生成回路。
【請求項4】
前記制御信号には、前記時間移動量と前記制御遅延時間の値とを含める請求項
3に記載の制御信号生成回路。
【請求項5】
デジタルコンテンツを受信する受信手段と、
ユーザに前記デジタルコンテンツを提示する提示手段と、
ユーザの発話する音声コマンドを受波する音声集音手段と、
前記音声コマンドを音声認識してコマンドを得る音声認識手段と、
前記コマンドに基づいて制御対象を動作させるための制御信号を生成する制御信号生成手段とを備えた受信装置において、
前記制御信号生成手段は、少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドとに基づいて制御信号を生成
し、
前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声認識による処理時間を含み、
前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、
前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、
前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである受信装置。
【請求項6】
デジタルコンテンツを受信する受信手段と、
ユーザに前記デジタルコンテンツを提示する提示手段と、
ユーザの発話する音声コマンドを受波する音声集音手段と、
前記音声コマンドをデジタル音声データとして出力し、コマンドデータを受信する通信手段と、
前記コマンドデータに基づいて制御対象を動作させるための制御信号を生成する制御信号生成手段とを備えた受信装置において、
前記制御信号生成手段は、少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドデータとに基づいて制御信号を生成
し、
前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声コマンドに対する音声認識による処理時間を含み、
前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、
前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、
前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである受信装置。
【請求項7】
デジタルコンテンツを受信する受信手段と、
ユーザに前記デジタルコンテンツを提示する提示手段と、
ユーザの発話する音声コマンドを受波する音声集音手段と、
前記音声コマンドをデジタル音声データとして出力し、コマンドデータを受信する通信手段と、
前記コマンドデータに基づいて制御対象を動作させるための制御信号を生成する制御信号生成手段とを備えた受信装置において、
前記制御信号生成手段は、少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドデータとに基づいて制御信号を生成
し、前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記デジタル音声データに対する音声認識による処理時間を含み、前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである受信装置と、
前記受信装置から前記デジタル音声データを受信し、前記デジタル音声データを
前記音声認識および言語認識によって前記コマンドデータを取得して出力する認識サーバと、
前記制御対象である映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置とを具備したシステム。
【請求項8】
ユーザの発話する音声コマンドを音声認識して得たコマンドに基づいて制御対象を動作させるための制御信号を生成する制御信号の生成方法において、
少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドとに基づいて制御信号を生成
し、前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声認識による処理時間を含み、前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである制御信号の生成方法。
【請求項9】
コンピュータが、ユーザの発話する音声コマンドを音声認識して得たコマンドに基づいて制御対象を動作させるための制御信号を生成するプログラムであって、
少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドとに基づいて制御信号を生成する手順を備え、
前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声認識による処理時間を含み、
前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、
前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、
前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである前記手順を前記コンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、制御信号生成回路、受信装置、システム、生成方法、およびプログラムに関する。
【背景技術】
【0002】
近年、音声認識技術を利用して、人が発した音声により遠隔制御ができる家電などの装置が普及している。音声認識による制御によって、電源オンオフなど装置の状態を変える制御の他、装置の動作タイミングなどの制御もできる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、装置の動作タイミングのような時間に係る機能を音声認識で制御する場合、ユーザの発した音声コマンドが音声認識され、制御対象の装置にコマンドが到達して制御が実行されるまでに要する時間(制御遅延)が影響する可能性がある。例えば、HDDレコーダなどに記録した映像の再生において、現在視聴している時点から30秒先の時点に再生箇所を移動させる「30秒スキップ」といったコマンドを用いる場合に、制御遅延が大きいとユーザが期待した制御にならない場合がある。
【0005】
本発明が解決しようとする課題は、音声認識制御における制御遅延の影響を低減する制御信号生成回路、受信装置、システム、生成方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
一実施形態に係る制御信号生成回路は、ユーザの発話する音声コマンドを音声認識して得たコマンドに基づいて制御対象を動作させるための制御信号を生成する制御信号生成回路において、少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドとに基づいて制御信号を生成する制御信号生成回路であって、前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声認識による処理時間を含み、前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである。
【図面の簡単な説明】
【0007】
【
図1】
図1は、実施形態に係るシステムの構成例を示す機能ブロック図である。
【
図2】
図2は、実施形態に係るテレビ受信装置の構成例を示す機能ブロック図である。
【
図3】
図3は、実施形態に係る音声コマンド処理部の構成例を示す機能ブロック図である。
【
図4】
図4は、実施形態に係る再生記録装置の機能構成例を示すブロック図である。
【
図5】
図5は、第1の実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートである。
【
図6】
図6は、同実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。
【
図7】
図7は、同実施形態に係る再生記録装置の処理動作例を示すフローチャートである。
【
図8】
図8は、第2の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。
【
図9】
図9は、同実施形態に係る再生記録装置の処理動作例を示すフローチャートである。
【
図10】
図10は、同実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。
【
図11】
図11は、第3の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。
【
図12】
図12は、実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートである。
【
図13】
図13は、第4の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。
【
図14】
図14は、同実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートである。
【発明を実施するための形態】
【0008】
以下、実施の形態について図面を参照して説明する。
【0009】
図1は、実施形態に係るシステムの構成例を示す機能ブロック図である。
【0010】
テレビ受信装置1は、デジタルコンテンツを視聴するための受信装置であり、例えば、2Kまたは4K/8Kといった地上波放送、衛星放送などのデジタル放送を受信し視聴可能なテレビの受信装置(テレビ装置、テレビジョン受信装置、放送信号受信装置とも称される)である。本実施形態におけるテレビ受信装置1は録画再生機能を有しており、テレビ受信装置1にて受信したデジタルコンテンツを録画したり再生したりすることができる。再生記録装置を外部に接続することで、テレビ受信装置1がデジタルコンテンツの録画再生を可能とすることでもよい。
【0011】
また、テレビ受信装置1は音声認識技術を用いた制御が可能である。例えば、ユーザ7が音声によりコマンドを発すると、音声はテレビ受信装置1のマイクロフォン(以降、マイクと称する)など音声集音機能により受波され、音声認識技術によりコマンドが取り出され、取り出されたコマンドによりテレビ受信装置1の各種機能が制御される。また、本実施形態におけるテレビ受信装置1は、リモートコントローラ(以降、リモコンと称する)からの制御も可能である。具体的には、電源のオンオフなど通常のリモコン機能の他、例えばユーザ7の音声をリモコンに付属のマイクが受波し、リモコンがテレビ受信装置1に音声データとしてユーザ7の音声を送信する。テレビ受信装置1は、受信した音声データから、例えば音声認識技術によりコマンドを取り出し、テレビ受信装置1の各種機能を制御する。本実施形態におけるテレビ受信装置1は、取り出したコマンドに基づいて生成した制御信号を、再生記録装置2へ出力し、再生記録装置2を制御する。
【0012】
また、テレビ受信装置1は、例えばインターネットなどのネットワーク5に接続するための通信機能を備え、ネットワークに接続される各種サーバ(クラウド上のサーバでもよい)とデータのやり取りをすることが可能である。
【0013】
再生記録装置2は、例えば、ディスクプレーヤやHDDレコーダであり、例えば放送信号やインターネットなどから受信される音声や映像などのコンテンツ―データを記録して、再生することが可能である。なお、
図1に示される再生記録装置2は、テレビ受信装置1に接続される外部装置として示されるが、テレビ受信装置1に内蔵されていてもよい。また、再生記録装置2は、コンテンツデータの録画及び再生ができるSet Top Box(STB)、音声プレーヤ、PCなどであってもよい。
【0014】
音声認識サーバ3は、ネットワーク5上に設置される音声認識が可能なサーバであり、例えばCPUやメモリなどを有したコンピュータを含む。音声認識サーバ3は、マイクなどが受波したユーザ7の音声の音声波形などデジタルデータ(以降、音声データと称する)を、ネットワーク5を介して受信し、ユーザ7の発した音声を推定もしくは認識し、認識した音声をテキストデータ(認識音声データと称する場合もある)として出力する。音声認識技術については、一般的な技術であり、詳細の説明は省略する。
【0015】
言語処理サーバ4は、音声認識サーバ3が出力した認識音声データ(テキストデータ)
に基づいてコマンドデータを選択し、テレビ受信装置1に出力する。言語処理サーバ4は、認識音声データとコマンドデータとの対応関係を予め記憶しておくことでもよい。
【0016】
ネットワーク5は、テレビ受信装置1、音声認識サーバ3、言語処理サーバ4などが接続されて通信可能となるネットワークであり、例えば、インターネットである。また、ネットワーク5はインターネットだけとは限らず、各装置が通信可能であれば、有線無線に関わらず複数の異なるネットワークを含むネットワークでもよい。
【0017】
リモコン6は、テレビ受信装置1を遠隔制御するためのリモートコントローラである。本実施形態におけるリモコン6は、例えばユーザ7が発する音声を受波できるマイクなどの音声集音機能を備えていてよい。また、リモコン6は、受波した音声を外部送信するための例えば、BlueTooth(登録商標)などのインターフェース機能を備えていてもよい。
【0018】
図2は、実施形態に係るテレビ受信装置の構成例を示す機能ブロック図である。
【0019】
テレビ受信装置1は、デジタルコンテンツが重畳される信号を受信処理してデジタルコンテンツを取得して視聴したり、記録したりする機器である。
【0020】
チューナ11は、アンテナやケーブル放送などから所望の周波数帯の電波を受信し、復調処理などにより放送信号(デジタルデータ)を得て、出力する。
【0021】
放送信号受信処理部12は、チューナ11から受信した放送信号を、デジタル放送の規格に応じ処理し、映像、音声、文字などのコンテンツデータを取得し出力する。例えば、デジタル放送の規格としては、2Kデジタル放送にて採用されているMPEG2 TS方式や、4K/8Kデジタル放送にて採用されているMPEG Media Tranport方式(MMT方式)などでもよく、複数のチューナにより双方に対応していてもよい。デジタル放送の規格に応じた処理としては、チューナ11から入力されるデジタルデータを、映像、音声、文字などのコンテンツデータのデジタルデータストリームに分離するデマルチプレクシング処理、誤り訂正符号復号処理、暗号化されたデータを復号する暗号復号化処理、各コンテンツデータに対して施された符号化(映像符号化、音声符号化、文字符号化など)に対する復号化処理などを含む。
【0022】
通信部13は、ネットワーク5に接続されてネットワーク5上の各種サーバ及び装置と通信をする。具体的には、例えばTCP/IP、UDP/IPといった予め決められた通信規約などに応じた送受信処理によりデジタルデータをやり取りする。
【0023】
コンテンツ処理部14は、例えばネットワーク5に接続された図示せぬコンテンツサーバが提供するコンテンツデータを、通信部13を介して受信する。コンテンツ処理部14は、通信部13を介して受信したデータに対して、コンテンツサーバが施した符号化処理に対する復号化処理などを実施し、映像、音声、文字などのコンテンツデータを取得し、出力する。より具体的には、コンテンツ処理部14は、復号化処理として、例えば、デマルチプレクシング処理(分離処理)、誤り訂正符号復号処理、符号化されたコンテンツデータ(映像、文字、音声など)に対する復号化処理などを実施する。
【0024】
提示制御部15は、放送信号受信処理部12やコンテンツ処理部14、また再生記録装置2が出力するコンテンツデータに対して出力タイミング、表示方法などを調整し、出力する。再生記録装置2に記録されるデータ内容によっては、再生記録装置2から出力されるデータに対して、デマルチプレクシング処理(分離処理)、誤り訂正符号復号処理、符号化されたコンテンツデータ(映像、文字、音声など)に対する復号化処理などを施した後に提示制御部15に入力することでもよい。
【0025】
提示部16は、例えば、映像や文字を表示するモニタや音声を出力するスピーカなどである。提示部16は、提示制御部15が出力したコンテンツデータを映像、文字、音声などとして出力する。ユーザは、提示部16が出力する映像、文字、音声などを視聴することにより、放送信号や図示せぬコンテンツサーバによって提供されるデジタルコンテンツを視聴する。
【0026】
制御部17は、テレビ受信装置1の各機能を制御する。具体的には、制御部17は、インターフェース部18から各種コマンド信号を受信し、受信した各種コマンド信号に基づいてテレビ受信装置1の各機能を制御する。例えば、ユーザが放送信号によるコンテンツを視聴するか、コンテンツサーバからのコンテンツを視聴するかをリモコン6から指定した場合に、制御部17は、インターフェース部18を介してリモコンからのコマンド信号を受信し、テレビ受信装置1の機能を制御し、ユーザが指定した動作をさせる。なお、
図2において、制御部17との間で特に結線をしていない機能ブロックとの間においてもデータのやり取りを行うことにしてもよい。
【0027】
インターフェース部18は、リモコン6などからコマンド信号を受信したり、外部装置へ信号を出力したりするためのインターフェースである。例えば、インターフェース部18は、テレビ受信装置1の図示せぬスイッチやリモコン6などからコマンド信号を受信し、コマンド信号をテレビ受信装置1の制御部17へ出力する。リモコン6のかわりに図示せぬスマートフォンなどの端末からコマンド信号を受信するインターフェースを有してもよい。また、インターフェース部18は外部装置と接続するためのインターフェースを有しており、例えば、テレビ受信装置1と外付けの再生記録装置2を接続するためのインターフェースであってもよい。例えばテレビ受信装置1は、インターフェース部18を介して、再生記録装置2を制御したり、再生記録装置2とデータをやり取りしたりする。
【0028】
また本実施形態におけるインターフェース部18は、テレビ受信装置1の外部から音声を受波するための例えばマイクを含む。インターフェース部18は、マイクで受波した音声をAnalog―Digital変換などによりデジタル化された音声デジタルデータ(音声データと称する場合もある)として出力してもよい。
【0029】
音声コマンド処理部19は、インターフェース部18から受信した音声デジタルデータを音声認識サーバ3へ通信部13を介して出力し、音声認識サーバ3から認識音声データ(テキストデータ)を受信する。音声コマンド処理部19は、受信した認識音声データを言語認識サーバ4へ通信部13を介して出力し、言語認識サーバ4からコマンドデータを受信する。音声コマンド処理部19は、受信したコマンドデータに基づいて制御信号を生成し、インターフェース部18を介して外部装置(例えば再生記録装置2)に制御信号を出力する。
【0030】
図3は、実施形態に係る音声コマンド処理部の構成例を示す機能ブロック図である。
【0031】
音声データ処理部191は、インターフェース部18から入力される音声データから、マイクへの音声の入力の有無を検知する。音声データ処理部191は、音声データから音声のある期間(有音期間)及び音声のない期間(無音期間)を判断し、例えばある一定時間の有音期間が検知されたと判断した場合に、ある一塊の音声データが受信されたものと判断して、音声認識サーバ3に一塊の音声データを出力し、一塊の音声データに対して音声認識をさせることでもよい。一塊の音声データとは、ユーザ7が発した単語や文章などに相当するが、特にそれらに限定されず、単なる雑音の可能性もある。本実施形態の音声データ処理部191は、有音期間の始まりもしくは終わりのタイミング(カウント開始タイミングと称する)を時間管理部195へ出力する。音声データ処理部191が出力するタイミングは、例えばパルスのようなトリガ信号でもよいし、有音期間(または無音期間)の始まりもしくは終わりの時刻(タイムスタンプ)でもよい。
【0032】
音声データ送信部192は、通信部13を介して、音声データ処理部191から入力される音声データを音声認識サーバ3など外部装置へ出力する。
【0033】
テキストデータ処理部193は、通信部13を介して、音声認識サーバ3が出力する認識音声データを受信する。また、テキストデータ処理部193は、通信部13を介して、受信した認識音声データを言語認識サーバ4へ出力する。
【0034】
コマンド処理部194は、通信部13を介して、言語認識サーバ4が出力するコマンドデータを受信する。また、コマンド処理部194は、コマンドデータを受信すると、コマンドデータの受信タイミングを時間管理部195に出力する。出力する受信タイミングは、例えばパルスのようなトリガ信号でもよいし、コマンドデータを受信した時刻(タイムスタンプ)でもよい。コマンド処理部194は、出力する受信タイミングを生成するためのクロック(時計)を音声コマンド処理部19内の各機能、特に音声データ処理部191と共有することが望ましい。コマンド処理部194は、受信したコマンドデータをコマンド制御部196に出力する。
【0035】
時間管理部195は、音声データ処理部191から受信したカウント開始タイミングとコマンド処理部194から受信したコマンドデータの受信タイミングとに基づいて、調整パラメータを計算する。具体的には、例えば、調整パラメータをコマンドデータの受信タイミングとカウント開始タイミングとの差として求める。すなわち、調整パラメータは、ユーザが発した音声データを音声データ処理部191が受信してから、コマンド処理部194がユーザの発した音声データに対応するコマンドデータを受信もしくは出力するまでの時間であると定義してもよい。当然ながら、調整パラメータは、この定義に関わらず、他の伝搬遅延時間など各種時間を考慮されてもよい。また、本実施形態においては、音声データ処理部191やコマンド処理部194がコマンドデータの受信タイミングやカウント開始タイミングを決定する例を示すが、本構成に限定されることはない。
【0036】
コマンド制御部196は、コマンド処理部194が出力したコマンドデータと時間管理部195が出力した調整パラメータとに基づいて制御信号を生成し、生成した制御信号を出力する。具体的には、コマンド制御部196は、コマンドデータとして、現在再生されている時点から30秒先のコンテンツデータにスキップして再生させる「30秒スキップ」コマンドを受信した場合に、30秒に調整パラメータ分の時間(n秒とする)を加算したり、減算したりして「30―n秒スキップ」コマンドまたは「30+n秒スキップ」コマンドなどの制御信号を生成する。なお、本実施形態においては、音声認識の処理時間を調整パラメータnとした場合の例を示しているが、例えば、コマンド制御部196が制御信号を制御対象装置に出力してから制御対象装置が実際にコマンドを実行するまでの遅延時間を調整パラメータnに考慮して、より精度の高い制御が可能としてもよい。
【0037】
なお、本実施形態においては、音声認識機能として音声認識サーバ3、言語認識機能として言語認識サーバ4をそれぞれ用いたが、音声認識機能および言語認識機能をテレビ受信装置1(例えば音声コマンド処理部19)に備えることでもよい。
【0038】
図4は、実施形態に係る再生記録装置の機能構成例を示すブロック図である。
再生記録装置2は、放送信号受信処理部12やコンテンツ処理部14が出力するコンテンツデータを記憶し、再生要求などに従ってコンテンツデータを提示制御部15へ出力し、映像、文字、音声として提示部16から出力する。ユーザは、提示部16が出力する映像、文字、音声を視聴することにより、再生記録装置2に記憶されたデジタルコンテンツを視聴する。
【0039】
インターフェース部21は、外部装置と制御信号やデータなどの送受信をするためのインターフェースであり、例えば、HDMI(登録商標)やUSBなどに対応するインターフェースでもよい。
【0040】
制御部22は、インターフェース部21を介して受信した制御信号や再生記録装置2に付属している図示せぬスイッチ、リモコンなどから入力される制御信号などに基づいて、再生記録装置2内の各機能を制御する。本実施形態の制御部22は、例えば通常の「30秒スキップ」コマンドなどの時間コマンドの他、コマンド制御部196が生成する「30―n秒スキップ」コマンドまたは「30+n秒スキップ」コマンドなどの制御信号を処理し、それらの制御信号に基づいて再生記録装置内の各機能を制御する。
【0041】
記憶部23は、例えばHDD(Hard Disk Drive)であり、制御部22などの制御に基づいて、入力されるデータを保存したり、保存データを出力したりする。
【0042】
データ管理部24は、例えばHDD(Hard Disk Drive)上に保管される管理データであり、記憶部23に保存されているデータに関する情報が格納されている。本実施形態におけるデータ管理部24は、例えば、記憶部23に保存されているコンテンツデータの記憶部23上の論理アドレスとそのコンテンツデータの放送時間もしくはそのコンテンツデータの開始からの経過時間との対応関係などが格納されている。制御部22は、データ管理部24に基づいて、時間指定されたコンテンツデータを記憶部23から取得することができる。
【0043】
(第1の実施形態)
本実施形態においては、ユーザから受信した音声データの音声認識による処理時間を考慮して時間移動コマンドを生成する例について説明する。時間移動コマンドとは、現在の時刻などを基準として、未来や過去への時間移動量を指定して、時間移動量ずらして機能動作させるコマンドのことである。例えば、現在再生中のコンテンツデータを、30秒未来や10秒過去のコンテンツデータに移動して再生させる「30秒スキップ」、「10秒戻し」などのコマンドがある。また、時間指定ではなく、予め設定されているチャプタ、シーンといった時間枠を指定するコマンドなども含まれる。
【0044】
以下、図面を用いて、本実施形態の動作を説明する。
【0045】
ユーザ7は、再生記録装置2の記憶部23に保存している番組(コンテンツデータ)をテレビ受信装置1で視聴している。ユーザ7は、番組の現在再生中の部分から30秒先のコンテンツデータを再生するために「30秒スキップ」と発声する。「30秒スキップ」という音声は、テレビ受信装置1のインターフェース部18において、マイクにて集音され、AD-DA変換などが施された後、音声データ処理部191に音声データとして入力される。また、「30秒スキップ」という音声は、リモコン6のマイクに入力され、リモコン6から無線伝送にてテレビ受信装置1のインターフェース部18に入力されることでもよい。
【0046】
図5は、第1の実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートである。
【0047】
音声データ処理部191は、入力された音声データの入力レベルなどを監視し、有音区間、無音区間を判断する。音声データ処理部191は、ある一定時間の有音区間を検知した場合、有音区間分の音声データを音声データ送信部192、通信部13、ネットワーク5を介して音声認識サーバ3に送信し、音声データの音声認識を開始する(ステップS101のYES、S102)。音声データ処理部191は、音声データの音声認識を開始するとともにカウント開始タイミングのパルスを時間管理部195へ出力する。時間管理部195は、カウント開始タイミングのパルスを受信すると、カウントを開始する(ステップS103)。
【0048】
一方、音声コマンド処理部19から音声データを受信した音声認識サーバ3は、受信した音声データに対して音声認識を実施し、得られたテキストデータ(認識音声データ)をテキストデータ処理部193に出力する(ステップS102)。テキストデータ処理部193は、受信した認識音声データを言語認識サーバ4に出力する。コマンド処理部194は、言語認識サーバ4からコマンドデータを受信すると、コマンドデータの受信タイミングを示すパルスを時間管理部195へ出力する(ステップS104のYES)。時間管理部195は、コマンド処理部194からコマンドデータの受信タイミングのパルスを受信すると、カウントを停止する(ステップS105)。また、時間管理部195は、コマンド処理部194からコマンドデータの受信タイミングのパルスを受信するまでカウントを継続する(ステップS104のNO)。
【0049】
時間管理部195は、カウントを停止すると、カウント値(n秒とする)をコマンド制御部196に出力する。また、それと同じタイミングでコマンド処理部194は、コマンドデータをコマンド制御部196に出力する。時間管理部195の出力したカウント値nは、音声データ処理部191が音声データを受信してから、その音声データが音声認識および言語認識され、コマンドデータとしてコマンド処理部194が受信するまでの制御遅延の時間に相当する。
【0050】
コマンド制御部196は、カウント値nとコマンドデータに基づいて外部装置を制御するための制御信号を生成する。具体的には、コマンドデータが「30秒スキップ」である場合に、30-n秒すなわち30秒から制御遅延nだけ短い時間のスキップをさせる制御信号を生成する。
【0051】
図6は、同実施形態に係る音声コマンドと制御信号の時間関係の例を示した図であり、
図6(a)は「30秒スキップ」コマンドに基づく制御動作の例について示した図である。左から右に時間軸(図のtime)が設定されているものとする。
【0052】
時間枠T101は、ユーザが視聴中の番組の再生時間(過去から未来へ)を示している。時間枠T102は、ユーザが発声した音声コマンドの時間長を示している。時間枠T102の開始は、ユーザが音声コマンドを発声開始するタイミングを示し、終了はユーザが音声コマンドの発声を終了するタイミングを示す。時間枠T102の終了の時点は、
図5のステップS101において音声データ処理部191が「音声データが受信された」と判断するタイミングに相当する。時間枠T103は、音声データ処理部191が「音声データが受信された」と判断してから直ちに、受信された音声データによるコマンド(「30秒スキップ」コマンド)が実行された場合に、時間枠T101で示される番組のどこまで再生がスキップされるかを示す。時間枠T104は、ユーザが発声した音声コマンドが音声認識され、コマンド制御部196がコマンドデータを取得するまでの時間、すなわち
図5のステップS105において時間管理部195が出力するカウント値nに相当する。
【0053】
ここで時間枠T103は、「30秒スキップ」コマンドが理想的に実行された場合の例を示している。しかしながら、「30秒スキップ」コマンドが実際に実行されるのは、時間枠T104の終了部分からである。そこで本実施形態におけるコマンド制御部196は、30秒から時間枠T104に相当する時間(制御遅延に相当)すなわちカウント値nを減算して、「30-n秒スキップ」として制御信号を生成する(
図5のステップS106)。コマンド制御部196は、生成した「30-n秒スキップ」の制御信号を外部装置すなわち再生記録装置2へ出力する(ステップS107)。
【0054】
図7は、同実施形態に係る再生記録装置の処理動作例を示すフローチャートである。
再生記録装置2の制御部22は、「30-n秒スキップ」の制御信号を受信したタイミングで、データ管理部24に格納されている番組データ(コンテンツデータ)の記憶部23上の論理アドレスとそのコンテンツデータの開始からの経過時間との対応関係に基づいて、記憶部23から30-n秒未来のコンテンツデータを探索し取得する(ステップS151のYES、S152)。制御部22は、取得した30-n秒未来のコンテンツデータをテレビ受信装置1へ出力する(ステップS153)。テレビ受信装置1においては、再生記録装置2からインターフェース部18を介して受信したコンテンツデータが、提示制御部15へ出力され、提示部16からコンテンツとしてユーザに表示される。
【0055】
以上の手順により、再生記録装置2が「30-n秒スキップ」を実行することで、
図6(a)の時間枠T103に示される理想の「30秒スキップ」が可能となる。
【0056】
なお、本実施形態においては、音声データ処理部191が出力するパルスおよびコマンド処理部194が出力するパルスをそれぞれカウント開始タイミングおよびコマンドデータの受信タイミングとして用いる例を示したが、パルスの代わりに時刻情報であるタイムスタンプを用いることも可能である。例えば、時間管理部195は、音声データ処理部191が出力する開始タイミングの時刻とコマンド処理部194が出力するコマンドデータの受信タイミングの時刻との差としてカウント値nを得る。
【0057】
図6(b)は「10秒戻し」コマンドに基づく制御動作の例について示した図であり、本実施例の動作について、
図5、
図7を用いて説明する。なお、
図6(b)において、
図6(a)と同様の部分については説明を省略する。また、
図5、
図7の処理フローについても、
図6(a)の場合と同様の部分については説明を省略する。
【0058】
ユーザ7は、「10秒戻し」の音声コマンド(時間枠T112に相当)を発話すると、時間枠T112の発話終了時点から、時間管理部195がカウントを開始する(
図5のステップS101~S103)。音声認識処理が実行され、コマンド処理部194がコマンドデータを受信すると、時間管理部195は、カウント値nを出力する(ステップS103~S105)。カウント値nは、時間枠T113の時間に相当する。時間枠T114は、ユーザ7による「10秒戻し」の音声コマンドが理想的に実行された場合の例を示している。すなわち時間枠T112の発話終了時点から10秒前の時点から番組の再生が実施されるのが理想である。しかしながら、「10秒戻し」コマンドが実際に実行されるのは、時間枠T113の終了部分からである。そこで本実施形態においては、コマンド制御部196は、時間枠T113の終了時点において、「10秒戻し」のコマンドデータとカウント値nとから「10+n秒戻し」として制御信号を生成する(ステップS106)。コマンド制御部196は、生成した「10+n秒戻し」の制御信号を外部装置すなわち再生記録装置2へ出力する(ステップS107)。再生記録装置2の制御部22は、「10+n秒戻し」の制御信号を受信し、実行する(
図7のフローチャートによる)。
【0059】
以上の手順により、再生記録装置2が「10+n秒戻し」を実行することで、
図6(b)の時間枠T114に示される理想の「10秒戻し」が可能となる。
【0060】
(第2の実施形態)
本実施形態においては、ユーザから受信した音声データの音声認識の処理時間を考慮して時間移動コマンドを生成する方法を、予め設定されているチャプタ、シーンといった時間枠を指定するコマンドに適用した場合の例を示す。
【0061】
「チャプタ」とは、番組データ(コンテンツデータ)を「本編」部分とそれ以外の部分(例えば、コマーシャルメッセージなどであり、以降、「CM」部分と称する)との2種類に分けた場合の、「本編」部分と「CM」部分の塊(時間枠)のことである。通常の番組においては、「本編」部分と「CM」部分とが交互に現れる。ユーザは、リモコンなどを用いて「チャプタ」を選択することで、視聴したい映像をすぐに見ることができる。
【0062】
また「シーン」とは、番組データ(コンテンツデータ)を内容によって分割した時間枠のことである。例えば、同一音楽番組の中で、演奏者ごとに出演時間枠が分けられているような場合に、各出演時間枠をそれぞれ「シーン」と称する時間枠に分割する。ユーザは、リモコンなどを用いて「シーン」を選択することで、視聴したい演奏者の映像をすぐに見ることができる。
【0063】
上記のように「チャプタ」と「シーン」とでは、内容は異なるものの、本実施形態においては同様の動作となるため、特に「チャプタ」の例を用いて説明する。「チャプタ」に係る音声コマンドは、現在視聴しているチャプタの次のチャプタを再生するための「チャプタスキップ」コマンド、また現在視聴しているチャプタの1つ前のチャプタを再生するための「チャプタ戻し」というコマンドを用いた例を示す。
【0064】
以下、図を用いて、本実施形態の動作を説明する。
【0065】
図8は、第2の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。
図8(a)は「チャプタスキップ」コマンドに基づく音声コマンド処理部19の制御動作を説明する図であり、本動作について、
図5、
図9を用いて説明する。なお、
図8(a)において、
図6(a)と同様の部分については説明を省略する。また、
図5の処理フローについて、
図6(a)の場合と同様の部分については説明を省略する。
【0066】
図8(a)の時間枠T121は、番組を「チャプタ」に分割した場合の例を示しており、各「チャプタ」には、時間順にk-2、k-1、k、k+1と番号を割り振られている。例えば、チャプタk-2、kは、それぞれ「本編」部分であり、チャプタk-1、k+1は、それぞれ「CM」部分とみなしてもよい。なお、
図8(a)の時間枠T121の例に「シーン」を適用した場合は、k-2、k-1、k、k+1の時間枠にそれぞれ「シーン」が割り当てられる。ユーザは、シーンk-2、k-1、k、k+1を選択して、視聴したいシーンを決定する。
【0067】
ユーザ7は、「チャプタスキップ」という音声コマンド(時間枠T123に相当)を発話すると、時間枠T123の発話終了時点から、時間管理部195がカウントを開始する(
図5のステップS101~S103)。音声認識処理が実行され、コマンド処理部194がコマンドデータを受信すると、時間管理部195は、カウント値nを出力する(ステップS103~S105)。カウント値nは、時間枠T124の時間長(秒)に相当する。時間枠T122は、ユーザ7による「チャプタスキップ」の音声コマンドが理想的に実行された場合の例を示している。すなわち時間枠T123の発話終了時点におけるチャプタk-2から1チャプタスキップ後のチャプタk-1から番組の再生が実施されるのが理想である。
図8(a)の実施例においては、時間枠T124の終了時点が時間枠T123の発話終了時点と同じチャプタk-2内に含まれるため、時間枠T124の終了時点で「チャプタスキップ」が実行されても、時間枠T122のように理想的な制御が実行される。しかしながら、本実施形態において音声コマンド処理部19は、時間枠T121がどのようにチャプタに分かれているかという情報は持っておらず、通常、その情報は再生記録装置2のデータ管理部24にある。従って、例えば、コマンド制御部196は、時間枠T124の終了時点において、「チャプタスキップ」のコマンドデータとカウント値nとの双方を含めて制御信号を生成する(ステップS106)。コマンド制御部196は、「チャプタスキップ」と「カウント値n」とを含めた制御信号を外部装置すなわち再生記録装置2へ出力する(ステップS107)。
【0068】
図9は、同実施形態に係る再生記録装置の処理動作例を示すフローチャートである。
再生記録装置2の制御部22は、「チャプタスキップ」と「カウント値n」とを含めた制御信号を受信したタイミング(時刻TRとする)で、「チャプタスキップ」コマンドの発話終了時点(
図8(a)の時間枠T123の終了時点に相当)を推測する(ステップS252)。具体的には、時刻TRからカウント値nを減算した時刻を発話終了時点とする。次に制御部22は、推測した発話終了時点がどのチャプタに含まれているかを決定する(ステップS253)。具体的には、制御部22は、データ管理部24に格納されている番組データ(コンテンツデータ)に対して設定されたチャプタごとの記憶部23上の論理アドレスとそのコンテンツデータの開始からの経過時間との対応関係を用いることで推測した発話終了時点がどのチャプタに含まれているかを判断することができる。制御部22は、推測した発話終了時点が含まれるチャプタと制御信号に含まれる「チャプタスキップ」とから、移動先チャプタを決定する(ステップS254)。具体的に
図8(a)を例にして説明すると、発話終了時点が含まれるチャプタとしてチャプタk-2が推測され、「チャプタスキップ」コマンドによりチャプタk-2から1つ先のチャプタが移動先チャプタとなることから、制御部22は、チャプタk-1を移動先チャプタとして決定する。時間枠T125は、時間枠T124の終了時点から移動先チャプタk-1の開始時点までの移動を示している。制御部22は、データ管理部24に格納されている対応関係に基づいて、記憶部23から該当する移動先チャプタのコンテンツデータを探索する(ステップS255)。制御部22は、探索したコンテンツデータを移動先チャプタの先頭からテレビ受信装置1へ出力する(ステップS256)。テレビ受信装置1においては、再生記録装置2からインターフェース部18を介して受信したコンテンツデータが、提示制御部15へ出力され、提示部16からコンテンツとしてユーザに表示される。
【0069】
以上の手順により、ユーザ7が「チャプタスキップ」を発話することで、
図8(a)の時間枠T122に示される理想の「チャプタスキップ」が可能となる。
【0070】
次に、本実施形態における別の動作の例を説明する。この例では、「チャプタスキップ」コマンドの実行において、ユーザが音声コマンドの発話終了時のチャプタとコマンド制御部196がコマンドデータを取得する時のチャプタが異なる場合の例である。
【0071】
図8(b)は「チャプタスキップ」コマンドに基づく音声コマンド処理部19の制御動作の例を説明する図であり、本動作について、
図5、
図9を用いて説明する。なお、
図8(b)の説明において、
図8(a)と同様の部分については説明を省略する。
【0072】
図8(b)においては、ユーザ7が発した「チャプタスキップ」という音声コマンド(時間枠T132に相当)の発話終了時点がチャプタk-2内に含まれ、その音声コマンドが処理され、コマンド処理部194がコマンドデータを受信するタイミング(時間枠T133の終了時点に相当)がチャプタk-1に含まれる。時間管理部195は、時間枠T133のカウント値nを出力する(
図5のステップS101~S105)。カウント値nは、時間枠T133の時間長(秒)に相当する。時間枠T135は、ユーザ7による「チャプタスキップ」の音声コマンドが理想的に実行された場合の例を示している。すなわち時間枠T132の発話終了時点におけるチャプタk-2から1チャプタスキップ後のチャプタk-1から番組の再生が実施されるのが理想である。しかしながら、
図8(b)の実施例においては、時間枠T133の終了時点が時間枠T132の発話終了時点のチャプタk-2の次のチャプタk-1内に含まれるため、時間枠T133の終了時点で「チャプタスキップ」が実行された場合、チャプタk-1の次のチャプタkから番組再生が実施されるように制御が実行される。本実施形態においてコマンド制御部196は、時間枠T133の終了時点において、「チャプタスキップ」のコマンドデータとカウント値nとの双方を含めて制御信号を生成する(ステップS106)。コマンド制御部196は、「チャプタスキップ」と「カウント値n」とを含めた制御信号を外部装置すなわち再生記録装置2へ出力する(ステップS107)。
【0073】
再生記録装置2の制御部22は、「チャプタスキップ」と「カウント値n」とを含めた制御信号を受信したタイミング(時刻TRとする)で、ユーザ7による「チャプタスキップ」コマンドの発話終了時点(
図8(b)の時間枠T132の終了時点に相当)を推測する(
図9のステップS252)。具体的には、時刻TRからカウント値nを減算した時刻を発話終了時点とする。次に制御部22は、推測した発話終了時点がどのチャプタに含まれているかを決定する(ステップS253)。
【0074】
制御部22は、推測した発話終了時点が含まれるチャプタと制御信号に含まれる「チャプタスキップ」とから、移動先チャプタを決定する(ステップS254)。具体的に
図8(b)の例では、発話終了時点が含まれるチャプタとしてチャプタk-2が推測され、「チャプタスキップ」コマンドによりチャプタk-2から1つ先のチャプタが移動先チャプタとなることから、制御部22は、チャプタk-1を移動先チャプタとして決定する。時間枠T134は、時間枠T133の終了時点から移動先チャプタk-1の開始時点までの移動を示している。制御部22は、データ管理部24に格納されている対応関係に基づいて、記憶部23から該当する移動先チャプタのコンテンツデータを探索する(ステップS255)。制御部22は、探索したコンテンツデータを移動先チャプタの先頭からテレビ受信装置1へ出力する(ステップS256)。テレビ受信装置1においては、再生記録装置2からインターフェース部18を介して受信したコンテンツデータが、提示制御部15へ出力され、提示部16からコンテンツとしてユーザに表示される。
【0075】
以上の手順により、ユーザ7が「チャプタスキップ」を発話することで、
図8(b)の時間枠T135に示される理想の「チャプタスキップ」が可能となる。
【0076】
次に、本実施形態における「チャプタ戻し」コマンドの場合の動作の例を説明する。
【0077】
図10は、同実施形態に係る音声コマンドと制御信号の時間関係の例を示した図であり、「チャプタ戻し」コマンドの場合の例である。
【0078】
本動作について、
図5、
図9を用いて説明する。なお、
図10の説明において、
図8の場合と同様の部分については説明を省略する。
【0079】
図10(a)は「チャプタ戻し」コマンドに基づく音声コマンド処理部19の制御動作の例を説明する図であり、ユーザが音声コマンドの発話終了時のチャプタとコマンド制御部196がコマンドデータを取得する時のチャプタが異なる場合の例である。
【0080】
図10(a)においては、ユーザ7が発した「チャプタ戻し」という音声コマンド(時間枠T143に相当)の発話終了時点がチャプタk-1内に含まれ、その音声コマンドが処理され、コマンド処理部194がコマンドデータを受信するタイミング(時間枠T144の終了時点に相当)がチャプタkに含まれる。時間管理部195は、時間枠T144のカウント値nを出力する(
図5のステップS101~S105)。カウント値nは、時間枠T144の時間長(秒)に相当する。時間枠T142は、ユーザ7による「チャプタ戻し」の音声コマンドが理想的に実行された場合の例を示している。すなわち時間枠T143の発話終了時点におけるチャプタk-1から1チャプタ前のチャプタk-2から番組の再生が実施されるのが理想である。しかしながら、
図10(a)の実施例においては、時間枠T144の終了時点が時間枠T143の発話終了時点のチャプタk-1の次のチャプタk内に含まれるため、時間枠T144の終了時点で「チャプタ戻し」が実行された場合、チャプタkの1つ前のチャプタk-1から番組再生が実施されるように制御が実行される。本実施形態においてコマンド制御部196は、時間枠T144の終了時点において、「チャプタ戻し」のコマンドデータとカウント値nとの双方を含めて制御信号を生成する(ステップS106)。コマンド制御部196は、「チャプタ戻し」と「カウント値n」とを含めた制御信号を外部装置すなわち再生記録装置2へ出力する(ステップS107)。
【0081】
再生記録装置2の制御部22は、「チャプタ戻し」と「カウント値n」とを含めた制御信号を受信したタイミング(時刻TRとする)で、ユーザ7による「チャプタ戻し」コマンドの発話終了時点(
図10(a)の時間枠T143の終了時点に相当)を推測する(
図9のステップS252)。具体的には、時刻TRからカウント値nを減算した時刻を発話終了時点とする。次に制御部22は、推測した発話終了時点がどのチャプタに含まれているかを決定する(ステップS253)。
【0082】
制御部22は、推測した発話終了時点が含まれるチャプタと制御信号に含まれる「チャプタ戻し」とから、移動先チャプタを決定する(ステップS254)。具体的に
図10(a)の例では、発話終了時点が含まれるチャプタとしてチャプタk-1が推測され、「チャプタ戻し」コマンドによりチャプタk-1から1つ前のチャプタが移動先チャプタとなることから、制御部22は、チャプタk-2を移動先チャプタとして決定する。時間枠T145は、時間枠T144の終了時点から移動先チャプタk-2の開始時点までの移動を示している。制御部22は、データ管理部24に格納されている対応関係に基づいて、記憶部23から該当する移動先チャプタのコンテンツデータを探索する(ステップS255)。制御部22は、探索したコンテンツデータを移動先チャプタの先頭からテレビ受信装置1へ出力する(ステップS256)。
【0083】
以上の手順により、ユーザ7が「チャプタ戻し」を発話することで、
図10(a)の時間枠T142に示される理想の「チャプタ戻し」が可能となる。
【0084】
図10(b)は「チャプタ戻し」コマンドに基づく音声コマンド処理部19の別の制御動作の例を説明する図であり、ユーザが音声コマンドの発話終了時のチャプタとコマンド制御部196がコマンドデータを取得する時のチャプタが同じ場合の例である。この場合の処理動作は
図10(a)の場合と同様であるので、説明は省略する。ユーザ7が「チャプタ戻し」を発話することで、
図5、
図9の処理フローにより、
図10(b)の時間枠T152に示される理想の「チャプタ戻し」が可能となる。
【0085】
(第3の実施形態)
本実施形態においては、ユーザから受信した音声データの音声認識の処理時間を予め固定値として決めておき、時間移動コマンドを生成する例について説明する。
【0086】
図11は、第3の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図であり、
図11(a)は「30秒スキップ」コマンドの例を示し、
図11(b)は「10秒戻し」コマンドの例を示す。第1の実施形態における
図6(a)、(b)の例においては時間枠T104の時間長である音声認識時間nを時間管理部195がカウントしたが、本実施形態における
図11(a)、(b)の例の場合は、音声認識時間nを予め推定して設定した値とする。本実施形態において、推定した音声認識時間nを特に音声認識推定時間neと称する。まず、
図11(a)の例について、フローチャートを用いて、処理動作の例を説明する。
【0087】
図12は、実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートであり、第1の実施形態における
図5のフローチャートから、ステップS103およびS105を削除したフローチャートと同様である。
図5と同様の部分については説明を省略する。
【0088】
ユーザ7は、「30秒スキップ」の音声コマンド(
図11(a)の時間枠T202に相当)を発話すると、時間枠T202の発話終了時点から音声認識処理が実行される(ステップS201~S202)。コマンド処理部194はコマンドデータを受信すると、コマンドデータをコマンド制御部196に出力する。また同時にコマンド制御部196は、時間管理部195から音声認識推定時間neを取得する。なお音声認識推定時間neは予めコマンド制御部196に設定されていてもよい。コマンド制御部196は、コマンドデータと音声認識推定時間neとに基づいて制御信号を生成する(ステップS204のYES、S206)。具体的には、コマンド制御部196は、コマンドデータが「30秒スキップ」であるとすると、30秒から音声認識推定時間neを減算して、「30-ne秒スキップ」として制御信号を生成する。コマンド制御部196は、生成した「30-ne秒スキップ」の制御信号を外部装置すなわち再生記録装置2へ出力する(ステップS207)。再生記録装置2の制御部22は、「30-ne秒スキップ」の制御信号を受信し、実行する(
図7のフローチャートによる)。
【0089】
図11(a)の時間枠T203は、ユーザ7による「30秒スキップ」の音声コマンドが理想的に実行された場合の例を示しており、矢印の先が移動先のコンテンツデータの時点を示す。本実施形態において、再生記録装置2の制御部22は、「30-ne秒スキップ」を実行する。時間枠T205が「30-ne秒スキップ」による移動量を示している。しかしながら、時間枠T203が示す移動先の時点と時間枠T205による移動先の時点とには時間枠T206で示される時間誤差が生じる。これは、neが音声認識時間の推定値であるからである。本実施形態においては、時間枠T206の時間誤差を許容しながらも、簡易に時間移動コマンドを理想の動作に近づけることができる。また、音声認識推定時間neを平均化するなどにより音声認識推定時間neの精度を改善することで時間移動コマンドの精度はさらに改善される。
【0090】
以上の手順により、再生記録装置2が「30-ne秒スキップ」を実行することで、
図11(a)の時間枠T203に示される理想の「30秒スキップ」が可能となる。
【0091】
また、
図11(b)の「10秒戻し」の場合についても
図11(a)の例の場合と同様、時間枠T216の時間誤差を許容しながらも、簡易に時間移動コマンドを理想の動作(時間枠T212)に近づけることができる。
【0092】
(第4の実施形態)
第1の実施形態においては、コマンド制御部196は、
図6に示したように音声認識時間nを考慮して、「30-n秒スキップ」の制御信号を生成する例を示した。本実施形態においては、音声データの音声認識による処理時間(音声認識時間n)のみならず、ユーザの発話した音声コマンドの時間長を考慮して時間移動コマンドを生成する例について説明する。
【0093】
以下、図を用いて、本実施形態の動作を説明する。
【0094】
図13は、第4の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図であり、
図13(a)は「30秒スキップ」コマンドの例を示し、
図13(b)は「10秒戻し」コマンドの例を示す。
【0095】
本実施形態においては、例えば、
図13(a)に示すように、制御信号の生成において、時間枠T304の時間長である音声認識時間nにユーザが発した音声コマンドの発話時間(時間枠T303に相当)を加算した処理遅延時間mを用いる。
図13(a)、
図13(b)とも処理動作は同様であるため、以下、
図13(a)の例の場合について、フローチャートを用いて処理動作の説明をする。
【0096】
図14は、同実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートである。
ユーザ7によって発話された「30秒スキップ」という音声は、テレビ受信装置1のインターフェース部18において、マイクにて集音され、AD-DA変換などが施された後、音声データ処理部191に音声データとして入力される。
【0097】
音声データ処理部191は、入力された音声データの入力レベルなどを監視しており、無音の状態から有音の状態になったタイミング(音声入力タイミングと称する)を検知すると、音声入力タイミングを時間管理部195に出力する。時間管理部195は、音声入力タイミングをトリガにしてカウントを開始する(ステップS301、S302)。なお、第1の実施形態にも示したように音声入力タイミングは、パルスでもよいし、タイムスタンプなどの時刻でもよい。本実施形態においては、パルスを用いた場合について示す。音声データ処理部191は、入力された音声データの無音区間、有音区間を監視しており、有音区間を検出すると、ある一塊の音声データが受信されたものと判断し、音声認識サーバ3に音声データを出力し、音声認識処理、言語認識処理などを実施させる(ステップS303のYES)。コマンド処理部194は、コマンドデータを受信すると、コマンドデータの受信タイミングを示すパルスを時間管理部195に出力し、コマンドデータをコマンド制御部196に出力する(ステップS304のYES)。時間管理部195は、コマンドデータの受信タイミングを示すパルスを受信すると、カウントを停止し、カウント値を出力する(ステップS305)。時間管理部195が出力したカウント値は、音声データ処理部191から受信した音声入力タイミングとコマンド処理部194から受信したコマンドデータの受信タイミングとの差であり、
図13に示した処理遅延時間mに相当する。コマンド制御部196は、コマンド処理部194が出力したコマンドデータと時間管理部195が出力した処理遅延時間mとに基づいて制御信号を生成し、生成した制御信号を出力する。具体的には、コマンド制御部196は、コマンドデータとして、「30秒スキップ」コマンドを受信した場合に、30秒に処理遅延時間m分の時間を減算して「30―m秒スキップ」の制御信号を生成する(ステップS306)。コマンド制御部196は、生成した「30-m秒スキップ」の制御信号を外部装置すなわち再生記録装置2へ出力する(ステップS307)。再生記録装置2における処理は、
図7と同様であるため説明を省略する。
【0098】
以上の手順により、再生記録装置2が「30-m秒スキップ」を実行することで、
図13(a)の時間枠T302に示される理想の「30秒スキップ」、すなわち、ユーザが音声コマンド「30秒スキップ」を発話開始してから30秒後のコンテンツデータへの移動が可能となる。
【0099】
本実施形態によれば、ユーザ7がコンテンツをスキップしたいと考えてコマンドを発話したタイミングを基準に、コンテンツデータのスキップが可能になる。
【0100】
なお、
図13(b)の例についても
図13(a)の例の場合と同様、ユーザ7によるコマンドの発話音声時間を考慮した時間移動コマンド「10秒戻し」による再生記録装置2の制御が可能となる。また、第2の実施形態に示した「チャプタ」もしくは「シーン」の移動の場合についても、本実施形態の適用は可能である。
【0101】
(変形例1)
第1から第3の実施形態に示した「30秒スキップ」、「10秒戻し」、「チャプタスキップ」、「チャプタ戻し」などの時間移動コマンドを、例えば複数回繰り返す場合にも第1から第3の実施形態の適用は可能である。複数回繰り返す場合とは、例えば「30秒スキップ」を2回繰り返すことで、60秒スキップさせることである。このような場合の音声コマンドは、例えば「30秒スキップ3回」、「10秒戻し4回」、「チャプタスキップ3回」、「チャプタ戻し5回」などのように、コマンド名の後ろにコマンドの実行回数を付与するようなコマンド名とすることでもよい。このように複数回同じコマンドを実施させるようなコマンドをここでは複数回コマンドと称し、これに対し「30秒スキップ」、「10秒戻し」、「チャプタスキップ」、「チャプタ戻し」など第1から第3の実施形態にて例に示したコマンドを単体コマンドと称する。
【0102】
複数回コマンドに対する調整パラメータ(音声認識時間n、処理遅延時間m)や再生記録装置2に対する制御信号は、第1から第3の実施形態にて示したフローチャートを用いて単体コマンドと同様に生成できる。再生記録装置2においては、受信した複数回コマンドと調整パラメータから移動先のコンテンツデータやチャプタを特定することで、音声認識時間n、処理遅延時間mを考慮した複数回コマンドの実行が可能となる。例えば、「30秒スキップ3回」の場合、再生記録装置2は、制御信号の受信タイミング(時刻TR)から調整パラメータを用いて、ユーザによる複数回コマンド「30秒スキップ3回」の発信時刻を求める。再生記録装置2は、求めた複数回コマンドの発信時刻(時刻t0とする)を基準にして、30秒スキップ3回分のコンテンツデータ、すなわち、時刻t0+90秒におけるコンテンツデータを移動先のコンテンツデータとして決定する。ここで時刻t0を複数回コマンドの発信時刻とすると、時間移動コマンドに処理遅延時間mを考慮でき、時刻t0を複数回コマンドの発信終了時刻とすると、時間移動コマンドに音声認識時間nを考慮できる。
【0103】
以上の手順により、複数回コマンドのような時間移動コマンドに対しても、音声認識時間n、処理遅延時間mを考慮でき、より精度の高い時間移動コマンドの実行が可能となる。
【0104】
なお、複数回コマンドに似た場合として、単体コマンドを連呼する場合がある。例えば、「30秒スキップ」を例にとると、「30秒スキップ、30秒スキップ、30秒スキップ」のように連呼された場合である。このような場合は、「30秒スキップ」コマンドが1回発話されたものとみなすように動作させることでもよい。例えば、コマンド処理部194において、連続して同じ「30秒スキップ」コマンドデータが受信された場合、2回目以降に受信された「30秒スキップ」コマンドデータをコマンド制御部196に出力しないようにする。このように1回目の「30秒スキップ」のコマンドデータの受信時刻を用いることで調整パラメータ(音声認識時間n、処理遅延時間m)を算出することでもよい。
【0105】
また、以上の手順は、チャプタやシーンのスキップ、戻しなどにも同様に適用できる。
【0106】
(変形例2)
以上の実施形態においては、音声認識機能として音声認識サーバ3、言語認識機能として言語認識サーバ4をそれぞれ用いた場合の例を示したが、音声認識機能および言語認識機能を備えたテレビ受信装置1を用いた場合についても本発明の範囲内である。この場合は、テレビ受信装置1は、ネットワーク5を介した通信が不要になるため、音声認識機能および言語認識機能のための処理時間が低減されるほか、ネットワーク5を介した通信による処理時間の揺らぎが小さくなり、例えば、第3の実施形態において説明した音声認識推定時間neの推定精度が改善される効果がある。
【0107】
(変形例3)
以上の実施形態においては、音声コマンド処理部19をテレビ受信装置1に備える例について説明したが、音声コマンド処理部19の機能を、テレビ受信装置1と分けて、独立した図示せぬ音声コマンド処理装置としてもよい。例えば、音声コマンド処理装置は、インターフェース部18に対応する図示せぬインターフェース部を備えて、テレビ受信装置1と通信をすることでもよい。また、音声コマンド処理装置は、ネットワーク5上に備えられ、通信部13を介してテレビ受信装置1と通信をすることでもよい。また、音声コマンド処理装置は、ネットワーク5上の音声認識サーバ3や言語認識サーバ4を用いて、音声認識機能、言語認識機能を実現してもよいし、音声コマンド処理装置の内部に、音声認識機能、言語認識機能を備えることでもよい。
【0108】
(変形例4)
音声コマンド処理部19の機能を、テレビ受信装置1のリモコン6に備えることでもよい。例えば、ユーザがリモコン6のマイクに音声コマンドを発話すると、リモコン6は、制御信号を生成し、テレビ受信装置1のインターフェース部18に生成した制御信号を出力するようにしてもよい。リモコン6は、内部に音声認識機能、言語認識機能を備えてもよいし、外部の音声認識機能、言語認識機能を用いてもよい。
【0109】
以上に述べた少なくとも1つの実施形態によれば、音声認識制御における制御遅延の影響を低減する制御信号生成回路、制御信号生成回路を利用した各種装置(音声コマンド処理装置、テレビ受信装置、マイク付きリモコン)、制御信号生成回路が生成した制御信号で制御が可能な被制御装置(再生記録装置)、制御信号生成回路を利用した各種システム、制御信号生成方法、プログラムを提供することができる。
【0110】
なお、図面に示した解析画面などに表示される条件パラメータやそれらに対する選択肢、値、評価指標などの名称や定義、種類などは、本実施形態において一例として示したものであり、本実施形態に示されるものに限定されるものではない。
【0111】
本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。さらにまた、請求項の各構成要素において、構成要素を分割して表現した場合、或いは複数を合わせて表現した場合、或いはこれらを組み合わせて表現した場合であっても本発明の範疇である。また、複数の実施形態を組み合わせてもよく、この組み合わせで構成される実施例も発明の範疇である。
【0112】
また、図面は、説明をより明確にするため、実際の態様に比べて、各部の幅、厚さ、形状等について模式的に表される場合がある。ブロック図においては、結線されていないブロック間もしくは、結線されていても矢印が示されていない方向に対してもデータや信号のやり取りを行う場合もある。フローチャートに示す処理は、ICチップ、デジタル信号処理プロセッサ(Digital Signal ProcessorまたはDSP)などのハードウェアもしくはマイクロコンピュータを含めたコンピュータなどで動作させるソフトウェア(プログラムなど)またはハードウェアとソフトウェアの組み合わせによって実現してもよい。また請求項を制御ロジックとして表現した場合、コンピュータを実行させるインストラクションを含むプログラムとして表現した場合、及び前記インストラクションを記載したコンピュータ読み取り可能な記録媒体として表現した場合でも本発明の装置を適用したものである。また、使用している名称や用語についても限定されるものではなく、他の表現であっても実質的に同一内容、同趣旨であれば、本発明に含まれるものである。
【符号の説明】
【0113】
1…テレビ受信装置、2…再生記録装置、3…音声認識サーバ、4…言語処理サーバ、5…ネットワーク、6…リモコン、7…ユーザ、11…チューナ、12…放送信号受信処理部、13…通信部、14…コンテンツ処理部、15…提示制御部、16…提示部、17…制御部、18…インターフェース部、19…音声コマンド処理部、21…インターフェース部、22…制御部、23…記憶部、24…データ管理部、191…音声データ処理部、192…音声データ送信部、193…テキストデータ処理部、194…コマンド処理部、195…時間管理部、196…コマンド制御部。