特許7314102 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 東芝映像ソリューション株式会社の特許一覧

特許7314102制御信号生成回路、受信装置、システム、生成方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-07-14

(45)【発行日】2023-07-25

(54)【発明の名称】制御信号生成回路、受信装置、システム、生成方法、およびプログラム

(51)【国際特許分類】

G10L 15/22 20060101AFI20230718BHJP

G10L 15/00 20130101ALI20230718BHJP

G11B 27/10 20060101ALI20230718BHJP

G11B 20/10 20060101ALI20230718BHJP

G06F 3/16 20060101ALI20230718BHJP

【ＦＩ】

G10L15/22 453

G10L15/00 200G

G11B27/10 A

G11B20/10 301Z

G06F3/16 630

【請求項の数】 9

(21)【出願番号】P 2020118464

(22)【出願日】2020-07-09

(65)【公開番号】P2022015545

(43)【公開日】2022-01-21

【審査請求日】2022-02-18

(73)【特許権者】

【識別番号】000214984

【氏名又は名称】ＴＶＳＲＥＧＺＡ株式会社

(74)【代理人】

【識別番号】110001737

【氏名又は名称】弁理士法人スズエ国際特許事務所

(72)【発明者】

【氏名】松原伸三

【審査官】中村天真

(56)【参考文献】

【文献】特表２００５－５１３５６０（ＪＰ，Ａ）

【文献】特開２０１３－１４１２３７（ＪＰ，Ａ）

【文献】特開２００８－３０２１４６（ＪＰ，Ａ）

【文献】特開２００１－１７５２８１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／１６

Ｇ１０Ｌ１５／００－１５／３４

Ｇ１１Ｂ２０／１０－２０／１６

２７／１０－２７／３４

Ｈ０４Ｎ５／７６－５／９５６

７／１０－７／５６

(57)【特許請求の範囲】

【請求項1】

ユーザの発話する音声コマンドを音声認識して得たコマンドに基づいて制御対象を動作させるための制御信号を生成する制御信号生成回路において、
少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドとに基づいて制御信号を生成する制御信号生成回路であって、
前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声認識による処理時間を含み、
前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、
前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、
前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである制御信号生成回路。

【請求項2】

前記制御信号には、前記時間移動量と前記制御遅延時間との和または差の値を含める請求項１に記載の制御信号生成回路。

【請求項3】

前記時間移動コマンドは、前記再生記録装置が出力するチャプタを視聴中のユーザが、前記時間移動量で指定したチャプタ数だけ未来または過去のチャプタの先頭からコンテンツデータを出力させるコマンドである請求項１に記載の制御信号生成回路。

【請求項4】

前記制御信号には、前記時間移動量と前記制御遅延時間の値とを含める請求項３に記載の制御信号生成回路。

【請求項5】

デジタルコンテンツを受信する受信手段と、
ユーザに前記デジタルコンテンツを提示する提示手段と、
ユーザの発話する音声コマンドを受波する音声集音手段と、
前記音声コマンドを音声認識してコマンドを得る音声認識手段と、
前記コマンドに基づいて制御対象を動作させるための制御信号を生成する制御信号生成手段とを備えた受信装置において、
前記制御信号生成手段は、少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドとに基づいて制御信号を生成し、
前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声認識による処理時間を含み、
前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、
前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、
前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである受信装置。

【請求項6】

デジタルコンテンツを受信する受信手段と、
ユーザに前記デジタルコンテンツを提示する提示手段と、
ユーザの発話する音声コマンドを受波する音声集音手段と、
前記音声コマンドをデジタル音声データとして出力し、コマンドデータを受信する通信手段と、
前記コマンドデータに基づいて制御対象を動作させるための制御信号を生成する制御信号生成手段とを備えた受信装置において、
前記制御信号生成手段は、少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドデータとに基づいて制御信号を生成し、
前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声コマンドに対する音声認識による処理時間を含み、
前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、
前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、
前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである受信装置。

【請求項7】

デジタルコンテンツを受信する受信手段と、
ユーザに前記デジタルコンテンツを提示する提示手段と、
ユーザの発話する音声コマンドを受波する音声集音手段と、
前記音声コマンドをデジタル音声データとして出力し、コマンドデータを受信する通信手段と、
前記コマンドデータに基づいて制御対象を動作させるための制御信号を生成する制御信号生成手段とを備えた受信装置において、
前記制御信号生成手段は、少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドデータとに基づいて制御信号を生成し、前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記デジタル音声データに対する音声認識による処理時間を含み、前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである受信装置と、
前記受信装置から前記デジタル音声データを受信し、前記デジタル音声データを前記音声認識および言語認識によって前記コマンドデータを取得して出力する認識サーバと、
前記制御対象である映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置とを具備したシステム。

【請求項8】

ユーザの発話する音声コマンドを音声認識して得たコマンドに基づいて制御対象を動作させるための制御信号を生成する制御信号の生成方法において、
少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドとに基づいて制御信号を生成し、前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声認識による処理時間を含み、前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである制御信号の生成方法。

【請求項9】

コンピュータが、ユーザの発話する音声コマンドを音声認識して得たコマンドに基づいて制御対象を動作させるための制御信号を生成するプログラムであって、
少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドとに基づいて制御信号を生成する手順を備え、
前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声認識による処理時間を含み、
前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、
前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、
前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである前記手順を前記コンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

実施形態は、制御信号生成回路、受信装置、システム、生成方法、およびプログラムに関する。

【背景技術】

【0002】

近年、音声認識技術を利用して、人が発した音声により遠隔制御ができる家電などの装置が普及している。音声認識による制御によって、電源オンオフなど装置の状態を変える制御の他、装置の動作タイミングなどの制御もできる。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１０－１８３１６０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、装置の動作タイミングのような時間に係る機能を音声認識で制御する場合、ユーザの発した音声コマンドが音声認識され、制御対象の装置にコマンドが到達して制御が実行されるまでに要する時間（制御遅延）が影響する可能性がある。例えば、ＨＤＤレコーダなどに記録した映像の再生において、現在視聴している時点から３０秒先の時点に再生箇所を移動させる「３０秒スキップ」といったコマンドを用いる場合に、制御遅延が大きいとユーザが期待した制御にならない場合がある。

【0005】

本発明が解決しようとする課題は、音声認識制御における制御遅延の影響を低減する制御信号生成回路、受信装置、システム、生成方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

一実施形態に係る制御信号生成回路は、ユーザの発話する音声コマンドを音声認識して得たコマンドに基づいて制御対象を動作させるための制御信号を生成する制御信号生成回路において、少なくとも前記制御信号によって前記制御対象が動作するまでの制御遅延時間と前記コマンドとに基づいて制御信号を生成する制御信号生成回路であって、前記制御遅延時間は、少なくとも前記音声コマンドの時間長または前記音声認識による処理時間を含み、前記制御信号は、時間移動量を指定して前記制御対象を動作させる時間移動コマンドを実行し、前記制御対象は、映像などのコンテンツデータを入力し記録可能でありかつ記録しているコンテンツデータを前記制御信号によって出力可能な再生記録装置であり、前記時間移動コマンドは、前記再生記録装置が出力するコンテンツデータを視聴中のユーザが、前記時間移動量で指定した時間だけ未来もしくは過去のコンテンツデータを出力させるコマンドである。

【図面の簡単な説明】

【0007】

【図1】図１は、実施形態に係るシステムの構成例を示す機能ブロック図である。

【図2】図２は、実施形態に係るテレビ受信装置の構成例を示す機能ブロック図である。

【図3】図３は、実施形態に係る音声コマンド処理部の構成例を示す機能ブロック図である。

【図4】図４は、実施形態に係る再生記録装置の機能構成例を示すブロック図である。

【図5】図５は、第１の実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートである。

【図6】図６は、同実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。

【図7】図７は、同実施形態に係る再生記録装置の処理動作例を示すフローチャートである。

【図8】図８は、第２の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。

【図9】図９は、同実施形態に係る再生記録装置の処理動作例を示すフローチャートである。

【図10】図１０は、同実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。

【図11】図１１は、第３の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。

【図12】図１２は、実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートである。

【図13】図１３は、第４の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。

【図14】図１４は、同実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートである。

【発明を実施するための形態】

【0008】

以下、実施の形態について図面を参照して説明する。

【0009】

図１は、実施形態に係るシステムの構成例を示す機能ブロック図である。

【0010】

テレビ受信装置１は、デジタルコンテンツを視聴するための受信装置であり、例えば、２Ｋまたは４Ｋ／８Ｋといった地上波放送、衛星放送などのデジタル放送を受信し視聴可能なテレビの受信装置（テレビ装置、テレビジョン受信装置、放送信号受信装置とも称される）である。本実施形態におけるテレビ受信装置１は録画再生機能を有しており、テレビ受信装置１にて受信したデジタルコンテンツを録画したり再生したりすることができる。再生記録装置を外部に接続することで、テレビ受信装置１がデジタルコンテンツの録画再生を可能とすることでもよい。

【0011】

また、テレビ受信装置１は音声認識技術を用いた制御が可能である。例えば、ユーザ７が音声によりコマンドを発すると、音声はテレビ受信装置１のマイクロフォン（以降、マイクと称する）など音声集音機能により受波され、音声認識技術によりコマンドが取り出され、取り出されたコマンドによりテレビ受信装置１の各種機能が制御される。また、本実施形態におけるテレビ受信装置１は、リモートコントローラ（以降、リモコンと称する）からの制御も可能である。具体的には、電源のオンオフなど通常のリモコン機能の他、例えばユーザ７の音声をリモコンに付属のマイクが受波し、リモコンがテレビ受信装置１に音声データとしてユーザ７の音声を送信する。テレビ受信装置１は、受信した音声データから、例えば音声認識技術によりコマンドを取り出し、テレビ受信装置１の各種機能を制御する。本実施形態におけるテレビ受信装置１は、取り出したコマンドに基づいて生成した制御信号を、再生記録装置２へ出力し、再生記録装置２を制御する。

【0012】

また、テレビ受信装置１は、例えばインターネットなどのネットワーク５に接続するための通信機能を備え、ネットワークに接続される各種サーバ（クラウド上のサーバでもよい）とデータのやり取りをすることが可能である。

【0013】

再生記録装置２は、例えば、ディスクプレーヤやＨＤＤレコーダであり、例えば放送信号やインターネットなどから受信される音声や映像などのコンテンツ―データを記録して、再生することが可能である。なお、図１に示される再生記録装置２は、テレビ受信装置１に接続される外部装置として示されるが、テレビ受信装置１に内蔵されていてもよい。また、再生記録装置２は、コンテンツデータの録画及び再生ができるＳｅｔＴｏｐＢｏｘ（ＳＴＢ）、音声プレーヤ、ＰＣなどであってもよい。

【0014】

音声認識サーバ３は、ネットワーク５上に設置される音声認識が可能なサーバであり、例えばＣＰＵやメモリなどを有したコンピュータを含む。音声認識サーバ３は、マイクなどが受波したユーザ７の音声の音声波形などデジタルデータ（以降、音声データと称する）を、ネットワーク５を介して受信し、ユーザ７の発した音声を推定もしくは認識し、認識した音声をテキストデータ（認識音声データと称する場合もある）として出力する。音声認識技術については、一般的な技術であり、詳細の説明は省略する。

【0015】

言語処理サーバ４は、音声認識サーバ３が出力した認識音声データ（テキストデータ）
に基づいてコマンドデータを選択し、テレビ受信装置１に出力する。言語処理サーバ４は、認識音声データとコマンドデータとの対応関係を予め記憶しておくことでもよい。

【0016】

ネットワーク５は、テレビ受信装置１、音声認識サーバ３、言語処理サーバ４などが接続されて通信可能となるネットワークであり、例えば、インターネットである。また、ネットワーク５はインターネットだけとは限らず、各装置が通信可能であれば、有線無線に関わらず複数の異なるネットワークを含むネットワークでもよい。

【0017】

リモコン６は、テレビ受信装置１を遠隔制御するためのリモートコントローラである。本実施形態におけるリモコン６は、例えばユーザ７が発する音声を受波できるマイクなどの音声集音機能を備えていてよい。また、リモコン６は、受波した音声を外部送信するための例えば、ＢｌｕｅＴｏｏｔｈ（登録商標）などのインターフェース機能を備えていてもよい。

【0018】

図２は、実施形態に係るテレビ受信装置の構成例を示す機能ブロック図である。

【0019】

テレビ受信装置１は、デジタルコンテンツが重畳される信号を受信処理してデジタルコンテンツを取得して視聴したり、記録したりする機器である。

【0020】

チューナ１１は、アンテナやケーブル放送などから所望の周波数帯の電波を受信し、復調処理などにより放送信号（デジタルデータ）を得て、出力する。

【0021】

放送信号受信処理部１２は、チューナ１１から受信した放送信号を、デジタル放送の規格に応じ処理し、映像、音声、文字などのコンテンツデータを取得し出力する。例えば、デジタル放送の規格としては、２Ｋデジタル放送にて採用されているＭＰＥＧ２ＴＳ方式や、４Ｋ／８Ｋデジタル放送にて採用されているＭＰＥＧＭｅｄｉａＴｒａｎｐｏｒｔ方式（ＭＭＴ方式）などでもよく、複数のチューナにより双方に対応していてもよい。デジタル放送の規格に応じた処理としては、チューナ１１から入力されるデジタルデータを、映像、音声、文字などのコンテンツデータのデジタルデータストリームに分離するデマルチプレクシング処理、誤り訂正符号復号処理、暗号化されたデータを復号する暗号復号化処理、各コンテンツデータに対して施された符号化（映像符号化、音声符号化、文字符号化など）に対する復号化処理などを含む。

【0022】

通信部１３は、ネットワーク５に接続されてネットワーク５上の各種サーバ及び装置と通信をする。具体的には、例えばＴＣＰ／ＩＰ、ＵＤＰ／ＩＰといった予め決められた通信規約などに応じた送受信処理によりデジタルデータをやり取りする。

【0023】

コンテンツ処理部１４は、例えばネットワーク５に接続された図示せぬコンテンツサーバが提供するコンテンツデータを、通信部１３を介して受信する。コンテンツ処理部１４は、通信部１３を介して受信したデータに対して、コンテンツサーバが施した符号化処理に対する復号化処理などを実施し、映像、音声、文字などのコンテンツデータを取得し、出力する。より具体的には、コンテンツ処理部１４は、復号化処理として、例えば、デマルチプレクシング処理（分離処理）、誤り訂正符号復号処理、符号化されたコンテンツデータ（映像、文字、音声など）に対する復号化処理などを実施する。

【0024】

提示制御部１５は、放送信号受信処理部１２やコンテンツ処理部１４、また再生記録装置２が出力するコンテンツデータに対して出力タイミング、表示方法などを調整し、出力する。再生記録装置２に記録されるデータ内容によっては、再生記録装置２から出力されるデータに対して、デマルチプレクシング処理（分離処理）、誤り訂正符号復号処理、符号化されたコンテンツデータ（映像、文字、音声など）に対する復号化処理などを施した後に提示制御部１５に入力することでもよい。

【0025】

提示部１６は、例えば、映像や文字を表示するモニタや音声を出力するスピーカなどである。提示部１６は、提示制御部１５が出力したコンテンツデータを映像、文字、音声などとして出力する。ユーザは、提示部１６が出力する映像、文字、音声などを視聴することにより、放送信号や図示せぬコンテンツサーバによって提供されるデジタルコンテンツを視聴する。

【0026】

制御部１７は、テレビ受信装置１の各機能を制御する。具体的には、制御部１７は、インターフェース部１８から各種コマンド信号を受信し、受信した各種コマンド信号に基づいてテレビ受信装置１の各機能を制御する。例えば、ユーザが放送信号によるコンテンツを視聴するか、コンテンツサーバからのコンテンツを視聴するかをリモコン６から指定した場合に、制御部１７は、インターフェース部１８を介してリモコンからのコマンド信号を受信し、テレビ受信装置１の機能を制御し、ユーザが指定した動作をさせる。なお、図２において、制御部１７との間で特に結線をしていない機能ブロックとの間においてもデータのやり取りを行うことにしてもよい。

【0027】

インターフェース部１８は、リモコン６などからコマンド信号を受信したり、外部装置へ信号を出力したりするためのインターフェースである。例えば、インターフェース部１８は、テレビ受信装置１の図示せぬスイッチやリモコン６などからコマンド信号を受信し、コマンド信号をテレビ受信装置１の制御部１７へ出力する。リモコン６のかわりに図示せぬスマートフォンなどの端末からコマンド信号を受信するインターフェースを有してもよい。また、インターフェース部１８は外部装置と接続するためのインターフェースを有しており、例えば、テレビ受信装置１と外付けの再生記録装置２を接続するためのインターフェースであってもよい。例えばテレビ受信装置１は、インターフェース部１８を介して、再生記録装置２を制御したり、再生記録装置２とデータをやり取りしたりする。

【0028】

また本実施形態におけるインターフェース部１８は、テレビ受信装置１の外部から音声を受波するための例えばマイクを含む。インターフェース部１８は、マイクで受波した音声をＡｎａｌｏｇ―Ｄｉｇｉｔａｌ変換などによりデジタル化された音声デジタルデータ（音声データと称する場合もある）として出力してもよい。

【0029】

音声コマンド処理部１９は、インターフェース部１８から受信した音声デジタルデータを音声認識サーバ３へ通信部１３を介して出力し、音声認識サーバ３から認識音声データ（テキストデータ）を受信する。音声コマンド処理部１９は、受信した認識音声データを言語認識サーバ４へ通信部１３を介して出力し、言語認識サーバ４からコマンドデータを受信する。音声コマンド処理部１９は、受信したコマンドデータに基づいて制御信号を生成し、インターフェース部１８を介して外部装置（例えば再生記録装置２）に制御信号を出力する。

【0030】

図３は、実施形態に係る音声コマンド処理部の構成例を示す機能ブロック図である。

【0031】

音声データ処理部１９１は、インターフェース部１８から入力される音声データから、マイクへの音声の入力の有無を検知する。音声データ処理部１９１は、音声データから音声のある期間（有音期間）及び音声のない期間（無音期間）を判断し、例えばある一定時間の有音期間が検知されたと判断した場合に、ある一塊の音声データが受信されたものと判断して、音声認識サーバ３に一塊の音声データを出力し、一塊の音声データに対して音声認識をさせることでもよい。一塊の音声データとは、ユーザ７が発した単語や文章などに相当するが、特にそれらに限定されず、単なる雑音の可能性もある。本実施形態の音声データ処理部１９１は、有音期間の始まりもしくは終わりのタイミング（カウント開始タイミングと称する）を時間管理部１９５へ出力する。音声データ処理部１９１が出力するタイミングは、例えばパルスのようなトリガ信号でもよいし、有音期間（または無音期間）の始まりもしくは終わりの時刻（タイムスタンプ）でもよい。

【0032】

音声データ送信部１９２は、通信部１３を介して、音声データ処理部１９１から入力される音声データを音声認識サーバ３など外部装置へ出力する。

【0033】

テキストデータ処理部１９３は、通信部１３を介して、音声認識サーバ３が出力する認識音声データを受信する。また、テキストデータ処理部１９３は、通信部１３を介して、受信した認識音声データを言語認識サーバ４へ出力する。

【0034】

コマンド処理部１９４は、通信部１３を介して、言語認識サーバ４が出力するコマンドデータを受信する。また、コマンド処理部１９４は、コマンドデータを受信すると、コマンドデータの受信タイミングを時間管理部１９５に出力する。出力する受信タイミングは、例えばパルスのようなトリガ信号でもよいし、コマンドデータを受信した時刻（タイムスタンプ）でもよい。コマンド処理部１９４は、出力する受信タイミングを生成するためのクロック（時計）を音声コマンド処理部１９内の各機能、特に音声データ処理部１９１と共有することが望ましい。コマンド処理部１９４は、受信したコマンドデータをコマンド制御部１９６に出力する。

【0035】

時間管理部１９５は、音声データ処理部１９１から受信したカウント開始タイミングとコマンド処理部１９４から受信したコマンドデータの受信タイミングとに基づいて、調整パラメータを計算する。具体的には、例えば、調整パラメータをコマンドデータの受信タイミングとカウント開始タイミングとの差として求める。すなわち、調整パラメータは、ユーザが発した音声データを音声データ処理部１９１が受信してから、コマンド処理部１９４がユーザの発した音声データに対応するコマンドデータを受信もしくは出力するまでの時間であると定義してもよい。当然ながら、調整パラメータは、この定義に関わらず、他の伝搬遅延時間など各種時間を考慮されてもよい。また、本実施形態においては、音声データ処理部１９１やコマンド処理部１９４がコマンドデータの受信タイミングやカウント開始タイミングを決定する例を示すが、本構成に限定されることはない。

【0036】

コマンド制御部１９６は、コマンド処理部１９４が出力したコマンドデータと時間管理部１９５が出力した調整パラメータとに基づいて制御信号を生成し、生成した制御信号を出力する。具体的には、コマンド制御部１９６は、コマンドデータとして、現在再生されている時点から３０秒先のコンテンツデータにスキップして再生させる「３０秒スキップ」コマンドを受信した場合に、３０秒に調整パラメータ分の時間（ｎ秒とする）を加算したり、減算したりして「３０―ｎ秒スキップ」コマンドまたは「３０＋ｎ秒スキップ」コマンドなどの制御信号を生成する。なお、本実施形態においては、音声認識の処理時間を調整パラメータｎとした場合の例を示しているが、例えば、コマンド制御部１９６が制御信号を制御対象装置に出力してから制御対象装置が実際にコマンドを実行するまでの遅延時間を調整パラメータｎに考慮して、より精度の高い制御が可能としてもよい。

【0037】

なお、本実施形態においては、音声認識機能として音声認識サーバ３、言語認識機能として言語認識サーバ４をそれぞれ用いたが、音声認識機能および言語認識機能をテレビ受信装置１（例えば音声コマンド処理部１９）に備えることでもよい。

【0038】

図４は、実施形態に係る再生記録装置の機能構成例を示すブロック図である。
再生記録装置２は、放送信号受信処理部１２やコンテンツ処理部１４が出力するコンテンツデータを記憶し、再生要求などに従ってコンテンツデータを提示制御部１５へ出力し、映像、文字、音声として提示部１６から出力する。ユーザは、提示部１６が出力する映像、文字、音声を視聴することにより、再生記録装置２に記憶されたデジタルコンテンツを視聴する。

【0039】

インターフェース部２１は、外部装置と制御信号やデータなどの送受信をするためのインターフェースであり、例えば、ＨＤＭＩ（登録商標）やＵＳＢなどに対応するインターフェースでもよい。

【0040】

制御部２２は、インターフェース部２１を介して受信した制御信号や再生記録装置２に付属している図示せぬスイッチ、リモコンなどから入力される制御信号などに基づいて、再生記録装置２内の各機能を制御する。本実施形態の制御部２２は、例えば通常の「３０秒スキップ」コマンドなどの時間コマンドの他、コマンド制御部１９６が生成する「３０―ｎ秒スキップ」コマンドまたは「３０＋ｎ秒スキップ」コマンドなどの制御信号を処理し、それらの制御信号に基づいて再生記録装置内の各機能を制御する。

【0041】

記憶部２３は、例えばＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）であり、制御部２２などの制御に基づいて、入力されるデータを保存したり、保存データを出力したりする。

【0042】

データ管理部２４は、例えばＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）上に保管される管理データであり、記憶部２３に保存されているデータに関する情報が格納されている。本実施形態におけるデータ管理部２４は、例えば、記憶部２３に保存されているコンテンツデータの記憶部２３上の論理アドレスとそのコンテンツデータの放送時間もしくはそのコンテンツデータの開始からの経過時間との対応関係などが格納されている。制御部２２は、データ管理部２４に基づいて、時間指定されたコンテンツデータを記憶部２３から取得することができる。

【0043】

（第１の実施形態）
本実施形態においては、ユーザから受信した音声データの音声認識による処理時間を考慮して時間移動コマンドを生成する例について説明する。時間移動コマンドとは、現在の時刻などを基準として、未来や過去への時間移動量を指定して、時間移動量ずらして機能動作させるコマンドのことである。例えば、現在再生中のコンテンツデータを、３０秒未来や１０秒過去のコンテンツデータに移動して再生させる「３０秒スキップ」、「１０秒戻し」などのコマンドがある。また、時間指定ではなく、予め設定されているチャプタ、シーンといった時間枠を指定するコマンドなども含まれる。

【0044】

以下、図面を用いて、本実施形態の動作を説明する。

【0045】

ユーザ７は、再生記録装置２の記憶部２３に保存している番組（コンテンツデータ）をテレビ受信装置１で視聴している。ユーザ７は、番組の現在再生中の部分から３０秒先のコンテンツデータを再生するために「３０秒スキップ」と発声する。「３０秒スキップ」という音声は、テレビ受信装置１のインターフェース部１８において、マイクにて集音され、ＡＤ－ＤＡ変換などが施された後、音声データ処理部１９１に音声データとして入力される。また、「３０秒スキップ」という音声は、リモコン６のマイクに入力され、リモコン６から無線伝送にてテレビ受信装置１のインターフェース部１８に入力されることでもよい。

【0046】

図５は、第１の実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートである。

【0047】

音声データ処理部１９１は、入力された音声データの入力レベルなどを監視し、有音区間、無音区間を判断する。音声データ処理部１９１は、ある一定時間の有音区間を検知した場合、有音区間分の音声データを音声データ送信部１９２、通信部１３、ネットワーク５を介して音声認識サーバ３に送信し、音声データの音声認識を開始する（ステップＳ１０１のＹＥＳ、Ｓ１０２）。音声データ処理部１９１は、音声データの音声認識を開始するとともにカウント開始タイミングのパルスを時間管理部１９５へ出力する。時間管理部１９５は、カウント開始タイミングのパルスを受信すると、カウントを開始する（ステップＳ１０３）。

【0048】

一方、音声コマンド処理部１９から音声データを受信した音声認識サーバ３は、受信した音声データに対して音声認識を実施し、得られたテキストデータ（認識音声データ）をテキストデータ処理部１９３に出力する（ステップＳ１０２）。テキストデータ処理部１９３は、受信した認識音声データを言語認識サーバ４に出力する。コマンド処理部１９４は、言語認識サーバ４からコマンドデータを受信すると、コマンドデータの受信タイミングを示すパルスを時間管理部１９５へ出力する（ステップＳ１０４のＹＥＳ）。時間管理部１９５は、コマンド処理部１９４からコマンドデータの受信タイミングのパルスを受信すると、カウントを停止する（ステップＳ１０５）。また、時間管理部１９５は、コマンド処理部１９４からコマンドデータの受信タイミングのパルスを受信するまでカウントを継続する（ステップＳ１０４のＮＯ）。

【0049】

時間管理部１９５は、カウントを停止すると、カウント値（ｎ秒とする）をコマンド制御部１９６に出力する。また、それと同じタイミングでコマンド処理部１９４は、コマンドデータをコマンド制御部１９６に出力する。時間管理部１９５の出力したカウント値ｎは、音声データ処理部１９１が音声データを受信してから、その音声データが音声認識および言語認識され、コマンドデータとしてコマンド処理部１９４が受信するまでの制御遅延の時間に相当する。

【0050】

コマンド制御部１９６は、カウント値ｎとコマンドデータに基づいて外部装置を制御するための制御信号を生成する。具体的には、コマンドデータが「３０秒スキップ」である場合に、３０－ｎ秒すなわち３０秒から制御遅延ｎだけ短い時間のスキップをさせる制御信号を生成する。

【0051】

図６は、同実施形態に係る音声コマンドと制御信号の時間関係の例を示した図であり、図６（ａ）は「３０秒スキップ」コマンドに基づく制御動作の例について示した図である。左から右に時間軸（図のｔｉｍｅ）が設定されているものとする。

【0052】

時間枠Ｔ１０１は、ユーザが視聴中の番組の再生時間（過去から未来へ）を示している。時間枠Ｔ１０２は、ユーザが発声した音声コマンドの時間長を示している。時間枠Ｔ１０２の開始は、ユーザが音声コマンドを発声開始するタイミングを示し、終了はユーザが音声コマンドの発声を終了するタイミングを示す。時間枠Ｔ１０２の終了の時点は、図５のステップＳ１０１において音声データ処理部１９１が「音声データが受信された」と判断するタイミングに相当する。時間枠Ｔ１０３は、音声データ処理部１９１が「音声データが受信された」と判断してから直ちに、受信された音声データによるコマンド（「３０秒スキップ」コマンド）が実行された場合に、時間枠Ｔ１０１で示される番組のどこまで再生がスキップされるかを示す。時間枠Ｔ１０４は、ユーザが発声した音声コマンドが音声認識され、コマンド制御部１９６がコマンドデータを取得するまでの時間、すなわち図５のステップＳ１０５において時間管理部１９５が出力するカウント値ｎに相当する。

【0053】

ここで時間枠Ｔ１０３は、「３０秒スキップ」コマンドが理想的に実行された場合の例を示している。しかしながら、「３０秒スキップ」コマンドが実際に実行されるのは、時間枠Ｔ１０４の終了部分からである。そこで本実施形態におけるコマンド制御部１９６は、３０秒から時間枠Ｔ１０４に相当する時間（制御遅延に相当）すなわちカウント値ｎを減算して、「３０－ｎ秒スキップ」として制御信号を生成する（図５のステップＳ１０６）。コマンド制御部１９６は、生成した「３０－ｎ秒スキップ」の制御信号を外部装置すなわち再生記録装置２へ出力する（ステップＳ１０７）。

【0054】

図７は、同実施形態に係る再生記録装置の処理動作例を示すフローチャートである。
再生記録装置２の制御部２２は、「３０－ｎ秒スキップ」の制御信号を受信したタイミングで、データ管理部２４に格納されている番組データ（コンテンツデータ）の記憶部２３上の論理アドレスとそのコンテンツデータの開始からの経過時間との対応関係に基づいて、記憶部２３から３０－ｎ秒未来のコンテンツデータを探索し取得する（ステップＳ１５１のＹＥＳ、Ｓ１５２）。制御部２２は、取得した３０－ｎ秒未来のコンテンツデータをテレビ受信装置１へ出力する（ステップＳ１５３）。テレビ受信装置１においては、再生記録装置２からインターフェース部１８を介して受信したコンテンツデータが、提示制御部１５へ出力され、提示部１６からコンテンツとしてユーザに表示される。

【0055】

以上の手順により、再生記録装置２が「３０－ｎ秒スキップ」を実行することで、図６（ａ）の時間枠Ｔ１０３に示される理想の「３０秒スキップ」が可能となる。

【0056】

なお、本実施形態においては、音声データ処理部１９１が出力するパルスおよびコマンド処理部１９４が出力するパルスをそれぞれカウント開始タイミングおよびコマンドデータの受信タイミングとして用いる例を示したが、パルスの代わりに時刻情報であるタイムスタンプを用いることも可能である。例えば、時間管理部１９５は、音声データ処理部１９１が出力する開始タイミングの時刻とコマンド処理部１９４が出力するコマンドデータの受信タイミングの時刻との差としてカウント値ｎを得る。

【0057】

図６（ｂ）は「１０秒戻し」コマンドに基づく制御動作の例について示した図であり、本実施例の動作について、図５、図７を用いて説明する。なお、図６（ｂ）において、図６（ａ）と同様の部分については説明を省略する。また、図５、図７の処理フローについても、図６（ａ）の場合と同様の部分については説明を省略する。

【0058】

ユーザ７は、「１０秒戻し」の音声コマンド（時間枠Ｔ１１２に相当）を発話すると、時間枠Ｔ１１２の発話終了時点から、時間管理部１９５がカウントを開始する（図５のステップＳ１０１～Ｓ１０３）。音声認識処理が実行され、コマンド処理部１９４がコマンドデータを受信すると、時間管理部１９５は、カウント値ｎを出力する（ステップＳ１０３～Ｓ１０５）。カウント値ｎは、時間枠Ｔ１１３の時間に相当する。時間枠Ｔ１１４は、ユーザ７による「１０秒戻し」の音声コマンドが理想的に実行された場合の例を示している。すなわち時間枠Ｔ１１２の発話終了時点から１０秒前の時点から番組の再生が実施されるのが理想である。しかしながら、「１０秒戻し」コマンドが実際に実行されるのは、時間枠Ｔ１１３の終了部分からである。そこで本実施形態においては、コマンド制御部１９６は、時間枠Ｔ１１３の終了時点において、「１０秒戻し」のコマンドデータとカウント値ｎとから「１０＋ｎ秒戻し」として制御信号を生成する（ステップＳ１０６）。コマンド制御部１９６は、生成した「１０＋ｎ秒戻し」の制御信号を外部装置すなわち再生記録装置２へ出力する（ステップＳ１０７）。再生記録装置２の制御部２２は、「１０＋ｎ秒戻し」の制御信号を受信し、実行する（図７のフローチャートによる）。

【0059】

以上の手順により、再生記録装置２が「１０＋ｎ秒戻し」を実行することで、図６（ｂ）の時間枠Ｔ１１４に示される理想の「１０秒戻し」が可能となる。

【0060】

（第２の実施形態）
本実施形態においては、ユーザから受信した音声データの音声認識の処理時間を考慮して時間移動コマンドを生成する方法を、予め設定されているチャプタ、シーンといった時間枠を指定するコマンドに適用した場合の例を示す。

【0061】

「チャプタ」とは、番組データ（コンテンツデータ）を「本編」部分とそれ以外の部分（例えば、コマーシャルメッセージなどであり、以降、「ＣＭ」部分と称する）との２種類に分けた場合の、「本編」部分と「ＣＭ」部分の塊（時間枠）のことである。通常の番組においては、「本編」部分と「ＣＭ」部分とが交互に現れる。ユーザは、リモコンなどを用いて「チャプタ」を選択することで、視聴したい映像をすぐに見ることができる。

【0062】

また「シーン」とは、番組データ（コンテンツデータ）を内容によって分割した時間枠のことである。例えば、同一音楽番組の中で、演奏者ごとに出演時間枠が分けられているような場合に、各出演時間枠をそれぞれ「シーン」と称する時間枠に分割する。ユーザは、リモコンなどを用いて「シーン」を選択することで、視聴したい演奏者の映像をすぐに見ることができる。

【0063】

上記のように「チャプタ」と「シーン」とでは、内容は異なるものの、本実施形態においては同様の動作となるため、特に「チャプタ」の例を用いて説明する。「チャプタ」に係る音声コマンドは、現在視聴しているチャプタの次のチャプタを再生するための「チャプタスキップ」コマンド、また現在視聴しているチャプタの１つ前のチャプタを再生するための「チャプタ戻し」というコマンドを用いた例を示す。

【0064】

以下、図を用いて、本実施形態の動作を説明する。

【0065】

図８は、第２の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図である。
図８（ａ）は「チャプタスキップ」コマンドに基づく音声コマンド処理部１９の制御動作を説明する図であり、本動作について、図５、図９を用いて説明する。なお、図８（ａ）において、図６（ａ）と同様の部分については説明を省略する。また、図５の処理フローについて、図６（ａ）の場合と同様の部分については説明を省略する。

【0066】

図８（ａ）の時間枠Ｔ１２１は、番組を「チャプタ」に分割した場合の例を示しており、各「チャプタ」には、時間順にｋ－２、ｋ－１、ｋ、ｋ＋１と番号を割り振られている。例えば、チャプタｋ－２、ｋは、それぞれ「本編」部分であり、チャプタｋ－１、ｋ＋１は、それぞれ「ＣＭ」部分とみなしてもよい。なお、図８（ａ）の時間枠Ｔ１２１の例に「シーン」を適用した場合は、ｋ－２、ｋ－１、ｋ、ｋ＋１の時間枠にそれぞれ「シーン」が割り当てられる。ユーザは、シーンｋ－２、ｋ－１、ｋ、ｋ＋１を選択して、視聴したいシーンを決定する。

【0067】

ユーザ７は、「チャプタスキップ」という音声コマンド（時間枠Ｔ１２３に相当）を発話すると、時間枠Ｔ１２３の発話終了時点から、時間管理部１９５がカウントを開始する（図５のステップＳ１０１～Ｓ１０３）。音声認識処理が実行され、コマンド処理部１９４がコマンドデータを受信すると、時間管理部１９５は、カウント値ｎを出力する（ステップＳ１０３～Ｓ１０５）。カウント値ｎは、時間枠Ｔ１２４の時間長（秒）に相当する。時間枠Ｔ１２２は、ユーザ７による「チャプタスキップ」の音声コマンドが理想的に実行された場合の例を示している。すなわち時間枠Ｔ１２３の発話終了時点におけるチャプタｋ－２から１チャプタスキップ後のチャプタｋ－１から番組の再生が実施されるのが理想である。図８（ａ）の実施例においては、時間枠Ｔ１２４の終了時点が時間枠Ｔ１２３の発話終了時点と同じチャプタｋ－２内に含まれるため、時間枠Ｔ１２４の終了時点で「チャプタスキップ」が実行されても、時間枠Ｔ１２２のように理想的な制御が実行される。しかしながら、本実施形態において音声コマンド処理部１９は、時間枠Ｔ１２１がどのようにチャプタに分かれているかという情報は持っておらず、通常、その情報は再生記録装置２のデータ管理部２４にある。従って、例えば、コマンド制御部１９６は、時間枠Ｔ１２４の終了時点において、「チャプタスキップ」のコマンドデータとカウント値ｎとの双方を含めて制御信号を生成する（ステップＳ１０６）。コマンド制御部１９６は、「チャプタスキップ」と「カウント値ｎ」とを含めた制御信号を外部装置すなわち再生記録装置２へ出力する（ステップＳ１０７）。

【0068】

図９は、同実施形態に係る再生記録装置の処理動作例を示すフローチャートである。
再生記録装置２の制御部２２は、「チャプタスキップ」と「カウント値ｎ」とを含めた制御信号を受信したタイミング（時刻ＴＲとする）で、「チャプタスキップ」コマンドの発話終了時点（図８（ａ）の時間枠Ｔ１２３の終了時点に相当）を推測する（ステップＳ２５２）。具体的には、時刻ＴＲからカウント値ｎを減算した時刻を発話終了時点とする。次に制御部２２は、推測した発話終了時点がどのチャプタに含まれているかを決定する（ステップＳ２５３）。具体的には、制御部２２は、データ管理部２４に格納されている番組データ（コンテンツデータ）に対して設定されたチャプタごとの記憶部２３上の論理アドレスとそのコンテンツデータの開始からの経過時間との対応関係を用いることで推測した発話終了時点がどのチャプタに含まれているかを判断することができる。制御部２２は、推測した発話終了時点が含まれるチャプタと制御信号に含まれる「チャプタスキップ」とから、移動先チャプタを決定する（ステップＳ２５４）。具体的に図８（ａ）を例にして説明すると、発話終了時点が含まれるチャプタとしてチャプタｋ－２が推測され、「チャプタスキップ」コマンドによりチャプタｋ－２から１つ先のチャプタが移動先チャプタとなることから、制御部２２は、チャプタｋ－１を移動先チャプタとして決定する。時間枠Ｔ１２５は、時間枠Ｔ１２４の終了時点から移動先チャプタｋ－１の開始時点までの移動を示している。制御部２２は、データ管理部２４に格納されている対応関係に基づいて、記憶部２３から該当する移動先チャプタのコンテンツデータを探索する（ステップＳ２５５）。制御部２２は、探索したコンテンツデータを移動先チャプタの先頭からテレビ受信装置１へ出力する（ステップＳ２５６）。テレビ受信装置１においては、再生記録装置２からインターフェース部１８を介して受信したコンテンツデータが、提示制御部１５へ出力され、提示部１６からコンテンツとしてユーザに表示される。

【0069】

以上の手順により、ユーザ７が「チャプタスキップ」を発話することで、図８（ａ）の時間枠Ｔ１２２に示される理想の「チャプタスキップ」が可能となる。

【0070】

次に、本実施形態における別の動作の例を説明する。この例では、「チャプタスキップ」コマンドの実行において、ユーザが音声コマンドの発話終了時のチャプタとコマンド制御部１９６がコマンドデータを取得する時のチャプタが異なる場合の例である。

【0071】

図８（ｂ）は「チャプタスキップ」コマンドに基づく音声コマンド処理部１９の制御動作の例を説明する図であり、本動作について、図５、図９を用いて説明する。なお、図８（ｂ）の説明において、図８（ａ）と同様の部分については説明を省略する。

【0072】

図８（ｂ）においては、ユーザ７が発した「チャプタスキップ」という音声コマンド（時間枠Ｔ１３２に相当）の発話終了時点がチャプタｋ－２内に含まれ、その音声コマンドが処理され、コマンド処理部１９４がコマンドデータを受信するタイミング（時間枠Ｔ１３３の終了時点に相当）がチャプタｋ－１に含まれる。時間管理部１９５は、時間枠Ｔ１３３のカウント値ｎを出力する（図５のステップＳ１０１～Ｓ１０５）。カウント値ｎは、時間枠Ｔ１３３の時間長（秒）に相当する。時間枠Ｔ１３５は、ユーザ７による「チャプタスキップ」の音声コマンドが理想的に実行された場合の例を示している。すなわち時間枠Ｔ１３２の発話終了時点におけるチャプタｋ－２から１チャプタスキップ後のチャプタｋ－１から番組の再生が実施されるのが理想である。しかしながら、図８（ｂ）の実施例においては、時間枠Ｔ１３３の終了時点が時間枠Ｔ１３２の発話終了時点のチャプタｋ－２の次のチャプタｋ－１内に含まれるため、時間枠Ｔ１３３の終了時点で「チャプタスキップ」が実行された場合、チャプタｋ－１の次のチャプタｋから番組再生が実施されるように制御が実行される。本実施形態においてコマンド制御部１９６は、時間枠Ｔ１３３の終了時点において、「チャプタスキップ」のコマンドデータとカウント値ｎとの双方を含めて制御信号を生成する（ステップＳ１０６）。コマンド制御部１９６は、「チャプタスキップ」と「カウント値ｎ」とを含めた制御信号を外部装置すなわち再生記録装置２へ出力する（ステップＳ１０７）。

【0073】

再生記録装置２の制御部２２は、「チャプタスキップ」と「カウント値ｎ」とを含めた制御信号を受信したタイミング（時刻ＴＲとする）で、ユーザ７による「チャプタスキップ」コマンドの発話終了時点（図８（ｂ）の時間枠Ｔ１３２の終了時点に相当）を推測する（図９のステップＳ２５２）。具体的には、時刻ＴＲからカウント値ｎを減算した時刻を発話終了時点とする。次に制御部２２は、推測した発話終了時点がどのチャプタに含まれているかを決定する（ステップＳ２５３）。

【0074】

制御部２２は、推測した発話終了時点が含まれるチャプタと制御信号に含まれる「チャプタスキップ」とから、移動先チャプタを決定する（ステップＳ２５４）。具体的に図８（ｂ）の例では、発話終了時点が含まれるチャプタとしてチャプタｋ－２が推測され、「チャプタスキップ」コマンドによりチャプタｋ－２から１つ先のチャプタが移動先チャプタとなることから、制御部２２は、チャプタｋ－１を移動先チャプタとして決定する。時間枠Ｔ１３４は、時間枠Ｔ１３３の終了時点から移動先チャプタｋ－１の開始時点までの移動を示している。制御部２２は、データ管理部２４に格納されている対応関係に基づいて、記憶部２３から該当する移動先チャプタのコンテンツデータを探索する（ステップＳ２５５）。制御部２２は、探索したコンテンツデータを移動先チャプタの先頭からテレビ受信装置１へ出力する（ステップＳ２５６）。テレビ受信装置１においては、再生記録装置２からインターフェース部１８を介して受信したコンテンツデータが、提示制御部１５へ出力され、提示部１６からコンテンツとしてユーザに表示される。

【0075】

以上の手順により、ユーザ７が「チャプタスキップ」を発話することで、図８（ｂ）の時間枠Ｔ１３５に示される理想の「チャプタスキップ」が可能となる。

【0076】

次に、本実施形態における「チャプタ戻し」コマンドの場合の動作の例を説明する。

【0077】

図１０は、同実施形態に係る音声コマンドと制御信号の時間関係の例を示した図であり、「チャプタ戻し」コマンドの場合の例である。

【0078】

本動作について、図５、図９を用いて説明する。なお、図１０の説明において、図８の場合と同様の部分については説明を省略する。

【0079】

図１０（ａ）は「チャプタ戻し」コマンドに基づく音声コマンド処理部１９の制御動作の例を説明する図であり、ユーザが音声コマンドの発話終了時のチャプタとコマンド制御部１９６がコマンドデータを取得する時のチャプタが異なる場合の例である。

【0080】

図１０（ａ）においては、ユーザ７が発した「チャプタ戻し」という音声コマンド（時間枠Ｔ１４３に相当）の発話終了時点がチャプタｋ－１内に含まれ、その音声コマンドが処理され、コマンド処理部１９４がコマンドデータを受信するタイミング（時間枠Ｔ１４４の終了時点に相当）がチャプタｋに含まれる。時間管理部１９５は、時間枠Ｔ１４４のカウント値ｎを出力する（図５のステップＳ１０１～Ｓ１０５）。カウント値ｎは、時間枠Ｔ１４４の時間長（秒）に相当する。時間枠Ｔ１４２は、ユーザ７による「チャプタ戻し」の音声コマンドが理想的に実行された場合の例を示している。すなわち時間枠Ｔ１４３の発話終了時点におけるチャプタｋ－１から１チャプタ前のチャプタｋ－２から番組の再生が実施されるのが理想である。しかしながら、図１０（ａ）の実施例においては、時間枠Ｔ１４４の終了時点が時間枠Ｔ１４３の発話終了時点のチャプタｋ－１の次のチャプタｋ内に含まれるため、時間枠Ｔ１４４の終了時点で「チャプタ戻し」が実行された場合、チャプタｋの１つ前のチャプタｋ－１から番組再生が実施されるように制御が実行される。本実施形態においてコマンド制御部１９６は、時間枠Ｔ１４４の終了時点において、「チャプタ戻し」のコマンドデータとカウント値ｎとの双方を含めて制御信号を生成する（ステップＳ１０６）。コマンド制御部１９６は、「チャプタ戻し」と「カウント値ｎ」とを含めた制御信号を外部装置すなわち再生記録装置２へ出力する（ステップＳ１０７）。

【0081】

再生記録装置２の制御部２２は、「チャプタ戻し」と「カウント値ｎ」とを含めた制御信号を受信したタイミング（時刻ＴＲとする）で、ユーザ７による「チャプタ戻し」コマンドの発話終了時点（図１０（ａ）の時間枠Ｔ１４３の終了時点に相当）を推測する（図９のステップＳ２５２）。具体的には、時刻ＴＲからカウント値ｎを減算した時刻を発話終了時点とする。次に制御部２２は、推測した発話終了時点がどのチャプタに含まれているかを決定する（ステップＳ２５３）。

【0082】

制御部２２は、推測した発話終了時点が含まれるチャプタと制御信号に含まれる「チャプタ戻し」とから、移動先チャプタを決定する（ステップＳ２５４）。具体的に図１０（ａ）の例では、発話終了時点が含まれるチャプタとしてチャプタｋ－１が推測され、「チャプタ戻し」コマンドによりチャプタｋ－１から１つ前のチャプタが移動先チャプタとなることから、制御部２２は、チャプタｋ－２を移動先チャプタとして決定する。時間枠Ｔ１４５は、時間枠Ｔ１４４の終了時点から移動先チャプタｋ－２の開始時点までの移動を示している。制御部２２は、データ管理部２４に格納されている対応関係に基づいて、記憶部２３から該当する移動先チャプタのコンテンツデータを探索する（ステップＳ２５５）。制御部２２は、探索したコンテンツデータを移動先チャプタの先頭からテレビ受信装置１へ出力する（ステップＳ２５６）。

【0083】

以上の手順により、ユーザ７が「チャプタ戻し」を発話することで、図１０（ａ）の時間枠Ｔ１４２に示される理想の「チャプタ戻し」が可能となる。

【0084】

図１０（ｂ）は「チャプタ戻し」コマンドに基づく音声コマンド処理部１９の別の制御動作の例を説明する図であり、ユーザが音声コマンドの発話終了時のチャプタとコマンド制御部１９６がコマンドデータを取得する時のチャプタが同じ場合の例である。この場合の処理動作は図１０（ａ）の場合と同様であるので、説明は省略する。ユーザ７が「チャプタ戻し」を発話することで、図５、図９の処理フローにより、図１０（ｂ）の時間枠Ｔ１５２に示される理想の「チャプタ戻し」が可能となる。

【0085】

（第３の実施形態）
本実施形態においては、ユーザから受信した音声データの音声認識の処理時間を予め固定値として決めておき、時間移動コマンドを生成する例について説明する。

【0086】

図１１は、第３の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図であり、図１１（ａ）は「３０秒スキップ」コマンドの例を示し、図１１（ｂ）は「１０秒戻し」コマンドの例を示す。第１の実施形態における図６（ａ）、（ｂ）の例においては時間枠Ｔ１０４の時間長である音声認識時間ｎを時間管理部１９５がカウントしたが、本実施形態における図１１（ａ）、（ｂ）の例の場合は、音声認識時間ｎを予め推定して設定した値とする。本実施形態において、推定した音声認識時間ｎを特に音声認識推定時間ｎｅと称する。まず、図１１（ａ）の例について、フローチャートを用いて、処理動作の例を説明する。

【0087】

図１２は、実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートであり、第１の実施形態における図５のフローチャートから、ステップＳ１０３およびＳ１０５を削除したフローチャートと同様である。図５と同様の部分については説明を省略する。

【0088】

ユーザ７は、「３０秒スキップ」の音声コマンド（図１１（ａ）の時間枠Ｔ２０２に相当）を発話すると、時間枠Ｔ２０２の発話終了時点から音声認識処理が実行される（ステップＳ２０１～Ｓ２０２）。コマンド処理部１９４はコマンドデータを受信すると、コマンドデータをコマンド制御部１９６に出力する。また同時にコマンド制御部１９６は、時間管理部１９５から音声認識推定時間ｎｅを取得する。なお音声認識推定時間ｎｅは予めコマンド制御部１９６に設定されていてもよい。コマンド制御部１９６は、コマンドデータと音声認識推定時間ｎｅとに基づいて制御信号を生成する（ステップＳ２０４のＹＥＳ、Ｓ２０６）。具体的には、コマンド制御部１９６は、コマンドデータが「３０秒スキップ」であるとすると、３０秒から音声認識推定時間ｎｅを減算して、「３０－ｎｅ秒スキップ」として制御信号を生成する。コマンド制御部１９６は、生成した「３０－ｎｅ秒スキップ」の制御信号を外部装置すなわち再生記録装置２へ出力する（ステップＳ２０７）。再生記録装置２の制御部２２は、「３０－ｎｅ秒スキップ」の制御信号を受信し、実行する（図７のフローチャートによる）。

【0089】

図１１（ａ）の時間枠Ｔ２０３は、ユーザ７による「３０秒スキップ」の音声コマンドが理想的に実行された場合の例を示しており、矢印の先が移動先のコンテンツデータの時点を示す。本実施形態において、再生記録装置２の制御部２２は、「３０－ｎｅ秒スキップ」を実行する。時間枠Ｔ２０５が「３０－ｎｅ秒スキップ」による移動量を示している。しかしながら、時間枠Ｔ２０３が示す移動先の時点と時間枠Ｔ２０５による移動先の時点とには時間枠Ｔ２０６で示される時間誤差が生じる。これは、ｎｅが音声認識時間の推定値であるからである。本実施形態においては、時間枠Ｔ２０６の時間誤差を許容しながらも、簡易に時間移動コマンドを理想の動作に近づけることができる。また、音声認識推定時間ｎｅを平均化するなどにより音声認識推定時間ｎｅの精度を改善することで時間移動コマンドの精度はさらに改善される。

【0090】

以上の手順により、再生記録装置２が「３０－ｎｅ秒スキップ」を実行することで、図１１（ａ）の時間枠Ｔ２０３に示される理想の「３０秒スキップ」が可能となる。

【0091】

また、図１１（ｂ）の「１０秒戻し」の場合についても図１１（ａ）の例の場合と同様、時間枠Ｔ２１６の時間誤差を許容しながらも、簡易に時間移動コマンドを理想の動作（時間枠Ｔ２１２）に近づけることができる。

【0092】

（第４の実施形態）
第１の実施形態においては、コマンド制御部１９６は、図６に示したように音声認識時間ｎを考慮して、「３０－ｎ秒スキップ」の制御信号を生成する例を示した。本実施形態においては、音声データの音声認識による処理時間（音声認識時間ｎ）のみならず、ユーザの発話した音声コマンドの時間長を考慮して時間移動コマンドを生成する例について説明する。

【0093】

以下、図を用いて、本実施形態の動作を説明する。

【0094】

図１３は、第４の実施形態に係る音声コマンドと制御信号の時間関係の例を示した図であり、図１３（ａ）は「３０秒スキップ」コマンドの例を示し、図１３（ｂ）は「１０秒戻し」コマンドの例を示す。

【0095】

本実施形態においては、例えば、図１３（ａ）に示すように、制御信号の生成において、時間枠Ｔ３０４の時間長である音声認識時間ｎにユーザが発した音声コマンドの発話時間（時間枠Ｔ３０３に相当）を加算した処理遅延時間ｍを用いる。図１３（ａ）、図１３（ｂ）とも処理動作は同様であるため、以下、図１３（ａ）の例の場合について、フローチャートを用いて処理動作の説明をする。

【0096】

図１４は、同実施形態に係る音声コマンド処理部の処理動作例を示すフローチャートである。
ユーザ７によって発話された「３０秒スキップ」という音声は、テレビ受信装置１のインターフェース部１８において、マイクにて集音され、ＡＤ－ＤＡ変換などが施された後、音声データ処理部１９１に音声データとして入力される。

【0097】

音声データ処理部１９１は、入力された音声データの入力レベルなどを監視しており、無音の状態から有音の状態になったタイミング（音声入力タイミングと称する）を検知すると、音声入力タイミングを時間管理部１９５に出力する。時間管理部１９５は、音声入力タイミングをトリガにしてカウントを開始する（ステップＳ３０１、Ｓ３０２）。なお、第１の実施形態にも示したように音声入力タイミングは、パルスでもよいし、タイムスタンプなどの時刻でもよい。本実施形態においては、パルスを用いた場合について示す。音声データ処理部１９１は、入力された音声データの無音区間、有音区間を監視しており、有音区間を検出すると、ある一塊の音声データが受信されたものと判断し、音声認識サーバ３に音声データを出力し、音声認識処理、言語認識処理などを実施させる（ステップＳ３０３のＹＥＳ）。コマンド処理部１９４は、コマンドデータを受信すると、コマンドデータの受信タイミングを示すパルスを時間管理部１９５に出力し、コマンドデータをコマンド制御部１９６に出力する（ステップＳ３０４のＹＥＳ）。時間管理部１９５は、コマンドデータの受信タイミングを示すパルスを受信すると、カウントを停止し、カウント値を出力する（ステップＳ３０５）。時間管理部１９５が出力したカウント値は、音声データ処理部１９１から受信した音声入力タイミングとコマンド処理部１９４から受信したコマンドデータの受信タイミングとの差であり、図１３に示した処理遅延時間ｍに相当する。コマンド制御部１９６は、コマンド処理部１９４が出力したコマンドデータと時間管理部１９５が出力した処理遅延時間ｍとに基づいて制御信号を生成し、生成した制御信号を出力する。具体的には、コマンド制御部１９６は、コマンドデータとして、「３０秒スキップ」コマンドを受信した場合に、３０秒に処理遅延時間ｍ分の時間を減算して「３０―ｍ秒スキップ」の制御信号を生成する（ステップＳ３０６）。コマンド制御部１９６は、生成した「３０－ｍ秒スキップ」の制御信号を外部装置すなわち再生記録装置２へ出力する（ステップＳ３０７）。再生記録装置２における処理は、図７と同様であるため説明を省略する。

【0098】

以上の手順により、再生記録装置２が「３０－ｍ秒スキップ」を実行することで、図１３（ａ）の時間枠Ｔ３０２に示される理想の「３０秒スキップ」、すなわち、ユーザが音声コマンド「３０秒スキップ」を発話開始してから３０秒後のコンテンツデータへの移動が可能となる。

【0099】

本実施形態によれば、ユーザ７がコンテンツをスキップしたいと考えてコマンドを発話したタイミングを基準に、コンテンツデータのスキップが可能になる。

【0100】

なお、図１３（ｂ）の例についても図１３（ａ）の例の場合と同様、ユーザ７によるコマンドの発話音声時間を考慮した時間移動コマンド「１０秒戻し」による再生記録装置２の制御が可能となる。また、第２の実施形態に示した「チャプタ」もしくは「シーン」の移動の場合についても、本実施形態の適用は可能である。

【0101】

（変形例１）
第１から第３の実施形態に示した「３０秒スキップ」、「１０秒戻し」、「チャプタスキップ」、「チャプタ戻し」などの時間移動コマンドを、例えば複数回繰り返す場合にも第１から第３の実施形態の適用は可能である。複数回繰り返す場合とは、例えば「３０秒スキップ」を２回繰り返すことで、６０秒スキップさせることである。このような場合の音声コマンドは、例えば「３０秒スキップ３回」、「１０秒戻し４回」、「チャプタスキップ３回」、「チャプタ戻し５回」などのように、コマンド名の後ろにコマンドの実行回数を付与するようなコマンド名とすることでもよい。このように複数回同じコマンドを実施させるようなコマンドをここでは複数回コマンドと称し、これに対し「３０秒スキップ」、「１０秒戻し」、「チャプタスキップ」、「チャプタ戻し」など第１から第３の実施形態にて例に示したコマンドを単体コマンドと称する。

【0102】

複数回コマンドに対する調整パラメータ（音声認識時間ｎ、処理遅延時間ｍ）や再生記録装置２に対する制御信号は、第１から第３の実施形態にて示したフローチャートを用いて単体コマンドと同様に生成できる。再生記録装置２においては、受信した複数回コマンドと調整パラメータから移動先のコンテンツデータやチャプタを特定することで、音声認識時間ｎ、処理遅延時間ｍを考慮した複数回コマンドの実行が可能となる。例えば、「３０秒スキップ３回」の場合、再生記録装置２は、制御信号の受信タイミング（時刻ＴＲ）から調整パラメータを用いて、ユーザによる複数回コマンド「３０秒スキップ３回」の発信時刻を求める。再生記録装置２は、求めた複数回コマンドの発信時刻（時刻ｔ０とする）を基準にして、３０秒スキップ３回分のコンテンツデータ、すなわち、時刻ｔ０＋９０秒におけるコンテンツデータを移動先のコンテンツデータとして決定する。ここで時刻ｔ０を複数回コマンドの発信時刻とすると、時間移動コマンドに処理遅延時間ｍを考慮でき、時刻ｔ０を複数回コマンドの発信終了時刻とすると、時間移動コマンドに音声認識時間ｎを考慮できる。

【0103】

以上の手順により、複数回コマンドのような時間移動コマンドに対しても、音声認識時間ｎ、処理遅延時間ｍを考慮でき、より精度の高い時間移動コマンドの実行が可能となる。

【0104】

なお、複数回コマンドに似た場合として、単体コマンドを連呼する場合がある。例えば、「３０秒スキップ」を例にとると、「３０秒スキップ、３０秒スキップ、３０秒スキップ」のように連呼された場合である。このような場合は、「３０秒スキップ」コマンドが１回発話されたものとみなすように動作させることでもよい。例えば、コマンド処理部１９４において、連続して同じ「３０秒スキップ」コマンドデータが受信された場合、２回目以降に受信された「３０秒スキップ」コマンドデータをコマンド制御部１９６に出力しないようにする。このように１回目の「３０秒スキップ」のコマンドデータの受信時刻を用いることで調整パラメータ（音声認識時間ｎ、処理遅延時間ｍ）を算出することでもよい。

【0105】

また、以上の手順は、チャプタやシーンのスキップ、戻しなどにも同様に適用できる。

【0106】

（変形例２）
以上の実施形態においては、音声認識機能として音声認識サーバ３、言語認識機能として言語認識サーバ４をそれぞれ用いた場合の例を示したが、音声認識機能および言語認識機能を備えたテレビ受信装置１を用いた場合についても本発明の範囲内である。この場合は、テレビ受信装置１は、ネットワーク５を介した通信が不要になるため、音声認識機能および言語認識機能のための処理時間が低減されるほか、ネットワーク５を介した通信による処理時間の揺らぎが小さくなり、例えば、第３の実施形態において説明した音声認識推定時間ｎｅの推定精度が改善される効果がある。

【0107】

（変形例３）
以上の実施形態においては、音声コマンド処理部１９をテレビ受信装置１に備える例について説明したが、音声コマンド処理部１９の機能を、テレビ受信装置１と分けて、独立した図示せぬ音声コマンド処理装置としてもよい。例えば、音声コマンド処理装置は、インターフェース部１８に対応する図示せぬインターフェース部を備えて、テレビ受信装置１と通信をすることでもよい。また、音声コマンド処理装置は、ネットワーク５上に備えられ、通信部１３を介してテレビ受信装置１と通信をすることでもよい。また、音声コマンド処理装置は、ネットワーク５上の音声認識サーバ３や言語認識サーバ４を用いて、音声認識機能、言語認識機能を実現してもよいし、音声コマンド処理装置の内部に、音声認識機能、言語認識機能を備えることでもよい。

【0108】

（変形例４）
音声コマンド処理部１９の機能を、テレビ受信装置１のリモコン６に備えることでもよい。例えば、ユーザがリモコン６のマイクに音声コマンドを発話すると、リモコン６は、制御信号を生成し、テレビ受信装置１のインターフェース部１８に生成した制御信号を出力するようにしてもよい。リモコン６は、内部に音声認識機能、言語認識機能を備えてもよいし、外部の音声認識機能、言語認識機能を用いてもよい。

【0109】

以上に述べた少なくとも１つの実施形態によれば、音声認識制御における制御遅延の影響を低減する制御信号生成回路、制御信号生成回路を利用した各種装置（音声コマンド処理装置、テレビ受信装置、マイク付きリモコン）、制御信号生成回路が生成した制御信号で制御が可能な被制御装置（再生記録装置）、制御信号生成回路を利用した各種システム、制御信号生成方法、プログラムを提供することができる。

【0110】

なお、図面に示した解析画面などに表示される条件パラメータやそれらに対する選択肢、値、評価指標などの名称や定義、種類などは、本実施形態において一例として示したものであり、本実施形態に示されるものに限定されるものではない。

【0111】

本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。さらにまた、請求項の各構成要素において、構成要素を分割して表現した場合、或いは複数を合わせて表現した場合、或いはこれらを組み合わせて表現した場合であっても本発明の範疇である。また、複数の実施形態を組み合わせてもよく、この組み合わせで構成される実施例も発明の範疇である。

【0112】

また、図面は、説明をより明確にするため、実際の態様に比べて、各部の幅、厚さ、形状等について模式的に表される場合がある。ブロック図においては、結線されていないブロック間もしくは、結線されていても矢印が示されていない方向に対してもデータや信号のやり取りを行う場合もある。フローチャートに示す処理は、ＩＣチップ、デジタル信号処理プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒまたはＤＳＰ）などのハードウェアもしくはマイクロコンピュータを含めたコンピュータなどで動作させるソフトウェア（プログラムなど）またはハードウェアとソフトウェアの組み合わせによって実現してもよい。また請求項を制御ロジックとして表現した場合、コンピュータを実行させるインストラクションを含むプログラムとして表現した場合、及び前記インストラクションを記載したコンピュータ読み取り可能な記録媒体として表現した場合でも本発明の装置を適用したものである。また、使用している名称や用語についても限定されるものではなく、他の表現であっても実質的に同一内容、同趣旨であれば、本発明に含まれるものである。

【符号の説明】

【0113】

１…テレビ受信装置、２…再生記録装置、３…音声認識サーバ、４…言語処理サーバ、５…ネットワーク、６…リモコン、７…ユーザ、１１…チューナ、１２…放送信号受信処理部、１３…通信部、１４…コンテンツ処理部、１５…提示制御部、１６…提示部、１７…制御部、１８…インターフェース部、１９…音声コマンド処理部、２１…インターフェース部、２２…制御部、２３…記憶部、２４…データ管理部、１９１…音声データ処理部、１９２…音声データ送信部、１９３…テキストデータ処理部、１９４…コマンド処理部、１９５…時間管理部、１９６…コマンド制御部。

【図1】