(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022028094
(43)【公開日】2022-02-15
(54)【発明の名称】情報処理装置、制御方法、情報処理端末、情報処理方法
(51)【国際特許分類】
G10L 15/28 20130101AFI20220207BHJP
G10L 15/00 20130101ALI20220207BHJP
G10L 15/30 20130101ALI20220207BHJP
H04R 3/00 20060101ALI20220207BHJP
H04R 1/02 20060101ALI20220207BHJP
G06F 3/16 20060101ALI20220207BHJP
【FI】
G10L15/28 230K
G10L15/00 200G
G10L15/00 200F
G10L15/30
H04R3/00 320
H04R1/02 108
G06F3/16 650
G06F3/16 610
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2018239329
(22)【出願日】2018-12-21
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(72)【発明者】
【氏名】亀岡 慎平
(72)【発明者】
【氏名】浅津 英樹
(72)【発明者】
【氏名】山地 秀典
【テーマコード(参考)】
5D017
5D220
【Fターム(参考)】
5D017BC01
5D220BA02
(57)【要約】
【課題】認識対象となる音声をユーザの意図に応じたマイクロフォンを用いて検出することができるようにする。
【解決手段】本技術の一側面の情報処理装置は、筐体に設けられたマイクロフォンである本体マイクロフォンと、認識対象となる音声の検出を、本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、情報処理端末に対するユーザの操作の状態に基づいて制御する。本技術は、マイクロフォンを有するTVに適用することができる。
【選択図】
図6
【特許請求の範囲】
【請求項1】
筐体に設けられたマイクロフォンである本体マイクロフォンと、
認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する制御部と
を備える情報処理装置。
【請求項2】
前記端末マイクロフォンにより検出され、前記情報処理端末から送信された音声を受信する通信部をさらに備える
請求項1に記載の情報処理装置。
【請求項3】
前記制御部は、前記ユーザの操作の状態として、前記情報処理端末に設けられた所定のボタンを前記ユーザが押下したか否かを判定する
請求項1に記載の情報処理装置。
【請求項4】
前記制御部は、前記所定のボタンを前記ユーザが押下したと判定した場合、前記端末マイクロフォンにより音声の検出を行う
請求項3に記載の情報処理装置。
【請求項5】
前記制御部は、前記所定のボタンを前記ユーザが押下していないと判定した場合、前記本体マイクロフォンにより音声の検出を行う
請求項4に記載の情報処理装置。
【請求項6】
所定のアプリケーションを実行するアプリケーション実行部をさらに備え、
前記制御部は、音声認識の要求が前記所定のアプリケーションから出力されたことに応じて、前記所定のボタンを前記ユーザが押下したか否かの判定を行う
請求項3に記載の情報処理装置。
【請求項7】
前記音声認識の要求は、前記所定のアプリケーションの実行中に前記所定のボタンが押下された場合、および、音声認識を行うための操作が前記所定のアプリケーションの画面を用いて前記ユーザにより行われた場合に出力される
請求項6に記載の情報処理装置。
【請求項8】
前記本体マイクロフォンまたは前記端末マイクロフォンにより検出された音声をサーバに送信し、前記サーバによる音声認識の結果を受信する音声認識制御部をさらに備える
請求項1に記載の情報処理装置。
【請求項9】
前記制御部は、前記ユーザの操作の状態として、前記情報処理端末を前記ユーザが持っているか否かを判定する
請求項1に記載の情報処理装置。
【請求項10】
前記制御部は、音声の検出に用いられているマイクロフォンが前記本体マイクロフォンであるか、または、前記端末マイクロフォンであるかを提示する
請求項1に記載の情報処理装置。
【請求項11】
筐体に設けられたマイクロフォンである本体マイクロフォンを備える情報処理装置が、
認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する
制御方法。
【請求項12】
筐体に設けられたマイクロフォンである端末マイクロフォンと、
認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と、
認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する通信部と
を備える情報処理端末。
【請求項13】
筐体に設けられたマイクロフォンである端末マイクロフォンと、
認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と
を備える情報処理端末が、
認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、情報処理装置、制御方法、情報処理端末、情報処理方法に関し、特に、認識対象となる音声をユーザの意図に応じたマイクロフォンを用いて検出することができるようにした情報処理装置、制御方法、情報処理端末、情報処理方法に関する。
【背景技術】
【0002】
近年、音声アシスタント機能を搭載したTV(テレビジョン受像機)が販売されている。音声アシスタント機能は、機器の操作を音声で行うことができるようにするものである。
【0003】
ユーザは、音声アシスタント機能を利用することにより、例えば、TVの操作や、番組の検索、動画配信サービスが配信する動画の検索を、キーワードなどを発話することによって行うことができる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
音声アシスタント機能を利用する場合、ユーザは、リモートコントローラに設けられたマイクボタンを押してから発話を行う。ユーザの発話は、リモートコントローラに設けられたマイクロフォンにより検出され、TVに対して送信される。
【0006】
TVの本体にマイクロフォンを搭載するモデルもある。この場合、ユーザの音声を、本体に設けられたマイクロフォンにより検出するのか、リモートコントローラに設けられたマイクロフォンにより検出するのかを適切に切り替える必要がある。
【0007】
本技術はこのような状況に鑑みてなされたものであり、認識対象となる音声をユーザの意図に応じたマイクロフォンを用いて検出することができるようにするものである。
【課題を解決するための手段】
【0008】
本技術の第1の側面の情報処理装置は、筐体に設けられたマイクロフォンである本体マイクロフォンと、認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する制御部とを備える。
【0009】
本技術の第1の側面においては、認識対象となる音声の検出を、本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかが、情報処理端末に対するユーザの操作の状態に基づいて制御される。
【0010】
本技術の第2の側面の情報処理端末は、筐体に設けられたマイクロフォンである端末マイクロフォンと、認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と、認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する通信部とを備える。
【0011】
本技術の第2の側面においては、認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声が前記情報処理装置に対して送信される。
【図面の簡単な説明】
【0012】
【
図1】本技術の一実施形態に係るTVの音声認識について説明する図である。
【
図2】本体マイクを用いた操作の例を示す図である。
【
図3】リモコンマイクを用いた操作の例を示す図である。
【
図4】マイクボタンの押下後のやりとりの例を示す図である。
【
図6】音声の検出に用いられるマイクロフォンの切り替えの例を示す図である。
【
図7】TVのアプリケーション構造の例を示す図である。
【
図8】TVのハードウェア構成例を示すブロック図である。
【
図9】リモートコントローラの構成例を示すブロック図である。
【
図10】TVの機能構成例を示すブロック図である。
【
図11】TVのマイク制御処理について説明するフローチャートである。
【
図12】情報処理端末としてのスマートフォンの例を示す図である。
【
図15】コンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.TVの音声認識機能
2.アプリケーション構造
3.TVの構成と動作
4.変形例
【0014】
<<TVの音声認識機能>>
図1は、本技術の一実施形態に係るTVの音声認識について説明する図である。
【0015】
図1に示すように、TV1の筐体正面にはディスプレイ11が設けられ、ディスプレイ11の下にはマイクロフォン12が設けられる。マイクロフォン12は、例えばユーザの音声を検出するために用いられる。
【0016】
TV1には音声アシスタント機能が搭載されている。ユーザは、番組の検索、動画配信サービスが配信する動画の検索、Webサイトの検索、設定変更、チャンネルの切り替えなどのTV1の各種の操作を音声により行うことができる。TV1に接続された外部のデバイスの操作なども、音声により行うことが可能とされる。
【0017】
マイクロフォン12により検出された音声を表す音声データは、インターネット31を介して音声認識サーバ32に送信される。音声認識サーバ32においては音声認識が行われ、音声認識結果を表す情報がTV1に対して送信される。
【0018】
TV1は、音声認識サーバ32から送信されてきた情報を受信し、音声認識結果に応じた処理を行うことになる。
【0019】
このように音声を用いた操作が可能なTV1には、TV1の操作に用いる情報処理端末としてのリモートコントローラ2も用意される。ユーザは、リモートコントローラ2を用いることによっても、TV1を操作することができる。
【0020】
リモートコントローラ2は、ユーザが片手で持つことが可能な筐体を有する。筐体の形状としては、例えば、細長状、直方体状などが挙げられる。リモートコントローラ2の筐体の表面には、電源ボタン、音量ボタン、チャンネルボタン、カーソルボタン、決定ボタンなどの各種のボタンが設けられる。ユーザの操作の内容を表す信号は、赤外線通信により、または、Bluetooth(登録商標)、無線LANなどの電波を用いた無線通信によりTV1に対して送信される。
【0021】
リモートコントローラ2にはマイクロフォン22が設けられる。ユーザは、他のボタンとともに並べて設けられたマイクボタン21を押下することにより、マイクロフォン22を用いて音声を入力することができる。
【0022】
マイクロフォン22により検出された音声を表す音声データはTV1に対して送信され、マイクロフォン12により検出された音声と同様の処理が施される。リモートコントローラ2から送信された音声データは、TV1から音声認識サーバ32に対して送信され、音声認識サーバ32において音声認識の対象となる。
【0023】
リモートコントローラ2は、TV1用の外部の機器である。TV1には、音声を入力するためのマイクロフォンとして、本体に設けられたマイクロフォン12と、TV1用の外部の機器に設けられたマイクロフォン22との2つのマイクロフォンが用意されていることになる。
【0024】
以下、適宜、TV1の本体に設けられたマイクロフォン12を本体マイクという。また、リモートコントローラ2に設けられたマイクロフォン22をリモコンマイクという。
【0025】
図2は、本体マイクを用いた操作の例を示す図である。
【0026】
図2の吹き出しに示すように、ユーザは、起動ワードを発話することにより音声アシスタント機能を利用することができる。
図2の例においては「OK TV」が起動ワードとされている。
【0027】
起動ワード後のユーザの発話が本体マイクにより検出され、音声認識の対象となる。
図2の例においては、「4チャンネルつけて」の発話がユーザにより行われている。
【0028】
本体マイクにより検出された「4チャンネルつけて」の音声を表す音声データが音声認識サーバ32に送信される。TV1においては、音声認識サーバ32による音声認識の結果に基づいて、受信するチャンネルを4チャンネルに切り替える動作が行われる。
【0029】
このように、ユーザは、起動ワードを発話することにより音声アシスタント機能を起動させ、リモートコントローラ2を用いずに、本体マイクに音声を入力することによって各種の操作を行うことができる。
図2の例においては、リモートコントローラ2はユーザの隣に置かれている。
【0030】
図3は、リモコンマイクを用いた操作の例を示す図である。
【0031】
マイクボタン21を押下した後に操作が可能となるから、リモコンマイクを用いた操作を行う場合、
図3に示すように、ユーザはリモートコントローラ2を持った状態で操作を行うことになる。
【0032】
図4は、マイクボタン21の押下後のやりとりの例を示す図である。
【0033】
マイクボタン21が押下された場合、矢印A1に示すように、マイクボタン21が押下されたことを表す情報がリモートコントローラ2からTV1に対して送信される。
【0034】
マイクボタン21が押下されたことを表す情報を受信したTV1からリモートコントローラ2に対しては、矢印A2に示すように、音声の検出を開始することの要求である音声検出リクエストが送信される。
【0035】
音声検出リクエストを受信したリモートコントローラ2においては、リモコンマイクによる音声の検出が行われる。リモコンマイクにより検出されたユーザの音声を表す音声データは、矢印A3に示すようにTV1に対して送信される。
【0036】
なお、TV1からリモートコントローラ2に対する音声検出リクエストの送信と、リモートコントローラ2からTV1に対する音声データの送信は、電波を用いた無線通信により行われる。
【0037】
また、リモートコントローラ2からTV1に対する、マイクボタン21が押下されたことを表す情報の送信は、赤外線通信により、または電波を用いた無線通信により行われる。
【0038】
図3の説明に戻り、マイクボタン21の押下後のユーザの発話がリモコンマイクにより検出され、音声認識の対象となる。
図3の例においては、「野球の番組を検索して」の発話がユーザにより行われている。
【0039】
リモコンマイクにより検出された「野球の番組を検索して」の音声を表す音声データがTV1を介して音声認識サーバ32に送信される。TV1においては、音声認識サーバ32による音声認識の結果に基づいて、野球の番組を検索するための動作が行われる。
【0040】
このように、ユーザは、マイクボタン21を押下することによってリモコンマイクを有効な状態とし、リモコンマイクに音声を入力することによって各種の操作を行うことができる。
【0041】
【0042】
図5の例においては、番組表アプリケーションがアクティブとなり、番組表アプリケーションの画面がディスプレイ11に表示されている。それぞれのタイル状の領域には、番組のサムネイル画像などが表示される。画面に表示されるカーソルを移動させることにより、ユーザは所定の番組を選択し、詳細な情報を表示させたりすることができる。
【0043】
後述するように、汎用のOS(Operating System)を搭載した機器であるTV1には各種のアプリケーションがインストールされている。実行中のアプリケーションのうち、アクティブな状態になっているアプリケーションの画面がディスプレイ11に表示される。
【0044】
右下に示すように、番組表アプリケーションの画面には音声認識アイコン51が表示される。音声認識アイコン51は、音声認識を行うときに操作される画像である。
【0045】
ユーザは、リモートコントローラ2の例えばカーソルボタンを操作してカーソルを音声認識アイコン51にあて、決定ボタンを押下することによって、音声の入力を行うことができる状態にすることができる。このように、ユーザは、音声認識アイコン51などの、音声認識用のGUI(Graphical User Interface)の表示を操作することによっても、音声の入力が可能な状態にすることができる。
【0046】
音声認識アイコン51の操作後のユーザの発話は、本体マイクにより検出され、音声認識の対象となる。すなわち、リモコンマイクは有効な状態にならない。
【0047】
図6は、音声の検出に用いられるマイクロフォンの切り替えの例を示す図である。
【0048】
図6の右側に示すように、ユーザが起動ワードを発話したことが検出された場合、その後の音声は、矢印A11の先に示すように、TV1に設けられた本体マイクにより検出される。
【0049】
図6の左側に示すように、アプリケーションから音声認識要求が出力された場合、矢印A12の先に示すように、マイクボタン21をユーザが押下したか否かの判定が行われる。
【0050】
アプリケーションからの音声認識要求は、マイクボタン21がユーザにより押下された場合、または、音声認識用のGUIの表示がユーザにより操作された場合に、例えばアクティブな状態のアプリケーションから出力される。
【0051】
マイクボタン21を押下したか否かの判定であるマイクボタン押下判定は、アプリケーションから出力された音声認識要求を受信したプログラムモジュールにより行われる。マイクボタン押下判定を行うプログラムモジュールは、例えばOSの一部やドライバとして設けられる。
【0052】
マイクボタン押下判定により、マイクボタン21がユーザにより押下されたと判定された場合、矢印A13の先に示すように、リモートコントローラ2に設けられたリモコンマイクが有効となり、その後の音声がリモコンマイクにより検出される。リモコンマイクにより検出された音声が音声認識の対象となる。
【0053】
一方、マイクボタン押下判定により、マイクボタン21がユーザにより押下されていないと判定された場合、すなわち、アプリケーションからの音声認識要求が、音声認識用のGUIの表示が操作されたことに応じて出力された場合、その後の音声は、矢印A14の先に示すように本体マイクにより検出される。
【0054】
このように、音声を入力するためのユーザの操作として、マイクボタン21を押下する操作、起動ワードを発話する操作、および、音声認識用のGUIの表示を用いた操作の3種類の操作が用意される。
【0055】
TV1は、マイクボタン21を押下する操作が行われた場合のみ、リモコンマイクにより音声を検出する状態となり、他の2つの操作が行われた場合には、本体マイクにより音声を検出する状態となる。
【0056】
マイクボタン21を押下する操作は、リモートコントローラ2を手に持ち、目でマイクボタン21を確認して行う操作であるから、リモートコントローラ2に設けられているリモコンマイクにより音声を入力しようとする意図をユーザが有していると考えられる。
【0057】
マイクボタン21を押下する操作が行われた場合にリモコンマイクにより音声を検出するTV1の動作は、ユーザの意図に応じたマイクロフォンを用いた動作といえる。
【0058】
一方、起動ワードを発話する操作は、主にTV1に顔を向けて行う操作であるから、本体マイクにより音声を入力しようとする意図をユーザが有していると考えられる。同様に、音声認識用のGUIの表示を用いた操作は、TV1の画面を見て行う操作であるから、本体マイクにより音声を入力しようとする意図をユーザが有していると考えられる。
【0059】
起動ワードを発話する操作や音声認識用のGUIの表示を用いた操作が行われた場合に本体マイクにより音声を検出するTV1の動作も、ユーザの意図に応じたマイクロフォンを用いた動作といえる。
【0060】
音声の検出に用いるマイクロフォンを以上のようにして切り替えるTV1の一連の処理については後述する。
【0061】
<<アプリケーション構造>>
図7は、TV1のアプリケーション構造の例を示す図である。
【0062】
TV1には、TV用OS61が搭載される。TV用OS61上で動作する各種のアプリケーションがTV1にインストールされる。
図7の例においては、TV視聴アプリケーション71、番組表アプリケーション72、Webブラウザ73、コンテンツ視聴アプリケーション74が示されている。
【0063】
TV視聴アプリケーション71は、放送された番組の視聴を管理するアプリケーションである。TV視聴アプリケーション71の起動中、ユーザは、リモートコントローラ2を操作するなどして所定のチャンネルを選択し、選択したチャンネルで放送されている番組を視聴することができる。
【0064】
番組表アプリケーション72は、番組の放送の予定をまとめた番組表を管理するアプリケーションである。番組表アプリケーション72の起動中、ユーザは、リモートコントローラ2を操作するなどして、ディスプレイ11に表示される番組表の画面の表示を切り替えることができる。
【0065】
Webブラウザ73は、インターネット31に接続し、Webページを閲覧するときなどに使用するアプリケーションである。Webブラウザ73の起動中、ユーザは、リモートコントローラ2を操作するなどして所定のWebページを閲覧することができる。
【0066】
コンテンツ視聴アプリケーション74は、図示せぬ配信サーバにより提供される配信サービスを利用するためのアプリケーションである。
【0067】
例えばコンテンツ視聴アプリケーション74の起動時、TV1には、配信サーバから送信されてきた情報に基づいて、配信サービスのメイン画面が表示される。メイン画面には、タイトルやサムネイル画像などの、視聴可能なコンテンツに関する情報が表示される。ユーザは、リモートコントローラ2を操作するなどして、好みのコンテンツを選択することができる。ユーザが所定のコンテンツを選択したとき、コンテンツの配信が開始される。
【0068】
このような各種のアプリケーションがTV1にはインストールされる。例えば音声認識用のGUIの表示が操作された場合、音声認識要求が実行中のアプリケーションから出力される。アプリケーションから出力された音声認識要求に応じてマイクロフォンの切り替えを行うプログラムモジュールもTV1には用意される。
【0069】
<<TVの構成と動作>>
<TVの構成>
図8は、TV1のハードウェア構成例を示すブロック図である。
【0070】
図8に示す構成のうち、上述した構成には同じ符号を付してある。重複する説明については適宜省略する。
【0071】
チューナ101は、図示せぬアンテナから供給された放送波信号、または、衛星放送やケーブルテレビのセットトップボックスから供給された放送波信号を受信し、ユーザにより選択されたチャンネルの信号を抽出する。チューナ101は、抽出した信号に対して、A/D変換、復調などの各種の処理を施し、各種の処理を施すことによって取得した番組のデータをデコーダ102に出力する。
【0072】
デコーダ102は、番組のデータを構成するビデオストリームをデコードし、デコードして得られた各ピクチャのデータを信号処理部103に出力する。また、デコーダ102は、番組のデータを構成するオーディオストリームをデコードし、番組の音声データを信号処理部103に出力する。
【0073】
デコーダ102は、所定の配信サービスのコンテンツを再生する場合、通信部110において受信され、バス105を介して供給されたコンテンツのビデオストリームとオーディオストリームをデコードする。デコーダ102は、コンテンツのビデオストリームをデコードして得られた各ピクチャのデータと、オーディオストリームをデコードして得られた音声データを信号処理部103に出力する。
【0074】
信号処理部103は、CPU106による制御に従って、デコーダ102から供給された各ピクチャの画質調整を行う。信号処理部103は、画質調整後のピクチャをディスプレイ11に出力し、番組やコンテンツの映像を表示させる。
【0075】
また、信号処理部103は、デコーダ102から供給された音声データのD/A変換等を行い、映像に同期させて、番組やコンテンツの音声をスピーカ104から出力させる。
【0076】
ディスプレイ11は、LCD(Liquid Crystal Display)、有機ELディスプレイなどにより構成される。
【0077】
CPU(Central Processing Unit)106、ROM(Read Only Memory)107、RAM(Random Access Memory)108は、バス105により相互に接続される。CPU106は、ROM107や記録部109に記録されているプログラムをRAM108を用いて実行し、TV1の全体の動作を制御する。
【0078】
記録部109は、HDD(Hard Disk Drive)やSSD(Solid State Drive)などの記録媒体により構成される。記録部109は、番組のデータ、コンテンツ、EPGデータ、プログラムなどの各種のデータを記録する。
【0079】
通信部110は、インターネット31のインタフェースである。通信部110は、音声認識サーバ32との間で通信を行う。
【0080】
操作I/F部111は、赤外線通信によってリモートコントローラ2から送信されてきた情報を受信する。また、操作I/F部111は、電波を用いた無線通信によって、リモートコントローラ2との間で通信を行う。リモートコントローラ2から送信され、操作I/F部111により受信された音声データなどの情報は、バス105を介してCPU106に出力される。操作I/F部111は、リモートコントローラ2との間で通信を行う通信部として機能する。
【0081】
カメラ112は、TV1の正面の状況を適宜撮影する。
【0082】
図9は、リモートコントローラ2の構成例を示すブロック図である。
【0083】
操作I/F部121は、赤外線通信によってTV1に情報を送信する。また、操作I/F部121は、電波を用いた無線通信によって、TV1との間で通信を行う。操作I/F部121により受信された情報はコントローラ122に出力される。
【0084】
コントローラ122は、CPU、ROM、RAMから構成される。コントローラ122は、所定のプログラムを実行し、リモートコントローラ2の全体を制御する。コントローラ122は、マイクロフォン22により検出された音声を表す音声データ、または、操作部123から供給された、ユーザの操作の内容を表す情報を、操作I/F部121を介してTV1に送信する。
【0085】
マイクロフォン22は、ユーザの音声を検出し、検出した音声を表す音声データをコントローラ122に出力する。
【0086】
操作部123は、ユーザによる操作を検出し、検出した操作の内容を表す情報をコントローラ122に出力する。
【0087】
図10は、TV1の機能構成例を示すブロック図である。
【0088】
図10に示す機能部のうちの少なくとも一部は、
図8のCPU106により、TV用OS61を含む各種のプログラムが実行されることによって実現される。
【0089】
図10に示すように、TV1においては、操作検出部131、起動ワード検出部132、マイク制御部133、音声受信制御部134、アプリケーション実行部135、および音声認識制御部136が実現される。マイクロフォン12により構成される本体マイクにより検出された音声を表す音声データは、起動ワード検出部132とマイク制御部133に入力される。
【0090】
操作検出部131は、操作I/F部111を制御し、リモートコントローラ2を用いて行われるユーザの操作を検出する。マイクボタン21の押下、画面に表示されたカーソルの移動などの各種の操作が操作検出部131により検出される。操作検出部131により検出された、ユーザの操作の内容を表す情報は、マイク制御部133、音声受信制御部134、およびアプリケーション実行部135に供給される。
【0091】
起動ワード検出部132は、本体マイクから供給された音声データに基づいて起動ワードの発話を検出する。起動ワード検出部132は、ユーザが起動ワードを発話したことを検出した場合、そのことを表す情報をマイク制御部133に出力する。
【0092】
マイク制御部133は、音声認識の対象とする音声の検出に用いるマイクロフォンを切り替える。例えば、マイク制御部133は、起動ワードを発話したことが検出された場合、本体マイクにより検出された音声を、音声認識の対象として音声認識制御部136に出力する。
【0093】
また、マイク制御部133は、音声認識用のGUIの表示が操作されることに応じて、アプリケーション実行部135から音声認識要求が供給された場合、本体マイクにより検出された音声を、音声認識の対象として音声認識制御部136に出力する。
【0094】
なお、本体マイクにより検出された音声は、常時録音されている訳ではない。起動ワードの検出設定がオンの場合は、本体マイクにより検出された音声は常時録音され、オフの場合は録音が行われない。音声認識用のGUIの表示が操作された場合、本体マイクに対してリクエストが出され、そのリクエストに応じて、本体マイクにより検出された音声が、起動ワード検出部132を経由せずに、マイク制御部133に供給される。
【0095】
マイク制御部133は、マイクボタン21が押下されることに応じて、アプリケーション実行部135から音声認識要求が供給された場合、リモコンマイクを有効な状態とし、そのことを表す情報を音声受信制御部134に出力する。マイク制御部133は、リモコンマイクを有効な状態にした後に音声受信制御部134から供給された音声データを、音声認識の対象として音声認識制御部136に出力する。
【0096】
音声受信制御部134は、操作I/F部111を制御し、リモコンマイクによる音声の検出を制御する。例えば、音声受信制御部134は、リモコンマイクを有効な状態にすることを表す情報がマイク制御部133から供給された場合、音声検出リクエストをリモートコントローラ2に対して送信する。
【0097】
また、音声受信制御部134は、音声検出リクエストを送信した後にリモートコントローラ2から送信されてきた音声データを受信し、マイク制御部133に出力する。
【0098】
アプリケーション実行部135は、操作検出部131から供給された情報により表されるユーザの操作に応じて、アプリケーションの実行を制御する。
【0099】
例えば、アプリケーション実行部135は、所定のアプリケーションをアクティブな状態としている場合において、音声認識用のGUIの表示が操作された場合、音声認識要求をマイク制御部133に出力する。
【0100】
また、アプリケーション実行部135は、音声認識制御部136から供給された、音声認識の結果に基づいてアプリケーションの実行を制御する。
【0101】
音声認識制御部136は、通信部110を制御して音声認識サーバ32と通信を行い、TV1における音声認識機能を制御する。音声認識制御部136は、マイク制御部133から供給された音声データを音声認識サーバ32に送信する。
【0102】
また、音声認識制御部136は、音声認識サーバ32から送信されてきた音声認識の結果を受信する。音声認識制御部136により受信された音声認識の結果はアプリケーション実行部135に出力される。
【0103】
<TVの動作>
ここで、
図11のフローチャートを参照して、以上のような構成を有するTV1のマイク制御処理について説明する。
【0104】
ステップS1において、TV1の起動ワード検出部132は、本体マイクから供給された音声データに基づいて、起動ワードの発話が検出されたか否かを判定する。
【0105】
起動ワードの発話が検出されたとステップS1において判定された場合、ステップS2において、マイク制御部133は、本体マイクを有効にする。なお、起動ワードの検出設定がオンの場合、本体マイクは元々有効であるため、ここでは、引き続き、本体マイクが有効とされる。
【0106】
ステップS3において、マイク制御部133は、本体マイクから供給された音声データを、音声認識の対象として取得する。マイク制御部133により取得された音声データは、音声認識制御部136に供給される。
【0107】
ステップS4において、音声認識制御部136は、マイク制御部133から供給された音声データを音声認識サーバ32に送信する。
【0108】
音声認識サーバ32においては、本体マイクにより検出された音声を対象として音声認識が行われ、音声認識の結果がTV1に対して送信される。音声認識サーバ32から送信された音声認識の結果は、音声認識制御部136において受信され、アプリケーション実行部135に出力される。
【0109】
一方、起動ワードの発話が検出されていないとステップS1において判定された場合、ステップS5において、マイク制御部133は、アプリケーション実行部135が実行するアプリケーションから音声認識要求が出力されたか否かを判定する。
【0110】
音声認識要求が出力されたとステップS5において判定した場合、ステップS6において、マイク制御部133は、操作検出部131から供給された情報に基づいて、マイクボタン21が押下されたか否かを判定する。
【0111】
マイクボタン21が押下されていないとステップS6において判定された場合、ステップS2に進み、以上の処理と同様の処理が行われる。すなわち、本体マイクが有効とされ、ユーザの音声の検出が本体マイクを用いて行われる。
【0112】
マイクボタン21が押下されたとステップS6において判定した場合、ステップS7において、マイク制御部133は、リモコンマイクを有効にする。音声受信制御部134は、音声検出リクエストをリモートコントローラ2に対して送信する。
【0113】
ステップS8において、音声受信制御部134は、音声検出リクエストを送信した後にリモートコントローラ2から送信されてきた音声データを受信し、マイク制御部133に出力する。マイク制御部133は、音声受信制御部134から供給された音声データを、音声認識の対象として音声認識制御部136に出力する。
【0114】
ステップS9において、音声認識制御部136は、マイク制御部133から供給された音声データを音声認識サーバ32に送信する。
【0115】
音声認識サーバ32においては、リモコンマイクにより検出された音声を対象として音声認識が行われ、音声認識の結果がTV1に対して送信される。音声認識サーバ32から送信された音声認識の結果は、音声認識制御部136において受信され、アプリケーション実行部135に出力される。
【0116】
ステップS4またはステップS9において音声データが送信された後、または、ステップS5において、音声認識要求が出力されていないと判定された場合、ステップS1に戻り、以上の処理が繰り返し行われる。
【0117】
以上の処理により、TV1は、ユーザの意図に応じたマイクロフォンを用いて、ユーザの音声を検出することができる。TV1は、ユーザの意図にあったマイクロフォンを選択することにより、ユーザの音声をより正確に聞き取り、応答することが可能となる。
【0118】
すなわち、マイクボタン21を押下することによって、リモコンマイクを用いて音声を入力しようとする意図をユーザが有している場合、TV1は、リモコンマイクを用いてユーザの音声を検出することができる。
【0119】
また、起動ワードを発話したり、音声認識用のGUIの表示を操作したりして、本体マイクを用いて音声を入力しようとする意図をユーザが有している場合、TV1は、本体マイクを用いてユーザの音声を検出することができる。
【0120】
ユーザとしても、自分の意図に応じたマイクロフォンから音声を入力することができる。
【0121】
<<変形例>>
<情報処理端末の例>
TV1の操作に用いられる情報処理端末がリモートコントローラ2であるものとしたが、スマートフォン、タブレット端末などの他のデバイスであってもよい。
【0122】
図12は、情報処理端末としてのスマートフォンの例を示す図である。
【0123】
スマートフォン201には、スマートフォン201をTV1のリモートコントローラとして動作させるためのアプリケーションであるリモコンアプリがインストールされている。
図12のスマートフォン201のディスプレイに表示されている画面はリモコンアプリの画面である。ユーザは、リモコンアプリの画面の表示を用いて、TV1の操作を行うことができる。
【0124】
リモコンアプリの画面には、電源ボタン、音量ボタン、チャンネルボタン、カーソルボタン、決定ボタンなどの、リモートコントローラ2に設けられるボタンと同様の機能を有する各種のボタンが表示される。リモコンアプリの画面には、
図12に示すようにマイクボタン211も表示される。
【0125】
マイクボタン211が押下された場合、リモートコントローラ2のマイクボタン21が押下された場合と同様に、スマートフォン201に設けられたマイクロフォン212が有効となり、音声を入力できる状態となる。
【0126】
TV1は、マイクロフォン212において検出され、スマートフォン201から送信されてきた音声データを音声認識の対象とすることになる。起動ワードが発話されたことに応じて音声認識要求が出力された場合、および、音声認識用のGUIの表示を用いて音声認識要求が出力された場合、上述したように本体マイクが音声の検出に用いられる。
【0127】
なお、スマートフォン201に設けられるマイクボタンとして、リモコンアプリの画面に表示されるマイクボタン211が用いられるようにしてもよいし、物理的に設けられたボタンが用いられるようにしてもよい。
【0128】
【0129】
TV1の操作に用いられる情報処理端末は、
図13のAに示すようなエージェントデバイスであってもよいし、
図13のBに示すような、音声アシスタント機能を搭載したスマートスピーカであってもよい。
図13のAのエージェントデバイスと
図13のBのスマートスピーカは、基本的にスマートフォン201と同様の機能を有する。
【0130】
このように、TV1の操作に用いられる情報処理端末として、マイクロフォンとともに、そのマイクロフォンを音声の検出に用いることを指示するための操作に用いられる操作部を有する各種のデバイスを用いることが可能である。
【0131】
また、音声による操作の対象となるデバイスがTV1であるものとしたが、マイクロフォンを有する各種のデバイスを音声で操作する場合にも、上述した技術を適用することが可能である。
【0132】
<システム構成例>
TV1により検出された音声の認識が音声認識サーバ32において行われるものとしたが、TV1内において行われるようにしてもよい。
【0133】
この場合、
図10の音声認識制御部136は、マイク制御部133から供給された音声データを対象として自ら音声認識を行い、音声認識の結果をアプリケーション実行部135に出力することになる。
【0134】
<ユーザの意図の判定例>
リモコンマイクにより音声を入力しようとするユーザの意図が、マイクボタン21を押下すること以外の、ユーザの各種の状態に基づいて判定されるようにしてもよい。
【0135】
例えば、ユーザがリモートコントローラ2を持ち続けている場合に、リモコンマイクにより音声を入力しようとする意図をユーザが有していると判定され、リモコンマイクが有効となるようにしてもよい。
【0136】
また、カメラ112により撮影された画像を解析し、所定のジェスチャーをユーザがとっていることが検出された場合に、リモコンマイクにより音声を入力しようとする意図をユーザが有していると判定され、リモコンマイクが有効となるようにしてもよい。
【0137】
他にも、ユーザがリモートコントローラ2の近くにいることが検出された場合や、リモートコントローラ2を手に持っていることが検出された場合にリモコンマイクが有効となるようにしてもよい。
【0138】
このように、カメラ112により撮影された画像を解析することによって、ユーザの意図が判定されるようにすることが可能である。
【0139】
当然、「リモコンマイクにより音声を入力」などの、リモコンマイクにより音声を入力しようとする意図をユーザが有していると推定できる発話が行われた場合に、マイクボタン21が有効となるようにしてもよい。
【0140】
リモコンマイクを有効にするときのユーザの操作の状態と、本体マイクを有効にするときのユーザの操作の状態とを、それぞれユーザが設定することができるようにしてもよい。この場合、リモートコントローラ2には、そのような設定に用いられるスイッチが設けられる。
【0141】
また、ユーザがTV1の近くにいることが検出された場合、本体マイクにより音声を入力しようとする意図をユーザが有していると判定され、本体マイクが有効になるようにしてもよい。
【0142】
また、どのような場合にどのマイクを使用するかをユーザが予め設定することができるようにしてもよい。
【0143】
<有効なマイクロフォンの提示の例>
音声の検出に用いられているマイクロフォン、すなわち、有効なマイクロフォンがどのマイクロフォンであるのかがユーザに対して提示されるようにしてもよい。
【0144】
【0145】
図14のAの例においては、本体マイクを用いて音声の検出が行われていることを表すメッセージが画面の右下に表示されている。
【0146】
一方、
図14のBの例では、リモコンマイクを用いて音声の検出が行われていることを表すメッセージが画面の右下に表示されている。
【0147】
このように、有効なマイクロフォンを表す情報が提示されるようにしてもよい。有効なマイクロフォンを表す情報として、メッセージではなく、アイコンが表示されるようにしてもよい。
【0148】
また、有効なマイクロフォンが、LEDの点灯によって提示されるようにしてもよい。この場合、例えば、本体マイクが有効になっているときには、TV1の筐体の所定の位置に設けられたLEDが点灯し、リモコンマイクが有効になっているときには、リモートコントローラ2の筐体の所定の位置に設けられたLEDが点灯する。
【0149】
本体マイクが有効になっているときに点灯するLEDと、リモコンマイクが有効になっているときに点灯するLEDの両方のLEDがTV1の筐体に設けられるようにしてもよい。
【0150】
このように、どのマイクロフォンが有効になっているかをユーザに対して示すことにより、ユーザビリティを向上させることが可能となる。ユーザも、有効なマイクに適した発話をすることが可能となる。
【0151】
<コンピュータの構成例>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0152】
図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0153】
CPU1001、ROM1002、RAM1003は、バス1004により相互に接続されている。
【0154】
バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。
【0155】
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005及びバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
【0156】
CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
【0157】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0158】
本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
【0159】
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0160】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0161】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0162】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0163】
<構成の組み合わせ例>
本技術は、以下のような構成をとることもできる。
【0164】
(1)
筐体に設けられたマイクロフォンである本体マイクロフォンと、
認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する制御部と
を備える情報処理装置。
(2)
前記端末マイクロフォンにより検出され、前記情報処理端末から送信された音声を受信する通信部をさらに備える
前記(1)に記載の情報処理装置。
(3)
前記制御部は、前記ユーザの操作の状態として、前記情報処理端末に設けられた所定のボタンを前記ユーザが押下したか否かを判定する
前記(1)または(2)に記載の情報処理装置。
(4)
前記制御部は、前記所定のボタンを前記ユーザが押下したと判定した場合、前記端末マイクロフォンにより音声の検出を行う
前記(3)に記載の情報処理装置。
(5)
前記制御部は、前記所定のボタンを前記ユーザが押下していないと判定した場合、前記本体マイクロフォンにより音声の検出を行う
前記(4)に記載の情報処理装置。
(6)
所定のアプリケーションを実行するアプリケーション実行部をさらに備え、
前記制御部は、音声認識の要求が前記所定のアプリケーションから出力されたことに応じて、前記所定のボタンを前記ユーザが押下したか否かの判定を行う
前記(3)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記音声認識の要求は、前記所定のアプリケーションの実行中に前記所定のボタンが押下された場合、および、音声認識を行うための操作が前記所定のアプリケーションの画面を用いて前記ユーザにより行われた場合に出力される
前記(6)に記載の情報処理装置。
(8)
前記本体マイクロフォンまたは前記端末マイクロフォンにより検出された音声をサーバに送信し、前記サーバによる音声認識の結果を受信する音声認識制御部をさらに備える
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記制御部は、前記ユーザの操作の状態として、前記情報処理端末を前記ユーザが持っているか否かを判定する
前記(1)または(2)に記載の情報処理装置。
(10)
前記制御部は、音声の検出に用いられているマイクロフォンが前記本体マイクロフォンであるか、または、前記端末マイクロフォンであるかを提示する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
筐体に設けられたマイクロフォンである本体マイクロフォンを備える情報処理装置が、
認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する
制御方法。
(12)
筐体に設けられたマイクロフォンである端末マイクロフォンと、
認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と、
認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する通信部と
を備える情報処理端末。
(13)
筐体に設けられたマイクロフォンである端末マイクロフォンと、
認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と
を備える情報処理端末が、
認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する
情報処理方法。
【符号の説明】
【0165】
1 TV, 2 リモートコントローラ, 11 ディスプレイ, 12 マイクロフォン, 21 マイクボタン, 22 マイクロフォン, 31 インターネット, 32 音声認識サーバ, 121 操作I/F部, 122 コントローラ, 123 操作部, 131 操作検出部, 132 起動ワード検出部, 133 マイク制御部, 134 音声受信制御部, 135 アプリケーション実行部, 136 音声認識制御部, 201 スマートフォン