IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セイコーエプソン株式会社の特許一覧

<>
  • 特許-表示システムの制御方法、表示システム 図1
  • 特許-表示システムの制御方法、表示システム 図2
  • 特許-表示システムの制御方法、表示システム 図3
  • 特許-表示システムの制御方法、表示システム 図4
  • 特許-表示システムの制御方法、表示システム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-25
(45)【発行日】2024-04-02
(54)【発明の名称】表示システムの制御方法、表示システム
(51)【国際特許分類】
   G06F 3/16 20060101AFI20240326BHJP
   G10L 15/30 20130101ALI20240326BHJP
   G10L 15/28 20130101ALI20240326BHJP
【FI】
G06F3/16 630
G06F3/16 620
G06F3/16 670
G06F3/16 650
G10L15/30
G10L15/28 230K
【請求項の数】 9
(21)【出願番号】P 2020179515
(22)【出願日】2020-10-27
(65)【公開番号】P2022070444
(43)【公開日】2022-05-13
【審査請求日】2023-08-04
(73)【特許権者】
【識別番号】000002369
【氏名又は名称】セイコーエプソン株式会社
(74)【代理人】
【識別番号】100179475
【弁理士】
【氏名又は名称】仲井 智至
(74)【代理人】
【識別番号】100216253
【弁理士】
【氏名又は名称】松岡 宏紀
(74)【代理人】
【識別番号】100225901
【弁理士】
【氏名又は名称】今村 真之
(72)【発明者】
【氏名】三村 乃那
(72)【発明者】
【氏名】友野 充則
【審査官】酒井 優一
(56)【参考文献】
【文献】特開2020-134903(JP,A)
【文献】特開2014-071457(JP,A)
【文献】特開2018-190436(JP,A)
【文献】特開2005-328963(JP,A)
【文献】特開2020-077427(JP,A)
【文献】米国特許出願公開第2014/0092007(US,A1)
【文献】米国特許出願公開第2019/0391666(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/16
G10L 15/30
G10L 15/28
G06F 3/01
G06F 3/048-3/04895
(57)【特許請求の範囲】
【請求項1】
画像を表示する表示装置と、前記表示装置に対する複数種類の操作のうち、一部の種類に属する第1類操作を要求する第1音声に基づいて第1音声データを生成し、生成した前記第1音声データをサーバー装置に送信する音声処理装置と、を備え、前記サーバー装置から前記第1類操作を実行する命令を前記表示装置が受信する表示システムの制御方法であって、
前記表示装置は、前記複数種類の操作のうち、前記第1類操作とは異なる第2類操作を要求する第2音声を認識する音声認識部と、前記第1類操作及び前記第2類操作の実行を制御する制御部と、を備え、
前記第2類操作の実行の許可を要求する前記第1音声に基づいて生成された前記第1音声データを前記音声処理装置が前記サーバー装置に送信し、
前記サーバー装置から前記第2類操作の実行を許可する命令を前記表示装置が受信し、
前記制御部は、前記第2類操作の実行を許可する命令に基づいて、前記音声認識部で認識される前記第2音声に基づく前記第2類操作の実行を開始する、
ことを特徴とする表示システムの制御方法。
【請求項2】
前記音声認識部は、前記第2類操作を要求する前記第2音声が連続するときに、連続する複数の前記第2類操作を一つの要求として認識可能であり、
前記制御部は、前記一つの要求として認識された前記複数の第2類操作を実行する、
ことを特徴とする請求項1に記載の表示システムの制御方法。
【請求項3】
前記制御部は、前記一つの要求として認識された前記複数の第2類操作の中で同じ内容が2回連続するときに、2回目の前記第2類操作の操作量を規定の操作量よりも多くする、
ことを特徴とする請求項2に記載の表示システムの制御方法。
【請求項4】
前記制御部は、前記一つの要求として認識された前記複数の第2類操作の中で相反する2つの内容が連続するときに、2番目の前記第2類操作の操作量を規定の操作量よりも少なくする、
ことを特徴とする請求項2に記載の表示システムの制御方法。
【請求項5】
前記第2類操作の実行が許可される期間に、前記第2類操作の実行の終了を要求する前記第1音声に基づいて生成された前記第1音声データを前記音声処理装置が前記サーバー装置に送信し、前記サーバー装置から前記第2類操作の実行を禁止する命令を前記表示装置が受信し、
前記制御部は、前記第2類操作の実行を禁止する命令に基づいて、前記音声認識部で認識される前記第2音声に基づく前記第2類操作の実行を終了する、
ことを特徴とする請求項1に記載の表示システムの制御方法。
【請求項6】
前記第2類操作の実行が許可される期間に、前記第1類操作を要求する前記第1音声に基づいて生成された前記第1音声データを前記音声処理装置が前記サーバー装置に送信し、前記サーバー装置から前記第2類操作の実行を禁止する命令を前記表示装置が受信し、
前記制御部は、前記第2類操作の実行を禁止する命令に基づいて、前記音声認識部で認識される前記第2音声に基づく前記第2類操作の実行を終了する、
ことを特徴とする請求項1に記載の表示システムの制御方法。
【請求項7】
前記音声処理装置は、音を出力するスピーカーを備え、
前記音声処理装置は、前記第2類操作の実行の許可を要求する前記第1音声データに対する許可を示す応答データを前記サーバー装置から受信し、前記応答データに基づいて前記第2類操作の実行を開始することを前記スピーカーから音声で通知する、
ことを特徴とする請求項1に記載の表示システムの制御方法。
【請求項8】
前記制御部は、前記表示装置が前記サーバー装置から前記第2類操作の実行を許可する命令を受信したときに、前記第2類操作を実行可能であることを文字で表示させる、
ことを特徴とする請求項1に記載の表示システムの制御方法。
【請求項9】
画像を表示する表示装置と、前記表示装置に対する複数種類の操作のうち、一部の種類に属する第1類操作を要求する第1音声に基づいて第1音声データを生成し、生成した前記第1音声データをサーバー装置に送信する音声処理装置と、を備え、前記サーバー装置から前記第1類操作を実行する命令を前記表示装置が受信する表示システムであって、
前記表示装置は、前記複数種類の操作のうち、前記第1類操作とは異なる第2類操作を要求する第2音声を認識する音声認識部と、前記第1類操作及び前記第2類操作の実行を制御する制御部と、を備え、
前記第2類操作の実行の許可を要求する前記第1音声に基づいて生成された前記第1音声データを前記音声処理装置が前記サーバー装置に送信し、
前記サーバー装置から前記第2類操作の実行を許可する命令を前記表示装置が受信し、
前記制御部は、前記第2類操作の実行を許可する命令に基づいて、前記音声認識部で認識される前記第2音声に基づく前記第2類操作の実行を開始する、
ことを特徴とする表示システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表示システムの制御方法、表示システムに関する。
【背景技術】
【0002】
特許文献1は、スマートスピーカーを介してユーザーとの対話により画像形成装置を操作する音声操作システムを開示する。この音声操作システムでは、操作する対象である画像形成装置と、スマートスピーカーと、画像形成装置に操作を命令するサーバーとがネットワークを介して接続される。ユーザーが画像形成装置の操作内容を発話すると、スマートスピーカーがその操作内容をサーバーに送信する。サーバーは、スマートスピーカーから受信した操作内容に基づいて画像形成装置に操作命令を送信する。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2020-87347号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載された音声操作システムでは、ユーザーが操作を所望するたびに、スマートスピーカーからサーバーへの通信と、サーバーから画像形成装置への通信とを要する。このため、ユーザーが発話した操作内容が画像形成装置に操作命令として到達するまでに時間を要する。
【課題を解決するための手段】
【0005】
画像を表示する表示装置と、前記表示装置に対する複数種類の操作のうち、一部の種類に属する第1類操作を要求する第1音声に基づいて第1音声データを生成し、生成した前記第1音声データをサーバー装置に送信する音声処理装置と、を備え、前記サーバー装置から前記第1類操作を実行する命令を前記表示装置が受信する表示システムの制御方法であって、前記表示装置は、前記複数種類の操作のうち、前記第1類操作とは異なる第2類操作を要求する第2音声を認識する音声認識部と、前記第1類操作及び前記第2類操作の実行を制御する制御部と、を備え、前記第2類操作の実行の許可を要求する前記第1音声に基づいて生成された前記第1音声データを前記音声処理装置が前記サーバー装置に送信し、前記サーバー装置から前記第2類操作の実行を許可する命令を前記表示装置が受信し、前記制御部は、前記第2類操作の実行を許可する命令に基づいて、前記音声認識部で認識される前記第2音声に基づく前記第2類操作の実行を開始する。
【0006】
画像を表示する表示装置と、前記表示装置に対する複数種類の操作のうち、一部の種類に属する第1類操作を要求する第1音声に基づいて第1音声データを生成し、生成した前記第1音声データをサーバー装置に送信する音声処理装置と、を備え、前記サーバー装置から前記第1類操作を実行する命令を前記表示装置が受信する表示システムであって、前記表示装置は、前記複数種類の操作のうち、前記第1類操作とは異なる第2類操作を要求する第2音声を認識する音声認識部と、前記第1類操作及び前記第2類操作の実行を制御する制御部と、を備え、前記第2類操作の実行の許可を要求する前記第1音声に基づいて生成された前記第1音声データを前記音声処理装置が前記サーバー装置に送信し、前記サーバー装置から前記第2類操作の実行を許可する命令を前記表示装置が受信し、前記制御部は、前記第2類操作の実行を許可する命令に基づいて、前記音声認識部で認識される前記第2音声に基づく前記第2類操作の実行を開始する。
【図面の簡単な説明】
【0007】
図1】第1実施形態の表示システムの構成を説明する図。
図2】第1実施形態のプロジェクターの構成を説明するブロック図。
図3】スマートスピーカーの構成を説明するブロック図。
図4】第1類操作の例と第2類操作の例とを示すシーケンス図。
図5】第2実施形態のプロジェクターの構成を説明するブロック図。
【発明を実施するための形態】
【0008】
第1実施形態の表示システム1は、図1に示すように、プロジェクター2と、スマートスピーカー3と、サーバー装置4と、を備える。プロジェクター2は、表示装置の一例である。スマートスピーカー3は、音声処理装置の一例である。プロジェクター2と、スマートスピーカー3と、サーバー装置4とは、ネットワーク5を介して互いに接続される。
【0009】
プロジェクター2は、図2に示す画像供給装置6から供給される画像データに基づき、スクリーン7などに画像を表示する。画像供給装置6としては、ディスク型記録メディア再生装置や、テレビチューナー装置、パーソナルコンピューターなどが挙げられる。画像供給装置6からプロジェクター2に供給されるデータは、画像データに限定されず、音声に関するデータも含む。音声に関するデータとしては、例えば映画などの動画の表示とともに音声の再生をともなうものが例示される。また、動画は、映画に限定されず、テレビ番組や、インターネットを介して配信される動画など、種々の動画を含む。さらに、画像供給装置6から供給される画像データは、動画に関するデータに限定されず、静止画も含む。画像供給装置6から供給されるデータは、静止画の表示とともに音声を再生するデータも含む。
【0010】
図1に戻り、スマートスピーカー3は、音声アシスタント機能を実現する装置である。音声アシスタント機能は、ユーザーの発話による問いかけや要求に対して動作を実現する機能である。サーバー装置4は、ネットワーク5を介して接続される機器に種々の情報やデータ、操作命令などを提供する。本実施形態では、ユーザーの発話による音声に基づいて、プロジェクター2を操作することができる。スマートスピーカー3は、ユーザーの発話による音声に基づく音声データを生成する。スマートスピーカー3は、音声データをサーバー装置4に送信する。サーバー装置4は、スマートスピーカー3から受信した音声データを解析して、プロジェクター2に対する操作を実行する命令をプロジェクター2に送信する。プロジェクター2は、サーバー装置4から受信した命令に基づいて操作を実行する。これにより音声アシスタント機能が実現される。
【0011】
ここで、プロジェクター2に対する種々の操作は、複数種類に分類される。複数種類の操作のうち、一部の種類である第1類に属する操作は、第1類操作と呼ばれる。また、複数種類の操作のうち、第1類とは異なる種類である第2類に属する操作は、第2類操作と呼ばれる。そして、表示システム1のユーザーによる発話の内容がプロジェクター2に対する第1類操作を要求するものであるとき、ユーザーによる発話の音声は、第1音声と定義される。第1音声に基づく音声データは第1音声データと呼ばれる。表示システム1のユーザーによる発話の内容がプロジェクター2に対する第2類操作を要求するものであるとき、ユーザーによる発話の音声は、第2音声と定義される。第2音声に基づく音声データは第2音声データと呼ばれる。
【0012】
なお、本実施形態では、ユーザーによる発話の音声が第1類操作を要求する第1音声であるとき、サーバー装置4は、スマートスピーカー3から受信した音声データを解析して、プロジェクター2に対する第1類操作を実行する命令をプロジェクター2に送信する。第2類操作は、サーバー装置4を介さず、プロジェクター2がユーザーによる発話の第2音声を認識することによって実施される。第2類操作には、プロジェクター2の音量の調整、プロジェクター2の表示画像の画質調整が含まれる。さらに、表示画像の画質調整には、表示画像の明るさ調整、表示画像のコントラスト調整、表示画像の拡大縮小などが含まれる。つまり、本実施形態では、これらの調整操作を、サーバー装置4を介さず、プロジェクター2がユーザーによる発話の第2音声を認識することによって実施可能である。
【0013】
図2に示すように、プロジェクター2は、第1制御部10と、インターフェース部11と、フレームメモリー12と、画像処理部13と、OSD処理部14と、音声入出力部15と、第1通信部16と、投写部17と、駆動部18と、を備える。これらの各部は、バス19を介して第1制御部10とデータ通信可能に接続される。第1制御部10は、第1プロセッサー21と、第1記憶部22とを備える。第1制御部10がプロジェクター2の動作を統括制御する。第1プロセッサー21は、第1記憶部22に保存された制御プログラム23を読み出して各種処理を実行する。第1制御部10では、ハードウェア及びソフトウェアの協働により各種処理が実行される。
【0014】
第1制御部10では、第1プロセッサー21が制御プログラム23に基づいて処理を実行することによって、音声データ取得部31、音声認識部32、操作処理部33、及び、投写制御部34として機能する。第1記憶部22は、制御プログラム23の他に、設定データ36及び音声辞書データ37を記憶する。第1記憶部22は、不揮発性記憶領域と、揮発性記憶領域とを有する。制御プログラム23、設定データ36及び音声辞書データ37は、第1記憶部22の不揮発性記憶領域に保存される。揮発性記憶領域は、第1プロセッサー21が実行するプログラムや各種データを一時的に記憶するワークエリアを構成する。
【0015】
設定データ36は、プロジェクター2の動作に関する設定値を含む。設定データ36に含まれる設定値としては、例えば、後述するスピーカー38が出力する音声の音量レベルを示す設定値や、画像処理部13及びOSD処理部14が実行する処理内容を示す設定値、画像処理部13及びOSD処理部14の処理に用いるパラメーター等である。音声辞書データ37は、後述するマイク39により検出されたユーザーの音声を音声認識部32で認識可能なデータに変換するためのデータである。例えば、音声辞書データ37は、ユーザーの音声のデジタルデータを、日本語、英語またはその他の言語のテキストデータに変換するための辞書データを含む。また、音声辞書データ37には、前述した第2類操作の内容を示すデータも含まれる。
【0016】
インターフェース部11は、所定の通信規格に準拠したコネクター及びインターフェース回路等の通信ハードウェアを備える。インターフェース部11は、第1制御部10による制御に従って、画像供給装置6との間で画像データや音声データ、制御データ等を送受信する。
【0017】
フレームメモリー12、画像処理部13、及び、OSD処理部14は、例えば集積回路により構成される。フレームメモリー12は、画像供給装置6から受信した画像データを一時的に展開する。画像処理部13は、第1制御部10による指示に基づいて、フレームメモリー12に展開された画像データに対して各種の画像処理を施す。画像処理としては、例えば、解像度変換処理又はリサイズ処理、歪曲収差の補正、形状補正処理、デジタルズーム処理、画像の色合いや輝度の調整等が挙げられる。画像処理部13は、処理の終了した画像データをフレームメモリー12から読み出してOSD処理部14に出力する。
【0018】
OSD処理部14は、第1制御部10の制御に基づいて、画像処理部13から入力された画像データが示す画像上に、各種OSD(オンスクリーンディスプレイ)画像を重畳する。OSD画像としては、プロジェクター2の各種設定にかかるメニュー画像や、各種のメッセージを報知するためのメッセージ画像などが挙げられる。OSD処理部14は、第1制御部10の制御に基づいて、画像処理部13から入力された画像データと、OSD画像の画像データとを合成する。合成された画像データは、駆動部18に出力される。なお、第1制御部10からOSD画像を重畳する旨の指示がない場合には、OSD処理部14は、画像処理部13から入力される画像データを加工することなくそのまま駆動部18に出力する。
【0019】
音声入出力部15は、スピーカー38と、マイク39と、信号処理部40とを備える。信号処理部40は、第1制御部10からデジタルの音声データが入力された場合、入力された音声データをデジタルからアナログに変換する。信号処理部40は、変換したアナログの音声データをスピーカー38に出力する。スピーカー38は、入力される音声データに基づいて音声を出力する。スピーカー38から出力される音声には、画像供給装置6から供給される音声や、各種のメッセージを報知するための音声などが含まれる。マイク39は、プロジェクター2の周辺の音声を検出する。信号処理部40には、マイク39を介してアナログの音声データが入力される。信号処理部40は、マイク39から入力されたアナログの音声データをデジタルの音声データに変換する。信号処理部40は、デジタルの音声データを第1制御部10に出力する。
【0020】
第1通信部16は、所定の通信規格に従った通信ハードウェアを備え、第1制御部10の制御により、ネットワーク5と接続する機器と所定の通信規格に従って通信する。本実施形態の第1通信部16は、ネットワーク5を介してサーバー装置4と通信可能である。第1通信部16が使用する通信規格は、無線通信規格でも有線通信規格でもよい。
【0021】
投写部17は、光源部41と、光変調装置42と、投写光学系43とを備える。駆動部18は、光源駆動回路44と、光変調装置駆動回路45とを備える。光源駆動回路44は、バス19を介して第1制御部10に接続される。また、光源駆動回路44は、光源部41に接続される。光源駆動回路44は、第1制御部10の制御に従って光源部41の発光を制御する。発光の制御には、光源部41の点灯と消灯の制御だけでなく、光源部41の発光の強弱の制御も含まれる。
【0022】
光変調装置駆動回路45は、バス19を介して第1制御部10に接続される。また、光変調装置駆動回路45は、光変調装置42に接続される。光変調装置駆動回路45は、第1制御部10の制御に従って、光変調装置42を駆動し、光変調装置42が具備する光変調素子にフレーム単位で画像を描画する。光変調装置駆動回路45には、画像処理部13からR、G、Bの各原色に対応する画像データが入力される。光変調装置駆動回路45は、入力された画像データを、光変調装置42が具備する光変調素子である液晶パネルの動作に適したデータ信号に変換する。光変調装置駆動回路45は、変換したデータ信号に基づいて、各液晶パネルの各画素に電圧を印加し、各液晶パネルに画像を描画する。
【0023】
光源部41は、ハロゲンランプ、キセノンランプ、超高圧水銀ランプ等のランプ、或いは、LEDやレーザー光源等の固体光源で構成される。光源部41は、光源駆動回路44から供給される電力により点灯し、光変調装置42に向けて光を発する。
【0024】
光変調装置42は、例えば、R、G、及び、Bの三原色に対応した3枚の液晶パネルを備える。Rは赤色を示し、Gは緑色を示し、Bは青色を示す。光源部41から射出される光は、RGBの3色の色光に分離され、それぞれ対応する液晶パネルに入射される。3枚の液晶パネルの各々は、透過型の液晶パネルであり、透過する光を変調して画像光を生成する。各液晶パネルを通過して変調された画像光は、クロスダイクロイックプリズム等の合成光学系によって合成され、投写光学系43に射出される。本実施形態では、光変調装置42が光変調素子として透過型の液晶パネルを備える場合を例示するが、光変調素子は反射型の液晶パネルであってもよいし、デジタルミラーデバイス(Digital Micromirror Device)でもよい。
【0025】
投写光学系43は、光変調装置42により変調された画像光をスクリーン7上に結像させるレンズやミラー等を備える。投写光学系43は、スクリーン7に投写される画像を拡大又は縮小させるズーム機構や、フォーカスの調整を行うフォーカス調整機構等を備えてもよい。
【0026】
音声データ取得部31は、音声入出力部15から、マイク39が検出した音声を示す音声データを取得する。音声データ取得部31は、取得した音声データを音声認識部32に出力する。音声認識部32は、音声データ取得部31から入力された音声データに基づいて、マイク39が検出した音声を認識する。音声認識部32は、音声認識の結果を、操作処理部33に出力する。
【0027】
ここで、音声認識部32による音声の認識は、次のように実施される。音声認識部32は、マイク39が収音した音声をテキスト化する。音声認識部32は、音声辞書データ37を参照し、テキストの音声データを解析する。このとき、音声認識部32は、音声辞書データ37の中に、マイク39から取得した音声データに示される文言に一致する文言が含まれるか否かを判定する。例えば、音声認識部32は、テキストの音声データに対して文字列検索を行うことで、マイク39から取得した音声データに示される文言が音声辞書データ37の中に含まれるか否かを判定する。
【0028】
マイク39から取得した音声データに示される文言が音声辞書データ37の中に含まれるとき、音声認識部32は、テキスト化した音声データを第2音声データとして生成する。音声認識部32は、第2音声データを音声認識の結果として、操作処理部33に出力する。より詳細には、音声認識部32は、音声認識の結果として、テキスト化した音声データが第2音声データであることを示すフラグを立てて操作処理部33に出力する。マイク39から取得した音声データに示される文言が音声辞書データ37の中に含まれないとき、音声認識部32は、テキスト化した音声データを音声認識の結果として、操作処理部33に出力する。より詳細には、音声認識部32は、音声認識の結果として、テキスト化した音声データが第2音声データであることを示すフラグを立てずに操作処理部33に出力する。
【0029】
操作処理部33は、サーバー装置4からの命令に基づいて、プロジェクター2に対する操作を実現する処理を実行する。プロジェクター2に対する操作には、前述したように、第1類操作と第2類操作とが含まれる。サーバー装置4からの命令に基づいて実行される操作は第1類操作である。他方で、第2類操作は、サーバー装置4を介さず、プロジェクター2がユーザーによる発話の第2音声を認識することによって実施される。第2類操作は、サーバー装置4から第2類操作の実行を許可する命令をプロジェクター2が受信したときに実行可能である。つまり、サーバー装置4が許可する期間において第2類操作の実行が可能となる。
【0030】
ユーザーが第2類操作の実行の許可を要求する発話をすると、スマートスピーカー3がその発話の第1音声に基づいて生成した第1音声データをサーバー装置4に送信する。なお、第2類操作の実行の許可は、第1類操作である。サーバー装置4から第2類操作の実行を許可する命令をプロジェクター2が受信したとき、操作処理部33は、第1制御部10による命令に基づいて、プロジェクター2に対する第2類操作を実現する処理を実行する。つまり、操作処理部33は、第2類操作の実行が許可される期間において、第1制御部10による命令に基づいて、プロジェクター2に対する処理を実行する。このように、操作処理部33は、第1類操作を実現する処理と、第2類操作を実現する処理とを実行する。
【0031】
投写制御部34は、画像処理部13や、OSD処理部14、駆動部18等を制御して、スクリーン7に画像を表示させる。このとき、投写制御部34は、画像処理部13を制御して、フレームメモリー12に展開された画像データを画像処理部13に処理させる。また、投写制御部34は、OSD処理部14を制御して、画像処理部13から入力された画像データをOSD処理部14に処理させる。また、投写制御部34は、光源駆動回路44を制御して、光源駆動回路44によって光源部41を点灯させる。また、投写制御部34は、光変調装置駆動回路45を制御して、光変調装置42を駆動させ、投写部17によって画像光を投写してスクリーン7に画像を表示する。また、投写制御部34は、投写光学系43の駆動を制御して、投写光学系43のズームやフォーカスを調整する。
【0032】
図3に示すように、スマートスピーカー3は、第2制御部50と、第2通信部51と、音声入出力部52とを備える。第2制御部50は、第2プロセッサー53と、第2記憶部54とを備える。第2制御部50がスマートスピーカー3の動作を統括制御する。第2プロセッサー53は、第2記憶部54に保存された第2制御プログラム55を読み出して各種処理を実行する。第2制御部50では、ハードウェア及びソフトウェアの協働により各種処理が実行される。第2制御部50では、第2プロセッサー53が第2制御プログラム55に基づいて処理を実行することによって、音声データ取得部56、ウェイクワード判定部58、及び、応答部59として機能する。
【0033】
第2記憶部54は、第2制御プログラム55の他に、第2設定データ61、及びウェイクワードデータ62を記憶する。第2設定データ61は、スマートスピーカー3の動作に関する設定値を含む。ウェイクワードデータ62は、予め定められた所定の文言であるウェイクワードを示すデータである。なお、ウェイクワードは、スマートスピーカー3を個別に特定するための文言であり、任意の語を含む文言とすることができる。第2記憶部54は、不揮発性記憶領域と、揮発性記憶領域とを有する。第2制御プログラム55、第2設定データ61、及びウェイクワードデータ62は、第2記憶部54の不揮発性記憶領域に保存される。揮発性記憶領域は、第2プロセッサー53が実行するプログラムや各種データを一時的に記憶するワークエリアを構成する。
【0034】
第2通信部51は、所定の通信規格に従った通信ハードウェアを備え、第2制御部50の制御により、ネットワーク5と接続する機器と所定の通信規格に従って通信する。本実施形態の第2通信部51は、ネットワーク5を介してサーバー装置4と通信可能である。第2通信部51が使用する通信規格は、無線通信規格でも有線通信規格でもよい。
【0035】
音声入出力部52は、第2スピーカー63と、第2マイク64と、第2信号処理部65とを備える。第2信号処理部65は、第2制御部50からデジタルの音声データが入力された場合、入力された音声データをデジタルからアナログに変換する。第2信号処理部65は、変換したアナログの音声データを第2スピーカー63に出力する。第2スピーカー63は、入力される音声データに基づいて音声を出力する。第2スピーカー63から出力される音声には、サーバー装置4から供給される音声や、各種のメッセージを報知するための音声などが含まれる。第2マイク64は、スマートスピーカー3の周辺の音声を検出する。第2信号処理部65には、第2マイク64を介してアナログの音声データが入力される。第2信号処理部65は、第2マイク64から入力されたアナログの音声データをデジタルの音声データに変換する。第2信号処理部65は、デジタルの音声データを第2制御部50に出力する。
【0036】
音声データ取得部56は、音声入出力部52から、第2マイク64が検出した音声を示す音声データを取得する。音声データ取得部56は、取得した音声データをウェイクワード判定部58に出力する。ウェイクワード判定部58は、音声データ取得部56から入力された音声データに基づいて、音声データにウェイクワードが含まれるか否かを判定する。ウェイクワード判定部58は、判定結果を、サーバー装置4に出力する。
【0037】
ここで、ウェイクワード判定部58によるウェイクワードの判定は、次のように実施される。ウェイクワード判定部58は、第2マイク64が収音した音声をテキスト化する。ウェイクワード判定部58は、ウェイクワードデータ62を参照し、テキストの音声データを解析する。このとき、ウェイクワード判定部58は、テキストの音声データにウェイクワードと一致する文言が含まれるか否かを判定する。ウェイクワードは、ウェイクワードデータ62に示される。
【0038】
ウェイクワード判定部58は、ウェイクワードデータ62を参照してテキストの音声データにウェイクワードが含まれるか否かを判定する。例えば、ウェイクワード判定部58は、テキストの音声データに対して文字列検索を行うことで、テキストの音声データにウェイクワードが含まれるか否かを判定する。なお、第2マイク64が検出した音声に含まれるウェイクワードは、第1音声である。ウェイクワード判定部58は、判定結果として、ウェイクワードが含まれているか否かを示すウェイクワード検出情報を、サーバー装置4に出力する。
【0039】
第2マイク64が検出した音声にウェイクワードが含まれるとき、音声データ取得部56は、ウェイクワードに続く音声データをサーバー装置4に出力する。このとき、ウェイクワードに続く音声データは、第1音声に基づく第1音声データである。
【0040】
サーバー装置4は、音声アシスタント機能を実行する。音声アシスタント機能とは、ウェイクワードに続く音声に対応する操作の処理を行う機能である。音声アシスタント機能としては、例えば、プロジェクター2の電源のオンやオフ、画像表示の開始、画像ソースの切り替え、OSD画像の投写、映像や音楽等の情報検索や情報出力等が挙げられる。これらの操作は、複数種類の操作のうちの第1類操作に分類される。ウェイクワードに続く第1類操作を要求する音声は第1音声である。そして、第1類操作を要求する第1音声に基づいて第1音声データが生成される。
【0041】
サーバー装置4は、ウェイクワードに続く第1音声に対応する第1類操作の処理の実行をプロジェクター2に命令する。図2に示すプロジェクター2の操作処理部33は、サーバー装置4から入力された処理の実行命令に基づいて、第1類操作の処理を実行する。
【0042】
図3に戻り、サーバー装置4は、音声アシスタント機能を実行する旨の応答データをスマートスピーカー3の応答部59に出力する。応答部59は、サーバー装置4から入力された応答データに基づいて、音声入出力部52に第1類操作の要求を受け付けた旨の応答信号を出力する。音声入出力部52は、入力された応答データに基づいて、第2スピーカー63から要求を受け付けた旨の音声を出力する。これにより、ユーザーは、要求が受け付けられたことを認識することができる。
【0043】
第1類操作の一例としてプロジェクター2を起動させ、第2類操作の一例として音量を調整する流れを説明する。この操作は、図4に示すように、ステップS1においてユーザーがウェイクワードと、プロジェクター2の起動の要求とを発話することによって開始される。例えば、ユーザーがウェイクワードに続けて「プロジェクターを起動して」と発話する。この発話による第1音声に基づいて、スマートスピーカー3がウェイクワードを認識する。ステップS2において、スマートスピーカー3は、ウェイクワードに続く「プロジェクターを起動して」という内容の第1音声データをサーバー装置4に送信する。
【0044】
ステップS3において、サーバー装置4は、「プロジェクターを起動して」という内容の第1音声データに基づいて、プロジェクター2の電源をオンにさせる命令をプロジェクター2に送信する。ステップS4において、プロジェクター2は、電源をオンの命令を受け付けた旨をサーバー装置4に応答する。ステップS5において、プロジェクター2は、サーバー装置4からの命令に基づいて、プロジェクター2の電源をオンにする。これにより、第1類操作の一例であるプロジェクター2の起動が実行される。このとき、プロジェクター2は、電源をオンの命令を受け付けた旨をサーバー装置4に応答する。
【0045】
なお、このとき、図2に示すプロジェクター2の第1制御部10がプロジェクター2の電源をオンにする。また、プロジェクター2の第1制御部10が、電源をオンの命令を受け付けた旨をサーバー装置4に応答する。図4に戻り、サーバー装置4は、ステップS6において、プロジェクター2の起動が受け付けられたことを示す応答データをスマートスピーカー3に送信する。スマートスピーカー3は、ステップS7において、サーバー装置4からの応答データに基づいて、ユーザーからの要求が受け付けられたことを音声で報知する。このとき、例えば、スマートスピーカー3は、「わかりました」と音声で報知する。
【0046】
次に、第2類操作の一例であるプロジェクター2の音量調整の流れについて説明する。プロジェクター2の音量調整の処理は、ユーザーがウェイクワードと、プロジェクター2の音量調整の要求とを発話することによって開始される。ステップS8において、例えば、ユーザーがウェイクワードに続けて「プロジェクターの音量調整」と発話する。ステップS9において、スマートスピーカー3は、ウェイクワードに続く「プロジェクターの音量調整」という内容の第1音声データをサーバー装置4に送信する。
【0047】
ステップS10において、サーバー装置4は、「プロジェクターの音量調整」という内容の第1音声データに基づいて、第2類操作の実行を許可する命令をプロジェクター2に送信する。ステップS11において、プロジェクター2は、サーバー装置4から受信した第2類操作の実行を許可する命令に基づいて、プロジェクター2の音量調整を受け付けることをサーバー装置4に応答する。
【0048】
サーバー装置4は、ステップS12において、第2類操作である音量調整が受け付けられたことを示す応答データをスマートスピーカー3に送信する。スマートスピーカー3は、ステップS13において、サーバー装置4からの応答データに基づいて、ユーザーからの要求が受け付けられたことを音声で報知する。このとき、例えば、スマートスピーカー3は、「音量調整ができます」と音声で報知する。
【0049】
ステップS14において、プロジェクター2は、サーバー装置4から受信した第2類操作の実行を許可する命令に基づいて、第2類操作である音量調整の実行を開始する。このとき、図2に示すプロジェクター2の第1制御部10が、音声認識部32で認識される第2音声に基づく第2類操作の実行を開始する。
【0050】
ステップS15において、ユーザーが、例えば、音量を上げることを要求する「上げて」と発話する。ステップS16において、プロジェクター2は、「上げて」という第2音声に基づいて、音量を上げる操作を実行する。ステップS17において、ユーザーが、例えば、音量をさらに上げることを要求する「もっと」と発話する。ステップS18において、プロジェクター2は、「もっと」という第2音声に基づいて、音量を上げる操作を実行する。ここで、「もっと」という第2音声に基づく第2類操作は、プロジェクター2が直前に実行した第2類操作と同一の操作である。つまり、「もっと」という第2音声に基づく第2類操作は、プロジェクター2が直前に実行した第2類操作を繰り返す操作である。ステップS19において、ユーザーが、例えば、音量を下げることを要求する「下げて」と発話する。ステップS20において、プロジェクター2は、「下げて」という第2音声に基づいて、音量を下げる操作を実行する。
【0051】
ここで、音量を上げることを意味する文言は、「上げて」の他、「アップ」、「大きく」、「増大」、「大」、「上」等、種々の文言が図2に示す音声辞書データ37に保存される。音量を下げることを意味する文言は、「下げて」の他、「ダウン」、「小さく」、「減少」、「小」、「下」等、種々の文言が音声辞書データ37に保存される。音声認識部32は、音声辞書データ37を参照して、音量調整に関連するこれらの文言が音声辞書データ37に含まれるか否かを判定する。音声辞書データ37に含まれる文言であるとき、音声認識部32は、音声認識の結果を第2音声データとして操作処理部33に出力する。操作処理部33は、この第2音声データに基づいて、プロジェクター2の音量調整を実行する。なお、音声認識部32は、ユーザーが発話した文言が音声辞書データ37に含まれないとき、第2音声データに該当しないという音声認識の結果を操作処理部33に出力する。このとき、操作処理部33は、何ら処理を実行しない。
【0052】
プロジェクター2が直前に実行した第2類操作を繰り返すことを意味する文言は、「もっと」の他、「さらに」、「もう一回」、「再度」、「再び」等、種々の文言が音声辞書データ37に保存される。音声認識部32は、音声辞書データ37を参照して、音量調整を含む第2類操作に関連するこれらの文言が音声辞書データ37に含まれるか否かを判定する。そして、音声認識部32による判定結果が操作処理部33に出力される。
【0053】
図4に戻り、第2類操作は、ステップS21においてユーザーがウェイクワードと、プロジェクター2の音量調整の終了の要求を発話することによって終了する。例えば、ユーザーがウェイクワードに続けて「音量調整終り」と発話する。この発話による第1音声に基づいて、スマートスピーカー3がウェイクワードを認識する。ステップS22において、スマートスピーカー3は、ウェイクワードに続く「音量調整終り」という内容の第1音声データをサーバー装置4に送信する。
【0054】
ステップS23において、サーバー装置4は、「音量調整終り」という内容の第1音声データに基づいて、第2類操作の実行を禁止する命令をプロジェクター2に送信する。ステップS24において、プロジェクター2は、サーバー装置4から受信した第2類操作の実行を禁止する命令に基づいて、プロジェクター2の音量調整を終了することをサーバー装置4に応答する。
【0055】
サーバー装置4は、ステップS25において、第2類操作である音量調整を終了することを示す応答データをスマートスピーカー3に送信する。スマートスピーカー3は、ステップS26において、サーバー装置4からの応答データに基づいて、ユーザーからの要求が受け付けられたことを音声で報知する。このとき、例えば、スマートスピーカー3は、「音量調整を終了します」と音声で報知する。ステップS27において、プロジェクター2は、サーバー装置4から受信した第2類操作の実行を終了する命令に基づいて、第2類操作である音量調整の実行を終了する。
【0056】
第1実施形態の表示システム1では、第2類操作の実行の許可を要求する第1音声に基づいて、プロジェクター2がサーバー装置4から第2類操作の実行を許可する命令を受信する。第1制御部10は、第2類操作の実行を許可する命令に基づいて、音声認識部32で認識される第2音声に基づく第2類操作の実行を開始する。これにより、第2類操作の実行について、スマートスピーカー3からサーバー装置4への通信とサーバー装置4からプロジェクター2への通信とを省略することができるので、第2類操作の実行にかかる時間を短縮することができる。
【0057】
第2実施形態の表示システム1について説明する。第2実施形態の表示システム1は、第1実施形態の表示システム1のスマートスピーカー3が省略され、かつスマートスピーカー3の機能がプロジェクター2に備えられることを除いて、第1実施形態の表示システム1と同様の構成を有する。以下の第2実施形態の表示システム1の説明では、第1実施形態の表示システム1と同一の構成については、第1実施形態と同一の符号を付して詳細な説明を省略する。
【0058】
第2実施形態の表示システム1では、プロジェクター2は、図5に示すように、ウェイクワード判定部58と、応答部59と、ウェイクワードデータ62とを有する。なお、第2実施形態のプロジェクター2は、図3に示すスマートスピーカー3の第2制御部50の機能と、第2通信部51の機能と、音声入出力部52の機能と、第2プロセッサー53の機能と、音声データ取得部56の機能とを有する。
【0059】
第2実施形態のプロジェクター2では、図3に示すスマートスピーカー3の第2制御部50の機能が第1制御部10の機能に包含される。同様に、第2実施形態のプロジェクター2では、第2通信部51の機能が第1通信部16の機能に包含され、音声入出力部52の機能が音声入出力部15の機能に包含され、第2プロセッサー53の機能が第1プロセッサー21の機能に包含され、音声データ取得部56の機能が音声データ取得部31の機能に包含される。
【0060】
また、第2実施形態のプロジェクター2は、図3に示すスマートスピーカー3の第2制御プログラム55と、第2設定データ61とを包含する。第2実施形態のプロジェクター2では、図3に示す第2制御プログラム55が、図5に示す制御プログラム23に包含される。同様に、図3に示す第2設定データ61が、図5に示す設定データ36に包含される。第2実施形態での操作の処理の流れは、スマートスピーカー3の処理をプロジェクター2が実施することを除いて、第1実施形態での操作の処理の流れと同様である。このため、第2実施形態での操作の処理の流れの説明を省略する。上記の構成により、第2実施形態の表示システム1においても、第1実施形態の表示システム1と同様の効果が得られる。
【0061】
第1実施形態及び第2実施形態では、第2類操作の実行が許可される期間に、第2類操作の実行の終了が要求されると、サーバー装置4から第2類操作の実行を禁止する命令をプロジェクター2が受信する。第1制御部10は、第2類操作の実行を禁止する命令に基づいて、音声認識部32で認識される第2音声に基づく第2類操作の実行を終了する。これにより、第2類操作の実行の終了を要求する第1音声に基づいて、第2類操作の実行を終了することができる。
【0062】
なお、第2類操作の実行を終了させるための条件は、第2類操作の実行の終了が要求されることに限定されない。第2類操作の実行を終了させるための条件としては、第2類操作の実行が許可される期間に、第1類操作の実行が要求されることも採用され得る。例えば、第2類操作が許可される期間に、ユーザーが第1類操作の一例である画像ソースの切り替えを要求したことに基づいて第2類操作の実行を終了することができる。この場合、第2類操作が許可される期間に、サーバー装置4から画像ソースの切り替えの命令をプロジェクター2が受信したことに基づいて、第2類操作の実行を終了することができる。
【0063】
つまり、第2類操作の実行が許可される期間に、第1類操作を要求する第1音声に基づいて生成された第1音声デーがサーバー装置4に送信される。これに基づいて、サーバー装置4から第2類操作の実行を禁止する命令をプロジェクター2が受信する。第1制御部10は、第2類操作の実行を禁止する命令に基づいて、音声認識部32で認識される第2音声に基づく第2類操作の実行を終了する。これにより、第1類操作を要求する第1音声に基づいて、第2類操作の実行を終了することができる。
【0064】
第1実施形態の表示システム1では、スマートスピーカー3は、第2スピーカー63を備える。スマートスピーカー3は、第2類操作の実行の許可を要求する第1音声データに対する許可を示す応答データをサーバー装置4から受信する。スマートスピーカー3は、この応答データに基づいて第2類操作の実行を開始することを第2スピーカー63から音声で通知する。これにより、第2類操作の実行を開始することを音声で報知することができる。また、第2実施形態の表示システム1では、プロジェクター2は、スピーカー38を備える。プロジェクター2は、第2類操作の実行の許可を要求する第1音声データに対する許可を示す応答データをサーバー装置4から受信する。プロジェクター2は、この応答データに基づいて第2類操作の実行を開始することをスピーカー38から音声で通知する。これにより、第2類操作の実行を開始することを音声で報知することができる。
【0065】
なお、第2類操作の実行を開始する旨の報知は、スマートスピーカー3による音声での報知や、スピーカー38による音声での報知に限定されない。第2類操作の実行を開始する旨の報知として、プロジェクター2による文字表示での報知も採用され得る。プロジェクター2による文字表示での報知は、OSD処理部14によって実現され得る。第1制御部10による制御に基づいて、OSD処理部14は、プロジェクター2がサーバー装置4から第2類操作の実行を許可する命令を受信したときに、第2類操作を実行可能であることを文字で表示させる。これにより、第2類操作を実行可能であることを文字で表示させることができる。
【0066】
第1実施形態及び第2実施形態のそれぞれにおいて、第2類操作を要求する第2音声が連続するときに、連続する複数の第2類操作を一つの要求として認識させることができる。例えば、第2類操作の一例である音量調整が許可される期間に、ユーザーが「上げて、上げて」と発話したとき、音声認識部32は、連続する2回の第2音声を一つの要求として一つの第2音声データに含める。そして、操作処理部33は、第1制御部10による命令に基づいて、一つの第2音声データに含まれる複数の第2類操作を実現する処理を実行する。これにより、一つの要求として認識された複数の第2類操作を実行することができるので、一つの要求で一つの第2類操作だけを実行する場合に比較して、複数の第2類操作の実行にかかる時間を短縮することができる。換言すれば、一つの要求として認識された複数の第2類操作を実行することができるので、複数の第2類操作を一つずつ認識して一つずつ実行する場合に比較して、複数の第2類操作の実行にかかる時間を短縮することができる。
【0067】
第1実施形態及び第2実施形態のそれぞれにおいて、一つの要求として認識された複数の第2類操作の中で同じ内容が2回連続するとき、2回目の第2類操作の操作量を規定の操作量よりも多くすることができる。例えば、第2類操作の一例である音量調整では、音量を上げるときの操作量が所定の操作量に規定される。ここで、例えば、ユーザーが「上げて、上げて」と音量を上げる操作を2回連続して発話したとき、2回目の操作量を規定の操作量よりも多くすることができる。これは、2回目の操作量を規定の操作量よりも多く設定することによって実現され得る。これにより、一度に多くの操作量を達成することができるので、一層の時間短縮が図られる。
【0068】
第1実施形態及び第2実施形態のそれぞれにおいて、一つの要求として認識された複数の第2類操作の中で相反する内容が連続するとき、2番目の第2類操作の操作量を規定の操作量よりも少なくすることができる。例えば、第2類操作の一例である音量調整では、音量を下げるときの操作量が所定の操作量に規定される。ここで、例えば、ユーザーが「上げて、下げて」と音量を上げる操作と音量を下げる操作と連続して発話したとき、2番目の操作量を規定の操作量よりも少なくすることができる。これは、2番目の操作量を規定の操作量よりも少なく設定することによって実現され得る。これにより、規定の操作量よりも音量を上げたいけれど2回連続して音量を上げるよりも音量を下げたいというような細かな調整を実現することができる。
【符号の説明】
【0069】
1…表示システム、2…プロジェクター、3…スマートスピーカー、4…サーバー装置、5…ネットワーク、6…画像供給装置、7…スクリーン、10…第1制御部、11…インターフェース部、12…フレームメモリー、13…画像処理部、14…OSD処理部、15…音声入出力部、16…第1通信部、17…投写部、18…駆動部、19…バス、21…第1プロセッサー、22…第1記憶部、23…制御プログラム、31…音声データ取得部、32…音声認識部、33…操作処理部、34…投写制御部、36…設定データ、37…音声辞書データ、38…スピーカー、39…マイク、40…信号処理部、41…光源部、42…光変調装置、43…投写光学系、44…光源駆動回路、45…光変調装置駆動回路、50…第2制御部、51…第2通信部、52…音声入出力部、53…第2プロセッサー、54…第2記憶部、55…第2制御プログラム、56…音声データ取得部、58…ウェイクワード判定部、59…応答部、61…第2設定データ、62…ウェイクワードデータ、63…第2スピーカー、64…第2マイク、65…第2信号処理部。
図1
図2
図3
図4
図5