特開2019-204025(P2019-204025A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ レノボ・シンガポール・プライベート・リミテッドの特許一覧

特開2019-204025電子機器、制御方法、及びプログラム
<>
  • 特開2019204025-電子機器、制御方法、及びプログラム 図000003
  • 特開2019204025-電子機器、制御方法、及びプログラム 図000004
  • 特開2019204025-電子機器、制御方法、及びプログラム 図000005
  • 特開2019204025-電子機器、制御方法、及びプログラム 図000006
  • 特開2019204025-電子機器、制御方法、及びプログラム 図000007
  • 特開2019204025-電子機器、制御方法、及びプログラム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2019-204025(P2019-204025A)
(43)【公開日】2019年11月28日
(54)【発明の名称】電子機器、制御方法、及びプログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20191101BHJP
   G10L 15/04 20130101ALI20191101BHJP
   G10L 15/10 20060101ALI20191101BHJP
【FI】
   G10L15/22 300Z
   G10L15/04 300Z
   G10L15/10 200W
【審査請求】未請求
【請求項の数】7
【出願形態】OL
【全頁数】16
(21)【出願番号】特願2018-99859(P2018-99859)
(22)【出願日】2018年5月24日
(71)【出願人】
【識別番号】505205731
【氏名又は名称】レノボ・シンガポール・プライベート・リミテッド
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100206081
【弁理士】
【氏名又は名称】片岡 央
(72)【発明者】
【氏名】森 英久
(72)【発明者】
【氏名】米田 雅春
(72)【発明者】
【氏名】川北 幸司
(72)【発明者】
【氏名】堀野 俊和
(57)【要約】
【課題】キーワードを話しかけることにより特定の機能を実行させる際の誤認識率を低減すること。
【解決手段】電子機器は、第1の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第1の時間以上続いた後に音声を検出した場合に第2の処理に移行させる第1処理部と、第2の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、第2の処理に移行してから第2の時間以内に特定の言葉が含まれていた場合には第3の処理に移行させ、第2の時間以内に特定の言葉が含まれていない場合には第3の処理に移行させない第2処理部と、第3の処理において、特定の機能を起動する第3処理部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第1の時間以上続いた後に音声を検出した場合に第2の処理に移行させる第1処理部と、
前記第2の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第2の処理に移行してから第2の時間以内に特定の言葉が含まれていた場合には第3の処理に移行させ、前記第2の時間以内に特定の言葉が含まれていない場合には前記第3の処理に移行させない第2処理部と、
前記第3の処理において、特定の機能を起動する第3処理部と、
を備える電子機器。
【請求項2】
前記第2処理部は、
前記第2の処理に移行してから前記第2の時間以内に特定の言葉が含まれていない場合には前記第1の処理に移行させる、
請求項1に記載の電子機器。
【請求項3】
前記第3処理部は、
前記第3の処理において、検出された音声に対して音声認識が行われることにより認識された音声の内容に基づく応答処理を実行する、
を備える請求項1または請求項2に記載の電子機器。
【請求項4】
前記第1の時間及び前記第2の時間の少なくとも一方は地域設定または言語設定に基づいて設定される、
請求項1から請求項3のいずれか一項に記載の電子機器。
【請求項5】
前記第1の時間及び前記第2の時間の少なくとも一方はユーザにより設定可能である、
請求項1から請求項4のいずれか一項に記載の電子機器。
【請求項6】
電子機器における制御方法であって、
第1処理部が、第1の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第1の時間以上続いた後に音声を検出した場合に第2の処理に移行させる第1処理ステップと、
第2処理部が、前記第2の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第2の処理に移行してから第2の時間以内に特定の言葉が含まれていた場合には第3の処理に移行させ、前記第2の時間以内に特定の言葉が含まれていない場合には前記第3の処理に移行させない第2処理ステップと、
第3処理部が、前記第3の処理において、特定の機能を起動する第3処理ステップと、
を有する制御方法。
【請求項7】
コンピュータに、
第1の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第1の時間以上続いた後に音声を検出した場合に第2の処理に移行させる第1処理ステップと、
前記第2の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第2の処理に移行してから第2の時間以内に特定の言葉が含まれていた場合には第3の処理に移行させ、前記第2の時間以内に特定の言葉が含まれていない場合には前記第3の処理に移行させない第2処理ステップと、
前記第3の処理において、特定の機能を起動する第3処理ステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子機器、制御方法、及びプログラムに関する。
【背景技術】
【0002】
ユーザが発話した内容を音声認識し、発話内容に応答したり、発話内容による指示に対応した処理を実行したりする機能(所謂、音声アシスタント)が搭載された電子機器がある(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2014−170185号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した音声アシスタントのように特定の機能を利用する場合、キーワード(特定の言葉)を話しかけることによりその機能が起動するものがある。しかしながら、当該キーワードを含む会話をした場合、または当該キーワードに音として似ている言葉が会話の中に含まれていた場合に、音声アシスタントを利用する意思が無いのに起動してしまうことがあった。この場合、ユーザからすると、意図しないタイミングで音声アシスタントなどの機能が反応してしまうことがあった。
【0005】
本発明は、上記した事情に鑑みてなされたもので、キーワードを話しかけることにより特定の機能を実行させる際の誤認識率を低減することができる電子機器、制御方法、及びプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0006】
本発明は上記の課題を解決するためになされたものであり、本発明の第1態様に係る電子機器は、第1の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第1の時間以上続いた後に音声を検出した場合に第2の処理に移行させる第1処理部と、前記第2の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第2の処理に移行してから第2の時間以内に特定の言葉が含まれていた場合には第3の処理に移行させ、前記第2の時間以内に特定の言葉が含まれていない場合には前記第3の処理に移行させない第2処理部と、前記第3の処理において、特定の機能を起動する第3処理部と、を備える。
【0007】
前記第2処理部は、前記第2の処理に移行してから前記第2の時間以内に特定の言葉が含まれていない場合には前記第1の処理に移行させてもよい。
【0008】
前記第3処理部は、前記第3の処理において、検出された音声に対して音声認識が行われることにより認識された音声の内容に基づく応答処理を実行してもよい。
【0009】
前記第1の時間及び前記第2の時間の少なくとも一方は地域設定または言語設定に基づいて設定されてもよい。
【0010】
前記第1の時間及び前記第2の時間の少なくとも一方はユーザにより設定可能であってもよい。
【0011】
また、本発明の第2態様に係る電子機器における制御方法は、第1処理部が、第1の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第1の時間以上続いた後に音声を検出した場合に第2の処理に移行させる第1処理ステップと、第2処理部が、前記第2の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第2の処理に移行してから第2の時間以内に特定の言葉が含まれていた場合には第3の処理に移行させ、前記第2の時間以内に特定の言葉が含まれていない場合には前記第3の処理に移行させない第2処理ステップと、第3処理部が、前記第3の処理において、特定の機能を起動する第3処理ステップと、 を有する。
【0012】
また、本発明の第3態様に係るプログラムは、コンピュータに、第1の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第1の時間以上続いた後に音声を検出した場合に第2の処理に移行させる第1処理ステップと、前記第2の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第2の処理に移行してから第2の時間以内に特定の言葉が含まれていた場合には第3の処理に移行させ、前記第2の時間以内に特定の言葉が含まれていない場合には前記第3の処理に移行させない第2処理ステップと、前記第3の処理において、特定の機能を起動する第3処理ステップと、を実行させる。
【発明の効果】
【0013】
本発明の上記態様によれば、キーワードを話しかけることにより特定の機能を実行させる際の誤認識率を低減することができる。
【図面の簡単な説明】
【0014】
図1】実施形態に係る音声アシスタント起動制御処理の概要を示す図。
図2】実施形態に係る音声アシスタントシステムの構成の一例を示すシステム図。
図3】実施形態に係る端末のハードウェア構成の一例を示すブロック図。
図4】実施形態に係る端末の機能構成の一例を示すブロック図。
図5】実施形態に係る音声アシスタント起動処理の一例を示すフローチャート。
図6】実施形態に係る音声アシスタント起動処理の変形例を示すフローチャート。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。なお、各図において同一部分には同一符号を付している。
【0016】
本実施形態では、特定の言葉(以下、「キーワード」ともいう)を話しかけることにより、PC(Personal Computer)に搭載されている音声アシスタントが自動で起動する音声アシスタントシステムを例に説明する。ここで、音声アシスタントとは、ユーザが発話する内容を音声認識することにより、その発話内容に対する応答を出力する機能である。例えば、音声アシスタントは、ユーザの発話内容に応じて、天気情報、ニュース、お店や観光地などの情報を提供したり、動画や音楽などのコンテンツをストリーミング再生したりといったような各種の情報を提供する。例えば、天気情報を例にすると、ユーザの発話内容が「今日の天気は?」の場合には、天気情報の提供サイトを参照して、現在地の今日の天気予報についての回答(例えば、「今日は、晴れの予報です」)が応答される。応答の方法は、音声合成による音声出力であってもよいし、文字や画像による表示出力であってもよいし、その両方であってもよい。
【0017】
ところで、音声アシスタントを起動させるためのキーワードが一連の会話の中に含まれていた場合、または当該キーワードに音として似ている言葉が会話の中に含まれていた場合などに、音声アシスタントを利用する意思が無いのに、音声アシスタントが起動してしまうことがある。この場合、ユーザの意図しないタイミングで音声アシスタントが反応し、会話や作業が途切れてしまうことになる。また、常に、音声アシスタントによって聞き耳を立てられている感覚がして不快に感じる場合もある。そのため、ユーザが音声アシスタントを使用できないように機能自体を無効(Disable)に設定してしまい、せっかくPCに音声アシスタントが搭載されていても使用されなくなってしまう可能性がある。
【0018】
そこで、本実施形態では、ユーザが音声アシスタントを利用する意思を持ってキーワードを話しかけた場合に音声アシスタントを起動し、キーワードが一連の会話の中に単に含まれていた場合や、キーワードに音として似ている言葉が会話の中に含まれていた場合には、音声アシスタントが起動してしまうことを抑制するように音声アシスタントの起動を制御する。図1を参照して、この音声アシスタント起動制御処理の概要を説明する。
【0019】
図1は、本実施形態に係る音声アシスタント起動制御処理の概要を示す図である。音声アシスタント起動制御処理は、「Phase1」、「Phase2」、「Phase3」の順に処理が行われる。「Phase1」は、周囲の音から音声を検出(VAD:Voice Activity Detection)する処理である。「Phase2」は、「Phase1」で音声が検出された場合にその音声とキーワードとを照合し、キーワードが検出された場合に音声アシスタントを起動させる指示を行う処理(Voice Trigger)である。「Phase3」は、「Phase2」における音声アシスタントを起動させる指示に応じて、音声アシスタント(Voice Engine)を起動する。また、図示する各PhaseにおけるPCの状態は、「Phase1」では音声を聞いている状態(listening)を示し、「Phase2」では音声とキーワードのマッチングを行っている状態(thinking)を示し、「Phase3」では、音声アシスタントが起動して起動音が出力された状態を示している。
【0020】
ここで、キーワードが一連の会話の中に含まれていた場合、またはキーワードに音として似ている言葉が会話の中に含まれていた場合には、音声が連続して検出されている中にキーワード(またはキーワードに似ている言葉)が検出される。一方、ユーザが音声アシスタントを利用する意思を持ってキーワードを話しかける場合には、一定時間の沈黙があってから話しかける傾向があるため、一定時間の沈黙(音声なし)の後の一定時間以内にキーワードが検出されることが一般的であると考えられる。また、例え、一連の会話の最後に一定時間の沈黙を挟まずに意思を持ってキーワードを話しかけることがあったとしても、音声アシスタントから反応が無ければ、ユーザは一定時間の沈黙が挟まれた後に再びキーワードを話しかけることが考えられる。
【0021】
そこで、本実施形態の音声アシスタントシステムは、図示するように「Phase1」では、一定時間の沈黙(音声なし)の後に音声が検出された場合に「Phase2」へ移行させ、さらに「Phase2」に移行してから一定時間以内にキーワードが検出された場合に「Phase3」へ移行させて音声アシスタントを起動させる。また、本実施形態の音声アシスタントシステムは、「Phase2」に移行してから一定時間内以内キーワードが検出されない場合には「Phase1」に戻す。つまり、本実施形態の音声アシスタントシステムは、一旦「Phase2」移行しても、一定時間以上会話が続いた後にキーワードが検出されたとしても、それはユーザが音声アシスタントを利用する意思を持ったものではないと判断してキーワード検出を停止し、「Phase1」に戻すことにより、再び一定時間の沈黙(音声なし)の後に音声が検出されたときにキーワード検出を再開する。
【0022】
これにより、本実施形態では、会話の中で出てくるキーワードまたはキーワードに似た言葉によって音声アシスタントを起動させてしまうといった誤認識率(FAR:Fales Acceptance Ratio)を下げることができ、ユーザの意図したタイミングで適切に音声アシスタントを起動できるようになる。例えば、従来は、「Phase1」で音声が検出されることによって「Phase2」へ一旦移行すると、その後キーワードが検出されるまでキーワード検出が行われていたため、キーワードが一連の会話の中に含まれていた場合、またはキーワードに音として似ている言葉が会話の中に含まれていた場合などに、ユーザが利用する意思が無いのに音声アシスタントが起動してしまう場合があった。本実施形態では、一定時間の沈黙(音声なし)の後の一定時間以内にキーワードが検出された場合に音声アシスタントを起動させるため、ユーザが利用する意思が無いのに音声アシスタントが起動してしまうことを抑制することができる。
【0023】
以下、本実施形態に係る音声アシスタントシステムの構成について詳細に説明する。
図2は、本実施形態に係る音声アシスタントシステムの構成の一例を示すシステム図である。図示する音声アシスタントシステム1は、複数の端末10(10−1、10−2、・・・10−N:Nは自然数)と音声認識サーバ20とを備えている。複数の端末10のそれぞれは、音声認識サーバ20とネットワークNWを介して通信接続される。
【0024】
ネットワークNWは、例えば、携帯電話網、PHS(Personal Handy-phone System)網、VPN(Virtual Private Network)網、専用通信回線網、WAN(Wide Area Network)、LAN(Local Area Network)、PSTN(Public Switched Telephone Network;公衆交換電話網)など、またはこれらの組み合わせによって構成される通信ネットワークである。
【0025】
端末10は、ユーザが利用するコンピュータ装置であり、例えば、デスクトップPC、ラップトップPC(ノートPC)、タブレットPCなどの電子機器である。なお、端末10は、スマートフォンなどの携帯電話機、スマートスピーカなどのような電子機器であってもよい。端末10は、音声認識サーバ20と連携して音声アシスタントの機能を実現する。例えば、図1に示す「Phase3」に移行することにより音声アシスタントが起動すると、端末10は、ユーザが発話した音声を検出し、検出した音声の音声信号を、ネットワークNWを介して音声認識サーバ20へ送信する。
【0026】
音声認識サーバ20は、端末10から送信された音声信号に対して音声認識を行い、認識結果(即ち、ユーザの発話内容)を示す情報を端末10へ送信する。端末10は、音声認識サーバ20から取得した認識結果を示す情報に基づいて、ユーザの発話内容に応じた応答を出力する。例えば、端末10は、ユーザの発話内容に応じて、天気情報、ニュース、お店や観光地などの情報を音声または映像で出力したり、動画コンテンツや音楽コンテンツなどをストリーミング再生したりする。
【0027】
なお、音声認識サーバ20は、端末10から送信された音声信号に対して音声認識を行い、ユーザの発話内容に応じた応答を生成して端末10へ提供してもよい。例えば、音声認識サーバ20は、ユーザの発話内容に応じて天気情報、ニュース、お店や観光地などの情報を端末10へ送信してもよいし、動画コンテンツや音楽コンテンツなどのストリーミング再生信号などを送信してもよい。これにより、端末10は、ユーザの発話内容に応じた応答を音声認識サーバ20から取得して出力するようにしてもよい。
【0028】
図3は、本実施形態に係る端末10のハードウェア構成の一例を示すブロック図である。端末10は、通信部11と、表示部12と、操作入力部13と、マイク14と、スピーカ15と、記憶部16と、CPU(Central Processing Unit)17とを備えている。これらの構成要素は、バス18を介して相互に通信可能に接続されている。
【0029】
通信部11は、例えば、複数のイーサネット(登録商標)ポートや複数のUSB等のデジタル入出力ポート、無線LANポート等を含んで構成され、CPU17による制御に基づいて、ネットワークNWを介して音声認識サーバ20や他の装置等と通信を行う。
【0030】
表示部12は、画像やテキスト等の情報を表示するディスプレイであり、例えば、液晶ディスプレイパネル、有機EL(ElectroLuminescence)ディスプレイパネルなどを含んで構成される。操作入力部13は、例えば、キーボードやマウス、タッチパッドなどの入力装置であり、ユーザの操作入力を受け付け、受け付けた操作入力に基づく操作信号を出力する。なお、操作入力部13は、タッチパネルとしてディスプレイ(表示部12)と一体に構成されてもよい。
【0031】
マイク14は、周囲の音を検知して音信号に変換して出力する。例えば、マイク14は、ユーザの発話などの音声が入力されると入力された音声を音声信号に変換して出力する。スピーカ15は、音声アシスト機能による応答として生成された音声信号などに基づいて、音声を出力する。
【0032】
記憶部16は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、ROM(Read-Only Memory)、RAM(Random Access Memory)などを含み、端末10が処理する各種情報や画像、プログラム等を記憶する。なお、記憶部16は、端末10に内蔵されるものに限らず、USB等のデジタル入出力ポート等によって接続された外付け型の記憶装置でもよい。
【0033】
CPU17は、記憶部16に記憶されている各種プログラムを実行し、端末10の各部を制御する。なお、端末10は、不図示のカメラ、ジャイロセンサ、GPS(Global Positioning System)受信モジュールなどのハードウェア構成を含んで構成されてもよい。
【0034】
次に図4を参照して、端末10の機能構成について説明する。図4は、本実施形態に係る端末10の機能構成の一例を示すブロック図である。端末10は、記憶部16に記憶されているプログラム(例えば、音声アシスタント制御プログラム)をCPU17が実行することにより実現される機能構成として、制御部170を備えている。図4は、本実施形態に係る端末10が備える制御部170の機能構成の一例を示すブロック図である。制御部170は、入力制御部171と、出力制御部172と、音声検出部173と、キーワード検出部174と、音声アシスタント部175とを備えている。
【0035】
入力制御部171は、操作入力部13から出力される操作信号を取得する。また、入力制御部171は、マイク14から出力された音信号を取得する。
【0036】
出力制御部172は、表示部12の表示を制御する。また、出力制御部172は、スピーカ15から出力する音(例えば、音声)を制御する。
【0037】
音声検出部173は、周囲の音から音声(人の声)を検出する。例えば、音声検出部173は、入力制御部171を介してマイク14から取得した音信号に対して周波数解析を行うことにより、マイク14に入力された音の中から音声を検出する。また、音声検出部173は、音声が検出されていない状態が一定時間(例えば、2秒)以上続いた後(即ち、一定時間の沈黙(音声なし)の後)に音声を検出した場合にキーワード検出部174による処理に移行させる。例えば、音声検出部173は、予め設定された第1の判定時間と比較することにより、音声が検出されていない状態が一定時間以上続いたか否かを判定する。この第1の判定時間は、会話が連続していないと判定するため判定閾値として予め設定されている。以下では、この第1の判定時間のことを、「音声検出判定時間」ともいう。
【0038】
例えば、音声検出部173は、「Phase1」(図1参照)において、音声が検出されていない状態が音声検出判定時間以上続いた後に音声を検出した場合、一定時間の沈黙(音声なし)の後に音声を検出したため、「Phase2」(図1参照)に移行させる。一方、音声検出部173は、「Phase1」において、連続的(或いは断続的に)に音声を検出しており音声が検出されていない状態が音声検出判定時間以上続かない場合には、音声を検出しても、「Phase2」に移行させないで、音声検出処理を継続する。
【0039】
キーワード検出部174は、音声検出部173により音声が検出されていない状態が一定時間以上続いた後に音声が検出された場合、音声検出部173により検出された音声にキーワードが含まれているか否かを検出する。例えば、キーワード検出部174は、音声検出部173により検出された音声と、予め設定されているキーワード(音声アシスタントを起動させるためのキーワード)とを照合することにより、音声にキーワードが含まれているか否かを検出する。
【0040】
また、キーワード検出部174は、音声検出部173により音声が検出されていない状態が一定時間以上続いた後に音声が検出されてから(即ち、「Phase1」から「Phase2」に移行してから)一定時間(例えば、5秒)以内にキーワードが含まれていた場合には、音声アシスタントを起動させる指示を行う(即ち、「Phase3」(図1参照)に移行させる)。例えば、キーワード検出部174は、予め設定された第2の判定時間と比較することにより、「Phase2」に移行してから一定時間以内にキーワードが含まれていたか否かを判定する。この第2の判定時間は、一定時間以上会話が続いていない(即ち、一連の会話の途中ではない)と判定するため判定閾値として予め設定されている。以下では、この第2の判定時間のことを、「キーワード検出判定時間」ともいう。
【0041】
例えば、キーワード検出部174は、「Phase2」に移行してからキーワード検出判定時間以内にキーワードを検出した場合には、一定時間以内にキーワードが含まれているため、ユーザが音声アシスタントを利用する意思を持ってキーワードを話しかけたと判定する。そして、キーワード検出部174は、音声アシスタントを起動させる指示を行い、「Phase3」に移行させる。
【0042】
一方、キーワード検出部174は、「Phase2」に移行してからキーワード検出判定時間以内にキーワードを検出できなかった場合には、一定時間以内にキーワードが含まれていないため、例えそれ以降にキーワードを検出したとしても、一連の会話の途中にたまたまキーワードが含まれたものであると判定する。そのため、キーワード検出部174は、音声アシスタントを起動させる指示を行わない(即ち、「Phase3」に移行させない)。例えば、キーワード検出部174は、キーワード検出判定時間以内にキーワードを検出できなかった場合には、キーワード検出処理を中止して、「Phase1」に戻してもよい。
【0043】
音声アシスタント部175は、キーワード検出部174から音声アシスタントを起動させる指示を受け取ると、音声アシスタントを起動する。例えば、音声アシスタント部175は、音声アシスタントを起動するとともに、起動したことを示す起動音または音声を、出力制御部172を介してスピーカ15から出力させる。また、音声アシスタント部175は、音声アシスタントを起動すると、マイク14により検出された音声(ユーザの発話)に対して音声認識を行う。具体的には、音声アシスタント部175は、マイク14により検出された音声の音声信号を、通信部11を介して音声認識サーバ20に送信することにより、音声認識サーバ20で行われた音声認識の認識結果である音声の内容(ユーザの発話内容)を示す情報を取得する。そして、音声アシスタント部175は、取得した認識結果に基づく応答処理を実行する。例えば、音声アシスタント部175は、ユーザの発話内容に応じて、天気情報、ニュース、お店や観光地などの情報を音声または映像で出力させたり、動画コンテンツや音楽コンテンツなどをストリーミング再生させたりする。
【0044】
(判定時間の設定例)
次に、音声検出判定時間及びキーワード検出判定時間の設定例を説明する。上述したように、音声検出判定時間は、会話が連続していないと判定するための判定閾値であり、音声検出部173が、音声が検出されていない状態が一定時間以上続いたか否か(即ち、一定時間の沈黙(音声なし)があったか否か)を判定する際に使用する判定時間である。一方、キーワード検出判定時間は、一定時間以上会話が続いていないと判定するため判定閾値であり、キーワード検出部174が、「Phase2」の処理に移行してから一定時間以内にキーワードが含まれていたか否かを判定する際に使用する判定時間である。
【0045】
音声検出判定時間は、例えば、2〜5秒に設定されている。さらに、より詳細には、音声検出判定時間は、一例として2秒に設定されてもよい。一方、キーワード検出判定時間は、例えば、5〜10秒に設定されている。さらに、より詳細には、キーワード検出判定時間は、一例として5秒に設定されてもよい。
【0046】
なお、上記の例では、音声検出判定時間よりキーワード検出判定時間の方が長く設定されているが、音声検出判定時間よりキーワード検出判定時間の方が短く設定されてもよい。例えば、音声検出判定時間が3〜5秒に設定され、キーワード検出判定時間が2〜4秒に設定されてもよい。さらに、より詳細には一例として、音声検出判定時間が3秒に設定され、キーワード検出判定時間が2秒に設定されてもよい。なお、音声検出判定時間とキーワード検出判定時間との長さが同じに設定されてもよい。
【0047】
また、会話の速度には地域や言語の種類によって異なることも考えられる。そのため、音声検出判定時間及びキーワード検出判定時間の一方または両方は、PCの地域設定または言語設定に基づいて設定されてもよい。例えば、PCの初期設定で選択する「国」または「言語設定」の選択肢のそれぞれに対して、音声検出判定時間及びキーワード検出判定時間の一方または両方の値がそれぞれ関連付けられていてもよい。そして、PCの初期設定で「国」または「言語設定」が選択されたことに応じて、選択された「国」または「言語設定」に関連付けられている音声検出判定時間及びキーワード検出判定時間の一方または両方が設定されてもよい。
【0048】
また、会話の速度には個人差もある。そのため、音声検出判定時間及びキーワード検出判定時間の一方または両方は、ユーザにより設定可能としてもよい。例えば、音声検出判定時間及びキーワード検出判定時間の一方または両方は、ユーザが任意の時間を設定可能なようにしてもよいし、予め決められた複数の設定時間の中から任意に選択可能なようにしてもよい。また、音声検出判定時間及びキーワード検出判定時間の両方ともユーザにより設定可能な場合、それぞれ個別に設定可能なようにしてもよいし、両方の設定が組みとなった選択肢の中から選択可能なようにしてもよい。また、時間を設定するのではなく、「早め」、「普通」、「ゆっくり」などのような項目の中からユーザが選択することで、選択された項目に対応して予め設定されている音声検出判定時間及びキーワード検出判定時間が設定されてもよい。
【0049】
(音声アシスタント起動処理の動作)
次に図5を参照して、端末10の制御部170が、ユーザが発話するキーワードを検出することにより音声アシスタントを起動する音声アシスタント起動処理の動作について説明する。図5は、本実施形態に係る音声アシスタント起動処理の一例を示すフローチャートである。なお、ここでは、端末10において音声アシスタントの使用の有効/無効(Enable/Disable)が設定可能な場合には、有効(Enable)に設定されているものとして説明する。
【0050】
以下のステップS101〜S105の処理が「Phase1」に相当する。
(ステップS101)端末10が起動すると、音声検出部173は、入力制御部171を介してマイク14から取得した音信号に基づいて、周囲の音から音声(人の声)を検出する音声検出処理を開始する。そして、ステップS103の処理に進む。
【0051】
(ステップS103)音声検出部173は、音声が検出されていない状態が一定時間以上続いたか否かを判定する。そして、音声検出部173は、音声が検出されていない状態が一定時間(音声検出判定時間)以上続いていないと判定した場合(NO)にはステップS103の処理を継続し、一定時間以上続いたと判定した場合(YES)にはステップS105の処理に進む。
【0052】
(ステップS105)音声検出部173は、音声(人の声)を検出したか否かを判定する。そして、音声検出部173は、音声(人の声)を検出していないと判定した場合(NO)にはステップS103の処理に戻し、音声(人の声)を検出した場合(YES)にはステップS107の処理に進む。つまり、音声検出部173は、一定時間以上の沈黙の後に音声を検出した場合に、ステップS107の処理に進む(即ち、「Phase2」に移行)。
【0053】
次のステップS107〜S111の処理が「Phase2」に相当する。
(ステップS107)キーワード検出部174は、音声検出部173により検出された音声と、予め設定されているキーワード(音声アシスタントを起動させるためのキーワード)とを照合(キーワードマッチング)することにより、音声からキーワードを検出する。そして、ステップS109の処理に進む。
【0054】
(ステップS109)キーワード検出部174は、上記キーワードマッチングの結果に基づいて、音声検出部173により検出された音声からキーワードを検出したか否かを判定する。そして、キーワード検出部174は、キーワードを検出していない場合(NO)にはステップS111の処理に進み、キーワードを検出した場合(YES)にはステップS113の処理に進む(即ち、「Phase3」に移行)。
【0055】
(ステップS111)キーワード検出部174は、ステップS105において音声が検出されてから(即ち、「Phase2」に移行してから)の経過時間(即ち、キーワードが未検出である時間)が一定時間(キーワード検出判定時間)以内であるか否かを判定する。そして、キーワード検出部174は、キーワードが未検出である時間が一定時間以内であると判定した場合(YES)には、ステップS107の処理に戻してキーワード検出処理を続ける。一方、キーワード検出部174は、キーワードが未検出である時間が一定時間を超えたと判定した場合(NO)には、キーワード検出処理を停止して、ステップS103の処理に戻す(即ち、「Phase1」に戻す)。
【0056】
つまり、キーワード検出部174は、ステップS105において音声が検出されてから(即ち、「Phase2」に移行してから)一定時間以内にキーワードを検出した場合、ステップS113の処理(「Phase3」)に進む。
【0057】
次のステップS113の処理が「Phase3」に相当する。
(ステップS113)音声アシスタント部175は、音声アシスタントを起動するとともに、起動したことを示す起動音または音声を、出力制御部172を介してスピーカ15から出力させる。
【0058】
次に、音声アシスタント起動処理の変形例について説明する。
「Phase1」の音声検出処理において、端末10の起動後の初回は、音声が検出されていない状態が一定時間(音声検出判定時間)以上続いているか否かに関わらず、音声(人の声)を検出した場合には「Phase2」に移行してもよい。
【0059】
図6は、本実施形態に係る音声アシスタント起動処理の変形例を示すフローチャートである。図6に示すステップS201〜S213の各処理は、図5に示すステップS101〜S113の各処理と対応しており、「Phase1」の処理のみが異なる。
(ステップS201)端末10が起動すると、音声検出部173は、入力制御部171を介してマイク14から取得した音信号に基づいて、周囲の音から音声(人の声)を検出する音声検出処理を開始する。そして、ステップS205の処理に進む。
【0060】
(ステップS205)音声検出部173は、音声(人の声)を検出したか否かを判定する。そして、音声検出部173は、音声(人の声)を検出していないと判定した場合(NO)にはステップS205の処理を継続し、音声(人の声)を検出した場合(YES)にはステップS207の処理に進む。つまり、音声検出部173は、一定時間以上の沈黙の有無に関わらず、音声を検出した場合には、ステップS207の処理に進む(即ち、「Phase2」に移行)。
【0061】
一方、「Phase2」へ一旦移行した後に「Phase1」に戻った場合には、一定時間以上の沈黙の後に音声を検出した場合にステップS207の処理に進む(即ち、「Phase2」に移行)。具体的には、「Phase2」のステップS211において、キーワード検出部174は、キーワードが未検出である時間が一定時間を超えたと判定した場合(NO)には、キーワード検出処理を停止して、ステップS203の処理に戻す(即ち、「Phase1」に戻す)。
【0062】
(ステップS203)音声検出部173は、音声が検出されていない状態が一定時間以上続いたか否かを判定する。そして、音声検出部173は、音声が検出されていない状態が一定時間(音声検出判定時間)以上続いていないと判定した場合(NO)にはステップS203の処理を継続し、一定時間以上続いたと判定した場合(YES)にはステップS205の処理に進む。これにより、「Phase2」へ一旦移行した後に「Phase1」に戻った場合には、音声検出部173は、一定時間以上の沈黙の後に音声を検出した場合に、ステップS207の処理に進む(即ち、「Phase2」に移行)。
【0063】
(各処理の消費電力について)
次に、「Phase1」、「Phase2」、「Phase3」の各処理の消費電力について説明する。「Phase1」、「Phase2」、「Phase3」の各処理では、処理が異なるため消費電力が異なる。「Phase1」及び「Phase2」は、音声アシスタントが起動していないため「Phase3」よりは消費電力が低いが、「Phase1」と「Phase2」とでも消費電力は異なる。「Phase1」が音声検出処理であるのに対して「Phase2」では音声検出処理に加えてキーワード検出処理が行われるため、「Phase1」より「Phase2」の方が消費電力は高くなる。一例として、「Phase1」の消費電力が500μW程度であるのに対し、「Phase2」の消費電力は70mW程度になる。よって、本実施形態において、「Phase2」において、一定時間以内にキーワードが検出されない場合に「Phase1」に戻すことで、「Phase2」を継続する場合よりも消費電力を低減することができる。
【0064】
以上説明したように、本実施形態に係る端末10(電子機器の一例)は、音声検出部173(第1処理部の一例)と、キーワード検出部174(第2処理部の一例)と、音声アシスタント部175(第3処理部の一例)とを備えている。音声検出部173は、「Phase1」(第1の処理)において、周囲の音から音声を検出するとともに、音声が検出されていない状態が一定時間(第1の判定時間、音声検出判定時間)以上続いた後に音声を検出した場合に「Phase2」(第2の処理)に移行させる。キーワード検出部174は、「Phase2」において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、「Phase2」に移行してから一定時間(第2の判定時間、キーワード検出判定時間)以内にキーワード(特定の言葉)が含まれていた場合には「Phase3」(第3の処理)に移行させ、一定時間(第2の判定時間、キーワード検出判定時間)以内にキーワードが含まれていない場合には「Phase3」に移行させない。音声アシスタント部175は、「Phase3」において、音声アシスタント(特定の機能の一例)を起動する。例えば、音声アシスタント部175は、検出された音声に対して音声認識が行われることにより認識された音声の内容に基づく応答処理を実行する。
【0065】
これにより、端末10は、一定時間の沈黙(音声なし)の後の一定時間以内にキーワードが検出された場合に音声アシスタントを起動させるため、キーワードが一連の会話の中に含まれていた場合、またはキーワードに音として似ている言葉が会話の中に含まれていた場合などに、ユーザが利用する意思が無いのに音声アシスタントが起動してしまうことを抑制できる。よって、端末10は、ユーザが利用する意思が無いのに音声アシスタントが起動してしまうことを抑制することができる。したがって、端末10は、キーワードを話しかけることにより音声アシスタントを実行させる際の誤認識率を低減することができる。また、端末10は、ユーザの意図しないタイミングで音声アシスタントが反応してしまうことを抑制できるため、会話や作業が途切れてしまうことを低減できるとともに、常に音声アシスタントによって聞き耳を立てられている感覚から解放され、音声アシスタントの使用に対する不快感の解消に繋げることができる。
【0066】
また、キーワード検出部174は、「Phase2」に移行してから一定時間(第2の判定時間、キーワード検出判定時間)以内にキーワードが含まれていない場合には「Phase1」に移行させてもよい。
【0067】
これにより、端末10は、「Phase1」において音声を検出したことにより「Phase2」に移行してキーワード検出を開始しても、一定時間以内にキーワードが検出されない場合にはキーワード検出を停止して「Phase1」に戻すため、キーワードが検出するまで「Phase2」のキーワード検出処理を継続する場合に比べて、消費電力を低減することができる。
【0068】
なお、キーワード検出部174は、「Phase2」に移行してから一定時間(第2の判定時間、キーワード検出判定時間)以内にキーワードが含まれていない場合には、「Phase1」に移行させずに、その後キーワードが検出されたとしても「Phase2」のままとしてもよい。この場合、「Phase1」に移行させることによる低消費電力化の効果はないが、「Phase3」には移行させないことにより、キーワードが一連の会話の中に含まれていた場合、またはキーワードに音として似ている言葉が会話の中に含まれていた場合などに、ユーザが利用する意思が無いのに音声アシスタントが起動してしまうことは同様に抑制できる。また、この場合には、音声検出部173により音声が検出されていない状態が一定時間(第1の判定時間、音声検出判定時間)以上続いたことが検出された場合に、キーワード検出部174は、「Phase2」に移行してからカウントする時間をリセットして、再び、一定時間(第2の判定時間、キーワード検出判定時間)以内にキーワードが含まれているか否かを判定してもよい。
【0069】
また、上記音声検出判定時間及びキーワード検出判定時間の少なくとも一方は、地域設定または言語設定に基づいて設定されてもよい。これにより、端末10は、地域性や言語の特性によって会話の速度が異なる場合でも、キーワードを適切に検出することができる。
【0070】
また、上記音声検出判定時間及びキーワード検出判定時間の少なくとも一方は、ユーザにより設定可能な構成としてもよい。これにより、端末10は、会話の速度に個人差がある場合でも、使用するユーザが自身の会話の速度に合わせて設定することが可能であるため、キーワードを適切に検出することができる。
【0071】
なお、上記実施形態では、音声認識サーバ20を備えたクラウド環境において音声認識処理が行われる構成例を説明したが、端末10が音声認識処理を行う機能を備えてもよい。
【0072】
また、上記実施形態では、「Phase3」で起動する機能が音声アシスタントである例を説明したが、音声アシスタントに限られるものではない。例えば、「Phase3」で起動する機能は、特定のアプリケーションソフトや、他のPCの電源スイッチ、通信機能を有する家電(所謂、IOT家電、スマート家電)の電源スイッチなど、様々な機能にも適用することができる。よって、端末10は、一定時間の沈黙(音声なし)の後の一定時間以内にキーワードが検出された場合に特定の機能を起動させるため、キーワードが一連の会話の中に含まれていた場合、またはキーワードに音として似ている言葉が会話の中に含まれていた場合などに、ユーザが利用する意思が無いのに特定の機能が起動してしまうことを抑制できる。よって、端末10は、ユーザが利用する意思が無いのに特定の機能が起動してしまうことを抑制することができる。したがって、端末10は、キーワードを話しかけることにより特定の機能を実行させる際の誤認識率を低減することができる。
【0073】
なお、上述した端末10は、内部にコンピュータシステムを有している。そして、上述した端末10が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した端末10が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD−ROM等の非一過性の記録媒体であってもよい。
【0074】
また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に端末10が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0075】
また、上述した実施形態における端末10が備える各機能の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【0076】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0077】
1 音声アシスタントシステム、10 端末、11 通信部、12 表示部、13 操作入力部、14 マイク、15 スピーカ、16 記憶部、17 CPU、20 音声認識サーバ、170 制御部、171 入力制御部、172 出力制御部、173 音声検出部、174 キーワード検出部、175 音声アシスタント部
図1
図2
図3
図4
図5
図6