(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023154195
(43)【公開日】2023-10-19
(54)【発明の名称】電子機器、情報処理システム、電子機器の制御方法、プログラム
(51)【国際特許分類】
G10L 15/28 20130101AFI20231012BHJP
G10L 19/018 20130101ALI20231012BHJP
G10L 25/51 20130101ALI20231012BHJP
【FI】
G10L15/28 230J
G10L19/018
G10L25/51 400
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022063348
(22)【出願日】2022-04-06
(71)【出願人】
【識別番号】514020389
【氏名又は名称】TIS株式会社
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】福江 尚史
(57)【要約】
【課題】音声に応じて特定の処理を実行可能な状態に電子機器をするとともに、電子機器のセキュリティの低下を抑制する。
【解決手段】電子機器は、前記電子機器の周囲にて発生している音声を取得する音声取得手段と、前記音声取得手段がユーザの発話を取得した場合に、前記ユーザの発話に音声に応じた処理を実行する実行手段と、前記音声取得手段が電子透かしを含む音声を取得した場合に、前記電子透かしが有効であるか否かを判定する判定手段と、前記電子透かしが有効であれば、前記実行手段が特定の処理を実行可能な特権モードに前記電子機器を設定する制御手段と、を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
電子機器であって、
前記電子機器の周囲にて発生している音声を取得する音声取得手段と、
前記音声取得手段がユーザの発話を取得した場合に、前記ユーザの発話に応じた処理を実行する実行手段と、
前記音声取得手段が電子透かしを含む音声を取得した場合に、前記電子透かしが有効であるか否かを判定する判定手段と、
前記電子透かしが有効であれば、前記実行手段が特定の処理を実行可能な特権モードに前記電子機器を設定する制御手段と、
を有することを特徴とする電子機器。
【請求項2】
前記実行手段は、前記電子機器が前記特権モードに設定された期間において、前記特定の処理を指示するユーザの発話が終了していれば、前記特定の処理を実行する、
ことを特徴とする請求項1に記載の電子機器。
【請求項3】
前記実行手段は、前記電子機器に対して前記電子透かしを含む音声が発せられた方向と、前記電子機器に対して前記発話をしたユーザが位置する方向との間の角度が、所定角度よりも大きければ、前記特定の処理を実行することを禁止する、
ことを特徴とする請求項2に記載の電子機器。
【請求項4】
前記実行手段は、前記電子機器に対して前記電子透かしを含む音声が発せられた方向と異なる方向に前記発話をしたユーザが位置していれば、前記特定の処理を実行することを禁止する、
ことを特徴とする請求項2に記載の電子機器。
【請求項5】
前記制御手段は、前記音声取得手段が有効な前記電子透かしを取得し終わってから所定時間だけ前記特権モードに前記電子機器を設定し、前記所定時間の経過後に前記特権モードを解除する、
ことを特徴とする請求項1から4のいずれか1項に記載の電子機器。
【請求項6】
前記制御手段は、1)前記電子機器が前記特権モードに設定された期間において、ユーザの発話が行われており、かつ、当該発話が終了していなければ、当該期間の終了後にユーザに再度の発話を促し、2)前記再度の発話を促してから前回の発話の時間の長さよりも長い時間だけ前記特権モードに前記電子機器を設定する、
ことを特徴とする請求項1から4のいずれか1項に記載の電子機器。
【請求項7】
前記電子透かしは、認証情報と有効期間を示す情報とを含み、
前記判定手段は、前記認証情報が所定の情報であり、かつ、現在時刻が前記有効期間に含まれる場合に、前記電子透かしが有効であると判定する、
ことを特徴とする請求項1から4のいずれか1項に記載の電子機器。
【請求項8】
前記実行手段は、前記電子機器が前記特権モードに設定されているか否かに関わらず、前記特定の処理ではない所定の処理を指示する発話をユーザが行った場合には、前記所定の処理を実行する、
ことを特徴とする請求項1から4のいずれか1項に記載の電子機器。
【請求項9】
前記制御手段は、前記電子機器が前記特権モードに設定された期間において、ユーザによる発話が終了すると、前記特権モードを解除する、
ことを特徴とする請求項1から4のいずれか1項に記載の電子機器。
【請求項10】
前記電子透かしは、20Hzから20000Hzの周波数域に含まれない周波数の音声により表現されている、
ことを特徴とする請求項1から4のいずれか1項に記載の電子機器。
【請求項11】
請求項1から4のいずれか1項に記載の電子機器と、
前記電子透かしを含む音声を出力する音声出力装置と、
を有することを特徴とする情報処理システム。
【請求項12】
電子機器の制御方法であって、
前記電子機器の周囲にて発生している音声を取得する音声取得ステップと、
前記音声取得ステップにてユーザの発話が取得された場合に、前記ユーザの発話に応じた処理を実行する実行ステップと、
前記音声取得ステップにて電子透かしを含む音声が取得された場合に、前記電子透かしが有効であるか否かを判定する判定ステップと、
前記電子透かしが有効であれば、前記実行ステップにて特定の処理を実行可能な特権モードに前記電子機器を設定する制御ステップと、
を有することを特徴とする電子機器の制御方法。
【請求項13】
請求項12に記載の制御方法の各ステップをコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子機器、情報処理システム、電子機器の制御方法、プログラムに関する。
【背景技術】
【0002】
従来、ユーザは、特定のパスワードの文字列を電子機器(パソコンやスマートフォンなど)に入力して、特別な権限(特権)が付与されると、特定の処理(データの削除など)を電子機器に行わせることができる。一方で、スマートスピーカやロボットなどは、パソコンやスマートフォンとは異なり、文字列を入力するためのキーボードやタッチパネルを有していないことがある。
【0003】
そこで、特許文献1では、ユーザがパスワードを発話することにより、ユーザの認証を行うユーザ認証装置が開示されている。これによれば、文字を入力するためのキーボードやタッチパネルを有していない電子機器においても、ユーザの認証が可能になる。その結果、ユーザは、特定の処理を電子機器に行わせることが可能になる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020-64689号公報
【特許文献2】特開2003-5790号公報
【特許文献3】特開2021-5871号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、ユーザの発話に応じて認証が行われると、その発話を聞いた第三者は、認証に必要なパスワードを容易に把握できてしまう。このため、電子機器のセキュリティが低下してしまうという課題があった。
【0006】
そこで、本発明は、音声に応じて特定の処理を実行可能な状態に電子機器をするとともに、電子機器のセキュリティの低下を抑制することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために本発明は、以下の構成を採用する。
【0008】
すなわち、本発明の一側面に係る電子機器は、前記電子機器の周囲にて発生している音声を取得する音声取得手段と、前記音声取得手段がユーザの発話を取得した場合に、前記ユーザの発話に応じた処理を実行する実行手段と、前記音声取得手段が電子透かしを含む音声を取得した場合に、前記電子透かしが有効であるか否かを判定する判定手段と、前記電子透かしが有効であれば、前記実行手段が特定の処理を実行可能な特権モードに前記電子機器を設定する制御手段と、を有することを特徴とする電子機器である。特定の処理は、例えば、特定のユーザのみにより実行されることが望ましい処理である。具体的には、特定の処理は、例えば、パスワードの変更(初期化)やセキュリティ設定の変更などの電子機器のセキュリティに関する処理である。また、電子機器は、例えば、スマートスピーカまたはロボットなどである。
【0009】
このような構成によれば、電子機器は、人間の耳では知覚できない電子透かしを含む音声を用いて特権モードの設定を行う。このため、第三者は、その音声を聴いても、特権モードに設定するための音を把握することができない。また、電子透かしを含む音声が流れ
ていても、それが特権モードに設定するための音声であると認識することは、第三者にとって容易でない。つまり、第三者は、特権モードに設定するための処理をどのように行っているかを把握できない。このため、セキュリティ高く、電子機器を特権モードに設定することができる。
【0010】
上記電子機器において、前記実行手段は、前記電子機器が前記特権モードに設定された期間において、前記特定の処理を指示するユーザの発話が終了していれば、前記特定の処理を実行してもよい。これによれば、特権モードが設定された期間に完了したユーザの発話に応じて、特定の処理が実行される。このため、ユーザは、音声電子透かしを含む音声を流すことと、特定の処理を指示する発話を行うことの2ステップのみにより、特定の処理を電子機器に実行させることができる。従って、ユーザは、容易に、特定の処理を電子機器に実行させることができる。
【0011】
上記電子機器において、前記実行手段は、前記電子機器に対して前記電子透かしを含む音声が発せられた方向と、前記電子機器に対して前記発話をしたユーザが位置する方向との間の角度が、所定角度より大きければ、前記特定の処理を実行することを禁止してもよい。これによれば、例えば、電子透かしを含む音声を発生したユーザとは異なる第三者が特定の処理を指示する発話をした場合に、特定の処理を電子機器が実行する可能性を低減させることができる。このため、電子機器のセキュリティが向上する。
【0012】
上記電子機器において、前記実行手段は、前記電子機器に対して前記電子透かしを含む音声が発せられた方向と異なる方向に前記発話をしたユーザが位置していれば、前記特定の処理を実行することを禁止してもよい。これによれば、例えば、電子透かしを含む音声を発生したユーザとは異なる第三者が特定の処理を指示する発話をした場合に、特定の処理を電子機器が実行する可能性をさらに低減させることができる。このため、電子機器のセキュリティがさらに向上する。
【0013】
上記電子機器において、前記制御手段は、前記音声取得手段が有効な前記電子透かしを取得し終わってから所定時間だけ前記特権モードに前記電子機器を設定し、前記所定時間の経過後に前記特権モードを解除してもよい。これによれば、特権モードに設定される期間が限定されるため、特定の処理を指示する発話を第三者が行うことにより、特定の処理が実行される可能性を低減することができる。このため、電子機器のセキュリティが向上する。
【0014】
上記電子機器において、前記制御手段は、1)前記電子機器が前記特権モードに設定された期間において、ユーザの発話が行われており、かつ、当該発話が終了していなければ、当該期間の終了後にユーザに再度の発話を促し、2)前記再度の発話を促してから前回の発話の時間の長さよりも長い時間だけ前記特権モードに前記電子機器を設定してもよい。これによれば、ユーザによる発話の期間中に、特権モードが終了してしまった場合にも、ユーザは再度、特定の処理を指示する発話を行って、特定の処理を電子機器に実行させることができる。このため、電子機器についてのユーザの利便性が向上する。
【0015】
上記電子機器において、前記電子透かしは、認証情報と有効期間を示す情報とを含み、前記判定手段は、前記認証情報が所定の情報であり、かつ、現在時刻が前記有効期間に含まれる場合に、前記電子透かしが有効であると判定してもよい。
【0016】
上記電子機器において、前記実行手段は、前記電子機器が前記特権モードに設定されているか否かに関わらず、前記特定の処理ではない所定の処理を指示する発話をユーザが行った場合には、前記所定の処理を実行してもよい。これによれば、特定の処理ではない通常の処理については、ユーザはいつでも電子機器に実行させることができる。
【0017】
上記電子機器において、前記制御手段は、前記電子機器が前記特権モードに設定された期間において、ユーザによる発話が終了すると、前記特権モードを解除してもよい。これによれば、電子機器が特権モードに設定されている期間をさらに短くすることができるため、第三者により特定の処理を実行させられる可能性を低減できる。このため、電子機器のセキュリティが向上する。
【0018】
上記電子機器において、前記電子透かしは、20Hzから20000Hzの周波数域に含まれない周波数の音声により表現されていてもよい。
【0019】
上記電子機器と、前記電子透かしを含む音声を出力する音声出力装置と、を有することを特徴とする情報処理システムであってもよい。これによれば、情報処理システムは、音声出力装置が出力した電子透かしを含む音声に基づき、電子機器を特権モードに設定することができる。
【0020】
なお、本発明は、上述した機能および処理の少なくとも一部を含む電子機器の制御方法、認証装置、認証方法、情報処理装置、特権付与装置、情報処理方法、特権付与方法と捉えることができる。また、本発明は、電子機器の各手段(制御方法の各ステップ)をコンピュータに実行させるプログラム、または、当該プログラムを非一時的に記憶した記憶媒体などとして捉えることもできる。
【発明の効果】
【0021】
本発明によれば、音声に応じて特定の処理を実行可能な状態に電子機器をするとともに、電子機器のセキュリティの低下を抑制することができる。
【図面の簡単な説明】
【0022】
【
図1】
図1は、実施形態1に係る情報処理システムを説明する図である。
【
図2】
図2は、実施形態1に係る情報処理システムの各構成の内部構成図である。
【
図3】
図3は、実施形態1に係る実行制御処理のフローチャートである。
【
図4】
図4は、実施形態1に係る実行制御処理のタイムチャートである。
【
図5】
図5は、実施形態1に係る音楽再生処理のフローチャートである。
【
図6】
図6は、実施形態2に係る特権期間中の処理のフローチャートである。
【
図7】
図7は、実施形態3に係る音声の発生方向の検出を説明する図である。
【
図8】
図8は、実施形態3に係る実行制御処理のフローチャートである。
【発明を実施するための形態】
【0023】
以下、図面を参照して本発明の例示的な実施形態を詳細に説明する。なお、本発明は説明する実施形態に限定されない。また、実施形態で説明される構成要素の全てが本発明に必須とは限らない。
【0024】
<実施形態1>
図1を参照して、実施形態1に係る情報処理システム1について説明する。情報処理システム1は、スマートスピーカ10、サーバ20、スマートフォン30を有する。情報処理システム1は、スマートフォン30から発せられる音声に基づき、特定の処理を実行可能なモード(特権モード)にスマートスピーカ10を設定する。なお、特定の処理とは、予め設定された任意の処理であってよい。特定の処理は、例えば、パスワードの変更(初期化)、セキュリティ設定の変更、またはデータの削除などである。
【0025】
スマートスピーカ10は、自身の周囲の音声を取得して、取得した音声に応じた処理を実行する電子機器である。スマートスピーカ10は、スマートフォン30から取得した音
楽に音声電子透かし(デジタル透かし)が含まれており、かつ、音声電子透かしが有効であると判定すると、特権モードに移行する。また、スマートスピーカ10は、ネットワーク40を介してサーバ20と通信可能である。
【0026】
ここで、音声電子透かしとは、音声に対して埋め込まれる情報であって、人間が知覚できないように制御されている情報である。そして、スマートスピーカ10は、音声電子透かしを含む音声を、周波数や位相に応じて、音声電子透かしとその他とに分離することができる。例えば、人間が知覚できる音声の周波数域(20Hzから20000Hzまで)に含まれない周波数の音声を用いて音声電子透かしが表現されていれば、スマートスピーカ10は、周波数に応じて音声電子透かしとその他とを分離することができる。なお、実施形態1では、音声電子透かしは、認証情報(鍵情報)と、認証情報の有効期間を示す情報とを含むものとする。認証情報は、一般的にユーザの認証に用いられるパスワードに相当する。
【0027】
サーバ20は、音声電子透かしの有効性をスマートスピーカ10が判定するための情報(電子透かし情報)を格納する。サーバ20は、スマートスピーカ10からの要求に応じて電子透かし情報をスマートスピーカ10に送信する。また、サーバ20は、スマートフォン30が音声電子透かしを含む音楽を再生するために、電子透かし情報をスマートフォン30に送信する。電子透かし情報は、認証情報と、認証情報の有効期間を示す情報を含む。
【0028】
スマートフォン30は、音楽を再生する電子機器(音声出力装置)である。ユーザは、スマートスピーカ10を特権モードに設定したい場合に、音声電子透かしを含む音楽をスマートフォン30に再生させる。なお、スマートフォン30は、サーバ20から電子透かし情報を取得して、任意の音楽に音声電子透かしを埋め込んで、当該音楽を再生する。なお、音声電子透かしを音楽に埋め込む方法としては、公知のエコー拡散法(元の音楽に、人間が感知できない程度の遅延時間のエコーをかけて、その遅延時間を付加データとして用いる方法)を用いることができる。なお、エコー拡散法に限らず、公知の周期的位相変調法、または公知のスペクトル拡散法などを用いて、音声電子透かしの埋め込みが行われてもよい。
【0029】
(スマートスピーカ10の構成)
図2を参照して、スマートスピーカ10の内部構成について説明する。スマートスピーカ10は、音声取得部101、音声分離部102、音声認識部103、判定部104、モード制御部105、実行部106、情報更新部107、音声出力部108、記憶部109を有する。
【0030】
音声取得部101は、スマートスピーカ10の周囲にて発せられる音声を取得する。音声取得部101は、例えば、1または複数のマイク(アレイマイクなど)を有する。
【0031】
音声分離部102は、音声取得部101が取得した音声(以下、「取得音声」と呼ぶ)を分離する。具体的には、まず、音声分離部102は、取得音声を、音声を発した対象(ユーザおよび機器)ごとに分離する。この音声の分離には、例えば、特許文献2に記載のように、取得音声の信号の独立性に応じて分離する技術を用いることができる。また、音声の分離には、音声取得部101の複数のマイクに届く音声の到達時間の差に基づき音声の発生方向を検出して、音声の発生方向ごとに音を分離する技術を用いることができる。さらに、音声分離部102は、音声取得部101の複数のマイクがそれぞれ異なる方向の音声を取得すること(ビームフォーミング)を行っていれば、複数のマイクそれぞれが取得した音声を、取得音声を分離した音声として扱ってもよい。例えば、2人のユーザの声と1台のスマートフォン30の音声を音声取得部101が取得している場合には、音声分
離部102は、取得音声を3つの音声に分離する。
【0032】
さらに、音声分離部102は、分離した音声のいずれかに、音声電子透かしが含まれているか否かを判定する。例えば、音声電子透かしがエコー拡散法により、音楽に埋め込まれるような場合には、音声分離部102が、分離した音声のそれぞれ(または音楽に相当すると判定された音声のみ)に、公知のエコー拡散法による音声電子透かしの抽出処理を実行する。そして、音声分離部102は、音声電子透かしの抽出処理により、音声電子透かしが抽出できた場合には、分離した音声のいずれかに音声電子透かしが含まれていると判定する。
【0033】
具体的には、エコー拡散法による音声電子透かしの抽出処理は、特許文献3に記載の方法により実現できる。例えば、音声分離部102は、音声電子透かしを含む音楽に対して、窓関数を適用して、FFT(高速フーリエ変換)後に対数をとり、さらに逆FFTの演算を実行する。このことにより、音声分離部102は、いわゆるケプストラムを算出する。そして、音声分離部102は、ケプストラムとエコー成分の相互相関を窓長ごとに計算することにより、音声電子透かしを抽出することができる。
【0034】
音声認識部103は、音声分離部102が分離した音声のうちのユーザの声が示す内容を認識する。つまり、音声認識部103は、取得音声から、ユーザの発話の内容を認識する。
【0035】
また、音声認識部103は、ユーザの発話の内容が特定の処理を指示する内容か否かを判定する。最も単純な例では、特定の処理が「ログインパスワードの初期化」であれば、発話に「パスワード」および「初期化」というワードが含まれていれば、音声認識部103は、ユーザの発話の内容が特定の処理を指示する内容であると判定できる。なお、ユーザの発話の内容を認識する技術については、一般的なスマートスピーカに用いられる技術と同様の技術を用いることができるため、本明細書では詳細な説明を省略する。
【0036】
判定部104は、音声分離部102が音声電子透かしを取得した場合には、音声電子透かしが有効であるか否か(音声電子透かしの有効性)を判定する。具体的には、判定部104は、音声電子透かしに含まれる認証情報が、予め記憶部109に格納された電子透かし情報が示す認証情報に対応する(例えば、2つの認証情報が同一である、または所定ビット数分だけ情報がずれている)か否かを判定する。そして、判定部104は、2つの認証情報が互いに対応する場合には、音声電子透かしに含まれる有効期間に現在時刻が含まれているか否かを判定する。判定部104は、2つの認証情報が互いに対応し、かつ、音声電子透かしに含まれる有効期間に現在時刻が含まれていると判定した場合に、音声電子透かしが有効であると判定する。判定部104は、2つの認証情報が互いに対応していない、または、音声電子透かしに含まれる有効期間に現在時刻が含まれていないと判定した場合に、音声電子透かしが有効でない(無効である)と判定する。
【0037】
モード制御部105は、音声電子透かしが有効であるか否かに応じて、スマートスピーカ10を特権モードに設定するか否かを制御する。モード制御部105は、音声電子透かしが有効である場合には、スマートスピーカ10を特権モードに設定する。モード制御部105は、音声電子透かしが有効でない場合には、スマートスピーカ10を特権モードに設定しない。
【0038】
実行部106は、音声認識部103が認識したユーザの発話の内容に応じた処理を実行する。実行部106は、処理実行部161と特権処理実行部162を有する。
【0039】
処理実行部161は、特定の処理以外の処理(以下、「通常処理」と呼ぶ)を実行する
。例えば、ユーザの発話が「スマートスピーカ10の音量を大きくする」ことを指示する内容であれば、処理実行部161は音声出力部108から発せられる音声の音量を大きくする。処理実行部161は、スマートスピーカ10が特権モードに設定されているか否かに関わらず、通常処理を実行することができる。
【0040】
特権処理実行部162は、特定の処理を実行する。ここで、特権処理実行部162は、スマートスピーカ10が特権モードに設定されている場合にのみ、特定の処理を実行する。つまり、特権処理実行部162は、スマートスピーカ10が特権モードに設定されていなければ、特定の処理を実行しない。つまり、「モード設定部105は、スマートスピーカ10を特権モードに設定していない場合には、実行部106が特定の処理を実行することを禁止している」といえる。
【0041】
情報更新部107は、記憶部109に格納されている電子透かし情報を更新する。情報更新部107は、定期的に、サーバ20にアクセスして、サーバ20から最新の電子透かし情報を取得する。そして、情報更新部107は、記憶部109に格納されている電子透かし情報を、サーバ20から取得した電子透かし情報に置き換える。なお、情報更新部107は、音声取得部101が取得した音声に音声電子透かしが含まれると判定されると、サーバ20から最新の電子透かし情報を取得してもよい。
【0042】
音声出力部108は、音声を出力する(音声を発する)。音声出力部108は、スピーカを含む。音声出力部108は、例えば、実行部106が処理を実行した結果をユーザに報告するための音声を出力する。
【0043】
記憶部109は、情報更新部107が更新した(出力した)電子透かし情報を格納する。また、記憶部109は、スマートスピーカ10の各機能部を制御するためのプログラムを格納していてもよい。
【0044】
(サーバ20の構成)
図2を参照して、サーバ20の内部構成について説明する。サーバ20は、情報更新部201、情報送信部202、記憶部203を有する。
【0045】
情報更新部201は、記憶部203に格納されている電子透かし情報を定期的に更新する。具体的には、情報更新部201は、電子透かし情報に含まれる認証情報を新たな任意の情報に更新し、電子透かし情報に含まれる有効期間の情報を新たな期間に更新する。有効期間は、例えば、情報更新部201が更新した時刻から30分間など、なるべく短い期間であるとよい。
【0046】
情報送信部202は、スマートスピーカ10からの要求に応じて、記憶部203に格納した電子透かし情報をスマートスピーカ10に送信する。また、情報送信部202は、スマートフォン30からの要求に応じて、記憶部203に格納した電子透かし情報をスマートフォン30に送信する。
【0047】
記憶部203は、電子透かし情報を格納する。
【0048】
(スマートフォン30の構成)
図2を参照して、スマートフォン30の内部構成について説明する。スマートフォン30は、情報取得部301、音楽生成部302、音声出力部303、記憶部304を有する。
【0049】
情報取得部301は、サーバ20に要求をすることにより、電子透かし情報を取得する
。情報取得部301は、取得した電子透かし情報を記憶部304に格納する。
【0050】
音楽生成部302は、電子透かし情報に基づく音声電子透かしを埋め込んだ音楽(以下、「透かし入り音楽」と呼ぶ)を生成する。音楽生成部302は、透かし入り音楽の情報(音楽情報)を、記憶部304に格納する。ここで、音声電子透かしが埋め込まれる音楽は、任意の音楽であってよい。例えば、ユーザが指定する音楽であり得る。
【0051】
また、音声電子透かしは、例えば、電子透かし情報に含まれる情報(認証情報と有効期間を示す情報)を含む情報である。また、音声電子透かしは、電子透かし情報に含まれる認証情報を一定の法則に従って暗号化した認証情報(以下、「暗号情報」と呼ぶ)と、有効期間を示す情報とを含んでいてもよい。なお、音声電子透かしが暗号情報を含む場合には、暗号情報を復号するための情報をスマートスピーカ10が有している必要がある。このため、例えば、サーバ20は、認証情報を暗号化するための鍵情報をスマートフォン30に送信し、暗号情報を復号するための鍵情報をスマートスピーカ10に送信してもよい。この場合には、スマートスピーカ10は、音声電子透かしを取得すると、音声電子透かしが含む暗号情報を復号して認証情報を取り出す。そして、判定部104は、取り出した認証情報と電子透かし情報が含む認証情報とが一致するか否かにより、音声電子透かしの有効性を判定する。
【0052】
音声出力部303は、透かし入り音楽の情報(音楽情報)を記憶部304から取得する。そして、音声出力部303は、ユーザ操作に応じて、透かし入り音楽を再生する。
【0053】
記憶部304は、音楽情報と電子透かし情報とを格納する。
【0054】
なお、スマートスピーカ10、サーバ20、およびスマートフォン30は、CPU(プロセッサ;制御装置)またはメモリ、ストレージを備えるコンピュータにより構成することができる。この場合には、
図2に示す構成は、ストレージに格納されたプログラムをメモリにロードし、CPUが当該プログラムを実行することによって実現されるものである。あるいは、スマートスピーカ10、サーバ20、およびスマートフォン30における構成の全部または一部を、ASICやFPGAなどで構成してもよい。あるいは、構成の全部または一部を、クラウドコンピューティングや分散コンピューティングにより実現してもよい。
【0055】
(実行制御処理について)
図3のフローチャートを参照して、特定の処理を実行するか否かを制御する実行制御処理を説明する。本フローチャートの処理は、スマートスピーカ10の電源がオン状態にされると、開始する。また、本フローチャートの処理は、例えば、スマートスピーカ10のCPUが、ストレージに格納されたプログラムを実行することにより実現される。
【0056】
ステップS1001では、音声分離部102は、音声取得部101が透かし入り音楽を取得した(スマートスピーカ10の周囲に透かし入り音楽が流れている)か否かを判定する。透かし入り音楽が取得されたと判定された場合には、ステップS1002に進む。透かし入り音楽が取得されていないと判定された場合には、ステップS1004に進む。
【0057】
ステップS1002では、判定部104は、透かし入り音楽に含まれる音声電子透かしが有効であるか否かを判定する。具体的には、判定部104は、上述のように、音声電子透かしと、記憶部109に格納された電子透かし情報とに基づき、音声電子透かしが有効であるか否かを判定する。音声電子透かしが有効であると判定された場合には、ステップS1003に進み。音声電子透かしが有効でない(無効である)と判定された場合には、ステップS1004に進む。
【0058】
なお、S1002の処理は、サーバ20を用いて行われてもよい。具体的には、音声分離部102は、音声電子透かしを取得(抽出)すると、その音声電子透かしをサーバ20に送信する。サーバ20は、記憶部203に格納された電子透かし情報に基づき、音声電子透かしの有効性を判定する。そして、サーバ20は、音声電子透かしの有効性を示す情報を判定部104に送信する。判定部104は、音声電子透かしの有効性を示す情報により、音声電子透かしが有効であるか否かを判定する。これによれば、記憶部109(つまり、スマートスピーカ10)に電子透かし情報を格納しておく必要がなくなる。このため、スマートスピーカ10から電子透かし情報が盗まれる可能性がなくなるので、スマートスピーカ10のセキュリティをさらに向上させる。また、スマートスピーカ10における有効性の判定の処理を簡素化できるため、スマートスピーカ10の設計を簡素化できる。
【0059】
ステップS1003では、モード制御部105は、音声電子透かしを取得し終わってから所定時間(例えば、20秒間)だけ、スマートスピーカ10を特権モードに設定する。そして、モード制御部105は、所定時間の経過後、特権モードを解除する。
【0060】
ステップS1004では、音声認識部103は、ユーザによる発話が行われていたか否かを判定する。ユーザによる発話が行われていたと判定された場合には、ステップS1012に進む。ユーザによる発話が行われていないと判定された場合には、ステップS1001に進む。
【0061】
ステップS1005では、音声認識部103は、スマートスピーカ10が特権モードに設定されている期間(以下、「特権期間」と呼ぶ)に、ユーザによる発話が行われていたか否かを判定する。特権期間中に、ユーザによる発話が行われていたと判定された場合には、ステップS1006に進む。特権期間中に、ユーザによる発話が行われていないと判定された場合には、ステップS1001に進む。ここで、特権期間中に「発話が行われていた」とは、特権期間中に、ユーザが一言でも音声を発していた状態をいう。従って、特権期間前から発話が継続しており、その発話が特権期間においても継続している場合には、特権期間中に「発話が行われていた」と判定される。
【0062】
なお、ステップS1005では、「発話が行われていた」の代わりに、「発話が開始した」か否かが判定されてもよい。つまり、特権期間中に、ユーザにより発話が開始したと判定された場合には、ステップS1006に進む。特権期間中に、ユーザにより発話が開始していないと判定された場合には、ステップS1001に進む。「発話が開始した」とは、一定期間においてユーザが音声を発生していない状態から、ユーザが音声を発生し始めた状態に変化したことをいう。
【0063】
ステップS1006では、音声認識部103は、特権期間中に、ユーザによる発話が終了したか否かを判定する。特権期間中に、ユーザによる発話が終了したと判定された場合には、ステップS1010に進む。特権期間中に、ユーザによる発話が終了していないと判定された場合には、ステップS1007に進む。ここで、「発話が終了した」とは、ユーザが音声を発生している状態から、ユーザが音声を発生させない状態が一定期間だけ継続した状態に変化したことをいう。なお、音声認識部103は、取得した音声の内容を認識して、意味のある1つの文に対応する発声が終了したら、「発話が終了した」と判定してもよい。
【0064】
ステップS1007では、音声認識部103は、ユーザによる発話が終了するまで待機する。このとき、音声認識部103は、ユーザによる発話の時間を前回発話時間として計測しておく。
【0065】
ステップS1008では、音声出力部108は、再度の発話を行うようにユーザに要求する(促す)。例えば、音声出力部108は、「もう一度、発言をお願いします」などの音声を出力する。また、スマートスピーカ10がディスプレイを有する場合には、ディスプレイが「もう一度、発言をお願いします」という文字を表示してもよい。
【0066】
ステップS1009では、モード制御部105は、ステップS1008にて音声出力部108が再度の発話を要求してから、前回発話時間+追加時間αだけ、スマートスピーカ10を特権モードに設定する。モード制御部105は、前回発話時間+追加時間αの経過後、特権モードを解除する。ここで、追加時間αは、ステップS1003における所定時間と同じ時間など、任意の時間であってよい。例えば、追加時間αは、10秒である。なお、ステップS1009の処理が終了すると、ステップS1005に進む。
【0067】
ステップS1010では、音声認識部103は、特権期間中にユーザが行った発話が、特定の処理を指示する発話であったか否かを判定する。ユーザによる発話が特定の処理を指示する発話であると判定された場合には、ステップS1011に進む。ユーザによる発話が特定の処理を指示する発話でないと判定された場合には、ステップS1012に進む。
【0068】
ステップS1011では、特権処理実行部162は、ユーザによる発話に応じて、特定の処理を実行する。
【0069】
ステップS1012では、処理実行部161は、ユーザによる発話に応じて、通常処理(特定の処理以外の処理)を実行する。なお、スマートスピーカ10に特権モードが設定されていない場合に、特定の処理を指示する発話が行われると、処理実行部161は、例えば、音声出力部108から「指示された処理は、特権モードに設定されないと実行できません」というような音声を出力する。
【0070】
図4は、特定の処理を実行する実行制御処理のタイムチャートの例を示す図である。
図4では、特権コマンド音声は、特定の処理を指示する発話の音声である。また、
図4では、音声電子透かしは、有効であるとする。
【0071】
まず、時刻t1において、スマートフォン30から音声電子透かしの再生が始まる。
【0072】
時刻t2において、音声電子透かしの再生が終わる。すると、時刻t2において、音声分離部102は、透かし入り音楽を取得したと判定し(ステップS1001にてYES)、判定部104は、音声電子透かしが有効であると判定する(ステップS1002にてYES)。
【0073】
また、時刻t2にて、モード制御部105は、時刻t2から所定時間だけ、スマートスピーカ10を特権モードに設定する(特権モードをオン状態にする)(ステップS1003)。
【0074】
時刻t3において、モード制御部105は、時刻t2から所定時間経過したため、特権モードを解除する(特権モードをオフ状態にする)。そして、時刻t3において、音声認識部103は、特権期間(時刻t2~t3の期間)において、ユーザによる発話が行われており(ステップS1005にてYES)、かつ、ユーザによる発話が終了している(ステップS1006にてYES)と判定する。さらに、時刻t3において、音声認識部103は、ユーザによる発話が特定の処理を指示する発話(特権コマンド音声の発話)であると判定する(ステップS1010にてYES)。このため、特権処理実行部162は、特定の処理を実行する(ステップS1011)。
【0075】
時刻t4において、スマートフォン30から再度、音声電子透かしの再生が始まる。
【0076】
時刻t5において、音声電子透かしの再生が終わる。すると、時刻t5において、音声分離部102は、透かし入り音楽を取得したと判定し(ステップS1001にてYES)、判定部104は、音声電子透かしが有効であると判定する(ステップS1002にてYES)。また、モード制御部105は、時刻t5から所定時間だけ、スマートスピーカ10を特権モードに設定する(特権モードをオン状態にする)(ステップS1003)。
【0077】
時刻t6において、モード制御部105は、時刻t5から所定時間だけ経過したため、特権モードを解除する(特権モードをオフ状態にする)。そして、時刻t6において、音声認識部103は、特権期間(時刻t5~t6の期間)において、ユーザによる発話が行われており(ステップS1005にてYES)、かつ、ユーザによる発話が終了していない(ステップS1006にてNO)と判定する。また、音声認識部103は、ユーザによる発話が終了するまで(時刻t7まで)待機する(ステップS1007)。
【0078】
時刻t7において、音声出力部108は、再度の発話を行うようにユーザに要求する(ステップS1008)。また、時刻t7において、モード制御部105は、前回発話時間+追加時間αだけ、スマートスピーカ10を特権モードに設定する(ステップS1009)。
【0079】
時刻t8において、モード制御部105は、時刻t7から前回発話時間+追加時間αだけ経過したため、特権モードを解除する(特権モードをオフ状態にする)。そして、時刻t8において、音声認識部103は、特権期間(時刻t7~t8の期間)において、ユーザによる発話が行われており(ステップS1005にてYES)、かつ、ユーザによる発話が終了している(ステップS1006にてYES)と判定する。さらに、時刻t8において、音声認識部103は、ユーザによる発話が特定の処理を指示する発話(特権コマンド音声の発話)であると判定する(ステップS1010にてYES)。このため、特権処理実行部162は、特定の処理を実行する(ステップS1011)。
【0080】
(音楽再生処理について)
図5のフローチャートを参照して、スマートフォン30が透かし入り音楽を再生する音楽再生処理について説明する。ここで、
図5のフローチャートの処理は、ユーザから、透かし入り音楽の再生を指示する操作が行われると、開始する。
【0081】
ステップS2001において、情報取得部301は、サーバ20に電子透かし情報を要求する。
【0082】
ステップS2002において、情報取得部301は、サーバ20から電子透かし情報を取得したか否かを判定する。電子透かし情報が取得されたと判定された場合には、ステップS2003に進む。電子透かし情報が取得されていないと判定された場合には、ステップS2002の処理が繰り返される。
【0083】
ステップS2003において、音楽生成部302は、電子透かし情報に基づき、透かし入り音楽を生成する。
【0084】
ステップS2004において、音声出力部303は、透かし入り音楽を再生する。
【0085】
実施形態1では、スマートスピーカ10は、人間の耳では知覚できない音声電子透かしを含む音楽を用いて特権モードの設定を行う。このため、第三者は、その音楽を聴いても
、特権モードに設定するための音を把握することができない。また、音声電子透かしを含む音楽が流れていても、それが特権モードに設定するための音楽であると認識することは、第三者にとって容易でない。つまり、第三者は、特権モードに設定するための処理をどのように行っているかを把握できない。このため、セキュリティ高く、スマートスピーカ10を特権モードに設定することができる。
【0086】
また、音声電子透かしが取得されてから所定時間に発話がされなければ、特定の処理を指示する発話が行われても、スマートスピーカ10は特定の処理を実行しない。このため、特定の処理を指示する発話がユーザにより行われた後に、特定の処理が実行されていることを知覚した第三者が、同様に、特定の処理を指示する発話をしても、特定の処理は実行されない。従って、正当なユーザ以外の第三者によって特定の処理が実行されてしまう可能性をさらに低減することができる。
【0087】
なお、透かし入り音楽の代わりに、音声電子透かしが埋め込まれた任意の音声を用いることができる。つまり、音楽の代わりに、チャイム音や会話の音声などに音声電子透かしを埋め込んでもよい。
【0088】
また、スマートフォン30が透かし入り音楽を生成したが、サーバ20(サーバ20の生成部)が電子透かし情報に基づき透かし入り音楽を生成して、スマートフォン30に送信してもよい。
【0089】
特権モードに設定される電子機器としてスマートスピーカ10を例にあげたが、スマートスピーカ10の代わりに任意の電子機器を用いてもよい。例えば、ロボットや家電(エアコンまたは照明など)を、スマートスピーカ10の代わりに用いてもよい。ここで、ロボットが行う特定の処理としては、例えば、特定の場所に飲み物を運ぶ処理などであり得る。
【0090】
<実施形態2>
実施形態1では、スマートスピーカ10は、特権期間の終了後に、ユーザによる発話が行われたか否かを判定して、ユーザの発話に応じた処理を実行した。一方で、実施形態2では、スマートスピーカ10は、特権期間中にもユーザによる発話が行われたか否かを判定して、その後、ユーザの発話に応じた処理を実行する。具体的には、実施形態2では、ステップS1003またはステップS1009の処理が開始されると、
図6に示すフローチャートの処理が行われる。なお、実施形態2に係る情報処理システム1は、実施形態1に係る情報処理システム1の構成と同様である。
【0091】
ステップS1101において、モード制御部105は、スマートスピーカ10を特権モードに設定する。
【0092】
ステップS1102において、音声認識部103は、特権期間中に発話が行われ、かつ、特権期間中に発話が終了しているか否かを判定する。特権期間中に発話が行われ、かつ、発話が終了していると判定された場合には、ステップS1105に進む。一方で、特権期間中に発話が行われていない、または、発話が終了していないと判定された場合には、ステップS1103に進む。
【0093】
ステップS1103において、モード制御部105は、スマートスピーカ10を特権モードに設定してから特定の時間(所定時間、または、前回発話時間+追加時間)だけ経過したか否かを判定する。スマートスピーカ10を特権モードに設定してから特定の時間だけ経過したと判定された場合には、ステップS1104に進む。スマートスピーカ10を特権モードに設定してから特定の時間だけ経過していないと判定された場合には、ステッ
プS1102に進む。
【0094】
ステップS1104において、モード制御部105は、特権モードを解除して、工程をステップS1005に進める。
【0095】
ステップS1105において、モード制御部105は、特権モードを解除して、工程をステップS1010に進める。
【0096】
実施形態2によれば、スマートスピーカ10は、特権期間中において特定の処理を指示する発話が終了すると直ぐに、特定の処理を実行することが可能になる。このため、ユーザにとっての利便性が向上する。一方で、実施形態1のように、スマートスピーカ10が、特権モードに設定されてから特定の期間が経過するまで待機してから、特定の処理を実行することによれば、全体の処理を単純化できるため、スマートスピーカ10の構成を簡素化できる。
【0097】
<実施形態3>
実施形態1では、スマートスピーカ10は、特権期間中に、特定の処理を指示する発話が行われると特定の処理を実行した。この場合には、例えば、スマートフォン30から透かし入り音楽を再生させたユーザ以外の第三者が、特権期間中に特定の処理を指示する発話をしてしまうと、スマートスピーカ10は特定の処理を実行してしまう。このため、スマートスピーカ10のセキュリティが低下する場合が生じる。
【0098】
そこで、実施形態3では、スマートフォン30から透かし入り音楽を再生させたユーザが、特権期間中に、特定の処理を指示する発話を行った場合にのみ、スマートスピーカ10は特定の処理を行う。なお、実施形態3に係る情報処理システム1は、実施形態1に係る情報処理システム1の構成と同様である。
【0099】
なお、実施形態3では、音声取得部101が、
図7に示すように、複数のマイク121を有する。そして、音声分離部102が、音声の発生方向を検出する方向検出部を有する。方向検出部は、複数のマイク121のそれぞれに入力された音声それぞれについて、音声の音量に応じて発生した方向を検出する。方向検出部は、例えば、スマートスピーカ10の中心に対して南の方向に位置するマイク121が、ユーザ601の音声を他のマイク121のいずれよりも大きく取得していれば、音声を発生させたユーザ601が位置する方向を南であると検出できる。なお、方向検出部は、音声の発生方向を「北」、「南」、「東」、「西」の4つの中から判定してもよいし、さらに細かく方向を検出してもよい。
【0100】
図8は、実施形態3に係る実行制御処理のフローチャートを示す。
図8のフローチャートの処理では、
図3のフローチャートの処理に、ステップS3001,S3002の処理が加わっている。このため、以下では、ステップS3001,S3002についてのみ説明する。
【0101】
ステップS3001の処理は、ステップS1002において、音声電子透かしが有効であると判定されると実行される。ステップS3001では、方向検出部は、透かし入り音楽の発生方向を検出する。例えば、
図7に示すように、スマートスピーカ10の南に存在するスマートフォン30から透かし入り音楽が発生していれば、方向検出部は、発生方向として南を検出する。
【0102】
ステップS3002の処理は、ステップS1010において特権期間中にユーザが行った発話が特定の処理を指示する発話であったと判定されると、実行される。ステップS3002では、方向検出部は、ステップS3001にて検出した方向と、特権期間中に発話
をしたユーザが存在する方向が同じ方向であるか否かを判定する。2つの方向が同じ方向であると判定された場合には、ステップS1011に進む。2つの方向が同じ方向でない(異なる方向である)と判定された場合には、ステップS1012に進む。
【0103】
実施形態3によれば、透かし入り音楽(音声電子透かし)の発生方向と特定の処理を指示する発話の発生方向(特定の処理を指示するユーザが存在する方向)とが同一の方向でなければ、特定の処理が実行されない。このため、透かし入り音楽を発生させたユーザの音声のみ、特定の処理の指示に用いることができる。従って、第三者による特定の処理の実行の可能性を低減させることができるため、スマートスピーカ10のセキュリティが向上する。
【0104】
なお、透かし入り音楽の発生方向と特定の処理を指示する発話の発生方向(特定の処理を指示するユーザが存在する方向)とが同一の方向である場合に限らず、2つの方向の間の角度が所定角度以内である場合に、特定の処理が実行されてもよい。つまり、スマートスピーカ10は、2つの方向の間の角度が所定角度以内でない場合(2つの方向の間の角度が所定角度よりも大きい場合)には、特権モードに設定されていても、特定の処理を実行しない(特定の処理を実行することを禁止する)。所定角度は、小さいほどスマートスピーカ10のセキュリティが向上するが、大きければユーザの活動可能な範囲が広くなる。所定角度は、例えば、90度である。
【0105】
なお、実施形態3のように第三者による特定の処理の可能性を低減させている場合であっても、例えば、スマートフォン30を保持するユーザが他のユーザにスマートフォン30を貸与して、他のユーザがスマートフォン30から透かし入り音楽を発生させれば、その後、他のユーザは特定の処理をスマートスピーカ10に実行させることができる。つまり、複数のユーザ間において、特定の処理を実行させるための権限の委譲を容易に行うこともできる。
【0106】
以上に説明した本発明の各実施形態に記載された構成や処理は、互いに任意に組み合わせて利用できる。
【符号の説明】
【0107】
10:スマートスピーカ、20:サーバ、30:スマートフォン
101:音声取得部、102:音声分離部、103:音声認識部、
104:判定部、105:モード制御部、106:実行部、
107:情報更新部、108:音声出力部、109:記憶部