特開2023-154195 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＴＩＳ株式会社の特許一覧

特開2023-154195電子機器、情報処理システム、電子機器の制御方法、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

<図1>

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023154195

(43)【公開日】2023-10-19

(54)【発明の名称】電子機器、情報処理システム、電子機器の制御方法、プログラム

(51)【国際特許分類】

G10L 15/28 20130101AFI20231012BHJP

G10L 19/018 20130101ALI20231012BHJP

G10L 25/51 20130101ALI20231012BHJP

【ＦＩ】

G10L15/28 230J

G10L19/018

G10L25/51 400

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2022063348

(22)【出願日】2022-04-06

(71)【出願人】

【識別番号】514020389

【氏名又は名称】ＴＩＳ株式会社

(74)【代理人】

【識別番号】110002860

【氏名又は名称】弁理士法人秀和特許事務所

(72)【発明者】

【氏名】福江尚史

(57)【要約】

【課題】音声に応じて特定の処理を実行可能な状態に電子機器をするとともに、電子機器のセキュリティの低下を抑制する。
【解決手段】電子機器は、前記電子機器の周囲にて発生している音声を取得する音声取得手段と、前記音声取得手段がユーザの発話を取得した場合に、前記ユーザの発話に音声に応じた処理を実行する実行手段と、前記音声取得手段が電子透かしを含む音声を取得した場合に、前記電子透かしが有効であるか否かを判定する判定手段と、前記電子透かしが有効であれば、前記実行手段が特定の処理を実行可能な特権モードに前記電子機器を設定する制御手段と、を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

電子機器であって、
前記電子機器の周囲にて発生している音声を取得する音声取得手段と、
前記音声取得手段がユーザの発話を取得した場合に、前記ユーザの発話に応じた処理を実行する実行手段と、
前記音声取得手段が電子透かしを含む音声を取得した場合に、前記電子透かしが有効であるか否かを判定する判定手段と、
前記電子透かしが有効であれば、前記実行手段が特定の処理を実行可能な特権モードに前記電子機器を設定する制御手段と、
を有することを特徴とする電子機器。

【請求項2】

前記実行手段は、前記電子機器が前記特権モードに設定された期間において、前記特定の処理を指示するユーザの発話が終了していれば、前記特定の処理を実行する、
ことを特徴とする請求項１に記載の電子機器。

【請求項3】

前記実行手段は、前記電子機器に対して前記電子透かしを含む音声が発せられた方向と、前記電子機器に対して前記発話をしたユーザが位置する方向との間の角度が、所定角度よりも大きければ、前記特定の処理を実行することを禁止する、
ことを特徴とする請求項２に記載の電子機器。

【請求項4】

前記実行手段は、前記電子機器に対して前記電子透かしを含む音声が発せられた方向と異なる方向に前記発話をしたユーザが位置していれば、前記特定の処理を実行することを禁止する、
ことを特徴とする請求項２に記載の電子機器。

【請求項5】

前記制御手段は、前記音声取得手段が有効な前記電子透かしを取得し終わってから所定時間だけ前記特権モードに前記電子機器を設定し、前記所定時間の経過後に前記特権モードを解除する、
ことを特徴とする請求項１から４のいずれか１項に記載の電子機器。

【請求項6】

前記制御手段は、１）前記電子機器が前記特権モードに設定された期間において、ユーザの発話が行われており、かつ、当該発話が終了していなければ、当該期間の終了後にユーザに再度の発話を促し、２）前記再度の発話を促してから前回の発話の時間の長さよりも長い時間だけ前記特権モードに前記電子機器を設定する、
ことを特徴とする請求項１から４のいずれか１項に記載の電子機器。

【請求項7】

前記電子透かしは、認証情報と有効期間を示す情報とを含み、
前記判定手段は、前記認証情報が所定の情報であり、かつ、現在時刻が前記有効期間に含まれる場合に、前記電子透かしが有効であると判定する、
ことを特徴とする請求項１から４のいずれか１項に記載の電子機器。

【請求項8】

前記実行手段は、前記電子機器が前記特権モードに設定されているか否かに関わらず、前記特定の処理ではない所定の処理を指示する発話をユーザが行った場合には、前記所定の処理を実行する、
ことを特徴とする請求項１から４のいずれか１項に記載の電子機器。

【請求項9】

前記制御手段は、前記電子機器が前記特権モードに設定された期間において、ユーザによる発話が終了すると、前記特権モードを解除する、
ことを特徴とする請求項１から４のいずれか１項に記載の電子機器。

【請求項10】

前記電子透かしは、２０Ｈｚから２００００Ｈｚの周波数域に含まれない周波数の音声により表現されている、
ことを特徴とする請求項１から４のいずれか１項に記載の電子機器。

【請求項11】

請求項１から４のいずれか１項に記載の電子機器と、
前記電子透かしを含む音声を出力する音声出力装置と、
を有することを特徴とする情報処理システム。

【請求項12】

電子機器の制御方法であって、
前記電子機器の周囲にて発生している音声を取得する音声取得ステップと、
前記音声取得ステップにてユーザの発話が取得された場合に、前記ユーザの発話に応じた処理を実行する実行ステップと、
前記音声取得ステップにて電子透かしを含む音声が取得された場合に、前記電子透かしが有効であるか否かを判定する判定ステップと、
前記電子透かしが有効であれば、前記実行ステップにて特定の処理を実行可能な特権モードに前記電子機器を設定する制御ステップと、
を有することを特徴とする電子機器の制御方法。

【請求項13】

請求項１２に記載の制御方法の各ステップをコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、電子機器、情報処理システム、電子機器の制御方法、プログラムに関する。

【背景技術】

【0002】

従来、ユーザは、特定のパスワードの文字列を電子機器（パソコンやスマートフォンなど）に入力して、特別な権限（特権）が付与されると、特定の処理（データの削除など）を電子機器に行わせることができる。一方で、スマートスピーカやロボットなどは、パソコンやスマートフォンとは異なり、文字列を入力するためのキーボードやタッチパネルを有していないことがある。

【0003】

そこで、特許文献１では、ユーザがパスワードを発話することにより、ユーザの認証を行うユーザ認証装置が開示されている。これによれば、文字を入力するためのキーボードやタッチパネルを有していない電子機器においても、ユーザの認証が可能になる。その結果、ユーザは、特定の処理を電子機器に行わせることが可能になる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－６４６８９号公報

【特許文献2】特開２００３－５７９０号公報

【特許文献3】特開２０２１－５８７１号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、ユーザの発話に応じて認証が行われると、その発話を聞いた第三者は、認証に必要なパスワードを容易に把握できてしまう。このため、電子機器のセキュリティが低下してしまうという課題があった。

【0006】

そこで、本発明は、音声に応じて特定の処理を実行可能な状態に電子機器をするとともに、電子機器のセキュリティの低下を抑制することを目的とする。

【課題を解決するための手段】

【0007】

上記目的を達成するために本発明は、以下の構成を採用する。

【0008】

すなわち、本発明の一側面に係る電子機器は、前記電子機器の周囲にて発生している音声を取得する音声取得手段と、前記音声取得手段がユーザの発話を取得した場合に、前記ユーザの発話に応じた処理を実行する実行手段と、前記音声取得手段が電子透かしを含む音声を取得した場合に、前記電子透かしが有効であるか否かを判定する判定手段と、前記電子透かしが有効であれば、前記実行手段が特定の処理を実行可能な特権モードに前記電子機器を設定する制御手段と、を有することを特徴とする電子機器である。特定の処理は、例えば、特定のユーザのみにより実行されることが望ましい処理である。具体的には、特定の処理は、例えば、パスワードの変更（初期化）やセキュリティ設定の変更などの電子機器のセキュリティに関する処理である。また、電子機器は、例えば、スマートスピーカまたはロボットなどである。

【0009】

このような構成によれば、電子機器は、人間の耳では知覚できない電子透かしを含む音声を用いて特権モードの設定を行う。このため、第三者は、その音声を聴いても、特権モードに設定するための音を把握することができない。また、電子透かしを含む音声が流れ
ていても、それが特権モードに設定するための音声であると認識することは、第三者にとって容易でない。つまり、第三者は、特権モードに設定するための処理をどのように行っているかを把握できない。このため、セキュリティ高く、電子機器を特権モードに設定することができる。

【0010】

上記電子機器において、前記実行手段は、前記電子機器が前記特権モードに設定された期間において、前記特定の処理を指示するユーザの発話が終了していれば、前記特定の処理を実行してもよい。これによれば、特権モードが設定された期間に完了したユーザの発話に応じて、特定の処理が実行される。このため、ユーザは、音声電子透かしを含む音声を流すことと、特定の処理を指示する発話を行うことの２ステップのみにより、特定の処理を電子機器に実行させることができる。従って、ユーザは、容易に、特定の処理を電子機器に実行させることができる。

【0011】

上記電子機器において、前記実行手段は、前記電子機器に対して前記電子透かしを含む音声が発せられた方向と、前記電子機器に対して前記発話をしたユーザが位置する方向との間の角度が、所定角度より大きければ、前記特定の処理を実行することを禁止してもよい。これによれば、例えば、電子透かしを含む音声を発生したユーザとは異なる第三者が特定の処理を指示する発話をした場合に、特定の処理を電子機器が実行する可能性を低減させることができる。このため、電子機器のセキュリティが向上する。

【0012】

上記電子機器において、前記実行手段は、前記電子機器に対して前記電子透かしを含む音声が発せられた方向と異なる方向に前記発話をしたユーザが位置していれば、前記特定の処理を実行することを禁止してもよい。これによれば、例えば、電子透かしを含む音声を発生したユーザとは異なる第三者が特定の処理を指示する発話をした場合に、特定の処理を電子機器が実行する可能性をさらに低減させることができる。このため、電子機器のセキュリティがさらに向上する。

【0013】

上記電子機器において、前記制御手段は、前記音声取得手段が有効な前記電子透かしを取得し終わってから所定時間だけ前記特権モードに前記電子機器を設定し、前記所定時間の経過後に前記特権モードを解除してもよい。これによれば、特権モードに設定される期間が限定されるため、特定の処理を指示する発話を第三者が行うことにより、特定の処理が実行される可能性を低減することができる。このため、電子機器のセキュリティが向上する。

【0014】

上記電子機器において、前記制御手段は、１）前記電子機器が前記特権モードに設定された期間において、ユーザの発話が行われており、かつ、当該発話が終了していなければ、当該期間の終了後にユーザに再度の発話を促し、２）前記再度の発話を促してから前回の発話の時間の長さよりも長い時間だけ前記特権モードに前記電子機器を設定してもよい。これによれば、ユーザによる発話の期間中に、特権モードが終了してしまった場合にも、ユーザは再度、特定の処理を指示する発話を行って、特定の処理を電子機器に実行させることができる。このため、電子機器についてのユーザの利便性が向上する。

【0015】

上記電子機器において、前記電子透かしは、認証情報と有効期間を示す情報とを含み、前記判定手段は、前記認証情報が所定の情報であり、かつ、現在時刻が前記有効期間に含まれる場合に、前記電子透かしが有効であると判定してもよい。

【0016】

上記電子機器において、前記実行手段は、前記電子機器が前記特権モードに設定されているか否かに関わらず、前記特定の処理ではない所定の処理を指示する発話をユーザが行った場合には、前記所定の処理を実行してもよい。これによれば、特定の処理ではない通常の処理については、ユーザはいつでも電子機器に実行させることができる。

【0017】

上記電子機器において、前記制御手段は、前記電子機器が前記特権モードに設定された期間において、ユーザによる発話が終了すると、前記特権モードを解除してもよい。これによれば、電子機器が特権モードに設定されている期間をさらに短くすることができるため、第三者により特定の処理を実行させられる可能性を低減できる。このため、電子機器のセキュリティが向上する。

【0018】

上記電子機器において、前記電子透かしは、２０Ｈｚから２００００Ｈｚの周波数域に含まれない周波数の音声により表現されていてもよい。

【0019】

上記電子機器と、前記電子透かしを含む音声を出力する音声出力装置と、を有することを特徴とする情報処理システムであってもよい。これによれば、情報処理システムは、音声出力装置が出力した電子透かしを含む音声に基づき、電子機器を特権モードに設定することができる。

【0020】

なお、本発明は、上述した機能および処理の少なくとも一部を含む電子機器の制御方法、認証装置、認証方法、情報処理装置、特権付与装置、情報処理方法、特権付与方法と捉えることができる。また、本発明は、電子機器の各手段（制御方法の各ステップ）をコンピュータに実行させるプログラム、または、当該プログラムを非一時的に記憶した記憶媒体などとして捉えることもできる。

【発明の効果】

【0021】

本発明によれば、音声に応じて特定の処理を実行可能な状態に電子機器をするとともに、電子機器のセキュリティの低下を抑制することができる。

【図面の簡単な説明】

【0022】

【図1】図１は、実施形態１に係る情報処理システムを説明する図である。

【図2】図２は、実施形態１に係る情報処理システムの各構成の内部構成図である。

【図3】図３は、実施形態１に係る実行制御処理のフローチャートである。

【図4】図４は、実施形態１に係る実行制御処理のタイムチャートである。

【図5】図５は、実施形態１に係る音楽再生処理のフローチャートである。

【図6】図６は、実施形態２に係る特権期間中の処理のフローチャートである。

【図7】図７は、実施形態３に係る音声の発生方向の検出を説明する図である。

【図8】図８は、実施形態３に係る実行制御処理のフローチャートである。

【発明を実施するための形態】

【0023】

以下、図面を参照して本発明の例示的な実施形態を詳細に説明する。なお、本発明は説明する実施形態に限定されない。また、実施形態で説明される構成要素の全てが本発明に必須とは限らない。

【0024】

＜実施形態１＞
図１を参照して、実施形態１に係る情報処理システム１について説明する。情報処理システム１は、スマートスピーカ１０、サーバ２０、スマートフォン３０を有する。情報処理システム１は、スマートフォン３０から発せられる音声に基づき、特定の処理を実行可能なモード（特権モード）にスマートスピーカ１０を設定する。なお、特定の処理とは、予め設定された任意の処理であってよい。特定の処理は、例えば、パスワードの変更（初期化）、セキュリティ設定の変更、またはデータの削除などである。

【0025】

スマートスピーカ１０は、自身の周囲の音声を取得して、取得した音声に応じた処理を実行する電子機器である。スマートスピーカ１０は、スマートフォン３０から取得した音
楽に音声電子透かし（デジタル透かし）が含まれており、かつ、音声電子透かしが有効であると判定すると、特権モードに移行する。また、スマートスピーカ１０は、ネットワーク４０を介してサーバ２０と通信可能である。

【0026】

ここで、音声電子透かしとは、音声に対して埋め込まれる情報であって、人間が知覚できないように制御されている情報である。そして、スマートスピーカ１０は、音声電子透かしを含む音声を、周波数や位相に応じて、音声電子透かしとその他とに分離することができる。例えば、人間が知覚できる音声の周波数域（２０Ｈｚから２００００Ｈｚまで）に含まれない周波数の音声を用いて音声電子透かしが表現されていれば、スマートスピーカ１０は、周波数に応じて音声電子透かしとその他とを分離することができる。なお、実施形態１では、音声電子透かしは、認証情報（鍵情報）と、認証情報の有効期間を示す情報とを含むものとする。認証情報は、一般的にユーザの認証に用いられるパスワードに相当する。

【0027】

サーバ２０は、音声電子透かしの有効性をスマートスピーカ１０が判定するための情報（電子透かし情報）を格納する。サーバ２０は、スマートスピーカ１０からの要求に応じて電子透かし情報をスマートスピーカ１０に送信する。また、サーバ２０は、スマートフォン３０が音声電子透かしを含む音楽を再生するために、電子透かし情報をスマートフォン３０に送信する。電子透かし情報は、認証情報と、認証情報の有効期間を示す情報を含む。

【0028】

スマートフォン３０は、音楽を再生する電子機器（音声出力装置）である。ユーザは、スマートスピーカ１０を特権モードに設定したい場合に、音声電子透かしを含む音楽をスマートフォン３０に再生させる。なお、スマートフォン３０は、サーバ２０から電子透かし情報を取得して、任意の音楽に音声電子透かしを埋め込んで、当該音楽を再生する。なお、音声電子透かしを音楽に埋め込む方法としては、公知のエコー拡散法（元の音楽に、人間が感知できない程度の遅延時間のエコーをかけて、その遅延時間を付加データとして用いる方法）を用いることができる。なお、エコー拡散法に限らず、公知の周期的位相変調法、または公知のスペクトル拡散法などを用いて、音声電子透かしの埋め込みが行われてもよい。

【0029】

（スマートスピーカ１０の構成）
図２を参照して、スマートスピーカ１０の内部構成について説明する。スマートスピーカ１０は、音声取得部１０１、音声分離部１０２、音声認識部１０３、判定部１０４、モード制御部１０５、実行部１０６、情報更新部１０７、音声出力部１０８、記憶部１０９を有する。

【0030】

音声取得部１０１は、スマートスピーカ１０の周囲にて発せられる音声を取得する。音声取得部１０１は、例えば、１または複数のマイク（アレイマイクなど）を有する。

【0031】

音声分離部１０２は、音声取得部１０１が取得した音声（以下、「取得音声」と呼ぶ）を分離する。具体的には、まず、音声分離部１０２は、取得音声を、音声を発した対象（ユーザおよび機器）ごとに分離する。この音声の分離には、例えば、特許文献２に記載のように、取得音声の信号の独立性に応じて分離する技術を用いることができる。また、音声の分離には、音声取得部１０１の複数のマイクに届く音声の到達時間の差に基づき音声の発生方向を検出して、音声の発生方向ごとに音を分離する技術を用いることができる。さらに、音声分離部１０２は、音声取得部１０１の複数のマイクがそれぞれ異なる方向の音声を取得すること（ビームフォーミング）を行っていれば、複数のマイクそれぞれが取得した音声を、取得音声を分離した音声として扱ってもよい。例えば、２人のユーザの声と１台のスマートフォン３０の音声を音声取得部１０１が取得している場合には、音声分
離部１０２は、取得音声を３つの音声に分離する。

【0032】

さらに、音声分離部１０２は、分離した音声のいずれかに、音声電子透かしが含まれているか否かを判定する。例えば、音声電子透かしがエコー拡散法により、音楽に埋め込まれるような場合には、音声分離部１０２が、分離した音声のそれぞれ（または音楽に相当すると判定された音声のみ）に、公知のエコー拡散法による音声電子透かしの抽出処理を実行する。そして、音声分離部１０２は、音声電子透かしの抽出処理により、音声電子透かしが抽出できた場合には、分離した音声のいずれかに音声電子透かしが含まれていると判定する。

【0033】

具体的には、エコー拡散法による音声電子透かしの抽出処理は、特許文献３に記載の方法により実現できる。例えば、音声分離部１０２は、音声電子透かしを含む音楽に対して、窓関数を適用して、ＦＦＴ（高速フーリエ変換）後に対数をとり、さらに逆ＦＦＴの演算を実行する。このことにより、音声分離部１０２は、いわゆるケプストラムを算出する。そして、音声分離部１０２は、ケプストラムとエコー成分の相互相関を窓長ごとに計算することにより、音声電子透かしを抽出することができる。

【0034】

音声認識部１０３は、音声分離部１０２が分離した音声のうちのユーザの声が示す内容を認識する。つまり、音声認識部１０３は、取得音声から、ユーザの発話の内容を認識する。

【0035】

また、音声認識部１０３は、ユーザの発話の内容が特定の処理を指示する内容か否かを判定する。最も単純な例では、特定の処理が「ログインパスワードの初期化」であれば、発話に「パスワード」および「初期化」というワードが含まれていれば、音声認識部１０３は、ユーザの発話の内容が特定の処理を指示する内容であると判定できる。なお、ユーザの発話の内容を認識する技術については、一般的なスマートスピーカに用いられる技術と同様の技術を用いることができるため、本明細書では詳細な説明を省略する。

【0036】

判定部１０４は、音声分離部１０２が音声電子透かしを取得した場合には、音声電子透かしが有効であるか否か（音声電子透かしの有効性）を判定する。具体的には、判定部１０４は、音声電子透かしに含まれる認証情報が、予め記憶部１０９に格納された電子透かし情報が示す認証情報に対応する（例えば、２つの認証情報が同一である、または所定ビット数分だけ情報がずれている）か否かを判定する。そして、判定部１０４は、２つの認証情報が互いに対応する場合には、音声電子透かしに含まれる有効期間に現在時刻が含まれているか否かを判定する。判定部１０４は、２つの認証情報が互いに対応し、かつ、音声電子透かしに含まれる有効期間に現在時刻が含まれていると判定した場合に、音声電子透かしが有効であると判定する。判定部１０４は、２つの認証情報が互いに対応していない、または、音声電子透かしに含まれる有効期間に現在時刻が含まれていないと判定した場合に、音声電子透かしが有効でない（無効である）と判定する。

【0037】

モード制御部１０５は、音声電子透かしが有効であるか否かに応じて、スマートスピーカ１０を特権モードに設定するか否かを制御する。モード制御部１０５は、音声電子透かしが有効である場合には、スマートスピーカ１０を特権モードに設定する。モード制御部１０５は、音声電子透かしが有効でない場合には、スマートスピーカ１０を特権モードに設定しない。

【0038】

実行部１０６は、音声認識部１０３が認識したユーザの発話の内容に応じた処理を実行する。実行部１０６は、処理実行部１６１と特権処理実行部１６２を有する。

【0039】

処理実行部１６１は、特定の処理以外の処理（以下、「通常処理」と呼ぶ）を実行する
。例えば、ユーザの発話が「スマートスピーカ１０の音量を大きくする」ことを指示する内容であれば、処理実行部１６１は音声出力部１０８から発せられる音声の音量を大きくする。処理実行部１６１は、スマートスピーカ１０が特権モードに設定されているか否かに関わらず、通常処理を実行することができる。

【0040】

特権処理実行部１６２は、特定の処理を実行する。ここで、特権処理実行部１６２は、スマートスピーカ１０が特権モードに設定されている場合にのみ、特定の処理を実行する。つまり、特権処理実行部１６２は、スマートスピーカ１０が特権モードに設定されていなければ、特定の処理を実行しない。つまり、「モード設定部１０５は、スマートスピーカ１０を特権モードに設定していない場合には、実行部１０６が特定の処理を実行することを禁止している」といえる。

【0041】

情報更新部１０７は、記憶部１０９に格納されている電子透かし情報を更新する。情報更新部１０７は、定期的に、サーバ２０にアクセスして、サーバ２０から最新の電子透かし情報を取得する。そして、情報更新部１０７は、記憶部１０９に格納されている電子透かし情報を、サーバ２０から取得した電子透かし情報に置き換える。なお、情報更新部１０７は、音声取得部１０１が取得した音声に音声電子透かしが含まれると判定されると、サーバ２０から最新の電子透かし情報を取得してもよい。

【0042】

音声出力部１０８は、音声を出力する（音声を発する）。音声出力部１０８は、スピーカを含む。音声出力部１０８は、例えば、実行部１０６が処理を実行した結果をユーザに報告するための音声を出力する。

【0043】

記憶部１０９は、情報更新部１０７が更新した（出力した）電子透かし情報を格納する。また、記憶部１０９は、スマートスピーカ１０の各機能部を制御するためのプログラムを格納していてもよい。

【0044】

（サーバ２０の構成）
図２を参照して、サーバ２０の内部構成について説明する。サーバ２０は、情報更新部２０１、情報送信部２０２、記憶部２０３を有する。

【0045】

情報更新部２０１は、記憶部２０３に格納されている電子透かし情報を定期的に更新する。具体的には、情報更新部２０１は、電子透かし情報に含まれる認証情報を新たな任意の情報に更新し、電子透かし情報に含まれる有効期間の情報を新たな期間に更新する。有効期間は、例えば、情報更新部２０１が更新した時刻から３０分間など、なるべく短い期間であるとよい。

【0046】

情報送信部２０２は、スマートスピーカ１０からの要求に応じて、記憶部２０３に格納した電子透かし情報をスマートスピーカ１０に送信する。また、情報送信部２０２は、スマートフォン３０からの要求に応じて、記憶部２０３に格納した電子透かし情報をスマートフォン３０に送信する。

【0047】

記憶部２０３は、電子透かし情報を格納する。

【0048】

（スマートフォン３０の構成）
図２を参照して、スマートフォン３０の内部構成について説明する。スマートフォン３０は、情報取得部３０１、音楽生成部３０２、音声出力部３０３、記憶部３０４を有する。

【0049】

情報取得部３０１は、サーバ２０に要求をすることにより、電子透かし情報を取得する
。情報取得部３０１は、取得した電子透かし情報を記憶部３０４に格納する。

【0050】

音楽生成部３０２は、電子透かし情報に基づく音声電子透かしを埋め込んだ音楽（以下、「透かし入り音楽」と呼ぶ）を生成する。音楽生成部３０２は、透かし入り音楽の情報（音楽情報）を、記憶部３０４に格納する。ここで、音声電子透かしが埋め込まれる音楽は、任意の音楽であってよい。例えば、ユーザが指定する音楽であり得る。

【0051】

また、音声電子透かしは、例えば、電子透かし情報に含まれる情報（認証情報と有効期間を示す情報）を含む情報である。また、音声電子透かしは、電子透かし情報に含まれる認証情報を一定の法則に従って暗号化した認証情報（以下、「暗号情報」と呼ぶ）と、有効期間を示す情報とを含んでいてもよい。なお、音声電子透かしが暗号情報を含む場合には、暗号情報を復号するための情報をスマートスピーカ１０が有している必要がある。このため、例えば、サーバ２０は、認証情報を暗号化するための鍵情報をスマートフォン３０に送信し、暗号情報を復号するための鍵情報をスマートスピーカ１０に送信してもよい。この場合には、スマートスピーカ１０は、音声電子透かしを取得すると、音声電子透かしが含む暗号情報を復号して認証情報を取り出す。そして、判定部１０４は、取り出した認証情報と電子透かし情報が含む認証情報とが一致するか否かにより、音声電子透かしの有効性を判定する。

【0052】

音声出力部３０３は、透かし入り音楽の情報（音楽情報）を記憶部３０４から取得する。そして、音声出力部３０３は、ユーザ操作に応じて、透かし入り音楽を再生する。

【0053】

記憶部３０４は、音楽情報と電子透かし情報とを格納する。

【0054】

なお、スマートスピーカ１０、サーバ２０、およびスマートフォン３０は、ＣＰＵ（プロセッサ；制御装置）またはメモリ、ストレージを備えるコンピュータにより構成することができる。この場合には、図２に示す構成は、ストレージに格納されたプログラムをメモリにロードし、ＣＰＵが当該プログラムを実行することによって実現されるものである。あるいは、スマートスピーカ１０、サーバ２０、およびスマートフォン３０における構成の全部または一部を、ＡＳＩＣやＦＰＧＡなどで構成してもよい。あるいは、構成の全部または一部を、クラウドコンピューティングや分散コンピューティングにより実現してもよい。

【0055】

（実行制御処理について）
図３のフローチャートを参照して、特定の処理を実行するか否かを制御する実行制御処理を説明する。本フローチャートの処理は、スマートスピーカ１０の電源がオン状態にされると、開始する。また、本フローチャートの処理は、例えば、スマートスピーカ１０のＣＰＵが、ストレージに格納されたプログラムを実行することにより実現される。

【0056】

ステップＳ１００１では、音声分離部１０２は、音声取得部１０１が透かし入り音楽を取得した（スマートスピーカ１０の周囲に透かし入り音楽が流れている）か否かを判定する。透かし入り音楽が取得されたと判定された場合には、ステップＳ１００２に進む。透かし入り音楽が取得されていないと判定された場合には、ステップＳ１００４に進む。

【0057】

ステップＳ１００２では、判定部１０４は、透かし入り音楽に含まれる音声電子透かしが有効であるか否かを判定する。具体的には、判定部１０４は、上述のように、音声電子透かしと、記憶部１０９に格納された電子透かし情報とに基づき、音声電子透かしが有効であるか否かを判定する。音声電子透かしが有効であると判定された場合には、ステップＳ１００３に進み。音声電子透かしが有効でない（無効である）と判定された場合には、ステップＳ１００４に進む。

【0058】

なお、Ｓ１００２の処理は、サーバ２０を用いて行われてもよい。具体的には、音声分離部１０２は、音声電子透かしを取得（抽出）すると、その音声電子透かしをサーバ２０に送信する。サーバ２０は、記憶部２０３に格納された電子透かし情報に基づき、音声電子透かしの有効性を判定する。そして、サーバ２０は、音声電子透かしの有効性を示す情報を判定部１０４に送信する。判定部１０４は、音声電子透かしの有効性を示す情報により、音声電子透かしが有効であるか否かを判定する。これによれば、記憶部１０９（つまり、スマートスピーカ１０）に電子透かし情報を格納しておく必要がなくなる。このため、スマートスピーカ１０から電子透かし情報が盗まれる可能性がなくなるので、スマートスピーカ１０のセキュリティをさらに向上させる。また、スマートスピーカ１０における有効性の判定の処理を簡素化できるため、スマートスピーカ１０の設計を簡素化できる。

【0059】

ステップＳ１００３では、モード制御部１０５は、音声電子透かしを取得し終わってから所定時間（例えば、２０秒間）だけ、スマートスピーカ１０を特権モードに設定する。そして、モード制御部１０５は、所定時間の経過後、特権モードを解除する。

【0060】

ステップＳ１００４では、音声認識部１０３は、ユーザによる発話が行われていたか否かを判定する。ユーザによる発話が行われていたと判定された場合には、ステップＳ１０１２に進む。ユーザによる発話が行われていないと判定された場合には、ステップＳ１００１に進む。

【0061】

ステップＳ１００５では、音声認識部１０３は、スマートスピーカ１０が特権モードに設定されている期間（以下、「特権期間」と呼ぶ）に、ユーザによる発話が行われていたか否かを判定する。特権期間中に、ユーザによる発話が行われていたと判定された場合には、ステップＳ１００６に進む。特権期間中に、ユーザによる発話が行われていないと判定された場合には、ステップＳ１００１に進む。ここで、特権期間中に「発話が行われていた」とは、特権期間中に、ユーザが一言でも音声を発していた状態をいう。従って、特権期間前から発話が継続しており、その発話が特権期間においても継続している場合には、特権期間中に「発話が行われていた」と判定される。

【0062】

なお、ステップＳ１００５では、「発話が行われていた」の代わりに、「発話が開始した」か否かが判定されてもよい。つまり、特権期間中に、ユーザにより発話が開始したと判定された場合には、ステップＳ１００６に進む。特権期間中に、ユーザにより発話が開始していないと判定された場合には、ステップＳ１００１に進む。「発話が開始した」とは、一定期間においてユーザが音声を発生していない状態から、ユーザが音声を発生し始めた状態に変化したことをいう。

【0063】

ステップＳ１００６では、音声認識部１０３は、特権期間中に、ユーザによる発話が終了したか否かを判定する。特権期間中に、ユーザによる発話が終了したと判定された場合には、ステップＳ１０１０に進む。特権期間中に、ユーザによる発話が終了していないと判定された場合には、ステップＳ１００７に進む。ここで、「発話が終了した」とは、ユーザが音声を発生している状態から、ユーザが音声を発生させない状態が一定期間だけ継続した状態に変化したことをいう。なお、音声認識部１０３は、取得した音声の内容を認識して、意味のある１つの文に対応する発声が終了したら、「発話が終了した」と判定してもよい。

【0064】

ステップＳ１００７では、音声認識部１０３は、ユーザによる発話が終了するまで待機する。このとき、音声認識部１０３は、ユーザによる発話の時間を前回発話時間として計測しておく。

【0065】

ステップＳ１００８では、音声出力部１０８は、再度の発話を行うようにユーザに要求する（促す）。例えば、音声出力部１０８は、「もう一度、発言をお願いします」などの音声を出力する。また、スマートスピーカ１０がディスプレイを有する場合には、ディスプレイが「もう一度、発言をお願いします」という文字を表示してもよい。

【0066】

ステップＳ１００９では、モード制御部１０５は、ステップＳ１００８にて音声出力部１０８が再度の発話を要求してから、前回発話時間＋追加時間αだけ、スマートスピーカ１０を特権モードに設定する。モード制御部１０５は、前回発話時間＋追加時間αの経過後、特権モードを解除する。ここで、追加時間αは、ステップＳ１００３における所定時間と同じ時間など、任意の時間であってよい。例えば、追加時間αは、１０秒である。なお、ステップＳ１００９の処理が終了すると、ステップＳ１００５に進む。

【0067】

ステップＳ１０１０では、音声認識部１０３は、特権期間中にユーザが行った発話が、特定の処理を指示する発話であったか否かを判定する。ユーザによる発話が特定の処理を指示する発話であると判定された場合には、ステップＳ１０１１に進む。ユーザによる発話が特定の処理を指示する発話でないと判定された場合には、ステップＳ１０１２に進む。

【0068】

ステップＳ１０１１では、特権処理実行部１６２は、ユーザによる発話に応じて、特定の処理を実行する。

【0069】

ステップＳ１０１２では、処理実行部１６１は、ユーザによる発話に応じて、通常処理（特定の処理以外の処理）を実行する。なお、スマートスピーカ１０に特権モードが設定されていない場合に、特定の処理を指示する発話が行われると、処理実行部１６１は、例えば、音声出力部１０８から「指示された処理は、特権モードに設定されないと実行できません」というような音声を出力する。

【0070】

図４は、特定の処理を実行する実行制御処理のタイムチャートの例を示す図である。図４では、特権コマンド音声は、特定の処理を指示する発話の音声である。また、図４では、音声電子透かしは、有効であるとする。

【0071】

まず、時刻ｔ１において、スマートフォン３０から音声電子透かしの再生が始まる。

【0072】

時刻ｔ２において、音声電子透かしの再生が終わる。すると、時刻ｔ２において、音声分離部１０２は、透かし入り音楽を取得したと判定し（ステップＳ１００１にてＹＥＳ）、判定部１０４は、音声電子透かしが有効であると判定する（ステップＳ１００２にてＹＥＳ）。

【0073】

また、時刻ｔ２にて、モード制御部１０５は、時刻ｔ２から所定時間だけ、スマートスピーカ１０を特権モードに設定する（特権モードをオン状態にする）（ステップＳ１００３）。

【0074】

時刻ｔ３において、モード制御部１０５は、時刻ｔ２から所定時間経過したため、特権モードを解除する（特権モードをオフ状態にする）。そして、時刻ｔ３において、音声認識部１０３は、特権期間（時刻ｔ２～ｔ３の期間）において、ユーザによる発話が行われており（ステップＳ１００５にてＹＥＳ）、かつ、ユーザによる発話が終了している（ステップＳ１００６にてＹＥＳ）と判定する。さらに、時刻ｔ３において、音声認識部１０３は、ユーザによる発話が特定の処理を指示する発話（特権コマンド音声の発話）であると判定する（ステップＳ１０１０にてＹＥＳ）。このため、特権処理実行部１６２は、特定の処理を実行する（ステップＳ１０１１）。

【0075】

時刻ｔ４において、スマートフォン３０から再度、音声電子透かしの再生が始まる。

【0076】

時刻ｔ５において、音声電子透かしの再生が終わる。すると、時刻ｔ５において、音声分離部１０２は、透かし入り音楽を取得したと判定し（ステップＳ１００１にてＹＥＳ）、判定部１０４は、音声電子透かしが有効であると判定する（ステップＳ１００２にてＹＥＳ）。また、モード制御部１０５は、時刻ｔ５から所定時間だけ、スマートスピーカ１０を特権モードに設定する（特権モードをオン状態にする）（ステップＳ１００３）。

【0077】

時刻ｔ６において、モード制御部１０５は、時刻ｔ５から所定時間だけ経過したため、特権モードを解除する（特権モードをオフ状態にする）。そして、時刻ｔ６において、音声認識部１０３は、特権期間（時刻ｔ５～ｔ６の期間）において、ユーザによる発話が行われており（ステップＳ１００５にてＹＥＳ）、かつ、ユーザによる発話が終了していない（ステップＳ１００６にてＮＯ）と判定する。また、音声認識部１０３は、ユーザによる発話が終了するまで（時刻ｔ７まで）待機する（ステップＳ１００７）。

【0078】

時刻ｔ７において、音声出力部１０８は、再度の発話を行うようにユーザに要求する（ステップＳ１００８）。また、時刻ｔ７において、モード制御部１０５は、前回発話時間＋追加時間αだけ、スマートスピーカ１０を特権モードに設定する（ステップＳ１００９）。

【0079】

時刻ｔ８において、モード制御部１０５は、時刻ｔ７から前回発話時間＋追加時間αだけ経過したため、特権モードを解除する（特権モードをオフ状態にする）。そして、時刻ｔ８において、音声認識部１０３は、特権期間（時刻ｔ７～ｔ８の期間）において、ユーザによる発話が行われており（ステップＳ１００５にてＹＥＳ）、かつ、ユーザによる発話が終了している（ステップＳ１００６にてＹＥＳ）と判定する。さらに、時刻ｔ８において、音声認識部１０３は、ユーザによる発話が特定の処理を指示する発話（特権コマンド音声の発話）であると判定する（ステップＳ１０１０にてＹＥＳ）。このため、特権処理実行部１６２は、特定の処理を実行する（ステップＳ１０１１）。

【0080】

（音楽再生処理について）
図５のフローチャートを参照して、スマートフォン３０が透かし入り音楽を再生する音楽再生処理について説明する。ここで、図５のフローチャートの処理は、ユーザから、透かし入り音楽の再生を指示する操作が行われると、開始する。

【0081】

ステップＳ２００１において、情報取得部３０１は、サーバ２０に電子透かし情報を要求する。

【0082】

ステップＳ２００２において、情報取得部３０１は、サーバ２０から電子透かし情報を取得したか否かを判定する。電子透かし情報が取得されたと判定された場合には、ステップＳ２００３に進む。電子透かし情報が取得されていないと判定された場合には、ステップＳ２００２の処理が繰り返される。

【0083】

ステップＳ２００３において、音楽生成部３０２は、電子透かし情報に基づき、透かし入り音楽を生成する。

【0084】

ステップＳ２００４において、音声出力部３０３は、透かし入り音楽を再生する。

【0085】

実施形態１では、スマートスピーカ１０は、人間の耳では知覚できない音声電子透かしを含む音楽を用いて特権モードの設定を行う。このため、第三者は、その音楽を聴いても
、特権モードに設定するための音を把握することができない。また、音声電子透かしを含む音楽が流れていても、それが特権モードに設定するための音楽であると認識することは、第三者にとって容易でない。つまり、第三者は、特権モードに設定するための処理をどのように行っているかを把握できない。このため、セキュリティ高く、スマートスピーカ１０を特権モードに設定することができる。

【0086】

また、音声電子透かしが取得されてから所定時間に発話がされなければ、特定の処理を指示する発話が行われても、スマートスピーカ１０は特定の処理を実行しない。このため、特定の処理を指示する発話がユーザにより行われた後に、特定の処理が実行されていることを知覚した第三者が、同様に、特定の処理を指示する発話をしても、特定の処理は実行されない。従って、正当なユーザ以外の第三者によって特定の処理が実行されてしまう可能性をさらに低減することができる。

【0087】

なお、透かし入り音楽の代わりに、音声電子透かしが埋め込まれた任意の音声を用いることができる。つまり、音楽の代わりに、チャイム音や会話の音声などに音声電子透かしを埋め込んでもよい。

【0088】

また、スマートフォン３０が透かし入り音楽を生成したが、サーバ２０（サーバ２０の生成部）が電子透かし情報に基づき透かし入り音楽を生成して、スマートフォン３０に送信してもよい。

【0089】

特権モードに設定される電子機器としてスマートスピーカ１０を例にあげたが、スマートスピーカ１０の代わりに任意の電子機器を用いてもよい。例えば、ロボットや家電（エアコンまたは照明など）を、スマートスピーカ１０の代わりに用いてもよい。ここで、ロボットが行う特定の処理としては、例えば、特定の場所に飲み物を運ぶ処理などであり得る。

【0090】

＜実施形態２＞
実施形態１では、スマートスピーカ１０は、特権期間の終了後に、ユーザによる発話が行われたか否かを判定して、ユーザの発話に応じた処理を実行した。一方で、実施形態２では、スマートスピーカ１０は、特権期間中にもユーザによる発話が行われたか否かを判定して、その後、ユーザの発話に応じた処理を実行する。具体的には、実施形態２では、ステップＳ１００３またはステップＳ１００９の処理が開始されると、図６に示すフローチャートの処理が行われる。なお、実施形態２に係る情報処理システム１は、実施形態１に係る情報処理システム１の構成と同様である。

【0091】

ステップＳ１１０１において、モード制御部１０５は、スマートスピーカ１０を特権モードに設定する。

【0092】

ステップＳ１１０２において、音声認識部１０３は、特権期間中に発話が行われ、かつ、特権期間中に発話が終了しているか否かを判定する。特権期間中に発話が行われ、かつ、発話が終了していると判定された場合には、ステップＳ１１０５に進む。一方で、特権期間中に発話が行われていない、または、発話が終了していないと判定された場合には、ステップＳ１１０３に進む。

【0093】

ステップＳ１１０３において、モード制御部１０５は、スマートスピーカ１０を特権モードに設定してから特定の時間（所定時間、または、前回発話時間＋追加時間）だけ経過したか否かを判定する。スマートスピーカ１０を特権モードに設定してから特定の時間だけ経過したと判定された場合には、ステップＳ１１０４に進む。スマートスピーカ１０を特権モードに設定してから特定の時間だけ経過していないと判定された場合には、ステッ
プＳ１１０２に進む。

【0094】

ステップＳ１１０４において、モード制御部１０５は、特権モードを解除して、工程をステップＳ１００５に進める。

【0095】

ステップＳ１１０５において、モード制御部１０５は、特権モードを解除して、工程をステップＳ１０１０に進める。

【0096】

実施形態２によれば、スマートスピーカ１０は、特権期間中において特定の処理を指示する発話が終了すると直ぐに、特定の処理を実行することが可能になる。このため、ユーザにとっての利便性が向上する。一方で、実施形態１のように、スマートスピーカ１０が、特権モードに設定されてから特定の期間が経過するまで待機してから、特定の処理を実行することによれば、全体の処理を単純化できるため、スマートスピーカ１０の構成を簡素化できる。

【0097】

＜実施形態３＞
実施形態１では、スマートスピーカ１０は、特権期間中に、特定の処理を指示する発話が行われると特定の処理を実行した。この場合には、例えば、スマートフォン３０から透かし入り音楽を再生させたユーザ以外の第三者が、特権期間中に特定の処理を指示する発話をしてしまうと、スマートスピーカ１０は特定の処理を実行してしまう。このため、スマートスピーカ１０のセキュリティが低下する場合が生じる。

【0098】

そこで、実施形態３では、スマートフォン３０から透かし入り音楽を再生させたユーザが、特権期間中に、特定の処理を指示する発話を行った場合にのみ、スマートスピーカ１０は特定の処理を行う。なお、実施形態３に係る情報処理システム１は、実施形態１に係る情報処理システム１の構成と同様である。

【0099】

なお、実施形態３では、音声取得部１０１が、図７に示すように、複数のマイク１２１を有する。そして、音声分離部１０２が、音声の発生方向を検出する方向検出部を有する。方向検出部は、複数のマイク１２１のそれぞれに入力された音声それぞれについて、音声の音量に応じて発生した方向を検出する。方向検出部は、例えば、スマートスピーカ１０の中心に対して南の方向に位置するマイク１２１が、ユーザ６０１の音声を他のマイク１２１のいずれよりも大きく取得していれば、音声を発生させたユーザ６０１が位置する方向を南であると検出できる。なお、方向検出部は、音声の発生方向を「北」、「南」、「東」、「西」の４つの中から判定してもよいし、さらに細かく方向を検出してもよい。

【0100】

図８は、実施形態３に係る実行制御処理のフローチャートを示す。図８のフローチャートの処理では、図３のフローチャートの処理に、ステップＳ３００１，Ｓ３００２の処理が加わっている。このため、以下では、ステップＳ３００１，Ｓ３００２についてのみ説明する。

【0101】

ステップＳ３００１の処理は、ステップＳ１００２において、音声電子透かしが有効であると判定されると実行される。ステップＳ３００１では、方向検出部は、透かし入り音楽の発生方向を検出する。例えば、図７に示すように、スマートスピーカ１０の南に存在するスマートフォン３０から透かし入り音楽が発生していれば、方向検出部は、発生方向として南を検出する。

【0102】

ステップＳ３００２の処理は、ステップＳ１０１０において特権期間中にユーザが行った発話が特定の処理を指示する発話であったと判定されると、実行される。ステップＳ３００２では、方向検出部は、ステップＳ３００１にて検出した方向と、特権期間中に発話
をしたユーザが存在する方向が同じ方向であるか否かを判定する。２つの方向が同じ方向であると判定された場合には、ステップＳ１０１１に進む。２つの方向が同じ方向でない（異なる方向である）と判定された場合には、ステップＳ１０１２に進む。

【0103】

実施形態３によれば、透かし入り音楽（音声電子透かし）の発生方向と特定の処理を指示する発話の発生方向（特定の処理を指示するユーザが存在する方向）とが同一の方向でなければ、特定の処理が実行されない。このため、透かし入り音楽を発生させたユーザの音声のみ、特定の処理の指示に用いることができる。従って、第三者による特定の処理の実行の可能性を低減させることができるため、スマートスピーカ１０のセキュリティが向上する。

【0104】

なお、透かし入り音楽の発生方向と特定の処理を指示する発話の発生方向（特定の処理を指示するユーザが存在する方向）とが同一の方向である場合に限らず、２つの方向の間の角度が所定角度以内である場合に、特定の処理が実行されてもよい。つまり、スマートスピーカ１０は、２つの方向の間の角度が所定角度以内でない場合（２つの方向の間の角度が所定角度よりも大きい場合）には、特権モードに設定されていても、特定の処理を実行しない（特定の処理を実行することを禁止する）。所定角度は、小さいほどスマートスピーカ１０のセキュリティが向上するが、大きければユーザの活動可能な範囲が広くなる。所定角度は、例えば、９０度である。

【0105】

なお、実施形態３のように第三者による特定の処理の可能性を低減させている場合であっても、例えば、スマートフォン３０を保持するユーザが他のユーザにスマートフォン３０を貸与して、他のユーザがスマートフォン３０から透かし入り音楽を発生させれば、その後、他のユーザは特定の処理をスマートスピーカ１０に実行させることができる。つまり、複数のユーザ間において、特定の処理を実行させるための権限の委譲を容易に行うこともできる。

【0106】

以上に説明した本発明の各実施形態に記載された構成や処理は、互いに任意に組み合わせて利用できる。

【符号の説明】

【0107】

１０：スマートスピーカ、２０：サーバ、３０：スマートフォン
１０１：音声取得部、１０２：音声分離部、１０３：音声認識部、
１０４：判定部、１０５：モード制御部、１０６：実行部、
１０７：情報更新部、１０８：音声出力部、１０９：記憶部

【図1】