(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022186088
(43)【公開日】2022-12-15
(54)【発明の名称】情報処理装置、制御方法、及びプログラム
(51)【国際特許分類】
G06F 3/16 20060101AFI20221208BHJP
G06F 3/0484 20220101ALI20221208BHJP
G10L 25/51 20130101ALI20221208BHJP
G10L 15/10 20060101ALI20221208BHJP
G10L 15/00 20130101ALI20221208BHJP
【FI】
G06F3/16 650
G06F3/16 620
G06F3/16 610
G06F3/0484
G10L25/51
G10L15/10 200W
G10L15/00 200Z
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2021094134
(22)【出願日】2021-06-04
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100090273
【弁理士】
【氏名又は名称】國分 孝悦
(72)【発明者】
【氏名】太田 峻輔
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA52
5E555BA02
5E555BA06
5E555BA27
5E555BB02
5E555BB06
5E555BB27
5E555BC04
5E555CA47
5E555CB69
5E555DA23
5E555DB03
5E555EA19
5E555FA00
(57)【要約】
【課題】音声での指示に対する応答を出力する際にユーザのプライバシーを考慮する。
【解決手段】ユーザからの音声を入力して、入力された音声から指示を取得する取得手段と、音声が入力された際のユーザの状態に関するデータ、及び入力された音声の認識結果のうちの少なくとも何れか一方に基づいて、前記指示に対して実行された処理の結果の出力をユーザ以外の者に聞かれたくない意図をもって発話されたか否かを推定する推定手段と、前記指示に対して実行された処理の結果を出力するよう制御する制御手段と、を有し、前記制御手段は、前記意図をもって発話されたと推定された場合には、ユーザ以外の者に聞かれにくい所定の方法で前記結果を出力するよう制御し、前記意図をもたないで発話されたと推定された場合には、ユーザ以外の者に聞かれてもよい方法で前記結果を出力するよう制御することを特徴とする。
【選択図】
図4
【特許請求の範囲】
【請求項1】
ユーザからの音声を入力する入力手段と、
入力された音声から指示を取得する取得手段と、
音声が入力された際のユーザの状態に関するデータ、及び入力された音声の認識結果のうちの少なくとも何れか一方に基づいて、前記指示に対して実行された処理の結果の出力をユーザ以外の者に聞かれたくない意図をもって発話されたか否かを推定する推定手段と、
前記指示に対して実行された処理の結果を出力するよう制御する制御手段と、
を有し、
前記制御手段は、前記意図をもって発話されたと推定された場合には、ユーザ以外の者に聞かれにくい所定の方法で前記結果を出力するよう制御し、前記意図をもたないで発話されたと推定された場合には、ユーザ以外の者に聞かれてもよい方法で前記結果を出力するよう制御することを特徴とする情報処理装置。
【請求項2】
前記推定手段は、入力された音声の音量及び周波数のうちの少なくとも何れか一方が所定の閾値以下である場合に、前記意図をもって発話されたと推定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
ユーザと前記情報処理装置との距離を測定可能な距離センサを更に有し、
前記推定手段は、前記距離センサから取得された前記距離が所定の閾値以下である場合に、前記意図をもって発話されたと推定することを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
ユーザの口の動きを撮像する撮像手段と、
前記撮像手段から取得された撮像結果に基づいて、ユーザが発話しようとしている指示内容を読み取る読み取り手段と、を更に有し、
前記推定手段は、前記読み取り手段で指示内容が読み取られた場合であって、且つ前記入力手段で音声の入力が検知されなかった場合に、前記意図をもって発話されたと推定することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
【請求項5】
前記推定手段は、入力された音声の認識結果にプライバシー情報に関するワードが含まれる場合に、前記意図をもって発話されたと推定することを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
【請求項6】
ユーザの生体情報を検出可能な生体センサを更に有し、
前記推定手段は、前記生体センサから取得された前記生体情報に基づいて、前記意図をもって発話されたか否かを推定することを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。
【請求項7】
前記推定手段は、発話された際のユーザの状態に関するデータを入力データとし、ユーザが実際に前記意図をもって発話したかを示す情報を教師データとして学習させた学習モデルを用いて推定することを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記所定の方法が、ユーザにより設定可能であることを特徴とする請求項1乃至7の何れか1項に記載の情報処理装置。
【請求項9】
前記所定の方法が、通常よりも小音で出力する方法、又は音で出力せずに画面表示する方法であることを特徴とする請求項1乃至8の何れか1項に記載の情報処理装置。
【請求項10】
前記制御手段は、前記意図をもって発話されたと推定された場合には、前記結果を保存しないよう制御し、前記意図をもたないで発話されたと推定された場合には、前記結果を保存するよう制御することを特徴とする請求項1乃至9の何れか1項に記載の情報処理装置。
【請求項11】
前記指示に対する処理を実行する処理手段を更に有することを特徴とする請求項1乃至10の何れか1項に記載の情報処理装置。
【請求項12】
ユーザからの音声を入力する入力手段と、
入力された音声から指示を取得する取得手段と、
音声が入力された際のユーザの状態に関するデータ、及び入力された音声の認識結果のうちの少なくとも何れか一方に基づいて、前記指示に対して実行された処理の結果の出力をユーザ以外の者に聞かれたくない意図をもって発話されたか否かを推定する推定手段と、
前記指示に対して実行された処理の結果を出力するよう制御する制御手段と、
を有し、
前記制御手段は、前記意図をもって発話されたと推定された場合には、前記結果を出力しないよう制御し、前記意図をもたないで発話されたと推定された場合には、前記結果を出力するよう制御することを特徴とする情報処理装置。
【請求項13】
ユーザからの音声を入力する入力手段を有する情報処理装置の制御方法であって、
入力された音声から指示を取得する取得ステップと、
音声が入力された際のユーザの状態に関するデータ、及び入力された音声の認識結果のうちの少なくとも何れか一方に基づいて、前記指示に対して実行された処理の結果の出力をユーザ以外の者に聞かれたくない意図をもって発話されたか否かを推定する推定ステップと、
前記指示に対して実行された処理の結果を出力するよう制御する制御ステップと、
を含み、
前記制御ステップは、前記意図をもって発話されたと推定された場合には、ユーザ以外の者に聞かれにくい所定の方法で前記結果を出力するよう制御し、前記意図をもたないで発話されたと推定された場合には、ユーザ以外の者に聞かれてもよい方法で前記結果を出力するよう制御することを特徴とする制御方法。
【請求項14】
請求項1乃至12の何れか1項に記載の情報処理装置の各手段としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、制御方法、及びプログラムに関する。
【背景技術】
【0002】
近年、ユーザからの発話を受け付けて、その発話に応じた処理を実行する音声指示処理装置が盛んに利用されている。一般的に、音声指示処理装置には、処理結果を音声により応答する手段が設けられている。特許文献1では、音声出力を行う際に、出力される内容に機密とすべき会社名や人名等のキーワードが含まれると判定された場合には、その読み上げを行わないように制御することが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
一般的に機密ではないが、人によっては周囲に聞かれたくない情報もある。このような情報が応答内容に含まれる場合、周囲に聞かれてしまうおそれがあり、プライバシー保護の観点で課題がある。
【0005】
そこで本発明は、音声での指示に対する応答を出力する際にユーザのプライバシーを考慮することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明に係る情報処理装置は、ユーザからの音声を入力する入力手段と、入力された音声から指示を取得する取得手段と、音声が入力された際のユーザの状態に関するデータ、及び入力された音声の認識結果のうちの少なくとも何れか一方に基づいて、前記指示に対して実行された処理の結果の出力をユーザ以外の者に聞かれたくない意図をもって発話されたか否かを推定する推定手段と、前記指示に対して実行された処理の結果を出力するよう制御する制御手段と、を有し、前記制御手段は、前記意図をもって発話されたと推定された場合には、ユーザ以外の者に聞かれにくい所定の方法で前記結果を出力するよう制御し、前記意図をもたないで発話されたと推定された場合には、ユーザ以外の者に聞かれてもよい方法で前記結果を出力するよう制御することを特徴とする。
【発明の効果】
【0007】
本発明によれば、音声での指示に対する応答を出力する際にユーザのプライバシーを考慮することができる。
【図面の簡単な説明】
【0008】
【
図1】音声指示処理装置のハードウェア構成を示す図である。
【
図2】音声指示処理装置の機能構成を示す図である。
【
図4】実施形態1に係る音声指示処理を示すフローチャートである。
【
図5】実施形態2に係る音声指示処理を示すフローチャートである。
【
図6】実施形態3に係る音声指示処理を示すフローチャートである。
【
図7】実施形態4に係る音声指示処理を示すフローチャートである。
【
図8】実施形態5に係る音声指示処理を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、図面を参照して本発明の実施形態について説明する。
【0010】
<実施形態1>
本実施形態において、情報処理装置の一例としての音声指示処理装置は、ユーザの発話による指示を受け、指示に対応した処理を実行し、処理結果を出力する。本実施形態に係る音声指示処理装置は、ユーザ以外の者に聞かれたくない意図をもって発話されたかを推定し、前記意図をもって発話されたと推定された場合には、ユーザ以外の者に聞かれにくい方法で処理結果を出力する。また音声指示処理装置は、前記意図をもたないで発話されたと推定された場合には、ユーザ以外の者に聞かれてもよい方法で処理結果を出力する。なお本実施形態では、情報処理装置が、指示に対応した処理を実行する構成について説明するが、情報処理装置が、外部装置にユーザの発話情報を送信し、発話情報を受信した外部装置が発話情報に応じた処理を実行する構成でも構わない。この場合、情報処理装置は、処理結果を外部装置から受信し、受信した処理結果を出力する。
【0011】
図1は、本実施形態に係る音声指示処理装置10のハードウェア構成を示す図である。音声指示処理装置10は、音声での指示を受け、指示に対して音声で応答する音声制御機能を有する電子機器である。本実施形態において、音声指示処理装置10は、音声制御機能が搭載されたスマートフォンである。なお、スマートフォンに代えて、PC(パーソナルコンピュータ)等の汎用のコンピュータの他、MFP(Multifunction Peripheral)等を用いてもよい。また、音声指示処理装置10として、スマートスピーカーを用いてもよい。
【0012】
音声指示処理装置10は、CPU101、RAM102、ROM103、記憶装置104、集音装置105、発音装置106、タッチパネル107、距離検出レーダー108、近接センサ109及びカメラ110を備える。これらの各構成部はバス111により相互に接続されている。CPU101は、音声指示処理装置10の全体を制御する。CPU101がROM103等に格納されたプログラムをRAM102に展開して実行することにより、後述するフローチャートに示す各処理や
図2に示す各種の機能が実現される。RAM102は、CPU101がROM103から読み出したプログラムやデータを一時的に記憶する。ROM103には、音声制御機能、及び音声認識機能を実現するためのプログラムの他各種のプログラム、及びCPU101がプログラムに基づき処理を実行する際に必要なデータ等が格納されている。記憶装置104は、各種の設定情報を記憶する。
【0013】
集音装置105は、マイク等の音声入力デバイスであり、CPU101の制御下で、音声指示処理装置10の周囲にいるユーザが発した音声を電気的な信号に変換し、RAM102等に一時的に保存する。集音装置105は、入力手段の一例である。発音装置106は、スピーカー等の音声出力デバイスであり、CPU101の制御下で、応答音や音声合成データを発音装置106から出力する。なお、集音装置105及び発音装置106は、音声指示処理装置10に内蔵される構成に限られず、有線通信又は無線通信で連携される構成でもよい。タッチパネル107は、入力デバイスと表示デバイスとの機能を兼ね備え、CPU101の制御下で、各種のUI(ユーザインタフェース)画面を表示するとともに、ユーザの操作内容をCPU101に提供する。CPU101は、処理結果をタッチパネル107に表示することも可能である。
【0014】
距離検出レーダー108は、赤外線、超音波等を照射して、その反射波が戻るまでの時間や照射角度により物体との距離を測定するデバイスである。近接センサ109は、音声指示処理装置10に接近している物体との距離を測定するデバイスである。距離検出レーダー108及び近接センサ109は、距離センサの一例であり、音声指示処理装置10を操作するユーザとの距離を測定可能である。距離検出レーダー108及び近接センサ109で測定された測定値は、RAM102等に一時的に保存される。なお、後述するカメラ110のオートフォーカス機能を、距離検出レーダー108として用いてもよい。カメラ110は、音声指示処理装置10を操作するユーザを撮像可能である。カメラ110は、撮像手段の一例である。カメラ110で撮像された動画は、記憶装置104等に一時的に保存される。なお、距離検出レーダー108、近接センサ109、及びカメラ110は、本実施形態では利用されず実施形態2~4で利用される。
【0015】
図2は、本実施形態に係る音声指示処理装置10の機能構成を示す図である。これらの各機能部は、ROM103等に記憶されたプログラムをRAM102に展開し、CPU101が実行することで実現される。
音声指示受信部201は、ユーザから音声での指示を受け付ける。具体的には、まず音声指示受信部201は、集音装置105が入力した音声信号をRAM102から読み出す。次に音声指示受信部201は、読み出した音声信号に対して音声認識処理を行い、音声認識結果(テキストデータ)を取得する。更に音声指示受信部201は、取得したテキストデータを解釈して指示情報を取得する。取得した指示情報は、処理部203に提供される。また本実施形態において、音声指示受信部201は、RAM102から読み出した音声信号から、音量に関する情報も取得する。取得された音量情報は、推定部202に提供される。
【0016】
推定部202は、ユーザ以外の者に聞かれたくない意図をもって発話されたか否かを推定する。本実施形態において、推定部202は、音声指示受信部201から提供された音量情報に基づいて推定する。具体的には、音量情報が所定の閾値以下である場合に、前記意図をもって発話されたと推定する。周囲に話のやり取りを聞かれたくない場合、声を小さくして発話することが自然だからである。なお推定部202が、推定に用いるデータは、入力された音声の音量情報に限られず、集音装置105で音声の入力が検知されたタイミングでのユーザの状態に関する様々なデータを用いることが可能である。推定部202の推定結果は、出力制御部205に提供される。
【0017】
処理部203は、音声指示受信部201から提供された指示情報に従った処理を実行する。処理部203の処理結果は、出力制御部205に提供される。
出力方法設定部204は、推定部202でユーザ以外の者に聞かれたくない意図をもって発話されたと推定された場合に、どのような方法で処理結果を出力するかを設定する。
図3は、出力する方法の設定画面を示す図である。
図3に示す設定画面には、出力方法を選択するための選択欄301が設けられる。
図3に示す例では、選択欄301としてのプルダウンリストから、「出力しない」、「音を出力せず、画面表示する」、「小音で出力する」等の複数の出力方法から選択することが可能である。なお、選択可能な出力方法は、ユーザ以外の者に聞かれにくい方法であれば、上記の出力方法に限られない。また、「小音で出力する」が選択された場合には、音量を調節するアイコン302が表示されてもよい。出力方法設定部204は、設定画面で設定された出力方法を記憶装置104に記憶する。
【0018】
出力制御部205は、処理部203の処理結果を出力するよう制御する。ここで出力制御部205は、推定部202の推定結果に応じて、処理結果の出力方法を異ならせる。具体的には、ユーザ以外の者に聞かれたくない意図をもって発話されたと推定された場合には、出力方法設定部204で設定された出力方法で処理結果を出力する。また、ユーザ以外の者に聞かれたくない意図をもたないで発話されたと推定された場合には、ユーザ以外の者に聞かれてもよい方法で処理結果を出力する。例えば、発音装置106から通常の音量で処理結果を表す音声合成データを出力する。
距離検知部206、読唇検知部207及び処理結果保存部208は、本実施形態では不要であるため、実施形態2以降で説明する。
【0019】
図4は、実施形態1に係る音声指示処理装置10により行われる音声指示処理を示すフローチャートである。以下の説明では、各工程(ステップ)について先頭にSを付けて表記することで、工程(ステップ)の表記を省略する。本フローチャートの処理は、ユーザがタッチパネル107の画面上に表示されるマイクボタン等の専用のアイコンをタッチするなどして、音声操作が開始された場合に開始する。
S401において、集音装置105でユーザの音声の入力が検知されると、CPU101は、入力された音声に基づき指示情報を取得する。
次にS402において、CPU101は、S401で音声を入力したユーザが、音声指示に対する応答を、ユーザ以外の者に聞かれたくない意図をもって発話したか否かを推定する。本実施形態では、CPU101は、入力された音声の音量が、所定の閾値以下であるか否かを判定する。閾値としては、デフォルトの値を用いてもよく、ユーザ毎に設定された設定値を用いてもよい。CPU101は、音量が所定の閾値以下であると判定した場合には、小さな声で指示を行ったとして、ユーザ以外の者に聞かれたくない意図をもって発話したと推定する。CPU101が前記意図をもって発話したと推定した場合には、S403へ進み、前記意図をもたないで発話したと推定した場合には、S405へ進む。
【0020】
S403において、CPU101は、S401で取得した指示情報に従った処理を実行する。ここで実行される処理としては、音声指示処理装置10に搭載されるアプリケーションの処理であり、例えば、指定の地域の天気を調べるや、指定の住所を調べる等の各種の処理が考えられる。
次にS404において、CPU101は、ユーザ以外の者に聞かれにくい所定の方法でS403の処理結果を出力する。本実施形態では、CPU101が、
図3に示す設定画面で設定された出力方法で処理結果を出力する。例えば、S403の処理結果を表す音声合成データを通常よりも小さい音量で、発音装置106から出力する。その後
図4に示す一連のフローチャートの処理が終了する。なお、
図3に示す設定画面で「出力しない」が設定されていた場合には、S404の処理はスキップされる。
S405において、CPU101は、S403と同様に処理を行い、S406において、CPU101は、ユーザ以外の者に聞かれてもよい方法でS403の処理結果を出力する。本実施形態では、S403の処理結果を表す音声合成データを通常の音量で、発音装置106から出力する。その後
図4に示す一連のフローチャートの処理が終了する。
【0021】
以上のように、本実施形態に係る音声指示処理装置10は、ユーザ以外の者に聞かれたくない意図をもって音声での指示が発話されたか否かを推定して、前記意図をもって発話されたと推定された場合には、ユーザ以外の者に聞かれにくい方法で応答を出力する。これにより、音声での指示に対する応答を出力する際にユーザのプライバシーを考慮することができる。また本実施形態では、ユーザが入力した音声の音量の大小を用いて、前記意図をもって発話されたか否かを推定する。これにより、ユーザの直感的な操作で出力方法を制御することが可能となり、ユーザビリティ性が高まる。
【0022】
本実施形態の第1の変形例として、音声指示処理装置10は、ユーザの音声の周波数に基づいて、推定を行ってもよい。周囲に話のやり取りを聞かれたくない場合、声を低くして発話することも予想されるためである。
【0023】
本実施形態の第2の変形例として、音声指示処理装置10は、ユーザの生体情報を検出可能な生体センサ(不図示)を備え、生体センサから取得された生体情報に基づいて、推定を行ってもよい。周囲に話のやり取りを聞かれたくない場合、緊張して汗をかくことなども予想されるためである。
【0024】
<実施形態2>
上述の実施形態1では、ユーザの音声の音量に基づいて、ユーザ以外の者に聞かれたくない意図をもって発話されたかの推定を行った。ここで、周囲に話のやり取りを聞かれたくない場合に、集音装置105に近づいて発話することも予想される。そこで、本実施形態では、ユーザと音声指示処理装置10との距離に基づいて、ユーザ以外の者に聞かれたくない意図をもって発話されたかの推定を行う場合について説明する。本実施形態に係る音声指示処理装置10の構成は、
図1及び
図2に示した実施形態1のハードウェア構成及び機能構成と同様であるため再度の説明を省略する。以下、実施形態1との相違点を中心に説明する。
【0025】
本実施形態では、
図2に示す距離検知部206の機能が追加で用いられる。距離検知部206は、距離検出レーダー108又は近接センサ109で測定された測定値を用いて、ユーザまでの距離を測定する。推定部202は、測定された距離に基づいて、ユーザ以外の者に聞かれたくない意図をもって発話されたかの推定を行う。具体的には、推定部202は、測定された距離が所定の閾値以下である場合に、前記意図をもって発話されたと推定する。
【0026】
図5は、実施形態2に係る音声指示処理装置10により行われる音声指示処理を示すフローチャートである。以下、
図4との相違点についてのみ説明する。
図5に示すフローチャートは、S401とS402の間にS501が実行される点、S402に代えてS502が実行される点で
図4とは異なる。
S501において、CPU101は、距離検出レーダー108又は近接センサ109で測定された測定値から、集音装置105で音声の入力が検知されたタイミングでの、ユーザと音声指示処理装置10との距離を取得する。
次にS502において、CPU101が、S501で取得された距離が、所定の閾値以下であるか否かを判定する。CPU101は、S501で取得された距離が所定の閾値以下であると判定した場合に、近い距離から音声指示を行ったとして、ユーザ以外の者に聞かれたくない意図をもって発話したと推定する。CPU101が前記意図をもって発話したと推定した場合には、S403へ進み、前記意図をもたないで発話したと推定した場合には、S405へ進む。
【0027】
以上のように、本実施形態に係る音声指示処理装置10は、ユーザ以外の者に聞かれたくない意図をもって音声での指示が発話されたか否かを推定して、前記意図をもって発話されたと推定された場合には、ユーザ以外の者に聞かれにくい方法で応答を出力する。これにより、音声での指示に対する応答を出力する際にユーザのプライバシーを考慮することができる。また本実施形態では、音声指示処理装置10に対して音声が入力された際のユーザと装置との距離を用いて、ユーザ以外の者に聞かれたくない意図をもって発話されたか否かを推定する。これにより、ユーザの直感的な操作で、指示に対する処理結果を出力する方法を制御することが可能となり、ユーザビリティ性が高まる。
【0028】
<実施形態3>
上述の実施形態1では、音声指示の音量に基づいて、ユーザ以外の者に聞かれたくない意図をもって発話されたかの推定を行った。本実施形態では、ユーザの口の動きの有無、及び入力音声の有無に基づいて、ユーザ以外の者に聞かれたくない意図をもって発話されたかの推定を行う場合について説明する。本実施形態に係る音声指示処理装置10の構成は、
図1及び
図2に示した実施形態1のハードウェア構成及び機能構成と同様であるため再度の説明を省略する。以下、実施形態1との相違点を中心に説明する。
【0029】
本実施形態では、
図2に示す読唇検知部207の機能が追加で用いられる。読唇検知部207は、カメラ110の撮像結果を用いる。具体的には、読唇検知部207は、カメラ110の撮像結果としての動画から、ユーザの口唇領域を切り出し、切り出した口唇領域の画像群から口の動きを検知して、検知した口の動きからユーザが発話しようとしている指示内容を読み取る。当該推定には、例えば機械学習の技術を用いてもよい。読み取られた指示内容は、処理部203に提供される。
【0030】
推定部202は、読唇検知部207で指示内容が読み取れたか否か、集音装置105で音声信号が検知されたか否かに基づき、ユーザ以外の者に聞かれたくない意図をもって発話されたかの推定を行う。具体的には、推定部202は、指示内容は読み取れたが、音声信号が検知されなかった場合に、前記意図をもって発話されたと推定する。周囲に話のやり取りを聞かれたくない場合には、口パクやささやき声で発話することが予想されるためである。
【0031】
図6は、実施形態3に係る音声指示処理装置10により行われる音声指示処理を示すフローチャートである。本フローチャートの処理は、ユーザがタッチパネル107の画面上に表示されるマイクボタン等の専用のアイコンをタッチするなどして、音声操作が開始された場合に開始する。
音声操作が開始されると、S601において、CPU101は、カメラ110で撮像された動画を用いて、口の動きが検知されたか否かを判定する。検知を継続している間も、S602以降の処理が並行して実行される。CPU101が口の動きが検知されたと判定した場合には、S602へ進み、口の動きが検知されなかったと判定した場合には、S606へ進む。
S602において、CPU101は、集音装置105で音声信号を検知したか否かを判定する。CPU101が音声信号を検知したと判定した場合には、S607へ進む。一方で、CPU101が音声信号を検知しなかったと判定した場合には、口パクやささやき声で音声指示が行なわれたとして、ユーザ以外の者に聞かれたくない意図をもって発話したと推定し、S603へ進む。
【0032】
S603において、CPU101は、S601で検知した口の動きから指示内容を読み取る。次にS604において、CPU101は、S603で読み取られた指示内容に従った処理を実行する。次にS605において、
図4のS404と同様の処理を行う。その後
図6に示す一連のフローチャートの処理が終了する。
S606において、CPU101は、集音装置105で音声信号を検知したか否かを判定する。CPU101が音声信号を検知したと判定した場合には、S607へ進み、音声信号を検知しなかったと判定した場合には、音声指示が検知されなかったとして、
図6に示す一連のフローチャートの処理が終了する。
S607において、CPU101は、S602又はS606で検知された音声信号に基づき指示情報を取得して、取得した指示情報に従った処理を実行する。次にS608において、
図4のS406と同様の処理を行う。その後
図6に示す一連のフローチャートの処理が終了する。
【0033】
以上のように、本実施形態に係る音声指示処理装置10は、ユーザ以外の者に聞かれたくない意図をもって音声での指示が発話されたか否かを推定して、前記意図をもって発話されたと推定された場合には、ユーザ以外の者に聞かれにくい方法で応答を出力する。これにより、音声での指示に対する応答を出力する際にユーザのプライバシーを考慮することができる。また本実施形態では、ユーザの口の動きから指示内容が読み取れたが、音声信号が検知されなかった場合、ユーザ以外の者に聞かれたくない意図をもって発話されたと推定する。これにより、ユーザの直感的な操作で、指示に対する処理結果を出力する方法を制御することが可能となり、ユーザビリティ性が高まる。
【0034】
<実施形態4>
本実施形態では、音声信号に対して音声認識処理を行って得られた音声認識結果(テキストデータ)に基づいて、ユーザ以外の者に聞かれたくない意図をもって発話されたかの推定を行う場合について説明する。本実施形態に係る音声指示処理装置10の構成は、
図1及び
図2に示した実施形態1のハードウェア構成及び機能構成と同様であるため再度の説明を省略する。以下、実施形態1との相違点を中心に説明する。
【0035】
本実施形態において、推定部202は、音声指示受信部201から提供された音声認識結果(テキストデータ)に基づいて、ユーザ以外の者に聞かれたくない意図をもって発話されたかを推定する。ユーザの音声指示に、プライバシー情報に関する所定のキーワードが含まれている場合には、指示に対する応答をユーザ以外の者に聞かれたくないことが予想される。キーワードは、「メール」や「〇〇さん」等である。キーワードは、記憶装置104に予め記憶されていてもよいし、ユーザにより設定可能であってもよい。推定部202は、テキストデータに所定のキーワードが含まれると判定した場合に、ユーザ以外の者に聞かれたくない意図をもって発話されたと推定する。なお推定部202は、テキストデータに対して構文解析や形態素解析をした解析結果に、氏名に該当するワードが含まれると判定した場合に、前記意図をもって発話されたと推定してもよい。
【0036】
図7は、実施形態4に係る音声指示処理装置10により行われる音声指示処理を示すフローチャートである。以下、
図4との相違点についてのみ説明する。
図7に示すフローチャートは、S402に代えてS701が実行される点で
図4とは異なる。
S701において、CPU101は、S401で入力された音声の音声認識結果にプライバシー情報に関する所定のキーワードが含まれるか否かを判定する。CPU101が所定のキーワードが含まれると判定した場合に、ユーザ以外の者に聞かれたくない意図をもって発話したと推定する。CPU101が前記意図をもって発話したと推定した場合には、S403へ進み、前記意図をもたないで発話したと推定した場合には、S405へ進む。
【0037】
以上のように、本実施形態に係る音声指示処理装置10は、ユーザ以外の者に聞かれたくない意図をもって音声での指示が発話されたか否かを推定して、前記意図をもって発話されたと推定された場合には、ユーザ以外の者に聞かれにくい方法で応答を出力する。これにより、音声での指示に対する応答を出力する際にユーザのプライバシーを考慮することができる。また本実施形態では、発話指示の内容を考慮して、ユーザ以外の者に聞かれたくない意図をもって発話されたかの推定を行う。これにより、ユーザのプライバシー情報が公開されるリスクを低減させることが可能となる。
【0038】
<実施形態5>
本実施形態では、指示内容及び処理結果の一時保存(キャッシュ)機能を追加した場合について説明する。通常のブラウザー等のアプリケーションは、検索内容や処理結果をキャッシュする仕組みを持つものが多い。これは同じ内容で再検索がなされたときに、キャッシュデータをユーザに提示することで処理速度の向上を図るためである。キャッシュデータは、ブラウザー等のアプリケーションが管理しているため、例えばユーザAがユーザBと同一装置のブラウザーを使用する場合、ユーザBのキャッシュデータがユーザAに見られてしまうおそれがある。そこで本実施形態では、ユーザ以外の者に聞かれたくない意図をもって発話されたと推定された場合には、処理結果等をキャッシュしないよう制御し、前記意図をもたないで発話されたと推定された場合には、処理結果等をキャッシュするよう制御する。本実施形態に係る音声指示処理装置10の構成は、
図1及び
図2に示した実施形態1のハードウェア構成及び機能構成と同様であるため再度の説明を省略する。以下、実施形態1との相違点を中心に説明する。
【0039】
本実施形態では、
図2に示す処理結果保存部208の機能が追加で用いられる。処理結果保存部208は、音声指示受信部201が受け付けた指示内容、及び処理部203が処理した処理結果を記憶装置104に保存し、同様の指示内容を再度受け付けた際に、保存しておいた処理結果を出力可能にする。
【0040】
図8は、実施形態5に係る音声指示処理装置10により行われる音声指示処理を示すフローチャートである。以下、
図4とは、S406の後でS801が追加されている点で相違する。S801において、CPU101は、S401で受信した指示内容、及びS405で処理した結果を記憶装置104に保存する。
【0041】
以上のように、本実施形態に係る音声指示処理装置10は、ユーザ以外の者に聞かれたくない意図をもって音声での指示が発話されたか否かを推定して、前記意図をもって発話されたと推定された場合には、ユーザ以外の者に聞かれにくい方法で応答を出力する。これにより、音声での指示に対する応答を出力する際にユーザのプライバシーを考慮することができる。また本実施形態では、ユーザ以外の者に聞かれたくない意図をもたないで発話されたと推定された場合に限り、キャッシュデータを保存することが可能となる。これにより、セキュリティ性を高くしつつ、パフォーマンスの向上を実現することができる。
【0042】
なお、上述の各実施形態では、推定する際に用いられたデータ(実施形態2ではユーザの音声の音量、実施形態3ではユーザと音声指示処理装置10との距離)が各実施形態でそれぞれ独立した基準で判定されていたが、複数組み合わせた基準で判定されてもよい。音声指示処理装置10は、例えば、「音量が小さく、且つ距離も近い」場合に、ユーザ以外の者に聞かれたくない意図をもって発話されたと推定してもよい。また、上記のようにANDの条件で判定する構成に限られず、ORの条件で判定する構成であってもよい。音声指示処理装置10は、例えば、「音量が小さい、又は距離が近い」場合に、ユーザ以外の者に聞かれたくない意図をもって発話されたと推定してもよい。
【0043】
また、上述の各実施形態の変形例として、ユーザごとに学習モデルを生成し、当該学習モデルを用いて推定を行ってもよい。この場合に、推定部202は、機械学習された学習モデルを用いて推定を行う。例えば、音声指示処理装置10が、SVM(サポートベクターマシン)アルゴリズム等の機械学習アルゴリズムに従った学習モデルに対して、入力データと教師データの複数の組を用いて機械学習を行うことで学習モデルを生成する。入力データとしては、発話した際のユーザの状態に関するデータ(例えば、ユーザの音声の音量、ユーザと装置との距離)を用いる。教師データとしては、ユーザが実際にユーザ以外の者に聞かれたくない意図をもって発話したかを示すスコア情報を用いる。これらのデータを用いて学習を行うことにより、発話した際のユーザの状態に関するデータから前記意図をもって発話されたか否かを推定する学習モデルを生成する。上記の機械学習アルゴリズムの具体例としては、SVMアルゴリズムの他に、最近傍法、ナイーブベイズ法、決定木等が挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習(ディープラーニング)も挙げられる。上記アルゴリズムのうち利用可能なものを適宜用いて本実施形態に適用することができる。
【0044】
推定部202は、学習モデルを用いる場合、集音装置105で音声の入力が検知されたタイミングでのユーザの状態に関するデータを学習モデルに入力して出力されたスコア情報を用いて、ユーザ以外の者に聞かれたくない意図をもって発話されたか否か推論する。例えば、出力されたスコア情報が所定の閾値以上であれば、前記意図をもって発話されたと推定し、出力されたスコア情報が所定の閾値未満であれば、前記意図をもたないで発話されたと推定する。
【0045】
以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0046】
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【符号の説明】
【0047】
10:音声指示処理装置、105:集音装置、106:発音装置