(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-20
(45)【発行日】2022-12-28
(54)【発明の名称】音声認識装置、音声認識方法
(51)【国際特許分類】
G10L 15/10 20060101AFI20221221BHJP
G10L 17/00 20130101ALI20221221BHJP
G10L 15/32 20130101ALI20221221BHJP
【FI】
G10L15/10 200W
G10L17/00 200C
G10L15/32 200Z
(21)【出願番号】P 2018075248
(22)【出願日】2018-04-10
【審査請求日】2021-03-24
(73)【特許権者】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】100147304
【氏名又は名称】井上 知哉
(74)【代理人】
【識別番号】100148493
【氏名又は名称】加藤 浩二
(72)【発明者】
【氏名】山崎 秀敏
【審査官】堀 洋介
(56)【参考文献】
【文献】国際公開第2014/103099(WO,A1)
【文献】特開2014-092777(JP,A)
【文献】米国特許出願公開第2014/0249817(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G10L 17/00-17/26
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
音声を入力する音声入力手段と、音声再生装置から音声データを入力する音声データ入力手段と、を具備した音声認識装置において、
前記音声入力手段から入力された音声の音声認識を行う第1の音声認識手段と、
前記音声データ入力手段から入力された音声データの音声認識を行う第2の音声認識手段と、
前記第1の音声認識手段で認識した音声の声紋を分析する声紋分析手段と、
前記第1の音声認識手段で認識した音声と
前記第2の音声認識手段で認識した音声の両方にウェイクワードが含まれている場合は、ウェイクワードが含まれていないと判定する特定語判定手段と、
を具備し、
前記特定語判定手段は、前記第1の音声認識手段で認識した音声と前記第2の音声認識手段で認識した音声の両方にウェイクワードが含まれている場合であっても、前記声紋分析手段で分析された音声が予め登録された声紋に一致する場合は、前記ウェイクワードが含まれていると判定する、
ことを特徴とする音声認識装置。
【請求項2】
音声を入力し、また、音声再生装置から音声データを入力する音声認識方法であって、
入力された音声の音声認識を行い、
入力された音声データの音声認識を行い、
前記音声認識された音声の声紋分析を行い、
前記音声認識された音声と音声データの両方にウェイクワードが含まれている場合は、ウェイクワードが含まれていないと判定し、
前記音声認識された音声と前記音声認識された音声データの両方にウェイクワードが含まれている場合であっても、前記声紋分析された音声が予め登録された声紋に一致する場合は、前記ウェイクワードが含まれていると判定することを特徴とする音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、音声認識方法に関わり、特に音声認識機能発動の誤動作を防止する音声認識装置、音声認識方法に関するものである。
【背景技術】
【0002】
音声アシスタント機能を有する機器が普及している。音声アシスタント機能とはマイクロフォンを備えた機器に対して音声で命令を発すると、ネットワークによって繋がれたAI(人工知能)でその命令を解読して、命令に沿った処理を実行するものである。ここで、命令に沿った処理とは、例えば、映像や音楽、或いは調べ物などの検索や、ネットワークに接続された他の機器の動作を制御することなどが代表的な処理である。
音声アシスタント機能は主にスマートフォンなどの携帯機器に搭載されている。このような音声アシスタント機能は、特定の言葉(以下、ウェイクワードという)を認識させることで起動する。
【先行技術文献】
【特許文献】
【0003】
特開2000-227799号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来、音声アシスタント機能は、スマートフォンなどの機能の一部として搭載されていた。しかし、近年、このような音声アシスタント機能を搭載したスピーカが登場している。
このようなスピーカは、一般に、AIスピーカ、またはスマートスピーカ等と呼ばれている。スマートスピーカはネットワークに接続されており、スマートスピーカに話しかけると、スマートスピーカに内蔵されているマイクロフォンから入力された音声をネットワーク上のAIで認識し、入力された音声に応答する動作を行う。例えば、音楽の検索を行い、音楽を再生する。または、その他の調べ物の検索結果等を音声で回答する。或いは、ネットワークに接続された機器の制御などを行う。
スマートスピーカにおける音声アシスタント機能の起動は、スマートフォンと同様に予め定められた特定の言葉(ウェイクワード)をスマートスピーカに向かって話しかけることにより行われる。
このようなスマートスピーカは、部屋に置かれ、周囲には各種の音或いは音声を発する機器が置かれていることが想定される。各種の音或いは音声を発する機器とは、例えば、テレビジョン受信機、ラジオ受信機、オーディオ機器などである。
このような使用シーンにおいて、例えば、テレビジョン受信機から出音されたテレビ番組或いはコマーシャルなどの音声にウェイクワードが含まれていたりすると、スマートスピーカのマイクロフォンがそのウェイクワードを拾ってしまい、音声アシスタント機能が起動してしまうという誤動作が起こる問題が有る。
【0005】
このようなことを防止する技術として特許文献1に上げた技術がある。
かかる技術は、例えば、マイクロフォンに向かって音声による命令を出す際に近くにテレビジョン受信機が有り、命令の音声とテレビ番組の音声が混合して入力されるような場合、テレビジョン受信機から直接音声情報を入力し、マイクロフォンに入力された音声からテレビ番組の音声をキャンセルする。これにより、音声認識の誤動作を防止するものである。
ここで、テレビジョン受信機から直接入力されたテレビ番組の音声とマイクロフォンから
入力されたテレビ番組の音声をキャンセルするには、双方の音声信号の位相や音量を合わせる必要が有る。そのため、特許文献1では位相や音量を合わせるための手段(雑音除去
部26)が設けられている。
【0006】
この位相や音量は正確に合わせる必要が有るが、位相や音量は、部屋のレイアウトの変更や機器の配置の変更等により容易に変化するものであり、位相や音量を正確に合わせるのは難しいという課題が有る。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明は以下のような構成を取る。
【0008】
即ち、本発明にかかる音声認識装置は、音声を入力する音声入力手段と、音声再生装置から音声データを入力する音声データ入力手段と、を具備し、前記音声入力手段から入力された音声の音声認識を行う第1の音声認識手段と、前記音声データ入力手段から入力された音声データの音声認識を行う第2の音声認識手段と、前記第1の音声認識手段で認識した音声と第2の音声認識手段で認識した音声の両方に予め定められた特定の言葉が含まれている場合は、予め定められた特定の言葉が含まれていないと判定する特定語判定手段と、を具備することを特徴とする。
【0009】
また、本発明にかかる音声認識装置は、音声を入力する音声入力手段を具備し、前記音声入力手段から入力された音声の音声認識を行う音声認識手段と、前記音声入力手段から入力された音声の声紋分析を行う声紋分析手段と、前記声紋分析手段で分析された音声が予め登録された声紋に一致しない場合は、前記音声認識手段で認識した音声を無音に置き換えるセレクタと、前記セレクタの出力に予め定められた特定の言葉が含まれているか否かを判定する特定語判定手段と、を具備するようにしても良い。
【発明の効果】
【0010】
本発明によれば、スマートスピーカの音声アシスタント機能が誤認識により起動することを防止することができる。
【図面の簡単な説明】
【0011】
【
図1】本発明にかかる音声認識装置と周辺機器の設置状態の概念図である。
【
図2】本発明の第1の実施形態にかかる音声認識装置のブロック図である。
【
図3】本発明の第2の実施形態にかかる音声認識装置のブロック図である。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、本発明の音声認識装置に係る好適な実施の形態について説明する。以下の説明において、異なる図面においても同じ符号を付した構成は同様のものであるとして、その説明を省略する場合がある。なお、本発明は、これらの実施形態での例示に限定されるものではなく、特許請求の範囲に記載された事項の範囲内および均等の範囲内におけるすべての変更を含む。
(第1の実施形態)
図1は、本発明にかかる音声認識装置の概念図である。
図1において、101は、スマートスピーカであり、102は、テレビジョン受信機である。
スマートスピーカ101およびテレビジョン受信機102は、それぞれネットワークに接続されている。また、図示しないが、テレビジョン受信機102は、スピーカから音声が出音される。加えて、スマートスピーカ101に対して、有線、または、無線でスピーカから出音されている音声の音声データを送信する。一方、スマートスピーカ101には、マイクロフォン(以下、マイクという)が内蔵されており、マイクに向かって話しかける
ことにより動作を開始する。
【0013】
図2は、本発明の音声認識装置にかかる第1の実施形態のブロック図である。
図2において、201は、テレビジョン受信機101の音声ソースである。具体的にはテレビ番組等の音声等である。202は、テレビジョン受信機101のスピーカであり、203は、送信手段であり、スマートスピーカ等に対して音声データを送信する。204は、スマートスピーカ101のマイクであり、205は第1の音声認識部である。また、206は受信手段であり、テレビジョン受信機101からの音声データを受信する。207は第2の音声認識部であり、208はウェイクワード判定部である。
【0014】
テレビジョン受信機102は、音声ソース201のテレビ番組等の音声等をスピーカ202から出音する。また、送信手段203からスマートスピーカ等の外部機器に対して音声データを送信する。送信手段としては、有線でも無線でも構わない。無線であればレイアウト変更などに対応しやすいメリットが有る。無線の方式としては、BLUETOOTH(登録商標)などが考えられる。一方、有線の場合は、混信などの影響が少ないというメリットが有る。
【0015】
一方、スマートスピーカ101は、テレビジョン受信機102のスピーカ202から出音されたテレビ番組等の音声をマイク204で入力する。また、テレビジョン受信機102の送信手段203から出力されたテレビ番組等の音声データを受信手段206で受信する。
マイク204で受信された音声は、第1の音声認識部205で音声認識される。また、受信手段206で入力された音声データは、第2の音声認識部207で音声認識される。第1の音声認識部205で認識された音声と第2の音声認識部207で認識された音声は、それぞれ、ウェイクワード判定部208に入力される。ウェイクワード判定部208では、第1の音声認識部205で認識された音声と第2の音声認識部207で認識された音声に共にウェイクワードが含まれていれば、そのウェイクワードを無視する、或いはキャンセルする。即ち、そのウェイクワードが含まれていないものとして処理する。
【0016】
これにより、ウェイクワード判定部208は、マイク204から入力された音声にウェイクワードが含まれており、また、ウェイクワードがテレビジョン受信機102から出力された音声データにも含まれていた場合、マイク204から入力されたウェイクワードは、テレビジョン受信機102のスピーカ202から出音されたウェイクワードであり、ユーザが音声アシスタント機能を起動させるために発したウェイクワードではないと判定して、誤って音声アシスタント機能が起動してしまうことを防止できる。
【0017】
本発明のように、音声認識を行うことにより、従来技術のような、音声信号の位相合わせや音量合わせなどの処理を行うことなく、マイクにテレビジョン受信機の音声などが混入した場合などにも、それを取り除いて(或いは無視して)処理をすることにより、誤動作を防止することができる。
(第2の実施形態)
図3は、本発明の音声認識装置にかかる第2の実施形態のブロック図である。
図3において、301は声紋分析部であり、302は無音信号出力部であり、303はセレクタである。
図3において、テレビジョン受信機102の音声ソース201から出力されたテレビ番組等の音声信号は、スピーカ202から出音される。
スマートスピーカ101は、スピーカ202から出音された音声をマイク204で入力する。マイク204で入力されたテレビ番組等の音声は音声認識部205および声紋分析部301に入力される。音声認識部205では、入力された音声が認識され、セレクタ303に出力される。
セレクタ303には無音信号出力部302の信号も入力される。セレクタ303は、音声認識部205から入力された信号と、無音信号出力部302から入力された信号を切り換えて出力する。
【0018】
声紋分析部301には、予めユーザの声紋を登録しておく。声紋は各人異なるため声紋を登録しておくことで登録者を認識することができる。尚、声紋分析の方法は、各種の方法が知られており、どのような方法を用いても良い。また、登録しておく声紋は、一人でも良いし、複数人でも良い。家庭内でスマートスピーカを使用する場合は、有る程度使用する人を特定することができる(例えば、家族、親戚、友人等)ので、その人たちの声紋を登録しておいても良い。
声紋分析部301では、マイク204から入力された音声が予め登録された人の音声か否かを判定する。その判定結果によって、セレクタ303の制御をおこなう。
即ち、マイク204から入力された音声が予め登録された人の音声でないと判定した場合は、セレクタ303の出力を無音信号出力部302からの信号に切換え、マイク204から入力された音声が予め登録された人の音声であると判定した場合は、セレクタ303の出力を音声認識部205からの信号に切換える。
かかる構成により、予め登録された人の音声以外の音声は、無音に置き換えられることになる。例えば、テレビジョン受信機102のスピーカ202から出音されたテレビ番組等の音声は無音に置き換えられる。これにより、予め声紋分析部301に登録しておいたユーザの音声だけがセレクタ303から出力される。
【0019】
セレクタ303から出力された音声信号は、ウェイクワード判定部208に入力される。ウェイクワード判定部208ではセレクタ303から入力された音声信号にウェイクワードが含まれているか否かを判定する。ウェイクワードが含まれていれば、音声アシスタント機能を起動する。
(第3の実施形態)
第1の実施形態では、声紋分析は行っていないが、第1の実施形態で声紋分析を加えても良い。
例えば、第1の音声認識部205で音声認識に加え、声紋分析もするようにしても良い。このような構成にした場合、例えば、テレビジョン受信機102のスピーカ202から出音されたテレビ番組などの音声にウェイクワードが含まれ、また、同時に、ユーザがウェイクワードを発した場合にも誤動作を防止できる。
例えば、スマートスピーカ101のマイク204は、テレビジョン受信機102のスピーカ202から出音されたテレビ番組などの音声のウェイクワードは拾わなかったが、同時に発せられたユーザのウェイクワードは拾うことが考えられる。
【0020】
このような場合、第1の音声認識部205、第2の音声認識部207の両方でウェイクワードが認識されるため第1の実施形態では、そのウェイクワードは無視されることになる。しかし、第1の音声認識部205で認識されたウェイクワードはユーザの発したウェイクワードなので、無視することは誤動作になる。第1の音声認識部205で音声認識に加え、声紋分析もすれば、第1の音声認識部205で認識されたウェイクワードはユーザの発したウェイクワードであることが判定できる。従って、その場合は、第1の音声認識部205、第2の音声認識部207の両方にウェイクワードが認識されてもウェイクワードを無視せずに音声アシスタント機能を起動すれば、誤動作を防止することができる。
【符号の説明】
【0021】
101:スマートスピーカ、102:テレビジョン受信機、201:音声ソース、202:スピーカ、203:送信手段、204:マイク、205:第1の音声認識部、206:受信手段、207:第2の音声認識部、208:ウェイクワード判定部、301:声紋分析部、302:無音信号発生部、308:セレクタ