(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-27
(45)【発行日】2024-01-11
(54)【発明の名称】音声入力方法、プログラム及び音声入力装置
(51)【国際特許分類】
H04R 3/00 20060101AFI20231228BHJP
【FI】
H04R3/00 320
(21)【出願番号】P 2020006980
(22)【出願日】2020-01-20
【審査請求日】2022-10-27
(32)【優先日】2019-03-27
(33)【優先権主張国・地域又は機関】US
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、総務省、多言語音声翻訳技術の研究開発に係る委託業務、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000005821
【氏名又は名称】パナソニックホールディングス株式会社
(74)【代理人】
【識別番号】100109210
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】野村 和也
(72)【発明者】
【氏名】古川 博基
(72)【発明者】
【氏名】金森 丈郎
(72)【発明者】
【氏名】杠 慎一
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2009-164747(JP,A)
【文献】国際公開第2018/217194(WO,A1)
【文献】特表2020-522733(JP,A)
【文献】特開2002-111801(JP,A)
【文献】特開2010-81495(JP,A)
【文献】特開平7-240989(JP,A)
【文献】特開2010-206451(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 1/10,3/00
G10L 15/00
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
ユーザの顔と、少なくとも1つのマイクを備える音声入力装置とが近接しているか否かを検知する検知ステップと、
前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正ステップと、を含
み、
前記少なくとも1つのマイクは、少なくとも2つのマイクであり、
前記音声信号は、前記少なくとも2つのマイクで収音された単一指向性を有する音声信号であり、
前記補正処理は、単一指向性を無指向性に変換する処理を含む、
音声入力方法。
【請求項2】
前記補正処理は、ゲインを下げる処理を含む、
請求項
1に記載の音声入力方法。
【請求項3】
前記補正処理は、所定の周波数以下の成分のゲインを下げる処理を含む、
請求項1
又は2に記載の音声入力方法。
【請求項4】
前記音声入力装置は、3軸加速度センサを備え、
前記検知ステップでは、前記3軸加速度センサの出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項1~
3のいずれか1項に記載の音声入力方法。
【請求項5】
前記音声入力装置は、カメラを備え、
前記検知ステップでは、前記カメラでの撮影により取得される画像に含まれる前記ユーザの顔の大きさの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項1~
4のいずれか1項に記載の音声入力方法。
【請求項6】
前記検知ステップでは、収音された前記音声信号のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項1~
5のいずれか1項に記載の音声入力方法。
【請求項7】
前記検知ステップでは、第1期間において収音された前記音声信号のゲインの平均値に対する、前記第1期間の後の第2期間において収音された前記音声信号のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項
6に記載の音声入力方法。
【請求項8】
前記検知ステップでは、収音された前記音声信号の所定の周波数以下の成分のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項1~
7のいずれか1項に記載の音声入力方法。
【請求項9】
前記検知ステップでは、第3期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値に対する、前記第3期間の後の第4期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知する、
請求項
8に記載の音声入力方法。
【請求項10】
請求項1~
9のいずれか1項に記載の音声入力方法をコンピュータに実行させるためのプログラム。
【請求項11】
少なくとも1つのマイクを備える音声入力装置であって、
ユーザの顔と、前記音声入力装置とが近接しているか否かを検知する検知部と、
前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正部と、を備
え、
前記少なくとも1つのマイクは、少なくとも2つのマイクであり、
前記音声信号は、前記少なくとも2つのマイクで収音された単一指向性を有する音声信号であり、
前記補正処理は、単一指向性を無指向性に変換する処理を含む、
音声入力装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声入力方法、プログラム及び音声入力装置に関する。
【背景技術】
【0002】
従来、話者の音声を収音する収音装置において、雑音の影響を少なくしつつ収音することのできる技術が開示されている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年街中等で、収音装置(ここでは、音声入力装置と呼ぶ)で収音されたユーザの音声を翻訳し、翻訳結果を音声入力装置が備えるディスプレイに表示したり、音声入力装置が備えるマイクから出力したりして相手とコミュニケーションを図るということがなされている。しかしながら、周囲の騒音等によって音声認識が正しくなされず、ユーザは音声入力装置を顔(具体的には口)に近づけて再度音声を発し、再度音声認識を行わせることがある。このとき、ユーザの顔と音声入力装置とが近接していることで、音声認識性能が低下するという問題がある。
【0005】
そこで、本開示は、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる音声入力方法等を提供する。
【課題を解決するための手段】
【0006】
本開示に係る音声入力方法は、ユーザの顔と、少なくとも1つのマイクを備える音声入力装置とが近接しているか否かを検知する検知ステップと、前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正ステップと、を含む。
【0007】
なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
【発明の効果】
【0008】
本開示の一態様に係る音声入力方法等によれば、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる。
【図面の簡単な説明】
【0009】
【
図1】ユーザの顔と音声入力装置とが近接していることで音声認識性能が低下することを説明するための図である。
【
図2】実施の形態に係る音声入力装置の構成の一例を示すブロック図である。
【
図3】実施の形態に係る音声入力方法の一例を示すフローチャートである。
【
図4A】実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置にかかる力を説明するための図である。
【
図4B】実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置が備える3軸加速度センサの出力信号の一例を示す図である。
【
図5A】実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置が備えるカメラの位置及び向きの変化を説明するための図である。
【
図5B】実施の形態に係る音声入力装置をユーザの顔に近づけたときの、音声入力装置が備えるカメラの撮影により取得される画像に写るユーザの顔の大きさの変化を示す図である。
【発明を実施するための形態】
【0010】
(本開示の一態様を得るに至った経緯)
まず、本開示の一態様を得るに至った経緯について、
図1を用いて説明する。
【0011】
図1は、ユーザ200の顔と音声入力装置100とが近接していることで音声認識性能が低下することを説明するための図である。
【0012】
例えば、ユーザ200が自身の使用する言語の通じない相手とコミュニケーションを図る場合に、音声入力装置100が用いられる。通常、ユーザ200は、ユーザ200の胸の前あたりで音声入力装置100を持って翻訳したい音声を発する。これにより、音声入力装置100は当該音声を収音し、例えばサーバ装置で音声認識がなされ、所望の言語に翻訳がなされる。
【0013】
しかし、街中等では周囲の騒音等によって音声認識が正しくなされず、
図1に示されるようにユーザ200は音声入力装置100をユーザ200の顔に近づけて再度音声を発し、再度音声認識を行うことがある。このように、ユーザ200の顔と音声入力装置100とが近接している場合、以下のような問題が生じる。なお、ユーザ200がユーザ200の顔を音声入力装置100に近づけることで、ユーザ200の顔と音声入力装置100とが近接する場合もある。
【0014】
例えば、音声入力装置100は、少なくとも2つのマイクを備えている場合があり、当該少なくとも2つのマイクで収音される音声信号は、単一指向性を有する音声信号となっている場合がある。つまり、音声入力装置100は、特定の方向の収音感度が高くなっている場合があり、言い換えると、特定の方向以外の収音感度が低くなっている場合がある。例えば、当該単一指向性は、音声入力装置100がユーザ200の胸の前あたりに位置する場合に、ユーザ200の顔への方向の収音感度が高くなるような指向性である。このように、収音される音声信号が単一指向性を有する音声信号である場合に、ユーザ200の顔と音声入力装置100とが近接していることで、ユーザ200の口が収音感度の高い方向からずれてしまい、正常に音声認識がされない場合がある。
【0015】
また、例えば、ユーザ200の顔と音声入力装置100とが近接している場合、音声入力装置100が備えるマイクで収音される音声の入力信号レベルが上昇し、場合によっては飽和する場合があり、正常に音声認識がされない場合がある。
【0016】
また、例えば、ユーザ200の顔と音声入力装置100とが近接している場合、近接効果により、音声入力装置100が備えるマイクで収音される音声の低音域が強調されて、正常に音声認識がされない場合がある。
【0017】
そこで、本開示の一態様に係る音声入力方法は、ユーザの顔と、少なくとも1つのマイクを備える音声入力装置とが近接しているか否かを検知する検知ステップと、前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正ステップと、を含む。
【0018】
これによれば、ユーザの顔と音声入力装置とが近接しているか否かの検知が行われるため、ユーザの顔と音声入力装置とが近接していると検知された場合に、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制するような補正処理を行うことができる。したがって、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる。音声認識性能の低下が抑制されることで、例えば、収音された音声を正しく翻訳することが可能になる。
【0019】
また、前記少なくとも1つのマイクは、少なくとも2つのマイクであり、前記音声信号は、前記少なくとも2つのマイクで収音された単一指向性を有する音声信号であり、前記補正処理は、単一指向性を無指向性に変換する処理を含んでいてもよい。
【0020】
ユーザの顔と音声入力装置とが近接している場合、収音された音声信号が無指向性であっても収音感度は十分なレベルとなりやすい。したがって、ユーザの顔と音声入力装置とが近接している場合に、単一指向性を無指向性に変換する処理が行われることで、マイクからのユーザの顔の方向によらず、音声認識性能の低下を抑制できる。
【0021】
また、前記補正処理は、ゲインを下げる処理を含んでいてもよい。
【0022】
これによれば、ゲインを下げる処理が行われることで、ユーザの顔と音声入力装置とが近接している場合に、音声入力装置100が備えるマイクで収音される音声の入力信号レベルが飽和することが抑制され、音声認識性能の低下を抑制できる。
【0023】
また、前記補正処理は、所定の周波数以下の成分のゲインを下げる処理を含んでいてもよい。
【0024】
これによれば、所定の周波数以下の成分(例えば低音域の成分)のゲインを下げる処理が行われることで、ユーザの顔と音声入力装置とが近接している場合に、近接効果による低音域の強調が抑制され、音声認識性能の低下を抑制できる。
【0025】
また、前記音声入力装置は、3軸加速度センサを備え、前記検知ステップでは、前記3軸加速度センサの出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
【0026】
これによれば、音声入力装置が備える3軸加速度センサによって、音声入力装置の動きを認識することができる。特に、音声入力装置をユーザの顔に近づける際の3軸加速度センサの出力の時間変化のパターンを予め計測しておくことで、当該パターンに類似するパターンが3軸加速度センサから出力されたときに、ユーザの顔と音声入力装置とが近接していることを検知できる。
【0027】
また、前記音声入力装置は、カメラを備え、前記検知ステップでは、前記カメラでの撮影により取得される画像に含まれる前記ユーザの顔の大きさの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
【0028】
ユーザの顔と音声入力装置とが近接しているときには、近接していないときよりもカメラでの撮影により取得される画像に含まれるユーザの顔の大きさは大きくなる。したがって、当該画像に含まれるユーザの顔の大きさが大きくなったときに、ユーザの顔と音声入力装置とが近接していることを検知できる。
【0029】
また、前記検知ステップでは、収音された前記音声信号のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
【0030】
ユーザの顔と音声入力装置とが近接しているときには、収音される音声信号のゲインが大きくなり得る。したがって、収音される音声信号のゲインが大きくなったときに、ユーザの顔と音声入力装置とが近接していることを検知できる。
【0031】
また、前記検知ステップでは、第1期間において収音された前記音声信号のゲインの平均値に対する、前記第1期間の後の第2期間において収音された前記音声信号のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
【0032】
ユーザの顔と音声入力装置とが近接していないときであっても、収音される音声信号のゲインが瞬間的に大きくなることがある。そこで、一定の期間において収音された音声信号のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置とが近接しているか否かを検知することで、正確な検知が可能となる。
【0033】
また、前記検知ステップでは、収音された前記音声信号の所定の周波数以下の成分のゲインの変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
【0034】
ユーザの顔と音声入力装置とが近接しているときには、収音される音声信号の所定の周波数以下の成分(例えば低音域の成分)のゲインが近接効果により大きくなり得る。したがって、収音される音声信号の所定の周波数以下の成分のゲインが大きくなったときに、ユーザの顔と音声入力装置とが近接していることを検知できる。
【0035】
また、前記検知ステップでは、第3期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値に対する、前記第3期間の後の第4期間において収音された前記音声信号の前記所定の周波数以下の成分のゲインの平均値の変化に応じて、前記ユーザの顔と前記音声入力装置とが近接しているか否かを検知してもよい。
【0036】
ユーザの顔と音声入力装置とが近接していないときであっても、収音される音声信号の所定の周波数以下の成分のゲインが瞬間的に大きくなることがある。そこで、一定の期間において収音された音声信号の所定の周波数以下の成分のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置とが近接しているか否かを検知することで、正確な検知が可能となる。
【0037】
また、本開示の一態様に係るプログラムは、上記の音声入力方法をコンピュータに実行させるためのプログラムである。
【0038】
また、本開示の一態様に係る音声入力装置は、少なくとも1つのマイクを備える音声入力装置であって、ユーザの顔と、前記音声入力装置とが近接しているか否かを検知する検知部と、前記ユーザの顔と前記音声入力装置とが近接していると検知された場合に、前記少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正部と、を備える。
【0039】
これによれば、ユーザの顔と音声入力装置とが近接していることにより生じる音声認識性能の低下を抑制できる音声入力装置を提供できる。
【0040】
以下、実施の形態について、図面を参照しながら具体的に説明する。
【0041】
なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。
【0042】
(実施の形態)
以下、
図2から
図5Bを用いて実施の形態について説明する。
【0043】
図2は、実施の形態に係る音声入力装置100の構成の一例を示すブロック図である。
【0044】
音声入力装置100は、ユーザが発した音声を音声認識し例えば翻訳するために、ユーザが発した音声が入力される装置である。例えば、入力された音声を示す音声信号は音声入力装置100と通信可能なサーバ装置へ送信され、サーバ装置において音声認識及び翻訳がされ、翻訳された音声を示す情報が音声入力装置100へ送信される。音声入力装置100は、翻訳された音声を音声入力装置100が備えるスピーカから出力したり、翻訳された音声のテキストを音声入力装置100が備えるディスプレイで表示したりする。音声入力装置100は、例えば、スマートフォン、タブレット端末又は翻訳を行うための専用の翻訳機等である。
【0045】
音声入力装置100は、少なくとも1つのマイク、検知部20、3軸加速度センサ30、比較部31、パターンデータ32、カメラ40、顔検出部41、顔大きさ測定部42、ADC(Analog to Digital Converter)50及び補正部60を備える。
【0046】
例えば、少なくとも1つのマイクは少なくとも2つのマイクであり、ここでは、音声入力装置100は、2つのマイク10を備える。ユーザが発した音声は、時間差をもって各マイク10に到達するため、各マイク10の位置関係及び各マイク10に到達する音声の時間差を利用することで、収音された音声信号を、単一指向性を有する音声信号とすることができる。
【0047】
検知部20は、ユーザの顔と音声入力装置100とが近接しているか否かを検知する。検知部20の詳細については後述する。
【0048】
3軸加速度センサ30は、互いに直交する3方向についての加速度を検出するセンサである。後述する
図4Aに示されるように、音声入力装置100がスマートフォン等のように板形状を有している場合、3軸加速度センサ30は、板形状の平面における横方向(x軸方向)の加速度、縦方向(y軸方向)の加速度、及び、板形状の平面に対して垂直な方向(z軸方向)の加速度を検出する。
【0049】
パターンデータ32は、音声入力装置100をユーザの顔に近づける際の3軸加速度センサの出力の時間変化のパターンのデータであって、予め計測されたパターンのデータである。パターンデータ32の詳細については後述する。
【0050】
比較部31は、3軸加速度センサ30の出力の時間変化のパターンと、予め計測されたパターンとを比較する。具体的には、3軸加速度センサ30の出力の時間変化のパターンと、予め計測されたパターンとが類似しているか否かを判定する。
【0051】
カメラ40は、撮影により画像を取得する装置である。カメラ40は、例えば、ユーザが音声入力装置100を手に持って音声入力装置100を見るときに、カメラ40が撮影により取得する画像にユーザの顔が写るような位置に設けられる。例えば、音声入力装置100がスマートフォン等である場合、カメラ40は、音声入力装置100が備えるディスプレイの隣に設けられ、音声入力装置100を手に持つユーザ自身を撮影するためのカメラである。
【0052】
顔検出部41は、カメラ40が撮影により取得する画像に写るユーザの顔を検出する。画像に写るユーザの顔を検出する方法は特に限定されず、一般的に用いられる顔検出技術が用いられてもよい。
【0053】
顔大きさ測定部42は、カメラ40が撮影により取得する画像に写るユーザの顔の大きさを測定する。
【0054】
ADC50は、アナログ信号をデジタル信号に変換する回路であり、ここでは、音声入力装置100は、2つのマイク10に対応して2つのADC50を備える。ADC50は、マイク10で収音されたアナログ音声信号をデジタル音声信号に変換する。なお、後述するように、ADC50は、増幅回路61で増幅されたアナログ音声信号をデジタル音声信号に変換する。
【0055】
補正部60は、増幅回路61、指向性合成部62及び近接効果補正部63を備える。補正部60(増幅回路61、指向性合成部62及び近接効果補正部63)の詳細については後述する。
【0056】
音声入力装置100は、プロセッサ(マイクロプロセッサ)、ユーザインタフェース、通信インタフェース(図示しない通信回路等)及びメモリ等を含むコンピュータである。ユーザインタフェースは、例えば、LCD(Liquid Crystal Display)等のディスプレイ、又は、キーボード、タッチパネル等の入力装置を含む。メモリは、ROM(Read Only Memory)、RAM(Random Access Memory)等であり、プロセッサにより実行されるプログラムを記憶することができる。なお、音声入力装置100は、1つのメモリを有していてもよく、また、複数のメモリを有していてもよい。1つ又は複数のメモリには、パターンデータ32が記憶される。プロセッサがプログラムに従って動作することにより、検知部20、比較部31、顔検出部41、顔大きさ測定部42及び補正部60の動作が実現される。
【0057】
検知部20及び補正部60の動作の詳細について、
図3を用いて説明する。
【0058】
図3は、実施の形態に係る音声入力方法の一例を示すフローチャートである。
【0059】
音声入力方法は、ユーザの顔と音声入力装置100とが近接しているか否かを検知する検知ステップ(ステップS11)と、ユーザの顔と音声入力装置100とが近接していると検知された場合に、少なくとも1つのマイクで収音された音声信号に対して補正処理を行う補正ステップ(ステップS12)と、を含む。
【0060】
例えば、実施の形態にかかる音声入力方法は、音声入力装置100によって実行される方法である。つまり、
図3は、検知部20及び補正部60の動作を示すフローチャートでもあり、検知ステップは検知部20に対応し、補正ステップは補正部60に対応する。
【0061】
検知部20は、ユーザの顔と音声入力装置100とが近接しているか否かを判定する(ステップS11)。
【0062】
例えば、検知部20は、3軸加速度センサ30の出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知する。これについて、
図4A及び
図4Bを用いて説明する。
【0063】
図4Aは、実施の形態に係る音声入力装置100をユーザの顔に近づけたときの、音声入力装置100にかかる力を説明するための図である。
図4Bは、実施の形態に係る音声入力装置100をユーザの顔に近づけたときの、音声入力装置100が備える3軸加速度センサ30の出力信号の一例を示す図である。
【0064】
図4Aに示されるように、音声入力装置100をユーザの顔に近づける動作は、例えば、ユーザの手で握られてユーザの胸の前周辺にある音声入力装置100を、ユーザの顔の口周辺に移動させる動作である。音声入力装置100をユーザの顔に近づける動作は、言い換えると、略水平方向に倒れている音声入力装置100をユーザの顔に向けて起こすような動作である。音声入力装置100がユーザの胸の前周辺で略水平方向に倒れている状態を状態1と呼び、音声入力装置100がユーザの顔(具体的には口)周辺で水平方向から45°~90°程度起き上った状態を状態2と呼ぶ。
【0065】
音声入力装置100が、状態1から状態2に移動させられる場合、3軸加速度センサ30は
図4Bに示されるような信号を出力する。なお、上述したように、音声入力装置100がスマートフォン等のように板形状を有している場合、板形状の平面における横方向をx軸方向、縦方向をy軸方向、板形状の平面に対して垂直な方向をz軸方向とし、3軸加速度センサ30は、x軸方向、y軸方向及びz軸方向の3軸の加速度を検出する。
【0066】
状態1では、音声入力装置100のz軸方向に重力がかかり、x軸方向及びy軸方向にはほぼ力がかからない。したがって、3軸加速度センサ30は、z軸方向について重力加速度gに応じた信号を出力し、x軸方向及びy軸方向については出力はほぼ0となる。ただし、
図4Bに示されるように、状態1においてx軸方向、y軸方向及びz軸方向の出力が全てほぼ0となるように、z軸方向には重力加速度を打ち消す程度のバイアスがかけられている。
【0067】
そして、
図4Aに示されるように、音声入力装置100をユーザの顔に近づける動作がされると、
図4Bに示されるように、x軸方向には手ぶれ程度の力がかかり、y軸方向には重力がかかっていき、z軸方向には音声入力装置100を起こす力がかかり、そして、音声入力装置100は状態2となる。
【0068】
このように、音声入力装置100をユーザの顔に近づける動作がされる場合、3軸加速度センサ30の出力の時間変化のパターンは、
図4Bに示すようなものとなる。したがって、予め計測されたパターンとして、
図4Bに示すようなパターンをパターンデータ32として事前に記憶しておけば、以後、3軸加速度センサ30の出力の時間変化のパターンとして
図4Bに示すようなパターンと類似するパターンが計測されたときに、音声入力装置100をユーザの顔に近づける動作がされたと判定することができる。
【0069】
なお、ユーザによって音声入力装置100を顔に近づける動作に違いがあると考えられるため、顔に近づける動作についての様々なパターンを予め計測しておき、様々なパターンデータ32が記憶されていてもよい。
【0070】
このようにして、検知部20は、3軸加速度センサ30の出力の時間変化のパターンと、予め計測されたパターンとが類似している場合に、ユーザの顔と音声入力装置100とが近接していることを検知できる。
【0071】
また、例えば、検知部20は、カメラ40での撮影により取得される画像に含まれるユーザの顔の大きさの変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知する。これについて、
図5A及び
図5Bを用いて説明する。
【0072】
図5Aは、実施の形態に係る音声入力装置100をユーザの顔に近づけたときの、音声入力装置100が備えるカメラ40の位置及び向きの変化を説明するための図である。
図5Bは、実施の形態に係る音声入力装置100をユーザの顔に近づけたときの、音声入力装置100が備えるカメラ40の撮影により取得される画像に写るユーザの顔の大きさの変化を示す図である。
【0073】
図5Aに示されるように、音声入力装置100が状態1の場合、カメラ40はユーザの胸の前周辺で上(例えば鉛直上方)に向いている。また、音声入力装置100が状態2の場合、カメラ40は、ユーザの口周辺でユーザの方に向いている。状態1では、
図5Bの左側の破線枠で示されるように画像に写るユーザの顔は小さく、また、上下方向に圧縮される。状態1では、カメラ40の位置が状態2よりもユーザから遠くなっており、また、ユーザの顔がカメラ40で撮影可能な範囲の端に位置するためである。一方で、状態2では、
図5Bの右側の破線枠で示されるように画像に写るユーザの顔は大きい。
【0074】
このようにして、検知部20は、カメラ40での撮影により取得される画像に含まれるユーザの顔の大きさが大きくなった場合に、ユーザの顔と音声入力装置100とが近接していることを検知できる。
【0075】
なお、検知部20は、収音された音声信号のゲインの変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。ユーザの顔と音声入力装置100とが近接している場合には、近接していない場合よりも音声信号のゲインが大きくなり得るためである。例えば、検知部20は、収音された音声信号のゲインが所定値(例えば10dB等)以上大きくなった場合に、ユーザの顔と音声入力装置100とが近接していると検知する。ただし、ユーザの顔と音声入力装置100とが近接していないときであっても、ユーザの声の出し方等によっては収音される音声信号のゲインが瞬間的に大きくなることがある。
【0076】
そこで、検知部20は、第1期間(例えば3秒等)において収音された音声信号のゲインの平均値に対する、第1期間の後の第2期間(例えば3秒等)において収音された音声信号のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。例えば、検知部20は、収音された音声信号のゲインの時間平均が所定値(例えば10dB等)以上大きくなった場合に、ユーザの顔と音声入力装置100とが近接していると検知する。このように、一定の期間において収音された音声信号のゲインの時間平均の変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知することで、正確な検知が可能となる。
【0077】
また、検知部20は、収音された音声信号の所定の周波数以下の成分のゲインの変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。ユーザの顔と音声入力装置100とが近接している場合には、近接していない場合よりも所定の周波数以下の成分(例えば低音域の成分)のゲインが近接効果により大きくなり得るためである。なお、所定の周波数以下の成分のゲインとは、例えば、0Hzから所定の周波数間の成分のゲインの周波数平均である。例えば、検知部20は、収音された音声信号の所定の周波数(例えば200Hz)以下の成分のゲインが所定値(例えば5dB等)以上大きくなった場合に、ユーザの顔と音声入力装置100とが近接していると検知する。ただし、ユーザの顔と音声入力装置100とが近接していないときであっても、ユーザの声の出し方等によっては収音される音声信号の所定の周波数以下の成分のゲインが瞬間的に大きくなることがある。
【0078】
そこで、検知部20は、第3期間(例えば3秒等)において収音された音声信号の所定の周波数以下の成分のゲインの平均値に対する、第3期間の後の第4期間(例えば3秒等)において収音された音声信号の所定の周波数以下の成分のゲインの平均値の変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。例えば、検知部20は、収音された音声信号の所定の周波数以下の成分のゲインの時間平均が所定値(例えば5dB等)以上大きくなった場合に、ユーザの顔と音声入力装置100とが近接していると検知する。このように、一定の期間において収音された音声信号の所定の周波数以下の成分のゲインの時間平均の変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知することで、正確な検知が可能となる。
【0079】
また、検知部20は、収音された音声が反響しているか否かに応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。ユーザの顔と音声入力装置100とが近接している場合には、近接していない場合よりも収音された音声が反響しにくいためである。収音された音声が反響しているか否かは、例えば、自己相関を用いて判定してもよい。例えば、残響が多いほど1次以降の成分が増えるため、ユーザの顔と音声入力装置100とが近接していないときには1次以降の成分が増える。言い換えると、ユーザの顔と音声入力装置100とが近接しているときには1次以降の成分が減る。このように、自己相関を用いて収音された音声が反響しているか否かを判定することで、ユーザの顔と音声入力装置100とが近接しているか否かを検知してもよい。
【0080】
図3での説明に戻り、補正部60は、ユーザの顔と音声入力装置100とが近接していると検知された場合に(ステップS11でYes)、少なくとも1つのマイクで収音された音声信号に対して補正処理を行う(ステップS12)。上述したように、補正部60は、増幅回路61、指向性合成部62及び近接効果補正部63を備え、言い換えると、補正部60は、増幅回路61、指向性合成部62及び近接効果補正部63によって実現される。
【0081】
増幅回路61は、入力された音声信号(ここではアナログ音声信号)を増幅する回路であり、音声信号のゲインを調整する機能を有する。ここでは、増幅回路61は、ゲインを下げる処理を行う。
【0082】
指向性合成部62は、入力された各音声信号(ここでは2つのADC50から出力された2つのデジタル音声信号)の位相を調整して指向性を調整する。ここでは、指向性合成部62は、単一指向性を無指向性に変換する処理を行う。
【0083】
近接効果補正部63は、入力された音声信号(ここでは指向性合成部62により指向性の調整が行われた音声信号)の周波数特性を変更するイコライザである。ここでは、近接効果補正部63は、所定の周波数以下(例えば、200Hz以下の低音域)の成分のゲインを下げる処理を行う。
【0084】
補正部60による補正処理は、指向性合成部62による単一指向性を無指向性に変換する処理、増幅回路61によるゲインを下げる処理、及び、近接効果補正部63による所定の周波数以下の成分のゲインを下げる処理を含む。
【0085】
補正部60は、ユーザの顔と音声入力装置100とが近接していると検知された場合に、音声信号に対して、ゲインを下げる処理を行ってもよいし、単一指向性を無指向性に変換する処理を行ってもよいし、所定の周波数以下の成分のゲインを下げる処理を行ってもよい。
【0086】
なお、補正部60は、必ずしもゲインを下げる処理、単一指向性を無指向性に変換する処理、及び、所定の周波数以下の成分のゲインを下げる処理の全てを行わなくてもよい。例えば、検知部20での検知内容に応じて、行う補正処理の内容を変えてもよい。例えば、収音された音声信号のゲインが所定値以上大きくなったことで、ユーザの顔と音声入力装置100とが近接していると検知された場合には、補正部60は、補正処理としてゲインを下げる処理だけを行ってもよい。また、例えば、収音された音声信号の所定の周波数以下の成分のゲインが所定値以上大きくなったことで、ユーザの顔と音声入力装置100とが近接していると検知された場合には、補正部60は、補正処理として所定の周波数以下の成分のゲインを下げる処理だけを行ってもよい。
【0087】
そして、音声入力装置100は、補正処理が行われた音声信号を音声認識等のためにサーバ装置等に出力する。
【0088】
一方で、補正部60は、ユーザの顔と音声入力装置100とが近接していないと検知された場合(ステップS11でNo)、少なくとも1つのマイクで収音された音声信号に対して補正処理を行わず、音声入力装置100は、補正処理が行われていない音声信号を音声認識等のためにサーバ装置等に出力する。
【0089】
以上説明したように、ユーザの顔と音声入力装置100とが近接しているか否かの検知が行われるため、ユーザの顔と音声入力装置100とが近接していると検知された場合に、ユーザの顔と音声入力装置100とが近接していることにより生じる音声認識性能の低下を抑制するような補正処理を行うことができる。したがって、ユーザの顔と音声入力装置100とが近接していることにより生じる音声認識性能の低下を抑制できる。音声認識性能の低下が抑制されることで、例えば、収音された音声を正しく翻訳することが可能になる。
【0090】
(その他の実施の形態)
以上、本開示の一つ又は複数の態様に係る音声入力方法及び音声入力装置100について、実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を各実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。
【0091】
例えば、上記実施の形態では、音声入力装置100は、2つのマイク10を備えている例について説明したが、これに限らない。例えば、音声入力装置100は、1つ又は3つ以上のマイクを備えていてもよい。また、音声入力装置100は、マイクの数に対応した増幅回路61及びADC50を備える。また、音声入力装置100は、1つのマイクを備える場合には、指向性合成部62を備えていなくてもよい。
【0092】
例えば、上記実施の形態では、補正部60は、増幅回路61、指向性合成部62及び近接効果補正部63を備えている例について説明したが、これに限らない。例えば、補正部60は、増幅回路61、指向性合成部62及び近接効果補正部63のうちの少なくとも1つを備えていればよい。
【0093】
また、例えば、上記実施の形態では、音声入力装置100は、3軸加速度センサ30、比較部31及びパターンデータ32を備えている例について説明したが、備えていなくてもよい。つまり、検知部20は、3軸加速度センサ30の出力の時間変化のパターンと、予め計測されたパターンとの比較結果に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知しなくてもよい。
【0094】
また、例えば、上記実施の形態では、音声入力装置100は、カメラ40、顔検出部41及び顔大きさ測定部42を備えている例について説明したが、備えていなくてもよい。つまり、検知部20は、カメラ40での撮影により取得される画像に含まれるユーザの顔の大きさの変化に応じて、ユーザの顔と音声入力装置100とが近接しているか否かを検知しなくてもよい。
【0095】
また、例えば、本開示は、音声入力方法を実行するサーバ装置として実現してもよい。例えば、当該サーバ装置は、検知部20、比較部31、パターンデータ32、顔検出部41、顔大きさ測定部42、指向性合成部62及び近接効果補正部63等を備えていてもよい。つまり、音声入力装置100が備えるマイク10、3軸加速度センサ30及びカメラ40等以外の機能をサーバ装置に持たせてもよい。
【0096】
本開示は、音声入力方法に含まれるステップを、プロセッサに実行させるためのプログラムとして実現できる。さらに、本開示は、そのプログラムを記録したCD-ROM等である非一時的なコンピュータ読み取り可能な記録媒体として実現できる。
【0097】
例えば、本開示が、プログラム(ソフトウェア)で実現される場合には、コンピュータのCPU、メモリ及び入出力回路等のハードウェア資源を利用してプログラムが実行されることによって、各ステップが実行される。つまり、CPUがデータをメモリ又は入出力回路等から取得して演算したり、演算結果をメモリ又は入出力回路等に出力したりすることによって、各ステップが実行される。
【0098】
なお、上記実施の形態において、音声入力装置100に含まれる各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
【0099】
上記実施の形態に係る音声入力装置100の機能の一部又は全ては典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
【0100】
さらに、本開示の主旨を逸脱しない限り、本開示の各実施の形態に対して当業者が思いつく範囲内の変更を施した各種変形例も本開示に含まれる。
【産業上の利用可能性】
【0101】
本開示の音声入力方法等は、例えば、音声の翻訳を行う際に用いられる、スマートフォン、タブレット端末又は翻訳機等のポータブル機器等に適用できる。
【符号の説明】
【0102】
10 マイク
20 検知部
30 3軸加速度センサ
31 比較部
32 パターンデータ
40 カメラ
41 顔検出部
42 顔大きさ測定部
50 ADC
60 補正部
61 増幅回路
62 指向性合成部
63 近接効果補正部
100 音声入力装置
200 ユーザ