IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アイシン精機株式会社の特許一覧

特開2022-117374音声認識プログラム及び音声認識装置
<>
  • 特開-音声認識プログラム及び音声認識装置 図1
  • 特開-音声認識プログラム及び音声認識装置 図2
  • 特開-音声認識プログラム及び音声認識装置 図3
  • 特開-音声認識プログラム及び音声認識装置 図4
  • 特開-音声認識プログラム及び音声認識装置 図5
  • 特開-音声認識プログラム及び音声認識装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022117374
(43)【公開日】2022-08-10
(54)【発明の名称】音声認識プログラム及び音声認識装置
(51)【国際特許分類】
   G10L 15/04 20130101AFI20220803BHJP
【FI】
G10L15/04 300A
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021060919
(22)【出願日】2021-03-31
(31)【優先権主張番号】P 2021013495
(32)【優先日】2021-01-29
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000000011
【氏名又は名称】株式会社アイシン
(74)【代理人】
【識別番号】110000534
【氏名又は名称】弁理士法人真明センチュリー
(72)【発明者】
【氏名】中村 正樹
(57)【要約】      (修正有)
【課題】発話を的確に特定し音声認識できる音声認識プログラム及び音声認識装置を提供する。
【解決手段】音声認識プログラムは、入力された音声の音量の最頻値である最頻音量Vmを取得する。その最頻音量Vmに基づいて入力された音声においてユーザの発話の開始を検出する開始判定値St_Aと、該発話の終了を検出する音量である終了判定値Ed_Aとを算出する。最頻音量Vmは、その環境で定常的に観測される周囲の環境音の音量と推定できる。このように開始判定値St_A及び終了判定値Ed_Aが最頻音量Vmに基づき設定されることで、入力された音声が周囲の環境音のみであるものか或いは発話がされているかを的確に区別することができる。これにより、ユーザの発話を的確に特定し、その特定された発話を音声認識することができる。
【選択図】図2
【特許請求の範囲】
【請求項1】
コンピュータに音声認識処理を実行させる音声認識プログラムであって、
入力された音声の音量の最頻値である最頻音量を取得する最頻音量取得ステップと、
その最頻音量取得ステップで取得された最頻音量に基づいて発話の開始を判定する音量である開始判定値を算出する開始判定値算出ステップと、
入力された前記音声の音量が前記開始判定値算出ステップで算出された開始判定値を超えた場合に音声認識を開始する音声認識ステップと、
を備えていることを特徴とする音声認識プログラム。
【請求項2】
前記最頻音量取得ステップで取得された最頻音量に基づいて発話の終了を判定する音量である終了判定値を算出する終了判定値算出ステップを備え、
前記音声認識ステップは、前記音声認識の開始後に入力された前記音声の音量が前記終了判定値算出ステップで算出された終了判定値を下回った場合に音声認識を終了するものであることを特徴とする請求項1記載の音声認識プログラム。
【請求項3】
前記最頻音量取得ステップで取得された最頻音量から、周囲の環境音と発話との音量差である閾値オフセット値を算出するオフセット算出ステップを備え、
前記開始判定値算出ステップは、前記最頻音量取得ステップで取得された最頻音量と前記オフセット算出ステップで算出された閾値オフセット値とに基づき開始判定値を算出するものであることを特徴とする請求項1又は2に記載の音声認識プログラム。
【請求項4】
前記最頻音量取得ステップで取得された最頻音量から、周囲の環境音と発話との音量差である閾値オフセット値を算出するオフセット算出ステップを備え、
前記終了判定値算出ステップは、前記最頻音量取得ステップで取得された最頻音量と前記オフセット算出ステップで算出された閾値オフセット値とに基づき終了判定値を算出するものであることを特徴とする請求項2又は3に記載の音声認識プログラム。
【請求項5】
前記最頻音量取得ステップは、その直近の第1所定時間内に入力された前記音声の音量から最頻音量を取得するものであることを特徴とする請求項1から4のいずれかに記載の音声認識プログラム。
【請求項6】
最初に前記音声認識ステップを実行する以前の第2所定時間内において、前記最頻音量取得ステップによる最頻音量の取得と、その取得された最頻音量に基づく前記開始判定値算出ステップによる開始判定値の算出とを行う事前判定値算出ステップを備え、
前記音声認識ステップは、前記事前判定値算出ステップで算出された開始判定値に基づいて音声認識を行うことを特徴とする請求項1から5のいずれかに記載の音声認識プログラム。
【請求項7】
最初に前記音声認識ステップを実行する以前の第2所定時間内において、前記最頻音量取得ステップによる最頻音量の取得と、その取得された最頻音量に基づく前記終了判定値算出ステップによる終了判定値の算出とを行う事前判定値算出ステップを備え、
前記音声認識ステップは、前記事前判定値算出ステップで算出された終了判定値に基づいて音声認識を行うことを特徴とする請求項2から6のいずれかに記載の音声認識プログラム。
【請求項8】
前記第2所定時間は、前記第1所定時間以下の時間であることを特徴とする請求項5から7のいずれかに記載の音声認識プログラム。
【請求項9】
前記音声を入力した音声入力装置の種類を取得する種類取得ステップを備え、
前記最頻音量取得ステップは、入力された前記音声の音量の最頻値を、前記種類取得ステップで取得された音声入力装置の種類に応じて補正した値を最頻音量として取得するものであることを特徴とする請求項1から8のいずれかに記載の音声認識プログラム。
【請求項10】
音声を入力する音声入力手段と、
その音声入力手段で入力された音声の音量の最頻値である最頻音量を取得する最頻音量取得手段と、
その最頻音量取得手段で取得された最頻音量に基づいて発話の開始を判定する音量である開始判定値を算出する開始判定値算出手段と、
前記音声入力手段で入力された音声の音量が前記開始判定値算出手段で算出された開始判定値を超えた場合に音声認識を開始する音声認識手段と、を備えていることを特徴とする音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識プログラム及び音声認識装置に関するものである。
【背景技術】
【0002】
特許文献1には、ユーザの発話の開始および終了を特定する発話区間を音声データの音量に基づいて特定し、音声データにおける特定された発音区間を音声認識する発話区間検出装置100が開示されている。具体的に、音声データの音量の最大値に基づいて発話の開始および終了を検出する発話開始しきい値および発話終了しきい値が算出され、これら発話開始しきい値および発話終了しきい値に基づいて音声データにおける発話区間が特定され、特定された発話区間の音声認識が行われる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005-31632号公報(例えば、段落0126,0127、図10
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1では、発話開始しきい値および発話終了しきい値が音声データの音量に基づいて設定されるので、発話を周囲の環境音の影響を考慮して特定できる一方で、発話開始しきい値および発話終了しきい値は、音声データの音量の最大値に基づいて設定される。よって、音声データにサイレンやキーボードのタイピング音等の突発的で音量の大きな音が含まれると、その突発的な音の音量が音声データにおける音量の最大値となる。こうなると、発話開始しきい値および発話終了しきい値がその突発的な音の音量に基づいて算出されるので、発話開始しきい値および発話終了しきい値が大きな値となってしまう。
【0005】
これにより、音声データにおいて実際にはユーザが発話しているにも関わらず、その音量が発話開始しきい値に達しないことで発話区間と特定されず、発話を的確に音声認識ができないという問題点があった。
【0006】
本発明は、上述した問題点を解決するためになされたものであり、発話を的確に特定し音声認識できる音声認識プログラム及び音声認識装置を提供することを目的としている。
【課題を解決するための手段】
【0007】
この目的を達成するために本発明の音声認識プログラムは、コンピュータに音声認識処理を実行させるプログラムであって、入力された音声の音量の最頻値である最頻音量を取得する最頻音量取得ステップと、その最頻音量取得ステップで取得された最頻音量に基づいて発話の開始を判定する音量である開始判定値を算出する開始判定値算出ステップと、入力された前記音声の音量が前記開始判定値算出ステップで算出された開始判定値を超えた場合に音声認識を開始する音声認識ステップと、を備えている。
【0008】
また本発明の音声認識装置は、音声を入力する音声入力手段と、その音声入力手段で入力された音声の音量の最頻値である最頻音量を取得する最頻音量取得手段と、その最頻音量取得手段で取得された最頻音量に基づいて発話の開始を判定する音量である開始判定値を算出する開始判定値算出手段と、前記音声入力手段で入力された音声の音量が前記開始判定値算出手段で算出された開始判定値を超えた場合に音声認識を開始する音声認識手段と、を備えている。
【発明の効果】
【0009】
請求項1記載の音声認識プログラムによれば、入力された音声の音量の最頻音量が取得され、その最頻音量に基づいて開始判定値が算出される。そして、入力された音声の音量が開始判定値を超えた場合に音声認識が開始される。最頻音量は入力された音量のうちで最も検出される頻度が高い音量なので、その環境で定常的に観測される周囲の環境音の音量と推定できる。よって、その最頻音量に基づき開始判定値が設定されることで、入力された音声が周囲の環境音のみであるものか、又は、発話がされているかを的確に区別することができる。これにより、発話を的確に特定し音声認識できるという効果がある。
【0010】
請求項2記載の音声認識プログラムによれば、請求項1記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。最頻音量に基づいて終了判定値が算出され、音声認識の開始後に入力された音声の音量が終了判定値を下回った場合に、音声認識が終了される。最頻音量に基づき終了判定値が設定されることで、入力された音声が周囲の環境音のみであるものか、又は、発話がされているかを的確に区別することができる。これにより、発話を的確に特定し音声認識できるという効果がある。
【0011】
請求項3記載の音声認識プログラムによれば、請求項1又は2に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。最頻音量から周囲の環境音と発話との音量差である閾値オフセット値が算出され、開始判定値が最頻音量と閾値オフセット値とに基づいて算出される。
【0012】
ここで、ユーザは自身の声量(音量)を周囲の環境音との音量差を考慮した上で発話を行う。これに対し、請求項2では、周囲の環境音の音量と推定される最頻音量から、周囲の環境音と発話との音量差である閾値オフセット値が算出され、かかる閾値オフセット値と最頻音量とに基づいて開始判定値が算出される。よって、ユーザの発話の声量に対する考慮と同等の考慮を開始判定値に組み込むことができる。これにより、周囲の環境音と発話とをより的確に区別できるので、発話をより的確に音声認識できるという効果がある。
【0013】
請求項4記載の音声認識プログラムによれば、請求項2又は3に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。最頻音量から周囲の環境音と発話との音量差である閾値オフセット値が算出され、終了判定値が最頻音量と閾値オフセット値とに基づいて算出される。
【0014】
ここで、ユーザは自身の声量(音量)を周囲の環境音との音量差を考慮した上で発話を行う。これに対し、請求項4では、周囲の環境音の音量と推定される最頻音量から、周囲の環境音と発話との音量差である閾値オフセット値が算出され、かかる閾値オフセット値と最頻音量とに基づいて終了判定値が算出される。よって、ユーザの発話の声量に対する考慮と同等の考慮を終了判定値に組み込むことができる。これにより、周囲の環境音と発話とをより的確に区別できるので、発話をより的確に音声認識できるという効果がある。
【0015】
請求項5記載の音声認識プログラムによれば、請求項1から4のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。最頻音量が直近の第1所定時間内に入力された音声の音量から算出されることで、時々刻々と変化する周囲の環境音の大きさに応じた最頻音量を算出できる。これにより、発話をより的確に音声認識できるという効果がある。
【0016】
請求項6記載の音声認識プログラムによれば、請求項1から5のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。最初に音声認識ステップを実行する以前の第2所定時間内に入力される音声の音量に基づいて最頻音量が取得され、その取得された最頻音量に基づいて開始判定値が算出される。これにより、音声が入力された環境に応じた開始判定値による音声認識を、最初の音声認識ステップから行うことができるという効果がある。
【0017】
請求項7記載の音声認識プログラムによれば、請求項2から6のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。最初に音声認識ステップを実行する以前の第2所定時間内に入力される音声の音量に基づいて最頻音量が取得され、その取得された最頻音量に基づいて終了判定値が算出される。これにより、音声が入力された環境に応じた終了判定値による音声認識を、最初の音声認識ステップから行うことができるという効果がある。
【0018】
請求項8記載の音声認識プログラムによれば、請求項5から7のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。第2所定時間が第1所定時間以下の時間とされる。これにより、事前判定値算出ステップの実行時間を短時間とできるので、最初に音声認識ステップが開始されるまでのタイムラグを抑制できる。
【0019】
請求項9記載の音声認識プログラムによれば、請求項1から8のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。入力された音声の音量の最頻値が音声入力装置の種類に応じて補正した値が最頻音量とされる。これにより、音声が入力される音声入力装置の種類によらず、発話を的確に音声認識できるという効果がある。
【0020】
請求項10記載の音声認識装置によれば、請求項1記載の音声認識プログラムと同様の効果を奏する。
【図面の簡単な説明】
【0021】
図1】携帯端末の外観図である。
図2】(a)は、開始判定値および終了判定値を説明する図であり、(b)は、入力された音声のヒストグラムを表す図である。
図3】携帯端末の電気的構成を示すブロック図である。
図4】音声処理のフローチャートである。
図5】10msタイマー処理のフローチャートである。
図6】感度処理のフローチャートである。
【発明を実施するための形態】
【0022】
以下、本発明の好ましい実施形態について、添付図面を参照して説明する。まず、図1を参照して、本実施形態における携帯端末1の構成を説明する。図1は、携帯端末1の外観図である。携帯端末1は、ユーザHが発する発話を音声認識する情報処理装置(コンピュータ)である。携帯端末1では、音声Vが入力可能に構成され、入力された音声Vの音量に基づいてユーザHが発した発話かどうかが判断され、その発話毎に音声認識が実行される。なお、音声認識としては、公知の手法が採用されるが、例えば、音声Vを文字列に変換し、変換された文字列を該当する語句に置き換えたものをLCD18(図3参照)に表示するものが挙げられる。
【0023】
かかる音声認識の際、入力された音声Vで検出される音量の最頻値である最頻音量Vmが算出され、その最頻音量Vmに基づいて、音声VにおいてユーザHの発話の開始を検出する音量である開始判定値St_Aと、ユーザHの発話の終了を検出する音量である終了判定値Ed_Aとが算出される。算出された開始判定値St_A及び終了判定値Ed_Aから入力された音声Vにおける発話が検出され、検出された発話から音声認識が行われる。図2を参照して、最頻音量Vm、開始判定値St_A及び終了判定値Ed_Aの算出を説明する。
【0024】
図2(a)は、開始判定値St_A及び終了判定値Ed_Aを説明する図である。図2においては横軸に時刻が、縦軸に音声Vの音量(dB)がそれぞれ設定され、入力された音声Vの音量の推移がVsとされる。本実施形態において音量の最大値が「0dB」とされ、最小値が「-120dB」とされる。なお、音量の範囲は0dBから-120dBまでに限られず、これ以外の範囲でも良い。
【0025】
本実施形態の携帯端末1では、入力された音声Vの音量に基づいてユーザHが発話しているかどうかが判断される。具体的に、図2(a)に示す通り、入力された音声Vの音量が開始判定値St_A以下の状態から開始判定値St_Aを超えた場合(時刻StT)にユーザHの発話が開始したと判断され、音声認識が開始される。
【0026】
その音声認識の開始後、入力された音声Vの音量が終了判定値Ed_Aを下回った場合(時刻EdT)に、ユーザHの発話が終了したと判断され、音声認識が終了される。即ち入力された音声Vにおいて時刻StTから時刻EdTまでの発話区間VTで音声認識が行われる。これら開始判定値St_A及び終了判定値Ed_Aが、入力された音声Vの音量の最頻音量Vmに基づいて算出される。
【0027】
ここで図2(b)を参照して、最頻音量Vmを説明する。図2(b)は、入力された音声Vのヒストグラムを表す図である。図2(b)においては横軸に音量が、縦軸に各音量の頻度、即ち各音量が検出された回数がそれぞれ設定される。
【0028】
本実施形態では、最頻音量Vmが一定時間内(図4で後述の0.5秒間または5秒間)に入力された音声Vの音量が計測される。本実施形態において最頻音量Vmの算出に用いられる音量は、10ms間に検出された音量のRMS値(二乗平均平方根値)が用いられる。なお、最頻音量Vmの算出に用いる音量はRMS値に限られず、10ms間に検出された音量の平均値や中央値、最大値や最小値等の値を用いても良い。
【0029】
そして計測された音量のヒストグラムが算出され、そのヒストグラムから最頻音量Vmが取得される。具体的には、一定時間内に入力された音声Vから検出された音量毎の回数を取得してヒストグラムを作成し、そのヒストグラムにおける最頻値の音量が最頻音量Vmとされる。
【0030】
図2(a)に戻る。このように算出された最頻音量Vmに基づいて、開始判定値St_A及び終了判定値Ed_Aが算出される。まず、最頻音量Vm及び係数t1,t2から下記の数式1によって閾値オフセット値Thが算出される。
【0031】
【数1】
ここで、係数t1,t2は最頻音量Vmと閾値オフセット値Thとの音量差を設定するための係数であり、実験やシミュレーションによって取得される。
【0032】
そして、最頻音量Vm及び閾値オフセット値Thと、開始判定値St_Aにおける感度に該当する音量である開始感度αとから開始判定値St_Aが数式2によって算出される。また、最頻音量Vm及び閾値オフセット値Thと、終了判定値Ed_Aにおける感度に該当する音量であって、開始感度αよりも小さな音量である終了感度βとから、数式3によって終了判定値Ed_Aが算出される。
【0033】
【数2】
なお、開始感度α及び終了感度βはユーザHから設定可能に構成されるが、詳細は後述する。
【0034】
このように、開始判定値St_A及び終了判定値Ed_Aが最頻音量Vm及び閾値オフセット値Thから算出される。最頻音量Vmは、一定時間内に入力された音声Vにおいて最も観測される音量なので、その環境で定常的に観測される周囲の環境音の音量と推定できる。また数式2,3において、最頻音量Vmに加算される閾値オフセット値Thも最頻音量Vmから算出される。
【0035】
ここで、ユーザHは自身の声量(音量)を周囲の環境音との音量差を考慮した上で発話を行っている。閾値オフセット値Thが周囲の環境音の音量とされる最頻音量Vmから算出されることで、その値を周囲の環境音と発話との音量差とすることができる。かかる閾値オフセット値Thと最頻音量Vmと基づいて開始判定値St_A及び終了判定値Ed_Aが算出されることで、ユーザHの発話の声量に対する考慮と同等の考慮を開始判定値St_A及び終了判定値Ed_Aに組み込むことができる。
【0036】
このように開始判定値St_A及び終了判定値Ed_Aが最頻音量Vm及び閾値オフセット値Thに基づき設定されることで、入力された音声Vが周囲の環境音のみであるものか、又は、発話がされているかを的確に区別することができる。これにより、ユーザHの発話を的確に特定し、その特定された発話を音声認識することができる。
【0037】
次に、図3を参照して、携帯端末1の電気的構成を説明する。図3は、携帯端末1の電気的構成を示すブロック図である。図4に示す通り、携帯端末1は、CPU10と、フラッシュROM11と、RAM12とを有し、これらはバスライン13を介して入出力ポート14にそれぞれ接続されている。入出力ポート14には更に、内蔵マイク15と、マイク入力端子16と、無線通信装置17と、音声認識の結果等が表示されるLCD18と、ユーザHからの指示が入力されるタッチパネル19とが接続される。
【0038】
CPU10は、バスライン13により接続された各部を制御する演算装置である。フラッシュROM11は、書き換え可能な不揮発性のメモリであり、音声認識プログラム11aが保存される。CPU10によって音声認識プログラム11aが実行されると、図4の音声処理が実行される。
【0039】
RAM12は、CPU10の音声認識プログラム11aの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するためのメモリであり、上記した入力された音声Vの音量のRMS値が時系列順に記憶される音量メモリ12aと、最頻音量Vmが記憶される最頻音量メモリ12bと、閾値オフセット値Thが記憶される閾値オフセット値メモリ12cと、開始感度αが記憶される開始感度メモリ12dと、終了感度βが記憶される終了感度メモリ12eと、開始判定値St_Aが記憶される開始判定値メモリ12fと、終了判定値Ed_Aが記憶される終了判定値メモリ12gと、音声Vの入力に用いられるマイクの情報であるマイク情報が記憶されるマイク情報メモリ12hとが設けられる。
【0040】
内蔵マイク15は、携帯端末1に設けられる音声Vを入力する入力装置(マイクロフォン)である。マイク入力端子16は、携帯端末1の外部に設けられる音声Vを入力する入力装置である有線マイク20を接続するための端子である。有線マイク20は、マイク入力端子16と図示しないケーブルによって有線で接続され、有線マイク20から入力された音声Vがマイク入力端子16を介して携帯端末1に入力される。
【0041】
無線通信装置17は、他の装置と無線通信するための装置である。本実施形態では、音声Vを入力する入力装置である無線マイク21が無線通信装置17を介して無線で接続され、その無線マイク21から入力された音声Vが無線通信装置17を介して携帯端末1に入力される。
【0042】
これら内蔵マイク15、有線マイク20及び無線マイク21のうちの1つが音声Vを入力する入力装置に設定され、その設定された結果のマイク情報がマイク情報メモリ12hに記憶される。
【0043】
次に、図4~6を参照して、携帯端末1のCPU10で実行される処理を説明する。図4は、音声処理のフローチャートである。音声処理は、タッチパネル19等を介してユーザHから音声認識プログラム11aを実行する指示が入力された場合に実行される処理である。
【0044】
音声処理はまず、音量メモリ12aをクリアする(S1)。S1の処理の後、音声Vを取得するマイク情報を取得し、マイク情報メモリ12hに保存する(S2)。具体的には、携帯端末1は、上記した内蔵マイク15、有線マイク20及び無線マイク21のうち、音声Vを入力する入力装置をタッチパネル19を介してユーザHから設定可能に構成され、ユーザHが設定した内蔵マイク15、有線マイク20及び無線マイク21のうちのいずれかのマイク情報がタッチパネル19から取得され、マイク情報メモリ12hに保存される。
【0045】
なお、マイク情報はユーザHから取得されるものに限られず、内蔵マイク15、有線マイク20及び無線マイク21の携帯端末1への接続状況に応じて取得しても良い。例えば、内蔵マイク15、有線マイク20及び無線マイク21において、音声Vを入力する入力装置とする優先順位を予め設定しておき、携帯端末1に接続されている内蔵マイク15、有線マイク20及び無線マイク21のうち、当該優先順位が最も高いもののマイク情報をマイク情報メモリ12hに保存しても良い。
【0046】
S2の処理の後、計測回数に50を設定する(S3)。計測回数は、最頻音量Vmの算出に用いられる音量のRMS値を計測する回数である。S3の処理の後、10msタイマー処理を開始する(S4)。この処理によって、図4の10msタイマー処理の定期的な実行が開始される。ここで図5を参照して、10msタイマー処理を説明する。
【0047】
図5は、10msタイマー処理のフローチャートである。10msタイマー処理は10ms毎に実行される割り込み処理である。本実施形態において10msタイマー処理は、上記した図4のS4の処理による10msタイマー処理を開始指示がされた後に、10ms毎に実行される。なお、10msタイマー処理が実行される間隔は、10ms以上でも10ms以下でも良い。
【0048】
10msタイマー処理はまず、内蔵マイク15、有線マイク20及び無線マイク21のうち、マイク情報メモリ12hのマイク情報に該当するものから取得された音声Vの音量を計測し、音量メモリ12aに追加する(S20)。上記した通り、音量メモリ12aに追加される音量は、前回の10msタイマー処理の実行後から10ms間に検出された音声Vの音量のRMS値とされる。かかるS20の処理によって、音声Vの音量のRMS値が時系列順に音量メモリ12aに保存される。
【0049】
S20の処理の後、S20の処理による音量の計測が、図4のS3処理または後述のS6の処理で設定された計測回数分、完了したかを確認する(S21)。具体的には、S20の処理によって音量の計測した回数が、設定された計測回数を超えたかが確認される。
【0050】
S21の処理において、音量を計測した回数が計測回数分完了した場合は(S21:Yes)、音量メモリ12aに記憶されている音量のうち、現在から計測回数分の音量を取得し、取得された音量から図2(b)で示したヒストグラムを作成する(S22)。
【0051】
具体的に、まず、音量メモリ12aに時系列順に記憶されている音量のうち、現在から遡って計測回数分の音量が取得される。例えば、計測回数が50回の場合は、最新に記憶された音量から遡って50回分の音量が音量メモリ12aから取得される。そして、取得された音量の頻度が取得され、音量と、その音量の頻度とによるヒストグラムが作成される。
【0052】
なおこの際、図示はしないが「S20の処理によって音量の計測した回数」が「1」に再設定される。
【0053】
S22の処理の後、S22の処理で作成されたヒストグラムにおいて、最も頻度が高い音量を最頻音量Vmとして最頻音量メモリ12bに保存する(S23)。この際、最も頻度が高い音量が、例えば、-60dBより小さい音量の場合は、-60dB以上の音量において最も頻度が高い音量を最頻音量Vmとしても良い。これにより、開始判定値St_A及び終了判定値Ed_Aが小さな値になり過ぎるのを抑制できるので、例えば、静かな室内での足音等、ユーザHの発話ではない、小さな物音によって音声認識が開始されてしまうのを抑制できる。
【0054】
S23の処理の後、S24の感度処理を実行する。ここで、図6を参照して、感度処理を説明する。
【0055】
図6は、感度処理のフローチャートである。感度処理はまず、マイク情報メモリのマイク情報を確認する(S40)。S40の処理において、マイク情報メモリのマイク情報が内蔵マイク15によるものである場合は(内蔵マイク)、最頻音量メモリ12bの最頻音量Vmから第1補正量を減算する(S41)。S40の処理において、マイク情報メモリのマイク情報が有線マイク20によるものである場合は(有線マイク)、最頻音量メモリ12bの最頻音量Vmから第2補正量を減算する(S42)。また、S40の処理において、マイク情報メモリのマイク情報が無線マイク21によるものである場合は(有線マイク)、最頻音量メモリ12bの最頻音量Vmから第3補正量を減算する(S42)。
【0056】
ここで、第1補正量、第2補正量および第3補正量は、それぞれ内蔵マイク15、有線マイク20及び無線マイク21の感度や周波数特性等の特性に応じた値であり、実験によって取得される値である。
【0057】
このように、最頻音量メモリ12bの最頻音量Vmが、音声Vが入力される内蔵マイク15、有線マイク20及び無線マイク21に応じた第1~3補正量によって補正される。これにより、内蔵マイク15、有線マイク20及び無線マイク21毎に異なる特性が最頻音量Vmに反映され、その最頻音量Vmから算出される開始判定値および終了判定値にも反映することができる。これにより、音声Vが入力される内蔵マイク15、有線マイク20及び無線マイク21によらず、発話を的確に音声認識できる。
【0058】
S41~S42の処理の後、タッチパネル19を介してユーザHから感度情報、即ち図2(a)で上記した開始感度α又は終了感度βが入力されたかを確認する(S44)。S44の処理において感度情報が入力された場合は(S44:Yes)、入力された開始感度α又は終了感度βを開始感度メモリ12d又は終了感度メモリ12eに保存する(S45)。
【0059】
S44の処理において感度情報が入力されていない場合は(S44:No)、S45の処理をスキップする。なおこの際、音声処理が実行されてから、S44の処理までに一度も感度情報が入力されていない場合は、開始感度メモリ12d及び終了感度メモリ12eには、それぞれの初期値が設定される。これらの初期値として、例えば、開始感度αの初期値として「3dB」が、終了感度βの初期値として「1dB」が例示されるが、開始感度αが終了感度βより大きければ、これら以外の値を初期値にしても良い。
【0060】
S44,S45の処理の後、感度処理を終了する。
【0061】
図5に戻る。S24の感度処理の後、最頻音量メモリ12bの最頻音量Vmから図2(a)で上記した数式1により閾値オフセット値Thを算出し、閾値オフセット値メモリ12cに保存する(S25)。
【0062】
S25の処理の後、最頻音量メモリ12bの最頻音量Vmと、閾値オフセット値メモリ12cの閾値オフセット値Thと、開始感度メモリ12dの開始感度αとから、図2(a)で数式2により開始判定値St_Aを算出し、開始判定値メモリ12fに保存する(S26)。S26の処理の後、最頻音量メモリ12bの最頻音量Vmと、閾値オフセット値メモリ12cの閾値オフセット値Thと、終了感度メモリ12eの終了感度βとから、図2(a)で数式3により終了判定値Ed_Aを算出し、終了判定値メモリ12gに保存する(S27)。
【0063】
S21の処理において、音量を計測した回数が計測回数分完了していない場合(S21:No)、又はS27の処理の後、10msタイマー処理を終了する。
【0064】
S4の処理の後、10msタイマー処理のS26,S27の処理によって、初回の開始判定値St_A及び終了判定値Ed_Aが算出されたかを確認する(S5)。即ちS4の処理による10msタイマー処理の開始後から、開始判定値St_A及び終了判定値Ed_Aが最初に算出されたかが確認される。
【0065】
S5の処理において、初回の開始判定値St_A及び終了判定値Ed_Aが算出されていない場合は(S5:No)、S5の処理を繰り返す。一方で S5の処理において、初回の開始判定値St_A及び終了判定値Ed_Aが算出された場合は(S5:Yes)、計測回数を500回に設定する(S6)。
【0066】
これにより、音声処理の実行直後には後述のS7~S10の音声認識処理に先立ち、計測回数を50回とし、最頻音量Vmを算出するための音量を計測する時間を0.5秒間(即ち10ms×50回)とした場合の開始判定値St_A及び終了判定値Ed_Aが算出される。一方で、初回の開始判定値St_A及び終了判定値Ed_Aが算出された後は、最頻音量Vmを算出するための音量を計測する時間を5秒間(即ち10ms×500回)として開始判定値St_A及び終了判定値Ed_Aが算出される。
【0067】
S6の処理の後、入力された音声Vの音量が開始判定値メモリ12fの開始判定値St_Aを超えたかを確認する(S7)。S7の処理において、入力された音声Vの音量が開始判定値St_Aを超えた場合は(S7:Yes)、入力された音声Vの音声認識を開始する(S8)。一方で、S7の処理において、入力された音声Vの音量が開始判定値St_Aを超えていない場合は(S7:No)、S8の処理をスキップする。
【0068】
S7,S8の処理の後、S8の処理による音声認識の開始後に入力された音声Vの音量が終了判定値メモリ12gの終了判定値Ed_Aを下回ったかを確認する(S9)。S9の処理において、音声認識の開始後に入力された音声Vの音量が終了判定値Ed_Aを下回った場合は(S9:Yes)、実行している音声認識を終了する(S10)。一方で、S9の処理において、音声認識の開始後に入力された音声Vの音量が終了判定値Ed_Aを下回っていない場合は(S9:No)、S10の処理をスキップする。
【0069】
S9,S10の処理の後、タッチパネル19を介してユーザHから音声処理の終了する指示を取得したかを確認する(S11)。S11の処理において、音声処理の終了の指示を取得しなかった場合は(S11:No)、S7以下の処理を繰り返し、音声処理の終了の指示を取得した場合は(S11:Yes)、音声処理を終了する。
【0070】
以上説明した通り、本実施形態の携帯端末1では、入力された音声Vの音量の最頻値である最頻音量Vmが取得される。その最頻音量Vmに基づいて入力された音声VにおいてユーザHの発話の開始を検出する開始判定値St_Aと、該発話の終了を検出する音量である終了判定値Ed_Aとが算出される。最頻音量Vmは、その環境で定常的に観測される周囲の環境音の音量と推定できる。このように開始判定値St_A及び終了判定値Ed_Aが最頻音量Vmに基づき設定されることで、入力された音声Vが周囲の環境音のみであるものか、又は、発話がされているかを的確に区別することができる。これにより、ユーザHの発話を的確に特定し、その特定された発話を音声認識することができる。
【0071】
最頻音量Vmは、音量メモリ12aに時系列順に記憶される音量のうち、最新の音量から一定時間内の計測された音量、即ち直近に計測された音量から算出される。具体的には、音声処理の実行直後は音量の計測回数が50回に設定され、これによって、音声処理の実行直後から50回、即ち0.5秒間に計測された音量から最頻音量Vmが算出される。その後は計測回数が500回に設定され、即ち直近の5秒間に計測された音量から最頻音量Vmが算出される。
【0072】
このように、直近に計測された音量に基づき最頻音量Vmが算出され、その最頻音量Vmに基づいて開始判定値St_A及び終了判定値Ed_Aが算出されることで、時々刻々と変化する周囲の環境音の大きさに応じた開始判定値St_A及び終了判定値Ed_Aとすることができる。
【0073】
音声処理の実行直後は音量の計測回数が50回に設定され、その後の計測回数の500回以下の小さな値とされる。音声処理の実行直後においては、初回の最頻音量Vmの算出と、開始判定値St_A及び終了判定値Ed_Aの算出とが完了した後に、図4のS7~S10の処理による音声認識が開始される。これにより、音声Vが入力された環境に応じた開始判定値St_A及び終了判定値Ed_Aによる音声認識を、音声認識の最初から行うことができる。
【0074】
しかしその一方で、音声処理を実行してから初回の最頻音量Vm等の算出が完了するまでは、音声認識が行われない。これによって、ユーザHが音声処理の実行を指示してから初回の最頻音量Vm等の算出が完了するまでの時間は、音声認識を開始するまでのタイムラグとされる。そこで、音声処理の実行直後の音量の計測回数を50回とし、その後の計測回数の500回以下とすることで、該タイムラグの拡大を抑制できる。これにより、ユーザHの音声認識の開始に対する違和感を抑制できる。
【0075】
また、開始判定値St_A及び終了判定値Ed_Aのそれぞれに付与される開始感度α及び終了感度βが、それぞれタッチパネル19を介してユーザHから設定される。これにより、ユーザHは、音声認識の対象となる発話を行うユーザHの声量や、ユーザHの好みに応じて開始判定値St_A及び終了判定値Ed_Aの大小を調節できるので、発話をより的確に音声認識することができる。
【0076】
以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能であることは容易に推察できるものである。
【0077】
上記実施形態では、開始判定値St_Aを最頻音量Vm、閾値オフセット値Th及び開始感度αで算出し、終了判定値Ed_Aを最頻音量Vm、閾値オフセット値Th及び終了感度βで算出した。しかし、これに限られず、開始判定値St_A及び終了判定値Ed_Aの算出において開始感度α及び終了感度βを省略しても良い。この場合以下の数式4,5のように、開始判定値St_Aと終了判定値Ed_Aとの音量差を閾値オフセット値Thとしても良い。
【0078】
【数3】
【0079】
また、数式6,7のように、開始判定値St_A及び終了判定値Ed_Aを、開始判定値St_A及び終了判定値Ed_Aのそれぞれの初期値である開始初期値St_D及び終了初期値Ed_Dと、閾値オフセット値Thとからそれぞれ算出しても良い。
【0080】
【数4】
なお、開始初期値St_D及び終了初期値Ed_Dは、実験によって取得しても良いし、タッチパネル19を介してユーザHが設定しても良い。
【0081】
上記実施形態では、数式1における係数t1,t2を実験で取得したが、これに限られない。タッチパネル19を介してユーザHが設定できるようにしても良い。例えば、係数t1,t2を音声認識の対象の発話を行うユーザHに応じて変更することで、ユーザHの性別や年齢等に応じた声量の違いを閾値オフセット値Thに反映できる。
【0082】
また、開始判定値St_A及び終了判定値Ed_Aの組み合わせは、上記した数式2及び数式3、数式4及び数式5、数式6及び数式7の各組み合わせに限られない。例えば、数式2及び数式5の組み合わせでも良いし、数式2及び数式7の組み合わせでも良いし、数式4及び数式3の組み合わせでも良いし、数式4及び数式7の組み合わせでも良い。同様に、数式6及び数式3の組み合わせでも良いし、数式6及び数式5の組み合わせでも良い。
【0083】
また、開始判定値St_Aを数式2,4,6のいずれかによる最頻音量Vmに基づくものとし、終了判定値Ed_Aを最頻音量Vmによらない値としても良い。同様に、開始判定値St_Aを最頻音量Vmによらない値とし、終了判定値Ed_Aを数式3,5,7のいずれかによる最頻音量Vmに基づくものとしても良い。なお、「最頻音量Vmによらない値」としては、例えば、所定の固定値やタッチパネル19を介したユーザHよる設定値等が挙げられる。
【0084】
上記実施形態では、開始感度α及び終了感度βをタッチパネル19を介して、ユーザHが設定したが、これに限られず、例えば、予め実験によって取得された開始感度α及び終了感度βを用いても良い。
【0085】
上記実施形態では、音声処理の実行直後における音量の計測回数をその後の計測回数以下としたが、これに限られず、計測回数を常に一定にしても良いし、音声処理の実行直後における音量の計測回数をその後の計測回数より大きな値としても良い。また、音声処理の実行直後における音量の計測回数と、その後の計測回数とをタッチパネル19を介してユーザHが設定できるようにしても良い。
【0086】
上記実施形態では、内蔵マイク15、有線マイク20又は無線マイク21から音声Vと取得したが、これに限られない。例えば、予めフラッシュROM11に記憶された音声データを音声Vとして取得しても良いし、図示しない通信装置を介して他の携帯端末1等から送信された音声データを音声Vとして取得しても良い。
【0087】
上記実施形態では、音声認識プログラム11aが組み込まれた携帯端末1を例示したが、これに限られず、パーソナルコンピュータやタブレット端末等の他の情報処理装置(コンピュータ)によって音声認識プログラム11aを実行する構成としても良い。また、音声認識プログラム11aをROMやICチップ等に記憶し、音声認識プログラム11aのみを実行する専用装置に、本発明を適用しても良い。
【符号の説明】
【0088】
1 携帯端末(コンピュータ)
11a 音声認識プログラム
15 内蔵マイク(音声入力装置の一部、音声入力手段の一部)
20 有線マイク(音声入力装置の一部、音声入力手段の一部)
21 無線マイク(音声入力装置の一部、音声入力手段の一部)
V 音声
Vm 最頻音量
Th 閾値オフセット値
St_B 開始判定値
Ed_B 終了判定値
S22,S23 最頻音量取得ステップ、最頻音量取得手段
S25 オフセット算出ステップ
S26 開始判定値算出ステップ、開始判定値算出手段
S27 終了判定値算出ステップ、終了判定値算出手段
S20,S40 種類取得ステップ
S3~S5 事前判定値算出ステップ
S7~S10 音声認識ステップ、音声認識手段
図1
図2
図3
図4
図5
図6