(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-10
(45)【発行日】2023-10-18
(54)【発明の名称】音解析システム、音解析方法、及びプログラム
(51)【国際特許分類】
G10L 25/21 20130101AFI20231011BHJP
G06F 3/16 20060101ALI20231011BHJP
【FI】
G10L25/21
G06F3/16 510
(21)【出願番号】P 2020141396
(22)【出願日】2020-08-25
【審査請求日】2022-08-09
(73)【特許権者】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】光田 英司
(72)【発明者】
【氏名】菅田 光留
【審査官】中村 天真
(56)【参考文献】
【文献】特開2016-048302(JP,A)
【文献】特開2020-034542(JP,A)
【文献】特開2016-144134(JP,A)
【文献】特開平03-274599(JP,A)
【文献】米国特許出願公開第2018/0054683(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置され、前記ユーザの音声の音圧を夫々取得する第1及び第2音圧取得手段と、
前記第1音圧取得手段により取得された音圧と、前記第2音圧取得手段により取得された音圧と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定する距離推定手段と、
前記第1又は第2音圧取得手段とユーザの口との距離の基準値と、前記距離推定手段により推定された距離と、の差分を算出し、該差分に基づいて、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧を補正する音圧補正手段と、
前記第1及び第2音圧取得手段により取得された音圧の比に基づいて、前記音圧の発生源が前記ユーザであるか否かを判定する発話判定手段と、
を備える、音解析システム。
【請求項2】
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置され、前記ユーザの音声の音圧を夫々取得する第1及び第2音圧取得手段と、
前記第1音圧取得手段により取得された音圧と、前記第2音圧取得手段により取得された音圧と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定する距離推定手段と、
前記第1又は第2音圧取得手段とユーザの口との距離の基準値と、前記距離推定手段により推定された距離と、の差分を算出し、該差分に基づいて、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧を補正する音圧補正手段と、
前記ユーザが装着する端末本体に設けられ、前記端末本体の加速度を検出する加速度検出手段と、
前記加速度検出手段により検出された加速度に基づいて、前記端末本体の振幅及び周期のうちの少なくとも一方を算出する算出手段と、
前記差分に基づいて、前記算出手段により算出された前記端末本体の振幅及び周期のうちの少なくとも一方を補正する補正手段と、
を備える、音解析システム。
【請求項3】
請求項1
又は2記載の音解析システムであって、
前記距離推定手段は、前記第1及び第2音圧取得手段により取得された音圧と、前記第1及び第2音圧取得手段により取得された音圧と前記第1又は第2音圧取得手段とユーザの口との間の距離との関係を示す距離対応マップ、関数又は学習器と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定する、音解析システム。
【請求項4】
請求項1
乃至3のうちいずれか1項記載の音解析システムであって、
前記音圧補正手段は、前記差分と、前記差分および音圧の補正量の関係を示す補正量対応マップ、関数又は学習器と、に基づいて、第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧の補正量を算出し、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧に、該算出した補正量を加算して補正音圧を算出する、音解析システム。
【請求項5】
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第1及び第2音圧取得手段により、前記ユーザの音声の音圧を夫々取得するステップと、
前記第1音圧取得手段により取得された音圧と、前記第2音圧取得手段により取得された音圧と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定するステップと、
前記第1又は第2音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧を補正するステップと、
前記第1及び第2音圧取得手段により取得された音圧の比に基づいて、前記音圧の発生源が前記ユーザであるか否かを判定するステップと、
を含む、音解析方法。
【請求項6】
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第1及び第2音圧取得手段により、前記ユーザの音声の音圧を夫々取得するステップと、
前記第1音圧取得手段により取得された音圧と、前記第2音圧取得手段により取得された音圧と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定するステップと、
前記第1又は第2音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧を補正するステップと、
前記ユーザが装着する端末本体の加速度を検出するステップと、
前記検出された加速度に基づいて、前記端末本体の振幅及び周期のうちの少なくとも一方を算出するステップと、
前記差分に基づいて、前記算出された前記端末本体の振幅及び周期のうちの少なくとも一方を補正するステップと、
を含む、音解析方法。
【請求項7】
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第1及び第2音圧取得手段により、前記ユーザの音声の音圧を夫々取得する処理と、
前記第1音圧取得手段により取得された音圧と、前記第2音圧取得手段により取得された音圧と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定する処理と、
前記第1又は第2音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧を補正する処理と、
前記第1及び第2音圧取得手段により取得された音圧の比に基づいて、前記音圧の発生源が前記ユーザであるか否かを判定する処理と、
をコンピュータに実行させるプログラム。
【請求項8】
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第1及び第2音圧取得手段により、前記ユーザの音声の音圧を夫々取得する処理と、
前記第1音圧取得手段により取得された音圧と、前記第2音圧取得手段により取得された音圧と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定する処理と、
前記第1又は第2音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧を補正する処理と、
前記ユーザが装着する端末本体の加速度を検出する処理と、
前記検出された加速度に基づいて、前記端末本体の振幅及び周期のうちの少なくとも一方を算出する処理と、
前記差分に基づいて、前記算出された前記端末本体の振幅及び周期のうちの少なくとも一方を補正する処理と、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音解析システム、音解析方法、及びプログラムに関する。
【背景技術】
【0002】
ユーザが首からウェアラブル端末を吊り下げ、ユーザの口から異なる距離に設けられた2つの音圧センサを備える音声解析システムが開示されている(例えば、特許文献1参照)。音圧解析システムは、各音声センサにより取得された音圧比に基づき、その音圧発生源が、ユーザか、又は、周囲の発話か、を判定する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、音声センサが設けられた吊り下げ紐が捻じれるなどの理由によって、ユーザの口と、各音声センサとの距離が変化し、各音声センサにより取得される音圧も変化してしまうことがある。この場合、音圧の検出精度が低下し音声解析の精度も低下する虞がある。
【0005】
本発明は、このような問題点を解決するためになされたものであり、音圧の検出精度低下を抑制して音声解析を高精度に行うことができる音解析システム、音解析方法、及びプログラムを提供することを主たる目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するための本発明の一態様は、
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置され、前記ユーザの音声の音圧を夫々取得する第1及び第2音圧取得手段と、
前記第1音圧取得手段により取得された音圧と、前記第2音圧取得手段により取得された音圧と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定する距離推定手段と、
前記第1又は第2音圧取得手段とユーザの口との距離の基準値と、前記距離推定手段により推定された距離と、の差分を算出し、該差分に基づいて、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧を補正する音圧補正手段と、
を備える、音解析システム
である。
この一態様において、前記距離推定手段は、前記第1及び第2音圧取得手段により取得された音圧と、前記第1及び第2音圧取得手段により取得された音圧と前記第1又は第2音圧取得手段とユーザの口との間の距離との関係を示す距離対応マップ、関数又は学習器と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定してもよい。
この一態様において、前記音圧補正手段は、前記差分と、前記差分および音圧の補正量の関係を示す補正量対応マップ、関数又は学習器と、に基づいて、第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧の補正量を算出し、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧に、該算出した補正量を加算して補正音圧を算出してもよい。
この一態様において、前記第1及び第2音圧取得手段により取得された音圧の比に基づいて、前記音圧の発生源が前記ユーザであるか否かを判定する発話判定手段を更に備えていてもよい。
この一態様において、前記ユーザが装着する端末本体に設けられ、前記端末本体の加速度を検出する加速度検出手段と、前記加速度検出手段により検出された加速度に基づいて、前記端末本体の振幅及び周期のうちの少なくとも一方を算出する算出手段と、前記差分に基づいて、前記算出手段により算出された前記端末本体の振幅及び周期のうちの少なくとも一方を補正する補正手段と、を更に備えていてもよい。
上記目的を達成するための本発明の一態様は、
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第1及び第2音圧取得手段により、前記ユーザの音声の音圧を夫々取得するステップと、
前記第1音圧取得手段により取得された音圧と、前記第2音圧取得手段により取得された音圧と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定するステップと、
前記第1又は第2音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧を補正するステップと、
を含む、音解析方法
であってもよい。
上記目的を達成するための本発明の一態様は、
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第1及び第2音圧取得手段により、前記ユーザの音声の音圧を夫々取得する処理と、
前記第1音圧取得手段により取得された音圧と、前記第2音圧取得手段により取得された音圧と、に基づいて、前記第1又は第2音圧取得手段とユーザの口との間の距離を推定する処理と、
前記第1又は第2音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第1及び第2音圧取得手段のうちの少なくとも一方により取得された音圧を補正する処理と、
をコンピュータに実行させるプログラム
であってもよい。
【発明の効果】
【0007】
本発明によれば、音圧の検出精度低下を抑制して音声解析を高精度に行うことができる音解析システム、音解析方法、及びプログラムを提供することができる。
【図面の簡単な説明】
【0008】
【
図1】本実施形態1に係る音解析システムの概略的なシステム構成を示すブロック図である。
【
図3】本実施形態1に係る情報処理装置の概略的なシステム構成を示すブロック図である。
【
図7】本実施形態1に係る音解析方法のフローの一例を示すフローチャートである。
【
図8】本実施形態2に係る端末本体を示す図である。
【
図9】本実施形態2に係る情報処理装置の概略的なシステム構成を示すブロック図である。
【
図10】発話判定部、距離推定部、及び音圧補正部が、端末本体に設けられる構成を示す図である。
【発明を実施するための形態】
【0009】
実施形態1
以下、図面を参照して本発明の実施形態について説明する。
図1は、本実施形態1に係る音解析システムの概略的なシステム構成を示すブロック図である。本実施形態に係る音解析システム1は、端末本体2と、端末本体2に無線通信回線を介して接続されている情報処理装置3と、を備えている。
【0010】
無線通信回線は、Wi-Fi(登録商標)(Wireless Fidelity)、Bluetooth(登録商標)、UWB(Ultra Wideband)などを含む。端末本体2と情報処理装置3とは、インターネットなどの通信網を介して通信接続されていてもよい。複数の端末本体2と情報処理装置3とが、通信網を介して通信接続されていてもよい。
【0011】
ユーザが装着する装具は、例えば、
図2に示す如く、端末本体2を首から吊り下げるウエラブル端末として構成されている。端末本体2には提げ紐が設けられている。ユーザは、提げ紐に首を通し、端末本体2を首から提げて装着することができる。
【0012】
端末本体2は、ユーザの音声などの周囲の音の音圧を取得する第1及び第2音圧取得部21、22と、第1及び第2音圧取得部21、22により取得された音圧を情報処理装置3に送信するデータ送信部23と、を有している。
【0013】
端末本体2には、第1音圧取得部21および第2音圧取得部22が所定距離を空けて設けられている。第1及び第2音圧取得部21、22は、第1及び第2音圧取得手段の一具体例である。第2音圧取得部22は、ユーザが端末本体2を首から提げて装着した状態で、ユーザの口から第1音圧取得部21により遠い位置に配置される。
【0014】
なお、第1音圧取得部21は、ユーザが端末本体2を首から提げて装着した状態で、ユーザの口から第2音圧取得部22により遠い位置に配置されてもよい。第1及び第2音圧取得部21、22のうちの少なくとも一方が、提げ紐などに設けられていてもよい。
【0015】
第1及び第2音圧取得部21、22は、音声などを収集するマイクロフォンなどで構成されている。第1及び第2音圧取得部21、22は、取得した音圧をデータ送信部23に出力する。データ送信部23は、第1及び第2音圧取得部21、22から出力された音圧データを情報処理装置3に送信する。
【0016】
情報処理装置3は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサ3aと、RAM(Random Access Memory)やROM(Read Only Memory)などの内部メモリ3bと、HDD(Hard Disk Drive)やSDD(Solid State Drive)などのストレージデバイス3cと、ディスプレイなどの周辺機器を接続するための入出力I/F3dと、装置外部の機器と通信を行う通信I/F3eと、を備えた通常のコンピュータのハードウェア構成を有する。
【0017】
情報処理装置3は、例えば、プロセッサ3aが内部メモリ3bを利用しながら、ストレージデバイス3cや内部メモリ3bなどに格納されたプログラムを実行することで、後述の各機能を実現することができる。
【0018】
図3は、本実施形態1に係る情報処理装置の概略的なシステム構成を示すブロック図である。情報処理装置3は、発話者を判定する発話判定部31と、第1音圧取得部21とユーザの口との間の距離を推定する距離推定部32と、音圧を補正する音圧補正部33と、を有している。
発話判定部31は、第1及び第2音圧取得部21、22から出力される音圧の発生源(以下、音圧発生源)が端末本体2を装着するユーザ(以下、装着ユーザ)であるか否かを判定する。すなわち、発話判定部31は、装着ユーザの発話があったか否かを判定している。この判定により、音圧発生源を装着ユーザに特定でき、より高精度な音圧補正を行うことができる。
【0019】
図4に示すように、音圧はその音圧発生源との距離に応じて減衰する特性を有している。このため、装着ユーザが発話し、発生源が近い場合の音圧比は、他のユーザが発話し、発生源が遠い場合の音圧比と比較して、大きくなる。
【0020】
第1及び第2音圧取得部21、22と音圧発生源との距離が近い場合の、第1音圧取得部21の音圧をV1N、第2音圧取得部22の音圧をV2N、第1音圧取得部21と音圧発生源との距離をR1N、第2音圧取得部22と音圧発生源との距離をR2N、とする。また、第1及び第2音圧取得部21、22と音圧発生源との距離が遠い場合の、第1音圧取得部21の音圧をV1F、第2音圧取得部22の音圧をV2F、第1音圧取得部21と音圧発生源との距離をR1F、第2音圧取得部22と音圧発生源との距離をR2F、とする。
【0021】
この場合、
図4に示す如く、第1及び第2音圧取得部21、22と音圧発生源との距離が近い場合の音圧比V
1N/V
2Nは、第1及び第2音圧取得部21、22と音圧発生源との距離が遠い場合の音圧比V
1F/V
2Fと比較して大きくなる(V
1N/V
2N>V
1F/V
2F)。
【0022】
このような音圧の特性を利用して、発話判定部31は、第1及び第2音圧取得部21、22から出力される音圧の比に基づいて、音圧発生源が装着ユーザであるか否かを判定する。
【0023】
例えば、発話判定部31は、第1音圧取得部21から出力される音圧を所定時間Δtの間で積分した第1積分値を算出する。発話判定部31は、第2音圧取得部22から出力される音圧を所定時間Δtの間で積分した第2積分値を算出する。所定時間Δtは、ユーザが発話している時間のうちの一部分を抽出した時間であり、その時間は第1及び第2音圧取得部21、22に予め設定されている。発話判定部31は、第1積分値と第2積分値との比が予め設定した閾値よりも大きいと判断した場合に、その音圧発生源が装着ユーザであると判定する。
【0024】
発話判定部31は、上述の如く、第1及び第2音圧取得部21、22により取得された音圧の積分値の比と閾値とを比較して、音圧発生源の判定を行っているが、これに限定されず、任意の判定方法が適用されてもよい。例えば、発話判定部31は、第1及び第2音圧取得部21、22により取得された音圧の平均値の比と閾値とを比較して、音圧発生源の判定を行ってもよい。さらに、発話判定部31は、第1及び第2音圧取得部21、22により取得された音圧の積分値又は平均値の差分と、閾値とを比較して、音圧発生源の判定を行ってもよい。
【0025】
距離推定部32は、第1音圧取得部21と装着ユーザの口との間の距離を推定する。距離推定部32は、距離推定手段の一具体例である。ここで、 音圧vは、音圧発生源の音量Vおよび音圧発生源と音圧取得部との距離Rを変数とした関数(v = f(V、R))で決まるという性質を有している。このため、2つの独立した音圧(v1、v2)を用いることで音圧発生源と音圧取得部との距離Rを一意に決めることができる。
【0026】
したがって、距離推定部32は、第1音圧取得部21により取得された音圧v1及び第2音圧取得部22により取得された音圧v2と、予め設定された距離対応マップと、に基づいて、第1音圧取得部21と装着ユーザの口との間の距離Rを推定する。
【0027】
図5は、距離対応マップの一例を示す図である。
図5に示す如く、実際に装着ユーザの口と第1音圧取得部21との間の距離をRとし、そのときに第1及び第2音圧取得部21、22により取得された音圧v1、v2を、その距離Rに対応付けて、距離対応マップを作成する。距離対応マップは、予め距離推定部32に設定されていてもよい。
【0028】
例えば、第1音圧取得部21により取得された音圧v1=3.0であり、第2音圧取得部22により取得された音圧v2=2.8である場合、距離推定部32は、
図5に示す距離対応マップを参照して、第1音圧取得部21と装着ユーザの口との間の距離R=4.2cmであると推定する。
【0029】
距離推定部32は、第1及び第2音圧取得部21、22により取得された音圧v1、v2と、予め設定された関数と、に基づいて、第1音圧取得部21と装着ユーザの口との間の距離Rを推定してもよい。ユーザの口と第1音圧取得部21との間の距離Rと、第1及び第2音圧取得部21、22により取得された音圧v1、v2との関係を示す上記関数R=f(v1、v2)が、距離推定部32に設定されていてもよい。
【0030】
距離推定部32は、ユーザの口と第1音圧取得部21との間の距離Rと、第1及び第2音圧取得部21、22により取得された音圧v1、v2との関係を学習した学習器を用いて、第1音圧取得部21と装着ユーザの口との間の距離Rを推定してもよい。
【0031】
第1及び第2音圧取得部21、22により取得された音圧v1、v2を学習器の入力値とし、ユーザの口と第1音圧取得部21との間の距離Rを学習器の出力として、学習器は機械学習を行う。
【0032】
学習器は、例えば、RNN(Recurrent neural Network)などのニューラルネットワークで構成されている。このRNNは、中間層にLSTM(Long Short Term Memory)を有していてもよい。学習器は、ニューラルネットワークの代わりに、SVM(Support Vector Machine)などの他の学習器で構成されてもよい。
【0033】
音圧補正部33は、第1及び第2音圧取得部21、22により取得された音圧v1、v2のうちの少なくとも一方の補正を行う。音圧補正部33は、音圧補正手段の一具体例である。例えば、音圧補正部33は、第1音圧取得部21と装着ユーザの口との距離の基準値と、距離推定部32により推定された距離Rと、の差分ΔRを算出する。第1音圧取得部21と装着ユーザの口との距離の基準値(以下、距離基準値)は、例えば、提げ紐で端末本体2を首から捩じれ等が無く真直ぐぶら提げたときに計測された、基準となる第1音圧取得部21と装着ユーザの口との距離である。距離基準値は、予め音圧補正部33に設定されている。
【0034】
音圧補正部33は、算出した差分ΔRと、補正量対応マップと、に基づいて、第1及び第2音圧取得部21、22により取得された音圧の補正量Δvを算出する。差分ΔRと第1及び第2音圧取得部21、22により取得された音圧の補正量Δvと、の対応関係は、予め実験的に求められ、補正量対応マップとして、音圧補正部33に設定されている。
図6は、補正量対応マップの一例を示す図である。
【0035】
音圧補正部33は、第1及び第2音圧取得部21、22により取得された音圧v1、v2に、上記算出した補正量Δvを加算することで、補正後の第1及び第2音圧取得部21、22の音圧(以下、補正音圧)を算出する。
【0036】
例えば、差分ΔRが0.5である場合、
図6に示す如く、音圧補正部33は、補正量対応マップを参照して、補正量Δvを0.1とする。音圧補正部33は、第1音圧取得部21により取得された音圧3.0に補正量0.1を加算して、第1音圧取得部21の補正音圧3.1を算出する。
【0037】
距離推定部32は、第2音圧取得部22と装着ユーザの口との間の距離を推定してもよい。この場合、実際に装着ユーザの口と第2音圧取得部22との間の距離をRとし、そのときに第1及び第2音圧取得部21、22により取得された音圧v1、v2を、距離Rに対応付けて、距離対応マップを作成する。距離推定部32は、この距離対応マップに基づいて、第2音圧取得部22と装着ユーザの口との間の距離Rを推定する。
【0038】
音圧補正部33は、第2音圧取得部22と装着ユーザの口との距離基準値と、距離推定部32により推定された距離Rと、の差分ΔRを算出する。音圧補正部33は、算出した差分ΔRと、補正量対応マップと、に基づいて、第1及び第2音圧取得部21、22により取得された音圧の補正量Δvを算出する。
【0039】
音圧補正部33は、算出した差分ΔRと、差分ΔRと補正量Δvとの関係を示す関数と、に基づいて、第1及び第2音圧取得部21、22により取得された音圧の補正量Δvを算出してもよい。
【0040】
音圧補正部33は、差分ΔRと補正量Δvとの関係を学習した学習器を用いて、第1及び第2音圧取得部21、22により取得された音圧の補正量Δvを算出してもよい。差分ΔRを学習器の入力値とし、第1及び第2音圧取得部21、22の音圧の補正量Δvを学習器の出力として、学習器は機械学習を行う。
【0041】
音圧補正部33は、第1及び第2音圧取得部21、22により取得された音圧に、上記算出した補正量Δvを加算することで、第1及び第2音圧取得部21、22の補正音圧を算出する。音圧補正部33は、第1又は第2音圧取得部21、22により取得された音圧に、上記算出した補正量Δvを加算することで、第1又は第2音圧取得部21、22の補正音圧を算出してもよい。
【0042】
例えば、発話者が装着ユーザに特定される場合などの環境下では、情報処理装置3は、発話判定部31を有しない構成であってもよい。この場合、音圧発生源の判定がされずに、距離推定部32は、第1音圧取得部21と装着ユーザの口との間の距離を推定し、音圧補正部33は、第1及び第2音圧取得部21、22の補正音圧を算出する。これにより、より処理が簡略化される。
【0043】
次に、本実施形態1に係る音解析方法について説明する。
図7は、本実施形態1に係る音解析方法のフローの一例を示すフローチャートである。
【0044】
第1及び第2音圧取得部21、22は、ユーザの音圧を取得し(ステップS101)、データ送信部23に出力する。データ送信部23は、第1及び第2音圧取得部21、22から出力された音圧を情報処理装置3に送信する。
【0045】
発話判定部31は、第1及び第2音圧取得部21、22から出力される音圧の比に基づいて、音圧発生源が装着ユーザであるか否かを判定する(ステップS102)。
【0046】
発話判定部31は、音圧発生源が装着ユーザでないと判定した場合(ステップS102のNO)、本処理を終了する。
【0047】
一方、発話判定部31は、音圧発生源が装着ユーザであると判定した場合(ステップS102のYES)、距離推定部32は、第1音圧取得部21により取得された音圧及び第2音圧取得部22により取得された音圧と、距離対応マップと、に基づいて、第1音圧取得部21と装着ユーザの口との間の距離を推定する(ステップS103)。
【0048】
音圧補正部33は、第1音圧取得部21と装着ユーザの口との距離基準値と、距離推定部32により推定された距離と、の差分を算出する(ステップS104)。音圧補正部33は、算出した差分と、補正量対応マップと、に基づいて、第1及び第2音圧取得部21、22により取得された音圧の補正量を算出する(ステップS105)。
【0049】
音圧補正部33は、第1及び第2音圧取得部21、22により取得された音圧に、上記算出した補正量を加算することで、第1及び第2音圧取得部21、22の補正音圧を算出する(ステップS106)。
【0050】
以上、本実施形態1に係る音解析システム1は、ユーザが装着する装具に夫々配置され、ユーザが装具を装着した状態でユーザの口から異なる距離の位置に夫々配置され、ユーザの音声の音圧を夫々取得する第1及び第2音圧取得部21、22と、第1音圧取得部21により取得された音圧と、第2音圧取得部22により取得された音圧と、に基づいて、第1又は第2音圧取得部21、22とユーザの口との間の距離を推定する距離推定部32と、第1又は第2音圧取得部21、22とユーザの口との距離の基準値と、距離推定部32により推定された距離と、の差分を算出し、差分に基づいて、第1及び第2音圧取得部21、22のうちの少なくとも一方により取得された音圧を補正する音圧補正部33と、を備えている。
【0051】
これにより、ユーザの口と、第1及び第2音圧取得部21、22との距離が変化した場合でも、その変化した距離に応じて、音圧が適正に補正される。このため、音圧の検出精度低下を抑制して音声解析を高精度に行うことができる。
【0052】
実施形態2
本実施形態2において、
図8に示す如く、端末本体20には、第1及び第2音圧取得部21、22に加えて更に加速度センサ24が設けられている。加速度センサ24は、端末本体20の加速度を検出する。加速度センサ24により検出された加速度に基づいて、端末本体20の振幅や周期が計算され、装着ユーザの動作(頷きなど)が推定される。このとき、振り子の原理により、動作が同じでも提げ紐の長さが変わると端末本体20の振幅や周期は変わってしまう。このため、提げ紐の長さに応じて端末本体20の振幅や周期が補正されるのが好ましい。
【0053】
本実施形態2に係る音声解析システムは、提げ紐の長さに応じて変化する差分ΔRに基づいて、端末本体20の振幅及び周期のうちの少なくとも一方を補正する。
【0054】
図9は、本実施形態2に係る情報処理装置の概略的なシステム構成を示すブロック図である。本実施形態2に係る情報処理装置30は、上述の発話判定部31、距離推定部32、及び音圧補正部33に加えて、振幅算出部34と、振幅補正部35と、周期算出部36と、周期補正部37と、を有している。
【0055】
振幅算出部34は、加速度センサ24により検出された加速度に基づいて、端末本体20の振幅を算出する。振幅算出部34は、算出手段の一具体例である。振幅補正部35は、振幅算出部34により算出された振幅の補正を行う。振幅補正部35は、補正手段の一具体例である。
【0056】
例えば、振幅補正部35は、差分ΔRと補正量対応マップと、に基づいて、振幅算出部34により算出された振幅の補正量を算出する。差分ΔRと振幅算出部34により算出される振幅の補正量と、の対応関係は、予め実験的に求められ、補正量対応マップとして、振幅補正部35に設定されている。なお、振幅補正部35は、差分ΔRと振幅算出部34により算出される振幅の補正量との関係を示す関数又は学習器を用いて、振幅の補正量を算出してもよい。振幅補正部35は、振幅算出部34により算出された振幅に、上記算出した補正量を加算することで、補正後の振幅を算出する。
【0057】
同様に、周期算出部36は、加速度センサ24により検出された加速度に基づいて、端末本体20の周期を算出する。周期算出部36は、算出手段の一具体例である。周期補正部37は、周期算出部36により算出された周期の補正を行う。周期補正部37は、補正手段の一具体例である。
【0058】
例えば、周期補正部37は、差分ΔRと補正量対応マップと、に基づいて、周期算出部36により算出された周期の補正量を算出する。差分ΔRと周期算出部36により算出された周期の補正量と、の対応関係は、予め実験的に求められ、補正量対応マップとして、周期補正部37に設定されている。なお、周期補正部37は、差分ΔRと周期算出部36により算出された周期の補正量との関係を示す関数又は学習器を用いて、周期の補正量を算出してもよい。周期補正部37は、周期算出部36により算出された周期に、上記算出した補正量を加算することで、補正後の周期を算出する。
【0059】
さらに、端末本体20に加速度センサ24以外の、例えば、心拍センサ、歩数センサなどのセンサが設けられていてもよい。この場合も、そのセンサにより取得した値が装着ユーザの口からの距離に応じて変化する場合、上記同様の方法で補正することが可能である。
【0060】
本実施形態2において、上記実施形態1と同一部分には同一符号を付して詳細な説明は省略する。
【0061】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0062】
例えば、上記実施形態において、発話判定部31、距離推定部32、音圧補正部33、振幅算出部34、振幅補正部35、周期算出部36及び周期補正部37のうち少なくとも1つが、端末本体2に設けられる構成であってもよい。
【0063】
図10は、発話判定部、距離推定部、及び音圧補正部が、端末本体に設けられる構成を示す図である。この場合は、情報処理装置3による処理が不要となるため、端末本体40は、データ送信部23を有していなくともよい。したがって、音解析システムの構成がより簡略化することができる。
【0064】
また、上記実施形態において、端末本体2が提げ紐によって首から提げられるウエラブル端末として構成されているが、これに限定されない。端末本体2が、例えば、ネックレス、眼鏡(サングラスなどを含む)、イヤホン、ヘッドギア、時計、ブレスレット、ウエアなどに組み込まれたウエラブル端末として構成されてもよい。なお、いずれの構成においても、上記実施形態1及び2と同様に、第1及び第2音圧取得部21、22は、ユーザがウエラブル端末を装着した状態でユーザの口から異なる距離の位置に夫々配置される。
【0065】
本発明は、例えば、
図6に示す処理を、プロセッサ3aにコンピュータプログラムを実行させることにより実現することも可能である。
【0066】
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
【0067】
プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0068】
上述した各実施形態に係る情報処理装置3を構成する各部は、プログラムにより実現するだけでなく、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアにより実現することもできる。
【符号の説明】
【0069】
1 音解析システム、2 端末本体、3 情報処理装置、20 端末本体、21 第1音圧取得部、22 第2音圧取得部、23 データ送信部、24 加速度センサ、30 情報処理装置、31 発話判定部、32 距離推定部、33 音圧補正部、34 振幅算出部、35 振幅補正部、36 周期算出部、37 周期補正部、40 端末本体