特許7363716 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧

特許7363716音解析システム、音解析方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-10

(45)【発行日】2023-10-18

(54)【発明の名称】音解析システム、音解析方法、及びプログラム

(51)【国際特許分類】

G10L 25/21 20130101AFI20231011BHJP

G06F 3/16 20060101ALI20231011BHJP

【ＦＩ】

G10L25/21

G06F3/16 510

【請求項の数】 8

(21)【出願番号】P 2020141396

(22)【出願日】2020-08-25

(65)【公開番号】P2022037320

(43)【公開日】2022-03-09

【審査請求日】2022-08-09

(73)【特許権者】

【識別番号】000003207

【氏名又は名称】トヨタ自動車株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】光田英司

(72)【発明者】

【氏名】菅田光留

【審査官】中村天真

(56)【参考文献】

【文献】特開２０１６－０４８３０２（ＪＰ，Ａ）

【文献】特開２０２０－０３４５４２（ＪＰ，Ａ）

【文献】特開２０１６－１４４１３４（ＪＰ，Ａ）

【文献】特開平０３－２７４５９９（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／００５４６８３（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－２５／９３

Ｇ０６Ｆ３／１６

(57)【特許請求の範囲】

【請求項1】

ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置され、前記ユーザの音声の音圧を夫々取得する第１及び第２音圧取得手段と、
前記第１音圧取得手段により取得された音圧と、前記第２音圧取得手段により取得された音圧と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定する距離推定手段と、
前記第１又は第２音圧取得手段とユーザの口との距離の基準値と、前記距離推定手段により推定された距離と、の差分を算出し、該差分に基づいて、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧を補正する音圧補正手段と、
前記第１及び第２音圧取得手段により取得された音圧の比に基づいて、前記音圧の発生源が前記ユーザであるか否かを判定する発話判定手段と、
を備える、音解析システム。

【請求項2】

ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置され、前記ユーザの音声の音圧を夫々取得する第１及び第２音圧取得手段と、
前記第１音圧取得手段により取得された音圧と、前記第２音圧取得手段により取得された音圧と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定する距離推定手段と、
前記第１又は第２音圧取得手段とユーザの口との距離の基準値と、前記距離推定手段により推定された距離と、の差分を算出し、該差分に基づいて、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧を補正する音圧補正手段と、
前記ユーザが装着する端末本体に設けられ、前記端末本体の加速度を検出する加速度検出手段と、
前記加速度検出手段により検出された加速度に基づいて、前記端末本体の振幅及び周期のうちの少なくとも一方を算出する算出手段と、
前記差分に基づいて、前記算出手段により算出された前記端末本体の振幅及び周期のうちの少なくとも一方を補正する補正手段と、
を備える、音解析システム。

【請求項3】

請求項１又は２記載の音解析システムであって、
前記距離推定手段は、前記第１及び第２音圧取得手段により取得された音圧と、前記第１及び第２音圧取得手段により取得された音圧と前記第１又は第２音圧取得手段とユーザの口との間の距離との関係を示す距離対応マップ、関数又は学習器と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定する、音解析システム。

【請求項4】

請求項１乃至３のうちいずれか１項記載の音解析システムであって、
前記音圧補正手段は、前記差分と、前記差分および音圧の補正量の関係を示す補正量対応マップ、関数又は学習器と、に基づいて、第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧の補正量を算出し、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧に、該算出した補正量を加算して補正音圧を算出する、音解析システム。

【請求項5】

ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第１及び第２音圧取得手段により、前記ユーザの音声の音圧を夫々取得するステップと、
前記第１音圧取得手段により取得された音圧と、前記第２音圧取得手段により取得された音圧と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定するステップと、
前記第１又は第２音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧を補正するステップと、
前記第１及び第２音圧取得手段により取得された音圧の比に基づいて、前記音圧の発生源が前記ユーザであるか否かを判定するステップと、
を含む、音解析方法。

【請求項6】

ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第１及び第２音圧取得手段により、前記ユーザの音声の音圧を夫々取得するステップと、
前記第１音圧取得手段により取得された音圧と、前記第２音圧取得手段により取得された音圧と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定するステップと、
前記第１又は第２音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧を補正するステップと、
前記ユーザが装着する端末本体の加速度を検出するステップと、
前記検出された加速度に基づいて、前記端末本体の振幅及び周期のうちの少なくとも一方を算出するステップと、
前記差分に基づいて、前記算出された前記端末本体の振幅及び周期のうちの少なくとも一方を補正するステップと、
を含む、音解析方法。

【請求項7】

ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第１及び第２音圧取得手段により、前記ユーザの音声の音圧を夫々取得する処理と、
前記第１音圧取得手段により取得された音圧と、前記第２音圧取得手段により取得された音圧と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定する処理と、
前記第１又は第２音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧を補正する処理と、
前記第１及び第２音圧取得手段により取得された音圧の比に基づいて、前記音圧の発生源が前記ユーザであるか否かを判定する処理と、
をコンピュータに実行させるプログラム。

【請求項8】

ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第１及び第２音圧取得手段により、前記ユーザの音声の音圧を夫々取得する処理と、
前記第１音圧取得手段により取得された音圧と、前記第２音圧取得手段により取得された音圧と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定する処理と、
前記第１又は第２音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧を補正する処理と、
前記ユーザが装着する端末本体の加速度を検出する処理と、
前記検出された加速度に基づいて、前記端末本体の振幅及び周期のうちの少なくとも一方を算出する処理と、
前記差分に基づいて、前記算出された前記端末本体の振幅及び周期のうちの少なくとも一方を補正する処理と、
をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音解析システム、音解析方法、及びプログラムに関する。

【背景技術】

【0002】

ユーザが首からウェアラブル端末を吊り下げ、ユーザの口から異なる距離に設けられた２つの音圧センサを備える音声解析システムが開示されている（例えば、特許文献１参照）。音圧解析システムは、各音声センサにより取得された音圧比に基づき、その音圧発生源が、ユーザか、又は、周囲の発話か、を判定する。

【先行技術文献】

【特許文献】

【0003】

【文献】特許第６１９１７４７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、音声センサが設けられた吊り下げ紐が捻じれるなどの理由によって、ユーザの口と、各音声センサとの距離が変化し、各音声センサにより取得される音圧も変化してしまうことがある。この場合、音圧の検出精度が低下し音声解析の精度も低下する虞がある。

【0005】

本発明は、このような問題点を解決するためになされたものであり、音圧の検出精度低下を抑制して音声解析を高精度に行うことができる音解析システム、音解析方法、及びプログラムを提供することを主たる目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するための本発明の一態様は、
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置され、前記ユーザの音声の音圧を夫々取得する第１及び第２音圧取得手段と、
前記第１音圧取得手段により取得された音圧と、前記第２音圧取得手段により取得された音圧と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定する距離推定手段と、
前記第１又は第２音圧取得手段とユーザの口との距離の基準値と、前記距離推定手段により推定された距離と、の差分を算出し、該差分に基づいて、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧を補正する音圧補正手段と、
を備える、音解析システム
である。
この一態様において、前記距離推定手段は、前記第１及び第２音圧取得手段により取得された音圧と、前記第１及び第２音圧取得手段により取得された音圧と前記第１又は第２音圧取得手段とユーザの口との間の距離との関係を示す距離対応マップ、関数又は学習器と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定してもよい。
この一態様において、前記音圧補正手段は、前記差分と、前記差分および音圧の補正量の関係を示す補正量対応マップ、関数又は学習器と、に基づいて、第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧の補正量を算出し、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧に、該算出した補正量を加算して補正音圧を算出してもよい。
この一態様において、前記第１及び第２音圧取得手段により取得された音圧の比に基づいて、前記音圧の発生源が前記ユーザであるか否かを判定する発話判定手段を更に備えていてもよい。
この一態様において、前記ユーザが装着する端末本体に設けられ、前記端末本体の加速度を検出する加速度検出手段と、前記加速度検出手段により検出された加速度に基づいて、前記端末本体の振幅及び周期のうちの少なくとも一方を算出する算出手段と、前記差分に基づいて、前記算出手段により算出された前記端末本体の振幅及び周期のうちの少なくとも一方を補正する補正手段と、を更に備えていてもよい。
上記目的を達成するための本発明の一態様は、
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第１及び第２音圧取得手段により、前記ユーザの音声の音圧を夫々取得するステップと、
前記第１音圧取得手段により取得された音圧と、前記第２音圧取得手段により取得された音圧と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定するステップと、
前記第１又は第２音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧を補正するステップと、
を含む、音解析方法
であってもよい。
上記目的を達成するための本発明の一態様は、
ユーザが装着する装具に夫々配置され、前記ユーザが前記装具を装着した状態で前記ユーザの口から異なる距離の位置に夫々配置された第１及び第２音圧取得手段により、前記ユーザの音声の音圧を夫々取得する処理と、
前記第１音圧取得手段により取得された音圧と、前記第２音圧取得手段により取得された音圧と、に基づいて、前記第１又は第２音圧取得手段とユーザの口との間の距離を推定する処理と、
前記第１又は第２音圧取得手段とユーザの口との距離の基準値と、前記推定された距離と、の差分を算出し、該差分に基づいて、前記第１及び第２音圧取得手段のうちの少なくとも一方により取得された音圧を補正する処理と、
をコンピュータに実行させるプログラム
であってもよい。

【発明の効果】

【0007】

本発明によれば、音圧の検出精度低下を抑制して音声解析を高精度に行うことができる音解析システム、音解析方法、及びプログラムを提供することができる。

【図面の簡単な説明】

【0008】

【図1】本実施形態１に係る音解析システムの概略的なシステム構成を示すブロック図である。

【図2】端末本体を示す図である。

【図3】本実施形態１に係る情報処理装置の概略的なシステム構成を示すブロック図である。

【図4】音圧の特性を示す図である。

【図5】距離対応マップの一例を示す図である。

【図6】補正量対応マップの一例を示す図である。

【図7】本実施形態１に係る音解析方法のフローの一例を示すフローチャートである。

【図8】本実施形態２に係る端末本体を示す図である。

【図9】本実施形態２に係る情報処理装置の概略的なシステム構成を示すブロック図である。

【図10】発話判定部、距離推定部、及び音圧補正部が、端末本体に設けられる構成を示す図である。

【発明を実施するための形態】

【0009】

実施形態１
以下、図面を参照して本発明の実施形態について説明する。図１は、本実施形態１に係る音解析システムの概略的なシステム構成を示すブロック図である。本実施形態に係る音解析システム１は、端末本体２と、端末本体２に無線通信回線を介して接続されている情報処理装置３と、を備えている。

【0010】

無線通信回線は、Ｗｉ－Ｆｉ（登録商標）（Wireless Fidelity）、Bluetooth（登録商標）、ＵＷＢ（Ultra Wideband）などを含む。端末本体２と情報処理装置３とは、インターネットなどの通信網を介して通信接続されていてもよい。複数の端末本体２と情報処理装置３とが、通信網を介して通信接続されていてもよい。

【0011】

ユーザが装着する装具は、例えば、図２に示す如く、端末本体２を首から吊り下げるウエラブル端末として構成されている。端末本体２には提げ紐が設けられている。ユーザは、提げ紐に首を通し、端末本体２を首から提げて装着することができる。

【0012】

端末本体２は、ユーザの音声などの周囲の音の音圧を取得する第１及び第２音圧取得部２１、２２と、第１及び第２音圧取得部２１、２２により取得された音圧を情報処理装置３に送信するデータ送信部２３と、を有している。

【0013】

端末本体２には、第１音圧取得部２１および第２音圧取得部２２が所定距離を空けて設けられている。第１及び第２音圧取得部２１、２２は、第１及び第２音圧取得手段の一具体例である。第２音圧取得部２２は、ユーザが端末本体２を首から提げて装着した状態で、ユーザの口から第１音圧取得部２１により遠い位置に配置される。

【0014】

なお、第１音圧取得部２１は、ユーザが端末本体２を首から提げて装着した状態で、ユーザの口から第２音圧取得部２２により遠い位置に配置されてもよい。第１及び第２音圧取得部２１、２２のうちの少なくとも一方が、提げ紐などに設けられていてもよい。

【0015】

第１及び第２音圧取得部２１、２２は、音声などを収集するマイクロフォンなどで構成されている。第１及び第２音圧取得部２１、２２は、取得した音圧をデータ送信部２３に出力する。データ送信部２３は、第１及び第２音圧取得部２１、２２から出力された音圧データを情報処理装置３に送信する。

【0016】

情報処理装置３は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などのプロセッサ３ａと、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などの内部メモリ３ｂと、ＨＤＤ（Hard Disk Drive）やＳＤＤ（Solid State Drive）などのストレージデバイス３ｃと、ディスプレイなどの周辺機器を接続するための入出力Ｉ／Ｆ３ｄと、装置外部の機器と通信を行う通信Ｉ／Ｆ３ｅと、を備えた通常のコンピュータのハードウェア構成を有する。

【0017】

情報処理装置３は、例えば、プロセッサ３ａが内部メモリ３ｂを利用しながら、ストレージデバイス３ｃや内部メモリ３ｂなどに格納されたプログラムを実行することで、後述の各機能を実現することができる。

【0018】

図３は、本実施形態１に係る情報処理装置の概略的なシステム構成を示すブロック図である。情報処理装置３は、発話者を判定する発話判定部３１と、第１音圧取得部２１とユーザの口との間の距離を推定する距離推定部３２と、音圧を補正する音圧補正部３３と、を有している。
発話判定部３１は、第１及び第２音圧取得部２１、２２から出力される音圧の発生源（以下、音圧発生源）が端末本体２を装着するユーザ（以下、装着ユーザ）であるか否かを判定する。すなわち、発話判定部３１は、装着ユーザの発話があったか否かを判定している。この判定により、音圧発生源を装着ユーザに特定でき、より高精度な音圧補正を行うことができる。

【0019】

図４に示すように、音圧はその音圧発生源との距離に応じて減衰する特性を有している。このため、装着ユーザが発話し、発生源が近い場合の音圧比は、他のユーザが発話し、発生源が遠い場合の音圧比と比較して、大きくなる。

【0020】

第１及び第２音圧取得部２１、２２と音圧発生源との距離が近い場合の、第１音圧取得部２１の音圧をＶ_１Ｎ、第２音圧取得部２２の音圧をＶ_２Ｎ、第１音圧取得部２１と音圧発生源との距離をＲ_１Ｎ、第２音圧取得部２２と音圧発生源との距離をＲ_２Ｎ、とする。また、第１及び第２音圧取得部２１、２２と音圧発生源との距離が遠い場合の、第１音圧取得部２１の音圧をＶ_１Ｆ、第２音圧取得部２２の音圧をＶ_２Ｆ、第１音圧取得部２１と音圧発生源との距離をＲ_１Ｆ、第２音圧取得部２２と音圧発生源との距離をＲ_２Ｆ、とする。

【0021】

この場合、図４に示す如く、第１及び第２音圧取得部２１、２２と音圧発生源との距離が近い場合の音圧比Ｖ_１Ｎ／Ｖ_２Ｎは、第１及び第２音圧取得部２１、２２と音圧発生源との距離が遠い場合の音圧比Ｖ_１Ｆ／Ｖ_２Ｆと比較して大きくなる（Ｖ_１Ｎ／Ｖ_２Ｎ＞Ｖ_１Ｆ／Ｖ_２Ｆ）。

【0022】

このような音圧の特性を利用して、発話判定部３１は、第１及び第２音圧取得部２１、２２から出力される音圧の比に基づいて、音圧発生源が装着ユーザであるか否かを判定する。

【0023】

例えば、発話判定部３１は、第１音圧取得部２１から出力される音圧を所定時間Δｔの間で積分した第１積分値を算出する。発話判定部３１は、第２音圧取得部２２から出力される音圧を所定時間Δｔの間で積分した第２積分値を算出する。所定時間Δｔは、ユーザが発話している時間のうちの一部分を抽出した時間であり、その時間は第１及び第２音圧取得部２１、２２に予め設定されている。発話判定部３１は、第１積分値と第２積分値との比が予め設定した閾値よりも大きいと判断した場合に、その音圧発生源が装着ユーザであると判定する。

【0024】

発話判定部３１は、上述の如く、第１及び第２音圧取得部２１、２２により取得された音圧の積分値の比と閾値とを比較して、音圧発生源の判定を行っているが、これに限定されず、任意の判定方法が適用されてもよい。例えば、発話判定部３１は、第１及び第２音圧取得部２１、２２により取得された音圧の平均値の比と閾値とを比較して、音圧発生源の判定を行ってもよい。さらに、発話判定部３１は、第１及び第２音圧取得部２１、２２により取得された音圧の積分値又は平均値の差分と、閾値とを比較して、音圧発生源の判定を行ってもよい。

【0025】

距離推定部３２は、第１音圧取得部２１と装着ユーザの口との間の距離を推定する。距離推定部３２は、距離推定手段の一具体例である。ここで、音圧ｖは、音圧発生源の音量Ｖおよび音圧発生源と音圧取得部との距離Ｒを変数とした関数（ｖ＝ｆ(Ｖ、Ｒ)）で決まるという性質を有している。このため、２つの独立した音圧（ｖ１、ｖ２）を用いることで音圧発生源と音圧取得部との距離Ｒを一意に決めることができる。

【0026】

したがって、距離推定部３２は、第１音圧取得部２１により取得された音圧ｖ１及び第２音圧取得部２２により取得された音圧ｖ２と、予め設定された距離対応マップと、に基づいて、第１音圧取得部２１と装着ユーザの口との間の距離Ｒを推定する。

【0027】

図５は、距離対応マップの一例を示す図である。図５に示す如く、実際に装着ユーザの口と第１音圧取得部２１との間の距離をＲとし、そのときに第１及び第２音圧取得部２１、２２により取得された音圧ｖ１、ｖ２を、その距離Ｒに対応付けて、距離対応マップを作成する。距離対応マップは、予め距離推定部３２に設定されていてもよい。

【0028】

例えば、第１音圧取得部２１により取得された音圧ｖ１＝３．０であり、第２音圧取得部２２により取得された音圧ｖ２＝２．８である場合、距離推定部３２は、図５に示す距離対応マップを参照して、第１音圧取得部２１と装着ユーザの口との間の距離Ｒ＝４．２ｃｍであると推定する。

【0029】

距離推定部３２は、第１及び第２音圧取得部２１、２２により取得された音圧ｖ１、ｖ２と、予め設定された関数と、に基づいて、第１音圧取得部２１と装着ユーザの口との間の距離Ｒを推定してもよい。ユーザの口と第１音圧取得部２１との間の距離Ｒと、第１及び第２音圧取得部２１、２２により取得された音圧ｖ１、ｖ２との関係を示す上記関数Ｒ＝ｆ（ｖ１、ｖ２）が、距離推定部３２に設定されていてもよい。

【0030】

距離推定部３２は、ユーザの口と第１音圧取得部２１との間の距離Ｒと、第１及び第２音圧取得部２１、２２により取得された音圧ｖ１、ｖ２との関係を学習した学習器を用いて、第１音圧取得部２１と装着ユーザの口との間の距離Ｒを推定してもよい。

【0031】

第１及び第２音圧取得部２１、２２により取得された音圧ｖ１、ｖ２を学習器の入力値とし、ユーザの口と第１音圧取得部２１との間の距離Ｒを学習器の出力として、学習器は機械学習を行う。

【0032】

学習器は、例えば、ＲＮＮ（Recurrent neural Network）などのニューラルネットワークで構成されている。このＲＮＮは、中間層にＬＳＴＭ（Long Short Term Memory）を有していてもよい。学習器は、ニューラルネットワークの代わりに、ＳＶＭ（Support Vector Machine）などの他の学習器で構成されてもよい。

【0033】

音圧補正部３３は、第１及び第２音圧取得部２１、２２により取得された音圧ｖ１、ｖ２のうちの少なくとも一方の補正を行う。音圧補正部３３は、音圧補正手段の一具体例である。例えば、音圧補正部３３は、第１音圧取得部２１と装着ユーザの口との距離の基準値と、距離推定部３２により推定された距離Ｒと、の差分ΔＲを算出する。第１音圧取得部２１と装着ユーザの口との距離の基準値（以下、距離基準値）は、例えば、提げ紐で端末本体２を首から捩じれ等が無く真直ぐぶら提げたときに計測された、基準となる第１音圧取得部２１と装着ユーザの口との距離である。距離基準値は、予め音圧補正部３３に設定されている。

【0034】

音圧補正部３３は、算出した差分ΔＲと、補正量対応マップと、に基づいて、第１及び第２音圧取得部２１、２２により取得された音圧の補正量Δｖを算出する。差分ΔＲと第１及び第２音圧取得部２１、２２により取得された音圧の補正量Δｖと、の対応関係は、予め実験的に求められ、補正量対応マップとして、音圧補正部３３に設定されている。図６は、補正量対応マップの一例を示す図である。

【0035】

音圧補正部３３は、第１及び第２音圧取得部２１、２２により取得された音圧ｖ１、ｖ２に、上記算出した補正量Δｖを加算することで、補正後の第１及び第２音圧取得部２１、２２の音圧（以下、補正音圧）を算出する。

【0036】

例えば、差分ΔＲが０．５である場合、図６に示す如く、音圧補正部３３は、補正量対応マップを参照して、補正量Δｖを０．１とする。音圧補正部３３は、第１音圧取得部２１により取得された音圧３．０に補正量０．１を加算して、第１音圧取得部２１の補正音圧３．１を算出する。

【0037】

距離推定部３２は、第２音圧取得部２２と装着ユーザの口との間の距離を推定してもよい。この場合、実際に装着ユーザの口と第２音圧取得部２２との間の距離をＲとし、そのときに第１及び第２音圧取得部２１、２２により取得された音圧ｖ１、ｖ２を、距離Ｒに対応付けて、距離対応マップを作成する。距離推定部３２は、この距離対応マップに基づいて、第２音圧取得部２２と装着ユーザの口との間の距離Ｒを推定する。

【0038】

音圧補正部３３は、第２音圧取得部２２と装着ユーザの口との距離基準値と、距離推定部３２により推定された距離Ｒと、の差分ΔＲを算出する。音圧補正部３３は、算出した差分ΔＲと、補正量対応マップと、に基づいて、第１及び第２音圧取得部２１、２２により取得された音圧の補正量Δｖを算出する。

【0039】

音圧補正部３３は、算出した差分ΔＲと、差分ΔＲと補正量Δｖとの関係を示す関数と、に基づいて、第１及び第２音圧取得部２１、２２により取得された音圧の補正量Δｖを算出してもよい。

【0040】

音圧補正部３３は、差分ΔＲと補正量Δｖとの関係を学習した学習器を用いて、第１及び第２音圧取得部２１、２２により取得された音圧の補正量Δｖを算出してもよい。差分ΔＲを学習器の入力値とし、第１及び第２音圧取得部２１、２２の音圧の補正量Δｖを学習器の出力として、学習器は機械学習を行う。

【0041】

音圧補正部３３は、第１及び第２音圧取得部２１、２２により取得された音圧に、上記算出した補正量Δｖを加算することで、第１及び第２音圧取得部２１、２２の補正音圧を算出する。音圧補正部３３は、第１又は第２音圧取得部２１、２２により取得された音圧に、上記算出した補正量Δｖを加算することで、第１又は第２音圧取得部２１、２２の補正音圧を算出してもよい。

【0042】

例えば、発話者が装着ユーザに特定される場合などの環境下では、情報処理装置３は、発話判定部３１を有しない構成であってもよい。この場合、音圧発生源の判定がされずに、距離推定部３２は、第１音圧取得部２１と装着ユーザの口との間の距離を推定し、音圧補正部３３は、第１及び第２音圧取得部２１、２２の補正音圧を算出する。これにより、より処理が簡略化される。

【0043】

次に、本実施形態１に係る音解析方法について説明する。図７は、本実施形態１に係る音解析方法のフローの一例を示すフローチャートである。

【0044】

第１及び第２音圧取得部２１、２２は、ユーザの音圧を取得し（ステップＳ１０１）、データ送信部２３に出力する。データ送信部２３は、第１及び第２音圧取得部２１、２２から出力された音圧を情報処理装置３に送信する。

【0045】

発話判定部３１は、第１及び第２音圧取得部２１、２２から出力される音圧の比に基づいて、音圧発生源が装着ユーザであるか否かを判定する（ステップＳ１０２）。

【0046】

発話判定部３１は、音圧発生源が装着ユーザでないと判定した場合（ステップＳ１０２のＮＯ）、本処理を終了する。

【0047】

一方、発話判定部３１は、音圧発生源が装着ユーザであると判定した場合（ステップＳ１０２のＹＥＳ）、距離推定部３２は、第１音圧取得部２１により取得された音圧及び第２音圧取得部２２により取得された音圧と、距離対応マップと、に基づいて、第１音圧取得部２１と装着ユーザの口との間の距離を推定する（ステップＳ１０３）。

【0048】

音圧補正部３３は、第１音圧取得部２１と装着ユーザの口との距離基準値と、距離推定部３２により推定された距離と、の差分を算出する（ステップＳ１０４）。音圧補正部３３は、算出した差分と、補正量対応マップと、に基づいて、第１及び第２音圧取得部２１、２２により取得された音圧の補正量を算出する（ステップＳ１０５）。

【0049】

音圧補正部３３は、第１及び第２音圧取得部２１、２２により取得された音圧に、上記算出した補正量を加算することで、第１及び第２音圧取得部２１、２２の補正音圧を算出する（ステップＳ１０６）。

【0050】

以上、本実施形態１に係る音解析システム１は、ユーザが装着する装具に夫々配置され、ユーザが装具を装着した状態でユーザの口から異なる距離の位置に夫々配置され、ユーザの音声の音圧を夫々取得する第１及び第２音圧取得部２１、２２と、第１音圧取得部２１により取得された音圧と、第２音圧取得部２２により取得された音圧と、に基づいて、第１又は第２音圧取得部２１、２２とユーザの口との間の距離を推定する距離推定部３２と、第１又は第２音圧取得部２１、２２とユーザの口との距離の基準値と、距離推定部３２により推定された距離と、の差分を算出し、差分に基づいて、第１及び第２音圧取得部２１、２２のうちの少なくとも一方により取得された音圧を補正する音圧補正部３３と、を備えている。

【0051】

これにより、ユーザの口と、第１及び第２音圧取得部２１、２２との距離が変化した場合でも、その変化した距離に応じて、音圧が適正に補正される。このため、音圧の検出精度低下を抑制して音声解析を高精度に行うことができる。

【0052】

実施形態２
本実施形態２において、図８に示す如く、端末本体２０には、第１及び第２音圧取得部２１、２２に加えて更に加速度センサ２４が設けられている。加速度センサ２４は、端末本体２０の加速度を検出する。加速度センサ２４により検出された加速度に基づいて、端末本体２０の振幅や周期が計算され、装着ユーザの動作（頷きなど）が推定される。このとき、振り子の原理により、動作が同じでも提げ紐の長さが変わると端末本体２０の振幅や周期は変わってしまう。このため、提げ紐の長さに応じて端末本体２０の振幅や周期が補正されるのが好ましい。

【0053】

本実施形態２に係る音声解析システムは、提げ紐の長さに応じて変化する差分ΔＲに基づいて、端末本体２０の振幅及び周期のうちの少なくとも一方を補正する。

【0054】

図９は、本実施形態２に係る情報処理装置の概略的なシステム構成を示すブロック図である。本実施形態２に係る情報処理装置３０は、上述の発話判定部３１、距離推定部３２、及び音圧補正部３３に加えて、振幅算出部３４と、振幅補正部３５と、周期算出部３６と、周期補正部３７と、を有している。

【0055】

振幅算出部３４は、加速度センサ２４により検出された加速度に基づいて、端末本体２０の振幅を算出する。振幅算出部３４は、算出手段の一具体例である。振幅補正部３５は、振幅算出部３４により算出された振幅の補正を行う。振幅補正部３５は、補正手段の一具体例である。

【0056】

例えば、振幅補正部３５は、差分ΔＲと補正量対応マップと、に基づいて、振幅算出部３４により算出された振幅の補正量を算出する。差分ΔＲと振幅算出部３４により算出される振幅の補正量と、の対応関係は、予め実験的に求められ、補正量対応マップとして、振幅補正部３５に設定されている。なお、振幅補正部３５は、差分ΔＲと振幅算出部３４により算出される振幅の補正量との関係を示す関数又は学習器を用いて、振幅の補正量を算出してもよい。振幅補正部３５は、振幅算出部３４により算出された振幅に、上記算出した補正量を加算することで、補正後の振幅を算出する。

【0057】

同様に、周期算出部３６は、加速度センサ２４により検出された加速度に基づいて、端末本体２０の周期を算出する。周期算出部３６は、算出手段の一具体例である。周期補正部３７は、周期算出部３６により算出された周期の補正を行う。周期補正部３７は、補正手段の一具体例である。

【0058】

例えば、周期補正部３７は、差分ΔＲと補正量対応マップと、に基づいて、周期算出部３６により算出された周期の補正量を算出する。差分ΔＲと周期算出部３６により算出された周期の補正量と、の対応関係は、予め実験的に求められ、補正量対応マップとして、周期補正部３７に設定されている。なお、周期補正部３７は、差分ΔＲと周期算出部３６により算出された周期の補正量との関係を示す関数又は学習器を用いて、周期の補正量を算出してもよい。周期補正部３７は、周期算出部３６により算出された周期に、上記算出した補正量を加算することで、補正後の周期を算出する。

【0059】

さらに、端末本体２０に加速度センサ２４以外の、例えば、心拍センサ、歩数センサなどのセンサが設けられていてもよい。この場合も、そのセンサにより取得した値が装着ユーザの口からの距離に応じて変化する場合、上記同様の方法で補正することが可能である。

【0060】

本実施形態２において、上記実施形態１と同一部分には同一符号を付して詳細な説明は省略する。

【0061】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【0062】

例えば、上記実施形態において、発話判定部３１、距離推定部３２、音圧補正部３３、振幅算出部３４、振幅補正部３５、周期算出部３６及び周期補正部３７のうち少なくとも１つが、端末本体２に設けられる構成であってもよい。

【0063】

図１０は、発話判定部、距離推定部、及び音圧補正部が、端末本体に設けられる構成を示す図である。この場合は、情報処理装置３による処理が不要となるため、端末本体４０は、データ送信部２３を有していなくともよい。したがって、音解析システムの構成がより簡略化することができる。

【0064】

また、上記実施形態において、端末本体２が提げ紐によって首から提げられるウエラブル端末として構成されているが、これに限定されない。端末本体２が、例えば、ネックレス、眼鏡（サングラスなどを含む）、イヤホン、ヘッドギア、時計、ブレスレット、ウエアなどに組み込まれたウエラブル端末として構成されてもよい。なお、いずれの構成においても、上記実施形態１及び２と同様に、第１及び第２音圧取得部２１、２２は、ユーザがウエラブル端末を装着した状態でユーザの口から異なる距離の位置に夫々配置される。

【0065】

本発明は、例えば、図６に示す処理を、プロセッサ３ａにコンピュータプログラムを実行させることにより実現することも可能である。

【0066】

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。

【0067】

プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

【0068】

上述した各実施形態に係る情報処理装置３を構成する各部は、プログラムにより実現するだけでなく、その一部または全部を、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などの専用のハードウェアにより実現することもできる。

【符号の説明】

【0069】

１音解析システム、２端末本体、３情報処理装置、２０端末本体、２１第１音圧取得部、２２第２音圧取得部、２３データ送信部、２４加速度センサ、３０情報処理装置、３１発話判定部、３２距離推定部、３３音圧補正部、３４振幅算出部、３５振幅補正部、３６周期算出部、３７周期補正部、４０端末本体

【図1】