IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社シーイーシーの特許一覧

特許7473325音声情報生成装置、音声情報生成方法及びプログラム
<>
  • 特許-音声情報生成装置、音声情報生成方法及びプログラム 図1
  • 特許-音声情報生成装置、音声情報生成方法及びプログラム 図2
  • 特許-音声情報生成装置、音声情報生成方法及びプログラム 図3
  • 特許-音声情報生成装置、音声情報生成方法及びプログラム 図4
  • 特許-音声情報生成装置、音声情報生成方法及びプログラム 図5
  • 特許-音声情報生成装置、音声情報生成方法及びプログラム 図6
  • 特許-音声情報生成装置、音声情報生成方法及びプログラム 図7
  • 特許-音声情報生成装置、音声情報生成方法及びプログラム 図8
  • 特許-音声情報生成装置、音声情報生成方法及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-15
(45)【発行日】2024-04-23
(54)【発明の名称】音声情報生成装置、音声情報生成方法及びプログラム
(51)【国際特許分類】
   G10L 15/04 20130101AFI20240416BHJP
【FI】
G10L15/04 300Z
【請求項の数】 8
(21)【出願番号】P 2019204544
(22)【出願日】2019-11-12
(65)【公開番号】P2021076762
(43)【公開日】2021-05-20
【審査請求日】2022-08-15
(73)【特許権者】
【識別番号】398011446
【氏名又は名称】株式会社シーイーシー
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(72)【発明者】
【氏名】江田 将巳
(72)【発明者】
【氏名】村井 智保
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2005-331616(JP,A)
【文献】特開昭62-123499(JP,A)
【文献】特開平05-006193(JP,A)
【文献】特開2009-122598(JP,A)
【文献】特開平02-232697(JP,A)
【文献】特開平11-231897(JP,A)
【文献】特開2017-068061(JP,A)
【文献】特開2016-045456(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
利用者の音声について音声認識を行い、音声認識が行われた結果を他の利用者に対して表示するための音声情報生成装置であって、
収音部が収音した利用者の周囲の音を取得する取得部と、
前記取得部が取得する利用者の周囲の音の中から音声認識対象の音を識別し、前記取得部が取得する音の大きさを示すしきい値であって、前記取得部が取得する音の音圧の時間変化を解析することにより場所ごとに判定されたしきい値についてのしきい値情報が含まれる識別情報が記憶された記憶部と、
周波数帯域ごとに、前記取得部が取得する音の大きさと、前記しきい値情報が示す音の大きさとを比較することにより、前記取得部が取得する音の中から音声認識対象の音を抽出し、抽出した音を音声情報として生成する音声情報生成部と、
前記音声情報生成部が生成する前記音声情報を音声認識部に送信する送信部と、
を備え、
前記しきい値情報は、周波数帯域及び場所ごとに異なる
音声情報生成装置。
【請求項2】
前記しきい値情報には、開始しきい値と、前記開始しきい値が示す音の大きさ以下の大きさを示す終了しきい値とが含まれ、
前記音声情報生成部は、前記取得部が取得する音の大きさが前記開始しきい値を超える場合に音声認識対象の音の抽出を開始し、前記取得部が取得する音の大きさが前記終了しきい値を下回る場合に音声認識対象の音の抽出を停止する
請求項1に記載の音声情報生成装置。
【請求項3】
前記音声情報生成部は、前記識別情報に基づいて音声認識対象の音の抽出を開始するタイミング以前の所定時間幅の音を、前記音声情報に付加する
請求項1から請求項2のいずれか一項に記載の音声情報生成装置。
【請求項4】
前記音声情報生成部は、前記識別情報に基づいて音声認識対象の音の抽出を停止するタイミング以降の所定時間幅の音を、前記音声情報に付加する
請求項1から請求項3のいずれか一項に記載の音声情報生成装置。
【請求項5】
前記識別情報には、利用者の音声の周波数帯域と、環境音の周波数帯域とを示す周波数帯域情報が含まれ、
前記音声情報生成部は、前記周波数帯域情報に基づいて前記取得部が取得する音の中から音声認識対象の音を抽出する
請求項1から請求項4のいずれか一項に記載の音声情報生成装置。
【請求項6】
利用者の音声の大きさと環境音の大きさとの相互関係、及び利用者の音声の周波数帯域と環境音の周波数帯域との相互関係に基づいて、音声認識対象の音が抽出しやすいこと又は抽出しにくいことを利用者に通知する通知部
をさらに備える請求項1から請求項5のいずれか一項に記載の音声情報生成装置。
【請求項7】
利用者の音声について音声認識を行い、音声認識が行われた結果を他の利用者に対して表示するための音声情報生成方法であって、
収音部が収音した利用者の周囲の音を取得する音取得ステップと、
前記音取得ステップにおいて取得される利用者の周囲の音の中から音声認識対象の音を識別し、前記音取得ステップにおいて取得される音の大きさを示すしきい値であって、前記音取得ステップにおいて取得され音の音圧の時間変化を解析することにより場所ごとに判定されたしきい値についてのしきい値情報が含まれる識別情報が記憶された記憶部から前記識別情報を取得する識別情報取得ステップと、
周波数帯域ごとに、前記音取得ステップにおいて取得される音の大きさと、前記しきい値情報が示す音の大きさとを比較することにより、前記音取得ステップにおいて取得される音の中から音声認識対象の音を抽出し、抽出した音を音声情報として生成する音声情報生成ステップと、
前記音声情報生成ステップが生成する前記音声情報を音声認識部に送信する送信ステップと、
を有し、
前記しきい値情報は、周波数帯域及び場所ごとに異なる
音声情報生成方法。
【請求項8】
利用者の音声について音声認識を行い、音声認識が行われた結果を他の利用者に対して表示するためのプログラムであって、
音声情報生成装置が備えるコンピュータに、
収音部が収音した利用者の周囲の音を取得する音取得ステップと、
前記音取得ステップにおいて取得される利用者の周囲の音の中から音声認識対象の音を識別し、前記音取得ステップにおいて取得される音の大きさを示すしきい値であって、前記音取得ステップにおいて取得され音の音圧の時間変化を解析することにより場所ごとに判定されたしきい値についてのしきい値情報が含まれる識別情報が記憶された記憶部から前記識別情報を取得する識別情報取得ステップと、
周波数帯域ごとに、前記音取得ステップにおいて取得される音の大きさと、前記しきい値情報が示す音の大きさとを比較することにより、前記音取得ステップにおいて取得される音の中から音声認識対象の音を抽出し、抽出した音を音声情報として生成する音声情報生成ステップと、
前記音声情報生成ステップが生成する前記音声情報を音声認識部に送信する送信ステップと、
を実行させ、
前記しきい値情報は、周波数帯域及び場所ごとに異なる
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声情報生成装置、音声情報生成方法及びプログラムに関する。
【背景技術】
【0002】
従来、音声認識することにより、音声を文字などの音声以外の形式の情報に変換する技術が開示されている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2013-121181号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば、クラウドサーバなどに音声認識エンジンを備え、利用者から送信される音声を音声認識エンジンによって文字情報に変換し、変換した文字情報を音声認識結果として利用者に返信するといったサービス形態がある。
一般に、音声情報には利用者の周囲の音(環境音)が含まれる。このため音声情報には、音声が録音されている部分と、音声が録音されていない部分(例えば、環境音のみが録音されている部分)とが生じる場合がある。
上述のような音声認識エンジンに送信される認識対象の音声情報には、音声が録音されていない部分が含まれていないことが好ましい。
【0005】
しかしながら、上記のような従来技術においては、例えば、環境音のみが録音されている部分を含まないようにして、認識対象の音声を適切に抽出して音声情報を生成するということまではできないという問題があった。
【0006】
本発明は、上記問題を解決すべくなされたもので、その目的は、認識対象の音声を適切に抽出して音声情報を生成することができる音声情報生成装置、音声情報生成方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
本発明の一実施形態は、利用者の音声について音声認識を行い、音声認識が行われた結果を他の利用者に対して表示するための音声情報生成装置であって、収音部が収音した利用者の周囲の音を取得する取得部と、前記取得部が取得する利用者の周囲の音の中から音声認識対象の音を識別し、前記取得部が取得する音の大きさを示すしきい値であって、前記取得部が取得する音の音圧の時間変化を解析することにより場所ごとに判定されたしきい値についてのしきい値情報が含まれる識別情報が記憶された記憶部と、周波数帯域ごとに、前記取得部が取得する音の大きさと、前記しきい値情報が示す音の大きさとを比較することにより、前記取得部が取得する音の中から音声認識対象の音を抽出し、抽出した音を音声情報として生成する音声情報生成部と、前記音声情報生成部が生成する前記音声情報を音声認識部に送信する送信部とを備え、前記しきい値情報は、周波数帯域及び場所ごとに異なる音声情報生成装置である。
【0009】
また、本発明の一実施形態は、上述の音声情報生成装置において、前記しきい値情報には、開始しきい値と、前記開始しきい値が示す音の大きさ以下の音の大きさを示す終了しきい値とが含まれ、前記音声情報生成部は、前記取得部が取得する音の大きさが前記開始しきい値を超える場合に音声認識対象の音の抽出を開始し、前記取得部が取得する音の大きさが前記終了しきい値を下回る場合に音声認識対象の音の抽出を停止する。
【0010】
また、本発明の一実施形態は、上述の音声情報生成装置において、前記音声情報生成部は、前記識別情報に基づいて音声認識対象の音の抽出を開始するタイミング以前の所定時間幅の音を、前記音声情報に付加する。
【0011】
また、本発明の一実施形態は、上述の音声情報生成装置において、前記音声情報生成部は、前記識別情報に基づいて音声認識対象の音の抽出を停止するタイミング以降の所定時間幅の音を、前記音声情報に付加する。
【0012】
また、本発明の一実施形態は、上述の音声情報生成装置において、前記識別情報には、利用者の音声の周波数帯域と、環境音の周波数帯域とを示す周波数帯域情報が含まれ、前記音声情報生成部は、前記周波数帯域情報に基づいて前記取得部が取得する音の中から音声認識対象の音を抽出する。
【0013】
また、本発明の一実施形態は、上述の音声情報生成装置において、利用者の音声の大き
さと環境音の大きさとの相互関係、及び利用者の音声の周波数帯域と環境音の周波数帯域
との相互関係に基づいて、音声認識対象の音が抽出しやすいこと又は抽出しにくいこと
利用者に通知する通知部をさらに備える。
【0014】
本発明の一実施形態は、利用者の音声について音声認識を行い、音声認識が行われた結果を他の利用者に対して表示するための音声情報生成方法であって、収音部が収音した利用者の周囲の音を取得する音取得ステップと、前記音取得ステップにおいて取得される利用者の周囲の音の中から音声認識対象の音を識別し、前記音取得ステップにおいて取得される音の大きさを示すしきい値であって、前記音取得ステップにおいて取得され音の音圧の時間変化を解析することにより場所ごとに判定されたしきい値についてのしきい値情報が含まれる識別情報が記憶された記憶部から前記識別情報を取得する識別情報取得ステップと、周波数帯域ごとに、前記音取得ステップにおいて取得される音の大きさと、前記しきい値情報が示す音の大きさとを比較することにより、前記音取得ステップにおいて取得される音の中から音声認識対象の音を抽出し、抽出した音を音声情報として生成する音声情報生成ステップと、前記音声情報生成ステップが生成する前記音声情報を音声認識部に送信する送信ステップとを有し、前記しきい値情報は、周波数帯域及び場所ごとに異なる音声情報生成方法である。
【0015】
本発明の一実施形態は、利用者の音声について音声認識を行い、音声認識が行われた結果を他の利用者に対して表示するためのプログラムであって、音声情報生成装置が備えるコンピュータに、収音部が収音した利用者の周囲の音を取得する音取得ステップと、前記音取得ステップにおいて取得される利用者の周囲の音の中から音声認識対象の音を識別し、前記音取得ステップにおいて取得される音の大きさを示すしきい値であって、前記音取得ステップにおいて取得され音の音圧の時間変化を解析することにより場所ごとに判定されたしきい値についてのしきい値情報が含まれる識別情報が記憶された記憶部から前記識別情報を取得する識別情報取得ステップと、周波数帯域ごとに、前記音取得ステップにおいて取得される音の大きさと、前記しきい値情報が示す音の大きさとを比較することにより、前記音取得ステップにおいて取得される音の中から音声認識対象の音を抽出し、抽出した音を音声情報として生成する音声情報生成ステップと、前記音声情報生成ステップが生成する前記音声情報を音声認識部に送信する送信ステップとを実行させ、前記しきい値情報は、周波数帯域及び場所ごとに異なるプログラムである。
【発明の効果】
【0016】
この発明によれば、認識対象の音声を適切に抽出して音声情報を生成することができる音声情報生成装置、音声情報生成方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0017】
図1】本実施形態の音声認識システムの機能構成の一例を示す図である。
図2】本実施形態の音声認識の開始しきい値及び終了しきい値の設定動作の一例を示す図である。
図3】本実施形態の収音部が収音した音の信号の一例を示す図である。
図4】本実施形態の音声情報生成装置の動作の一例を示す図である。
図5】本実施形態の音声情報生成部が統合する音声情報の一例を示す図である。
図6】音声情報生成装置の動作の変形例を示す図である。
図7】本変形例における音声情報の生成対象とする音の信号の一例を示す図である。
図8】音声と環境音とのそれぞれの周波数帯域の一例を示す図である。
図9】音声と環境音とのそれぞれの周波数帯域及び音圧の関係の一例を示す図である。
【発明を実施するための形態】
【0018】
[第1の実施形態]
以下、図面を参照して、本発明の実施形態を説明する。
図1は、本実施形態の音声認識システム1の機能構成の一例を示す図である。音声認識システム1は、音声情報生成装置10と、収音部20と、音声認識部30と、表示部40とを備える。
【0019】
収音部20は、例えばマイクロフォンなどを備えており、音を収音する。表示部40は、例えば液晶ディスプレイなどを備えており、画像を表示する。本実施形態の一例において、収音部20及び表示部40は、音声認識システム1の利用者に装着される表示機能つきヘッドセットに備えられている。収音部20は、利用者の音声を収音する。また、収音部20は、利用者の周囲に発生している環境音を収音する。すなわち、収音部20が収音する音には、利用者の音声と、利用者の周囲の環境音とが含まれている。
【0020】
音声認識部30は、収音部20によって収音された利用者の音声について、既知の手法によって音声認識することにより、音声を他の形式の情報(例えば、文字情報、画像情報、点字情報、振動情報など)に変換する。この一例では、音声認識部30は、音声情報を文字情報に変換するものとして説明する。
音声認識部30は、変換した文字情報を、表示部40に出力する。ここで、音声認識部30は、他の利用者が装着する表示機能付きヘッドセットの表示部40に対して文字情報を出力してもよい。このように構成することにより、音声認識システム1は、利用者の発話を他の利用者に文字情報として提示することができるため、工場などの騒音環境においても、利用者間の意思疎通を図ることができる。
【0021】
ところで、音声認識部30は、認識対象の音声情報の時間長に基づいて課金される場合がある。例えば、音声認識部30は、認識対象の音声情報の時間長が長いほど、料金が高くなる場合がある。このような場合、音声情報には、認識対象の音声以外の音(例えば、環境音)が含まれていないことが好ましい。本実施形態の音声情報生成装置10は、認識対象の音声を適切に抽出して音声情報を生成する機能を有する。この機能により、音声情報生成装置10は、認識対象の音声情報の時間長を、結果的に短縮することができる。以下、音声情報生成装置10の構成について説明する。
【0022】
[音声情報生成装置10の機能構成]
音声情報生成装置10は、取得部110と、記憶部120と、音声情報生成部130と、送信部140とを備える。
【0023】
取得部110は、収音部20が収音した音の信号を取得する。上述したように、収音部20が収音した音には、利用者の音声と、利用者の周囲の環境音とが含まれる。取得部110は、取得した音の信号を、音声情報生成部130に出力する。
【0024】
記憶部120には、取得部110が取得する音の中から音声認識対象の音を識別する識別情報が記憶される。本実施形態の記憶部120には、音声認識の開始しきい値th1と、音声認識の終了しきい値th2とが識別情報として記憶される。すなわち、識別情報には、取得部110が取得する音の大きさを示すしきい値情報が含まれている。以下、音声認識の開始しきい値th1と、音声認識の終了しきい値th2とについて説明する。
【0025】
[音声認識の開始しきい値th1及び終了しきい値th2の判定]
図2は、本実施形態の音声認識の開始しきい値th1及び終了しきい値th2の設定動作の一例を示す図である。
(ステップS110)取得部110は、収音部20が収音した音の信号を取得する。収音部20が収音した音には、利用者の音声と、利用者の周囲の環境音とが含まれる。収音部20が収音した音の信号SSの一例を図3に示す。
【0026】
図3は、本実施形態の収音部20が収音した音の信号SSの一例を示す図である。音の信号SSは、収音部20に収音された時刻における音圧を示す。一般に、収音部20が収音する音の音圧は、利用者が発話していない場合(つまり、収音部20が環境音のみを収音している場合)に比べ、利用者が発話している場合(つまり、収音部20が環境音と利用者の音声とを収音している場合)のほうが高い。
【0027】
(ステップS120)図2に戻り、音声情報生成装置10は、取得部110が取得した音の信号SSの音圧を解析する。
具体的には、音声情報生成装置10は、図3に示す音の信号SSの音圧の時間変化を解析し、音圧が比較的低い時間帯と、音圧が比較的高い時間帯とを識別する。音声情報生成装置10は、音圧が比較的低い時間帯から、音圧が比較的高い時間帯に変化した時点(例えば、図3の時刻ta)の音圧を、音声認識の開始しきい値th1として判定する。また、音声情報生成装置10は、音圧が比較的高い時間帯から、音圧が比較的低い時間帯に変化した時点(例えば、図3の時刻tb)の音圧を、音声認識の終了しきい値th2として判定する。
【0028】
(ステップS130)音声情報生成装置10は、判定した開始しきい値th1及び終了しきい値th2を記憶部120に記憶させる。この結果、音声情報生成装置10による音声認識の対象音の範囲は、音圧が開始しきい値th1を超えてから、終了しきい値th2を下回るまでの範囲(例えば、図3に示す時刻taから時刻tbの範囲)になる。
【0029】
なお、音声情報生成装置10は、終了しきい値th2の音圧を、開始しきい値th1の音圧以下の音圧としてもよい。この場合、記憶部120には、開始しきい値th1と、開始しきい値th1が示す音の大きさ以下の音の大きさを示す終了しきい値th2とがしきい値情報として記憶される。
【0030】
また、音声情報生成装置10は、上述したステップS120において、種々の解析手法を用いることができる。例えば、音声情報生成装置10は、音の信号SSの瞬間的な音圧だけでなく、音圧の時間平均値、中央値、ある時間範囲内の最大値及び最小値などに基づいて、開始しきい値th1及び終了しきい値th2を判定してもよい。
【0031】
また、音声情報生成装置10は、上述したステップS110~ステップS130を、利用者ごと及び場所ごとに実行してもよい。すなわち、音声情報生成装置10は、開始しきい値th1及び終了しきい値th2を利用者ごと及び場所ごとに判定し、記憶部120に記憶させてもよい。
【0032】
図1に戻り、音声情報生成部130は、記憶部120に記憶された識別情報に基づいて、取得部110が取得する音の中から音声認識対象の音を抽出し、抽出した音を音声情報VDとして生成する。
一例として、音声情報生成部130は、取得部110が取得した音の信号SSと、記憶部120に記憶されている開始しきい値th1及び終了しきい値th2とに基づいて、音声情報VDを生成する。音声情報生成部130は、生成した音声情報VDを送信部140に出力する。
送信部140は、音声情報生成部130が生成する音声情報VDを音声認識部30に送信する。この結果、音声認識部30において、音声情報VDに基づく音声認識が行われ、その結果が表示部40に表示される。
次に、図4を参照して、本実施形態の音声情報生成装置10の動作の一例について説明する。
【0033】
[音声情報生成装置10の動作]
図4は、本実施形態の音声情報生成装置10の動作の一例を示す図である。
(ステップS210)取得部110は、収音部20が収音した音の信号SSの取得を開始する。取得部110は、取得した音の信号SSを音声情報生成部130に出力する。
(ステップS220)音声情報生成部130は、音の信号SSの音圧を測定する。また、音声情報生成部130は、音の信号SSに基づく音声情報VDの生成を開始する。ステップS220において生成が開始される音声情報VDを、先行音声情報VD1とも記載する。
(ステップS230)音声情報生成部130は、ステップS220で測定した音の信号SSの音圧が、音声認識開始音圧か否かを判定する。音声情報生成部130は、音の信号SSの音圧が開始しきい値th1を超える場合(ステップS230;YES)には、処理をステップS240に進める。音声情報生成部130は、音の信号SSの音圧が開始しきい値th1を超えない場合(ステップS230;NO)には、処理をステップS220に戻す。
【0034】
すなわち、音声情報生成部130は、取得部110が取得する音の大きさと、しきい値情報が示す音の大きさとを比較することにより、音声認識対象の音を抽出する。
【0035】
(ステップS240)音声情報生成部130は、収音部20が収音する音の信号SSに基づいて、音声情報VDの生成を開始する。ステップS240において生成が開始される音声情報VDを、中間音声情報VD2とも記載する。
(ステップS250)音声情報生成部130は、音声認識終了音圧か否かを判定する。音声情報生成部130は、音の信号SSの音圧が終了しきい値th2を下回る場合(ステップS250;YES)には、処理をステップS260に進める。音声情報生成部130は、音の信号SSの音圧が終了しきい値th2を下回らない場合(ステップS250;NO)には、処理をステップS240に戻す。
【0036】
(ステップS260)音声情報生成部130は、ステップS250の実行後、指定時間(後続時間Tpost)が経過し、かつ音の信号SSの音圧が終了しきい値th2であるか否かを判定する。音声情報生成部130は、後続時間Tpostが経過し、かつ音の信号SSの音圧が終了しきい値th2を下回ると判定した場合(ステップS260;YES)、処理をステップS270に進める。音声情報生成部130は、後続時間Tpostが経過していない、又は音の信号SSの音圧が終了しきい値th2を下回っていないと判定した場合(ステップS260;YES)、処理をステップS240に戻す。
【0037】
(ステップS270)音声情報生成部130は、音声情報VDの生成を停止し、ステップS220において生成を開始した音声情報VD(つまり、先行音声情報VD1)と、ステップS240において生成を開始した音声情報VDとを統合する。ここで、図5を参照して、音声情報生成部130による音声情報VDの統合の一例について説明する。
【0038】
図5は、本実施形態の音声情報生成部130が統合する音声情報VDの一例を示す図である。同図において、時刻t0とは、音の信号SSの音圧が開始しきい値th1を超えるタイミングである。また、時刻t1とは、時刻t0の後、音の信号SSの音圧が終了しきい値th2を下回るタイミングである。音声情報VDには、先行音声情報VD1と、中間音声情報VD2と、後続音声情報VD3とが含まれる。先行音声情報VD1とは、音声情報VDのうち、開始時刻tsから時刻t0までの先行時間Tpreに生成される音声情報VDである。中間音声情報VD2とは、音声情報VDのうち、時刻t0から時刻t1までの間に生成される音声情報VDである。後続音声情報VD3とは、時刻t1から終了時刻teまでの後続時間Tpostに生成される音声情報VDである。
【0039】
つまり、音声情報生成部130は、音の信号SSの音圧が開始しきい値th1を超えるタイミング(時刻t0)から所定時間(先行時間Tpre)前のタイミング(開始時刻ts)から、音の信号SSの音圧が終了しきい値th2を下回わるタイミング(時刻t1)の後、所定時間(後続時間Tpost)が経過するまでの間(音声情報時間長Tf)についての音声情報VDを生成する。
【0040】
すなわち、音声情報生成部130は、識別情報に基づいて音声認識対象の音の抽出を開始するタイミング以前の所定時間幅(例えば、先行時間Tpre)の音を、音声情報VDに付加する。
また、音声情報生成部130は、識別情報に基づいて音声認識対象の音の抽出を停止するタイミング以降の所定時間幅の音を、音声情報VDに付加する。
【0041】
なお、記憶部120には、音声情報VDを時系列に順次記憶するリングバッファを備えていてもよい。
例えば、このリングバッファは、上述したステップS220からステップS230までにおける先行音声情報VD1の生成に用いられる。この場合、音声情報生成部130は、音の信号SSに基づいて生成した音声情報VDをリングバッファに順次記憶させる。音声情報生成部130は、音の信号SSの音圧が開始しきい値th1を超えた場合、開始しきい値th1を超えるまでの所定時間幅の音声情報VDを、リングバッファから先行音声情報VD1として抽出する。音声情報生成部130は、このようにして抽出した先行音声情報VD1を、その後の音声情報VD(中間音声情報VD2及び後続音声情報VD3)と統合する。
また、音声情報生成部130は、上述したステップS220からステップS270までにおいて、音の信号SSに基づいて生成した音声情報VDをリングバッファに順次記憶させる。ステップS270において、音声情報生成部130は、リングバッファに順次記憶させた音声情報VDの中から、先行音声情報VD1、中間音声情報VD2及び後続音声情報VD3に相当する部分を音声情報VDとして抽出することにより、音声情報VDを統合することとしてもよい。
【0042】
また、音声情報生成装置10は、利用者による、先行時間Tpre及び後続時間Tpostを設定する操作を受け付けてもよい。音声情報生成装置10は、先行時間Tpre及び後続時間Tpostを設定する操作を受け付けた場合、先行時間Tpre及び後続時間Tpostを記憶部120に記憶させる。この場合、音声情報生成部130は、記憶部120に記憶されている先行時間Tpre及び後続時間Tpostに基づいて、音声情報VDを生成する。この場合において、後続時間Tpostの上限値(例えば、2秒程度)及び下限値(例えば、0.5秒程度)が定められていてもよい。
【0043】
また、音声情報生成装置10において、先行時間Tpreは、予め定められている固定値であってもよい。この場合、先行時間Tpreは、音声に含まれる子音の発音時間に基づいて定められていてもよい。一例として、先行時間Tpreは、子音の発音時間よりも長い時間(例えば、0.5秒程度)に定められていてもよい。このように構成された音声情報生成装置10によれば、音声情報VDの先頭部分において、音声の子音が欠落してしまう状況を低減することができる。
【0044】
(ステップS280)音声情報生成部130は、生成した音声情報VDを送信部140に出力する。送信部140は、音声認識部30に対して、音声情報VDを送信して、一連の動作を終了する。
この後、音声認識部30は、音声情報VDについて音声認識を行い、音声認識の結果得られた文字情報を表示部40に出力する。この文字情報とは、収音部20によって収音された利用者の音声を文字に変換した情報である。
【0045】
[実施形態のまとめ]
以上説明したように、音声情報生成装置10は、収音部20が収音した音の信号SSから、利用者の音声が含まれている部分を抽出して、音声認識部30に送信する。このように構成された音声情報生成装置10によれば、収音部20が収音した音の信号SSをすべて音声認識部30に送信する場合に比べ、音声認識部30に送信する音の信号SSの時間長(つまり、情報量)を低減することができる。
したがって、例えば音声認識部30において音の信号SSの時間長に応じた課金がなされる場合には、本実施形態の音声情報生成装置10によれば、費用を低減することができる。
また一般に、音声情報VDに含まれる環境音が少ないほど、音声情報VDに含まれる音声部分の割合が高まるため、音声認識の精度が向上する場合がある。上述のように構成された音声情報生成装置10によれば、音声情報VDに含まれる環境音を低減することができるため、音声認識の精度を向上させることができる。
【0046】
また、本実施形態の音声情報生成装置10は、利用者の音声の音圧と環境音の音圧とを比較して、音圧のしきい値(例えば、開始しきい値th1及び終了しきい値th2)を定める。このように構成された音声情報生成装置10によれば、音声の音圧が利用者ごとに異なる場合や、環境音の音圧が環境ごとに異なる場合であっても、利用者及び環境に応じた、適正な音圧のしきい値を定めることができる。
【0047】
また、本実施形態の音声情報生成装置10は、終了しきい値th2の音圧を、開始しきい値th1の音圧以下の音圧として、開始しきい値th1及び終了しきい値th2を定める。すなわち、本実施形態の音声情報生成部130は、取得部110が取得する音の大きさが開始しきい値th1を超える場合に音声認識対象の音の抽出を開始し、取得部110が取得する音の大きさが終了しきい値th2を下回る場合に音声認識対象の音の抽出を停止する。このように構成された音声情報生成装置10によれば、音圧にヒステリシスをもたせることができ、いったん音声情報VDの生成が開始された場合には、利用者の音声の音圧が開始しきい値th1よりも低くなったとしても、終了しきい値th2を下回らない限り、音声情報VDの生成を継続する。したがって、音声情報生成装置10によれば、音声情報VDが細かく分断されてしまうことを抑止することができる。このため、音声情報生成装置10によれば、音声情報VDが文字情報などに変換された場合に、不自然な位置で文節が区切られてしまうなどの不都合な現象を抑止することができる。
【0048】
また、本実施形態の音声情報生成装置10は、先行音声情報VD1と中間音声情報VD2とを結合して音声情報VDを生成する。このように構成された音声情報生成装置10によれば、利用者の発話の先頭部分が音声情報VDから欠落してしまう状況を低減することができる。
【0049】
また、本実施形態の音声情報生成装置10は、中間音声情報VD2と後続音声情報VD3とを結合して、音声情報VDを生成する。このように構成された音声情報生成装置10によれば、利用者の発話が途切れた直後に再び発話される場合において、音声情報VDが複数に分割されてしまう状況を低減することができる。したがって、音声情報生成装置10によれば、音声情報VDが文字情報などに変換された場合に、不自然な位置で文節が区切られてしまうなどの不都合な現象を抑止することができる。
【0050】
また、音声情報生成装置10は、上述したステップS120において、音の信号SSの音圧を周波数帯域ごとに解析して、周波数帯域ごとに開始しきい値th1及び終了しきい値th2を記憶させてもよい。この場合、音声情報生成装置10は、上述したステップS220において、周波数帯域ごとの音の信号SSの音圧を測定する。また、音声情報生成装置10は、上述したステップS230において、音の信号SSの音圧が開始しきい値th1を超えるか否かを、周波数帯域ごとの開始しきい値th1に基づいて判定する。
このように構成された音声情報生成装置10によれば、音の信号SSに環境音のみが含まれている場合と、環境音と利用者の音声とが含まれている場合とをより精度よく分離することができる。
また、このように構成された音声情報生成装置10によれば、環境音が含まれていない周波数帯域については、開始しきい値th1及び終了しきい値th2をより低い音圧にすることができる。このため、音声情報生成装置10によれば、環境音が含まれていない周波数帯域における音声について、音声の取りこぼしを低減することができる。
【0051】
[変形例(その1)]
上述した実施形態においては、音声情報生成部130は、音の信号SSの音圧に基づいて、音の信号SSから利用者の音声が含まれている部分を抽出する場合について説明した。本変形例においては、音声情報生成部130は、音の信号SSの周波数帯域に基づいて、音の信号SSから利用者の音声が含まれている部分を抽出する。
【0052】
図6は、音声情報生成装置10の動作の変形例を示す図である。なお、ステップS210及びステップS240からステップS280までは、上述した動作と同一の動作であるため、その説明を省略する。
【0053】
(ステップS320)音声情報生成部130は、音の信号SSのうち、所定の周波数帯域に含まれる音を抽出する。すなわち、音声情報生成部130は、音の信号SSから音声認識に不要な周波数帯域の音を除去(ノイズリダクション)する。音声情報生成部130による不要な周波数帯域の音を除去の一例について、図7を参照して説明する。
【0054】
図7は、本変形例における、音声情報VDの生成対象とする音の信号SSの一例を示す図である。音声情報生成部130は、利用者の音声の周波数帯域に基づいて、音の信号SSから利用者の音声が含まれている部分を抽出する。例えば、音声情報生成部130は、ハイパスカットオフ周波数f1からローパスカットオフ周波数f2までの周波数帯域を抽出対象と定める。音声情報生成部130は、音の信号SSにハイパスカットオフ周波数f1からローパスカットオフ周波数f2までの周波数帯域の成分が含まれる場合には、音声情報VDを生成する。
【0055】
すなわち、識別情報には、利用者の音声の周波数帯域と、環境音の周波数帯域とを示す周波数帯域情報が含まれている。音声情報生成部130は、周波数帯域情報に基づいて取得部110が取得する音の中から音声認識対象の音を抽出する。
【0056】
図6に戻り、音声情報生成部130は、抽出した周波数帯域の音の信号SSについて、その音圧を測定する。また、音声情報生成部130は、上述したステップS220における動作と同様に、音の信号SSに基づく音声情報VDの生成を開始する。
【0057】
(ステップS330)音声情報生成部130は、ステップS220と同様にして測定した音の信号SSの音圧が、音声認識開始音圧か否かを判定する。音声情報生成部130は、音の信号SSの音圧が開始しきい値th1を超える場合(ステップS330;YES)には、処理をステップS240に進める。音声情報生成部130は、音の信号SSの音圧が開始しきい値th1を超えない場合(ステップS330;NO)には、処理をステップS210に戻す。
【0058】
図8は、音声と環境音とのそれぞれの周波数帯域の一例を示す図である。同図に示すように、音声の音圧が最大となる周波数帯域(例えば、周波数f11~周波数f12の帯域)と、環境音の音圧が最大となる周波数帯域(例えば、周波数f12よりも周波数が高い帯域)とが互いに異なる場合がある。また、同図に示すように、音声の音圧の最大値(つまり、音声の最大音圧)が、環境音の音圧の最大値(つまり、環境音の最大音圧)よりも低い場合がある。この場合において、周波数帯域によらず、音圧のしきい値のみによって音の信号SSから音声を抽出しようとすると、音声が含まれていない環境音のみの場合であっても開始しきい値th1を超えるため、音声が含まれていない時間帯の音の信号SSについても音声情報VDが生成されてしまう。このため、周波数帯域によらず、音圧のしきい値のみによって音の信号SSから音声を抽出しようとした場合には、音声情報VDの時間長を低減することが困難になる場合がある。
【0059】
本変形例の音声情報生成装置10は、音声の周波数帯域と環境音の周波数帯域とを区別して、音声の周波数帯域の音圧に基づいて開始しきい値th1及び終了しきい値th2を判定する。このため、本変形例の音声情報生成装置10によれば、音声の最大音圧が、環境音の最大音圧よりも低い場合であっても、音声が含まれていない時間帯の音の信号SSについても音声情報VDが生成されてしまう状況を低減できるため、音声情報VDの時間長を短くすることができる。
【0060】
[変形例(その2)]
図9は、音声と環境音とのそれぞれの周波数帯域及び音圧の関係の一例を示す図である。同図(A)に示すように、音声の周波数帯域と環境音の周波数帯域との差が大きく、かつ音声の音圧と環境音の音圧との差が大きい場合がある。この場合には、音の信号SSに含まれる音声と環境音とを分離しやすい。
一方で、同図(B)に示すように、音声の周波数帯域と環境音の周波数帯域との差が大きいものの、音声の音圧と環境音の音圧との差が小さい場合がある。また、同図(C)に示すように、音声の音圧と環境音の音圧との差が大きいものの、音声の周波数帯域と環境音の周波数帯域との差が小さい場合がある。また、同図(D)に示すように音声と環境音とで、音圧の差及び周波数帯域の差がいずれも小さい場合がある。これらの場合には、同図(A)の場合に比べ、音の信号SSに含まれる音声と環境音とを分離しにくい。
【0061】
そこで、音声と環境音との関係が同図(B)~(D)に示すような場合には、音声情報生成装置10は、利用者に対して音声と環境音との分離が困難であることを示す案内表示を行ってもよい。また、上述の場合、音声情報生成装置10は、利用者に対して、音声の音圧を上げる(例えば、声を大きくする)、又は周波数帯域を移動させる(例えば、低い声や高い声で発声する)などの案内表示を行ってもよい。
すなわち、音声情報生成装置10は、音声及び環境音のそれぞれの周波数帯域及び音圧の関係に基づいて、利用者に対する表示を行ってもよい。このように構成された音声情報生成装置10によれば、音声と環境音との分離が容易になり、音声情報VDの時間長を低減することができる。
【0062】
この場合、音声情報生成装置10は、通知部(不図示)を備えていてもよい。この通知部は、利用者の音声の大きさと環境音の大きさとの相互関係、及び利用者の音声の周波数帯域と環境音の周波数帯域との相互関係に基づいて、音声認識対象の音の抽出のしやすさの程度を利用者に通知する。
【0063】
なお、音声情報生成装置10は、収音部20の位置情報を取得可能に構成されていてもよい。この場合、収音部20は、GPS(Global Positioning System)などによる位置特定機能と、特定した位置を示す位置情報を音声情報生成装置10に送信する機能とを備えている。音声情報生成装置10は、取得した収音部20の位置情報に応じた識別情報に基づいて、音声認識対象の音を抽出する。
例えば、記憶部120には、音の信号SSが収音された位置と、開始しきい値th1及び終了しきい値th2とが対応付けられて記憶されている。音声情報生成装置10は、収音部20の位置情報と、記憶部120に記憶されている音の信号SSが収音された位置とを比較する。音声情報生成装置10は、収音部20の現在位置に近い位置において収音された音の信号SSに対応付けられた開始しきい値th1及び終了しきい値th2に基づいて、音声認識対象の音を抽出する。
このように構成された音声情報生成装置10によれば、利用者の現在位置に応じた開始しきい値th1及び終了しきい値th2を選択しながら音声認識対象の音を抽出することができるため、音の信号SSに環境音のみが含まれている場合と、環境音と利用者の音声とが含まれている場合とをより精度よく分離することができる。
【0064】
また、音声情報生成装置10は、収音部20の種別情報を取得可能に構成されていてもよい。この場合、収音部20は、その種別を示す種別情報に紐づけられている。種別情報は、収音部20の感度、周波数特性、指向特性、自己雑音特性、過渡特性、寸法、最大音圧レベルなど、種々の特性を収音部20ごとに示す情報である。音声情報生成装置10は、取得した収音部20の種別情報に基づいて、音声認識対象の音を抽出する。
例えば、記憶部120には、収音部20の種別情報と、開始しきい値th1及び終了しきい値th2とが対応付けられて記憶されている。音声情報生成装置10は、接続されている収音部20(すなわち、取得部110が取得する音の信号SSを収音した収音部20)の種別情報を取得する。音声情報生成装置10は、取得した種別情報に対応づけられた開始しきい値th1及び終了しきい値th2に基づいて、音声認識対象の音を抽出する。
このように構成された音声情報生成装置10によれば、収音部20の種別に応じた開始しきい値th1及び終了しきい値th2を選択しながら音声認識対象の音を抽出することができるため、音の信号SSに環境音のみが含まれている場合と、環境音と利用者の音声とが含まれている場合とをより精度よく分離することができる。
【0065】
以上、本発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることができる。上述した各実施形態に記載の構成を組み合わせてもよい。
【0066】
なお、上記の実施形態における各装置が備える各部は、専用のハードウェアにより実現されるものであってもよく、また、メモリおよびマイクロプロセッサにより実現させるものであってもよい。
【0067】
なお、各装置が備える各部は、メモリおよびCPU(中央演算装置)により構成され、各装置が備える各部の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。
【0068】
また、各装置が備える各部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、制御部が備える各部による処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0069】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【符号の説明】
【0070】
1…音声認識システム、10…音声情報生成装置、20…収音部、30…音声認識部、40…表示部、110…取得部、120…記憶部、130…音声情報生成部、140…送信部
図1
図2
図3
図4
図5
図6
図7
図8
図9