(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022117375
(43)【公開日】2022-08-10
(54)【発明の名称】音声認識プログラム及び音声認識装置
(51)【国際特許分類】
G10L 15/28 20130101AFI20220803BHJP
G10L 15/04 20130101ALI20220803BHJP
【FI】
G10L15/28 200
G10L15/04 300A
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021060936
(22)【出願日】2021-03-31
(31)【優先権主張番号】P 2021013495
(32)【優先日】2021-01-29
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000000011
【氏名又は名称】株式会社アイシン
(74)【代理人】
【識別番号】110000534
【氏名又は名称】弁理士法人真明センチュリー
(72)【発明者】
【氏名】中村 正樹
(57)【要約】
【課題】第1発話と第2発話とが連続して入力された場合でも、それぞれを正確に音声認識できる音声認識プログラム及び音声認識装置を提供すること。
【解決手段】ユーザHから入力された音声Vから、第1発話と、その第1発話の直後の第2発話との開始時刻StT及び終了時刻EdTとがそれぞれ取得される。第2発話の開始時刻StTと第1発話の終了時刻EdTとの発話間隔ΔTに基づいて遡及時間Tが取得され、第2発話の開始時刻StTから遡及時間Tを遡った認識開始時刻StRより音声認識が開始される。これにより、第2発話V2の開始から確実に第2発話V2の音声認識を開始できる。従って、第1発話と第2発話とが連続して入力された場合でも第2発話の開始から確実に音声認識を開始できるので、第1発話と第2発話とを正確に音声認識できる。
【選択図】
図3
【特許請求の範囲】
【請求項1】
記憶部を備えたコンピュータに、音声認識処理を実行させる音声認識プログラムであって、
前記記憶部を音声が記憶される音声記憶手段として機能させ、
入力された音声を前記音声記憶手段に記憶する音声記憶ステップと、
前記音声記憶手段に記憶される音声による発話の開始時刻を取得する開始時刻取得ステップと、
前記音声記憶手段に記憶される音声による発話の終了時刻を取得する終了時刻取得ステップと、
その終了時刻取得ステップで取得された第1発話の終了時刻と、前記開始時刻取得ステップで取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得ステップと、
その間隔取得ステップで取得された発話間隔に基づいて、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得ステップと、
前記音声記憶手段に記憶される音声において、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から前記遡及時間取得ステップで取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識ステップとを備えていることを特徴とする音声認識プログラム。
【請求項2】
前記遡及時間取得ステップは、前記間隔取得ステップで取得された発話間隔が第1所定時間以下の場合は、前記第1所定時間以上の時間である第1遡及時間を遡及時間として取得するものであることを特徴とする請求項1記載の音声認識プログラム。
【請求項3】
前記遡及時間取得ステップは、前記間隔取得ステップで取得された発話間隔が第2所定時間以上の場合は、前記第2所定時間以下の時間である第2遡及時間を遡及時間として取得するものであることを特徴とする請求項1又は2に記載の音声認識プログラム。
【請求項4】
前記第1遡及時間は、前記第1所定時間以上かつ前記第2所定時間以下の時間であることを特徴とする請求項3記載の音声認識プログラム。
【請求項5】
前記第2遡及時間は、前記第1所定時間以上かつ前記第2所定時間以下の時間であることを特徴とする請求項3又は4に記載の音声認識プログラム。
【請求項6】
前記遡及時間取得ステップは、前記間隔取得ステップで取得された発音間隔が第1所定時間と第2所定時間との間である場合は、遡及時間として前記発音間隔を取得するものであることを特徴とする請求項1から5のいずれかに記載の音声認識プログラム。
【請求項7】
音声を入力する音声入力手段と、
その音声入力手段で入力された音声を記憶する音声記憶手段と、
その音声記憶手段で記憶された音声による発話の開始時刻を取得する開始時刻取得手段と、
前記音声記憶手段で記憶された音声による発話の終了時刻を取得する終了時刻取得手段と、
その終了時刻取得手段で取得された第1発話の終了時刻と、前記開始時刻取得手段で取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得手段と、
その間隔取得手段で取得された発話間隔に基づいて、前記開始時刻取得手段で取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得手段と、
前記音声記憶手段で記憶された音声において、前記開始時刻取得手段で取得された前記第2発話の開始時刻から前記遡及時間取得手段で取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識手段と、を備えていることを特徴とする音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識プログラム及び音声認識装置に関するものである。
【背景技術】
【0002】
特許文献1には、入力された音声を音声認識し、その認識結果を用いて経路の案内や車両の運転等を行うシステム200が開示されている。そのシステム200には、ユーザが発話する音声を入力する音声入力装置21と、音声入力装置21から入力される一続きの音声を構成する始端から終端までの音声区間を検出する音声区間検出部11と、その音声区間検出部11で検出された音声区間内の音声を音声認識する音声認識部12とが設けられる。
【0003】
先に第1音声(第1発話)が音声入力装置21に入力され、その後に第2音声(第2発話)が音声入力装置21に入力される場合、まず、音声区間検出部11によって第1音声に対応する第1音声区間が検出され、その第1音声区間の始端から音声認識部12による第1音声の音声認識が開始される。そして、第1音声区間の終端まで第1音声区間の音声認識が終了した後に、第2音声に対応する第2音声区間の検出および第2音声区間の始端からの音声認識が開始される。これによって、第1音声と第2音声とを区別して音声認識することができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2019/058453号(例えば、段落0013-0039,
図1,5)
【発明の概要】
【発明が解決しようとする課題】
【0005】
第1音声と第2音声とが連続して発話された場合、第1音声と第2音声との間隔が短時間となる。かかる場合においては、第1音声区間の音声認識、第2音声区間の検出および第2音声区間の音声認識の開始も短時間に行う必要がある。よって、第1音声区間の音声認識に時間を要すると、その後に音声入力装置21から入力される第2音声の第2音声区間の検出の開始が遅れ、検出された第2音声区間の始端が実際の第2音声の始端よりも遅れて検出される虞がある。これによって、第2音声において始端で発話された内容の音声認識が欠落し、第2音声が正確に音声認識できない虞があるという問題点があった。
【0006】
本発明は、上述した問題点を解決するためになされたものであり、第1発話と第2発話とが連続して入力された場合でも、それぞれを正確に音声認識できる音声認識プログラム及び音声認識装置を提供することを目的としている。
【課題を解決するための手段】
【0007】
この目的を達成するために本発明の音声認識プログラムは、記憶部を備えたコンピュータに、音声認識処理を実行させるプログラムであって、前記記憶部を音声が記憶される音声記憶手段として機能させ、入力された音声を前記音声記憶手段に記憶する音声記憶ステップと、前記音声記憶手段に記憶される音声による発話の開始時刻を取得する開始時刻取得ステップと、前記音声記憶手段に記憶される音声による発話の終了時刻を取得する終了時刻取得ステップと、その終了時刻取得ステップで取得された第1発話の終了時刻と、前記開始時刻取得ステップで取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得ステップと、その間隔取得ステップで取得された発話間隔に基づいて、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得ステップと、前記音声記憶手段に記憶される音声において、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から前記遡及時間取得ステップで取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識ステップとを備えている。
【0008】
また本発明の音声認識装置は、音声を入力する音声入力手段と、その音声入力手段で入力された音声を記憶する音声記憶手段と、その音声記憶手段で記憶された音声による発話の開始時刻を取得する開始時刻取得手段と、前記音声記憶手段で記憶された音声による発話の終了時刻を取得する終了時刻取得手段と、その終了時刻取得手段で取得された第1発話の終了時刻と、前記開始時刻取得手段で取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得手段と、その間隔取得手段で取得された発話間隔に基づいて、前記開始時刻取得手段で取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得手段と、前記音声記憶手段で記憶された音声において、前記開始時刻取得手段で取得された前記第2発話の開始時刻から前記遡及時間取得手段で取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識手段と、を備えている。
【発明の効果】
【0009】
請求項1記載の音声認識プログラムによれば、入力された音声が音声記憶手段に記憶され、音声記憶手段に記憶された第1発話の終了時刻と、第2発話の開始時刻とが取得され、それらの時間差である発話間隔に基づいた遡及時間が取得される。そして、音声記憶手段の音声において第2発話の開始時刻から遡及時間を遡った時刻から第2発話の音声認識が開始される。これにより、音声記憶手段に記憶される第2発話の開始から確実に音声認識を開始することができるので、第1発話と第2発話とが連続して入力された場合でも、それぞれを正確に音声認識できるという効果がある。また、遡及時間が第1発話と第2発話との発話間隔に応じて設定されるので、第2発話の開始から音声認識が開始できると共に、その第2発話の音声認識に与える第1発話の影響を最小限に抑制できるという効果もある。
【0010】
請求項2記載の音声認識プログラムによれば、請求項1記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発話間隔が第1所定時間以下の場合は、即ち第1発話と第2発話との発話間隔が短く、これらが連続している場合である。かかる場合に、遡及時間が第1所定時間以上の第1遡及時間に設定されることで、第1発話の後に連続する第2発話の開始から確実に音声認識を開始できるという効果がある。
【0011】
請求項3記載の音声認識プログラムによれば、請求項1又は2に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発話間隔が第2所定時間以上の場合、即ち第1発話と第2発話との発話間隔が長い場合に、その第2所定時間以下の第2遡及時間が遡及時間として取得されるので、第2発話の音声認識が開始されてから実際に第2発話が開始されるまでのタイムラグが拡大するのを抑制できる。これにより、第2発話が開始されるまでの周囲の環境音が誤って音声認識されるのを抑制できると共に、第2発話を音声認識するためのコンピュータの処理時間が低減されるので、コンピュータの処理負荷を低減できるという効果がある。
【0012】
請求項4記載の音声認識プログラムによれば、請求項3記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。第1遡及時間が第1所定時間以上かつ第2所定時間以下の時間に設定されるので、第2発話の音声認識を開始する時刻が第1発話の開始時刻まで遡ることを抑制できる。これにより、第2発話と共に第1発話の全体が音声認識されるのを抑制できるという効果がある。
【0013】
請求項5記載の音声認識プログラムによれば、請求項3又は4に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。第2遡及時間が第1所定時間以上かつ第2所定時間以下の時間に設定される。これにより、第2発話の音声認識を開始する時刻が第1発話の開始時刻まで遡ることを抑制できる。これにより、第2発話と共に第1発話の全体が音声認識されるのを抑制できるという効果がある。
【0014】
請求項6記載の音声認識プログラムによれば、請求項1から5のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発音間隔が第1所定時間と第2所定時間との間の場合、その発音間隔が遡及時間に設定される。これにより、第2発話の音声認識の開始が第1発話の終了時刻となるので、遡及時間を容易に取得できると共に、第2発話の開始から確実に音声認識を開始できるという効果がある。
【0015】
請求項7記載の音声認識装置によれば、請求項1記載の音声認識プログラムと同様の効果を奏する。
【図面の簡単な説明】
【0016】
【
図2】音声の音量と、ユーザの発話の開始時刻および終了時刻とを表した図である。
【
図3】(a)は、発話間隔が第1所定時間以下である場合の音声認識を開始するタイミングを表す図であり、(b)は、発話間隔が第2所定時間以上である場合の音声認識を開始するタイミングを表す図であり、(c)は、発話間隔が第1所定時間と第2所定時間との間である場合の音声認識を開始するタイミングを表す図である。
【
図4】携帯端末の電気的構成を示すブロック図である。
【
図5】(a)は、音声処理のフローチャートであり、(b)は、録音処理のフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明の好ましい実施形態について、添付図面を参照して説明する。まず、
図1を参照して、本実施形態における携帯端末1の構成を説明する。
図1は、携帯端末1の外観図である。携帯端末1は、ユーザHが発する発話を音声認識する情報処理装置(コンピュータ)である。
【0018】
携帯端末1では、音声Vが入力可能に構成され、入力された音声Vの音量に基づいてユーザHが発した発話かどうかが判断され、その発話毎に音声認識が実行される。なお、音声認識としては、公知の手法が採用されるが、例えば、音声Vを文字列に変換し、変換された文字列を該当する語句に置き換えるものが挙げられる。まず、
図2を参照して、携帯端末1に入力された音声VからユーザHの発話の開始および終了を判断する手法を説明する。
【0019】
図2は、音声Vの音量と、ユーザHの発話の開始時刻StT及び終了時刻EdTとを模式的に表した図である。
図2においては横軸に時刻が、縦軸に音声Vの音量(dB)がそれぞれ設定され、その音量の最大値が「0dB」とされ、最小値が「-120dB」とされる。音量の範囲は0dBから-120dBまでに限られず、これ以外の範囲でも良い。
【0020】
本実施形態の携帯端末1では、入力された音声Vの音量に基づいてユーザHが発話しているかどうかが判断される。具体的には、発話が開始したかを判定する音量の閾値である開始判定値St_Aと、発話が終了したかどうかを判定する音量の閾値である終了判定値Ed_Aとがそれぞれ設定される。開始判定値St_Aには、終了判定値Ed_Aより大きな音量が設定され、開始判定値St_Aとしては「-25dB」が、終了判定値Ed_Aとしては「-30dB」がそれぞれ例示される。
【0021】
入力された音声Vの音量が開始判定値St_Aより小さい状態から開始判定値St_A以上となった場合に、ユーザHの発話が開始したと判断され、その際の時刻が開始時刻StTとされる。一方で、開始時刻StT以後に、終了判定値Ed_A以下となった場合にユーザHの発話が終了したと判断され、その時刻が終了時刻EdTとされる。即ち開始時刻StTから終了時刻EdTまでの間に、ユーザHの発話がされていたと判断される。
【0022】
開始判定値St_Aが終了判定値Ed_Aより大きな音量が設定されることで、周囲の環境音と発話の開始とを明確に区別し、周囲の環境音がユーザHの発音と誤認識されるのを抑制できる。一方で、終了判定値Ed_Aが開始判定値St_Aより小さな音量が設定されることで、ユーザHが発話していると判断されている状況において、発話による音量が一時的に低下することで開始判定値St_Aを下回った場合でも、発話が継続していると判断できる。これらにより、ユーザHの発話の開始および終了を適切に取得できる。
【0023】
このように取得されたユーザHの発話の開始時刻StT及び終了時刻EdTに基づいて、その発話の音声認識が実行される。本実施形態では、ユーザHによる発話が連続した場合に、先の発話と後の発話との時間差である発話間隔ΔTに応じて、後の発話の音声認識を開始するタイミングが設定される。
図3を参照して、音声認識を開始するタイミングを説明する。
【0024】
図3(a)は、発話間隔ΔTが第1所定時間x1以下である場合の音声認識を開始するタイミングを表す図であり、
図3(b)は、発話間隔ΔTが第2所定時間x2以上である場合の音声認識を開始するタイミングを表す図であり、
図3(c)は、発話間隔ΔTが第1所定時間x1と第2所定時間x2との間である場合の音声認識を開始するタイミングを表す図である。
【0025】
図3(a)~(c)においては、ユーザHが「おはようございます。」と発話したものが第1発話V1とされ、その第1発話の直後にユーザHが「今日は晴れですね。」と発話したものが第2発話V2とされる。第1発話V1の終了時刻EdTと第2発話V2の開始時刻StTとの時間差が第1発話V1と第2発話V2との発話間隔ΔTとされ、その発話間隔ΔTの大小に応じて遡及時間Tが算出される。
【0026】
ここで携帯端末1に入力される音声Vは、ユーザHの発話の有無に依らず
図4で後述の音声バッファ11bに記憶される。その音声バッファ11bの音声Vにおける、第2発話V2の開始時刻StTから遡及時間Tを遡った時刻である認識開始時刻StRより、第2発話V2の音声認識が開始される。
【0027】
まず、
図3(a)を参照して、第1発話V1の直後に第2発話V2が開始された場合の遡及時間Tを説明する。
図3(a)は、第1発話V1の直後に第2発話V2が開始された場合、即ち上記の発話間隔ΔTが第1所定時間x1以下の場合を表している。第1所定時間x1としては「0.1秒間」が例示される。
【0028】
このように、発話間隔ΔTが第1所定時間x1以下で短く、第1発話V1と第2発話V2とが連続している場合には、遡及時間Tとして第1所定時間x1以上の第1遡及時間Tx1が設定される。第1遡及時間Tx1としては「0.5秒間」が例示される。これにより、第2発話の認識開始時刻StRを第2発話の開始時刻StTよりも以前のタイミングとできるので、第2発話の開始から確実に音声認識を開始できる。
【0029】
この際、第1発話の終了時刻EdT付近の発話(例えば「おはようございます。」の「す」)が第2発話の認識開始時刻StRに含まれることがある。かかる場合は、第2発話の認識開始時刻StRより開始した音声認識した結果から、第2発話の開始時刻StT以前の認識結果を除外や除去することで、第2発話の開始時刻StTからの音声認識の結果のみを出力しても良い。
【0030】
次に
図3(b)を参照して、第1発話V1と第2発話V2との発話間隔ΔTが長い場合を説明する。
図3(b)は、発話間隔ΔTが第2所定時間x2以上の場合を表している。第2所定時間x2としては「3秒間」が例示される。このように、第1発話V1と第2発話V2との発話間隔ΔTが第2所定時間x2以上の長い場合には、遡及時間Tとして第2所定時間x2以下の第2遡及時間Tx2が設定される。第1遡及時間Tx1としては「2秒間」が例示される。
【0031】
これにより、第2発話V2の音声認識が開始されてから実際に第2発話V2が開始されるまでのタイムラグが拡大するのを抑制できる。これにより、第2発話V2が開始されるまでの周囲の環境音が誤って音声認識されるのを抑制できると共に、第2発話V2を音声認識するための携帯端末1(具体的に
図4で後述のCPU10)の処理時間が低減されるので、携帯端末1の処理負荷を低減できる。
【0032】
次に
図3(c)を参照して、第1発話V1と第2発話V2との発話間隔ΔTが第1所定時間x1と第2所定時間x2との間である場合を説明する。かかる場合には、遡及時間Tとして発話間隔ΔTが設定される。これにより、第2発話V2の認識開始時刻StRが第1発話V1の終了時刻EdTとなるので、遡及時間Tを容易に取得できると共に、第2発話V2の開始から確実に音声認識を開始できる。
【0033】
ここで、第1遡及時間Tx1及び第2遡及時間Tx2は、第1所定時間x1以上かつ第2所定時間x2以下の時間に設定される。これにより、第2発話の認識開始時刻StRが第1発話V1の開始時刻StTまで遡ることを抑制できるので、第2発話V2と共に第1発話V1の全体が音声認識されるのを抑制できる。
【0034】
以上の通り、第2発話V2の開始時刻StTから、その直前の第1発話V1と第2発話V2との発話間隔ΔTに応じた遡及時間Tを遡った認識開始時刻StRより音声認識を開始することで、第2発話V2の開始から確実に第2発話の音声認識を開始できる。これにより、第1発話と第2発話とが連続して入力された場合でも、第2発話の開始から確実に音声認識を開始できるので、第1発話と第2発話とを正確に音声認識できる。
【0035】
また、ユーザHの第2発話を開始した際の音声Vの音量が小さく、第2発話V2の開始時刻StTと判断された時刻では実際にはユーザHが発話している場合がある。かかる場合でも、第2発話V2の開始時刻StTから遡及時間Tを遡った時刻から音声認識を開始することで、第2発話V2の開始時刻StTと判断される以前から実際にはユーザHが発話していた音声Vの音声認識の取りこぼしを抑制できる。
【0036】
なお、第1所定時間x1は0.1秒間に限られず、第2所定時間x2以下であれば、0.1秒間以上でも0.1秒間以下でも良い。第2所定時間x2は3秒間に限られず、第1所定時間x1以上であれば、3秒間以上でも3秒間以下でも良い。また、第1遡及時間Tx1は0.5秒間に限られず、上記した第1所定時間x1以上かつ第2所定時間x2以下の時間であれば、0.5秒間以上でも0.5秒間以下でも良い。同様に第2遡及時間Tx2は2秒間に限られず、第1所定時間x1以上かつ第2所定時間x2以下の時間であれば、2秒間以上でも2秒間以下でも良い。更に第1遡及時間Tx1を第2遡及時間Tx2よりも短い時間としたが、これに限られない。第1遡及時間Tx1と第2遡及時間Tx2とを同じ時間としても良いし、第1遡及時間Tx1を第2遡及時間Tx2よりも長い時間としても良い。
【0037】
次に、
図4を参照して、携帯端末1の電気的構成を説明する。
図4は、携帯端末1の電気的構成を示すブロック図である。
図4に示す通り、携帯端末1は、CPU10と、フラッシュROM11と、RAM12とを有し、これらはバスライン13を介して入出力ポート14にそれぞれ接続されている。入出力ポート14には更に、音声Vを入力するマイク15と、音声認識の認識結果等が表示されるLCD16と、ユーザHからの指示が入力されるタッチパネル17とが接続される。
【0038】
CPU10は、バスライン13により接続された各部を制御する演算装置である。フラッシュROM11は、書き換え可能な不揮発性のメモリであり、音声認識プログラム11aと、音声Vが記憶される音声バッファ11bとが保存される。CPU10によって音声認識プログラム11aが実行されると、
図5の音声処理が実行される。RAM12は、CPU10の音声認識プログラム11aの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するためのメモリであり、上記した遡及時間Tが記憶される遡及時間メモリ12aが設けられる。
【0039】
次に、
図5,6を参照して、携帯端末1のCPU10で実行される処理を説明する。
図5(a)は、音声処理のフローチャートである。音声処理は、タッチパネル17等を介してユーザHから音声認識プログラム11aを実行する指示が入力された場合に実行される処理である。
【0040】
音声処理はまず、音声バッファ11bの内容をクリアし(S1)、音声取得時刻と、上記した開始時刻StT及び終了時刻EdTとをそれぞれ0に設定する(S2)。音声取得時刻は、音声Vのサンプリング周期(例えば1/44100秒)が1単位時間とした時刻であり、音声バッファ11bに記憶された音声Vを0秒、即ち音声バッファ11bへの音声Vの記憶を開始した時刻から順に上記のサンプリング周期間隔で取得するための時刻情報として用いられる。
【0041】
S2の処理の後、今回音量および前回音量に音量の最小値である-120dBを設定する(S3)。今回音量には、発話の開始時刻StT及び終了時刻EdTを判断するための音量が記憶され、前回音量にはその今回音量の前回の音量が記憶される。
【0042】
S3の処理の後、録音処理を開始する(S4)。録音処理は、音声Vのサンプリング周期毎に実行され、マイク15から入力された音声Vを、サンプリング周期毎に音声バッファ11bへ記憶させる処理である。S4の処理によって、録音処理の定期的な実行が開始される。ここで、
図5(b)を参照して録音処理を説明する。
【0043】
図5(b)は、録音処理のフローチャートである。録音処理は、上記した通り、音声Vのサンプリング周期毎に実行される割込処理である。録音処理は、マイク15から取得した音声Vを音声バッファ11bに追加し(S20)、終了する。これにより、音声バッファ11bには、上記のサンプリング周期毎に取得された音声Vが記憶される。
【0044】
図5(a)に戻る。S4の処理の後、音声バッファ11bから音声取得時刻における音声Vの音量を取得し、今回音量に設定する(S5)。S5の処理の後、音声認識処理(S6)を実行する。ここで、
図6を参照して音声認識処理を説明する。
【0045】
図6は、音声認識処理のフローチャートである。音声認識処理はまず、前回音量が
図2で上記した開始判定値St_Aより小さく、且つ、音声取得時刻における今回音量が開始判定値St_A以上かを確認する(S30)。即ち音声バッファ11bの音声Vにおいて、開始判定値St_Aより小さい状態から開始判定値St_A以上となり、発話が開始した開始時刻StTのタイミングであるかを確認する。
【0046】
S30の処理において、前回音量が開始判定値St_Aより小さく、且つ、音声取得時刻における今回音量が開始判定値St_A以上の場合は(S30:Yes)、開始時刻StTに音声取得時刻を設定する(S31)。S31の処理の後、開始時刻StTから後述のS39,S40の処理で設定される
図3で上記した終了時刻EdTを減算することで、発話間隔ΔTを算出する(S32)。S32の処理の後、算出された発話間隔ΔTを確認する(S33)。
【0047】
S33の処理において、発話間隔ΔTが第1所定時間x1以下の場合は(ΔT≦x1)、遡及時間メモリ12aに第1遡及時間Tx1を設定し(S34)、発話間隔ΔTが第2所定時間x2以上の場合は(ΔT≧x2)、遡及時間メモリ12aに第2遡及時間Tx2を設定し(S35)、発話間隔ΔTが第1所定時間x1と第2所定時間x2との間である場合は(x1<ΔT<x2)、遡及時間メモリ12aに発話間隔ΔTを設定する(S36)。
【0048】
S34~S36の処理の後、音声バッファ11bにおいてS31の処理で設定された開始時刻StTから遡及時間メモリ12aの遡及時間Tだけ遡った時刻(即ち認識開始時刻StR)から音声認識を実施する(S37)。これにより、
図3(a)~(c)で上記した発話間隔ΔTに応じた遡及時間Tが遡及時間メモリ12aに設定され、開始時刻StTからその遡及時間Tから音声認識が開始される。S37の処理によって音声認識された結果をLCD16に表示しても良いし、図示しない通信装置を介して、他の携帯端末1等の情報処理装置に送信しても良い。
【0049】
S30の処理において、前回音量が開始判定値St_A以上の場合、または、今回音量が開始判定値St_Aより小さい場合は(S30:No)、S31~S37の処理をスキップする。S30,S37の処理の後、前回音量が終了判定値Ed_Aより大きく且つ今回音量が終了判定値Ed_A以下かを確認する(S38)。
【0050】
S38の処理において、前回音量が終了判定値Ed_Aより大きく且つ今回音量が終了判定値Ed_A以下の場合は(S38:Yes)、音声取得時刻が
図2で上記した発話が終了した終了時刻EdTのタイミングであるので、終了時刻EdTに音声取得時刻を設定する(S39)。一方で、前回音量が終了判定値Ed_A以下または今回音量が終了判定値Ed_Aより大きい場合は(S38:No)、S39の処理をスキップする。S38,S39の処理の後、音声認識処理を終了する。
【0051】
図5(a)に戻る。S6の音声認識処理の後、音声取得時刻にサンプリング周期を加算し、音声取得時刻を音声バッファ11bから音量を取得する次のタイミングに進める(S7)。S7の処理の後、タッチパネル17を介してユーザHから音声処理の終了する指示を取得したかを確認する(S8)。S8の処理において、音声処理の終了の指示を取得しなかった場合は(S8:No)、S5以下の処理を繰り返し、音声処理の終了の指示を取得した場合は(S8:Yes)、音声処理を終了する。
【0052】
以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能であることは容易に推察できるものである。
【0053】
上記実施形態では、遡及時間Tに、発話間隔ΔTが第1所定時間x1以下の場合は第1遡及時間Tx1を、発話間隔ΔTが第2所定時間x2以上の場合は第2遡及時間Tx2を、発話間隔ΔTが第1所定時間x1と第2所定時間x2との間の場合は発話間隔ΔTをそれぞれ設定したが、これに限られない。発話間隔ΔTによらず、遡及時間Tとして、発話間隔ΔTを設定しても良いし、発話間隔ΔTに所定の係数(例えば0.8)を乗算した時間を設定しても良いし、発話間隔ΔTに所定の時間(例えば0.5秒間)を加算した時間を設定しても良い。また、発話間隔ΔTによらず、遡及時間Tとして、第1遡及時間Tx1又は第2遡及時間Tx2を設定しても良い。
【0054】
上記実施形態では、発話の開始時刻StT及び終了時刻EdTを音声Vの音量で判断したがこれに限られない。例えば、音声Vにおいて、人間の音声による周波数帯域(例えば、100Hz~1000Hz)が観測され始めた時刻を発話の開始時刻StTと判断し、音声Vにおいて該周波数帯域が観測されている状態から、観測されなくなった時刻を終了時刻EdTと判断しても良い。
【0055】
上記実施形態では、マイク15から入力されたものを音声Vとしたが、これに限られない。例えば、予めフラッシュROM11に記憶された音声データを音声Vとしても良いし、図示しない通信装置を介して他の携帯端末1等から送信された音声データを音声Vとしても良い。
【0056】
上記実施形態では、音声取得時刻を、サンプリング周期を1単位時間とし、音声バッファ11bからサンプリング周期間隔で音量を取得したが、これに限られない。例えば、音声取得時刻の1単位時間を1秒間とし、音声バッファ11bから音量を1秒間隔で取得しても良い。
【0057】
上記実施形態では、音声認識プログラム11aが組み込まれた携帯端末1を例示したが、これに限られず、パーソナルコンピュータやタブレット端末等の他の情報処理装置(コンピュータ)によって音声認識プログラム11aを実行する構成としても良い。また、音声認識プログラム11aをROMやICチップ等に記憶し、音声認識プログラム11aのみを実行する専用装置に、本発明を適用しても良い。
【符号の説明】
【0058】
1 携帯端末(コンピュータ)
11 フラッシュROM(記憶部)
11b 音声バッファ(音声記憶手段)
11a 音声認識プログラム
V 音声
V1 第1発話
V2 第2発話
S20 音声記憶ステップ
StT 開始時刻
EdT 終了時刻
ΔT 発話間隔
x1 第1所定時間
x2 第2所定時間
T 遡及時間
Tx1 第1遡及時間
Tx2 第2遡及時間
S31 開始時刻取得ステップ、開始時刻取得手段
S39 終了時刻取得ステップ、終了時刻取得手段
S32 間隔取得ステップ、間隔取得手段
S34~S36 遡及時間取得ステップ、遡及時間取得手段
S37 音声認識ステップ、音声認識手段