IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オンキヨー株式会社の特許一覧

特開2025-7075音声認識システム、及び、音声認識方法
<>
  • 特開-音声認識システム、及び、音声認識方法 図1
  • 特開-音声認識システム、及び、音声認識方法 図2
  • 特開-音声認識システム、及び、音声認識方法 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025007075
(43)【公開日】2025-01-17
(54)【発明の名称】音声認識システム、及び、音声認識方法
(51)【国際特許分類】
   G10L 15/22 20060101AFI20250109BHJP
   G10L 15/04 20130101ALI20250109BHJP
   G10L 15/10 20060101ALI20250109BHJP
   G10L 15/08 20060101ALI20250109BHJP
【FI】
G10L15/22 453
G10L15/04 300Z
G10L15/10 200W
G10L15/08 200Z
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023108240
(22)【出願日】2023-06-30
(71)【出願人】
【識別番号】720009479
【氏名又は名称】オンキヨー株式会社
(72)【発明者】
【氏名】日月 伸也
(57)【要約】
【課題】従来の音声認識において、メモリが不足することを防止する手段を提供することである。
【解決手段】音声認識システムは、音声認識処理の結果であるテキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理を実行する。そして、音声認識システムは、検出処理によって検出された区切りよりも前のテキストデータを保持し、テキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータを破棄する破棄処理を実行し、破棄処理によって破棄された区間を除いた音声データに対して、音声認識処理を実行する。
【選択図】図1
【特許請求の範囲】
【請求項1】
音声データを記憶部に記憶し、前記記憶部を作業領域として前記記憶部に記憶した前記音声データから音声を認識し、テキストデータに変換する音声認識処理と、
前記音声認識処理の結果である前記テキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理と、
前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも前の前記テキストデータを保持し、前記テキストデータに対応する音声データと、前記音声認識処理を実行するにあたって一時的に前記記憶部に生成されたデータと、を破棄する破棄処理と、
を実行し、
前記破棄処理によって破棄された区間を除いた前記音声データに対して、前記音声認識処理を実行することを特徴とする音声認識システム。
【請求項2】
前記検出処理において、所定の基準によって区切られる区切りを文章としての区切りとし、前記テキストデータにおいて文章としての区切りを検出することを特徴とする請求項1に記載の音声認識システム。
【請求項3】
前記検出処理において、所定の基準によって区切られる区切りを一定時間のフィラー又は特定の単語が続く場合とし、前記テキストデータにおいて一定時間のフィラー又は特定の単語が続いたことを検出することを特徴とする請求項1に記載の音声認識システム。
【請求項4】
前記検出処理において、所定の基準によって区切られる区切りを句点とし、前記テキストデータにおいて句点を検出することを特徴とする請求項1に記載の音声認識システム。
【請求項5】
前記音声認識処理において、前記音声データから、有向グラフとして表現した出力候補のグラフであるラティスを生成し、生成したラティスの候補の中から最も可能性が高い候補を選択することで、音声を認識することを特徴とする請求項1に記載の音声認識システム。
【請求項6】
前記音声認識処理を実行する前の前記音声データに音声区間を検出する音声区間検出処理を実行し、
前記音声区間検出処理が実行された前記音声データに対して、前記音声認識処理を実行することを特徴とする請求項1に記載の音声認識システム。
【請求項7】
前記音声認識処理において、前記音声データから所定の間隔ごとに音声を認識することを特徴とする請求項1に記載の音声認識システム。
【請求項8】
前記所定の間隔は、一定の間隔又は互いに異なる間隔であることを特徴とする請求項7に記載の音声認識システム。
【請求項9】
前記破棄処理において、前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも後の前記テキストデータを破棄することを特徴とする請求項1に記載の音声認識システム。
【請求項10】
音声データを記憶部に記憶し、前記記憶部を作業領域として前記記憶部に記憶した前記音声データから音声を認識し、テキストデータに変換する音声認識処理と、
前記音声認識処理の結果である前記テキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理と、
前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも前の前記テキストデータを保持し、前記テキストデータに対応する音声データと、前記音声認識処理を実行するにあたって一時的に前記記憶部に生成されたデータと、を破棄する破棄処理と、
を実行し、
前記破棄処理によって破棄された区間を除いた前記音声データに対して、前記音声認識処理を実行することを特徴とする音声認識方法。
【請求項11】
前記検出処理において、所定の基準によって区切られる区切りを文章としての区切りとし、前記テキストデータにおいて文章としての区切りを検出することを特徴とする請求項10に記載の音声認識方法。
【請求項12】
前記検出処理において、所定の基準によって区切られる区切りを一定時間のフィラー又は特定の単語が続く場合とし、前記テキストデータにおいて一定時間のフィラー又は特定の単語が続いたことを検出することを特徴とする請求項10に記載の音声認識方法。
【請求項13】
前記検出処理において、所定の基準によって区切られる区切りを句点とし、前記テキストデータにおいて句点を検出することを特徴とする請求項10に記載の音声認識方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識システム、及び、音声認識方法に関する。
【背景技術】
【0002】
従来の音声認識として、種々の手法が知られており、その一つとして、以下の手法がある。すなわち、入力された音声を音声認識する際、発話された文を構成する可能性のある1つ以上の文字又は単語を、有向グラフとして表現した出力候補のグラフであるラティス(lattice)を生成し、ラティスの候補の中から最も可能性が高い候補を選択する手法(以下、この手法を「従来手法」という。)である。しかし、入力された音声時間が長ければ長いほど、このラティスが巨大となり大量のメモリを要することになる。そのため、従来手法を用いた音声認識では、例えば、VAD(Voice Activity Detection)を用いて音声区間を抽出し、無音区間を除去することで、音声認識に一度に入力されるデータを音声区間のみに制限し、メモリの消費を抑えていた。
【0003】
しかし、VADによりデータを制限し、従来手法を用いて音声認識を行う音声認識システムにおいて、VADにおいてノイズが音声と認識され、音声区間を適切に抽出できない音源では、ノイズも音声区間となるため、データ制限の効果がなく、メモリ不足に陥る問題を解決できない。
【0004】
なお、特許文献1には、音声データのテキスト化処理において、音声データをテキストデータに変換するエンジンに負担をかけることなく、正確なテキストデータを提供するために、声データを所定の単位時間で分割して分割データを生成し、分割データから無音部を削除する音声テキスト化装置が開示されている。また、引用文献2には、分析区間毎に入力音声の有声/無声判定し、有声区間のみをネットワーク入力の対象区間にするための装置について開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2019-090917号公報
【特許文献2】特開平05-316197号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述したように、従来手法を用いた音声認識において、ノイズが音声と認識され、音声区間を適切に抽出できない音源の場合、メモリ不足に陥る問題がある。
【0007】
本発明の目的は、従来の音声認識において、メモリが不足することを防止する手段を提供することである。
【課題を解決するための手段】
【0008】
第1の発明の音声認識システムは、音声データを記憶部に記憶し、前記記憶部を作業領域として前記記憶部に記憶した前記音声データから音声を認識し、テキストデータに変換する音声認識処理と、前記音声認識処理の結果である前記テキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理と、前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも前の前記テキストデータを保持し、前記テキストデータに対応する音声データと、前記音声認識処理を実行するにあたって一時的に前記記憶部に生成されたデータと、を破棄する破棄処理と、を実行し、前記破棄処理によって破棄された区間を除いた前記音声データに対して、前記音声認識処理を実行することを特徴とする。
【0009】
本発明では、音声認識システムは、音声認識処理の結果であるテキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理を実行する。そして、音声認識システムは、検出処理によって検出された区切りよりも前のテキストデータを保持し、テキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータと、を破棄する破棄処理を実行し、破棄処理によって破棄された区間を除いた音声データに対して、音声認識処理を実行する。これにより、所定の基準の区切りとして、例えば、一定時間のフィラー、特定の単語の連続、又は句点が設定されれば、文章の途中で区切られることがないため、文章の途中で区切られることによる誤認識を防止することができる。
【0010】
また、上述のように、記憶部に記憶されている、検出処理によって検出された区切りよりも前のテキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータと、が破棄されるため、音声認識システムが備える記憶部の記憶容量(メモリ)を開放することができ、長時間の音声認識による記憶部の記憶容量(メモリ)の枯渇を防ぐことができる。
【0011】
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記検出処理において、所定の基準によって区切られる区切りを文章としての区切りとし、前記テキストデータにおいて文章としての区切りを検出することを特徴とする。
【0012】
本発明では、音声認識システムは、検出処理において、所定の基準によって区切られる区切りを文章としての区切りとし、文章の終わりの音声の位置を検出する。これにより、テキストデータから適切な区切りを検出することができる。
【0013】
第3の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記検出処理において、所定の基準によって区切られる区切りを一定時間のフィラー又は特定の単語が続く場合とし、前記テキストデータにおいて一定時間のフィラー又は特定の単語が続いたことを検出することを特徴とする。
【0014】
本発明では、音声認識システムは、検出処理において、所定の基準によって区切られる区切りを一定時間のフィラー又は特定の単語(例えば、こんにちは、はい等)が続く場合とし、一定時間のフィラー又は特定の単語が続いたことを検出する。これにより、テキストデータから適切な区切りを検出することができる。
【0015】
ここで、「フィラー」とは、話者が言葉を話しているとき(会話など)において、次の言葉を選んでいる間の隙間を埋める発話、つなぎ言葉である。例えば、「まあ」、「う」、「え」、「あのー」等である。
【0016】
第4の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記検出処理において、所定の基準によって区切られる区切りを句点とし、前記テキストデータにおいて句点を検出することを特徴とする。
【0017】
本発明では、音声認識システムは、検出処理において、所定の基準によって区切られる区切りを句点とし、句点の位置を検出する。これにより、テキストデータから適切な区切りを検出することができる。
【0018】
第5の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記音声認識処理において、前記音声データから、有向グラフとして表現した出力候補のグラフであるラティスを生成し、生成したラティスの候補の中から最も可能性が高い候補を選択することで、音声を認識することを特徴とする。
【0019】
第6の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記音声認識処理を実行する前の前記音声データに音声区間を検出する音声区間検出処理を実行し、前記音声区間検出処理が実行された前記音声データに対して、前記音声認識処理を実行することを特徴とする。
【0020】
第7の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記音声認識処理において、前記音声データから所定の間隔ごとに音声を認識することを特徴とする。
【0021】
第8の発明の音声認識システムは、第7の発明の音声認識システムにおいて、前記所定の間隔は、一定の間隔又は互いに異なる間隔であることを特徴とする。
【0022】
第9の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記破棄処理において、前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも後の前記テキストデータを破棄することを特徴とする。
【0023】
第10の発明の音声認識方法は、音声データを記憶部に記憶し、前記記憶部を作業領域として前記記憶部に記憶した前記音声データから音声を認識し、テキストデータに変換する音声認識処理と、前記音声認識処理の結果である前記テキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理と、前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも前の前記テキストデータを保持し、前記テキストデータに対応する音声データと、前記音声認識処理を実行するにあたって一時的に前記記憶部に生成されたデータと、を破棄する破棄処理と、を実行し、前記破棄処理によって破棄された区間を除いた前記音声データに対して、前記音声認識処理を実行することを特徴とする。
【0024】
第11の発明の音声認識方法は、第10の発明の音声認識方法において、前記検出処理において、所定の基準によって区切られる区切りを一定時間のフィラー又は特定の単語が続く場合とし、前記テキストデータにおいて一定時間のフィラー又は特定の単語が続いたことを検出することを特徴とする。
【0025】
第12の発明の音声認識方法は、第10の発明の音声認識方法において、前記検出処理において、所定の基準によって区切られる区切りを句点とし、前記テキストデータにおいて句点を検出することを特徴とする。
【発明の効果】
【0026】
本発明によれば、音声認識において、メモリが不足することを防止する手段を提供することができる。
【図面の簡単な説明】
【0027】
図1】本実施形態に係る音声認識システムの処理動作を示すフローチャートである。
図2】一定時間のフィラーが続いたことを検出する処理について説明するための図である。
図3】句点の位置を検出する処理について説明するための図である。
【発明を実施するための形態】
【0028】
以下、本発明の実施形態について、説明する。本発明の実施形態に係る音声認識システムは、音声データから音声を認識し、テキストデータに変換する音声認識処理を実行する。例えば、音声認識システムは、パーソナルコンピューター(以下、「PC」という。)により構成される。音声認識システムとして動作するPCの制御部として機能するCPU(Central Processing Unit)は、PCを音声認識システムとして機能させるプログラムに従って、音声認識処理等を実行する。CPUは、作業領域(ワークエリア)として機能するRAM(Random Access Memory)(記憶部)を用いて、音声認識処理を実行する。
【0029】
なお、音声認識システムは、クラウドサーバー等により構成されていてもよい。この場合でも、クラウドサーバーのCPU等により、音声認識処理等が実行されるようになっていればよい。以下、音声認識処理等は、CPU等により実行されるが、「CPUが、~処理を実行する」という表現を用いず、「音声認識システムは、~処理を実行する」と表現する。
【0030】
音声認識システムは、音声データに音声区間を検出する音声区間検出(VAD:Voice Activity Detection)処理を実行し、音声区間検出処理を実行した音声データに対して音声認識処理を実行する。ここで、音声区間検出処理により音声データを音声区間のみに制限し、ラティス(lattice)を生成して音声認識処理を実行する、従来の音声認識システムでは、VADにおいてノイズが音声と認識され、音声区間を適切に抽出できない音源では、ノイズも音声区間となるため、データ制限の効果がなく、記憶部の記憶容量(メモリ)不足に陥る問題がある。
【0031】
上述の問題を解決するため、本実施形態に係る音声認識システムは、音声認識処理の結果であるテキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理、検出処理によって検出された区切りよりも前のテキストデータのみを記憶部に保持し、テキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータと、を破棄する破棄処理等を行う。音声認識システムは、検出処理において、所定の基準によって区切られる区切りを文章としての区切りとし、テキストデータにおいて文章としての区切りを検出する。以下、検出処理、破棄処理等を行う音声認識システムの処理動作を説明する。
【0032】
図1は、本実施形態に係る音声認識システムの処理動作を示すフローチャートである。音声認識システムは、音声区間を検出する音声区間検出処理を実行する(S1)。なお、本実施形態では、音声認識処理を行う音声データのデータ量を減らすために、音声区間検出処理を行って、音声データを音声区間に制限しているが、ダイアライゼーション(Diarization)等その他の処理によって、音声データのデータ量が削減されてもよい。
【0033】
次に、音声認識システムは、音声データから音声を認識し、テキストデータに変換する音声認識処理を実行する(S2)。音声認識システムは、音声データを記憶部に記憶し、記憶部を作業領域として記憶部に記憶した音声データから音声を認識し、テキストデータに変換する。音声認識システムは、音声データから所定の間隔ごとに音声認識処理を実行する。例えば、音声認識システムは、音声データから10秒ごとに音声を認識する。なお、音声認識システムは、一定の間隔(例えば、10秒)で、音声データから音声を認識してもよいし、互いに異なる間隔(例えば、15秒、10秒)で、音声データから音声を認識してもよい。
【0034】
音声認識処理において、音声認識システムは、音声データから、有向グラフとして表現した出力候補のグラフであるラティスを生成し、生成したラティスの候補の中から最も可能性が高い候補を選択することで、音声を認識する。ラティスはノード(点)とエッジ(辺)とからできており、各ノードとエッジとは、可能性の高さを決めるコストを保持しており、コストが低いほど可能性が高くなる。
【0035】
例えば、まず、単語又は文節を一つのノードとし、音声から抽出された特徴量がどの音素に近いかを示す確率を出力する音響モデルから音素を特定し、音素列と単語の対応関係を記した発音辞書によって音素の組み合わせを単語に変換する。次に、言語モデルを用いて大量の文章から単語の前後関係の並びの確率をモデル化し、単語の頻出する組み合わせの確率を高くし、単語のほとんど出ない組み合わせは確率を低くする。これによって、生成されたラティスの候補の中から最も可能性が高い(コストが低い)候補を音声認識結果として、出力することができる。
【0036】
次に、音声認識システムは、音声認識処理の結果であるテキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理を実行する(S3)。具体的には、上述の通り、音声認識システムは、所定の基準によって区切られる区切りを文章としての区切りとし、テキストデータにおいて文章としての区切りを検出する。更なる詳細については、後述する。
【0037】
次に、音声認識システムは、記憶部に記憶されている検出された区切りよりも前のテキストデータを保持し、テキストデータに対応する音声データと、音声認識処理を実行するにあたって生成されたデータと、を破棄する破棄処理を実行する(S4)。音声認識処理を実行するにあたって生成されたデータとしては、有効グラフとして表現した出力候補のグラフであるラティス、音声認識処理の結果であるテキストデータ等である。次に、音声認識システムは、破棄処理によって破棄された区間を除いた音声データに対して、音声認識処理を実行する(S5)。
【0038】
S3における検出処理において、音声認識システムは、例えば、所定の基準によって区切られる区切りを一定時間のフィラー又は特定の単語が続く場合とし、テキストデータにおいて一定時間のフィラー又は特定の単語が続いたことを検出する。ここで、フィラーとは、話者が言葉を話しているとき(会話など)において、次の言葉を選んでいる間の隙間を埋める発話、つなぎ言葉である。例えば、「まあ」、「う」、「え」、「あのー」等である。また、特定の単語は、繰り返して発せられる言葉、例えば、「はい」、「こんにちは」である。「はい」の場合は、「はい、はい」というように、繰り返して発せられることがある。フィラーは、例えば、「こんにちは まあ う えー あの えー お体の調子は」という言葉が発せられたときに、「まあ う えー あの えー」と「お体の調子は」との間の、文章の区切りとなる言葉である。
【0039】
ここで、例えば、音声データが「お久しぶりです。まあ、う、え、あのー、本日は前回の続きを議論したいと思います。」の場合、図2(a)で示すように、音声認識システムは、最初から10秒間の音声データ「こんにちはまあ、う、え、あのー、本日はよろしく」について音声認識処理を実行する。音声認識システムは、音声認識処理を実行し、「こんにちはまあ、う、え、あのー、本日はよろしく」というテキストデータを記憶部に記憶する。音声認識システムは、このテキストデータに検出処理を実行する。ここでは、テキストデータにおいて、「まあ、う、え、あのー」というフィラーが続いているため、図2(b)で示すように、「こんにちはまあ、う、え、あのー、」と「本日はよろしく」との間の、文章の区切りを検出する。音声認識システムは、図2(c)で示すように、検出した区切りよりも前の「こんにちはまあ、う、え、あのー、」のテキストデータを保持し、検出した区切りよりも前のテキストデータに対応する音声データと、有向グラフとして表現した出力候補のグラフであるラティス等の音声認識処理を実行するにあたって生成されたデータと、検出した区切りよりも後の「本日はよろしく」のテキストデータと、を破棄する。さらに、音声認識システムは、図2(d)で示すように、次の10秒で区切られた「本日はよろしくお願いします。」まで音声認識処理を実行する。その後、検出処理、破棄処理を実行する。これによって、音声認識システムは、音声認識結果として「こんにちはまあ、う、え、あのー、本日はよろしくお願いします。」を出力することができる。
【0040】
ここでの出力とは、音声認識結果をディスプレイへの表示、外部の装置への送信、プリンタでのプリントアウト、記憶部への記憶、他の処理装置や他のプログラムなどへの処理結果の引渡し、または、音声認識結果を音声データに変換してスピーカからの音出力などが含まれる。例えば、電話等による音声会話における発話内容を、音声認識結果のテキストデータとして記憶部に記憶させてもよい。なお、出力は、記載されている例に限られない。
【0041】
また、音声認識システムは、S3における検出処理において、所定の基準によって区切られる区切りを句点とする場合とし、テキストデータにおいて句点を検出する。
【0042】
ここで、例えば、音声データが「こんにちは、お久しぶりです。本日は前回の続きを議論したいと思います。よろしくお願いいたします。」の場合、図3(a)で示すように、音声認識システムは、最初から10秒間の音声データ「こんにちは、お久しぶりです。本日は前回の」について音声認識処理を実行する。ここでは、句点があるため、音声認識システムは、図3(b)で示すように、「お久しぶりです。」と「本日は前回の」との間の、句点を検出する。音声認識システムは、図3(c)で示すように、検出した区切りよりも前の「こんにちは、お久しぶりです。」までのテキストデータを保持し、検出した区切りよりも前のテキストデータに対応する音声データと、有向グラフとして表現した出力候補のグラフであるラティス等の音声認識処理を実行するにあたって生成されたデータと、検出した区切りよりも後の「本日は前回の」のテキストデータを破棄する。
【0043】
次に、音声認識システムは、図3(d)で示すように、次の10秒で区切られた「本日は前回の続きを議論したいと思います。よろしく。」まで音声認識処理を実行する。音声認識システムは、図3(b)の検出処理と同様に、区切りの終わりの位置である「本日は前回の続きを議論したいと思います。」と「よろしく」との間の、句点を検出する。音声認識システムは、図3(c)と同様に、検出した区切りよりも前の「本日は前回の続きを議論したいと思います。」までのテキストデータを保持し、検出した区切りよりも前のテキストデータに対応する音声データと、有向グラフとして表現した出力候補のグラフであるラティス等の音声認識処理を実行するにあたって生成されたデータと、検出した区切りよりも後の「よろしく」のテキストデータを破棄する。最後に、「よろしくお願いいたします。」まで音声認識処理を実行する。これによって、認識結果として「お久しぶりです。本日は前回の続きを議論したいと思います。よろしくお願いします。」を出力することができる。
【0044】
以上説明したように、本実施形態では、音声認識システムは、音声認識処理の結果であるテキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理を実行する。そして、音声認識システムは、検出処理によって検出された区切りよりも前のテキストデータを保持し、テキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータを破棄する破棄処理を実行し、破棄処理によって破棄された区間を除いた音声データに対して、音声認識処理を実行する。
【0045】
これにより、所定の基準の区切りとして、例えば、一定時間のフィラー、特定の単語の連続、又は句点が設定されれば、文章の途中で区切られることがないため、文章の途中で区切られることによる誤認識を防止することができる。
【0046】
また、上述のように、記憶部に記憶されている、検出処理によって検出された区切りよりも前のテキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータが破棄されるため、音声認識システムが備える記憶部の記憶容量(メモリ)を開放することができ、長時間の音声認識による記憶部の記憶容量(メモリ)の枯渇を防ぐことができる。
【0047】
また、本実施形態では、音声認識システムは、検出処理において、所定の基準によって区切られる区切りを一定時間のフィラー又は特定の単語(例えば、こんにちは、はい等)が続く場合とし、一定時間のフィラー又は特定の単語が続いたことを検出する。これにより、テキストデータから適切な区切りを検出することができる。
【0048】
また、本実施形態では、音声認識システムは、検出処理において、所定の基準によって区切られる区切りを句点とし、句点の音声の位置を検出する。これにより、テキストデータから適切な区切りを検出することができる。
【0049】
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、以下に例示するように、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
【0050】
上述の実施形態においては、所定の基準によって区切られる区切りを一定時間のフィラー又は特定の単語が続く場合と、句点とした場合について説明した。これに限らず、所定の基準によって区切られる区切りは、読点としてもよい。
【産業上の利用可能性】
【0051】
本発明は、音声認識システム、及び、音声認識方法に好適に採用され得る。

図1
図2
図3