特許7652372 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

特許7652372音声処理方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-03-18

(45)【発行日】2025-03-27

(54)【発明の名称】音声処理方法及び装置

(51)【国際特許分類】

G10L 15/183 20130101AFI20250319BHJP

G10L 15/16 20060101ALI20250319BHJP

【ＦＩ】

G10L15/183

G10L15/16

【請求項の数】 26

(21)【出願番号】P 2021010387

(22)【出願日】2021-01-26

(65)【公開番号】P2021173993

(43)【公開日】2021-11-01

【審査請求日】2023-12-04

(31)【優先権主張番号】10-2020-0051269

(32)【優先日】2020-04-28

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】390019839

【氏名又は名称】三星電子株式会社

【氏名又は名称原語表記】ＳａｍｓｕｎｇＥｌｅｃｔｒｏｎｉｃｓＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】１２９，Ｓａｍｓｕｎｇ－ｒｏ，Ｙｅｏｎｇｔｏｎｇ－ｇｕ，Ｓｕｗｏｎ－ｓｉ，Ｇｙｅｏｎｇｇｉ－ｄｏ，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】姜泰均

【審査官】山下剛史

(56)【参考文献】

【文献】米国特許出願公開第２０２０／０１２６５３８（ＵＳ，Ａ１）

【文献】特開２００４－１７７５５１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

(57)【特許請求の範囲】

【請求項1】

音声信号からターゲットセグメントを取得するステップと、
前記ターゲットセグメントを復号化することによって、前記ターゲットセグメントに対応するターゲット文字シーケンスを決定するステップと、
前記ターゲット文字シーケンスと先行文字シーケンスとの間にオーバーラップされる第１部分を編集距離に基づいて決定するステップと、
オーバーラップされる前記第１部分に基づいて、前記ターゲット文字シーケンスおよび前記先行文字シーケンスを併合するステップと、
を含み、
前記編集距離に適用される費用は、前記編集距離で行われる作業の種類、作業対象である文字が前記オーバーラップされる部分に位置するか否か、または、マッチングするか否か、のうちいずれか１つ又はその組合せに基づいて決定される、
音声処理方法。

【請求項2】

前記編集距離の費用は、前記ターゲット文字シーケンスおよび前記先行文字シーケンスのうちオーバーラップされない部分と、オーバーラップされる前記第１部分とに相違して適用される、
請求項１に記載の音声処理方法。

【請求項3】

前記ターゲット文字シーケンスおよび前記先行文字シーケンスのうち、オーバーラップされない部分で発生する前記編集距離の挿入費用は、オーバーラップされる前記第１部分で発生する挿入費用よりも小さい、
請求項１に記載の音声処理方法。

【請求項4】

前記編集距離のマッチング費用は、前記ターゲット文字シーケンスおよび前記先行文字シーケンスのうち、オーバーラップされない部分で発生する前記編集距離の挿入費用よりも小さい、
請求項１に記載の音声処理方法。

【請求項5】

オーバーラップされる前記第１部分で発生する前記編集距離の挿入費用、削除費用、及び、前記編集距離の交替費用は、正数である、
請求項１に記載の音声処理方法。

【請求項6】

前記編集距離のマッチング費用は、負数であり、
前記ターゲット文字シーケンスおよび前記先行文字シーケンスのうち、オーバーラップされない部分で発生する前記編集距離の挿入費用は、０である、
請求項１に記載の音声処理方法。

【請求項7】

前記音声信号からターゲットセグメントを決定するステップは、セグメントの長さ及びセグメント間のオーバーラップの長さに基づいて、前記音声信号から前記ターゲットセグメントを決定する、
請求項１に記載の音声処理方法。

【請求項8】

前記セグメント間のオーバーラップの長さは、前記音声処理方法を行う装置の可用リソースに基づいて決定される、
請求項７に記載の音声処理方法。

【請求項9】

前記オーバーラップされる部分を識別するステップは、セグメント間のオーバーラップの長さの間でユーザが発話可能な最大文字の長さに応じて、前記先行文字シーケンスから抽出された一部のシーケンスと前記ターゲット文字シーケンスとの間にオーバーラップされる第２部分を識別する、
請求項１に記載の音声処理方法。

【請求項10】

前記先行文字シーケンスは、前記音声信号で前記ターゲットセグメントと一部がオーバーラップされる先行セグメントの復号化結果に基づいて決定される、
請求項１に記載の音声処理方法。

【請求項11】

前記オーバーラップされる部分を識別するステップは、前記先行文字シーケンスに含まれた前記先行セグメントの復号化結果と前記ターゲット文字シーケンスとの間にオーバーラップされる第３部分を識別する、
請求項１０に記載の音声処理方法。

【請求項12】

前記ターゲットセグメントで前記先行セグメントとオーバーラップされる前記第１部分は、前記ターゲットセグメントの半分未満である、
請求項１０に記載の音声処理方法。

【請求項13】

請求項１ないし１２のいずれか一項に記載の方法を実行させるためのプログラムが記録された、コンピュータで読出し可能な記憶媒体。

【請求項14】

１つ以上のプロセッサを含み、
前記１つ以上のプロセッサは、
音声信号からターゲットセグメントを決定し、
前記ターゲットセグメントを復号化することによって、前記ターゲットセグメントに対応するターゲット文字シーケンスを決定し、
前記ターゲット文字シーケンスと先行文字シーケンスとの間にオーバーラップされる部分を編集距離に基づいて識別し、
前記オーバーラップされる部分に基づいて、前記ターゲット文字シーケンスと前記先行文字シーケンスを併合し、
前記編集距離に適用される費用は、前記編集距離で行われる作業の種類、作業対象である文字が前記オーバーラップされる部分に位置するか否か、または、マッチングするか否か、のうちいずれか１つ又はその組合せに基づいて決定される、
音声処理装置。

【請求項15】

前記編集距離の費用は、前記ターゲット文字シーケンスおよび前記先行文字シーケンスのうち、オーバーラップされない部分と、前記オーバーラップされる部分とに相違して適用される、
請求項１４に記載の音声処理装置。

【請求項16】

前記編集距離のマッチング費用は、前記ターゲット文字シーケンスおよび前記先行文字シーケンスのうちオーバーラップされない部分で発生する前記編集距離の挿入費用よりも小さい、
請求項１４に記載の音声処理装置。

【請求項17】

前記ターゲット文字シーケンスと前記先行文字シーケンスのうち、オーバーラップされる部分で発生する前記編集距離の挿入費用、削除費用、及び、前記編集距離の交替費用は、正数である、
請求項１４に記載の音声処理装置。

【請求項18】

前記１つ以上のプロセッサは、セグメントの長さ及びセグメント間のオーバーラップの長さに基づいて、前記音声信号から前記ターゲットセグメントを決定する、
請求項１４に記載の音声処理装置。

【請求項19】

前記セグメント間のオーバーラップの長さは、音声処理を行う装置の可用リソースに基づいて決定される、
請求項１８に記載の音声処理装置。

【請求項20】

前記先行文字シーケンスは、前記音声信号で前記ターゲットセグメントと一部がオーバーラップされる先行セグメントの復号化結果に基づいて決定される、
請求項１４に記載の音声処理装置。

【請求項21】

音声信号からセグメントを決定するステップと、
前記セグメントを復号化することによって、前記セグメントに対する文字シーケンスをそれぞれ決定するステップと、
前記文字シーケンスのうち、隣接する文字シーケンスの対応する編集距離に基づいて、前記隣接する文字シーケンス間にオーバーラップされる部分を識別するステップと、
前記オーバーラップされる部分のうち対応する部分に基づいて、前記文字シーケンスのうち隣接する文字シーケンスを併合するステップと、
を含み、
前記対応する編集距離それぞれに適用される費用は、前記編集距離のうち対応する距離で行われる作業の種類、作業対象である文字がオーバーラップされる部分に位置するか否か、または、マッチングするか否か、のうちいずれか１つ又はその組合せに基づいて決定される、
方法。

【請求項22】

前記対応する編集距離それぞれに適用される費用は、前記文字シーケンスのうち隣接する文字シーケンス間にオーバーラップされない部分と、オーバーラップされる部分とに相違して適用される、
請求項２１に記載の方法。

【請求項23】

オーバーラップされない部分およびオーバーラップされる部分のうち対応する部分で、前記対応する編集距離に対する挿入費用は互いに異なる、
請求項２１に記載の方法。

【請求項24】

前記オーバーラップされる部分で発生する編集距離に対する挿入費用、削除費用、及び、交替費用は、正数である、
請求項２１に記載の方法。

【請求項25】

前記音声信号からセグメントを決定するステップは、それぞれのセグメントの長さ及び隣接するセグメント間のオーバーラップの長さに基づく、
請求項２１に記載の方法。

【請求項26】

前記隣接するセグメント間でオーバーラップされる長さは、前記方法を行う装置の可用リソースに基づいて決定される、
請求項２５に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声処理方法及び装置に関する。

【背景技術】

【0002】

音声認識は、ユーザの音声を認識する技術である。音声認識によってユーザの音声はテキストに変換され得る。音声認識技術の発展に伴って、ユーザが機器あるいはエージェントに音声を用いて命令しようとするニーズ（ｎｅｅｄｓ）が増加しているが、音声認識を行うモデルの限定的な学習データ、音声信号の周辺ノイズなどのせいで、最適な性能を保障することが難しい。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本発明の目的は、音声処理方法及び装置を提供することにある。

【課題を解決するための手段】

【0004】

一実施形態に係る音声処理方法は、音声信号からターゲットセグメントを取得するステップと、前記ターゲットセグメントを復号化することによって、前記ターゲットセグメントに対応するターゲット文字シーケンスを決定するステップと、前記ターゲット文字シーケンスと先行文字シーケンスとの間にオーバーラップされる第１部分を編集距離に基づいて決定するステップと、オーバーラップされる前記第１部分に基づいて、前記ターゲット文字シーケンスおよび前記先行文字シーケンスを併合するステップとを含み、前記編集距離に適用される費用は、前記編集距離で行われる作業の種類、作業対象である文字が前記オーバーラップされる部分に位置するか否か、または、マッチングするか否か、のうちいずれか１つ又はその組合せに基づいて決定される。

【0005】

一実施形態に係る音声処理方法において、前記編集距離の費用は、前記ターゲット文字シーケンスおよび前記先行文字シーケンスのうちオーバーラップされない部分と、オーバーラップされる前記第１部分とに相違して適用されてもよい。

【0006】

一実施形態に係る音声処理方法において、前記ターゲット文字シーケンスおよび前記先行文字シーケンスのうち、オーバーラップされない部分で発生する前記編集距離の挿入費用は、オーバーラップされる前記第１部分で発生する挿入費用よりも小さくてもよい。

【0007】

一実施形態に係る音声処理方法において、前記編集距離のマッチング費用は、前記ターゲット文字シーケンスおよび前記先行文字シーケンスのうち、オーバーラップされない部分で発生する前記編集距離の挿入費用よりも小さくてもよい。

【0008】

一実施形態に係る音声処理方法において、前記第１オーバーラップされる部分で発生する前記編集距離の挿入費用、削除費用、及び前記編集距離の交替費用は正数であってもよい。

【0009】

一実施形態に係る音声処理方法において、前記編集距離のマッチング費用は、負数であり、前記ターゲット文字シーケンスおよび前記先行文字シーケンスのうち、オーバーラップされない部分で発生する前記編集距離の挿入費用は、０であってもよい。

【0010】

一実施形態に係る音声処理方法において、前記音声信号からターゲットセグメントを決定するステップは、セグメントの長さ及びセグメント間のオーバーラップの長さに基づいて、前記音声信号から前記ターゲットセグメントを決定してもよい。

【0011】

一実施形態に係る音声処理方法において、前記セグメント間のオーバーラップの長さは、前記音声処理方法を行う装置の可用リソースに基づいて決定されてもよい。

【0012】

一実施形態に係る音声処理方法において、前記オーバーラップされる部分を識別するステップは、セグメント間のオーバーラップの長さの間でユーザが発話可能な最大文字の長さに応じて、前記先行文字シーケンスから抽出された一部のシーケンスと前記ターゲット文字シーケンスとの間にオーバーラップされる第２部分を識別してもよい。

【0013】

一実施形態に係る音声処理方法において、前記先行文字シーケンスは、前記音声信号で前記ターゲットセグメントと一部がオーバーラップされる先行セグメントの復号化結果に基づいて決定されてもよい。

【0014】

一実施形態に係る音声処理方法において、前記オーバーラップされる部分を識別するステップは、前記先行文字シーケンスに含まれた前記先行セグメントの復号化結果と前記ターゲット文字シーケンスとの間にオーバーラップされる第３部分を識別してもよい。

【0015】

一実施形態に係る音声処理方法において、前記ターゲットセグメントで前記先行セグメントとオーバーラップされる前記第１部分は、前記ターゲットセグメントの半分未満であってもよい。

【0016】

一実施形態に係る音声処理装置は、１つ以上のプロセッサを含み、前記１つ以上のプロセッサは、音声信号からターゲットセグメントを決定し、前記ターゲットセグメントを復号化することによって、前記ターゲットセグメントに対応するターゲット文字シーケンスを決定し、前記ターゲット文字シーケンスと先行文字シーケンスとの間にオーバーラップされる部分を編集距離に基づいて識別し、前記オーバーラップされる部分に基づいて、前記ターゲット文字シーケンスと前記先行文字シーケンスを併合し、前記編集距離に適用される費用は、前記編集距離で行われる作業の種類、作業対象である文字が前記オーバーラップされる部分に位置するか否か、または、マッチングするか否か、のうちいずれか１つ又はその組合せに基づいて決定される。

【0017】

一実施形態に係る方法は、音声信号からセグメントを決定するステップと、前記セグメントを復号化することによって、前記セグメントに対する文字シーケンスをそれぞれ決定するステップと、前記文字シーケンスのうち、隣接する文字シーケンスの対応する編集距離に基づいて、前記隣接する文字シーケンス間にオーバーラップされる部分を識別するステップと、前記オーバーラップされる部分のうち対応する部分に基づいて、前記文字シーケンスのうち隣接する文字シーケンスを併合するステップとを含む。

【発明の効果】

【0018】

本発明に従って、音声処理方法及び装置を提供することができる。

【図面の簡単な説明】

【0019】

【図1】一実施形態に係るニューラルネットワーク基盤音声処理を説明するための図である。

【図2】一実施形態に係る音声認識過程を説明するための図である。

【図3】一実施形態に係る音声認識過程を説明するためのフローチャートである。

【図4】一実施形態に従って、文字シーケンスを統合する例を説明するための図である。

【図5】一実施形態に従って、文字シーケンスを統合する例を説明するための図である。

【図6】一実施形態に従って、文字シーケンスを統合する例を説明するための図である。

【図7】一実施形態に係る編集距離を説明するための例を示す図面である。

【図8】一実施形態に係る音声処理方法を示すフローチャートである。

【図9】一実施形態に係る音声処理装置を示す図である。

【図10】一実施形態に係る音声処理装置の例示を説明するための図である。

【図11】一実施形態に係る音声処理装置の例示を説明するための図である。

【発明を実施するための形態】

【0020】

実施形態に対する特定の構造的又は機能的な説明は、単なる例示目的のために開示されたものとして、様々な形態に変更される。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は、技術的な思想に含まれる変更、均等物、ないし代替物を含む。

【0021】

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は、１つの構成要素を他の構成要素から区別する目的だけのものとしてのみ解釈されなければならない。例えば、第１構成要素は、第２構成要素と命名することができ、同様に、第２構成要素は第１構成要素としても命名することができる。

【0022】

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、形状、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴、形状数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在、もしくは、付加の可能性を予め排除しないものとして理解しなければならない。

【0023】

異なるように定義がなされない限り、技術的又は科学的な用語を含む、ここで使用される全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

【0024】

以下、実施形態を添付の図面を参照しながら詳説する。実施形態の説明において、関連する公知技術に対する具体的な説明が、本発明の要旨を不必要に曖昧にしていると判断される場合には、その詳細な説明を省略する。

【0025】

図１は、一実施形態に係るニューラルネットワーク基盤音声処理を説明するための図である。

【0026】

図１を参照すると、一実施形態に係る音声処理のためのニューラルネットワークは、エンコーダ１１０およびデコーダ１２０を含む。音声処理装置は、エンコーダ１１０とデコーダ１２０を用いてユーザの音声信号１３０を音声認識し、その結果として文字シーケンス１４０を決定することができる。エンコーダ１１０は、与えられた音声信号１３０を符号化して音声信号１３０のコンテキスト情報（ｃｏｎｔｅｘｔｉｎｆｏｒｍａｔｉｏｎ）を生成し、デコーダ１２０は、コンテキスト情報に基づく復号化に基づいて、漸進的に認識された文字シーケンス１４０を、認識結果として出力することができる。デコーダ１２０では、特定の時点の単語が、次の時点の入力として提供され、次にくると予想される単語を推論する過程が、その認識が終了するまで繰り返し行われる。エンコーダ１１０およびデコーダ１２０は、ユーザの音声信号１３０の入力に応答し、それに対応する音声認識結果が出力されるように予め学習された音声認識モデルである。

【0027】

このように、音声処理はエンコーダ１１０およびデコーダ１２０に基づいた音声認識を含むせいで、ネットワークの限定的な学習データと学習効率性による学習データの長さの制限などによって、学習データよりも長い音声信号については、認識正確度が低くなる現象が生じる恐れがある。これを防止するために、長い音声信号を複数のセグメントに分割し、エンコーダ１１０およびデコーダ１２０を用いて分割された各セグメントについて音声認識を個別的に行い、認識結果として取得された文字シーケンスを統合することによって、長い音声信号の音声認識結果を決定することができる。以下、図面を参照して詳細に説明する。

【0028】

図２及び図３は、一実施形態に係る音声認識過程を説明するための図である。

【0029】

図２を参照すると、一実施形態に係る音声処理装置は、長い音声信号２１０を複数のセグメント２２１～２２４に区分して音声認識を個別的に行うことにより、複数の文字シーケンス２３１～２３４をそれぞれ決定し、複数の文字シーケンス２３１～２３４を併合することで長い音声信号２１０の音声認識結果２４０を取得することができる。本明細書において、セグメントは、説明の便宜のためにチャンク（ｃｈｕｎｋ）やウィンドウ（ｗｉｎｄｏｗ）として称されてもよい。長い音声信号２１０は、複数のセグメントを含んでもよい。

【0030】

音声処理装置は、長い音声信号２１０を複数のセグメント２２１～２２４に区分することができる。例えば、音声処理装置は、セグメントの長さＡ及びセグメント間のオーバーラップの長さＢに基づいて、長い音声信号２１０から複数のセグメント２２１～２２４を区分することができる。

【0031】

一実施形態において、オーバーラップの長さＢは、セグメントの長さＡの半分未満として決定されてもよい。後で詳しく説明するが、複数のセグメント２２１～２２４それぞれに対して音声認識が行われるので、各セグメントで隣接するセグメントとオーバーラップされる部分は２回復号化されることがある。オーバーラップの長さＢをセグメントの長さＡの半分未満に設定することにより、長い音声信号２１０のすべての部分が２回復号化される必要がないので、計算オーバーヘッドを最小化することができる。例えば、セグメントの長さＡは８秒であり、セグメント間のオーバーラップの長さＢは２秒として決定されているが、その他にも様々な数値が適用されてもよい。

【0032】

一実施形態において、音声処理装置は、セグメント間のオーバーラップの長さＢを可用リソースに基づいて動的に決定することができる。音声認識が実行される各セグメントは、長い音声信号２１０から特定の基準（例えば、セグメントの長さＡ及びオーバーラップの長さＢ）に基づいて分割されたものであるので、発話の途中で切られたセグメントの境界では、音声認識の正確度がセグメント中心よりも低いこともある。これを補完するために、セグメント間のオーバーラップの長さＢを長く設定することが好ましいが、オーバーラップの長さＢが長くなるほど、長い音声信号２１０で復号化が２回行われる部分の比率が高まり、計算オーバーヘッドの増加を避けることが難しい。もし、可用リソースが充分であり、計算オーバーヘッドが増加しても、一定のレベル以上の性能が保障されれば、音声処理装置は、オーバーラップの長さＢを予め設定された閾値の長さよりも長く設定することができる。反対に、可用リソースが充分でない場合、音声処理装置は、オーバーラップの長さＢを予め設定された閾値の長さよりも短く設定することで、計算オーバーヘッドの増加による性能低下を防止することができる。

【0033】

一例として、音声処理装置が音声認識用サーバである場合、前記サーバで実行されている音声認識作業の個数が少なければ、オーバーラップの長さＢが予め設定された閾値の長さよりも長く設定され、反対に、音声認識作業の個数が多ければ、オーバーラップの長さＢが予め設定された閾値の長さよりも短く設定されてもよい。他の一例として、音声処理装置がスマートフォンと同じユーザ端末である場合、該当ユーザ端末で音声認識作業以外の作業が実行されなければ、オーバーラップの長さＢが予め設定された閾値の長さよりも長く設定され、反対に、ユーザ端末で音声認識作業以外の作業（例えば、モバイルゲームなど）が同時に実行されれば、オーバーラップの長さＢが予め設定された閾値の長さよりも短く設定されてもよい。

【0034】

音声処理装置は、複数のセグメント２２１～２２４それぞれに対して図１を参照して説明したエンコーダ－デコーダに基づいた音声認識を行い、その結果として、複数の文字シーケンス２３１～２３４を決定することができる。例えば、第１セグメント２２１の音声認識結果として第１文字シーケンス２３１が決定され、同様に、残りの文字シーケンス２３２～２３４も第２セグメント２２２～第４セグメント２２４それぞれの音声認識結果として決定される。

【0035】

音声処理装置は、複数の文字シーケンス２３１～２３４を併合することで、長い音声信号２１０に対応する音声認識結果２４０を決定することができる。音声処理装置は、隣接する文字シーケンス間にオーバーラップされる部分を編集距離に基づいて識別し、オーバーラップされる部分に基づいて隣接する文字シーケンスを併合することができる。ここで、編集距離は、１つの文字シーケンスを他の文字シーケンスに変換するために必要な最小の作業費用（ｍｉｎｉｍｕｍｃｏｓｔｏｆｏｐｅｒａｔｉｏｎｓ）を計算し、２文字シーケンスが互いに異なる程度を数量化する技法であって、このとき適用される費用は作業の種類（例えば、挿入、変更、削除）、作業対象である文字の位置、マッチングするか否か、のうち少なくとも１つに基づいて決定されてもよい。オーバーラップされる部分は、復号化が２回行われた部分であるため、復号化の結果のいずれか１つが選択され、音声認識結果２４０に含まれる。オーバーラップされる部分を識別し、文字シーケンスを併合する過程については、後で詳細に説明する。

【0036】

図３を参照すると、一実施形態に係る長い音声信号の音声認識過程を説明するためのフローチャートが図示される。

【0037】

ステップＳ３１０において、音声処理装置は、音声信号が入力されると、音声認識を実行しようとするターゲットセグメントの開始時間ｔ＿ｓｔａｒｔを０に初期化し、音声認識結果が累積するＨＩＳＴＯＲＹをエンプティーバリュー（ｅｍｐｔｙｖａｌｕｅ）として初期化することができる。本実施形態において、ターゲットセグメントの開始時間ｔ＿ｓｔａｒｔは０に初期化されるが、実施形態がこれに限定されることはない。

【0038】

ステップＳ３２０において、音声処理装置は、音声信号において開始時間ｔ＿ｓｔａｒｔからセグメントの長さＡまで音声が存在するか、又は、以前に音声信号が終了するかを確認することができる。これを通じて、音声処理装置は、音声信号において開始時間ｔ＿ｓｔａｒｔからセグメントの長さＡまでを抽出し、ターゲットセグメントとして取得することができる。または、開始時間ｔ＿ｓｔａｒｔからセグメントの長さＡまでを抽出する以前に音声信号が終了すれば、音声処理装置は、開始時間ｔ＿ｓｔａｒｔから抽出された部分までをターゲットセグメントとして取得してもよい。

【0039】

ステップＳ３３０において、音声処理装置は、抽出されたターゲットセグメントを復号化した結果であるターゲット文字シーケンスＤを取得する。

【0040】

ステップＳ３４０において、音声処理装置は、ターゲット文字シーケンスＤおよびＨＩＳＴＯＲＹを併合し、その結果をＨＩＳＴＯＲＹとして格納する。最初の場合は、ＨＩＳＴＯＲＹにエンプティーバリューが格納されているため、ステップＳ３３０で取得されたターゲット文字シーケンスＤが、そのままＨＩＳＴＯＲＹに格納されている。最初でない場合には、ＨＩＳＴＯＲＹに先行文字シーケンスが格納されているので、音声処理装置は、ターゲット文字シーケンスＤとＨＩＳＴＯＲＹとの間のオーバーラップされる部分を識別し、識別された部分に基づいてターゲット文字シーケンスＤとＨＩＳＴＯＲＹを併合し、その結果をＨＩＳＴＯＲＹとして格納することができる。オーバーラップされる部分は、復号化が２回行われた部分であるため、復号化の結果のうちの１つが選択され、ＨＩＳＴＯＲＹに格納され得る。このように、ＨＩＳＴＯＲＹには、音声信号をセグメント単位で音声認識した結果が順次累積されている。文字シーケンスを併合する過程については、図４～図６を参照して後述する。

【0041】

ステップＳ３５０において、音声処理装置は、音声信号が終了するか否かを確認する。もし、終了していなければ、ステップＳ３６０が引き続き行われ、反対に、音声信号が終了していれば、ステップＳ３７０が引き続き行われる。

【0042】

ステップＳ３６０において、音声処理装置は、ターゲットセグメントの開始時間ｔ＿ｓｔａｒｔをシフト時間Ｃだけ増加させる。シフト時間Ｃは、セグメントの長さＡの半分よりは大きく、セグメントの長さＡよりは小さく設定されることにより、計算オーバーヘッドを最小化することができる。一実施形態によれば、シフト時間Ｃは、音声処理装置の可用リソースに基づいて動的に決定されてもよい。例えば、可用リソースが充分であるほど、シフト時間Ｃは、セグメントの長さＡの半分に近く設定され、反対に、可用リソースが不足であるほど、シフト時間Ｃはセグメントの長さＡに近く設定される。

【0043】

ステップＳ３７０において、音声処理装置は、ＨＩＳＴＯＲＹに累積された文字シーケンスを音声信号の認識結果としてリターンする。

【0044】

図４～図６は、一実施形態により文字シーケンスを統合する例示を説明するための図である。

【0045】

図４を参照すると、一実施形態によりターゲット文字シーケンス４２０を先行文字シーケンス４１０と併合する過程を説明するための例が図示されている。図４は、音声処理方法の最初のステップを例示的に示しており、先行文字シーケンス４１０は、音声信号から抽出された第１セグメントの復号化結果であり、ターゲット文字シーケンス４２０は、音声信号から抽出された第２セグメントの復号化結果である。第２セグメントは、第１セグメントの後続セグメントである。

【0046】

音声処理装置は、先行文字シーケンス４１０とターゲット文字シーケンス４２０との間のオーバーラップされる部分４３０を編集距離に基づいて識別することができる。編集距離に適用される費用は、編集距離で実行される作業の種類（例えば、挿入、変更、削除）、作業対象である文字が２文字シーケンス間のオーバーラップされる部分に位置するか否か、マッチングするか否か、のうち少なくとも１つに基づいて決定されてもよい。編集距離に適用される費用に対する詳しい内容は、図７を参照して後述する。

【0047】

図４に示すように、先行文字シーケンス４１０とターゲット文字シーケンス４２０との間にオーバーラップされる部分４３０を基準にして、先行文字シーケンス４１０とターゲット文字シーケンス４２０が文字レベル（ｃｈａｒａｃｔｅｒｌｅｖｅｌ）に整列され、このとき、先行文字シーケンス４１０とターゲット文字シーケンス４２０との間の編集距離の費用が最も少ない。

【0048】

整列された先行文字シーケンス４１０およびターゲット文字シーケンス４２０は、次のように併合されてもよい。

【0049】

まず、先行文字シーケンス４１０およびターゲット文字シーケンス４２０のうち、オーバーラップされる部分４３０を除いた残りの部分、すなわち、オーバーラップされない部分に対しては復号化が１回ずつ行われているため、予め実行された復号化結果がそのまま活用され得る。一方、オーバーラップされている部分４３０に対しては、復号化が２回実行されて復号化結果が先行文字シーケンス４１０とターゲット文字シーケンス４２０それぞれに含まれている。従って、先行文字シーケンス４１０とターゲット文字シーケンス４２０に含まれるオーバーラップされている部分４３０の復号化の結果のいずれか１つが選択されなければならない。

【0050】

例えば、音声処理装置は、オーバーラップされる部分４３０で単語境界（ｗｏｒｄｂｏｕｎｄａｒｙ）を確認することができる。単語境界は、単語と単語との間を示し、復号化の結果で単語間のスペース（ｓｐａｃｉｎｇ）に該当する。そして、音声処理装置は、確認された単語境界を転換候補（ｔｒａｎｓｉｔｉｏｎｃａｎｄｉｄａｔｅ）として指定し、指定された転換候補のうち、オーバーラップされる部分４３０のうち最も中間に位置するいずれか１つを転換ポイントとして選択することができる。そして、音声処理装置は、先行文字シーケンス４１０内の最初から転換ポイント以前までの単語と、ターゲット文字シーケンス４２０内の転換ポイント以後から最後までの単語とを連結することで、先行文字シーケンス４１０及びターゲット文字シーケンス４２０を併合することができる。各セグメントの境界は、音声信号が途切られた部分に該当し、セグメントの中心よりも認識の正確度が低いため、オーバーラップされる部分４３０の中間に位置する転換ポイントを基準にして、先行文字シーケンス４１０及びターゲット文字シーケンス４２０を併合することで、高い認識正確度の併合結果を取得することができる。

【0051】

図４の例示において、オーバーラップされる部分４３０内の単語境界は、先行文字シーケンス４１０において「ｒｅｃｏｇｎｉｔｉｏｎ」及び「ａｌｌ」の間に決定され、ターゲット文字シーケンス４２０においては「ｒｅｃｏｇｎｉｔｉｏｎ」及び「ａｌｇｏｒｉｔｈｍ」の間に決定され、該当の部分が転換候補に指定され得る。本例示において、転換候補は、１つにオーバーラップされる部分４３０の中間に位置しているので、転換ポイントとして選択され得る。すると、先行文字シーケンス４１０内の最初から転換ポイント以前までの単語「Ｔｈｅｅｎｄ－ｔｏ－ｅｎｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ」とターゲット文字シーケンス４２０内の転換ポイント以後から最後までの単語「ａｌｇｏｒｉｔｈｍｈａｓｂｅｅｎｗｉｄｅｌｙｓｔｕｄｉｅｄ」が互いにつながることにより、併合結果として「Ｔｈｅｅｎｄ－ｔｏ－ｅｎｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｈａｓｂｅｅｎｗｉｄｅｌｙｓｔｕｄｉｅｄ」が決定される。先行文字シーケンス４１０内の最後の単語「ａｌｌ」は音声信号が途切られ、「ａｌｇｏｒｉｔｈｍ」が「ａｌｌ」のように間違って認識されたものであるが、前述した方法に基づいて、間違って認識された単語が併合結果として含まれることが効率よく防止され得る。

【0052】

図４において決定された併合結果は、次のターゲットセグメントの復号化結果と併合される。これについては。図５を参照して後述する。

【0053】

図５を参照すると、一実施形態によりターゲット文字シーケンス５２０を先行文字シーケンス５１０と併合する過程を説明するための例が図示されている。ここで、先行文字シーケンス５１０は、図４を参照して実行された併合結果であり、ターゲット文字シーケンス５２０は、音声信号から抽出された第３セグメントの復号化結果である。

【0054】

音声処理装置は、先行文字シーケンス５１０とターゲット文字シーケンス５２０との間にオーバーラップされる部分を編集距離に基づいて識別することができる。図５に示すように、場合に応じて、先行文字シーケンス５１０とターゲット文字シーケンス５２０との間にオーバーラップされる部分が存在しなくてもよく、その結果、先行文字シーケンス５１０とターゲット文字シーケンス５２０は、互いに重ならないよう整列されてもよい。前述のように、オーバーラップされない部分は、予め実行された復号化結果がそのまま活用されて併合結果に含まれ得るため、先行文字シーケンス５１０およびターゲット文字シーケンス５２０がそのまま繋がって、併合結果として「Ｔｈｅｅｎｄ－ｔｏ－ｅｎｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｈａｓｂｅｅｎｗｉｄｅｌｙｓｔｕｄｉｅｄａｎｄｓｈｏｗｅｄｃｏｍｐｅｔｉｔｉｖｅｐｅｒｆｏｒｍａｎｃｅｔｏｃｏｎｖｅｎｔｉｏｎａｌｓｐｅｅｃｈ」が決定される。図５において決定された併合結果は、次のターゲットセグメントの復号化結果と併合さる。これについては、図６を参照して後述する。

【0055】

図６を参照すると、一実施形態によりターゲット文字シーケンス６２０を先行文字シーケンス６１０と併合する過程を説明するための例が図示されている。ここで、先行文字シーケンス６１０は、図５で実行された併合結果であり、ターゲット文字シーケンス６２０は、音声信号から抽出された第４セグメントの復号化結果である。

【0056】

音声処理装置は、先行文字シーケンス６１０とターゲット文字シーケンス６２０との間にオーバーラップされる部分６３０を編集距離に基づいて識別することができる。図６に示すように、オーバーラップされる部分６３０を基準にして先行文字シーケンス６１０とターゲット文字シーケンス６２０が文字レベルに整列され、このとき、オーバーラップされる部分６３０間の編集距離の費用が最も少ない。

【0057】

一実施形態に係る編集距離に基づいてオーバーラップされる部分６３０を識別するとき、先行文字シーケンス６１０の全体が考慮され得るが、実施形態により、先行文字シーケンス６１０の一部のみが考慮されてもよい。一例として、セグメント間のオーバーラップの長さの間でユーザが発話可能な文字の長さが制限的であるため、先行文字シーケンス６１０でユーザが発話可能な最大文字の長さだけ一部のシーケンス６４０が抽出され得る。一部のシーケンス６４０とターゲット文字シーケンス６２０との間の編集距離を計算することで、少ない演算量でオーバーラップされる部分６３０の識別を行うことができる。異なる例として、先行文字シーケンス６１０は、第１セグメントないし第３セグメントの復号化結果が併合したものであるが、この中で最後のセグメントに該当する第３セグメントの復号化結果６５０が、ターゲット文字シーケンス６２０とオーバーラップされてもよい。従って、第３セグメントの復号化結果６５０とターゲット文字シーケンス６２０との間の編集距離を計算することで、少ない演算量でオーバーラップされる部分６３０の識別を行うことができる。このとき、第３セグメントは、ターゲットセグメントのすぐ前のセグメントであって、説明の便宜のために先行セグメントに称する。

【0058】

オーバーラップされる部分６３０を基準にして整列された先行文字シーケンス６１０およびターゲット文字シーケンス６２０は、前述した方式により併合され、その併合結果として「Ｔｈｅｅｎｄ－ｔｏ－ｅｎｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｈａｓｂｅｅｎｗｉｄｅｌｙｓｔｕｄｉｅｄａｎｄｓｈｏｗｅｄｃｏｍｐｅｔｉｔｉｖｅｐｅｒｆｏｒｍａｎｃｅｔｏｃｏｎｖｅｎｔｉｏｎａｌｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｍｅｔｈｏｄｓ」が決定される。図６の例示において、先行文字シーケンス６１０及びターゲット文字シーケンス６２０のそれぞれでオーバーラップされる部分６３０の初単語が「ｃｏｎｖｅｎｔｉｏｎａｌ」と「ｃｏｎｖｏｌｕｔｉｏｎａｌ」のように異なるが、「ｃｏｎｖｅｎｔｉｏｎａｌｓｐｅｅｃｈ」間のスペース、「ｃｏｎｖｏｌｕｔｉｏｎａｌｓｐｅｅｃｈ」間のスペースに指定された転換ポイントに基づいて「ｃｏｎｖｅｎｔｉｏｎａｌ」が併合結果として含まれ得る。

【0059】

図７は、一実施形態に係る編集距離を説明するための例を示す図面である。

【0060】

図７を参照すると、一実施形態に係るターゲット文字シーケンスと先行文字シーケンスとの間に編集距離を計算するための例が示されている。図７の例示的なテーブルにおいて、最初の列の「ｐｒｏｐｏｓｅｄｃｏｎｖｏｌｕｔｉｏｎ」は先行文字シーケンスを示し、最初の行の「ｃｏｎｖｅｎｔｉｏｎａｌａｌｇｏｒｉｔｈｍ」はターゲット文字シーケンスであり、最初の行と最初の列に含まれている「」はスペースを示す。

【0061】

一実施形態によれば、編集距離は、１つの文字シーケンスを他の文字シーケンスに変換するために必要な最小の作業費用を計算し、２文字シーケンスが互いに異なる程度を数量化する技法であって、説明の便宜のために最小の作業費用の計算過程が図７に示すようなテーブルに表現され得る。

【0062】

編集距離に適用される費用は、編集距離で行われる作業の種類（例えば、挿入、変更、削除）、作業対象である文字がオーバーラップされる部分に位置するか否か、マッチングするか否か、のうち少なくとも１つに基づいて決定される。

【0063】

編集距離の費用は、ターゲット文字シーケンスおよび先行文字シーケンスのうちオーバーラップされない部分とオーバーラップされる部分について相違して適用される。相違に表現すれば、オーバーラップされない部分で発生する編集距離の挿入費用は、オーバーラップされる部分で発生する挿入費用よりも小さい。例えば、オーバーラップされない部分で発生する編集距離の挿入費用は０であり、オーバーラップされる部分で発生する挿入費用は２である。図７に示す例示で、先行文字シーケンスの前部７１０は、オーバーラップされない部分でテーブルの下方に行くほど（言い換えれば、先行文字シーケンスの文字が挿入されても）費用が増加することなく同一に維持されている。また、ターゲット文字シーケンスの後部７２０も、オーバーラップされない部分でテーブルの右側に行くほど（言い換えれば、ターゲット文字シーケンスの文字が挿入されても）費用が増加することなく同一に維持されている。反対に、オーバーラップされる部分である先行文字シーケンスの後部とターゲット文字シーケンスの前部では、文字が挿入されるごとに費用が２ずつ増加する。

【0064】

また、オーバーラップされる部分で発生する編集距離の挿入費用、削除費用、及び編集距離の交替費用は正数であってもよく、このとき、各費用は、音声処理方法に対するチューニングにより決定される。例えば、オーバーラップされる部分で発生する編集距離の挿入費用及び／又は削除費用は、編集距離の交替費用より大きくてもよい。例えば、オーバーラップされる部分で発生する編集距離の挿入費用及び／又は削除費用は２であり、編集距離の交替費用は１であってもよい。これは、音声認識過程でノイズなどにより特定文字が異なる文字に認識される場合よりも、特定文字が認識結果から脱落する場合をより大きいエラーとして認識するせいである。

【0065】

また、編集距離のマッチング費用は、オーバーラップされない部分で発生する編集距離の挿入費用より小さくてもよい。相違に表現すれば、マッチング費用は、負数（例えば、－１）に設定され、オーバーラップされない部分で発生する編集距離の挿入費用である０よりも小さい。図７に示す例示で、オーバーラップされる部分７３０でマッチングが発生するごとに費用が減少する。

【0066】

前述した説明による費用が適用されて編集距離が計算されるとき、最小の作業費用は、図７に示すテーブル内の左側上段の時点から右側下段の終点までを連結する全体的な観点で計算され得る。図７に示す例示では、先行文字シーケンス「ｐｒｏｐｏｓｅｄｃｏｎｖｏｌｕｔｉｏｎ」において「ｃｏｎｖｏｌｕｔｉｏｎ」がオーバーラップされる部分として識別され、ターゲット文字シーケンス「ｃｏｎｖｅｎｔｉｏｎａｌａｌｇｏｒｉｔｈｍ」において「ｃｏｎｖｅｎｔｉｏｎａｌ」がオーバーラップされる部分として識別される。このように、ターゲット文字シーケンスの前部と先行文字シーケンスの後部が完全に一致しなくても、編集距離の最小の作業費用に基づいて、オーバーラップされる部分で識別され得る。上述のように、編集距離が文字単位で計算されることで、どのような言語にも適用可能な汎用性を有し得る。

【0067】

図８は、一実施形態に係る音声処理方法を示すフローチャートである。

【0068】

図８を参照すると、一実施形態に係る音声処理装置に備えられたプロセッサで行われる音声処理方法が示されている。

【0069】

ステップＳ８１０で、音声処理装置は、音声信号からターゲットセグメントを取得する。音声処理装置は、セグメントの長さ及びセグメント間のオーバーラップの長さに基づいて音声信号からターゲットセグメントを取得することができる。セグメント間のオーバーラップの長さは、音声処理方法を行う装置の可用リソースに基づいて決定される得る。

【0070】

ステップＳ８２０において、音声処理装置は、ターゲットセグメントを復号化することにより、ターゲットセグメントに対応するターゲット文字シーケンスを取得する。

【0071】

ステップＳ８３０において、音声処理装置は、ターゲット文字シーケンスと先行文字シーケンスとの間にオーバーラップされる部分を編集距離に基づいて識別する。編集距離に適用される費用は、編集距離で行われる作業の種類、作業対象である文字がオーバーラップされる部分に位置するか否か、マッチングするか否かのうち少なくとも１つに基づいて決定される。編集距離の費用は、ターゲット文字シーケンスと先行文字シーケンスのうちオーバーラップされない部分とオーバーラップされる部分について相違して適用されてもよい。編集距離のマッチング費用は負数であり、オーバーラップされない部分で発生する編集距離の挿入費用は０であり、編集距離の交替費用とオーバーラップされる部分で発生する挿入費用は正数であってもよい。

【0072】

ステップＳ８４０において、音声処理装置は、オーバーラップされる部分に基づいてターゲット文字シーケンスおよび先行文字シーケンスを併合する。

【0073】

図１～図７を参照して記述された事項は、図８を参照して記述された事項に適用され得るため、その詳細な説明は省略する。

【0074】

図９は、一実施形態に係る音声処理装置を示す図面である。

【0075】

図９を参照すると、一実施形態に係る音声処理装置９００は、メモリ９１０、プロセッサ９２０、及び、入出力インターフェース９３０を含む。メモリ９１０、プロセッサ９２０、及び、入出力インターフェース９３０は、バス（ｂｕｓ）９４０を通じて通信することができる。

【0076】

メモリ９１０は、コンピュータで読み出し可能な命令語を含んでいる。プロセッサ９２０は、メモリ９１０に格納されている命令語がプロセッサ９２０で実行されることによって、上記の動作を実行することができる。メモリ９１０は、揮発性メモリ又は不揮発性メモリであってもよい。

【0077】

プロセッサ９２０は、命令語またはプログラムを実行したり、音声処理装置９００を制御する、１つ以上の装置であって、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などを含んでもよい。音声処理装置９００は、入出力インターフェース９３０を通じて他の装置（例えば、マイクロホン、又は、ユーザ音声信号を取得する外部デバイス、など）に接続し、データをやり取りすることができる。その他に、音声処理装置９００に関しては、上述した動作を処理することができる。

【0078】

ユーザ端末は、スマートフォン、タブレット、ラップトップ、パーソナルコンピュータなどの様々なコンピューティング装置、スマートウォッチ、スマートメガネなどの様々なウェアラブル機器、スマートスピーカー、スマートＴＶ、スマート冷蔵庫などの様々な家電装置、スマート自動車、スマートキオスク、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）機器などを含む。

【0079】

図１０及び図１１は、一実施形態に係る音声処理装置の例を説明するための図である。

【0080】

図１０を参照すると、一実施形態に係る音声処理装置は、サーバ１０００として実現され得る。

【0081】

サーバ１０００は、ユーザによって制御されるユーザ端末とは区分される別途の装置であって、有線及び／又は無線ネットワークを通じてユーザ端末と通信を行うことができる。ユーザの音声信号は、ユーザ端末で収集され、ネットワークを通じてサーバ１０００に伝えられて、サーバ１０００は、前述した音声処理方法に基づいて音声認識モデル１０１０を用いて音声信号を認識することができる。このとき、音声認識モデル１０１０が利用されてもよい。そして、サーバ１０００は、音声認識の結果をユーザ端末にリターンすることができる。例えば、ユーザ端末は、スマートフォン、タブレット、ラップトップ、パーソナルコンピュータなどの様々なコンピューティング装置、スマートウォッチ、スマートメガネなどの様々なウェアラブル機器、スマートスピーカー、スマートＴＶ、スマート冷蔵庫などの様々な家電装置、スマート自動車、スマートキオスク、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）機器などを含む。

【0082】

ユーザ端末は、サーバ１０００から受信された認識結果を単にユーザへ提供したり、または、認識結果に基づいた後続動作を行うことができる。例えば、後続動作として、天気を尋ねるなどのユーザ質問に対する応答情報出力、音楽再生などのユーザ命令に応じる命令実行、ユーザ端末に表示された入力項目にテキスト入力、音声認識の結果を他の言語に翻訳又は通訳すること、などを制限されることなく含むことができる。

【0083】

図１１を参照すると、一実施形態に係る音声処理装置は、ユーザ端末１１００として実現され得る。図１１において、説明の便宜のためにユーザ端末１１００がスマートフォンとして図示されているが、その他にも、ユーザによって制御される機器であれば、制限されることなく適用され得る。ユーザ端末１１００は、直接ユーザから音声信号を取得し、前述した音声処理方法により、音声認識モデル１１１０を用いて前記音声信号を認識することができる。そして、ユーザ端末１１００は、認識結果を単にユーザへ提供したり、または、認識結果に基づいた後続動作を実行することができる。

【0084】

上述の実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又は、ハードウェア構成要素及びソフトウェア構成要素の組み合せで具現化される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現化される。

【0085】

ソフトウェアは、コンピュータプログラム、コード、命令、又は、そのうちの一つ以上の組合せを含み、希望の通りに動作するように処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり、処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、もしくは、送信される信号波に永久的又は一時的に具現化することができる。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

【0086】

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して、構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク、及び、磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及び、ＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

【0087】

上述のように、実施形態が、たとえ限定された図面によって説明されてきたとしても、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術は、説明された方法と異なる順で実行されるし、及び／又、は説明されたシステム、構造、装置、回路などの構成要素は、説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

【符号の説明】

【0088】

１１０エンコーダ
１２０デコーダ
１３０音声信号
１４０文字シーケンス
２１０長い音声信号
２２１、２２２、２２３、２２４セグメント
２３１、２３２、２３３、２３４文字シーケンス
４１０先行文字シーケンス
４２０ターゲット文字シーケンス
４３０オーバーラップされる部分

【図1】