(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023008556
(43)【公開日】2023-01-19
(54)【発明の名称】音声認識処理装置、音声認識処理方法、及びプログラム
(51)【国際特許分類】
G10L 15/32 20130101AFI20230112BHJP
【FI】
G10L15/32 220Z
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021112212
(22)【出願日】2021-07-06
(71)【出願人】
【識別番号】518331069
【氏名又は名称】株式会社Bloom Act
(74)【代理人】
【識別番号】100205523
【弁理士】
【氏名又は名称】木村 浩也
(72)【発明者】
【氏名】高野 峻
(57)【要約】
【課題】3以上の音声認識処理を用いて、正確に修正を行うこと。
【解決手段】話者が発声した音声を認識する音声認識処理装置であって、音声データを取得する音声データ取得部と、3以上の音声認識部と、前記音声データ取得部で取得した前記音声データを、前記3以上の音声認識部でそれぞれ音声認識させ、認識結果であるテキストデータを取得する3以上のテキストデータ取得部と、 前記3以上のテキストデータ取得部で得たテキストデータ群を形態素解析する解析部と、前記音声認識部の数を行数、及び前記解析部で解析された前記3以上のテキストデータの形態素の数うち、最大の形態素の数を列数とした配列を、テキストデータ群配列データとして取り込むテキストデータ群配列取得部と、を備え、それぞれの配列を比較しながら修正を行っていく。
【選択図】
図1
【特許請求の範囲】
【請求項1】
話者が発声した音声を認識する音声認識処理装置であって、
音声データを取得する音声データ取得部と、
3以上の音声認識部と、
前記音声データ取得部で取得した前記音声データを、前記3以上の音声認識部でそれぞれ音声認識させ、認識結果であるテキストデータを取得する3以上のテキストデータ取得部と、
前記3以上のテキストデータ取得部で得たテキストデータ群を形態素解析する解析部と、
前記音声認識部の数を行数、及び前記解析部で解析された前記3以上のテキストデータの形態素の数うち、最大の形態素の数を列数とした配列を、テキストデータ群配列データとして取り込むテキストデータ群配列取得部と、
を備えることを特徴とする音声認識処理装置。
【請求項2】
請求項1に記載の音声認識処理装置であって、
前記テキストデータ群配列データの行数を行数、及び事前に設定された定数を列数とした配列を、解析配列として取り込む解析配列取得部と、
前記解析配列取得部で取得した解析配列の配列要素に、一定の規則で空白要素を挿入し、前記空白要素を挿入した形態素群を1要素とした配列をシフト配列として取り込むシフト配列取得部と、
前記シフト配列取得部で取得した前記シフト配列の全要素を用いて、全比較パターン配列を作成した後、前記シフト配列の列方向の要素合致数を全比較パターン配列の一要素とする比較選択部と、
を備えることを特徴とした音声認識処理装置。
【請求項3】
請求項2に記載の音声認識処理装置であって、
前記3以上の音声認識部の信頼度を事前に設定する信頼度設定部と、
前記比較選択部で前記全比較パターン配列の一要素とした要素合致数が一番大きい要素を採用し、合致している形態素を採用する、又は合致数が同数の場合は前記信頼度が高い前記3以上の音声認識部に対応する行の形態素を採用する要素採用部と、
前記要素採用部によって採用された要素にシフトした前記空白要素を削除するシフト調整部と、
を備えることを特徴とした音声認識処理装置。
【請求項4】
請求項3に記載の音声認識テキストデータ出力制御装置であって、
前記要素採用部で採用された要素を校閲結果として出力する選択結果出力部と、
を備えることを特徴とした音声認識処理装置。
【請求項5】
話者が発声した音声を認識する音声認識処理装置理方法であって、
音声データを取得する音声データ取得ステップと、
3以上の音声認識ステップと、
前記音声データ取得ステップで取得した前記音声データを、前記3以上の音声認識ステップでそれぞれ音声認識させ、認識結果であるテキストデータを取得する3以上のテキストデータ取得ステップと、
前記3以上のテキストデータ取得ステップで得たテキストデータ群を形態素解析する解析ステップと、
前記音声認識ステップの数を行数、及び前記解析ステップで解析された前記3以上のテキストデータの形態素の数うち、最大の形態素の数を列数とした配列を、テキストデータ群配列データとして取り込むテキストデータ群配列取得ステップと、
を備えることを特徴とした音声認識処理方法。
【請求項6】
話者が発声した音声を認識する音声認識処理するコンピュータを、
音声データを取得する音声データ取得手段、
3以上の音声認識手段、
前記音声データ取得手段で取得した前記音声データを、前記3以上の音声認識手段でそれぞれ音声認識させ、認識結果であるテキストデータを取得する3以上のテキストデータ取得手段、
前記3以上のテキストデータ取得手段で得たテキストデータ群を形態素解析する解析手段、
前記音声認識手段の数を行数、及び前記解析手段で解析された前記3以上のテキストデータの形態素の数うち、最大の形態素の数を列数とした配列を、テキストデータ群配列データとして取り込むテキストデータ群配列取得手段、
として動作させることを特徴とした音声認識処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識処理装置、音声認識処理方法、及びプログラムに関する。
【背景技術】
【0002】
音声認識の技術は、従来研究開発が為されてきたが、誤認識が多く実用的なものではなかった。しかし、近年、認識精度が向上して、家電の音声による操作、音声の読み上げによって文章を作成する技術などが開発されている。
【0003】
音声認識処理はMM(隠れマルコフモデル:hidden Markov model)やN-グラムモデルに代表される生成モデルの統計量を学習データに基づいて最尤推定する方法がベースとなり、様々な音声認識エンジンが開発され商用サービスが行われているが、各音声認識の特徴があり、得意な音声及び苦手な音声が存在する。
【0004】
前記のような音声認識エンジンの得意分野及び不得意分野を補うために、適切な言語モデルを選択する技術が考案されている。特許文献1には、入力音声の話題を推定し、また話題の変化にも追従しながら、話題の推定結果に応じた最適な言語モデルを選択する音声認識装置について開示されており、特許文献2では複数の音声認識処理サーバから取得された複数の前記テキストデータを形態素解析することにより、前記複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択する制御装置が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2013-50605号公報
【特許文献2】特許6543755号
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1の技術は、認識精度を向上できない場合があるという問題がある。すなわち、従来の言語モデルの選択方法では、
(1)使用する環境やアプリケーション専用に語彙を限定した言語モデルを用意し、識別の選択肢を制約する事で認識率を高める。又は、
(2)複数の環境に最適化された言語モデルを搭載した上で、システム利用中の認識結果から各言語モデルに対応したキーワードを検出すると自動的にその言語モデルを切り替える。
【0007】
という手法が用いられてきた。しかし前者は特定のアプリケーション以外の用途には向いていない。後者は音声認識結果を向上させるための言語モデルの選択に、自己の(向上されていない)音声認識結果を利用する必要があり、また、割り当てられた言語モデルが実際の会話内容に適合しない時に却って認識精度を下げてしまう。
【0008】
また特許文献2の技術も、人的なオペレーションが必須となり、自動的に正しい音声認識精度を上げるという制御装置の実現は難しい。
【課題を解決するための手段】
【0009】
上記の課題を解決するために、請求項1の発明は、話者が発声した音声を認識する音声認識処理装置であって、音声データを取得する音声データ取得部と、3以上の音声認識部と、前記音声データ取得部で取得した前記音声データを、前記3以上の音声認識部でそれぞれ音声認識させ、認識結果であるテキストデータを取得する3以上のテキストデータ取得部と、 前記3以上のテキストデータ取得部で得たテキストデータ群を形態素解析する解析部と、前記音声認識部の数を行数、及び前記解析部で解析された前記3以上のテキストデータの形態素の数うち、最大の形態素の数を列数とした配列を、テキストデータ群配列データとして取り込むテキストデータ群配列取得部と、を備えることを特徴としている。
【0010】
請求項2の発明は、請求項1に記載の音声認識処理装置であって、前記テキストデータ群配列データの行数を行数、及び事前に設定された定数を列数とした配列を、解析配列として取り込む解析配列取得部と、前記解析配列取得部で取得した解析配列の配列要素に、一定の規則で空白要素を挿入し、前記空白要素を挿入した形態素群を1要素とした配列をシフト配列として取り込むシフト配列取得部と、前記シフト配列取得部で取得した前記シフト配列の全要素を用いて、全比較パターン配列を作成した後、前記シフト配列の列方向の要素合致数を全比較パターン配列の一要素とする比較選択部と、を備えることを特徴としている。
【0011】
請求項3の発明は、請求項2に記載の音声認識処理装置であって、前記3以上の音声認識部の信頼度を事前に設定する信頼度設定部と、前記比較選択部で前記全比較パターン配列の一要素とした要素合致数が一番大きい要素を採用し、合致している形態素を採用する、又は合致数が同数の場合は前記信頼度が高い前記3以上の音声認識部に対応する行の形態素を採用する要素採用部と、前記要素採用部によって採用された要素にシフトした前記空白要素を削除するシフト調整部と、を備えることを特徴としている。
【0012】
請求項4の発明は、請求項3に記載の音声認識テキストデータ出力制御装置であって、前記要素採用部で採用された要素を校閲結果として出力する選択結果出力部と、を備えることを特徴としている。
【発明の効果】
【0013】
本発明によれば、人的オペレーションや会話の種類毎の言語モデルの準備も必要もない上に、プラットフォームにもよらずに認識精度を向上が可能な、音声認識処理装置を提供することができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態に係る音声認識処理装置100の概略構成(システム構成)の一例を示す図である。
【
図2】本発明の実施形態に係る音声認識装置10の一例を示す概略構成図(ブロック図)である。
【
図3】本発明の実施形態に係る音声認識選択処理装置20の一例を示す概略構成図(ブロック図)である。
【
図4】本発明の実施形態に係る音声認識処理、テキスト選択処理、及びテキスト出力制御処理の一例を示すフローチャートである。
【
図5】本発明の実施形態に係るテキストデータ群配列データ232の具体的な実施例を示した図である。
【
図6】本発明の実施形態に係る解析データ配列233の具体的な実施例を示した図である。
【
図7】本発明の実施形態に係るシフト配列データ234の具体的な実施例を示した図である。
【
図8】本発明の実施形態に係る全比較パターン配列データ235の具体的な実施例を示した図である。
【
図9】本発明の実施形態に係る全比較パターン配列データ235のFCPA内Match(合致数)の一番大きい要素を要素採用部227を用いて採用した具体的な実施例を示した図である。
【
図10】本発明の実施形態に係るすべてのテキストデータ群配列データ232要素を解析配列データ233として解析配列取得部224が取り込み、比較選択部226を用いて選択した具体例を示した図である。
【
図11】本発明の実施形態に係る出力テキストデータ236に空白要素が含まれており、シフト調整部228を用いて空白要素を削除した図である。
【発明を実施するための形態】
【0015】
以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。
【0016】
図1は、本発明の実施形態にかかる音声認識処理装置100の一実施形態を示す概略構成図(システム構成図)である。
図1に示すように、本発明の実施の形態に係る音声認識処理装置100は、例示的に音声認識装置10及び音声認識選択処理装置20を備えて構成されている。
【0017】
音声認識装置10は、3以上で構成され、それぞれ同じアナログ音声データ及びデジタル音声データを受信し、音声認識プログラム131を使って音声認識処理を実行して、音声認識させた結果であるそれぞれのテキストデータを後段の音声認識選択処理装置20に送信する。音声認識装置10のさらに具体的な構成及び動作については、後述する。
【0018】
音声認識選択処理装置20は、音声認識装置10と通信可能に所定のネットワークNに接続されたコンピュータ、又は音声認識装置10の機能を兼ね備えた装置である。複数の音声認識装置10から得られた音声認識させた結果であるそれぞれのテキストデータから、選択し、より精度の高い認識結果であるテキストデータを生成する。音声認識選択処理装置20のさらに具体的な構成及び動作については、後述する。
【0019】
音声認識プログラム131は、音声認識装置10のメインプログラム等である。音声認識プログラム131は、入力された音声データを基に、情報処理を行うため、記憶領域から呼び出されて実行される。音響/言語モデルデータ132は、音声認識に使用するモデル等である。辞書データ133は、音声認識処理のために必要な各種辞書、例えば日本語辞書、外国語辞書等が含まれる。またこの辞書はアップデートする機能も有しても良い。
【0020】
所定のネットワークNは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、音声認識装置10、音声認識選択処理装置20及び外部システムとの間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、LAN(Local Area Network)、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。
【0021】
なお、音声認識処理装置100は、本実施形態では、3以上の音声認識装置10及び音声認識選択処理装置20を一台ずつ備えて構成されているが、必ずしも一台ずつである必要はない。例えば、音声認識装置10に関しては、音声認識プログラム131の種類が複数搭載されていれば、2台以上用意する必要はなく、また、音声認識装置10の機能と音声認識選択処理装置20の機能を同一のサーバで構成してもよいし、別の機能を有するサーバ上に機能を持たせてもよい。
【0022】
図2は、本発明の実施形態に係る音声認識装置10の一例を示す概略構成図(ブロック図)である。
図2に示すように、音声認識装置10は、例示的に、各種データ及び各種情報を送受信する送受信部101と、テキストデータ及び音声データの出力を制御するための各種処理を実行する情報処理部102と、各種情報及び各種データを記録する記憶部103と、を備えて構成される。なお、情報処理部102は、例えば、不図示であるが、記憶部103に格納されているプログラムをCPU等が実行したりすることにより実現することができる。
【0023】
送受信部101は機能的に、音声データ取得部111と、音声認識結果テキストデータ送信部112と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。
【0024】
音声データ取得部111は、
図1に示すアナログ音声データ及びデジタル音声データを受信する。入力方法として、アナログ音声データを受信する場合はイヤフォンジャックから入力をして、情報処理部102内のデジタル変換処理部(不図示)でデジタル音声データに変換してもよい。デジタル音声データを受信する場合は、ネットワークN経由でもよいし、高速シリアルバス規格のケーブル経由でもよい。
【0025】
音声認識結果テキストデータ送信部112は、音声認識結果であるテキストデータを
図1に示す音声認識選択処理装置20へ送信する。例えば、音声データ取得部111で受信した音声データを情報処理部102による音声認識処理でテキスト化し、結果であるテキストデータを
図1に示す音声認識選択処理装置20へ送信する。
【0026】
情報処理部102は機能的に、音声認識部121と、テキスト出力部122と、を含んで構成されている。
【0027】
音声認識部121は、音声データ取得部111から受信した音声データを記憶部103に記憶されている音声認識プログラム131を使って、音声認識処理を行う。例えば、このプログラム処理を行う際、記憶部103に記憶されている音響/言語モデルデータ132及び辞書データ133を使うことによって、音声認識の効率を上げている。実際の音声認識方法は、例えば、未知のパラメータに従って確率的に変化する現象をモデル化する分析技術手法であるHMM(Hidden Markov Model)(隠れマルコフモデル)により、入力された音声データを文字列データに変換する。なお、他の分析技術手法として、DPマッチングやニューラルネットワーク等を採用してもよい。
【0028】
テキスト出力部122は、音声認識部121が音声認識データから音声認識処理を行い、音声データをテキスト化した後、そのテキストを出力する処理を行う。
【0029】
記憶部103は、音声認識装置10のメインプログラム等である音声認識プログラム131と、あらかじめ定義された音響/言語モデルデータ132と、辞書データ133と、他必要なデータを記録し、保存されている。音響モデル/言語モデルデータ132はあらかじめ定義されており、音声認識処理装置100内では自動アップデートはされなくてもよいが、外部からのデータ受信(不図示)にてアップデートすることは可能である。
【0030】
図3は、本発明の実施形態に係る音声認識選択処理装置20の一例を示す概略構成図(ブロック図)である。
図3に示すように、音声認識選択処理装置20は、例示的に、各種データ及び各種情報を送受信する送受信部201と、テキストデータの修正制御するための各種処理を実行する情報処理部202と、各種情報及び各種データを記録する記憶部203と、を備えて構成される。なお、情報処理部202は、例えば、不図示であるが、記憶部203に格納されているプログラムをCPU等が実行したりすることにより実現することができる。
【0031】
送受信部201は機能的に、音声認識結果テキスト受信部211と、選択結果出力部312と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。
【0032】
音声認識結果テキスト受信部211は、
図1に示す音声認識装置10から音声認識結果である音声認識結果テキストデータを受信する。
【0033】
選択結果出力部212は、音声認識結果テキスト受信部211で受信した音声認識結果テキストデータを後述する処理で選択した出力テキストデータ236を外部システムに送信する。外部システムは会議議事録システム又は放送用字幕を送出するデータに変換するシステムなどが考えられる。
【0034】
情報処理部202は機能的に、形態素解析部321と、テキストデータ群配列取得部222、信頼度設定部223、解析配列取得部224、シフト配列取得部225、比較選択部226、要素採用部227及びシフト調整部228等を含んで構成されている。
【0035】
形態素解析部221は、音声認識結果テキスト受信部211で受信した音声認識テキストデータ231を形態素解析する。形態素解析とは文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。形態素解析を行った前記テキストは形態素毎の列に分割され、後述するテキストデータ群配列取得部222で形態素毎に配列に取り込まれる。形態素解析部221は機能的に音声認識装置10内の情報処理部102に持たせて、音声認識結果テキスト受信部211にて受信する際に、形態素毎にテキストを受信する構成としても良い。
【0036】
テキストデータ群配列取得部222は、音声認識部121の数、つまり3以上の音声認識装置10の台数、又は3以上の音声認識部121の種類の数を行数とし、形態素解析部221で解析された3以上のテキストデータの形態素の数うち、最大の形態素の数を列数とした配列を、テキストデータ群配列データ232として取り込む。実際の動作は後述の実施例にて説明する。
【0037】
信頼度設定部223は、音声認識部121それぞれの信頼度を事前に設定する。実際の動作は後述の実施例にて説明する。
【0038】
解析配列取得部224は、テキストデータ群配列データ232の行数を行数、及び事前に設定された定数を列数とした配列を、解析配列データ233として取り込む。実際の動作は後述の実施例にて説明する。
【0039】
シフト配列取得部225は、解析配列取得部224で取得した解析配列データ233の要素に、一定の規則で空白要素を挿入した形態素群を1要素とするシフト配列データ234として取り込む。一定の規則、及び実際の動作は後述の実施例にて説明する。
【0040】
比較選択部226は、シフト配列取得部225で取得したシフト配列データ234の全パターンを要素とする全比較パターン配列データ235を生成し、シフト配列データ234毎の列ごとの要素の合致数を、全比較パターン配列データ235の1要素として取得する。実際の動作は後述の実施例にて説明する。
【0041】
要素採用部227は比較選択部226で選択された全比較パターン配列235の中で、要素合致数が最大の要素の合致している形態素を採用し、要素合致数が同数場合は信頼度の高い音声認識装置10に該当する解析配列データ233の行の形態素を採用し、出力テキストデータ236に加える。実際の動作は後述の実施例にて説明する。
【0042】
シフト調整部228は、要素採用部によって採用された出力テキストデータ236の要素のシフトした空白要素を削除し、出力テキストデータ236を修正する。実際の動作は後述の実施例にて説明する。
【0043】
記憶部203は、音声認識結果テキスト受信部211で受信した音声認識テキストデータ231と、テキストデータ群配列取得部222から取得したテキストデータ群配列データ232と、解析配列取得部224から取得した解析配列データ233と、シフト配列取得部225から取得した全比較パターン配列データ235と、要素採用部227で採用した出力テキストデータ236を記録し、保存されている。実際の動作は後述の実施例にて説明する。
【0044】
<音声認識テキストデータ出力実施例>
次に
図4乃至
図9を参照して、音声認識処理、テキスト選択処理、及びテキスト出力制御処理を実施例として説明する。
図4は、本発明の実施形態に係る音声認識処理、テキスト選択処理、及びテキスト出力制御処理の一例を示すフローチャートである。音声認識装置10は2台以上であれば問題ないが、実施例では3台として説明を行う。
【0045】
(ステップS1a乃至S1c)
音声認識装置10(音声認識装置1乃至音声認識装置3)は、音声データをそれぞれ受信する。例えば、映像データからDEMUXした音声データであってもよいし、デジタル音声データはもちろん、アナログ音声データでもよい。
【0046】
(ステップS2a乃至S2b)
音声認識装置10(音声認識装置1乃至音声認識装置3)は、それぞれ音声データ取得部111にて音声データを受信後、音声認識部121を使って音声認識する。
【0047】
(ステップS3a乃至S3b)
音声認識装置10(音声認識装置1乃至音声認識装置3)は、音声認識処理をした後、処理を行った認識結果テキストを音声認識選択処理装置20に送信を行う。音声認識装置10(音声認識装置1乃至音声認識装置3)は同時に音声認識選択処理装置20に送信しても良いし、時間差で送信しても良い。
【0048】
(ステップS4)
音声認識選択処理装置20はあらかじめ、信頼度設定部223を用いて、音声認識装置10(音声認識装置1乃至音声認識装置3)毎の信頼度を設定しておく。外部の入力端末からネットワークN経由で設定しても良いし、直接音声認識選択処理装置20にワークステーションを設けて設定してもよい。例えば音声認識装置1を「7」、音声認識装置2を「9」、音声認識装置3を「10」とし、選択される回数が多い音声認識装置10の信頼度を加算していっても良い。
【0049】
(ステップS5)
音声認識選択処理装置20は音声認識結果テキスト受信部211で受信した音声認識テキストデータ231から形態素解析部221を用いて、形態素解析を行う。形態素解析部221は機能的に音声認識装置10内の情報処理部102に持たせて、音声認識結果テキスト受信部211にて受信する際に、形態素毎にテキストを受信する構成としても良い。
【0050】
(ステップS6)
音声認識選択処理装置20は形態素解析部221を用いて形態素解析を行った形態素テキスト毎にテキストデータ群配列取得部222を用いて、テキストデータ群配列データ232を取得する。
図5は本発明の実施形態に係るテキストデータ群配列データ232の具体的な実施例を示した図である。TDGA(TextDataGroupArray)はテキストデータ群配列データ232の具体例である。ステップS2aで認識、ステップS5で形態素解析され、テキストデータ群配列データ232として取得されたテキスト群を232a、同様に232b及び232cとしている。例えば232aの先頭形態素は「歴史」であり、要素TDGA[0,0]のテキストデータとして取り込まれている。
図5の実施例では音声認識部121の数(音声認識装置10の数)が3であるためテキストデータ群配列データ232のTDGA行数は「3」、音声認識テキストデータ231のうち、最大の形態素は232aの「17」であるため、テキストデータ群配列データ232のTDGAの列数は17である。
【0051】
(ステップS7)
音声認識選択処理装置20はテキストデータ群配列取得部222を用いて取得したテキストデータ群配列データ232から解析配列取得部224を用いて、解析配列データ233を取得する。
図6は本発明の実施形態に係る解析配列データ233の具体的な実施例を示した図である。ADA(AnalysisDataArray)は解析データ配列233の具体例である。
図6に図示するように、解析配列データ233のADAはステップS6で取得したテキストデータ群配列データ232のTDGAの一部の配列を先頭から順に取得する。解析配列データ233は、テキストデータ群配列データ232の行数を行数とするため、解析配列データ233のADA行数は「3」、事前に設定された定数を列数、実施例では「3」と設定したため、解析データ配列233のADA列数は「3」としている。事前に設定された定数は任意であり、特に定めない。
【0052】
(ステップS8)
音声認識選択処理装置20は解析配列取得部224を用いて取得した解析配列データ233からシフト配列取得部225を用いて、シフト配列データ234を取得する。
図7は本発明の実施形態に係るシフト配列データ234の具体的な実施例を示した図である。SA(ShiftArray)はシフト配列データ234の具体例である。
図7に図示するように、シフト配列データ234のSAは、ステップS7で取得した解析配列データ233のADAの要素に一定の規則で空白要素を挿入した形態素群を、1要素とする配列として取得する。一定の規則とは、例えば
図7に示す通り、先頭から順列の規則で間に空白要素を入れたり、連続で空白要素を入れても良い。シフト配列データ234は、解析配列データ233の行数を行数とするため、解析データ配列233のSA行数は「3」、スペースを入れるパターンの数だけ列数が必要なため、
図7では列数は「n」としている。
【0053】
(ステップS9)
音声認識選択処理装置20はシフト配列取得部225を用いて取得したシフト配列データ234を用いて、全比較パターン配列データ235を生成する。
図8は本発明の実施形態に係る全比較パターン配列データ235の具体的な実施例を示した図である。FCPA(FullComparisonPatternArray)は全比較パターン配列データ235の具体例である。
図8に図示するように、全比較パターン配列データ235のFCPAは、ステップS8で取得したシフト配列データ234のSAの要素の組み合わせ全パターンを要素として生成し、要素数はnの数によって変動する。比較選択部226は全比較パターン配列データ235のFCPAの各要素の列ごとに一致している数をカウントし、Match(合致数)として要素に取り込む。
【0054】
(ステップS10)
音声認識選択処理装置20は比較選択部226を用いて取得した全比較パターン配列データ235のFCPA内Match(合致数)の一番大きい要素から要素採用部227を用いて合致している形態素を採用し、合致している要素を出力テキストデータ236に加える。
図9は本発明の実施形態に係る全比較パターン配列データ235のFCPA内Match(合致数)の一番大きい要素から要素採用部227を用いて採用した具体的な実施例を示した図である。Match(合致数)が同数の場合は、信頼度設定部223で設定した信頼度の高い音声認識装置10に該当する解析データ配列233の行の形態素を採用し、出力テキストデータ236に加える。
【0055】
(ステップS11)
解析データ配列233がテキストデータ群配列データ232をすべて取り込み終えていない場合は、次のテキストデータ群配列データ232の要素から解析配列取得部224を用いて、解析配列データ233を取得し、ステップS7に戻る。すべてのテキストデータ群配列データ232要素を解析配列取得部224が取り込んでいる場合は、ステップS12へ進む。
図10は本発明の実施形態に係るすべてのテキストデータ群配列データ232要素を解析配列データ233として解析配列取得部224が取り込み、比較選択部226を用いて選択した具体例を示している。
【0056】
(ステップS12)
出力テキストデータ236に空白要素が含まれている場合は、シフト調整部228を用いて空白要素を削除する。
図11は本発明の実施形態に係る出力テキストデータ236に空白要素が含まれており、シフト調整部228を用いて空白要素を削除した図である。
【0057】
(ステップS13)
選択修正が完了した出力テキストデータ236は、選択結果出力部212を用いてネットワークN等を用いて外部システムに転送される。
【0058】
10 音声認識装置
20 音声認識選択処理装置
100 情報処理システム
101 音声認識装置10送受信部
102 音声認識装置10情報処理部
103 音声認識装置10記憶部
111 音声データ受信部
112 音声認識結果テキストデータ送信部
121 音声認識部
122 テキスト出力部
131 音声認識プログラム
132 音響/言語モデルデータ
133 辞書データ
201 音声認識選択処理装置20送受信部
202 音声認識選択処理装置20情報処理部
203 音声認識選択処理装置20記憶部
211 音声認識結果テキスト受信部
212 選択結果出力部
221 形態素解析部
222 テキストデータ群配列取得部
223 信頼度設定部
224 解析配列取得部
225 シフト配列取得部
226 比較選択部
227 要素採用部
228 シフト調整部
231 音声認識テキストデータ
232 テキストデータ群配列データ
233 解析配列データ
234 シフト配列データ
235 全比較パターン配列データ
236 出力テキストデータ