(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-16
(45)【発行日】2024-07-24
(54)【発明の名称】音声認識装置
(51)【国際特許分類】
G10L 15/32 20130101AFI20240717BHJP
G10L 15/18 20130101ALI20240717BHJP
【FI】
G10L15/32 220Z
G10L15/18 300G
(21)【出願番号】P 2021033707
(22)【出願日】2021-03-03
【審査請求日】2023-08-15
(73)【特許権者】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100088155
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100121980
【氏名又は名称】沖山 隆
(74)【代理人】
【識別番号】100128107
【氏名又は名称】深石 賢治
(72)【発明者】
【氏名】片山 太一
(72)【発明者】
【氏名】加藤 拓
(72)【発明者】
【氏名】中島 悠輔
(72)【発明者】
【氏名】菊入 圭
【審査官】竹下 翔平
(56)【参考文献】
【文献】特表2019-535034(JP,A)
【文献】特開2013-218095(JP,A)
【文献】特開2003-186491(JP,A)
【文献】特開2002-258890(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
認識対象の音声の音声認識結果を出力する音声認識装置であって、
第1の音声認識テキストと第2の音声認識テキストとの間の対応する文字列を対応付けるマッチング部であって、前記第1の音声認識テキストは、前記認識対象の音声に対して複数の異なる音声認識手法のそれぞれにより音声認識させた結果である複数の音声認識テキストのうちの一の音声認識テキストであり、前記第2の音声認識テキストは、前記複数の音声認識テキストのうちの前記第1の音声認識テキストとは異なる音声認識テキストであって付加情報を有し、前記付加情報は、当該第2の音声認識テキストのうちの文字列の指定情報、及び該文字列に対する修正方法を示す修正情報を含む、マッチング部と、
前記第2の音声認識テキストにおける前記付加情報に基づいて、前記第2の音声認識テキストにおいて前記指定情報により指定された文字列に対応付けられた前記第1の音声認識テキストにおける文字列を、前記修正情報に示される修正方法により修正し、修正された前記第1の音声認識テキストである修正音声認識テキストを取得する修正部と、
前記修正音声認識テキストを前記認識対象の音声の音声認識結果として出力する出力部と、
を備える音声認識装置。
【請求項2】
前記マッチング部は、前記第1の音声認識テキストと、前記複数の音声認識テキストのうちの複数の前記第2の音声認識テキストのそれぞれとの間の文字列の対応付けを行い、
前記修正部は、前記複数の第2の音声認識テキスト及び前記付加情報のそれぞれに基づいて、前記第1の音声認識テキストを修正する、
請求項1に記載の音声認識装置。
【請求項3】
前記マッチング部は、前記複数の音声認識テキストから得られる前記第1の音声認識テキストと前記第2の音声認識テキストとの複数の異なる組み合わせのそれぞれに対して、前記第1の音声認識テキストと前記第2の音声認識テキストとの間の文字列の対応付けを行い、
前記修正部は、前記音声認識テキストの前記複数の組み合わせのそれぞれにおいて、前記第2の音声認識テキストにおける前記付加情報に基づいて前記第1の音声認識テキストにおける文字列を修正することにより、複数の前記修正音声認識テキストを取得し、
前記音声認識装置は、
前記複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が一致する単語と、前記複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が相違する各単語のうちの最も確からしい単語とからなる単語列を生成する生成部、を更に備え、
前記出力部は、前記生成部により生成された単語列を前記認識対象の音声の音声認識結果として出力する、
請求項1または2に記載の音声認識装置。
【請求項4】
前記生成部は、前記複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が一致する各単語を一つの単語とし、前記複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が相違する各単語をそれぞれ別の単語として、各修正音声認識テキストにおいて各単語をノードとして隣り合う単語間をエッジでつないだ単語ラティスを生成し、前記単語ラティスにおいて文頭から文末に至る複数の経路のうち最も確からしい経路を構成する単語の配列からなる単語列を生成する、
請求項3に記載の音声認識装置。
【請求項5】
前記生成部は、一以上の単語の配列に連続する単語の品詞の出現確率を、前記単語の配列を構成する単語の品詞に基づいて算出する品詞モデルを用いて、前記最も確からしい単語または前記最も確からしい経路を算出する、
請求項3または4に記載の音声認識装置。
【請求項6】
前記生成部は、一以上の単語の配列に連続する単語の出現確率を、前記単語の配列を構成する単語に基づいて算出する言語モデルを用いて、前記最も確からしい単語または前記最も確からしい経路を算出する、
請求項3または4に記載の音声認識装置。
【請求項7】
前記修正情報は、文字列の削除、挿入及び置換のいずれかの修正方法を示し、
前記修正部は、前記修正情報に基づいて、
前記第2の音声認識テキストにおいて前記指定情報により指定された文字列に対応付けられた前記第1の音声認識テキストにおける文字列を削除し、
前記第2の音声認識テキストにおいて前記指定情報により指定された文字列を、該文字列に対応付けられた前記第1の音声認識テキスト内の位置に挿入し、又は、
前記第2の音声認識テキストにおいて前記指定情報により指定された文字列により、該文字列に対応付けられた前記第1の音声認識テキストにおける文字列を置換する、
請求項1~6のいずれか一項に記載の音声認識装置。
【請求項8】
前記第1の音声認識テキストが、当該第1の音声認識テキストのうちの文字列を指定する指定情報、及び該文字列に対する修正方法を示す修正情報を含む付加情報を有し、前記修正情報が、文字列の削除を修正方法として示す場合に、前記修正部は、当該第1の音声認識テキストにおける、該付加情報に含まれる前記指定情報により指定された文字列を削除する、
請求項1~7のいずれか一項に記載の音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、認識対象の音声の音声認識結果を出力する音声認識装置に関する。
【背景技術】
【0002】
入力された音声を表すテキストを出力する音声認識の精度向上が求められている。音声認識の精度向上を図るために、サーバ装置における音声認識結果と、クライアント側における音声認識結果とに基づいて、音声データの音声認識結果を出力する技術が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
音声認識には種々の手法が知られており、それぞれの音声認識手法は、文字列の認識精度の向上が図られていること、専門用語等を高精度に認識できること、会話等において意味を持たない部分であるフィラーを高精度に認識できること、及び、句読点を付加すべき位置を高精度に認識できること等の特徴を有する。
【0005】
これらの種々の音声認識手法を用いることにより、音声の認識において、より一層の認識精度の向上が望まれている。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明の一形態に係る音声認識装置は、認識対象の音声の音声認識結果を出力する音声認識装置であって、第1の音声認識テキストと第2の音声認識テキストとの間の対応する文字列を対応付けるマッチング部であって、第1の音声認識テキストは、認識対象の音声に対して複数の異なる音声認識手法のそれぞれにより音声認識させた結果である複数の音声認識テキストのうちの一の音声認識テキストであり、第2の音声認識テキストは、複数の音声認識テキストのうちの第1の音声認識テキストとは異なる音声認識テキストであって付加情報を有し、付加情報は、当該第2の音声認識テキストのうちの文字列の指定情報、及び該文字列に対する修正方法を示す修正情報を含む、マッチング部と、第2の音声認識テキストにおける付加情報に基づいて、第2の音声認識テキストにおいて指定情報により指定された文字列に対応付けられた第1の音声認識テキストにおける文字列を、修正情報に示される修正方法により修正し、修正された第1の音声認識テキストである修正音声認識テキストを取得する修正部と、修正音声認識テキストを認識対象の音声の音声認識結果として出力する出力部と、を備える。
【0007】
上記の形態によれば、第1の音声認識テキストと付加情報を伴う第2の音声認識テキストとの間で、共通する文字列等が、互いに対応する文字列として対応付けられる。付加情報が、第2の音声認識テキストが取得された音声認識手法において特徴的に精度良く認識可能な文字列を示す指定情報、及び、当該文字列の種別に応じた修正方法を示す修正情報を含むことにより、付加情報に基づいて、指定情報により示される文字列に対応する第1の音声認識テキストにおける文字列を修正情報により示される修正方法により修正できる。従って、第1の音声認識テキストに対して高精度に認識された文字列が含められたテキストである修正音声認識テキストが、認識対象の音声の音声認識結果として出力されるので、認識精度が向上された、認識対象の音声の音声認識結果を得ることが可能となる。
【発明の効果】
【0008】
認識精度が一層向上された、認識対象の音声の音声認識結果を得ることが可能となる。
【図面の簡単な説明】
【0009】
【
図1】本実施形態の音声認識装置の機能的構成を示すブロック図である。
【
図3】
図3(a)は、認識対象の音声の第1の音声認識テキストの例を示す図である。
図3(b)は、認識対象の音声の第2の音声認識テキストの例を示す図である。
【
図4】第1の音声認識テキストと第2の音声認識テキストとの間の対応する文字列の対応付けの例を示す図である。
【
図5】第2の音声認識テキストの付加情報に基づいて第1の音声認識テキストを修正することにより得られた修正音声認識テキストの例を示す図である。
【
図6】複数の第2の音声認識テキストの付加情報に基づいて第1の音声認識テキストを修正することにより得られた修正音声認識テキストの例を示す図である。
【
図7】第1の音声認識テキストと第2の音声認識テキストとの複数の異なる組み合わせのうちの一の組み合わせにおける、第2の音声認識テキストの付加情報及び第1の音声認識テキストの付加情報に基づく第1の音声認識テキストの修正の例を示す図である。
【
図8】第1の音声認識テキストと第2の音声認識テキストとの複数の異なる組み合わせのうちの一の組み合わせにおける、第2の音声認識テキストの付加情報の付加情報に基づく第1の音声認識テキストの修正の例を示す図である。
【
図9】複数の修正音声認識テキストに基づいて生成される単語ラティスの例を示す図である。
【
図10】単語ラティスに基づいて生成された単語列からなる音声認識結果の例を示す図である。
【
図11】音声認識装置における音声認識方法の処理内容の例を示すフローチャートである。
【
図12】音声認識装置における音声認識方法の処理内容の例を示すフローチャートである。
【
図13】音声認識プログラムの構成を示す図である。
【発明を実施するための形態】
【0010】
本発明に係る音声認識装置の実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
【0011】
図1は、本実施形態に係る音声認識装置を含むシステムの装置構成及び音声認識装置の機能的構成を示す図である。音声認識装置10は、認識対象の音声の音声認識結果を出力する装置である。音声認識装置10は、音声認識結果を例えばテキストとして出力する。
【0012】
図1に示されるように、音声認識装置10は、音声認識器A(VA)、音声認識器B(VB)、音声認識器C(VC)、・・・のそれぞれにより音声認識された結果である音声認識テキストを取得可能に構成されている。音声認識器Vは、認識対象の音声の入力に応じて音声認識処理を行い、音声認識の結果である音声認識テキストを出力する。音声認識器Vは、
図1に示されるように、音声認識装置10とは異なる装置に構成されてもよいし、音声認識装置10に構成されてもよい。
【0013】
音声認識器A(VA)、音声認識器B(VB)、音声認識器C(VC)、・・・は、それぞれ異なる音声認識手法により音声を認識する。
【0014】
音声認識手法には種々の手法が存在し、それぞれの音声認識手法は、認識した音声のテキスト化における精度が高いこと(所定の程度以上の精度を有すること、相対的に他の手法より精度が高いこと等)、予め専門用語等が登録された辞書の参照により専門用語等を高精度に認識できること、会話等において意味を持たない部分であるフィラー等を高精度に認識できること、及び、認識結果において句読点を付加すべき位置を高精度に認識できること等の、それぞれの手法の原理に起因した特徴を有する。
【0015】
音声認識手法には、一般的に大別して、End-to-End方式及び音響モデル及び言語モデルを組み合わせた方式が存在する。End-to-End方式は、音声から直接に文字に変換する方式である。専門用語及び特定企業等における独自用語に対応するためには、その変換モデルの学習に際して、専門用語等の音声及びその書き起こし文からなる学習データが必要となる。End-to-End方式では、そのような学習データの準備に手間を要するが、専門用語等の認識精度が高い。
【0016】
音響モデル及び言語モデルを組み合わせた方式では、音響モデルにより音声を音素に変換した後に、辞書の参照により音素列を漢字かな交じり文に変換する。漢字かな交じり文は、複数の候補を含むので、言語モデルにより最も日本語として確からしい文章を複数の候補の中から選択することにより文章が生成される。
【0017】
これらの2つ手法では、辞書に専門用語等を予め登録することにより、専門用語等を含む音声を高精度に認識することができる。
【0018】
また、音声には、フィラー、相槌、笑い及び咳などの、テキストとして含ませるべきでない音が含まれる場合がある。音声認識のためのモデルの学習において、フィラー等に対してそれらを識別するための情報が付加された学習データを用いることにより、フィラー等を高精度に検知可能なモデル及び認識手法を構築できる。
【0019】
また、認識対象の音声において音としては表れない句読点及びブレス等は、認識結果のテキストにおいて表されるべき情報である。音声認識のためのモデルの学習において、句読点等に対してそれらを識別するための情報が付加された学習データを用いることにより、句読点等を高精度に検知可能なモデル及び認識手法を構築できる。
【0020】
各音声認識手法による音声認識結果である音声認識テキストは、付加情報を伴うことができる。付加情報は、指定情報及び修正情報を含む。指定情報は、各音声認識手法において特徴的な認識結果に係る文字列を指し示す情報である。修正情報は、当該付加情報が付随する音声認識テキストとは異なる他の音声認識テキストの修正方法を示す情報である。付加情報並びに指定情報及び修正情報については、後に
図3を参照しながら詳述される。
【0021】
音声認識装置10は、機能的には、音声認識テキスト取得部11、マッチング部12、修正部13、出力部14及び生成部15を備える。これらの各機能部11~15は、一つの装置(コンピュータ)に構成されてもよいし、複数の装置に分散されて構成されてもよい。
【0022】
なお、
図1に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
【0023】
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
【0024】
例えば、本発明の一実施の形態における音声認識装置10は、コンピュータとして機能してもよい。
図2は、本実施形態に係る音声認識装置10のハードウェア構成の一例を示す図である。音声認識装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
【0025】
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。音声認識装置10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0026】
音声認識装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
【0027】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、
図1に示した各機能部11~16などは、プロセッサ1001で実現されてもよい。
【0028】
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、音声認識装置10の各機能部11~16は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
【0029】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る音声認識方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0030】
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
【0031】
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
【0032】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
【0033】
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
【0034】
また、音声認識装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
【0035】
再び
図1を参照して、音声認識装置10の機能部を説明する。音声認識テキスト取得部11は、認識対象の音声に対して複数の異なる音声認識手法のそれぞれにより音声認識させた結果である複数の音声認識テキストを取得する。具体的には、音声認識テキスト取得部11は、音声認識器A(VA)、音声認識器B(VB)、音声認識器C(VC)、・・・のそれぞれにより、認識対象の音声が音声認識された結果である音声認識テキストを取得する。
【0036】
図3は、音声認識テキストの例を示す図である。
図3(a)は、複数の音声認識テキストのうちの第1の音声認識テキストの例を示す図である。
図3(b)は、複数の音声認識テキストのうちの第2の音声認識テキストの例を示す図である。
【0037】
第1の音声認識テキストt01は、例えば、認識した音声のテキスト化における精度が高い音声認識手法により認識された音声認識テキストである。
図3(a)に示される例の第1の音声認識テキストt01は、付加情報を有していない。
【0038】
図3(b)に示される例における第2の音声認識テキストt02は、付加情報td01,td02,td03,ti01,tr01を有する。付加情報は、前述のとおり、文字列を指定する指定情報及び修正方法を示す修正情報を含む。一例として、付加情報td01は、文字列「えー」を指定する指定情報及び第1の音声認識テキストt01における対応する文字列を修正する修正方法を示す修正情報を含む。修正情報は、修正方法の種別を示す情報であってもよいし、修正方法を判定可能な情報であってもよい。
【0039】
付加情報td01は、指定情報により指定される文字列がフィラーであること示す修正情報を有する。フィラーは、会話等において意味を有さないので、音声認識結果において削除されるべき文字列である。即ち、付加情報td01に含まれる修正情報は、修正方法を削除とすることが判定されるための情報であって、第1の音声認識テキストt01において、指定情報により指定された文字列「えー」に対応する文字列「えー」を削除することにより、第1の音声認識テキストt01を修正することを示す情報である。
【0040】
付加情報td02,td03は、付加情報td01と同様に、文字列「うー」,「えー」を指定する指定情報、及び、指定情報により指定される文字列がフィラーであること示す修正情報を有する。付加情報td02,td03は、第1の音声認識テキストt01において、それぞれの指定情報により指定される文字列に対応する文字列を削除することを修正方法とすることを示す情報である。
【0041】
なお、フィラーの他に、相槌、笑い及び咳等に相当する文字列に、文字列を削除することを修正方法とする修正情報を含む付加情報が付されてもよい。
【0042】
付加情報ti01は、文字列「。(句点)」を指定する指定情報、及び、第1の音声認識テキストt01において当該文字列に対応する文字列を修正する修正情報を含む。付加情報ti01は、指定情報により指定された文字列が句点であることを示す修正情報を有する。
【0043】
第2の音声認識テキストt02を得た認識手法が、認識結果において句読点を付加すべき位置を高精度に認識できるという特徴を有する場合に、第2の音声認識テキストt02は、適切な位置に句点が挿入されたテキストであると共に、当該句点を指定する指定情報を含む付加情報ti01を有することができる。
【0044】
即ち、付加情報ti01に含まれる修正情報は、修正方法を挿入とすることが判定されるための情報であって、第1の音声認識テキストt01において、指定情報により指定された文字列「。(句点)」の位置に対応する位置に句点を挿入することにより、第1の音声認識テキストt01を修正することを示す情報である。
【0045】
なお、句点の他に、読点及びブレス等が挿入されるべき位置に、修正方法を挿入とする修正情報を含む付加情報が付されてもよい。
【0046】
付加情報tr01は、文字列「ソフトウェア・ディファインド・ネットワーク」を指定する指定情報、及び、第1の音声認識テキストt01において当該文字列に対応する文字列を修正する修正情報を含む。付加情報tr01は、音声認識器Vによる特定の音声認識手法において、指定情報により指定された文字列が辞書等の参照により得られた専門用語等であることを示す修正情報を有する。専門用語等は、音声認識結果において採用されるべき文字列である。
【0047】
即ち、付加情報tr01に含まれる修正情報は、修正方法を置換とすることが判定されるための情報であって、指定情報により指定された文字列「ソフトウェア・ディファインド・ネットワーク」により、第1の音声認識テキストt01における対応する文字列「ソフトウェアでファインドネットワーク」を置換することにより第1の音声認識テキストt01を修正することを示す情報である。
【0048】
マッチング部12は、第1の音声認識テキストと第2の音声認識テキストとの間の対応する文字列を対応付ける。
図4は、第1の音声認識テキストと第2の音声認識テキストとの間の対応する文字列の対応付けの例を示す図である。
図4に示されるように、マッチング部12は、第1の音声認識テキストt01と第2の音声認識テキストt02との間の対応する文字及び文字列を対応付ける。
【0049】
具体的には、マッチング部12は、既知の動的計画法(DPマッチング、Dynamic Programming)により、音声認識テキスト間の文字及び文字列の対応付けを行ってもよい。動的計画法は、2つの文字列の類似度を、最短距離の最適経路問題として解く手法であって、最適経路を解く過程において、文字同士の対応付けが導き出されるので、その対応付けをマッチングに用いる。
図4に示されるように、マッチング部12は、例えば動的計画法により、第1の音声認識テキストt01と第2の音声認識テキストt02との間の文字を、両矢印で対応関係が示されるように、対応付ける。
【0050】
修正部13は、第2の音声認識テキストにおける付加情報に基づいて、第2の音声認識テキストにおいて指定情報により指定された文字列に対応付けられた第1の音声認識テキストにおける文字列を、修正情報に示される修正方法により修正し、修正された第1の音声認識テキストである修正音声認識テキストを取得する。
【0051】
図5は、第2の音声認識テキストt02の付加情報に基づいて第1の音声認識テキストt01を修正することにより得られた修正音声認識テキストt0の例を示す図である。第2の音声認識テキストt02は、
図3を参照して説明したように、付加情報td01,td02,td03,ti01,tr01を有する。
【0052】
付加情報td01は、指定された文字列を削除することを示す修正情報を含む。修正部13は、文字列の削除を修正方法とする修正情報に基づいて、第2の音声認識テキストにおいて付加情報td01に含まれる指定情報により指定された文字列に対応付けられた第1の音声認識テキストt01における文字列を削除する。具体的には、修正部13は、文字列の削除を修正方法とする修正情報に基づいて、第2の音声認識テキストt02において付加情報td01に含まれる指定情報により指定された文字列「えー」に対応付けられた第1の音声認識テキストt01における文字列「えー」を削除する。
【0053】
同様に、付加情報td02,td03は、指定された文字列を削除することを示す修正情報を含む。従って、修正部13は、各修正情報に基づいて、第2の音声認識テキストt02において付加情報td02,td03に含まれる指定情報のそれぞれにより指定された文字列「うー」,「えー」に対応付けられた第1の音声認識テキストt01における文字列「うー」,「えー」を削除する。
【0054】
付加情報ti01は、文字列を挿入することを修正方法とする修正情報を含む。修正部13は、文字列の挿入を修正方法とする修正情報に基づいて、第2の音声認識テキストにおいて付加情報ti01に含まれる指定情報により指定された文字列を、当該文字列に対応付けられた第1の音声認識テキストt01内の位置に挿入する。具体的には、修正部13は、文字列の挿入を修正方法とする修正情報に基づいて、第2の音声認識テキストt02において付加情報ti01に含まれる指定情報により指定された文字列「。(句点)」を、当該文字列に対応付けられた第1の音声認識テキストt01内の位置「ね」(「ね」の後)に挿入する。
【0055】
付加情報tr01は、文字列を置換することを修正方法とする修正情報を含む。修正部13は、文字列の置換を修正方法とする修正情報に基づいて、第2の音声認識テキストにおいて付加情報tr01に含まれる指定情報により指定された文字列により、当該文字列に対応付けられた第1の音声認識テキストt01における文字列を置換する。具体的には、修正部13は、文字列の置換を修正方法とする修正情報に基づいて、第2の音声認識テキストにおいて付加情報tr01に含まれる指定情報により指定された文字列「ソフトウェア・ディファインド・ネットワーク」により、当該文字列に対応付けられた第1の音声認識テキストt01における文字列「ソフトウェアでファインドネットワーク」を置換する。
【0056】
修正部13は、第2の音声認識テキストt02が有する付加情報td01,td02,td03,ti01,tr01に基づいて修正された第1の音声認識テキストt01である修正音声認識テキストt0を取得する。
【0057】
出力部14は、修正音声認識テキストを認識対象の音声の音声認識結果として出力する。出力の態様は限定されないが、出力部14は、例えば、所定の表示装置への表示、及び、所定の記憶手段への記憶等の態様で、修正音声認識テキストを出力してもよい。
【0058】
次に、
図6を参照して、複数の第2の音声認識テキストの付加情報に基づく第1の音声認識テキストの修正の例について説明する。
図6は、複数の第2の音声認識テキストの付加情報に基づいて第1の音声認識テキストを修正することにより得られた修正音声認識テキストの例を示す図である。
【0059】
音声認識テキスト取得部11は、複数の音声認識テキストを取得し、取得した複数の音声認識テキストから、修正される音声認識テキストである第1の音声認識テキストt11、及び、修正のための付加情報を有する音声認識テキストである第2の音声認識テキストt12,t13を取得する。
【0060】
第2の音声認識テキストt12は、付加情報td11,td12,td13,tr11を有する。付加情報td11,td12,td13は、文字列「えー」,「うー」,「えー」のそれぞれを指定する指定情報、及び、指定された文字列に対応付けられた文字列を削除することを修正方法とする修正情報を含む。付加情報tr11は、文字列「ソフトウェア・ディファインド・ネットワーク」を指定する指定情報、及び、指定された文字列により、当該文字列に対応付けられた文字列を置換することを修正方法とする修正情報を含む。
【0061】
第2の音声認識テキストt13は、付加情報ti11,ti12を有する。付加情報ti11,ti12は、文字列「、(読点)」,「。(句点)」のそれぞれを指定する指定情報、及び、指定された文字列を、第1の音声認識テキストt11における当該文字列に対応する位置に挿入することを修正方法とする修正情報を含む。
【0062】
マッチング部12は、複数の第2の音声認識テキストが取得された場合に、第1の音声認識テキストと、複数の前記第2の音声認識テキストのそれぞれとの間の文字列の対応付けを行う。
図6に示す例では、マッチング部12は、
図4を参照して説明した対応付けと同様に、第1の音声認識テキストt11と第2の音声認識テキストt12との間の対応する文字及び文字列を対応付ける。更に、マッチング部12は、第1の音声認識テキストt11と第2の音声認識テキストt13との間の対応する文字及び文字列を対応付ける。
【0063】
修正部13は、複数の第2の音声認識テキスト及び付加情報のそれぞれに基づいて、第1の音声認識テキストを修正する。
【0064】
具体的には、修正部13は、第2の音声認識テキストt12が有する付加情報td11,td12,td13に基づいて、各指定情報により指定された文字列「えー」,「うー」,「えー」に対応付けられた第1の音声認識テキストt11における文字列「えー」,「うー」,「えー」を削除する。
【0065】
また、修正部13は、第2の音声認識テキストt12において付加情報tr11に含まれる指定情報により指定された文字列「ソフトウェア・ディファインド・ネットワーク」により、当該文字列に対応付けられた第1の音声認識テキストt11における文字列「ソフトウェアでファインドネットワーク」を置換する。
【0066】
さらに、修正部13は、第2の音声認識テキストt13において付加情報ti11,ti12に含まれる指定情報により指定された文字列「、(読点)」,「。(句点)」を、当該文字列に対応付けられた第1の音声認識テキストt11内の位置「N」(「N」の後),「ね」(「ね」の後)に挿入する。
【0067】
修正部13は、第2の音声認識テキストt12が有する付加情報td11,td12,td13,tr11及び第2の音声認識テキストt13が有する付加情報ti11,ti12に基づいて修正された第1の音声認識テキストt11である修正音声認識テキストt1を取得する。出力部14は、修正音声認識テキストt1を、認識対象の音声の認識結果として出力してもよい。
【0068】
このように、複数の第2の音声認識テキストt12,t13並びに各第2の音声認識テキストの付加情報td11,td12,td13,tr11及び付加情報ti11,ti12に基づいて、第1の音声認識テキストt11の文字列を修正することにより修正音声認識テキストt1を取得できる。従って、各第2の音声認識テキストt12,t13のそれぞれの音声認識手法の特徴に応じて、精度が向上された音声認識結果を得ることができる。
【0069】
続いて、
図7~
図10を更に参照して、第1の音声認識テキストと第2の音声認識テキストとの複数の異なる組み合わせに基づく、修正音声認識テキスト及び音声認識結果の取得について説明する。即ち、
図7~
図10により説明される例では、複数の修正音声認識テキストに基づいて、認識対象の音声に対する一の音声認識結果が得られる。
【0070】
図7は、第1の音声認識テキストと第2の音声認識テキストとの複数の異なる組み合わせのうちの一の組み合わせにおける、第2の音声認識テキストの付加情報及び第1の音声認識テキストの付加情報に基づく第1の音声認識テキストの修正の例を示す図である。
【0071】
音声認識テキスト取得部11は、複数の音声認識テキストを取得し、取得した複数の音声認識テキストから、修正される音声認識テキスト(第1の音声認識テキスト)として音声認識テキストt22、及び、修正のための付加情報を有する音声認識テキスト(第2の音声認識テキスト)として音声認識テキストt23を取得する。音声認識テキストt22及び音声認識テキストt23のそれぞれは、
図6に示された例における第2の音声認識テキストt12,t13と同様であるが、
図7及び
図8の例では、音声認識テキストt22及び音声認識テキストt23のうちの一方が、修正される音声認識テキストである第1の音声認識テキストであり、他方が、修正のための付加情報を有する音声認識テキストである第2の音声認識テキストであるので、説明の便宜のため、
図7及び
図8では
図6とは参照符号を変えて説明する。
【0072】
第2の音声認識テキストとしての音声認識テキストt23は、付加情報ti11,ti12を有する。付加情報ti11,ti12は、文字列「、(読点)」,「。(句点)」のそれぞれを指定する指定情報、及び、指定された文字列を、第1の音声認識テキストt11における当該文字列に対応する位置に挿入することを修正方法とする修正情報を含む。
【0073】
マッチング部12は、
図4等を参照して説明した対応付けと同様に、第1の音声認識テキストとしての音声認識テキストt22と音声認識テキストt23との間の対応する文字及び文字列を対応付ける。
【0074】
修正部13は、音声認識テキストt23において付加情報ti11,ti12に含まれる指定情報により指定された文字列「、(読点)」,「。(句点)」を、当該文字列に対応付けられた音声認識テキストt22内の位置「N」(「N」の後),「ね」(「ね」の後)に挿入する。
【0075】
さらに、
図7に示される例では、修正される第1の音声認識テキストである音声認識テキストt22も、付加情報td11,td12,td13,tr11を有する。付加情報td11,td12,td13は、文字列「えー」,「うー」,「えー」のそれぞれを指定する指定情報、及び、指定された文字列が削除されるべき文字列であることを意味する修正情報を含む。
【0076】
このように、第1の音声認識テキストが、当該第1の音声認識テキストのうちの文字列を指定する指定情報、及び該文字列に対する修正方法を示す修正情報を含む付加情報を有し、修正情報が、文字列の削除を修正方法として示す場合に、修正部13は、当該第1の音声認識テキストにおける、当該付加情報に含まれる前記指定情報により指定された文字列を削除してもよい。具体的には、修正部13は、付加情報td11,td12,td13に基づいて、音声認識テキストt22における、各指定情報により指定された文字列「えー」,「うー」,「えー」を削除する。
【0077】
修正部13は、音声認識テキストt23が有する付加情報ti11,ti12及び音声認識テキストt22が有する付加情報td11,td12,td13に基づいて修正された音声認識テキストt22である修正音声認識テキストt2を取得する。
【0078】
図8は、第1の音声認識テキストと第2の音声認識テキストとの複数の異なる組み合わせのうちの一の組み合わせにおける、第2の音声認識テキストの付加情報及び第1の音声認識テキストの付加情報に基づく第1の音声認識テキストの修正の例を示す図である。
【0079】
音声認識テキスト取得部11は、複数の音声認識テキストを取得し、取得した複数の音声認識テキストから、
図7に示した例とは逆に、修正される音声認識テキスト(第1の音声認識テキスト)として音声認識テキストt23、及び、修正のための付加情報を有する音声認識テキスト(第2の音声認識テキスト)として音声認識テキストt22を取得する。
【0080】
第2の音声認識テキストとしての音声認識テキストt22は、付加情報td11,td12,td13,tr11を有する。付加情報td11,td12,td13は、文字列「えー」,「うー」,「えー」のそれぞれを指定する指定情報、及び、指定された文字列に対応付けられた文字列を削除することを修正方法とする修正情報を含む。付加情報tr11は、文字列「ソフトウェア・ディファインド・ネットワーク」を指定する指定情報、及び、指定された文字列により、当該文字列に対応付けられた文字列を置換することを修正方法とする修正情報を含む。
【0081】
マッチング部12は、
図4等を参照して説明した対応付けと同様に、第1の音声認識テキストとしての音声認識テキストt23と音声認識テキストt22との間の対応する文字及び文字列を対応付ける。
【0082】
修正部13は、音声認識テキストt22が有する付加情報td11,td12,td13に基づいて、各指定情報により指定された文字列「えー」,「うー」,「えー」に対応付けられた音声認識テキストt23における文字列「えー」,「うー」,「えー」を削除する。
【0083】
また、修正部13は、音声認識テキストt22において付加情報tr11に含まれる指定情報により指定された文字列「ソフトウェア・ディファインド・ネットワーク」により、当該文字列に対応付けられた音声認識テキストt23における文字列「ソフトウェアでファインドネットワーク」を置換する。
【0084】
修正部13は、音声認識テキストt22が有する付加情報td11,td12,td13,tr11に基づいて修正された音声認識テキストt23である修正音声認識テキストt3を取得する。
【0085】
図9は、複数の修正音声認識テキストに基づいて生成される単語ラティスの例を示す図である。生成部15は、複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が一致する単語と、前記複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が相違する各単語のうちの最も確からしい単語とからなる単語列を生成する。
【0086】
具体的には、
図9に示されるように、生成部15は、複数の修正音声認識テキストt1,t2,t3(
図6,7,8を参照)を取得する。そして、生成部15は、複数の修正音声認識テキストt1,t2,t3の間で各修正音声認識テキスト内における位置が対応し表記が一致する各単語を一つの単語とし、複数の修正音声認識テキストt1,t2,t3の間で各修正音声認識テキスト内における位置が対応し表記が相違する各単語をそれぞれ別の単語として、各修正音声認識テキストにおいて各単語をノードとして隣り合う単語間をエッジでつないだ単語ラティスrtを生成する。
【0087】
より具体的には、生成部15は、修正音声認識テキストt1,t2,t3のそれぞれに対して形態素解析を行うことにより、修正音声認識テキストを構成する単語の配列からなる単語列を得る。形態素解析の手法は限定されず、既知の手法を適用できる。そして、生成部15は、各単語列において共通する単語を一つのノードとして、各単語列の隣り合う単語間をエッジでつなぐことにより、ラティス構造を有する単語ラティスrtを生成する。
【0088】
図10は、単語ラティスrtに基づいて生成された単語列からなる音声認識結果の例を示す図である。生成部15は、単語ラティスrtにおいて文頭から文末に至る複数の経路のうち最も確からしい経路を構成する単語の配列からなる単語列waを生成する。
【0089】
具体的には、生成部15は、一以上の単語の配列に連続する単語の品詞の出現確率を、前記単語の配列を構成する単語の品詞に基づいて算出する品詞モデルを用いて、単語ラティスrtにおける最も確からしい単語または最も確からしい経路を算出してもよい。
【0090】
品詞モデルは、一以上の単語の配列における一以上の品詞の配列を入力として、当該品詞の配列に連続する品詞の出現確率を出力するモデルであって、例えば、日本語の文からなる大量のコーパスを学習データとする機械学習により構築される。
【0091】
例えば、生成部15は、一のノードw1からエッジが分岐する場合に、ノードw1に相当する単語またはノードw1以前の所定数の単語配列を品詞モデルに入力することにより、ノードw1から分岐するエッジのそれぞれに接続されたノードw11,w12に相当する単語の品詞の出現確率を取得し、出現確率がより高いノードw12を選択する。
【0092】
同様に、生成部15は、ノードw2から分岐するエッジのそれぞれに接続されたノードw21,w22に相当する単語の品詞の出現確率を取得し、出現確率がより高いノードw21を選択する。さらに、生成部15は、ノードw3から分岐するエッジのそれぞれに接続されたノードw31,w32に相当する単語の品詞の出現確率を取得し、出現確率がより高いノードw31を選択する。
【0093】
また、生成部15は、一以上の単語の配列に連続する単語の出現確率を、単語の配列を構成する単語に基づいて算出する言語モデルを用いて、最も確からしい単語または前記最も確からしい経路を算出してもよい。
【0094】
言語モデルは、一以上の単語の配列を入力として、当該単語の配列に連続する単語の出現確率を出力するモデルであって、例えば、日本語の文からなる大量のコーパスを学習データとする機械学習により構築される。
【0095】
例えば、生成部15は、一のノードw1からエッジが分岐する場合に、ノードw1に相当する単語またはノードw1以前の所定数の単語配列を言語モデルに入力することにより、ノードw1から分岐するエッジのそれぞれに接続されたノードw11,w12に相当する単語の出現確率を取得し、出現確率がより高いノードw12を選択する。
【0096】
同様に、生成部15は、ノードw2から分岐するエッジのそれぞれに接続されたノードw21,w22に相当する単語の出現確率を取得し、出現確率がより高いノードw21を選択する。さらに、生成部15は、ノードw3から分岐するエッジのそれぞれに接続されたノードw31,w32に相当する単語の出現確率を取得し、出現確率がより高いノードw31を選択する。
【0097】
生成部15は、例えば品詞モデル及び言語モデル等により算出された、単語ラティスrtを構成する各単語の出現確率に基づいて、単語ラティスrtにおいて文頭から文末に至る複数の経路のうち最も確からしい経路を構成する単語の配列からなる単語列waを生成する。出力部14は、生成部15により生成された単語列waを認識対象の音声の音声認識結果として出力する。
【0098】
図11は、音声認識装置10における音声認識方法の処理内容を示すフローチャートである。
【0099】
ステップS1において、音声認識テキスト取得部11は、認識対象の音声に対して複数の異なる音声認識手法のそれぞれによる複数の音声認識テキストを取得する。
【0100】
ステップS2において、マッチング部12は、第1の音声認識テキストと第2の音声認識テキストとの間の対応する文字及び文字列を対応付ける。
【0101】
ステップS3において、修正部13は、第2の音声認識テキストにおける付加情報に基づいて、第2の音声認識テキストにおいて指定情報により指定された文字列に対応付けられた第1の音声認識テキストにおける文字列を、修正情報に示される修正方法により修正し、修正された第1の音声認識テキストである修正音声認識テキストを取得する。
【0102】
ステップS4において、出力部14は、修正音声認識テキストを認識対象の音声の音声認識結果として出力する。
【0103】
図12は、音声認識装置における音声認識方法の処理内容の他の例を示すフローチャートである。
図12に示されるフローチャートは、
図7~
図10を参照して説明した音声認識装置10における処理に相当する。
【0104】
ステップS11において、音声認識テキスト取得部11は、認識対象の音声に対して複数の異なる音声認識手法のそれぞれによる複数の音声認識テキストを取得する。
【0105】
ステップS12において、音声認識テキスト取得部11は、修正される音声認識テキストである第1の音声認識テキストと修正のための付加情報を有する音声認識テキストである第2の音声認識テキストとからなる組み合わせを複数抽出する。
【0106】
ステップS13において、マッチング部12は、音声認識テキストの各組み合わせにおける第1の音声認識テキストと第2の音声認識テキストとの間の対応する文字及び文字列を対応付ける。
【0107】
ステップS14において、修正部13は、音声認識テキストの各組み合わせにおいて、第2の音声認識テキストにおける付加情報に基づいて、第2の音声認識テキストにおいて指定情報により指定された文字列に対応付けられた第1の音声認識テキストにおける文字列を、修正情報に示される修正方法により修正し、修正された第1の音声認識テキストである修正音声認識テキストを取得する。
【0108】
ステップS15において、生成部15は、複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が一致する単語と、前記複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が相違する各単語のうちの最も確からしい単語とからなる単語列を生成する。
【0109】
ステップS16において、出力部14は、ステップS15において生成部15により生成された単語列を認識対象の音声の音声認識結果として出力する。
【0110】
次に、
図13を参照して、コンピュータを、本実施形態の音声認識装置10として機能させるための音声認識プログラムについて説明する。
【0111】
図13は、音声認識プログラムの構成を示す図である。音声認識プログラムP1は、音声認識装置10における音声認識処理を統括的に制御するメインモジュールm10、音声認識テキスト取得モジュールm11、マッチングモジュールm12、修正モジュールm13、出力モジュールm14及び生成モジュールm15を備えて構成される。そして、各モジュールm11~m15により、音声認識テキスト取得部11、マッチング部12、修正部13、出力部14及び生成部15のための各機能が実現される。
【0112】
なお、音声認識プログラムP1は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、
図13に示されるように、記録媒体M1に記憶される態様であってもよい。
【0113】
以上説明した本実施形態の音声認識装置10、音声認識方法及び音声認識プログラムP1によれば、第1の音声認識テキストと付加情報を伴う第2の音声認識テキストとの間で、共通する文字列等が、互いに対応する文字列として対応付けられる。付加情報が、第2の音声認識テキストが取得された音声認識手法において特徴的に精度良く認識可能な文字列を示す指定情報、及び、当該文字列の種別に応じた修正方法を示す修正情報を含むことにより、付加情報に基づいて、指定情報により示される文字列に対応する第1の音声認識テキストにおける文字列を修正情報により示される修正方法により修正できる。従って、第1の音声認識テキストに対して高精度に認識された文字列が含められたテキストである修正音声認識テキストが、認識対象の音声の音声認識結果として出力されるので、認識精度が向上された、認識対象の音声の音声認識結果を得ることが可能となる。
【0114】
また、別の形態に係る音声認識装置では、マッチング部は、第1の音声認識テキストと、複数の音声認識テキストのうちの複数の第2の音声認識テキストのそれぞれとの間の文字列の対応付けを行い、修正部は、複数の第2の音声認識テキスト及び付加情報のそれぞれに基づいて、第1の音声認識テキストを修正することとしてもよい。
【0115】
上記形態によれば、複数の第2の音声認識テキスト及び各第2の音声認識テキストの付加情報に基づいて、第1の音声認識テキストの文字列を修正することにより修正音声認識テキストを取得できる。従って、各第2の音声認識テキストのそれぞれの音声認識手法の特徴に応じて、精度が向上された音声認識結果を得ることができる。
【0116】
また、別の形態に係る音声認識装置では、マッチング部は、複数の音声認識テキストから得られる第1の音声認識テキストと第2の音声認識テキストとの複数の異なる組み合わせのそれぞれに対して、第1の音声認識テキストと第2の音声認識テキストとの間の文字列の対応付けを行い、修正部は、複数の音声認識テキストの組み合わせのそれぞれにおいて、第2の音声認識テキストにおける付加情報に基づいて第1の音声認識テキストにおける文字列を修正することにより、複数の修正音声認識テキストを取得し、音声認識装置は、複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が一致する単語と、複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が相違する各単語のうちの最も確からしい単語とからなる単語列を生成する生成部、を更に備え、出力部は、生成部により生成された単語列を認識対象の音声の音声認識結果として出力することとしてもよい。
【0117】
上記形態によれば、第1の音声認識テキストと第2の音声認識テキストとの複数の組み合わせのそれぞれに対して、第2の音声認識テキストの付加情報に基づいて文字列が修正された第1の音声認識テキストからなる修正音声認識テキストが取得される。これらの複数の修正音声認識テキストは、それぞれの第2の音声認識テキストの音声認識手法の特徴に応じて精度が向上された音声認識結果を構成する。そして、複数の修正音声認識テキストの間において、テキスト内における位置が対応し表記が相違する各単語のうちの最も確からしい単語を含む単語列が、認識対象の音声の音声認識結果として出力される。従って、精度が高い音声認識が実現される。
【0118】
また、別の形態に係る音声認識装置では、生成部は、複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が一致する各単語を一つの単語とし、複数の修正音声認識テキストの間で各修正音声認識テキスト内における位置が対応し表記が相違する各単語をそれぞれ別の単語として、各修正音声認識テキストにおいて各単語をノードとして隣り合う単語間をエッジでつないだ単語ラティスを生成し、単語ラティスにおいて文頭から文末に至る複数の経路のうち最も確からしい経路を構成する単語の配列からなる単語列を生成することとしてもよい。
【0119】
上記形態によれば、各修正音声認識テキストにおいて各単語をノードとして隣り合う単語間をエッジでつないだ単語ラティスが生成され、単語ラティスにおいて最も確からしい経路を構成する単語列が、認識対象の音声の音声認識結果として出力される。従って、容易に高精度な音声認識結果を得ることができる。
【0120】
また、別の形態に係る音声認識装置では、生成部は、一以上の単語の配列に連続する単語の品詞の出現確率を、単語の配列を構成する単語の品詞に基づいて算出する品詞モデルを用いて、最も確からしい単語または最も確からしい経路を算出することとしてもよい。
【0121】
上記形態によれば、品詞モデルに基づいて単語の配列が算出されるので、連続する品詞の種類において最も確からしい単語列が、認識対象の音声の音声認識結果として出力される。
【0122】
また、別の形態に係る音声認識装置では、生成部は、一以上の単語の配列に連続する単語の出現確率を、単語の配列を構成する単語に基づいて算出する言語モデルを用いて、最も確からしい単語または最も確からしい経路を算出することとしてもよい。
【0123】
上記形態によれば、言語モデルに基づいて単語の配列が算出されるので、配列として最も確からしい単語列が、認識対象の音声の音声認識結果として出力される。
【0124】
また、別の形態に係る音声認識装置では、修正情報は、文字列の削除、挿入及び置換のいずれかの修正方法を示し、修正部は、修正情報に基づいて、第2の音声認識テキストにおいて指定情報により指定された文字列に対応付けられた第1の音声認識テキストにおける文字列を削除し、第2の音声認識テキストにおいて指定情報により指定された文字列を、該文字列に対応付けられた第1の音声認識テキスト内の位置に挿入し、又は、第2の音声認識テキストにおいて指定情報により指定された文字列により、該文字列に対応付けられた第1の音声認識テキストにおける文字列を置換することとしてもよい。
【0125】
上記形態によれば、修正情報に示される文字列の削除、挿入及び置換のいずれかの修正方法により第1の音声認識テキストが修正される。従って、第1の音声認識テキストに対して高精度に認識された文字列が含められた修正音声認識テキストを得ることができる。
【0126】
また、別の形態に係る音声認識装置では、第1の音声認識テキストが、当該第1の音声認識テキストのうちの文字列を指定する指定情報、及び該文字列に対する修正方法を示す修正情報を含む付加情報を有し、修正情報が、文字列の削除を修正方法として示す場合に、修正部は、当該第1の音声認識テキストにおける、該付加情報に含まれる指定情報により指定された文字列を削除することとしてもよい。
【0127】
上記形態によれば、第1の音声認識テキストにおいて削除されることが好ましい文字列が削除されることにより修正音声認識テキストが生成される。従って、認識対象の音声の音声認識の精度向上が可能となる。
【0128】
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
【0129】
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
【0130】
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0131】
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
【0132】
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
【0133】
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
【0134】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0135】
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
【0136】
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
【0137】
なお、本開示において説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
【0138】
本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。
【0139】
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
【0140】
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
【0141】
本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
【0142】
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
【0143】
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
【0144】
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。
【0145】
本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
【符号の説明】
【0146】
10…音声認識装置、11…音声認識テキスト取得部、12…マッチング部、13…修正部、14…出力部、15…生成部、M1…記録媒体、m10…メインモジュール、m11…音声認識テキスト取得モジュール、m12…マッチングモジュール、m13…修正モジュール、m14…出力モジュール、m15…生成モジュール、P1…音声認識プログラム、rt…単語ラティス、V…音声認識器。