(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-13
(45)【発行日】2024-02-21
(54)【発明の名称】音声認識装置、制御方法、及びプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20240214BHJP
【FI】
G10L15/22 453
(21)【出願番号】P 2022508617
(86)(22)【出願日】2020-03-16
(86)【国際出願番号】 JP2020011466
(87)【国際公開番号】W WO2021186501
(87)【国際公開日】2021-09-23
【審査請求日】2022-09-08
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100110928
【氏名又は名称】速水 進治
(72)【発明者】
【氏名】古明地 秀治
(72)【発明者】
【氏名】山本 仁
【審査官】浜岸 広明
(56)【参考文献】
【文献】特表2014-521115(JP,A)
【文献】特開2013-101204(JP,A)
【文献】特開2006-012179(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成部と、
複数の前記候補テキスト群の間の比較結果に基づいて、各前記音声データについて、その音声データについて生成された前記候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択部と、を有し、
前記候補テキストは文章を表
し、
前記複数の候補テキスト群は、互いに異なる第1の前記候補テキスト群および第2の前記候補テキスト群を含み、
前記第1の候補テキスト群は、互いに異なる第1の前記候補テキストおよび第2の前記候補テキストを含み、
前記第2の候補テキスト群は、互いに異なる第3の前記候補テキストおよび第4の前記候補テキストを含み、
前記選択部は、前記第1の候補テキストと前記第3の候補テキストとの候補テキストペア、前記第1の候補テキストと前記第4の候補テキストとの候補テキストペア、前記第2の候補テキストと前記第3の候補テキストとの候補テキストペア、および前記第2の候補テキストと前記第4の候補テキストとの候補テキストペアを少なくとも含む、4つ以上の候補テキストペアのそれぞれに対し、互いに同じ候補テキストペアに属する前記候補テキストの間の関連度合いを表す指標値を算出することで、前記比較結果を得る
音声認識装置。
【請求項2】
前記選択部は、少なくとも、時系列上で互いに隣接していない2つの音声データそれぞれについて生成された前記候補テキスト群の間の比較を行う、請求項1に記載の音声認識装置。
【請求項3】
前記選択部は、互いに異なる前記候補テキスト群から得られる
前記4つ以上の候補テキストペアについて算出される前記関連度合いの和が最大になるように、各
前記候補テキスト群から前記候補テキストを選択する、請求項1又は2に記載の音声認識装置。
【請求項4】
前記選択部は、前
記関連度合いを表す
前記指標値として、
互いに同じ候補テキストペアに属する前記候補テキストの間の文章間距離を算出する、請求項3に記載の音声認識装置。
【請求項5】
前記選択部は、
前記関連度合いを表す前記指標値として、値が小さいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が
最小となるように、各
前記候補テキスト群から前記候補テキストを選択するか、又は、
前記関連度合いを表す前記指標値として、値が大きいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が
最大となるように、各
前記候補テキスト群から前記候補テキストを選択する、請求項4に記載の音声認識装置。
【請求項6】
前記選択部は、文章間距離の和として、各文章間距離に重みを付した重み付き和を算出する、請求項5に記載の音声認識装置。
【請求項7】
前記選択部は、生成された複数の前記候補テキスト群から得られる前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、請求項3から6いずれか一項に記載の音声認識装置。
【請求項8】
前記選択部は、生成された複数の前記候補テキスト群のうち、時系列順で隣接する前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、請求項3から6いずれか一項に記載の音声認識装置。
【請求項9】
コンピュータによって実行される制御方法であって、
発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成ステップと、
複数の前記候補テキスト群の間の比較結果に基づいて、各前記音声データについて、その音声データについて生成された前記候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択ステップと、を有し、
前記候補テキストは文章を表
し、
前記複数の候補テキスト群は、互いに異なる第1の前記候補テキスト群および第2の前記候補テキスト群を含み、
前記第1の候補テキスト群は、互いに異なる第1の前記候補テキストおよび第2の前記候補テキストを含み、
前記第2の候補テキスト群は、互いに異なる第3の前記候補テキストおよび第4の前記候補テキストを含み、
前記選択ステップでは、前記第1の候補テキストと前記第3の候補テキストとの候補テキストペア、前記第1の候補テキストと前記第4の候補テキストとの候補テキストペア、前記第2の候補テキストと前記第3の候補テキストとの候補テキストペア、および前記第2の候補テキストと前記第4の候補テキストとの候補テキストペアを少なくとも含む、4つ以上の候補テキストペアのそれぞれに対し、互いに同じ候補テキストペアに属する前記候補テキストの間の関連度合いを表す指標値を算出することで、前記比較結果を得る
制御方法。
【請求項10】
制御方法をコンピュータに実行させるプログラムであって、
前記制御方法は、
発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成ステップと、
複数の前記候補テキスト群の間の比較結果に基づいて、各前記音声データについて、その音声データについて生成された前記候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択ステップと、を有し、
前記候補テキストは文章を表
し、
前記複数の候補テキスト群は、互いに異なる第1の前記候補テキスト群および第2の前記候補テキスト群を含み、
前記第1の候補テキスト群は、互いに異なる第1の前記候補テキストおよび第2の前記候補テキストを含み、
前記第2の候補テキスト群は、互いに異なる第3の前記候補テキストおよび第4の前記候補テキストを含み、
前記選択ステップでは、前記第1の候補テキストと前記第3の候補テキストとの候補テキストペア、前記第1の候補テキストと前記第4の候補テキストとの候補テキストペア、前記第2の候補テキストと前記第3の候補テキストとの候補テキストペア、および前記第2の候補テキストと前記第4の候補テキストとの候補テキストペアを少なくとも含む、4つ以上の候補テキストペアのそれぞれに対し、互いに同じ候補テキストペアに属する前記候補テキストの間の関連度合いを表す指標値を算出することで、前記比較結果を得る
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声認識に関する。
【背景技術】
【0002】
音声認識技術が開発されている。音声認識により、例えば、人の発話が含まれる音声信号が、その発話の内容を表すテキストに変換される。
【0003】
音声認識に関する先行技術文献には、例えば、特許文献1がある。特許文献1は、音声認識によって音声データから文章を得る際に、隣接する2単語間の連鎖確率を考慮して文章を特定する技術を開示している。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明者は、音声信号から複数の文章が得られる場合、それら複数の文章の内容は互いに関連している蓋然性が高いことを見出した。この点、特許文献1の発明では、連続する単語間の連鎖確率が考慮されているものの、文章間の関連については考慮されていない。
【0006】
本発明は上述した課題に鑑みてなされたものであり、その目的の一つは、音声認識の精度を向上させる技術を提供することである。
【課題を解決するための手段】
【0007】
本発明の音声認識装置は、発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成部と、複数の候補テキスト群の間の比較結果に基づいて、各音声データについて、その音声データについて生成された候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択部と、を有する。候補テキストは文章を表す。
【0008】
本発明の制御方法はコンピュータによって実行される。当該制御方法は、発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成ステップと、複数の候補テキスト群の間の比較結果に基づいて、各音声データについて、その音声データについて生成された候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択ステップと、を有する。候補テキストは文章を表す。
【0009】
本発明のプログラムは、本発明の制御方法をコンピュータに実行させる。
【発明の効果】
【0010】
本発明によれば、音声認識の精度を向上させる技術が提供される。
【図面の簡単な説明】
【0011】
【
図1】実施形態1に係る音声認識装置の動作を概念的に例示する図である。
【
図2】音声認識装置の機能構成を例示するブロック図である。
【
図3】音声認識装置を実現するための計算機を例示する図である。
【
図4】実施形態1の音声認識装置によって実行される処理の流れを例示するフローチャートである。
【発明を実施するための形態】
【0012】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。以下の説明において、特に説明しない限り、各種所定の値(閾値など)は、その値を利用する機能構成部からアクセス可能な記憶装置に予め記憶させておく。
【0013】
[実施形態1]
<概要>
図1は、実施形態1に係る音声認識装置2000の動作を概念的に例示する図である。ここで、
図1を用いて説明する音声認識装置2000の動作は、音声認識装置2000の理解を容易にするための例示であり、音声認識装置2000の動作を限定するものではない。音声認識装置2000の動作の詳細やバリエーションについては後述する。
【0014】
音声認識装置2000は、発話を表す音声を、その発話の内容を表すテキストに変換するために利用される。そのために、音声認識装置2000は以下のように動作する。
【0015】
音声認識装置2000は、ソースデータ10を取得する。ソースデータ10は、人の発話が記録された音声データであり、例えば会話やスピーチの録音データなどである。音声データは、例えば、音声信号の波形を表すベクトルデータなどである。以下、ソースデータ10によって表される音声信号を、ソース音声信号とも呼ぶ。
【0016】
音声認識装置2000は、ソースデータ10から得られる複数の音声データ20を取得する。音声データ20は、1つの文章に対応する音声信号を表す。ソースデータ10によって表される発話は、複数の文章で構成されている。そのため、ソースデータ10から、複数の文章それぞれについての音声データ20が得られる。
【0017】
音声認識装置2000は、各音声データ20について、その音声データによって表される文章を表すテキストの候補を複数生成する。以下、この候補のことを「候補テキスト」と呼ぶ。また、1つの音声データ20について生成された複数の候補テキストのまとまりを、候補テキスト群30と呼ぶ。
【0018】
音声認識装置2000は、文章間の関連度合いを考慮して、各音声データ20について、その音声データ20に対応する文章を表すテキストを特定する。そのために、音声認識装置2000は、各音声データ20について生成された候補テキスト群30の間で比較を行い、その比較結果に基づいて、各音声データ20について、その音声データ20について生成された候補テキスト群30の中から、その音声データ20によって表される文章を表す候補テキスト32を特定する。
【0019】
例えばソースデータ10から、音声データAと音声データBという2つの音声データが得られたとする。そして、音声データAの候補テキスト群30には2つの候補テキスト T1 及び T2 が含まれており、音声データBの候補テキスト群30には2つの候補テキスト T3 及び T4 が含まれているとする。この場合、ソースデータ10によって表される発話の内容を表す候補テキスト32のペア(文章のペア)として、「T1, T3」、「T1, T4」、「T2, T3」、及び「T2, T4」という4つが考えられる。音声認識装置2000は、音声データAの候補テキスト群30と、音声データBの候補テキスト群30とを比較することにより、これら4つのペアの中から、ソースデータ10によって表される発話の内容を表す候補テキスト32のペアを特定する。例えば、特定されたペアが「T1, T3」である場合、音声データAによって表される発話の内容を表すテキストとして T1 が特定され、音声データBによって表される発話の内容を表すテキストとして T3 が特定されたこととなる。
【0020】
<作用効果の一例>
本実施形態の音声認識装置2000によれば、音声認識によってソースデータ10から複数の文章が得られる場合において、文章ごとに複数の候補(候補テキスト群30)が生成される。そして、候補間の比較(候補テキスト群30間の比較)に基づいて、文章ごとに、複数の候補の中から認識結果とする1つの文章が特定される。よって、候補間の比較を行わない場合と比較し、高い精度で音声認識を行うことができる。言い換えれば、ソースデータ10によって表される発話の内容が、より高い精度でテキスト化される。
【0021】
以下、音声認識装置2000についてより詳細に説明する。
【0022】
<機能構成の例>
図2は、音声認識装置2000の機能構成を例示するブロック図である。候補生成部2020は、ソースデータ10から得られた複数の音声データ20それぞれについて、候補テキスト群30を生成する。選択部2040は、各音声データ20について得られた候補テキスト群30を比較し、その比較結果に基づいて、各音声データ20に対応する発話の内容を表すテキストを、その音声データ20について生成された候補テキスト32の中から選択する。
【0023】
<ハードウエア構成の例>
音声認識装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、音声認識装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
【0024】
図3は、音声認識装置2000を実現するための計算機1000を例示する図である。計算機1000は、任意の計算機である。例えば計算機1000は、PC(Personal Computer)やサーバマシンなどといった、据え置き型の計算機である。その他にも例えば、計算機1000は、スマートフォンやタブレット端末などといった可搬型の計算機である。
【0025】
計算機1000は、音声認識装置2000を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。後者の場合、例えば、計算機1000に対して所定のアプリケーションをインストールすることにより、計算機1000で、音声認識装置2000の各機能が実現される。上記アプリケーションは、音声認識装置2000の機能構成部を実現するためのプログラムで構成される。
【0026】
計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。
【0027】
プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
【0028】
入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
【0029】
ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。
【0030】
ストレージデバイス1080は、音声認識装置2000の各機能構成部を実現するプログラム(前述したアプリケーションを実現するプログラム)を記憶している。プロセッサ1040は、このプログラムをメモリ1060に読み出して実行することで、音声認識装置2000の各機能構成部を実現する。
【0031】
ここで、音声認識装置2000は、1つの計算機1000で実現されてもよいし、複数の計算機1000で実現されてもよい。後者の場合、例えば音声認識装置2000は、候補生成部2020を実現する1つ以上の計算機1000と、連結部2040を実現する1つ以上の計算機1000とを有する分散システムとして実現される。
【0032】
<処理の流れ>
図4は、実施形態1の音声認識装置2000によって実行される処理の流れを例示するフローチャートである。候補生成部2020はソースデータ10を取得する(S102)。候補生成部2020はソースデータ10から複数の音声データ20を生成する(S104)。候補生成部2020は各音声データ20について候補テキスト群30を生成する(S106)。選択部2040は、候補テキスト群30の比較結果に基づいて、各音声データ20に対応する発話の内容を表すテキストを、各音声データ20について生成された候補テキスト32の中から選択する(S108)。
【0033】
<ソースデータ10の取得:S102>
候補生成部2020はソースデータ10を取得する(S102)。候補生成部2020がソースデータ10を取得する方法は任意である。例えば候補生成部2020は、ユーザが操作するユーザ端末から送信されるソースデータ10を受信することで、ソースデータ10を取得する。その他にも例えば、候補生成部2020は、候補生成部2020からアクセス可能な記憶装置に格納されているソースデータ10を取得してもよい。この場合、例えば音声認識装置2000は、ユーザ端末から、取得すべきソースデータ10の指定(ファイル名などの指定)を受け付ける。その他にも例えば、候補生成部2020は、上記記憶装置に格納されている1つ以上のデータをそれぞれソースデータ10として取得してもよい。すなわちこの場合、記憶装置に予め格納しておいた複数のソースデータ10についてバッチ処理が行われる。
【0034】
<音声データ20の生成:S104>
候補生成部2020は、ソースデータ10から複数の音声データ20を生成する(S104)。ここで、複数の文章が含まれる音声データ(本発明ではソースデータ10)を、文章ごとの音声データ(本発明では音声データ20)に分割する技術には、既存の技術を利用できる。例えば候補生成部2020は、ソースデータ10について音声区間検出を行うことで、ソースデータ10を音声区間ごとに分割する。そして、この分割により得られた複数の音声データそれぞれを、音声データ20として扱う。すなわち、1つの音声データ20は、ソースデータ10から得られる1つの音声区間に対応する。
【0035】
<候補テキスト群30の生成:S106>
候補生成部2020は、音声データ20ごとに候補テキスト群30を生成する(S106)。候補テキスト群30は、音声データ20に対して音声認識処理を行うことで生成される。例えば候補生成部2020は、音声データ20に対して音声認識処理を行うことで、その音声データ20に対応する発話の内容を表す可能性があるテキストと、そのテキストが音声データ20に対応する発話の内容を表す確率(以下、確度とも表記する)とのペアを示す情報を生成する。そして候補生成部2020は、生成した複数のテキストの中から、確度の大きさで上位 N 個のテキストを抽出し、当該抽出されたテキストで構成される候補テキスト群30を生成する。言い換えれば、音声データ20に対して音声認識処理を行うことで得られる N-best の認識結果が、候補テキスト群30として扱われる。なお、発話が含まれる音声データに対して音声認識処理を行うことで、その発話の内容を表す可能性があるテキストを複数生成する技術、及び各テキストがその発話の内容を表す確率を算出する技術には、既存の技術を利用することができる。
【0036】
候補テキスト群30の要素数(上記の N の値)は、予め固定で定められていてもよいし、定められていなくてもよい。後者の場合、例えば、候補テキスト32が音声データ20に対応する発話の内容を表す確率の大きさ(すなわち、候補テキスト32の確度の大きさ)について、下限値を定めておく。この場合、候補生成部2020は、前述したテキストと確度のペアを複数生成し、生成した複数のテキストの中から、確度が前述した下限値以上であるテキストのみを抽出して、抽出されたテキストで構成される候補テキスト群30を生成する。
【0037】
<テキストの特定:S108>
選択部2040は、候補テキスト群30の比較を行うことで、各候補テキスト群30から選択する候補テキスト32を特定する(S108)。具体的には、選択部2040は、比較する2つの候補テキスト群30について、各候補テキスト群30に含まれる候補テキスト32の間の関連度を表す指標値(以下、関連度指標値)を算出する。このように候補テキスト32間の関連度合いを考慮することにより、各候補テキスト群30から選択される候補テキスト32の間の関連度合いが高くなるようにする。
【0038】
例えばソースデータ10から、時系列順で音声データA、B、及びCが得られたとする。また、音声データAの候補テキスト群30に候補テキスト T1 と T2 が含まれており、音声データBの候補テキスト群30に候補テキスト T3 と T4 が含まれており、音声データCの候補テキスト群30に候補テキスト T5、T6、及び T7 が含まれているとする。この場合、選択部2040は、音声データAの候補テキスト群30と音声データBの候補テキスト群30との比較として、「T1, T3」、「T1, T4」、「T2, T3」、「T2, T4」という4つのペアそれぞれについて、関連度指標値を算出する。同様に、選択部2040は、音声データAの候補テキスト群30と音声データCの候補テキスト群30との比較として、「T1, T5」、「T1, T6」、「T1, T7」、「T2, T5」、「T2, T6」、「T2, T7」という6つのペアそれぞれについて、関連度指標値を算出する。さらに、選択部2040は、音声データBの候補テキスト群30と音声データCの候補テキスト群30との比較として、「T3, T5」、「T3, T6」、「T3, T7」、「T4, T5」、「T4, T6」、「T4, T7」という6つのペアそれぞれについて、関連度指標値を算出する。
【0039】
関連度指標値には、文章間の関連度合いを定量化できる任意の指標値を利用することができる。例えば関連度指標値には、文章間距離が利用される。2つの文章の文章間距離は、例えば、各文章を表すベクトル(以下、文章ベクトル)の間の距離として算出することができる。文章ベクトルとしては、Bag of Words や TF-IDF などといった種々のものを利用することができる。また、ベクトル間の距離としては、ユークリッド距離、コサイン距離、又は Word Move's Distance などを利用することができる。なお、ユークリッド距離と Word Move's Distance は、値が小さいほど文章間の類似度が高いことを表す。一方、コサイン距離では、値が大きいほど文章間の類似度が高いことを表す。
【0040】
例えば選択部2040は、全ての候補テキスト群30から1つずつ候補テキスト32を選択した場合に、選択された候補テキスト32から得られる候補テキスト32の各ペアについて算出される関連度指標値の和に基づいて、各候補テキスト群30から選択する候補テキスト32を特定する。値が小さいほど文章間の類似度が高いことを表す関連度指標値を利用する場合、関連度指標値の和が最小となるようにする。一方、値が大きいほど文章間の類似度が高いことを表す関連度指標値を利用する場合、関連度指標値の和が最大となるようにする。この処理は、例えば以下のように定式化できる。
【0041】
まず、インデックスベクトルを以下の式(1)のように定める。
【数1】
ここで、M は音声データ20の総数である。また、m は音声データ20のインデックスであり、その音声データ20が時系列順で先頭から何番目に位置するかを表す。Nm は、m 番目の音声データ20の候補テキスト群30に含まれる候補テキスト32の総数である。cm は、先頭から m 番目の音声データ20の候補テキスト群30から選択される候補テキスト32のインデックスである。
【0042】
インデックスベクトル A は、各候補テキスト群30から選択される候補テキスト32のインデックスを表す。例えば、A=(2,3,1) であれば、1番目の音声データ20の候補テキスト群30からは2番目の候補テキスト32が選択され、2番目の音声データ20の候補テキスト群30からは3番目の候補テキスト32が選択され、3番目の音声データ20の候補テキスト群30からは1番目の候補テキスト32が選択されることを意味する。そのため、各候補テキスト群30から選択される候補テキスト32を決定する処理は、インデックスベクトルを決定する処理として定式化できる。選択部2040は、前述した関連度指標値に基づいてインデックスベクトルを決定することで、各音声データ20の候補テキスト群30から選択する候補テキスト32を決める。
【0043】
ユークリッド距離など、値が小さいほど類似度が高いことを表す文章間距離を利用する場合、例えば選択部2040は、インデックスベクトルを以下の式(2)のように決定する。
【数2】
【0044】
一方、コサイン距離など、値が大きいほど類似度が高いことを表す文章間距離を利用する場合、例えば選択部2040は、インデックスベクトルを以下の式(3)のように決定する。
【数3】
【0045】
なお、各音声データ20に対して重みを与え、その重みを考慮してインデックスベクトルを決定するようにしてもよい。重みを考慮する場合、例えば、前述した式(2)と(3)はそれぞれ、以下の式(4)と(5)のようにすることができる。
【0046】
【数4】
【数5】
ここで、wi は i 番目の音声データ20に対して与えられる重みを表す。
【0047】
音声データ20に対して重みを与える方法は任意である。例えば、「ええと」や「うーん」などというフィラーワードのみが含まれる音声データ20の重みは、他の音声データ20の重みより小さくする(例えば、前者を0にし、後者を1とする)。その他にも例えば、所定の単語を含む音声データ20の重みを、他の音声データ20の重みよりも大きくする(例えば、前者を2とし、後者を1とする)。また、機械学習によって最適な重みを決めてもよい。
【0048】
前述した式(2)から(5)では、任意の候補テキスト群30のペアそれぞれについて、選択された候補テキスト32の文章間距離が算出されている。そのため、時系列で隣接していない文章間の関連度合いも考慮して、ソースデータ10によって表される発言の内容を特定することができる。
【0049】
ただし、選択部2040は、時系列で隣接する候補テキスト群30のペアについてのみ、選択された候補テキスト32の文章間距離を算出するようにしてもよい。この場合、例えば式(2)と(3)に代え、以下の式(6)と(7)を用いることができる。
【数6】
【数7】
【0050】
なお、これら式(6)と(7)についても、式(4)や(5)と同様に、重みを付加するようにしてもよい。
【0051】
<処理結果の利用方法>
音声認識装置2000によれば、ソースデータ10から得られた音声データ20それぞれについて、その内容を表す文章(テキスト)が特定される。すなわち、ソースデータ10によって表される発話の内容を表す文章列が得られる。このようにして得られた文章列の利用方法は任意である。例えば音声認識装置2000は、生成された文章列を出力する。文章列の出力先は任意である。例えば音声認識装置2000は、文章列を記憶装置に格納したり、文章列をディスプレイ装置に表示させたり、文章列を他の任意の装置(例えば、ソースデータ10の送信元)へ送信したりする。
【0052】
文章列はソースデータ10によって表される発話の内容を表すテキストであるため、このようにして出力された文章列を閲覧することにより、音声認識装置2000のユーザは、ソースデータ10によって表される発話の内容を視覚的に把握することができるようになる。例えばソースデータ10が会議の録音データであれば、音声認識装置2000から得られる文章列は、その会議における発話がテキスト化された議事録データとして扱うことができる。
【0053】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
1. 発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成部と、
複数の前記候補テキスト群の間の比較結果に基づいて、各前記音声データについて、その音声データについて生成された前記候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択部と、を有し、
前記候補テキストは文章を表す、音声認識装置。
2. 前記選択部は、少なくとも、時系列上で互いに隣接していない2つの音声データそれぞれについて生成された前記候補テキスト群の間の比較を行う、1.に記載の音声認識装置。
3. 前記選択部は、互いに異なる前記候補テキスト群から得られる前記候補テキストの間の関連度合いを算出し、算出される前記関連度合いの和が最大になるように、各候補テキスト群から前記候補テキストを選択する、1.又は2.に記載の音声認識装置。
4. 前記選択部は、前記候補テキストの間の関連度合いを表す指標値として、前記候補テキストの間の文章間距離を算出する、3.に記載の音声認識装置。
5. 前記選択部は、
前記指標値として、値が小さいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が最大となるように、各候補テキスト群から前記候補テキストを選択するか、又は、
前記指標値として、値が大きいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が最小となるように、各候補テキスト群から前記候補テキストを選択する、4.に記載の音声認識装置。
6. 前記選択部は、文章間距離の和として、各文章間距離に重みを付した重み付き和を算出する、5.に記載の音声認識装置。
7. 前記選択部は、生成された複数の前記候補テキスト群から得られる前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、3.から6いずれか一つに記載の音声認識装置。
8. 前記選択部は、生成された複数の前記候補テキスト群のうち、時系列順で隣接する前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、3.から6いずれか一つに記載の音声認識装置。
9. コンピュータによって実行される制御方法であって、
発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成ステップと、
複数の前記候補テキスト群の間の比較結果に基づいて、各前記音声データについて、その音声データについて生成された前記候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択ステップと、を有し、
前記候補テキストは文章を表す、制御方法。
10. 前記選択ステップにおいて、少なくとも、時系列上で互いに隣接していない2つの音声データそれぞれについて生成された前記候補テキスト群の間の比較を行う、9.に記載の音声認識装置。
11. 前記選択ステップにおいて、互いに異なる前記候補テキスト群から得られる前記候補テキストの間の関連度合いを算出し、算出される前記関連度合いの和が最大になるように、各候補テキスト群から前記候補テキストを選択する、9.又は10.に記載の制御方法。
12. 前記選択ステップにおいて、前記候補テキストの間の関連度合いを表す指標値として、前記候補テキストの間の文章間距離を算出する、11.に記載の制御方法。
13. 前記選択ステップにおいて、
前記指標値として、値が小さいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が最大となるように、各候補テキスト群から前記候補テキストを選択するか、又は、
前記指標値として、値が大きいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が最小となるように、各候補テキスト群から前記候補テキストを選択する、12.に記載の制御方法。
14. 前記選択ステップにおいて、文章間距離の和として、各文章間距離に重みを付した重み付き和を算出する、13.に記載の制御方法。
15. 前記選択ステップにおいて、生成された複数の前記候補テキスト群から得られる前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、11.から14いずれか一つに記載の制御方法。
16. 前記選択ステップにおいて、生成された複数の前記候補テキスト群のうち、時系列順で隣接する前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、11.から14いずれか一つに記載の制御方法。
17. 9.から16いずれか一つに記載の制御方法をコンピュータに実行させるプログラム。
【符号の説明】
【0054】
10 ソースデータ
20 音声データ
30 候補テキスト群
32 候補テキスト
1000 計算機
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
2000 音声認識装置
2020 候補生成部
2040 選択部