IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 韓國電子通信研究院の特許一覧

特開2022-111106音声認識のための半自動精製-音声データ抽出および転写データ生成方法
<>
  • 特開-音声認識のための半自動精製-音声データ抽出および転写データ生成方法 図1
  • 特開-音声認識のための半自動精製-音声データ抽出および転写データ生成方法 図2
  • 特開-音声認識のための半自動精製-音声データ抽出および転写データ生成方法 図3
  • 特開-音声認識のための半自動精製-音声データ抽出および転写データ生成方法 図4
  • 特開-音声認識のための半自動精製-音声データ抽出および転写データ生成方法 図5
  • 特開-音声認識のための半自動精製-音声データ抽出および転写データ生成方法 図6
  • 特開-音声認識のための半自動精製-音声データ抽出および転写データ生成方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022111106
(43)【公開日】2022-07-29
(54)【発明の名称】音声認識のための半自動精製-音声データ抽出および転写データ生成方法
(51)【国際特許分類】
   G10L 15/06 20130101AFI20220722BHJP
【FI】
G10L15/06 300Y
【審査請求】有
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022006014
(22)【出願日】2022-01-18
(31)【優先権主張番号】10-2021-0006697
(32)【優先日】2021-01-18
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】596180076
【氏名又は名称】韓國電子通信研究院
【氏名又は名称原語表記】Electronics and Telecommunications Research Institute
【住所又は居所原語表記】218,Gajeong-ro Yuseong-gu Daejeon 34129,Republic of Korea
(74)【代理人】
【識別番号】100091487
【弁理士】
【氏名又は名称】中村 行孝
(74)【代理人】
【識別番号】100120031
【弁理士】
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【弁理士】
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100152205
【弁理士】
【氏名又は名称】吉田 昌司
(72)【発明者】
【氏名】バン、ジュンソン
(57)【要約】      (修正有)
【課題】音声認識機の認識率向上のためにモデル学習に必要な精製-音声データ及びその転写データを低費用で短時間内に半自動方式で確保する音声認識のための半自動精製-音声データ抽出及び転写データ生成方法を提供する。
【解決手段】方法は、音声データをスライシングして精製されたコーパスを構築するステップと、精製されたコーパスを活用して音声認識機のモデル学習を行うステップと、半自動で精製-音声データを抽出して転写データを生成するステップと、を含む。
【選択図】図3
【特許請求の範囲】
【請求項1】
(a)音声データをスライシングし、精製されたコーパスを構築するステップと、
(b)精製されたコーパスを活用して音声認識機のモデル学習を行うステップと、
(c)半自動で精製-音声データを抽出し、転写データを生成するステップと
を含む音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項2】
前記(a)ステップは、予め設定された時間以下に原本音声データファイルを分割する前処理を行うもの
である、請求項1に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項3】
前記(c)ステップは、転写文字列とデコーディング文字列の類似値を確認し、類似値が基準値以上の文字列に対してのみ文字列マッチングを行うもの
である、請求項1に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項4】
前記(c)ステップは、前記転写文字列とデコーディング文字列を単語または語節単位に分離し、前記デコーディング文字列に対して空欄を除去した文字列を生成するもの
である、請求項3に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項5】
前記(c)ステップは、前記転写文字列の最初の単語と同じ単語が前記デコーディング文字列に対して空欄を除去した文字列にあるかを検索し、共通した単語部分を特定の文字に置き換えるもの
である、請求項4に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項6】
前記(c)ステップは、前記転写文字列の最初の単語と前記デコーディング文字列に対して空欄を除去した文字列の語節に対する類似値を算出するもの
である、請求項5に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項7】
前記(c)ステップは、前記転写文字列の最初の単語に対して前から一字ずつ増やしていきながら、類似値が基準値より高い単語に同一の文字があるかのマッチングを行うもの
である、請求項6に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項8】
前記(c)ステップは、前記転写文字列と前記デコーディング文字列の残っている単語のグループの個数を考慮して最終選択を行うもの
である、請求項6に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項9】
前記(c)ステップは、前記転写文字列と前記デコーディング文字列に残っている単語のグループの個数が同じ場合、前記転写文字列を最終選択するもの
である、請求項8に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項10】
前記(c)ステップは、前記転写文字列と前記デコーディング文字列に対していずれか一方にのみ単語グループが残っている場合、残っているグループの文章を選択するもの
である、請求項8に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項11】
前記(c)ステップは、前記デコーディング文字列に対してのみ単語グループが残っている場合、前記転写文字列を選択するもの
である、請求項8に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項12】
前記(c)ステップは、前記転写文字列と前記デコーディング文字列に対して残っている単語のグループの個数が異なる場合、グループの個数が多い方を選択するもの
である、請求項8に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【請求項13】
前記(c)ステップは、前記転写文字列と前記デコーディング文字列の最後部分にのみ両方とも単語グループが残っている場合、文字の個数が長い方を選択するもの
である、請求項8に記載の音声認識のための半自動精製-音声データ抽出および転写データ生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識のための半自動精製-音声データ抽出および転写データ生成方法に関する。
【背景技術】
【0002】
音声認識機のモデル学習のために大量の音声データファイルおよびそれに対応する転写テキストが必要であるが、手動転写作業には多くの時間と費用がかかる問題点がある。
【0003】
従来技術によれば、大韓民国登録特許公報第10-2083938号のように、音声データの転写過程において自動化可能な部分を導入しようとする試みがあるが、これは、精製されたコーパス生成のために多くの努力と時間がかかり、転写過程におけるエラーが含まれた状態でモデルが再学習される問題点がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、上記の問題点を解決するために提案されたものであって、音声認識機の認識率向上のためにモデル学習に必要な精製-音声データおよびその転写データを低費用で短時間内に半自動方式で確保することが可能な方法を提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明の実施例による音声認識のための半自動精製-音声データ抽出および転写データ生成方法は、音声データをスライシングし、精製されたコーパスを構築するステップと、精製されたコーパスを活用して音声認識機のモデル学習を行うステップと、半自動で精製-音声データを抽出し、転写データを生成するステップとを含む。
【発明の効果】
【0006】
本発明によれば、半自動精製音声データ抽出アルゴリズムを用いて精製されたコーパスを生成するための作業時間と費用を節減する効果がある。
【0007】
また、音声認識率が改善されてほとんど自動で字幕の生成が可能で、動画に該当する字幕生成の費用節減が可能な効果がある。
【0008】
本発明の効果は以上に言及したものに限定されず、言及されていない他の効果は以下の記載から当業者に明確に理解されるであろう。
【図面の簡単な説明】
【0009】
図1】従来技術による音声データと転写テキストを用いた音声認識機のモデル学習過程を示す。
図2】本発明の実施例による音声データスライシングおよび精製されたコーパスの構築過程を示す。
図3】本発明の実施例による半自動精製-音声データ/転写テキスト抽出機を示す。
図4】本発明の実施例による半自動精製-音声データ/転写テキスト抽出機により得られたデータで音声認識機のSTTモデルを学習させる構造を示す。
図5】2200時間の原本raw音声データに対して基準値を50%、60%、70%とした時の認識率と自動化により抽出できる音声データの量をまとめたものである。
図6】本発明の実施例による字幕のある動画から音声データを抽出して活用する例を示す。
図7】本発明の実施例による字幕を用いたオーディオスライス過程、シードモデル生成過程、シードモデルを活用した半自動精製音声データ抽出アルゴリズム開発過程を示す。
【発明を実施するための形態】
【0010】
本発明の上述した目的およびその他の目的と利点および特徴、そしてそれらを達成する方法は、添付した図面とともに詳細に後述する実施例を参照すれば明確になるであろう。
【0011】
しかし、本発明は、以下に開示される実施例に限定されるものではなく、互いに異なる多様な形態で実現可能であり、単に以下の実施例は本発明の属する技術分野における通常の知識を有する者に発明の目的、構成および効果を容易に知らせるために提供されるものに過ぎず、本発明の権利範囲は請求項の記載によって定義される。
【0012】
一方、本明細書で使われた用語は実施例を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数形は、文章で特に言及しない限り、複数形も含む。明細書で使われる「含む(comprises)」および/または「含む(comprising)」は、言及された構成素子、段階、動作および/または素子が、1つ以上の他の構成素子、段階、動作および/または素子の存在または追加を排除しない。
【0013】
以下、当業者の理解のために本発明が提案された背景について先に記述し、本発明の実施例について記述する。
【0014】
音声認識機(STT:Speech-To-Text)を開発するためには、多大な量の音声データとその転写されたテキストが必要である。
【0015】
音声データと転写テキストによって音声認識機(STT)のモデルが学習されて構築されるので、音声認識機の性能は転写されたテキストの正確度に大きく影響される。
【0016】
図1は、従来技術による音声データと転写テキストを用いた音声認識機のモデル学習過程を示す。
【0017】
リアルタイム音声認識機の認識率は85%程度(サービスドメイン領域で使う用語が一般的でない場合の認識率はより低下する)であるが、安定的なサービスのためには95%以上の認識性能が要求される。
【0018】
機械学習またはディープラーニングベースの音声認識機のモデル学習のためには、大量の音声データファイルとそれに対応する転写テキスト(transcription)が必要であるが、速記者による転写テキスト生成作業、すなわち手動転写作業には多くの時間と高い費用がかかる問題点がある。
【0019】
音声認識性能を向上させるためには、精製された解答紙(音声データ、転写テキスト)が必要である。
【0020】
音声データの転写過程は人(速記者)によって行われるが、この過程でモデル学習(特に、ディープラーニング)の性能低下要因が存在する。
【0021】
これは、速記者によって生成された転写テキストにはモデル学習に適しない情報が存在するからである。
【0022】
原本音声ファイルにはないものの速記者によって添加された部分(insert)、原本音声ファイルにはあるものの速記者によって除去された部分(delete)と変更された部分(update)があるので、これを学習データとして用いる場合、エラーがある解答紙(音声データ、転写テキスト)を学習することとなり、音声認識率の低下をもたらす問題点がある。
【0023】
精製された解答紙を作るために、速記検討の際に、音声データの原本ファイルを聴きながら、速記者によって作成されたテキストの間違った部分を探して修正しているが、これは、多くの時間と費用がかかる問題点がある。
【0024】
また、速記者の転写方式(入力パターン、例:数字表記、非言語的表現、話者音声重複など)が異なっていて、速記者による転写されたテキストが音声認識機のモデル学習に適した形態でないことがあり、これをすべて確認する作業は現実的に難しい問題点がある。
【0025】
研究によれば、90%の音声認識性能を得るには、最小2000時間以上の精製されたコーパスを学習させなければならない。
【0026】
すなわち、最小2000時間以上の解答紙(音声データ、転写データ)が必要になるが、通常1時間の精製されたコーパスを作るためには、平均3時間程度の時間投入と10万ウォン以上の作業費用が必要であり、転写テキストの検収作業時間と費用も発生する。
【0027】
従来技術によれば、大韓民国登録特許公報第10-2083938号は、メモリに記憶されたベース音声認識モデルに基づいて転写(transcription)する音声データを自動転写するアプローチ方式を活用する。
【0028】
すなわち、1次自動転写データおよび音声データの対比結果に基づいて、音声認識モデルを1次学習して2次音声認識モデルを生成する方式を提案する。
【0029】
しかし、これも、直接原本音声ファイルを聴きながら、速記者によって作成されたテキストと間違った部分を探して修正する、精製されたコーパスを作るための努力と時間が多く必要になる問題点があり、転写過程におけるエラーが含まれた状態でモデルが再学習される可能性があるとの問題点がある。
【0030】
本発明は、前述した問題点を解決するために提案されたものであって、音声データの転写過程において自動化可能な部分を導入して、精製された音声データとその転写されたテキストを低費用で速い時期内に抽出し、精製されたコーパスを抽出する方法を提案する。
【0031】
本発明の実施例によれば、音声認識システムの開発に必要な音声データの中から半自動方式で(自動化可能な部分に限り)精製-音声データを選別して抽出し、その転写データを生成する。
【0032】
音声データと予め転写されたテキストデータ、または音声データと速記者によって転写されたテキストデータがあると仮定する時、音声データが音声認識機(STT)によってデコーディングされたテキストと、予め/手動で転写されたテキストとを、文字列-マッチング-アルゴリズムにより比較して精製-音声データを分類し、それに対応する転写テキストデータを決定し、これを活用して音声認識機(STT)のモデル学習を行う。
【0033】
本発明の実施例によれば、精製されたコーパスの活用により音声認識機(STT)の認識率を向上させることが可能であり、このために、モデル学習に必要な精製-音声データおよびその転写データを低費用で短時間内に半自動方式で確保する。
【0034】
本発明の実施例による音声認識のための半自動精製-音声データ抽出および転写データ生成方法は、音声データをスライシングし、精製されたコーパスを構築するステップと、精製されたコーパスを活用して音声認識機のモデル学習を行うステップと、半自動で精製-音声データを抽出し、転写データを生成するステップとを含む。
【0035】
図2は、本発明の実施例による音声データスライシングおよび精製されたコーパスの構築過程を示す。
【0036】
音声データファイルのランニングタイムが長くなると、音声認識機(STT)の認識率が低下しうるので、原本音声データファイルをt秒以下に分割する音声データ前処理作業を行う。
【0037】
この時、時間tは、30秒前後に設定されることが好ましい。
【0038】
本発明の実施例による手動精製されたコーパスを活用して音声認識機のモデル学習を行うステップは、音声データと転写テキストを活用して手動で精製されたコーパスデータを作る。
【0039】
90%の音声認識性能を得るために最小2000時間以上の精製されたコーパスを学習させなければならないとした時、250時間程度のコーパスデータを活用して音声認識機(STT)モデルを学習させる。
【0040】
本発明の実施例による半自動で精製-音声データを抽出し、転写データを生成するステップは、図3に示した半自動精製-音声データ/転写テキスト抽出機310によって行われる。
【0041】
前述した過程により、音声認識機311のSTTモデルが学習されている状況で、精製-音声データの抽出が必要な音声データ(音声ファイルU)を音声認識機311に入力させて、デコーディングされた転写テキスト(デコーディング文字列W)を取得する。
【0042】
速記者によってその音声データ(音声ファイルU)が転写されたテキスト(転写文字列V)とデコーディングされた転写テキスト(デコーディング文字列W)を精製-音声/文字列抽出機312に入力させて、文字列マッチングアルゴリズムにより精製-音声データと文字列(転写テキスト)を抽出する。
【0043】
以下、本発明の実施例による文字列マッチングアルゴリズムを説明する。
【0044】
本発明の実施例による文字列マッチングアルゴリズムは、転写文字列VをA、デコーディング文字列WをBとした時、2つの文字列の類似度S(A,B)が基準値(Threshold)E以上の場合に限り、精製されたデータであることを示す識別子を音声データ分類機314およびテキストデータ分類機315に転送し、テキストデータ分類機315には文字列A、Bのうち適したまたは修正された文字列Rを併せて転送する。
【0045】
ステップ1
転写文字列Aとデコーディング文字列Bが文字列マッチング判別機に入力されれば、2つの文字列の類似値が基準値以上であるかを確認し、類似値が基準値以上の文字列に対してのみ文字列マッチングを進める。
【0046】
ステップ2-1
転写文字列Aとデコーディング文字列Bを単語(/語節)単位に分離し、Bに対して空欄を除去した文字列Bを生成する。
【0047】
例えば、下記表1のように文字列を生成する。
【表1】
文字列Bを生成する理由は、Aにある単語により、Bでの検索を有利にするためである。
文字列Aに対して空欄を除去した文字列Aを生成し、同様の方法を行うことが可能である。
【0048】
本発明の実施例によれば、単語から音節などにする方法で変形が行われる。
【0049】
ステップ2-2
転写文字列Aの最初の単語と同じ単語が文字列Bにあるかを検索する。
【0050】
ステップ2-2-1
この時、一致する単語があれば、AおよびBの共通した単語部分を特定の文字(例:チルダ(~))に置き換える。
【0051】
チルダ(~)以外に他の文字が用いられてもよいが、文字列内に出られる文字を特定の文字として用いない。
【0052】
一致する単語がなければ、韓国語の場合、韓国語は語幹と助詞とで構成されているため、Aの最初の単語を基準として文字列の一番最後から一字ずつ減らしていきながら、Bに一致する(同一の)単語があるかを検索する。
【0053】
減らしていく過程で一致する単語が1文字の場合は意味がないため、2文字までのみこの過程を進める。
【0054】
本発明の実施例によれば、韓国語と言語特性が同じ(語順などが同じ)言語は、同様の方法で拡張可能である。
【0055】
前述した実施例について表2および表3を例として説明する。
【表2】
【表3】
【0056】
前述した例において、文字列AとBで「シジャク」という単語が一致するので、「~~」に置き換える。
【0057】
ステップ2-2-2
前述したステップで一致する単語が1文字以下の場合、Aの最初の単語とBの語節に対する類似値(単語類似値)を算出し、類似値が基準値以上の場合、ステップ2-3へ進み、類似値が基準値未満の場合、ステップ2-4を行う。
【表4】
【表5】
【0058】
文字列AとBで「シ」部分が一致するが、これは1文字一致の場合である。
【0059】
基準値が60以上の場合、AおよびB部分に対する類似値を求めると、6/7(85%以上)であるので、ステップ2-3へ進む。
【0060】
ステップ2-3
Aの最初の単語に対して前から一字ずつ増やしていきながら、ステップ2-2-1で計算した類似値が基準値より高い単語(bと称する)に同一の文字があるかのマッチングを行う。
【0061】
この時、同一の文字を最大にもつグループを探すために、bと同一の文字マッチングを連続的に行う。
【0062】
1文字の場合は意味がないため、2文字以上連続的に一致する場合にのみマッチングを行う。
【0063】
前述した実施例について表6および表7を例として説明する。
【表6】
【表7】
【0064】
マッチングに成功した場合、AおよびBの共通した単語部分をチルダ(~)に置き換える。
【0065】
ステップ2-4
Aの最初の単語の後に登場する単語に対しても、前述したステップ2-1~2-3を繰り返し行う。
【0066】
ステップ3
速記者が作成した転写文字列Aと、音声認識機によって生成されたデコーディング文字列Bの残っている単語のグループの個数をもって、後述する過程により最終結果物を作る。
【0067】
ステップ3-1
転写文字列Aとデコーディング文字列Bに残っている単語のグループの個数が同じ場合、転写文字列を最終選択する。
【0068】
速記者が直接手動で作成した文字列であるため、音声データファイルに対する転写の正確度が一般的に95%以上になり、残りの5%は速記者によって任意に挿入、削除、切替えられた部分や誤字などが該当する。
【0069】
それに対し、デコーディングされた文字列の場合、音声認識機の性能によって影響されるが、騒音の少ない環境で90%程度になる。
【0070】
目的によって相手文章、またはやや変形された文章を選択することができる。
【0071】
前述した実施例について表8および表9を例として説明する。
【表8】
【0072】
残っている単語グループの個数が同じであるので、転写文字列のテキスト(「チグムブト チェ 356 フェ キョンチャルチョンムンファヘンサ ケフェシグル コヘンハゲッスムニダ」)を選択する。
【表9】
【0073】
残っている単語グループの個数が同じであるので、転写文字列のテキスト(「チョンジュエ タラ 1チョルマン チェチャンハヨ チュシギ パラムニダ」)を選択する。
【0074】
ステップ3-2
転写文字列Aとデコーディング文字列Bに対して一方にのみ単語グループが残っている場合、残っているグループの文章を選択する。
【0075】
その理由は、転写文字列には話者が述べた内容について繰り返し言ったり曖昧に言った部分に対して速記者が1回だけ転写するからである。
【0076】
デコーディングされた結果から、音声ファイルに対して部分的にデコーディングができない場合がある。
【0077】
前述した実施例について表10および表11を例として説明する。
【表10】
【0078】
デコーディング結果にのみテキストが残っているため、デコーディング結果のテキスト(「タヤンハン キオブ ミッ キニョムサオブ ル ジュンビ ハゴ イッスムニダ」)を選択する。
【表11】
【0079】
転写文字列にのみテキストが残っているため、transcription結果のテキスト(「アムチョロク イ アンデロ ウィギョルヘ チュシギル パラミョ」)を選択する。
【0080】
ステップ3-3
デコーディング文字列Bに対してのみ単語グループが文章の最後部分に残っている場合に、無条件で転写文字列Aを選択する。
【0081】
なぜならば、音声ファイル原本の最後部分に若干の雑音が入った場合、デコーディング結果に雑音がテキストとして反映されるからである。
【0082】
前述した実施例について表12を例として説明する。
【表12】
【0083】
デコーディング結果にのみテキストが最後部分に残っているため、転写文字列のテキスト(「ウリ 23デ キョンチャルウィウォンフェヌン ネウェ ハゲク ヨロブンウィ」)を選択する。
【0084】
ステップ3-4
転写文字列Aとデコーディング文字列Bに対して残っている単語のグループの個数が異なる場合、グループの個数が多い方を選択する。
【0085】
その理由は、グループの個数の多い方が音声データの情報を最大限に反映して作成されているからである。
【0086】
前述した実施例について表13を例として説明する。
【表13】
【0087】
transcriptionがマッチング後、残っているグループの個数がデコーディング結果より多いため、transcriptionのテキスト(「チョンムウィウォンフェウィ キムハンピョ ウィウォン ナオショソ 7コンエ テハヨ シムサボゴ ミッ チェアンソルミョン ヘ チュシギ パラムニダ」)を選択する。
【0088】
前述した実施例について表14を例として説明する。
【表14】
【0089】
デコーディング結果がマッチング後、残っているグループの個数がtranscriptionの結果より多いため、transcriptionのテキスト(「クレソ オヒリョ チャユファ チョンドル 89 % イハ チョンドロ ナッチュ ミョンソ ラド チョギ エ タギョル ヘッスミョン ワンファ ハヌン ゴシ ヨギ コイツン ドル イプチャン イムニダ」)を選択する。
【0090】
ステップ3-5
転写文字列Aとデコーディング文字列Bの最後部分にのみ両方とも単語グループが残っている場合には、文字の個数が長い方を選択する。
【0091】
その理由は、転写文字列Aとデコーディング文字列Bとも単語グループが残っている場合、雑音に対するテキストではないため、音声データの情報を最大限に反映した方は、文字数がより長いテキストをもっている方である。
【0092】
ただし、文字数が同じ場合、速記者が作成したtranscriptionを選択する。
【0093】
前述した実施例について表15を例として説明する。
【表15】
【0094】
transcriptionがマッチング後、残っている文字数がデコーディング結果より多いため、transcriptionのテキスト(「チュガハゴ ソンヘサジョンサウィ ウィム チョハンウル カンファハヨッスムニダ」)を選択する。
【0095】
前述した実施例について表16を例として説明する。
【表16】
【0096】
transcriptionがマッチング後、残っている文字数がデコーディング結果と同じであるため、transcriptionのテキスト(「チナンヘ ウリ クンミンウン テハンミングク ヨクサウィ」)を選択する。
【0097】
以下、図4を参照して、半自動精製-音声データ/転写テキスト抽出機により得られたデータで音声認識機のSTTモデルを学習させる構造について説明する。
【0098】
結果的に、文字列マッチングの結果物として得られた「精製-音声データとその転写されたテキスト」は、STTのモデル学習に活用されて、音声認識機の性能を向上させる。
【0099】
文字列マッチングアルゴリズムにより、2つの文章の類似値が基準値を60%とした場合、全体原本音声ファイルの約70%を自動化により抽出できる(この際の音声認識率は90%以上である)。
【0100】
図5は、2200時間の原本raw音声データに対して基準値を50%、60%、70%とした時の認識率と自動化により抽出できる音声データの量をまとめたものである。
【0101】
基準値を60%とした時、自動化抽出サイズに対する認識率が最も良くなることが、実験を通して分かった。
【0102】
他のサービスドメインでは別途に実験を進めて、当該ドメインでの一般的な基準値を推定して使用できるはずである。
【0103】
本発明の実施例によれば、字幕のある動画から音声データを抽出して活用可能であり、字幕のある動画にも適用して活用可能である。
【0104】
図6を参照すれば、字幕のある動画の場合、音声転写を別途に再び行わず、一部の動画区間を抜粹し、これを精製して活用して音声認識機の性能を高めることが可能である。
【0105】
本発明の実施例によれば、動画(音声データを含む)字幕生成器に活用することが可能である。
【0106】
動画とテキストが用意されている場合であっても、学習のためにテキストを10秒以下の単位に細く分割する(duration)作業およびこれを動画と同期化させる作業が必要になり、通常最初からテキストがないと考えてtranscription作業を行う。
【0107】
しかし、前述した本発明の実施例によれば、比較的簡単にtranscription作業を行うことが可能である。
【0108】
速記者によって別途に作られたテキストは、学習させるには適しない情報が入っている。
【0109】
原本音声ファイルにはない添加された部分があり(insert)、同じく音声ファイルにはあるものの速記者によって除去された部分(delete)、変更された部分(update)があるので、学習データとして用いる場合、質の悪い学習データを用いることとなり、深刻な認識率の低下をもたらす。
【0110】
直接原本音声ファイルを聴きながら、速記者によって作成されたテキストと間違った部分を探して修正する、精製されたコーパスを作るためには多くの努力と時間が必要である。
【0111】
図7を参照すれば、本発明の実施例による半自動精製-音声データ/転写テキストの抽出により精製されたコーパスデータを速い時期内に大量に構築することが可能である。
【0112】
第1ステップで、動画に合ったテキスト抽出および分割作業により字幕ファイルを生成する。
【0113】
動画を用いた時間データ抽出および文章別発言時間による文章時間を用いて動画をスライスした後、wav音声ファイルを抽出する。
【0114】
以後、短く分割されたwav音声ファイルとマッチングされる部分に対する字幕部分を自動抽出して生成する。
【0115】
第2ステップでは、第1ステップで作ったwav音声ファイルとテキストを活用して、手動で精製されたコーパスデータを作る作業を行い、精製されたコーパスを活用してseedモデルを生成する。
【0116】
第3ステップで、seedデータモデルから原本raw音声ファイルをデコーディングする。
【0117】
転写テキストとデコーディングされたテキスト結果を通して半自動精製音声データ抽出アルゴリズムで一致率(類似率)が60%以上の原本raw音声ファイルのみを抽出する。
【0118】
従来技術によれば、音声データの転写過程は人(速記者)によって行われるが、この過程で速記者によって生成された転写テキストにはモデル学習に適しない情報が存在し、速記者の転写方式(入力パターン、例:数字表記、非言語的表現、話者音声重複など)が異なっていて、速記者による転写されたテキストが音声認識機のモデル学習に適した形態ではないことがある。
【0119】
音声データと転写テキストによって音声認識機(STT)のモデルが学習されて構築されるため、音声認識性能を向上させるために精製された解答紙(音声データ、転写テキスト)が必要である。
【0120】
研究によれば、90%の音声認識性能を得るには、最小2000時間以上の精製されたコーパスを学習させてこそ可能になるが、現在精製されたコーパスを作るために手動で作業を進める場合、時間あたり10万ウォン以上の費用が必要である。
【0121】
すると、1000時間の精製されたコーパスを収集するために1億ウォン以上の費用が必要である。
【0122】
本発明の実施例による半自動精製音声データ抽出アルゴリズムを用いれば、同一の認識率を有する 1000時間の精製されたコーパスを約4分の1の費用だけで速い時期内に作り上げることができる。
【0123】
したがって、本発明の実施例による半自動精製音声データ抽出アルゴリズムを用いて精製されたコーパスを生成するための作業時間と費用を大きく低減可能な効果がある。
【0124】
動画(音声データを含む)が提供される場合、すなわち、講演、会議などの場合、字幕まで提供される場合は希である。
【0125】
その理由は、リアルタイム音声認識機の認識率が85%程度にとどまるからである。
【0126】
リアルタイムに字幕を提供する場合は認識率96%以上でなければならず、速記者の力を借りなければならないため、費用が多くかかる問題点がある。
【0127】
この状況で、一部の重要な会議などは会議録を残すために、後で(非リアルタイムに)別途にテキストを作る作業をする。
【0128】
地方議会などで「再度見る」サービスを支援する際は字幕の入った動画を支援する場合が多いが、これは動画とすでに作っておいたテキストとを混合させる技術を活用する。
【0129】
この時、動画の場面に合わせてテキストを同期化させる技術とともに音声認識技術が重要であるが、1つの動画に該当する字幕を手動で生成するためには多くの時間と高い費用がかかる。
【0130】
本発明の実施例による精製された音声データとテキストで学習された音声認識機(STT)を用いる場合、音声認識率が改善されて自動でほとんどの字幕の生成が可能で、開発費用が節減可能な効果がある。
【0131】
一方、本発明の実施例による音声認識のための半自動精製-音声データ抽出および転写データ生成方法は、コンピュータシステムで実現されるか、または記録媒体に記録される。コンピュータシステムは、少なくとも1つ以上のプロセッサと、メモリと、ユーザ入力装置と、データ通信バスと、ユーザ出力装置と、ストレージとを含むことができる。前述したそれぞれの構成要素は、データ通信バスを介してデータ通信をする。
【0132】
コンピュータシステムは、ネットワークにカップリングされたネットワークインターフェースをさらに含むことができる。プロセッサは、中央処理装置(central processing unit(CPU))であるか、あるいはメモリおよび/またはストレージに格納された命令語を処理する半導体装置であってもよい。
【0133】
メモリおよびストレージは、多様な形態の揮発性あるいは不揮発性記憶媒体を含むことができる。例えば、メモリは、ROMおよびRAMを含むことができる。
【0134】
したがって、本発明の実施例による音声認識のための半自動精製-音声データ抽出および転写データ生成方法は、コンピュータで実行可能な方法で実現できる。本発明の実施例による音声認識のための半自動精製-音声データ抽出および転写データ生成方法がコンピュータ装置で行われる時、コンピュータで読取可能な命令語が本発明による音声認識のための半自動精製-音声データ抽出および転写データ生成方法を行うことができる。
【0135】
一方、上述した本発明による音声認識のための半自動精製-音声データ抽出および転写データ生成方法は、コンピュータで読込める記録媒体にコンピュータが読込めるコードとして実現されることが可能である。コンピュータが読取可能な記録媒体としては、コンピュータシステムによって解読できるデータが記憶されたすべての種類の記録媒体を含む。例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、磁気テープ、磁気ディスク、フラッシュメモリ、光データ記憶装置などがあり得る。また、コンピュータで読取可能な記録媒体は、コンピュータ通信網で連結されたコンピュータシステムに分散して、分散方式で読込めるコードとして記憶され実行される。
図1
図2
図3
図4
図5
図6
図7