(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6802005
(24)【登録日】2020年11月30日
(45)【発行日】2020年12月16日
(54)【発明の名称】音声認識装置、音声認識方法及び音声認識システム
(51)【国際特許分類】
G10L 15/16 20060101AFI20201207BHJP
【FI】
G10L15/16
【請求項の数】36
【全頁数】21
(21)【出願番号】特願2016-161319(P2016-161319)
(22)【出願日】2016年8月19日
(65)【公開番号】特開2017-40919(P2017-40919A)
(43)【公開日】2017年2月23日
【審査請求日】2019年4月4日
(31)【優先権主張番号】10-2015-0117422
(32)【優先日】2015年8月20日
(33)【優先権主張国】KR
(73)【特許権者】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】崔 喜 烈
(72)【発明者】
【氏名】洪 錫 ▲じん▼
【審査官】
大野 弘
(56)【参考文献】
【文献】
国際公開第2008/004666(WO,A1)
【文献】
特開2000−099087(JP,A)
【文献】
国際公開第2004/075168(WO,A1)
【文献】
Alex Graves, et al.,Speech Recognition with deep recurrent neural networks,IEEE International Conference on Acoustic, Speech and Signal Processing,IEEE,2013年 5月26日,2013,pp. 6645-6649
【文献】
Jan Chorowski, et al.,End-to-end Continuous Speech Recognition using Attention-based Recurrent NN: First Results,Deep Learning and Representation Learning Workshop: NIPS 2014,2014年12月12日,pp1−10,URL,https://arxiv.org/pdf/1412.1602.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/16
(57)【特許請求の範囲】
【請求項1】
音響モデルを利用して音声信号に対する第1言語認識単位の第1認識結果を生成する第1認識部;
言語モデルを利用して音声信号に対する第2言語認識単位の第2認識結果を出力する第2認識部;および
前記音響モデルと前記言語モデルと一つのネットワークに統合されて構築された統合モデルを使用して、前記第1認識結果および第2認識結果を統合して前記音声信号に対する前記第2言語認識単位の最終認識結果を生成し、前記言語モデルに前記最終認識結果を反映する結合部を含む、音声認識装置。
【請求項2】
前記第2認識部は、
前記最終認識結果を反映した言語モデルを使用して、前記第2言語認識単位で次の音声信号に対する第2認識結果を生成し、
前記結合部は、
前記次の音声信号に対する最終認識結果として、前記音響モデルによって生成された前記次の音声信号の第1認識結果と前記次の音声信号の第2認識結果を結合する、請求項1に記載の音声認識装置。
【請求項3】
前記音響モデルは注意集中メカニズム基盤モデルであり、前記第1認識結果は言語認識単位に対するCTC(connectionist temporal classification)に基づいていない、前記音声信号の前記言語認識単位に対する確率を表わし、
前記第2認識結果は前記音声信号に対して認識された言語認識単位間の時間的連結性に基づいた確率を表わす、請求項1又は2に記載の音声認識装置。
【請求項4】
前記第1言語認識単位は前記第2言語認識単位と同じ類型である、請求項1ないし3のうちの何れか1項に記載の音声認識装置。
【請求項5】
前記第1認識部は、
第1音響モデルを使用して前記第1言語認識単位で前記音声信号の認識結果を生成し、前記第1言語認識単位で前記音声信号の前記認識結果が提供された第2音響モデルを使用して前記第2言語認識単位で前記音声信号の前記第1認識結果を生成する、請求項1ないし4のうち何れか1項に記載の音声認識装置。
【請求項6】
前記第1認識結果および第2認識結果は前記第1および第2言語認識単位に対するそれぞれの確率情報または状態情報を含む、請求項1ないし5のうち何れか1項に記載の音声認識装置。
【請求項7】
前記結合部は
前記第1認識結果および第2認識結果を統合モデルに入力し、前記統合モデルの結果は最終認識結果である、請求項1ないし6のうち何れか1項に記載の音声認識装置。
【請求項8】
前記第1認識部、第2認識部および統合モデルは前記音響モデルの出力に該当する神経網のノードおよび前記言語モデルの出力に該当する前記神経網のノードが前記統合モデルの入力に該当する前記神経網の各ノードに連結するために構成され、同じ神経網で表現される、請求項7に記載の音声認識装置。
【請求項9】
前記神経網は、
前記言語モデルの入力に該当する前記神経網のノードに前記最終認識結果を提供する前記統合モデルの出力に該当する前記神経網のノードに連結されるように構成された、請求項8に記載の音声認識装置。
【請求項10】
前記統合モデルの出力に該当する前記神経網のノードの個数は前記言語モデルに入力に該当する前記神経網のノードの個数に依存する、請求項9に記載の音声認識装置。
【請求項11】
前記神経網は逆伝播学習(back propagation learning)アルゴリズムを含む学習アルゴリズムに基づいて一つの学習過程に沿って学習されるように構成される、請求項9に記載の音声認識装置。
【請求項12】
前記神経網は、
少なくとも前記音響モデルおよび前記言語モデルに対し、学習データを使用して学習過程に沿って学習されるように構成され、
前記学習過程は前記音響モデル、前記言語モデルおよび前記統合モデルを同時に学習する、請求項8に記載の音声認識装置。
【請求項13】
前記第1認識部は
注意集中(attention)メカニズム基盤の神経網解釈を遂行して前記第1言語認識単位の第1認識結果を決定する、請求項1ないし12のうち何れか1項に記載の音声認識装置。
【請求項14】
音響モデルを利用して音声信号に対して第1言語認識単位の第1認識結果を生成する段階;
言語モデルを利用して音声信号に対して第2言語認識単位の第2認識結果を出力する段階;
前記音響モデルと前記言語モデルと一つのネットワークに統合されて構築された統合モデルを使用して、前記第1認識結果および第2認識結果を統合して前記音声信号に対する前記第2言語認識単位の最終認識結果を生成する段階;および
前記言語モデルに前記最終認識結果を反映する段階を含む、音声認識方法。
【請求項15】
前記第1言語認識単位は前記第2言語認識単位と同じ類型である、請求項14に記載の音声認識方法。
【請求項16】
前記第1認識結果を生成する段階は、
第1音響モデルを使用して前記第1言語認識単位で前記音声信号の認識結果を生成する段階および、前記第1言語認識単位で前記音声信号の認識結果が提供された第2音響モデルを使用して前記第2言語認識単位で前記音声信号の前記第1認識結果を生成する段階を含む、請求項14又は15に記載の音声認識方法。
【請求項17】
前記第1認識結果および第2認識結果は前記第1言語認識単位および第2言語認識単位に対するそれぞれの確率情報または状態情報を含む、請求項14ないし16のうち何れか1項に記載の音声認識方法。
【請求項18】
前記最終認識結果を生成する段階は
前記第1認識結果および第2認識結果を統合モデルに入力し、前記統合モデルの結果は最終認識結果である、請求項14ないし17のうち何れか1項に記載の音声認識方法。
【請求項19】
前記音響モデル、言語モデルおよび統合モデルは、前記音響モデルの出力に該当する神経網のノードおよび言語モデルの出力に該当する前記神経網のノードは前記統合モデルの入力に該当する前記神経網のノードにそれぞれ連結するために構成され、同じ神経網で表現される、請求項18に記載の音声認識方法。
【請求項20】
前記神経網は、
前記言語モデルの入力に該当する前記神経網のノードに前記最終認識結果を提供する前記統合モデルの出力に該当する前記神経網のノードに連結されるように構成された、請求項19に記載の音声認識方法。
【請求項21】
前記統合モデルの出力に該当する前記神経網のノードの個数は前記言語モデルに入力に該当する前記神経網のノードの個数に依存する、請求項19に記載の音声認識方法。
【請求項22】
前記神経網は少なくとも前記音響モデルおよび言語モデルに対し、逆伝播学習(back propagation learning)アルゴリズムを含む学習アルゴリズムに基づいて一つの学習過程に沿って学習されるように構成される、請求項19に記載の音声認識方法。
【請求項23】
前記神経網は
学習データを使用して学習過程に沿って学習されるように構成され、
前記学習過程は前記音響モデル、前記言語モデルおよび前記統合モデルを同時に学習する、請求項19に記載の音声認識方法。
【請求項24】
前記第1認識結果および前記第2認識結果を生成する以前に、
学習データを使用して学習過程に沿って前記音響モデル、前記言語モデルおよび前記統合モデルを同時に学習する段階をさらに含む、請求項18に記載の音声認識方法。
【請求項25】
前記第1認識結果を生成する段階は
注意集中(attention)メカニズム基盤の神経網解釈を遂行して前記第1言語認識単位の第1認識結果を決定する、請求項14に記載の音声認識方法。
【請求項26】
第1音響モデルを利用して音声信号に対する第1言語認識単位の認識結果を生成し、前記第1言語認識単位で前記音声信号の前記認識結果が提供された第2音響モデルを利用して、前記第1言語認識単位の認識結果に対する第2言語認識単位の第1認識結果を生成する第1認識部;
言語モデルを利用して単語別第2認識結果を生成する第2認識部;および
前記第1および第2音響モデルと前記言語モデルと一つのネットワークに統合されて構築された統合モデルを使用して、第1前記第1認識結果および第2認識結果を統合して前記音声信号に対して最終認識結果を生成する結合部を含む、音声認識装置。
【請求項27】
前記結合部は
第1認識結果および第2認識結果を統合モデルに入力し、前記統合モデルの結果は最終認識結果である、請求項26に記載の音声認識装置。
【請求項28】
前記第1認識部、第2認識部および統合モデルは前記第2音響モデルの出力に該当する神経網のノードおよび前記言語モデルの出力に該当する前記神経網のノードは前記統合モデルの入力に該当する前記神経網の各ノードに連結するために構成され、同じ神経網で表現される、請求項27に記載の音声認識装置。
【請求項29】
音響モデルおよび第1言語認識単位を利用して音声信号の第1認識結果を生成する第1認識部;
言語モデルを利用して第2言語認識単位で音声信号の第2認識結果を生成する第2認識部;および
前記第2言語認識単位で前記音声信号の最終認識結果を生成して前記言語モデルに反映するための最終認識結果を提供する前記音響モデルと前記言語モデルと一つのネットワークに統合されて構築された統合モデルを具現するように構成された神経網を使用して、前記第1認識結果および前記第2認識結果を結合する、音声認識システム。
【請求項30】
前記音響モデルおよび言語モデルは独立した学習過程を使用してあらかじめ学習されたモデルであり、前記統合モデルは前記あらかじめ学習された音響モデルおよび言語モデルと学習データを使用して前記言語モデルをさらに学習させるために前記言語モデルに最終認識結果を反映する学習過程を使用して学習されたモデルである、請求項29に記載の音声認識システム。
【請求項31】
使用者の音声を獲得し、前記獲得された音声に基づいて音声信号を生成する音声受信部;
前記音声信号に対する発音を考慮した音響モデルの結果および前記音声信号の言語単位の連結性を考慮した言語モデルの結果を第1および第2音響モデルと前記言語モデルと一つのネットワークに統合されて構築された統合モデルに提供し、前記音声信号の最終認識結果として統合モデルの結果を出力する一つ以上のプロセッサ中の第1プロセッサを含む音声認識部;および
所定動作を遂行し、前記出力された最終認識結果に基づいて前記所定動作中の特定動作を遂行する一つ以上のプロセッサ中の第2プロセッサを含む、音声認識装置。
【請求項32】
前記音声認識部は前記言語モデルを学習させるために前記最終認識結果を前記言語モデルに反映する、請求項31に記載の音声認識装置。
【請求項33】
前記第1プロセッサおよび第2プロセッサは一つ以上のプロセッサの中で同じプロセッサである、請求項31又は32に記載の音声認識装置。
【請求項34】
前記音声認識部の前記音響モデル、言語モデルおよび統合モデルは少なくとも前記音響モデルおよび言語モデルに対して逆伝播学習(back propagation learning)アルゴリズムを含む学習アルゴリズムを利用して一つの学習過程に沿って学習されるように構成された同じ神経網で表現される、請求項31ないし33のうち何れか1項に記載の音声認識装置。
【請求項35】
前記第1プロセッサは
前記音声認識装置のスピーカーを通した最終認識結果を聴覚的にまたは装置のディスプレイを通したテキスト形態で出力、最終認識結果を他の言語に翻訳および、前記第2プロセッサを通じて特定動作を遂行するように制御するための命令語の処理中の少なくとも一つを遂行する、請求項31ないし34のうち何れか1項に記載の音声認識装置。
【請求項36】
請求項14ないし25のうち何れか1項に記載の音声認識方法を、音声認識装置のコンピュータに実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声認識技術に関するものである。
【背景技術】
【0002】
電子機器またはサーバーの一般的な音声認識エンジンは音響モデル(Acoustic Model)、言語モデル(Language Model)およびデコーダー(Decoder)で構成される。静的な音響モデルは発音および発音の連結性に基づいて入力された音声信号に対して音素/発音確率を出力することができる。静的であるか決定された言語モデルは独立的に学習されるかこれと直接連結に基づいて音素/発音/単語/文章などに関する情報を独立的に出力することができる。デコーダーは音響モデルおよび言語モデルの出力に基づいて音響モデルおよび言語モデルの出力を解釈して入力された音声信号に対して最終認識結果を返還する。一般的に、従来はGMM(Gaussian Mixture Model)音響モデルが主に使用されていたが、最近ではDNN(Deep Neural Network)音響モデルが登場して音声認識性能が向上した。言及した通り、このような音声認識技術においては、音響および言語モデルを独立的に学習して使用している。また、音響モデルには一般的にビタビ(Viterbi)形態のデコーディング方式を用いる。
【発明の概要】
【課題を解決するための手段】
【0003】
一態様に係る音声認識装置は、音響モデルを利用して音声信号に対する第1言語認識単位の第1認識結果を生成する第1認識部言語モデルを利用して音声信号に対する第2言語認識単位の第2認識結果を出力する第2認識部および第1認識結果および第2認識結果を統合して音声信号に対する第2言語認識単位の最終認識結果を生成し、言語モデルに最終認識結果を反映する結合部を含むことができる。
【0004】
ここで、第2認識部は最終認識結果を反映した言語モデルを使用して、第2言語認識単位で次の音声信号に対する第2認識結果を生成し、結合部は次の音声信号に対する最終認識結果として、音響モデルによって生成された次の音声信号の第1認識結果と次の音声信号の第2認識結果を結合することができる。
【0005】
また、音響モデルは注意集中メカニズム基盤モデルであり、第1認識結果は言語認識単位に対するCTC(connectionist temporal classification)に基づいていない、音声信号の言語認識単位に対する確率を表わし、第2認識結果は音声信号に対して認識された言語認識単位間の時間的連結性に基づいた確率を表わすことができる。
【0006】
このとき、第1言語認識単位は第2言語認識単位と同じ類型であり得る。
【0007】
一方、第1認識部は、第1音響モデルを使用して第1言語認識単位に音声信号の認識結果を生成し、第1言語認識単位に音声信号の認識結果が提供された第2音響モデルを使用して第2言語認識単位に音声信号の第1認識結果を生成することができる。
【0008】
第1認識結果および第2認識結果は第1および第2言語認識単位に対するそれぞれの確率情報または状態情報を含むことができる。
【0009】
結合部は第1認識結果および第2認識結果を統合モデルに入力し、統合モデルの結果は最終認識結果であり得る。
【0010】
ここで第1認識部、第2認識部および統合モデルは、音響モデルの出力に該当する神経網のノードおよび言語モデルの出力に該当する神経網のノードが統合モデルの入力に該当する神経網の各ノードに連結するために構成されて同じ神経網で表現され得る。
【0011】
このとき、神経網は、言語モデルの入力に該当する神経網のノードに最終認識結果を提供する統合モデルの出力に該当する神経網のノードに連結されるように構成され得る。
【0012】
統合モデルの出力に該当する神経網のノードの個数は言語モデルの入力に該当する神経網のノードの個数に依存することができる。
【0013】
神経網は逆伝播学習(back propagation learning)アルゴリズムを含む学習アルゴリズムに基づいて一つの学習過程に沿って学習されるように構成され得る。
【0014】
このとき、神経網は、少なくとも音響モデルおよび言語モデルに対し、学習データを使用して学習過程に沿って学習されるように構成され、学習過程は音響モデル、言語モデルおよび統合モデルを同時に学習することができる。
【0015】
第1認識部は注意集中(attention)メカニズム基盤の神経網解釈を遂行して第1言語認識単位の第1認識結果を決定することができる。
【0016】
一態様に係る音声認識方法は、音響モデルを利用して音声信号に対して第1言語認識単位の第1認識結果を生成する段階言語モデルを利用して音声信号に対して第2言語認識単位の第2認識結果を出力する段階、第1認識結果および第2認識結果を統合して音声信号に対する第2言語認識単位の最終認識結果を生成する段階および言語モデルに最終認識結果を反映する段階を含むことができる。
【0017】
このとき、第1言語認識単位は第2言語認識単位と同じ類型であり得る。
【0018】
第1認識結果を生成する段階は、第1音響モデルを使用して第1言語認識単位で音声信号の認識結果を生成する段階および、第1言語認識単位で音声信号の認識結果が提供された第2音響モデルを使用して第2言語認識単位で音声信号の第1認識結果を生成する段階を含むことができる。
【0019】
第1認識結果および第2認識結果は第1言語認識単位および第2言語認識単位に対するそれぞれの確率情報または状態情報を含む段階を含むことができる。
【0020】
最終認識結果を生成する段階は第1認識結果および第2認識結果を統合モデルに入力し、統合モデルの結果は最終認識結果であり得る。
【0021】
音響モデル、言語モデルおよび統合モデルは、音響モデルの出力に該当する神経網のノードおよび言語モデルの出力に該当する神経網のノードは統合モデルの入力に該当する神経網のノードにそれぞれ連結するために構成されて同じ神経網で表現され得る。
【0022】
神経網は、言語モデルの入力に該当する神経網のノードに最終認識結果を提供する統合モデルの出力に該当する神経網のノードに連結されるように構成され得る。
【0023】
統合モデルの出力に該当する神経網のノードの個数は言語モデルの入力に該当する神経網のノードの個数に依存することができる。
【0024】
また、神経網は少なくとも音響モデルおよび言語モデルに対し、逆伝播学習(back propagation learning)アルゴリズムを含む学習アルゴリズムに基づいて一つの学習過程に沿って学習されるように構成され得る。
【0025】
ここで神経網は学習データを使用して学習過程に沿って学習されるように構成され、学習過程は音響モデル、言語モデルおよび統合モデルを同時に学習することができる。
【0026】
第1認識結果および第2認識結果を生成する前に、学習データを使用して学習過程に沿って音響モデル、言語モデルおよび統合モデルを同時に学習する段階をさらに含むことができる。
【0027】
第1認識結果を生成する段階は注意集中(attention)メカニズム基盤の神経網解釈を遂行して言語認識単位の第1認識結果を決定することができる。
【0028】
一態様に係る音声認識装置は、第1音響モデルを利用して音声信号に対する第1言語認識単位の認識結果を生成し、第1言語認識単位に音声信号の認識結果が提供された第2音響モデルを利用して第1言語認識単位の認識結果に対する第2言語認識単位の第1認識結果を生成する第1認識部、言語モデルを利用して単語別第2認識結果を生成する第2認識部および第1認識結果および第2認識結果を統合して音声信号に対して最終認識結果を生成する結合部を含むことができる。
【0029】
ここで、結合部は第1認識結果および第2認識結果を統合モデルに入力し、統合モデルの結果は最終認識結果であり得る。
【0030】
第1認識部、第2認識部および統合モデルは第2音響モデルの出力に該当する神経網のノードおよび言語モデルの出力に該当する神経網のノードは統合モデルの入力に該当する神経網の各ノードに連結するために構成されて同じ神経網で表現され得る。
【0031】
一態様に係る音声認識システムは、音響モデルおよび第1言語認識単位を利用して音声信号の第1認識結果を生成する第1認識部、言語モデルを利用して第2言語認識単位で音声信号の第2認識結果を生成する第2認識部および第2言語認識単位で音声信号の最終認識結果を生成して言語モデルに反映するための最終認識結果を提供する統合モデルを具現するように構成された神経網を使用して、第1認識結果および第2認識結果を結合することができる。
【0032】
音響モデルおよび言語モデルは独立した学習過程を使用してあらかじめ学習されたモデルであり、統合モデルはあらかじめ学習された音響モデルおよび言語モデルと学習データを使用し、言語モデルをさらに学習させるために言語モデルに最終認識結果を反映する学習過程を使用して学習されたモデルであり得る。
【0033】
一態様に係る音声認識装置は、使用者の音声を獲得し、獲得された音声に基づいて音声信号を生成する音声受信部、音声信号に対する発音を考慮した音響モデルの結果および音声信号の言語単位の連結性を考慮した言語モデルの結果を統合モデルに提供し、音声信号の最終認識結果として統合モデルの結果を出力する一つ以上のプロセッサ中の第1プロセッサを含む音声認識部および所定動作を遂行し、出力された最終認識結果に基づいて所定動作中の特定動作を遂行する一つ以上のプロセッサ中の第2プロセッサを含むことができる。
【0034】
また、音声認識部は言語モデルを学習させるために最終認識結果を言語モデルに反映することができる。
【0035】
第1プロセッサおよび第2プロセッサは一つ以上のプロセッサの中で同じプロセッサであり得る。
【0036】
音声認識部の音響モデル、言語モデルおよび統合モデルは少なくとも音響モデルおよび言語モデルに対して逆伝播学習(back propagation learning)アルゴリズムを含む学習アルゴリズムを利用して一つの学習過程に沿って学習されるように構成された同じ神経網で表現され得る。
【0037】
ここで、装置のスピーカーを通した最終認識結果を聴覚的にまたは装置のディスプレイを通したテキスト形態で出力、最終認識結果を他の言語に翻訳および、第2プロセッサを通じて特定動作を遂行するように制御するための命令語の処理中の少なくとも一つを遂行することができる。
【図面の簡単な説明】
【0038】
【
図1】一実施例に係る音声認識装置のブロック図である。
【
図2】
図1の音声認識装置が遂行する音声認識を説明するための図面である。
【
図3】他の実施例に係る音声認識装置のブロック図である。
【
図4】一実施例に係る音声認識方法のフローチャートである。
【
図5】他の実施例に係る音声認識方法のフローチャートである。
【
図6】一実施例に係る音声認識装置のブロック図である。
【発明を実施するための形態】
【0039】
その他の実施例の具体的な事項は詳細な説明および図面に含まれている。記載された技術の利点および特徴、そしてそれらを達成する方法は、図面とともに詳細に後述されている実施例を参照すれば明確となるであろう。明細書全体にわたって同一参照符号は同一構成要素を指し示す。
【0040】
以下、音声認識装置および方法の実施例を図面を参照して詳しく説明する。
【0041】
図1は一実施例に係る音声認識装置のブロック図である。
【0042】
図1を参照すれば、音声認識装置100は、第1認識部110、第2認識部120および結合部130を含むことができる。
【0043】
第1認識部110は音響モデル(AM)を利用して入力された音声信号に対する言語認識単位の第1認識結果を出力することができる。このとき、これは一つの実施例であり、他の実施例に代替されて使用され得ることに注意すべきであり、音声信号は音声信号から特徴(feature)抽出前処理過程を経て音声フレーム(例:一秒当たり100フレーム)に変換されて音声認識装置100に入力され得る。
【0044】
ここで、音響モデルに入力され得る音声信号に対する参照として、例えば、音声信号はデジタル形態に変換され、音声信号は音声フレームに変換され、音声信号は他の前処理過程を有することができ、独立した音声フレーム(またはより小さい単位)またはこのような異なる前処理の結果である他の独立した音声フレームのように任意の音声信号の入力に対して考慮されなければならない。同じように、これは一例であり、以前の音声信号、現在の音声信号または次の音声信号は一つ以上の音声フレームを参照して考慮されなければならず、現在の音声フレームまたは次の音声フレームはそれぞれ認識動作の時間的流れを表わし、将来の認識結果は現在および/または以前の認識結果に依存するか現在の認識動作は以前の認識結果に依存することができる。
【0045】
さらに、ここで言語認識単位とは、言語単位(linguistic unit)例えば、音素、音節、形態素、句、文章、段落などのような言語構造の基本単位の中からあらかじめ設定されたいずれか一つの認識する単位を意味する。ここで、音素、音節、形態素、句、単語、文章、段落などは単に例に過ぎず、言語単位は互いに異なる類型と見なされ得る。
【0046】
このとき、言語単位は各言語ごとに異なり得るため、あらかじめ設定される言語認識単位も各言語の知られている特性に基づいて設定され得る。追加的に、ここで一つの言語単位の類型はあらかじめ定められた階層構造を有する他の言語単位の類型に対応される他の言語単位の類型より大きいものであるといえる。あらかじめ定められた階層の一例示として、音節言語単位類型は音素単位類型より大きく、形態素言語単位類型は音節言語単位類型より大きく、句単位言語類型は形態素言語単位類型より大きく、単語言語単位類型は句言語単位類型より大きく、文章言語単位類型は単語言語単位類型より大きく、段落言語単位類型は文章言語単位類型より大きいことがある。
【0047】
一実施例によれば、言語認識単位は
図1に図示された通り、アルファベットおよび/または音節単位であり得る。以下、必要に応じてアルファベット/音節を使用して説明するがこれは単に説明の便宜を図るためのものに過ぎず、本実施例においてその言語認識単位がアルファベット/音節単位に限定されるものではない。
【0048】
第1認識部110は前処理過程を通じて変換された音声フレームを音響モデル(AM)に入力して音声フレームに対する特定言語認識単位の第1認識結果を出力することができる。このとき、第1認識結果は音声フレームに対してその言語認識単位、例えば、アルファベット/音節別確率や状態情報を含むことができる。例えば、第1認識結果は一つ以上の他の言語認識単位類型それぞれに対する一つ以上の言語認識単位に対応する確率および識別情報を含むことができる。
【0049】
一例によれば、一般的に音響モデル(AM)は入力された各音声フレームに対して言語認識単位の音素別確率を出力することができる。本実施例によれば、音響モデル(AM)は神経網(Neural Network)を基盤とすることができ、神経網基盤の解釈(decoding)を通じてアルファベット/音節単位で確率や状態情報を出力することができる。ここで、神経網(Neural Network)はDNN(Deep Neural Network)、RNN(Recurrent Neural Network)、BRDNN(Bidirectional Recurrent Deep Neural Network)などを含むことができるがこれに制限されない。
【0050】
このとき、神経網基盤の解釈は注意集中技法(Attention Mechanism)を含むことができ、注意集中技法(Attention Mechanism)基盤で入力音声データの一つ以上の音響モデル解釈を表わす神経網を通じて音声フレームに対してアルファベットまたは音節単位の確率を含めて、アルファベットや音節単位で認識結果を出力することができる。注意集中技法とは、与えられたデータ全体を一度に見るのではなく一部を選択しながら順次的に見ることをいう。例えば、イメージが与えられると、一度にイメージ全体を認識するよりは一回に一ケ所ずつ順に見ることをいう。注意集中(Attention)基盤の神経網解釈を使うことによってセグメンテーション(segmentation)技法を適用する際に発生する情報の損失を最小化することができる。
【0051】
第2認識部120は言語モデル(LM)を利用してその言語認識単位で第2認識結果を出力することができる。このとき、第2認識結果はその言語認識単位、例えば、アルファベット/音節別確率情報や状態情報を含むことができる。例えば、第2認識結果は一つ以上の他の言語認識単位類型それぞれに対する一つ以上の言語認識単位に対応する確率および識別情報を含むことができる。
【0052】
言語モデル(LM)は以前の音素/アルファベット/音節/単語など(例えば、以前の音声データの認識動作に対応する最終認識結果に基づいて)の連結関係をモデリングして、現在の音声データに対する現在の音素/アルファベット/音節/単語などに関する情報を生成したり出力することができる。本実施例によれば、言語モデル(LM)は神経網(Neural Network)を基盤とし、音響モデル(AM)と同様にアルファベット/音節単位で確率または状態情報を出力することができる。
【0053】
言語モデルは例えば、結合部130の以前の最終言語単位認識に対する言語単位情報が提供され得るため、言語モデルは現在の言語単位に対する確率を提供する一つ以上の言語単位類型のようなシーケンスをモデリングすることができる。一例によれば、音声認識装置は結合部130の以前の最終認識結果をバッファリングするメモリーを含むことができる。これは一例であって、結合部130または第2認識部は結合部130とともに最終認識結果をバッファリングするために一つ以上の処理装置およびメモリーを表わすことができる。例えば、結合部130が情報を保存している場合、結合部130は第2認識部120に以前の結果情報を同時に提供することができ、これは新しいまたは次の入力音声信号に動作すると知られている第1認識部110、または第2認識部120のように独立的に作動し、自動的に言語単位の確率を速やかに生成したりまたは結合部130は第1認識部110の作動から独立的な最終認識結果を導き出した後で提供することもできるのである。結合部130は第1認識結果および第2認識結果を統合して音声信号に対して言語認識単位で最終認識結果を出力することができる。例えば、結合部130はあらかじめ構築された統合モデル(Unified Model)に第1認識結果および第2認識結果を入力し、その例としてアルファベット/音節単位であらかじめ構築された統合モデルの出力または結果として最終認識結果を提供することができる。
【0054】
これと類似して、統合モデルは音響モデル(AM)および言語モデル(LM)と同様に神経網(Neural Network)を基盤とすることができる。追加的な実施例によれば、音響モデル(AM)、言語モデル(LM)および統合モデルは一つのネットワークによって表現され、すなわち、一つ(例:一つの神経網)の神経網で統合されて構築され得る。例えば、一例によれば、音響モデル(AM)の出力に該当する神経網のノードと言語モデル(LM)の出力に該当する神経網のノードは統合モデルの入力に該当する神経網のノードに連結されて一つの神経網で形成され得る。例えば、統合モデルの入力に該当する神経網のノードの個数と音響モデル(AM)および言語モデル(LM)の出力に該当するそれぞれの神経網のノードの個数を合わせた個数は同一であり得る。
【0055】
結合部130は音声信号に対してアルファベット/音節単位の最終認識結果が出力されると、例えば、音声フレームに対する出力されたアルファベット/音節別確率や状態情報が決定されると、出力結果を再び言語モデル(LM)に反映することができる。ここで、言語モデルは一つ以上の音響モデルおよび言語モデルのフレームに対する以前の統合モデル結果から認識結果を反映した動的な学習モデルであり得、これは現在の音声フレームに対する認識結果を強化するものである。このために、前述した一つの神経網は、統合モデルの出力に該当する神経網のノードの個数と言語モデル(LM)の入力で表現される神経網のノードの個数が同一またはこれに依存するように構築され得るか、このような言語モデルの入力で表現される神経網のノードの個数は統合モデルの出力で表れる神経網のノードの個数に依存することができる。
【0056】
このように、以前の認識結果に基づいて、結合部130は以前の音声フレームに対して出力された最終認識結果を言語モデルに反映するか反映されるようにすることによって、第2認識部120が以前の音声フレームに対する最終認識結果を考慮して現在の音声フレームに対する現在のアルファベット/音節別確率や状態情報を計算して出力するようにすることができる。一例によれば、第1認識部110は第1認識結果を生成するために音響モデルに音声信号の現在のフレームを入力し、第2認識部は第2認識結果を生成するために言語モデルに結合部130により以前のフレームの最終認識結果を入力することができる。
【0057】
一方、音響モデル(AM)、言語モデル(LM)および統合モデルは、すべて所定言語認識単位で確率や状態情報を出力するようにあらかじめ学習され得る。このとき、音響モデル(AM)、言語モデル(LM)および統合モデルは、一つの目的関数で逆伝播学習(back propagation learning)アルゴリズムなどの学習アルゴリズムを利用して一つの学習過程で統合学習またはトレーニングされ得る。例えば、一例によれば、音響モデルおよび言語モデルは同時に学習されることを含む。例えば、同じ学習データおよび言語モデルによって次の認識結果を考慮した言語モデルに対する最終認識結果を反映した統合モデルをさらに含むデータに基づく実施例を含むことができる。このように、すべての統合モデル、言語モデルおよび音響モデルは単一学習動作を通じて学習され得る。ただし、これに限定されず、一例によれば、音響モデル(AM)および言語モデル(LM)をそれぞれ別途事前学習を遂行した後、その結果に基づいて統合モデルまで統合学習することが可能である。例えば、同一または互いに異なる訓練データに基づいて独立的に学習されるか、統合モデルを結合することをさらに含めて、言語モデルおよび音響モデルの訓練結果に基づいてこれとともに訓練され得る。「訓練」は「トレーニング」等と言及されてもよい。
【0058】
開示された実施例によれば、音響モデル(AM)および言語モデル(LM)を統合学習することによって、音響モデルおよび言語モデルをそれぞれ学習した後で結合する場合に比べ、役割を重なることなくモデリングし、自分の役割に忠実となるようにさせて、潜在的に、より正確に音声認識をすることができる。例えば、一例によれば、以前の音響モデルは言語単位間の連結性が明示的に考慮されたCTC(connectionist temporal classification)を通じて具現され得るが、一例によれば、音響モデルはCTCで遂行されないこともある。例えば、音響モデルは入力音声信号の内在された言語単位の発音だけを考慮して動作することもある。ここで、いくつかの内在された連結情報は音響モデルによって考慮され得、このような内在された連結情報は言語単位の類型に依存して音響モデルが認識するように設定することができる。反面、一例によれば、言語モデルは明示的な連結情報または言語単位間の連結性に依存することができる。
【0059】
図2は
図1の音声認識装置100が遂行する音声認識を説明するための図面である。ここで、一例として、使用者によって以前に録音されたような、受信されたか獲得された声や音声は声に対応される音声信号(AS)で「My name is Steve」で表現され得る。以下、
図2は
図1の音声認識装置100を参照して説明する。
図2は
図1を制限するものと理解されてはならない。
【0060】
図2を参照すれば、第1認識部110は実際の音声信号(AS)をフレーム単位で音響モデルに入力し、第1認識部110は音声信号の各言語単位を考慮することができ、それぞれの音声フレームに対して音響モデルの結果のような一つ以上の英文アルファベット26字に対する確率情報を出力する。例えば、音声フレームは異なる前処理器または音声受信部、音声信号の言語単位それぞれを通じてセグメンティンすることによって、音声信号の各言語単位は個別音声フレームに分割され得る。また、いくつかの音声フレームは音声信号の一つの言語単位または二つ以上の言語単位が使用され得、音声信号は同じ音声フレームを含むことができる。したがって、一例として、音声信号の各言語単位は別途の音声フレームにセグメントされることができる。第1認識部110の各出力結果は結合部130に入力される。このとき、音響モデルは各言語フレームに対する最も高いアルファベット文字の確率を表わすことができ、それぞれの音声フレームに対して出力された26個のアルファベットに対して確率が最も大きいアルファベットを選択する場合、m、a、i、n、e、i、m、i、s、s、t、i、vとなり得る。したがって、第1認識部110および第2認識部はこのような英文アルファベット26字全部またはそれ以下の確率でそれぞれ出力することができる。各音声フレームに対する音響モデルの最も可能性が高い結果とともに、第1認識部110は各音声フレームに対する状態情報および音響モデルによって決定された最も高い確率認識言語単位に対応される確率を結合部130に提供することができる。
【0061】
音声フレームを考慮すれば、例えば、共有された神経網を通じたり結合部130の提供によって音声認識装置100の共有メモリーを通じて以前の最終認識結果は第2認識部に提供されることが可能であり、第2認識部120は言語モデル(LM)を利用してアルファベットの連結関係を考慮して言語モデルの結果にアルファベット別確率情報を出力し、提供されたアルファベット別確率情報を結合部130に入力することができる。このとき、言語モデル(LM)には以前の音声フレームに対して結合部130で生成された最終認識結果が反映されているため、以前の音声フレームに対する最終認識結果のアルファベットと関連して現在の音声フレームに対する正確な認識結果を出力することができる。
【0062】
結合部130は、第1認識部110により出力されるか生成可能な最初の音声フレームに対する26個のアルファベット別確率情報を統合モデルに入力し、第2認識部110により出力されるか生成可能な最初の音声フレームに対する26個のアルファベット別確率情報を統合モデルに入力して現在の最終認識結果すなわち、最初の音声フレームに一致する確率が最も高いアルファベット「m」を出力することができる。このとき、結合部130は最初の音声フレームに対して出力されたアルファベット「m」と対応される確率情報を言語モデルに反映することができる。
【0063】
このように、音声信号に対して、第1認識部110 で決定される可能性が最も大きい「mai neim is stiv」は、結合部130により第2認識部120の各認識結果が結合部130により順次統合されることによって最終的に「My name is Steve」に対応されて音声信号を正確に認識/理解することができる。
【0064】
図3は他の実施例に係る音声認識装置のブロック図である。
【0065】
図3を参照すれば、音声認識装置300は第1認識部310、第2認識部320および結合部330を含むことができる。
【0066】
第1認識部310は音響モデル(AM)を利用して第1言語認識単位より大きい第2言語認識単位の第1認識結果を出力することができる。このとき、第1言語認識単位および第2言語認識単位は、前述した通り、言語単位(linguistic unit)中のいずれか一つであり、例えば、第1言語認識単位はアルファベット/音節であり、第2言語認識単位はアルファベット/音節より大きい単語であり得る。以下、必要に応じて第1言語認識単位はアルファベット/音節、第2言語認識単位は単語を使用して説明する。ただし、これは説明の便宜を図るためのものに過ぎず、特定言語認識単位が説明される例に限定されるものではない。
【0067】
一実施例によれば、第1認識部310は第1音響モデルおよび第2音響モデルを含むことができる。このとき、第1認識部310は、まず、第1音響モデルを利用して入力された音声信号に対する第1言語認識単位の認識結果を提供することができ、これは一例として、アルファベット別または音節単位の言語単位を含むことができる。また、提供された認識結果を第2音響モデルに入力して第2言語認識単位の第1認識結果を生成することができる。これは、例えば、単語の言語単位を含むことができる。このとき、第1言語認識単位で第1音響モデルの認識結果は、例えば、アルファベット/音節別確率や状態情報を含むことができ、第2言語認識単位で第2音響モデルによる第1認識結果は例えば単語別確率や状態情報を含むことができる。
【0068】
また、二つの音響モデルが順に図示されているが、一例によれば、音響モデルは二等級以上となることができ(または言語モデリングより一等級以上)、これに制限されず、一つ以上活用される音響モデル(または言語モデル)が使われることができる。例えば、互いに異なる言語または方言によるモデルまたは個人化または個人的なモデルのように選択的および/または並列的であり得る。一例によれば、異なる言語認識単位類型の二つの等級の音響モデルの順序に沿って時間解像度(temporal resolution)を順次減少させることができる。また、例示的な二等級の音響モデルは言語認識単位類型の階級を調節してモデリングすることができる。例えば、第2言語認識単位類型は第1言語認識単位類型より大きいこともあるが、これに制限されない。また、一例によれば、音節および語句のように、隣接していない言語単位類型は直ちに順次音響モデリングされ得る。
【0069】
このとき、第1音響モデルおよび第2音響モデルは音声認識装置で一つ以上の神経網によって表現され、第1音響モデルの出力で表現される神経網のノードは第2音響モデルの入力で表現される神経網のノードに連結されて一つの神経網で構築され得る。一例として、第1音響モデルが第1言語認識単位類型の一つの言語単位より少なく表現された音声フレームが提供されると、第1音響モデルの認識結果は第1音響モデルの状態を表わす状態情報を含むことができる。例えば、第1音響モデルは認識動作を完了せず、より多くのフレームは特定言語単位の残りが受信され、第1言語認識単位が決定される。第1音響モデルは第1認識結果を第2音響モデルに出力することができる。第2認識部の第2言語モデルおよび第2音響モデルは、同じように現在認識動作の拡張、フレームまたはデータ、次の信号に対する準備を含む動作の各状態の状態情報を出力することができ、言語単位に対応する認識を完了することができる。
【0070】
前述した通り、神経網により実現される場合、一例によれば、モデルまたは神経網は注意集中メカニズムで具現され得る。例えば、注意集中メカニズムは神経網の上位/次のレベル入力は下位/以前のレベルの出力の要約であり得る。ここで要約は入力の加重値の和を獲得し、加重値は「注意」であり得る。また、一例として、下位レベルの出力は5次元のベクトルであり、下位レベルは時間的順序を通じて7回の間動作/実行される。例えば、7つの順次的な音声フレームに対して、7回目の動作の出力は5x7マトリックスである。ここで「注意」は加重値であって、例えば、7次元のベクトルであり得る。したがって、5次元ベクトルの加重値の和で上位レベルを得ることができる。
【0071】
第2認識部320は以前の認識動作に基づいて以前の音声信号、データまたはフレームに対する最終認識結果が反映された言語モデル(LM)を利用して第2言語認識単位の第2認識結果を出力することができる。このとき、第2言語認識単位の第2認識結果は例えば、最も可能性のある単語に対する確率または他の高い可能性のある単語に対する確率または状態情報を含むことができる。このとき、言語モデル(LM)は神経網で表現されることができ、第2言語認識単位の認識結果を出力するように学習され得る。
【0072】
結合部330は第1認識部310の第1認識結果および第2認識部320の第2認識結果を統合して音声信号、データまたはフレームに対して第2言語認識単位で最終認識結果を出力するように構成され得る。例えば、入力音声信号の各例示単語に対する最終認識結果を生成し、神経網で表れる結合部330はあらかじめ構築された統合モデル(Unified Model)に第1認識結果および第2認識結果を入力して単語別に最終認識結果を出力することができる。
【0073】
一実施例によれば、音響モデル(AM)、言語モデル(LM)および統合モデルは一つの神経網で表現され、統合されて構築され得る。例えば、音響モデル(AM)中の第2音響モデルの出力に該当する神経網のノードと言語モデル(LM)の出力に該当する神経網のノードは統合モデルの入力に該当する神経網のノードに連結されて一つの神経網で形成され得る。他の例によれば、一つ以上の音響モデル、言語モデルおよび/または統合モデルは別途の神経網または統合された神経網によって表現され得る。例えば、一つ以上の各音響モデルは別途の神経網または一つの神経網で結合/統合されて表現されることができ、一つの神経網で統合モデルまたはただ一つの言語モデルの表現と一緒に一つ以上の音響モデルで表現される神経網、残りの統合モデルまたは言語モデルは別途の神経網で、一つ以上の音響モデルは残りの音響モデルが統合されて表現された神経網から別途の神経網によって表現されることができ、言語モデルおよび統合モデルも代替されて使用できること再び告知されることができる。実施例によれば、後述するように、いずれか一つの組合せ、単一または個別神経網のすべてが、一つ以上の特に制御されるか、処理装置、プロセッサまたはコンピュータで構成され得る。また、特に制御されるか構成された処理装置、プロセッサまたはコンピュータは、特殊制御または前述したように非制限的な前処理として、受信されたか獲得された音声の一つ以上の前処理動作を遂行するように構成されるか前処理することができ、代案としてのハードウェアおよび/または一つ以上の特に制御されるか構成された処理装置、プロセッサまたは音声認識装置またはシステムのコンピュータによって具現され得る。
【0074】
このような音声認識システムの実施例において、いずれか一つの組合せ、または単一または個別神経網のすべてが一つ以上のサーバーで一つ以上の特に制御されるか構成された処理装置、プロセッサ、またはコンピュータによって具現されることができ、残りの神経網は一つ以上の特に制御されるか構成された処理装置、プロセッサ、または遠隔コンピュータによって具現されることができ、このような電子装置は命令、検索要請または他の命令語のような使用者の声を獲得したり受信するユーザインタフェースを有し、この電子装置は獲得したり受信された音声を一つ以上のサーバーに伝送するように構成され、一つ以上のサーバーの一つ以上の神経網によって具現された一つ以上の言語モデルおよび一つ以上の音響モデルの出力からまたは一つ以上のサーバーの神経網によって具現された統合モデルの出力サーバーから受信するように構成され得る。電子装置は一つ以上のサーバーの学習された統合モデルに対応して定期的または特定時間に部分的または全体的にアップデートされた統合モデルを含むことができる。例えば、電子装置はこのような一つ以上のサーバーが使用不可能な時、認識動作を遂行できる。この例で、その後、一つ以上のサーバーが使用可能となれば、電子装置は電子装置の統合モデルのある変化をサーバーに通知することができる。同様に、音響モデルおよび言語モデルも電子装置によって統合的に遂行されて具現され得る。例えば、言語および音響モデルは音声を一緒に認識するために共に学習され、共にアップデートされ得る。反面、言語モデルの学習から音響モデルは独立的に学習されるか、他の音響モデルも独立的に訓練されて人為的に系列化された情報に基づいて独立的にアップデートされることが既存の接近方式であった。
【0075】
再び、
図3を参照すれば、結合部330は音声信号に対して最近の音声データ、フレーム、信号に対する単語単位の最終認識結果を出力すれば、最終認識結果を再び言語モデル(LM)に反映することができる。これを通じて、第2認識部320は現在の音声信号に対する反映された最終認識結果を考慮して次の音声信号、音声データ、フレームまたは入力信号または第1認識部310に入力される次の単語別確率や状態情報を計算して出力することができる。このために、前述した一つのネットワーク(例:一つの神経網)は統合モデルの出力に該当する神経網のノードの個数と言語モデル(LM)の入力を表わす神経網のノードの個数が同一となるように構築され得る。
【0076】
一方、前述したように、一実施例は共同でおよび同時に音響モデル(AM)、言語モデル(LM)および統合モデルは逆伝播学習(back propagation learning)アルゴリズムなどの学習または訓練アルゴリズムを活用して一つの学習過程で統合学習/訓練され得る。このとき、一例によれば、統合モデルを学習するのは音声認識装置300が搭載される電子装置で主に使用される単語または句に関する学習データを利用して統合されたモデルに対する学習をなすことができる。ただし、これに限定されず、音声認識装置300は音響モデル(AM)および言語モデル(LM)をそれぞれ別途でまたは独立的に学習を遂行することができ、その後、学習および/または各訓練認識結果に対する加重値、加重比率を誘導および/またはアップデートして統合モデルをアップデートし、一つ以上の音響モデルおよび言語モデルによって提供された統合モデルによる最適な音声認識のためにその学習結果を統合してネットワーク全体に対するアップデートをする学習過程を遂行できる。音響モデルおよび言語モデルが集合的に学習されるか統合モデルとともに集合的または個別的に学習されると、統合モデルは音響モデルおよび言語モデルの加重値を異ならせて提供することができる。例えば、一つ以上の音響モデルの結果は、言語モデルまたは他の音響モデルの結果よりも大きい確信値または信頼度が与えられ得、または言語モデルは他のモデルに比べてさらに大きい確信値または信頼度加重値を有することができる。ここで加重値はモデルの使用および/または学習する間、変更されるか動的または固定され得、言語単位の類型または以前の言語単位の認識が適用されたモデルに基づくことができる。ここで加重値は一つ以上のモデルの結果に異なって適用される一つの加重パラメーターとなることができ、また、理解結果に基づく複合マトリックス加重値となり得る。
【0077】
図4は一実施例に係る音声認識方法のフローチャートである。
図4の音声認識方法は
図1の音声認識装置100により具現され得る。ただし、ここに制限されるものではない。同じように、
図4の音声認識方法は
図1の音声認識装置100を参照して説明する。ただし、これは説明の便宜を図るためのものに過ぎず、これに制限されるものではない。
【0078】
まず、音声認識装置100は音響モデルを利用して音声信号に対する言語認識単位の第1認識結果を出力することができる410。このとき、音声信号から特徴抽出前処理過程を経て音声フレームに変換する過程を含むことができ、音声フレーム単位で音響モデルに入力して第1認識結果を出力することができる。このとき、言語認識単位の第1認識結果は音声フレームに対するアルファベット/音節別確率や状態情報を含むことができる。前述したように、音響モデルはアルファベット別または音節単位の確率または状態情報を提供するように構成される神経網を通じて具現され得る。
【0079】
次いで、音声認識装置100は言語モデルを利用して言語認識単位の第2認識結果を出力することができる420。例えば、第2認識結果はアルファベット/音節別確率情報や状態情報を含むことができる。言語モデルは神経網(Neural Network)を通じて具現されることができ、これは前述したように音響モデル(AM)と同様にアルファベット/音節単位で確率または状態情報を出力することができる。一例によれば、段階420は段階410の開始後に開始され得、段階420は段階410以前に開始されるか、一例により同時に開始されることも可能である。
【0080】
次いで、音声認識装置100は第1認識結果および第2認識結果を統合して音声信号に対して言語認識単位の最終認識結果を出力または生成することができる430。例えば、音響モデルおよび言語モデルを統合/結合した統合モデルを利用して、第1認識結果および第2認識結果を統合し、アルファベット/音節単位で最終認識結果を出力することができる。
【0081】
同じように、統合モデルは音響モデル(AM)および言語モデル(LM)と同様に神経網(Neural Network)を基盤として、音響モデル(AM)、言語モデル(LM)および統合モデルは一つのネットワーク(例:一つの神経網)で表現されて統合されて構築され得る。例えば、音響モデル(AM)の出力に該当する神経網のノードと言語モデル(LM)の出力に該当する神経網のノードは統合モデルの入力に該当する神経網のノードに連結され得る。
【0082】
音声認識装置100は音声信号に対して最終認識結果が出力または生成されると、段階430で最終認識結果を再び言語モデルに反映し、言語モデルは段階420で次の音声フレームに対する次の第2認識結果を出力する時、現在の音声フレームに対する認識結果が反映されるように考慮することができる。
【0083】
図5は他の実施例に係る音声認識方法のフローチャートである。一例によれば、
図5に図示された音声認識方法は
図3に図示された音声認識装置のような一つ以上の実施例に係る音声認識装置を使用して具現され得るが、これに制限されるものではない。同じように、
図5に図示された音声認識方法は
図3の音声認識装置300を参照して説明する。ただし、これは説明の便宜を図るためのものに過ぎず、これに制限されるものではない。
【0084】
まず、音声認識装置300は第1音響モデルを利用して入力された音声信号に対する第1言語認識単位の認識結果を出力または生成することができる510。次いで、音声認識装置300は第2音響モデルを利用して生成された第1言語認識単位に対する第2言語認識単位の第1認識結果を出力することができる520。このとき、第2言語認識単位は第1言語認識単位よりも大きい単位であり得、例えば、第1言語認識単位はアルファベット/音節であり、第2言語認識単位は単語であり得る。また、第1音響モデルおよび第2音響モデルは神経網を基盤とすることができる。例えば、第1音響モデルの出力に該当する神経網のノードは第2音響モデルの入力に該当する神経網のノードに連結されて第1音響モデルの生成結果は第2音響モデルの入力ノードに入力され得る。
【0085】
段階530は、以前の音声信号に対する最終認識結果が反映された言語モデルを利用して第2言語認識単位の第2認識結果を出力することができる530。例えば、第2認識結果は単語別確率や状態情報を含むことができる。このとき、言語モデルは神経網を基盤とすることができ、一例による神経網で表現される言語モデルは第2言語認識単位で認識結果を出力するように学習され得る。例えば、以前の音声信号の最終認識結果が反映されたものを含む音声信号に対する言語単位類型および/または他の言語単位類型間の予想連結性を考慮することができる。一例によれば、段階530は実施例によって、段階510または520中の一つと開始後に開始することができ、段階510および520以前に開始され得、または一例により、段階530は段階510または段階520の開始と同時に開始されることも可能である。
【0086】
次いで、音声認識装置300は第1認識結果および第2認識結果を統合して音声信号に対して第2言語認識単位の最終認識結果を出力する。例えば、音声認識装置300は第1認識結果および第2認識結果を考慮して例示的な単語単位の最終認識結果を生成できるあらかじめ構築された統合モデルに第1認識結果および第2認識結果を入力して単語単位で最終認識結果を出力することができる。
【0087】
このとき、統合モデルは音響モデル(AM)および言語モデル(LM)と同様に神経網(Neural Network)を基盤とすることができ、各モデルは一つの神経網で統合され表現されて構築され得る。例えば、音響モデル(AM)中の第2音響モデルの出力に該当する神経網のノードと言語モデル(LM)の出力に該当する神経網のノードは統合モデルの入力に該当する神経網のノードに連結されて一つのネットワークで形成され得る。前述した通り、一つの神経網は、また第1音響モデルを表わすことができる。例えば、第1音響モデルの出力に該当する神経網のノードと第2音響モデルの入力に該当する神経網のノードが連結され得る。
【0088】
次いで、音声認識装置300は音声信号に対して単語単位の最終認識結果を出力または生成すると、最終認識結果を再び言語モデルに反映することができる。このために、前述した一つのネットワークは統合モデルの出力に該当する神経網のノードの個数と言語モデル(LM)の入力に該当する神経網のノードの個数が同一であるように構築され得る。
【0089】
図6は一実施例に係る電子装置などの音声認識装置のブロック図である。
【0090】
本実施例に係る電子装置600は
図1および
図3に係る音声認識装置100、300のすべてまたはいずれか一つを搭載することができる。電子装置300はTV、セットトップボックス、デスクトップコンピュータ、ノートパソコン、翻訳機器、スマートフォン、タブレットPC、スマートワッチ(smart watch)、ウェアラブルデバイス(wearable device)、自動車の電子制御装置などのような装置であり、搭載された音声認識技術を利用して使用者の多様な要求を処理することができる。ただし、これに制限されず、音声認識分野で活用可能なすべての電子機器を含むものと解釈されるべきである。
【0091】
図6を参照すれば、電子装置600は音声受信部610、音声認識部620およびプロセッサ630を含むことができる。このとき、音声認識部620は
図1および
図3の実施例に係る音声認識装置100、300のすべてまたはいずれか一つを搭載したものであり得る。前述したように音声認識部620は特定の一つ以上の処理装置によって具現されたハードウェアであり得、特定の一つ以上の処理装置によって具現されたハードウェアは、またその他の音声認識部620の認識結果を通じて認識された命令または質問に相応するユーザインタフェースのような電子装置の制御で構成されたハードウェアであり得るが、これに制限されない。
【0092】
音声受信部610は電子装置600のマイクロホンなどを通して入力される使用者の音声信号を受信することができる。また、一例によれば、音声受信部610は受信または獲得された音声を伝送するように構成された有無線マイクロホンのような音声認識システムまたは音声受信部610が音声認識システムの音声認識装置で獲得/受信された音声の前処理を遂行するように構成される時、獲得/受信された音声の前処理された音声に対応される別途の装置を含むことができる。図示された通り、使用者の音声信号は他の言語への翻訳のための文章や単語、TV制御、自動車の走行制御などのための命令語などに関連され得る。
【0093】
一実施例によれば、音声受信部610はアナログ形態で受信または獲得される使用者の音声信号をデジタル信号に変換して多数の音声フレームに分ける前処理過程を含むことができ、前処理された音声フレームデータを音声認識部620に伝達することができる。
【0094】
前述したように、一例によれば、一つ以上の音響モデル、言語モデルおよび統合モデルは音声認識部620のように、一つ以上の遠隔サーバーによって具現され得、電子装置600は獲得された音声を伝送するように構成され得る。例えば、送信された音声に基づいた統合モデルに対応するように表現される一つ以上の神経網の出力または一つ以上の音響モデルおよび/または言語モデルの神経網から適切な出力を受信することができる。
【0095】
他の例によれば、音声認識部620は入力される音声フレームに対する音響モデルおよび言語モデルの出力結果を統合モデルに入力し、統合モデルの出力結果に基づいて音声信号に対する最終認識結果を出力することができる。一例によれば、プロセッサ630は音声認識部620として動作または含むか特に制御され、プロセッサ630は音声認識部620により返還された音声認識結果に基づいて相応する電子装置600の現在または追加動作を制御する動作を制御および/または遂行できる。例えば、使用者が入力した音声の認識結果を電子装置600のスピーカーなどを通してプロセッサによって生成された音声で出力するか、電子装置600のディスプレイにテキスト形態で提供することができ、このようなメッセージまたは文書は電子装置600により寄稿するか単にディスプレイされ得る。または電子装置600と関連した命令語(例:電源オン/オフ、ボリューム調節など)の処理動作を遂行または制御するように構成され得る。インタフェース640は電子装置600の一つ以上の通信モジュール、タッチスクリーン、キーボードまたはディスプレイのようなスピーカー、電子装置600の一つ以上のユーザインタフェースをさらに表わすことができ、これらは前記で例示したサーバーとともに伝送を遂行することができるが、これに制限されるものではない。一例として、インタフェース640は音声認識部610により前処理された音声信号を生成するマイクで表現され得る。
【0096】
または一例によれば電子装置600が翻訳を遂行する時、音声受信部610は他のサーバー/装置または電子装置600のメモリーから録音されたまたはリアルタイム音声から音声データを獲得することができる。他の言語に翻訳する場合、プロセッサ630はテキスト形態で出力された音声認識結果を翻訳しようとする他の言語に翻訳するように構成されることができ、一例として、電子装置600のメモリーに保存された一つ以上の辞書に基づくかサーバーまたは他の装置からの伝送を通じることも可能であり、翻訳された結果を電子装置600のディスプレイに音声および/またはテキスト形態で出力することができる。ただし、これに限定されず、その他の電子装置600多様な分野で活用が可能である。電子装置のメモリーは、さらに言語モデルおよび音響モデルを保存することができ、言語および音響モデルとモデル訓練に使用されるデータおよび音声認識部620により生成されるか使用される情報を保存することができる。例えば、メモリーはさらに、前述した機能を動作する電子装置600の一つ以上のプロセッサを実行可能な命令語を保存することができる。
【0097】
また、音声認識部620は一つ以上のプロセッサ中の第1プロセッサを含むことができ、プロセッサ630は一つ以上のプロセッサ中の第2プロセッサを含むことができる。このとき、第1プロセッサは装置のスピーカーを通した最終認識結果を聴覚的にまたは装置のディスプレイを通したテキスト形態で出力、最終認識結果を他の言語に翻訳および、第2プロセッサを通じて特定動作を遂行するように制御するための命令語の処理中の少なくとも一つを遂行できる。また、第1プロセッサおよび第2プロセッサは一つ以上のプロセッサの中で同じプロセッサであり得るが、これに制限されない。
【0098】
一方、本実施例はコンピュータ可読記録媒体にコンピュータ可読コードで具現することができる。コンピュータ可読記録媒体はコンピュータシステムによって読み込みできるデータが保存されるすべての種類の記録装置を含む。
【0099】
コンピュータ可読記録媒体の例としては、ROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ保存装置などがあり、また、キャリアウェーブ(例えばインターネットを通した伝送)の形態で具現するものを含む。また、コンピュータ可読記録媒体はネットワークに連結されたコンピュータシステムに分散され、分散方式でコンピュータ可読コードが保存されて実行され得る。そして本実施例を具現するための機能的な(functional)プログラム、コードおよびコードセグメントは本発明が属する技術分野のプログラマーによって容易に推論され得る。
【0100】
本開示が属する技術分野の通常の知識を有した者は開示された技術的思想や必須の特徴を変更することなく他の具体的な形態で実施できることが理解できるであろう。したがって、前述した各実施例はすべての面で例示的なものであり、限定的ではないものと理解されるべきである。