(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-16
(45)【発行日】2022-11-25
(54)【発明の名称】音声信号を処理するための方法、装置、機器、および媒体
(51)【国際特許分類】
G10L 15/01 20130101AFI20221117BHJP
G10L 15/10 20060101ALI20221117BHJP
G10L 15/08 20060101ALI20221117BHJP
【FI】
G10L15/01 200
G10L15/10 300Z
G10L15/08 300Z
(21)【出願番号】P 2020185936
(22)【出願日】2020-11-06
【審査請求日】2020-11-06
(31)【優先権主張番号】201911146748.1
(32)【優先日】2019-11-21
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100114557
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】ヂァィ,チゥァンレイ
(72)【発明者】
【氏名】チェン,シュー
(72)【発明者】
【氏名】パイ,ヂンファン
(72)【発明者】
【氏名】ヂィア,レイ
【審査官】岩田 淳
(56)【参考文献】
【文献】特開2019-015952(JP,A)
【文献】特開2011-075973(JP,A)
【文献】特開2015-082036(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
音声信号を処理するための方法であって、
受信された音声信号の音声特徴表現セットを取得するステップと、
前記音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するステップであって、各ソーステキスト特徴表現は、前記テキスト内の1つの要素に対応
し、前記テキストを、ニューラルネットワークによって形成される音声認識結果信頼度モデルに送信することで、前記テキストに対応するソーステキスト特徴表現セットを生成し、前記1つの要素は1つの文字、1つの音節、または1つのアルファベットであるステップと、
前記音声特徴表現セットおよび前記ソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するステップと、
前記ターゲットテキスト特徴表現セットと、前記テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するステップであって、前記マッチング度合いは、前記テキストの認識の正確さを示すステップと、を含
み、
ターゲットテキスト特徴表現セットを生成するステップは、
前記ソーステキスト特徴表現セット内の1つのソーステキスト特徴表現と、前記音声特徴表現セット内の複数の音声特徴表現との複数の類似度を決定するステップと、
前記複数の類似度を前記複数の音声特徴表現に適用することによって、複数の中間音声特徴表現を生成するステップと、
前記複数の中間音声特徴表現を組み合わせることによって、前記ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成するステップと、を含む、
ことを特徴とする音声信号を処理するための方法。
【請求項2】
前記方法は、
前記音声特徴表現セット内の音声特徴表現に対して非線形変換を実行するステップと、
変換された前記音声特徴表現を用いて前記音声特徴表現セット内の前記音声特徴表現を置き換えるステップと、をさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記マッチング度合いを決定するステップは、
前記ターゲットテキスト特徴表現セット内の複数のターゲットテキスト特徴表現と、前記参照テキスト特徴表現セット内の、複数のターゲットテキスト特徴表現に対応する複数の参照テキスト特徴表現との複数の類似度を決定するステップと、
前記複数の類似度の平均値に基づいて前記マッチング度合いを決定するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記方法は、
前記マッチング度合いと閾値度合いとを比較するステップと、
前記マッチング度合いが前記閾値度合いより高いとの判定に基づいて、前記テキストによって示された動作を実行するステップと、をさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項5】
音声信号を処理するための装置であって、
受信された音声信号の音声特徴表現セットを取得するように構成される取得モジュールと、
前記音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するように構成されるソーステキスト特徴表現セット生成モジュールであって、各ソーステキスト特徴表現は、前記テキスト内の1つの要素に対応
し、前記テキストを、ニューラルネットワークによって形成される音声認識結果信頼度モデルに送信することで、前記テキストに対応するソーステキスト特徴表現セットを生成し、前記1つの要素は1つの文字、1つの音節、または1つのアルファベットであるソーステキスト特徴表現セット生成モジュールと、
前記音声特徴表現セットおよび前記ソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するように構成されるターゲットテキスト特徴表現セット生成モジュールと、
前記ターゲットテキスト特徴表現セットと、前記テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するように構成される第1のマッチング度合い決定モジュールであって、前記マッチング度合いは、前記テキストの認識の正確さを示す第1のマッチング度合い決定モジュールと、を含
み、
前記ターゲットテキスト特徴表現セット生成モジュールは、
前記ソーステキスト特徴表現セット内の1つのソーステキスト特徴表現と、前記音声特徴表現セット内の複数の音声特徴表現との複数の類似度を決定するように構成される第1の類似度決定モジュールと、
前記複数の類似度を前記複数の音声特徴表現に適用することによって、複数の中間音声特徴表現を生成するように構成される中間音声特徴表現生成モジュールと、
前記複数の中間音声特徴表現を組み合わせることによって、前記ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成するように構成される組み合わせモジュールと、を含む、
ことを特徴とする音声信号を処理するための装置。
【請求項6】
前記装置は、
前記音声特徴表現セット内の音声特徴表現に対して非線形変換を実行するように構成される非線形変換モジュールと、
変換された前記音声特徴表現を用いて前記音声特徴表現セット内の音声特徴表現を置き換えるように構成される置き換えモジュールと、をさらに含む、
ことを特徴とする請求項
5に記載の装置。
【請求項7】
前記第1のマッチング度合い決定モジュールは、
前記ターゲットテキスト特徴表現セット内の複数のターゲットテキスト特徴表現と、前記参照テキスト特徴表現セット内の、複数のターゲットテキスト特徴表現に対応する複数の参照テキスト特徴表現との複数の類似度を決定するように構成される第2の類似度決定モジュールと、
前記複数の類似度の平均値に基づいて前記マッチング度合いを決定するように構成される第2のマッチング度合い決定モジュールと、を含む、
ことを特徴とする請求項
5に記載の装置。
【請求項8】
前記装置は、
前記マッチング度合いと閾値度合いとを比較するように構成される比較モジュールと、
前記マッチング度合いが閾値度合いより高いとの判定に基づいて、前記テキストによって示された動作を実行するように構成される実行モジュールと、をさらに含む、
ことを特徴とする請求項
5に記載の装置。
【請求項9】
一つまたは複数のプロセッサと、
一つまたは複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサが、請求項1~
4のいずれかに記載の方法を実現する、
ことを特徴とする電子機器。
【請求項10】
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であっ
て、
前記プログラムがプロセッサによって実行される場合、請求項1~4のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項11】
コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項1~
4のいずれかに記載の方法が実行される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施例は、主に人工知能の分野に関し、より具体的には、音声信号を処理するための方法、装置、機器、およびコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
音声インタラクション技術は、人間と機械とが音声でインタラクションする技術であり、自然な対話と類似の音声インタラクション体験を実現する。人間と機械とのインタラクションは、コンピューター時代のマウスおよびキーボードを画面に合わせたインタラクションから、スマートフォン時代のタッチスクリーンとの直接インタラクションまで発展してきている。人間と機械とのインタラクション方式は、ますます簡単になり、インタラクションの敷居はますます低くなっている。人工知能およびモバイルインターネットの活発な発展に伴い、人間と人間との対話と類似の自然な音声インタラクションは、徐々に人間と機械とのインタラクションの新しい方式になる。音声インタラクションは、入力帯域幅が広く、高精度、移動性が良く、使用敷居が低いなどの利点を兼ね備えるため、人間と機械とのインタラクションの最優先インタラクション方式の1つである。
【0003】
音声インタラクションで人間と機械とのインタラクションを実現することにより、情報処理の効率を向上させることができるとともに、ユーザーと機械とのインタラクションも容易になる。しかしながら、音声信号を処理するプロセスでは解決すべき問題が依然として多く存在している。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の例示的な実施例によれば、音声信号を処理するための技術案が提供される。
【課題を解決するための手段】
【0005】
本開示の第1の態様では、受信された音声信号の音声特徴表現セットを取得するステップと、音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するステップであって、各ソーステキスト特徴表現は、テキスト内の1つの要素に対応するステップと、音声特徴表現セットおよびソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するステップと、ターゲットテキスト特徴表現セットと、テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するステップであって、マッチング度合いは、テキストの認識の正確さを示すステップと、を含む、音声信号を処理するための方法が提供される。
【0006】
本開示の第2の態様では、受信された音声信号の音声特徴表現セットを取得するように構成される取得モジュールと、音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するように構成されるソーステキスト特徴表現セット生成モジュールであって、各ソーステキスト特徴表現は、テキスト内の1つの要素に対応するソーステキスト特徴表現セット生成モジュールと、音声特徴表現セットおよびソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するように構成されるターゲットテキスト特徴表現セット生成モジュールと、ターゲットテキスト特徴表現セットと、テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するように構成される第1のマッチング度合い決定モジュールであって、マッチング度合いは、テキストの認識の正確さを示す第1のマッチング度合い決定モジュールと、を含む、音声信号を処理するための装置が提供される。
【0007】
本開示の第3の態様では、一つまたは複数のプロセッサと、一つまたは複数のプログラムを記憶するための記憶装置とを含む電子機器であって、一つまたは複数のプログラムが一つまたは複数のプロセッサによって実行される場合、一つまたは複数のプロセッサが、本開示の第1の態様に係る方法を実現する電子機器が提供される。
【0008】
本開示の第4の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、本開示の第1の態様に係る方法が実現されるコンピュータ読み取り可能な記憶媒体が提供される。
本開示の第5の態様では、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、第1の態様の実施例に記載の方法が実行される。
【0009】
なお、発明の概要に説明された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明により理解されやすくなる。
【図面の簡単な説明】
【0010】
本開示の各実施例の上記および他の特徴、利点および態様は、図面を参照した以下の詳細な説明により、より明らかになる。図面では、同一または類似の符号は、同一または類似の要素を表す。
【
図1】本開示の複数の実施例を実現可能な環境100の概略図を示す。
【
図2】本開示のいくつかの実施例に係る音声信号を処理するための方法200のフローチャートを示す。
【
図3】本開示のいくつかの実施例に係るターゲットテキスト特徴表現セットを生成するための方法300のフローチャートを示す。
【
図4】本開示のいくつかの実施例に係る音声信号を処理するための装置400のブロック図を示す。
【
図5】本開示の複数の実施例を実施可能な機器500のブロック図を示す。
【発明を実施するための形態】
【0011】
本開示の実施例を図面を参照して以下により詳細に説明する。図面に本開示のいくつかの実施例が示されているが、本発明は様々な形態で実現することができ、本明細書に記載の実施例に限定されると解釈されるべきではないことを理解されたい。逆に、これらの実施例を提供する目的は、本開示がより明確かつ完全で理解されることである。なお、本開示の図面および実施例は例示するものに過ぎず、本開示の保護範囲を限定するものではないと理解されたい。
【0012】
本開示の実施例の説明において、「含む」という用語およびその類似の用語が、開放的な含む、すなわち「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」ことを意味すると理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一実施例」として理解されるべきである。「第1」、「第2」などの用語は、異なる対象または同一対象を指すことができる。以下の説明では、他の明示的および暗黙的な定義も含まれ得る。
【0013】
音響信頼度技術は、自動音声認識(ASR)システムの認識結果の信頼度を評価する技術である。音響信頼度技術により、認識結果に対応する音声が音声であるか非音声であるか、および音声とテキストとが厳密に対応しているか否かを区別することができる。音声インタラクションのプロセスでは、ASRシステムには環境ノイズなどの非音声入力を判別する効果的なメカニズムがないため、誤認識が発生する場合がある。一方、音響信頼度技術は、2次的な確認プロセスであり、オーディオと認識結果とのマッチング度合いに信頼度のスコアを付与することにより、音声を適切に分類することができる。
【0014】
音声信頼度を計算する方式は、通常2種類ある。1つは、フルセンテンスのオーディオに基づいて2分類を行う方式である。この方式は、音声の認識結果に依存せず、オーディオの何らかの形態の特徴を抽出することでオーディオを分類するものである。ただし、フルセンテンスの音声に基づく音声分類方式では、フルセンテンスを1つの単位とするため、粒度が大きすぎて詳細な情報を提供することができない。また、この技術ではテキスト情報を利用できないため、計算結果の面でニーズに応えることができない。
【0015】
もう1つは、アラインメントとVGGとの2レベルのモデルに基づく音響信頼度技術である。この技術では、まず、オーディオと認識結果とを音響的に強制的にアラインメントさせることにより、認識結果内の各モデリングユニットに対応するセグメントを見つける。次に、VGGネットワークを介してセグメントにスコアを付与し、対応するモデリングユニットのスコアによって当該セグメントとモデリングユニットとのマッチング度合いを判断する。最後に、現在のオーディオを受け入れる必要があるか否かをある意思決定方式で判断する。ただし、アラインメントとVGGとの2レベルのモデルに基づく信頼度技術では、VGGモデルによって信頼度にスコアリングすることができる前に、オーディオと認識結果とを強制的にアラインメントさせる必要がある。このようなカスケードの形態について、トレーニング段階では二者をうまく共同トレーニングすることができない。さらに、この技術は、オーディオと認識結果との完全な情報をうまく活用することができず、しかもオーディオとテキストとを強制的にアライメントさせるため、この技術はフルセンテンスのオーディとテキスト情報とを完全に活用することができない。
【0016】
本開示の実施例によれば、音声インタラクションするための改良された技術案が提供される。この技術策では、まず、受信された音声信号の音声特徴表現セットを取得し、音声信号から認識されたテキストに対応するソーステキスト特徴表現セットを取得する。音声特徴表現セットおよびソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成して、当該テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定することができる。これにより、音声信号から認識されたテキストの正確さを判定することができる。この方法により、音声信号の判定結果をより正確にすることができるとともに、人間と機械とのインタラクションをよりスムーズにし、人間と機械とのインタラクション体験を向上させることができる。
【0017】
図1は、本開示の複数の実施例を実現可能な環境100の概略図を示す。この例示的な環境100では、人間と機械とのインタラクション中に、音声信号110を取得することができる。音声信号110から、音声特徴表現セット120を取得することができる。いくつかの実施例では、音声特徴表現セット120内の音声特徴は、音響特徴フレームなどの1つの音声特徴フレームとして表される。 音声特徴フレームは、所定時間長さのオーディオから得られるベクトルである。
【0018】
図1において、テキスト130は、音声信号110から得られたテキスト情報である。例えば、テキスト130は、自動音声認識システムによって音声信号110を認識することによって得られる。代替的または追加的に、テキスト130は、自動音声認識システムによって音声特徴表現セット120から生成されてもよい。
【0019】
音声信号110は、ユーザーインタラクションを実行する任意の音声インタラクション機器によって取得することができる。いくつかの実施例では、ユーザが音声インタラクション機器に話しかけると、音声信号110を取得することができる。いくつかの実施例では、音声インタラクション機器がユーザの周りに存在する場合、ユーザが他の人とインタラクションするとき、音声インタラクション機器は、音声信号110を取得することができる。いくつかの実施例では、音声信号110は、テレビ内の話し声など、音声インタラクション機器によって受信される他の音声信号であってもよい。いくつかの実施例では、音声信号110は、一度にウェークアップして複数のインタラクションを実行する音声インタラクション機器によって得られる。上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。
【0020】
音声インタラクション機器は、ユーザーの音声指示を収集するための関連付けられた集音器(例えば、1つまたは複数のマイクロフォン)を有してもよい。音声インタラクション機器は、サウンドを再生するための関連付けられたサウンドプレーヤー(例えば、1つまたは複数のスピーカー)を有してもよい。
【0021】
音声インタラクション機器は、音声信号110を介して制御および/またはインタラクションすることができる任意の電子機器であってもよい。音声インタラクティブ機器の例は、スマートスピーカー、音声インタラクションテレビボックス、スマート家電デバイス、音声チューター、スマートロボット、マップナビゲーションデバイス、スマートウェアラブルデバイスなどを含むが、これらに限定されない。音声インタラクション機器は、音声アシスタントアプリケーション、スマートカーマシンシステム、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオおよびビデオ再生アプリケーション、スマートアシスタントアプリケーションなどの音声インタラクションアプリケーションがインストールされた任意の他の電子機器であってもよい。このような音声インタラクションアプリケーションをインストール可能な電子デバイスの例は、スマートフォン、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケーター、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルナビゲーションデバイス、パーソナルデジタルアシスタント(PDA)、オーディオ/ビデオプレーヤー、デジタルカメラ/撮像機、測位デバイス、電子書籍デバイス、ゲームデバイス、またはこれらの組み合わせを含むが、これらに限定されない。
【0022】
図1では、音声特徴表現セット120およびテキスト130は、管理機器140に転送されて処理される。代替的または追加的に、管理機器140は、音声信号110を受信し、その後、管理機器140は、音声信号110に基づいて、音声特徴表現セット120およびテキスト130を生成することができる。
【0023】
管理機器140は、音声特徴表現セット120に基づいて、音声信号110から認識されたテキスト130の信頼度を計算して、認識結果の正確さを決定する。
【0024】
図1に示す実施例では、管理機器140は、ネットワーク(例えば、クラウド)上に配置されたコンピューティング機器であってもよく、音声インタラクション機器によってアップロードされた音声信号110を直接処理して、音声特徴表現セット120およびテキスト130を取得することにより、本開示の実施例に係るさらなる処理を実行することができる。また、音声インタラクション機器が管理機器140にアップロードするのが音声特徴表現セット120およびテキスト130である場合、管理機器140は、音声特徴表現セット120およびテキスト130に対してさらなる処理を直接実行することもできる。
【0025】
いくつかの実施例では、管理機器140は、パーソナルコンピュータ、サーバーコンピュータ、ハンドヘルドまたはラップトップデバイス、モバイルデバイス(携帯電話、携帯情報端末(PDA)、メディアプレーヤーなど)、マルチプロセッサシステム、家庭用電化製品、小型コンピュータ、大型コンピュータ、上記のシステムまたはデバイスのうちのいずれかの分散コンピューティング環境などを含むが、これらに限定されない。
【0026】
図1に示される環境は、単に例示するものであり、本開示を具体的に限定するものではないことを理解されたい。いくつかの実施例では、管理機器140は、必ずしもネットワークに配置される必要はなく、例えば、ユーザとインタラクションする音声インタラクション機器として実現されてもよい。この場合、管理機器140は、ユーザから音声信号110を受信し、音声信号110を処理して、音声特徴表現セット120およびテキスト130を取得し、その後、音声特徴表現セット120およびテキスト130に対してさらなる処理を実行することができる。
【0027】
上記の
図1は、本開示の複数の実施例を実現可能な環境100の概略図を示す。 以下では、
図2を参照して、本開示のいくつかの実施例に係る音声信号を処理するための方法200のフローチャートを説明する。方法200は、
図1の管理機器140または他の任意の適切な機器によって実現することができる。
【0028】
ブロック202において、管理機器140は、受信した音声信号110の音声特徴表現セット120を取得する。音声信号110の認識結果の信頼度を決定するときに、管理機器140は、音声信号110の音声特徴表現セット120を取得する必要がある。
【0029】
いくつかの実施例では、音声特徴表現セット120の音声特徴は、音響特徴フレームなどの1つの音声特徴フレームとして表される。音声特徴フレームは、所定時間長さのオーディオから得られるベクトルである。例えば、音声信号110の時間長さが1秒であり、音声信号110の10ミリ秒ごとに音声特徴フレームが生成される場合、当該音声信号110について100の音声特徴フレームがある。
【0030】
いくつかの実施例では、管理機器140は、音声信号110を受信し、音声信号110から音声特徴表現セット120を生成する。いくつかの実施例では、音声特徴表現セット120は、受信された音声信号110から他のコンピューティングデバイスによって生成される。上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。
【0031】
いくつかの実施例では、管理機器140は、音声特徴表現セット120内の音声特徴表現に対して非線形変換を実行することができる。その後、管理機器140は、変換された音声特徴表現を用いて音声特徴表現セット120内の音声特徴表現を置き換える。
【0032】
例えば、管理機器140は、音声特徴表現セット120をニューラルネットワークモデルによって構成される音声認識結果信頼度モデルに送信し、音声特徴表現セット120をニューラルネットワークモデルにおいて非線形変換を実行することにより、更新された音声特徴表現セット120を取得する。音声認識結果信頼度モデルがencoderーdecoder(エンコーダーデコーダ)モデルである場合、音声特徴表現セット120をencoderに入力して、更新された音声特徴表現セット120を生成する。具体的には、音声特徴表現セット120内の1つの音声特徴表現について、当該1つの音声特徴表現および音声特徴表現セット120内の他の音声特徴表現を用いて、更新された音声特徴表現を生成する。その後、更新された各音声特徴表現を用いて音声特徴表現セット120内の各音声特徴表現を置き換える。
【0033】
一部の実施例では、encoderプロセスは、双方向encoderプロセスであり、selfーattention、双方向LSTM、双方向GRUなどを含むが、これらに限定されない。
【0034】
ブロック204において、管理機器140は、音声信号110から認識されたテキスト130に基づいて、ソーステキスト特徴表現セットを生成し、各ソーステキスト特徴表現は、テキスト130内の1つの要素に対応する。
【0035】
いくつかの実施例では、管理機器140は、音声信号110から認識されたテキスト130を他のコンピューティング機器または音声処理機器から直接受信する。いくつかの実施例では、管理機器140は、音声信号110を受信し、音声信号110からテキスト130を認識する。いくつかの実施例では、テキスト130は、自動音声認識システムによって音声信号110から認識される。いくつかの実施例では、テキスト130は、音声特徴表現セット120から決定される。 上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。
【0036】
いくつかの実施例では、テキスト130は、ニューラルネットワークによって形成される音声認識結果信頼度モデルに送信されて、生成に使用される。例えば、音声認識結果信頼度モデルがencoderーdecoderモデルである場合、、テキスト130をdecoderに送信して、テキスト130に対応するソーステキスト特徴表現セットを生成する。各ソーステキスト特徴表現は、テキスト130内の1つの要素に対応する。
【0037】
一部の実施例では、1つの要素は1つの文字である。いくつかの実施例では、1つの要素は1つの音節である。いくつかの実施例では、1つの要素は1つのアルファベットである。上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。当業者は、必要に応じて要素の内容を設定することができる。
【0038】
いくつかの実施例では、decoderプロセスは、双方向decoderプロセスであり、selfーattention、双方向LSTM、双方向GRUなどを含むが、これらに限定されない。双方向decoderプロセスは、適切な処理によって一方向のdecoderプロセスにも変更することができる。
【0039】
ブロック206において、管理機器140は、音声特徴表現セット120およびソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成する。管理機器140が音声特徴表現セット120およびソーステキスト特徴表現セットを用いてターゲットテキスト特徴表現セットを生成するプロセスについて、
図3を参照して以下に詳細に説明する。
【0040】
ブロック208において、管理機器140は、ターゲットテキスト特徴表現セットと、テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定し、マッチング度合いは、テキストの認識の正確さを示す。管理機器140がマッチング度合いを決定するプロセスを以下の例に示す。
【0041】
いくつかの実施例では、管理機器140は、ターゲットテキスト特徴表現セット内の複数のターゲットテキスト特徴表現と、参照テキスト特徴表現セット内の、複数のターゲットテキスト特徴表現に対応する複数の参照テキスト特徴表現との複数の類似度を決定する。
【0042】
その後、管理機器140は、これらの類似度の平均値に基づいてマッチング度合いを決定することができる。いくつかの実施例では、管理機器140は、これらの類似度に重み付けて平均値を求めて、マッチング度合いを決定する。上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。当業者は、必要に応じて、任意の適切な方式で複数の類似度からマッチング度合いを決定することができる。
【0043】
いくつかの実施例では、管理機器140は、ターゲットテキスト特徴表現セットを取得した後、実行中の音声認識結果信頼度モデルにおいて複数のターゲットテキスト特徴表現のそれぞれとその対応する参照テキスト特徴表現との類似度を決定する。音声認識結果信頼度モデルのニューラルネットワークにおいて、ターゲットテキスト特徴表現およびテキスト130内の対応する要素をニューラルネットワークモデルに入力し、ニューラルネットワークモデルは、要素に対応する参照テキスト特徴表現に基づいて、ターゲットテキスト特徴表現と参照テキスト特徴表現との類似度を決定する。
【0044】
いくつかの実施例では、管理機器140は、マッチング度合いと閾値度合いとを比較する。管理機器140は、マッチング度合いが閾値度合いより高いとの判定に基づいて、テキスト130によって示される動作を実行する。マッチング度合いが閾値度合い未満であると判定された場合、上記テキスト130によって示される動作を実行しない。
【0045】
いくつかの実施例では、音声認識結果信頼度モデル(例えば、encoderーdecoderモデル)は、入力された音声特徴表現セット120およびテキスト130に基づいて、テキスト130内の各要素に対応する類似度を決定することにより、複数の類似度を取得する。音声認識結果信頼度モデルは、モデルトレーニングデータによってトレーニングされる。トレーニングサンプルにおける負の例には2つのソースがある。1つは環境ノイズデータであり、そのフルセンテンスが負の例として使用される。もう1つは、トレーニングサンプルにおける誤認識(誤挿入、誤置き換え、誤削除など)されたモデリングユニットであり、これも負の例のサンプルとして使用される。トレーニングサンプルにおける正確に認識されたユニットは、信頼的モデルの正の例のサンプルとして使用される。
【0046】
上記の方法により、例えば、フルセンテンスのオーディオおよび認識結果情報を同時に用いて判定することができるため、音声の判断結果をより正確にすることができるとともに、人間と機械とのインタラクションをスムーズにし、人間と機械とのインタラクション体験を向上させることができる。
【0047】
本開示のいくつかの実施例に係る音声信号を処理するための方法200のフローチャートについて、
図2を参照して上記で説明しました。以下、
図2のブロック260でターゲットテキスト特徴表現セットを生成するプロセスについて、
図3を参照して詳細に説明する。
図3は、本開示のいくつかの実施例に係るターゲットテキスト特徴表現セットを生成するための方法300のフローチャートを示す。
図3の方法300は、
図1の管理機器140または他の任意の適切な機器によって実行されもよい。
【0048】
ブロック302において、管理機器140は、ソーステキスト特徴表現セット内の1つのソーステキスト特徴表現と、音声特徴表現セット120内の複数の音声特徴表現との複数の類似度を決定する。
【0049】
ターゲットテキスト特徴表現セットを生成するとき、管理機器140は、ソーステキスト特徴表現セット内の各ソーステキスト特徴表現について、音声特徴表現セット120内の複数の音声特徴のそれぞれとの類似度を計算する。したがって、各ソーステキスト特徴表現と複数の音声特徴表現との複数の類似度を決定することができる。
【0050】
ブロック304において、管理機器140は、上述の複数の類似度を複数の音声特徴表現に適用することによって、複数の中間音声特徴表現を生成する。いくつかの実施例では、管理機器140は、当該複数の類似度を重みとしてそれらの対応する音声特徴に適用して、複数の中間音声特徴表現を生成する。
【0051】
ブロック306において、管理機器140は、複数の中間音声特徴表現を組み合わせることにより、ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成する。いくつかの実施例では、管理機器140は、重みをつけて処理された複数の中間音声特徴表現を合計して、ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成する。
【0052】
いくつかの実施例では、上記のプロセスは、音声認識結果信頼度モデルにおいて実現されてもよい。
【0053】
この方法により、ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を迅速に決定することができるので、音声特徴表現セット全体に基づいて認識結果の信頼度の値を決定することができ、音声コマンドを正確に実行し、ユーザー体験を向上させることができる。
【0054】
図4は、本開示の実施例に係る音声信号を処理するための装置400の概略ブロック図を示す。
図4に示すように、装置400は、受信された音声信号の音声特徴表現セットを取得するように構成される取得モジュール402を含んでもよい。装置400は、音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するように構成されるソーステキスト特徴表現セット生成モジュール404であって、各ソーステキスト特徴表現は、テキスト内の1つの要素に対応するソーステキスト特徴表現セット生成モジュール404をさらに含む。装置400は、音声特徴表現セットおよびソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するように構成されるターゲットテキスト特徴表現セット生成モジュール406をさらに含む。装置400は、ターゲットテキスト特徴表現セットと、テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するように構成される第1のマッチング度合い決定モジュール408であって、マッチング度合いはテキストの認識の正確さを示す第1のマッチング度合い決定モジュール408をさらに含む。
【0055】
いくつかの実施例では、装置400は、音声特徴表現セット内の音声特徴表現に対して非線形変換を実行するように構成される非線形変換モジュールと、変換された音声特徴表現を用いて音声特徴表現セット内の音声特徴表現を置き換えるように構成される置き換えモジュールと、をさらに含む。
【0056】
いくつかの実施例では、ターゲットテキスト特徴表現セット生成モジュール406は、ソーステキスト特徴表現セット内の1つのソーステキスト特徴表現と、音声特徴表現セット内の複数の音声特徴表現との複数の類似度を決定するように構成される第1の類似度決定モジュールと、複数の類似度を複数の音声特徴表現に適用することによって複数の中間音声特徴表現を生成するように構成される中間音声特徴表現生成モジュールと、複数の中間音声特徴表現を組み合わせることによってソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成するように構成される組み合わせモジュールと、を含む。
【0057】
いくつかの実施例では、第1のマッチング度合い決定モジュール408は、ターゲットテキスト特徴表現セット内の複数のターゲットテキスト特徴表現と、参照テキスト特徴表現セット内の、複数のターゲットテキスト特徴表現に対応する複数の参照テキスト特徴表現との複数の類似度を決定するように構成される第2の類似度決定モジュールと、複数の類似度の平均値に基づいてマッチング度合いを決定するように構成される第2のマッチング度合い決定モジュールと、を含む。
【0058】
いくつかの実施例では、装置400は、マッチング度合いと閾値度合いとを比較するように構成される比較モジュールと、マッチング度合いが閾値度合いより高いとの判定に基づいて、テキストによって示された動作を実行するように構成される実行モジュールと、をさらに含む。
本開示の実施例によれば、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記音声信号を処理するための方法が実行される。
【0059】
図5は、本開示の実施例を実施可能な電子機器500を示す概略ブロック図である。機器500は、
図1の管理機器140の実現に使用されてもよい。図に示すように、機器500は、リードオンリーメモリ(ROM)502に記憶されたコンピュータプログラム命令、または記憶ユニット508からランダムアクセスメモリ(RAM)503にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作および処理を実行することができるコンピューティングユニット501を含む。RAM503には、機器500の動作に必要な各種のプログラムおよびデータが記憶されてもよい。コンピューティングユニット501と、ROM502と、RAM503とは、バス504を介して互いに接続されている。入力/出力(I/O)インターフェース505もバス504に接続されている。
【0060】
機器500における複数のコンポーネントは、I/Oインターフェース505に接続されており、キーボードやマウスなどの入力ユニット506と、種々なディスプレイやスピーカーなどの出力ユニット507と、磁気ディスクや光学ディスクなどの記憶ユニット508と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット509と、を含む。通信ユニット509は、機器500がインターネットのようなコンピュータネットおよび/または種々なキャリアネットワークを介してその他の機器と情報/データを交換することを許可する。
【0061】
コンピューティングユニット501は、処理及び計算能力を有する様々な汎用及び/又は専用処理コンポーネントであってよい。コンピューティングユニット501のいくつかの例は、中央処理装置(CPU)、グラフィック処理装置 (GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット501は、上述の各方法および処理、例えば、方法200および300、を実行する。例えば、いくつかの実施例では、方法200および300は、記憶ユニット508のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全ては、ROM502および/または通信ユニット509を介して、機器500にロードおよび/またはインストールすることができる。コンピュータプログラムがRAM503にロードされてコンピューティングユニット501によって実行される場合、上述の方法200および300の一つまたは複数のステップを実行することができる。代替可能に、他の実施例では、コンピューティングユニット501は、他の任意の適切な方式(例えば、ファームウェアを借りる)により方法200および300を実行するように構成される。
【0062】
本明細書で上述された機能は、少なくとも部分的に一つまたは複数のハードウェアロジックコンポーネントによって実現することができる。例えば、使用可能なハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などを含むが、これらに限定されない。
【0063】
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを用いて作成することができる。これらのプログラムコードは、汎用コンピュータ、専門コンピュータまたはその他のプログラミングデータ処理装置のプロセッサまたはコントローラに提供されることにより、プログラムコードがプロセッサまたはコントローラによって実行されるとき、フローチャートおよび/またはブロック図に規定された機能/動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよく、部分的にマシンで実行されてもよく、独立したソフトパッケージとして部分的にマシンで実行されるとともに、部分的にリモートマシンで実行されてもよく、または完全にリモートマシンまたはサーバで実行されてもよい。
【0064】
本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置または機器によって、または命令実行システム、装置または機器と合わせて使用されるプログラムを含み、または記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、または半導体システム、装置、またはデバイス、または上述された内容の任意の適切な組み合わせを含んでもよいが、これらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上述された内容の任意の組み合わせを含む。
【0065】
また、特定の順番で各動作を説明したが、このような動作を、示される特定の順番または順次実行することが求められ、または図示した動作の全てを実行して所望の結果を取得することが求められることを理解されたい。一定の環境において、複数のタスクおよび並列処理が有利である可能性がある。同様に、以上の説明には、いくつかの具体的な実現の詳細が含まれたが、それが本開示の範囲を限定するものと理解されてはならない。個別の実施例に説明された一部の特徴は、組み合わせて一つの実現で実現されてもよい。逆に、一つの実施例に説明された種々な特徴は、個別または任意の適切なサブ組み合わせの方式で複数の実現で実現されてもよい。
【0066】
構成の特徴および/または方法の論理動作に特有の言語で本テーマを説明したが、特許請求の範囲で限定される本題は、上記の特定の特徴または動作に限定されない。逆に、上記の特定の特徴および動作は、特許請求の範囲を実現する例示的な形態に過ぎない。