特表2023-520861 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 深▲せん▼地平▲線▼机器人科技有限公司の特許一覧

特表2023-520861音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-05-22

(54)【発明の名称】音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器

(51)【国際特許分類】

G10L 15/22 20060101AFI20230515BHJP

G10L 15/32 20130101ALI20230515BHJP

G10L 15/10 20060101ALI20230515BHJP

G10L 15/20 20060101ALI20230515BHJP

【ＦＩ】

G10L15/22 300Z

G10L15/32 200Z

G10L15/10 500T

G10L15/20 370Z

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022558093

(86)(22)【出願日】2022-02-16

(85)【翻訳文提出日】2022-09-22

(86)【国際出願番号】 CN2022076422

(87)【国際公開番号】W WO2022193892

(87)【国際公開日】2022-09-22

(31)【優先権主張番号】202110279812.4

(32)【優先日】2021-03-16

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】522375752

【氏名又は名称】深▲せん▼地平▲線▼机器人科技有限公司

(74)【代理人】

【識別番号】100105924

【弁理士】

【氏名又は名称】森下賢樹

(72)【発明者】

【氏名】ティエン、チュアン

(72)【発明者】

【氏名】パン、フーピン

(72)【発明者】

【氏名】ニウ、ジェンウェイ

(72)【発明者】

【氏名】ユー、カイ

(57)【要約】

【課題】音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器を開示する。
【解決手段】当該方法は、少なくとも１チャネルのオーディオ信号を取得するステップと、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識して、第１クラスの認識結果を得るステップと、キャッシュから記憶された認識データを決定するステップと、記憶された認識データに基づいて、第２クラスの認識結果を生成するステップと、音声認識モデルを利用して、第１クラスの認識結果及び第２クラスの認識結果を処理して、前記少なくとも１チャネルのオーディオ信号に対応する少なくとも１つの語句認識結果を得るステップと、前記語句認識結果に対して語意解析を行って、少なくとも１つの解析結果を得るステップと、少なくとも１つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するステップと、を含む。本開示の実施例は、少なくとも１チャネルのオーディオ信号の処理効率を向上させ、マルチチャネル音声対話のシーンにおいても依然として低リソース消費や低処理遅延の要件を満たすことができるのに役立つ。
【選択図】図２

【特許請求の範囲】

【請求項1】

少なくとも１チャネルのオーディオ信号を取得するステップと、
プリセットの音声認識モデルを利用して前記少なくとも１チャネルのオーディオ信号を認識し、前記音声認識モデルにより第１クラスの認識結果を得るステップと、
キャッシュから前記少なくとも１チャネルのオーディオ信号に関する記憶された認識データを決定するステップと、
前記記憶された認識データに基づいて、第２クラスの認識結果を生成するステップと、
前記音声認識モデルを利用して、前記第１クラスの認識結果及び前記第２クラスの認識結果を処理して、前記少なくとも１チャネルのオーディオ信号に対応する少なくとも１つの語句認識結果を得るステップと、
前記語句認識結果に対して語意解析を行って、少なくとも１つの解析結果を得るステップと、
前記少なくとも１つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するステップと、を含む、
音声対話方法。

【請求項2】

少なくとも１チャネルのオーディオ信号を取得する前記ステップは、
オーディオ収集装置によって収集された初期オーディオ信号を受信するステップと、
前記初期オーディオ信号に対して音源分離処理を行って、前記少なくとも１チャネルのオーディオ信号を得るステップと、を含む、
請求項１に記載の方法。

【請求項3】

プリセットの音声認識モデルを利用して前記少なくとも１チャネルのオーディオ信号を認識し、前記音声認識モデルにより第１クラスの認識結果を得る前記ステップは、
前記少なくとも１チャネルのオーディオ信号にそれぞれ対応する音声認識インスタンスを決定するステップと、
決定された各音声認識インスタンスを並行に実行するステップと、
各音声認識インスタンスが、それぞれ前記音声認識モデルを利用して、対応するオーディオ信号を認識するステップと、を含む、
請求項１に記載の方法。

【請求項4】

前記語句認識結果に対して語意解析を行って、少なくとも１つの解析結果を得るステップは、
得られた各語句認識結果にそれぞれ対応する語意解析インスタンスを決定するステップと、
決定された各語意解析インスタンスを並行に実行するステップと、
各語意解析インスタンスにより、対応する語句認識結果に対して語意解析をそれぞれ行って、前記少なくとも１つの解析結果を得るステップと、を含む、
請求項３に記載の方法。

【請求項5】

プリセットの音声認識モデルを利用して前記少なくとも１チャネルのオーディオ信号を認識し、前記音声認識モデルにより第１クラスの認識結果を得る前記ステップは、
前記音声認識モデルに含まれている音声学サブモデルを利用して、前記少なくとも１チャネルのオーディオ信号にそれぞれ対応する音節集合及び前記音節集合内の音節に対応する第１確率スコアを決定するステップと、
前記音声認識モデルに含まれている言語サブモデルを利用して、前記少なくとも１チャネルのオーディオ信号にそれぞれ対応する単語集合を決定するステップと、
前記単語集合内の単語に基づいて、当該単語に対応する第２確率スコアが前記キャッシュに存在するか否かを決定するステップと、
存在しないと、前記言語サブモデルを利用して、当該単語に対応する第２確率スコアを決定するステップと、
前記第１確率スコア及び前記言語サブモデルによって決定された第２確率スコアに基づいて、前記第１クラスの認識結果を決定するステップと、を含む、
請求項１に記載の方法。

【請求項6】

キャッシュから前記少なくとも１チャネルのオーディオ信号に関する記憶された認識データを決定する前記ステップは、
前記単語集合内の単語に対して、当該単語に対応する第２確率スコアが前記キャッシュに存在するか否かを決定するステップと、
存在すると、前記キャッシュ内の第２確率スコアを当該単語の第２確率スコア言語サブモデルとして決定するステップと、
前記第１確率スコアと、前記キャッシュから決定された第２確率スコアに基づいて、第２クラスの認識結果を決定するステップと、を含む、
請求項５に記載の方法。

【請求項7】

前記音声認識モデルを利用して、前記第１クラスの認識結果及び前記第２クラスの認識結果を処理して、前記少なくとも１チャネルのオーディオ信号に対応する少なくとも１つの語句認識結果を得る前記ステップは、
前記第１クラスの認識結果及び前記第２クラスの認識結果にそれぞれ含まれる第１確率スコア及び第２確率スコアにしたがって、前記音声認識モデルに含まれる復号ネットワーク内で前記単語集合の目標パスを決定するステップと、
前記目標パスに基づいて、前記少なくとも１チャネルのオーディオ信号に対応する少なくとも１つの語句認識結果を生成するステップと、を含む、
請求項６に記載の方法。

【請求項8】

少なくとも１チャネルのオーディオ信号を取得するための取得モジュールと、
プリセットの音声認識モデルを利用して前記少なくとも１チャネルのオーディオ信号を認識し、前記音声認識モデルにより第１クラスの認識結果を得るための認識モジュールと、
キャッシュから前記少なくとも１チャネルのオーディオ信号に関する記憶された認識データを決定するための決定モジュールと、
前記記憶された認識データに基づいて、第２クラスの認識結果を生成するための第１生成モジュールと、
前記音声認識モデルを利用して、前記第１クラスの認識結果及び前記第２クラスの認識結果を処理して、前記少なくとも１チャネルのオーディオ信号に対応する少なくとも１つの語句認識結果を得るための処理モジュールと、
前記語句認識結果に対して語意解析を行って、少なくとも１つの解析結果を得るための解析モジュールと、
前記少なくとも１つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するための第２生成モジュールと、を含む、
音声対話装置。

【請求項9】

コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令が実行されると、請求項１～７のいずれか１項に記載の方法を実現する、
コンピュータ可読記憶媒体。

【請求項10】

プロセッサーと、
前記プロセッサーが実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサーは、請求項１～７のいずれか１項に記載の方法を実現するために、前記メモリから前記実行可能な命令を読み取って、前記命令を実行するために用いられる。
電子機器。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本願は、２０２１年３月１６日に中国国家知的財産権局に提出された、出願番号が２０２１１０２７９８１２．４であり、発明の名称が「音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器」である中国特許出願の優先権を主張し、その内容の全ては援用により本願に組み込まれる。

【0002】

本開示は、コンピュータ技術の分野に関し、特に、音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器に関する。

【背景技術】

【0003】

人工知能技術の継続的な進歩に伴い、ヒューマンコンピュータインタラクションも大きな進歩を遂げた。知能型音声対話技術は、自動車、ロボット、家電製品、中央制御システム、アクセス制御システム、ＡＴＭ機などのさまざまな機器に適用できる。

【0004】

例えば、車載音声対話シーンにおいて、音声対話システムは、１チャネルの音声信号しか受信しないことが一般的であり、当該音声信号を処理した後、ユーザにフィードバックする。人工知能技術の発展に伴い、音声対話システムは、より効率的で、知能的で、個性化される方向に発展している。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示の実施例は、音声対話（ｖｏｉｃｅｉｎｔｅｒａｃｔｉｏｎ）方法、装置、コンピュータ可読記憶媒体及び電子機器を提供する。

【課題を解決するための手段】

【0006】

本開示の実施例は、音声対話方法を提供し、当該方法は、少なくとも１チャネルのオーディオ信号を取得するステップと、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識し、音声認識モデルにより第１クラスの認識結果を得るステップと、キャッシュから少なくとも１チャネルのオーディオ信号に関する記憶された認識データを決定するステップと、記憶された認識データに基づいて、第２クラスの認識結果を生成するステップと、音声認識モデルを利用して、第１クラスの認識結果及び第２クラスの認識結果を処理して、前記少なくとも１チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得るステップと、前記語句認識結果に対して語意解析を行って、少なくとも１つの解析結果を得るステップと、少なくとも１つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するステップと、を含む。

【0007】

本開示の実施例の別の態様によれば、音声対話装置を提供し、当該装置は、少なくとも１チャネルのオーディオ信号を取得するための取得モジュールと、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識し、音声認識モデルにより第１クラスの認識結果を得るための認識モジュールと、キャッシュから少なくとも１チャネルのオーディオ信号に関する記憶された認識データを決定するための決定モジュールと、記憶された認識データに基づいて、第２クラスの認識結果を生成するための第１生成モジュールと、音声認識モデルを利用して、第１クラスの認識結果及び第２クラスの認識結果を処理して、少なくとも１チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得るための処理モジュールと、各語句認識結果に対して語意解析をそれぞれ行って、少なくとも１つの解析結果を得るための解析モジュールと、少なくとも１つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するための第２生成モジュールと、を含む。

【0008】

本開示の実施例の別の態様によれば、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体には、上記の音声対話方法を実行するためのコンピュータプログラムが記憶されている。

【0009】

本開示の実施例の別の態様によれば、電子機器を提供し、電子機器は、プロセッサーと、プロセッサーが実行可能な命令を記憶するためのメモリとを含み、プロセッサーは、上記の音声対話方法を実現するために、メモリから実行可能な命令を読み取って、命令を実行するために用いられる。

【0010】

本開示は、上記の実施例にて提供される音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器を基に、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識し、認識中に、キャッシュから記憶された認識データを抽出して認識結果の一部を生成し、認識結果の他の一部は、音声認識モデルによって生成されることにより、記憶された認識データを効果的に再利用し、音声認識モデルで全量データを処理する必要がなく、少なくとも１チャネルのオーディオ信号の処理効率を向上させ、マルチチャネル音声対話のシーンにおいても依然として低リソース消費や低処理遅延の要件を満たすことができるのに役立つ。

【0011】

以下、図面及び実施例により、本開示の技術的解決手段について詳細に説明する。
本開示の上記及び他の目的、特徴や利点は、本開示の実施例についての図面を併せてのより詳細な説明によって明らかになるであろう。図面は、本開示の実施例に対するさらなる理解を提供するために用いられるとともに、本明細書の一部を構成し、本開示の実施例と共に本開示を解釈するために用いられものであり、本開示を限定するものではない。図面において、同じ参照符号は一般的に同じ部材又はステップを示す。

【図面の簡単な説明】

【0012】

【図1】本開示に適用されるシステムの図である。

【図2】本開示の例示的な一実施例にて提供される音声対話方法の概略フローチャートである。

【図3】本開示の別の例示的な実施例にて提供される音声対話方法の概略フローチャートである。

【図4】本開示の別の例示的な実施例にて提供される音声対話方法の概略フローチャートである。

【図5】本開示の別の例示的な実施例にて提供される音声対話方法の概略フローチャートである。

【図6】本開示の別の例示的な実施例にて提供される音声対話方法の概略フローチャートである。

【図7】本開示の実施例による音声対話方法の適用シーンの概略図である。

【図8】本開示の例示的な一実施例にて提供される音声対話装置の概略構造図である。

【図9】本開示の別の例示的な実施例にて提供される音声対話装置の概略構造図である。

【図10】本開示の例示的な一実施例にて提供される電子機器の構造図である。

【発明を実施するための形態】

【0013】

以下、添付図面を参照しながら、本開示の例示的な実施例について詳細に説明する。説明された実施例は、本開示のすべての実施例ではなく、本開示の一部の実施例に過ぎないことは明らかで、本開示は、本明細書に記載の例示的な実施例に限定されるものではないことを理解されたい。

【0014】

なお、特に明記しない限り、これらの実施例に記載された部材及びステップの相対的な配置、数式及び値は本開示の範囲を限定するものではない。

【0015】

当業者であれば、本開示の実施例における「第１」、「第２」などの用語は異なるステップ、機器又はモジュールなどを区別するために用いられるだけで、いかなる特定の技術的意味を表すものでもなく、それらの間の必然的な論理的順序を表すものでもないことを理解できる。

【0016】

さらに、本開示の実施例において、「複数」とは、２つ又は２つ以上を意味し、「少なくとも１つ」とは、１つ、２つ又は２つ以上を意味することも理解されたい。

【0017】

さらに、本開示の実施例に言及されるいずれか１つの部材、データ又は構造は、明確に限定されていないか又は文脈上逆の示唆が与えられない場合、一般的に、１つ又は複数であると理解できることも理解されたい。

【0018】

また、本開示において、「及び／又は」という用語は、関連オブジェクトの関連関係を説明するためのものにすぎず、三種類の関係が存在することを表し、例えば、Ａ及び／又はＢは、Ａが単独で存在する場合、ＡとＢが同時に存在する場合、Ｂが単独で存在する場合の３つの場合を表すことができる。また、本開示において、符号「／」は、一般に、前後関連するオブジェクトが「又は」の関係であることを示す。

【0019】

さらに、本開示の各実施例に対する説明は、各実施例間の相違点を強調し、その同じ又は類似の点は互いに参照することができ、簡潔にするために、詳細な説明を省略したことも理解されたい。

【0020】

また、図面に示されている各部分の寸法は、説明の便宜上、実際の比例関係に従って描かれたものではないことを理解されたい。

【0021】

以下、少なくとも１つの例示的な実施例に対する説明は、実際には例示的なものにすぎず、本開示及びその応用又は使用に対するいかなる限定ではない。

【0022】

関連分野の一般技術者に知られている技術、方法及び機器について詳細に説明しないが、適切な場合、前記技術、方法及び機器は明細書の一部と見なされるべきである。

【0023】

なお、以下の図面において、同様の符号及び文字は同様の項目を表しており、そのため、ある項目が、一度、ある図面において定義されると、それ以降の図面においては更なる説明を要しない。

【0024】

本開示の実施例は、多くの他の汎用又は専用のコンピューティングシステム環境又は構成と一緒に操作できる端末機器、コンピュータシステム、サーバなどの電子機器に適用できる。端末機器、コンピュータシステム、サーバなどの電子機器と一緒に使用するのに適した周知の端末機器、コンピューティングシステム、環境及び／又は構成の例として、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド型又はラップトップ型機器、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム、及び上記いずれか１つのシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

【0025】

端末機器、コンピュータシステム、サーバなどの電子機器は、コンピュータシステムによって実行されるコンピュータシステム実行可能な命令（プログラムモジュールなど）の一般的なコンテキストで記載されてもよい。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実現するルーチン、プログラム、目標プログラム、コンポーネント、論理、データ構造などを含み得る。コンピュータシステム／サーバは分散型クラウドコンピューティング環境内で実施でき、分散型クラウドコンピューティング環境において、タスクは、通信ネットワークによってリンクされたリモート処理機器によって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶機器を含むローカル又はリモートコンピューティングシステムの記憶媒体上に位置してもよい。

【0026】

出願の概要
現在の音声対話技術は、通常、マルチチャネル音声信号の同時処理ができず、１チャネルの音声信号の同時処理のみができるため、マルチユーザ、個性化の音声認識要件を満たすことができなく、そのため、本開示の技術的解決手段では、音声対話技術を、マルチチャネル音声を認識するシーンに適用する必要がある。

【0027】

現在、音声認識モデルは、音声信号に対して全量データの処理を行う必要があることにより、音声認識の効率が低く、対話の遅延が大きくなり、特に、マルチチャネル音声を認識するシーンで、マルチユーザの音声対話システムに対する高効率、個性化の要件を満たすことができない。

【0028】

例示的なシステム
図１は、本開示の実施例による音声対話方法又は音声対話装置を適用できる例示的なシステムアーキテクチャ１００を示す。

【0029】

図１に示すように、システムアーキテクチャ１００は、端末機器１０１、ネットワーク１０２及びサーバ１０３を含み得る。ネットワーク１０２は、端末機器１０１とサーバ１０３との間に通信リンクを提供するための媒体である。ここで、ネットワーク１０２は、例えば有線、無線通信リンク、または光ファイバーケーブルなどの様々な接続タイプを含むが、これらに限定されない。

【0030】

ユーザは、端末機器１０１を使用してネットワーク１０２を介してサーバ１０３と対話して、メッセージなどの受送信ができる。端末機器１０１には、音声認識アプリケーション、マルチメディアアプリケーション、検索型アプリケーション、ウェブブラウザアプリケーション、ショッピング型アプリケーション、インスタントメッセンジャーなどの様々な通信クライアントアプリケーションがインストールされていてもよい。

【0031】

端末機器１０１は、電子機器であってもよく、当該電子機器は、車載端末、携帯電話、ノートパーソコン、デジタル放送受信機、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、携帯情報端末）、ＰＡＤ（タブレットコンピュータ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｅｄｉａＰｌａｙｅｒ、ポータブルマルチメディアプレーヤー）などのモバイル端末、及びデジタルＴＶ、デスクトップ型コンピュータ、スマート家電などの固定端末などを含むが、これらに限定されない。

【0032】

サーバ１０３は、端末機器１０１からアップロードされたオーディオ信号を認識するバックグラウンド音声認識サーバなどの様々なサービス機能を提供できる機器であってもよい。当該バックグラウンド音声認識サーバは、受信したオーディオを処理して、音声対話機器を制御するための命令を取得し、当該命令を端末機器１０１にフィードバックすることができる。

【0033】

なお、本開示の実施例にて提供される音声対話方法は、サーバ１０３によって実行されてもよいし、端末機器１０１によって実行されてもよく、対応して、音声対話装置は、サーバ１０３に設置されてもよいし、端末機器１０１に設置されてもよい。

【0034】

図１における端末機器１０１、ネットワーク１０２及びサーバ１０３の数は例示にすぎないことを理解されたい。実装の要件に応じて、任意の数の端末機器、ネットワーク及び／又はサーバを配置でき、本願は、これに対して限定しない。また、オーディオ信号をリモートから取得する必要がない場合、上記システムアーキテクチャは、ネットワーク１０２を含まず、サーバ又は端末機器のみを含んでもよい。例えば、端末機器１０１とサーバ１０３とが有線の方法で接続されている場合、前記ネットワーク１０２は省略されてもよい。

【0035】

例示的な方法
図２は、本開示の例示的な一実施例にて提供される音声対話方法の概略フローチャートである。本実施例の方法は、電子機器（図１に示す端末機器１０１又はサーバ１０３）に適用できる。図２に示すように、当該方法は、以下のようなステップを含む。

【0036】

ステップ２０１で、少なくとも１チャネルのオーディオ信号を取得する。

【0037】

本実施例において、電子機器は、ローカルから又はリモートから少なくとも１チャネルのオーディオ信号を取得できる。例示として、本実施例が車載の音声認識シーンに適用される場合、上記の少なくとも１チャネルのオーディオ信号は、車両に搭載された少なくとも１つのマイクロフォンによって収集された、車内の少なくとも１つの乗客の音声信号であり得る。

【0038】

ステップ２０２で、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識し、音声認識モデルにより第１クラスの認識結果を得る。

【0039】

本実施例において、電子機器は、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識でき、認識中に、当該プリセットの音声認識モデルによって第１クラスの認識結果を得る。ここで、当該プリセットの音声認識モデルは、事前に大量の音声信号サンプルを利用して訓練して得たモデルであってもよい。当該プリセットの音声認識モデルは、入力された少なくとも１チャネルのオーディオ信号を認識して、少なくとも１つの語句認識結果を得るために用いられる。

【0040】

通常、プリセットの音声認識モデルは、複数のサブモデルを含んでもよく、例えば、音声学サブモデル、言語サブモデル、復号ネットワークサブモデルなどを含む。さらに、音声学サブモデルは、オーディオ信号に対して音節分割を行うために用いられ、言語サブモデルは、各音節を単語に変換するために用いられ、復号ネットワークサブモデルは、複数の単語から最適な組合せを選択してセンテンスを得るために用いられる。

【0041】

上記のステップ２０２で、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識する過程において、電子機器は、通常、先に、キャッシュから現在の処理段階に対応する認識データが存在するか否かを検索し、対応する認識データがキャッシュに存在しないと、上記のステップ２０２を実行し、認識データを取得し、当該認識データを第１クラスの認識結果とする。

【0042】

ステップ２０３で、キャッシュから記憶された少なくとも１チャネルのオーディオ信号に関する認識データを決定する。

【0043】

本実施例において、電子機器は、キャッシュから少なくとも１チャネルのオーディオ信号に関する記憶された認識データを決定できる。通常、上記の音声認識モデルの認識過程に、電子機器は、通常、先に、キャッシュから現在の処理段階に対応する認識データが存在するか否かを検索し、はいであれば、当該認識データを抽出する。

【0044】

ステップ２０４で、記憶された認識データに基づいて、第２クラスの認識結果を生成する。

【0045】

本実施例において、電子機器は、上記のステップ２０３で抽出された記憶された認識データに基づいて、第２クラスの認識結果を生成できる。例示として、上記の記憶された認識データを第２クラスの認識結果としてもよいし、上記の記憶された認識データを一定に処理した後、第２クラスの認識結果を得てもよく、ここで、前記一定の処理過程には、認識データに対する一定比例のスケーリング、正規化処理などが含まれる。

【0046】

なお、上記の第１クラスの認識結果及び第２クラスの認識結果は、通常、例えば音節の確率スコア、単語の確率スコアなどの音声認識モデル処理中に得られる中間結果である。

【0047】

ステップ２０５で、音声認識モデルを利用して、第１クラスの認識結果及び第２クラスの認識結果を処理して、少なくとも１チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得る。

【0048】

本実施例において、電子機器は、音声認識モデルを利用して、第１クラスの認識結果及び第２クラスの認識結果を処理して、少なくとも１チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得ることができる。通常、第１クラスの認識結果及び第２クラスの認識結果がいずれも音声認識モデルの処理によって得られる中間結果であるため、当該音声認識モデルを利用して上記の第１クラスの認識結果及び第２クラスの認識結果を一層処理する必要がある。

【0049】

一例示として、上記の第１クラスの認識結果及び第２クラスの認識結果は、オーディオ信号を認識して得られる各音節の確率スコア及び各単語の確率スコアを含んでもよく、音声認識モデルは、１つのオーディオ信号に対して、パス検索アルゴリズム（例えばＶｉｔｅｒｂｉアルゴリズム）を利用して、オーディオ信号に対応する認識された複数の単語から１つの最適なパス（ｐａｔｈ）を決定し、当該最適なパスに応じてセンテンスを取得して語句認識結果とすることができる。ここで、１チャネルのオーディオ信号は、１つの語句認識結果に対応でき、すると、マルチチャネルオーディオ信号はマルチチャネル語句認識結果に対応する。

【0050】

ステップ２０６で、各語句認識結果に対して語意解析をそれぞれ行って、少なくとも１つの解析結果を得る。

【0051】

本実施例において、電子機器は、少なくとも１つの語句認識結果における各結果に対して語意解析を行って、少なくとも１つの解析結果を得ることができる。ここで、上記の少なくとも１つの解析結果における各解析結果は１つのオーディオ信号に対応する。ここで、上記の少なくとも１つの解析結果は構造化されたデータであり得る。例えば、語句認識結果が「エアコンの温度を２５度に設定する」ということである場合、対応する解析結果は、「ドメイン＝車の制御、意図＝エアコンの温度設定、スロット位置＝＜温度値＝２５＞」である。

【0052】

なお、語句認識結果に対する語意解析の方法として、例えばルールエンジン、ニューラルネットワークエンジンなどの方法を採用できる。

【0053】

ステップ２０７で、少なくとも１つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成する。

【0054】

本実施例において、電子機器は、少なくとも１つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成することができる。ここで、上記の音声対話機器は、本開示の音声対話方法を実行するための上記の電子機器であってもよいし、上記の電子機器に通信可能に接続される電子機器であってもよい。例示として、音声対話機器が車載エアコンである場合、解析結果が「ドメイン＝車の制御、意図＝エアコンの温度設定、スロット位置＝＜温度値＝２５＞」であると、車載エアコンを所定のプリセット温度に設定するように制御するための命令を生成することができ、前記所定のプリセット温度は２５℃である。

【0055】

本開示の実施例にて提供される方法は、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識し、認識中に、キャッシュから記憶された認識データを抽出して認識結果の一部を生成し、認識結果の他の一部は音声認識モデルによって生成されることにより、記憶された認識データを効果的に再利用し、音声認識モデルで全量データを処理する必要がなく、さらに、少なくとも１チャネルのオーディオ信号に対する処理効率を向上させ、マルチチャネル音声対話のシーンにおいて、電子機器に対する低リソース消費、低処理遅延の要件を満たす。

【0056】

一部の選択可能な実施形態において、上記の電子機器は、プリセットの音声認識モデルの認識過程に得た認識データをキャッシュに記憶することもできる。具体的には、ある認識ステップに対応する認識データが上記のキャッシュに存在しない場合、音声認識モデルが当該認識ステップを実行して、得られた認識データをキャッシュに記憶する必要があり、それにより、後での当該認識データの再利用が容易になる。

【0057】

本実施形態は、音声認識モデルの認識過程に得た認識データをキャッシュに記憶することにより、認識データの再利用を実現でき、キャッシュにおける認識データを更新し続ける。また、モデルの認識過程に、より多くの記憶された認識データを使用することにより、音声認識の効率を一層向上させた。

【0058】

一部の選択可能な実施形態において、上記のステップ２０１の具体的な実行プロセスは下記のとおりである。

【0059】

まず、オーディオ収集装置によって収集された初期オーディオ信号を受信する。

【0060】

ここで、前記オーディオ収集装置の数は、１つであっても、複数であってもよく、少なくとも１チャネルの初期オーディオ信号を収集するために用いられる。上記の初期オーディオ信号は、オーディオ収集装置が少なくとも１つのユーザの音声を収集して得る信号であってもよい。例えば、複数のオーディオ収集装置を備え、かつ、各オーディオ収集装置は、車両内の各座席の周囲に取り付けられ、各オーディオ収集装置は、対応する座席の乗客の音声を収集するために用いられ、このとき、収集されたオーディオ信号には、通常、複数のユーザの混合音声信号が含まれる。

【0061】

次に、初期オーディオ信号に対して音源分離処理を行って、少なくとも１チャネルのオーディオ信号を得る。

【0062】

ここで、上記の音源分離処理方法として、既存の技術を採用してもよく、例えばブラインド信号源分離（ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ、ＢＳＳ）アルゴリズムを採用して、複数のユーザの音声信号を分離して、得られた各々チャネルのオーディオ信号は、それぞれ１人のユーザに対応する。車載音声対話のシーンにおいて、音源分離処理により、さらに、得られた各々チャネルのオーディオ信号を該当するオーディオ収集装置に対応させることができ、各オーディオ収集装置が該当する座席の近傍に取り付けられているため、得られた各々チャネルのオーディオ信号を該当する座席に対応させることができる。音源分離技術により、複数のユーザの音声信号を分離するとともに、異なるオーディオ収集装置と１対１の対応関係を確立させることを実現でき、具体的な実現プロセスは、従来の技術方法を参照でき、本実施例では詳細な説明を省略する。

【0063】

本実施形態は、初期オーディオ信号に対する音源分離により、複数のユーザの音声を分離することができ、それにより、後の各音声認識結果を該当するユーザに対応させるため、複数のユーザ音声対話の正確性を向上させた。

【0064】

一部の選択可能な実施形態において、図３に示すように、ステップ２０２は、下記のようなサブステップを含み得る。

【0065】

ステップ２０２１で、各々チャネルのオーディオ信号にそれぞれ対応する音声認識インスタンス（実例）を決定する。

【0066】

ここで、音声認識インスタンスは、コードによって構築されてもよく、各々の音声認識インスタンスは１チャネルのオーディオ信号に対応し、各々の音声認識インスタンスは、対応する１チャネルのオーディオ信号の認識のために用いられる。

【0067】

ステップ２０２２で、決定された各音声認識インスタンスを並行に実行する。

【0068】

例示として、マルチスレッド方法を採用して各音声認識インスタンスの並行実行を実現できるか、又は、各音声認識インスタンスをそれぞれ異なるＣＰＵで実行して、並行実行を実現することもできる。

【0069】

ステップ２０２３で、各音声認識インスタンスが、それぞれ前記プリセットの音声認識モデルを利用することによって、対応するオーディオ信号を認識する。

【0070】

具体的には、各音声認識インスタンスは、上記のプリセットの音声認識モデルを並行に又は個別に呼び出して、該当する音声信号を認識することができ、それにより、オーディオ信号の並行認識を実現した。通常、少なくとも１チャネルのオーディオ信号を認識する際に、先に、プリセットの音声認識モデルをメモリにロードしておき、各音声認識インスタンスが当該プリセットの音声認識モデルを共有することができる。なお、各音声認識インスタンスを利用してオーディオ信号を認識するとき、上記のキャッシュを共同使用してもよいため、各音声認識インスタンスに対する認識効率を向上させる。

【0071】

本実施形態は、各々のオーディオ信号に対応する音声認識インスタンスを構築すること、及び、各音声認識インスタンスを並行に実行することにより、複数のユーザの音声を同時に認識することを実現でき、また、各音声認識インスタンスは、１つの音声認識モデルを共同使用して音声信号を認識すること、及び、同じキャッシュを共同使用して認識データの記憶及び呼び出しを行うことにより、少なくとも１チャネルのオーディオ信号の音声認識を並行で行うこと、及び認識に必要なリソースを共有することを実現し、マルチユーザ音声対話シーンでの音声認識効率を向上させ、認識済みのデータが共同使用されるキャッシュに記憶されているため、後の認識過程に記憶済みの認識データを、繰り返して認識することを必要とせずに直接呼び出せばよく、さらに、メモリリソースを大幅に節約する。

【0072】

一部の選択可能な実施形態において、図４に示すように、ステップ２０６は、下記のようなサブステップを含み得る。

【0073】

ステップ２０６１で、得られた各語句認識結果にそれぞれ対応する語意解析インスタンス（実例）を決定する。

【0074】

ここで、語意解析インスタンスは、コードによって構築されてもよく、各々の語意解析インスタンスは、１チャネルのオーディオ信号の１つの語句認識結果に対応し、語意解析インスタンスは、語句認識結果に対する構造化解析のために用いられる。

【0075】

ステップ２０６２で、決定された各語意解析インスタンスを並行に実行する。

【0076】

例示として、マルチスレッド方法を採用して各語意解析インスタンスの並行実行を実現できるか、又は、各語意解析インスタンスをそれぞれ異なるＣＰＵで実行して、並行実行を実現することもできる。

【0077】

ステップ２０６３で、各語意解析インスタンスにより、対応する語句認識結果に対して語意解析をそれぞれ行う。

【0078】

具体的には、各語意解析インスタンスが事前に設置されたルールエンジン、ニューラルネットワークエンジンなどのモジュールを並行に呼び出して、語句認識結果に対する並行解析を実現することができる。

【0079】

本実施形態は、各々の語句認識結果に対応する語意解析インスタンスを構築すること、及び、各語意解析インスタンスを並行に実行することにより、複数のユーザの音声に対する認識及び解析を同時に行うことを実現し、それにより、音声対話を同時に行えるリンクを複数構築し、そして、各語意解析インスタンスは１つの語意リソースセットを共同使用することにより、マルチユーザ音声対話シーンでの音声認識効率も向上させる。

【0080】

さらに、図５を参照すると、音声対話方法の又一つの実施例の概略フローチャートを示し、本実施例において、図５に示すように、上記の図２に示す実施例に加え、ステップ２０２は、下記のステップを含み得る。

【0081】

ステップ２０２４で、音声認識モデルに含まれている音声学サブモデルを利用して、少なくとも１チャネルのオーディオ信号にそれぞれ対応する音節集合及び音節集合内の音節にそれぞれ対応する第１確率スコアを決定する。

【0082】

ここで、音声学サブモデルは、入力されたオーディオ信号の音節分割のために用いられる。例示として、音声学サブモデルは、隠れマルコフモデル（ＨＭＭ、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、混合ガウスモデル（ＧＭＭ、ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）などを含み得るが、これらに限定されない。前記第１確率スコアは、音節が正確に分割される確率を特徴付けるために用いられる。

【0083】

ステップ２０２５で、音声認識モデルに含まれている言語サブモデルを利用して、少なくとも１チャネルのオーディオ信号にそれぞれ対応する単語集合を決定する。

【0084】

ここで、言語サブモデルは、上記の音節集合に応じて単語集合を決定するために用いられ、例示として、言語サブモデルは、ｎ－ｇｒａｍ言語モデル、ニューラルネットワーク言語モデルなどを含み得るが、これらに限定されない。

【0085】

ステップ２０２６で、単語集合内の単語に対して、当該単語に対応する第２確率スコアがキャッシュに存在するか否かを決定する。

【0086】

存在しないと、前記言語サブモデルを利用して当該単語に対応する第２確率スコアを決定する。ここで、当該第２確率スコアは、認識された単語が現れる確率を特徴付けるために用いられる。例えば、「つける」の後に「エアコン」が現れる確率をコンピューティングすると、単語「エアコン」に対応する第２確率スコアになる。

【0087】

ある単語の確率スコアを決定する必要のあるとき、電子機器は、まず、キャッシュから現在の単語の第２確率スコアが存在するか否かを検索し、存在しないと、言語サブモデルを使用して当該単語の第２確率スコアをコンピューティングする。本実施例において、言語サブモデルのデータ処理量が大きいため、処理コストを節約するために、キャッシュを使用して前記言語サブモデルによって生成される第２確率スコアを事前に記憶しておき、さらに、使用時に直接当該キャッシュから前記第２確率スコアを取得することができる。

【0088】

ステップ２０２７で、第１確率スコア及び言語サブモデルによって決定された第２確率スコアに基づいて、第１クラスの認識結果を決定する。

【0089】

例示として、各第１確率スコアおよび各第２確率スコアを第１クラスの認識結果として決定することができる。

【0090】

言語サブモデルのデータ処理量が大きいため、上記の図５に対応する実施例にて提供される方法は、キャッシュが言語サブモデルによって生成される第２確率スコアを記憶するために専用されることにより、キャッシュはよりまとを絞って役割を果たし、即ち、データ処理量が大きく、頻繁なデータアクセスを伴うプロセスに的を絞ってキャッシュを適用し、キャッシュを使用して演算リソースを節約する役割を十分に果たし、キャッシュ内の冗長データが少なくなり、音声認識の効率を向上させる。

【0091】

さらに、図６を参照すると、音声対話方法の又の実施例の概略フローチャートを示し、本実施例において、図６に示すように、上記の図５に示す実施例に加え、ステップ２０３は、さらに、下記のようなステップを含み得る。

【0092】

ステップ２０３１で、単語集合内の単語に対して、当該単語に対応する第２確率スコアがキャッシュに存在するか否かを決定する。

【0093】

存在すると、キャッシュ内の第２確率スコアを当該単語の第２確率スコア言語サブモデルとして決定する。

【0094】

例示として、「つける」の後に「エアコン」が現れる確率をコンピューティングする必要がある場合、コンピューティングの前に、先に、キャッシュからコンピューティングした「エアコン」に対応する第２確率スコアを前に記憶しておいたか否かを検索し、記憶されていると、直接キャッシュから取り出して使用することができ、それにより、繰り返してコンピューティングすることを避ける。記憶されていないと、直接キャッシュから取り出して使用することができず、再度コンピューティングする必要がある。

【0095】

ステップ２０３２で、第１確率スコア及びキャッシュから決定した第２確率スコアに基づいて、第２クラスの認識結果を決定する。

【0096】

例示として、各第１確率スコア及びキャッシュから決定した第２確率スコアを第２クラスの認識結果として決定することができる。

【0097】

上記の図６に対応する実施例にて提供される方法は、単語に対応する第２確率スコアを決定するとき、先に、キャッシュから第２確率スコアを検索し、検索された第２確率スコアを単語の第２確率スコアとして決定することにより、より的を絞って言語サブモデルの演算量を低下させ、かつ、言語サブモデルの認識過程に占有されるメモリリソースも少なくなり、音声認識の効率を一層向上させる。

【0098】

一部の選択可能な実施形態において、上記の図５又は図６に対応する実施例に基づいて、上記のステップ２０５は、下記のように実行され得る。

【0099】

まず、第１クラスの認識結果及び第２クラスの認識結果にそれぞれ含まれる第１確率スコア及び第２確率スコアにしたがって、音声認識モデルに含まれる復号ネットワーク内で単語集合の目標パス（ｐａｔｈ）を決定する。

【0100】

ここで、復号ネットワークは、上記の単語集合に基づいて構築したネットワークであり、当該ネットワークに基づいて、第１確率スコア及び第２確率スコアにしたがって、ネットワーク内で単語の組み合わせの最適なパスを検索し、当該パスが目標パスである。

【0101】

なお、音節に対応する確率スコア及び単語に対応する確率スコアにしたがって、最適なパスを決定する方法は、従来の技術であり、ここでは詳細な説明を省略する。

【0102】

その後、当該目標パスに基づいて、少なくとも１チャネルのオーディオ信号にそれぞれ対応する語句認識結果を生成する。

【0103】

具体的には、目標パスに対応する単語を組み合わせてできたセンテンスを語句認識結果として決定できる。

【0104】

本実施形態は、第１確率スコア及び言語サブモデルコンピューティングを利用して得られた第２確率スコア、並びに、キャッシュから抽出された第２確率スコアにより、復号ネットワーク内で目標パスを検索して、語句認識結果を生成し、復号時にキャッシュ内の記憶された第２確率スコアを十分に利用することを実現して、語句認識結果を生成する効率を向上させる。

【0105】

図７に示すように、本実施例の音声対話方法の適用シーンの概略図を示す。図７の適用シーンにおいて、音声対話方法は車載音声対話システムに適用される。

【0106】

図７に示すように、マルチチャネルオーディオ信号は、それぞれ、運転席対話チェーン７０１、助手席対話チェーン７０２及び他の対話チェーン７０３に含まれる１つの対話チェーンに対応する。ここで、運転席対話チェーン７０１は、ドライバが車載音声対話システムと対話するために用いられ、助手席対話チェーン７０２は、助手席の位置の乗客が車載音声対話システムと対話するために用いられ、他の対話チェーン７０３は、他の座席の乗客が車載音声対話システムと対話するために用いられる。

【0107】

また、復号リソース７０４は、音声認識モデル７０４１及びキャッシュ７０４２を含み、語意リソース７０５は、語句認識結果を解析するためのルールエンジン７０５１と、ニューラルネットワークエンジン７０５２とを含む。図７から分かるように、運転席対話チェーン７０１において、電子機器は、運転席の音声信号に対して音声認識インスタンスＡを生成し、助手席の音声に対して音声認識インスタンスＢを生成し、各音声認識インスタンスは１つの復号リソース７０４セットを共同使用し、かつ、並行に実行して、語句認識結果Ｃ及び語句認識結果Ｄを得る。

【0108】

その後、電子機器は、語意インスタンスＥ及び語意インスタンスＦを構築し、語意インスタンスＥ及び語意インスタンスＦは、１つの語意リソースセットを共同使用し、語句認識結果Ｃ及び語句認識結果Ｄをそれぞれ解析して、構造化の解析結果Ｇ及び解析結果Ｈを得る。

【0109】

またその後、電子機器は、解析結果Ｇ及び解析結果Ｈに基づいて命令Ｉ、命令Ｊなどを生成し、例えば、命令Ｉは、エアコンをつけるために用いられ、命令Ｊは、車の窓を閉じるために用いられる。車載音声対話機器は、当該命令Ｉ及び命令Ｊに基づいて、対応する機能Ｋ及び機能Ｈを実行する。同様に、他の対話チェーン７０３の実行プロセスは、上記の運転席対話チェーン７０１及び助手席対話チェーン７０２と類似するため、ここでは、詳細な説明を省略する。

【0110】

例示的な装置
図８は、本開示の例示的な一実施例にて提供される音声対話装置の概略構造図である。本実施例は、電子機器に適用でき、図８に示すように、音声対話装置は、取得モジュール８０１、認識モジュール８０２、決定モジュール８０３、第１生成モジュール８０４、処理モジュール８０５、解析モジュール８０６及び第２生成モジュール８０７を含む。

【0111】

ここで、取得モジュール８０１は、少なくとも１チャネルのオーディオ信号を取得するために用いられ、認識モジュール８０２は、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識し、音声認識モデルにより第１クラスの認識結果を得るために用いられ、決定モジュール８０３は、キャッシュから少なくとも１チャネルのオーディオ信号に関する記憶された認識データを決定するために用いられ、第１生成モジュール８０４は、記憶された認識データに基づいて、第２クラスの認識結果を生成するために用いられ、処理モジュール８０５は、音声認識モデルを利用して、第１クラスの認識結果及び第２クラスの認識結果を処理して、少なくとも１チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得るために用いられ、解析モジュール８０６は、各語句認識結果に対する語意解析をそれぞれ行って、少なくとも１つの解析結果を得るために用いられ、第２生成モジュール８０７は、少なくとも１つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するために用いられる。

【0112】

本実施例において、取得モジュール８０１は、ローカルから又はリモートから少なくとも１チャネルのオーディオ信号を得ることができる。例示として、本実施例が車載の音声認識シーンに適用される場合、上記の少なくとも１チャネルのオーディオ信号は、車両に搭載された少なくとも１つのマイクロフォンによって収集された、車内の少なくとも１つの乗客の音声信号であり得る。

【0113】

本実施例において、認識モジュール８０２は、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識し、音声認識モデルにより第１クラスの認識結果を得ることができる。ここで、音声認識モデルは、事前に大量の音声信号サンプルを利用して訓練して得たモデルであってもよい。音声認識モデルは、入力されたオーディオ信号を認識して、語句認識結果を得るために用いられる。

【0114】

通常、音声認識モデルは、複数のサブモデルを含んでもよく、例えば、音声学サブモデル（オーディオ信号に対して音節分割を行うために用いられる）、言語サブモデル（各音節を単語に変換するために用いられる）、復号ネットワーク（複数の単語から最適な組合せを選択してセンテンスを得るために用いられる）を含む。

【0115】

上記の音声認識モデルが認識する過程において、認識モジュール８０２は、通常、先に、キャッシュから現在の処理段階に対応する認識データを検索し、対応する認識データがキャッシュに存在しない場合、上記の音声認識モデルを利用して認識し、得られた認識データを第１クラスの認識結果とする。

【0116】

本実施例において、決定モジュール８０３は、キャッシュから少なくとも１チャネルのオーディオ信号に関する記憶された認識データを決定できる。通常、上記の音声認識モデルが認識する過程において、決定モジュール８０３は、通常、先に、キャッシュから現在の処理段階に対応する認識データを検索し、該当する認識データがキャッシュに存在する場合、当該認識データを抽出する。

【0117】

本実施例において、第１生成モジュール８０４は、上記の抽出された記憶された認識データに基づいて、第２クラスの認識結果を生成することができる。例示として、上記の記憶された認識データを第２クラスの認識結果としてもよいし、上記の記憶された認識データを一定処理した後（例えばデータに対する一定の比例でのスケーリング、正規化処理など）に第２クラスの認識結果を得てもよい。

【0118】

なお、上記の第１クラスの認識結果及び第２クラスの認識結果は、通常、音声認識モデル処理中に得られた中間結果であり、例えば音節の確率スコア、単語の確率スコアなどである。

【0119】

本実施例において、処理モジュール８０５は、音声認識モデルを利用して、第１クラスの認識結果及び第２クラスの認識結果を処理して、少なくとも１チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得ることができる。通常、第１クラスの認識結果及び第２クラスの認識結果は、音声認識モデルの処理によって得られた中間結果であるため、音声認識モデルは、第１クラスの認識結果及び第２クラスの認識結果を一層処理する必要がある。例示として、第１クラスの認識結果及び第２クラスの認識結果は、オーディオ信号を認識した後に得られる各音節の確率スコア及び各単語の確率スコアを含んでもよく、音声認識モデルは、１つのオーディオ信号に対して、パス検索アルゴリズム（例えばＶｉｔｅｒｂｉアルゴリズム）を利用して、オーディオ信号に対応する認識された複数の単語から１つの最適なパスを決定し、得られたセンテンスを語句認識結果とする。

【0120】

本実施例において、解析モジュール８０６は、各語句認識結果に対して語意解析をそれぞれ行って、少なくとも１つの解析結果を得ることができる。ここで、上記の少なくとも１つの解析結果のうち、各解析結果は１つのオーディオ信号に対応する。一般に、解析結果は、構造化されたデータであり得る。例えば、語句認識結果は「エアコンの温度を２５度に設定する」ということであり、解析結果は、「ドメイン＝車の制御、意図＝エアコンの温度設定、スロット位置＝＜温度値＝２５＞」ということである。

【0121】

なお、語句に対して語句解析を行う方法として、従来の技術を採用してもよい。例えば、ルールエンジン、ニューラルネットワークエンジンなどを使用する。

【0122】

本実施例において、第２生成モジュール８０７は、少なくとも１つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成することができる。ここで、上記の音声対話機器は、上記の音声対話装置が設置されている電子機器であってもよいし、上記の電子機器に通信可能に接続される電子機器であってもよい。例示として、音声対話機器が車載エアコンである場合、解析結果が「ドメイン＝車の制御、意図＝エアコンの温度設定、スロット位置＝＜温度値＝２５＞」ということであると、車載エアコンを２５℃に設定するように制御するための命令を生成することができる。

【0123】

図９を参照すると、図９は、本開示の別の例示的な実施例にて提供される音声対話装置の概略構造図である。

【0124】

一部の選択可能な実施形態において、当該装置は、さらに、音声認識モデルが認識する過程に得た認識データをキャッシュに記憶するための記憶モジュール８０８を含む。

【0125】

一部の選択可能な実施形態において、取得モジュール８０１は、オーディオ収集装置によって収集された初期オーディオ信号を受信するための受信ユニット８０１１と、初期オーディオ信号に対して音源分離処理を行って、少なくとも１チャネルのオーディオ信号を得るための処理ユニット８０１２と、を含む。

【0126】

一部の選択可能な実施形態において、認識モジュール８０２は、少なくとも１チャネルのオーディオ信号にそれぞれ対応する音声認識インスタンスを決定するための第１決定ユニット８０２１と、決定された各音声認識インスタンスを並行に実行するための第１実行ユニット８０２２と、各音声認識インスタンスが音声認識モデルをそれぞれ利用して、対応するオーディオ信号を認識するための認識ユニット８０２３とを含む。

【0127】

一部の選択可能な実施形態において、解析モジュール８０６は、得られた各語句認識結果にそれぞれ対応する語意解析インスタンスを決定するための第２決定ユニット８０６１と、決定された各語意解析インスタンスを並行に実行するための第２実行ユニット８０６２と、各語意解析インスタンスにより、対応する語句認識結果に対して語意解析をそれぞれ行うための解析ユニット８０６３と、を含む。

【0128】

一部の選択可能な実施形態において、認識モジュール８０２は、音声認識モデルに含まれている音声学サブモデルを利用して、少なくとも１チャネルのオーディオ信号にそれぞれ対応する音節集合及び音節集合内の音節にそれぞれ対応する第１確率スコアを決定するための第３決定ユニット８０２４と、音声認識モデルに含まれている言語サブモデルを利用して、少なくとも１チャネルのオーディオ信号にそれぞれ対応する単語集合を決定するための第４決定ユニット８０２５と、単語集合内の単語に対して、当該単語に対応する第２確率スコアがキャッシュに存在するか否かを決定し、存在しないと、言語サブモデルを利用して当該単語に対応する第２確率スコアを決定するための第５決定ユニット８０２６と、第１確率スコア及び言語サブモデルによって決定された第２確率スコアに基づいて、第１クラスの認識結果を決定するための第６決定ユニット８０２７と、を含む。

【0129】

一部の選択可能な実施形態において、決定モジュール８０３は、単語集合内の単語に対して、当該単語に対応する第２確率スコアがキャッシュに存在するか否かを決定し、存在すると、キャッシュ内の第２確率スコアを当該単語の第２確率スコア言語サブモデルとして決定するための第７決定ユニット８０３１と、第１確率スコア及びキャッシュから決定した第２確率スコアに基づいて、第２クラスの認識結果を決定するための第８決定ユニット８０３２と、を含む。

【0130】

一部の選択可能な実施形態において、処理モジュール８０５は、第１クラスの認識結果及び第２クラスの認識結果にそれぞれ含まれている第１確率スコア及び第２確率スコアにしたがって、音声認識モデルに含まれる復号ネットワーク内で単語集合の目標パスを決定するための第９決定ユニット８０５１と、目標パスに基づいて、少なくとも１チャネルのオーディオ信号にそれぞれ対応する語句認識結果を生成するための生成ユニット８０５２と、を含む。

【0131】

本開示の上記の実施例にて提供される音声対話装置は、プリセットの音声認識モデルを利用して少なくとも１チャネルのオーディオ信号を認識し、認識中に、キャッシュから記憶された認識データを抽出して認識結果の一部を生成し、認識結果の他の一部は、音声認識モデルによって生成されるため、音声認識モデルで全量データを処理することを必要とせずに、記憶された認識データを効果的に再利用し、少なくとも１チャネルのオーディオ信号の処理効率を向上させ、マルチチャネル音声対話のシーンにおいても依然として低リソース消費や低処理遅延の要件を満たすことができるのに役立つ。

【0132】

例示的な電子機器
以下、図１０を参照しながら本開示の実施例に係る電子機器について説明する。当該電子機器は、図１に示す端末機器１０１及びサーバ１０３のいずれか一方又は両方であってもよいし、これらから独立したスタンドアロン機器であってもよく、当該スタンドアロン機器は、端末機器１０１及びサーバ１０３と通信して、これらから収集された入力信号を受信することができる。

【0133】

図１０は、本開示の実施例による電子機器のブロック図を示す。

【0134】

図１０に示すように、電子機器１０００は、少なくとも１つのプロセッサー１００１及び少なくとも１つのメモリ１００２を含む。

【0135】

ここで、少なくとも１つのプロセッサー１００１のうちのいずれか１つのプロセッサーは、中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）又はデータ処理能力及び／又は命令実行能力を持っている他の形態の処理装置であってもよく、所望の機能を実行するように電子機器１０００内の他のコンポーネントを制御できる。

【0136】

メモリ１００２は、揮発性メモリ及び／又は不揮発性メモリなどの様々な形態のコンピュータ可読記憶媒体に含まれる１つ又は複数のコンピュータプログラム製品を含んでもよい。揮発性メモリは、例えばランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）及び／又はキャッシュメモリ（ｃａｃｈｅ）などを含んでもよい。ここで、不揮発性メモリは、例えば読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ハードディスク、フラッシュメモリなどを含んでもよい。コンピュータ可読記憶媒体に１つ又は複数のコンピュータプログラム命令を記憶することができ、プロセッサー１００１は、上記の本開示の各実施例における音声対話方法及び／又は他の所望の機能を実現するために、プログラム命令を実行できる。コンピュータ可読記憶媒体に、認識データなどの様々な内容も記憶できる。

【0137】

一例では、電子機器１０００は、さらに、バスシステム及び／又は他の形態の接続機構（図示せず）を介して互に接続されている入力装置１００３及び出力装置１００４を含んでもよい。

【0138】

例えば、当該電子機器は、端末機器１０１又はサーバ１０３である場合、入力装置１００３は、オーディオ信号を入力するためのマイクロフォンなどの機器であってもよい。当該電子機器は、スタンドアロン機器ある場合、入力装置１００３は、端末機器１０１及びサーバ１０３から入力されたオーディオ信号を受信するための通信ネットワークコネクタであってもよい。

【0139】

出力装置１００４により、外部に、音声対話機器が対応する機能を実行する命令などの様々な情報を出力することができる。出力装置１００４は、ディスプレイ、スピーカー、プリンター、通信ネットワーク及びそれらに接続されるリモート出力装置などをさらに含んでもよい。

【0140】

当然のことながら、説明の簡略化のために、図１０には、電子機器１０００内の本開示に係わるコンポーネントの一部のみが示されており、バスや入出力インタフェースなどのコンポーネントは省略された。このほか、具体的な応用状況に応じて、電子機器１０００は任意の適切な他のコンポーネントをさらに含んでもよい。

【0141】

例示的なコンピュータプログラム製品及びコンピュータ可読記憶媒体
本開示の実施例は、上記の方法及び機器以外に、コンピュータプログラム命令を含むコンピュータプログラム製品であってもよく、前記コンピュータプログラム命令がプロセッサーによって実行されると、前記プロセッサーが本明細書の上記「例示的な方法」に記載の本開示の様々な実施例による音声対話方法におけるステップを実行する。

【0142】

前記コンピュータプログラム製品は、１つ又は複数のプログラミング言語の任意の組み合わせで、本開示の実施例の操作を実行するためのプログラムコードを作成することができ、前記プログラミング言語は、Ｊａｖａ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び「Ｃ」言語又は類似のプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザコンピューティング機器上で実行されても、一部がユーザ機器上で実行されても、スタンドアロンソフトウェアパッケージとして実行されても、一部がユーザコンピューティング機器上で、一部がリモートコンピューティング機器上で実行されても、完全にリモートコンピューティング機器もしくはサーバ上で実行されてもよい。

【0143】

また、本開示の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であってもよく、前記コンピュータプログラム命令がプロセッサーによって実行されると、プロセッサーが本明細書の上記「例示的な方法」に記載の本開示の様々な実施例による音声対話方法におけるステップを実行する。

【0144】

前記コンピュータ可読記憶媒体は、１つ又は複数の可読媒体の任意の組み合わせを採用することができる。可読媒体は、可読信号媒体又は可読記憶媒体であり得る。可読記憶媒体は、電気、磁気、光学、電磁、赤外線、又は半導体のシステム、装置、又はデバイス、あるいはそれらの任意の組み合わせを含み得るが、これらに限定されない。可読記憶媒体のより具体的な例（非網羅的なリスト）は、１つ又は複数のワイヤを有する電気接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスク（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含む。

【0145】

以上、具体的な実施例と併せて本開示の基本原理を説明したが、本開示で言及された利点、長所、効果は、限定ではなく、例示にすぎず、各実施例が、これらの利点、長所、効果を備えなければならないと考えるべきではないことを理解されたい。また、上記開示の具体的な詳細は、限定ではなく、例示的な役割及び理解を容易にするための役割を果たすためのものにすぎず、上記の詳細は、本開示が必ず上記の具体的な詳細で実現されるように限定するものではない。

【0146】

本明細書における各実施例は、逐次的な方法で説明され、各実施例では、他の実施例との相違点を中心に説明し、各実施例間の同一又は類似の部分は、互に参照すればよい。システムの実施例については、基本的に方法の実施例に対応するため、比較的簡単に説明したが、関連する箇所は方法の実施例の説明の一部を参照すればよい。

【0147】

本開示に係るデバイス、装置、機器、システムのブロック図は、単なる例示的な例にすぎず、必ずブロック図に示される方式で接続、配置、構成されることを要求又は暗示することを意図していない。当業者であれば、これらのデバイス、装置、機器、システムを任意の方法で接続、配置、構成してもよいことを分かるだろう。「含む」、「備える」、「有する」などの用語はオープン型語彙であり、「を含むが、それらに限定されない」ということを意味し、それと互換的に使用され得る。本明細書に使用される「又は」と「及び」という用語は、「及び／又は」という用語を指し、文脈上で明らかに別の意味を示さない限り、それらと互換的に使用され得る。本明細書に使用される「たとえば」という単語は、「例えば、しかし、これに限定されない」というフレーズを意味し、それと互換的に使用され得る。

【0148】

本開示の方法及び装置は、多くの方式で実現することが可能である。例えば、本開示の方法及び装置は、ソフトウェア、ハードウェア、ファームウェア、又はソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって実現できる。前記方法のステップに用いられる上記の順序は、単に説明するためのものにすぎず、本開示の方法のステップは、特に明記されない限り、上記で具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は、記録媒体に記録されたプログラムとして実施されてもよく、これらのプログラムは、本開示による方法を実現するための機械可読命令を含む。したがって、本開示は、本開示による方法を実行するためのプログラムを記憶した記録媒体も含む。

【0149】

なお、本開示の装置、機器及び方法において、各部材又はステップは、分解及び／又は再組合せしてもよい。これらの分解及び／又は再組合せは、本開示の等価解決手段と見なすべきである。

【0150】

開示された態様についての上記の説明は、当業者が本開示を作成又は使用することを可能にするために提供される。当業者にとって、これらの態様に対する様々な修正は明らかであり、本明細書に定義された一般原理は、本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に制限されることを意図しておらず、本明細書に開示された原理及び新規特徴と一致する最も広い範囲に従う。

【0151】

例示及び説明の目的のために、上記の説明を提示した。さらに、この説明は、本開示の実施例を本明細書に開示されている形態に制限することを意図していない。以上、複数の例示的な態様及び実施例を説明したが、当業者であれば、それらの特定の変形、修正、変更、追加、及びサブセットを認識できるであろう。

【図1】