IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧

特許7063937音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム
<>
  • 特許-音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム 図1
  • 特許-音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム 図2
  • 特許-音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム 図3
  • 特許-音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム 図4
  • 特許-音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-25
(45)【発行日】2022-05-09
(54)【発明の名称】音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20220426BHJP
【FI】
G10L15/10 500T
【請求項の数】 17
【外国語出願】
(21)【出願番号】P 2020098617
(22)【出願日】2020-06-05
(65)【公開番号】P2021076818
(43)【公開日】2021-05-20
【審査請求日】2020-10-01
(31)【優先権主張番号】201911108242.1
(32)【優先日】2019-11-13
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際特許業務法人
(72)【発明者】
【氏名】ワン ジージャン
(72)【発明者】
【氏名】バイ ジンフェン
(72)【発明者】
【氏名】チェン シェン
(72)【発明者】
【氏名】ジア レイ
【審査官】中村 天真
(56)【参考文献】
【文献】特開2019-139000(JP,A)
【文献】特開2018-136568(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声対話するための方法であって、
受信した音声信号の音声特徴に基づいて、前記音声信号に対応するテキストを決定するステップと、
前記音声特徴と前記テキストとに基づいて、前記テキストにおける要素の参照音声特徴と前記音声特徴における前記要素の目標音声特徴との間の類似度を決定するステップであって、前記参照音声特徴は、音声特徴とテキストとのアライメントを行い、テキストの各要素に対応するように分割された音声特徴であり、前記目標音声特徴は、テキストの各要素に対応する基準の音声特徴を、参照音声特徴の時間長に合わせて時間伸長させた音声特徴である、ステップと、
前記テキストに基づいて、前記音声信号が実行可能なコマンドである第1の可能性を判定するステップと、
前記音声特徴に基づいて、前記音声信号が前記実行可能なコマンドである第2の可能性を判定するステップと、
前記類似度と、前記第1の可能性と、前記第2の可能性とに基づいて、前記音声信号の処理に関する情報を決定するステップと、
を含む方法。
【請求項2】
前記類似度を決定するステップは、
前記音声特徴から、前記テキスト中の前記要素に対応する前記参照音声特徴を特定するステップと、
前記要素に対する前記参照音声特徴と前記目標音声特徴とに基づいて、前記類似度を決定するステップと、
を含む、請求項1に記載の方法。
【請求項3】
前記音声信号の処理に関する情報を決定するステップは、
前記類似度と、前記第1の可能性と、前記第2の可能性とに基づいて、前記音声信号が前記実行可能なコマンドであるか否かを判定するステップと、
前記音声信号が実行可能なコマンドであると判定された場合に、前記音声信号に対して意味解析を行うステップと、
前記意味解析の結果に基づいて、前記音声信号に対応する処理モデルを決定するステップと、
前記処理モデルにおいて、前記テキストを用いることより、前記音声信号の処理に関する情報を決定するステップであって、前記情報は、前記音声信号を処理するか否かを示す情報であるステップと、
を含む、請求項1に記載の方法。
【請求項4】
前記音声信号が前記実行可能なコマンドであるか否かを判定するステップは、
前記類似度が第1の閾値より大きく、前記第1の可能性が第2の閾値より大きく、前記第2の可能性が第3の閾値より大きいことに応答し、前記音声信号が前記実行可能なコマンドであると判定するステップを含む、請求項3に記載の方法。
【請求項5】
前記音声信号に対応する処理モデルを決定するステップは、
前記意味解析の結果に基づき、前記テキストに関連する分野を決定するステップ、
候補モデルのセットの中から、前記分野に対応する前記処理モデルを選出するステップと
を含む、請求項3に記載の方法。
【請求項6】
前記音声信号を受信するステップと、
受信した前記音声信号から前記音声特徴を抽出するステップと、
をさらに含む、請求項1に記載の方法。
【請求項7】
前記音声特徴は、声紋特徴を含む、請求項1に記載の方法。
【請求項8】
音声対話するための装置であって、
受信した音声信号の音声特徴に基づいて、前記音声信号に対応するテキストを決定するように配置されるテキスト決定部と、
前記音声特徴と前記テキストに基づいて、前記テキストにおける要素の参照音声特徴と前記音声特徴における前記要素の目標音声特徴との間の類似度を決定するように配置される第1の類似度決定部であって、前記参照音声特徴は、音声特徴とテキストとのアライメントを行い、テキストの各要素に対応するように分割された音声特徴であり、前記目標音声特徴は、テキストの各要素に対応する基準の音声特徴を、参照音声特徴の時間長に合わせて時間伸長させた音声特徴である、第1の類似度決定部と、
前記テキストに基づいて、前記音声信号が実行可能なコマンドである第1の可能性を判定するように配置される第1の可能性判定部と、
前記音声特徴に基づいて、前記音声信号が前記実行可能なコマンドである第2の可能性を判定するように配置される第2の可能性判定部と、
前記類似度と、前記第1の可能性と、前記第2の可能性とに基づいて、前記音声信号の処理に関する情報を決定するように配置される第1の情報決定部と、
を含む、装置。
【請求項9】
前記第1の類似度決定部は、
前記音声特徴から、前記テキスト中の前記要素に対応する前記参照音声特徴を特定するように配置される参照音声特徴決定部と、
前記要素に対する前記参照音声特徴と前記目標音声特徴とに基づいて、前記類似度を決定するように配置される第2の類似度決定部と、
を含む、請求項8に記載の装置。
【請求項10】
前記第1の情報決定部は、
前記類似度と、前記第1の可能性と、前記第2の可能性とに基づいて、前記音声信号が前記実行可能なコマンドであるか否かを判定するように配置される第1の実行可能コマンド判定部と、
前記音声信号が実行可能なコマンドであると判定された場合に、前記音声信号に対して意味解析を行うように配置される意味解析部と、
前記意味解析の結果に基づいて、前記音声信号に対応する処理モデルを決定するように配置される第1の処理モデル決定部と、
前記処理モデルにおいて、前記テキストを用いることより、前記音声信号の処理に関する情報を決定するように配置される第2の情報判定部であって、前記情報は、前記音声信号を処理するか否かを示す情報である第2の情報判定部と、
を含む、請求項8に記載の装置。
【請求項11】
前記第1の実行可能コマンド判定部は、
前記類似度が第1の閾値より大きく、前記第1の可能性が第2の閾値より大きく、前記第2の可能性が第3の閾値より大きいことに応答し、前記音声信号が前記実行可能なコマンドであると判定するように配置される第2の実行可能コマンド判定部と、
を含む、請求項10に記載の装置。
【請求項12】
前記第1の処理モデル決定部は、
前記意味解析の結果に基づき、前記テキストに関連する分野を決定するように配置される分野決定部と、
候補モデルのセットの中から、前記分野に対応する前記処理モデルを選出するように配置される第2の処理モデル決定部と、
を含む、請求項10に記載の装置。
【請求項13】
前記音声信号を受信するように配置される受信部と、
前記受信した音声信号から前記音声特徴を抽出するように配置される抽出部と、
をさらに含む、請求項8に記載の装置。
【請求項14】
前記音声特徴は声紋特徴を含む、請求項8に記載の装置。
【請求項15】
電子デバイスであって、
1または複数のプロセッサと、
1または複数のコンピュータプログラムを記憶した記憶装置と、を備え、
前記1又は複数のコンピュータプログラムが前記1又は複数のプロセッサにより実行されと、前記1または複数のプロセッサに請求項1~7のいずれかに記載の方法を実現させる電子デバイス
【請求項16】
プロセッサにより実行されると、請求項1~のいずれか1項に記載の方法を実現するコンピュータプログラムを記録したコンピュータ読み取り可能な記憶媒体。
【請求項17】
プロセッサにより実行されると、請求項1~のいずれか1項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施例は主に人工知能分野に関し、さらに具体的には、音声対話をするための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
音声対話技術とは、人間が音声で機械と対話する技術であり、自然言語の対話に類似する音声対話体験を実現する。ヒューマンコンピュータインタラクションは、マウス及びキーボードとスクリーンとを協力させることによりインタラクションするコンピュータ時代から、タッチパネルで直接インタラクションするスマートフォン時代に進んで来る。マンマシンインタラクションの方式はますます簡単となり、対話の支障が少なくなる。人工知能及び移動インターネットの発展に伴い、人と人との間の自然言語に類似する音声対話は、徐ヒューマンコンピュータインタラクションの新型の方式になりつつある。音声対話は、入力帯域幅が大きいことと、正確性が高いことと、移動の便利性に優れることと、利用しやすいこと等の利点を兼ね、ヒューマンコンピュータインタラクションに最適な対話方式の一つである。
【0003】
音声対話によってヒューマンコンピュータインタラクションを実現することで、情報の処理効率を向上させるとともに、ユーザと機械とのインタラクションがより便利になる。しかしながら、このようなインタラクションでは、多くの解決すべき問題がある。
【発明の概要】
【0004】
本開示の実施例によれば、音声対話のための方案が提供される。
【0005】
本開示の第1の態様においては、音声対話の方法を提供する。この方法は、音声対話するための方法であって、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストを決定するステップと、音声特徴とテキストに基づいて、テキストにおける要素の参照音声特徴と要素の目標音声特徴との間の類似度を決定するステップと、テキストに基づいて、音声信号が実行可能なコマンドである第1の可能性を判定するステップと、音声特徴に基づいて、音声信号が前記実行可能なコマンドである第2の可能性を判定するステップと、類似度と、第1の可能性と、第2の可能性とに基づいて、音声信号の処理に関する情報を決定するステップとを含む。
【0006】
本開示の第2態様においては、音声対話のための装置を提供する。この装置は、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストを決定するように配置されるテキスト決定部と、音声特徴とテキストに基づいて、テキストにおける要素の参照音声特徴と要素の目標音声特徴との間の類似度を決定するように配置される第1の類似度決定部と、テキストに基づいて、前記音声信号が実行可能なコマンドである第1の可能性を判定するように配置される第1の可能性判定部と、音声特徴に基づいて、音声信号が実行可能なコマンドである第2の可能性を判定するように配置される第2の可能性判定部と、類似度と、第1の可能性と、第2の可能性とに基づいて、音声信号の処理に関する情報を決定するように配置される第1の情報決定部とを含む。
【0007】
本開示の第3態様において、電子デバイスであって、1または複数のプロセッサと、1または複数のコンピュータプログラムを記憶した記憶装置と、を備え、前記1又は複数のコンピュータプログラムが前記1又は複数のプロセッサにより実行されと、前記1または複数のプロセッサに本開示の第1の態様に記載の方法を実現させる電子デバイスを提供する。
【0008】
本開示の第4態様において、プロセッサにより実行されると、本開示の第1の態様に記載の方法を実現するコンピュータプログラムを記録したコンピュータ読み取り可能な記憶媒体を提供する。
【0009】
なお、本開示の発明の概要の記述内容は、本開示の実施例の肝要の特徴、又は重要な特徴を限定するためのものではなく、本開示の範囲を限定するためのものでもない。本発明の他の特徴は、以下の記述より容易に理解される。
【0010】
本開示の第5態様において、プロセッサにより実行されると、本開示の第1の態様に記載の方法を実現するコンピュータプログラムを提供する。
【図面の簡単な説明】
【0011】
以下に図面を参照しながら詳細に説明することにより、本開示の各実施例の上記の特徴及び他の特徴、利点はより明らかになる。図面における同様又は類似の符号が同様又は類似の素子を示す。
図1】本開示の複数の実施例を実施可能な環境100を示す模式図である。
図2】本発明の幾つかの実施例に係る音声対話の方法200のフローチャートである。
図3】本発明の幾つかの実施例に係る音声対話の方法300のフローチャートである。
図4】本開示の幾つかの実施例に係る音声対話に用いられる装置400のブロック図である。
図5】本開示の複数の実施例を実施可能なデバイス500のブロック図を示す。
【発明を実施するための形態】
【0012】
以下は、本発明の実施例について、図面を参照して詳細に説明する。本開示の幾つかの実施例を図面に示したが、本開示は、様々な形態で実施されることが可能であり、また、本明細書に記述の実施例に限定されると解釈されるべきではない。逆に、これらの実施例は、本開示をより完全に理解するためのものである。本開示の図面及び実施例は、本開示の保護範囲を限定するものではなく、例示的なものである。
【0013】
本開示の実施例の説明において、用語「…を含む」及び類似の用語は、開放的に含むと解釈すべきであり、即ち、「…を含むが、これに限られない」という意味である。用語「…に基づく」は、「…の少なくとも一部に基づく」と解釈されるべきである。また、用語「一実施例」または「当該実施例」は、「少なくとも一つの実施例」として解釈されるべきものである。「第1」、「第2」等の用語は、異なるオブジェクトを意味してもよいし、同一のオブジェクトを意味してもよい。また、以下に他の明確な定義を含む場合もある。
【0014】
音声対話を実現する時、主に「一回のウェイクアップは、一回の対話」いう方式を採用する。該対話方式は、ウェイクアップワード検出の技術と製品ポリシーとの結合によるものであり、ユーザがデバイスを起動させるウェイクアップワードを発話すると、当該デバイス内蔵されたウェイクアップワード検出モジュールは、該ウェイクアップワード信号を検出し、すると、認識用のリスニングを起動する。音声尾点を検出した場合、又は予め設定された時間に達してリスニングが終了した場合、リスニング期間に受信した音声を認識して、ユーザの要求に応答することを主な特徴とする。
【0015】
しかし、「一回のウェイクアップは一回のインタラクション」の方式には、様々な問題がある。第一、ユーザがデバイスと対話する度に、ウェイクアップワードを発話する必要があり、毎回の対話が複雑になる。第二、ユーザーがウェイクアップした直後にデバイスに発話しない場合、デバイスが誤応答する恐れがある。また、例えば夜間の休息時間等、適切でない時間に誤ってウェイクアップした場合、ユーザ体験が非常に悪い。
【0016】
本開示の実施例に基づき、音声インタラクションの改善方法を提供する。この態様では、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストが決定される。そして、音声特徴とテキストとに基づいて、テキスト中の要素についての参照音声特徴と、要素についての音声特徴との類似度を決定する。また、テキストおよび音声の特徴に基づいて、音声信号が実行可能なコマンドである第1の可能性および第2の可能性を判定する。そして、類似度と、第1の可能性と、第2の可能性とに基づいて、音声信号の処理に関する情報を決定する。該方法により、複数の次元から音声対話デバイスが取得した音声信号に応答すべきか否か、及びどのように音声信号に応答するかを決定することができ、それによりより正確で、スマートに音声対話制御を実現し、ユーザ体験を向上させる。
【0017】
図1は、本開示の複数の実施例が実施可能な環境100の概略図である。該例示の環境100では、マンマシンインタラクションを行う際に、得られた音声信号110が管理デバイス120に送信される。
【0018】
音声信号110は、ユーザとの対話を実行する任意の音声対話デバイスにより取得することができる。幾つかの実施例において、ユーザが、音声対話デバイスに対し発話すると、音声110が取得されることができる。幾つかの実施例において、音声対話デバイスがユーザの周囲に存在する場合、ユーザが他の人と対話すると、音声対話デバイスは、音声信号110を取得することができる。幾つかの実施例において、音声信号110は、例えば、テレビ内の発話音声のような、音声対話デバイスにより受信された他の音声信号であってもよい。幾つかの実施例において、音声信号110は、一回のウェイクアップで、複数回の対話を実行する音声対話デバイスによって取得される。上記の例は、本開示を説明するためのものに過ぎず、本開示を具体的に限定するものではない。
【0019】
音声対話デバイスは、ユーザの音声指示を収集するための、互いに関連する集音器(例えば、1つ又は複数のマイクロフォン)を有してもよい。音声対話デバイスは、音声を再生するための、互いに関連する音響再生装置(例えば、1または複数のスピーカ)をさらに備えてもよい。
【0020】
音声対話デバイスは、音声信号を介して制御及び/又は対話を行う可能であれば、如何なる電子デバイスであってもよい。音声対話デバイスは、例として、スマートボックス、音声対話テレビボックス、スマート家電、音声個人指導機、スマートロボット、地図ナビゲーションデバイス、スマートウェアラブルデバイス等が挙げられるが、それらに限られまい。音声対話デバイスは、音声対話アプリケーションがインストールされた他の電子装置であってもよい。音声対話アプリケーションは、例えば、音声アシスタントアプリケーション、スマートカーシステム、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオ・ビデオ再生アプリケーション、スマートアシスタントアプリケーションなどであってもよい。このような音声対話アプリケーションがインストールされる電子デバイスは、例として、スマートフォン、マルチメディアコンピュータ、マルチメディアタブレット端末、インターネットノード、通信装置、デスクトップコンピュータ、ノート型コンピュータ、インタネットにアクセス可能なノートブックコンピュータ、タブレットコンピュータ、パーソナルナビゲーション装置、パーソナルデジタルアシスタント(PDA)、オーディオ/ビデオプレーヤ、デジタルカメラ/ビデオカメラ、測位装置、電子ブック装置、ゲーム装置又は上記各項目の任意の組み合わせが挙げられるが、それらに限られない。
【0021】
例えば、音声対話デバイスがスマートボックスである場合、音声指令は「***歌手の歌を再生してください」などであってもよく、音声対話デバイスは、音声信号が正しく認識された後に、対応する歌を検索してユーザのために再生することができる。
【0022】
音声対話デバイスと対話する際に、一般的に、ウェイクアップワードを用いて、音声対話デバイスを対話状態とするようにウェイクアップする必要がある。音声対話デバイスは、一回のウェイクアップで複数回の対話をサポートすることができる。一回のウェイクアップで複数回の対話の場合では、一旦、音声対話デバイスがウェイクアップされた後、例えば音声を発しているなど、デバイスが動作状態にあれば、ユーザは、再びウェイクアップワードを発することなく、直接音声インタラクションデバイスと対話することができる。これにより、対話の支障が低減し、ユーザの対話の意欲が向上する。幾つかの実施例において、対話は、例えば、電気の問い合わせ等のような問い合わせのカテゴリに属する場合、音声対話デバイスの回答が完了してから一定の期間(例えば一日)内に、ユーザは、デバイスを再びウェイクアップすることなく、対話を継続することができる。
【0023】
音声信号110は、管理デバイス120に送信され、処理される。管理デバイス120は、受信した音声信号110に基づいて、音声信号110が、ユーザにより発され、音声対話デバイスにより実行されるコマンドであるか否かを判断する。肯定である場合、管理デバイス120は、実行の指令を含む情報130、或いは、請求されるコンテンツを含む情報130を音声対話デバイスに処理させるように送信する。
【0024】
幾つかの実施例において、管理デバイス120は、クラウド側に位置する計算装置であり、音声対話デバイスからアップロードされた音声データを処理するために用いられる。幾つかの実施例において、管理デバイス120は、音声対話デバイスと同一のデバイスである。これにより、音声信号110は、音声信号110を受信した音声対話デバイスにより処理されることも可能である。音声対話デバイスは、音声信号110により実行されるコマンドであるか否かを直接認識する。幾つかの実施例において、管理デバイス120は、パーソナルコンピュータ、サーバコンピュータ、携帯型又は膝上型のデバイス、モバイルデバイス(例えば携帯電話、PDA(Personal Digital Assistant)、メディアプレーヤ等)、マルチプロセッサシステム、消費電子製品、小型コンピュータ、大型コンピュータ、これらのシステム又はデバイスのうちのいずれかを含む分散計算環境等を含むがこれらに限られない。
【0025】
なお、図1に示した環境は例示的なものに過ぎず、本発明を具体的に限定するものではないと理解されるべきである。
【0026】
以上、図1に、本開示の複数の実施例が実施可能な環境100の模式図が示される。次に、図2を参照しながら、本開示の幾つかの実施例に係る音声対話方法200のフローチャートについて説明する。方法200は、図1の管理デバイス120や他の任意の適切な装置で実施することができる。
【0027】
ステップ202において、管理デバイス120は、受信した音声信号110の音声特徴に基づいて、音声信号110に対応するテキストを決定する。管理デバイス120は、受信した音声信号110に対して、音声認識器を用いて音声認識処理を行う。音声認識器により、受信した音声信号110を音声信号110に対応するテキストとして認識することができる。幾つかの実施例において、音声信号110は様々な音声特徴を含むことができ、音声特徴は、例えば、声紋特徴、イントネーション特徴、又は音声を記述する他の適切な特徴であってもよいが、それらに限らない。なお、上述した音声特徴の例は、本開示の実施の形態を説明するためのものであり、本開示の具体的な限定を表すものではない。
【0028】
管理デバイス120は、音声信号110を受信する。幾つかの実施例において、管理デバイス120は、音声信号110を処理する装置である場合、管理デバイス120は、音声対話デバイスによりリアルタイムにアップロードされる音声信号110を受信するために用いられる。幾つかの実施例において、管理デバイス120は音声対話デバイスと同一のものであり、音声対話デバイスにおいて直接処理する。
【0029】
また、管理デバイス120は、声認識器により、音受信した音声信号110から音声特徴を抽出する。音声認識器は、音声信号110に対応するテキストを生成する際にも、抽出される音声特徴を必要とする。幾つかの実施例において、該音声特徴はメルケプストラム係数MFCC特徴である。上記の例は、本開示を説明するためのものであり、本開示を具体的に限定するものではない。当業者は、どのようなパラメータで音声特徴を表すかについて、必要に応じて任意に設定することができる。
【0030】
ボックス204では、管理デバイス120は、音声特徴とテキストとに基づいて、テキスト中の要素の参照音声特徴と、その要素に関する目標音声特徴との類似度を決定する。幾つかの実施例において、該要素は、テキスト中の字を指す。幾つかの実施例において、該要素はテキストにおける一つの音節を指す。幾つかの実施例において、当該要素はテキスト中の一つの文字を指す。上記の例は本開示を説明するためのものであり、本開示を具体的に限定するものではない。
【0031】
幾つかの実施例において、管理デバイス120は音声特徴から、テキストにおける要素に対応する参照音声特徴を特定する。管理デバイス120内のアライメント識別器は、識別されたテキストを用いて、テキスト内の各要素に対応する音声特徴を特定する。
【0032】
アライメント識別器は、各要素に対応する音声特徴を特定する際に、各要素に対応する基準の音声特徴を取得する。その後、取得された基準の音声特徴と音声特徴とを比較し、各要素に対応する目標音声特徴の開始時刻及び終了時刻を特定する。これにより、アライメント識別器は、テキスト中の要素に対応する開始時刻と終了時刻とから定まる所定時間を有する目標音声特徴を得ることができる。
【0033】
管理デバイス120は、要素に対応する基準の音声特徴と目標音声特徴とに基づいて、基準の音声特徴と目標音声特徴との類似度を決定する。
【0034】
管理デバイス120は、各要素に対応する目標音声特徴を取得した後、事前に訓練されたニューラルネットワークモデルに、目標音声特徴と基準音声特徴とを入力して、基準音声特徴と目標音声特徴との類似度を決定する。幾つかの実施例において、目標音声特徴と参照音声特徴との類似度が高い場合、認識された字が正確であることである。類似度が低い場合、認識されたワードが正確ではないことである。そして、要素毎の類似度に基づいて、取得されたテキスト内の要素全体の類似度を決定する。1つの実施形態において、要素全体の類似度は、各要素の類似度を合計し、そして平均化することにより決定することができる。
【0035】
ステップ206において、管理デバイス120は、テキストに基づいて、音声信号110が実行可能なコマンドである第1の可能性を判定する。管理デバイス120は、テキスト全体に基づいて、受信した音声信号110が音声対話デバイスと対話しようとする音声信号であるか否かを判断する。
【0036】
テキストによって音声信号が実行可能なコマンドであることを確定する処理も事前に訓練されたニューラルネットワークモデルによって実施される。該ニューラルネットワークモデルはニューラルネットワークNN、コンボリューションニューラルネットワークCNN又は再帰的ニューラルネットワークRNN等であってもよい。
【0037】
このニューラルネットワークモデルを訓練する際には、音声対話デバイスと音声対話するための音声のテキストをポジティブサンプルとし、音声対話デバイスと音声対話するのではない音声のテキストをネガティブサンプルとして訓練する。したがって、テキストを事前に訓練された当該ニューラルネットワークに入力することによって、音声信号が音声対話デバイスと対話するためものであることの信頼度値、即ち、第1の可能性を決定することができる。幾つかの実施例において、第1の可能性の値は0~1の間である。
【0038】
ステップ208において、管理デバイス120は、音声特徴に基づいて、音声信号110が実行可能なコマンドである第2の可能性を判定する。
【0039】
音声特徴により音声信号110が実行可能なコマンドであることを確定する処理も事前に訓練されたニューラルネットワークモデルにより実施される。該ニューラルネットワークモデルはニューラルネットワークNN、コンボリューションニューラルネットワークCNN又は再帰ニューラルネットワークRNN等であってもよい。幾つかの実施例において、使用される音声特徴はメルケプストラム係数MFCC特徴である。
【0040】
このニューラルネットワークモデルを訓練する際に、音声対話デバイスと音声対話するための音声の音声特徴をポジティブサンプルとし、音声対話デバイスと音声対話するのではない音声の音声特徴をネガティブサンプルとして訓練する。したがって、音声特徴を事前に訓練された当該ニューラルネットワークに入力することによって、音声信号が音声対話デバイスと対話するためのものであることの信頼度値、即ち、第2の可能性を判定することができる。
【0041】
ブロック210では、管理デバイス120は、類似度、第1の可能性、および第2の可能性に基づいて、音声信号110の処理に関する情報130を決定する。
【0042】
管理デバイス120は、取得したテキスト要素との類似度、第1の可能性、第2の可能性を融合して、音声信号110が音声対話デバイスと対話する音声信号であるか否かを判定する。次に、図3を参照して、類似度、第1の可能性、および第2の可能性に基づいて、音声信号110の処理に関する情報を決定する処理の詳細について説明する。
【0043】
該方法により、複数の次元から音声対話デバイスが取得した音声信号に応答すべきか否か、及びどのように音声信号に応答するかを決定することができ、それにより、さらに正確で且つスマートな音声対話制御を実現でき、ユーザ体験を向上させる。
【0044】
以上、図2を参照しながら、本発明の幾つかの実施例に係る音声対話方法200のフローチャートについて説明した。次に、図3を参照して、図2のブロック210における音声信号の処理に関する情報を決定する処理の詳細について説明する。図3は、本開示の幾つかの実施例に係る音声対話方法300のフローチャートを示す。図3の方法300は、図1の管理デバイス120や他の任意の適切な装置で実行することができる。
【0045】
ステップ302において、管理デバイス120は、類似度、第1の可能性、第2の可能性に基づいて、音声信号110が実行可能なコマンドであるか否かを判定する。管理デバイス120は、類似度、第1の可能性、第2の可能性を取得する際に、類似度の第1の閾値、第1の可能性の第2の閾値、第2の可能性の第3の閾値を取得してもよい。幾つかの実施例において、第1の閾値は0.5とし、第2の閾値は0.3とし、第3の閾値は0.8とする。
【0046】
幾つかの実施例において、類似度が第1の閾値より大きくなり、第1の可能性が第2の閾値より大きくなり、且つ、第2の可能性が第3の閾値より大きくなる場合、音声信号110が実行可能なコマンドであると判定し、即ち、音声信号110が音声対話デバイスと対話するためのものであると判定する。
【0047】
幾つかの実施例において、類似度、第1の可能性、及び第2の可能性の三つのうちの二つの値が、対応する閾値より大きくなり、且つ閾値よりも所定の割合高い場合(例えば閾値より20%高い場合)、該音声信号110が実行可能なコマンドであると判定し、即ち、音声信号110が音声対話デバイスと対話するためのものであると判定する。
【0048】
音声信号110が実行可能なコマンドではないと判定された場合、即ち、音声信号110が音声対話デバイスと対話するものではないと判定された場合、該音声信号110に対して処理を行わない。
【0049】
音声信号110が実行可能なコマンドであると判定された場合、ステップ304において、管理デバイス120は、音声信号110に対して意味解析を行う。音声信号110が音声対話デバイスと対話するためであると判定された場合、該音声信号110に対してさらに処理を行う必要がある。
【0050】
ステップ306において、管理デバイス120は、意味解析の結果に基づいて、音声信号110に対応する処理モデルを決定する。
【0051】
一実施例において、管理デバイス120は、意味解析の結果に基づいて、テキストに関連する分野を判定する。幾つかの実施例において、テキストに関連する分野を確定するプロセスも事前に訓練されたニューラルネットワークモデルによって実施される。このニューラルネットワークモデルを訓練する際に所定のテキスト及びその対応する分野を使用して訓練する。該ニューラルネットワークモデルを訓練した後、テキストをニューラルネットワークモデルに入力して、テキストに対応する分野を直接取得することができる。
【0052】
管理デバイス120は、候補モデルのセットの中から、分野に対応する処理モデルを選出する。管理デバイス120は、テキストの分野を特定すると、候補モデルのセットの中から、その分野に対応するモデルを選択する。幾つかの実施例において、該モデルはニューラルネットワークモデルである。このモデルを訓練する際に、意味に応じてコマンドを実行する必要があると判断されたテキストをポジティブサンプルとし、意味に応じて実行する必要がないと判断されたテキストをネガティブサンプルとする。
【0053】
ブロック308では、管理デバイス120は、処理モデルにより、テキストを用いて、音声信号110の処理に関する情報130を決定し、情報130は、音声信号110を処理するか否かを示す。
【0054】
テキストがニューラルネットワークモデルに入力すると、その意味から、当該テキストが、実行されるコマンドである可能性を判定することができる。一実施例において、可能性の値は0~1の間である。可能性が1に近い場合は、実行可能なコマンドであることである、0に近い場合は、実行可能なコマンドではないことである。
【0055】
実行されるコマンドであるか否かの判定は、必要に応じて所定の閾値を設定することにより行うことができる。実行されるコマンドであれば、対応する動作を実行する。実行されるコマンドではない場合、何の動作もしない。
【0056】
上述した方法によれば、音声対話デバイスと対話する音声であるか否かを判定した後、さらに意味に基づいて動作するか否かを決定することができる。これにより、音声対話時の音声コマンドの実行の正確性が向上し、音声コマンドを誤って実行してしまうことを抑制し、ユーザ体験を改善することができる。
【0057】
図4は、本開示の実施例に係る音声対話装置400の概略ブロック図である。図4に示すように、装置400は、受信した音声信号の音声特徴に基づいて、当該音声信号に対応するテキストを決定するテキスト決定部402を備えてもよい。また、装置400は、前記音声特徴と前記テキストとに基づいて、前記テキスト中の要素の基準音声特徴と前記音声特徴中の要素の目標音声特徴との類似度を判定する第1の類似度判定部404をさらに備えていてもよい。また、装置400は、テキストに基づいて、音声信号が実行可能なコマンドである第1の可能性を判定する第1の可能性判定部406をさらに備えていてもよい。また、装置400は、前記音声特徴に基づいて、前記音声信号が実行可能なコマンドである第2の可能性を判定する第2の可能性判定部408をさらに備えていてもよい。また、装置400は、類似度、第1の可能性、および第2の可能性に基づいて、音声信号の処理に関する情報を決定する第1の情報決定部410をさらに備えていてもよい。
【0058】
幾つかの実施形態では、第1の類似度判定部404は、音声特徴の中から、テキスト中の要素に対応する参照用音声特徴を特定する参照用音声特徴判定部と、要素に対する参照用音声特徴と目標音声特徴とに基づいて、参照用音声特徴と目標音声特徴との類似度を判定する第2の類似度判定部とを含む。
【0059】
第1の情報判定部410は、類似度、第1の可能性、第2の可能性に基づいて、音声信号が実行可能なコマンドであるか否かを判定する第1の実行可能コマンド判定部と、音声信号が実行可能なコマンドであると判定された場合に、当該音声信号に対して意味解析を行う意味解析部と、意味解析の結果に基づいて、当該音声信号に対応する処理モデルを決定する第1の処理モデル決定部と、処理モデルにより、テキストを用いることにより、当該音声信号に対する処理に関する情報を決定する第2の情報判定部とを含む。当該情報は、当該音声信号を処理するか否かを示すものである。
【0060】
幾つかの実施例において、第1の実行可能コマンド判定部は、類似度が第1の閾値より大きくなり、第1の可能性が第2の閾値より大きくなり、且つ第2の可能性が第3の閾値より大きくなることに応答し、音声信号が前記実行可能なコマンドであると判定する第2の実行可能コマンド判定部を含む。
【0061】
幾つかの実施例では、前記第1の処理モデル決定部は分野決定部を含み、それは意味解析の結果に基づき、テキストに関連する分野を決定するように構成される。及び第2の処理モデル決定部であって、それは一組の候補モデルから分野の処理モデルを選択するように構成される。
【0062】
ある実施形態において、音声対話装置400は、音声信号を受信する受信部と、受信した音声信号から音声特徴を抽出する抽出部とをさらに備える。
【0063】
図5は、本開示の一実施形態に係る電子デバイス500の概略構成を示すブロック図である。電子デバイス500は、図1の管理デバイス120を実現するために利用することができる。同図に示すように、この装置500は、ROM(Read Only Memory)502に記憶されているコンピュータプログラム指令、または記憶部508からRAM (Random Access Memory)503にロードされたコンピュータプログラム指令に基づいて、各種の動作および処理を実行可能な演算部501を備えている。また、RAM503には、装置500の動作に必要な各種プログラムやデータが記憶されている。演算部501、ROM502、およびRAM503は、バス504を介して相互に接続されている。バス504には、入出力(I/O)インタフェース505も接続されている。
【0064】
I/Oインタフェース505には、例えば、キーボード、マウスなどの入力部506と、例えば、各種のディスプレイ、スピーカなどの出力部507と、例えば、磁気ディスク、光ディスクなどの記憶部508と、例えば、ネットワークカード、モデム、無線通信送受信機などの通信部509とを含むデバイス500の複数の部分が接続されている。通信部509は、インターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報/データのやり取りを行うに用いられる。
【0065】
演算部501は、様々な処理や演算機能を有する汎用的及び/又は専用的な処理コンポーネントであってよい。演算部501の例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、各種専用のAI(Asymmetric Intellite)演算チップ、各種動作機械学習モデルアルゴリズムの演算部、DSP(Digital Signal Processor)、および、プロセッサ、コントローラ、マイクロコントローラなどが挙げられるが、上記に限定されるものではない。演算部501は、上述した方法200、300等の各方法、処理を実行する。例えば、実施形態において、方法200及び300は、記憶部508等の機械可読媒体に格納されたコンピュータソフトウェアプログラムとして実現されてもよい。また、コンピュータプログラムの一部または全部を、ROM502や通信部509を介して装置500にロードしたり、装置500にインストールしたりすることも可能である。コンピュータプログラムをRAM503にロードして演算装置501で実行することにより、上述した方法200、300の各ステップを実行することができる。また、他の実施形態において、演算部501は、実行方法500として、例えばファームウェアを利用するなど、他の任意の方法により構成されてもよい。
【0066】
なお、上述した各機能の少なくとも一部は、1または複数のハードウェア・ロジックによって実現されてもよい。例えば、限定的ではなく、使用可能な例示的なハードウェアロジック部品は、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、オンチップシステムのシステム(SOC)、負荷プログラマブルロジックデバイス(CPLD)などを含む。
【0067】
本発明の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び/又はブロック図で規定された機能・動作を実現することができる。また、プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、リモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。
【0068】
本発明において、機械可読媒体は、コマンド実行システム、装置又は装置が使用する、又はコマンド実行システム、装置又は装置と組み合わせて使用するプログラムを含む、又は記憶した有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体であってもよいし、機械可読記憶媒体であってもよい。機械可読媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、装置、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。機械的に読み取り可能な記憶媒体のより具体的な例としては、1又は複数のラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去及び書換可能なリードオンリメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯可能なCD-ROM、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせが挙げられる。
【0069】
また、各動作は、ある順序で描画されているが、図示した順序、順序で実行されてもよいし、所望の結果が得られるように、全ての動作が実行されてもよい。ある環境において、マルチタスク及び並列処理が有利であると考えられる。同様に、上記において幾つかの具体的な実現詳細を含むが、これらは本開示の範囲を限定するものと解釈されるべきではない。また、各実施の形態の中で説明されている特徴のうち、一部の特徴を組み合わせて1つの実施の形態としてもよい。逆に、1つの実装形態で記述された様々な特徴は、単独でもよいし、任意の適切なサブコンビネーションで複数の実装形態で実装されてもよい。
【0070】
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。逆に、上述した特定の特徴や作用は、あくまでも特許請求の範囲を実現するための例示的なものに過ぎない。
図1
図2
図3
図4
図5