特許第6876752号(P6876752)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧

<>
  • 特許6876752-応答方法及び装置 図000002
  • 特許6876752-応答方法及び装置 図000003
  • 特許6876752-応答方法及び装置 図000004
  • 特許6876752-応答方法及び装置 図000005
  • 特許6876752-応答方法及び装置 図000006
  • 特許6876752-応答方法及び装置 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6876752
(24)【登録日】2021年4月28日
(45)【発行日】2021年5月26日
(54)【発明の名称】応答方法及び装置
(51)【国際特許分類】
   G10L 13/10 20130101AFI20210517BHJP
   G10L 13/08 20130101ALI20210517BHJP
   G10L 13/00 20060101ALI20210517BHJP
   G10L 15/10 20060101ALI20210517BHJP
【FI】
   G10L13/10 114
   G10L13/08 124
   G10L13/00 100M
   G10L15/10 200W
   G10L15/10 500Z
【請求項の数】15
【外国語出願】
【全頁数】17
(21)【出願番号】特願2019-129594(P2019-129594)
(22)【出願日】2019年7月11日
(65)【公開番号】特開2020-34895(P2020-34895A)
(43)【公開日】2020年3月5日
【審査請求日】2019年12月12日
(31)【優先権主張番号】201811000038.3
(32)【優先日】2018年8月30日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際特許業務法人
(72)【発明者】
【氏名】ワン ウェンユ
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開2014−002383(JP,A)
【文献】 特開2018−081169(JP,A)
【文献】 特開2002−041084(JP,A)
【文献】 特開2017−176728(JP,A)
【文献】 特開2017−062602(JP,A)
【文献】 特開2010−078763(JP,A)
【文献】 国際公開第2017/147081(WO,A1)
【文献】 特開2015−119298(JP,A)
【文献】 米国特許第06665644(US,B1)
【文献】 中国特許出願公開第107170456(CN,A)
【文献】 特開2007−272773(JP,A)
【文献】 特開2004−109323(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−25/93
(57)【特許請求の範囲】
【請求項1】
ユーザがクライアントを介して送信した音声情報を受信することと、
前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定することと、
前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答することと
前記ユーザカテゴリは子供のユーザであると確定したことに応答して、前記ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュすることと、
を含む応答方法。
【請求項2】
前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定することは、
前記音声情報に対して声紋認識を行い、認識結果に基づいて前記ユーザが属するユーザカテゴリを決定することを含む、請求項1に記載の応答方法。
【請求項3】
前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定することは、
前記音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、前記ユーザカテゴリ認識モデルの出力に基づいて前記ユーザが属するユーザカテゴリを決定することを含む、請求項1に記載の応答方法。
【請求項4】
前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答することは、
前記音声情報の意味を解析することと、
前記意味にマッチングする応答情報を決定することと、
前記音声を使用して前記応答情報を再生することとを含む、請求項1に記載の応答方法。
【請求項5】
前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答することは、
音声情報にマナー用語が含まれるか否かを判定することと、
前記音声情報にマナー用語が含まれると判定したことに応答して、前記音声を使用して予め設定されたマナー用語を再生することとを含む、請求項1に記載の応答方法。
【請求項6】
前記音声は、前記ユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である、請求項1〜5のいずれか1項に記載の応答方法。
【請求項7】
ユーザがクライアントを介して送信した音声情報を受信するように構成される受信手段と、
前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定するように構成される決定手段と、
前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答するよう構成される応答手段と
前記ユーザカテゴリは子供のユーザであると確定したことに応答して、前記ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュするように構成されるプッシュ手段と、
を備える、応答装置。
【請求項8】
前記決定手段は、さらに、
前記音声情報に対して声紋認識を行い、認識結果に基づいて前記ユーザが所属するユーザカテゴリを決定するように構成される、請求項に記載の応答装置。
【請求項9】
前記決定手段は、さらに、
前記音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、前記ユーザカテゴリ認識モデルの出力に基づいて前記ユーザが属するユーザカテゴリを決定するように構成される、請求項に記載の応答装置。
【請求項10】
前記応答手段は、さらに、
前記音声情報の意味を解析して、
前記意味にマッチングする応答情報を決定して、
前記音声を使用して前記応答情報を再生するように構成される、請求項に記載の応答装置。
【請求項11】
前記応答手段は、さらに、
音声情報にマナー用語が含まれるか否かを判定して、
前記音声情報にマナー用語が含まれると判定したことに応答して、前記音声を使用して予め設定されたマナー用語を再生するように構成される、請求項に記載の応答装置。
【請求項12】
前記音声は、前記ユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である、請求項11のいずれか1項に記載の応答装置。
【請求項13】
1つ又は複数のプロセッサと、
1つ又は複数のプログラムが記憶されている記憶装置と、を備え、
前記1つ又は複数のプログラムを前記1つ又は複数のプロセッサに実行させることにより、請求項1〜のいずれか1項に記載の応答方法を前記1つ又は複数のプロセッサに実現させる、電子デバイス。
【請求項14】
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、前記コンピ
ュータプログラムが実行される場合、請求項1〜のいずれか1項に記載の応答方法を実現させる、コンピュータ可読媒体。
【請求項15】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜のいずれか1項に記載の応答方法を実現させるコンピュータプログラム。
【発明の詳細な説明】
【発明の詳細な説明】
【0001】
[技術分野]
本願の実施例はコンピュータ技術分野に関し、具体的にはインターネット技術分野に関し、特に応答方法及び装置に関する。
[背景技術]
【0002】
人工知能技術の発展に伴い、スクリーン付きスマートスピーカボックス及びスマートスピーカボックスはますます多くのユーザに使用されている。
ユーザは、音声によって上記スクリーン付きスマートスピーカボックスとスマートスピーカボックスに情報を送信して命令を取得させることができる。スクリーン付きスマートスピーカボックス又はスマートスピーカボックスは、ユーザからの情報に基づいて命令を取得して、ユーザに対してオーディオ又はビデオ情報などを再生する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本願の実施例は応答方法及び装置を提供する。
【課題を解決するための手段】
【0004】
第1態様では、本願の実施例は、ユーザがクライアントを介して送信した音声情報を受信すること、音声情報に基づいてユーザが属するユーザカテゴリを決定することと、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することとを含む応答方法を提供する。
【0005】
いくつかの実施例において、音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報に対して声紋認識を行い、認識結果に基づいてユーザが属するユーザカテゴリを決定することを含む。
【0006】
いくつかの実施例において、音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定することを含む。
【0007】
いくつかの実施例において、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報の意味を解析することと、意味にマッチングする応答情報を決定することと、上記音声を使用して応答情報を再生することとを含む。
【0008】
いくつかの実施例において、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報にマナー用語が含まれるか否かを判定することと、音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生することとを含む。
【0009】
いくつかの実施例において、上記音声はユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である。
【0010】
いくつかの実施例において、ユーザカテゴリは子供のユーザであり、この方法は、ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュすることをさらに含む。
【0011】
第2態様では、本願の実施例は、ユーザがクライアントを介して送信した音声情報を受信するように構成される受信手段と、音声情報に基づいてユーザが属するユーザカテゴリを決定するように構成される決定手段と、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するよう構成される応答手段とを備える応答装置を提供する。
【0012】
いくつかの実施例において、決定手段は、さらに、音声情報に対して声紋認識を行い、認識結果に基づいてユーザが属するユーザのカテゴリを決定するように構成される。
【0013】
いくつかの実施例において、決定手段は、さらに、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定するように構成される。
【0014】
いくつかの実施例において、応答手段は、さらに、音声情報の意味を解析して、意味にマッチングする応答情報を決定して、音声を使用して応答情報を再生するように構成される。
【0015】
いくつかの実施例において、応答手段は、さらに、音声情報にマナー用語が含まれているか否かを決定するように構成されており、音声情報にマナー用語が含まれるか否かを判定して、音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生するように構成される。
【0016】
いくつかの実施例において、音声はユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である。
【0017】
いくつかの実施例において、ユーザカテゴリは子供のユーザであり、この装置は、ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュするように構成されるプッシュ手段をさらに備える。
【0018】
第3態様では、本願の実施例は、1つ又は複数のプロセッサと、1つ又は複数のプログラムが記憶されている記憶装置と、上記1つ又は複数のプログラムを上記1つ又は複数のプロセッサに実行させることにより、上記第1態様のいずれか1つの実施例に記載の方法を上記1つ又は複数のプロセッサに実現させる電子デバイスを提供する。
【0019】
第4態様では、本願の実施例は、コンピュータプログラムが記憶されているコンピュータ可読媒体であって、このコンピュータプログラムが実行される場合、上記第1態様のいずれか1つの実施例に記載の方法を実現させるコンピュータ可読媒体を提供する。
【発明の効果】
【0020】
本願の実施例が提供する応答方法及び装置は、ユーザがクライアントを介して送信した音声情報を受信した後に、音声情報に基づいてユーザが属するユーザカテゴリを決定し、最後にユーザカテゴリにマッチングする音声を使用して、音声情報に応答する。それにより、応答音声とユーザのユーザカテゴリがマッチングして、ユーザカテゴリと指向性を有する応答音声で応答することを実現して、ユーザ体験を改善することができる。
本願の他の特徴、目的及び利点は、以下の図面を参照して説明される非限定的な実施例を読むことによって、より明らかになる。
【図面の簡単な説明】
【0021】
図1】本願の一実施例にかかる応答方法を適用可能なシステム構成の一例を示す図である。
図2】本願の応答方法にかかる一実施例のフローチャートである。
図3】本願の応答方法にかかる適用シーンの概略図である。
図4】本願の応答方法にかかる別の実施例を示すフローチャートである。
図5】本願の応答装置にかかる一実施例の構成概略図である。
図6】本願の実施例の電子デバイスを実現するのに適したコンピュータシステムの構成概略図である。
【発明を実施するための形態】
【0022】
以下、図面及び実施例を参照しながら本願をさらに詳細に説明する。本明細書に記載された具体的な実施例は、単に本発明を説明するためのものであり、本発明を限定するものではないことが理解されるべきである。なお、説明の便宜上、図面には、かかる発明に関連する部分のみが示されている。
【0023】
なお、矛盾しない場合に、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面及び実施例を参照しながら本願を詳細に説明する。
【0024】
図1には、本願の一実施例にかかる応答方法を適用可能なシステム構成の一例が示されている。
【0025】
図1に示されるように、システム構成100は、端末デバイス101、102、103、ネットワーク104及びサーバ105を含むことができる。ネットワーク104は、端末デバイス101、102、103とサーバ105との間で通信リンクの媒体を提供するために使用される。ネットワーク104は、例えば、有線や無線通信リンク、又は光ファイバケーブルなどの様々な接続タイプを含むことができる。
【0026】
ユーザは、端末デバイス101、102、103を使用して、ネットワーク104を介してサーバ105と対話して、メッセージなどを送受信することができる。端末デバイス101、102、103には、例えばマルチメディア情報再生アプリケーション、検索アプリケーション、インスタントメッセージングツールなどの各種のクライアントアプリケーションがインストールされることができる。
【0027】
端末デバイス101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末デバイス101、102、103がハードウェアである場合、表示パネルを有するとともにマルチメディア情報の再生をサポートする様々な電子デバイスであってもよく、スマートフォン、スマートロボット、スマートスピーカボックス、スクリーン付きスマートスピーカボックス、ウェアラブルデバイス、タブレット型コンピュータ、電子ブックリーダ、MP3(Moving Picture Experts Group Audio Layer III)プレーヤ、MP4(Moving Picture Experts Group Audio Layer IV)プレーヤ、ラップトップポータブルコンピュータ及びデスクトップコンピュータなどが挙げられるが、これらに限定されない。端末デバイス101、102、103がソフトウェアである場合、上記例示された電子デバイスにインストールされることができる。複数のソフトウェア又はソフトウェアモジュール(例えば分散型サービスを提供するために使用されるソフトウェア又はソフトウェアモジュール)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定されるものではない。
【0028】
サーバ105は様々なサービスを提供することができ、例えば端末デバイス101、102、103から送信されたユーザの音声情報を受信して、音声情報を分析処理して、処理結果(例えばユーザのユーザカテゴリ)に基づいて音声情報に応答する。
【0029】
なお、本願の実施例が提供する応答方法は、一般的にサーバ105によって実行され、それに応じて、応答装置は、一般的にサーバ105に設置される。
【0030】
なお、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバはハードウェアである場合、複数のサーバから構成される分散型サーバクラスタとして実現されてもよく、単一のサーバとして実現されてもよい。サーバはソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば分散型サービスを提供するために使用されるソフトウェア又はソフトウェアモジュール)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定されるものではない。
【0031】
図1の端末デバイス、ネットワーク及びサーバの数は、単に例示的なものであることが理解されるべきである。必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを有することができる。
【0032】
次に、図2を参照すると、本願の応答方法にかかる一実施例のフロー200が示されている。該応答方法は、ユーザがクライアントを介して送信した音声情報を受信するステップ201を含む。
【0033】
本実施例において、応答方法の実行主体(例えば図1に示すサーバ)は、有線接続方式又は無線接続方式で、ユーザが端末デバイス(例えば図1に示す端末デバイス)に設置されたクライアントを介して送信した音声情報を受信することができる。
【0034】
インテリジェント音声対話は音声入力に基づく新世代のマンマシンインタラクションモードであり、人々は発話しただけでフィードバック情報を取得することができる。一般的には、人々はインテリジェント音声対話を実現可能なインテリジェント音声デバイスを利用して、インテリジェント音声デバイスに音声を入力することにより、対応するフィードバック情報を取得することができる。
【0035】
実際には、1つのインテリジェント音声デバイス(例えば、スマートスピーカボックス)は、複数のユーザに音声サービスを提供することができる。例えば、インテリジェント音声デバイスが1つの家庭用である場合、このインテリジェント音声デバイスは複数の家族メンバーに音声サービスを提供することができる。インテリジェント音声デバイスが公共空間用である場合、このインテリジェント音声デバイスは複数のユーザに音声サービスを提供することができる。
【0036】
本実施例において、ユーザは端末デバイスに音声情報を送信することができ、端末デバイスのクライアントはユーザが送信した音声情報を受信することができる。
【0037】
ここで、上記音声情報は予め設定されたウェイクアップワードを含むことができ、例えばウェイクアップワードにはクライアントに対して予め定義された名称などが含まれることができる。
【0038】
上記応答方法のフロー200は、音声情報に基づいてユーザが属するユーザカテゴリを決定するステップ202を含む。
【0039】
本実施例において、ステップ201で得られたユーザの音声情報に基づいて、上記実行主体(例えば図1に示すサーバ)は様々な分析手段を利用して上記音声情報を分析することにより、ユーザが属するユーザカテゴリを決定することができる。
【0040】
本実施例において、ユーザは、年齢に応じて分類されてもよいし、性別に応じて分類されてもよい。それに応じて、ユーザカテゴリは、子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザを含むことができ、さらに男性のユーザ及び女性のユーザなどを含むことができる。ここでのユーザカテゴリは、必要に応じて設定することができる。
【0041】
以下、ユーザカテゴリを子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザに分類する例を挙げて説明する。ここで、子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザは、それぞれ異なる年齢層のユーザグループに対応することができる。上記子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザのそれぞれに対応する年齢層は、具体的な応用に基づいて設定することができ、ここでは限定されない。
【0042】
本実施例のいくつかの選択可能な実施形態において、上記音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報に対して声紋認識を行い、声紋認識結果に基づいてユーザカテゴリを決定することを含む。
【0043】
音声は人間の自然な属性の1つであり、人々の音声は、個人的な音響特徴を有する。これらの音響特徴は、主に、話者の肺、気管、喉頭、咽頭、鼻及び口などの生理的特徴によって決定される。
【0044】
声紋は、電気音響によって共に表示される音声情報を搬送する音波スペクトルである。ユーザの音響特徴は、声紋から抽出されることができる。
【0045】
声紋認識は、生体認識技術の1つである。声紋認識は、音声によって話者の音響特徴を抽出して、音響特徴に基づいて話者の身元を判別して、話者に対応する年齢層を決定することができる。
【0046】
年齢層の同じ人は比較的近い生理的特徴を有することにより、年齢層の同じ人が同様の音響特徴を有するようにすることができる。各年齢層の複数のユーザの共通性を有する音響特徴に対応する特徴パラメータ区間を事前に統計することができる。
【0047】
これらの選択可能な実施形態において、上記実行主体は、音声情報に対して声紋認識を行い、声紋認識結果に基づいてユーザカテゴリを決定することができる。
【0048】
上記声紋認識には、ユーザの音声情報からユーザの音響特徴の特徴値を抽出することが含まれることができる。そして、抽出されたユーザの音響特徴の特徴値と予め抽出された各年齢層に対応する音響特徴の特徴パラメータ区間を比較する。ユーザの音響特徴の特徴値を含む特徴パラメータ区間に対応する年齢層を、上記ユーザに対応する年齢層とする。そして、決定されたユーザに対応する年齢層に基づいてユーザのユーザカテゴリを決定する。
【0049】
前記音響特徴は、時間長、基本周波数、エネルギー、ホルマント周波数、広帯域、周波数摂動、振幅摂動、ゼロクロス率及びメルケプストラムのうちの少なくとも1つを含むことができる。
【0050】
本実施例のいくつかの選択可能な実施態様において、上記音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定することを含むことができる。
【0051】
これらの選択可能な実施態様において、上記実行主体には予め訓練されたユーザカテゴリ認識モデルが設定されることができ、又は上記実行主体はネットワークを介して予め訓練されたユーザカテゴリ認識モデルにアクセスすることができる。上記ユーザカテゴリ認識モデルは、入力されたユーザの音声情報に基づいて、ユーザが属するユーザカテゴリを示すための出力結果を出力することができる。
【0052】
上記ユーザカテゴリ認識モデルは、各種の機械学習モデルであってもよく、例えば、決定木モデル、選択木モデル、ニューラルネットワークモデルなどである。
【0053】
上記ユーザカテゴリは、例えば、子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザを含むことができ、又は女性のユーザ、男性のユーザなどである。
【0054】
上記ユーザカテゴリ認識モデルは、予めユーザカテゴリマークを大量に追加した音声情報によって初期ユーザカテゴリ認識モデルを訓練して得られたものであってもよいことが理解されるべきである。
【0055】
なお、上記機械学習モデルを訓練する方法は、現在広く研究され応用されている公知技術であり、ここでは説明を省略する。
【0056】
上記応答方法は、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するステップ203を含む。
【0057】
本実施例において、上記実行主体は、様々な方法を用いてユーザカテゴリにマッチングする音声を決定して、ユーザの音声情報に応答することができる。
【0058】
本実施例において、ユーザカテゴリのそれぞれに対して、該ユーザカテゴリが好む応答音声を事前に統計することができる。このように、上記実行主体には、各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声が予め記憶されていてもよいし、或いは、上記実行主体は、他の電子デバイスに記憶されている各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声にネットワークを介してアクセスするようにしてもよい。
【0059】
本実施例のいくつかの選択可能な実施形態において、上記ユーザカテゴリにマッチングする音声は合成音声であり、又は予め録音された音声である。すなわち、これらの選択可能な実施態様において、応答方法の実行主体は、ステップ202で得られたユーザカテゴリに基づいて、ユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声を使用して、ユーザの音声情報に応答することができ、前記実行主体は、予め録音されたユーザカテゴリにマッチングする音声を使用してユーザの音声情報に応答することができる。
【0060】
いくつかの適用シーンにおいて、ユーザカテゴリにマッチングする音声は、ユーザカテゴリにマッチングする音声パラメータに基づいて合成されることができる。これらの適用シーンにおいて、上記実行主体には各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声に対応する音声パラメータが予め記憶されることができる。上記実行主体は、他の電子機器に記憶されている各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声に対応する音声パラメータにネットワークを介してアクセスすることができる。
【0061】
上記音声パラメータは、例えば、スペクトル、基本周波数、時間長、音高、音長、音声強度などのパラメータのうちの少なくとも1つを含むが、これらに限定されない。
【0062】
これらの適用シーンにおいて、ステップ202でユーザのユーザカテゴリを決定した後、上記実行主体は、各ユーザカテゴリに対応する音声パラメータから、このユーザカテゴリに対応する音声パラメータを抽出して、その後上記音声パラメータを音声合成技術に適用することにより、上記音声パラメータに基づいて合成された合成音声を取得することができる。上記合成音声を使用してユーザの音声情報に応答する。
【0063】
音声合成とは、任意のテキストを音声に変換する技術であり、マンマシンインタラクションに対して不可欠なモジュールである。
【0064】
これらの適用シーンにおいて、上記実行主体には複数の応答テキストが予め設定されることができる。上記実行主体は、応答テキストを合成音声に変換して、ユーザの音声情報に応答することができる。
【0065】
本実施例において、ユーザカテゴリが子供のユーザであれば、音声パラメータを子供にマッチングする音声パラメータに設定することができる。子供のユーザにマッチングする音声パラメータに基づいて音声合成技術によって合成された音声は、実際の子供音声と同じであり又は類似するように聞こえることにより、子供のユーザに対する応答音声の親和性を増加させる。
【0066】
同様に、ユーザカテゴリが高齢のユーザであれば、音声パラメータを統計を経て得られた高齢のユーザの好む音声の音声パラメータに設定することができる。
【0067】
つまり、上記実行主体は、ユーザのカテゴリに基づいて、ユーザのカテゴリに対応する音声パラメータを選択することにより、ユーザカテゴリにマッチングする合成音声を生成して、ユーザカテゴリに対応する合成音声を使用してユーザの音声情報に応答することができる。ユーザのカテゴリと指向性を有する応答音声で応答することを実現して、ユーザ体験を改善することができる。
【0068】
他の適用シーンにおいて、ユーザカテゴリにマッチングする音声は、事前に録音された音声であってもよい。これらの適用シーンにおいて、各ユーザカテゴリに対して、該ユーザカテゴリにマッチングする真人音声を事前に録音することができる。これにより、各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声を得ることができる。上記実行主体には、上記各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声が保存されることができ、又は、上記実行主体は、他の電子デバイスに設定された上記各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声をネットワークを介してアクセスすることができる。これらの適用シーンにおいて、ステップ202でユーザのユーザカテゴリを決定した後に、上記実行主体は、上記各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声から、ステップ202で決定されたユーザカテゴリにマッチングする、予め録音された真人音声を選択して、上記ユーザの音声情報に応答することができる。
【0069】
次に、図3を参照すると、図3は本実施例に係る応答方法の適用シーンの概略図300である。図3の適用シーンにおいて、子供のユーザ301は、端末デバイス302に音声情報を送信することにより、端末デバイスをウェイクアップすることができる。端末デバイス302は、上記音声情報をサーバ303に送信することができる。サーバ303は、最初に、子供301が端末デバイス302を介して送信した音声情報を受信することができる。その後、サーバ303は、音声情報に基づいて子供のユーザ301が属するユーザカテゴリを子供のユーザとして決定することができる。そして、サーバ303は、子供のユーザにマッチングする音声パラメータを用いて合成された合成の子供の音声を使用することができる。そして、合成された子供の音声を使用して上記音声情報に応答する。次に、上記サーバ303は、合成された子供の音声で応答した応答音声信号を端末デバイス302に送信する。最後に、端末デバイス302は、子供のユーザ301に対して上記応答音声信号に対応する応答音声を再生する。
【0070】
本願の上記実施例が提供する方法は、ユーザがクライアントを介して送信した音声情報を受信した後、音声情報に基づいてユーザが属するユーザカテゴリを決定して、最後にユーザカテゴリにマッチングする音声パラメータを用いて合成された合成音声を使用して、音声情報に応答することにより、応答音声がユーザのユーザカテゴリにマッチングして、ユーザのカテゴリと指向性を有する応答音声で応答することを実現して、ユーザ体験を改善することができる。
【0071】
本実施例のいくつかの選択可能な実施形態において、上記ステップ203のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報の意味を解析するサブステップ2031を含む。
【0072】
これらの選択可能な実施形態において、上記実行主体は、音声情報の意味を解析するために様々な方法を使用することができる。例示として、上記実行主体は、以下のステップにより音声情報の意味を解析することができる。まず、上記実行主体は上記音声情報に対して音声認識を行い、上記音声情報に対応するテキスト情報を取得する。その後、さらに各種の意味分析手段(例えば、単語分割、品詞マック、固有表現識別など)で上記テキスト情報を分析することにより、上記テキスト情報に対応する意味を取得する。
【0073】
なお、音声情報の意味を解析することは、現在広く研究され応用されている公知技術であり、ここでは説明を省略する。
【0074】
上記ステップ203のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、意味にマッチングする応答情報を決定するサブステップ2032を含む。
【0075】
いくつかの適応シーンにおいて、上記実行主体には応答情報テーブルが予め記憶されることができる。応答情報テーブルには複数の意味、及び複数の意味にそれぞれ対応する応答情報が関連付けられて記憶されることができる。ここでの応答情報は、応答テキストを含むことができる。
【0076】
他の適応シーンにおいて、上記実行主体は、インターネットから複数のチャット情報を取得することができる。チャット情報から、上記意味と同一又は類似する複数の対話情報を特定して、その後、複数の対話情報から上記意味にマッチングする応答情報を抽出する。
【0077】
上記ステップ203のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、上記音声を使用して応答情報を再生するサブステップ2033を含む。
【0078】
これらの選択可能な実施形態において、上記実行主体は、ユーザカテゴリにマッチングする音声パラメータを使用して合成音声を生成して、上記合成音声を使用して上記応答情報を再生することができる。あるいは、上記実行主体は、予め録音されたユーザカテゴリにマッチングする音声を使用して上記応答情報を再生する。
【0079】
これらの選択可能な実施態様において、音声情報に対応する意味に応じて、ユーザのカテゴリにマッチングする音声を使用して応答することにより、応答情報がユーザのニーズに合致するようにする。一方では、応答情報の精度を向上させることができ、他方では、ユーザの満足度をさらに向上させることができる。
【0080】
本実施例のいくつかの選択可能な実施形態において、上記ステップ203のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報にマナー用語が含まれるか否かを判定するサブステップ2034をさらに含むことができる。
【0081】
本実施例において、上記実行主体は、音声情報にマナー用語が含まれるか否かを判定するために種々の方法を用いることができる。
【0082】
例示として、上記実行主体は、以下のステップに基づいてユーザの音声情報にマナー用語が含まれるか否かを判定することができる。まず、上記実行主体は、上記音声情報を音声認識して、上記音声情報に対応するテキスト情報を取得することができる。そして、上記実行主体は、予め設定されたマナー用語テーブルにおける各マナー用語を上記テキスト情報と照合させることができる。照合に成功すると、ユーザの音声情報にマナー用語が含まれると判定する。さらに、上記実行主体は、音声情報にどの/どちらのマナー用語が含まれるかを判定することができる。
【0083】
上記マナー用語テーブルには複数のマナー用語が含まれることができる。上記マナー用語は、1つのワードであってもよく、単語であってもよく、又は1つのフレーズであってもよい。
【0084】
上記予め設定されたマナー用語テーブルは、上記実行主体に設置されてもよいし、上記実行主体がネットワークを介して通信可能に接続される他の電子デバイスに設置されてもよい。
【0085】
上記ステップ203のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生するサブステップ2035を含む。
【0086】
これらの選択可能な実施形態において、上記実行主体は、マナー用語ごとに対応する応答マナー用語を予め設定することができる。例えば、ユーザがマナー用語「…を伺えますでしょうか」を使用した場合、対応する予め設定されたマナー用語は「優雅なご質問、ありがとうございます」などであってもよい。上記実行主体は、ユーザカテゴリにマッチングする音声パラメータを用いて合成音声を生成して、合成音声を使用して上記予め設定された応答用のマナー用語を再生するができる。上記実行主体は、さらに事前に録音された、ユーザカテゴリにマッチングする音声を使用して上記予め設定された応答用のマナー用語を再生することができる。
【0087】
これらの選択可能な実施態様において、ユーザカテゴリが子供のユーザであれば、子供のユーザが言語コミュニケーションにおいてマナー用語を使用する習慣を容易に育成することができる。ユーザが青年のユーザ、中年のユーザ又は高齢のユーザであれば、ユーザに対する応答情報の親和性を向上させることに有利である。
【0088】
さらに図4を参照すると、応答方法の別の実施例のフロー400が示されている。該応答方法のフロー400は、ユーザがクライアントを介して送信した音声情報を受信するステップ401を含む。
【0089】
本実施例において、ステップ401は図2に示すステップ201と同様であり、ここでは詳細な説明を省略する。
【0090】
上記応答方法のフロー400は、音声情報に基づいてユーザが属するユーザカテゴリを決定するステップ402を含む。
【0091】
本実施例において、ステップ402は図2に示すステップ202と同様であり、ここでは詳細な説明を省略する。
【0092】
上記応答方法は、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するステップ403を含む。
【0093】
本実施例において、ステップ403は図2に示すステップ203と同様であり、ここでは詳細な説明を省略する。
【0094】
上記応答方法のフロー400は、ユーザカテゴリが子供のユーザであり、ユーザに子供のユーザにマッチングするマルチメディア情報をプッシュするステップ404を含む。
【0095】
本実施例において、ユーザカテゴリは子供のユーザであってもよい。
【0096】
上記実行主体は、各種の方法によって子供のユーザに対応するマルチメディア情報を取得することができる。例えば、アニメーションや童謡、子供のストーリーなどである。
【0097】
例えば、上記実行主体には、子供のユーザに対応するマルチメディア情報が予め記憶されることができる。或いは、上記実行主体は他の電子デバイスに設定された子供のユーザにマッチングするマルチメディア情報にネットワークを介してアクセスすることができる。
【0098】
上記子供のユーザにマッチングするマルチメディア情報は、予め記憶されたマルチメディア情報であってもよい。これらのマルチメディア情報は、例えばオンライン又はオフラインで大量の子供のユーザを統計することにより得られたマルチメディア情報であってもよい。
【0099】
いくつかの適用シーンにおいて、ユーザカテゴリが子供のユーザであれば、上記実行主体は、ソーシャル情報、暴力情報、ポルノ情報などを自動的にマスクすることができる。
【0100】
図4から分かるように、図2に対応する実施例に比べて、本実施例における応答方法のフロー400は、子供のユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュするステップを強調する。これにより、ユーザに対する情報のプッシュがユーザのニーズに合致させ、指向性に富む情報プッシュを実現する。
【0101】
更に図5を参照すると、上記各図に示される方法の実施として、本願は応答装置の一実施例を提供して、この装置の実施例は図2に示される方法の実施例に対応して、この装置は具体的に様々な電子デバイスに適用されることができる。
【0102】
図5に示すように、本実施例の応答装置500は、受信手段501、決定手段502及び応答手段503を備える。ここで、受信手段501は、ユーザがクライアントを介して送信した音声情報を受信するように構成され、決定手段502は、音声情報に基づいてユーザが属するユーザカテゴリを決定するように構成され、応答手段503は、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するように構成される。
【0103】
本実施例において、応答装置500における受信手段501、決定手段502及び応答中三503の具体的な処理及びそれによる技術的効果は、それぞれ図2の対応する実施例におけるステップ201、ステップ202及びステップ203の関連説明を参照することができ、ここでは詳細な説明を省略する。
【0104】
本実施例のいくつかの選択可能な実施態様において、決定手段502は、さらに、音声情報に対して声紋認識を行い、認識結果に基づいてユーザが属するユーザのカテゴリを決定するように構成される。
【0105】
本実施例のいくつかの選択可能な実施態様において、決定手段502は、さらに、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定するように構成される。
【0106】
本実施例のいくつかの選択可能な実施態様において、応答手段503は、さらに、音声情報の意味を解析して、意味にマッチングする応答情報を決定して、音声を使用して応答情報を再生するように構成される。
【0107】
本実施例のいくつかの選択可能な実施態様において、応答手段503は、さらに、音声情報にマナー用語が含まれているか否かを決定するように構成されており、音声情報にマナー用語が含まれるか否かを判定して、前記音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生するように構成される。
【0108】
本実施例のいくつかの選択可能な実施態様において、上記音声はユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である。
【0109】
本実施例のいくつかの選択可能な実施態様において、ユーザカテゴリは子供のユーザである。応答装置500は、ユーザに子供のユーザにマッチングするマルチメディア情報をプッシュするように構成されるプッシュ手段504をさらに備える。
【0110】
図6に示すように、コンピュータシステム600は、ROM(Read Only Memory)602に格納されたプログラムや記憶部606からRAM(Random Access Memory)603にロードされたプログラムに従って各種の適切な動作や処理を実行することができるCPU(Central Processing Unit)601を備える。RAM603には、システム600が操作するために必要な各種プログラムやデータも格納されている。CPU601、ROM602及びRAM603は、バス604を介して相互に接続されている。また、バス604には、入出力(I/O、Input/Output)インタフェース605も接続されている。
【0111】
I/Oインタフェース605には、ハードディスク等の記憶部606と、LAN(Local Area Network)カード、モデムなどのネットワークインタフェースカードを含む通信部607とが接続されている。通信部607は、インターネットのようなネットワークを介して通信処理を行う。ドライブ608も、必要に応じてI/Oインタフェース605に接続される。磁気ディスクや光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア609は、必要に応じてドライブ608にインストールされることにより、リムーバブルメディア711から読み出されたコンピュータプログラムが必要に応じて記憶部606にインストールされる。
【0112】
特に、本開示の実施形態によれば、上記したフローチャートを参照して説明された手順がコンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含むコンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含む。そのような実施例では、コンピュータプログラムは、通信部607を介してネットワークからダウンロードしてインストールされ、及び/又はリムーバブルメディア609からインストールされることができる。このコンピュータプログラムが中央処理手段(CPU)601によって実行されると、本願の方法で限定された上記機能が実行される。なお、本願に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体やコンピュータ可読記憶媒体、又は上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、特に限定されないが、例えば、電気や磁気、光、電磁気、赤外線又は半導体のシステム、装置又はデバイスであってもよく、又はこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例には、1つ又は複数のリードを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光記憶デバイス、磁気記憶デバイス、又は上述の任意の適切な組合せが含まれるが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含みか又は格納する任意の有形媒体であってもよく、そのプログラムは、命令を実行するシステム、装置又はデバイスによって使用されてもよく、又はそれらとともに使用されてもよい。本願において、コンピュータ可読信号媒体は、ベースバンドで又はキャリアの一部として伝搬される、コンピュータ読み取り可能なプログラムコードを担持するデータ信号を含むことができる。このように伝搬されるデータ信号は、電磁信号、光信号、又は上述の任意の適切な組み合わせを含む様々な形態とことができるが、これらに限定されない。コンピュータ可読信号媒体は、さらに、命令を実行するシステム、装置又はデバイスによって使用され、又はそれらとともに使用されるプログラムを送信、伝播又は伝搬することが可能なコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体とすることができる。コンピュータ可読媒体に含まれるプログラムコードは、無線や電線、光ケーブル、RFなど、又はそれらの任意の適切な組合せを含む任意の適切な媒体を介して伝送されることができるが、これらに限定されない。
【0113】
本願の操作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++などのオブジェクト指向のプログラミング言語、並びに「C」言語又は同様のプログラミング言語などの一般的な手続き型プログラミング言語を含む、1つ又は複数のプログラミング言語又はそれらの組合せにより記述されることができる。プログラムコードは、全部がパーソナルコンピュータ上で実行されてもよく、一部がパーソナルコンピュータ上で実行されてもよく、別個のソフトウェアパッケージとして実行されてもよく、一部がパーソナルコンピュータ上で実行され残りの一部がリモートコンピュータ上で実行されてもよく、又は全部がリモートコンピュータ又はサーバ上で実行されてもよい。リモートコンピュータに関連する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してパーソナルコンピュータに接続されてもよく、又は外部のコンピュータに接続されてもよい(例えば、インターネットサービスプロバイダによりインターネットを介して接続される)。
【0114】
図面におけるフローチャート及びブロック図は、本願の様々な実施例によるシステム、方法及びコンピュータプログラム製品の実施可能な構成、機能及び操作を示す。この点に関して、フローチャート又はブロック図の各ブロックは、所定の論理機能を実施するための1つ又は複数の実行可能な命令を含むモジュール、ブロック又はコードの一部を示すことができる。なお、いくつかの置換例としての実施例では、ブロックに示す機能は、図面に示す順序とは異なる順序で実行されてもよい。例えば、接続して示される2つのブロックは、実際に、実質的に並行して実行されてもよく、かかる機能によっては、相互に逆の順序で実行されてもよい。なお、ブロック図及び/又はフローチャートにおける各ブロック、ならびにブロック図及び/又はフローチャートにおけるブロックの組合せは、所定の機能又は操作を実行する専用のハードウェアによるシステムによって実施されてもよく、又は専用ハードウェアとコンピュータ命令との組合せによって実施されてもよい。
【0115】
本願の実施例にかかる手段は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明された手段は、プロセッサに配置されてもよく、例えば、プロセッサは受信手段と、決定手段と、応答手段とを含むようにとして記載されてもよい。ここで、これら手段の名称は、この手段自体を限定するように構成されない場合があり、例えば、受信手段は、さらに「ユーザがクライアントを介して送信した音声情報を受信する手段」として説明されることができる。
【0116】
別の態様として、本願は、上述の実施例で説明された装置に含まれてよく、又は、この装置に組み込まれなく、別個に存在してもよいコンピュータ可読媒体をさらに提供する。上記コンピュータ可読媒体には、1つ又は複数のプログラムが担持され、上記1つ又は複数のプログラムが装置により実行される場合、ユーザがクライアントを介して送信した音声情報を受信することと、音声情報に基づいてユーザが属するユーザカテゴリを決定することと、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することを、この装置に実行させる。
【0117】
以上の説明は、本出願の好適な実施例及び適用される技術原理の説明に過ぎない。当業者であれば、本願に係る発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的手段に限定されるものではなく、同時に上記発明の主旨から逸脱しない範囲で上記技術的特徴又はその等価な特徴によって任意に組み合わせて形成される他の技術的手段を含むことが理解されるべきである。例えば、上記特徴が本願に開示された(これに限定されない)同様な機能を有する技術的特徴と相互に置換されて形成される技術的手段である。
図1
図2
図3
図4
図5
図6