(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-21
(45)【発行日】2023-08-29
(54)【発明の名称】音声サービス提供方法および装置
(51)【国際特許分類】
G06F 16/00 20190101AFI20230822BHJP
G06F 3/16 20060101ALI20230822BHJP
G10L 15/00 20130101ALI20230822BHJP
G10L 15/10 20060101ALI20230822BHJP
【FI】
G06F16/00
G06F3/16 620
G06F3/16 650
G10L15/00 200A
G10L15/00 200T
G10L15/10 200W
【外国語出願】
(21)【出願番号】P 2018174148
(22)【出願日】2018-09-18
【審査請求日】2018-10-18
【審判番号】
【審判請求日】2021-07-09
(31)【優先権主張番号】201711136981.2
(32)【優先日】2017-11-16
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(73)【特許権者】
【識別番号】521235408
【氏名又は名称】シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】110001508
【氏名又は名称】弁理士法人 津国
(72)【発明者】
【氏名】ル・グアン
(72)【発明者】
【氏名】ルオ・シャジュン
(72)【発明者】
【氏名】イエ・シーチェン
(72)【発明者】
【氏名】ファン・ジュエ
(72)【発明者】
【氏名】チャン・ミャオチャン
【合議体】
【審判長】渡邊 聡
【審判官】松田 直也
【審判官】相崎 裕恒
(56)【参考文献】
【文献】特開2012-123492(JP,A)
【文献】特開2006-65860(JP,A)
【文献】リビングの王様に真っ向から挑戦!? Apple TVはテレビを変えるのか?,Mac Fan 第23巻 第12号,日本,株式会社マイナビ出版,2015年12月01日,第23巻第12号通巻394号,p.184
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実施される音声サービス提供方法であって、
スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、前記第1の音声要求情報を解析して、マルチメディアリソースの再生を要求するキーワードが前記第1の音声要求情報に含まれているか否かを判定し、マルチメディアリソースの再生を要求するキーワードが前記第1の音声要求情報に含まれていないと決定されたことに応答して、前記第1の音声要求情報の解析結果を検索式として利用してネットワークデータ検索を行い、検索結果に基づいてユーザ要求を決定するステップと、
配置されたオプション操作集合から、検索結果とマッチするオプション操作を選出して、前記ユーザ要求に関連する候補操作として決定するステップと、
ユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成するステップと、
インテリジェント音声装置がプロンプト情報をスクリーン上に表示するように、スクリーンを含むインテリジェント音声装置にプロンプト情報をプッシュするステップと、
前記プロンプト情報に基づいて前記候補操作を実行するユーザの行為データを監視し、前記行為データに基づいて、前記配置されたオプション操作集合における候補操作と前記ユーザ要求との関連性パラメータを調整するステップであって、前記関連性パラメータは、前記インテリジェント音声装置にプロンプト情報をプッシュする時に当該候補操作をユーザに提示する確率を指示するパラメータである、ステップと、
を含むことを特徴とする方法。
【請求項2】
前記第1音声要求情報を解析して、ユーザ要求を決定するステップは、
前記第1の音声要求情報を受信する前の予め設定された時間内に受信された第2の音声要求情報を取得するステップと、
前記第2の音声要求情報を参考しながら前記第1の音声要求情報を解析して、ユーザ要求を決定するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
音声サービス提供装置であって、
スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、第1の音声要求情報を解析して、マルチメディアリソースの再生を要求するキーワードが前記第1の音声要求情報に含まれているか否かを判定し、マルチメディアリソースの再生を要求するキーワードが前記第1の音声要求情報に含まれていないと決定されたことに応答して、前記第1の音声要求情報の解析結果を検索式として利用してネットワークデータ検索を行い、検索結果に基づいてユーザ要求を決定する解析部と、
配置されたオプション操作集合から、検索結果とマッチするオプション操作を選出して、ユーザ要求に関連する候補操作として決定する決定部と、
ユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成する生成部と、
インテリジェント音声装置がプロンプト情報をスクリーン上に表示するように、スクリーンを含むインテリジェント音声装置にプロンプト情報をプッシュするプッシュ部と、
前記プロンプト情報に基づいて前記候補操作を実行するユーザの行為データを監視し、前記行為データに基づいて、前記配置されたオプション操作集合における候補操作とユーザ要求との関連性パラメータを調整するフィードバック部であって、前記関連性パラメータは、前記プッシュ部が当該候補操作をユーザに提示する確率を指示するパラメータである、フィードバック部と、
を含むことを特徴とする装置。
【請求項4】
前記解析部は、
前記第1の音声要求情報を受信する前の予め設定された時間内に受信された第2の音声要求情報を取得するステップと、
前記第2の音声要求情報を参考しながら前記第1の音声要求情報を解析して、ユーザ要求を決定するステップと、
をさらに含む方法により、前記第1の音声要求情報を解析して、ユーザ要求を決定する、
ことを特徴とする請求項3に記載の装置。
【請求項5】
一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶されている記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項1に記載の方法を実現させることを特徴とする機器。
【請求項6】
コンピュータプログラムが記憶されており、当該プログラムがプロセッサにより実行されると、請求項1又は2に記載の方法を実現させることを特徴とするコンピュータ読取可能な記憶媒体。
【請求項7】
プロセッサにより実行されると、請求項1又は2に記載の方法を実現させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、コンピュータの技術分野に関し、特に、人工知能の技術分野に関し、特に、音声サービス提供方法および装置に関する。
【背景技術】
【0002】
コンピュータ技術の発展とネットワークデータの継続的な蓄積により、人工知能技術は急速に発展している。人工知能の分野では、音声認識、自然言語処理および機械学習技術を統合したインテリジェント音声サービスがますます広く使用されている。
【0003】
インテリジェント音声サービスに基づく音声によるインタラクションにおいて、ユーザは、マルチメディアリソースの再生および情報クエリなどの操作を実行することができる。音声要求を受信した後、従来のインテリジェント音声サービス・プラットフォームは、関連機能を開始し、いくつかの所定の操作インタフェースを提供することができる。例えば、音楽を再生するとき、「次の曲を再生」、「中止」、「再生を続ける」および「お気に入り(Favorites)」などの操作インターフェイスを提供することができる。インテリジェント音声サービスを使用するすべてのユーザについて、同じタイプの音声サービスを実行するときに提供される操作インタフェースは同じであるが、ユーザが同じタイプの音声サービスを要求する異なる音声要求を発出するときの暗黙の要求は同じではないかもしれない。ユーザが再生インターフェイスに配置されていない他の操作を実行しようとする場合、時間を費やして、応用インターフェイスで複数レベルのルックアップを実行しなければならない。
【発明の開示】
【発明が解決しようとする課題】
【0004】
本発明は、音声サービス提供方法および装置を提供する。
【0005】
第1の局面として、本発明は、音声サービス提供方法を提供する。上記方法は、スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、上記第1の音声要求情報を解析して、ユーザ要求を決定するステップと、配置されたオプション操作集合に基づいて、上記ユーザ要求に関連する候補操作を決定するステップと、ユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成するステップと、インテリジェント音声装置がプロンプト情報をスクリーン上に表示するように、スクリーンを含むインテリジェント音声装置にプロンプト情報をプッシュするステップと、を含む。
【0006】
本発明の一部の実施形態において、上記第1の音声要求情報を解析して、ユーザ要求を決定するステップは、マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれているか否かを判定するステップと、「はい」であれば、上記第1の音声要求情報における予め設定されたマルチメディアタグに対して識別を行って、ユーザ要求が、予め設定されたマルチメディアタグを含む第1のマルチメディアリソースを再生するための要求であると決定する、ステップと、を含み、配置されたオプション操作集合に基づいて、上記ユーザ要求に関連する候補操作を決定するステップは、配置されたオプション操作集合において、ユーザ要求に対応する再生操作と、上記再生操作に関連するオプション操作とを選出して、上記候補操作とするステップを含み、再生操作に関連するオプション操作は、再生待ちマルチメディアリソースを選択する操作、再生モード切り替え操作、および再生されたマルチメディアリソースに対する好みフィードバック操作のうちの少なくとも1つを含む。
【0007】
本発明の一部の実施形態において、上記第1音声要求情報を解析して、ユーザ要求を決定するステップは、マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれていると決定され、かつ、予め設定されたマルチメディアタグが上記第1の音声要求情報に含まれていないと決定したことに応答して、ユーザプロファイルデータ、シーンデータ、および推奨待ちマルチメディアリソースデータを取得するステップと、ユーザ要求が、推奨待ちマルチメディアリソースデータからユーザプロファイルデータおよび/またはシーンデータとマッチする第2のマルチメディアリソースを選出するための要求であると決定されるステップと、をさらに含み、配置されたオプション操作集合に基づいて、上記ユーザ要求に関連する候補操作を決定するステップは、配置されたオプション操作集合において、ユーザ要求に対応する推奨操作を候補操作として選択するステップであって、上記推奨操作の推奨対象が上記第2のマルチメディアリソースを含む、ステップを含む。
【0008】
本発明の一部の実施形態において、上記第1音声要求情報を解析して、ユーザ要求を決定するステップは、マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれていないと決定されたことに応答して、上記第1の音声要求情報の解析結果を検索式として利用してネットワークデータ検索を行い、検索結果に基づいて上記ユーザ要求を決定するステップをさらに含み、配置されたオプション操作集合に基づいて、上記ユーザ要求に関連する候補操作を決定するステップは、配置されたオプション操作集合から検索結果とマッチするオプション操作を選出して、上記候補操作とするステップを含む。
【0009】
本発明の一部の実施形態において、上記第1音声要求情報を解析して、ユーザ要求を決定するステップは、上記第1の音声要求情報を受信する前の予め設定された時間内に受信された第2の音声要求情報を取得するステップと、上記第2の音声要求情報を参考しながら上記第1の音声要求情報を解析して、ユーザ要求を決定するステップと、を含む。
【0010】
本発明の一部の実施形態において、上記方法は、上記プロンプト情報に基づいて上記候補操作を実行するユーザの行為データを監視するステップと、上記行為データに基づいて、上記配置されたオプション操作集合における候補操作と上記ユーザ要求との関連性パラメータを調整するステップと、をさらに含む。
【0011】
第二の局面として、本発明は、音声サービス提供装置を提供する。上記装置は、スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、第1の音声要求情報を解析して、ユーザ要求を決定する解析部と、配置されたオプション操作集合に基づいて、ユーザ要求に関連する候補操作を決定する決定部と、ユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成する生成部と、インテリジェント音声装置がプロンプト情報をスクリーン上に表示するように、スクリーンを含むインテリジェント音声装置にプロンプト情報をプッシュするプッシュ部と、を含む。
【0012】
本発明の一部の実施形態において、上記解析部は、マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれているか否かを判定するステップと、「はい」であれば、上記第1の音声要求情報における予め設定されたマルチメディアタグに対して識別を行って、ユーザ要求が、予め設定されたマルチメディアタグを含む第1のマルチメディアリソースを再生するための要求であると決定する、ステップと、をさらに含む方法により、上記第1の音声要求情報を解析して、ユーザ要求を決定し、上記決定部は、さらに配置されたオプション操作集合において、ユーザ要求に対応する再生操作と、上記再生操作に関連するオプション操作とを選出して、上記候補操作とするステップを含む方法により、上記ユーザ要求に関連する候補操作を決定し、ここで、再生操作に関連するオプション操作は、再生待ちマルチメディアリソースを選択する操作、再生モード切り替え操作、および再生されたマルチメディアリソースに対する好みフィードバック操作のうちの少なくとも1つを含む。
【0013】
本発明の一部の実施形態において、上記解析部は、マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれていると決定され、かつ、予め設定されたマルチメディアタグが上記第1の音声要求情報に含まれていないと決定したことに応答して、ユーザプロファイルデータ、シーンデータ、および推奨待ちマルチメディアリソースデータを取得するステップと、ユーザ要求が、推奨待ちマルチメディアリソースデータからユーザプロファイルデータおよび/またはシーンデータとマッチする第2のマルチメディアリソースを選出するための要求であると決定されるステップと、をさらに含む方法により、上記第1の音声要求情報を解析して、ユーザ要求を決定し、上記決定部は、さらに配置されたオプション操作集合において、ユーザ要求に対応する推奨操作を候補操作として選択するステップであって、上記推奨操作の推奨対象が上記第2のマルチメディアリソースを含む、ステップを含む方法により、上記ユーザ要求に関連する候補操作を決定する。
【0014】
本発明の一部の実施形態において、上記解析部は、マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれていないと決定されたことに応答して、上記第1の音声要求情報の解析結果を検索式として利用してネットワークデータ検索を行い、検索結果に基づいてユーザ要求を決定するステップをさらに含む方法により、上記第1の音声要求情報を解析して、ユーザ要求を決定し、上記決定部は、さらに配置されたオプション操作集合から検索結果とマッチするオプション操作を選出して、上記候補操作とするステップを含む方法により、上記ユーザ要求に関連する候補操作を決定する。
【0015】
本発明の一部の実施形態において、上記解析部は、上記第1の音声要求情報を受信する前の予め設定された時間内に受信された第2の音声要求情報を取得するステップと、上記第2の音声要求情報を参考しながら上記第1の音声要求情報を解析して、ユーザ要求を決定するステップと、をさらに含む方法により、上記第1の音声要求情報を解析して、ユーザ要求を決定する。
【0016】
本発明の一部の実施形態において、上記装置は、上記プロンプト情報に基づいて上記候補操作を実行するユーザの行為データを監視し、上記行為データに基づいて、上記配置されたオプション操作集合における候補操作とユーザ要求との関連性パラメータを調整するためのフィードバック部を、さらに含む。
【0017】
本発明によって提供される音声サービス提供方法および装置は、スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、第1の音声要求情報を解析して、ユーザ要求を決定し、配置されたオプション操作集合に基づいて、ユーザ要求に関連する候補操作を決定し、ユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成し、インテリジェント音声装置がプロンプト情報をスクリーン上に表示するように、スクリーンを含むインテリジェント音声装置にプロンプト情報をプッシュする。これにより、ユーザニーズに応じる異なる操作プロンプトを実現し、ユーザの異なる潜在的ニーズに応じて異なる操作プロンプト情報を提供することができ、ユーザが関連する操作情報を取得する速度を向上させ、音声サービスの効率を向上させることができる。
【図面の簡単な説明】
【0018】
以下の図面を参照してなされた制限的でない実施形態に対する詳細的な説明により、本発明の他の特徴、目的及び利点はより明らかになる。
【
図1】
図1は、本発明を適用することができる例示的なシステムの構成図である。
【
図2】本発明にかかる音声サービスを提供する方法の一実施形態のフロー図である。
【
図3】本発明にかかる音声サービス提供方法の別の実施形態のフローチャートである。
【
図4】本発明にかかる音声サービス提供方法の応用シーンの概略図である。
【
図5】本発明にかかる音声サービス提供方法の別の適用シーンの概略図である。
【
図6】本発明にかかる音声サービス提供方法の他の応用シーンの概略図である。
【
図7】本発明の一実施形態に係る音声サービス提供装置の概略構成図である。
【
図8】本発明の一実施形態を実現するための装置に適用されるコンピュータシステムの構成模式図である。
【発明を実施するための最良の形態】
【0019】
以下、図面及び実施形態を参照しながら本発明をより詳細に説明する。理解すべきことは、ここで説明する具体的な実施形態は、当該発明を説明するものに過ぎず、当該発明を限定するものではない。ただし、説明の便宜上、図面には発明に関連する部分のみが示されている。
【0020】
なお、衝突しない場合、本発明の実施形態及び実施形態における特徴を相互に組み合せてもよい。以下、図面及び実施形態を参照しながら本発明を詳細に説明する。
【0021】
図1は、本発明が適用できる音声サービス提供方法及び装置の実施形態の例示的なシステムアーキテクチャ100を示する。
【0022】
図1に示されたように、システムアーキテクチャ100は、端末装置101、102と、ネットワーク103と、サーバ104とを備えても良い。ネットワーク103は、端末装置101、102とサーバ104の間に通信リンクの媒体を提供する。ネットワーク103は、各種の接続タイプ、例えば有線、無線通信リンク又は光ファイバ、ケーブルなどを含んでも良い。
【0023】
ユーザは、端末装置101、102を使用してネットワーク103を介してサーバ104とインタラクションすることにより、メッセージなどを送受信することができる。端末装置101、102は、例えば、マイクロフォンとディスプレイ画面を備えるスマートスピーカ、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ、スマートウェアラブル装置など、オーディオ入力インターフェイス、オーディオ出力インターフェイス、およびディスプレイスクリーンと備えるとともに、ネットワーク通信をサポートする電子機器であってもよい。端末装置101、102には、音声サービスクライアントなどのサーバ104とインタラクション可能なアプリケーションをインストールすることができる。
【0024】
サーバ104は、端末装置101、102による音声出力操作を制御する音声サーバなどの各種サービスを提供するサーバであってもよい。 音声サーバは、端末装置101、102が音声サーバにアクセスした後(例えば、認証を取得した後)、端末装置101、102を介してユーザ110が送信した音声サービス要求を処理し、その結果(例えば、音声データや音声出力インタフェースの制御コマンド)を端末装置101、102に送信する。端末装置101、102は、ネットワーク103を介してサーバ104から送信された音声データや表示制御コマンドを受信し、対応する音声出力や表示を行うことにより、端末装置101、102を用いて音声サービスを完了することができる。
【0025】
説明すべきなのは、本発明の実施形態により提供される音声サービス提供方法は、一般的にサーバ104により実行される。それに応じて、情報を抽出する装置は一般的にサーバ104に設置される。
【0026】
理解すべきなのは、
図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎない。実現の必要に応じて、任意の数の端末装置、ネットワーク及びサーバを備えても良い。例えば、サーバは、異なるプロセスがデプロイされた複数のサーバを含む、クラスター化されたサーバにしてもよい。
【0027】
次に、
図2を参照すると、本発明にかかる音声サービス提供方法の一実施形態のフロー200が示されている。音声サービスを提供する方法は、以下のステップを含む。
【0028】
ステップ201において、スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、第1の音声要求情報を解析して、ユーザ要求を決定する。
【0029】
本発明の実施形態では、上記の音声サービス提供方法が適用される電子機器(例えば、
図1に示すサーバ)は、スクリーンを備えたインテリジェント音声装置(スクリーン端とも呼ばれる)によって送信された第1の音声要求を検出することができ、当該インテリジェント音声装置は、オーディオ入力インターフェース及びオーディオ出力インターフェースを有し、オーディオ入力インターフェースを介してユーザから送信された音声要求を取得して、それを符号化、パッケージした後、第1の音声要求情報を形成して、上記電子機器に送信する。
【0030】
スクリーンを含むインテリジェント音声装置からの第1の音声要求情報が受信されたことを検出した後、第1の音声要求を解析して、その中からユーザ要求情報を抽出することができる。具体的には、第1の音声要求を復号し、音声要求のコンテンツを取得し、音声要求コンテンツに対して意味解析を行うことができる。意味解析を行う際に、言語モデルにより単語分割を行い、その後にコア単語およびキーワードを抽出し、最終、トピックモデルにより音声要求コンテンツに含まれるユーザ要求を決定することができる。
【0031】
本発明の実施形態の一部の選択可能な実施形態では、インテリジェント音声装置の各機能に対してキーワード集合を設定することができ、特定の機能に属するキーワードまたはキーワードセットが第1の音声要求のコンテンツから解析された場合、第1の音声要求に対応するユーザ要求が当該機能の満たすことができる要求であると判定することができる。例えば、目覚まし時計機能は「目覚まし時計」とのキーワードを含み、情報プッシュ機能は「放送+ニュース」、「天気」などのキーワードを含むことができる。第1の音声要求情報を解析して得られたコンテンツに「ニュース放送」とのキーワードが含まれている場合に、ユーザ要求が、プッシュされたニュースを取得する要求であると判断することができる。
【0032】
本発明の実施形態の一部の選択可能な実施形態では、機械学習方式により第1の音声要求情報に対して解析を行うことができ、具体的には、訓練された意図認識モデルを使用してユーザの意図を識別することができ、意図認識モデルのトレーニングサンプルは、人工標記したサンプルであってもよく、学習過程で意図認識モデルのパラメータを不断に調整して予測値を標記値に近似させ、予測値と標記値の誤差が収束条件を満たす場合にモデルパラメータの調整を停止すると、訓練された意図認識モデルを取得できる。適用において、第1の音声要求情報の音声要求内容を意図認識モデルに入力すると、意図認識モデルはユーザ意図を出力し、即ち、ユーザ要求の解析結果を得られる。
【0033】
ステップ202において、配置されたオプション操作集合に基づいて、ユーザ要求に関連する候補操作を決定する。
【0034】
ユーザニーズ(要求)を判断した後、配置されたオプション操作集合からユーザニーズを満たすオプション操作を選択して、候補操作とすることができる。ここで、配置されたオプション操作集合には、複数のオプション操作を含み、各オプション操作に関連するユーザ要求が設定されている。配置されたオプション操作集合は、経験により予め配置したものであってもよく、ここで、オプション操作に関連するユーザ要求は、音声によるインタラクションに関連するユーザ要求であってもよい。異なるユーザ要求に関連するオプション操作は異なってもよい。
【0035】
通常、インテリジェント音声装置は、例えば、カー・マシン、台所の音声アシスタント、ロボットなどの特定の応用シーンに基づいて設計され、インテリジェント音声装置が提供できる音声サービスもその応用シーンと関連する。例えば、カー・マシンは、音楽再生、ルートのクエリ、ニュース放送、天気予報、リマインダー、ウェブ検索などの機能を提供することができる。また、インテリジェント音声装置の特定の応用シーンに基づいて、その満足可能なユーザニーズを設定することができ、例えば、カー・マシンは、音楽再生、ルートのクエリ、ニュース放送、天気予報、リマインダー、ウェブ検索などの要求を満たすことができる。また、インテリジェント音声装置が満たすことができる各ユーザニーズに対応するオプション操作をカスタマイズし、これらのオプション操作を、インテリジェント音声装置が満たすことができるユーザニーズと相関させることもできる。例えば、再生を一時停止(中止)、再生を続く(再開)、次の曲に切り替える、前の曲に切り替える、お気に入り、好き、単曲サイクル/リストループモードに切り替えるなどの操作を含む、音楽再生の要求に関連するオプション操作をカスタマイズすることができる。これらのオプション操作とユーザ要求との関連関係を配置するとともに、これらのオプション操作をオプション操作集合に追加することができる。
【0036】
オプション操作集合において、同じオプション操作は複数のユーザニーズに関連付けることができる。例えば、再生を一時停止する操作は、音楽再生とニュース再生の要求に関連付けることができる。さらに、オプション操作集合における各オプション操作と各ユーザニーズとの相関性パラメータを配置することができる。相関性パラメータは、オプション操作とユーザニーズとの相関性の強度を示すパラメータであり、ユーザの歴史的要求と、ユーザの操作履歴の統計的解析により決定することができる。
【0037】
ステップ203において、ユーザに候補操作を実行させるように案内(ガイド)するためのプロンプト情報を生成する。
【0038】
本発明の実施形態では、候補操作の関連情報を含むプロンプト情報を生成して、候補操作の実行を促すことができる。ここで、候補操作の関連情報には、候補操作の名称や操作対象などの情報が含まれていてもよい。プロンプト情報は、ユーザに候補操作を案内するために使用され、ユーザは、プロンプト情報の案内に従って候補操作を実行するか否かを選択することができる。上記プロンプト情報は、テキストプロンプト情報またはアイコンプロンプト情報であってもよい。
【0039】
ステップ204において、インテリジェント音声装置がプロンプト情報をスクリーンに表示するように、プロンプト情報をスクリーンを含むインテリジェント音声装置にプッシュする。
【0040】
プロンプト情報を生成した後、音声サービスを提供するための電子機器は、プロンプト情報をネットワークを介してインテリジェント音声装置に送ることができる。プロンプト情報を受信した後、インテリジェント音声装置は、プロンプト情報をスクリーンに表示することができる。これにより、ユーザは、スマートフォン装置のスクリーンからプロンプト情報を取得することができ、プロンプト情報の案内により対応する操作を行うことができる。
【0041】
本発明の実施形態によって提供される音声サービス提供方法および装置は、スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、第1の音声要求情報を解析して、ユーザ要求を決定し、且つ、配置されたオプション操作集合に基づいて、ユーザ要求に関連する候補操作を決定し、ユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成し、インテリジェント音声装置がプロンプト情報をスクリーン上に表示するように、スクリーンを含むインテリジェント音声装置にプロンプト情報をプッシュする。ことにより、ユーザニーズに応じる異なる操作プロンプトを実現し、ユーザの異なる潜在的ニーズに応じて異なる操作プロンプト情報を提供することができ、ユーザが関連する操作情報を取得する速度を向上させ、音声サービスの効率を向上させることができる。
【0042】
図3を参照すると、本発明による音声サービス提供方法の別の実施形態のフローチャートを示す。
【0043】
図3に示すように、本実施形態において、音声サービスを提供する方法を提供するプロセス300は、以下のステップを含む。
【0044】
ステップ301において、スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれているか否かを判定する。
【0045】
本発明の実施形態では、受信した第1の音声要求情報に対して音声-テキスト変換を行い、第1の音声要求コンテンツをテキスト情報に変換した後、テキスト情報をワードカットして、ワードカット結果がマルチメディアリソース再生要求のキーワードに当たるかどうかを判定する。ここで、マルチメディアリソース再生要求のキーワードは、予め設定されたものであってもよく、「音楽聞き」、「曲聞き」などの別個の単語であってもよく、または「再生」、「ニュース」の組み合わせ、「一曲」と「音楽」の組み合わせなどの複数単語の組み合わせであってもよい。
【0046】
ステップ301の判定結果がYES(「はい」)であると、ステップ302が実行され、第1の音声要求情報における予め設定されたマルチメディアタグを識別する。
【0047】
マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれていると判定された場合、ユーザ要求がマルチメディアリソース再生であると判断することができる。本実施形態では、さらに、第1の音声要求情報に基づいて、マルチメディアリソースの作成者、種類、スタイル、言語、マルチメディアリソースセットの識別子などを含む、ユーザが再生したいマルチメディアリソースの特徴属性を決定することができる。具体的実現方法は、第1の音声要求情報内の予め設定されたマルチメディアタグを識別することであってもよい。ここで、上記予め設定されたマルチメディアタグは、上記マルチメディアリソースの特徴属性を示すタグであり、上記マルチメディアリソースライブラリ内のマルチメディアリソースは、上記タグが配置されていてもよい。
【0048】
音楽のマルチメディアリソースを例として、音楽タグは音楽を示すことができる、例えば、曲名、アーティスト、作曲者、アルバム名、ジャンル、音楽スタイル、言語や他のタグを含むことができる。その中で、音楽ジャンルタグは、例えばロック、ラップ、フォーク、ポップス、ボーカル、交響曲、音楽スタイルタグを含むことができ、音楽スタイルタグは、喜び、リラックス、悲しい、インスピレーションなどが含まれ、言語タグには、中国語、広東語、英語、韓国語、日本語などが含まれる。
【0049】
本発明の実施形態では、マルチメディアリソースライブラリ内のマルチメディアリソースのタグに基づいてマルチメディアタグ集合を構築することができ、第1の音声要求情報中の予め設定された(プリセット)マルチメディア・タグを識別するとき、マルチメディアタグ集合とマッチングし、マッチ成功されたタグは、識別されたプリセットマルチメディアタグである。選択的に、上記マルチメディアタグのマッチングにおいて、精確マッチング法やファジーマッチング法を用いることができる。ファジーマッチング法は、マルチメディアタグから第1音声要求情報に比較的に類似するタグを選択することができ、例えば、上記第1音声要求情報における「八里香(Balixiang)」とマルチメディアタグとしての「七里香(Qilixiang)」とがマッチ成功であると判定することができる。これにより、ユーザがファジーな要求をしたときであっても、ユーザ要求を首尾よく識別することができる。
【0050】
第1の音声要求情報に予め設定されたマルチメディアタグが含まれていると認識されると、ステップ303に進んで、ユーザ要求が、予め設定されたマルチメディアタグを含む第1のマルチメディアリソースを再生するための要求であると判定する。
【0051】
ここで、第1音声要求情報にマルチメディアタグ集合とマッチするタグが含まれていれば、ユーザが当該タグを有するマルチメディアリソースを再生したいと判断することができるため、ユーザ要求の正確な識別を実現する。
【0052】
次に、ステップ304において、ユーザは、配置されたオプション操作集合において、ユーザ要求に対応する再生操作と、上記再生操作に関連するオプション操作とを選択して、候補操作とする。
【0053】
ユーザ要求が予め設定されたマルチメディアタグ(ラベル)を有するものを再生することであると判定した後、ユーザ要求を満たす再生操作と、ユーザが再生操作おいて実行する必要がある関連するオプション操作とを、配置されたオプション操作集合から候補操作として選出することができる。ここで、再生操作に関連するオプション操作は、再生待ちマルチメディアリソースを選択する操作、再生モード切り替え操作、および再生されたマルチメディアリソースに対する好みフィードバック操作のうちの少なくとも1つを含む。再生待ちマルチメディアリソースを選択する操作は、例えば「次の曲」を選択するなど、現在再生中のリソースを切り替える操作であってもよいし、再生モード切り替え操作は、たとえば「シングルループ」、「リストループ」、「ランダムプレイ」などのモードであってもよい。再生されたマルチメディアリソースに対する好みフィードバック操作は、例えば、「この曲好き」、「この曲をお気に入り」、「この曲嫌い」などの操作であってもよい。
【0054】
一部の実施形態では、インテリジェント音声装置の開発者は、インテリジェント音声装置のマルチメディアリソースにために再生操作と関連する様々なオプション操作を配置してもよい。ユーザ要求が、予め設定されたマルチメディアタグを含む第1のマルチメディアリソースを再生する要求であると判断された場合、開発者によって配置された再生操作に関連するオプション操作を候補操作とすることができる。これにより、その後でユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成して、インテリジェント音声装置のスクリーンにプッシュした後、ユーザは当該インテリジェント音声装置の再生操作に関連するオプション操作(処理)を知ることができる。これにより、ユーザがインテリジェント音声装置のサービス機能を了解するようになって、ユーザがより豊かでより効率的なインテリジェント音声サービスを得られるように助けることができる。
【0055】
続いて、ステップ310において、ユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成し、次いで、ステップ311において、インテリジェント音声装置がプロンプト情報をスクリーン上に表示するように、スクリーンを含むインテリジェント音声装置にプロンプト情報をプッシュする。
【0056】
ステップ310および311は、前の実施形態におけるステップ203および204と同じであり、ここでは説明しない。
【0057】
第1の音声要求情報におけるマルチメディアリソースの再生を要求キーワードと、予め設定されたマルチメディアタグとを識別することにより、ユーザの再生したいマルチメディアリソースの特徴属性を正確に識別することができる。ユーザ要求が予め設定されたマルチメディアタグを含むマルチメディアリソースを再生する要求であると判断されることにより、再生操作とそれに関連するオプション操作が再生過程でユーザが実行したい可能性がある操作であると確定するとともに、当該実行したい可能性がある操作のプロンプト情報をユーザにプッシュする。これにより、ユーザ要求にマッチする操作プロンプト情報を精確にプッシュすることができ、ユーザが関連する操作機能を見つける時間を節約し、音声サービスの効率を改善するのに有益である。
【0058】
図4は、本発明の音声サービス提供方法の一適用シーンの概略図を示している。
図4に示すように、ユーザAが「ジェイ・チョウの歌を聞きたい」という請求を、スクリーンを有するインテリジェント音声装置Bに送信した後、インテリジェント音声装置Bはその要求を音声サーバCに送り、音声サーバCは、その中の「聞く」+「歌」のキーワードの組み合わせを抽出して、ユーザ要求が歌を再生する要求であると決定し、インテリジェント音声サーバCは、歌のタグ「ジェイ・チョウ(Jay Chou)」を認識することができる。その後、ユーザ要求が「Jay Chou」の歌を再生する要求であるとさらに判定して再生操作の決定する。また、再生操作に関連する「次の曲の再生」、「曲をお気に入り」、「演奏モードの切り替え」等を候補操作として、これらの候補操作のプロンプト情報を生成してインテリジェント音声装置Bへプッシュし、インテリジェント音声装置Bは、ユーザAに、これらの候補操作を含むプロンプト情報をスクリーンの画面上に表示することができる。
【0059】
一部の実施形態では、上記ステップ302の後で、第1音声要求情報に予め設定されたマルチメディアタグが含まれていると認識されなかった場合、すなわち、マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれていると決定され、かつ、予め設定されたマルチメディアタグが上記第1の音声要求情報に含まれていないと決定されたことに応答して、ステップ305を実行して、ユーザプロファイルデータ、シーンデータ、および推奨待ちマルチメディアリソースデータを取得する。
【0060】
ステップ301での結果に基づいて、ユーザ要求がマルチメディアリソースの再生を請求する要求であると決定されたが、ステップ302での認識結果に基づいて、明確な再生したいマルチメディアリソースの要求をユーザが有しないと判定した場合に、第1の音声要求情報に対応するユーザ要求が一般的な要求類のマルチメディアリソースである、即ち、ユーザはインテリジェント音声装置がいくつかのマルチメディアリソースを選択して再生することを希望すると確定する。この場合に、ユーザプロファイルデータ、シーンデータ、および推奨待ちマルチメディアリソースデータを取得して、得られたデータに基づいて再生すべきマルチメディアリソースを選択することができる。ユーザプロファイルデータは、ユーザがインテリジェント音声装置のマルチメディアリソースの再生機能を使用する時間と頻度、ユーザの基本属性(性別、性格、職業など)、ユーザのマルチメディアリソース再生記録履歴を含む。シーンデータは、現在の時間と環境データを含むことができ、環境データは、地理的位置情報に基づいて決定することができ、または、検出された環境音に基づいて決定することもでき、シーンデータは、例えば、朝、夕方、夜、リビングルーム、オフィスなどであってもよい。推奨待ちマルチメディアリソースデータは、新しいマルチメディアリソース(例えば、新しいアルバム)、ネットワークでの人気マルチメディアリソースなどであってもよい。
【0061】
続いて、ステップ306において、ユーザ要求が、推奨待ちマルチメディアリソースデータからユーザプロファイルデータおよび/またはシーンデータとマッチする第2のマルチメディアリソースを選択するための要求であると決定する。
【0062】
ユーザ要求が、好む可能性があるいくつかのマルチメディアリソースを推薦かつ再生するようにする要求であると判断することができる。具体的には、ユーザプロファイルデータ及び/又はシーンデータに応じて、推薦待ちマルチメディアリソース中からマルチメディアリソースを選択して推薦してもよい。
【0063】
選択的に、推奨待ちマルチメディアリソースデータからユーザプロファイルデータとマッチする第2のマルチメディアリソースを選択して推薦対象としてもよい。ここで、推奨待ちマルチメディアリソースはその特徴的属性を示すためのタグを有し、ユーザプロファイルデータと各推奨待ちマルチメディアリソースのタグとの間の類似度を算出して、類似度が閾値を超えばマッチ成功とする。選択的に、マルチメディアリソースの人気度に基づいて類似度に対して重み付けてもよいし、人気度が高いほど加重値が高く、人気度データは、マルチメディアリソースの公開タイム、再生量、検索量などに応じて算出することができる。
【0064】
オプションとして、推奨待ちマルチメディアリソースデータからシーンデータとマッチする第2のマルチメディアリソースを選択して推薦対象としてもよい。シーンデータは、現在の時間、環境データであってもよい。推奨待ちマルチメディアリソースの各期間内及び各類の環境における再生量と検索量を統計して、現在の期間内の再生量及び/または検索量が一番多い推奨待ちマルチメディアリソースを推薦対象としてもよい。例えば、現在の時間が朝8時であれば、早朝の期間内に再生量が一番多い楽しく、明るい音楽を推薦対象とすることができる。
【0065】
選択的に、ユーザプロファイルデータおよびシーンデータの組み合わせに基づいて、推薦対象としての第2のマルチメディアリソースを選択することもできる。推奨待ちマルチメディアリソースと、ユーザプロファイルデータ及びシーンデータとの総合類似度を算出し、当該総合類似度は、推奨待ちマルチメディアリソースとユーザプロファイルデータとの類似度と、推奨待ちマルチメディアリソースとシーンデータとの関連度との加重和により得られる。そして、総合類似度が高いものを選択された第2マルチメディアリソースとする。
【0066】
次に、ステップ307において、配置されたオプション操作集合において、ユーザ要求に対応する推奨操作を候補操作として選択する。
【0067】
本発明の実施形態では、上述配置されたオプション操作集合に、各オプション操作と各類ユーザ要求との間の対応関係を配置し、推奨待ちマルチメディアリソースデータから推奨対象の要求と対応するオプション操作を選出して推奨操作としてもよい。これにより、音声サービスを提供するための電子機器は、当該対応関係に基づいて、、ステップ306で得られたユーザ要求に関連するオプション操作集合を推奨操作として確定することができる。また、上記推奨操作の推奨対象が上記第2のマルチメディアリソースを含むことを確定することができる。これにより、後でプロンプト情報を生成するとき、ユーザに推奨した第2のマルチメディアリソースを選択するようにするプロンプト情報を実行させるようにガイドすることができる。選択的に、推奨した第2のマルチメディアリソースを選択するようにするプロンプト情報は、ユーザに更なる音声請求を送信するように案内するプロンプト情報であってもよい。これにより、プロンプト情報を基づいて、ユーザとインテリジェント音声装置との複数回の対話を案内することができ、ユーザ要求をさらに精確に把握することができる。
【0068】
ステップ307の後に、上記ステップ310および311を実行することができる。ステップ310および311は、前の実施形態のステップ203および204と同じであり、ここでは説明しない。
【0069】
図5は、本発明による音声サービス提供方法の応用シーンの概略図である。
図5で示すように、ユーザAは「音楽一曲」との要求を表示画面(スクリーン)を有するインテリジェント音声装置Bに送信すると、インテリジェント音声装置Bは、当該要求を音声サーバCに送信する。音声サーバCは、その中から「一曲」+「音楽」のキーワードの組み合わせを抽出することにより、ユーザ要求が曲を再生する要求であると判定するとともに、インテリジェントな音声サーバはいずれの曲の特徴を表示するダクを認識されなかった場合に、ユーザ要求が曲の推奨のニーズであるとさらに判断し、現在のシーンにマッチするような朝の歌を選択したり、ユーザの好みスタイルでありかつ最近人気の「ミシンバンド」の曲を選択したり、または新たな歌のリーダーボードにおける歌を推薦曲としてユーザに推薦し、また、推薦曲を再生するようにユーザに案内するプロンプト情報を生成する。そして、インテリジェント音声装置Bにプロンプト情報をプッシュし、インテリジェントな音声装置Bは、当該プロンプト情報である「ミシンバンドの歌を聞く」「早朝音楽一曲」、「新たな歌のリーダーボードを再生」とのプロンプト情報を表示画面でユーザに表示することができる。これらのプロンプト情報は、次の対話のカイドとなり、ユーザAがプロンプト情報を見た後、例えば、「新たな歌のリーダーボードは不要」または「早朝音楽一曲」との要求を提出することができ、このとき、音声サーバCは、ユーザが提出した当該要求に基づいて、、ユーザ要求解析構造をさらに修正して、提供されるオプション操作のプロンプト情報を調整することができる。
【0070】
一部の実施形態では、ステップ301の判断の結果が「NO(いいえ)」であれば、すなわち、第1の要求情報にマルチメディアリソースの再生を要求するキーワードが含まれていないと決定したことに応答して、ステップ308を実行して、第1の音声要求情報の解析結果を検索式として利用してネットワークデータ検索を行い、検索結果に基づいてユーザ要求を決定する。
【0071】
本発明の実施形態では、第1の音声要求情報を解析して、解析結果に応じて検索式を生成し、検索式を使用してネットワークデータ検索を行い、検索結果を分析してユーザ要求を決定することができる。
【0072】
一部の選択的実施形態では、ユーザ要求を決定するために、要求識別モデルを使用して複数の検索結果を分析することができる。他の選択的実施形態では、検索結果ページからいくつかの操作オプションを抽出してユーザ要求の分析結果とすることができる。たとえば、検索結果ページに「ルート照会」、「リマインダー」などの操作オプションが含まれているとき、ユーザ要求がルート照会またはリマインダー事項を構築することであると決定することができる。
【0073】
ネットワークでの他のユーザが類似する検索式を利用した後実行した操作データを取得し、他のユーザの操作データを統計解析して、ユーザが第1の音声要求情報を発出した後に行う操作と当該操作を実行する確率を判定する。例えば、ネットワークでのほとんどのユーザが「イーソンチャン(Eason Chan)のコンサート」を検索した後に予約操作を行うと、第1の音声要求情報に「コンサート」が含まれている場合には、ユーザが予約操作を実行する可能性(確率)が高いと判断し、さらにユーザ要求に予約要求が含まれていると判断することができる。
【0074】
ステップ309において、配置されたオプション操作集合から検索結果とマッチするオプション操作を選出して、候補操作とする。
【0075】
配置されたオプション操作集合には、インテリジェント音声装置が実行できる操作を配置しておる。第1の音声要求情報の解析結果に基づいて検索を行い、検索結果に応じてユーザ要求を判定した後、配置されたオプション操作集合から検索結果にマッチするオプション操作を選択を選択して候補操作としてもよい。具体的なマッチング方法は、オプション操作の操作名と検索結果とマッチングさせたり、オプション操作の操作名と検索結果で抽出された操作データとの類似度を算出したりすることができる。
【0076】
ステップ309の後、上記のステップ310および311を実行することができる。ステップ310および311は、前の実施形態のステップ203および204と同じであり、ここでは説明しない。
【0077】
図6は、本発明の音声サービス提供方法の適用シーンの概略図を示している。
図6に示すように、ユーザAが表示画面を有するインテリジェント音声装置Bに「イーソンチャンのコンサートを照会」との要求を提出した後、インテリジェント音声装置Bはその要求を音声サーバCに送る。音声サーバCは、その要求を解析して、その中にマルチメディアリソースを再生するキーワードが含まれていないと判断した場合に、さらに、「イーソンチャン(Eason Chan)のコンサートを照会」を検索の検索式として使用し、検索結果ページで「予約」操作および「スケジュール・リマインダー」操作を抽出して、ユーザ要求が「予約」または「スケジュール・リマインダー」であると判断し、配置されたオプション操作集合に「予約」操作と「スケジュール・リマインダー」操作とが含まれているか否かを判定する。判定結果が「はい」であれば、「予約」操作および「スケジュール・リマインダー」操作をユーザに案内するためのプロンプト情報を生成して、インテリジェント音声装置Bにプッシュし、スマート音声装置Bは、対応するプロンプト情報である「予約」および「スケジュール・リマインダー」を表示画面でユーザAに表示することができる。
【0078】
第1の音声要求情報を用いてネットワークデータ検索を行うことにより、ネットワークのビッグデータを利用して、ユーザ要求の認識精度を向上させることができる。そして、ネットワークデータは、関連するユーザ操作挙動データを提供することができ、これらの操作挙動データに応じて候補操作を選出することができ、ユーザにこれらの候補操作を実行させるように提示することができる。これにより、ユーザ要求の識別と操作プロンプトの多様化を実現する。
【0079】
本発明の一部の選択的実施形態では、上記第1音声要求情報を解析して、ユーザ要求を決定するステップは、上記第1の音声要求情報を受信する前の予め設定された時間内に受信された第2の音声要求情報を取得するステップと、第2の音声要求情報を参考しながら第1の音声要求情報を解析して、ユーザ要求を決定するステップを含む。ここで、予め設定された時間は、人工で設定された時間、例えば、5分間であってもよい。このとき、上述の音声サービス提供用の電子機器は、インテリジェント装置とユーザの複数の対話とを組み合わせて、より正確にユーザ要求を特定することができる。具体的には、第1の音声要求情報を解析するとき、第2の音声要求情報をもう受信されたことを追加の条件として、第1の音声要求情報の解析結果から追加条件を満たす選出して、さらにユーザ要求を決定する。あるいは、第1の音音声要求情報と第2の音声要求情報との組合せを同時に分析してもよく、例えば第1の音声要求情報および第2の音声要求情報を1つの音声要求情報に組み合わせて、機械学習ベースのユーザ要求認識モデルに入力して、ユーザ要求を識別することができる。このように、比較的短い時間内に受信された複数の音声要求情報を組み合わせてユーザの要求を分析することにより、ユーザの要求分析結果の正確性を改善し、音声サービスのカスタマイズ性を向上させることができる。
【0080】
上記音声サービス提供方法は、上記プロンプト情報に基づいて上記候補操作を実行するユーザの行為データを監視するステップと、上記行為データに基づいて、配置されたオプション操作集合における候補操作とユーザ要求との関連性パラメータを調整するステップとをさらに含むことができる。
【0081】
具体的には、インテリジェント音声装置は、プロンプト情報に示す候補操作を実行するか、及び各候補操作を実行する回数と頻度とを記録し、それを音声サービスを提供する電子機器に報告することができる。音声サービスを提供する電子機器は、検出データに応じてこれらの候補操作とユーザ要求との関連性パラメータを調整することができる。
【0082】
実際のシーンでは、ユーザが、プロンプト情報を見た後、対応する候補操作を実行しなかったか、または候補操作を実行する頻度が低い場合、ユーザが当該候補操作に対する興味が低いと判断され、このとき、ステップ201で決定されたユーザ要求と候補操作との関連性パラメータを低減して、ユーザ要求と候補操作との間の関連性を弱くにし、その後の同一のユーザ要求の場合に、当該候補操作を実行するよう促す確率を低減し、当該候補操作が出現する候補を確率を低減させる。反対に、ユーザが、プロンプト情報を見た後、対応する候補操作を実行する頻度が高い場合、ユーザが当該候補操作に対する興味が高いと判断され、このとき、ステップ201で決定されたユーザ要求と候補操作との関連性パラメータを増加して、ユーザ要求と候補操作との間の関連性を強化し、その後の同一のユーザ要求の場合に、当該候補操作を実行するよう促す確率を増加し、当該候補操作が出現する候補を確率を増加させる。これにより、ユーザの操作行動データを収集して、オプション操作集合におけるオプション操作と各種のユーザ要求との関連性を動的に更新することができ、生成されたプロンプト情報とユーザ要求とのマッチ度をさらに向上させる。
【0083】
さらに
図7を参照すると、上記の図に示された方法の実現として、本出願は、音声サービス提供装置の一実施形態を提供する。当該装置の実施形態は、
図2および
図3に示される方法と対応し、この装置は、様々な電子機器に具体的に適用することができる。
【0084】
図7に示すように、本実施形態の音声サービス提供装置700は、解析部701と、決定部702と、生成部703と、プッシュ部704とを含む。解析部701は、スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、第1の音声要求情報を解析して、ユーザ要求を決定するためのものであり、決定部702は、配置されたオプション操作集合に基づいて、ユーザ要求に関連する候補操作を決定するためのものであり、生成部703は、ユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成するためのものであり、プッシュ部704は、インテリジェント音声装置がプロンプト情報をスクリーン上に表示するように、スクリーンを含むインテリジェント音声装置にプロンプト情報をプッシュするためのものである。
【0085】
本発明の実施形態では、解析部701は、スクリーンを含むインテリジェント音声装置からの第1の音声要求情報が受信されたことを検出した後、第1の音声要求を解析して、その中からユーザ要求情報を抽出することができる。具体的には、第1の音声要求を復号し、音声要求のコンテンツを取得し、音声要求コンテンツに対して意味解析を行うことができる。意味解析を行う際に、言語モデルにより単語分割を行い、その後にコア単語およびキーワードを抽出し、最後に、トピックモデルにより音声要求コンテンツに含まれるユーザ要求を決定することができる。
【0086】
決定部702は、オプション操作のそれぞれに関連するユーザ要求で構成されたオプション操作集合から、解析部701によって解析されたユーザ要求に関連するオプション操作を候補操作として選択することができる。
【0087】
生成部703は、決定部702によって決定された候補操作の関連情報を含むプロンプト情報を生成して、候補操作の実行を促すことができる。ここで、候補操作の関連情報には、候補操作の名称や操作対象などの情報が含まれていてもよい。
【0088】
プッシュ部704は、ネットワークを介して生成部703によって生成されたプロンプト情報を、第1の音声要求情報を発行し且つ表示画面を含むインテリジェント音声装置にプッシュすることができる。インテリジェント音声装置は、プッシュされたプロンプト情報をディスプレイ(スクリーン)に表示して、プロンプト情報に従って対応する動作をユーザに案内することができる。
【0089】
一部の実施形態では、解析部701は、上記第1の音声要求情報が、マルチメディアリソースの再生を要求するキーワードを含むか否かを判定するステップと、「はい」であれば、上記第1の音声要求情報における予め設定されたマルチメディアタグに対して識別を行って、ユーザ要求が、予め設定されたマルチメディアタグを含む第1のマルチメディアリソースを再生するための要求であると判定する、ステップと、をさらに含む方法により、第1の音声要求情報を解析して、ユーザ要求を決定する。上記決定部702は、さらに、配置されたオプション操作集合からユーザ要求に対応する再生操作と、上記再生操作に関連するオプション操作とを選択して、上記候補操作とする、ステップを含む方法により、ユーザ要求に関連する候補操作を決定する。ここで、再生操作に関連するオプション操作は、再生待ちマルチメディアリソースを選択する操作、再生モード切り替え操作、および再生されたマルチメディアリソースに対する好みフィードバック操作のうちの少なくとも1つを含む。
【0090】
一部の実施形態では、解析部701は、マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれていると判定され、かつ、予め設定されたマルチメディアタグが上記第1の音声要求情報に含まれていないと決定したことに応答して、ユーザプロファイルデータ、シーンデータ、および推奨待ちマルチメディアリソースデータを取得するステップと、ユーザ要求が、推奨待ちマルチメディアリソースデータからユーザプロファイルデータおよび/またはシーンデータとマッチする第2のマルチメディアリソースを選択するための要求であることを決定するステップと、をさらに含む方法により、第1の音声要求情報を解析して、ユーザ要求を決定する。上記決定部702は、さらに、配置されたオプション操作集合において、ユーザ要求に対応する推奨操作を候補操作として選択するステップであって、上記推奨操作の推奨対象が上記第2のマルチメディアリソースを含む、ステップを含む方法により、ユーザ要求に関連する候補操作を決定する。
【0091】
一部の実施形態では、解析部701は、マルチメディアリソースの再生を要求するキーワードが上記第1の音声要求情報に含まれていないと判定されたことに応答して、上記第1の音声要求情報の解析結果を検索式として利用してネットワークデータ検索を行い、検索結果に基づいてユーザ要求を決定するステップをさらに含む、方法により、第1の音声要求情報を解析して、ユーザ要求を決定する。このとき、上記決定部702は、さらに、配置されたオプション操作集合から検索結果とマッチするオプション操作を選出して、上記候補操作とするステップをさらに含む、方法によりユーザ要求に関連する候補操作を決定する。
【0092】
一部の実施形態では、解析部701は、上記第1の音声要求情報を受信する前の予め設定された時間内に受信された第2の音声要求情報を取得するステップと、第2の音声要求情報を参考しながら第1の音声要求情報を解析して、ユーザ要求を決定するステップと、をさらに含む方法により、第1の音声要求情報を解析して、ユーザ要求を決定する。
【0093】
一部の実施形態では、装置700はさらに、上記プロンプト情報に基づいて上記候補操作を実行するユーザの行為データを監視し、上記行為データに基づいて、配置されたオプション操作集合における候補操作とユーザ要求との関連性パラメータを調整するためのフィードバック部を含む。
【0094】
装置700に記載された部件は、
図2および3を参照して説明した方法の様々なステップに対応することを理解されたい。したがって、本方法に対して説明した上記の操作、処理および特徴も、すべて装置700同様に適用可能であり、ここで再び説明しない。
【0095】
本発明の実施形態による音声サービス提供装置700は、スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、第1の音声要求情報を解析して、ユーザ要求を決定する。そして、配置されたオプション操作集合に基づいて、ユーザ要求に関連する候補操作を決定し、ユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成し、インテリジェント音声装置がプロンプト情報をスクリーン上に表示するように、スクリーンを含むインテリジェント音声装置にプロンプト情報をプッシュする。これにより、ユーザニーズに応じる異なる操作プロンプトを実現し、ユーザの異なる潜在的ニーズに応じて異なる操作プロンプト情報を提供することができ、ユーザが関連する操作情報を取得する速度を向上させ、音声サービスの効率を向上させることがでくる。
【0096】
続いて
図8を参照する。
図8は、本発明の実施形態を実現するための電子機器に適用されるコンピュータシステム800の構成模式図を示した。
図8に示された電子機器は一つの例示に過ぎず、本発明の実施形態の機能及び使用範囲に制限しない。
【0097】
図8に示されたように、コンピュータシステム800は、読み出し専用メモリ(ROM)802に記憶されているプログラム又は記憶部806からランダムアクセスメモリ(RAM)803にロードされたプログラムに基づいて様々な適当な操作および処理を実行することができる中央処理装置(CPU)801を備える。RAM803には、システム800の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU801、ROM802およびRAM 803は、バス804を介して互いに接続されている。入力/出力(I/O)インターフェース806もバス804に接続されている。
【0098】
キーボード、マウスなどを含む入力部806、陰極線管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部807、ハードディスクなどを含む記憶部808、およびLANカード、モデムなどを含むネットワークインターフェースカードの通信部809は、I/Oインターフェース806に接続されている。通信部809は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ810は、必要に応じてI/Oインターフェース806に接続される。リムーバブルメディア811は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ810に取り付けられ、したがって、ドライバ810から読み出されたコンピュータプログラムが必要に応じて記憶部808にインストールされる。
【0099】
特に,本発明の実施形態によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本発明の実施形態はコンピュータ読取可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を備える。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施形態において、当該コンピュータプログラムは、通信部809を介してネットワークからダウンロードしてインストールされ、及び/又はリムーバブルメディア811からインストールされても良い。当該コンピュータプログラムは、中央処理部(CPU)801により実行される場合に、本発明の方法に限定される上記機能を実行する。説明すべきなのは、本発明のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは上記両者の任意の組合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD-ROM)、光学記憶素子、磁気記憶素子、或いは上記の任意の適当の組み合わせを含むが、それらに限定されない。本発明において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組合わせて使用されても良い。
【0100】
本発明において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は上記の任意の適当の組合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、RFなど、或いは上記の任意の適当の組み合わせを含むが、それらに限定されない。
【0101】
図面におけるフローチャート及びブロック図は、本発明の各実施形態によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組合わせで実現されても良い。
【0102】
本発明の実施形態に説明された部は、ソフトウェアの手段で実現されても良く、ハードウェアの手段で実現されても良い。説明された部は、プロセッサに設置されても良い。例えば、解析部と、決定部と、生成部と、プッシュ部とを備えるプロセッサとして記載されても良い。なお、これらの部の名称は場合によって部の自身に対する限定とされない。例えば、解析部は、「スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、第1の音声要求情報を解析して、ユーザ要求を決定する部」と記載されても良い。
【0103】
他の局面として、本発明は更にコンピュータ読取可能な媒体を提供した。当該コンピュータ読取可能な媒体は、上記実施形態に説明された装置に含まれたものであっても良く、当該装置に実現されずに別途に存在するものであっても良い。上記コンピュータ読取可能な媒体には、一つ又は複数のプログラムがロードされる。上記一つ又は複数のプログラムが当該装置により実行されると、当該装置に、スクリーンを含むインテリジェント音声装置から送信された第1の音声要求情報を受信したことに応答して、第1の音声要求情報を解析して、ユーザ要求を決定し、そして、配置されたオプション操作集合に基づいて、ユーザ要求に関連する候補操作を決定し、また、ユーザに候補操作を実行させるようにガイドするためのプロンプト情報を生成し、最後に、インテリジェント音声装置がプロンプト情報をスクリーン上に表示するように、スクリーンを含むインテリジェント音声装置にプロンプト情報をプッシュするように実行させる。
【0104】
以上の記載は、ただ本発明の好適な実施形態及び運用される技術原理に対する説明である。当業者であればわかるように、本発明にかかる発明範囲は、上記技術特徴の特定の組み合わせからなる技術案に限定されず、上記の発明構想から逸脱されない場合に上記技術特徴又は均等の特徴による任意の組み合わせで形成される他の技術案も同時に含まれべきである。例えば上記特徴と本発明に開示された(それらに限定されない)類似の機能を具備する技術特徴が互いに置換されて得られる技術案は該当する。