(58)【調査した分野】(Int.Cl.,DB名)
前記第1の応答音声の再生時間を開始時間として、前記端末は第1の予め設定された時間長内にユーザによって入力される第3の音声を取得し、前記第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように前記端末に指示するためのものであり、前記第3の音声は前記第1の応答音声に対するユーザのフィードバックであることと、
前記端末は前記第3のタイプのコンテンツを再生することとをさらに含み、
ただし、前記目的タイプは前記第1のタイプであることを特徴とする請求項1又は請求項2に記載の方法。
前記第1の応答音声の再生時間を開始時間として、前記端末が第1の予め設定された時間長内に前記第1の応答音声に対するユーザの応答を取得しなかった又はユーザによって入力される第4の音声を取得し、前記第4の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第4の音声は再生タイプを指示しない場合、前記端末は前記第2のタイプのコンテンツを再生することをさらに含み、
ただし、前記目的タイプは前記第1のタイプであることを特徴とする請求項1又は請求項2に記載の方法。
前記サーバは前記端末から第2の音声を受信し、前記第2の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第2の音声は前記第1の応答音声に対するユーザの肯定応答又は否定応答であることと、
前記サーバは第2の音声に基づき、前記目的タイプを決定することとをさらに含むことを特徴とする請求項10に記載の方法。
前記サーバが前記端末に対して前記第2のタイプのコンテンツをプッシュすることにより、前記端末は前記第2のタイプのコンテンツを再生することをさらに含むことを特徴とする請求項12又は請求項13に記載の方法。
前記サーバは前記端末から第3の音声を受信し、前記第3の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように前記端末に指示することと、
前記サーバは前記第3の音声に基づき、前記端末に対して前記第3のタイプのコンテンツをプッシュすることにより、前記端末は前記第3のタイプのコンテンツを再生することとをさらに含み、
ただし、前記目的タイプは前記第1のタイプであることを特徴とする請求項10又は請求項11に記載の方法。
前記サーバは前記端末から第4の音声を受信し、前記第4の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第4の音声は再生タイプを指示しないことと、
前記サーバは前記第4の音声に基づき、前記端末に対して前記第2のタイプのコンテンツをプッシュすることにより、前記端末は前記第2のタイプのコンテンツを再生することとをさらに含み、
ただし、前記目的タイプは前記第1のタイプであることを特徴とする請求項10又は請求項11に記載の方法。
【発明を実施するための形態】
【0039】
本願の実施例の目的、技術的解決手段及びその利点をより明瞭にするために、以下、本願の実施例における各図を用いて、本願の実施例に係る技術的解決手段を明瞭で且つ完全に説明する。言うまでもないが、説明される実施例は本願の一部の実施例に過ぎず、その全ての実施例ではない。当業者が本願の実施例に基づき、創造的な作業なしに得たすべてのその他の実施例は、いずれも本願の保護範囲に含まれる。
【0040】
図1は本願の実施例に係るシステムの構成図である。
図1が示すように、本実施例のシステムはサーバと端末を含んで構成される。サーバは端末に対して再生されるコンテンツをプッシュするために用いられ、端末はサーバによってプッシュされるコンテンツを再生するために用いられる。
【0041】
ただし、端末はスマートスピーカーとすることができる。
【0042】
図2は本願の実施例によって提供される音声処理方法のフローチャートであり、
図2に示すように、本実施例に係る方法はステップS201〜ステップS203を含むことができる。
ステップS201において、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。
【0043】
本実施例において端末は音声を再生できるスマートスピーカーとすることができる。スマートスピーカーは所定の順番に従って1つ又は複数のタイプのコンテンツを再生できる、例えば、まず天気予報を再生し、次に音楽、ニュース、コーディネーション等のうちの1つ又は複数のタイプのコンテンツを順に再生する。
【0044】
任意選択的に、本実施例において第1のタイプは当日の前に、端末に設定された各再生タイプのうちのいずれかのタイプであってよく、予め設定されたタイプは端末が第1のタイプを再生する前に再生される各タイプのうちのタイプである。
【0045】
例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュース、音楽及びコーディネーションである場合、第1のタイプは天気予報、ニュース、音楽、コーディネーションのうちのいずれかのタイプとすることができる。第1のタイプがニュースである場合、予め設定されたタイプは天気予報である。第1のタイプが音楽である場合、天気予報及びニュースはいずれも予め設定されたタイプである。
【0046】
例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュースである場合、第1のタイプは天気予報、ニュースのいずれかのタイプとすることができる。第1のタイプがニュースである場合、予め設定されたタイプは天気予報である。
【0047】
任意選択的に、第1のタイプは当日の前に、端末に設定された天気予報以外の各再生タイプのいずれかのタイプである。
【0048】
例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュース、音楽及びコーディネーションである場合、第1のタイプはニュース、音楽、コーディネーションのいずれかのタイプとすることができる。第1のタイプがニュースである場合、予め設定されたタイプは天気予報である。第1のタイプが音楽である場合、天気予報及びニュースはいずれも予め設定されたタイプである。
【0049】
例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュースである場合、第1のタイプはニュースとすることができ、予め設定されたタイプは天気予報である。
【0050】
第1の音声に関しては、端末が再生中の第1のタイプのコンテンツは音楽に関連するコンテンツであり、第2のタイプがニュースである場合、第1の音声は「科学技術ニュースを聴きたい」とすることができる。即ち第1の音声には、少なくとも第2のタイプを指示する情報が含まれる。
【0051】
ステップS202において、端末は第1の音声に対する第1の応答音声を再生し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
【0052】
任意選択的に、本願の実施例において所定時間帯は、現時点で端末の使用を終了した後の時間帯であり、例えば、所定時間帯は当日以後の時間帯である。
【0053】
一つの形態において、端末はユーザによって入力される第1の音声を取得した後、第1の音声を認識し、第1のタイプと第2のタイプは同一ではないことを決定したら、第1の音声に対する第1の応答音声を決定しこれを再生し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
【0054】
別の形態において、端末はユーザによって入力される第1の音声を取得した後、第1の音声をサーバに送信し、サーバは第1の音声を受信し、第1のタイプと第2のタイプは同一ではないことを決定したら、第1の音声に対する第1の応答音声を決定し、第1の応答音声を端末に送信し、端末は第1の音声に対する第1の応答音声を再生し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
【0055】
具体的に、端末又はサーバが第1の音声に対する第1の応答音声を決定することは、第1の音声に対応するスロット情報がある場合、端末又はサーバは第1の音声に対応するスロット情報に基づき、第1の応答音声を決定することと、第1の音声に対応するスロット情報がない場合、予め設定された音声を第1の応答音声に決定する、即ち第1の応答音声は予め設定されたものであることとを含む。ただし、スロット情報とは、第2のタイプの下位タイプ又は第2のタイプの細分されたタイプを決定するために用いられることができる情報を指す。
【0056】
ただし、端末又はサーバが第1の音声の対応するスロット情報に基づき、第1の応答音声を決定することは、端末又はサーバは第1の音声に対応するスロット情報及び第1の音声に対応するスロット情報の優先度に基づき、第1の応答音声を決定することを含む。一つの形態において、第1の音声に対応するスロット情報がある場合、第1の応答音声には、第1の音声に対応するスロット情報のうちの優先度が最高のスロット情報が含まれる。
【0057】
以下、例1〜例5によって第1の応答音声を説明する。
【0058】
例1において、第2のタイプはニュースであり、対応するスロットは、都市(city)、ニュースカテゴリー(category)、時間タイプ(sort−type)、ニュース名称(album)を含むことができ、各スロットの優先度は高いものから低いものまで順に、ニュース名称、ニュースカテゴリー、都市、時間タイプである。スロットの優先度とスロット情報の優先度は同一である。
【0059】
第1の音声が「太原のスポーツニュースを聴きたい」である場合、「太原」及び「スポーツ」はいずれも第1の音声に対応するスロット情報であり、「太原」は都市というスロットに該当する情報であり、「スポーツ」はニュースカテゴリーというスロットに該当する情報であり、ニュースカテゴリーは都市よりも優先度が高いため、第1の応答音声は「スポーツ」及び「ニュース」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもスポーツニュースを再生しますか」であり、ただし、「××」は端末が第1のタイプのコンテンツを再生する前に、端末が再生する予め設定されたタイプのコンテンツにおける第1のタイプのコンテンツに隣り合うコンテンツのタイプである。例えば、端末が第1のタイプのコンテンツを再生する前に、端末が再生するコンテンツのタイプは順に天気予報、コーディネーションであり、コーディネーションを再生した後、第1のタイプのコンテンツを再生し、この場合、「××」は「コーディネーション」である。別の例として、予め設定されたタイプは「天気予報」という1つのものしかない場合、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「天気予報」の後に、いずれもスポーツニュースを再生しますか」である。一つの形態において、「天気予報」のコンテンツは「おはよう」というコンテンツとすることができ、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「おはよう」の後に、いずれもスポーツニュースを再生しますか」である。以下「××」は同じ意味のものであるため、説明は省略される。
【0060】
第1の音声が「経済ニュースを再生してください」である場合、「経済」は第1の音声に対応するスロット情報であり、「経済」はニュースカテゴリーというスロットに該当する情報であるため、第1の応答音声は「経済」及び「ニュース」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも経済ニュースを再生しますか」である。
【0061】
第1の音声が「今朝のニュースを再生してください」である場合、「今朝」は「最新」を指示し、「最新」は第1の音声に対応するスロット情報であり、「最新」は時間タイプというスロットに該当する情報であるため、第1の応答音声は「最新」及び「ニュース」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも最新のニュースを再生しますか」である。
【0062】
第1の音声が「ニュースまとめを再生してください」である場合、「ニュースまとめ」は第1の音声に対応するスロット情報であり、「ニュースまとめ」はニュース名称というスロットに該当する情報であるため、第1の応答音声は「ニュースまとめ」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもニュースまとめを再生しますか」である。
【0063】
第1の音声が「ニュースを聴きたい」であり、対応するスロット情報がない場合、第1の応答音声は予め設定された音声である、例えば予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもニュースを再生しますか」である。
【0064】
例2において、第2のタイプは子供向け音楽以外の音楽であり、対応するスロットは、音楽カテゴリー(tag)、指定カテゴリー(unit)を含むことができ、各スロットの優先度は高いものから低いものまで順に、指定カテゴリー、音楽カテゴリーであり、スロットの優先度とスロット情報の優先度は同一である。
【0065】
第1の音声が「張国栄さんのピアノ曲を聴きたい」である場合、「ピアノ曲」は第1の音声に対応するスロット情報であり、「ピアノ曲」は音楽カテゴリーというスロットに該当する情報であるため、第1の応答音声は「ピアノ曲」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもピアノ曲を再生しますか」である。
【0066】
第1の音声が「お気に入りに登録された歌曲中のピアノ曲を聴きたい」である場合、「ピアノ曲」及び「お気に入りに登録された歌曲」は第1の音声に対応するスロット情報であり、「ピアノ曲」は音楽カテゴリーというスロットに該当する情報であり、「お気に入りに登録された歌曲」は指定カテゴリーというスロットに該当する情報であり、指定カテゴリーの優先度は音楽カテゴリーの優先度より高いため、第1の応答音声は「お気に入りに登録された歌曲」を含み、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもお気に入りに登録された歌曲を再生しますか」である。
【0067】
第1の音声が「張信哲さんの「過火」を聴きたい」である場合、対応するスロット情報がないため、第1の応答音声は予め設定された音声である、例えば、予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも音楽を再生しますか」である。
【0068】
第1の音声が「音楽を再生してください」である場合、対応するスロット情報がないため、第1の応答音声は予め設定された音声である、例えば、予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも音楽を再生しますか」である。
【0069】
例3において、第2のタイプは子供向けの音楽であり、対応するスロットが存在しなくてもよい。
【0070】
第1の音声が「子供向けの音楽を聴きたい」である場合、対応するスロット情報がないため、第1の応答音声は予め設定された音声である、例えば、予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも子供向けの音楽を再生しますか」である。
【0071】
例4において、第2のタイプは中継型のサラウンド放送番組カテゴリーであり、対応するスロットはレベル1カテゴリー、レベル2カテゴリー、番組名称とすることができ、各スロットの優先度は高いものから低いものまで順に、番組名称、レベル2カテゴリー、レベル1カテゴリーであり、スロットの優先度とスロット情報の優先度は同一である。
【0072】
第1の音声が「講談番組「三侠剣」を聴きたい」である場合、「講談番組」及び「三侠剣」は第1の音声に対応するスロット情報であり、「講談番組」はレベル1というスロットに該当する情報であり、「三侠剣」は番組名称というスロットに該当する情報であり、番組名称の優先度はレベル1カテゴリーの優先度より高いため、第1の応答音声は「三侠剣」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも「三侠剣」を再生しますか」である。
【0073】
第1の音声が「「超級飛侠」を聴きたい」である場合、「超級飛侠」は第1の音声に対応するスロット情報であり、「超級飛侠」は番組名称というスロットに該当する情報であるため、第1の応答音声は「超級飛侠」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも「超級飛侠」を再生しますか」である。
【0074】
第1の音声が「物語を聴きたい」である場合、「物語」は第1の音声に対応するスロット情報であり、「物語」は「レベル2」というスロットに該当する情報であるため、第1の応答音声は「物語」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも物語を再生しますか」である。
【0075】
例5において、第2のタイプはサウンド生放送番組であり、対応するスロットはチャンネル名称とすることができる。
【0076】
第1の音声が「「ボイスオブチャイナ」を聴きたい」である場合、「ボイスオブチャイナ」は第1の音声に対応するスロット情報であり、「ボイスオブチャイナ」は「チャンネル名称」というスロットに該当する情報であるため、第1の応答音声は「ボイスオブチャイナ」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもボイスオブチャイナを再生しますか」である。
【0077】
上述した例を用いて、第1の応答音声を説明している。
【0078】
当業者であれば分かるように、第1のタイプと第2のタイプが同一である場合、端末又はサーバは第1の応答音声を決定しなくてもよいため、端末は第1の応答音声を再生せず、引き続き第1のタイプのコンテンツを再生し、これに対応して、サーバは引き続き端末に対して第1のタイプのコンテンツをプッシュする。
【0079】
任意選択的に、端末又はサーバが第1の音声に対する第1の応答音声を決定する前に、さらに、端末が第1の音声を取得した時、端末による第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長以下であることを決定することを含む。すなわち、端末が第1の音声を取得した場合、第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長より長ければ、第1の応答音声を決定しなくてもよく、端末は引き続き第1のタイプのコンテンツを再生し、これに対応して、サーバは引き続き端末に対して第1のタイプのコンテンツをプッシュする。ユーザは一定の時間長で第1のタイプのコンテンツを再生させてから、再生タイプを切り替える音声を入力したため、ユーザは第1のタイプのコンテンツに比較的に満足することが示され、端末の再生タイプの順番を更新しなくてもよい。これにより端末の信頼性はある程度で向上し、端末の電力消費を低減できる。
【0080】
ただし、第2の予め設定された時間長は3〜5minの任意の値とすることができる。
【0081】
ステップS203において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生し、目的タイプは第1の応答音声に対するユーザのフィードバックに関連する。
【0082】
ただし、端末が第1の応答音声を再生した後、ユーザは第1の応答音声に対してフィードバックすることができる。例えば、第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザは第2の音声又は第3の音声又は第4の音声を入力し、端末は第2の音声又は第3の音声又は第4の音声を取得する。ただし、第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答であり、第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示し、第4の音声はいずれの再生タイプも指示しない。
【0083】
まず、端末が取得した第1の応答音声に対するユーザのフィードバックが第2の音声である場合に対応する後続の音声処理方法を説明する。
【0084】
一つの実施形態において、端末が取得した第1の応答音声に対するユーザのフィードバックが第2の音声である場合に対応する後続の音声処理方法は、以下のa1〜a3のうちの少なくとも一つを含むことができる。
a1において、端末は第2のタイプのコンテンツを再生する。
【0085】
端末が第2の音声を取得した後、第2の音声を認識し、第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答であることを決定する。ただし、肯定応答は、例えば、「はい」、「いいよ」、「ノープロブレム」、「OK」である。端末に肯定応答用語集が記憶されてもよく、端末は肯定応答用語集に基づき、第2の音声は第1の応答音声に対するユーザの肯定応答であることを決定することができる。また端末は機械学習アルゴリズムにより、第2の音声は第1の応答音声に対するユーザの肯定応答であることを決定することもできる。否定応答は、例えば、「ダメ」、「いらない」である。端末に否定応答用語集が記憶されてもよく、端末は否定応答用語集に基づき、第2の音声は第1の応答音声に対するユーザの否定応答であることを決定することができる。また端末は機械学習アルゴリズムにより、第2の音声は第1の応答音声に対するユーザの否定応答であることを決定することもできる。
【0086】
端末は、第2の音声が第1の応答音声に対するユーザの肯定応答又は否定応答であることを決定した後に、
一つの形態において、サーバに対して第2のタイプのコンテンツをプッシュする要求を送信し、サーバは第2のタイプのコンテンツをプッシュする要求に基づき、端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプのコンテンツを受信し、これを再生する。
【0087】
別の形態において、端末は第2の音声に対する第2の応答音声を決定しこれを再生し、サーバに対して第2のタイプのコンテンツをプッシュする要求を送信し、サーバは第2のタイプのコンテンツをプッシュする要求に基づき、端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプのコンテンツを受信する。端末は第2の応答音声を再生した後、第2のタイプのコンテンツを再生する。
【0088】
ただし、第2の音声が第1の応答音声に対するユーザの肯定応答である場合、第2の応答音声は、「はい、覚えました」とすることができる。第2の音声が第1の応答音声に対するユーザの否定応答である場合、第2の応答音声は、「ごめんなさい、お邪魔しました」とすることができる。
【0089】
理解できることだろうが、a1において端末が第2のタイプのコンテンツを再生する時間帯は、カレントの端末を使用する過程中の時間帯である。
【0090】
a2において、端末は第2の音声に基づき、目的タイプを決定する。
【0091】
第2の音声が第1の応答音声に対するユーザの肯定応答である場合、端末は目的タイプを第2のタイプに決定する。第2の音声が第1の応答音声に対するユーザの否定応答である場合、端末は目的タイプを第1のタイプに決定する。
【0092】
任意選択的に、第2の音声が第1の応答音声に対するユーザの否定応答である場合、端末は目的タイプを決定する動作を実行しなくてもよい。
【0093】
ただし、a1とa2の実行順番に対して、本実施例は限定しない。
【0094】
a3において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
【0095】
ただし、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生することは、端末が予め設定されたタイプのコンテンツの再生を完了した後すぐに目的タイプのコンテンツを再生することを指す。
【0096】
第2の音声が第1の応答音声に対するユーザの肯定応答である場合、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生する。上述したように、カレントの端末が第1の音声を取得する前に、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するのは第1のタイプのコンテンツであり、所定時間帯に、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するのは第2のタイプのコンテンツである、すなわち、端末が再生するコンテンツはユーザのニーズに基づき更新される。これによりユーザのニーズを満足でき、端末の信頼性が向上する。
【0097】
第2の音声が第1の応答音声に対するユーザの否定応答である場合、第2の音声は第1の応答音声に対するユーザの否定応答であるため、ユーザは所定時間帯に、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生することを望まないことが示される。従って、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に依然として引き続き第1のタイプのコンテンツを再生する。すなわち、端末によって再生されるコンテンツにはユーザのニーズが考慮され、端末の信頼性が向上する。
【0098】
当業者であれば分かるように、ユーザが次回に端末を使用する時、端末が再生するコンテンツのタイプが再度更新されるまで、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
【0099】
理解できることだろうが、a3の前に以下のa31及びa32を含むことができる。
a31において、端末は設定情報をサーバに送信し、当該設定情報はサーバに端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生することを指示する。
【0100】
サーバは設定情報を受信し、記憶されている端末が再生するコンテンツのタイプの順番を更新する、即ち第1の情報を第2の情報に更新する。第1の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第1のタイプのコンテンツを再生すべきであることの情報であり、第2の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第2のタイプのコンテンツを再生すべきであることの情報である。
【0101】
ただし、a31は任意選択的なものである、即ち第2の音声が第1の応答音声に対するユーザの否定応答である場合、a31は存在しなくてもよい。
【0102】
a32において、所定時間帯に、サーバは端末に対して目的タイプのコンテンツをプッシュする。
【0103】
別の実施形態において、端末が取得した第1の応答音声に対するユーザのフィードバックが第2の音声である場合に対応する後続の音声処理方法は、以下のb1〜b3のうちの少なくとも一つを含むことができる。
b1において、端末は第2の音声をサーバに送信し、第2の音声はサーバが目的タイプを決定するために用いられる。
【0104】
サーバは第2の音声を受信し、第2の音声に基づき、目的タイプを決定することは具体的に、サーバは第2の音声を受信した後、第2の音声を認識し、第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答であることを決定する。ただし、肯定応答は、例えば、「はい」、「いいよ」、「ノープロブレム」、「OK」である。サーバに肯定応答用語集が記憶されてもよく、サーバは肯定応答用語集に基づき、第2の音声は第1の応答音声に対するユーザの肯定応答であることを決定することができる。またサーバは機械学習アルゴリズムにより、第2の音声は第1の応答音声に対するユーザの肯定応答であることを決定することもできる。否定応答は、例えば、「ダメ」、「いらない」である。サーバに否定応答用語集が記憶されてもよく、サーバは否定応答用語集に基づき、第2の音声は第1の応答音声に対するユーザの否定応答であることを決定することができる。またサーバは機械学習アルゴリズムにより、第2の音声は第1の応答音声に対するユーザの否定応答であることを決定することもできる。
【0105】
サーバが第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答であることを決定した後、サーバは第2の音声に基づき、目的タイプを決定する。第2の音声が第1の応答音声に対するユーザの肯定応答である場合、サーバは目的タイプを第2のタイプに決定し、第1の情報を第2の情報に更新する。第1の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第1のタイプのコンテンツを再生すべきであることの情報であり、第2の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第2のタイプのコンテンツを再生すべきであることの情報である。
【0106】
第2の音声が第1の応答音声に対するユーザの否定応答である場合、サーバは目的タイプを第1のタイプに決定する。任意選択的に、第2の音声が第1の応答音声に対するユーザの否定応答である場合、サーバは目的タイプを決定する動作を実行しなくてもよい。
【0107】
b2において、端末は第2のタイプのコンテンツを再生する。
【0108】
サーバが第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答であることを決定した後に、
一つの形態において、サーバは端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプのコンテンツを受信し、これを再生する。
【0109】
別の形態において、サーバは第2の音声に対する第2の応答音声を決定し、第2の応答音声を端末に送信し、端末は第2の応答音声を再生する。また、サーバは端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプのコンテンツを受信し、端末は第2の応答音声を再生した後、第2のタイプのコンテンツを再生する。ただし、第2の応答音声に関しては上述した説明を参照してよい。
【0110】
理解できることだろうが、b2において端末が第2のタイプのコンテンツを再生する時間帯は、カレントに端末を使用する過程中の時間帯である。
【0111】
b3において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
【0112】
所定時間帯に、端末はサーバによってプッシュされる目的タイプのコンテンツを受信し、予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
【0113】
次に、端末が取得した第1の応答音声に対するユーザのフィードバックが第3の音声である場合に対応する後続の音声処理方法を説明する。
【0114】
端末が取得した第1の応答音声に対するユーザのフィードバックが第3の音声である場合に対応する後続の音声処理方法は、以下のc1〜c2のうちの少なくとも一つを含むことができる。
c1において、端末は第3のタイプのコンテンツを再生する。
【0115】
一つの形態において、端末は第3の音声を取得した後、第3の音声を認識し、第3の音声が再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示することを決定する。
【0116】
端末は第3の音声が再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示することを決定した後、サーバに対して第3のタイプのコンテンツをプッシュする要求を送信し、サーバは第3のタイプのコンテンツをプッシュする要求に基づき、端末に対して第3のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第3のタイプのコンテンツを受信し、これを再生する。
【0117】
別の形態において、端末は第3の音声をサーバに送信し、サーバは第3の音声を受信し、第3の音声に基づき、端末に対してプッシュする第3のタイプのコンテンツは具体的に、サーバは第3の音声を認識し、第3の音声が再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示することを決定し、端末に対してプッシュする第3のタイプのコンテンツである。端末はサーバによってプッシュされる第3のタイプのコンテンツを受信し、これを再生する。
【0118】
理解できることだろうが、c1において端末が第3のタイプのコンテンツを再生する時間帯は、カレントに端末を使用する過程中の時間帯である。
【0119】
c2において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第1のタイプのコンテンツを再生する。
【0120】
即ち第1の応答音声に対するユーザのフィードバックが更新を意図するフィードバックである場合、目的タイプは第1のタイプである。
【0121】
当業者であれば分かるように、ユーザが次回に当該端末を使用する時、端末は予め設定されたタイプのコンテンツの再生を完了した後に、端末の再生されるコンテンツのタイプが更新されるまで、依然として引き続き第1のタイプのコンテンツを再生する。
【0122】
続いて、端末が取得した第1の応答音声に対するユーザのフィードバックが第4の音声である場合に対応する後続の音声処理方法を説明する。
【0123】
端末が取得した第1の応答音声に対するユーザのフィードバックが第4の音声である場合に対応する後続の音声処理方法は、以下のd1〜d3のうちの少なくとも一つを含むことができる。
d1において、端末は第2のタイプのコンテンツを再生する。
【0124】
一つの形態において、端末は第4の音声を取得した後、第4の音声を認識し、第4の音声はいずれの再生タイプも指示しないことを決定する。
【0125】
端末は第4の音声はいずれの再生タイプも指示しないことを決定した後、サーバに対して第2のタイプのコンテンツをプッシュする要求を送信し、サーバは第2のタイプのコンテンツをプッシュする要求に基づき、端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプのコンテンツを受信し、これを再生する。
【0126】
別の形態において、端末は第4の音声をサーバに送信し、サーバは第4の音声を受信し、第4の音声に基づき、端末に対してプッシュする第2のタイプのコンテンツは具体的に、サーバは第4の音声を認識し、第4の音声はいずれの再生タイプも指示しないことを決定し、端末に対してプッシュする第2のタイプのコンテンツである。端末はサーバによってプッシュされる第2のタイプのコンテンツを受信し、これを再生する。
【0127】
d2において、端末は第4の音声の第3の応答音声を再生する。
【0128】
一つの形態において、端末は第4の音声はいずれの再生タイプも指示しないことを決定した後、第4の音声の第3の応答音声を決定し、これを再生する。
【0129】
別の形態において、端末は第4の音声をサーバに送信し、サーバは第4の音声を受信し、第4の音声に基づき、第4の音声に対する第3の応答音声を決定し、端末に対して第3の応答音声を送信することは具体的に、サーバは第4の音声を認識し、第4の音声はいずれの再生タイプも指示しないことを決定した後、第4の音声の第3の応答音声を決定し、端末に対して第3の応答音声を送信する。端末は第3の応答音声を受信し、第3の応答音声を再生する。
【0130】
ただし、d2は任意選択的なものである。d2が存在する場合、端末が第2のタイプのコンテンツを再生することは、端末が第3の応答音声を再生した後とすることができる。
【0131】
d3において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第1のタイプのコンテンツを再生する。
【0132】
当業者であれば分かるように、ユーザが次回に当該端末を使用する時、端末は予め設定されたタイプのコンテンツの再生を完了した後に、端末の再生されるコンテンツのタイプが更新されるまで、依然として引き続き第1のタイプのコンテンツを再生する。
【0133】
上述した内容において第1の応答音声に対するフィードバックが第2の音声又は第3の音声又は第4の音声である場合に対応する音声処理方法を説明している。第1の応答音声に対するフィードバックは第2の音声又は第3の音声又は第4の音声である場合以外に、以下の場合も存在する。
第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内に端末がユーザによって入力される音声を取得しなかった(即ち第1の応答音声に対するユーザの応答を取得しなかった)場合、端末は第2のタイプのコンテンツを再生する。
【0134】
一つの形態において、端末は第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される音声を取得しなかったことを決定した場合、端末がサーバに対して第2のタイプのコンテンツをプッシュする要求を送信し、サーバは第2のタイプのコンテンツをプッシュする要求に基づき、端末に対して第2のタイプのコンテンツをプッシュし、端末はこれを受信した後、第2のタイプのコンテンツを再生する。
【0135】
別の形態において、サーバは第1の応答音声の再生時間を開始時間として、第3の予め設定された時間長内に端末によって送信される音声を受信しなかった場合、サーバは第1の応答音声に対するユーザのフィードバックが第1の応答音声に対して応答を行わなかったことであることを決定し、サーバは端末に対して第2のタイプのコンテンツをプッシュし、端末はこれを受信した後、第2のタイプのコンテンツを再生する。第3の予め設定された時間長と第1の予め設定された時間長は同一であってもよければ、異なっていてもよい。
【0136】
また別の形態において、端末は第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される音声を取得しなかったことを決定した場合、端末がサーバに対して通知情報を送信し、通知情報は第1の応答音声の再生時間を開始時間として、端末が第1の予め設定された時間長内にユーザによって入力される音声を取得しなかったことを指示し、サーバは当該通知情報に基づき、端末に対して第2のタイプのコンテンツをプッシュし、端末はこれを受信した後、第2のタイプのコンテンツを再生する。
【0137】
すなわち、ユーザが第1の応答音声に対して応答を行わなかった場合、サーバは端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプコンテンツを受信し、第2のタイプのコンテンツを再生する。
【0138】
以上から分かるように、本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
【0139】
以下、具体的な実施例を用いて、
図2に示される実施例の音声処理方法に係る対話のプロセスを説明する。
【0140】
図3は本願の実施例によって提供される音声処理方法の対話
図1であり、
図3に示すように、本実施例に係る方法は、ステップS301〜ステップS307を含むことができる。
ステップS301において、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。
【0141】
ステップS302において、端末は第1の音声をサーバに送信する。
【0142】
ステップS303において、サーバは第1の音声に基づき第1の応答音声を決定し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
【0143】
ステップS304において、サーバは第1の応答音声を端末に送信する。
【0144】
ステップS305において、端末は第1の応答音声を再生する。
【0145】
ステップS306において、サーバは所定時間帯に、端末に対して目的タイプのコンテンツをプッシュし、目的タイプは第1の応答音声に対するユーザのフィードバックに関連する。
【0146】
ステップS307において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
【0147】
上記各ステップの具体的な実現は
図2に示される実施例における説明を参照できるため、ここで説明は省略される。
【0148】
本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
【0149】
以下、
図4を参照して、第1の応答音声に対するユーザのフィードバックが第2の音声である場合に対応する音声処理方法を説明し、第2の音声は第1の応答音声に対する肯定応答又は否定応答である。
【0150】
図4は本願の実施例によって提供される音声処理方法の対話
図2であり、
図4に示すように、本実施例に係る方法はステップS401〜ステップS414を含むことができる。
ステップS401において、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。
【0151】
ステップS402において、端末は第1の音声をサーバに送信する。
【0152】
ステップS403において、サーバは第1の音声に基づき第1の応答音声を決定し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
【0153】
ステップS404において、サーバは第1の応答音声を端末に送信する。
【0154】
ステップS405において、端末は第1の応答音声を再生する。
【0155】
ステップS406において、端末は第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される第2の音声を取得し、第2の音声は第1の応答音声に対するユーザのフィードバックであり、且つ、第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答である。
【0156】
ステップS407において、端末は第2の音声をサーバに送信する。
【0157】
ステップS408において、サーバは第2の音声に基づき、目的タイプを決定する。
ステップS409において、サーバは第2の音声に基づき第2の応答音声を決定する。
ステップS410において、サーバは第2の応答音声を端末に送信する。
【0158】
ステップS411において、端末は第2の応答音声を再生する。
【0159】
ただし、ステップS409〜ステップS411は任意選択的なものである。
【0160】
ステップS412において、サーバは第2のタイプのコンテンツを端末にプッシュする。
ステップS413において、端末は第2のタイプのコンテンツを再生する。
【0161】
ステップS414において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
【0162】
上記各ステップの具体的な実現は
図2に示される実施例における説明を参照できるため、ここで説明は省略される。
【0163】
本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
【0164】
以下、
図5を参照して、第1の応答音声に対するユーザのフィードバックが第3の音声である場合に対応する音声処理方法を説明し、第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示する。
【0165】
図5は本願の実施例によって提供される音声処理方法の対話
図3であり、
図5に示すように、本実施例に係る方法はステップS501〜ステップS510を含むことができる。
ステップS501において、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。
【0166】
ステップS502において、端末は第1の音声をサーバに送信する。
【0167】
ステップS503において、サーバは第1の音声に基づき第1の応答音声を決定し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
【0168】
ステップS504において、サーバは第1の応答音声を端末に送信する。
【0169】
ステップS505において、端末は第1の応答音声を再生する。
【0170】
ステップS506において、端末は第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される第3の音声を取得し、第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示する。
【0171】
ステップS507において、端末は第3の音声をサーバに送信する。
【0172】
ステップS508において、サーバは第3の音声に基づき、第3のタイプのコンテンツを端末にプッシュする。
【0173】
ステップS509において、端末は第3のタイプのコンテンツを再生する。
【0174】
ステップS510において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第1のタイプのコンテンツを再生する。
【0175】
上記各ステップの具体的の実現は
図2に示される実施例における説明を参照できるため、ここで説明は省略される。
【0176】
本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
【0177】
以下、
図6を参照して、第1の応答音声に対するユーザのフィードバックが第4の音声である場合に対応する音声処理方法を説明し、第4の音声は再生タイプを指示しない。
【0178】
図6は本願の実施例によって提供される音声処理方法の対話
図4であり、
図6に示すように、本実施例に係る方法は、ステップS601〜ステップS613を含むことができる。
ステップS601において、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。
【0179】
ステップS602において、端末は第1の音声をサーバに送信する。
【0180】
ステップS603において、サーバは第1の音声に基づき第1の応答音声を決定し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
【0181】
ステップS604において、サーバは第1の応答音声を端末に送信する。
【0182】
ステップS605において、端末は第1の応答音声を再生する。
【0183】
ステップS606において、端末は第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される第4の音声を取得し、第4の音声はいずれの再生タイプも指示しない。
【0184】
ステップS607において、端末は第4の音声をサーバに送信する。
【0185】
ステップS608において、サーバは第4の音声に基づき、第4の音声に対する第3の応答音声を決定する。
ステップS609において、サーバは第3の応答音声を端末に送信する。
【0186】
ステップS610において、端末は第3の応答音声を再生する。
【0187】
ただし、ステップS608〜ステップS610は任意選択的なものである。
【0188】
ステップS611において、サーバは第4の音声に基づき、第2のタイプのコンテンツを端末にプッシュする。
ステップS612において、端末は第2のタイプのコンテンツを再生する。
【0189】
ステップS613において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第1のタイプのコンテンツを再生する。
【0190】
上記各ステップの具体的な実現は
図2に示される実施例における説明を参照できるため、ここで説明は省略される。
【0191】
本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
【0192】
上述した内容において本願の実施例に係る音声処理方法を説明しており、以下、本願の実施例に係る音声処理装置を説明する。
【0193】
図7は本願の実施例によって提供される音声処理装置の構造を示す概略
図1であり、本実施例に係る音声処理装置は端末又は端末の部品とすることができる。
図7に示すように、本実施例に係る装置は処理モジュール71と送受信モジュール72とを含むことができる。
【0194】
音声処理装置が第1のタイプのコンテンツを再生する時、処理モジュール71はユーザによって入力される第1の音声を取得するために用いられ、前記第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように音声処理装置に指示し、ただし、前記音声処理装置が第1のタイプのコンテンツを再生する前に、前記音声処理装置は予め設定されたタイプのコンテンツを再生する。前記処理モジュール71は前記第1の音声に対する第1の応答音声を再生するためにも用いられ、前記第1の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。前記処理モジュール71は、所定時間帯に、前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生するためにも用いられ、前記目的タイプは前記第1の応答音声に対する前記ユーザのフィードバックに関連する。
【0195】
任意選択的に、前記送受信モジュール72は、前記第1の音声をサーバに送信するために用いられる。
【0196】
任意選択的に、前記送受信モジュール72は、所定時間帯に、前記サーバから目的タイプのコンテンツを受信するためにも用いられる。
【0197】
任意選択的に、前記処理モジュール71が前記第1の音声に対する第1の応答音声を再生するために用いられることは、前記処理モジュール71が具体的に、前記第1の音声がスロット情報を含む場合、前記スロット情報に基づき、前記第1の応答音声を再生し、前記第1の音声がスロット情報を含まない場合、前記第1の音声に基づき、予め設定された音声を再生するために用いられ、前記予め設定された音声は前記第1の応答音声であることを含む。
【0198】
任意選択的に、前記送受信モジュール71は、前記サーバから前記第1の音声の第1の応答音声を受信するためにも用いられる。
【0199】
任意選択的に、所定時間帯に、前記処理モジュール71は前記予め設定されたタイプのコンテンツの再生を完了した後、前記目的タイプのコンテンツを再生する前に、前記処理モジュール71は、前記第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される第2の音声を取得し、前記第2の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第2の音声は前記第1の応答音声に対するユーザの肯定応答又は否定応答であり、前記第2の音声に基づき、前記目的タイプを決定するためにも用いられる。
【0200】
任意選択的に、前記処理モジュール71は前記第2の音声に基づき、前記目的タイプを決定するために用いられることは、前記処理モジュール71が具体的に、前記第2の音声が前記第1の応答音声に対するユーザの肯定応答である場合、前記目的タイプを前記第2のタイプに決定し、前記第2の音声が前記第1の応答音声に対するユーザの否定応答である場合、前記目的タイプを前記第1のタイプに決定するためにも用いられることを含む。
【0201】
任意選択的に、前記処理モジュール71は前記第2の音声に対する第2の応答音声を再生するためにも用いられる。
【0202】
任意選択的に、前記送受信モジュール72は、前記サーバから前記第2の音声に対する第2の応答音声を受信するためにも用いられる。
【0203】
任意選択的に、前記処理モジュール71が前記第2の音声を取得した後に、前記処理モジュール71は、前記第2のタイプのコンテンツを再生するためにも用いられる。
【0204】
任意選択的に、前記送受信モジュール71は、前記第2の音声をサーバに送信するためにも用いられる。
【0205】
任意選択的に、前記処理モジュール71は、前記第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される第3の音声を取得し、前記第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように指示し、前記第3の音声は前記第1の応答音声に対するユーザのフィードバックであり、前記第3のタイプのコンテンツを再生するためにも用いられる。これに対応して、前記目的タイプは前記第1のタイプである。
【0206】
任意選択的に、前記送受信モジュール72は、第3の音声をサーバに送信するためにも用いられる。
【0207】
任意選択的に、前記第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内に前記第1の応答音声に対するユーザの応答を取得しなかった又は第4の音声を取得した場合、前記処理モジュール71は、前記第2のタイプのコンテンツを再生するためにも用いられ、前記第4の音声は再生タイプを指示せず、前記第4の音声は前記第1の応答音声に対するユーザのフィードバックであり、これに対応して、前記目的タイプは前記第1のタイプである。
【0208】
任意選択的に、前記送受信モジュール72は、前記サーバから第2のタイプのコンテンツを受信するためにも用いられる。
【0209】
任意選択的に、前記送受信モジュール72は、第3の音声をサーバに送信するためにも用いられる。
【0210】
任意選択的に、前記処理モジュール71が前記第1の音声に対する第1の応答音声を再生するために用いられる前に、前記処理モジュール71は、前記第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長以下であることを決定するためにも用いられる。
【0211】
本実施例に係る装置は、上記方法の実施例における端末に対応する技術的解決手段を実行するために用いることができ、その実現の原理及び技術的効果は類似するため、ここで説明は省略される。
【0212】
図8は、本願の実施例によって提供される音声処理装置の構造を概略的に示す
図2であり、本実施例に係る音声処理装置はサーバ又はサーバの部品とすることができる。
図8に示すように、本実施例に係る装置は、処理モジュール81と、送受信モジュール82とを含むことができる。
【0213】
端末が第1のタイプのコンテンツを再生する時、送受信モジュール82は前記端末から第1の音声を取得するために用いられ、前記第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第1のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生する。前記処理モジュール81は前記第1の音声に対する第1の応答音声を取得するために用いられ、前記送受信モジュール82は前記第1の応答音声を前記端末に送信するためにも用いられ、これにより前記端末は前記第1の応答音声を再生し、前記第1の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。前記所定時間帯に、前記送受信モジュール82は前記端末に対して目的タイプのコンテンツをプッシュするためにも用いられ、前記目的タイプは前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するコンテンツのタイプであり、前記目的タイプは前記第1の応答音声に対する前記ユーザのフィードバックに関連する。
【0214】
任意選択的に、前記処理モジュール81が前記第1の音声に対する第1の応答音声を取得するために用いられることは、前記処理モジュール81が具体的に、前記第1の音声がスロット情報を含む場合、前記スロット情報に基づき、前記第1の応答音声を決定し、第1の音声がスロット情報を含まない場合、前記第1の音声に基づき、予め設定された音声を前記第1の応答音声に決定するために用いられることを含む。
【0215】
任意選択的に、前記送受信モジュール82は、前記端末から第2の音声を受信するためにも用いられ、前記第2の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第2の音声は前記第1の応答音声に対するユーザの肯定応答又は否定応答である。前記処理モジュール81は、第2の音声に基づき、前記目的タイプを決定するためにも用いられる。
【0216】
任意選択的に、前記処理モジュール81は、第2の音声に基づき、前記目的タイプを決定するために用いられることは、前記処理モジュール81が具体的に、前記第2の音声が前記第1の応答音声に対するユーザの肯定応答である場合、前記目的タイプを前記第2のタイプに決定し、前記第2の音声が前記第1の応答音声に対するユーザの否定応答である場合、前記目的タイプを前記第1のタイプに決定するために用いられることを含む。
【0217】
任意選択的に、前記送受信モジュール82は、前記端末に対して前記第2のタイプのコンテンツをプッシュするためにも用いられ、これにより前記端末は前記第2のタイプのコンテンツを再生する。
【0218】
任意選択的に、前記送受信モジュール82は、前記端末から第3の音声を受信し、前記第3の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように前記端末に指示し、前記第3の音声に基づき、前記端末に対して前記第3のタイプのコンテンツをプッシュし、これにより前記端末は前記第3のタイプのコンテンツを再生するためにも用いられ、これに対応して、前記目的タイプは前記第1のタイプである。
【0219】
任意選択的に、前記送受信モジュール82は、前記端末から第4の音声を受信し、前記第4の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第4の音声は再生タイプを指示しなく、前記第4の音声に基づき、前記端末に対して前記第2のタイプのコンテンツをプッシュし、これにより前記端末は前記第2のタイプのコンテンツを再生するためにも用いられ、これに対応して、前記目的タイプは前記第1のタイプである。
【0220】
任意選択的に、ユーザが前記第1の応答音声に対して応答を行わなかった場合、前記送受信モジュール82は、前記端末に対して前記第2のタイプのコンテンツをプッシュし、これにより前記端末は前記第2のタイプのコンテンツを再生するためにも用いられ、これに対応して、前記目的タイプは前記第1のタイプである。
【0221】
任意選択的に、前記処理モジュール81が前記第1の音声に対する第1の応答音声を取得するために用いられる前に、前記処理モジュール81は前記端末による前記第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長以下であることを決定するためにも用いられる。
【0222】
本実施例に係る装置は、上記方法の実施例に係る技術的解決手段を実行するために用いることができ、その実現の原理及び技術的効果は類似するため、ここで説明は省略される。
【0223】
図9は、本願の一つの実施例によって提供される装置の構造を示す概略図であり、
図9が参照されるように、前記装置500はサーバ、又は端末とすることができ、あるいはサーバ又は端末による上記方法の実現をサポートするチップ、チップシステム、又はプロセッサ等とすることもでき、さらに、上記方法の実現をサポートするチップ、チップシステム、又はプロセッサ等とすることもできる。当該装置は上記方法の実施例で説明されるサーバ又は端末に対応する方法を実現するために用いられることができ、その詳細は上記方法の実施例における説明を参照できる。
【0224】
前記装置500は1つ又は複数のプロセッサ501を含むことができ、前記プロセッサ501は処理ユニットと称することができ、所定の制御機能を実現できる。前記プロセッサ501は汎用プロセッサ又は専用プロセッサ等とすることができる。例えば、ベースバンド処理装置又は中央処理装置とすることができる。ベースバンド処理装置は通信プロトコル及び通信データに対して処理を行うために用いることができ、中央処理装置は通信装置(例えば、基地局、ベースバンドチップ、端末、端末チップ、分散ユニット(Distributed Unit、DU)又は集積ユニット(Centralized Unit、CU)等)に対して制御を行う、ソフトウェアプログラムを実行する、ソフトウェアプログラムのデータを処理するために用いることができる。
【0225】
一つの選択可能な構成において、プロセッサ501にコマンド及び/又はデータ503が記憶されてもよく、前記コマンド及び/又はデータ503が前記プロセッサ501によって実行されることで、前記装置500に上記方法の実施例で説明される方法を実行させることができる。
【0226】
別の選択可能な構成において、プロセッサ501は受信及び送信機能を実現するための送受信ユニットを含むことができる。例えば、当該送受信ユニットは送受信回路であるか、又はインタフェース、もしくはインタフェース回路とすることができる。受信及び送信機能を実現するための送受信回路、インタフェース又はインタフェース回路は分離されてもよければ、集積されてもよい。上記送受信回路、インタフェース又はインタフェース回路はコード/データの読み書きのために用いることができる、又は、上記送受信回路、インタフェース又はインタフェース回路は信号の伝送又は転送のために用いることができる。
【0227】
もう一つの可能な構成において、装置500は回路を含むことができ、前記回路は前述した方法の実施例における送信、受信又は通信の機能を実現できる。
【0228】
任意選択的に、前記装置500は1つ又は複数のメモリ502を含むことができ、メモリにコマンド504が記憶されてもよく、前記コマンドが前記プロセッサにおいて実行されることで、前記装置500に上記方法の実施例で説明される方法を実行させることができる。任意選択的に、前記メモリにさらにデータが記憶されてもよい。任意選択的に、プロセッサにもコマンド及び/又はデータが記憶されてもよい。前記プロセッサ及びメモリは単独に設けられてもよければ、集積されてもよい。例えば、上記方法の実施例で説明される対応関係はメモリに記憶されるか、又はプロセッサに記憶されてもよい。
【0229】
任意選択的に、前記装置500は送受信器505及び/又はアンテナ506を含むこともできる。前記プロセッサ501は処理ユニットと称することができ、前記装置500に対して制御を行うために用いられる。前記送受信器505は送受信ユニット、送受信機、送受信回路又は送受信器等と称することができ、送受信機能を実現するために用いられる。
【0230】
本願はさらに、コンピュータ可読記憶媒体を提供し、当該媒体にコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される時、上記方法の実施例における端末に対応する方法又は上記方法の実施例におけるサーバに対応する方法が実現される。
【0231】
なお、明細書の全体にわたって用いられる「実施例」というのは、実施例に関連する特定の特徴、構造または特性が本願の少なくとも一つの実施例に含まれることを意味する。従って、明細書全体における各実施例は必ずしも同一の実施例を指すものではない。また、これらの特定の特徴、構造または特性は任意の適切な方式で1つ又は複数の実施例に組み合わせることができる。なお、本願の様々な実施例において、上記各過程の番号の大きさは実行順番の前後を表すものではなく、各過程の実行順番はその機能及び内在的な論理により決定されるべきであり、本願の実施例を実施する過程に対しいかなる限定も構成しない。
【0232】
なお、本願において、「〜の場合」、「である場合」及び「であると」は、いずれも特定の客観的な状況において端末又はサーバが対応する処理を行うことを意味し、時間を限定するものではなければ、端末又はサーバが実現する際に必ず判断の動作を行うことも要求されず、その他の限定が存在することも意味しない。
【0233】
本願において単数の形式で説明される要素は「1つ、且つ1つのみ」ではなく、「1つ又は複数」を表すものであり、ただし特段の説明がある場合は除く。本願において、特段の説明がない限り、「少なくとも1つ」は「1つ又は複数」を表すものであり、「複数」は「2つ以上」を表すものである。
【0234】
本明細書において「及び/又は」という用語は、関連する対象の相関関係を説明するためのものに過ぎず、3種の関係が存在できることを表す。例えば、「A及び/又はB」というのは、Aが単独で存在する、AとBが同時に存在する、Bが単独で存在するという3種の状況が存在することを表すことができ、ただしAは単数でも複数でもよく、Bは単数でも複数でもよい。
【0235】
本明細書において、「〜のうちの少なくとも1つ」又は「〜のうちの少なくとも1種」という表現は、挙げられた各項目の全て又はその任意の組み合わせを表す。例えば、「A、B及びCのうちの少なくとも1種」は、Aが単独で存在する、Bが単独で存在する、Cが単独で存在する、AとBが同時に存在する、BとCが同時存在する、AとCが同時存在する、A、BとCが同時に存在するという7種の状況が存在することを表すことができ、ただしAは単数でも複数でもよく、Bは単数でも複数でもよく、Cは単数でも複数でもよい。
【0236】
なお、本願の各実施例において、「Aに対応するB」はBがAに関連し、Aに基づきBを決定できることを意味する。理解できることだろうが、Aに基づきBを決定することは、Aのみに基づきBを決定するだけでなく、A及び/又はその他の情報に基づきBを決定することもできる。
【0237】
当業者であれば分かるように、上記各方法の実施例を実現するためのステップの全て又はその一部は、プログラムコードに関連するハードウェアで完了できる。前述したプログラムは、コンピュータ可読記憶媒体に記憶されてもよい。当該プログラムが実行される時、上記各方法の実施例を含むステップを実行する。前述した記憶媒体はROM、RAM、磁気ディスク又は光ディスク等、プログラムコードを記憶可能な様々な媒体を含む。
【0238】
最後に説明すべきこととして、上記各実施例は本願に係る技術的解決手段を説明するためのものに過ぎず、それを限定するためのものではない。前述した各実施例を参照して本願を詳細に説明しているが、当業者であれば理解できるように、なおも前述した各実施例に記載されている技術的解決手段に対し修正を行うか、その一部又は全ての技術的特徴に対し均等な差し替えを行うことができる。これらの修正又は差し替えにより、関係する技術的解決手段の主旨が本願の各実施例に係る技術的解決手段の範囲から逸脱することはない。