IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧 ▶ シャンハイ シャオドゥ テクノロジー カンパニー リミテッドの特許一覧

<>
  • 特許-音声対話方法及び装置 図1
  • 特許-音声対話方法及び装置 図2
  • 特許-音声対話方法及び装置 図3
  • 特許-音声対話方法及び装置 図4
  • 特許-音声対話方法及び装置 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-05
(45)【発行日】2022-10-14
(54)【発明の名称】音声対話方法及び装置
(51)【国際特許分類】
   G10L 13/08 20130101AFI20221006BHJP
   G10L 15/22 20060101ALI20221006BHJP
   G10L 13/00 20060101ALI20221006BHJP
   G10L 15/28 20130101ALI20221006BHJP
【FI】
G10L13/08 124
G10L15/22 300Z
G10L13/00 100M
G10L15/28 500
【請求項の数】 5
【外国語出願】
(21)【出願番号】P 2020038898
(22)【出願日】2020-03-06
(65)【公開番号】P2021015266
(43)【公開日】2021-02-12
【審査請求日】2020-04-07
(31)【優先権主張番号】201910637711.2
(32)【優先日】2019-07-15
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100163511
【弁理士】
【氏名又は名称】辻 啓太
(73)【特許権者】
【識別番号】521235408
【氏名又は名称】シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
(72)【発明者】
【氏名】リウ ドンリ
(72)【発明者】
【氏名】ダイ シャオチェン
(72)【発明者】
【氏名】ペン ジアン
【審査官】泉 卓也
(56)【参考文献】
【文献】特開2001-183155(JP,A)
【文献】特開2015-195998(JP,A)
【文献】特開2013-020220(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/08 - 15/34
G06F 3/00 - 3/16
G09B 1/00 - 29/14
(57)【特許請求の範囲】
【請求項1】
音声対話デバイスにより実行される音声対話方法であって、
外部入力を受信するステップと、
前記外部入力に応答して、現在の時刻を検出するステップと、
音声番組を呼び出すステップと、
前記呼び出された音声番組を再生し、前記音声番組の再生が完了したことに応じて、前記現在の時刻と呼び出された音声番組とに基づいて、質問を発出するステップであって、
前記現在の時刻が予め設定された時間帯以外である場合、前記呼び出された音声番組に対応する質問を発出すること、
前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組及び前記予め設定された時間帯に対応する質問を発出することを含む、ステップと、
外部音声入力を受信するステップと、
前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断するステップと、
前記外部音声入力が、前記発出された質問の正解と一致する場合、音声提示情報を出力するステップと、
を含むことを特徴とする、音声対話方法。
【請求項2】
前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断するステップは、
前記外部音声入力には、前記発出された質問の正解におけるキーワードが含まれているか否かを判断するステップと、
前記外部音声入力に、前記発出された質問の正解におけるキーワードが含まれている場合に、前記外部音声入力が前記発出された質問の正解と一致すると判定するステップと、
を含むことを特徴とする請求項1に記載の音声対話方法。
【請求項3】
音声対話装置であって、
外部入力を受信するように構成される受信ユニットと、
前記外部入力に応答して、現在の時刻を検出するように構成される検出ユニットと、
音声番組を呼び出すように構成される処理ユニットと、
前記呼び出された音声番組を再生し、前記音声番組の再生が完了したことに応じて、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出するように構成される再生ユニットであって、
前記現在の時刻が予め設定された時間帯以外である場合、前記呼び出された音声番組に対応する質問を発出し、
前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組及び前記予め設定された時間帯に対応する質問を発出するように構成される、再生ユニットを備え、
前記受信ユニットは、質問の発出の後に、外部音声入力を受信するようにさらに構成されており、
前記処理ユニットは、質問の発出の後に、前記外部音声入力が前記発出された質問の正解と一致するか否かを判断するようにさらに構成されており、
前記再生ユニットは、質問の発出の後に、前記外部音声入力が前記発出された質問の正解と一致する場合、音声提示情報を出力するようにさらに構成されている、
ことを特徴とする音声対話装置。
【請求項4】
前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断することは、
前記外部音声入力には、前記発出された質問の正解におけるキーワードが含まれているか否かを判断することと、
前記外部音声入力に、前記発出された質問の正解におけるキーワードが含まれている場合に、前記外部音声入力が前記発出された質問の正解と一致すると判定することと、
を含むことを特徴とする請求項3に記載の音声対話装置。
【請求項5】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1又は2に記載の方法を実現させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はスマート機器に関し、具体的には音声対話方法及び装置に関する。
【背景技術】
【0002】
現在では、スマート音声対話機器(スマートスピーカー、スマートロボット等を含む)において、音声番組の再生中に、コンテンツの生産者又は編集者がユーザとやり取りをしようとする場合、ユーザへ質問を発出することができる。しかしながら、スマート音声対話機器のユーザにとって、機器とのやり取りが少い場合や、スマート音声対話機器からの質問が時宜に適しなったり、物語の筋との関連性が弱ったりして、ユーザの没入感が不足となる場合がある。
【発明の概要】
【0003】
本願の実施例は、ユーザとより没入感の強いやり取りをして、ユーザ体験を改善することができる音声対話方法及び装置を提供することを目的とする。
【0004】
上記目的を達成するために、本願の実施例は、音声対話方法であって、外部入力を受信するステップと、前記外部入力に応答して、現在の時刻を検出するステップと、音声番組を呼び出すステップと、前記現在の時刻と呼び出された音声番組とに基づいて、質問を発出し、前記呼び出された音声番組を再生するステップと、を含む音声対話方法音声対話方法を提供する。
【0005】
また、問題を提出した後、該方法は外部音声入力を受信するステップと、前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断するステップと、前記外部音声入力が、前記発出された質問の正解と一致する場合、音声提示情報を出力するステップと、を更に含んでもよい。
【0006】
また、前記現在の時刻と呼び出された音声番組とに基づいて、質問を発出し、前記呼び出された音声番組を再生するステップは、まず、前記呼び出された音声番組を再生し、それから、前記呼び出された音声番組の再生が完了すると、前記現在の時刻と前記呼び出された音声番組とに基づいて、質問を発出すること、或いは、まず、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出し、それから、前記呼び出された音声番組を再生すること、或いは、前記呼び出された音声番組を再生すると同時に、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出すること、をさらに含んでもよい。
【0007】
また、前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断するステップは、前記外部音声入力には、前記発出された質問の正解におけるキーワードが含まれているか否かを判断するステップと、前記外部音声入力に、前記発出された質問の正解におけるキーワードが含まれている場合に、前記外部音声入力が前記発出された質問の正解と一致すると判定するステップと、を含んでもよい。
【0008】
また、前記現在の時刻及び前記呼び出された音声番組とに基づいて質問を発出すことは、前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組に対応する質問を発出すること、前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組及び前記予め設定された時間帯に対応する質問を発出すること、を含んでもよい。
【0009】
本願の実施例は、音声対話装置であって、外部入力を受信するように構成される受信ユニットと、前記外部入力に応答して、現在の時刻を検出するように構成される検出ユニットと、音声番組を呼び出すように構成される処理ユニットと、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出し、前記呼び出された音声番組を再生するように構成される再生ユニットと、を備える音声対話装置さらに提供する。
【0010】
また、前記受信ユニットは、質問の発出の後に、外部音声入力を受信するようにさらに構成されており、前記処理ユニットは、質問の発出の後に、前記外部音声入力が前記発出された質問の正解と一致するか否かを判断するようにさらに構成されており、前記再生ユニットは、質問の発出の後に、前記外部音声入力が前記発出された質問の正解と一致する場合、音声提示情報を出力するようにさらに構成されていてもよい。
【0011】
また、前記現在の時刻と呼び出された音声番組とに基づいて、質問を発出し、前記呼び出された音声番組を再生することは、まず、前記呼び出された音声番組を再生し、それから、前記呼び出された音声番組の再生が完了すると、前記現在の時刻と前記呼び出された音声番組とに基づいて、質問を発出すること、或いは、まず、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出し、それから、前記呼び出された音声番組を再生すること、或いは、前記呼び出された音声番組を再生すると同時に、前記現在の時刻と前記呼び出された音声番組とに基づいて質問を発出することを含んでもよい。
【0012】
また、前記外部音声入力が、前記発出された質問の正解と一致するか否かを判断することは、前記外部音声入力には、前記発出された質問の正解におけるキーワードが含まれているか否かを判断することと、前記外部音声入力に、前記発出された質問の正解におけるキーワードが含まれている場合に、前記外部音声入力が前記発出された質問の正解と一致すると判定することと、を含んでもよい。
【0013】
また、前記現在の時刻及び前記呼び出された音声番組とに基づいて質問を発出すことは、前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組に対応する質問を発出すること、前記現在の時刻が予め設定された時間帯内である場合、前記呼び出された音声番組及び前記予め設定された時間帯に対応する質問を発出すること、を含んでもよい。
【0014】
上記技術案によれば、本願による音声対話方法及び装置によって、外部入力を受信し、続いて、前記外部入力に応答して現在の時刻を検出し、それから、音声番組を呼び出し、最後に、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出し、前記呼び出された音声番組を再生し、ユーザとより没入感の強いやり取りを行うことができ、ユーザ体験を改善することができる。
【0015】
本願実施利の他の特徴や利点は、後述の発明を実施するための形態の部分において詳細に記述する。
【図面の簡単な説明】
【0016】
図面は、本願実施例を限定するものではなく、本開示の実施例がよく理解できるように、明細書の一部として、後述の発明を実施するための形態と一緒に本願実施例を説明するためのものである。
図1】本願の一実施例にかかる音声対話方法のフローチャートである。
図2】本願の他の実施例にかかる音声対話方法のフローチャートである。
図3】本願の他の実施例にかかる音声対話方法のフローチャートである。
図4】本願の他の実施例にかかる音声対話方法のフローチャートである。
図5】本願の別の他の一実施例にかかる音声対話装置の模式的構造図である。
【発明を実施するための形態】
【0017】
以下は図面を参照しながら、本願の実施例の具体的な実施形態を詳細に説明する。ここで記述する具体的な実施形態は、本願の実施例を説明、解釈するために用いられ、本願の実施例を限定するものではないと理解されたい。
【0018】
図1は本願の一実施例にかかる音声対話方法のフローチャートである。図1に示すように、該方法は、ステップS11~14を含む。
ステップS11において、外部入力を受信する。
ステップS12において、前記外部入力に応答して、現在の時刻を検出する。
ステップS13において、音声番組を呼び出す。
ステップS14において、上記の現在の時刻と呼び出された音声番組とに基づいて質問を発出し、且つ、呼び出された音声番組を再生する。
【0019】
ステップS11において、外部入力を受信する。ここで、外部入力は、押しボタンを介した外部入力であってもよく、音声を介した外部入力であってもよい。音声を介した外部入力は、「物語を聞きたい」というような番組リクエストに関係する指示であってもよく、「しばらく私と一緒に遊びましょう」というような番組リクエストに関係しない指示であってもよい。
【0020】
ステップS12において、外部入力に応じて、例えば、朝8時、夜9時等の現在の時刻を検出する。
【0021】
ステップS13において、音声番組を呼び出す。音声番組を、音声対話機器に予め記憶されていてもよく、人間の声で音声番組をオーディオファイルとして記録して記憶してもよい。
【0022】
ステップS14において、音声番組の再生と質問の発出との間の順番は、以下の場合がある。第1の場合は、まず、呼び出された音声番組を再生し、それから、呼び出された音声番組の再生が完了すると、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出する。第2の場合は、まず、前記現在の時刻と呼び出された音声番組とに基づいて質問を提出し、その後、呼び出された音声番組を再生する。第3の場合は、呼び出された音声番組の再生と同時に、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出する。なお、詳細には後述するが、再生された音声番組は、現在の時刻が位置する時間帯に対応する特定の質問が存在する場合、該特定の質問を発出する。質問の発出は、音声対話機器に記憶された質問のテキストを機械が音声として合成して出力することにより行われても良く、または人間の声で質問をオーディオとして記録して音声対話機器に記憶したものを出力することにより行われてもよい。
【0023】
図2は本願の他の実施例にかかる音声対話方法のフローチャートである。図2に示すように、問題を提出した後、該方法はステップS21~24を含む。
ステップS21において、外部音声入力を受信する。
ステップS22において、前記外部音声入力が発出された質問の正解と一致するか否かを判断する。
ステップS23において、前記外部音声入力が発出された質問の正解と一致す る場合、正しいことを示す音声提示情報を出力する。
ステップS24において、前記外部音声入力が発出された質問の正解と一致しない場合、正しくないことを示す音声提示情報を出力する。
【0024】
ステップS21において、このとき受信された外部音声入力は、デフォルトで、発出された質問に対するユーザの答えであると認定されている。音声対話機器は質問を発出した後、マイクロフォンを自動的に起動させ、ユーザが直接回答するようにしてもよい。マイクロフォンが自動的に起動できない場合、ユーザは手動でマイクロフォンを起動して、回答するようにしてもよい。その後、音声対話機器はユーザの発話した回答を取得することができる。
【0025】
ステップS22において、外部音声入力が発出された質問の正解と一致するか否かを判定する。ここでは、発出された質問の正解が一つだけである場合があり、例えば、発出された質問は
(白い羽は青々とした水面に浮かび)の次の文が何ですか?」とすると、正しい答えは一つだけの
(紅い水かきで、清らかな小波を掻き分ける)であるので、当該正しい答えを言い出してこそ、当該発出された質問の正解と一致する。一方、発出された質問の正解が一つだけではない場合、複数の正解を予め記憶しておくようにしてもよい。
【0026】
ステップS23及びステップS24において、発出された質問の正解と一致する回答をユーザが言い出すと、正しいことを示す音声提示情報を提供するとともに、次の番組に進むか、又は他の機能が実行される旨をユーザに提示する。発出された質問の正解と一致しない回答を、ユーザが言い出すと、再度回答することを誘導するように、正解の関連提示をユーザに提供することができる。有限回の提示で、ユーザが依然として発出の質問の正解と一致しない回答を与える場合、直接正解を知らせるとともに、次の番組に進むか、又は他の機能が実行される旨をユーザに提示する。
【0027】
図3は本願の他の実施例にかかる音声対話方法のフローチャートである。図3に示すように、問題を提出した後、該方法はステップS31~36を含む。
ステップS31において、外部音声入力を受信する。
ステップS32において、前記外部音声入力には、発出された質問の正解におけるキーワードが含まれるか否かを判断する。
ステップS33において、前記外部音声入力には、発出された質問の正解におけるキーワードが含まれる場合、前記外部音声入力が発出の質問の正解と一致すると判断する。
ステップS34において、前記外部音声入力が発出された質問の正解と一致する場合、正しいことを示す音声提示情報を出力する。
ステップS35において、前記外部音声入力には、発出された質問の正解におけるキーワードが含まれない場合、前記外部音声入力が発出の質問の正解と一致しないと判断する。
ステップS36において、前記外部音声入力が発出の質問の正解と一致しない場合、正しくないことを示す音声提示情報を出力する。
【0028】
本願の実施例において、上述した発出の質問に対して、正解が唯一ではない場合のマッチング方法を提供する。
【0029】
ステップS32において、前記外部音声入力には、発出された質問の正解におけるキーワードが含まれているか否かが判断する。例えば、「百獣の王は何ですか」という問題が発出されると、正解が「虎」であり、キーワードが「虎」であるので、外部音声入力に「虎」が含まれているか否かを判断する。
【0030】
ステップS33及びステップS35において、外部音声入力が「虎(中国語では「老虎」)」、「大きい虎(中国語では「大老虎」)」、「虎です」等の、「虎」が含まれたものである限り、発出の質問の正解と一致していると判定する一方、「スロット」が含まれていない場合、発出の質問の正解と一致していないと判定する。
【0031】
その他のステップの具体的な実施は上記実施例と同様であるので、ここでは説明を繰り返さない。
【0032】
図4は、本願の他の実施例にかかる音声対話方法のフローチャートである。図4に示すように、該方法はステップS43~46を含む。
ステップS41において、外部入力を受信する。
ステップS42において、前記外部入力に応答して、現在の時刻を検出する。
ステップS43において、音声番組を呼び出す。
ステップS44において、前記現在の時刻が予め設定された時間帯内であるか否かを判断する。
ステップS45において、前記現在の時刻が予め設定された時間帯以外である場合、呼び出された音声番組に対応する質問を発出し、前記音声番組を再生する。
ステップS46において、前記現在の時刻が予め設定された時間帯内である場合、呼び出された音声番組及び前記予め設定された時間帯に対応する問題及び前記音声番組を再生する。
【0033】
本実施例では、再生される音声番組が位置する時間帯に基づいて、発出される問題を調整することについて詳細に記述する。
【0034】
具体的には、ステップS44において、前記現在の時刻が予め設定された時間帯内であるか否かを判断する。例えば、予め設定された時間帯が、朝7時~8時、または、夜9時~11時であることを想定する。当該時間帯は、起きた直後や就寝直前であることが一般的である。現在の時刻が当該予め設定された時間帯内であれば、他の時間帯と異なる質問を発出する。
【0035】
ステップS45及びステップS46において、ユーザは、例えば「歯磨きの良習の関連物語」を聞く場合を想定すると、現在の時刻が所定時間帯以外である場合、「歯磨きが必要なことですか」との質問を発出してもよい。現在時刻が予め設定された時間帯である場合、「朝は歯を磨くべきですか」や、「夜は歯を磨くべきですか」というような特定の設定時間と強く関連されている特定の質問を発出してもよい。上述のように、説明の便宜上、予め設定された時間は朝7時~8時、又は、夜9時~11時である例が挙げられたが、この時間は一例に過ぎず、本願はこれに対し限定するものではない。
【0036】
その他のステップの具体的な実施は上記実施例と同様であるので、ここでは説明を繰り返さない。
【0037】
図5は本願の別の一実施例にかかる音声対話装置の模式的構造図である。図5に示すように、該装置は、受信ユニット1と、検出ユニット2と、処理ユニット3と、再生ユニット4とを含み、そのうち、前記受信ユニット1は、外部入力を受信するために用いられ、前記検出ユニット2は、前記外部入力に応答して現在の時刻を検出するために用いられ、前記処理ユニット3は、音声番組を呼び出すために用いられ、前記再生ユニット4は、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出し、呼び出された音声番組を再生するために用いられる。
【0038】
また、質問の発出の後、前記受信ユニット1は、さらに外部音声入力を受信するために用いられ、前記処理ユニット3は、さらに前記外部音声入力が発出の質問の正解と一致するか否かを判断するために用いられ、前記再生ユニット4は、さらに前記外部音声入力が発出の質問の正解と一致する場合、音声提示情報を出力するために用いられる。
【0039】
また、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出し、呼び出された音声番組を再生することは、まず、呼び出された音声番組を再生し、それから、呼び出された音声番組の再生が完了すると、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出すること、或いは、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出し、そして、前記質問を発出した後、呼び出された音声番組を再生すること、或いは、呼び出された音声番組を再生すると同時に、前記現在の時刻と呼び出された音声番組とに基づいて質問を発出することを含む。
【0040】
また、前記外部音声入力が発出の質問の正解と一致するか否かを判断することは、前記外部音声入力には発出の質問の正解におけるキーワードが含まれるか否かを判断することと、前記外部音声入力に発出の質問の正解におけるキーワードが含まれる場合、前記外部音声入力が発出の質問の正解と一致すると判断することを含む。
【0041】
また、前記現在の時刻及び呼び出された音声番組とに基づいて質問を発出することは、前記現在の時刻が予め設定された時間帯以外である場合、呼び出された音声番組に対応する質問を発出することと、前記現在の時刻が予め設定された時間帯内である場合、呼び出された音声番組及び前記所定時間に対応する質問を発出する。
【0042】
上記音声対話装置の実施例は前述の音声対話方法の実施例と同様であるので、ここでは説明を繰り返さない。
【0043】
上記技術案によれば、本願にかかる音声対話方法及び装置を利用して、外部入力を受信し、続いて前記外部入力に応答し、現在の時刻を検出し、それから、音声番組を呼び出し、最後に前記現在の時刻と呼び出された音声番組とに基づいて質問を発出し、呼び出された音声番組を再生することにより、ユーザとより没入感の強いやり取りを行うことができ、ユーザ体験を改善することができる。
【0044】
以上は図面を参照して本願の実施例の選択可能な実施形態を詳細に説明し、しかし、本願の実施例は上記実施形態における具体的な詳細に限定されるものではなく、本願の実施例の技術的思想の範囲内において、本願の実施例の技術的解決手段に対して複数の簡単な変形を行うことができ、これらの簡単な変形はいずれも本願の実施例の保護範囲に属する。
【0045】
また、上記具体的な実施形態に記載された各具体的な技術的特徴は、矛盾しない場合、任意の適切な方式によって組み合わせられる。不要な重複を避けるために、本願の実施例は様々な可能な組み合わせ方式については別途説明しない。
【0046】
当業者であれば上記実施例の方法における全部又は一部のステップを実現することはプログラムによって関連するハードウェアを指示することによって実施することができる。該プログラムは、記憶媒体に記憶されているものであって、ワンチップマイコン、チップ又はプロセッサ(processor )に本出願の各実施例に記載の方法の全部又は一部のステップを実行させるように、複数の指示を含む。前記記憶媒体は、Uディスク、モバイルハードディスク、リードオンリーメモリ(ROM:Read-Only Memory )、ランダムアクセスメモリ(RAM:Random Access Memory )、磁気ディスク又は光ディスク等の、各種のプログラムコードを記憶す可能媒体を含んでもよい。
【0047】
また、本願の実施例の様々な異なる実施形態の間に任意の組み合わせを行うことができ、それは本願の実施例の思想に反しない限り、それは同様に本願の実施例に開示された内容と見なすべきである。
図1
図2
図3
図4
図5