(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-11
(45)【発行日】2023-09-20
(54)【発明の名称】エージェント連携装置
(51)【国際特許分類】
G10L 21/0364 20130101AFI20230912BHJP
G10L 15/22 20060101ALI20230912BHJP
G10L 13/00 20060101ALI20230912BHJP
G10L 13/02 20130101ALI20230912BHJP
【FI】
G10L21/0364
G10L15/22 300Z
G10L13/00 100M
G10L13/02 130C
(21)【出願番号】P 2020086957
(22)【出願日】2020-05-18
【審査請求日】2022-03-14
(73)【特許権者】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】竹下 幸輝
【審査官】大野 弘
(56)【参考文献】
【文献】特開2003-058198(JP,A)
【文献】特表2017-535823(JP,A)
【文献】国際公開第2019/172943(WO,A1)
【文献】特開2012-098100(JP,A)
【文献】特開2007-226642(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0364
G10L 15/22
G10L 13/00
G10L 13/02
(57)【特許請求の範囲】
【請求項1】
それぞれ異なるエージェントサーバに対応して設けられて、音声対話により前記エージェントサーバが提供する予め定めたサービスを音声対話により指示可能な複数のエージェントからの指示による音出力を制御する音出力部と、
前記複数のエージェントのうち1つのエージェントが前記サービスとしてオーディオブック及び音楽のうち一方を再生中に、他のエージェントが前記サービスとしてオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックを再生するように、前記音出力部を制御する制御部と、
を含
み、
前記制御部は、前記1つのエージェントが前記一方を再生中に、前記他のエージェントに対する音声対話が行われて前記他のエージェントが音声対話に対する応答音声を出力する際に、再生中の音を減少または停止してから、前記応答音声を出力して利用者の意思を確認し、前記1つのエージェントによる前記一方の再生の継続が指示された場合に、音楽再生の音量を減少してオーディオブックを再生するように、前記音出力部を制御するエージェント連携装置。
【請求項2】
前記制御部は、
利用者の意思を確認し、オーディオブックの非継続が指示された場合は、オーディオブックの再生を停止して音楽を再生するように、前記音出力部を制御する請求項1に記載のエージェント連携装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のエージェントが提供するサービスを利用可能なエージェント連携装置に関する。
【背景技術】
【0002】
特許文献1には、2つのエージェントのサービスを利用するための音声対話方法として、エージェントを識別するキーワード等のエージェント情報に基づいて、2つのエージェントの何れかで対応するかを決定することが開示されている。具体的には、家エージェントである音声対話エージェントは、入力音声信号を受け付け、入力音声信号に対して音声認識処理を行い音声認識処理の結果と、エージェント情報とに基づいて、当該入力音声信号に基づく処理を、家エージェントと、他の車エージェントとのいずれで行うかを決定する。決定において、家エージェントで行うと決定された場合、音声認識処理の結果に基づく処理を行い、当該処理に係る応答音声信号を生成して出力する。一方、車エージェントで行うと決定された場合、入力音声信号を車エージェントサーバへ転送する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1では、複数のエージェントのサービスを利用することができるが、複数のエージェントのサービスを同時に利便的に利用するためには、改善の余地がある。
【0005】
本発明は、上記事実を考慮して成されたもので、複数のエージェントが提供するサービスを同時に利便的に利用可能なエージェント連携装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために請求項1に記載のエージェント連携装置は、それぞれ異なるエージェントサーバに対応して設けられて、音声対話により前記エージェントサーバが提供する予め定めたサービスを音声対話により指示可能な複数のエージェントからの指示による音出力を制御する音出力部と、前記複数のエージェントのうち1つのエージェントが前記サービスとしてオーディオブック及び音楽のうち一方を再生中に、他のエージェントが前記サービスとしてオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックを再生するように、前記音出力部を制御する制御部と、を含み、前記制御部は、前記1つのエージェントが前記一方を再生中に、前記他のエージェントに対する音声対話が行われて前記他のエージェントが音声対話に対する応答音声を出力する際に、再生中の音を減少または停止してから、前記応答音声を出力して利用者の意思を確認し、前記1つのエージェントによる前記一方の再生の継続が指示された場合に、音楽再生の音量を減少してオーディオブックを再生するように、前記音出力部を制御する。
【0007】
請求項1に記載の発明によれば、音出力部では、それぞれ異なるエージェントサーバに対応して設けられて、音声対話により前記エージェントサーバが提供する予め定めたサービスを音声対話により指示可能な複数のエージェントからの指示による音出力が制御される。
【0008】
そして、制御部では、複数のエージェントのうち1つのエージェントがサービスとしてオーディオブック及び音楽のうち一方を再生中に、他のエージェントがサービスとしてオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックを再生するように、前記音出力部が制御される。これにより、音楽を背景音楽としてオーディオブックを再生することができ、複数のエージェントが提供するサービスを同時に利便的に利用することが可能となる。
【0009】
また、制御部は、1つのエージェントがオーディオブック及び音楽のうち一方を再生中に、他のエージェントに対する音声対話が行われて他のエージェントが音声対話に対する応答音声を出力する際に、再生中の音を減少または停止してから応答音声を出力して利用者の意思を確認するように、音出力部を制御する。これにより、オーディオブックまたは音楽を再生中に、エージェントと対話を聞き易くすることが可能となる。
【0010】
さらに、制御部は、1つのエージェントによる一方の再生の継続が指示された場合に、音楽再生の音量を減少してオーディオブックを再生するように、音出力部を制御する。これにより、利用者の意思を反映して音楽再生とオーディオブックの再生とを同時に行うことが可能となる。
【0011】
更に、制御部は、請求項2に記載の発明のように、利用者の意思を確認し、オーディオブックの非継続が指示された場合は、オーディオブックの再生を停止して音楽を再生するように、音出力部を制御してもよい。これにより、背景音楽が不要な場合はオーディオブックのみの再生が可能となる。
【発明の効果】
【0012】
以上説明したように本発明によれば、複数のエージェントが提供するサービスを同時に利便的に利用可能なエージェント連携装置を提供できる、という効果がある。
【図面の簡単な説明】
【0013】
【
図1】本実施形態に係るエージェント連携装置の概略構成を示すブロック図である。
【
図2】本実施形態に係るエージェント連携装置における音声検知部で行われる処理の流れの一例を示すフローチャートである。
【
図3】本実施形態に係るエージェント連携装置におけるA2A連携制御部で行われる具体的な処理の流れの一例を示すフローチャートである。
【
図4】応答出力処理の一例を示すフローチャートである。
【
図5】第2エージェントによりオーディオブックを再生中に、第1エージェントに対して音楽再生を指示する場合のシーケンス図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して本発明の実施の形態の一例を詳細に説明する。
図1は、本実施形態に係るエージェント連携装置の概略構成を示すブロック図である。
【0015】
本実施形態に係るエージェント連携装置10は、車載器として搭載されたヘッドユニット(H/U)に実装された例を一例として説明する。
【0016】
エージェント連携装置10は、通信装置16を介して、複数のエージェントサーバに接続されている。本実施形態では、エージェント連携装置10は、一例として、第1エージェントサーバ12と第2エージェントサーバ14の2つのエージェントサーバに接続されている。エージェント連携装置10は、2つのエージェントサーバと通信を行うことで、各エージェントサーバが提供するサービスを利用者に提供する。また、エージェント連携装置10は、各エージェントサーバからの音出力を制御する機能を有する。
【0017】
第1エージェントサーバ12及び第2エージェントサーバ14の各々は、所謂、VPA(Virtual Personal Assistant)と称される音声対話アシスタントの機能を提供する。具体的には、音声対話により、音楽再生、オーディオブック再生、天気予報等の予め定めたサービスをエージェント連携装置10を介して利用者に提供する。詳細な構成については周知の種々の技術が適用可能であるため、説明を省略する。
【0018】
通信装置16は、本実施形態では、車両専用の通信機とされ、エージェント連携装置10と第1エージェントサーバ12との通信、及び、エージェント連携装置10と第2エージェントサーバ14との通信を行う。例えば、各々の通信は、携帯電話などの無線通信網を介して通信を行う。一例としては、DCM(Data Communication Module)と称される通信装置が適用される。
【0019】
エージェント連携装置10は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等を含む一般的なマイクロコンピュータで構成され、音出力部の一例としての音出力制御部18、制御部の一例としてのA2A連携制御部20、及び、音声検知部26の機能を有する。
【0020】
音出力制御部18は、スピーカ28に接続され、第1エージェントサーバ12及び第2エージェントサーバ14からの音出力を制御する。
【0021】
A2A連携制御部20は、タッチパネル30、音出力制御部18、及び音声検知部26に接続され、それぞれと情報の授受を行う。また、A2A連携制御部20は、第1エージェント22及び第2エージェント24の機能を有する。第1エージェント22は、第1エージェントサーバ12に対応して設けられ、第1エージェントサーバ12とのやり取りを制御する。また、第2エージェント24は、第2エージェントサーバ14に対応して設けられ、第2エージェントサーバ14とのやり取りを制御する。A2A連携制御部20は、各エージェントサーバから音声対話に関する情報を受信した場合、音出力制御部18に通知する。これにより、音出力制御部18は、音声対話に関する情報に基づくスピーカ28からの音出力を制御する。
【0022】
音声検知部26は、マイク32に接続され、マイク32から得られる音声情報を検知して、検知結果をA2A連携制御部20に通知する。例えば、音声検知部26は、各エージェントを起動するためのウェイクアップワードを検知する。
【0023】
続いて、上述のように構成された本実施形態に係るエージェント連携装置10の各部で行われる具体的な動作の一例について説明する。
【0024】
本実施形態に係るエージェント連携装置10では、音声検知部26がウェイクアップワードを検知して、A2A連携制御部20に通知し、A2A連携制御部20が対応するエージェントサーバに通信装置16を介して接続する。
【0025】
音出力制御部18は、各エージェントサーバからの音出力(音声対話、音楽、オーディオブック等)の要求に応じてスピーカ28からの音の出力を制御する。
【0026】
A2A連携制御部20は、第1エージェント22及び第2エージェント24の何れか一方のエージェントがオーディオブック及び音楽のうち一方を再生中に、他方のエージェントがオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックを再生するように、音出力制御部18を制御する。
【0027】
続いて、本実施形態に係るエージェント連携装置10の各部で行われる具体的な処理について説明する。
【0028】
まず、音声検知部26で行われる処理について説明する。
図2は、本実施形態に係るエージェント連携装置10における音声検知部26で行われる処理の流れの一例を示すフローチャートである。なお、
図2の処理は、例えば、音声検知部26にマイク32から音声が入力された場合に開始する。
【0029】
ステップ100では、音声検知部26が、音声検出を行ってステップ102へ移行する。すなわち、マイク32から入力された音声を検出する。
【0030】
ステップ102では、音声検知部26が、ウェイクアップワードを検出したか否かを判定する。該判定は、第1エージェント22を起動するための予め定めたウェイクアップワード、または第2エージェント24を起動するための予め定めたウェイクアップワードを検出したか否かを判定する。該判定が肯定された場合にはステップ104へ移行し、否定された場合には一連の処理を終了する。
【0031】
ステップ104では、音声検知部26が、ウェイクアップワードに対応するエージェントが起動中であるか否かを判定する。該判定が否定された場合にはステップ106へ移行し、肯定された場合にはステップ112へ移行する。
【0032】
ステップ106では、音声検知部26が、検出したウェイクアップワードが第1エージェント用であるか否かを判定する。該判定が肯定された場合にはステップ108へ移行し、第2エージェント用のウェイクアップワードが検出されて否定された場合にはステップ110へ移行する。
【0033】
ステップ108では、音声検知部26が、第1エージェント22に起動を通知してステップ112へ移行する。
【0034】
一方、ステップ110では、音声検知部26が、第2エージェント24に起動を通知してステップ112へ移行する。
【0035】
ステップ112では、音声検知部26が、予め定めた時間内に音声を検知したか否かを判定する。該判定が否定された場合、すなわち、予め定めた時間内に音声を検知しなかった場合には、一連の処理を終了し、該判定が肯定された場合にはステップ114へ移行する。
【0036】
ステップ114では、音声検知部26が、検知した音声を対応するエージェントに通知して一連の処理を終了する。すなわち、第1エージェント22のウェイクアップワード検知後に予め定めた時間以内に音声を検知した場合には、検知した音声を第1エージェントに通知する。一方、第2エージェント24のウェイクアップワード検知後に予め定めた時間以内に音声を検知した場合には、検知した音声を第2エージェントに通知する。
【0037】
次に、A2A連携制御部20で行われる処理について説明する。
図3は、本実施形態に係るエージェント連携装置10におけるA2A連携制御部20で行われる具体的な処理の流れの一例を示すフローチャートである。なお、
図3の処理は、音声検知部26からエージェントの起動通知を受信した場合に開始する。
【0038】
ステップ200では、A2A連携制御部20が、エージェント起動通知を受信してステップ202へ移行する。すなわち、
図2のステップ108またはステップ110によるエージェントの起動通知を受信する。
【0039】
ステップ202では、A2A連携制御部20が、音声検知部26から受信したエージェントの起動通知が第1エージェント22の起動通知であるか否かを判定する。該判定が肯定された場合にはステップ204へ移行し、否定された場合にはステップ206へ移行する。
【0040】
ステップ204では、第1エージェント22を起動してステップ208へ移行する。具体的には、第1エージェント22と第1エージェントサーバ12との通信を確立して第1エージェントサーバ12からのサービス提供が可能な状態に移行する。
【0041】
一方、ステップ206では、第2エージェント24を起動してステップ208へ移行する。具体的には、第2エージェント24と第2エージェントサーバ14との通信を確立して第2エージェントサーバ14からのサービス提供が可能な状態に移行する。
【0042】
ステップ208では、A2A連携制御部20が、予め定めた時間内に音声検知部26から音声通知を受信したか否かを判定する。該判定は、上述のステップ114により音声の通知を受信したか否かを判定する。該判定が肯定された場合にはステップ210へ移行し、否定された場合には一連の処理を終了する。
【0043】
ステップ210では、A2A連携制御部20が、対応するエージェントから対応するエージェントサーバに音声情報を送信してステップ212へ移行する。すなわち、第1エージェント22が起動されて音声通知を受信した場合には、第1エージェント22が第1エージェントサーバ12に音声情報を送信する。一方、第2エージェント24が起動されて音声通知を受信した場合には、第2エージェント24が第2エージェントサーバ14に音声情報を送信する。
【0044】
ステップ212では、A2A連携制御部20が、エージェントサーバから音声情報を受信してステップ214へ移行する。例えば、ステップ210において、オーディオブックや音楽を再生する内容の音声情報をエージェントサーバに送信した場合には、エージェントサーバが音声情報に基づいて意図理解を行って対応するオーディオブックや音楽を再生する音声情報を受信する。
【0045】
ステップ214では、A2A連携制御部20が、他のエージェントが起動中であるか否かを判定する。該判定は、第1エージェント22及び第2エージェント24の一方が音声情報を受信した場合に、第1エージェント22及び第2エージェント24の他方が起動中であるか否かを判定する。該判定が否定された場合にはステップ216へ移行し、肯定された場合にはステップ218へ移行する。
【0046】
ステップ216では、A2A連携制御部20が、エージェントサーバからの応答を出力して一連の処理を終了する。すなわち、エージェントサーバから受信した応答音声や、オーディオブックの音声、音楽の音声をスピーカ28から出力するように、音出力制御部18を制御する。
【0047】
一方、ステップ218では、A2A連携制御部20が、先に起動しているエージェントによる音出力の音量を減少してステップ220へ移行する。すなわち、A2A連携制御部20が、音出力制御部18に対して先に起動しているエージェントによる音出力(例えば、オーディオブックや音楽等)の音量の減少を指示する。これにより、既に出力されている音源の音量が減少され、エージェントとの対話が聞き易くなる。なお、ステップ218は、音量の減少ではなく、対話中の音出力を一時停止するようにしてもよい。
【0048】
ステップ220では、A2A連携制御部20が、応答出力処理を行って一連の処理を終了する。応答出力処理は、利用者からの対話に対する応答を行う処理であり、例えば、
図4で示す処理が行われる。
図4は、応答出力処理の一例を示すフローチャートである。なお、本実施形態では、一方のエージェントがオーディオブック及び音楽のうち一方を再生中に他方のエージェントにオーディオブック及び音楽のうち他方の再生を要求または要求して途中で要求をキャンセルする場合を一例として説明する。
【0049】
すなわち、ステップ300では、A2A連携制御部20が、先に起動しているエージェントによる音出力(オーディオブックまたは音楽の再生)を終了するか否かのメッセージを出力してステップ302へ移行する。例えば、A2A連携制御部20が、音出力制御部18を制御して、先に起動しているエージェントによる音量減少中の音出力を終了するか否かのメッセージを音声出力してもよい。或いは、A2A連携制御部20が、タッチパネル30に先に起動しているエージェントによる音量減少中の音出力を終了するか否かのメッセージを表示してもよい。
【0050】
ステップ302では、A2A連携制御部20が、先に起動しているエージェントによる音量減少中の音出力を終了するか否かを判定する。該判定は、例えば、A2A連携制御部20が、音声検知部26による音声の検知結果を取得して、対話によって終了を表す音声を検知したか否か判定してもよい。或いは、A2A連携制御部20が、タッチパネル30を介して終了を表す操作が入力されたか否かを判定してもよい。該判定が肯定された場合にはステップ304へ移行し、否定された場合にはステップ308へ移行する。
【0051】
ステップ304では、A2A連携制御部20が、再生中の音源を停止してステップ306へ移行する。例えば、オーディオブックや音楽が再生されていた場合には再生されているオーディオブックや音楽を停止してステップ306へ移行する。
【0052】
ステップ306では、A2A連携制御部20が、後から起動されたエージェントに要求した音を、対応するエージェントサーバから取得して再生し、
図4の処理をリターンして一連の処理を終了する。
【0053】
一方、ステップ308では、A2A連携制御部20が、後から起動されたエージェントに要求した音の再生をキャンセルするか否かを判定する。該判定は、例えば、ステップ302と同様に、利用者との音声対話または利用者によるタッチパネル30の操作によって要求の音再生がキャンセルされたか否かを判定する。該判定が肯定された場合にはステップ310へ移行し、否定された場合にはステップ312へ移行する。
【0054】
ステップ310では、A2A連携制御部20が、音出力制御部18を制御して、出力中の再生の音量を低減する前の状態に復元して
図4の処理をリターンして一連の処理を終了する。
【0055】
一方、ステップ312では、A2A連携制御部20が、音楽の音量を減少しながらオーディオブックを再生するように、音出力制御部18を制御して
図4の処理をリターンして一連の処理を終了する。
【0056】
ここで、
図4の応答出力処理について、具体例を挙げて説明する。
図5は、第2エージェント24によりオーディオブックを再生中に、第1エージェント22に対して音楽再生を指示する場合のシーケンス図である。
【0057】
図5に示すように、第2エージェント24がオーディオブックを再生しているときに、利用者が第1エージェント22のウェイクアップワードである「Hey Toyota」を発話する。これにより、音声検知部26では、上述のステップ100により音声が検出されてステップ102が肯定され、ステップ104が否定される。そして、ステップ106が肯定されてステップ108により第1エージェント22に起動が通知される。第1エージェント22の起動が通知されるとA2A連携制御部20では、上述のステップ200により起動通知を受信して、ステップ202の判定が肯定されてステップ204により第1エージェント22が起動される。
【0058】
また、ウェイクアップワードに続いて予め定めた時間内に「音楽かけて」と発話すると、音声検知部26では、ステップ112の判定が肯定されてステップ114により第1エージェント22に音声を通知する。音声が通知されるとA2A連携制御部20では、上述のステップ208の判定が肯定されてステップ210により第1エージェントサーバ12に発話音声が送信される。そして、第1エージェントサーバ12により意図理解が行われて、ステップ212によりA2A連携制御部20の第1エージェント22が応答を受信する。ここで、他のエージェントである第2エージェント24が起動中であるので、ステップ214の判定が肯定されてステップ218により第2エージェント24によるオーディオブックの再生の音量が減少されてステップ220により応答処理が行われる。
【0059】
応答処理では、上述のステップ300で第1エージェント22により「オーディオブックの再生を停止しますか?」のように終了の要否のメッセージが出力される。ここで、
図5の例では、利用者が「継続して」のように発話することにより、ステップ302及びステップ308の判定が否定され、ステップ312により第1エージェント22による音楽の音量を減少しながら第2エージェント24によるオーディオブックの再生が行われる。
【0060】
このように、本実施形態に係るエージェント連携装置10では、2つのエージェントのうち一方のエージェントがオーディオブック及び音楽のうち一方を再生中に、他方のエージェントがオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックが再生される。これにより、複数のエージェントが提供するサービスを同時に利便的に利用することが可能となる。
【0061】
なお、上記の実施形態では、第1エージェント22と第2エージェント24の2つのエージェントを有する例を説明したが、これに限るものではなく、3以上の複数のエージェントを有してもよい。この場合、A2A連携制御部20が、複数のエージェントのうち1つのエージェントがオーディオブック及び音楽のうち一方を再生中に、他のエージェントがオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックを再生するように、音出力制御部を制御すればよい。
【0062】
また、上記の各実施形態におけるエージェント連携装置10で行われる処理は、プログラムを実行することにより行われるソフトウエア処理として説明したが、これに限るものではない。例えば、GPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、及びFPGA(Field-Programmable Gate Array)等のハードウエアで行う処理としてもよい。或いは、ソフトウエア及びハードウエアの双方を組み合わせた処理としてもよい。また、ソフトウエアの処理とした場合には、プログラムを各種記憶媒体に記憶して流通させるようにしてもよい。
【0063】
さらに、本発明は、上記に限定されるものでなく、上記以外にも、その主旨を逸脱しない範囲内において種々変形して実施可能であることは勿論である。
【符号の説明】
【0064】
10 エージェント連携装置
12 第1エージェントサーバ
14 第2エージェントサーバ
18 音出力制御部(音出力部)
20 A2A連携制御部(制御部)
22 第1エージェント
24 第2エージェント
26 音声検知部
28 スピーカ
32 マイク