(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022107933
(43)【公開日】2022-07-25
(54)【発明の名称】対話システム
(51)【国際特許分類】
G06F 16/90 20190101AFI20220715BHJP
G06F 3/16 20060101ALI20220715BHJP
G10L 15/00 20130101ALI20220715BHJP
G10L 15/10 20060101ALI20220715BHJP
G06F 16/632 20190101ALI20220715BHJP
【FI】
G06F16/90 100
G06F3/16 650
G10L15/00 200T
G10L15/10 500T
G06F16/632
【審査請求】有
【請求項の数】2
【出願形態】OL
(21)【出願番号】P 2021002644
(22)【出願日】2021-01-12
(71)【出願人】
【識別番号】721000099
【氏名又は名称】末重 智久
(72)【発明者】
【氏名】末重 智久
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA04
5B175DA05
5B175EA01
5B175GA04
(57)【要約】
【課題】実際に話したい人と対話しているように感じられる対話システムを提供すること。
【解決手段】登録者は入力装置1を用いて応答パターンとして音声および動画を入力し、音声動画処理部2は入力された音声をテキストデータとしてテキストデータ記録装置3に記録して識別子を付与し、音声および動画を音声動画記録装置4に記録して同じ識別子を付与する。応答事例選択部8は音声認識部6、言語理解部7を経てテキストデータ記録装置3からユーザーが入力した音声に対する応答パターンに適合または最も近いテキストデータを選択し、付与されている識別子を音声動画指定部9に渡し、音声動画指定部9はこの識別子に合致した音声および動画を音声動画記録装置4から抽出して再生する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
登録者が応答パターンとして音声および動画を入力する入力装置と、入力された音声をテキストデータに変換してテキストデータ記録装置に記録し、入力された音声および動画を音声動画記録装置に記録する音声動画処理部と、ユーザーが音声を入力する入出力装置と、入力された音声をテキストデータに変換する音声認識部と、前記音声認識部によって変換されたテキストデータからユーザーの意図を同定する言語理解部と、同定されたユーザーの意図に適合または最も近いテキストデータを前記テキストデータ記録装置から選択する応答事例選択部と、前記音声動画記録装置から音声および動画を抽出し前記入出力装置に送る音声動画指定部とを備え、前記入出力装置が前記音声動画指定部から送られた音声および動画を再生する対話システムにおいて、前記音声動画処理部は前記テキストデータ記録装置に記録されたテキストデータと前記音声動画記録装置に記録された音声および動画に対して応答パターンごとに同一の識別子を付与し、前記音声動画指定部は応答事例選択部が選択したテキストデータに付与されている識別子と同じ識別子が付与された音声および動画を音声動画記録装置から抽出することを特徴とする対話システム。
【請求項2】
前記対話システムにおいて、登録者の固有情報を記録する固有情報記録装置と、ユーザーが指定した固有情報を記録する指定情報一時保管装置とを備え、前記音声動画処理部は前記テキストデータ記録装置に記録するテキストデータに前記固有情報記録装置に記録された固有情報を付与し、前記応答事例選択部はユーザーの意図に適合または最も近いテキストデータを前記テキストデータ記録装置から選択する際に前記指定情報一時保管装置に記録された固有情報に合致するテキストデータを前記テキストデータ記録装置から選択することを特徴とする対話システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザーの発話に対応して予め記録した音声および動画を表示する対話システムに関するものである。
【背景技術】
【0002】
近年、ユーザーの発話に対して応答を返す多くの対話システムが開発されている。例えば、ユーザーの発話に対して、音声だけで対話するシステム、特許文献1に記述されているような絵画像とテキストを表示させるシステム、特許文献2に記述されているような故人や有名人の静止画像を変形させて音声とともに出力するシステムなどがある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平5-216618号公報
【特許文献2】特許第6656447号公報
【非特許文献】
【0004】
【非特許文献1】「音声対話システムの構成と今後」月刊パテント2019年7月発行
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、これまでの対話システムでは、対話する相手が機械的に合成された音声であったり、絵画像であったり、現実の人であっても静止画像を変形させて対話しているように見せている画像であったため、実際に話したい人と対話していると感じる状態ではなかった。
【0006】
本発明は、上記を解決するために実際に話したい人と対話しているように感じられる対話システムを提供することを目的としている。
【課題を解決するための手段】
【0007】
本発明は、予め記録された音声および動画の中からユーザーの発話に対応した音声および動画を抽出して表示することを主な特徴としている。また、複数の人の音声および動画を記録しておき、その中からユーザーが話したい人を選択した後、ユーザーの発話に対応した音声および動画を抽出して表示する手段をとることもできる。
【発明の効果】
【0008】
本発明の対話システムは、実際に話したい人の音声と動画を表示させるため、機械的な相手ではなく本当に話したい人との対話を楽しむことができる。
【0009】
さらに、本発明を自治体や企業への問い合わせに利用した場合、人件費の削減が期待できる。また、悩みを持つ人にとっては、通常話すことのできない著名人や故人と話すことにより、前向きに生きていこうとする気持ちが現れ、うつ状態に陥ることや自殺などを食い止めることが期待できる。
【図面の簡単な説明】
【0010】
【
図1】
図1は全体の構成を示したブロック図である。(実施例1)
【
図2】
図2は全体の構成を示したブロック図である。(実施例2)
【発明を実施するための形態】
【0011】
本発明の形態を以下の実施例で説明する。
【実施例0012】
図1は、本発明のブロック図である。入力装置1はカメラ101とマイク102とを備えており、登録者は入力装置1を用いて応答パターンとして音声および動画を入力する。音声動画処理部2は入力された音声をテキストデータに変換してテキストデータ記録装置3に記録し、音声および動画を音声動画記録装置4に記録する。音声動画記録装置4に記録された音声および動画は1つにまとめて格納され固有の識別子が付与される。テキストデータ記録装置3に記録されたテキストデータにも音声および動画に付与された識別子と同じ識別子が付与される。応答パターンは様々な対話場面を想定して複数記録するとよい。識別子は応答パターンごとに付与される。
【0013】
入出力装置5はマイク501を備えており、ユーザーは入出力装置5を用いて音声を入力する。音声認識部6はユーザーの入力した音声をテキストデータへと変換する。言語理解部7は音声認識部6で得られたテキストデータからユーザーの意図を同定する。言語理解部7の結果は応答事例選択部8に渡され、テキストデータ記録装置3から応答事例に適合または最も近いテキストデータを選択する。応答事例選択部8は選択したテキストデータに付与された識別子を音声動画指定部9に渡し、音声動画指定部9はこの識別子に合致した音声および動画を音声動画記録装置4から抽出し、入出力装置5に送る。入出力装置5は表示部502を備えており、送られた音声および動画を再生する。音声認識および言語理解については既知の技術であるため詳細な説明は省略する。
【0014】
本発明の登録者は有識者や自治体の相談員等が考えられる。登録者は予め想定される質問に対する応答パターンとして音声および動画を登録し、ユーザーの質問に対する応答に近い音声および動画を再生することが出来る。
応答パターンを登録する登録者は音声および動画の入力に先立って登録者に関する固有情報、例えば登録者名を入力装置1に備えたキーボード103によって入力する。入力された固有情報は固有情報記録装置10に記録される。その後、入力装置1を用いて登録者は応答パターンとして音声および動画を入力する。入力された音声および動画は音声動画処理部2に渡され1つにまとめた状態で音声動画記録装置4に記録される。また、音声はテキストデータに変換されテキストデータ記録装置3に記録される。この時、実施例1と同様にテキストデータと音声および動画には同じ固有の識別子が付与されるが、テキストデータには固有情報記録装置10に記録された固有情報も付与される。
対話を始める際、ユーザーは対話する相手を指定するために入出力装置5に備えたキーボード503を用いて対話する相手の固有情報を入力する。入力された固有情報は指定情報一時保管装置11に一時保管される。次に、ユーザーは入出力装置5を用いて音声を入力し対話を開始する。音声認識部6はユーザーの入力した音声をテキストデータへと変換する。言語理解部7は音声認識部6で得られたテキストデータからユーザーの意図を同定する。言語理解部7の結果は応答事例選択部8に渡される。応答事例選択部8は指定情報一時保管装置11に一時保管された固有情報に合致し、言語理解部7の結果に適合または最も近いテキストデータをテキストデータ記録装置3から選択する。応答事例選択部8は選択したテキストデータに付与された識別子を音声動画指定部9に渡し、音声動画指定部9はこの識別子に合致した音声および動画を音声動画記録装置4から抽出し、入出力装置5に送る。入出力装置5は送られた音声および動画を再生する。
固有情報記録時のキーボード103による入力手段および固有情報指定時のキーボード503による入力手段は、キーボードに限らずタブレットでも構わない。また、音声を入力するように構成にすることも考えられる。
固有情報の指定はキーボード503を用いて入力する代わりに固有情報記録装置10に記録された固有情報、例えば登録者名を選択する手段をとってもよい。登録者の固有情報を男女別、年齢等についても登録した場合、20代男性や50代女性等を指定してある特定の層と対話するように構成することも考えられる。
ユーザーの対話手段として入出力装置5を使用して音声で入力するように構成しているが、キーボード等音声以外の入力手段をとるように構成することも可能である。これにより音声による対話が難しい人でも対話を楽しむことができる。
登録者が芸能人の場合、芸能人を指定して宴会等の乾杯の音頭をする音声および動画を再生してもよい。最初に芸能人を指定し、その後ユーザーによる「乾杯の音頭をお願いします」の音声に対して、指定された芸能人の乾杯の音頭の音声および動画が選択され再生される。乾杯の音頭の前に少し挨拶程度の対話をしてもよい。