特開2021-107873(P2021-107873A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックIPマネジメント株式会社の特許一覧
特開2021-107873音声特性変更システムおよび音声特性変更方法
<>
  • 特開2021107873-音声特性変更システムおよび音声特性変更方法 図000003
  • 特開2021107873-音声特性変更システムおよび音声特性変更方法 図000004
  • 特開2021107873-音声特性変更システムおよび音声特性変更方法 図000005
  • 特開2021107873-音声特性変更システムおよび音声特性変更方法 図000006
  • 特開2021107873-音声特性変更システムおよび音声特性変更方法 図000007
  • 特開2021107873-音声特性変更システムおよび音声特性変更方法 図000008
  • 特開2021107873-音声特性変更システムおよび音声特性変更方法 図000009
  • 特開2021107873-音声特性変更システムおよび音声特性変更方法 図000010
  • 特開2021107873-音声特性変更システムおよび音声特性変更方法 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2021-107873(P2021-107873A)
(43)【公開日】2021年7月29日
(54)【発明の名称】音声特性変更システムおよび音声特性変更方法
(51)【国際特許分類】
   G10L 21/007 20130101AFI20210702BHJP
   G10L 25/63 20130101ALI20210702BHJP
【FI】
   G10L21/007
   G10L25/63
【審査請求】未請求
【請求項の数】11
【出願形態】OL
【全頁数】20
(21)【出願番号】特願2019-239264(P2019-239264)
(22)【出願日】2019年12月27日
(71)【出願人】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】110002000
【氏名又は名称】特許業務法人栄光特許事務所
(72)【発明者】
【氏名】マシュー ジョーン ローレンソン
(72)【発明者】
【氏名】クリストファー ジョン ライト
(72)【発明者】
【氏名】ディビッド マイケル デュフィー
(72)【発明者】
【氏名】泉 昭年
(72)【発明者】
【氏名】吉原 毅
(57)【要約】
【課題】顧客の感情に合わせたオペレータと顧客との間のスムーズかつ快適な対話の実現を効率的に支援する。
【解決手段】音声特性変更システムは、映像およびオペレータの発話音声をオペレータ端末から受信して出力する受信機と、サーバとが通信可能に接続される。受信機は、映像および発話音声を視聴する顧客を撮像するカメラと接続され、カメラにより撮像された顧客の撮像画像を取得してサーバに送る。サーバは、受信機から送られた顧客の撮像画像に基づいて、顧客の映像および発話音声に対する感情を示す感情データを導出し、顧客の感情データの導出結果に基づいて、オペレータの発話音声の特性の変更に関する処理指示を生成して受信機に送る。受信機は、サーバから送られた処理指示に基づいて、オペレータの発話音声の特性を変更して出力する。
【選択図】図2
【特許請求の範囲】
【請求項1】
映像およびオペレータの発話音声をオペレータ端末から受信して出力する受信機と、サーバとが通信可能に接続される音声特性変更システムであって、
前記受信機は、
前記映像および前記発話音声を視聴する顧客を撮像するカメラと接続され、前記カメラにより撮像された前記顧客の撮像画像を取得して前記サーバに送り、
前記サーバは、
前記受信機から送られた前記顧客の撮像画像に基づいて、前記顧客の前記映像および前記発話音声に対する感情を示す感情データを導出し、
前記顧客の前記感情データの導出結果に基づいて、前記オペレータの発話音声の特性の変更に関する処理指示を生成して前記受信機に送り、
前記受信機は、
前記サーバから送られた前記処理指示に基づいて、前記オペレータの発話音声の特性を変更して出力する、
音声特性変更システム。
【請求項2】
前記受信機は、
前記顧客の発話音声を収音するマイクと接続され、前記マイクにより収音された前記顧客の発話音声を取得して前記サーバに送り、
前記サーバは、
前記受信機から送られた前記顧客の撮像画像または前記顧客の発話音声に基づいて、前記顧客の前記感情データを導出する、
請求項1に記載の音声特性変更システム。
【請求項3】
前記サーバは、
前記顧客の前記感情データが怒りを示すと判定した場合に、前記オペレータの発話音声の語尾部分のピッチを下げる旨の前記処理指示を生成する、
請求項1に記載の音声特性変更システム。
【請求項4】
前記サーバは、
前記顧客の前記感情データが怒りを示すと判定した場合に、前記オペレータによる発話の継続の中止を促すアドバイス情報を生成して前記オペレータ端末に送信し、
前記オペレータ端末は、
前記サーバから送られた前記アドバイス情報を受信して表示する、
請求項1に記載の音声特性変更システム。
【請求項5】
前記サーバは、
前記顧客の前記感情データが悩みを示すと判定した場合に、前記オペレータの発話音声のボリュームを上げる旨の前記処理指示を生成する、
請求項1に記載の音声特性変更システム。
【請求項6】
前記サーバは、
前記受信機から送られた前記顧客の撮像画像および前記顧客の発話音声の両方に基づいて、前記顧客の前記感情データを導出する、
請求項2に記載の音声特性変更システム。
【請求項7】
前記受信機は、前記オペレータとの間の対話を支援する対面型情報提供装置である、
請求項1〜6のうちいずれか一項に記載の音声特性変更システム。
【請求項8】
前記受信機は、家庭内に配置されるテレビジョン受像機である、
請求項1〜5のうちいずれか一項に記載の音声特性変更システム。
【請求項9】
前記受信機は、複数の前記家庭内のそれぞれに少なくとも1台が配置され、
前記サーバは、前記家庭内の受信機ごとに、前記オペレータの発話音声の特性の変更に関する異なる処理指示を生成して対応する前記受信機に送る、
請求項8に記載の音声特性変更システム。
【請求項10】
前記受信機は、
前記受信機から出力される前記映像および前記発話音声を視聴する顧客が複数名である場合、所定の前記感情データの導出結果に基づいて、前記オペレータの発話音声の特性の変更に関する処理指示を生成する、
請求項8に記載の音声特性変更システム。
【請求項11】
映像およびオペレータの発話音声をオペレータ端末から受信して出力する受信機と、サーバとにより構成される音声特性変更システムにより実行される音声特性変更方法であって、
前記受信機により、前記映像および前記発話音声を視聴する顧客を撮像するカメラを有し、前記カメラにより撮像された前記顧客の撮像画像を取得するステップと、
前記サーバにより、前記受信機から送られた前記顧客の撮像画像に基づいて、前記顧客の前記映像および前記発話音声に対する感情を示す感情データを導出するステップと、
前記サーバにより、前記顧客の前記感情データの導出結果に基づいて、前記オペレータの発話音声の特性の変更に関する処理指示を生成して前記受信機に送るステップと、
前記受信機により、前記サーバから送られた前記処理指示に基づいて、前記オペレータの発話音声の特性を変更して出力するステップと、を有する、
音声特性変更方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声特性変更システムおよび音声特性変更方法に関する。
【背景技術】
【0002】
特許文献1には、複数の感情スコアをそれぞれモデル化した感情モデル集合を記憶し、対話者の入力音声信号からフレームごとに音響特徴量を抽出し、音響特徴量から感情モデル集合を用いてフレームごとに感情スコアを計算する、共感反感箇所検出装置が開示されている。共感反感箇所検出装置は、計算された感情スコアに基づいてフレームごとに共感反感箇所推定スコアを計算し、この共感反感箇所推定スコアに基づいて対話者の共感反感箇所を推定する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2015−99304号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1によれば、対話者の感情状態が変化した箇所の検出が可能となる。しかし、特許文献1の技術ではオペレータが対応しているコールセンタ等の状況下において顧客が発話した時の感情状態を推定することがフォーカスされており、顧客の感情状態の推定結果に合わせてオペレータ等の情報提供側の音声の特性を変更することは考慮されていない。このために、顧客の感情に適合して顧客に受け入れられやすい何かしらの音声による情報提供の実現が困難であった。
【0005】
本開示は、上述した従来の状況に鑑みて案出され、顧客の感情に合わせたオペレータから顧客への音声による情報提供の実現を効率的に支援する音声特性変更システムおよび音声特性変更方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示は、映像およびオペレータの発話音声をオペレータ端末から受信して出力する受信機と、サーバとが通信可能に接続される音声特性変更システムであって、前記受信機は、前記映像および前記発話音声を視聴する顧客を撮像するカメラと接続され、前記カメラにより撮像された前記顧客の撮像画像を取得して前記サーバに送り、前記サーバは、前記受信機から送られた前記顧客の撮像画像に基づいて、前記顧客の前記映像および前記発話音声に対する感情を示す感情データを導出し、前記顧客の前記感情データの導出結果に基づいて、前記オペレータの発話音声の特性の変更に関する処理指示を生成して前記受信機に送り、前記受信機は、前記サーバから送られた前記処理指示に基づいて、前記オペレータの発話音声の特性を変更して出力する、音声特性変更システムを提供する。
【0007】
また、本開示は、映像およびオペレータの発話音声をオペレータ端末から受信して出力する受信機と、サーバとにより構成される音声特性変更システムにより実行される音声特性変更方法であって、前記受信機により、前記映像および前記発話音声を視聴する顧客を撮像するカメラを有し、前記カメラにより撮像された前記顧客の撮像画像を取得するステップと、前記サーバにより、前記受信機から送られた前記顧客の撮像画像に基づいて、前記顧客の前記映像および前記発話音声に対する感情を示す感情データを導出するステップと、前記サーバにより、前記顧客の前記感情データの導出結果に基づいて、前記オペレータの発話音声の特性の変更に関する処理指示を生成して前記受信機に送るステップと、前記受信機により、前記サーバから送られた前記処理指示に基づいて、前記オペレータの発話音声の特性を変更して出力するステップと、を有する、音声特性変更方法を提供する。
【発明の効果】
【0008】
本開示によれば、顧客の感情に合わせたオペレータから顧客への音声による情報提供の実現を効率的に支援できる。
【図面の簡単な説明】
【0009】
図1】実施の形態1に係る情報表示システムの概要の一例を示す図
図2】実施の形態1に係る情報表示システムのハードウェア構成例を示すブロック図
図3】実施の形態1に係る情報表示システムによる音声特性変更の基本動作手順例を示すフローチャート
図4図3のステップS3における音声特性変更手順例を示すフローチャート
図5】実施の形態1に係る情報表示システムによる動作手順例を示すフローチャート
図6】感情・変調テーブルの登録内容の一例を示す図
図7】実施の形態2に係るTV視聴システムの概要の一例を示す図
図8】実施の形態2に係るTV視聴システムのハードウェア構成例を示すブロック図
図9】実施の形態2に係るTV視聴システムの動作手順例を示すフローチャート
【発明を実施するための形態】
【0010】
以下、適宜図面を参照しながら、本開示に係る音声特性変更システムおよび音声特性変更方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
【0011】
(実施の形態1)
実施の形態1では、本開示に係る音声特性変更システムが図1に示す情報表示システムに適用されるユースケースを説明する。図1は、実施の形態1に係る情報表示システム5の概要の一例を示す図である。情報表示システム5は、対面型情報提供装置10とオペレータ端末50とサーバ80とを含む構成を有し、オペレータopがオペレータ端末50を使用して顧客と対面する対面型情報提供装置10に情報を提示する。対面型情報提供装置10とオペレータ端末50とは、ネットワークNWを介して各種のデータ(例えば、テキストデータ、画像データ、音声データあるいはこれらのデータの組み合わせ等)を相互に通信可能である。また、対面型情報提供装置10およびオペレータ端末50のいずれも、ネットワークNWに接続されたサーバ80にアクセス可能である。ネットワークNWには、インターネット等の広域通信網に接続される有線LAN(Local Area Network)、無線LAN、専用線等が用いられる。
【0012】
受信機の一例としての対面型情報提供装置10は、例えば対面型情報提供装置10の前面にいる顧客等の人物の身長に合わせるように、ある程度の高さを有する箱形の架台31に載置される。架台31は、例えば対面型情報提供装置10の筐体と同一色で塗装される、あるいは対面型情報提供装置10と共通のカバーで覆われることで、対面型情報提供装置10と一体化される。対面型情報提供装置10は、顧客の顔と向き合うように上側に突出するように設けられた第1筐体15と、顧客の手元(つまり、手、腕、掌、爪等のうち一部の部位を含む手の周囲。以下同様。)が接触可能なように手前に延出された第2筐体18と、を有する。
【0013】
第1筐体15の前面には、オペレータ端末50のカメラ54(図2参照)によって撮像されるオペレータopの顔と上半身の映像とが映し出される表示部29が設けられる。表示部29は、画像を表示するディスプレイ装置(例えばLCD(Liquid Crystal Display)あるいは有機EL(Electroluminescence))で構成される。表示部29には、実際とほぼ同じサイズで、オペレータopの顔と上半身の映像が表示される。これにより、顧客は、オペレータopと実際に対面しているような臨場感を得ることが可能となる。第1筐体15の前面下部(つまり、表示部29と表示部28とが配置された筐体の中間部15z)には、顧客の顔および上半身の映像を撮像するカメラ24が設けられる。また、中間部15zの両端付近には、オペレータopが発話した音声の音声データを出力する左右一対のスピーカ26が設けられる。中間部15zの中央付近には、顧客が発した音声を収音するマイク27が設けられる。
【0014】
また、第2筐体18の上面には、表示部28が設けられる。表示部28は、UI(User Interface)画面、パンフレット等の案内情報、Webサイト等を表示可能である。表示部28は、タッチ入力操作可能な入力部23(図2参照)と一体化されたタッチパネル14(図2参照)で構成される。
【0015】
一方、オペレータ端末50は、操作デスク60を有する。操作デスク60の前では、ヘッドセット73を装着したオペレータopが安定した姿勢でチェア71に座っている。ヘッドセット73は、オペレータ端末50の一部として、スピーカ55(図2参照)およびマイク56(図2参照)を有し、顧客が発話した音声をスピーカ55から出力し、オペレータopが発話した音声をマイク56で収音する。
【0016】
操作デスク60の操作面には、門型の支持台61が固定されている。支持台61には、カメラ24によって撮像された顧客の顔および上半身の映像が映し出される表示部53と、オペレータopの顔および上半身を撮像するカメラ54とが支持される。表示部53に表示される映像は、ハーフミラー75でオペレータopの視線方向に反射され、オペレータopによって視認される。
【0017】
対面型情報提供装置10は、オペレータ端末50から画像データを受信し、表示部29にオペレータopの顔と上半身の映像を表示する。対面型情報提供装置10は、オペレータ端末50から受信した音声データをスピーカ26から出力し、マイク27で収音した音声データをオペレータ端末50に送信する。
【0018】
一方、オペレータ端末50は、対面型情報提供装置10から画像データを受信し、表示部53に顧客の顔と上半身の映像を表示する。また、オペレータ端末50は、対面型情報提供装置10から音声データを受信し、ヘッドセット73のスピーカ55(図2参照)から出力し、ヘッドセット73のマイク56(図2参照)で収音した音声データを対面型情報提供装置10に送信する。
【0019】
図2は、実施の形態1に係る情報表示システム5のハードウェア構成例を示すブロック図である。情報表示システム5は、対面型情報提供装置10と、オペレータ端末50と、サーバ80とを含む構成である。
【0020】
対面型情報提供装置10は、オペレータ端末50を介してオペレータopが顧客と対話可能な装置であり、プロセッサ21、メモリ22、タッチパネル14、通信部20、表示部29、カメラ24、音声制御部25、スピーカ26、およびマイク27を有する。なお、カメラ24およびマイク27は、対面型情報提供装置10とは別体として外部接続されてもよい。
【0021】
プロセッサ21は、対面型情報提供装置10を統括的に制御する。メモリ22は、プロセッサ21のワーキングメモリとして使用される他、各種データ、情報、プログラムを記憶する。メモリ22は、一次記憶装置(例えばRAM(Random Access Memory)およびROM(Read Only Memory)を含む。メモリ22は、二次記憶装置(例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)、または三次記憶装置(例えば光ディスク、SDカード)を含んでもよい。
【0022】
タッチパネル14は、表示部28と入力部23が一体化された構成である。表示部28と入力部23は、別体に構成されてもよい。別体に構成される場合、表示部28は、例えばLCD、有機EL等の表示デバイスである。入力部23は、マウス、キーボード、タッチパッド等の入力デバイスである。
【0023】
通信部20は、ネットワークNWを介してオペレータ端末50の通信部57およびサーバ80の通信部83と無線または有線で通信を行うネットワークI/F回路である。通信部20による通信方式は、例えば、WAN(Wide Area Network)、LAN、LTE(Long Term Evolution)、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部20は、カメラ24により撮像された顧客の顔の画像データ、およびタッチパネル14の入力部23に入力された操作情報をオペレータ端末50に送信する。通信部20は、オペレータ端末50から送信されたオペレータopの顔と上半身の映像とを受信する。
【0024】
表示部29は、オペレータopの顔および上半身を表示する、超高解像度ディスプレイ、例えば4K(3840画素×2160画素)ディスプレイを有する。なお、表示部29は、顧客がタッチ入力可能なタッチパネルで構成されてもよい。
【0025】
カメラ24は、第1筐体15の下部に配置された内蔵カメラであり、対面型情報提供装置10の前に立つ顧客の顔と上半身との映像を撮像する。なお、カメラ24の画角は、オペレータ端末50から遠隔操作可能であってもよい。カメラ24には、高解像度な4Kカメラ、フルハイビジョンカメラ、ハイビジョンカメラ、ノーマルカメラ等が用いられる。
【0026】
音声制御部25は、通信部20を介して送受信される音声データに対し圧縮・伸長処理を行い、伸長した音声データをスピーカ26から出力し、マイク27で収音された音声の音声データを圧縮する。また、音声制御部25は、音声データのノイズ除去処理、増幅処理等を行う。
【0027】
スピーカ26は、対面型情報提供装置10の前にいる顧客が聞き取り易くなるように指向性を有するステレオスピーカであり、オペレータopが発話する声の音声等を出力する。
【0028】
マイク27は、顧客に対し指向方向を有する指向性マイクであり、顧客が発話する声の音声を収音する。なお、マイク27およびスピーカ26 はヘッドセットで構成されてもよく、顧客が対面型情報提供装置10を操作する際、このヘッドセットを頭部に装着する。
【0029】
オペレータ端末50は、オペレータopが操作する端末であり、プロセッサ51、メモリ52、表示部53、カメラ54、スピーカ55、マイク56、および通信部57を有する。
【0030】
プロセッサ51は、オペレータ端末50を統括的に制御する。メモリ52は、プロセッサ51のワーキングメモリとして使用される他、各種データ、情報、プログラムを記憶する。メモリ52は、一次記憶装置(例えばRAMおよびROM)を含む。メモリ52は、二次記憶装置(例えばHDD、SSD)、または三次記憶装置(例えば光ディスク、SDカード)を含んでもよい。
【0031】
表示部53は、顧客の顔および上半身を表示する、超高解像度ディスプレイ、例えば4K(3840画素×2160画素)ディスプレイを有する。
【0032】
カメラ54は、オペレータopの顔と上半身との映像を撮像する。カメラ54には、高解像度な4Kカメラ、フルハイビジョンカメラ、ハイビジョンカメラ、ノーマルカメラ等が用いられる。
【0033】
通信部57は、ネットワークNWを介して対面型情報提供装置10の通信部20およびサーバ80の通信部83と無線または有線で通信を行うネットワークI/F回路である。通信部57による通信方式は、例えば、WAN、LAN、LTE、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部57は、カメラ54により撮像されたオペレータopの顔の画像データを対面型情報提供装置10に送信する。通信部57は、対面型情報提供装置10から送信された顧客の顔と上半身との映像を受信する。通信部57は、サーバ80から送信された顧客の感情に対応するアドバイス情報を受信する。
【0034】
スピーカ55は、オペレータopが聞き取り易くなるように指向性を有するステレオスピーカであり、顧客が発話する声の音声等を出力する。マイク56は、オペレータopに対し指向方向を有する指向性マイクであり、オペレータopが発話する声の音声を収音する。マイク56およびスピーカ55は、ヘッドセット73で構成される。オペレータopは、オペレータ端末50を操作する際、ヘッドセット73を頭部に装着する。
【0035】
サーバ80は、オペレータopが発話する声の音声の特性を、顧客の感情データに合わせて変更するものであり、プロセッサ81、メモリ82、通信部83、およびストレージ85を有する。感情データは、顧客の映像および発話音声に対する感情を示す。なお、ここでは、音声の特性を変更することを「変調」とも称する。
【0036】
プロセッサ81は、メモリ82に記憶されたプログラムを実行することにより実現される機能として、変調方法決定部91および感情分析アルゴリズム92を含む。感情分析アルゴリズム92は、顧客の感情を推定するものであり、顧客の顔画像データを基に顧客の感情を推定する画像分析部93、および顧客が発話する声の音声データを基に顧客の感情を推定する音声分析部94を含む。感情分析アルゴリズム92は、顧客の感情を推定した時のタイムスタンプを出力してもよい。
【0037】
変調方法決定部91は、感情分析アルゴリズム92で推定された顧客の感情を基に、感情データベース95に登録された感情・変調テーブルTb1を用いて、推定された顧客の感情に対応する声の変調方法を選択する。
【0038】
メモリ82は、プロセッサ81のワーキングメモリとして使用される他、各種データ、情報、プログラムを記憶する。メモリ82は、一次記憶装置(例えばRAMおよびROM)を含む。
【0039】
通信部83は、ネットワークNWを介して対面型情報提供装置10の通信部20およびオペレータ端末50の通信部57と無線または有線で通信を行うネットワークI/F回路である。通信部83による通信方式は、例えば、WAN、LAN、LTE、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部83は、オペレータ端末50に対し顧客の感情に対応するアドバイス情報を送信する。通信部83は、対面型情報提供装置10から送信された顧客の顔と上半身との映像を受信し、オペレータopが発話する声の音声の変調方法を対面型情報提供装置10に送信する。
【0040】
ストレージ85は、HDDまたはSSDを含み、感情データベース95を記憶する。感情データベース95は、顧客の感情とオペレータopの声の変調方法が登録された感情・変調テーブルTb1(図6参照)を含む。
【0041】
次に、実施の形態1に係る情報表示システム5の動作手順を説明する。
【0042】
始めに、音声特性変更の基本動作について説明する。一例として、オペレータopがオペレータ端末50を通じて顧客が視聴する対面型情報提供装置10に音声データを送信し、顧客に物事を音声で伝える場面を想定する。図3は、実施の形態1に係る情報表示システム5による音声特性変更の基本動作手順例を示すフローチャートである。
【0043】
図3において、サーバ80は、対面型情報提供装置10から顧客の音声データおよび画像データを取得する(S1)。サーバ80は、顧客の音声データおよび画像データを基に、顧客の感情を推定する(S2)。サーバ80は、推定した顧客の感情に合わせてオペレータopが発話する声の音声の特性を変更する指示を行う。対面型情報提供装置10は、サーバ80からの指示に従い、オペレータopが発話する声の音声を変調して出力する(S3)。ステップS3の詳細については、図4を参照して後述する。
【0044】
図4は、図3のステップS3における音声特性変更手順例を示すフローチャートである。図4に示す一連の処理は、図3のステップS3における音声特性変更手順の詳細を示すサブルーチンである。
【0045】
図4において、サーバ80は、図3のステップS2において推定された顧客の感情に変化が起きた時(例えば、顧客が突然怒りだした時)の生体情報の特徴を特定する(S31)。生体情報の特徴として、サーバ80は、図3のステップS1で取得された画像データを基に顔認識を行い、顧客の顔画像に現れた喜怒哀楽の表面感情の検知結果が挙げられる。また、生体情報の特徴として、図3のステップS1で取得された顧客の顔画像データを基にサーバ80により導出される心拍数あるいは心拍変動のデータを用いてもよい。心拍変動を基に内面感情(特に、ストレス度)を分析する技術として、例えば、特許第6358506号公報には、被験者が撮像された画像データを入力し、入力された画像データの複数フレームにわたる肌色部分の画素値の周期を基に脈拍数を推定することが開示されている。同様に、国際公開第2017/154477公報には、撮像画像から肌色領域を検出し、肌色領域から抽出した情報に基づき脈波信号を検出し、脈波信号に基づき被検体の脈拍を推定することが開示されている。また、生体情報として、特許文献1に示すように、顧客が発話する声の音声データを用いて、顧客の感情を推定することが知られている。
【0046】
サーバ80のプロセッサ81は、ストレージ85に記憶された感情データベース95を基に、特定した生体情報の特徴と類似する生体情報の特徴を検索する(S32)。感情データベース95には、感情あるいは感情の変化に対応する生体情報の特徴が登録されている。生体情報は、顔の喜怒哀楽の表情、心拍数、心拍変動、音声等、少なくとも1つ含む。
【0047】
プロセッサ81は、感情データベース95を検索した結果、生体情報の特徴が該当した場合、感情データベース95に登録された感情・変調テーブルTb1を基に、生体情報の特徴に対応する声の音声の変調方法を選択する(S33)。プロセッサ81は、通信部83を介して対面型情報提供装置10に生体情報の特徴に対応する声の変調方法を送信する。
【0048】
対面型情報提供装置10は、声の変調方法に従い、オペレータ端末50から送信されたオペレータopの声の音声を変調して出力する(S34)。
【0049】
次に、情報表示システム5における音声特性変更動作をより具体的に示す。図5は、実施の形態1に係る情報表示システム5の動作手順を示すフローチャートである。図3と同様、オペレータopがオペレータ端末50を通じて顧客が視聴する対面型情報提供装置10に音声データを送信し、顧客に物事を音声で伝える場面を想定する。
【0050】
図5において、サーバ80は、通信部83を介して、対面型情報提供装置10から送信された顧客の音声データおよび画像データを受信して取得する(S41)。
【0051】
プロセッサ81の感情分析アルゴリズム92は、顧客の音声データおよび画像データを基に、顧客の感情を推定する(S42)。このとき、画像分析部93は、画像データを基に顔認識を行い、顧客の顔画像に現れる喜怒哀楽の表面感情を推定する。また、画像分析部93は、顔画像データを基に心拍変動を検知し、顧客の内面感情を推定する。また、音声分析部94は、顧客が発話する声の音声を基に、顧客の共感、反感等の感情を推定する。
【0052】
プロセッサ81の変調方法決定部91は、推定した顧客の感情に合わせて、オペレータopの声の音声特性を変更するための指示を作成する(S43)。この指示の作成に際し、変調方法決定部91は、感情データベース95に登録された感情・変調テーブルTb1を基に、推定された感情に対応する声の変調方法を選択する。図6は、感情・変調テーブルTb1の登録内容の一例を示す図である。感情・変調テーブルTb1には、顧客の感情が「平常」である場合、オペレータが発話する声の「変調無し」が登録される。顧客の感情が「喜び」である場合、同様にオペレータが発話する声の「変調無し」が登録される。顧客の感情が「怒り」である場合、オペレータが発話する声の「語尾のピッチを下げる。怒り度合いに応じて下げる音量および音の長さの少なくもとも一方を変える。怒り度合が大きいほど音量を大きくかつ音の長さを長くする。」が登録される。顧客の感情が「悩み」である場合、オペレータが発話する声の「語気を強めて購買または契約を促す。」が登録される。
【0053】
感情・変調テーブルTb1では、顧客の感情を推定する一例として、声の音声データを例示したが、心拍数、心拍変動等のデータを組み合わせて感情を推定してもよい。また、心拍変動を組み合わせる場合、集中している状態であると心拍変動が安定し、リラックスしている状態であると心拍変動が不安定になる。また、感情・変調テーブルTb1では、感情分析アルゴリズム92によって推定された感情が「喜び」から「悲しみ」に変更される場合、発話速度を遅くしてピッチを下げるように、オペレータの声が登録されてもよい。また、推定された感情が「怒り」から「興奮」に変更される場合、興奮を煽るような特定の単語の強調を下げてピッチを上げるように、オペレータの声が登録されてもよい。
【0054】
プロセッサ81は、ステップS43で作成された、オペレータの声の音声特性を変更するための指示を、通信部83を介して対面型情報提供装置10に送信する(S44)。
【0055】
対面型情報提供装置10のプロセッサ21は、通信部20を介して上記指示を受信すると、指示された変調方法でオペレータopの声を変調して出力する(S45)。
【0056】
また、サーバ80のプロセッサ81は、通信部83を介して、推定した顧客の感情のデータをオペレータ端末50に送信する。オペレータ端末50のプロセッサ51は、推定した顧客の感情に基づく顧客の表情を表示部53に表示する(S46)。このとき、プロセッサ51は、例えばメモリ52に登録された、各種感情の顔アイコンのいずれかを選択して顧客の表情を表示してもよい。また、プロセッサ51は、テキスト文字、マーク画像等で顧客の表情を表示してもよい。
【0057】
サーバ80のプロセッサ81は、推定した顧客の感情を基に、オペレータの発話、例えば現在紹介している商品の営業を継続するべきか否かのアドバイスをオペレータ端末50に送信する。オペレータ端末50のプロセッサ51は、このアドバイスを表示部53に表示する(S47)。例えば、想定を超えるような顧客の怒り(なお想定を超えなくてもよい)があった場合、営業の継続を中止するアドバイスが行われてもよい。一例として、サーバ80のプロセッサ81は、想定を超える文言、例えば「バカヤロー」、「出て来い!」等のフレーズ(テキストデータ)をメモリ82に登録しておき、顧客が発話する内容に想定を超える文言が含まれた場合、営業の継続を中止するアドバイスを行う。なお、プロセッサ81は、推定した顧客の感情、顧客の顔画像、顧客の声の音声等のデータで機械学習を行い、営業の継続を中止する否かのアドバイス行ってもよい。ここでは、アドバイスは、サーバ80で決定されたが、オペレータ端末50によって決定されてもよい。オペレータ端末50が行う場合、サーバ80は、推定した顧客の感情を表すデータをオペレータ端末50に送信する。
【0058】
実施の形態1に係る情報表示システム5は、オペレータopがオペレータ端末50を通じて顧客が視聴する対面型情報提供装置10にオペレータの発した音声の音声データを送信し、顧客に物事を音声で伝える場合、推定された顧客の感情に合わせてオペレータopが発話する声の音声の特性を変更する。これにより、顧客の感情に合わせたオペレータopから顧客への音声による情報提供がスムーズかつ効率的に行われるようになる。
【0059】
このように、情報表示システム5では、映像およびオペレータopの発話音声をオペレータ端末50から受信して出力する対面型情報提供装置10と、サーバ80とが通信可能に接続される。対面型情報提供装置10は、映像および発話音声を視聴する顧客を撮像するカメラ24と接続されあるいはカメラ24を有し、カメラ24により撮像された顧客の撮像画像を取得してサーバ80に送る。サーバ80は、対面型情報提供装置10から送られた顧客の撮像画像に基づいて、顧客の映像および発話音声に対する感情を示す感情データを導出する。サーバ80は、顧客の感情データの導出結果に基づいて、オペレータopの発話音声の特性の変更に関する処理指示を生成して対面型情報提供装置10に送る。対面型情報提供装置10は、サーバ80から送られた処理指示に基づいて、オペレータopの発話音声の特性を変更して出力する。
【0060】
これにより、対面型情報提供装置10は、オペレータの映像を視聴した顧客の感情に合わせてオペレータの音声の特性を適応的に変更して出力できる。従って、情報表示システム5は、顧客の感情に合わせたオペレータから顧客への音声による情報提供の実現を効率的に支援できる。
【0061】
また、対面型情報提供装置10は、顧客の発話音声を収音するマイク27と接続されあるいはマイク27を有し、マイク27により収音された顧客の発話音声を取得してサーバ80に送る。サーバ80は、対面型情報提供装置10から送られた顧客の撮像画像および顧客の発話音声のうち少なくとも1つに基づいて、顧客の感情データを導出する。これにより、サーバ80は、顧客の撮像画像または顧客の発話音声を基に、顧客の感情データを容易に推定できる。
【0062】
また、サーバ80は、顧客の感情データが怒りを示すと判定した場合に、オペレータopの発話音声の語尾部分のピッチを下げる旨の処理指示を生成する。これにより、対面型情報提供装置10は、オペレータopの発話音声の語尾部分の音程を低くして、顧客の怒りが静まるように仕向けることができる。
【0063】
また、サーバ80は、顧客の感情データが怒り(例えば想定範囲を超える怒り)を示すと判定した場合に、オペレータopによる発話の継続の中止を促すアドバイス情報を生成してオペレータ端末50に送信する。オペレータ端末50は、このアドバイス情報を受信して表示する。これにより、オペレータopは、顧客の怒りを逆なでするような発話を中止し、顧客の怒りが静まるまで待つことができる。
【0064】
また、サーバ80は、顧客の感情データが悩みを示すと判定した場合に、オペレータopの発話音声のボリュームを上げる旨の処理指示を生成する。これにより、対面型情報提供装置10は、オペレータopの発話音声のボリュームを上げて、つまり語気を強めて購買または契約を促すように仕向けることができる。また、対面型情報提供装置10は、悩みを解消して顧客が元気を取り戻すように導くことも可能である。
【0065】
また、サーバ80は、対面型情報提供装置10から送られた顧客の撮像画像および顧客の発話音声の両方に基づいて、顧客の感情データを導出する。これにより、サーバ80は、顧客の撮像画像および顧客の発話音声の両方を用いて、感情データをより正確に推定できる。
【0066】
また、対面型情報提供装置10は、顧客とオペレータopとの間の対話を支援する。これにより、対面型情報提供装置10が顧客の感情に合わせてオペレータopの発話音声の特性を変更することで、顧客はオペレータと直接対話しているような臨場感を高めることができる。
【0067】
(実施の形態2)
実施の形態2では、本開示に係る音声特性変更システムが図7に示すTV視聴システムに適用されるユースケースを説明する。TV視聴システムでは、一例として、顧客はスポーツ(野球、相撲等)をTV(テレビジョン受像機)を通じて観戦する視聴者である。オペレータは、スポーツを実況する実況者である。なお、ここでは、実況者が発話するスポーツ映像は、ライブ映像であるが、録画された映像であってもよい。
【0068】
図7は、実施の形態2に係るTV視聴システム500の概要の一例を示す図である。TV視聴システム500は、各家庭内、事業所内等に置かれた複数のテレビジョン受信機(以下、単にTVと称する)に対し、TV100により出力されているTV番組を視聴する視聴者vwの感情に合わせて、実況者Asが発話する声の音声の特性をTV100ごとに変更して出力する。図7では、一例として3箇所の家庭内HA,HB,HCでそれぞれ同一の実況者が実況する同一のTV番組が視聴される場合を示す。ここでは、TV番組は、ネットワークNWを介して各TV100に配信されるが、デジタル放送波を用いて各TVに双方向通信可能に放送されてもよい。
【0069】
図8は、実施の形態2に係るTV視聴システム500のハードウェア構成例を示すブロック図である。実施の形態2に係るTV視聴システム500において、実施の形態1に係る情報表示システム5と同一の構成要素については同一もしくは対応する符号を用いることで、その説明を省略または簡略化し、異なる内容について説明する。
【0070】
TV視聴システム500は、複数のTV100と、サーバ180と、実況者端末150とを含む構成である。各TV100、サーバ180、および実況者端末150は、ネットワークNWに接続され、相互にデータ通信可能である。
【0071】
複数のTV100は、それぞれの家庭内、事業所内等の場所に設置され、ネットワークNWを介して実況者端末150から受信したスポーツ等のTV番組を映像および音声で出力する。TV100は、プロセッサ121、メモリ122、表示部128、通信部120、カメラ124、音声制御部125、スピーカ126およびマイク127を有する。なお、カメラ124およびマイク127は、TV100とは別体として外部接続されてもよい。
【0072】
プロセッサ121は、TV100を統括的に制御する。メモリ122は、プロセッサ121のワーキングメモリとして使用される他、各種データ、情報、プログラムを記憶する。メモリ122は、一次記憶装置(例えばRAMおよびROM)を含む。メモリ122は、二次記憶装置(例えばHDD、SSD)、または三次記憶装置(例えば光ディスク、SDカード)を含んでもよい。
【0073】
通信部120は、ネットワークNWを介して実況者端末150の通信部157およびサーバ180の通信部183と無線または有線で通信を行うネットワークI/F回路である。通信部120による通信方式は、例えば、WAN、LAN、LTE、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部120は、カメラ124により撮像された視聴者vwの顔の画像データをサーバ180に送信する。通信部120は、実況者端末150から送信された実況者asの顔と上半身との映像を受信する。
【0074】
表示部128は、例えばLCDあるいは有機EL等の表示デバイスである。表示部128は、スポーツ等のTV番組を表示するとともに、ワイプ画面に実況者asの顔と上半身とを表示する。表示部128は、超高解像度ディスプレイ、例えば4K(3840画素×2160画素)ディスプレイを有する。
【0075】
カメラ124は、TV100の筐体前面に配置され、家庭内のリビング等で視聴する視聴者vwの顔と上半身との映像を撮像する。カメラ124には、高解像度な4Kカメラ、フルハイビジョンカメラ、ハイビジョンカメラ、ノーマルカメラ等が用いられる。
【0076】
音声制御部125は、通信部120を介して送受信される音声データに対し圧縮・伸長処理を行い、伸長した音声データをスピーカ126から出力し、マイク127で収音された音声の音声データを圧縮する。また、音声制御部125は、音声データのノイズ除去処理、増幅処理等を行う。
【0077】
スピーカ126は、TV100の前にいる視聴者vwが聞き取り易くなるように指向性を有するステレオスピーカであり、実況者asが発話する声の音声等を出力する。マイク127は、視聴者vwに対し指向方向を有する指向性マイクであり、視聴者vwが発話する声の音声を収音する。
【0078】
また、実況者端末150は、スポーツ等のTV番組を実況する端末であり、プロセッサ151、メモリ152、カメラ154、マイク156および通信部157を有する。
【0079】
プロセッサ151は、実況者端末150を統括的に制御する。メモリ152は、プロセッサ151のワーキングメモリとして使用される他、各種データ、情報、プログラムを記憶する。メモリ152は、一次記憶装置(例えばRAMおよびROM)を含む。メモリ152は、二次記憶装置(例えばHDD、SSD)、または三次記憶装置(例えば光ディスク、SDカード)を含んでもよい。
【0080】
カメラ154は、実況者asの顔と上半身との映像を撮像する。カメラ154には、高解像度な4Kカメラ、フルハイビジョンカメラ、ハイビジョンカメラ、ノーマルカメラ等が用いられる。
【0081】
通信部157は、ネットワークNWを介してTV100の通信部120と無線または有線で通信を行うネットワークI/F回路である。通信部157による通信方式は、例えば、WAN、LAN、LTE、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部157は、カメラ154により撮像された実況者asの顔および上半身の画像データをTV100に送信する。
【0082】
マイク156は、実況者asに対し指向方向を有する指向性マイクであり、実況者asが発話する声の音声を収音する。
【0083】
サーバ180は、実況者Asが発話する声の音声の特性を、TV番組を視聴する視聴者vwの感情データに合わせて変更するものであり、プロセッサ181、メモリ182、通信部183、およびストレージ185を有する。
【0084】
プロセッサ181は、メモリ182に記憶されたプログラムを実行することにより実現される機能として、変調方法決定部191および感情分析アルゴリズム192を含む。感情分析アルゴリズム192は、視聴者vwの顔画像データを基に視聴者vwの感情を推定する画像分析部193、および視聴者vwが発話する声の音声データを基に視聴者vwの感情を推定する音声分析部194を含む。変調方法決定部191は、感情データベース195に登録された感情・変調テーブルTb2を基に、推定された視聴者vwの感情に対応する声の変調方法を選択する。感情・変調テーブルTb2は、前記実施の形態1における感情・変調テーブルTb1と同様の登録内容を含む。例えば、視聴者の感情が「喜び」である場合、実況者の声の変調は「その場が興奮した雰囲気になるように音のピッチを上げて大きな音量にする」である。また、視聴者の感情が「落胆」である場合、実況者の声の変調は「その場が沈んだ雰囲気になるように音のピッチを下げて小さな音量にする」である。
【0085】
メモリ182は、一次記憶装置(例えばRAMおよびROM)を含む。メモリ182は、二次記憶装置(例えばHDD、SSD)、または三次記憶装置(例えば光ディスク、SDカード)を含んでもよい。
【0086】
通信部183は、ネットワークNWを介してTV100の通信部120と無線または有線で通信を行うネットワークI/F回路である。通信部183による通信方式は、例えば、WAN、LAN、LTE、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部183は、TV100から送信された視聴者vwの顔と上半身との映像を受信し、実況者asが発話する声の音声の変調方法をTV100に送信する。
【0087】
ストレージ185は、HDDまたはSSDを含み、感情データベース195を記憶する。感情データベース95は、視聴者vwの感情と実況者asの声の変調方法が登録された感情・変調テーブルTb2を含む。感情・変調テーブルTb2の登録内容は、実施の形態1に係る感情・変調テーブルTb1と同様である。
【0088】
次に、実施の形態2に係るTV視聴システム500の動作手順例を説明する。
【0089】
図9は、実施の形態2に係るTV視聴システム500の動作手順例を示すフローチャートである。
【0090】
図9において、サーバ180のプロセッサ181は、通信部183およびネットワークNWを介して、各家庭内HA,HB,HCに置かれたTV100から送信されるカメラ124による各視聴者vwの顔画像データおよびマイク127による各視聴者vwの声の音声データを受信して取得する(S61)。
【0091】
プロセッサ181の感情分析アルゴリズム192は、各視聴者vwの顔画像データおよび音声データを基に、各視聴者vwの感情を推定する(S62)。画像分析部193は、画像データを基に顔認識を行い、各視聴者vwの顔画像に現れる喜怒哀楽の表面感情を推定する。また、画像分析部193は、顔画像データを基に心拍変動を検知し、視聴者vwの内面感情を推定する。また、音声分析部194は、視聴者vwが発話する声の音声を基に、視聴者vwの共感あるいは反感等の感情を推定する。
【0092】
プロセッサ181は、実況者端末150から実況者がマイク156に向かって発話する声の音声に対し音声データの特徴を算出する(S63)。音声データの特徴は、例えば音の高さ(ピッチ)、音量、音色等を含む。プロセッサ181は、感情データベース195に登録されている感情・音声特徴テーブル(図示略)を基に、推定した視聴者vwの感情に相応する(マッチングする)実況者の声の音声データの特徴を選択する(S64)。なお、プロセッサ181は、推定した視聴者vwの感情に相応する実況者の音声の特徴について機械学習を行い、得られた学習済モデルを用いて実況者の音声の特徴を特定してもよい。
【0093】
サーバ180のプロセッサ181は、TV100毎に、選択した実況者の音声データの特徴に変更する指示(アドバイス)をそれぞれ作成し、各TV100に送信する(S65)。各TV100の通信部120は、サーバ180からの指示を受信する。各TV100の音声制御部125は、サーバ180の指示にしたがい、実況者asが発話する声の音声を変調する(S66)。なお、家庭内で複数名の視聴者vwがTV100を視聴している場合、プロセッサ181は、複数の視聴者vwの感情として、所定の感情(例えば、全ての視聴者の感情のうち最多の感情、年長者の感情、平均化された感情等)に見合うような音声の変調を行ってもよい。これにより、同じTVを複数名の視聴者が視聴している場合、できる限り複数名の視聴者の感情に見合った、実況者によるアナウンスが可能となる。
【0094】
実施の形態2に係るTV視聴システム500では、例えばTVが野球中継を放送しており、Dチームが勝利に近づいている場合、家庭内HAでは、TVは、Dチームを応援している視聴者に対し、実況者の声の音声の特性を、その場が興奮した雰囲気になるように変更する。一方、家庭内HBでは、TVは、Dチームを応援しない視聴者に対し、実況者の声の音声の特性を、その場が沈んだ雰囲気になるように変更する。各家庭内では、TVは、それぞれの視聴者の感情に見合った、実況者の声になるように音声の特性を変更できる。
【0095】
このように、TV100は、家庭内に配置される。これにより、TV視聴システム500は、視聴者vwの感情に合わせて、実況者asによるスムーズかつ快適な実況を視聴者vwに放送できる。
【0096】
また、複数のTV100に対し、サーバ80は、TV100ごとに、実況者asの発話音声の特性の変更に関する処理指示を生成して各TV100に送る。これにより、TV視聴システム500は、複数の家庭に対し家庭ごとに異なる音声の特性で実況者asによる音声実況を放送できる。
【0097】
また、TV100から出力される映像および発話音声を視聴する視聴者vwが複数名である場合、複数の視聴者の感情のうち最多の感情等、所定の感情データの導出結果に基づいて、実況者asの発話音声の特性の変更に関する処理指示を生成する。これにより、TV視聴システム500は、1台のTV100を視聴する視聴者vwが複数名である場合であっても、できる限り視聴者vwの感情に合わせて、実況者によるスムーズかつ快適な実況を視聴者vwに放送できる。
【0098】
以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことはいうまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
【0099】
例えば、上述した実施の形態では、音声特性変更システムは、情報表示システム5およびTV視聴システム400に適用される場合を示したが、これらに限らず、通信家庭教師サービスにおいて先生と生徒が対話する場合、テレビ会議システムにおいて複数の社員に対し社長が発表する場合等、様々な分野において適用可能である。また、スポーツゲームの解説者、テレビの司会者等もオペレータに含まれる。
【0100】
また、音声データに基づく声感情の推定、心拍変動データに基づく内面感情の推定、および共感度の推定は、機械学習を用いたアルゴリズムで行われてもよい。
【0101】
また、上述した実施の形態では、画像データを得るためのカメラと、音声データを得るためのマイクを使用したが、顧客、視聴者等が着用するスマートウォッチ、リストバンド等のスマートウェアラブル機器を用いて、音声により発話する声と心臓音(心拍信号)の両方のデータを取得してもよい。スマートウェアラブル機器を用いることで、さらに血圧、血糖値等のバイタルデータを得ることも可能であり、感情の推定に反映できる。
【産業上の利用可能性】
【0102】
本開示は、オペレータによる発話音声の特性を変更して、顧客の感情に合わせたオペレータと顧客との間のスムーズかつ快適な対話の実現を効率的に支援する音声特性変更システムおよび音声特性変更方法として有用である。
【符号の説明】
【0103】
5 情報表示システム
10 対面型情報提供装置
50 オペレータ端末
80 サーバ
81 プロセッサ
82 メモリ
83 通信部
85 ストレージ
91 変調方法決定部
92 感情分析アルゴリズム
93 画像分析部
94 音声分析部
95 感情データベース
500 TV視聴システム
図1
図2
図3
図4
図5
図6
図7
図8
図9