IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社RevCommの特許一覧

特開2023-105607プログラム、情報処理装置及び情報処理方法
<>
  • 特開-プログラム、情報処理装置及び情報処理方法 図1
  • 特開-プログラム、情報処理装置及び情報処理方法 図2
  • 特開-プログラム、情報処理装置及び情報処理方法 図3
  • 特開-プログラム、情報処理装置及び情報処理方法 図4
  • 特開-プログラム、情報処理装置及び情報処理方法 図5
  • 特開-プログラム、情報処理装置及び情報処理方法 図6
  • 特開-プログラム、情報処理装置及び情報処理方法 図7
  • 特開-プログラム、情報処理装置及び情報処理方法 図8
  • 特開-プログラム、情報処理装置及び情報処理方法 図9
  • 特開-プログラム、情報処理装置及び情報処理方法 図10
  • 特開-プログラム、情報処理装置及び情報処理方法 図11
  • 特開-プログラム、情報処理装置及び情報処理方法 図12
  • 特開-プログラム、情報処理装置及び情報処理方法 図13
  • 特開-プログラム、情報処理装置及び情報処理方法 図14
  • 特開-プログラム、情報処理装置及び情報処理方法 図15
  • 特開-プログラム、情報処理装置及び情報処理方法 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023105607
(43)【公開日】2023-07-31
(54)【発明の名称】プログラム、情報処理装置及び情報処理方法
(51)【国際特許分類】
   H04M 3/51 20060101AFI20230724BHJP
   G10L 21/0364 20130101ALI20230724BHJP
   G10L 21/057 20130101ALI20230724BHJP
   G10L 21/007 20130101ALI20230724BHJP
【FI】
H04M3/51
G10L21/0364
G10L21/057
G10L21/007
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2022006544
(22)【出願日】2022-01-19
(71)【出願人】
【識別番号】517285219
【氏名又は名称】株式会社RevComm
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】加藤 集平
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201BA12
5K201BA13
5K201CB13
5K201EC03
5K201EC06
(57)【要約】      (修正有)
【課題】複数のユーザ間で行われる通話において、顧客が、より適した音声でユーザと通話を実現する情報処理装置、方法及びプログラムを提供する。
【解決手段】コンピュータに第1ユーザと第2ユーザとの間で行われる通話を行うプログラムであって、プログラムは、プロセッサに、第1ユーザから通話音声を取得する音声取得ステップと、音声取得ステップにおいて取得した通話音声を変換する変換ステップと、変換ステップにおいて変換された通話音声を第2ユーザへ出力する出力ステップと、通話に関する通話属性を取得する属性取得ステップと、を情報処理装置に実行させる。変換ステップは、属性取得ステップにおいて取得した通話属性に基づき、音声取得ステップにおいて取得した通話音声を変換する。
【選択図】図12
【特許請求の範囲】
【請求項1】
プロセッサと、記憶部とを備え、コンピュータに第1ユーザと第2ユーザとの間で行われる通話を行うプログラムであって、
前記プログラムは、前記プロセッサに、
第1ユーザから通話音声を取得する音声取得ステップと、
前記音声取得ステップにおいて取得した前記通話音声を変換する変換ステップと、
前記変換ステップにおいて変換された前記通話音声を第2ユーザへ出力する出力ステップと、
前記通話に関する通話属性を取得する属性取得ステップと、
を実行させ、
前記変換ステップは、前記属性取得ステップにおいて取得した前記通話属性に基づき、前記音声取得ステップにおいて取得した前記通話音声を変換するステップを含む、
プログラム。
【請求項2】
前記変換ステップは、前記属性取得ステップにおいて取得した前記通話属性および前記音声取得ステップにおいて取得した前記通話音声に対して生成モデルを適用することにより、前記通話音声を変換するステップである、
請求項1記載のプログラム。
【請求項3】
前記プログラムは、前記プロセッサに、
前記属性取得ステップにおいて取得した前記通話属性に基づき、複数の音声処理のうち所定の音声処理を選択する選択ステップと、
を実行させ、
前記変換ステップは、前記音声取得ステップにおいて取得した前記通話音声に、前記選択ステップにおいて選択された前記所定の音声処理を適用することにより、前記通話音声を変換するステップである、
請求項1記載のプログラム。
【請求項4】
前記選択ステップは、複数の音声処理のうち、第2ユーザにとってより聴きやすい音声となるような所定の音声処理を選択するステップである、
請求項3記載のプログラム。
【請求項5】
前記選択ステップは、複数の音声処理のうち、第2ユーザにとってより信頼性が得られるような所定の音声処理を選択するステップである、
請求項3または4記載のプログラム。
【請求項6】
前記選択ステップは、前記属性取得ステップにおいて取得した前記通話属性に対して音声処理モデルを適用することにより、前記所定の音声処理を選択するステップである、
請求項3から5のいずれか記載のプログラム。
【請求項7】
プロセッサと、記憶部とを備え、コンピュータに第1ユーザと第2ユーザとの間で行われる通話を行うプログラムであって、
前記プログラムは、前記プロセッサに、
第1ユーザから通話音声を取得する音声取得ステップと、
前記音声取得ステップにおいて取得した前記通話音声を変換する変換ステップと、
前記変換ステップにおいて変換された前記通話音声を第2ユーザへ出力する出力ステップと、
第1ユーザから受け付けた選択指示に基づき、複数の音声処理のうち所定の音声処理を選択する選択ステップと、
を実行させ、
前記変換ステップは、前記音声取得ステップにおいて取得した前記通話音声に、前記選択ステップにおいて選択された前記所定の音声処理を適用することにより、前記通話音声を変換するステップである、
プログラム。
【請求項8】
前記プログラムは、前記プロセッサに、
前記通話に関する通話属性を取得する属性取得ステップと、
を実行させ、
前記選択ステップは、
第1ユーザから評価指標の種別の選択指示を受け付けるステップと、
前記属性取得ステップにおいて取得した前記通話属性および前記受け付けた評価指標に基づき、前記複数の音声処理のうち前記所定の音声処理を選択するステップと、
を含む、
請求項7記載のプログラム。
【請求項9】
前記選択ステップは、
第1ユーザから最適化したい評価指標の種別の選択指示を受け付けるステップと、
前記属性取得ステップにおいて取得した前記通話属性および前記受け付けた評価指標に基づき、複数の音声処理のうち、前記評価指標を最適化するような所定の音声処理を選択するステップと、
を含む、
請求項8記載のプログラム。
【請求項10】
前記選択ステップは、
第1ユーザから評価指標の種別の選択指示を受け付けるステップと、
前記属性取得ステップにおいて取得した前記通話属性および前記受け付けた評価指標に対して音声処理モデルを適用することにより、前記複数の音声処理のうち前記所定の音声処理を選択するステップと、
を含む、
請求項8または9記載のプログラム。
【請求項11】
前記音声取得ステップは、第2ユーザから第2通話音声を取得するステップを含み、
前記選択ステップは、第2ユーザからは選択指示を受け付けることができず、
前記変換ステップは、前記音声取得ステップにおいて取得した第2通話音声は変換しないステップである、
請求項8から10のいずれか記載のプログラム。
【請求項12】
前記属性取得ステップは、第2ユーザに関する属性情報を取得するステップを含み、
前記変換ステップは、前記属性取得ステップにおいて取得した第2ユーザに関する属性情報に基づき、前記音声取得ステップにおいて取得した前記通話音声を変換するステップを含む、
請求項1から6、8から11のいずれか記載のプログラム。
【請求項13】
前記属性取得ステップは、第1ユーザに関する属性情報を取得するステップを含み、
前記変換ステップは、前記属性取得ステップにおいて取得した第1ユーザに関する属性情報に基づき、前記音声取得ステップにおいて取得した前記通話音声を変換するステップを含む、
請求項1から6、8から12のいずれか記載のプログラム。
【請求項14】
前記属性取得ステップは、前記通話に関する属性情報を取得するステップを含み、
前記変換ステップは、前記属性取得ステップにおいて取得した前記通話に関する属性情報に基づき、前記音声取得ステップにおいて取得した前記通話音声を変換するステップを含む、
請求項1から6、8から13のいずれか記載のプログラム。
【請求項15】
前記属性取得ステップは、前記通話に関する属性情報を取得するステップを含み、
前記変換ステップは、前記属性取得ステップにおいて取得した前記通話におけるユーザまたは顧客の感情に関する情報に基づき、前記音声取得ステップにおいて取得した前記通話音声を変換するステップを含む、
請求項1から6、8から14のいずれか記載のプログラム。
【請求項16】
前記属性取得ステップにおいて取得する前記通話属性は、ユーザおよび顧客の周辺環境、通話環境に関する情報は含まない、
請求項1から6、8から15のいずれか記載のプログラム。
【請求項17】
前記変換ステップは、
前記音声取得ステップにおいて取得した前記通話音声のうち、人物の音声成分を変換するステップを含み、
前記音声取得ステップにおいて取得した前記通話音声のうち、人物の音声成分以外の背景雑音、ノイズ、騒音などの音声成分を変換するステップを含まない、
請求項1から16のいずれか記載のプログラム。
【請求項18】
前記プログラムは、前記プロセッサに、
第1ユーザから受け付けた第2選択指示に基づき、複数の音声処理のうち第2音声処理を選択する第2選択ステップと、
を実行させ、
前記音声取得ステップは、第2ユーザから第2通話音声を取得するステップを含み、
前記変換ステップは、前記取得ステップにおいて取得した第2通話音声に、第2選択ステップにおいて選択された第2音声処理を適用することにより、第2通話音声を変換するステップを含み、
前記出力ステップは、前記変換ステップにおいて変換された第2通話音声を第1ユーザへ出力するステップを含む、
請求項1から17のいずれか記載のプログラム。
【請求項19】
プロセッサと、記憶部とを備える情報処理装置であって、
前記プロセッサに、
第1ユーザから通話音声を取得する音声取得ステップと、
前記音声取得ステップにおいて取得した前記通話音声を変換する変換ステップと、
前記変換ステップにおいて変換された前記通話音声を第2ユーザへ出力する出力ステップと、
前記通話に関する通話属性を取得する属性取得ステップと、
を実行させ、
前記変換ステップは、前記属性取得ステップにおいて取得した前記通話属性に基づき、前記音声取得ステップにおいて取得した前記通話音声を変換するステップを含む、
情報処理装置。
【請求項20】
プロセッサと、記憶部とを備えるコンピュータにより実行される情報処理方法であって、
前記プロセッサに、
第1ユーザから通話音声を取得する音声取得ステップと、
前記音声取得ステップにおいて取得した前記通話音声を変換する変換ステップと、
前記変換ステップにおいて変換された前記通話音声を第2ユーザへ出力する出力ステップと、
前記通話に関する通話属性を取得する属性取得ステップと、
を実行させ、
前記変換ステップは、前記属性取得ステップにおいて取得した前記通話属性に基づき、前記音声取得ステップにおいて取得した前記通話音声を変換するステップを含む、
情報処理方法。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、プログラム、情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
従来、イヤホンやヘッドホンのようなユーザが主に頭部に装着して使用する音響デバイスにおいて、外部環境からの環境音(所謂ノイズ)を抑制し遮音効果を高めることが可能な音響デバイスが知られている。
特許文献1には、ユーザの状態や状況が逐次変化するような状況下においても、煩雑な操作を伴わずに、より好適な態様で音響を聴取可能とする技術が開示されている。
特許文献2には、自動で適切なノイズキャンセルフィルタを決定する技術が開示されている。
特許文献3には、突発的な環境の変化や複数の環境が交互に現れるといった環境に対応できる音声認識装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】再表2018/61491号広報
【特許文献2】特開2020-86099号公報
【特許文献3】特開2000-330587号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ユーザと顧客などの複数のユーザ間で行われる通話において、ユーザにより適した通話を実現することはできていなかった。
【0005】
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、複数のユーザ間で行われる通話において、顧客が、より適した音声でユーザと通話を実現する技術を提供することである。
【課題を解決するための手段】
【0006】
プロセッサと、記憶部とを備え、コンピュータに第1ユーザと第2ユーザとの間で行われる通話を行うプログラムであって、プログラムは、プロセッサに、第1ユーザから通話音声を取得する音声取得ステップと、音声取得ステップにおいて取得した通話音声を変換する変換ステップと、変換ステップにおいて変換された通話音声を第2ユーザへ出力する出力ステップと、通話に関する通話属性を取得する属性取得ステップと、を実行させ、変換ステップは、属性取得ステップにおいて取得した通話属性に基づき、音声取得ステップにおいて取得した通話音声を変換するステップを含む、プログラム。
【発明の効果】
【0007】
本開示によれば、複数のユーザ間で行われる通話において、顧客は、より適した音声でユーザと通話を行うことができる。
【図面の簡単な説明】
【0008】
図1】情報処理システム1の全体の構成を示す図である。
図2】サーバ10の機能構成を示すブロック図である。
図3】ユーザ端末20の機能構成を示すブロック図である。
図4】CRMシステム30の機能構成を示すブロック図である。
図5】顧客端末50の機能構成を示すブロック図である。
図6】ユーザテーブル1012のデータ構造を示す図である。
図7】組織テーブル1013のデータ構造を示す図である。
図8】通話テーブル1014のデータ構造を示す図である。
図9】音声処理テーブル1015のデータ構造を示す図である。
図10】学習用データセット1031のデータ構造を示す図である。
図11】顧客テーブル3012のデータ構造を示す図である。
図12】音声変換処理(第一実施例)の動作を示すフローチャートである。
図13】音声変換処理(第二実施例)の動作を示すフローチャートである。
図14】音声変換処理(第三実施例)の動作を示すフローチャートである。
図15】音声変換処理(第三実施例)におけるユーザ端末20の表示画面例を示した図である。
図16】コンピュータ90の基本的なハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【0009】
以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。
【0010】
<情報処理システム1の概要>
本開示における情報処理システム1は、本開示にかかる通話サービスを提供する情報処理システムである。情報処理システム1は、ユーザと顧客との間で行われる通話に関するサービスを提供するとともに、通話に関連するデータを記憶、管理するための情報処理システムである。
【0011】
<情報処理システム1の基本構成>
情報処理システム1は、ネットワークNを介して接続された、サーバ10、複数のユーザ端末20A、20B、20C、CRMシステム30、音声サーバ(PBX)40、および、音声サーバ(PBX)40に対して電話網Tを介して接続された顧客端末50A、50B、50Cを備えて構成されている。
【0012】
図1は、情報処理システム1の全体の構成を示す図である。
図2は、サーバ10の機能構成を示すブロック図である。
図3は、ユーザ端末20の機能構成を示すブロック図である。
図4は、CRMシステム30の機能構成を示すブロック図である。
図5は、顧客端末50の機能構成を示すブロック図である。
【0013】
サーバ10は、ユーザと顧客との間で行われる通話に関連するデータ(通話データ)を記憶、管理するサービスを提供する情報処理装置である。
【0014】
ユーザ端末20は、サービスを利用するユーザが操作する情報処理装置である。ユーザ端末20は、例えば、据え置き型のPC(Personal Computer)、ラップトップPCでもよいし、スマートフォン、タブレット等の携帯端末であってもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
【0015】
CRMシステム30は、CRM(Customer Relationship Management、顧客関係管理)サービスを提供する事業者(CRM事業者)が管理、運営する情報処理装置である。CRMサービスとしては、SalesForce、HubSpot、Zoho CRM、kintoneなどがある。
【0016】
音声サーバ(PBX)40は、ネットワークNと電話網Tとを互いに接続することでユーザ端末20と顧客端末50との間における通話を可能とする交換機として機能する情報処理装置である。
【0017】
顧客端末50は、顧客がユーザと通話する際に操作する情報処理装置である。顧客端末50は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のPC(Personal Computer)、ラップトップPCであってもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
【0018】
各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。サーバ10、ユーザ端末20、CRMシステム30、音声サーバ(PBX)40、顧客端末50のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。
【0019】
以下、各装置の構成およびその動作を説明する。
【0020】
<サーバ10の機能構成>
サーバ10のハードウェア構成が実現する機能構成を図2に示す。サーバ10は、記憶部101、制御部104を備える。
【0021】
<サーバ10の記憶部の構成>
サーバ10の記憶部101は、アプリケーションプログラム1011、ユーザテーブル1012、組織テーブル1013、通話テーブル1014、音声処理テーブル1015、評価モデル1021、生成モデル1022、音声処理モデル1023、学習用データセット1031を備える。
図6は、ユーザテーブル1012のデータ構造を示す図である。
図7は、組織テーブル1013のデータ構造を示す図である。
図8は、通話テーブル1014のデータ構造を示す図である。
図9は、音声処理テーブル1015のデータ構造を示す図である。
図10は、学習用データセット1031のデータ構造を示す図である。
【0022】
ユーザテーブル1012は、サービスを利用する会員ユーザ(以下、ユーザ)の情報を記憶し管理するテーブルである。ユーザは、サービスの利用登録を行うことで、当該ユーザの情報がユーザテーブル1012の新しいレコードに記憶される。これにより、ユーザは本開示にかかるサービスを利用できるようになる。ユーザテーブル1012は、ユーザIDを主キーとし、ユーザID、CRMID、組織ID、ユーザ名、ユーザ属性のカラムを有するテーブルである。
【0023】
ユーザIDは、ユーザを識別するためのユーザ識別情報を記憶する項目である。
CRMIDは、CRMシステム30において、ユーザを識別するための識別情報を記憶する項目である。ユーザはCRMIDによりCRMシステム30にログインすることにより、CRMサービスの提供を受けることができる。つまり、サーバ10におけるユーザIDと、CRMシステム30におけるCRMIDが紐付けられる。
組織IDは、ユーザが所属する組織の組織IDを記憶する項目である。
ユーザ名は、ユーザの氏名を記憶する項目である。
ユーザ属性は、ユーザの年齢、性別、出身地、方言、職種(営業、カスタマーサポートなど)などのユーザの属性に関する情報を記憶する項目である。
【0024】
組織テーブル1013は、ユーザが所属する組織に関する情報を定義するテーブルである。組織は、会社、法人、企業グループ、サークル、各種団体など任意の組織、グループなどが含まれる。組織は、会社の部署(営業部、総務部、カスタマーサポート部)などのより詳細なサブグループごとに定義しても良い。組織テーブル1013は、組織IDを主キーとして、組織ID、組織名、組織属性のカラムを有するテーブルである。
【0025】
組織IDは、組織を識別するための組織識別情報を記憶する項目である。
組織名は、組織の名称を記憶する項目である。組織の名称は、会社名、法人名、企業グループ名、サークル名、各種団体名など任意の組織名、グループ名を含む。
組織属性は、組織種別(会社、企業グループ、その他団体など)、業種(不動産、金融など)などの組織の属性に関する情報を記憶する項目である。
【0026】
通話テーブル1014は、ユーザと顧客との間で行われる通話に関連する通話データを記憶し管理するテーブルである。通話テーブル1014は、通話IDを主キーとし、通話ID、ユーザID、顧客ID、通話カテゴリ、受発信種別、音声データのカラムを有するテーブルである。
【0027】
通話IDは、通話データを識別するための通話データ識別情報を記憶する項目である。
ユーザIDは、ユーザと顧客との間で行われる通話において、ユーザのユーザID(ユーザ識別情報)を記憶する項目である。
顧客IDは、ユーザと顧客との間で行われる通話において、顧客の顧客ID(顧客識別情報)を記憶する項目である。
通話カテゴリは、ユーザと顧客との間で行われた通話の種類(カテゴリ)を記憶する項目である。通話データは、通話カテゴリにより分類される。通話カテゴリには、ユーザと顧客との間で行われる通話の目的などに応じて、テレフォンオペレーター、テレマーケティング、カスタマーサポート、テクニカルサポートなどの値が記憶される。
受発信種別は、ユーザと顧客との間で行われた通話が、ユーザが発信した(アウトバウンド)ものか、ユーザが受信した(インバウンド)もののいずれかを区別するための情報を記憶する項目である。
音声データは、ユーザと顧客との間で行われた通話の音声データを記憶する項目である。音声データの形式としては、mp4、wavなど各種音声データ形式を用いることができる。また、他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。
音声データは、ユーザの音声と顧客の音声とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの音声、顧客の音声に対してそれぞれ独立した解析処理を実行することができる。
本開示において、音声データに替えて、音声情報を含む動画データを用いても構わない。また、本開示における音声データは、動画データに含まれる音声データも含む概念である。
【0028】
音声処理テーブル1015は、音声データに対して適用するエフェクト、フィルタなどの音声処理に関する情報(音声処理情報)を記憶するテーブルである。
音声処理テーブル1015は、音声処理IDを主キーとし、音声処理ID、音声処理内容のカラムを有するテーブルである。
【0029】
音声処理IDは、音声処理内容を識別するための音声処理識別情報を記憶する項目である。
音声処理内容は、音声データに対して適用する音声処理内容を記憶する項目である。他の場所に配置された音声処理を行う関数、メソッド、プログラムなどへの参照を記憶しても良い。
音声処理内容は、音声データに対して声を変えるといった音声変換処理を含む。音声変換は、音声データを男性の音声、女性の音声、特定の人物、特定のキャラクタの音声への変換処理を含む。音声変換は、音声データを、特定の感情(喜び、悲しみ、怒り、驚き、恐れ、嫌悪)の音声への変換処理を含む。音声変換は、音声データに含まれる周波数ごとの強度(音声のスペクトル構造、周波数分布)の形状を変化させる変換処理を含む。音声変換は、基本周波数、抑揚の強弱、話速を変化させる、抑揚を変化させる(大きくする、小さくする)変換処理を含む。音声変換は、音声中に含まれるフィラー(例えばえー、あのー、などの言い淀み)などを除去する処理を含む。
音声変換処理は、音声データに含まれる人物の音声成分を変換する処理を含み、人物の音声成分以外の背景雑音、ノイズ、騒音などの音声成分を変換する処理を含まない構成としても良い。
【0030】
評価モデル1021は、ユーザ属性、顧客属性、通話カテゴリ、受発信種別などの通話属性、音声データを入力データとして、評価指標値を出力(推論)する学習モデルである。
評価モデル1021は、単一の学習モデルである必要はなく、出力する評価指標の種別(評価種別)ごとに複数の独立した学習モデルを切り替えて実現しても良い。例えば、評価モデル1021は、出力する評価指標の種類(第1指標、第2指標など)に応じて、異なる複数の独立した学習モデルを含む。
評価モデルの一例として、SIIB(Speech intelligibility in bits)モデル(以下、第1モデル)がある。音声データを第1モデルに適用することによりSIIBスコア(以下、第1指標)が得られる。SIIBスコアについては、arXiv:2104.08499などに記載されており、音声データを入力データとして聞き手側の聴きやすさ(知覚しやすさ)に関する定量的な評価指標である。
評価モデルは、例えば、HASPI(Hearing-aid speech index)、ESTOI(Extended short-time bojective intelligibility)、PESQ(Perceptual evaluation of speech quality)、ViSQOL(Virtual speech quality objective listener)などの評価指標に応じて用意しても構わない。
その他、通話属性、音声データを入力データとして、特に聞き手側におけるアンケートなどの評価結果を教師データとして、任意の機械学習、深層学習、人工知能モデルなどを構築しても構わない。例えば、アンケートなどの評価結果としては、信頼性、信用性、心地良さ、快適性、好み、ストレス値、威圧度、興趣性などの項目を含んでも構わない。つまり、通話属性、音声データを入力データとして、聞き手側における信頼性、信用性、心地良さ、快適性、好み、ストレス値、威圧度、興趣性などの評価指標を出力する学習モデルとしても良い。
【0031】
生成モデル1022は、通話属性、音声データを入力データとして、変換音声データを出力(推論)する学習モデルである。
生成モデル1022の学習処理は、後述する。
生成モデル1022は、単一の学習モデルである必要はなく、通話属性、評価種別ごとに複数の独立した学習モデルを切り替えて実現しても良い。具体的には、生成モデル1022は、入力する通話属性、出力する評価種別ごとに複数の独立した学習モデルを含んでも構わない。
例えば、生成モデル1022は、通話属性のそれぞれの組み合わせに応じて、適した変換音声データを出力する複数の生成モデルを選択的に切り替えて実現しても良い。
例えば、生成モデル1022は、第1指標、第2指標などの複数の評価指標のそれぞれに対して、適した変換音声データを出力する第1生成モデル、第2生成モデルなどを選択的に切り替えて実現しても良い。
【0032】
音声処理モデル1023は、通話属性、音声データを入力データとして、音声処理IDを出力(推論)する学習モデルである。
音声処理モデル1023の学習処理は、後述する。
音声処理モデル1023は、単一の学習モデルである必要はなく、通話属性、評価種別ごとに複数の独立した学習モデルを切り替えて実現しても良い。具体的には、音声処理モデル1023は、入力する通話属性、出力する評価種別ごとに複数の独立した学習モデルを含んでも構わない。
例えば、音声処理モデル1023は、通話属性のそれぞれの組み合わせに応じて、適した変換音声データを出力する複数の音声処理モデルを選択的に切り替えて実現しても良い。
例えば、音声処理モデル1023は、第1指標、第2指標などの複数の評価指標のそれぞれに対して、適した変換音声データを出力する第1音声処理モデル、第2音声処理モデルなどを選択的に切り替えて実現しても良い。
【0033】
評価モデル1021、生成モデル1022、音声処理モデル1023は、例えば機械学習、人工知能、深層学習モデルなどの一種である。
評価モデル1021、生成モデル1022、音声処理モデル1023の一例として、深層学習におけるディープニューラルネットワークによる深層学習モデルを説明する。深層学習モデルは、RNN(Recurrent Neural Network)、LSTM(Long Short Term Memory)、GRU(Gated Recurrent Unit)など、任意の時系列データを入力データとする深層学習モデルであればどのような学習モデルであっても構わない。学習モデルは、例えば、Attention、Transformerなどを含む任意の深層学習モデルを含む。
評価モデル1021、生成モデル1022、音声処理モデル1023は、深層学習モデルである必要は必ずしもなく、任意の機械学習、人工知能モデルでも良い。
【0034】
学習用データセット1031は、生成モデル1022の学習処理に用いられるデータセットを記憶するテーブルである。学習用データセット1031は、通話データにおけるユーザに関する属性情報、顧客に関する属性情報、通話に関する属性情報が関連付けて記憶された機械学習、深層学習などの学習処理に用いられるデータセットである。
学習用データセット1031は、ユーザおよび顧客の間で行われた過去の通話データが記憶される通話テーブル1014、ユーザテーブル1012、組織テーブル1013、顧客テーブル3012などを組み合わせて作成しても良い。
学習用データセット1031は、ユーザに関する属性情報、顧客に関する属性情報、通話に関する属性情報、音声データ、第1指標、第2指標、第3指標のカラムを有するテーブルである。
【0035】
ユーザに関する属性情報は、通話データにおける、ユーザのユーザ属性、ユーザの所属する組織の組織名または組織属性の情報を記憶する項目である。ユーザに関する属性情報は、通話データにおけるユーザの感情(喜び、悲しみ、怒り、驚き、恐れ、嫌悪)に関する情報(感情情報)を含んでも良い。
顧客に関する属性情報は、通話データにおける、顧客の顧客属性、顧客の所属する組織の組織名または組織属性の情報を記憶する項目である。顧客に関する属性情報は、通話データにおける顧客の感情情報を含んでも良い。
通話に関する属性情報は、通話データにおける、通話カテゴリ、受発信者種別の情報を記憶する項目である。通話に関する属性情報は、通話データにおけるユーザおよび顧客の感情情報を含んでも良い。
音声データは、ユーザと顧客との間で行われた通話の音声データを記憶する項目である。通話テーブル1014の音声データと同様であるため説明を省略する。
【0036】
<サーバ10の制御部の構成>
サーバ10の制御部104は、ユーザ登録制御部1041、音声変換部1042、学習部1051を備える。制御部104は、記憶部101に記憶されたアプリケーションプログラム1011を実行することにより、各機能ユニットが実現される。
【0037】
ユーザ登録制御部1041は、本開示に係るサービスの利用を希望するユーザの情報をユーザテーブル1012に記憶する処理を行う。
ユーザテーブル1012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに入力しサーバ10へ送信する。サーバ10のユーザ登録制御部1041は、受信した情報をユーザテーブル1012の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル1012に記憶されたユーザはサービスを利用することができるようになる。
ユーザ登録制御部1041によるユーザ情報のユーザテーブル1012への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザIDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはサーバ10のユーザ登録制御部1041が自動的に任意の文字列または数字を設定しても良い。
【0038】
音声変換部1042は、音声変換処理(第一実施例)、音声変換処理(第二実施例)、音声変換処理(第三実施例)、音声変換処理(第四実施例)を実行する。詳細は後述する。
学習部1051は、学習処理を実行する。詳細は後述する。
【0039】
<ユーザ端末20の機能構成>
ユーザ端末20のハードウェア構成が実現する機能構成を図3に示す。ユーザ端末20は、記憶部201、制御部204、ユーザ端末20に接続された入力装置206、出力装置208を備える。入力装置206は、カメラ2061、マイク2062、位置情報センサ2063、モーションセンサ2064、キーボード2065、マウス2066を含む。出力装置208は、ディスプレイ2081、スピーカ2082を含む。
【0040】
<ユーザ端末20の記憶部の構成>
ユーザ端末20の記憶部201は、ユーザ端末20を利用するユーザを識別するためのユーザID2011、アプリケーションプログラム2012、CRMID2013を記憶する。
ユーザIDは、サーバ10に対するユーザのアカウントIDである。ユーザは、ユーザ端末20からユーザID2011を、サーバ10へ送信する。サーバ10は、ユーザID2011に基づきユーザを識別し、本開示にかかるサービスをユーザに対して提供する。なお、ユーザIDには、ユーザ端末20を利用しているユーザを識別するにあたりサーバ10から一時的に付与されるセッションIDなどの情報を含む。
CRMIDは、CRMシステム30に対するユーザのアカウントIDである。ユーザは、ユーザ端末20からCRMID2013を、CRMシステム30へ送信する。CRMシステム30は、CRMID2013に基づきユーザを識別し、CRMサービスをユーザに対して提供する。なお、CRMID2013には、ユーザ端末20を利用しているユーザを識別するにあたりCRMシステム30から一時的に付与されるセッションIDなどの情報を含む。
アプリケーションプログラム2012は、記憶部201に予め記憶されていても良いし、通信IFを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。アプリケーションプログラム2012は、ユーザ端末20に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
【0041】
<ユーザ端末20の制御部の構成>
ユーザ端末20の制御部204は、入力制御部2041および出力制御部2042を備える。制御部204は、記憶部201に記憶されたアプリケーションプログラム2012を実行することにより、入力制御部2041、出力制御部2042の機能ユニットが実現される。
ユーザ端末20の入力制御部2041は、ユーザ端末20に接続されたカメラ2061、マイク2062、位置情報センサ2063、モーションセンサ2064、キーボード2065、マウス2066などの入力装置から出力される情報を取得し各種処理を実行する。ユーザ端末20の入力制御部2041は、入力装置206から取得した情報をユーザID2011とともにサーバ10へ送信する処理を実行する。同様に、ユーザ端末20の入力制御部2041は、入力装置206から取得した情報をCRMID2013とともにCRMシステム30へ送信する処理を実行する。
ユーザ端末20の出力制御部2042は、入力装置206に対するユーザによる操作およびサーバ10、CRMシステム30から情報を受信し、ユーザ端末20に接続されたディスプレイ2081の表示内容、スピーカ2082の音声出力内容の制御処理を実行する。
【0042】
<CRMシステム30の機能構成>
CRMシステム30のハードウェア構成が実現する機能構成を図4に示す。CRMシステム30は、記憶部301、制御部304を備える。
ユーザは、別途CRM事業者とも契約を締結しており、ユーザごとに設定されたCRMID2013を用いてCRM事業者が運営するウェブサイトへウェブブラウザなどを介してアクセス(ログイン)することにより、CRMサービスの提供を受ける事ができる。
【0043】
<CRMシステム30の記憶部の構成>
CRMシステム30の記憶部301は、顧客テーブル3012、を備える。
図11は、顧客テーブル3012のデータ構造を示す図である。
【0044】
顧客テーブル3012は、顧客情報を記憶し管理するためのテーブルである。顧客テーブル3012は、顧客IDを主キーとし、顧客ID、ユーザID、氏名、電話番号、顧客属性、顧客組織名、顧客組織属性のカラムを有するテーブルである。
【0045】
顧客IDは、顧客を識別するための顧客識別情報を記憶する項目である。
ユーザIDは、顧客に紐付けられたユーザのユーザID(ユーザ識別情報)を記憶する項目である。ユーザは、自身のユーザIDに紐付けられた顧客を一覧表示したり、顧客に対して発信(架電)することができる。
本開示において、顧客はユーザに対して紐付けられるものとしたが、組織(組織テーブル1013の組織ID)に対して紐付けても良い。その場合、組織に所属するユーザは、自身の組織IDに紐付けられた顧客を一覧表示したり、顧客に対して発信することができる。
氏名は、顧客の氏名を記憶する項目である。
電話番号は、顧客の電話番号を記憶する項目である。
ユーザは、CRMシステムが提供するウェブサイトにアクセスし、電話を発信したい顧客を選択し「発信」などの所定の操作を行なうことにより、ユーザ端末20から顧客の電話番号に対して電話を発信することができる。
顧客属性は、顧客の年齢、性別、出身地、方言、職種(営業、カスタマーサポートなど)などの顧客の属性に関する情報を記憶する項目である。
顧客組織名は、顧客の所属する組織の名称を記憶する項目である。組織の名称は、会社名、法人名、企業グループ名、サークル名、各種団体名など任意の組織名、グループ名を含む。
顧客組織属性は、顧客の組織種別(会社、企業グループ、その他団体など)、業種(不動産、金融など)などの組織の属性に関する情報を記憶する項目である。
顧客属性、顧客組織名、顧客組織属性は、ユーザが入力することにより記憶する構成としても良いし、所定のウェブサイトへ顧客がアクセスすることにより、顧客に入力させても良い。
【0046】
<CRMシステム30の制御部の構成>
CRMシステム30の制御部304は、ユーザ登録制御部3041を備える。制御部304は、記憶部301に記憶されたアプリケーションプログラム3011を実行することにより、各機能ユニットが実現される。
【0047】
CRMシステム30は、API(Application Programming Interface)、SDK(Software Development Kit)、コードスニペッド(以下、「ビーコン」と呼ぶ)と呼ばれる機能を提供しており、ユーザは予め本開示にかかるサーバ10およびCRMシステム30についてアカウント情報などの紐付け設定を行うことにより、サーバ10の制御部104とCRMシステム30の制御部304は相互に通信し、任意の情報処理を実現することができる。
【0048】
<音声サーバ(PBX)40の概要>
音声サーバ(PBX)40は、ユーザから顧客に対する発信があった場合に、顧客端末50に対し発信(呼出し)を行う。
音声サーバ(PBX)40は、顧客からユーザに対する発信があった場合に、ユーザ端末20に対し、その旨を示すメッセージ(以下、「着信通知メッセージ」と呼ぶ)を送る。また、音声サーバ(PBX)40は、サーバ10が提供するビーコン、SDK、APIなどに着信通知メッセージを送ることができる。
【0049】
<顧客端末50の機能構成>
顧客端末50のハードウェア構成が実現する機能構成を図5に示す。顧客端末50は、記憶部501、制御部504、タッチパネル506、タッチセンシティブデバイス5061、ディスプレイ5062、マイク5081、スピーカ5082、位置情報センサ5083、カメラ5084、モーションセンサ5085を備える。
【0050】
<顧客端末50の記憶部の構成>
顧客端末50の記憶部501は、顧客端末50を利用する顧客の電話番号5011、アプリケーションプログラム5012を記憶する。
アプリケーションプログラム5012は、記憶部501に予め記憶されていても良いし、通信IFを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。アプリケーションプログラム5012は、顧客端末50に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
【0051】
<顧客端末50の制御部の構成>
顧客端末50の制御部504は、入力制御部5041および出力制御部5042を備える。制御部504は、記憶部501に記憶されたアプリケーションプログラム5012を実行することにより、入力制御部5041、出力制御部5042の機能ユニットが実現される。
顧客端末50の入力制御部5041は、ユーザによるタッチパネル506のタッチセンシティブデバイス5061への操作内容、マイク5081への音声入力、位置情報センサ5083、カメラ5084、モーションセンサ5085などの入力装置から出力される情報を取得し各種処理を実行する。
顧客端末50の出力制御部5042は、入力装置に対するユーザによる操作およびサーバ10から情報を受信し、ディスプレイ5062の表示内容、スピーカ5082の音声出力内容などの制御処理を実行する。
【0052】
<情報処理システム1の動作>
以下、情報処理システム1の各処理について説明する。
図12は、音声変換処理(第一実施例)の動作を示すフローチャートである。
図13は、音声変換処理(第二実施例)の動作を示すフローチャートである。
図14は、音声変換処理(第三実施例)の動作を示すフローチャートである。
図15は、音声変換処理(第三実施例)におけるユーザ端末20の表示画面例を示した図である。
【0053】
<用語定義>
情報処理システム1の各処理について説明するにあたり、用語を以下の通り定義する。
通話データは、ユーザと顧客との間で行われる通話に関するデータであり、通話テーブル1014の各項目に記憶されたデータを含むデータである。
通話属性は、ユーザと顧客との間で行われる通話の属性に関するデータであり、ユーザ属性、ユーザの所属する組織の組織名または組織属性、通話におけるユーザの感情に関する情報(ユーザに関する属性情報)、顧客属性、顧客の所属する組織の組織名または組織属性、通話における顧客の感情に関する情報(顧客に関する属性情報)、通話カテゴリ、受発信者種別、通話における感情に関する情報(通話に関する属性情報)などを含む。つまり、通話データは、ユーザに関する属性情報、顧客に関する属性情報、通話に関する属性情報などの通話属性により特徴づけられることになる。
本開示における通話属性は、ユーザ個人および顧客個人に関する属性情報を含み、ユーザおよび顧客の周辺環境、通話環境に関する情報は含まない。例えば、ユーザおよび顧客周辺のノイズ、騒音状況に関する情報は含まない。
【0054】
<発信処理>
発信処理は、ユーザから顧客に対し発信(架電)する処理である。
【0055】
<発信処理の概要>
発信処理は、ユーザはユーザ端末20の画面に表示された複数の顧客のうち発信を希望する顧客を選択し、発信操作を行うことにより、顧客に対して発信を行なう一連の処理である。
【0056】
<発信処理の詳細>
ユーザから顧客に発信する場合における情報処理システム1の発信処理について説明する。
【0057】
ユーザが顧客に発信する場合、情報処理システム1において以下の処理が実行される。
【0058】
ユーザはユーザ端末20を操作することにより、ウェブブラウザを起動し、CRMシステム30が提供するCRMサービスのウェブサイトへアクセスする。ユーザは、CRMサービスが提供する顧客管理画面を開くことにより自身の顧客をユーザ端末20のディスプレイ2081へ一覧表示することができる。
具体的に、ユーザ端末20は、CRMID2013および顧客を一覧表示する旨のリクエストをCRMシステム30へ送信する。CRMシステム30は、リクエストを受信すると、顧客テーブル3012を検索し、顧客ID、氏名、電話番号、顧客属性、顧客組織名、顧客組織属性などのユーザの顧客に関する情報をユーザ端末20に送信する。ユーザ端末20は、受信した顧客に関する情報をユーザ端末20のディスプレイ2081に表示する。
【0059】
ユーザは、ユーザ端末20のディスプレイ2081に一覧表示された顧客から発信を希望する顧客を押下し選択する。顧客が選択された状態で、ユーザ端末20のディスプレイ2081に表示された「発信」ボタンまたは、電話番号ボタンを押下することにより、CRMシステム30に対し電話番号を含むリクエストを送信する。リクエストを受信したCRMシステム30は、電話番号を含むリクエストをサーバ10へ送信する。リクエストを受信したサーバ10は、音声サーバ(PBX)40に対し、発信リクエストを送信する。音声サーバ(PBX)40は、発信リクエストを受信すると、受信した電話番号に基づき顧客端末50に対し発信(呼出し)を行う。
【0060】
これに伴い、ユーザ端末20は、スピーカ2082などを制御し音声サーバ(PBX)40により発信(呼出し)が行われている旨を示す鳴動を行う。また、ユーザ端末20のディスプレイ2081は、音声サーバ(PBX)40により顧客に対して発信(呼出し)が行われている旨を示す情報を表示する。例えば、ユーザ端末20のディスプレイ2081は、「呼出中」という文字を表示してもよい。
【0061】
顧客は、顧客端末50において不図示の受話器を持ち上げたり、顧客端末50のタッチパネル506に着信時に表示される「受信」ボタンなどを押下することにより、顧客端末50は通話可能状態となる。これに伴い、音声サーバ(PBX)40は、顧客端末50による応答がなされたことを示す情報(以下、「応答イベント」と呼ぶ)を、サーバ10、CRMシステム30などを介してユーザ端末20に送信する。
これにより、ユーザと顧客は、それぞれユーザ端末20、顧客端末50を用いて通話可能状態となり、ユーザと顧客との間で通話することができるようになる。具体的には、ユーザ端末20のマイク2062により集音されたユーザの音声は、顧客端末50のスピーカ5082から出力される。同様に、顧客端末50のマイク5081から集音された顧客の音声は、ユーザ端末20のスピーカ2082から出力される。
【0062】
ユーザ端末20のディスプレイ2081は、通話可能状態になると、応答イベントを受信し、通話が行われていることを示す情報を表示する。例えば、ユーザ端末20のディスプレイ2081は、「応答中」という文字を表示してもよい。
【0063】
<着信処理>
着信処理は、ユーザが顧客から着信(受電)する処理である。
【0064】
<着信処理の概要>
着信処理は、ユーザがユーザ端末20においてアプリケーションを立ち上げている場合に、顧客がユーザに対して発信した場合に、ユーザが着信する一連の処理である。
【0065】
<着信処理の詳細>
ユーザが顧客から着信(受電)する場合における情報処理システム1の着信処理について説明する。
【0066】
ユーザが顧客から着信する場合、情報処理システム1において以下の処理が実行される。
【0067】
ユーザはユーザ端末20を操作することにより、ウェブブラウザを起動し、CRMシステム30が提供するCRMサービスのウェブサイトへアクセスする。このとき、ユーザはウェブブラウザにおいて、自身のアカウントにてCRMシステム30にログインし待機しているものとする。なお、ユーザはCRMシステム30にログインしていれば良く、CRMサービスにかかる他の作業などを行っていても良い。
【0068】
顧客は、顧客端末50を操作し、音声サーバ(PBX)40に割り当てられた所定の電話番号を入力し、音声サーバ(PBX)40に対して発信する。音声サーバ(PBX)40は、顧客端末50の発信を着信イベントとして受信する。
【0069】
音声サーバ(PBX)40は、サーバ10に対し、着信イベントを送信する。具体的には、音声サーバ(PBX)40は、サーバ10に対して顧客の電話番号5011を含む着信リクエストを送信する。サーバ10は、CRMシステム30を介してユーザ端末20に対して着信リクエストを送信する。
これに伴い、ユーザ端末20は、スピーカ2082などを制御し音声サーバ(PBX)40により着信が行われている旨を示す鳴動を行う。ユーザ端末20のディスプレイ2081は、音声サーバ(PBX)40により顧客から着信があること旨を示す情報を表示する。例えば、ユーザ端末20のディスプレイ2081は、「着信中」という文字を表示してもよい。
【0070】
ユーザ端末20は、ユーザによる応答操作を受付ける。応答操作は、例えば、ユーザ端末20において不図示の受話器を持ち上げたり、ユーザ端末20のディスプレイ2081に「電話に出る」と表示されたボタンを、ユーザがマウス2066を操作して押下する操作などにより実現される。
ユーザ端末20は、応答操作を受付けると、音声サーバ(PBX)40に対し、CRMシステム30、サーバ10を介して応答リクエストを送信する。音声サーバ(PBX)40は、送信されてきた応答リクエストを受信し、音声通信を確立する。これにより、ユーザ端末20は、顧客端末50と通話可能状態となる。
ユーザ端末20のディスプレイ2081は、通話が行われていることを示す情報を表示する。例えば、ユーザ端末20のディスプレイ2081は、「通話中」という文字を表示してもよい。
【0071】
通話可能状態になると、後述する音声変換処理(第一実施例)、音声変換処理(第二実施例)、音声変換処理(第三実施例)、音声変換処理(第四実施例)が実行される。
特定の、話者および聞き手のペアごとに、音声変換処理(第一実施例)、音声変換処理(第二実施例)、音声変換処理(第三実施例)のいずれかの音声変換処理が行われる構成としても良い。音声変換処理(第四実施例)は音声変換処理(第一実施例)、音声変換処理(第二実施例)、音声変換処理(第三実施例)と同時に実行されても良い。
3人以上の通話が行われている場合には、3人のうちの任意の2人の話者および聞き手のペアの組み合わせごとに、音声変換処理(第一実施例)、音声変換処理(第二実施例)、音声変換処理(第三実施例)のいずれかの音声変換処理を実行しても構わない。つまり、3人のうちの異なる2人の話者および聞き手のペアの組み合わせごとに、異なる音声変換処理が実行されても良い。
【0072】
<変形例>
なお、ユーザが顧客との間で通話可能状態となる方法は、発信処理、着信処理に限られず、ユーザと顧客との間で通話を実現するための任意の方法を用いても構わない。例えば、サーバ10上に、ユーザと顧客との間で通話を行うためのルームとよばれる仮想的な通話空間を作成し、ユーザおよび顧客が当該ルームへユーザ端末20、顧客端末50に記憶されたウェブブラウザまたはアプリケーションプログラムを介してアクセスすることにより通話可能状態となる方法でも構わない。この場合、音声サーバ(PBX)40は不要となる。
具体的には、通話の主催者となるユーザがユーザ端末20の入力装置206を操作し、サーバ10へ通話開催に関するリクエストを送信する。サーバ10の制御部104は、リクエストを受信するとユニークなルームIDなどのルーム識別情報を発行し、ユーザ端末20へレスポンスを送信する。ユーザは、受信したルーム識別情報を、通話相手の顧客へメールなど任意の通信手段により送信する。ユーザは、ユーザ端末20の入力装置206を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室することができる。同様に、顧客は顧客端末50のタッチパネル506を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室することができる。これにより、ユーザと顧客とはルーム識別情報により関連付けられたルームとよばれる仮想的な通話空間内で、それぞれユーザ端末20、顧客端末50を介して通話を行うことができる。
ルーム識別情報を入力することにより、複数のユーザ、複数の顧客が1つのルームに入室することができる。これにより、複数のユーザと、複数の顧客とはルーム識別情報により関連付けられたルームとよばれる仮想的な通話空間内で、それぞれがユーザ端末20、顧客端末50を介して通話を行うことができる。
【0073】
<通話記憶処理>
通話記憶処理は、ユーザと顧客との間で行われる通話に関するデータを記憶する処理である。
【0074】
<通話記憶処理の概要>
通話記憶処理は、ユーザと顧客との間で通話が開始された場合に、通話に関するデータを通話テーブル1014に記憶する一連の処理である。
【0075】
<通話記憶処理の詳細>
ユーザと顧客との間で通話が開始されると、音声サーバ(PBX)40は、ユーザと顧客との間で行われる通話に関する音声データを録音し、サーバ10へ送信する。サーバ10の制御部104は、音声データを受信すると、通話テーブル1014に新たなレコードを作成し、ユーザと顧客との間で行われる通話に関するデータを記憶する。具体的に、サーバ10の制御部104は、ユーザID、顧客ID、通話カテゴリ、受発信種別、音声データの内容を通話テーブル1014に記憶する。
【0076】
サーバ10の制御部104は、発信処理または着信処理においてユーザ端末20から、ユーザのユーザID2011を取得し、新たなレコードのユーザIDの項目に記憶する。
サーバ10の制御部104は、発信処理または着信処理において電話番号に基づきCRMシステム30へ問い合わせを行なう。CRMシステム30は、顧客テーブル3012を電話番号により検索することにより、顧客IDを取得し、サーバ10へ送信する。サーバ10の制御部104は、取得した顧客IDを新たなレコードの顧客IDの項目に記憶する。
サーバ10の制御部104は、予めユーザまたは顧客ごとに設定された通話カテゴリの値を、新たなレコードの通話カテゴリの項目に記憶する。なお、通話カテゴリは、通話ごとにユーザが値を選択したり入力することにより記憶しても良い。
サーバ10の制御部104は、行われている通話がユーザにより発信したものか、顧客から発信されたものかを識別し、新たなレコードの受発信種別の項目にアウトバウンド(ユーザから発信)、インバウンド(顧客から発信)のいずれかの値を記憶する。
サーバ10の制御部104は、音声サーバ(PBX)40から受信する音声データを、新たなレコードの音声データの項目に記憶する。なお、音声データは他の場所に音声データファイルとして記憶し、通話終了後に、音声データファイルに対する参照情報(パス)を記憶するものとしても良い。また、サーバ10の制御部104は、通話終了後にデータを記憶する構成としても良い。
【0077】
<音声変換処理(第一実施例)>
音声変換処理(第一実施例)は、ユーザが発話した音声データに対して通話属性に基づき選択された生成モデル1022を適用することにより得られる変換音声データを顧客に対して出力する処理である。
これにより、顧客は、より適した音声でユーザと通話を行うことができる。
【0078】
<音声変換処理(第一実施例)の概要>
音声変換処理(第一実施例)は、ユーザと顧客とが通話可能状態となると開始される。音声変換処理(第一実施例)は、通話属性を取得し、通話属性、ユーザが発話した音声データを入力データとして生成モデル1022に入力し、出力される変換音声データを顧客に対して出力する一連の処理である。
【0079】
<音声変換処理(第一実施例)の詳細>
ステップS101において、ユーザと顧客とが通話可能状態となると音声変換処理(第一実施例)が開始される。
【0080】
ステップS102において、サーバ10の音声変換部1042は、通話に関する通話属性を取得する。
具体的に、サーバ10の音声変換部1042は、ユーザのユーザIDに基づきユーザテーブル1012のユーザIDの項目を検索し、組織IDおよびユーザ属性の項目を取得する。サーバ10の音声変換部1042は、取得した組織IDに基づき、組織テーブル1013の組織IDの項目を検索し、組織名、組織属性の項目を取得する。つまり、サーバ10の音声変換部1042は、ユーザに関する属性情報を取得する。サーバ10の音声変換部1042は、ユーザの発話音声からユーザの感情状態を推定しユーザの感情情報を、ユーザに関する属性情報として取得しても良い。
サーバ10の音声変換部1042は、顧客の顧客IDを含む照会リクエストをCRMシステム30に送信する。CRMシステム30は、受信したリクエストに含まれる顧客IDに基づき、顧客テーブル3012の顧客IDの項目を検索し、顧客属性、顧客組織名、顧客組織属性の項目を取得し、サーバ10へ送信する。サーバ10の音声変換部1042は、CRMシステム30から顧客の顧客属性、顧客組織名、顧客組織属性の項目を取得する。つまり、サーバ10の音声変換部1042は、顧客に関する属性情報を取得する。サーバ10の音声変換部1042は、顧客の発話音声から顧客の感情状態を推定し顧客の感情情報を、顧客に関する属性情報として取得しても良い。
サーバ10の音声変換部1042は、通話テーブル1014を参照し、通話記憶処理により記憶された通話データに含まれる通話カテゴリ、受発信種別の情報を取得する。サーバ10の音声変換部1042は、通話に関する通話IDに基づき、通話テーブル1014の通話IDの項目を検索し、通話カテゴリ、受発信種別の項目を取得する。つまり、サーバ10の音声変換部1042は、通話に関する属性情報を取得する。サーバ10の音声変換部1042は、ユーザおよび顧客の発話音声からユーザおよび顧客の感情状態を推定しユーザおよび顧客の感情情報を、通話に関する属性情報として取得しても良い。
【0081】
サーバ10の音声変換部1042は、ユーザに関する属性情報、顧客に関する属性情報、通話に関する属性情報の少なくともいずれか1つを通話属性として取得しても良い。例えば、ユーザに関する属性情報のみを通話属性として取得しても良い。
また、サーバ10の音声変換部1042は、ユーザ属性、ユーザの所属する組織の組織名または組織属性、ユーザの感情情報、顧客属性、顧客の所属する組織の組織名または組織属性、顧客の感情情報、通話カテゴリ、受発信者種別、通話の感情情報のいずれか1つを通話属性として取得しても良い。例えば、通話カテゴリのみを通話属性として取得しても良い。
【0082】
ステップS104において、サーバ10の音声変換部1042は、ユーザから通話音声を取得し、取得した通話音声を変換する。このとき、サーバ10の音声変換部1042は、ステップS102において取得した通話属性に基づき、取得した通話音声を変換する。サーバ10の音声変換部1042は、ステップS102において取得した通話属性および通話音声に対して生成モデル1022を適用することにより、取得した通話音声を変換する。
具体的に、サーバ10の音声変換部1042は、音声サーバ(PBX)40からユーザにより発話された音声データを逐次的に取得する。サーバ10の音声変換部1042は、ユーザにより発話後、発話された音声データをできるだけ遅延なく取得することが望ましい。
サーバ10の音声変換部1042は、取得した通話属性、音声データを入力データとして生成モデル1022に入力し、出力される変換音声データを取得する。
【0083】
サーバ10の音声変換部1042は、顧客に対して出力される変換音声データの評価指標の種別に応じて複数の生成モデル1022を選択的に切り替えて適用し、音声データを変換しても良い。
例えば、顧客からより信頼性が得られるような生成モデル1022を用いて、音声データを変換しても良い。例えば、顧客がより聴きやすい(聴き取りやすい)生成モデル1022を用いて、音声データを変換しても良い。例えば、顧客に対して、SIIB、HASPI、ESTOI、PESQ、ViSQOLなどの評価指標や、信頼性、信用性、心地良さ、快適性、好み、ストレス値、威圧度、興趣性などの評価指標が適したものとなるような生成モデル1022を用いて、音声データを変換しても良い。
【0084】
サーバ10の音声変換部1042は、ユーザに関する属性情報、顧客に関する属性情報、通話に関する属性情報の少なくともいずれか1つを通話属性として用いて、通話音声を変換しても良い。例えば、ユーザに関する属性情報のみを通話属性として用いて、通話音声を変換しても良い。
また、サーバ10の音声変換部1042は、ユーザ属性、ユーザの所属する組織の組織名または組織属性、ユーザの感情情報、顧客属性、顧客の所属する組織の組織名または組織属性、顧客の感情情報、通話カテゴリ、受発信者種別、通話の感情情報のいずれか1つを通話属性として用いて、通話音声を変換しても良い。例えば、通話カテゴリのみを通話属性として用いて、通話音声を変換しても良い。
【0085】
ステップS105において、サーバ10の音声変換部1042は、ステップS104において変換された通話音声を顧客へ出力する。サーバ10の音声変換部1042は、変換音声データを音声サーバ(PBX)40に送信する。音声サーバ(PBX)40は、受信した変換音声データを、顧客端末50に対して出力する。顧客端末50のスピーカ5082は、受信した変換音声データをユーザの通話音声として出力する。
つまり、ユーザ端末20のマイク2062により集音されたユーザの音声に関する音声データは、サーバ10の音声変換部1042により変換音声データに変換され、顧客端末50のスピーカ5082から出力される。
【0086】
<音声変換処理(第二実施例)>
音声変換処理(第二実施例)は、ユーザが発話した音声データに対して音声処理モデル1023を適用することにより特定された音声処理内容を適用した変換音声データを顧客に対して出力する処理である。
これにより、ユーザは、顧客にとってより適した音声へ変換することができる音声処理を選択することができる。
【0087】
<音声変換処理(第二実施例)の概要>
音声変換処理(第二実施例)は、ユーザと顧客とが通話可能状態となると開始される。音声変換処理(第二実施例)は、通話属性を取得し、通話属性を入力データとして音声処理モデル1023に入力し、出力される音声処理IDにより音声処理内容を選択し、ユーザが発話した音声データに対して選択された音声処理内容を適用して出力される変換音声データを顧客に対して出力する一連の処理である。
【0088】
<音声変換処理(第二実施例)の詳細>
ステップS301において、ユーザと顧客とが通話可能状態となると音声変換処理(第二実施例)が開始される。
【0089】
ステップS302において、サーバ10の音声変換部1042は、通話に関する通話属性を取得する。ステップS302は、音声変換処理(第一実施例)におけるステップS102と同様であるため説明を省略する。
【0090】
ステップS303において、サーバ10の音声変換部1042は、取得した通話属性に基づき、複数の音声処理のうち所定の音声処理を選択する。サーバ10の音声変換部1042は、ステップS302において取得した通話属性に対して音声処理モデル1023を適用することにより、所定の音声処理を選択する。
具体的には、サーバ10の音声変換部1042は、取得した通話属性を入力データとして音声処理モデル1023に入力し、出力される音声処理IDを取得する。サーバ10の音声変換部1042は、取得した音声処理IDに基づき、音声処理テーブル1015の音声処理IDの項目を検索し、音声処理内容を取得する。つまり、サーバ10の音声変換部1042は、通話属性に基づき音声処理内容を特定し選択する。
【0091】
ステップS304において、サーバ10の音声変換部1042は、ユーザから通話音声を取得し、取得した通話音声を変換する。このとき、サーバ10の音声変換部1042は、ステップS302において取得した通話属性に基づき、取得した通話音声を変換する。サーバ10の音声変換部1042は、通話音声に、ステップS302において選択された所定の音声処理を適用することにより、通話音声を変換する。
具体的に、サーバ10の音声変換部1042は、音声サーバ(PBX)40からユーザにより発話された音声データを逐次的に取得する。サーバ10の音声変換部1042は、ユーザにより発話後、発話された音声データをできるだけ遅延なく取得することが望ましい。
サーバ10の音声変換部1042は、取得した通話属性、音声データに対してステップS303において選択した音声処理内容を適用し、出力される変換音声データを取得する。
【0092】
サーバ10の音声変換部1042は、顧客に対して出力される変換音声データの評価指標の種別に応じて複数の音声処理モデル1023を選択的に切り替えて適用し、音声データを変換しても良い。
例えば、顧客からより信頼性が得られるような音声処理モデル1023を用いて、音声データを変換しても良い。例えば、顧客がより聴きやすい(聴き取りやすい)音声処理モデル1023を用いて、音声データを変換しても良い。例えば、顧客に対して、SIIB、HASPI、ESTOI、PESQ、ViSQOLなどの評価指標や、信頼性、信用性、心地良さ、快適性、好み、ストレス値、威圧度、興趣性などの評価指標が適したものとなるような音声処理モデル1023を用いて、音声データを変換しても良い。
【0093】
サーバ10の音声変換部1042は、ユーザに関する属性情報、顧客に関する属性情報、通話に関する属性情報の少なくともいずれか1つを通話属性として用いて、通話音声を変換しても良い。例えば、ユーザに関する属性情報のみを通話属性として用いて、通話音声を変換しても良い。
また、サーバ10の音声変換部1042は、ユーザ属性、ユーザの所属する組織の組織名または組織属性、ユーザの感情情報、顧客属性、顧客の所属する組織の組織名または組織属性、顧客の感情情報、通話カテゴリ、受発信者種別、通話の感情情報のいずれか1つを通話属性として用いて、通話音声を変換しても良い。例えば、通話カテゴリのみを通話属性として用いて、通話音声を変換しても良い。
【0094】
ステップS305において、サーバ10の音声変換部1042は、ステップS304において変換された通話音声を顧客へ出力する。ステップS305は、音声変換処理(第一実施例)におけるステップS105と同様であるため説明を省略する。
【0095】
<音声変換処理(第三実施例)>
音声変換処理(第三実施例)は、ユーザが発話した音声データに対して、ユーザが選択した音声処理モデル1023を適用することにより得られる変換音声データを顧客に対して出力する処理である。
これにより、ユーザの選択指示に応じて、顧客はより快適な音声でユーザとの通話を行うことができる。
【0096】
<音声変換処理(第三実施例)の概要>
音声変換処理(第三実施例)は、ユーザと顧客とが通話可能状態となると開始される。音声変換処理(第三実施例)は、ユーザは音声処理内容を選択し、ユーザが発話した音声データに対して選択された音声処理内容を適用して出力される変換音声データを顧客に対して出力する一連の処理である。
【0097】
<音声変換処理(第三実施例)の詳細>
ステップS501において、ユーザと顧客とが通話可能状態となると音声変換処理(第三実施例)が開始される。
【0098】
ステップS503において、ユーザから受け付けた選択指示に基づき、複数の音声処理のうち所定の音声処理を選択する。例えば、複数の音声処理のうち、抑揚を小さくする音声処理を選択すると、顧客に対する威圧的な印象を軽減することができる。顧客が女性である場合などには、声量の大きな音声を小さくする音声処理を選択することにより、顧客に対する威圧的な印象を軽減することができる。
ユーザは、ユーザと顧客との通話中の任意のタイミングで音声処理を選択しても構わない。また、ユーザは、通話の開始前に音声処理を予め選択しておく構成としても構わない。
具体的に、ユーザはユーザ端末20の入力装置206を操作して、適用を希望する音声処理内容に関する音声処理IDを含むリクエストをサーバ10へ送信する。サーバ10の音声変換部1042は、受信したリクエストに含まれる音声処理IDに基づき、音声処理テーブル1015の音声処理IDの項目を検索し、音声処理内容を取得する。つまり、サーバ10の音声変換部1042は、ユーザから受け付けた選択指示に基づき音声処理内容を特定し選択する。
【0099】
図15に、音声変換処理(第三実施例)におけるユーザ端末20の表示画面例を図示する。ユーザ端末20のディスプレイ2081には、通話画面80が表示される。通話画面80には、現在、通話中の顧客情報801、音声処理内容を選択するためのユーザインタフェース802が表示される。顧客情報801は、顧客に関する属性情報である、顧客に関する顧客属性、顧客の所属する組織の組織名または組織属性の情報、顧客の感情情報を含んでも良い。ユーザは、ユーザ端末20の入力装置206を操作することにより、音声処理内容に関連付けられたスイッチ803を押下することにより、複数の音声処理のうち所定の音声処理を選択する。図15では、音声処理IDがM002の音声処理内容が選択されていることが示されている。
【0100】
<変形例>
なお、ユーザは、ユーザ端末20の入力装置206を操作して、最適化したい評価指標の種別を選択する構成としても良い。具体的に、ユーザは、ユーザ端末20の入力装置206を操作して、SIIB、HASPI、ESTOI、PESQ、ViSQOLなどの評価指標や、信頼性、信用性、心地良さ、快適性、好み、ストレス値、威圧度、興趣性などの評価指標を選択しても良い。例えば、ユーザは、ユーザ端末20の入力装置206を操作して、顧客がより聴きやすい(聴き取りやすい)といった選択肢や、顧客からより信頼性が得られるといった選択肢を選択する構成としても良い。
なお、ユーザ端末20のディスプレイ2081は、ユーザが選択可能な評価指標をユーザに対して一覧して提示する構成としても良い。ユーザは、ユーザ端末20の入力装置206を操作して、一覧して提示された評価指標から最適化したい項目を選択することにより、最適化したい評価指標の種別を選択する構成としても良い。
【0101】
ユーザ端末20は、選択した評価指標の種別を含むリクエストをサーバ10に送信する。
【0102】
サーバ10の音声変換部1042は、受信したリクエストに含まれる評価指標の種別に基づき、音声処理モデル1023を選択する。具体的には、サーバ10の音声変換部1042は、受信した評価指標の種別に応じて、より大きな評価指標を得るために最適化(学習)された音声処理モデル1023を選択する。
このとき、サーバ10の音声変換部1042は、音声変換処理(第二実施例)のステップS302、ステップS303と同様に、通話に関する通話属性を取得し、取得した通話属性に基づき、複数の音声処理のうち所定の音声処理を選択する。
【0103】
また、サーバ10の音声変換部1042は、受信したリクエストに含まれる評価指標の種別に基づき、生成モデル1022を選択しても良い。具体的には、サーバ10の音声変換部1042は、受信した評価指標の種別に応じて、より大きな評価指標を得るために最適化(学習)された生成モデル1022を選択しても良い。
【0104】
つまり、ステップS503において、サーバ10の音声変換部1042は、ユーザから受け付けた選択指示に基づき、直接的に音声処理IDを受け付けて音声処理内容を特定し選択しても良いし、間接的に音声処理モデル1023を用いて音声処理IDを特定し音声処理内容を特定し選択しても良い。また、サーバ10の音声変換部1042は、ユーザから受け付けた選択指示に基づき、生成モデル1022を特定し選択しても良い。
【0105】
ステップS504において、サーバ10の音声変換部1042は、ユーザから通話音声を取得し、取得した通話音声を変換する。このとき、サーバ10の音声変換部1042は、ステップS503において選択した音声処理内容に基づき、取得した通話音声を変換する。なお、サーバ10の音声変換部1042は、ステップS503において選択した生成モデル1022に基づき、取得した通話音声を変換しても良い。
具体的に、サーバ10の音声変換部1042は、音声サーバ(PBX)40からユーザにより発話された音声データを逐次的に取得する。サーバ10の音声変換部1042は、ユーザにより発話後、発話された音声データをできるだけ遅延なく取得することが望ましい。
サーバ10の音声変換部1042は、取得した通話属性、音声データに対してステップS503において選択した音声処理内容を適用し、出力される変換音声データを取得する。また、サーバ10の音声変換部1042は、取得した通話属性、音声データに対してステップS503において選択した生成モデル1022を適用し、出力される変換音声データを取得しても良い。
【0106】
ステップS505において、サーバ10の音声変換部1042は、ステップS504において変換された通話音声を顧客へ出力する。ステップS505は、音声変換処理(第一実施例)におけるステップS105と同様であるため説明を省略する。
【0107】
<変形例>
音声変換処理(第一実施例)、音声変換処理(第二実施例)、音声変換処理(第三実施例)においては、音声変換を行うことができるのはユーザの発話音声のみとし、顧客の発話音声に対しては音声変換を行うことができない構成としても良い。
具体的には、顧客は音声処理などの選択指示を行うことができず、サーバ10の音声変換部1042は、顧客から音声処理に関する選択指示は受け付けない構成としても良い。このとき、サーバ10の音声変換部1042は、顧客の発話音声については変換せずに、ユーザに対して出力する構成としても良い。具体的には、顧客端末50のマイク5081により集音された顧客の音声に関する音声データは、サーバ10の音声変換部1042により変換されずに、ユーザ端末20のスピーカ2082から出力される。
これにより、ユーザは、顧客の音声を変換せずに顧客の音声を確認しつつ顧客との通話を行うことができる。
【0108】
<音声変換処理(第四実施例)>
音声変換処理(第四実施例)は、顧客が発話した音声データに対して、ユーザが選択した音声処理モデル1023を適用することにより得られる変換音声データをユーザに対して出力する処理である。
【0109】
<音声変換処理(第四実施例)の概要>
音声変換処理(第四実施例)は、ユーザと顧客とが通話可能状態となると開始される。音声変換処理(第四実施例)は、ユーザは音声処理内容を選択し、顧客が発話した音声データに対して選択された音声処理内容を適用して出力される変換音声データをユーザに対して出力する一連の処理である。
【0110】
<音声変換処理(第四実施例)の詳細>
ユーザと顧客とが通話可能状態となると音声変換処理(第四実施例)が開始される。
ユーザから受け付けた選択指示に基づき、複数の音声処理のうち所定の音声処理を選択する。例えば、複数の音声処理のうち、ユーザにとってより聴きやすい音声となるような所定の音声処理を選択しても良い。例えば、複数の音声処理のうち、ユーザにとってより快適性が得られるような所定の音声処理を選択しても良い。例えば、複数の音声処理のうち、ユーザの好みの音声、ストレス値が小さくなる、興趣性が高まるような所定の音声処理を選択しても良い。例えば、顧客が怒っている場合などには、ユーザは、複数の音声処理のうち、抑揚を小さくしたり、音声を小さくする音声処理を選択することにより、顧客との応対に伴う心理的ストレスを低減させることができる。
ユーザは、ユーザと顧客との通話中の任意のタイミングで音声処理を選択しても構わない。また、ユーザは、通話の開始前に音声処理を予め選択しておく構成としても構わない。
具体的に、ユーザはユーザ端末20の入力装置206を操作して、適用を希望する音声処理内容に関する音声処理IDを含むリクエストをサーバ10へ送信する。サーバ10の音声変換部1042は、受信したリクエストに含まれる音声処理IDに基づき、音声処理テーブル1015の音声処理IDの項目を検索し、音声処理内容を取得する。つまり、サーバ10の音声変換部1042は、ユーザから受け付けた選択指示に基づき音声処理内容を特定し選択する。
【0111】
<変形例>
なお、ユーザは、ユーザ端末20の入力装置206を操作して、最適化したい評価指標の種別を選択する構成としても良い。具体的に、ユーザは、ユーザ端末20の入力装置206を操作して、SIIB、HASPI、ESTOI、PESQ、ViSQOLなどの評価指標や、信頼性、信用性、心地良さ、快適性、好み、ストレス値、威圧度、興趣性などの評価指標を選択しても良い。例えば、ユーザは、ユーザ端末20の入力装置206を操作して、ユーザがより聴きやすい(聴き取りやすい)といった選択肢や、ユーザがより快適性が得られるといった選択肢を選択する構成としても良い。
なお、ユーザ端末20のディスプレイ2081は、ユーザが選択可能な評価指標をユーザに対して一覧して提示する構成としても良い。ユーザは、ユーザ端末20の入力装置206を操作して、一覧して提示された評価指標から最適化したい項目を選択することにより、最適化したい評価指標の種別を選択する構成としても良い。
ユーザ端末20は、選択した評価指標の種別を含むリクエストをサーバ10に送信する。
サーバ10の音声変換部1042は、受信したリクエストに含まれる評価指標の種別に基づき、音声処理モデル1023を選択する。具体的には、サーバ10の音声変換部1042は、受信した評価指標の種別に応じて、より大きな評価指標を得るために最適化(学習)された音声処理モデル1023を選択する。
このとき、サーバ10の音声変換部1042は、音声変換処理(第二実施例)のステップS302、ステップS303と同様に、通話に関する通話属性を取得し、取得した通話属性に基づき、複数の音声処理のうち所定の音声処理を選択する。なお、このとき、通話属性としては、音声変換処理(第二実施例)のステップS302、ステップS303と異なり、ユーザに関する属性情報と、顧客に関する属性情報とを入れ替えて適用する。音声変換処理(第四実施例)においては、顧客が音声データの話者となり、ユーザが変換音声データの聞き手となるためである。
【0112】
つまり、サーバ10の音声変換部1042は、ユーザから受け付けた選択指示に基づき、直接的に音声処理IDを受け付けて音声処理内容を特定し選択しても良いし、間接的に音声処理モデル1023を用いて音声処理IDを特定し音声処理内容を特定し選択しても良い。
【0113】
サーバ10の音声変換部1042は、顧客から通話音声を取得し、取得した通話音声を変換する。このとき、サーバ10の音声変換部1042は、選択した音声処理内容に基づき、取得した通話音声を変換する。
具体的に、サーバ10の音声変換部1042は、音声サーバ(PBX)40から顧客により発話された音声データを逐次的に取得する。サーバ10の音声変換部1042は、顧客により発話後、発話された音声データをできるだけ遅延なく取得することが望ましい。
サーバ10の音声変換部1042は、取得した通話属性、音声データに対して選択した音声処理内容を適用し、出力される変換音声データを取得する。
【0114】
サーバ10の音声変換部1042は、ステップS504において変換された通話音声をユーザへ出力する。ステップS505は、ユーザと顧客が入れ替わっていることを除き、音声変換処理(第一実施例)におけるステップS105と同様であるため説明を省略する。
【0115】
<変形例>
音声変換処理(第一実施例)、音声変換処理(第二実施例)、音声変換処理(第三実施例)のそれぞれステップS104、S304、S504において、上述したユーザと顧客がルームとよばれる仮想的な通話空間内で通話を行う場合は、サーバ10の音声変換部1042は、音声サーバ(PBX)40を介さずに、サーバ10が受け付けたユーザにより発話された音声データを逐次的に取得する構成としても良い。同様に、サーバ10の音声変換部1042は、音声サーバ(PBX)40を介さずに、サーバ10が受け付けた顧客により発話された音声データを逐次的に取得する構成としても良い。
【0116】
同様に、音声変換処理(第一実施例)、音声変換処理(第二実施例)、音声変換処理(第三実施例)のそれぞれステップS105、S305、S505において、上述したユーザと顧客がルームとよばれる仮想的な通話空間内で通話を行う場合は、サーバ10の音声変換部1042は、音声サーバ(PBX)40を介さずに、変換音声データを顧客端末50に対して出力する構成としても良い。つまり、音声変換処理(第一実施例)、音声変換処理(第二実施例)、音声変換処理(第三実施例)において音声サーバ(PBX)40は必須の構成要件ではない。
【0117】
音声変換処理(第四実施例)において、上述したユーザと顧客がルームとよばれる仮想的な通話空間内で通話を行う場合は、サーバ10の音声変換部1042は、音声サーバ(PBX)40を介さずに、サーバ10が受け付けた顧客により発話された音声データを逐次的に取得する構成としても良い。同様に、サーバ10の音声変換部1042は、音声サーバ(PBX)40を介さずに、サーバ10が受け付けたユーザにより発話された音声データを逐次的に取得する構成としても良い。
【0118】
同様に、音声変換処理(第四実施例)において、上述したユーザと顧客がルームとよばれる仮想的な通話空間内で通話を行う場合は、サーバ10の音声変換部1042は、音声サーバ(PBX)40を介さずに、変換音声データをユーザ端末20に対して出力する構成としても良い。つまり、音声変換処理(第四実施例)において音声サーバ(PBX)40は必須の構成要件ではない。
【0119】
<学習処理>
生成モデル1022、音声処理モデル1023の学習処理を以下に説明する。なお、以下の学習処理は特定の評価指標(例えば、第1指標)に対する学習処理に関するもので、複数の評価指標を用いる場合は、第1指標、第2指標などの評価種別ごとに用意された複数の生成モデル1022、音声処理モデル1023のそれぞれに対して学習処理が行われる。
【0120】
<生成モデル1022の学習処理>
生成モデル1022の学習処理は、生成モデル1022に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
【0121】
<生成モデル1022の学習処理の概要>
生成モデル1022の学習処理は、ユーザに関する属性情報、顧客に関する属性情報、通話に関する属性情報、音声データを入力データ(入力ベクトル)として、より大きな評価指標が得られる変換音声データを出力するように、生成モデル1022に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
【0122】
<生成モデル1022の学習処理の詳細>
サーバ10の学習部1051は、通話属性、音声データの各項目を学習用データセット1031から取得する。サーバ10の学習部1051は、通話属性、音声データを入力データとして、生成モデル1022に含まれるディープニューラルネットワークの学習パラメータを変化させながら適用し、複数の変換音声データを生成する。
このとき、サーバ10の学習部1051は、通話属性として、ユーザに関する属性情報、顧客に関する属性情報、通話に関する属性情報の少なくとも1つを入力データに含めて、それ以外を除外して学習処理を実行しても構わない。サーバ10の学習部1051は、通話属性として、ユーザ属性、ユーザの所属する組織の組織名または組織属性、ユーザの感情情報、顧客属性、顧客の所属する組織の組織名または組織属性、顧客の感情情報、通話カテゴリ、受発信者種別、通話の感情情報のいずれか1つを入力データに含めて、それ以外を除外して学習処理を実行しても構わない。
サーバ10の学習部1051は、通話属性、音声データを入力データとして、評価モデル1021に適用することにより、複数の変換音声データのそれぞれに対する聞き手側における評価指標が得られる。サーバ10の学習部1051は、より大きな評価指標が得られるように生成モデル1022に含まれるディープニューラルネットワークの学習パラメータを最適化する。
これにより、通話属性、音声データを入力データとして、より大きな評価指標が得られる変換音声データを出力するような生成モデル1022を得ることができる。
【0123】
サーバ10の学習部1051は、生成モデル1022をGAN(Generative Adversarial Network、敵対的生成ネットワーク)などの任意の学習モデルとして構成しても良い。
【0124】
<音声処理モデル1023の学習処理>
音声処理モデル1023の学習処理は、音声処理モデル1023に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
【0125】
<音声処理モデル1023の学習処理の概要>
音声処理モデル1023の学習処理は、ユーザ属性、顧客属性、通話カテゴリ、受発信種別などの通話属性を入力データ(入力ベクトル)として、より大きな評価指標が得られる音声処理内容を出力するように、音声処理モデル1023に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
具体的には、音声処理モデル1023の学習処理における音声処理モデル1023は、通話属性を入力データ(入力ベクトル)として、より大きな評価指標が得られる音声処理テーブル1015における音声処理IDを出力する学習モデルである。
【0126】
<音声処理モデル1023の学習処理の詳細>
サーバ10の学習部1051は、学習用データセット1031に含まれる通話属性に関連づけられた音声データに対して、音声処理テーブル1015に格納されている音声処理内容をそれぞれ適用した複数の音声処理データを生成する。
サーバ10の学習部1051は、通話属性を入力データとして、当該通話属性に関連付けられた複数の音声処理データを評価モデル1021に適用することにより、複数の音声処理データのそれぞれに対する評価指標が得られる。サーバ10の学習部1051は、より大きな評価指標が得られるような音声処理IDを得られるように、音声処理モデル1023に含まれるディープニューラルネットワークの学習パラメータを最適化する。
これにより、通話属性を入力データとして、より大きな評価指標が得られる音声処理IDを出力するような音声処理モデル1023を得ることができる。
【0127】
なお、音声処理モデル1023の学習処理においては、入力データ(入力ベクトル)に通話属性に加えて音声データを含めても構わない。
【0128】
<コンピュータの基本ハードウェア構成>
図16は、コンピュータ90の基本的なハードウェア構成を示すブロック図である。コンピュータ90は、プロセッサ901、主記憶装置902、補助記憶装置903、通信IF991(インタフェース、Interface)を少なくとも備える。これらは通信バス921により相互に電気的に接続される。
【0129】
プロセッサ901とは、プログラムに記述された命令セットを実行するためのハードウェアである。プロセッサ901は、演算装置、レジスタ、周辺回路等から構成される。
【0130】
主記憶装置902とは、プログラム、及びプログラム等で処理されるデータ等を一時的に記憶するためのものである。例えば、DRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
【0131】
補助記憶装置903とは、データ及びプログラムを保存するための記憶装置である。例えば、フラッシュメモリ、HDD(Hard Disc Drive)、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
【0132】
通信IF991とは、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。
ネットワークは、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
【0133】
なお、各ハードウェア構成の全部または一部を複数のコンピュータ90に分散して設け、ネットワークを介して相互に接続することによりコンピュータ90を仮想的に実現することができる。このように、コンピュータ90は、単一の筐体、ケースに収納されたコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。
【0134】
<コンピュータ90の基本機能構成>
コンピュータ90の基本ハードウェア構成(図16)により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。
【0135】
なお、コンピュータ90が備える機能ユニットは、それぞれの機能ユニットの全部または一部を、ネットワークで相互に接続された複数のコンピュータ90に分散して設けても実現することができる。コンピュータ90は、単一のコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。
【0136】
制御部は、プロセッサ901が補助記憶装置903に記憶された各種プログラムを読み出して主記憶装置902に展開し、当該プログラムに従って処理を実行することにより実現される。制御部は、プログラムの種類に応じて様々な情報処理を行う機能ユニットを実現することができる。これにより、コンピュータは情報処理を行う情報処理装置として実現される。
【0137】
記憶部は、主記憶装置902、補助記憶装置903により実現される。記憶部は、データ、各種プログラム、各種データベースを記憶する。また、プロセッサ901は、プログラムに従って記憶部に対応する記憶領域を主記憶装置902または補助記憶装置903に確保することができる。また、制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶されたデータの追加、更新、削除処理を実行させることができる。
【0138】
データベースは、リレーショナルデータベースを指し、行と列によって構造的に規定された表形式のテーブル、マスタと呼ばれるデータ集合を、互いに関連づけて管理するためのものである。データベースでは、表をテーブル、マスタ、表の列をカラム、表の行をレコードと呼ぶ。リレーショナルデータベースでは、テーブル、マスタ同士の関係を設定し、関連づけることができる。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
【0139】
なお、本開示におけるデータベース、マスタは、情報が構造的に規定された任意のデータ構造体(リスト、辞書、連想配列、オブジェクトなど)を含み得る。データ構造体には、データと、任意のプログラミング言語により記述された関数、クラス、メソッドなどを組み合わせることにより、データ構造体と見なし得るデータも含むものとする。
【0140】
通信部は、通信IF991により実現される。通信部は、ネットワークを介して他のコンピュータ90と通信を行う機能を実現する。通信部は、他のコンピュータ90から送信された情報を受信し、制御部へ入力することができる。制御部は、各種プログラムに従ってプロセッサ901に、受信した情報に対する情報処理を実行させることができる。また、通信部は、制御部から出力された情報を他のコンピュータ90へ送信することができる。
【0141】
<付記>
以上の各実施形態で説明した事項を以下に付記する。
【0142】
(付記1)
プロセッサと、記憶部とを備え、コンピュータに第1ユーザと第2ユーザとの間で行われる通話を行うプログラムであって、プログラムは、プロセッサに、第1ユーザから通話音声を取得する音声取得ステップ(S104、S304)と、音声取得ステップにおいて取得した通話音声を変換する変換ステップ(S104、S304)と、変換ステップにおいて変換された通話音声を第2ユーザへ出力する出力ステップ(S105、S305)と、通話に関する通話属性を取得する属性取得ステップ(S102、S302)と、を実行させ、変換ステップは、属性取得ステップにおいて取得した通話属性に基づき、音声取得ステップにおいて取得した通話音声を変換するステップを含む、プログラム。
これにより、複数のユーザ間で行われる通話において、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0143】
(付記2)
変換ステップは、属性取得ステップにおいて取得した通話属性および音声取得ステップにおいて取得した通話音声に対して生成モデルを適用することにより、通話音声を変換するステップである、付記1記載のプログラム。
これにより、複数のユーザ間で行われる通話において、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0144】
(付記3)
プログラムは、プロセッサに、属性取得ステップにおいて取得した通話属性に基づき、複数の音声処理のうち所定の音声処理を選択する選択ステップ(S303)と、を実行させ、変換ステップは、音声取得ステップにおいて取得した通話音声に、選択ステップにおいて選択された所定の音声処理を適用することにより、通話音声を変換するステップである、付記1記載のプログラム。
これにより、複数のユーザ間で行われる通話において、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0145】
(付記4)
選択ステップは、複数の音声処理のうち、第2ユーザにとってより聴きやすい音声となるような所定の音声処理を選択するステップである、付記3記載のプログラム。
これにより、複数のユーザ間で行われる通話において、通話属性に応じて、顧客は、より聴きやすい音声でユーザと通話を行うことができる。
【0146】
(付記5)
選択ステップは、複数の音声処理のうち、第2ユーザにとってより信頼性が得られるような所定の音声処理を選択するステップである、付記3または4記載のプログラム。
これにより、複数のユーザ間で行われる通話において、通話属性に応じて、通話を通じて、ユーザは顧客に対して信頼感のある印象を与えることができる。
【0147】
(付記6)
選択ステップは、属性取得ステップにおいて取得した通話属性に対して音声処理モデルを適用することにより、所定の音声処理を選択する(S304、S504)ステップである、付記3から5のいずれか記載のプログラム。
これにより、複数のユーザ間で行われる通話において、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0148】
(付記7)
プロセッサと、記憶部とを備え、コンピュータに第1ユーザと第2ユーザとの間で行われる通話を行うプログラムであって、プログラムは、プロセッサに、第1ユーザから通話音声を取得する音声取得ステップ(S504)と、音声取得ステップにおいて取得した通話音声を変換する変換ステップ(S504)と、変換ステップにおいて変換された通話音声を第2ユーザへ出力する出力ステップ(S505)と、第1ユーザから受け付けた選択指示に基づき、複数の音声処理のうち所定の音声処理を選択する選択ステップ(S503)と、を実行させ、変換ステップは、音声取得ステップにおいて取得した通話音声に、選択ステップにおいて選択された所定の音声処理を適用することにより、通話音声を変換するステップである、プログラム。
これにより、複数のユーザ間で行われる通話において、ユーザからの選択指示に基づき、顧客は、より適した音声でユーザと通話を行うことができる。
【0149】
(付記8)
プログラムは、プロセッサに、通話に関する通話属性を取得する属性取得ステップと、を実行させ、選択ステップは、第1ユーザから評価指標の種別の選択指示を受け付けるステップと、属性取得ステップにおいて取得した通話属性および受け付けた評価指標に基づき、複数の音声処理のうち所定の音声処理を選択するステップと、を含む、付記7記載のプログラム。
これにより、複数のユーザ間で行われる通話において、ユーザから選択指示を受け付けた評価指標の種別に基づき、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0150】
(付記9)
選択ステップは、第1ユーザから最適化したい評価指標の種別の選択指示を受け付けるステップと、属性取得ステップにおいて取得した通話属性および受け付けた評価指標に基づき、複数の音声処理のうち、評価指標を最適化するような所定の音声処理を選択するステップと、を含む、付記8記載のプログラム。
これにより、複数のユーザ間で行われる通話において、ユーザから選択指示を受け付けた評価指標の種別に基づき、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0151】
(付記10)
選択ステップは、第1ユーザから評価指標の種別の選択指示を受け付けるステップと、属性取得ステップにおいて取得した通話属性および受け付けた評価指標に対して音声処理モデルを適用することにより、複数の音声処理のうち所定の音声処理を選択するステップと、を含む、付記8または9記載のプログラム。
これにより、複数のユーザ間で行われる通話において、ユーザから選択指示を受け付けた評価指標の種別に基づき、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0152】
(付記11)
音声取得ステップは、第2ユーザから第2通話音声を取得するステップを含み、選択ステップは、第2ユーザからは選択指示を受け付けることができず、変換ステップは、音声取得ステップにおいて取得した第2通話音声は変換しないステップである、付記8から10のいずれか記載のプログラム。
これにより、第2ユーザの音声を変換せずに、第1ユーザは、第2ユーザの音声を確認しつつ第2ユーザとの通話を行うことができる。
【0153】
(付記12)
属性取得ステップは、第2ユーザに関する属性情報を取得するステップを含み、変換ステップは、属性取得ステップにおいて取得した第2ユーザに関する属性情報に基づき、音声取得ステップにおいて取得した通話音声を変換するステップを含む、付記1から6、8から11のいずれか記載のプログラム。
これにより、複数のユーザ間で行われる通話において、顧客に関する属性情報に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0154】
(付記13)
属性取得ステップは、第1ユーザに関する属性情報を取得するステップを含み、変換ステップは、属性取得ステップにおいて取得した第1ユーザに関する属性情報に基づき、音声取得ステップにおいて取得した通話音声を変換するステップを含む、付記1から6、8から12のいずれか記載のプログラム。
これにより、複数のユーザ間で行われる通話において、ユーザに関する属性情報に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0155】
(付記14)
属性取得ステップは、通話に関する属性情報を取得するステップを含み、変換ステップは、属性取得ステップにおいて取得した通話に関する属性情報に基づき、音声取得ステップにおいて取得した通話音声を変換するステップを含む、付記1から6、8から13のいずれか記載のプログラム。
これにより、複数のユーザ間で行われる通話において、通話に関する属性情報に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0156】
(付記15)
属性取得ステップは、通話に関する属性情報を取得するステップを含み、変換ステップは、属性取得ステップにおいて取得した通話におけるユーザまたは顧客の感情に関する情報に基づき、音声取得ステップにおいて取得した通話音声を変換するステップを含む、付記1から6、8から14のいずれか記載のプログラム。
これにより、複数のユーザ間で行われる通話において、ユーザまたは顧客の感情情報に応じて、顧客は、より適した音声でユーザと通話を行うことができる。例えば、ユーザまたは顧客の感情状態に応じて、より適した音声でユーザと通話を行うことができる。
【0157】
(付記16)
属性取得ステップにおいて取得する通話属性は、ユーザおよび顧客の周辺環境、通話環境に関する情報は含まない、付記1から15のいずれか記載のプログラム。
これにより、複数のユーザ間で行われる通話において、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0158】
(付記17)
変換ステップは、音声取得ステップにおいて取得した通話音声のうち、人物の音声成分を変換するステップを含み、音声取得ステップにおいて取得した通話音声のうち、人物の音声成分以外の背景雑音、ノイズ、騒音などの音声成分を変換するステップを含まない、付記1から16のいずれか記載のプログラム。
これにより、複数のユーザ間で行われる通話において、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0159】
(付記18)
プログラムは、プロセッサに、第1ユーザから受け付けた第2選択指示に基づき、複数の音声処理のうち第2音声処理を選択する第2選択ステップと、を実行させ、音声取得ステップは、第2ユーザから第2通話音声を取得するステップを含み、変換ステップは、取得ステップにおいて取得した第2通話音声に、第2選択ステップにおいて選択された第2音声処理を適用することにより、第2通話音声を変換するステップを含み、出力ステップは、変換ステップにおいて変換された第2通話音声を第1ユーザへ出力するステップを含む、付記1から17のいずれか記載のプログラム。
これにより、例えば、複数の音声処理のうち、ユーザにとってより聴きやすい音声で顧客と通話を行うことができる。例えば、複数の音声処理のうち、ユーザにとってより快適性が得られるような所定の音声で顧客と通話を行うことができる。例えば、複数の音声処理のうち、ユーザの好みの音声、ストレス値が小さくなる、興趣性が高まるような所定の音声で顧客と通話を行うことができる。例えば、顧客が怒っている場合などには、ユーザは、複数の音声処理のうち、抑揚を小さくしたり、音声を小さくする音声処理を選択することにより、顧客との応対に伴う心理的ストレスを低減させることができる。
【0160】
(付記19)
プロセッサと、記憶部とを備える情報処理装置であって、プロセッサに、第1ユーザから通話音声を取得する音声取得ステップ(S104、S304)と、音声取得ステップにおいて取得した通話音声を変換する変換ステップ(S104、S304)と、変換ステップにおいて変換された通話音声を第2ユーザへ出力する出力ステップ(S105、S305)と、通話に関する通話属性を取得する属性取得ステップ(S102、S302)と、を実行させ、変換ステップは、属性取得ステップにおいて取得した通話属性に基づき、音声取得ステップにおいて取得した通話音声を変換するステップを含む、情報処理装置。
これにより、複数のユーザ間で行われる通話において、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【0161】
(付記20)
プロセッサと、記憶部とを備えるコンピュータにより実行される情報処理方法であって、プロセッサに、第1ユーザから通話音声を取得する音声取得ステップ(S104、S304)と、音声取得ステップにおいて取得した通話音声を変換する変換ステップ(S104、S304)と、変換ステップにおいて変換された通話音声を第2ユーザへ出力する出力ステップ(S105、S305)と、通話に関する通話属性を取得する属性取得ステップ(S102、S302)と、を実行させ、変換ステップは、属性取得ステップにおいて取得した通話属性に基づき、音声取得ステップにおいて取得した通話音声を変換するステップを含む、情報処理方法。
これにより、複数のユーザ間で行われる通話において、通話属性に応じて、顧客は、より適した音声でユーザと通話を行うことができる。
【符号の説明】
【0162】
1 情報処理システム、10 サーバ、101 記憶部、103 制御部、20A,20B,20C ユーザ端末、201 記憶部、204 制御部、30 CRMシステム、301 記憶部、304 制御部、50A,50B,50C 顧客端末、501 記憶部、504 制御部


図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16