IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機インフォメーションシステムズ株式会社の特許一覧

特開2024-173246情報処理システム、情報処理装置、情報処理方法、およびプログラム
<>
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図1
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図2
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図3
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図4
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図5
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図6
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図7
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図8
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図9
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図10
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図11
  • 特開-情報処理システム、情報処理装置、情報処理方法、およびプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024173246
(43)【公開日】2024-12-12
(54)【発明の名称】情報処理システム、情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20241205BHJP
   H04M 3/51 20060101ALI20241205BHJP
   H04M 3/42 20060101ALI20241205BHJP
【FI】
G10L15/10 500Z
G10L15/10 500N
G10L15/10 200W
H04M3/51
H04M3/42 P
【審査請求】有
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023091546
(22)【出願日】2023-06-02
(11)【特許番号】
(45)【特許公報発行日】2024-11-15
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1) ウェブサイトの掲載日 2023年3月22日 ウェブサイトのアドレス https://www.mdis.co.jp/report-column/professional/202303_data-analysis.html <資 料> 三菱電機インフォメーションシステムズ株式会社・ウェブサイト インタビュー記事 (2) ウェブサイトの掲載日 2023年3月22日 ウェブサイトのアドレス http://www.mitsubishielectric.co.jp/meltopia/productreport/case80.html <資 料> 2:三菱電機株式会社・ウェブサイト プロダクトレポート (3) 開催日(公開日) 2022年8月31日 集会名、公開場所 「データ分析サービス」プレゼンテーション サービス提案先:株式会社アドバンスト・メディア(東京都豊島区東池袋3-1-1) オンライン会議にて実施 (4) 開催日(公開日) 2022年9月2日 集会名、公開場所 「データ分析サービス」プレゼンテーション サービス提案先:株式会社三菱UFJ銀行(東京都千代田区丸の内二丁目7番1号) オンライン会議にて実施 (5) 開催日(公開日) 2022年11月30日 集会名、公開場所 「データ分析サービス」プレゼンテーション サービス提案先:三菱UFJ信託銀行株式会社(東京都千代田区丸の内1丁目4番5号) オンライン会議にて実施 (6) 開催日(開催日) 2022年11月30日 集会名、公開場所 「データ分析サービス」プレゼンテーション サービス提案先:三菱UFJトラストシステム株式会社(東京都港区港南二丁目9番8号) オンライン会議にて実施 (7) 開催日(公開日) 2023年2月6日 集会名、公開場所 データ分析サービスプレゼンテーション サービス提案先:三菱UFJインフォメーションテクノロジー株式会社(東京都中野区中野4-10-2) オンライン会議にて実施 (8) 開催日(公開日) 2023年4月26日 集会名、公開場所 「データ分析サービス」プレゼンテーション サービス提案先:株式会社山梨中央銀行(山梨県甲府市丸の内一丁目20番8号) オンライン会議にて実施 <資 料> 「データ分析サービス」プレゼンテーション資料
(71)【出願人】
【識別番号】394013002
【氏名又は名称】三菱電機インフォメーションシステムズ株式会社
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100206081
【弁理士】
【氏名又は名称】片岡 央
(74)【代理人】
【識別番号】100188673
【弁理士】
【氏名又は名称】成田 友紀
(74)【代理人】
【識別番号】100188891
【弁理士】
【氏名又は名称】丹野 拓人
(72)【発明者】
【氏名】田口 進也
(72)【発明者】
【氏名】白浜 広彬
(72)【発明者】
【氏名】鶴田 季丸
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201BA13
5K201BC19
5K201DC05
5K201EC06
(57)【要約】
【課題】音声データに基づくテキストデータから会話内容や文脈を把握した上で感情分析すること。
【解決手段】情報処理システムは、音声データを取得する音声データ取得部と、前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、推定された前記パターンまたは前記頻出単語のスコアを出力する出力部と、を備える。
【選択図】図3
【特許請求の範囲】
【請求項1】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、
推定された前記パターンまたは前記頻出単語のスコアを出力する出力部と、
を備える情報処理システム。
【請求項2】
前記感情値は、会話の開始から所定期間における各感情値の統計量、前記会話の終了から一定期間遡った所定期間における各感情値の統計量、または、前記会話の中で特定のキーワードが発話されたタイミングから一定期間経過した所定期間における各感情値の統計量のいずれかであり、
前記推定部は、前記感情値と、前記頻出単語を表す数値と、複数種類のパターンごと重みと、を用いて前記発話者が複数種類のうちのいずれのパターンであるかを推定する、
請求項1に記載の情報処理システム。
【請求項3】
前記テキストデータと、前記テキストデータに対応する前記感情値と、前記テキストデータに対応する会話に対する評価値との対応関係を学習することで生成された学習モデルに、前記感情値及び前記テキストデータを入力することで、前記評価値を予測する予測部と、をさらに備える
請求項1に記載の情報処理システム。
【請求項4】
前記頻出単語抽出部は、前記テキストデータと、前記テキストデータに対応する前記感情値と、を全て数値として、あるいは全てテキストとして統合する、
請求項1に記載の情報処理システム。
【請求項5】
前記音声データは、通話音声データであり、
前記出力部は、前記パターンまたは前記評価値に応じて、前記発話者と、前記発話者の通話相手とをマッチングする、
請求項3に記載の情報処理システム。
【請求項6】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、
推定された前記パターンまたは前記頻出単語のスコアを出力する出力部と、
を備える情報処理装置。
【請求項7】
情報処理装置のコンピュータが実行するための情報処理方法であって、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、
推定された前記パターンまたは前記頻出単語のスコアを出力する出力ステップと、
を有する情報処理方法。
【請求項8】
情報処理装置のコンピュータに、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、
推定された前記パターンまたは前記頻出単語のスコアを出力する出力ステップと、
実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
コールセンター業務においては、顧客満足度を向上させることに加え、オペレーターのスキルを向上させることやオペレーターのストレスの軽減などが望まれている。
例えば、特許文献1には、顧客とオペレーターとの通話の音声データを感情から数値化したものを用いて、通話を顧客の感情の評価指標のいずれかに分類する解析部と、分類の結果を提供する提供部と、を備える情報提供システムについて開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2022-154230号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、通常、コールセンター業務においては、会話内容や顧客に応じて抑揚や言葉などの話し方をオペレーターが適切に切り替える必要がある。このため、例えば会話の音声データに基づくテキストデータから会話内容や文脈を把握した上で感情分析する必要がある。
しかしながら、特許文献1に記載の技術は、顧客の感情を正しく評価するために音声データに基づくテキストデータを用いないことを前提としている。そのため、会話内容や顧客に応じて抑揚や言葉などの話し方をオペレーターが適切に切り替える必要がある。このため、会話の音声データに基づくテキストデータから会話内容や文脈を把握した上で感情分析することができないという課題があった。
【0005】
本発明の一態様は、上記の点に鑑みてなされたものであり、音声データに基づくテキストデータから会話内容や文脈を把握した上で感情分析することができる情報処理システム、情報処理装置、情報処理方法、およびプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、情報処理システムであって、音声データを取得する音声データ取得部と、前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、推定された前記パターンまたは前記頻出単語のスコアを出力する出力部と、を備える情報処理システムである。
【0007】
また、本発明の一態様は、情報処理装置であって、音声データを取得する音声データ取得部と、前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、推定された前記パターンまたは前記頻出単語のスコアを出力する出力部と、を備える情報処理装置である。
【0008】
また、本発明の一態様は、情報処理装置のコンピュータが実行するための情報処理方法であって、声データを取得する音声データ取得ステップと、前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、推定された前記パターンまたは前記頻出単語のスコアを出力する出力ステップと、を有する情報処理方法である。
【0009】
また、本発明の一態様は、プログラムであって、情報処理装置のコンピュータに、音声データを取得する音声データ取得ステップと、前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、推定された前記パターンまたは前記頻出単語のスコアを出力する出力ステップと、実行させるためのプログラムである。
【発明の効果】
【0010】
本発明によれば、音声データに基づくテキストデータから会話内容や文脈を把握した上で感情分析することができる。
【図面の簡単な説明】
【0011】
図1】本発明の第1の実施形態に係る情報処理システムの構成の一例を示すシステム構成図である。
図2】本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
図3】本実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。
図4】本実施形態に係る感情・単語行列、ウェイト行列、パターン行列の一例を示す説明図である。
図5】本実施形態に係る情報処理装置の記憶部が記憶するテキストデータの一例を示す図である。
図6】本実施形態に係る情報処理装置の記憶部が記憶する統合データの一例を示す図である。
図7】本実施形態に係る情報処理装置における出力表示の一例を示す図である。
図8】本実施形態に係る情報処理装置における情報処理の一例を示すフローチャートである。
図9】本発明の第2の実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。
図10】本実施形態に係る情報処理装置におけるパターン学習部が用いる学習データの一例を示す図である。
図11】本実施形態に係る情報処理装置における出力表示の一例を示す図である。
図12】本実施形態に係る情報処理装置における情報処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0012】
[第1の実施形態]
以下、図面を参照しながら本発明の各実施形態について説明する。
<情報処理システムSYSの構成>
まず、情報処理システムSYSの構成について説明する。
【0013】
図1は、本発明の第1の実施形態に係る情報処理システムSYSの構成の一例を示すシステム構成図である。
情報処理システムSYSは、情報処理装置100と、通話端末装置200と、を含んで構成される。情報処理装置100と、通話端末装置200とは、ネットワークNWを介して相互に通信可能に接続される。
【0014】
情報処理システムSYSについてより詳細に説明する。
【0015】
情報処理システムSYSは、コールセンターにおける顧客とオペレーターとの通話における音声データから、複数人(例えば、顧客およびオペレーター)の複数の感情を表す複数の感情値を抽出し、音声データに対する音声認識によって得られたテキストデータから頻出単語などを抽出することで、会話内容(通話内容)や文脈を解析し、感情値と、頻出単語とに基づいて、会話や発話者(例えばオペレーター)が複数種類のいずれのパターンであるかを推定し、推定結果を出力するシステムである。
ここで、頻出単語には、単一の単語と複数の単語からなる句(フレーズ)とが含まれるものとする。なお、頻出単語には、単一の単語または複数の単語からなる句のいずれかのみであってもよい。
【0016】
より具体的には、情報処理システムSYSは、音声データを取得し、音声データにおける発話者の感情を表す複数の感情値と、発話者による発話内容を表すテキストデータを、音声認識により音声データから発話者ごとに抽出する。また、情報処理システムSYSは、テキストデータに含まれる一つまたは複数の頻出単語を抽出し、頻出単語と、感情値と基づいて、発話者が複数種類のうちのいずれのパターンであるかを推定し、推定されたパターンを出力する。
【0017】
この構成により、情報処理システムSYSは、音声データに基づくテキストデータから抽出した頻出単語から会話における文脈を把握し、頻出単語と感情値とに応じたパターンを推定することができるため、会話に応じた感情分析を行うことができる。
【0018】
情報処理装置100は、通話の音声データを取得し、音声データから、所定期間、例えば、会話の開始から1分間における発話者ごと(例えば、オペレーターと顧客)の感情を表す感情値を複数抽出する。感情は、例えば、喜、怒、哀、楽、共感、親切、誠実などの通話において顧客あるいはオペレーターが抱く感情である。感情値は、上述の感情の度合を示す数値である。
【0019】
なお、感情は、顧客あるいはオペレーターが抱く感情であればこれらに限定されず、いずれの感情を用いてもよい。
なお、音声データから会話の感情値を抽出する所定期間は、会話の終了から一定期間遡った期間であってもよい。あるいは、会話の中で特定のキーワードが発話されたタイミングから一定期間が所定期間であってもよい。
【0020】
また、情報処理装置100は、音声認識により、音声データから会話のテキストデータを抽出する。当該テキストデータは、感情値を抽出した音声データと対応するテキストデータである。
情報処理装置100は、テキストデータから頻出単語を抽出することで、会話内容や文脈を把握する。情報処理装置100は、頻出単語と、感情値とを用いて、会話が複数種類のパターンのいずれであるかを推定する。情報処理装置100は、推定結果を出力する。
【0021】
通話端末装置200は、通話に用いられる端末装置である。なお、通話端末装置200は、電話機、スマートフォン、通話アプリケーション、チャットツールなどであってもよいし、音声データを記録可能なレコーダ、カメラなどであってもよい。本実施形態では、通話端末装置200は、オペレーターによって顧客との通話に利用される端末装置である。通話端末装置200は、顧客と通話する機能、当該通話を記録する機能を有する。
【0022】
なお、本実施形態では、コールセンターにおける通話を一例として説明するが、対面、オンラインなどにおける複数人による会話であれば、いずれにも適用可能である。
【0023】
次いで、情報処理装置100のハードウェア構成について説明する。
【0024】
<ハードウェア構成>
図2は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
情報処理装置100は、CPU101と、記憶媒体インタフェース部102と、記憶媒体103と、入力装置104と、出力装置105と、ROM106(Read Only Memory)と、RAM107(Random Access Memory)と、補助記憶部108と、ネットワークインタフェース部109と、を備える。CPU101と、記憶媒体インタフェース部102と、入力装置104と、出力装置105と、ROM106と、RAM107と、補助記憶部108と、ネットワークインタフェース部109とは、バスを介して相互に接続される。
【0025】
なお、ここで言うCPU101は、プロセッサ一般のことを示すものであって、狭義のいわゆるCPUと呼ばれるデバイスのことだけではなく、例えばGPUやDSP等も含む。また、ここで言うCPU101は、一つのプロセッサで実現されることに限られず、同じ、または異なる種類の複数のプロセッサを組み合わせることで実現されてもよい。
【0026】
<CPU101>
CPU101は、補助記憶部108、ROM106およびRAM107が記憶するプログラムを読み出して実行し、また、補助記憶部108、ROM106およびRAM107が記憶する各種データを読み出し、補助記憶部108、RAM107に対して各種データを書き込むことにより、情報処理装置100を制御する。また、CPU101は、記憶媒体インタフェース部102を介して記憶媒体103が記憶する各種データを読み出し、また、記憶媒体103に各種データを書き込む。
【0027】
<記憶媒体103>
記憶媒体103は、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどの可搬記憶媒体であり、各種データを記憶する。
【0028】
<記憶媒体インタフェース部102>
記憶媒体インタフェース部102は、記憶媒体103の読み書きを行うインタフェースである。
【0029】
<入力装置104>
入力装置104は、マウス、キーボード、タッチパネル、マイク、音量調整ボタン、電源ボタン、設定ボタン、赤外線受信部などの入力装置である。
【0030】
<出力装置105>
出力装置105は、表示部、スピーカなどの出力装置である。
【0031】
<ROM106、RAM107>
ROM106、RAM107は、情報処理装置100の各機能部を動作させるためのプログラムや各種データを記憶する。
【0032】
<補助記憶部108>
補助記憶部108は、ハードディスクドライブ、フラッシュメモリなどであり、情報処理装置100の各機能部を動作させるためのプログラム、各種データを記憶する。
【0033】
<ネットワークインタフェース部109>
ネットワークインタフェース部109は、通信インタフェースを有し、無線通信によりネットワークNWに接続される。
【0034】
例えば、情報処理装置100のCPU101は、図3に示す機能構成における制御部15に対応する。また、情報処理装置100のROM106、RAM107、補助記憶部108、またはそれらの何れかの組み合わせは、図3に示す機能構成における記憶部12に対応する。また、情報処理装置100の入力装置104、出力装置105は、図3に示す機能構成における入力部13、出力部14に対応する。
【0035】
なお、通話端末装置200のハードウェア構成については、図示および説明を省略するが、図2に示す情報処理装置100と同様のハードウェア構成を有する。
【0036】
次いで、情報処理装置100の機能構成について説明する。
【0037】
<情報処理装置100の機能構成>
図3は、本実施形態に係る情報処理装置100の機能構成の一例を示すブロック図である。
情報処理装置100は、通信部11と、記憶部12と、入力部13と、出力部14と、制御部15と、を含んで構成される。通信部11と、記憶部12と、入力部13と、出力部14と、制御部15とは、バスを介して相互に接続される。
【0038】
<通信部11>
通信部11は、通話端末装置200と通信する機能を有する。通信部11は、通話端末装置200から受信した各種情報を制御部15に出力する。また、通信部11は、制御部15から入力される情報を、通話端末装置200に送信する。
【0039】
<記憶部12>
記憶部12は、記憶媒体、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、またはこれらの記憶媒体の任意の組み合わせによって構成される。
この記憶部12は、例えば、不揮発性メモリを用いることができる。
【0040】
記憶部12は、テキストデータ121と、統合データ122と、パターンデータ123と、を記憶する。
テキストデータ121は、音声データに対する音声認識により生成されたテキストデータである。ここで、テキストデータ121には、音声データから抽出された感情値が対応付けられたデータである。
統合データ122は、テキストデータから抽出された頻出単語と、テキストデータに対応する音声データにおける会話の感情値と、通話種別とが対応付けられたデータである。通話種別は、インバウンドコール(コールセンターへの受信)、アウトバウンドコール(コールセンターからの発信)、問い合わせ内容などの種別を識別する属性情報である。
パターンデータ123は、頻出単語と、感情値とが対応付けられた複数のモデルパターンのデータである。
【0041】
<入力部13>
入力部13は、情報処理装置100に接続されるマウス、キーボード、マイクなどの入力装置である。入力部13は、外部から入力される操作入力を受け付ける。入力部13は、操作入力に応じた操作信号を制御部15に出力する。
【0042】
<出力部14>
出力部14は、表示装置などの出力装置である。出力部14は、制御部15から出力される提示情報を出力装置、あるいは通話端末装置200などの他の装置に出力する。
【0043】
<制御部15>
制御部15は、情報処理装置100を制御する機能を有する。制御部15は、記憶部12に記憶された各種データ、アプリケーション、プログラムなどを読み出して情報処理装置100を制御する。
【0044】
より詳細に制御部15の処理について説明する。
制御部15は、音声データ取得部151と、テキストデータ抽出部152と、感情・テキスト統合部153と、パターン推定部154と、パターン出力部155と、を含んで構成される。
【0045】
<音声データ取得部151>
音声データ取得部151は、通話端末装置200からネットワークNWおよび通信部11を介して音声データを取得する。音声データ取得部151は、音声データをテキストデータ抽出部152に出力する。
【0046】
<テキストデータ抽出部152>
テキストデータ抽出部152は、音声データ取得部151から音声データが入力されると、音声データに対する音声認識によりテキストデータを抽出する。当該テキストデータは、通話の開始から所定期間、例えば、1分間の音声データに対応するテキストデータである。また、当該テキストデータは、話者認識により、発話者及び発話者ごとの発話内容がテキスト化されたテキストデータである。テキストデータ抽出部152は、抽出したテキストデータを、通話を識別する識別情報と対応付けて記憶部12に記憶させる。
また、テキストデータ抽出部152は、音声データから通話の開始から所定期間における発話者、例えば顧客およびオペレーターの複数の感情値を発話ごとに、例えば既知技術を用いて抽出する。テキストデータ抽出部152は、抽出した感情値を、テキストデータと対応付けて記憶部12に記憶させる。
ここで、話者認識は、既存の音声分離技術等を利用して、複数の発話者の音声を認識することで行う。
【0047】
なお、感情値は、所定期間における各感情値を平均化した平均値、中央値、分散値などの統計量であってもよい。
また、所定期間は、会話の終了までの期間であってもよい。また、所定期間は、会話終了時点から一定期間遡った期間であってもよい。また、所定期間は、会話中で特定キーワードが発話された時点から所定時間経過した期間であってもよい。
【0048】
<感情・テキスト統合部153>
感情・テキスト統合部153は、記憶部12からテキストデータ121を読み出し、発話ごとに、感情値とテキストデータとを統合する。具体的には、感情・テキスト統合部153は、テキストデータの発話ごとに単語(頻出単語)やフレーズを抽出し、抽出した単語やフレーズごとの重要度を、例えばTF-IDF(Term Frequency - Inverse Document Frequency)などを用いて数値化する。感情・テキスト統合部153は、発話ごとに、感情値と、頻出単語と、単語やフレーズごとの重要度などのスコアとを対応付けて記憶部12に統合データ122として記憶させる。
【0049】
<パターン推定部154>
パターン推定部154は、記憶部12から統合データ122を読み出し、感情と単語のパターンを抽出する。具体的には、パターン推定部154は、統合データ122の感情値及び単語のスコアを抽出し、感情・単語行列として定義する。パターン推定部154は、感情・単語行列をウェイト行列とパターン行列とに分解する。ウェイト行列とパターン行列とへの分解は、例えば、特異値分解、非負値行列因子分解、ニューラルネットワークなどを用いる。パターン推定部154は、パターン推定結果として、感情・単語行列、ウェイト行列、パターン行列を対応付けて記憶部12に記憶させる。
【0050】
本実施形態では、ウェイト行列とパターン行列とへの分解に、例えば、非負値行列因子分解を用いる。このようにすることで、ウェイト行列とパターン行列とに分解した行列の値がすべて非負であるため、分解した結果として得られるパターン行列とウェイト行列とが直感的に理解し易くすることができる。
【0051】
また、パターン推定部154は、行列分解のような線形アルゴリズムに限らず、k近傍法やUMAP(Uniform Manifold Approximation and Projection)、t-SNE(t-distributed stochastic neighbor embedding)などの非線形アルゴリズムや、それらの組み合わせによって、感情と単語のパターンを抽出してもよい。
【0052】
図4を参照して説明する。
【0053】
図4は、本実施形態に係る感情・単語行列、ウェイト行列、パターン行列の説明図である。
図示する例は、オペレーター感情値(OP感情値)、カスタマー(顧客)感情値(CU感情値)、単語がそれぞれ1種類、パターン数が3である場合の一例である。
通話数Nとすると、(N×3)型の感情・単語行列は、(N×3)型のウェイト行列、(3×3)型のパターン行列に分解される。
ウェイト行列は、各通話における各パターンの重みを示す。また、ウェイト行列は、各会話においてどの感情と単語の関係が強いのかを表す。
また、パターン行列の各列は、その重みによって感情と単語の相対的な関係の強弱を示す。パターン行列の各行の値は、N個の会話における単語と感情に共通的なパターンを表す。
【0054】
なお、行列のサイズは、これに限定されたものではなく、取得できる感情値の数と単語の種類や単語数に応じて変更して可能である。また、通話種別など、単語のスコアや感情値以外の数値を用いても良い。
【0055】
<パターン出力部155>
パターン出力部155は、記憶部12からパターン推定結果を読み出し、感情・単語行列用いた感情値に対応する感情、単語のスコアに対応する単語、ウェイト行列の各重み、パターン行列の各パターン、及び過去の事例に基づくパターンデータを含む表示画像を生成する。パターン出力部155は、生成した表示画像を、出力装置あるいは通話端末装置200に出力させる。
【0056】
なお、パターン出力部155は、パターン行列の各パターンと単語のスコアに対応する単語、すなわち頻出単語のスコアとの両方を出力してもよいし、いずれか一方を出力してもよい。
【0057】
次いで、情報処理装置100の記憶部12が記憶する各種データについて説明する。
【0058】
図5は、本実施形態に係る情報処理装置100の記憶部12が記憶するテキストデータ121の一例を示す図である。
図示するテキストデータは、通話識別番号と、開始時刻と、終了時刻と、発話者と、発話内容と、感情値(A)と、感情値(B)と、感情値(C)と、が対応付けられたデータである。
通話識別番号は、通話を識別する識別情報(番号)である。
開始時刻と終了時刻とは、発話の開始時刻と発話の終了時刻とを表す時刻情報である。開始時刻と終了時刻とは、例えば音声データに含まれる時刻情報から取得される。
発話者は、話者認識により音声分離された発話者を表す。なお、発話者A、発話者Bなどのように発話者が区別できれば、「オペレーター」「カスタマー」のように、人の種別までを区別しなくてもよい。
発話内容は、発話者が発話した内容を表すテキストデータである。当該テキストデータは、音声認識により生成される。
感情値(A)、感情値(B)、感情値(C)は、予め設定された各感情を表す数値である。例えば、感情値(A)が喜びを表す数値であり、感情値(B)が怒りを表す数値のように、既知技術により音声データから発話ごとに複数の感情に応じた感情値が出力される。
図示するように、テキストデータには、発話者ごとの発話内容と、発話内容ごとの複数の感情値とが対応付けられている。
【0059】
図6は、本実施形態に係る情報処理装置100の記憶部12が記憶する統合データ122の一例を示す図である。
図示する統合データは、通話識別番号と、オペレーター単語重要度と、カスタマー単語重要度と、オペレーター感情値と、カスタマー感情値とが対応付けられたデータである。
なお、統合データには、通話種別が対応付けられていてもよい。
通話識別番号は、通話を識別する識別情報である。
オペレーター単語重要度は、オペレーターの発話内容から抽出された単語のスコアを表す。オペレーター単語重要度には、例えば、単語重要度が高い順に所定数の単語が、当該単語ごとの重要度と対応付けられた数値として表される。
カスタマー単語重要度は、カスタマーの発話内容から抽出された単語のスコアを表す。カスタマー単語重要度には、例えば、単語重要度が高い順に所定数の単語(頻出単語)が、当該単語ごとの重要度と対応付けられた数値として表される。
オペレーター感情値、カスタマー感情値は、オペレーター、カスタマーの発話内容から抽出された感情を表す感情値である。
【0060】
なお、統合データは、数値化して統合データを生成する場合の一例について説明したが、感情値をテキスト化することで統合データを生成してもよい。
【0061】
次いで、情報処理装置100の出力部14の出力例について説明する。
【0062】
図7は、本実施形態に係る情報処理装置100における出力表示の一例を示す図である。
図示する出力表示は、パターンが3種類である場合に、パターン出力部155によって生成された表示画像を出力装置に出力した場合の一例である。
例えば、音声データからオペレーター、カスタマーのそれぞれの感情Aの感情値(A)、感情Bの感情値(B)が抽出され、当該音声データに基づく単語UUU、VVV、WWWが頻出単語として抽出され、当該頻出単語の単語重要度(単語のスコア)が抽出されていると仮定する。情報処理装置100は、感情値及び単語のスコアに応じて感情・単語行列を生成し、当該感情・単語行列をウェイト行列及びパターン行列に分解する。
表示画像には、感情・単語パターンのウェイトの表示領域と、感情・単語パターンの一覧領域と、パターン事例領域と、総合評価の領域が含まれる。
【0063】
感情・単語パターンのウェイト表示領域は、ウェイト行列の各列を読み取り、各通話におけるパターンのウェイトを表示する領域である。各パターンのウェイト(重み)の強弱(大小)により、通話内容の特徴が表現される。このようにパターンの重みを用いることで、各通話の傾向を判別したり、比較したりすることができる。図示する例では、「パターン1の重み1.5」、「パターン2の重み0.1」、「パターン3の重み0.5」のように表示される。
【0064】
感情・単語パターンの一覧領域は、パターン行列の各行の値を読み取り、パターンを各種グラフで表示する領域である。また、感情・単語パターンの一覧領域には、例えば、重要度の高い所定数の単語(ウェイト行列の値が大きい単語)を「頻出単語」として表示する領域である。
なお、単語でなく、コールセンターに重要なフレーズや、NGフレーズを表示してもよい。
【0065】
パターン事例領域は、パターンデータとして記憶部12に記憶に記憶されたパターンデータを表示する表域である。例えば、パターンデータは、スキルの高いオペレーターの感情・単語パターンと、経験が浅くスキルの低いオペレーターの感情・単語パターンが保持されていればよい。パターン出力部155は、記憶部12が記憶するパターンデータを検索し、従うべき良いパターンと、反例とすべき悪いパターンとを表示する。
これにより、例えば、オペレーターは、過去事例におけるカスタマー感情値を参照して、どのような感情で話すべきか、どのような単語を使うべきかなどを確認することができる。また、例えば、単語から通話内容を特定し、その時点でスキルの高いオペレーターの感情と比較することもできる。
【0066】
なお、パターンデータには、コールセンターや営業の対話に関連するその他の指標を紐づけた感情・単語パターンを保持しても良い。指標は、例えば、オペレーター離職率、別途SNSやWEB、アンケートなどで調査した顧客満足度などがある。これらの指標と感情・単語パターンを紐づけておくことで、どの感情・単語パターンで指標が改善するのかなどの傾向を把握することができる。
【0067】
総合評価領域は、ある通話における感情と単語とのパターンと、パターンデータとして記憶されたパターンとを比較したアドバイスを表示する領域である。
図示する例では、「評価:現在の会話内容において、パターン1が最も近いです。この通話内容において、望ましくないパターンに近いです。」「感情に関するアドバイス:声のトーンを下げるように工夫しましょう」「単語に関するアドバイス:XXXと話すことでお客様満足度が向上します」のように、頻出単語や感情値に応じて推定される会話内容が、適切な感情で会話ができているか、適切な単語が用いられているかの評価、感情を改善するためのアドバイス、満足度などのカスタマーの印象を改善するために用いるべき単語などのアドバイスなどが表示される。
【0068】
次いで、本実施形態に係る情報処理の流れについて説明する。
【0069】
図8は、本実施形態に係る情報処理装置100における情報処理の一例を示すフローチャートである。
ステップS101において、情報処理装置100は、音声データを取得する。次いで、情報処理装置100は、ステップS102の処理を実行する。
ステップS102において、情報処理装置100は、音声データから音声認識によりテキストデータを抽出する。次いで、情報処理装置100は、ステップS103の処理を実行する。
【0070】
ステップS103において、情報処理装置100は、音声データから会話ごとに複数の感情値を抽出する。その後、情報処理装置100は、ステップS104の処理を実行する。
ステップS104において、情報処理装置100は、テキストデータと感情値とを統合した統合データを生成する。具体的には、情報処理装置100は、会話ごとに単語重要度を算出し、単語重要度が高い所定数の単語と、当該単語重要度と、会話の音声データから抽出された感情値とを対応付けて統合データを生成する。その後、情報処理装置100は、ステップS105の処理を実行する。
【0071】
ステップS105において、情報処理装置100は、統合データを読み出して感情・単語行列を生成する。また、情報処理装置100は、感情・単語行列をウェイト行列、パターン行列に分解することで、会話のパターンを推定する。その後、情報処理装置100は、ステップS106の処理を実行する。
【0072】
ここで、会話のパターンを推定することには、上述した、「パターン1の重み1.5」、「パターン2の重み0.1」、「パターン3の重み0.5」のように複数のパターンに対する重みを示すことが含まれる。また、会話のパターンを推定することには、複数パターンの重みから重みの値が最大となる重みを選択し、選択した重みに基づいて、例えば、パターン1である、あるいはパターン1が強いのように推定することも含まれる。さらに、会話のパターンを推定することには、複数パターンの重みに閾値を設け、上述の例であれば閾値が0.3の場合、パターン1が強く、次にパターン3が強い等と閾値以上の重みを持つパターンから傾向を推定することも含まれる。
【0073】
ステップS106において、情報処理装置100は、推定結果を出力する。そして、情報処理装置100は、図8に係る情報処理を終了する。
【0074】
このように、本実施形態に係る情報処理システムSYSは、音声データを取得する音声データ取得部151と、音声データにおける発話者の感情を表す複数の感情値と、発話者による発話内容を表すテキストデータを、音声認識により音声データから発話者ごとに抽出する抽出部(テキストデータ抽出部152)と、テキストデータに含まれる一つまたは複数の頻出単語を抽出し、さらにテキストデータと感情値を数値、またはテキストの形式に統合し統合データを生成する頻出単語抽出部(感情・テキスト統合部153)と、頻出単語と、感情値と基づいて、発話が複数種類のうちのいずれのパターンであるかを推定する推定部(パターン推定部154)と、推定されたパターンを出力する出力部(パターン出力部155)と、を備える。
【0075】
このようにすることで、音声データに基づくテキストデータから会話内容や文脈を把握した上で感情分析することができる。また、感情値だけでなく、単語やフレーズと同時にパターンを抽出して表示することで、発話内容に応じた発話者のスキルを可視化することができる。また、模範とすべき感情や発話の傾向をフィードバックすることができるため、発話の内容に応じた発話者のスキルを向上させることができる。
【0076】
また、上記情報処理システムSYSにおいて、感情値は、会話の開始から所定期間における各感情値の平均値などの統計量であり、推定部(パターン推定部154)は、感情値と、頻出単語を表す数値と、複数種類のパターンごと重みと、を用いて発話者が複数種類のうちのいずれのパターンであるかを推定する。
【0077】
このようにすることで、会話内容の特徴が出やすい会話の開始から所定期間における感情値や感情値の平均値などの統計量を用いることができるため、会話内容に適したパターンの推定精度を向上させることができる。
【0078】
上記情報処理システムSYSにおいて、出力部(パターン出力部155)は、パターンと、頻出単語とを出力する。
【0079】
このようにすることで、どのような単語や感情で会話をすればよいかを確認することができる。
【0080】
上記情報処理システムSYSにおいて、音声データは、通話音声データであり、出力部(パターン出力部155)は、感情と単語のパターンに応じて、発話者と、発話者の通話相手と、をマッチングする。
具体的には、オペレーターに関しては、例えば「パターン1の重み1.5」、「パターン2の重み0.1」、「パターン3の重み0.5」に類似(近似)する場合に、友好的なパターンとし、「パターン1の重み1.0」、「パターン2の重み1.0」、「パターン3の重み1.0」に類似する場合に、冷静なパターンとする。
また、カスタマーに関しては、例えば「パターン1の重み1.0」、「パターン2の重み1.0」、「パターン3の重み1.0」に類似する場合に、社交的なパターンとし、「パターン1の重み1.5」、「パターン2の重み1.0」、「パターン3の重み1.0」に類似する場合に、批判的なパターンとする。
【0081】
この場合において、社交的なパターンのカスタマーに対しては、友好的なパターンのオペレーターをマッチングし、批判的なパターンのカスタマーに対しては、冷静なパターンのオペレーターをマッチングすると上記情報処理システムSYSにおいて予めマッチングパターンを定めておく。
これにより、出力部(パターン出力部155)は、カスタマーとオペレーターの性格に対するパターンを判定し、そのマッチングパターンに応じて、カスタマーとオペレーターをマッチングする。
【0082】
また、情報処理装置100は、音声データを取得する音声データ取得部151と、音声データにおける発話者の感情を表す複数の感情値と、発話者による発話内容を表すテキストデータを、音声認識により音声データから発話者ごとに抽出する抽出部(テキストデータ抽出部152)と、テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部(感情・テキスト統合部153)と、頻出単語と、感情値と基づいて、発話者が複数種類のうちのいずれのパターンであるかを推定する推定部(パターン推定部154)と、推定されたパターンを出力する出力部(パターン出力部155)と、を備える。
【0083】
このようにすることで、音声データに基づくテキストデータから会話内容や文脈を把握した上で感情分析することができる。また、感情値だけでなく、単語やフレーズと同時にパターンを抽出して表示することで、発話内容に応じた発話者のスキルを可視化することができる。また、模範とすべき感情や発話の傾向をフィードバックすることができるため、発話の内容に応じた発話者のスキルを向上させることができる。
【0084】
[第2の実施形態]
第2の実施形態では、教師あり学習により会話に関係する指標を学習する場合の一例について説明する。
ここで、第2の実施形態では、第1の実施形態と異なる部分を中心に説明し、それ以外の部分については第1の実施形態を援用し、説明を省略する。
【0085】
図9は、本発明の第2の実施形態に係る情報処理装置100の機能構成の一例を示すブロック図である。
情報処理装置100は、通信部11と、記憶部12と、入力部13と、出力部14と、制御部15と、を含んで構成される。通信部11と、記憶部12と、入力部13と、出力部14と、制御部15とは、バスを介して相互に接続される。
【0086】
<記憶部12>
記憶部12は、テキストデータ121と、統合データ122と、パターンデータ123と、指標データ124と、学習モデル125と、を記憶する。
指標データ124は、例えば、コールセンターのQA(Quality Administrator)がチェックすべき指標のデータ、経営に関する指標データなど、感情と単語を分析することによって改善すべき指標データ、それらの関連データなどである。
【0087】
QAがチェックすべき指標のデータは、例えば以下のような指標のデータである。
・応答時間(Response Time):カスタマーからの問い合わせに対するオペレーターの応答までの時間の指標。
・通話時間(Average Handling Time):カスタマーとの平均通話時間の指標。
・ファーストコール解決率(First Call Resolution Rate):カスタマーが初回の問い合わせで解決に至る割合の指標。
・顧客満足度(Customer Satisfaction):カスタマーがオペレーターの対応にどれだけ満足しているかを測る指標。
・オペレーターのコンプライアンス(Operator Compliance):オペレーターが企業や業界のルール、法遵守やプライバシー保護に沿った対応をしているかを評価する指標。
・オペレーターのスキルと知識(Operator Skills and Knowledge):オペレーターが商品やサービスに関する知識や、応対スキルを適切に使用しているかを評価する指標。
・通話品質(Call Quality):オペレーターの声の聞き取りやすさ、明瞭さ、発話すべき言い回しやフレーズ、発話すべきでない言い回しやフレーズ、発話のタイミング、など通話の品質を評価する指標。
・エスカレーション率(Escalation Rate):オペレーターが上級者やスーパーバイザーなどに問い合わせをエスカレートする割合の指標。
【0088】
また、経営に関する指標には、例えば、以下のような指標データがある。
・コストパフォーマンス(Cost Performance):オペレーションコストと顧客満足度のバランスの指標。
・オペレーターの効率(Operator Efficiency):オペレーターが効率的に業務をこなしているかを評価する指標。通話時間や待機時間、解決までの時間など。
・オペレーターの定着率(Operator Retention Rate):オペレーターがコールセンターで長期間働いている割合の指標。
【0089】
また、例えば、WEBやSNSなどから収集したデジタルマーケティングに関する指標でもよい。
・コンバージョン率(Conversion Rate):マーケティング活動によって訪問者が実際に購入や問い合わせをする割合を示す指標。
・離脱率(Bounce Rate):訪問者がサイトにアクセスした後、短時間で離脱した割合を示す指標。
クリックスルー率(Click-Through Rate):広告やメールマガジンなどのコンテンツをクリックした人数の割合を示す指標。
・ソーシャルシェア率(Social Share Rate):SNSなどでコンテンツをシェアした人数の割合を示す指標。
・リピート率(Repeat Rate):過去にサイトを訪問したことのある人が再度訪問する割合を示す指標。
ネットプロモータースコア(Net Promoter Score、NPS):カスタマーがブランドやサービスをどの程度他人に推奨できるかを測定する指標。
【0090】
学習モデル125は、パターン学習部156によって生成された学習モデルである。
【0091】
<制御部15>
制御部15は、音声データ取得部151と、テキストデータ抽出部152と、感情・テキスト統合部153と、パターン推定部154と、パターン出力部155と、パターン学習部156と、を含んで構成される。
【0092】
<パターン学習部156>
パターン学習部156は、記憶部12に記憶された指標データを目的変数に設定し、記憶部12に記憶された感情値を含むテキストデータを説明変数とし、深層学習を含む機械学習などによってその対応関係を学習することで学習モデルを生成する。これにより、感情値を含むテキストデータを学習モデルに入力することで、各種の指標が出力される。
【0093】
なお、パターン学習部156は、学習データの形式に応じた学習モデルを生成してもよい。例えば、数値化された学習データの場合には、Lightgbmなどのテーブルデータに強い機械学習モデルを利用し、テキスト化された学習データの場合には、BERTなどの言語モデルを利用すればよい。
【0094】
<パターン推定部154>
パターン推定部154は、記憶部12に記憶された学習モデルを利用して、学習モデルに説明変数として感情値を含むテキストデータを入力し、目的変数に設定した指標を出力として得ることで、指標を推定(予測)する。
【0095】
<パターン出力部155>
パターン出力部155は、予測した指標と会話の内容、感情値の関係性を示す表示画像を生成する。
【0096】
図10は、本実施形態に係る情報処理装置100におけるパターン学習部156が用いる学習データの一例を示す図である。また、図11は、本実施形態に係る情報処理装置100における出力表示の一例を示す図である。
本実施形態における学習データは、例えば、記憶部12に記憶された感情値を含むテキストデータである。学習データは、通話識別番号と、テキストデータと、オペレーター感情値と、カスタマー感情値と、が対応付けられたデータである。
また、学習データは、図10に示す感情値が対応付けられたテキストデータと、当該テキストデータに対応する指標データとが用いられる。
なお、図10に示す感情値を含むテキストデータに変えて、図5に示す感情値を含むテキストデータを学習データとして用いてもよい。例えば、「感情A=10、感情B=20、感情C=0」のように、感情値をテキストに変換し、音声認識結果のテキストデータと結合して学習データとして利用する。
【0097】
なお、図10に示す学習データにおいて、オペレーター感情値とカスタマー感情値とに代えてまたは加えて、記憶部12が記憶する指標データを対応付けた学習データを用いて学習してもよい。
【0098】
このようにして学習された学習モデルに、例えば、説明変数として図10に示す感情値を含むテキストデータを入力すると、図11に示すような、図10の通話識別番号と、テキストデータと、オペレーター感情値と、カスタマー感情値とに対応する指標A、指標Bとが目的変数として出力される。また、学習モデルは、どの単語や感情値に注目して指標が予測されたのかを出力しても良い。これは、例えば、注意機構(attention mechanism)をもつ深層学習モデルを学習モデルとして利用し、該当の学習モデルの中間層の出力値を用いることで、どの単語や感情値に注目して指標を予測したのかを出力することができる。
ここで、上記説明における図11に示す出力表示は、学習モデルからの出力として得た指標に基づいて、パターン出力部155が生成した表示画像の一例である。
なお、どの単語や感情値に注目して指標が推定されたのかを、文字色や背景色などの表示態様を変えることでユーザにわかりやすく表示させてもよい。このようにすることで、どの単語や感情値が指標予測に寄与したのかについてわかりやすく可視化することができる。
【0099】
次いで、本実施形態に係る情報処理について説明する。
【0100】
図12は、本実施形態に係る情報処理装置100における情報処理の一例を示すフローチャートである。
ステップS201において、情報処理装置100は、音声データを取得する。次いで、情報処理装置100は、ステップS202の処理を実行する。
ステップS202において、情報処理装置100は、音声データから音声認識によりテキストデータを抽出する。次いで、情報処理装置100は、ステップS203の処理を実行する。
【0101】
ステップS203において、情報処理装置100は、音声データから会話ごとに複数の感情値を抽出する。その後、情報処理装置100は、ステップS204の処理を実行する。
ステップS204において、情報処理装置100は、テキストデータと感情値とを統合した統合データを生成する。具体的には、情報処理装置100は、会話ごとに単語重要度を算出し、単語重要度が高い所定数の単語と、当該単語重要度と、会話の音声データから抽出された感情値とを対応付けて統合データを生成する。あるいは、情報処理装置100は、感情値をテキストに変換し、テキストに変換した感情値を音声認識結果のテキストデータと結合することで、統合データを生成してもよい。その後、情報処理装置100は、ステップS205の処理を実行する。
【0102】
ステップS205において、情報処理装置100は、感情値を含むテキストデータを入力すると、指標(指標値)を出力する学習モデルを生成する。その後、情報処理装置100は、ステップS206の処理を実行する。
ステップS206において、情報処理装置100は、記憶部12に記憶された学習モデル125を読み出し、学習モデル125に感情値を含むテキストデータを入力することで、指標を出力として得る。情報処理装置100は、出力された指標を、パターンとして推定する。その後、情報処理装置100は、ステップS207の処理を実行する。
【0103】
ステップS207において、情報処理装置100は、推定結果を出力する。そして、情報処理装置100は、図12に係る情報処理を終了する。
【0104】
このように、本実施形態に係る情報処理システムSYSは、音声データを取得する音声データ取得部151と、音声データにおける発話者の感情を表す複数の感情値と、発話者による発話内容を表すテキストデータを、音声認識により音声データから発話者ごとに抽出する抽出部(テキストデータ抽出部152)と、テキストデータに含まれる一つまたは複数の頻出単語を抽出し、さらにテキストデータと感情値を数値、またはテキストの形式に統合し統合データを生成する頻出単語抽出部(感情・テキスト統合部153)と、学習データをもとに学習モデルを機械学習するパターン学習部156と、テキストと感情値とを入力として、学習モデルを利用して指標を予測する推定部(パターン推定部154)と、推定された指標を出力する出力部(パターン出力部155)と、を備える。
【0105】
このようにすることで、音声データに基づくテキストデータから会話内容や文脈を把握した上で感情分析することができる。また、感情値だけでなく、単語やフレーズを同時に機械学習して、様々な指標を予測して表示することで、発話内容に応じた発話者のスキルを可視化することができる。また、指標を予測する際に学習モデルが注目した感情値や単語を表示することで、模範とすべき感情や発話の傾向をフィードバックすることができるため、発話の内容に応じた発話者のスキルを向上させることができる。
【0106】
上記情報処理システムSYSにおいて、出力部(パターン出力部155)は、予測した指標を表示する。また、指標を予測する際に注目した感情値や単語を表示することで、模範とすべき感情や発話の傾向をフィードバックすることができるため、発話の内容に応じた発話者のスキルを向上させることができる。
【0107】
また、上記情報処理システムSYSにおいて、音声データは、通話音声データであり、出力部(パターン出力部155)は、予測した指標のパターンに応じて、発話者と、発話者の通話相手とをマッチングする。
具体的には、オペレーターに関しては、例えば「指標1の値1.5」、「指標2の値0.1」、に類似する場合に友好的なパターンとし、「指標1の値1.0」、「指標2の値1.0」、に類似する場合に冷静なパターンとする。また、カスタマーに関しては、例えば「指標3の値1.0」、「指標4の値1.0」、に類似する場合に社交的なパターンとし、「指標3の値1.5」、「指標4の値1.0」、に類似する場合に批判的なパターンとする。社交的なパターンのカスタマーに対しては、友好的なパターンのオペレーターをマッチングし、批判的なパターンのカスタマーに対しては、冷静なパターンのオペレーターをマッチングすると上記情報処理システムSYSにおいて予めマッチングパターンを定めておく。出力部(パターン出力部155)は、カスタマーとオペレーターの性格に対するパターンが判定し、そのマッチングパターンに応じて、カスタマーとオペレーターをマッチングする。
【0108】
このようにすることで、パターンに応じて通話相手に適した発話者をマッチングすることができる。
【0109】
上記情報処理システムSYSにおいて、テキストデータと、テキストデータに対応する感情値と、テキストデータに対応する会話に対する評価値との対応関係を学習することで生成された学習モデルに、感情値及びテキストデータを入力することで、評価値を予測する予測部(図示せず)、をさらに備える。
【0110】
パターンとともに、評価値を出力することができるため、発話内容に応じた発話者のスキルを可視化することができる。また、模範とすべき感情や発話の傾向をフィードバックすることができ、発話の内容に応じた発話者のスキルを向上させることができる。
【0111】
また、情報処理装置100は、音声データを取得する音声データ取得部151と、音声データにおける発話者の感情を表す複数の感情値と、発話者による発話内容を表すテキストデータを、音声認識により音声データから発話者ごとに抽出する抽出部(テキストデータ抽出部152)と、テキストデータと感情値を数値、またはテキストの形式に統合する統合部テキストデータに含まれる一つまたは複数の頻出単語を抽出する過程において、テキストデータと感情値を数値、またはテキストの形式に統合し統合データを生成する頻出単語抽出部(感情・テキスト統合部153)と、学習データをもとに学習モデルを機械学習するパターン学習部156と、テキストと感情値とを入力として、学習モデルを利用して指標を予測する推定部(パターン推定部154)と、推定された指標を出力する出力部(パターン出力部155)と、を備える。
【0112】
このようにすることで、音声データに基づくテキストデータから会話内容や文脈を把握した上で感情分析することができる。
また、感情値だけでなく、単語やフレーズを同時に機械学習して、様々な指標を予測して表示することで、発話内容に応じた発話者のスキルを可視化することができる。また、指標を予測する際に学習モデルが注目した感情値や単語を表示することで、模範とすべき感情や発話の傾向をフィードバックすることができるため、発話の内容に応じた発話者のスキルを向上させることができる。
【0113】
以上、図面を参照してこの発明の各実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【0114】
例えば、上述した各実施形態では、情報処理装置100、通話端末装置200のようにそれぞれの装置によって構成される一例について説明したが、これらの装置の一部またはすべてを組み合わせた装置、あるいはこれらの装置の一部を組み替えた装置によって本発明の一態様を実現してもよい。
【0115】
なお、本発明の一態様における情報処理装置100、通話端末装置200で動作するプログラムは、本発明の一態様に関わる上記の各実施形態や変形例で示した機能を実現するように、1つ、または複数の、CPU(Central Processing Unit)等のプロセッサを制御するプログラム(コンピュータを機能させるプログラム)であっても良い。ここでいう、コンピュータは、量子コンピュータも含まれる。そして、これらの各装置で取り扱われる情報は、その処理時に一時的にRAM(Random Access Memory)に蓄積され、その後、フラッシュメモリやHDD(Hard Disk Drive)等の各種ストレージに格納され、必要に応じてCPU等によって読み出し、修正・書き込みが行われても良い。
【0116】
なお、上述した各実施形態や変形例における情報処理装置100、通話端末装置200の一部又は全部を1つ、または複数のプロセッサを備えたコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。
【0117】
なお、ここでいう「コンピュータシステム」とは、情報処理装置100、通話端末装置200に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0118】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0119】
また、上述した各実施形態や変形例における情報処理装置100、通話端末装置200の一部、又は全部を典型的には集積回路であるLSIとして実現してもよいし、チップセットとして実現してもよい。また、上述した各実施形態や変形例における情報処理装置100、通話端末装置200の各機能ブロックは個別にチップ化してもよいし、一部、又は全部を集積してチップ化してもよい。また、集積回路化の手法は、LSIに限らず専用回路、および/または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いることも可能である。
【0120】
以上、この発明の一態様として各実施形態や変形例に関して図面を参照して詳述してきたが、具体的な構成は各実施形態や変形例に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明の一態様は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態や変形例に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。
【符号の説明】
【0121】
SYS 情報処理システム
100 情報処理装置
101 CPU
102 記憶媒体インタフェース部
103 記憶媒体
104 入力装置
105 出力装置
106 ROM
107 RAM
108 補助記憶部
109 ネットワークインタフェース部
11 通信部
12 記憶部
121 テキストデータ
122 統合データ
123 パターンデータ
124 指標データ
125 学習モデル
13 入力部
14 出力部
15 制御部
151 音声データ取得部
152 テキストデータ抽出部
153 感情・テキスト統合部
154 パターン推定部
155 パターン出力部
156 パターン学習部
200 通話端末装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【手続補正書】
【提出日】2024-06-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータと、前記テキストデータに対応する前記感情値と、前記テキストデータに対応する会話に対する評価値との対応関係に基づいて生成された学習モデルに、前記感情値及び前記テキストデータを入力することで、前記評価値を予測する予測部と、
を備える情報処理システム。
【請求項2】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、
を備え、
前記感情値は、会話の開始から所定期間における各感情を表す評価値の統計量、前記会話の終了から一定期間遡った所定期間における各感情を表す評価値の統計量、または、前記会話の中で特定のキーワードが発話されたタイミングから一定期間経過した所定期間における各感情を表す評価値の統計量のいずれかであり、
前記推定部は、前記感情値と、前記頻出単語を表す数値と、複数種類のパターンごと重みと、を用いて前記発話者が複数種類のうちのいずれのパターンであるかを推定する、
情報処理システム。
【請求項3】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、
を備え、
前記頻出単語抽出部は、前記テキストデータと、前記テキストデータに対応する前記感情値と、を全て数値として、あるいは全てテキストとして統合する、
情報処理システム。
【請求項4】
前記音声データは、通話音声データであり、
記パターンに応じて、前記発話者と、前記発話者の通話相手とをマッチングするマッチング部
をさらに備える、
請求項2または3に記載の情報処理システム。
【請求項5】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータと、前記テキストデータに対応する前記感情値と、前記テキストデータに対応する会話に対する評価値との対応関係に基づいて生成された学習モデルに、前記感情値及び前記テキストデータを入力することで、前記評価値を予測する予測部と、
を備える情報処理装置。
【請求項6】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、
を備え、
前記感情値は、会話の開始から所定期間における各感情を表す評価値の統計量、前記会話の終了から一定期間遡った所定期間における各感情を表す評価値の統計量、または、前記会話の中で特定のキーワードが発話されたタイミングから一定期間経過した所定期間における各感情を表す評価値の統計量のいずれかであり、
前記推定部は、前記感情値と、前記頻出単語を表す数値と、複数種類のパターンごと重みと、を用いて前記発話者が複数種類のうちのいずれのパターンであるかを推定する、
情報処理装置。
【請求項7】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、
を備え、
前記頻出単語抽出部は、前記テキストデータと、前記テキストデータに対応する前記感情値と、を全て数値として、あるいは全てテキストとして統合する、
情報処理装置。
【請求項8】
情報処理装置のコンピュータが実行するための情報処理方法であって、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータと、前記テキストデータに対応する前記感情値と、前記テキストデータに対応する会話に対する評価値との対応関係に基づいて生成された学習モデルに、前記感情値及び前記テキストデータを入力することで、前記評価値を予測する予測ステップと、
を有する情報処理方法。
【請求項9】
情報処理装置のコンピュータが実行するための情報処理方法であって、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、
を有し、
前記感情値は、会話の開始から所定期間における各感情を表す評価値の統計量、前記会話の終了から一定期間遡った所定期間における各感情を表す評価値の統計量、または、前記会話の中で特定のキーワードが発話されたタイミングから一定期間経過した所定期間における各感情を表す評価値の統計量のいずれかであり、
前記推定ステップにおいて、前記感情値と、前記頻出単語を表す数値と、複数種類のパターンごと重みと、を用いて前記発話者が複数種類のうちのいずれのパターンであるかを推定する、
情報処理方法。
【請求項10】
情報処理装置のコンピュータが実行するための情報処理方法であって、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、
を有し、
前記頻出単語抽出部において、前記テキストデータと、前記テキストデータに対応する前記感情値と、を全て数値として、あるいは全てテキストとして統合する、
情報処理方法。
【請求項11】
情報処理装置のコンピュータに、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータと、前記テキストデータに対応する前記感情値と、前記テキストデータに対応する会話に対する評価値との対応関係に基づいて生成された学習モデルに、前記感情値及び前記テキストデータを入力することで、前記評価値を予測する予測ステップと、
実行させるためのプログラム。
【請求項12】
情報処理装置のコンピュータに、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、
を実行させ、
前記感情値は、会話の開始から所定期間における各感情を表す評価値の統計量、前記会話の終了から一定期間遡った所定期間における各感情を表す評価値の統計量、または、前記会話の中で特定のキーワードが発話されたタイミングから一定期間経過した所定期間における各感情を表す評価値の統計量のいずれかであり、
前記推定ステップにおいて、前記感情値と、前記頻出単語を表す数値と、複数種類のパターンごと重みと、を用いて前記発話者が複数種類のうちのいずれのパターンであるかを推定する、
プログラム。
【請求項13】
情報処理装置のコンピュータに、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、
を実行させ、
前記頻出単語抽出ステップにおいて、前記テキストデータと、前記テキストデータに対応する前記感情値と、を全て数値として、あるいは全てテキストとして統合する、
プログラム。
【手続補正書】
【提出日】2024-08-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータと、前記テキストデータに対応する前記感情値と、前記テキストデータに対応する会話に対する評価値との対応関係に基づいて生成された学習モデルに、前記感情値及び前記テキストデータを入力することで、前記評価値を予測する予測部と、
を備える情報処理システム。
【請求項2】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、
を備え、
前記感情値は、会話の開始から所定期間における各感情を表す評価値の統計量、前記会話の終了から一定期間遡った所定期間における各感情を表す評価値の統計量、または、前記会話の中で特定のキーワードが発話されたタイミングから一定期間経過した所定期間における各感情を表す評価値の統計量のいずれかであり、
前記推定部は、前記感情値と、前記頻出単語を表す数値と、複数種類のパターンごと重みと、を用いて前記発話者が複数種類のうちのいずれのパターンであるかを推定する、
情報処理システム。
【請求項3】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、
を備え、
前記頻出単語抽出部は、前記テキストデータと、前記テキストデータに対応する前記感情値と、を全て数値として、あるいは全てテキストとして統合する、
情報処理システム。
【請求項4】
前記音声データは、通話音声データであり、
前記パターンに応じて、前記発話者と、前記発話者の通話相手とをマッチングするマッチング部、
をさらに備える、
請求項2または3に記載の情報処理システム。
【請求項5】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータと、前記テキストデータに対応する前記感情値と、前記テキストデータに対応する会話に対する評価値との対応関係に基づいて生成された学習モデルに、前記感情値及び前記テキストデータを入力することで、前記評価値を予測する予測部と、
を備える情報処理装置。
【請求項6】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、
を備え、
前記感情値は、会話の開始から所定期間における各感情を表す評価値の統計量、前記会話の終了から一定期間遡った所定期間における各感情を表す評価値の統計量、または、前記会話の中で特定のキーワードが発話されたタイミングから一定期間経過した所定期間における各感情を表す評価値の統計量のいずれかであり、
前記推定部は、前記感情値と、前記頻出単語を表す数値と、複数種類のパターンごと重みと、を用いて前記発話者が複数種類のうちのいずれのパターンであるかを推定する、
情報処理装置。
【請求項7】
音声データを取得する音声データ取得部と、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出部と、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出部と、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定部と、
を備え、
前記頻出単語抽出部は、前記テキストデータと、前記テキストデータに対応する前記感情値と、を全て数値として、あるいは全てテキストとして統合する、
情報処理装置。
【請求項8】
情報処理装置のコンピュータが実行するための情報処理方法であって、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータと、前記テキストデータに対応する前記感情値と、前記テキストデータに対応する会話に対する評価値との対応関係に基づいて生成された学習モデルに、前記感情値及び前記テキストデータを入力することで、前記評価値を予測する予測ステップと、
を有する情報処理方法。
【請求項9】
情報処理装置のコンピュータが実行するための情報処理方法であって、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、
を有し、
前記感情値は、会話の開始から所定期間における各感情を表す評価値の統計量、前記会話の終了から一定期間遡った所定期間における各感情を表す評価値の統計量、または、前記会話の中で特定のキーワードが発話されたタイミングから一定期間経過した所定期間における各感情を表す評価値の統計量のいずれかであり、
前記推定ステップにおいて、前記感情値と、前記頻出単語を表す数値と、複数種類のパターンごと重みと、を用いて前記発話者が複数種類のうちのいずれのパターンであるかを推定する、
情報処理方法。
【請求項10】
情報処理装置のコンピュータが実行するための情報処理方法であって、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、
を有し、
前記頻出単語抽出ステップにおいて、前記テキストデータと、前記テキストデータに対応する前記感情値と、を全て数値として、あるいは全てテキストとして統合する、
情報処理方法。
【請求項11】
情報処理装置のコンピュータに、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータと、前記テキストデータに対応する前記感情値と、前記テキストデータに対応する会話に対する評価値との対応関係に基づいて生成された学習モデルに、前記感情値及び前記テキストデータを入力することで、前記評価値を予測する予測ステップと、
を実行させるためのプログラム。
【請求項12】
情報処理装置のコンピュータに、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、
を実行させ、
前記感情値は、会話の開始から所定期間における各感情を表す評価値の統計量、前記会話の終了から一定期間遡った所定期間における各感情を表す評価値の統計量、または、前記会話の中で特定のキーワードが発話されたタイミングから一定期間経過した所定期間における各感情を表す評価値の統計量のいずれかであり、
前記推定ステップにおいて、前記感情値と、前記頻出単語を表す数値と、複数種類のパターンごと重みと、を用いて前記発話者が複数種類のうちのいずれのパターンであるかを推定する、
プログラム。
【請求項13】
情報処理装置のコンピュータに、
音声データを取得する音声データ取得ステップと、
前記音声データにおける発話者の感情を表す複数の感情値と、前記発話者による発話内容を表すテキストデータを、音声認識により前記音声データから前記発話者ごとに抽出する抽出ステップと、
前記テキストデータに含まれる一つまたは複数の頻出単語を抽出する頻出単語抽出ステップと、
前記頻出単語と、前記感情値と基づいて、前記発話者が複数種類のうちのいずれのパターンであるかを推定する推定ステップと、
を実行させ、
前記頻出単語抽出ステップにおいて、前記テキストデータと、前記テキストデータに対応する前記感情値と、を全て数値として、あるいは全てテキストとして統合する、
プログラム。