IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

<>
  • 特開-会話評価プログラム、装置及び方法 図1
  • 特開-会話評価プログラム、装置及び方法 図2
  • 特開-会話評価プログラム、装置及び方法 図3
  • 特開-会話評価プログラム、装置及び方法 図4
  • 特開-会話評価プログラム、装置及び方法 図5
  • 特開-会話評価プログラム、装置及び方法 図6
  • 特開-会話評価プログラム、装置及び方法 図7
  • 特開-会話評価プログラム、装置及び方法 図8
  • 特開-会話評価プログラム、装置及び方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024172954
(43)【公開日】2024-12-12
(54)【発明の名称】会話評価プログラム、装置及び方法
(51)【国際特許分類】
   G10L 25/51 20130101AFI20241205BHJP
   G10L 25/87 20130101ALI20241205BHJP
【FI】
G10L25/51
G10L25/87
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023091036
(22)【出願日】2023-06-01
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】早川 大智
(57)【要約】
【課題】複数の話者間のコミュニケーションの状態を適切に評価すること。
【解決手段】実施形態に係る会話評価プログラムは、コンピュータに、推定機能と、特定機能と、評価機能とを実現させる。推定機能は、複数の話者によるそれぞれの発話を含む会話に関する音声データに基づいて、それぞれの主要話者による発話の開始時刻及び終了時刻を推定する。特定機能は、前記推定された開始時刻及び終了時刻に基づいて、前記それぞれの主要話者の交代タイミングを特定する。評価機能は、前記特定された交代タイミングの前後における対話情報に基づいて、前記会話の状態を評価する。前記対話情報は、前記それぞれの主要話者の発話区間が重複する重複区間の長さと、前記それぞれの主要話者の発話区間が重複しない無音区間の長さとのうち少なくとも1つと、前記それぞれの主要話者の発話区間の長さとを含む。
【選択図】図8
【特許請求の範囲】
【請求項1】
コンピュータに、
複数の話者によるそれぞれの発話を含む会話に関する音声データに基づいて、それぞれの主要話者による発話の開始時刻及び終了時刻を推定する推定機能と、
前記推定された開始時刻及び終了時刻に基づいて、前記それぞれの主要話者の交代タイミングを特定する特定機能と、
前記特定された交代タイミングの前後における対話情報に基づいて、前記会話の状態を評価する評価機能と、
を実現させ、
前記対話情報は、前記それぞれの主要話者の発話区間が重複する重複区間の長さと、前記それぞれの主要話者の発話区間が重複しない無音区間の長さとのうち少なくとも1つと、前記それぞれの主要話者の発話区間の長さとを含む、
会話評価プログラム。
【請求項2】
前記推定機能は、前記複数の話者によるそれぞれの発話のうち、発話区間の長さが閾値以上であり、かつ発話区間が他の発話区間に含まれない発話を、前記主要話者による発話として推定する、
請求項1に記載の会話評価プログラム。
【請求項3】
前記評価機能は、前記対話情報を入力データとして、前記交代タイミングの前後における前記会話の状態を示すラベルを正解データとする訓練データにより訓練された訓練済みモデルを用いて、前記会話の状態を評価する、
請求項1に記載の会話評価プログラム。
【請求項4】
前記ラベルは、威圧的な発話を行っている主要話者の名称であり、
前記評価機能は、前記会話の状態に関する評価結果として、前記それぞれの主要話者が威圧的な発話を行っている確率を出力する、
請求項3に記載の会話評価プログラム。
【請求項5】
前記ラベルは、前記会話が活発であるか否かに関する値であり、
前記評価機能は、前記会話の状態に関する評価結果として、前記会話の活性度を出力する、
請求項3に記載の会話評価プログラム。
【請求項6】
前記評価機能は、前記対話情報に基づいて威圧的な話者交代を検出した場合、前記威圧的な話者交代が検出された前記交代タイミングに関連付けて、アラート情報を出力する、
請求項1に記載の会話評価プログラム。
【請求項7】
前記評価機能は、前記対話情報に基づいて前記会話において閾値以上の回数にわたり威圧的な話者交代を検出した場合、アラート情報を出力する、
請求項1に記載の会話評価プログラム。
【請求項8】
前記評価機能は、前記対話情報に基づいて前記会話において閾値以上の回数にわたり前記会話が不活発であることを検出した場合、アラート情報を出力する、
請求項1に記載の会話評価プログラム。
【請求項9】
複数の話者によるそれぞれの発話を含む会話に関する音声データに基づいて、それぞれの主要話者による発話の開始時刻及び終了時刻を推定する推定部と、
前記推定された開始時刻及び終了時刻に基づいて、前記それぞれの主要話者の交代タイミングを特定する特定部と、
前記特定された交代タイミングの前後における対話情報に基づいて、前記会話の状態を評価する評価部と、
を具備し、
前記対話情報は、前記それぞれの主要話者の発話区間が重複する重複区間の長さと、前記それぞれの主要話者の発話区間が重複しない無音区間の長さとのうち少なくとも1つと、前記それぞれの主要話者の発話区間の長さとを含む、
会話評価装置。
【請求項10】
複数の話者によるそれぞれの発話を含む会話に関する音声データに基づいて、それぞれの主要話者による発話の開始時刻及び終了時刻を推定することと、
前記推定された開始時刻及び終了時刻に基づいて、前記それぞれの主要話者の交代タイミングを特定することと、
前記特定された交代タイミングの前後における対話情報に基づいて、前記会話の状態を評価することと、
を具備し、
前記対話情報は、前記それぞれの主要話者の発話区間が重複する重複区間の長さと、前記それぞれの主要話者の発話区間が重複しない無音区間の長さとのうち少なくとも1つと、前記それぞれの主要話者の発話区間の長さとを含む、
会話評価方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、会話評価プログラム、装置及び方法に関する。
【背景技術】
【0002】
一般に、企業は労働生産性を向上させるため、当該企業に対する各従業員のエンゲージメントを向上させる必要がある。このため、企業は従業員間のコミュニケーションの状態(特に、健全性)を評価する必要がある。
【0003】
例えば、第1話者及び第2話者による2人の会話において、2話者の発話区間が重複する重複区間の長さを用いて、2話者間のコミュニケーションの状態を評価する技術がある。本技術は、第1話者の発話中に第2話者が発話し始めた時点から、第1話者が発話を終了する時点までを重複区間とみなし、この重複区間の長さに応じて、第1話者に対する第2話者の印象を「普通」又は「悪い」として評価する。
【0004】
しかしながら、上記の技術は、第2話者から見た第1話者の印象を評価するので、第2話者の立場から独立して、第1話者の印象を客観的に評価できない。例えば、実際には第1話者の発話中に割り込んできた第2話者が悪いにもかかわらず、第1話者の印象が「悪い」と不当に評価され得る。したがって、複数の話者間のコミュニケーションの状態を適切に評価することが要請される。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第6524674号公報
【非特許文献】
【0006】
【非特許文献1】Nobutaka Ito, Christopher Schymura, Shoko Araki and Tomohiro Nakatani, "Noisy cGMM: Complex Gaussian Mixture Model with Non-Sparse Noise Model for Joint Source Separation and Denoising", 2018 26th European Signal Processing Conference (EUSIPCO), Rome, Italy, 2018, pp. 1662-1666
【非特許文献2】Jongseo Sohn, Nam Soo Kim and Wonyong Sung, "A statistical model-based voice activity detection", IEEE Signal Processing Letters, 1999, Vol. 6, No. 1, pp. 1-3
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明が解決しようとする課題は、複数の話者間のコミュニケーションの状態を適切に評価することである。
【課題を解決するための手段】
【0008】
実施形態に係る会話評価プログラムは、コンピュータに、推定機能と、特定機能と、評価機能とを実現させる。推定機能は、複数の話者によるそれぞれの発話を含む会話に関する音声データに基づいて、それぞれの主要話者による発話の開始時刻及び終了時刻を推定する。特定機能は、前記推定された開始時刻及び終了時刻に基づいて、前記それぞれの主要話者の交代タイミングを特定する。評価機能は、前記特定された交代タイミングの前後における対話情報に基づいて、前記会話の状態を評価する。前記対話情報は、前記それぞれの主要話者の発話区間が重複する重複区間の長さと、前記それぞれの主要話者の発話区間が重複しない無音区間の長さとのうち少なくとも1つと、前記それぞれの主要話者の発話区間の長さとを含む。
【図面の簡単な説明】
【0009】
図1】本実施形態に係る会話評価装置の機能構成例を示すブロック図。
図2】本実施形態に係る会話評価装置のハードウェア構成例を示すブロック図。
図3】本実施形態に係る会話評価装置の全体動作例を示すフローチャート。
図4】本実施形態に係る主要話者の発話の推定方法を示すフローチャート。
図5】本実施形態に係る会話分析の例を示す図。
図6】本実施形態に係る会話の状態の評価方法を示すフローチャート。
図7】本実施形態に係る対話情報の例を示す図。
図8】本実施形態に係る評価結果の表示例を示す図。
図9】従来手法及び提案手法に係る会話分析の推定精度の例を示す図。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら実施形態に係る会話評価プログラム、装置及び方法について説明する。以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜、省略する。
【0011】
以下、本実施形態に係る各用語を定義する。(1)「発話」は、0.2秒以上の2つの無音区間により挟まれた発話区間(音声区間)を指す。(2)「主要話者」は、会話における話者を指す。(3)「非主要話者」は、主要話者に対する聴者を指す。非主要話者の発話内容は、主要話者の発話に対する相槌又は断片的な復唱を含むことが多い。(4)「主要話者の交代」は、2人の主要話者の間の交代を指す。(5)「主要話者のターン」は、当該主要話者に交代されてから、当該主要話者の次の主要話者に交代されるまでに、当該主要話者が行った発話の集合を指す。(6)「主要話者の発話区間の長さ」は、1つの主要話者のターンにおける全ての発話区間の長さの合計を指す。
【0012】
図1は、本実施形態に係る会話評価装置1の機能構成例を示すブロック図である。会話評価装置1は、複数の話者間の会話の状態を評価する装置である。会話評価装置1は、取得部111、推定部112、特定部113及び評価部114を備える。
【0013】
取得部111は、各種のデータ又は情報を取得する。例えば、取得部111は、複数の話者によるそれぞれの発話を含む会話に関する会話音声データ200を取得する。会話音声データ200は、会話音声に関する電気信号の変化を時系列に記録したデータである。取得部111は、取得した会話音声データ200を推定部112に送信する。
【0014】
推定部112は、各種のデータ又は情報を推定する。例えば、推定部112は、取得部111から送信された会話音声データ200に基づいて、それぞれの主要話者による発話の開始時刻及び終了時刻を推定する。推定部112は、推定した開始時刻及び終了時刻を、特定部113及び評価部114に送信する。
【0015】
特定部113は、各種のデータ又は情報を特定する。例えば、特定部113は、推定部112から送信された開始時刻及び終了時刻に基づいて、それぞれの主要話者の交代タイミング(以下「話者交代」ともいう。)を特定する。特定部113は、特定した交代タイミングを評価部114に送信する。
【0016】
評価部114は、各種のデータ又は情報を評価する。例えば、評価部114は、特定部113から送信された交代タイミングについて、当該交代タイミングの前後における対話情報Dに基づいて、会話の状態を評価する。対話情報Dは、それぞれの主要話者の発話区間が重複する重複区間の長さと、それぞれの主要話者の発話区間が重複しない無音区間の長さとのうち少なくとも1つと、それぞれの主要話者の発話区間の長さとを含む。対話情報Dは、推定部112から送信された開始時刻及び終了時刻を含んでもよい。評価部114は、事前に訓練された検出モデル120に対話情報Dを入力することで、会話の状態に関する評価結果300を検出モデル120から取得する。評価部114は、取得した評価結果300を出力する。
【0017】
図2は、本実施形態に係る会話評価装置1のハードウェア構成例を示すブロック図である。例えば、会話評価装置1は、コンピュータ(例:パソコン、タブレット端末、スマートフォン)である。会話評価装置1は、各構成として処理回路11、記憶回路12、入力IF13、出力IF14及び通信IF15を備える。各構成は、共通の信号通信路であるバス(BUS)を介して、互いに通信可能に接続される。
【0018】
処理回路11は、会話評価装置1の全体の動作を制御する回路である。処理回路11は、少なくとも1つのプロセッサを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、プログラマブル論理デバイス(例:単純プログラマブル論理デバイス(SPLD:Simple Programmable Logic Device)、複合プログラマブル論理デバイス(CPLD:Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array))などの回路を意味する。プロセッサがCPUである場合、CPUは記憶回路12に記憶された各プログラムを読み出して実行することで、各機能を実現する。プロセッサがASICである場合、各機能がASICに論理回路として直接組み込まれる。プロセッサは、単一の回路として構成されてもよいし、独立した複数の回路を互いに組み合わせて構成されてもよい。処理回路11は、取得部111、推定部112、特定部113、評価部114及びシステム制御部115を実現する。処理回路11は、処理部の一例である。
【0019】
システム制御部115は、処理回路11が行う各種の動作を制御する。例えば、システム制御部115は、処理回路11が各部(取得部111、推定部112、特定部113、評価部114)を実現するためのオペレーティングシステム(OS)を提供する。
【0020】
記憶回路12は、各種のデータ又は情報を記憶する回路である。記憶回路12は、プロセッサにより読取可能な記憶媒体(例:磁気的記憶媒体、電磁的記憶媒体、光学的記憶媒体、半導体メモリ)でもよいし、記憶媒体との間でデータ又は情報を読み書きする駆動装置でもよい。記憶回路12は、処理回路11に各部(取得部111、推定部112、特定部113、評価部114、システム制御部115)を実現させる各プログラムを記憶する。記憶回路12は、検出モデル120を記憶してもよい。記憶回路12は、記憶部の一例である。
【0021】
入力IF13は、ユーザから各種の入力を受け付けるインタフェースである。入力IF13は、受け付けた入力を電気信号に変換し、この電気信号を処理回路11に送信する。入力IF13は、マウス、キーボード、ボタン、パネルスイッチ、スライダースイッチ、トラックボール、操作パネル又はタッチスクリーンでもよい。入力IF13は、会話評価装置1の外部に設置されてもよい。入力IF13は、入力部の一例である。
【0022】
出力IF14は、ユーザに対して各種のデータ又は情報を出力するインタフェースである。出力IF14は、処理回路11から送信された電気信号に応じて、各種のデータ又は情報を出力する。出力IF14は、表示装置(例:モニタ)又は音響装置(例:スピーカ)でもよい。出力IF14は、会話評価装置1の外部に設置されてもよい。出力IF14は、出力部、表示部又は音響部の一例である。
【0023】
通信IF15は、外部装置との間で各種のデータ又は情報を通信するインタフェースである。通信IF15は、通信部の一例である。
【0024】
図3は、本実施形態に係る会話評価装置1の全体動作例を示すフローチャートである。本動作例によれば、会話評価装置1は、会話音声データ200を分析することで、評価結果300を出力する。特に、会話評価装置1は、ユーザが入力IF13により入力した指示に応じて、本動作例を開始してもよい。会話評価装置1は、通信IF15から会話音声データ200を取得し、出力IF14により評価結果300をユーザに提示してもよい。
【0025】
(ステップS1)まず、会話評価装置1は取得部111により、会話音声データ200を取得する。会話音声データ200は、少なくとも1つの収音デバイスにより取得される。例えば、会話音声データ200は、複数の話者が自身の収音デバイスを用いて実施する電話会議、ウェブ会議又はテレビ会議に関する音声データである。収音デバイスは、各話者の受話器、スマートフォン又はパソコンに搭載された内蔵マイクでもよい。あるいは、収音デバイスは、各話者のパソコンに接続されたヘッドセットマイク又は卓上マイクでもよい。
【0026】
(ステップS2)次に、会話評価装置1は取得部111により、ステップS1において取得された会話音声データ200が音源分離されているか否かを判定する。具体的には、取得部111は、会話音声データ200が話者ごとの音声(分離音声)に分離されているか否かを判定する。会話音声データ200が音源分離されている場合(ステップS2-YES)、処理はステップS4に進む。会話音声データ200が音源分離されていない場合(ステップS2-NO)、処理はステップS3に進む。
【0027】
第一に、会話音声データ200が複数の話者の各収音デバイスから収集された場合を想定する。この場合、各収音デバイスが単一の話者からの音声データを収集したので、会話音声データ200は、各話者の音声を個別に含む。よって、会話評価装置1は、会話音声データ200が音源分離されていると判定する。
【0028】
第二に、会話音声データ200が単一の収音デバイスから収集された場合を想定する。この場合、収音デバイスは複数の話者からの音声を同時に収集したので、会話音声データ200は、各話者の音声が混合された音声(混合音声)を含む。よって、会話評価装置1は、会話音声データ200が音源分離されていないと判定する。
【0029】
(ステップS3)続いて、会話評価装置1は取得部111により、ステップS2において音源分離されていないと判定された会話音声データ200を音源分離する。これにより、会話音声データ200は、各話者の音声を個別に含む。音源分離は、公知の技術により実現され得る(非特許文献1参照)。
【0030】
(ステップS4)続いて、会話評価装置1は推定部112により、会話音声データ200に個別に含まれる各話者の音声に基づいて、各話者の発話区間を推定する。具体的には、推定部112は、各話者による発話の開始時刻及び終了時刻と、発話区間の長さとを推定する。発話区間の長さは、発話の開始時刻から終了時刻までの継続時間である。発話区間の推定は、公知の技術により実現され得る(非特許文献2参照)。
【0031】
(ステップS5)続いて、会話評価装置1は推定部112により、ステップS4において推定された各話者の発話区間に基づいて、それぞれの主要話者の発話を推定する(図4参照)。
【0032】
(ステップS6)続いて、会話評価装置1は特定部113により、ステップS5において推定されたそれぞれの主要話者の発話に基づいて、それぞれの主要話者の話者交代を特定する。具体的には、特定部113は、時間的に隣接する2つの主要話者の発話区間について、2人の主要話者が互いに異なるか否かを判定する。2人の主要話者が互いに異なる場合、特定部113は、2つの主要話者の発話区間の間に話者交代があると特定する(図5参照)。
【0033】
(ステップS7)最後に、会話評価装置1は評価部114により、ステップS6において特定された話者交代について、当該話者交代の前後における対話情報Dに基づいて、会話音声データ200における会話の状態に関する評価結果300を出力する(図6参照)。ステップS7の後、会話評価装置1は一連の動作を終了する。
【0034】
図4は、本実施形態に係る主要話者の発話の推定方法を示すフローチャートである。本推定方法によれば、推定部112は、処理対象の発話区間ごとに、発話が主要話者の発話であるか、又は非主要話者の発話であるかを推定する。
【0035】
(ステップS51)まず、推定部112は、ステップS4において推定された全ての発話区間のうち、処理対象の発話区間を選択する。例えば、推定部112は、処理されていない全ての発話区間のうち、発話の開始時刻が最も早い発話区間を選択する。すなわち、ステップS51が実行されるごとに、1つの処理対象の発話区間が選択される。
【0036】
(ステップS52)次に、推定部112は、ステップS51において選択された発話区間について、当該発話区間の長さが閾値以上であるか否かを判定する。この閾値は、経験的に決定される(例:0.5秒)。発話区間の長さが閾値以上である場合(ステップS52-YES)、処理はステップS53に進む。発話区間の長さが閾値以上ではない場合(ステップS52-NO)、処理はステップS54Aに進む。すなわち、推定部112は、長さが閾値以上ではない発話区間が相槌などの短い発話であり、非主要話者の発話であると推定する。
【0037】
(ステップS53)続いて、推定部112は、ステップS52において長さが閾値以上であると判定された発話区間について、当該発話区間が他の発話区間に含まれるか否かを判定する。具体的には、推定部112は、他の発話区間の開始時刻から終了時刻までの間に、当該発話区間の開始時刻及び終了時刻が含まれるか否かを判定する。発話区間が他の発話区間に含まれる場合(ステップS53-YES)、処理はステップS54Aに進む。発話区間が他の発話区間に含まれない場合(ステップS53-NO)、処理はステップS54Bに進む。
【0038】
(ステップS54A)この場合、推定部112は、ステップS51において選択された発話区間が「非主要話者」の発話であると推定する。ステップS54Aの後、処理はステップS55に進む。
【0039】
(ステップS54B)この場合、推定部112は、ステップS51において選択された発話区間が「主要話者」の発話であると推定する。ステップS54Bの後、処理はステップS55に進む。
【0040】
(ステップS55)続いて、推定部112は、ステップS4において推定された全ての発話区間を、ステップS51からステップS54A又はS54Bまでに処理したか否かを判定する。全ての発話区間が処理された場合(ステップS55-YES)、処理はステップS6に進む(図3参照)。全ての発話区間が処理されていない場合(ステップS55-NO)、処理はステップS51に戻る。
【0041】
なお、主要話者の発話の推定方法は、上記の方法に限られない。推定部112は、外部の音声認識システムを使用して個々の発話の発話内容を認識してもよい。推定部112は、認識した発話内容が相槌のみを含む場合、当該発話が「非主要話者」の発話であると推定する。反対に、推定部112は、非主要話者の発話であると推定されない発話を、「主要話者」の発話であると推定する。
【0042】
図5は、本実施形態に係る会話分析の例を示す図である。図5(A)のテーブル500Aは、会話音声データ200における会話の分析結果を示す。図5(B)のグラフ500Bは、テーブル500Aにおける会話の分析結果をグラフィカルに示す。テーブル500A又はグラフ500Bは、表示装置としての出力IF14に表示されてもよい。
【0043】
テーブル500Aは、3人の話者(A、B、C)の間の会話を示す。テーブル500Aは、行方向に各話者からの発話を示し、列方向に各発話に関する各項目を示す。各項目は、1列目「主要話者」、2列目「話者交代」、3列目「開始時刻」、4列目「終了時刻」、5列目「話者」及び6列目「発話内容」である。
【0044】
1列目「主要話者」は、図3のステップS5(図4参照)において推定された主要話者の発話をチェック印により示す。具体的には、テーブル500Aに含まれる11発話のうち、上から1番目、4-7番目、9番目及び11番目の7発話が、「主要話者」の発話として推定されている。反対に、上から2-3番目、8番目及び10番目の4発話が、「非主要話者」の発話として推定されている。すなわち、発話内容として相槌(「はい」)又は断片的な復唱(「チョコ」)を含む発話が、「非主要話者」の発話として推定されている。
【0045】
2列目「話者交代」は、図3のステップS6において特定された主要話者の話者交代を星印51、52、53及び54により示す。具体的には、テーブル500Aに含まれる11発話のうち、上から5番目、6番目、9番目及び11番目の4発話に、星印51、52、53及び54が付されている。星印51、52、53及び54は、話者交代後の発話に付されている。
【0046】
グラフ500Bは、縦軸方向に3人の話者(A、B、C)を示し、横軸方向に各話者の発話区間を示す。各発話区間のうち、「主要話者」の発話は斜線の棒510により示され、「非主要話者」の発話は白色の棒520により示される。棒510及び520のそれぞれは、テーブル500Aに含まれる11発話のそれぞれに相当する。グラフ500Bにおける星印51、52、53及び54が付された4つの棒510は、テーブル500Aにおける星印51、52、53及び54が付された4発話に相当する。
【0047】
図6は、本実施形態に係る会話の状態の評価方法を示すフローチャートである。本評価方法によれば、評価部114は、話者交代の前後における対話情報Dに基づいて、評価結果300を出力する。
【0048】
(ステップS71)まず、評価部114は、ステップS6において特定された話者交代ごとに、当該話者交代の前後における対話情報Dを抽出する。
【0049】
例えば、図5において星印51が付された1番目の話者交代に着目する。テーブル500A及びグラフ500Bから理解されるように、この話者交代は、主要話者Aから主要話者Bへの話者交代である。話者交代前の主要話者Aのターンにおける発話区間の長さは、テーブル500Aの上から1番目及び4番目の2発話の発話区間の長さである。当該長さは、(6.976-5.672)+(8.568-7.408)=2.464(秒)と算出される。一方、話者交代後の主要話者Bのターンにおける発話区間の長さは、テーブル500Aの上から5番目の発話の発話区間の長さである。当該長さは、(9.576-8.728)=0.848(秒)と算出される。
【0050】
さらに、星印51が付された1番目の話者交代においては、主要話者Aの発話区間と、主要話者Bの発話区間とが互いに重複しない。具体的には、テーブル500Aの上から4番目の発話区間の終了時刻「8.568」と、上から5番目の発話区間の開始時刻「8.728」とによれば、両者の発話区間は互いに重複しない。よって、重複区間の有無は「なし」であり、重複区間の長さは「0.000」(秒)である。反対に、両者の発話区間の間には、無音区間が存在する。よって、無音区間の有無は「あり」であり、無音区間の長さは(8.728-8.568)=0.160(秒)と算出される。
【0051】
次に、図5において星印52が付された2番目の話者交代に着目する。テーブル500A及びグラフ500Bから理解されるように、この話者交代は、主要話者Bから主要話者Cへの話者交代である。話者交代前の主要話者Bのターンにおける発話区間の長さは、テーブル500Aの上から5番目の発話の発話区間の長さである。当該長さは、(9.576-8.728)=0.848(秒)と算出される。一方、話者交代後の主要話者Cのターンにおける発話区間の長さは、テーブル500Aの上から6番目及び7番目の2発話の発話区間の長さである。当該長さは、(9.757-8.800)+(11.829-10.821)=1.965(秒)と算出される。
【0052】
さらに、星印52が付された2番目の話者交代においては、主要話者Bの発話区間と、主要話者Cの発話区間とが互いに重複する。具体的には、テーブル500Aの上から5番目の発話区間の終了時刻「9.576」と、上から6番目の発話区間の開始時刻「8.800」とによれば、両者の発話区間は互いに重複する。よって、重複区間の有無は「あり」であり、重複区間の長さは(9.576-8.800)=0.776(秒)である。反対に、両者の発話区間の間には、無音区間が存在しない。よって、無音区間の有無は「なし」であり、無音区間の長さは「0.000」(秒)である。
【0053】
同様に、評価部114は、星印53及び54が付されたそれぞれの話者交代について、対話情報Dを抽出する(図7参照)。
【0054】
(ステップS72)次に、評価部114は、ステップS71において抽出された話者交代ごとの対話情報Dに対して、訓練済みの検出モデル120を適用する。具体的には、評価部114は、話者交代ごとの対話情報Dを訓練済みの検出モデル120に入力することで、評価結果300として、話者交代ごとの所定の事象又は確率を検出する。
【0055】
検出モデル120は、話者交代における対話情報Dを入力データとして、当該話者交代の前後における会話の状態を示すラベルを正解データとする訓練データにより訓練される。例えば、検出モデル120は、対話情報Dを入力データとして、この対話情報Dが与えられた場合に所定の事象が発生する確率を正解データとする訓練データにより訓練される。
【0056】
第一に、検出モデル120は、対話情報Dと、威圧的な話者交代が行われたか否かを示すラベルとのペアデータにより訓練される。この場合、訓練済みの検出モデル120は、「威圧的な話者交代が行われた確率」を検出できる。第二に、検出モデル120は、対話情報Dと、威圧的な発話を行っている主要話者の名称を示すラベルとのペアデータにより訓練される。この場合、訓練済みの検出モデル120は、「それぞれの主要話者が威圧的な発話を行っている確率」を検出できる。第三に、検出モデル120は、対話情報Dと、会話が活発か否かに関する値を示すラベルとのペアデータにより訓練される。この場合、訓練済みの検出モデル120は、「会話の活性度」を検出できる。
【0057】
例えば、図5において星印51、52、53及び54が付された4つの話者交代に着目する。ここで、N番目の話者交代における対話情報DをXと想定し、N番目の話者交代において所定の事象が発生した確率をYと想定する(n:1からNの自然数)。さらに、対話情報Dが(1)話者交代前の主要話者の発話区間の長さ、(2)話者交代後の主要話者の発話区間の長さ、(3)無音区間の長さ、及び(4)重複区間の長さを含むと想定する。この場合、1番目の話者交代における対話情報Xは、X={2.464,0.848,0.160,0.000}と表現される。同様に、2番目、3番目及び4番目の話者交代における対話情報X、X及びXは、X={0.848,1.965,0.000,0.776}、X={1.965,1.269,0.851,0.000}、X={1.269,2.259,1.176,0.000}と表現される。
【0058】
評価部114は、訓練済みの検出モデル120に対話情報Xを入力することで、訓練済みの検出モデル120は、1番目の話者交代において所定の事象が発生した確率Yを出力する。同様に、評価部114は、訓練済みの検出モデル120に対話情報X、X及びXを入力することで、訓練済みの検出モデル120は、2番目、3番目及び4番目の話者交代において所定の事象が発生した確率Y、Y及びYを出力する。
【0059】
なお、検出モデル120は、機械学習モデル(例:回帰モデル、サポートベクターマシーン、決定木、ニューラルネットワーク)でもよい。検出モデル120は、個々の対話情報Xについて所定の事象が発生した確率Yを出力してもよいし、連続した複数の対話情報ごとに、所定の事象が発生した確率を出力してもよい。
【0060】
さらに、検出モデル120に入力される入力データは、対話情報D以外の特徴量を含んでもよい。具体的には、入力データは、話者交代の前後における主要話者の音声のピッチ又はパワーに関する音響特徴量(例:平均、分散)を含んでもよい。あるいは、入力データは、音声認識により取得された主要話者ごとの発話内容を示すテキスト情報を含んでもよい。
【0061】
(ステップS73)最後に、評価部114は、ステップS72において対話情報X(話者交代)ごとに検出された所定の事象(確率Y)に基づいて、評価結果300を生成する。例えば、評価部114は、確率Yが閾値以上である場合、対話情報Xに関連付けてアラート情報を生成する。評価部114は、対話情報Xごとに生成されたアラート情報などを統合することで、評価結果300を出力する。例えば、評価結果300は、表示装置としての出力IF14に表示される(図8参照)。
【0062】
図7は、本実施形態に係る対話情報Dの例を示す図である。図7のテーブル700は、図5のテーブル500A及びグラフ500Bにおける4つの話者交代のそれぞれについて抽出された対話情報Dを示す。
【0063】
テーブル700は、行方向に星印51、52、53及び54が付された各話者交代を示し、列方向に各話者交代に関する各項目を示す。各項目は、1列目「話者交代」、2列目「話者交代前の主要話者の発話区間の長さ」、3列目「話者交代後の主要話者の発話区間の長さ」、4列目「無音区間の有無」、5列目「無音区間の長さ」、6列目「重複区間の有無」及び7列目「重複区間の長さ」である。
【0064】
図8は、本実施形態に係る評価結果300の表示例を示す図である。会話評価装置1は、電話会議、ウェブ会議又はテレビ会議の終了後、会話の音声収録が終了したときに図3の動作を行うことで、評価結果300を事後的に出力してもよい(オフライン動作)。あるいは、会話評価装置1は、電話会議、ウェブ会議又はテレビ会議の実施中に、会話音声データ200をリアルタイムに取得しながら図3の動作を行うことで、評価結果300をリアルタイムに出力してもよい(リアルタイム動作)。
【0065】
(オフライン動作の例)例えば、3人の話者(A、B、C)が会議室において会議を行う場合を想定する。さらに、会議中に話者Aの発話を遮るように話者Bが発話し始め、以降も話者Bが一方的に長時間発話していたと想定する。会議の終了後、会話評価装置1は、会議室に設置された収音デバイスにより収集された会話音声データ200に基づいて、図3の動作を行う。
【0066】
グラフ800は、縦軸方向に3人の話者(A、B、C)を示し、横軸方向に各話者の発話区間を示す。各発話区間は、斜線の棒81により示される。特に、時間「05m00s」の付近において、話者Aから話者Bに話者交代が行われている。この話者交代の前後における対話情報Dに基づいて、威圧的な話者交代が検出された場合、当該話者交代に関連付けてアラート情報が表示される。例えば、アラート情報は、ボックス82により表現される。
【0067】
(リアルタイム動作の例1)同様に、3人の話者(A、B、C)が会議室において会議を行う場合を想定する。会話評価装置1は、会議室に設置された収音デバイスによりリアルタイムに収集された会話音声データ200に基づいて、図3の動作を行う。会話評価装置1は、会議中に閾値以上の回数にわたり威圧的な話者交代を検出した場合、「会議中に威圧的な話者交代が行われた可能性がある」旨を示すアラート情報を出力する。例えば、会話評価装置1は、このアラート情報を含む電子メールを、3人の話者(A、B、C)を管理する上司又は人事部の端末に送信する。
【0068】
(リアルタイム動作の例2)例えば、3人の話者(A、B、C)が1人の進行役Fの存在下において、オンライン会議を行う場合を想定する。会話評価装置1は、会議中にリアルタイムに収集された会話音声データ200に基づいて、図3の動作を行う。会話評価装置1は、会議の活性度を示す評価結果300を、進行役Fの端末にリアルタイムに送信する。さらに、会話評価装置1は、会議の活性度が所定の時間又は回数にわたり閾値以下である場合、「会議が不活発である」旨を示すアラート情報を出力する。例えば、会話評価装置1は、このアラート情報を含む電子メールを、進行役Fの端末に送信する。
【0069】
図9は、従来手法及び提案手法に係る会話分析の推定精度の例を示す図である。テーブル900は、異なる訓練手法により訓練された2つの検出モデル120による、3人の会話の活性度の推定精度を示す。検出モデル120には、決定木の一手法であるXGboost(eXtreme Gradient Boosting)が使用された。
【0070】
従来手法及び提案手法を比較するため、データセットとして、3人の話者による雑談会話10セッション分の音声データが用意された。この音声データは、合計で6280回分の主要話者の話者交代を含み、話者交代ごとに「活発」又は「不活発」を示すラベルが人手により付された。
【0071】
従来手法は、上記の話者交代ごとに、対話情報Dとして(1)重複区間の長さを付した。提案手法は、上記の話者交代ごとに、対話情報Dとして(1)重複区間の長さ、(2)無音区間の長さ、(3)話者交代前の主要話者の発話区間の長さ、及び(4)話者交代後の主要話者の発話区間の長さを付した。結果として、6280回分の主要話者の話者交代のそれぞれについて、対話情報D及びラベルを含むペアデータが作成された。
【0072】
次に、全てのペアデータのうち8割が訓練データとして分割され、残る2割が評価データとして分割された。この訓練データを用いて検出モデル120が訓練された。訓練済みの検出モデル120は、評価データに含まれるそれぞれの対話情報Dに相当するラベルを「活発」又は「不活発」として推定した。推定されたラベルが正解のラベルと比較されることで、訓練済みの検出モデル120によるラベルの推定精度が算出された。ラベルの推定精度の評価尺度には、F値(F-measure)が使用された。F値が「1.0」に近いほど、ラベルの推定精度はより高い。
【0073】
テーブル900によれば、従来手法により訓練された検出モデル120による、ラベル「活発」のF値は「0.46」であり、ラベル「不活発」のF値は「0.76」である。一方、提案手法により訓練された検出モデル120による、ラベル「活発」のF値は「0.66」であり、ラベル「不活発」のF値は「0.88」である。すなわち、従来手法に比較して、提案手法により訓練された検出モデル120の方が、ラベル「活発」及び「不活発」の推定精度が高いことが理解される。
【0074】
以上説明した本実施形態によれば、会話評価装置1は、複数の話者間のコミュニケーションの状態を適切に評価できる。特に、会話評価装置1は、複数の話者間の会話の状態を客観的に評価できる。
【0075】
第一に、会話評価装置1は、主要話者の話者交代において2つの発話区間が重複する場合、この重複が発生する前の第1話者の発話区間の長さと、この重複が発生した後の第2話者の発話区間の長さとを用いる。これにより、会話評価装置1は、第1話者及び第2話者のうちどちらが一方的に発話しているかを評価できる。換言すれば、会話評価装置1は、第1話者及び第2話者のうちどちらが威圧的に発話しているかを評価できる。
【0076】
第二に、会話評価装置1は、2話者の発話区間の長さと、2話者間の話者交代における無音区間の長さとを用いることで、2話者間の会話の活性度を評価できる。例えば、無音区間が短く、2話者の発話区間の長さが長い場合、会話評価装置1は、2話者間の会話が活発であると評価できる。反対に、無音区間が長く、2話者の発話区間の長さが短い場合、会話評価装置1は、2話者間の会話が不活発であると評価できる。
【0077】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0078】
1…会話評価装置、11…処理回路、12…記憶回路、13…入力IF、14…出力IF、15…通信IF、51,52,53,54…星印、81,510,520…棒、82…ボックス、111…取得部、112…推定部、113…特定部、114…評価部、115…システム制御部、120…検出モデル、200…会話音声データ、300…評価結果、500A,700,900…テーブル、500B,800…グラフ
図1
図2
図3
図4
図5
図6
図7
図8
図9