IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

7420216音声評価システム、音声評価方法、及びコンピュータプログラム
<>
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図1
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図2
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図3
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図4
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図5
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図6
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図7
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図8
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図9
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図10
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図11
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図12
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図13
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図14
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図15
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図16
  • -音声評価システム、音声評価方法、及びコンピュータプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-15
(45)【発行日】2024-01-23
(54)【発明の名称】音声評価システム、音声評価方法、及びコンピュータプログラム
(51)【国際特許分類】
   G10L 25/63 20130101AFI20240116BHJP
【FI】
G10L25/63
【請求項の数】 11
(21)【出願番号】P 2022507978
(86)(22)【出願日】2020-03-19
(86)【国際出願番号】 JP2020012381
(87)【国際公開番号】W WO2021186691
(87)【国際公開日】2021-09-23
【審査請求日】2022-08-29
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100107331
【弁理士】
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】幸田 芳紀
【審査官】大野 弘
(56)【参考文献】
【文献】特開2012-227712(JP,A)
【文献】特開2011-053557(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/63
(57)【特許請求の範囲】
【請求項1】
複数人からなる集団が発する音声を取得する取得手段と、
前記取得した音声から複数種類の感情に応じた要素を検出する検出手段と、
前記検出された要素に基づいて、前記取得した音声を評価する評価手段と
を備えることを特徴とする音声評価システム。
【請求項2】
前記評価手段は、前記複数種類の感情に応じた要素に基づいて、感情ごとに前記取得した音声を評価することを特徴とする請求項に記載の音声評価システム。
【請求項3】
前記評価手段は、前記取得した音声の評価結果を示す評価データを生成することを特徴とする請求項1又は2に記載の音声評価システム。
【請求項4】
前記評価手段は、前記評価データを時系列データとして生成することを特徴とする請求項に記載の音声評価システム。
【請求項5】
前記評価手段は、前記評価結果をグラフ化することで前記評価データを生成することを特徴とする請求項又はのいずれか一項に記載の音声評価システム。
【請求項6】
前記評価手段は、前記取得した音声の評価結果から、前記集団の周囲環境における異常の発生を検知することを特徴とする請求項1からのいずれか一項に記載の音声評価システム。
【請求項7】
前記取得手段は、前記集団が発する音声を複数の領域に分けて取得し、
前記評価手段は、前記領域ごとに前記取得した音声を評価する
ことを特徴とする請求項1からのいずれか一項に記載の音声評価システム。
【請求項8】
複数人からなる集団が発する音声を取得し、
前記取得した音声から複数種類の感情に応じた要素を検出し、
前記検出された要素に基づいて、前記取得した音声を評価する
ことを特徴とする音声評価方法。
【請求項9】
複数人からなる集団が発する音声を取得し、
前記取得した音声から複数種類の感情に応じた要素を検出し、
前記検出された要素に基づいて、前記取得した音声を評価する
ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
【請求項10】
複数人からなる集団が発する音声を取得する取得手段と、
前記取得した音声から感情に応じた要素を検出する検出手段と、
前記検出された要素に基づいて、前記取得した音声の評価結果を示す評価データを時系列データとして生成する評価手段と
を備えることを特徴とする音声評価システム。
【請求項11】
複数人からなる集団が発する音声を複数の領域に分けて取得する取得手段と、
前記取得した音声から感情に応じた要素を検出する検出手段と、
前記検出された要素に基づいて、前記取得した音声を前記領域ごとに評価する評価手段と
を備えることを特徴とする音声評価システム。
【発明の詳細な説明】
【技術分野】
【0001】
この開示は、音声を評価する音声評価システム、音声評価方法、及びコンピュータプログラムの技術分野に関する。
【背景技術】
【0002】
この種のシステムとして、発話音声を取得して、発話した人の感情を推定するシステムが知られている。例えば特許文献1では、コールセンターに電話をかけてきた顧客の音声から、怒りや困惑の感情を定量解析するという技術が開示されている。特許文献2では、入力音声データから抽出した音声特徴量のパラメータを用いて、感情を「笑い」、「怒り」、「悲しみ」などに分類する技術が開示されている。特許文献3では、対話音声データを入力として、喜怒、満足度、ストレス度、信頼度等の感情を数値化した定量的指標を出力する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2007-004001号公報
【文献】特開2005-354519号公報
【文献】特許第6517419号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した各特許文献では、主に一対一の会話を対象とするものであり、集団から発せられる音声に関する評価については考慮されていない。
【0005】
この開示は、上記した課題を解決するための音声評価システム、音声評価方法、及びコンピュータプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
この開示の音声評価システムの一の態様は、複数人からなる集団が発する音声を取得する取得手段と、前記取得した音声から感情に応じた要素を検出する検出手段と、前記検出された要素に基づいて、前記取得した音声を評価する評価手段とを備える。
【0007】
この開示の音声評価方法の一の態様は、複数人からなる集団が発する音声を取得し、前記取得した音声から感情に応じた要素を検出し、前記検出された要素に基づいて、前記取得した音声を評価する。
【0008】
この開示のコンピュータプログラムの一の態様は、複数人からなる集団が発する音声を取得し、前記取得した音声から感情に応じた要素を検出し、前記検出された要素に基づいて、前記取得した音声を評価するようにコンピュータを動作させる。
【図面の簡単な説明】
【0009】
図1】第1実施形態に係る音声評価システムの全体構成を示すブロック図である。
図2】第1実施形態に係る音声評価システムのハードウェア構成を示すブロック図である。
図3】第1実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
図4】第2実施形態に係る音声評価システムの全体構成を示すブロック図である。
図5】第2実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
図6】第3実施形態に係る音声評価システムの全体構成を示すブロック図である。
図7】第3実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
図8】第4実施形態に係る音声評価システムの全体構成を示すブロック図である。
図9】第4実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
図10】第5実施形態に係る評価データの表示例を示す図(その1)である。
図11】第5実施形態に係る評価データの表示例を示す図(その2)である。
図12】第5実施形態に係る評価データの表示例を示す図(その3)である。
図13】第5実施形態に係る評価データの表示例を示す図(その4)である。
図14】第5実施形態に係る評価データの表示例を示す図(その5)である。
図15】第6実施形態に係る音声評価システムの全体構成を示すブロック図である。
図16】第6実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
図17】第7実施形態に係る音声評価システムによるエリアごとの音声評価を示す概念図である。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら、音声評価システム、音声評価方法、及びコンピュータプログラムの実施形態について説明する。
【0011】
<第1実施形態>
第1実施形態に係る音声評価システムについて、図1から図3を参照して説明する。
【0012】
(システム構成)
まず、図1を参照しながら、第1実施形態に係る音声評価システムの全体構成について説明する。図1は、第1実施形態に係る音声評価システムの全体構成を示すブロック図である。
【0013】
図1において、第1実施形態に係る音声評価システム10は、集団が発する音声を評価可能なシステムとして構成されている。ここでの「集団」とは、複数人からなる人の集まりであり、具体的には、舞台やスポーツ観戦等の各種イベントの観客等が一例として挙げられる。音声評価システム10は、その機能を実現するための機能ブロックとして、音声取得部110と、感情要素検出部120と、音声評価部130とを備えている。
【0014】
音声取得部110は、集団が発する音声(以下、適宜「集団音声」と称する)を取得可能に構成されている。音声取得部110は、例えば集団ができる場所に設置されたマイクを含んで構成されている。また、音声取得部110は、取得した音声に対する各種処理(例えば、ノイズ除去処理や、特定の区間を抽出する処理等)を実行可能に構成されてよい。音声取得部110で取得された集団音声は、感情要素検出部120に出力される構成となっている。
【0015】
感情要素検出部120は、音声取得部110で取得した集団音声から感情要素を検出可能に構成されている。ここでの「感情要素」とは、音声に含まれる集団の感情を示す要素であり、例えば「喜び」の感情に対応する要素、「怒り」の感情に対応する要素、「哀しみ」の感情に対応する要素等が一例として挙げられる。感情要素検出部120は、予め設定した少なくとも1種類の感情要素を検出可能に構成されている。なお、音声から感情要素を検出する手法については、適宜既存の技術を採用することができるが、例えば音声の周波数解析を用いた手法や、ディープラーニングを用いた手法等を利用可能である。感情要素検出部120で検出された感情要素に関する情報は、音声評価部130に出力される構成となっている。
【0016】
音声評価部130は、感情要素検出部120で検出した感情要素に基づいて、集団音声を評価可能に構成されている。具体的には、音声評価部130は、集団音声から検出された感情要素から、集団の感情の度合いを評価可能に構成されている。音声評価部130は、例えば感情要素を数値化することで集団音声を評価する。例えば、「喜び」の感情に対応する要素が検出されている場合、音声評価部130は、集団の「喜び」の感情に対応するスコアを算出して評価を行う。具体的には、集団音声に「喜び」の感情に対応する要素が多く含まれている場合は、「喜び」の感情に対応するスコアを高い値として算出すればよい。一方、集団音声に「喜び」の感情に対応する要素が多く含まれていない場合は、「喜び」の感情に対応するスコアを低い値として算出すればよい。
【0017】
(ハードウェア構成)
次に、図2を参照しながら、第1実施形態に係る音声評価システム10のハードウェア構成について説明する。図2は、第1実施形態に係る音声評価システムのハードウェア構成を示すブロック図である。
【0018】
図2に示すように、第1実施形態に係る音声評価システム10は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。音声評価システム10は更に、入力装置15と、出力装置16とを備えていてもよい。プロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。なお、音声評価システム10は、プロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とを、それぞれ複数備えていてもよい。
【0019】
プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、音声評価システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、取得した音声を評価するための機能ブロックが実現される(図1参照)。なお、プロセッサ11として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(digital signal processor)、ASIC(application specific integrated circuit)の何れかを用いてもよい。また、これらのうち複数を並列に用いてもよい。
【0020】
RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
【0021】
ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
【0022】
記憶装置14は、音声評価システム10が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
【0023】
入力装置15は、音声評価システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。
【0024】
出力装置16は、音声評価システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、音声評価システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。
【0025】
(動作の流れ)
次に、図3を参照しながら、第1実施形態に係る音声評価システム10の動作の流れについて説明する。図3は、第1実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
【0026】
図3に示すように、第1実施形態に係る音声評価システム10の動作時には、まず音声取得部110が集団音声を取得する(ステップS11)。なお、音声取得部110は、音声を常時取得してもよいし、所定期間にのみ取得するようにしてもよい。或いは、音声取得部110は、音声を常時取得して所定期間の音声のみを抽出するような処理を実行してもよい。
【0027】
続いて、感情要素検出部120が、音声取得部110で取得された集団音声から感情要素を検出する(ステップS12)。そして、音声評価部130が、感情要素検出部120で検出された感情要素に基づいて集団音声を評価する(ステップS13)。なお、音声評価部130による評価結果は、例えば図示せぬ表示装置等に出力されてよい。
【0028】
(技術的効果)
次に、第1実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
【0029】
例えば、舞台、スポーツ観戦等、各種イベントの会場では、盛り上がりによって集団から発せられる音声(例えば、歓声や悲鳴等)が変化する。このため、このような音声を適切に評価することができれば、そのイベントがどの程度来場者に受け入れられたのか判断できると考えられる。
【0030】
図1から図3で説明したように、第1実施形態に係る音声評価システム10では、集団が発する集団音声から感情要素を検出して評価が行われる。よって、第1実施形態に係る音声評価システム10によれば、集団音声を利用して、集団の感情を適切に評価することが可能である。例えば、第1実施形態に係る音声評価システム10では、大勢の観客を集めるイベント等において、その音声から観客の盛り上がり等を数値化して評価することができる。よって、そのイベントが成功したか否かを客観的に評価することが可能となる。
【0031】
なお、第1実施形態に係る音声評価システム10は、集団が発する集団音声を評価するため、例えば一人ひとりから音声を取得するのが困難な状況であっても、集団全体としての感情を適切に評価することが可能である。また、顔画像等を用いずに音声のみで評価ができるため、照明が暗い環境下においても適切に集団の感情を評価することができる。
【0032】
<第2実施形態>
第2実施形態に係る音声評価システムについて、図4及び図5を参照して説明する。なお、第2実施形態は、上述した第1実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分ついては概ね同様である。よって、以下では第1実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
【0033】
(システム構成)
まず、図4を参照しながら、第2実施形態に係る音声評価システムの全体構成について説明する。図4は、第2実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図4では、図1で示した構成要素と同様のものに同一の符号を付している。
【0034】
図4に示すように、第2実施形態に係る音声評価システム10は、音声取得部110が、発生区間記録部111と、無音区間記録部112とを備えている。感情要素検出部120が、第1要素検出部121と、第2要素検出部122と、第3要素検出部123と、第4要素検出部124とを備えている。
【0035】
発生区間記録部111は、集団が音声を発している区間で取得された音声を記録する。発生区間記録部111で記録された音声は、感情要素検出部120に出力される構成となっている。一方、無音区間記録部112は、集団が音声を発していない区間(例えば、音量が所定閾値以下となるような区間)を記録する。無音区間記録部112で記録された区間については、感情要素検出部120には出力されず、評価データ生成部140に直接出力される構成となっている(言い換えれば、評価対象から外されている)。このようにすれば、音声評価する区間を限定してシステムの処理負荷を低減することができる。
【0036】
第1要素検出部121、第2要素検出部122、第3要素検出部123、及び第4要素検出部124は、それぞれ異なる感情要素を検出可能に構成されている。例えば、第1要素検出部121は「喜び」の感情に対応する感情要素を検出し、第2要素検出部122は「怒り」の感情に対応する感情要素を検出し、第3要素検出部123は「哀しみ」の感情に対応する感情要素を検出し、第4要素検出部124は「楽しみ」の感情に対応する感情要素を検出してもよい。
【0037】
(ハードウェア構成)
第2実施形態に係る音声評価システム10のハードウェア構成については、第1実施形態に係る音声評価システム10のハードウェア構成(図2参照)と同一であってもよいため、その説明については省略する。
【0038】
(動作の流れ)
次に、図5を参照しながら、第2実施形態に係る音声評価システム10の動作の流れについて説明する。図5は、第2実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
【0039】
図5に示すように、第2実施形態に係る音声評価システム10の動作時には、まず音声取得部110が集団音声を取得する(ステップS21)。また音声取得部110は、取得した音声から、実際に集団が音声を発生している区間の音声を抽出する(ステップS22)。具体的には、集団が音声を発している区間の音声を発生区間記録部111が記録し、集団が音声を発していない区間を無音区間記録部112が記録する。
【0040】
続いて、感情要素検出部120が、音声取得部110で取得された集団音声から感情要素を検出する(ステップS23)。具体的には、第1要素検出部121、第2要素検出部122、第3要素検出部123、及び第4要素検出部124が、それぞれ異なる感情に対応する感情要素を検出する。
【0041】
第1要素検出部121、第2要素検出部122、第3要素検出部123、及び第4要素検出部124で検出された各感情要素は、それぞれ音声評価部130に入力される。そして、音声評価部130が、感情要素検出部120で検出された感情要素に基づいて集団音声を評価する(ステップS24a)。
【0042】
(技術的効果)
次に、第2実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
【0043】
図4及び図5で説明したように、第2実施形態に係る音声評価システム10では、感情要素検出部120に、第1要素検出部121、第2要素検出部122、第3要素検出部123、及び第4要素検出部124が備えられているため、音声取得部110で取得した音声から、複数種類の感情要素を検出することが可能である。これにより、感情の種類に応じた音声評価を実現することが可能となる。
【0044】
<第3実施形態>
第3実施形態に係る音声評価システムについて、図6及び図7を参照して説明する。なお、第3実施形態は、上述した第1及び第2実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分ついては概ね同様である。よって、以下では第1及び第2実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
【0045】
(システム構成)
まず、図6を参照しながら、第3実施形態に係る音声評価システムの全体構成について説明する。図6は、第3実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図6では、図1及び図4で示した構成要素と同様のものに同一の符号を付している。
【0046】
図6に示すように、第3実施形態に係る音声評価システム10は、音声評価部130が、第1評価部131と、第2評価部132と、第3評価部133と、第4評価部134とを備えている。
【0047】
第1評価部131は、第1要素検出部121が検出した感情要素に基づいて音声を評価可能に構成されている。第2評価部132は、第2要素検出部122が検出した感情要素に基づいて音声を評価可能に構成されている。第3評価部133は、第3要素検出部123が検出した感情要素に基づいて音声を評価可能に構成されている。第4評価部134は、第4要素検出部124が検出した感情要素に基づいて音声を評価可能に構成されている。
【0048】
(ハードウェア構成)
第3実施形態に係る音声評価システム10のハードウェア構成については、第1実施形態に係る音声評価システム10のハードウェア構成(図2参照)と同一であってもよいため、その説明については省略する。
【0049】
(動作の流れ)
次に、図7を参照しながら、第3実施形態に係る音声評価システム10の動作の流れについて説明する。図7は、第3実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
【0050】
図7に示すように、第3実施形態に係る音声評価システム10の動作時には、まず音声取得部110が集団音声を取得する(ステップS21)。また音声取得部110は、取得した音声から、実際に集団が音声を発生している区間の音声を抽出する(ステップS22)。
【0051】
続いて、感情要素検出部120が、音声取得部110で取得された集団音声から感情要素を検出する(ステップS23)。具体的には、第1要素検出部121、第2要素検出部122、第3要素検出部123、及び第4要素検出部124が、それぞれ異なる感情に対応する感情要素を検出する。第1要素検出部121、第2要素検出部122、第3要素検出部123、及び第4要素検出部124で検出された各感情要素は、それぞれ音声評価部130に入力される。
【0052】
続いて、音声評価部130が、感情要素検出部120で検出された感情要素に基づいて集団音声を評価する(ステップS24)。具体的には、第1評価部131、第2評価部132、第3評価部133、及び第4評価部134が、第1要素検出部121、第2要素検出部122、第3要素検出部123、及び第4要素検出部124で検出された感情要素に基づく評価を別々に行う。
【0053】
(技術的効果)
次に、第3実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
【0054】
図6及び図7で説明したように、第3実施形態に係る音声評価システム10では、音声評価部130に、第1評価部131、第2評価部132、第3評価部133、及び第4評価部134が備えられているため、第1要素検出部121、第2要素検出部122、第3要素検出部123、及び第4要素検出部124で検出した複数種類の感情要素の各々について、別々に音声評価を行うことが可能となる。
【0055】
<第4実施形態>
第4実施形態に係る音声評価システムについて、図8及び図9を参照して説明する。なお、第4実施形態は、上述した第1から第3実施形態と比べて一部の動作が異なるのみであり、その他の部分ついては概ね同様である。よって、以下では第1から第3実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
【0056】
(システム構成)
まず、図8を参照しながら、第4実施形態に係る音声評価システムの全体構成について説明する。図8は、第4実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図8では、図1図4、及び図6で示した構成要素と同様のものに同一の符号を付している。
【0057】
図8に示すように、第4実施形態に係る音声評価システム10は、第3実施形態の構成要素(図6参照)に加えて、評価データ生成部140を備えている。なお、第4実施形態に係る音声評価システム10は、第1実施形態の構成要素(図1参照)に加えて、評価データ生成部140を備えたものであってもよい。或いは、第4実施形態に係る音声評価システム10は、第2実施形態の構成要素(図4参照)に加えて、評価データ生成部140を備えたものであってもよい。
【0058】
評価データ生成部140は、第1評価部131、第2評価部132、第3評価部133、及び第4評価部134の評価結果、並びに無音区間記録部112に記憶されている区間の情報を統合して、評価データを生成可能に構成されている。評価データは、音声評価システム10のユーザが評価結果を適切に把握するためのデータとして生成される。評価データの具体例については、後の第5実施形態で詳しく説明する。
【0059】
(ハードウェア構成)
第4実施形態に係る音声評価システム10のハードウェア構成については、第1実施形態に係る音声評価システム10のハードウェア構成(図2参照)と同一であってもよいため、その説明については省略する。なお、評価データ生成部140については、例えばプロセッサ11(図2参照)により実現すればよい。
【0060】
(動作の流れ)
次に、図9を参照しながら、第4実施形態に係る音声評価システム10の動作の流れについて説明する。図9は、第4実施形態に係る音声評価システムの動作の流れを示すフローチャートである。
【0061】
図9に示すように、第4実施形態に係る音声評価システム10の動作時には、まず音声取得部110が集団音声を取得する(ステップS21)。また音声取得部110は、取得した音声から、実際に集団が音声を発生している区間の音声を抽出する(ステップS22)。
【0062】
続いて、感情要素検出部120が、音声取得部110で取得された集団音声から感情要素を検出する(ステップS23)。具体的には、第1要素検出部121、第2要素検出部122、第3要素検出部123、及び第4要素検出部124が、それぞれ異なる感情に対応する感情要素を検出する。そして、音声評価部130が、感情要素検出部120で検出された感情要素に基づいて集団音声を評価する(ステップS24)。具体的には、第1評価部131、第2評価部132、第3評価部133、及び第4評価部134が、それぞれ異なる感情要素を用いて集団音声を評価する。
【0063】
続いて、評価データ生成部140が、集団音声の評価結果から評価データを生成する(ステップS25)。なお、評価データ生成部140で生成された評価データは、例えば図示せぬ表示装置等に出力されてよい。
【0064】
(技術的効果)
次に、第4実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
【0065】
図8及び図9で説明したように、第4実施形態に係る音声評価システム10では、評価データ生成部140によって評価データが生成される。よって、評価データを用いて、集団音声の評価結果を適切に把握することが可能となる。
【0066】
<第5実施形態>
次に、第5実施形態に係る音声評価ステム10について、図10から図14を参照して説明する。なお、第5実施形態は、上述した第4実施形態の評価データ生成部140で生成される評価データの具体例を示すものである。よって、システム構成、ハードウェア構成、及び動作の流れについては、第4実施形態と同一であってもよいため、詳しい説明を省略するものとする。
【0067】
図10から図14を参照しながら、評価データ生成部140で生成される評価データの具体例について説明する。図10は、第5実施形態に係る評価データの表示例を示す図(その1)である。図11は、第5実施形態に係る評価データの表示例を示す図(その2)である。図12は、第5実施形態に係る評価データの表示例を示す図(その3)である。図13は、第5実施形態に係る評価データの表示例を示す図(その4)である。図14は、第5実施形態に係る評価データの表示例を示す図(その5)である。なお、以下では、音声評価システム10が「喜び」、「怒り」、「哀しみ」、「楽しみ」の4種類の感情を評価する例を挙げて説明する。
【0068】
図10に示すように、評価用データは、各感情の大きさを棒グラフで示すものとして生成されてよい。図10に示す例では、「喜び」の感情が最も大きく、それと比べて「怒り」、「哀しみ」、「楽しみ」の感情は小さいことが直感的に分かる。
【0069】
図11に示すように、評価用データは、各感情の大きさを円の大きさで示すものとして生成されてよい。図11に示す例では、「怒り」の感情が最も大きく、それと比べて「喜び」、「哀しみ」、「楽しみ」の感情は小さいことが直感的に分かる。
【0070】
図12に示すように、評価用データは、各感情の大きさを数値化した表で示すものとして生成されてよい。図12に示す例では、「喜び」の感情が“70”、「怒り」の感情が“10”、「哀しみ」の感情が“5”、「楽しみ」の感情が“15”となっており、各感情の大きさをより正確に把握することができる。
【0071】
図13に示すように、評価用データは、各感情の大きさの時間軸上での変化を示すもの(言い換えれば、時系列データ)として生成されてよい。図13に示す例では、「喜び」の感情が、時間とともにどのように変化しているかを具体的に把握することができる。このような評価データによれば、イベントの盛り上がりのタイミング等を正確に把握することができる。なお、ここでは「喜び」の感情に対応するグラフのみを図示しているが、他の感情に対応するグラフとの切り替えや、他の感情に対応するグラフを含めた一覧表示等が可能とされてよい。
【0072】
図14に示すように、評価用データは、動画を表示する動画領域D1と、各感情の大きさを示すグラフを表示するグラフ領域D2とを含むデータとして生成されてよい。動画領域D1では、イベントの様子を撮影した動画が再生でき、シークバーSBを操作することで所望のタイミングに移動することができる。一方、グラフ領域D2では、動画領域D1で表示されている動画の再生タイミングに応じた各感情の大きさが棒グラフとして示される。このようにすれば、実際にどのような状況で、どのように集団の感情が変化したのかを把握することができる。
【0073】
以上の各表示例は、適宜組み合わせて利用することも可能である。また、上述した評価データの表示例はあくまで一例であり、評価データは、その他の表示態様で表示されても構わない。
【0074】
(技術的効果)
次に、第5実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
【0075】
図10から図14で説明したように、第5実施形態に係る音声評価システム10では、集団音声の評価結果を分かりやすく示す評価データが生成される。よって、第5実施形態に係る音声評価システム10によれば、集団音声の評価結果を適切に把握する(例えば、より直感的に或いはより正確に把握する)ことが可能となる。
【0076】
<第6実施形態>
第6実施形態に係る音声評価システムについて、図15及び図16を参照して説明する。なお、第6実施形態は、上述した第1から第5実施形態と比べて一部の構成や動作が異なるのみであり、その他の部分については概ね同様である。よって、以下では第1から第5実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
【0077】
(システム構成)
まず、図15を参照しながら、第6実施形態に係る音声評価システムの全体構成について説明する。図15は、第6実施形態に係る音声評価システムの全体構成を示すブロック図である。なお、図15では、図1図4図6及び図8で示した構成要素と同様のものに同一の符号を付している。
【0078】
図15に示すように、第6実施形態に係る音声評価システム10は、第4実施形態に係る構成要素(図6参照)に加えて、感情要素検出部120が、悲鳴要素検出部125を備えている。また、音声評価部130が、異常判定部135を備えている。
【0079】
悲鳴要素検出部125は、音声取得部110が取得した音声から悲鳴に対応する感情要素(以下、適宜「悲鳴要素」と称する)を検出可能に構成されている。なお、ここでの「悲鳴」とは、集団の周囲環境において異常が発生した際(例えば、地震等の自然災害時)に集団から発せられる悲鳴であり、例えば歓声と同種の悲鳴とは明確に区別されている。なお、異常発生時の悲鳴と、他の悲鳴との区別は、例えばニューラルネットワークを用いた機械学習等によって実現することができる。悲鳴要素検出部125で検出された悲鳴要素に関する情報は、異常判定部135に出力される構成となっている。
【0080】
異常判定部135は、悲鳴要素検出部125で検出した悲鳴要素に基づいて、集団の周囲環境において異常が発生したか否かを判定可能に構成されている。異常判定部135は、悲鳴要素を用いた評価結果として得られる悲鳴に対応する感情の大きさに基づいて異常が発生したか否かを判定する。例えば、異常判定部135は、悲鳴要素から悲鳴に対応する感情のスコアを算出し、そのスコアが所定閾値を超えている場合には異常が発生しており、超えていない場合には異常が発生していないと判定すればよい。
【0081】
(ハードウェア構成)
第6実施形態に係る音声評価システム10のハードウェア構成については、第1実施形態に係る音声評価システム10のハードウェア構成(図2参照)と同一であってもよいため、その説明については省略する。
【0082】
(動作の流れ)
次に、図16を参照しながら、第6実施形態に係る音声評価システム10の動作の流れについて説明する。図16は、第6実施形態に係る音声評価システムの動作の流れを示すフローチャートである。なお、図16では、図5図7、及び図9で示した処理と同様の処理に同一の符号を付している。
【0083】
図16に示すように、第6実施形態に係る音声評価システム10の動作時には、まず音声取得部110が集団音声を取得する(ステップS21)。また音声取得部110は、取得した音声から、実際に集団が音声を発生している区間の音声を抽出する(ステップS22)。
【0084】
続いて、感情要素検出部120が、音声取得部110で取得された集団音声から感情要素を検出する(ステップS23)。具体的には、第1要素検出部121、第2要素検出部122、第3要素検出部123、及び第4要素検出部124が、それぞれ異なる感情に対応する感情要素を検出する。加えて、第6実施形態では特に、悲鳴要素検出部125が悲鳴要素を検出する(ステップS31)。
【0085】
続いて、音声評価部130が、感情要素検出部120で検出された感情要素に基づいて集団音声を評価する(ステップS24)。具体的には、第1評価部131、第2評価部132、第3評価部133、及び第4評価部134が、それぞれ異なる感情要素を用いて集団音声を評価する。また、第6実施形態では特に、異常判定部135が、悲鳴要素検出部125で検出された悲鳴要素に基づいて、集団の周囲環境で異常が発生しているか否かを判定する(ステップS32)
【0086】
続いて、評価データ生成部140が、集団音声の評価結果から評価データを生成する(ステップS25)。ここで特に、異常判定部135で異常が発生していると判定された場合、評価データ生成部140は、異常に関する情報(例えば、以上の発生タイミング等)を含むものとして生成される。或いは、評価データ生成部140は、通常の評価データとは別に、異常の発生を知らせる異常報知データを生成するようにしてもよい。この場合、異常報知データは、例えばイベント会場のアラーム等の動作を制御するデータを含んでいてもよい。
【0087】
(技術的効果)
次に、第6実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
【0088】
図15及び図16で説明したように、第6実施形態に係る音声評価システム10では、悲鳴要素に基づいて異常が発生しているか否かが判定される。よって、第6実施形態に係る音声評価システム10によれば、音声から集団の感情を評価するだけでなく、集団の周囲環境における異常の発生を検知することが可能である。
【0089】
<第7実施形態>
第7実施形態に係る音声評価システムについて、図17を参照して説明する。なお、第7実施形態は、上述した第1から第6実施形態と比べて一部の構成や動作が異なるのみであり、その他の部分については概ね同様である。よって、以下では第1から第6実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
【0090】
(システム構成)
第7実施形態に係る音声評価システム10の全体構成については、第1から第6実施形態に係る音声評価システム10の全体構成(図1図4図6図8、及び図15参照)と同一であってもよいため、その説明については省略する。
【0091】
(ハードウェア構成)
第7実施形態に係る音声評価システム10のハードウェア構成については、第1実施形態に係る音声評価システム10のハードウェア構成(図2参照)と同一であってもよいため、その説明については省略する。
【0092】
(領域ごとの音声評価)
次に、図17を参照しながら、第7実施形態に係る音声評価システム10で実行可能な領域ごとの音声評価について説明する。図17は、第7実施形態に係る音声評価システムによるエリアごとの音声評価を示す概念図である。以下では、舞台の観客である集団が発する音声を評価するケースを例にして説明する。
【0093】
図17に示すように、第7実施形態に係る音声評価システム10では、集団が事前に複数のエリアに分けられる。図に示す例では、舞台の500が、エリアA、エリアB、及びエリアCの3つのエリアに分けられている。
【0094】
エリアA、エリアB、及びエリアCの各集団が発する音声は、それぞれ異なる音声として取得可能とされている。具体的には、エリアAの集団が発する音声はマイク200aで取得可能に構成されている。エリアBの集団が発する音声はマイク200bで取得可能に構成されている。エリアCの集団が発する音声はマイク200cで取得可能に構成されている。なお、各マイク200a~cは、音声取得部110の一部として構成されるものであり、エリアA~Cの音声は、それぞれ音声取得部110に取得されることになる。
【0095】
(動作の流れ)
第7実施形態に係る音声評価システム10の動作時には、各エリア(例えば、図17のエリアA、エリアB、及びエリアC)から取得された音声の各々について、第1から第6実施形態に係る音声評価システム10と同様の処理(図3図5図7図9、及び図16参照)が実行される。即ち、エリアごとに同様の処理が実行されるのみで、処理自体に変更はない。このため、具体的な処理の流れについては説明を省略する。
【0096】
(技術的効果)
次に、第7実施形態に係る音声評価システム10によって得られる技術的効果の一例について説明する。
【0097】
図17で説明したように、第7実施形態に係る音声評価システム10では、複数の領域に分けて集団音声が取得され、領域ごとに音声が評価される。この結果、音声の評価結果(或いは、評価データ)は、領域ごとに得られることになる。よって、第7実施形態に係る音声評価システム10によれば、1つの集団を領域ごとに分けて、それぞれの領域ごとに集団の感情を評価することが可能である。
【0098】
<付記>
以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
【0099】
(付記1)
付記1に記載の視点位置推定システムは、複数人からなる集団が発する音声を取得する取得手段と、前記取得した音声から感情に応じた要素を検出する検出手段と、前記検出された要素に基づいて、前記取得した音声を評価する評価手段とを備えることを特徴とする音声評価システムである。
【0100】
(付記2)
付記2に記載の音声評価システムは、前記検出手段は、前記取得した音声から複数種類の感情に応じた要素を検出することを特徴とする付記1に記載の音声評価システムである。
【0101】
(付記3)
付記3に記載の音声評価システムは、前記評価手段は、前記複数種類の感情に応じた要素に基づいて、感情ごとに前記取得した音声を評価することを特徴とする付記2に記載の音声評価システムである。
【0102】
(付記4)
付記4に記載の音声評価システムは、前記評価手段は、前記取得した音声の評価結果を示す評価データを生成することを特徴とする付記1から3のいずれか一項に記載の音声評価システムである。
【0103】
(付記5)
付記5に記載の音声評価システムは、前記評価手段は、前記評価データを時系列データとして生成することを特徴とする付記4に記載の音声評価システムである。
【0104】
(付記6)
付記6に記載の音声評価システムは、前記評価手段は、前記評価結果をグラフ化することで前記評価データを生成することを特徴とする付記4又は5のいずれか一項に記載の音声評価システムである。
【0105】
(付記7)
付記7に記載の音声評価システムは、前記評価手段は、前記取得した音声の評価結果から、前記集団の周囲環境における異常の発生を検知することを特徴とする付記1から6のいずれか一項に記載の音声評価システムである。
【0106】
(付記8)
付記8に記載の音声評価システムは、前記取得手段は、前記集団が発する音声を複数の領域に分けて取得し、前記評価手段は、前記領域ごとに前記取得した音声を評価することを特徴とする付記1から7のいずれか一項に記載の音声評価システムである。
【0107】
(付記9)
付記9に記載の音声評価方法は、複数人からなる集団が発する音声を取得し、前記取得した音声から感情に応じた要素を検出し、前記検出された要素に基づいて、前記取得した音声を評価することを特徴とする音声評価方法である。
【0108】
(付記10)
付記10に記載のコンピュータプログラムは、複数人からなる集団が発する音声を取得し、前記取得した音声から感情に応じた要素を検出し、前記検出された要素に基づいて、前記取得した音声を評価するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
【0109】
この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う音声評価システム、音声評価方法、及びコンピュータプログラムもまたこの開示の技術思想に含まれる。
【符号の説明】
【0110】
10 音声評価システム
110 音声取得部
111 発生区間記録部
112 無音区間記録部
120 感情要素検出部
121 第1要素検出部
122 第2要素検出部
123 第3要素検出部
124 第4要素検出部
125 悲鳴要素検出部
130 音声評価部
131 第1評価部
132 第2評価部
133 第3評価部
134 第4評価部
135 異常判定部
140 評価データ生成部
200 マイク
500 観客席
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17