【国等の委託研究の成果に係る記載事項】(出願人による申告)国等の委託研究の成果に係る特許出願(独立行政法人情報処理推進機構 先進的IoTプロジェクト支援事業(アクティブ・ラーニング型授業を定量評価する議論評価サービスの開発と市場開拓)に関する委託契約、産業技術力強化法第19条の適用を受ける特許出願)
【文献】
横山ひとみ 他,"自動推定された発話交替パターンに基づく会話状態の推定可能性",Human Interface 2015 論文集,2015年 9月 1日,pp.939-943
(58)【調査した分野】(Int.Cl.,DB名)
前記出力部は、前記複数の参加者それぞれについて算出された前記発言量のばらつきの程度が小さい順に、前記発言量の時間変化を互いに積み上げた前記グラフを出力する、請求項4に記載の音声分析装置。
前記出力部は、前記複数の参加者それぞれについて算出された前記区間ごとの前記発言量のばらつきの程度が小さい順に、前記区間ごとに前記発言量の時間変化を互いに積み上げた前記グラフを出力する、請求項5に記載の音声分析装置。
前記グラフ及び前記区間を示す情報に加えて、前記音声の時間内に発生したイベントを示す情報を、前記グラフ上に出力する、請求項1から6のいずれか一項に記載の音声分析装置。
前記分析部は、所定の時間窓内に参加者の発言を行った時間の長さを、前記時間窓の長さで割った値を、前記発言量として特定する、請求項1から7のいずれか一項に記載の音声分析装置。
【発明を実施するための形態】
【0019】
[音声分析システムSの概要]
図1は、本実施形態に係る音声分析システムSの模式図である。音声分析システムSは、音声分析装置100と、集音装置10と、通信端末20とを含む。音声分析システムSが含む集音装置10及び通信端末20の数は限定されない。音声分析システムSは、その他のサーバ、端末等の機器を含んでもよい。
【0020】
音声分析装置100、集音装置10及び通信端末20は、ローカルエリアネットワーク、インターネット等のネットワークNを介して接続される。音声分析装置100、集音装置10及び通信端末20のうち少なくとも一部は、ネットワークNを介さず直接接続されてもよい。
【0021】
集音装置10は、異なる向きに配置された複数の集音部(マイクロフォン)を含むマイクロフォンアレイを備える。例えばマイクロフォンアレイは、地面に対する水平面において、同一円周上に等間隔で配置された8個のマイクロフォンを含む。集音装置10は、マイクロフォンアレイを用いて取得した音声をデータとして音声分析装置100に送信する。
【0022】
通信端末20は、有線又は無線の通信を行うことが可能な通信装置である。通信端末20は、例えばスマートフォン端末等の携帯端末、又はパーソナルコンピュータ等のコンピュータ端末である。通信端末20は、分析者から分析条件の設定を受け付けるとともに、音声分析装置100による分析結果を表示する。
【0023】
音声分析装置100は、集音装置10によって取得された音声を、後述の音声分析方法によって分析するコンピュータである。また、音声分析装置100は、音声分析の結果を通信端末20に送信する。
【0024】
[音声分析システムSの構成]
図2は、本実施形態に係る音声分析システムSのブロック図である。
図2において、矢印は主なデータの流れを示しており、
図2に示していないデータの流れがあってよい。
図2において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、
図2に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。
【0025】
通信端末20は、各種情報を表示するための表示部21と、分析者による操作を受け付けるための操作部22とを有する。表示部21は、液晶ディスプレイ、有機エレクトロルミネッセンス(OLED: Organic Light Emitting Diode)ディスプレイ等の表示装置を含む。操作部22は、ボタン、スイッチ、ダイヤル等の操作部材を含む。表示部21として分析者による接触の位置を検出可能なタッチスクリーンを用いることによって、表示部21と操作部22とを一体に構成してもよい。
【0026】
音声分析装置100は、制御部110と、通信部120と、記憶部130とを有する。制御部110は、設定部111と、音声取得部112と、音源定位部113と、分析部114と、区間設定部115と、出力部116とを有する。記憶部130は、設定情報記憶部131と、音声記憶部132と、分析結果記憶部133とを有する。
【0027】
通信部120は、ネットワークNを介して集音装置10及び通信端末20との間で通信をするための通信インターフェースである。通信部120は、通信を実行するためのプロセッサ、コネクタ、電気回路等を含む。通信部120は、外部から受信した通信信号に所定の処理を行ってデータを取得し、取得したデータを制御部110に入力する。また、通信部120は、制御部110から入力されたデータに所定の処理を行って通信信号を生成し、生成した通信信号を外部に送信する。
【0028】
記憶部130は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクドライブ等を含む記憶媒体である。記憶部130は、制御部110が実行するプログラムを予め記憶している。記憶部130は、音声分析装置100の外部に設けられてもよく、その場合に通信部120を介して制御部110との間でデータの授受を行ってもよい。
【0029】
設定情報記憶部131は、通信端末20において分析者によって設定された分析条件を示す設定情報を記憶する。音声記憶部132は、集音装置10によって取得された音声を記憶する。分析結果記憶部133は、音声を分析した結果を示す分析結果を記憶する。設定情報記憶部131、音声記憶部132及び分析結果記憶部133は、それぞれ記憶部130上の記憶領域であってもよく、あるいは記憶部130上で構成されたデータベースであってもよい。
【0030】
制御部110は、例えばCPU(Central Processing Unit)等のプロセッサであり、記憶部130に記憶されたプログラムを実行することにより、設定部111、音声取得部112、音源定位部113、分析部114、区間設定部115及び出力部116として機能する。設定部111、音声取得部112、音源定位部113、分析部114、区間設定部115及び出力部116の機能については、
図3〜
図9を用いて後述する。制御部110の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部110の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。
【0031】
本実施形態に係る音声分析システムSは、
図2に示す具体的な構成に限定されない。例えば音声分析装置100は、1つの装置に限られず、2つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。
【0032】
[音声分析方法の説明]
図3は、本実施形態に係る音声分析システムSが行う音声分析方法の模式図である。まず分析者は、通信端末20の操作部22を操作することによって、分析条件の設定を行う。例えば分析条件は、分析対象とする議論の参加者の人数と、集音装置10を基準とした各参加者(すなわち、複数の参加者それぞれ)が位置する向きとを示す情報である。通信端末20は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置100に送信する(a)。音声分析装置100の設定部111は、通信端末20から設定情報を取得して設定情報記憶部131に記憶させる。
【0033】
図4は、設定画面Aを表示している通信端末20の表示部21の前面図である。通信端末20は、表示部21上に設定画面Aを表示し、分析者による分析条件の設定を受け付ける。設定画面Aは、位置設定領域A1と、開始ボタンA2と、終了ボタンA3とを含む。位置設定領域A1は、分析対象の議論において、集音装置10を基準として各参加者Uが実際に位置する向きを設定する領域である。例えば位置設定領域A1は、
図4のように集音装置10の位置を中心とした円を表し、さらに円に沿って集音装置10を基準とした角度を表している。
【0034】
分析者は、通信端末20の操作部22を操作することによって、位置設定領域A1において各参加者Uの位置を設定する。各参加者Uについて設定された位置の近傍には、各参加者Uを識別する識別情報(ここではU1〜U4)が割り当てられて表示される。
図4の例では、4人の参加者U1〜U4が設定されている。位置設定領域A1内の各参加者Uに対応する部分は、参加者ごとに異なる色で表示される。これにより、分析者は容易に各参加者Uが設定されている向きを認識することができる。
【0035】
開始ボタンA2及び終了ボタンA3は、それぞれ表示部21上に表示された仮想的なボタンである。通信端末20は、分析者によって開始ボタンA2が押下されると、音声分析装置100に開始指示の信号を送信する。通信端末20は、分析者によって終了ボタンA3が押下されると、音声分析装置100に終了指示の信号を送信する。本実施形態では、分析者による開始指示から終了指示までを1つの議論とする。
【0036】
音声分析装置100の音声取得部112は、通信端末20から開始指示の信号を受信した場合に、音声の取得を指示する信号を集音装置10に送信する(b)。集音装置10は、音声分析装置100から音声の取得を指示する信号を受信した場合に、音声の取得を開始する。また、音声分析装置100の音声取得部112は、通信端末20から終了指示の信号を受信した場合に、音声の取得の終了を指示する信号を集音装置10に送信する。集音装置10は、音声分析装置100から音声の取得の終了を指示する信号を受信した場合に、音声の取得を終了する。
【0037】
集音装置10は、複数の集音部においてそれぞれ音声を取得し、各集音部に対応する各チャネルの音声として内部に記録する。そして集音装置10は、取得した複数のチャネルの音声を、音声分析装置100に送信する(c)。集音装置10は、取得した音声を逐次送信してもよく、あるいは所定量又は所定時間の音声を送信してもよい。また、集音装置10は、取得の開始から終了までの音声をまとめて送信してもよい。音声分析装置100の音声取得部112は、集音装置10から音声を受信して音声記憶部132に記憶させる。
【0038】
音声分析装置100は、集音装置10から取得した音声を用いて、所定のタイミングで音声を分析する。音声分析装置100は、分析者が通信端末20において所定の操作によって分析指示を行った際に、音声を分析してもよい。この場合には、分析者は分析対象とする議論に対応する音声を音声記憶部132に記憶された音声の中から選択する。
【0039】
また、音声分析装置100は、音声の取得が終了した際に音声を分析してもよい。この場合には、取得の開始から終了までの音声が分析対象の議論に対応する。また、音声分析装置100は、音声の取得の途中で逐次(すなわちリアルタイム処理で)音声を分析してもよい。この場合には、音声分析装置100は、現在時間から遡って過去の所定時間分(例えば30秒間)の音声が分析対象の議論に対応する。
【0040】
音声を分析する際に、まず音源定位部113は、音声取得部112が取得した複数チャネルの音声に基づいて音源定位を行う(d)。音源定位は、音声取得部112が取得した音声に含まれる音源の向きを、時間ごと(例えば10ミリ秒〜100ミリ秒ごと)に推定する処理である。音源定位部113は、時間ごとに推定した音源の向きを、設定情報記憶部131に記憶された設定情報が示す参加者の向きと関連付ける。
【0041】
音源定位部113は、集音装置10から取得した音声に基づいて音源の向きを特定可能であれば、MUSIC(Multiple Signal Classification)法、ビームフォーミング法等、公知の音源定位方法を用いることができる。
【0042】
次に分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、音声を分析する(e)。分析部114は、完了した議論の全体を分析対象としてもよく、あるいはリアルタイム処理の場合に議論の一部を分析対象としてもよい。
【0043】
具体的には、まず分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、分析対象の議論において、時間ごと(例えば10ミリ秒〜100ミリ秒ごと)に、いずれの参加者が発言(発声)したかを判別する。分析部114は、1人の参加者が発言を開始してから終了するまでの連続した期間を発言期間として特定し、分析結果記憶部133に記憶させる。同じ時間に複数の参加者が発言を行った場合には、分析部114は、参加者ごとに発言期間を特定する。
【0044】
また、分析部114は、時間ごとの各参加者の発言量を算出し、分析結果記憶部133に記憶させる。具体的には、分析部114は、ある時間窓(例えば5秒間)において、参加者の発言を行った時間の長さを時間窓の長さで割った値を、時間ごとの発言量(活性度ともいう)として算出する。そして分析部114は、議論の開始時間から終了時間(リアルタイム処理の場合には現在)まで、時間窓を所定の時間(例えば1秒)ずつずらしながら、各参加者について時間ごとの発言量の算出を繰り返す。
【0045】
区間設定部115は、ユーザ(参加者又は分析者)からの入力に基づいて、分析対象の議論に対応する音声に対して、1つ以上の区間を設定する。区間は、例えば「国語」、「理科」、「社会」のような議論の題目となった教科ごとに設定されてもよく、「ディスカッション」、「アイデア出し」、「まとめ」のような議論中の段階ごとに設定されてもよい。区間設定部115は、区間を示す区間情報を、設定対象の音声と関連付けて分析結果記憶部133に記憶させる。
【0046】
区間情報は、区間の名称と、区間の時間(すなわち音声中の区間の開始時間及び終了時間)とを含む。区間設定部115は、(1)通信端末20における操作、(2)集音装置10における操作、及び(3)集音装置10が取得した所定の音のうち少なくとも1つに基づいて、区間を設定する。
【0047】
通信端末20における操作に基づいて区間を設定する場合には、参加者又は分析者は、通信端末20の操作部22(例えばタッチスクリーン、マウス、キーボード等)を操作することによって、区間情報に含まれる文字列及び時間を入力する。参加者又は分析者は、議論の終了後に区間情報を入力してもよく、あるいは議論の途中で区間情報を入力してもよい。そして区間設定部115は、通信端末20において特定された区間情報を、通信部120を介して受信して分析結果記憶部133に記憶させる。
【0048】
集音装置10における操作に基づいて区間を設定する場合には、参加者又は分析者は、区間の切り替え時に、集音装置10に設けられたスイッチやタッチスクリーン等の操作部を操作することによって、区間を設定する。集音装置10の操作部の操作は、予め所定の区間の切り替え(例えば「ディスカッション」区間から「アイデア出し」区間への切り替え)に関連付けられている。区間設定部115は、通信部120を介して集音装置10の操作部から操作を示す情報を受信し、該操作のタイミングにおける所定の区間の切り替えを特定する。そして区間設定部115は、特定した区間情報を、分析結果記憶部133に記憶させる。
【0049】
集音装置10が取得した所定の音に基づいて区間を設定する場合には、参加者又は分析者は、音を発生可能な装置(例えば携帯端末、音楽再生装置等)を用いて、区間の切り替えを示す所定の切り替え音を発生させる。切り替え音は、人間に聴こえる音波でもよく、人間に聴こえない超音波でもよい。切り替え音は、例えば予め定義された周波数又はオン/オフのパターンによって、区間の切り替えを示す。切り替え音は、区間の切り替えのタイミングのみで発せられてもよく、あるいは区間の中で持続的に発せられてもよい。
【0050】
切り替え音として、区間ごとに異なる音を用いることができる。この場合に、区間設定部115は、集音装置10が取得した音声に含まれる切り替え音を検出する。そして区間設定部115は、切り替え音が変化したタイミングにおける、変化前の切り替え音に対応する区間から変化後の切り替え音に対応する区間への切り替えを特定する。そして区間設定部115は、特定した区間情報を、分析結果記憶部133に記憶させる。
【0051】
また、切り替え音として、所定の区間の切り替え(例えば「ディスカッション」区間から「アイデア出し」区間への切り替え)を示す音を用いることができる。この場合に、区間設定部115は、集音装置10が取得した音声に含まれる切り替え音を検出する。そして区間設定部115は、切り替え音が発せられたタイミングにおける、所定の区間の切り替えを特定する。そして区間設定部115は、特定した区間情報を、分析結果記憶部133に記憶させる。
【0052】
出力部116は、表示情報を通信端末20に送信することによって、分析部114による分析結果を表示部21上に表示させる制御を行う(f)。出力部116は、表示部21への表示に限られず、プリンタによる印刷、記憶装置へのデータ記録等、その他の方法によって分析結果を出力してもよい。出力部116による分析結果の出力方法を、
図5〜
図9を用いて以下に説明する。
【0053】
[区間ごとの発言量の表示方法の説明]
音声分析装置100の出力部116は、分析結果を表示する際に、表示対象の議論についての分析部114による分析結果及び区間設定部115による区間情報を分析結果記憶部133から読み出す。出力部116は、分析部114による分析が完了した直後の議論を表示対象としてもよく、あるいは分析者によって指定された議論を表示対象としてもよい。
【0054】
図5は、発言量画面Bを表示している通信端末20の表示部21の前面図である。発言量画面Bは、区間ごとの発言量の時間変化を示す情報を表示する画面であり、発言量のグラフB1と、区間の名称B2と、区間の切り替え線B3とを含む。
【0055】
発言量画面Bを表示する際に、出力部116は、分析結果記憶部133から読み出した分析結果及び区間情報に基づいて、区間ごとの各参加者の発言量の時間変化を表示するための表示情報を生成する。
【0056】
グラフB1は、各参加者Uの発言量の時間変化を示すグラフである。出力部116は、縦軸に発言量(活性度)を、横軸に時間をとって、各参加者Uについて分析結果が示す時間ごとの発言量を折れ線グラフとして、表示部21に表示させる。このとき、出力部116は、各時点において参加者Uの発言量を互いに積み上げて、すなわち参加者Uの発言量を順に合計した値を、縦軸にとって表示する。
【0057】
図5の例では、参加者U4の発言量は参加者U3及びU4の発言量の合計値であり、参加者U2の発言量は参加者U2、U3及びU4の発言量の合計値であり、参加者U1の発言量は参加者U1、U2、U3及びU4の発言量の合計値である。出力部116は、参加者Uの発言量を積み上げる(合計する)順番を、無作為に決定してもよく、あるいは所定の規則に従って決定してもよい。
【0058】
これにより出力部116は、各参加者Uの発言量に加えて、議論のグループ全体の発言量を表示することができる。分析者は、各参加者Uの貢献の時間変化を把握できると同時に、参加者Uのグループ全体の盛り上がりの時間変化を把握できる。
【0059】
出力部116は、参加者UごとのグラフB1を示す領域又は線を、参加者ごとに異なる色、模様等の表示態様で表示する。
図5の例では参加者Uごとに異なる模様でグラフB1が表示されており、グラフB1の近傍に参加者Uと模様とを関連付ける凡例が表示されている。これにより、分析者はグラフB1がいずれの参加者Uに対応するかを容易に判別できる。
【0060】
区間の名称B2は、区間の名称を表す文字列である。区間の切り替え線B3は、2つの区間の切り替わりのタイミングを示す線である。出力部116は、区間情報が示す各区間について、該区間に対応する時間範囲のグラフB1の近傍に区間の名称に表示させる。また、出力部116は、区間情報が示す区間の時間に基づいて、2つの区間の切り替わりのタイミングを特定する。そして出力部116は、特定した切り替わりのタイミングに対応するグラフB1の時間(横軸)の位置に切り替え線B3を表示させる。これにより出力部116は、各参加者Uの発言量のグラフB1が時間ごとにいずれの区間に対応するかを表示することができる。
【0061】
このように出力部116は、各参加者Uの発言量の時間変化に重畳して、議論の中で設定された区間を示す情報を表示する。そのため分析者は、各参加者Uの発言量の時間変化を、区間ごとに把握することができる。
【0062】
グラフB1は、各参加者Uの発言量を積み上げて(合計して)表示しているため、下に配置された参加者Uの発言量が変化すると、それにともなって上に配置された参加者Uの発言量も見かけ上変化したように表示される。そのため、各参加者Uの発言量の時間変化が一見してわかりづらい場合がある。そこで出力部116は、グラフB1において参加者Uの発言量を積み上げる順番を各参加者Uの発言量に基づいて決定することによって、各参加者Uの発言量の時間変化を見やすく表示することができる。
【0063】
図6は、発言量画面Bを表示している通信端末20の表示部21の前面図である。
図6の発言量画面Bにおいては発言量を積み上げる順番が区間ごとに変更されており、それ以外については
図5の発言量画面Bと同様である。出力部116は、
図5の発言量画面Bと
図6の発言量画面Bとを分析者の操作に応じて切り替えて表示してもよく、予め定められた少なくとも一方を表示してもよい。
【0064】
積み上げる順番を変更する場合に、出力部116は、分析結果記憶部133から読み出した分析結果及び区間情報に基づいて、各区間における各参加者Uの発言量のばらつきの程度(例えば分散又は標準偏差)を算出する。そして出力部116は、区間ごとにばらつきの程度が小さい順番で参加者Uの発言量を積み上げることによって、グラフB1を生成する。出力部116は、区間ごとではなく、全区間のばらつきの程度に基づいて積み上げる順番を決定してもよい。
【0065】
このように発言量のばらつきの程度が小さい順にグラフB1の下から積み上げることによって、下に配置された参加者Uの発言量の変化が、上に配置された参加者Uの見かけの発言量に及ぼす影響を低減することができる。また、区間によって各参加者Uの発言量の傾向が変化するため、区間ごとに積み上げの順番を変更することによって、発言量の時間変化をより見やすく表示することができる。
【0066】
[イベントの表示方法の説明]
出力部116は、グラフB1において、議論中(すなわち音声取得部112が取得した音声の時間内)に発生した所定のイベントを表示してもよい。これにより、分析者はイベントの発生が各参加者Uの発言量に与えた影響を分析することができる。イベントは、例えば(1)議論の補助者(教師、ファシリテータ等)のグループへの接近、又は(2)補助者の特定の発言(言葉)である。ここに示したイベントは一例であり、出力部116は、音声分析装置100が認識可能なその他イベントの発生を表示してもよい。
【0067】
補助者のグループへの接近を検出するために、出力部116は、集音装置10と補助者との間で授受される信号を用いる。この場合に、補助者は例えばBluetooth(登録商標)等の無線通信の電波や超音波等によって所定の信号を発する発信機を保持し、集音装置10は該信号を受信する受信機を備える。そして出力部116は、集音装置10の受信機において補助者の発信機からの信号を受信できた場合又は信号を受信した強度が所定の閾値以上となった場合に、補助者が接近したことを判定する。また、出力部116は、集音装置10の受信機において補助者の発信機からの信号を受信できなくなった場合又は信号を受信した強度が所定の閾値未満となった場合に、補助者が離脱したことを判定する。
【0068】
また、補助者のグループへの接近を検出するために、出力部116は、補助者の声紋(すなわち補助者の声の周波数スペクトル)を用いてもよい。この場合に、出力部116は、予め補助者の声紋を登録しておき、議論中に集音装置10によって取得した音声の中に補助者の声紋を検出する。そして出力部116は、補助者の声紋を検出した場合に補助者が接近したことを判定し、補助者の声紋を検出できなくなった場合に補助者が離脱したことを判定する。
【0069】
補助者の特定の言葉を検出するために、出力部116は、補助者の音声に対して音声認識を行う。この場合に、補助者は集音装置(例えばピンマイク)を保持し、出力部116は補助者が保持する集音装置によって取得した補助者の音声を受信する。集音装置10とは別に補助者が保持する集音装置を用いることによって、参加者Uの音声と補助者の音声とを明確に区別することができる。
【0070】
出力部116は、補助者が保持する集音装置から取得した音声を、文字列に変換する。出力部116は、音声を文字列に変換するために、公知の音声認識方法を用いることができる。そして出力部116は、変換された文字列の中に特定の言葉(例えば「最初」、「まとめ」、「最後」等の議論の進行に関わる言葉や、「良い」、「悪い」等の言葉)を検出する。検出対象の言葉は、予め音声分析装置100に設定される。そして出力部116は、特定の言葉を検出した場合に、特定の言葉が発せられたことを判定する。
【0071】
出力部116は、各参加者Uの発言量の変化が大きいタイミングの前後にのみ音声認識を行ってもよい。この場合に、出力部116は、分析結果記憶部133から読み出した分析結果に基づいて、時間ごとの発言量の変化の程度(例えば単位時間あたりの変化の量又は割合)を算出する。発言量の変化の程度は、参加者Uごとに算出されてもよく、あるいは全ての参加者Uの合計として算出されてもよい。
【0072】
そして出力部116は、変化の程度が所定の閾値以上であるタイミングを含む所定の時間範囲(例えば該タイミングの5秒前から5秒後)において、補助者が保持する集音装置によって取得した音声の音声認識を行う。一般的に音声認識は処理の負荷が大きい。そこでこのように発言量の変化の程度が大きいタイミングの前後にのみ音声認識を行うことによって、処理の負荷を低減しながら、発言量の変化の原因となった言葉を分析することができる。
【0073】
そして出力部116は、以上の方法によって検出したイベントを示す情報を、音声中の時間に関連付けた表示情報を生成する。
図7は、発言量画面Bを表示している通信端末20の表示部21の前面図である。
図7の発言量画面BにおいてはグラフB1上にイベント情報B4が表示されており、それ以外については
図5の発言量画面Bと同様である。出力部116は、
図5の発言量画面Bと
図7の発言量画面Bとを分析者の操作に応じて切り替えて表示してもよく、予め定められた少なくとも一方を表示してもよい。
【0074】
イベント情報B4は、イベントの内容及びタイミングを示す情報である。イベント情報B4は、例えば補助者が接近又は離脱したことを表す文字列や、音声認識によって検出した補助者の発言を表す文字列によって、イベントの内容を示す。また、イベント情報B4は、グラフB1上でイベントが発生したタイミングを示す矢印によって、イベントのタイミングを示す。
【0075】
このように出力部116は、各参加者Uの発言量の時間変化に重畳して、議論の中で発生したイベントの内容及びタイミングを示す情報を表示する。そのため分析者は、議論中に発生したイベントが各参加者Uの発言量の時間変化にどのように影響を与えたかを分析することができる。分析者は、例えば教師がグループに接近した場合に発言量が多くなった場合には、教師は議論を活性化できたと評価できる。また分析者は、例えば教師によって特定の言葉が発せられた場合に発言量が多くなった場合に、その言葉は議論を活性化させるための有効な言葉であると評価できる。
【0076】
[同じ区間の発言量の表示方法の説明]
出力部116は、同じ区間における複数の発言量のグラフを抽出して表示することができる。
図8は、区間抽出画面Cを表示している通信端末20の表示部21の前面図である。出力部116は、例えば
図5〜
図7の発言量画面Bにおいて分析者がいずれかの区間の名称B2を指定した場合に、指定された区間について区間抽出画面Cを表示する。区間抽出画面Cは、同じ区間の発言量のグラフを抽出した結果を表示する画面であり、発言量のグラフC1と、区間の名称C2と、グループの名称C3とを含む。
【0077】
区間抽出画面Cを表示する際に、出力部116は、指定された区間についての複数のグループの分析結果及び区間情報を、分析結果記憶部133から抽出する。表示対象のグループは、同時に議論した異なるグループでもよく、あるいは過去に議論した同じ又は異なるグループでもよい。そして出力部116は、抽出した分析結果及び区間情報に基づいて、指定された区間における複数のグループについて各参加者の発言量の時間変化を表示するための表示情報を生成する。
【0078】
発言量のグラフC1は、2つ以上のグループのそれぞれについて、指定された区間における各参加者Uの発言量の時間変化を示すグラフである。グラフC1の表示態様は、グラフB1と同様である。区間の名称C2は、指定された区間の名称を示す文字列である。
【0079】
グループの名称C3は、表示対象のグループを識別するための名称であり、分析者によって設定されてもよく、あるいは音声分析装置100によって自動的に決定されてもよい。
図8の例では出力部116は2つのグループのグラフC1を表示しているが、3つ以上のグループのグラフC1を表示してもよい。また、出力部116は、グループの名称C3に代えて又は加えて、グループに属する1人又は複数人の参加者Uの名称を表示してもよい。
【0080】
このように出力部116は、同じ区間について、異なるグループにおける各参加者の発言量の時間変化を示す複数のグラフを表示する。これにより、分析者は、同じ区間(例えば同じ教科、又は議論における同じ段階)について異なるグループの発言量の時間変化を比較して分析することができる。例えば分析者は、同時に議論した異なるグループを比較することによって、グループごとの発言量の傾向を把握することができる。また、例えば分析者は、同じグループについて同じ区間の過去の複数の議論を比較することによって、同じグループの発言量の傾向の変化を把握することができる。
【0081】
[発言量のヒートマップの表示方法の説明]
出力部116は、
図5のような積み上げグラフに限られず、各参加者Uの発言量の時間変化を示すヒートマップを表示してもよい。
図9は、発言量画面Dを表示している通信端末20の表示部21の前面図である。発言量画面Dは、発言量のヒートマップD1と、区間の名称D2と、区間の切り替え線D3とを含む。区間の名称D2及び区間の切り替え線D3は、
図5における区間の名称B2及び区間の切り替え線B3と同様である。
【0082】
発言量のヒートマップD1は、時間に沿った発言量を、色によって表示する。
図9は、色の違いを点の粗密によって表しており、例えば点の密度が高いほど濃い色であり、点の密度が低いほど薄い色である。出力部116は、所定の方向(例えば
図9の横方向)に時間をとって、各参加者Uについて時間ごとの発言量に応じた色の領域を、表示部21に表示させる。
【0083】
このように、出力部116がグラフの代わりにヒートマップを表示することによっても、分析者は、各参加者Uの発言量の時間変化を区間ごとに把握することができる。出力部116は、
図5のグラフと
図9のヒートマップとを分析者の操作に応じて切り替えて表示してもよく、予め定められた少なくとも一方を表示してもよい。
【0084】
[音声分析方法のシーケンス]
図10は、本実施形態に係る音声分析システムSが行う音声分析方法のシーケンス図である。まず通信端末20は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置100に送信する(S11)。音声分析装置100の設定部111は、通信端末20から設定情報を取得して設定情報記憶部131に記憶させる。
【0085】
次に音声分析装置100の音声取得部112は、音声の取得を指示する信号を集音装置10に送信する(S12)。集音装置10は、音声分析装置100から音声の取得を指示する信号を受信した場合に、複数の集音部を用いて音声の記録を開始し、記録した複数チャネルの音声を音声分析装置100に送信する(S13)。音声分析装置100の音声取得部112は、集音装置10から音声を受信して音声記憶部132に記憶させる。
【0086】
音声分析装置100は、分析者による指示があった時、音声の取得が終了した時、又は音声を取得している途中(すなわちリアルタイム処理)のいずれかのタイミングで、音声の分析を開始する。音声を分析する際に、まず音源定位部113は、音声取得部112が取得した音声に基づいて音源定位を行う(S14)。
【0087】
次に分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、時間ごとにいずれの参加者が発言したかを判別することによって、参加者ごとに発言期間及び発言量を特定する(S15)。分析部114は、参加者ごとの発言期間及び発言量を、分析結果記憶部133に記憶させる。
【0088】
区間設定部115は、分析対象の議論に対応する音声に対して、1つ以上の区間を設定する(S16)。このとき、区間設定部115は、通信端末20における操作、集音装置10における操作、及び集音装置10が取得した所定の音のうち少なくとも1つに基づいて、区間を設定する。区間設定部115は、区間を示す区間情報を、設定対象の音声と関連付けて分析結果記憶部133に記憶させる。
【0089】
出力部116は、分析結果を通信端末20の表示部21に表示させる制御を行う(S17)。具体的には、出力部116は、分析部114による分析結果及び区間設定部115による区間情報に基づいて、上述の発言量画面B、区間抽出画面C又は発言量画面Dを表示させるための表示情報を生成し、通信端末20に送信する。
【0090】
通信端末20は、音声分析装置100から受信した表示情報に従って、表示部21に分析結果を表示させる(S18)。
【0091】
[本実施形態の効果]
ハークネス法は議論の開始から終了までの全期間の発言の傾向を示すため、議論の時系列に沿った各参加者の発言量の変化を示すことができない。そのため、各参加者の発言量の時間変化に基づく分析が難しいという問題があった。それに対して、本実施形態に係る音声分析装置100は、区間ごとに各参加者の発言量の時間変化を表示する。これにより分析者は、各参加者の発言量の時間変化を、区間ごとに把握することができる。
【0092】
また、音声分析装置100は、複数の集音部を有する集音装置10を用いて取得した音声に基づいて、自動的に複数の参加者の議論を分析する。そのため、非特許文献1に記載のハークネス法のように記録者が議論を監視する必要がなく、またグループごとに記録者を配置する必要がないため、低コストである。
【0093】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
【0094】
音声分析装置100、集音装置10及び通信端末20のプロセッサは、
図10に示す音声分析方法に含まれる各ステップ(工程)の主体となる。すなわち、音声分析装置100、集音装置10及び通信端末20のプロセッサは、
図10に示す音声分析方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して音声分析装置100、集音装置10及び通信端末20の各部を制御することによって、
図10に示す音声分析方法を実行する。
図10に示す音声分析方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。
本発明は、議論における参加者の発言量の時間変化に基づく分析を行うための情報を出力できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供することを目的とする。本発明の一実施形態に係る音声分析装置100は、複数の参加者が発した音声を取得する音声取得部112と、音声における、複数の参加者それぞれの時間ごとの発言量を特定する分析部114と、ユーザからの入力に基づいて、音声において区間を設定する区間設定部115と、複数の参加者の発言量の時間変化を互いに積み上げたグラフと、グラフにおける区間を示す情報とを出力する出力部116と、を有する。