(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023021972
(43)【公開日】2023-02-14
(54)【発明の名称】音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
(51)【国際特許分類】
G10L 25/48 20130101AFI20230207BHJP
G06F 3/16 20060101ALI20230207BHJP
G06F 3/0484 20220101ALI20230207BHJP
G06Q 10/0633 20230101ALI20230207BHJP
【FI】
G10L25/48 100
G06F3/16 520
G06F3/0484
G06Q10/0633
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022168210
(22)【出願日】2022-10-20
(62)【分割の表示】P 2019194938の分割
【原出願日】2018-01-16
(71)【出願人】
【識別番号】517063112
【氏名又は名称】ハイラブル株式会社
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(72)【発明者】
【氏名】水本 武志
(72)【発明者】
【氏名】菅原 哲也
(57)【要約】 (修正有)
【課題】低コストで議論を分析できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供する。
【解決手段】音声分析装置、集音装置及び通信端末が、ローカルエリアネットワーク、インターネット等のネットワークを介して接続されるか、音声分析装置、集音装置及び通信端末のうち少なくとも一部は、ネットワークを介さず直接接続されてもよい音声分析システムにおいて、音声分析装置100は、複数の参加者が発した音声を取得する音声取得部112と、音声における、複数の参加者のうち第1参加者の発言から、複数の参加者のうち第2参加者の発言への遷移を検出する分析部114と、遷移が発生したタイミングを示す情報を表示部に表示させる出力部115と、を有する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
複数の参加者を含むグループにおいて、前記複数の参加者それぞれが発した音声を取得する取得部と、
前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出する分析部と、
表示部において、前記複数の参加者に対応する複数の領域を、前記複数の参加者の間の前記遷移の回数に基づいて決定された位置に表示させるとともに、前記第1参加者及び前記第2参加者の間の前記遷移の向きを表す図形を、前記第1参加者及び前記第2参加者に対応する2つの前記領域の間に表示させる出力部と、
を有する、音声分析装置。
【請求項2】
前記出力部は、前記第1参加者及び前記第2参加者の間の前記遷移の回数が多いほど前記第1参加者及び前記第2参加者に対応する2つの前記領域を近くに配置し、前記第1参加者及び前記第2参加者の間の前記遷移の回数が少ないほど前記第1参加者及び前記第2参加者に対応する2つの前記領域を遠くに配置する、
請求項1に記載の音声分析装置。
【請求項3】
前記出力部は、前記複数の参加者それぞれに対応する前記領域を、当該参加者の発言量に応じた大きさで表示させる、
請求項1又は2に記載の音声分析装置。
【請求項4】
前記図形は、前記遷移の向きを表す矢印であり、
前記出力部は、前記第1参加者及び前記第2参加者に対応する2つの前記領域の間の前記矢印を、前記第1参加者及び前記第2参加者の間の前記遷移の回数に応じた太さで表示させる、
請求項1から3のいずれか一項に記載の音声分析装置。
【請求項5】
前記出力部は、前記複数の参加者の間の前記遷移の回数及び前記複数の参加者の物理的な位置に基づいて決定された位置に、前記複数の領域を配置する
請求項1から4のいずれか一項に記載の音声分析装置。
【請求項6】
プロセッサが、
複数の参加者を含むグループにおいて、前記複数の参加者それぞれが発した音声を取得するステップと、
前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出するステップと、
表示部において、前記複数の参加者に対応する複数の領域を、前記複数の参加者の間の前記遷移の回数に基づいて決定された位置に表示させるステップと、
前記表示部において、前記第1参加者及び前記第2参加者の間の前記遷移の向きを表す図形を、前記第1参加者及び前記第2参加者に対応する2つの前記領域の間に表示させるステップと、
を実行する音声分析方法。
【請求項7】
コンピュータに、
複数の参加者を含むグループにおいて、前記複数の参加者それぞれが発した音声を取得するステップと、
前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出するステップと、
表示部において、前記複数の参加者に対応する複数の領域を、前記複数の参加者の間の前記遷移の回数に基づいて決定された位置に表示させるステップと、
前記表示部において、前記第1参加者及び前記第2参加者の間の前記遷移の向きを表す図形を、前記第1参加者及び前記第2参加者に対応する2つの前記領域の間に表示させるステップと、
を実行させる音声分析プログラム。
【請求項8】
音声分析装置と、前記音声分析装置と通信可能な通信端末と、を備え、
前記通信端末は、情報を表示する表示部を有し、
前記音声分析装置は、
複数の参加者を含むグループにおいて、前記複数の参加者それぞれが発した音声を取得する取得部と、
前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出する分析部と、
前記表示部において、前記複数の参加者に対応する複数の領域を、前記複数の参加者の間の前記遷移の回数に基づいて決定された位置に表示させるとともに、前記第1参加者及び前記第2参加者の間の前記遷移の向きを表す図形を、前記第1参加者及び前記第2参加者に対応する2つの前記領域の間に表示させる出力部と、
を有する、音声分析システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を分析するための音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムに関する。
【背景技術】
【0002】
グループ学習や会議における議論を分析する方法として、ハークネス法(ハークネスメソッドともいう)が知られている(例えば、非特許文献1参照)。ハークネス法では、各参加者の発言の遷移を線で記録する。これにより、各参加者の議論への貢献や、他者との関係性を分析することができる。ハークネス法は、学生が主体的に学習を行うアクティブ・ラーニングにも効果的に適用できる。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Paul Sevigny、「Extreme Discussion Circles : Preparing ESL Students for "The Harkness Method"」、Polyglossia、立命館アジア太平洋大学言語教育センター、平成24年10月、第23号、p. 181-191
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ハークネス法では記録者が常に議論を記録する必要があるため、記録者の負担が大きい。また、複数のグループを分析するためには、グループごとに記録者を配置することが必要となる。そのため、ハークネス法を実施するためには高いコストが掛かるという問題があった。
【0005】
本発明はこれらの点に鑑みてなされたものであり、低コストで議論を分析できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の音声分析装置は、複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出する分析部と、前記遷移が発生したタイミングを示す情報を表示部に表示させる出力部と、を有する。
【0007】
前記出力部は、前記表示部上で、前記第1参加者に対応する位置と、前記第2参加者に対応する位置とを結ぶ線によって、前記タイミングを示す情報を表示してもよい。
【0008】
前記出力部は、前記表示部上で、前記遷移が発生した時間に前記線を生成し、前記遷移が発生した時間から所定時間の経過後に前記線を消去することによって、前記タイミングを示す情報として前記遷移の時間変化を表示してもよい。
【0009】
前記出力部は、前記第1参加者と前記第2参加者との組み合わせに応じて、前記線の表示態様を変更してもよい。
【0010】
前記出力部は、前記遷移が発生した回数に応じて、前記線の表示態様を変更してもよい。
【0011】
前記分析部は、前記音声に基づいて前記複数の参加者のそれぞれが発言している期間を特定し、前記第1参加者が発言している前記期間から前記第2参加者が発言している前記期間に切り替わった場合に前記遷移を検出してもよい。
【0012】
前記出力部は、前記遷移の時間変化に加えて、前記複数の参加者のそれぞれの発言量を、前記表示部に表示させてもよい。
【0013】
本発明の第2の態様の音声分析方法は、プロセッサが、複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出するステップと、前記遷移が発生したタイミングを示す情報を表示部に表示させるステップと、を実行する。
【0014】
本発明の第3の態様の音声分析プログラムは、コンピュータに、複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出するステップと、前記遷移が発生したタイミングを示す情報を表示部に表示させるステップと、を実行させる。
【0015】
本発明の第4の態様の音声分析システムは、音声分析装置と、前記音声分析装置と通信可能な通信端末と、を備え、前記通信端末は、情報を表示する表示部を有し、前記音声分析装置は、複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者のうち第1参加者の発言から、前記複数の参加者のうち第2参加者の発言への遷移を検出する分析部と、前記遷移が発生したタイミングを示す情報を前記表示部に表示させる出力部と、を有する。
【発明の効果】
【0016】
本発明によれば、低コストで議論を分析できるという効果を奏する。
【図面の簡単な説明】
【0017】
【
図1】本実施形態に係る音声分析システムの模式図である。
【
図2】本実施形態に係る音声分析システムのブロック図である。
【
図3】本実施形態に係る音声分析システムが行う音声分析方法の模式図である。
【
図4】設定画面を表示している通信端末の表示部の前面図である。
【
図5】分析部が集計した発言者の遷移を示す行列の模式図である。
【
図6】発言者遷移画面を表示している通信端末の表示部の前面図である。
【
図7】発言順画面を表示している通信端末の表示部の前面図である。
【
図8】分析レポート画面を表示している通信端末の表示部の前面図である。
【
図9】本実施形態に係る音声分析システムが行う音声分析方法のシーケンス図である。
【発明を実施するための形態】
【0018】
[音声分析システムSの概要]
図1は、本実施形態に係る音声分析システムSの模式図である。音声分析システムSは、音声分析装置100と、集音装置10と、通信端末20とを含む。音声分析システムSが含む集音装置10及び通信端末20の数は限定されない。音声分析システムSは、その他のサーバ、端末等の機器を含んでもよい。
【0019】
音声分析装置100、集音装置10及び通信端末20は、ローカルエリアネットワーク、インターネット等のネットワークNを介して接続される。音声分析装置100、集音装置10及び通信端末20のうち少なくとも一部は、ネットワークNを介さず直接接続されてもよい。
【0020】
集音装置10は、異なる向きに配置された複数の集音部(マイクロフォン)を含むマイクロフォンアレイを備える。例えばマイクロフォンアレイは、地面に対する水平面において、同一円周上に等間隔で配置された8個のマイクロフォンを含む。集音装置10は、マイクロフォンアレイを用いて取得した音声をデータとして音声分析装置100に送信する。
【0021】
通信端末20は、有線又は無線の通信を行うことが可能な通信装置である。通信端末20は、例えばスマートフォン端末等の携帯端末、又はパーソナルコンピュータ等のコンピュータ端末である。通信端末20は、分析者から分析条件の設定を受け付けるとともに、音声分析装置100による分析結果を表示する。
【0022】
音声分析装置100は、集音装置10によって取得された音声を、後述の音声分析方法によって分析するコンピュータである。また、音声分析装置100は、音声分析の結果を通信端末20に送信する。
【0023】
[音声分析システムSの構成]
図2は、本実施形態に係る音声分析システムSのブロック図である。
図2において、矢印は主なデータの流れを示しており、
図2に示していないデータの流れがあってよい。
図2において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、
図2に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。
【0024】
通信端末20は、各種情報を表示するための表示部21と、分析者による操作を受け付けるための操作部22とを有する。表示部21は、液晶ディスプレイ、有機エレクトロルミネッセンス(OLED: Organic Light Emitting Diode)ディスプレイ等の表示装置を含む。操作部22は、ボタン、スイッチ、ダイヤル等の操作部材を含む。表示部21として分析者による接触の位置を検出可能なタッチスクリーンを用いることによって、表示部21と操作部22とを一体に構成してもよい。
【0025】
音声分析装置100は、制御部110と、通信部120と、記憶部130とを有する。制御部110は、設定部111と、音声取得部112と、音源定位部113と、分析部114と、出力部115とを有する。記憶部130は、設定情報記憶部131と、音声記憶部132と、分析結果記憶部133とを有する。
【0026】
通信部120は、ネットワークNを介して集音装置10及び通信端末20との間で通信をするための通信インターフェースである。通信部120は、通信を実行するためのプロセッサ、コネクタ、電気回路等を含む。通信部120は、外部から受信した通信信号に所定の処理を行ってデータを取得し、取得したデータを制御部110に入力する。また、通信部120は、制御部110から入力されたデータに所定の処理を行って通信信号を生成し、生成した通信信号を外部に送信する。
【0027】
記憶部130は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクドライブ等を含む記憶媒体である。記憶部130は、制御部110が実行するプログラムを予め記憶している。記憶部130は、音声分析装置100の外部に設けられてもよく、その場合に通信部120を介して制御部110との間でデータの授受を行ってもよい。
【0028】
設定情報記憶部131は、通信端末20において分析者によって設定された分析条件を示す設定情報を記憶する。音声記憶部132は、集音装置10によって取得された音声を記憶する。分析結果記憶部133は、音声を分析した結果を示す分析結果を記憶する。設定情報記憶部131、音声記憶部132及び分析結果記憶部133は、それぞれ記憶部130上の記憶領域であってもよく、あるいは記憶部130上で構成されたデータベースであってもよい。
【0029】
制御部110は、例えばCPU(Central Processing Unit)等のプロセッサであり、記憶部130に記憶されたプログラムを実行することにより、設定部111、音声取得部112、音源定位部113、分析部114及び出力部115として機能する。設定部111、音声取得部112、音源定位部113、分析部114及び出力部115の機能については、
図3~
図8を用いて後述する。制御部110の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部110の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。
【0030】
本実施形態に係る音声分析システムSは、
図2に示す具体的な構成に限定されない。例えば音声分析装置100は、1つの装置に限られず、2つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。
【0031】
[音声分析方法の説明]
図3は、本実施形態に係る音声分析システムSが行う音声分析方法の模式図である。まず分析者は、通信端末20の操作部22を操作することによって、分析条件の設定を行う。例えば分析条件は、分析対象とする議論の参加者の人数と、集音装置10を基準とした各参加者(すなわち、複数の参加者それぞれ)が位置する向きとを示す情報である。通信端末20は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置100に送信する(a)。音声分析装置100の設定部111は、通信端末20から設定情報を取得して設定情報記憶部131に記憶させる。
【0032】
図4は、設定画面Aを表示している通信端末20の表示部21の前面図である。通信端末20は、表示部21上に設定画面Aを表示し、分析者による分析条件の設定を受け付ける。設定画面Aは、位置設定領域A1と、開始ボタンA2と、終了ボタンA3とを含む。位置設定領域A1は、分析対象の議論において、集音装置10を基準として各参加者Uが実際に位置する向きを設定する領域である。例えば位置設定領域A1は、
図4のように集音装置10の位置を中心とした円を表し、さらに円に沿って集音装置10を基準とした角度を表している。
【0033】
分析者は、通信端末20の操作部22を操作することによって、位置設定領域A1において各参加者Uの位置を設定する。各参加者Uについて設定された位置の近傍には、各参加者Uを識別する識別情報(ここではU1~U4)が割り当てられて表示される。
図4の例では、4人の参加者U1~U4が設定されている。位置設定領域A1内の各参加者Uに対応する部分は、参加者ごとに異なる色で表示される。これにより、分析者は容易に各参加者Uが設定されている向きを認識することができる。
【0034】
開始ボタンA2及び終了ボタンA3は、それぞれ表示部21上に表示された仮想的なボタンである。通信端末20は、分析者によって開始ボタンA2が押下されると、音声分析装置100に開始指示の信号を送信する。通信端末20は、分析者によって終了ボタンA3が押下されると、音声分析装置100に終了指示の信号を送信する。本実施形態では、分析者による開始指示から終了指示までを1つの議論とする。
【0035】
音声分析装置100の音声取得部112は、通信端末20から開始指示の信号を受信した場合に、音声の取得を指示する信号を集音装置10に送信する(b)。集音装置10は、音声分析装置100から音声の取得を指示する信号を受信した場合に、音声の取得を開始する。また、音声分析装置100の音声取得部112は、通信端末20から終了指示の信号を受信した場合に、音声の取得の終了を指示する信号を集音装置10に送信する。集音装置10は、音声分析装置100から音声の取得の終了を指示する信号を受信した場合に、音声の取得を終了する。
【0036】
集音装置10は、複数の集音部においてそれぞれ音声を取得し、各集音部に対応する各チャネルの音声として内部に記録する。そして集音装置10は、取得した複数のチャネルの音声を、音声分析装置100に送信する(c)。集音装置10は、取得した音声を逐次送信してもよく、あるいは所定量又は所定時間の音声を送信してもよい。また、集音装置10は、取得の開始から終了までの音声をまとめて送信してもよい。音声分析装置100の音声取得部112は、集音装置10から音声を受信して音声記憶部132に記憶させる。
【0037】
音声分析装置100は、集音装置10から取得した音声を用いて、所定のタイミングで音声を分析する。音声分析装置100は、分析者が通信端末20において所定の操作によって分析指示を行った際に、音声を分析してもよい。この場合には、分析者は分析対象とする議論に対応する音声を音声記憶部132に記憶された音声の中から選択する。
【0038】
また、音声分析装置100は、音声の取得が終了した際に音声を分析してもよい。この場合には、取得の開始から終了までの音声が分析対象の議論に対応する。また、音声分析装置100は、音声の取得の途中で逐次(すなわちリアルタイム処理で)音声を分析してもよい。この場合には、音声分析装置100は、現在時間から遡って過去の所定時間分(例えば30秒間)の音声が分析対象の議論に対応する。
【0039】
音声を分析する際に、まず音源定位部113は、音声取得部112が取得した複数チャネルの音声に基づいて音源定位を行う(d)。音源定位は、音声取得部112が取得した音声に含まれる音源の向きを、時間ごと(例えば10ミリ秒~100ミリ秒ごと)に推定する処理である。音源定位部113は、時間ごとに推定した音源の向きを、設定情報記憶部131に記憶された設定情報が示す参加者の向きと関連付ける。
【0040】
音源定位部113は、集音装置10から取得した音声に基づいて音源の向きを特定可能であれば、MUSIC(Multiple Signal Classification)法、ビームフォーミング法等、公知の音源定位方法を用いることができる。
【0041】
次に分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、音声を分析する(e)。分析部114は、完了した議論の全体を分析対象としてもよく、あるいはリアルタイム処理の場合に議論の一部を分析対象としてもよい。
【0042】
具体的には、まず分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、分析対象の議論において、時間ごと(例えば10ミリ秒~100ミリ秒ごと)に、いずれの参加者が発言(発声)したかを判別する。分析部114は、1人の参加者が発言を開始してから終了するまでの連続した期間を発言期間として特定し、分析結果記憶部133に記憶させる。同じ時間に複数の参加者が発言を行った場合には、分析部114は、参加者ごとに発言期間を特定する。
【0043】
また、分析部114は、時間ごとの各参加者の発言量を算出し、分析結果記憶部133に記憶させる。具体的には、分析部114は、ある時間窓(例えば5秒間)において、参加者の発言を行った時間の長さを時間窓の長さで割った値を、時間ごとの発言量として算出する。そして分析部114は、議論の開始時間から終了時間(リアルタイム処理の場合には現在)まで、時間窓を所定の時間(例えば1秒)ずつずらしながら、各参加者について時間ごとの発言量の算出を繰り返す。
【0044】
そして分析部114は、ある発言期間の後に別の発言期間に切り替わった場合に、発言者の遷移を検出する。発言者の遷移には、ある参加者(第1参加者)が発言を終えた後に別の参加者(第2参加者)が発言を行う場合と、ある参加者が発言を終えた後に同じ参加者が次の発言を行う場合とがある。また、発言期間が2回以上切り替わったことを、1つの遷移として検出してもよい。例えば、ある参加者(第1参加者)が発言を終えた後に別の参加者(第2参加者)が発言を行い、その後にさらに別の参加者(第3参加者)が発言を行ったことを、1つの遷移として検出してもよい。分析部114は、分析対象の議論において検出した遷移の発生時間と、遷移元の参加者と、遷移先の参加者とを集計し、それらを関連付けて分析結果記憶部133に記憶させる。
【0045】
図5は、分析部114が集計した発言者の遷移を示す行列Bの模式図である。
図5において行列Bは視認性のために文字列の表として表されているが、バイナリデータ等、コンピュータが認識可能なその他形式で表されてもよい。
【0046】
行列Bは、分析対象の議論において、遷移元の参加者から遷移先の参加者へ遷移した回数を表す。
図5の例では、参加者U1から同じ参加者U1に遷移した回数は2回であり、参加者U1から別の参加者U4に遷移した回数は8回である。行列Bの対角成分は発言者が交替しなかったことを示し、行列Bの非対角成分は発言者が交替したことを示す。そのため分析部114は、行列Bの対角成分と非対角成分とを比較することによって、グループの雰囲気を判定することができる。
【0047】
[表示方法の説明]
出力部115は、表示情報を通信端末20に送信することによって、分析部114による分析結果を表示部21上に表示させる制御を行う(f)。出力部115による分析結果の表示制御方法を、
図6~
図8を用いて以下に説明する。
【0048】
音声分析装置100の出力部115は、分析結果を表示する際に、表示対象の議論についての分析部114による分析結果を分析結果記憶部133から読み出す。出力部115は、分析部114による分析が完了した直後の議論を表示対象としてもよく、あるいは分析者によって指定された議論を表示対象としてもよい。
【0049】
まず、発言者の遷移のタイミングを示す情報を表示する発言者遷移画面Cを説明する。
図6は、発言者遷移画面Cを表示している通信端末20の表示部21の前面図である。発言者遷移画面Cは、参加者Uの配置を示す円C1と、発言者の遷移を示す線C2と、各参加者Uの発言量を示す棒C3とを含む。
【0050】
発言者遷移画面Cを表示する際に、出力部115は、分析結果記憶部133から読み出した分析結果に基づいて、発言者の遷移のタイミングを示す情報として、発言者の遷移の時間変化を表示するための表示情報を生成する。具体的には、出力部115は、ある参加者から別の参加者への発言の遷移が発生した場合に、該遷移の発生時間から所定期間(例えば5秒間)、遷移元の参加者の位置と遷移先の参加者の位置とを結ぶ線を表示するための表示情報を生成する。
【0051】
円C1は、各参加者Uの配置を模式的に表す円形状の領域である。出力部115は、
図4において設定された各参加者Uの位置に対応する円C1上の位置の近傍に、参加者Uの識別情報(すなわちU1~U4)を表示させる。
【0052】
線C2は、発言者の遷移が発生した場合に、遷移元の参加者Uの円C1上の位置と遷移先の参加者Uの円C1上の位置とを結ぶ線である。線C2は、所定の色及び所定の太さで表示される。線C2は、まっすぐな線分でもよく、曲がった線でもよく、点線のように途切れた線でもよい。
【0053】
出力部115は、遷移の発生時間から所定期間(ここでは5秒間)、遷移元の参加者Uの位置と遷移先の参加者Uの位置とを結ぶ線C2を、表示部21に表示させる。そして出力部115は、遷移の発生時間から所定期間後に線C2を表示部21に消去させる。出力部115は、表示対象の議論の開始時間から終了時間まで、発言者の遷移を表す線の生成と消去を繰り返す。これにより出力部115は、発言者の遷移の時間変化を表示部21に表示させることができる。出力部115は、表示中の時間を自動的に進めても(すなわち動画として表示しても)よく、あるいはユーザによる操作に従って表示中の時間を進めてもよい。
【0054】
このように出力部115は、発言者の遷移のタイミングを示す情報として発言者の遷移の時間変化を表示することによって、議論の時系列に沿って遷移の傾向がどのように変化するかを表すことができる。これにより分析者は、各参加者Uの役割や、参加者U間の関係性を、議論の時系列に沿って効率的に把握することができる。
【0055】
出力部115は、同じ参加者Uの組み合わせについて複数の線C2を表示する場合に、複数の線C2の両端の位置を所定量ずらして表示部21に表示させてもよい。これにより、出力部115は、同じ参加者U間で近い時間に複数の遷移が発生した場合であっても、複数の線C2が一致しないようにすることができる。
【0056】
また、出力部115は、近い時間(例えば5秒以内)に同じ参加者Uの組み合わせについて複数の遷移が発生した場合に、発生した遷移の回数に基づいて線C2の太さや色等の表示態様を変えてもよい。例えば出力部115は、表示部21に、遷移の回数が多いほど線C2の太く表示させ、あるいは線C2を遷移の回数に応じた異なる色で表示させる。出力部115は、同じ参加者U間で近い時間に複数の遷移が発生したことを、分析者にとってわかりやすく表示することができる。
【0057】
また、出力部115は、同じ参加者Uの組み合わせにおける、議論の開始時間から表示中の時間までの累計の遷移の回数に基づいて、線C2の太さや色等の表示態様を変えてもよい。例えば出力部115は、表示部21に、累計の遷移の回数が多いほど線C2を太く表示させ、あるいは累計の遷移の回数に応じた異なる色で線C2を表示させる。これにより、出力部115は、参加者Uの組み合わせごとに累計の遷移回数が多い又は少ないことを、分析者にとってわかりやすく表示することができる。
【0058】
また、出力部115は、参加者Uの組み合わせによって、線C2の太さや色等の表示態様を変えてもよい。例えば出力部115は、表示部21に、参加者Uの組み合わせに応じて異なる太さ又は色で線C2を表示させる。これにより、出力部115は、線C2がいずれの参加者Uの組み合わせに対応するかを、分析者にとってわかりやすく表示することができる。
【0059】
棒C3は、各参加者Uの発言量を表す棒状の領域である。出力部115は、分析結果記憶部133から読み出した分析結果が示す、表示中の時間における各参加者Uの時間ごとの発言量を取得する。そして出力部115は、各参加者Uの位置に対応する円C1上の位置に、読み出した発言量に応じた長さ又は大きさの棒C3を表示させる。例えば出力部115は、表示部21に、参加者Uの発言量が多いほど円C1の円周から中心方向に向かう長さが長くなるように棒C3を表示させる。これにより、出力部115は、発言の遷移の時間変化に加えて、表示中の時間における各参加者の発言量を、分析者にとってわかりやすく表示することができる。
【0060】
また、出力部115は、時間ごとの発言量に限られず、議論の開始時間から表示中の時間までの発言量の累計値に応じた長さ又は大きさの棒C3を表示させてもよい。また、出力部115は、参加者Uによって、棒C3の色や模様等の表示態様を変えてもよい。
【0061】
また、出力部115は、ある参加者Uから別の参加者Uへの遷移の時間変化に限られず、遷移が発生した参加者Uの組み合わせの時間変化を表示してもよい。この場合には、出力部115は、円C1上に参加者Uの組み合わせを示す識別情報(例えば「U1-U2」、「U1-U3」等)を表示させる。
【0062】
そして例えば参加者U1と参加者U2との間の遷移が発生してから所定時間内に参加者U1と参加者U3との間の遷移が発生した場合に、出力部115は、「U1-U2」の位置と「U1-U3」の位置とを結ぶ線C2を、表示部21に表示させる。そして出力部115は、線C2を表示してから所定時間後に線C2を表示部21に消去させる。これにより、出力部115は、遷移が発生した参加者Uの組み合わせが、議論の時系列に沿ってどのように変化するかを表すことができる。
【0063】
次に、議論における発言の順番を表示する発言順画面Dを説明する。
図7は、発言順画面Dを表示している通信端末20の表示部21の前面図である。発言順画面Dは、参加者Uの発言量を示す領域D1と、発言者間の遷移の回数を示す矢印D2とを含む。
【0064】
発言順画面Dを表示する際に、出力部115は、分析結果記憶部133から読み出した分析結果が示す、表示対象の議論における各参加者Uの時間ごとの発言量を取得する。そして出力部115は、表示対象の議論の開始時間から終了時間までの時間ごとの発言量を合計することによって、各参加者Uの合計の発言量を算出する。また、出力部115は、分析結果記憶部133から読み出した分析結果から、参加者Uの組み合わせごとに表示対象の議論において発生した遷移の回数(すなわち
図5に示した行列B)を取得する。
【0065】
領域D1は、各参加者Uの合計の発言量を表す図形である。出力部115は、合計の発言量に応じた大きさの領域D1を、表示部21上に表示させる。例えば出力部115は、各参加者Uについて合計の発言量が多いほど半径が大きい円を、領域D1として表示部21に表示させる。領域D1は、円に限られず、多角形等のその他図形であってもよい。
【0066】
矢印D2は、ある参加者Uから別の参加者Uへの遷移の向き及び遷移の回数を表す図形である。出力部115は、遷移元の参加者Uに対応する領域D1から、遷移先の参加者Uに対応する領域D1へ向けて、遷移の回数に応じた太さの矢印D2を、表示部に表示させる。矢印D2は、まっすぐな矢印でもよく、曲がった矢印でもよく、点線のように途切れた矢印でもよい。
【0067】
例えば出力部115は、表示部21に、遷移元の参加者Uから遷移先の参加者Uへの遷移の回数が多いほど、矢印D2を太く表示させる。出力部115は、遷移の回数が所定の閾値以下である参加者Uの組み合わせについては、矢印D2を表示させなくてもよい。
【0068】
出力部115は、参加者U間の遷移の回数に基づいて、複数の領域D1の配置を調整してもよい。この場合には、出力部115は、遷移の回数が多い参加者Uに対応する2つの領域D1を近くに配置し、遷移の回数が少ない参加者Uに対応する2つの領域D1を遠くに配置する。あるいは出力部115は、参加者Uの物理的な位置に基づいて、複数の領域D1を配置してもよい。この場合には、出力部115は、
図4において設定された各参加者Uの位置に合うように、複数の領域D1を配置する。
【0069】
このように出力部115は、参加者Uの発言量と、参加者間の遷移の回数とを同時に表す。これにより分析者は、いずれの参加者Uが多く又は少なく話したかと、参加者U間の発言の流れとを一見して把握することができる。
【0070】
次に、議論全体のようすを表示する分析レポート画面Eを説明する。
図8は、分析レポート画面Eを表示している通信端末20の表示部21の前面図である。分析レポート画面Eは、主な発言の順番E1と、グループの雰囲気E2と、参加者の分類E3とを含む。
【0071】
分析レポート画面Eを表示する際に、出力部115は、分析結果記憶部133から読み出した分析結果が示す、表示対象の議論における各参加者Uの時間ごとの発言量を取得する。そして出力部115は、表示対象の議論の開始時間から終了時間までの時間ごとの発言量を合計することによって、各参加者Uの合計の発言量を算出する。また、出力部115は、分析結果記憶部133から読み出した分析結果から、参加者Uの組み合わせごとに表示対象の議論において発生した遷移の回数(すなわち
図5に示した行列B)を取得する。
【0072】
主な発言の順番E1は、議論において多く発生した発言者の遷移を示す情報である。出力部115は、ある参加者Uから1人以上の他の参加者Uを経て最初の参加者Uに戻る一連の遷移について、それぞれ遷移の回数を合計する。例えば一連の遷移は、参加者U1から参加者U4へ遷移し、次に参加者U4から参加者U3へ遷移し、次に参加者U3から最初の参加者U1へ遷移することを含む。出力部115は、最も遷移の回数が多い一連の遷移が示す参加者Uの組み合わせを、主な発言の順番E1として決定し、分析レポート画面Eに表示させる。出力部115は、遷移の回数が多い順に2つ以上の主な発言の順番E1を決定してもよい。これにより分析者は、議論の中心にいた参加者Uを把握することができる。
【0073】
グループの雰囲気E2は、議論において発言者の交替が多いか少ないかの雰囲気を示す情報である。具体的には、出力部115は、
図5に示した行列Bにおいて、対角成分(すなわち同じ参加者U間)の遷移の回数の平均値と、非対角成分(すなわち異なる参加者U間)の遷移の回数の平均値とを算出する。そして出力部115は、対角成分の平均値と非対角成分の平均値との比を、グループの雰囲気E2として分析レポート画面Eに表示させる。
図8の例では、出力部115は、左右方向に延在するスケール上で、対角成分の平均値と非対角成分の平均値との比に対応する位置に矢印を表示している。また、出力部115は、対角成分の平均値及び非対角成分の平均値を示す値を表示してもよい。これにより分析者は、議論を行ったグループ全体の雰囲気を把握することができる。
【0074】
参加者の分類E3は、議論における各参加者Uの発言量及び遷移に基づいて、各参加者Uを分類する情報である。出力部115は、参加者Uの発言量を示す軸と、参加者Uが議論の中心にいたか否かを示す軸との2つの軸に関して、各参加者Uを分類する。
【0075】
具体的には、出力部115は、参加者Uの発言量を示す軸について、発言量が所定の閾値以上である参加者Uを原点より上(
図8の右方向)に配置し、発言量が所定の閾値未満である参加者Uを原点より下(
図8の左方向)に配置する。出力部115は、参加者Uが議論の中心にいたか否かを示す軸について、主な発言の順番E1に含まれている参加者Uを原点より上(
図8の上方向)に配置し、主な発言の順番E1に含まれていない参加者Uを原点より下(
図8の下方向)に配置する。
【0076】
出力部115は、2つの軸に区切られた4つの領域(象限)について、それぞれ所定のラベルを表示させる。各領域のラベルは、音声分析装置100に予め設定される。
図8の例では、出力部115は、右上の領域(発言量が多く、議論の中心である参加者U)に対して「リーダー型」、左上の領域(発言量が少なく、議論の中心である参加者U)に対して「参謀型」、右下の領域(発言量が多く、議論の中心でない参加者U)に対して「1人ずもう型」、左下の領域(発言量が少なく、議論の中心でない参加者U)に対して「非参加型」と表示している。このように各参加者Uを分類することにより、分析者は、議論全体における各参加者Uのようすを把握することができる。
【0077】
さらに出力部115は、発言者の遷移に基づいて参加者U同士の相性を判定し、分析レポート画面Eに表示させてもよい。出力部115は、2人の参加者Uの全ての組み合わせについて、それぞれ遷移の回数を合計する。出力部115は、遷移の回数が所定の閾値以上である参加者Uの組み合わせを良い相性と判定し、遷移の回数が所定の閾値未満である参加者Uの組み合わせを悪い相性と判定する。そして出力部115は、参加者Uの各組み合わせについて判定した相性を、分析レポート画面Eに表示させる。これにより、分析者は、参加者Uの各組み合わせについて遷移の多いこと又は少ないことを把握することができる。
【0078】
出力部115は、分析者による操作を受け付けることによって、発言者遷移画面C、発言順画面D及び分析レポート画面Eを切り替えて表示部21に表示させる。出力部115は、発言者遷移画面C、発言順画面D及び分析レポート画面Eのうちの一部のみを表示部21に表示させてもよい。出力部115は、表示部への表示に限られず、プリンタによる印刷、記憶装置へのデータ記録等、その他の方法によって分析結果を出力してもよい。
【0079】
[音声分析方法のシーケンス]
図9は、本実施形態に係る音声分析システムSが行う音声分析方法のシーケンス図である。まず通信端末20は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置100に送信する(S11)。音声分析装置100の設定部111は、通信端末20から設定情報を取得して設定情報記憶部131に記憶させる。
【0080】
次に音声分析装置100の音声取得部112は、音声の取得を指示する信号を集音装置10に送信する(S12)。集音装置10は、音声分析装置100から音声の取得を指示する信号を受信した場合に、複数の集音部を用いて音声の記録を開始し、記録した複数チャネルの音声を音声分析装置100に送信する(S13)。音声分析装置100の音声取得部112は、集音装置10から音声を受信して音声記憶部132に記憶させる。
【0081】
音声分析装置100は、分析者による指示があった時、音声の取得が終了した時、又は音声を取得している途中(すなわちリアルタイム処理)のいずれかのタイミングで、音声の分析を開始する。音声を分析する際に、まず音源定位部113は、音声取得部112が取得した音声に基づいて音源定位を行う(S14)。
【0082】
次に分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、時間ごとにいずれの参加者が発言したかを判別することによって、参加者ごとに発言期間及び発言量を特定する(S15)。分析部114は、参加者ごとの発言期間及び発言量を、分析結果記憶部133に記憶させる。
【0083】
また、分析部114は、ある発言期間の後に別の発言期間に切り替わった場合に、発言者の遷移を検出する(S16)。分析部114は、遷移の発生時間と、遷移元の参加者と、遷移先の参加者とを集計し、それらを関連付けて分析結果記憶部133に記憶させる。
【0084】
出力部115は、分析結果を通信端末20の表示部21に表示させる制御を行う(S17)。具体的には、出力部115は、上述の発言者遷移画面C、発言順画面D及び分析レポート画面Eを表示させるための表示情報を、通信端末20に送信する。
【0085】
通信端末20は、音声分析装置100から受信した表示情報に従って、表示部21に分析結果を表示させる(S18)。
【0086】
[本実施形態の効果]
本実施形態に係る音声分析装置100は、複数の集音部を有する集音装置10を用いて取得した音声に基づいて、自動的に複数の参加者の議論を分析する。そのため、非特許文献1に記載のハークネス法のように記録者が議論を監視する必要がなく、またグループごとに記録者を配置する必要がないため、低コストである。
【0087】
また、非特許文献1に記載のハークネス法は、議論の開始から終了までの全期間における発言の遷移を表す。そのため、分析者は議論の時系列に沿って遷移の傾向の変化を把握することができなかった。それに対して本実施形態に係る音声分析装置100は、議論における参加者間の発言の遷移のタイミングを示す情報として、遷移の時間変化を表示する。これにより分析者は、各参加者Uの役割や、参加者U間の関係性を、議論の時系列に沿って把握することができる。
【0088】
また、音声分析装置100は、取得した音声に基づいて、参加者Uの発言量と、参加者間の遷移の回数とを同時に表示する。これにより分析者は、いずれの参加者Uが多く又は少なく話したかと、参加者U間の発言の流れとを一見して把握することができる。
【0089】
また、音声分析装置100は、取得した音声に基づいて、議論における主な発言の順番、グループの雰囲気及び参加者の分類を表示する。これにより分析者は、議論の中心にいた参加者、議論を行ったグループ全体の雰囲気、及び議論全体における各参加者のようすを把握することができる。
【0090】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
【0091】
音声分析装置100、集音装置10及び通信端末20のプロセッサは、
図9に示す音声分析方法に含まれる各ステップ(工程)の主体となる。すなわち、音声分析装置100、集音装置10及び通信端末20のプロセッサは、
図9に示す音声分析方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して音声分析装置100、集音装置10及び通信端末20の各部を制御することによって、
図9に示す音声分析方法を実行する。
図9に示す音声分析方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。
【符号の説明】
【0092】
S 音声分析システム
100 音声分析装置
110 制御部
112 音声取得部
114 分析部
115 出力部
10 集音装置
20 通信端末
21 表示部