IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ハイラブル株式会社の特許一覧

特許7414319音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
<>
  • 特許-音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム 図1
  • 特許-音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム 図2
  • 特許-音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム 図3
  • 特許-音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム 図4
  • 特許-音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム 図5
  • 特許-音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム 図6
  • 特許-音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム 図7
  • 特許-音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム 図8
  • 特許-音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-05
(45)【発行日】2024-01-16
(54)【発明の名称】音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
(51)【国際特許分類】
   G10L 25/48 20130101AFI20240109BHJP
   G10L 21/10 20130101ALI20240109BHJP
【FI】
G10L25/48 100
G10L21/10
【請求項の数】 7
(21)【出願番号】P 2022147338
(22)【出願日】2022-09-15
(62)【分割の表示】P 2021182091の分割
【原出願日】2018-01-16
(65)【公開番号】P2022174241
(43)【公開日】2022-11-22
【審査請求日】2022-09-15
(73)【特許権者】
【識別番号】517063112
【氏名又は名称】ハイラブル株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(72)【発明者】
【氏名】水本 武志
(72)【発明者】
【氏名】菅原 哲也
【審査官】菊池 智紀
(56)【参考文献】
【文献】国際公開第2019/142233(WO,A1)
【文献】特開2008-262046(JP,A)
【文献】特開2003-163908(JP,A)
【文献】特開2010-074494(JP,A)
【文献】特開平04-323689(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-25/93
G06F 3/16
H04R 3/00
G06Q 10/00-10/10,50/00-99/00
H04M 3/56
H04N 7/15
G06F 15/00
(57)【特許請求の範囲】
【請求項1】
複数の集音装置それぞれに関連付けて、該集音装置を取り囲む複数の参加者の情報を記憶する記憶部と、
前記複数の集音装置それぞれから、前記記憶部において該集音装置に関連付けられた前記複数の参加者が発した音声を取得する取得部と、
前記取得部が前記複数の集音装置それぞれから取得した前記音声における、前記記憶部において該集音装置に関連付けられた前記複数の参加者それぞれの発言を特定する分析部と、
前記複数の集音装置の間で授受される信号に基づいて、前記複数の集音装置それぞれの位置を設定する設定部と、
前記設定部が設定した前記複数の集音装置それぞれの位置に対応する表示部上の位置に、前記記憶部において該集音装置に関連付けられた前記複数の参加者の前記発言の状況を示す情報を表示させる出力部と、
を有する音声分析装置。
【請求項2】
前記出力部は、前記表示部に表示された前記複数の集音装置の位置を示すマップ上において前記複数の集音装置それぞれの位置に対応する位置に、前記発言の状況を示す情報を表示させる、請求項に記載の音声分析装置。
【請求項3】
前記出力部は、前記音声分析装置と通信する通信端末に設けられた前記表示部に、前記発言の状況を示す情報を表示させる、請求項1又は2に記載の音声分析装置。
【請求項4】
前記出力部は、前記複数の集音装置それぞれに設けられた前記表示部に、前記発言の状況を示す情報を表示させる、請求項1又は2に記載の音声分析装置。
【請求項5】
プロセッサが、
複数の集音装置それぞれから、前記複数の集音装置それぞれに関連付けて該集音装置を取り囲む複数の参加者の情報を記憶する記憶部において、該集音装置に関連付けられた前記複数の参加者が発した音声を取得するステップと、
前記取得するステップが前記複数の集音装置それぞれから取得した前記音声における、前記記憶部において該集音装置に関連付けられた前記複数の参加者それぞれの発言を特定するステップと、
前記複数の集音装置の間で授受される信号に基づいて、前記複数の集音装置それぞれの位置を設定するステップと、
前記設定するステップが設定した前記複数の集音装置それぞれの位置に対応する表示部上の位置に、前記記憶部において該集音装置に関連付けられた前記複数の参加者の前記発言の状況を示す情報を表示させるステップと、
を実行する音声分析方法。
【請求項6】
コンピュータに、
複数の集音装置それぞれから、前記複数の集音装置それぞれに関連付けて該集音装置を取り囲む複数の参加者の情報を記憶する記憶部において、該集音装置に関連付けられた前記複数の参加者が発した音声を取得するステップと、
前記取得するステップが前記複数の集音装置それぞれから取得した前記音声における、前記記憶部において該集音装置に関連付けられた前記複数の参加者それぞれの発言を特定するステップと、
前記複数の集音装置の間で授受される信号に基づいて、前記複数の集音装置それぞれの位置を設定するステップと、
前記設定するステップが設定した前記複数の集音装置それぞれの位置に対応する表示部上の位置に、前記記憶部において該集音装置に関連付けられた前記複数の参加者の前記発言の状況を示す情報を表示させるステップと、
を実行させる音声分析プログラム。
【請求項7】
音声分析装置と、前記音声分析装置と通信可能な通信端末と、を備え、
前記通信端末は、情報を表示する表示部を有し、
前記音声分析装置は、
複数の集音装置それぞれに関連付けて、該集音装置を取り囲む複数の参加者の情報を記憶する記憶部と、
前記複数の集音装置それぞれから、前記記憶部において該集音装置に関連付けられた前記複数の参加者が発した音声を取得する取得部と、
前記取得部が前記複数の集音装置それぞれから取得した前記音声における、前記記憶部において該集音装置に関連付けられた前記複数の参加者それぞれの発言を特定する分析部と、
前記複数の集音装置の間で授受される信号に基づいて、前記複数の集音装置それぞれの位置を設定する設定部と、
前記設定部が設定した前記複数の集音装置それぞれの位置に対応する前記表示部上の位置に、前記記憶部において該集音装置に関連付けられた前記複数の参加者の前記発言の状況を示す情報を表示させる出力部と、
を有する、音声分析システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を分析するための音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムに関する。
【背景技術】
【0002】
グループ学習や会議における議論を分析する方法として、ハークネス法(ハークネスメソッドともいう)が知られている(例えば、非特許文献1参照)。ハークネス法では、各参加者の発言の遷移を線で記録する。これにより、各参加者の議論への貢献や、他者との関係性を分析することができる。ハークネス法は、学生が主体的に学習を行うアクティブ・ラーニングにも効果的に適用できる。
【先行技術文献】
【非特許文献】
【0003】
【文献】Paul Sevigny、「Extreme Discussion Circles : Preparing ESL Students for "The Harkness Method"」、Polyglossia、立命館アジア太平洋大学言語教育センター、平成24年10月、第23号、p. 181-191
【発明の概要】
【発明が解決しようとする課題】
【0004】
学校や組織等でハークネス法のような分析を行う際には、複数のグループが同時に議論を行うことが多い。その場合に、議論の補助者(教師、ファシリテータ等)は複数のグループを掛け持つことになるため、各グループの議論における発言の状況を把握することが難しいという問題があった。
【0005】
本発明はこれらの点に鑑みてなされたものであり、複数のグループにおける発言の状況を示す情報を出力できる音声分析装置、音声分析方法、音声分析プログラム及び音声分析システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の音声分析装置は、複数の集音装置から複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者それぞれの発言を特定する分析部と、前記複数の集音装置それぞれに関連付けて前記発言の状況を示す情報を表示部に表示させる出力部と、を有する。
【0007】
前記出力部は、前記集音装置ごと又は前記参加者ごとの発言量を示す情報を、前記発言の状況を示す情報として前記表示部に表示させてもよい。
【0008】
前記出力部は、前記音声分析装置と通信する通信端末に設けられた前記表示部に、前記発言の状況を示す情報を表示させてもよい。
【0009】
前記出力部は、前記複数の集音装置それぞれの位置に対応する前記通信端末に設けられた前記表示部上の位置に、前記発言の状況を示す情報を表示させてもよい。
【0010】
前記出力部は、前記複数の集音装置のいずれかに所定の人物が接近した場合に、該集音装置の位置に対応する前記通信端末に設けられた前記表示部上の位置に、前記人物の接近を示す情報を表示させてもよい。
【0011】
前記音声分析装置は、前記複数の集音装置の間で授受される信号に基づいて、前記複数の集音装置それぞれの位置を設定する設定部をさらに有してもよい。
【0012】
前記出力部は、前記複数の集音装置それぞれに設けられた前記表示部に、前記発言の状況を示す情報を表示させてもよい。
【0013】
前記出力部は、前記複数の集音装置それぞれに設けられた前記表示部に、前記集音装置ごとの前記発言の状況を示す情報を表示させてもよい。
【0014】
前記出力部は、前記複数の集音装置それぞれにおいて前記複数の参加者それぞれに向けて設けられた前記表示部に、前記参加者ごとの前記発言の状況を示す情報を表示させてもよい。
【0015】
本発明の第2の態様の音声分析方法は、プロセッサが、複数の集音装置から複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者それぞれの発言を特定するステップと、前記複数の集音装置それぞれに関連付けて前記発言の状況を示す情報を表示部に表示させるステップと、を実行する。
【0016】
本発明の第3の態様の音声分析プログラムは、コンピュータに、複数の集音装置から複数の参加者が発した音声を取得するステップと、前記音声における、前記複数の参加者それぞれの発言を特定するステップと、前記複数の集音装置それぞれに関連付けて前記発言の状況を示す情報を表示部に表示させるステップと、を実行させる。
【0017】
本発明の第4の態様の音声分析システムは、音声分析装置と、前記音声分析装置と通信可能な通信端末及び複数の集音装置と、を備え、前記通信端末及び前記複数の集音装置の少なくとも一方は、情報を表示する表示部を有し、前記音声分析装置は、前記複数の集音装置から複数の参加者が発した音声を取得する取得部と、前記音声における、前記複数の参加者それぞれの発言を特定する分析部と、前記複数の集音装置それぞれに関連付けて前記発言の状況を示す情報を前記表示部に表示させる出力部と、を有する。
【発明の効果】
【0018】
本発明によれば、複数のグループにおける発言の状況を示す情報を出力できるという効果を奏する。
【図面の簡単な説明】
【0019】
図1】本実施形態に係る音声分析システムの模式図である。
図2】本実施形態に係る音声分析システムのブロック図である。
図3】本実施形態に係る音声分析システムが行う音声分析方法の模式図である。
図4】設定部によるグループ位置情報の設定方法の模式図である。
図5】参加者設定画面を表示している通信端末の表示部の前面図である。
図6】グループ及び参加者の発言の状況を表示している集音装置の側面図である。
図7】グループの発言の状況を表示している通信端末の表示部の前面図である。
図8】参加者の発言の状況を表示している通信端末の表示部の前面図である。
図9】本実施形態に係る音声分析システムが行う音声分析方法のシーケンス図である。
【発明を実施するための形態】
【0020】
[音声分析システムSの概要]
図1は、本実施形態に係る音声分析システムSの模式図である。音声分析システムSは、音声分析装置100と、集音装置10と、通信端末20とを含む。音声分析システムSが含む集音装置10及び通信端末20の数は限定されない。音声分析システムSは、その他のサーバ、端末等の機器を含んでもよい。
【0021】
音声分析装置100、集音装置10及び通信端末20は、ローカルエリアネットワーク、インターネット等のネットワークNを介して接続される。音声分析装置100、集音装置10及び通信端末20のうち少なくとも一部は、ネットワークNを介さず直接接続されてもよい。
【0022】
集音装置10は、異なる向きに配置された複数の集音部(マイクロフォン)を含むマイクロフォンアレイを備える。例えばマイクロフォンアレイは、地面に対する水平面において、同一円周上に等間隔で配置された8個のマイクロフォンを含む。集音装置10は、マイクロフォンアレイを用いて取得した音声をデータとして音声分析装置100に送信する。
【0023】
通信端末20は、有線又は無線の通信を行うことが可能な通信装置である。通信端末20は、例えばスマートフォン端末等の携帯端末、又はパーソナルコンピュータ等のコンピュータ端末である。通信端末20は、分析者から分析条件の設定を受け付けるとともに、音声分析装置100による分析結果を表示する。通信端末20は、議論の分析者又は補助者によって保持されてもよく、あるいは各集音装置10の近傍に配置されてもよい。
【0024】
音声分析装置100は、集音装置10によって取得された音声を、後述の音声分析方法によって分析するコンピュータである。また、音声分析装置100は、音声分析の結果を通信端末20に送信する。
【0025】
[音声分析システムSの構成]
図2は、本実施形態に係る音声分析システムSのブロック図である。図2において、矢印は主なデータの流れを示しており、図2に示していないデータの流れがあってよい。図2において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。
【0026】
集音装置10は、上述の集音部に加えて、グループ全体の状況を表示する全体ランプ11と、各参加者の状況を表示する個別ランプ12とを有する。全体ランプ11の数は、1つの集音装置10につき少なくとも1つである。個別ランプ12は、少なくとも1つの集音装置10が処理することが可能な参加者の数(すなわち1つの議論のグループに所属可能な参加者の数以上)である。各個別ランプ12は、集音装置10を取り囲む各参加者に対応するように設けられる。例えば集音装置10上の各参加者の正面に、該参加者に対応する少なくとも1つの個別ランプ12が設けられる。
【0027】
全体ランプ11及び個別ランプ12は、それぞれ音声分析装置100による制御に従って発光する表示部である。例えば全体ランプ11及び個別ランプ12は、音声分析装置100から受信した信号に応じて、光を点滅させたり、光の色を変更したり、あるいは光の強度を変更したりすることができる。全体ランプ11及び個別ランプ12として、参加者又は補助者に対して発言の状況を示すことが可能であれば、液晶ディスプレイ等のその他表示装置を用いてもよい。
【0028】
通信端末20は、各種情報を表示するための表示部21と、分析者による操作を受け付けるための操作部22とを有する。表示部21は、液晶ディスプレイ、有機エレクトロルミネッセンス(OLED: Organic Light Emitting Diode)ディスプレイ等の表示装置を含む。操作部22は、ボタン、スイッチ、ダイヤル等の操作部材を含む。表示部21として分析者による接触の位置を検出可能なタッチスクリーンを用いることによって、表示部21と操作部22とを一体に構成してもよい。
【0029】
音声分析装置100は、制御部110と、通信部120と、記憶部130とを有する。制御部110は、設定部111と、音声取得部112と、音源定位部113と、分析部114と、出力部115とを有する。記憶部130は、設定情報記憶部131と、音声記憶部132と、分析結果記憶部133とを有する。
【0030】
通信部120は、ネットワークNを介して集音装置10及び通信端末20との間で通信をするための通信インターフェースである。通信部120は、通信を実行するためのプロセッサ、コネクタ、電気回路等を含む。通信部120は、外部から受信した通信信号に所定の処理を行ってデータを取得し、取得したデータを制御部110に入力する。また、通信部120は、制御部110から入力されたデータに所定の処理を行って通信信号を生成し、生成した通信信号を外部に送信する。
【0031】
記憶部130は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクドライブ等を含む記憶媒体である。記憶部130は、制御部110が実行するプログラムを予め記憶している。記憶部130は、音声分析装置100の外部に設けられてもよく、その場合に通信部120を介して制御部110との間でデータの授受を行ってもよい。
【0032】
設定情報記憶部131は、グループ及び参加者の位置を含む分析条件を示す設定情報を記憶する。音声記憶部132は、集音装置10によって取得された音声を記憶する。分析結果記憶部133は、音声を分析した結果を示す分析結果を記憶する。設定情報記憶部131、音声記憶部132及び分析結果記憶部133は、それぞれ記憶部130上の記憶領域であってもよく、あるいは記憶部130上で構成されたデータベースであってもよい。
【0033】
制御部110は、例えばCPU(Central Processing Unit)等のプロセッサであり、記憶部130に記憶されたプログラムを実行することにより、設定部111、音声取得部112、音源定位部113、分析部114及び出力部115として機能する。設定部111、音声取得部112、音源定位部113、分析部114及び出力部115の機能については、図3図8を用いて後述する。制御部110の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部110の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。
【0034】
本実施形態に係る音声分析システムSは、図2に示す具体的な構成に限定されない。例えば音声分析装置100は、1つの装置に限られず、2つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。
【0035】
[音声分析方法の説明]
図3は、本実施形態に係る音声分析システムSが行う音声分析方法の模式図である。まず分析者は、通信端末20の操作部22を操作することによって、分析条件を設定する。通信端末20は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置100に送信する(a)。音声分析装置100の設定部111は、通信端末20から受信した設定情報又は設定部111自身が特定した設定情報を設定情報記憶部131に記憶させる。
【0036】
設定情報は、1つの集音装置10に関するグループにおける各参加者(すなわち、複数の参加者それぞれ)の位置を示す参加者位置情報と、同時に議論を行う各グループ(すなわち、複数のグループそれぞれ)の位置を示すグループ位置情報とを含む。各グループの位置は、各集音装置10(すなわち、複数の集音装置10それぞれ)の位置に対応する。例えば参加者位置情報は、分析対象とする議論の参加者の人数と、集音装置10を基準とした各参加者が位置する向きとを示す情報である。例えばグループ位置情報は、分析対象とするグループの数と、各グループの相対的又は絶対的な位置を示す情報である。
【0037】
図4(a)、図4(b)は、設定部111によるグループ位置情報の設定方法の模式図である。図4(a)は、グループ位置情報を設定するためのグループ設定画面Aを表示している通信端末20の表示部21を表す。通信端末20は、グループ位置情報の設定を行う際に表示部21上にグループ設定画面Aを表示し、分析者によるグループ位置情報の設定を受け付ける。グループ設定画面Aは、位置設定領域A1と、基準位置A2と、完了ボタンA3と、自動設定ボタンA4とを含む。
【0038】
位置設定領域A1は、同時に行われる議論(例えば同一の室内で行われる議論)について、所定の基準位置A2を基準とした各グループGの位置を設定する領域である。例えば位置設定領域A1は、図4(a)のように基準位置A2(例えば教卓の位置)を含む矩形領域である。基準位置A2は、位置設定領域A1上で分析者によって指定されてもよく、あるいは音声分析装置100に予め登録されてもよい。
【0039】
分析者は、通信端末20の操作部22を操作することによって、位置設定領域A1において各グループGの位置を設定する。例えば分析者が位置設定領域A1内のどこかを押下すると、音声分析装置100の設定部111は、分析者が押下した位置を1つのグループGの位置として設定する。各グループGについて設定された位置には、各グループGを識別する識別情報(ここではG1~G4)が割り当てられて表示される。各グループGの識別情報は、分析者によって入力されてもよく、あるいは設定部111によって自動的に決定されてもよい。図4(a)の例では、4つのグループG1~G4が設定されている。
【0040】
完了ボタンA3及び自動設定ボタンA4は、それぞれ表示部21上に表示された仮想的なボタンである。設定部111は、分析者によって完了ボタンA3が押下されると、グループ設定画面Aにおいて設定された各グループGの位置を、グループ位置情報として設定情報記憶部131に記憶させることにより、各グループGの位置を設定する。そして設定部111は、グループ設定画面Aにおいて設定された各グループGについて、図5に示す参加者設定画面Cを通信端末20に表示させる。
【0041】
設定部111は、分析者によって自動設定ボタンA4が押下されると、集音装置10から取得した情報に基づいて、各グループGの位置を自動的に設定する。図4(b)は、設定部111が各グループGの位置を自動的に設定する方法の模式図である。例えば設定部111は、集音装置10間で授受される音又は電波の信号に基づいて、各集音装置10の位置、すなわち各グループGの位置を自動的に設定する。
【0042】
自動設定のために、各集音装置10は、所定の音(音波又は超音波)又は所定の電波(例えばBluetooth(登録商標)等の近距離無線通信の電波)の信号を発生させる発信機を備え、集音装置10は該信号を受信する受信機を備える。設定部111は、各集音装置10の発信機から信号を順次発生させる。設定部111は、各集音装置10の受信機において信号を検出した時間及び強度を取得する。
【0043】
次に設定部111は、各集音装置10について、信号を検出した時間を用いて信号の発生源の集音装置10を特定するとともに、信号を検出した強度を用いて発生源の集音装置10までの距離Bを算出する。そして設定部111は、算出した集音装置10間の距離Bに基づいて、例えば三角測量によって各集音装置10の位置、すなわち各グループGの位置を決定する。設定部111は、決定した各グループGの位置を、グループ位置情報として設定情報記憶部131に記憶させることにより、各グループGの位置を設定する。そして設定部111は、各グループGについて、図5に示す参加者設定画面Cを通信端末20に表示させる。
【0044】
ここでは例示的に集音装置10間で音又は電波の信号を授受することによって集音装置10の位置を決定する方法を説明したが、設定部111はその他の方法で集音装置10を決定してもよい。例えば集音装置10の外部に設けられた装置から音又は電波の信号を発生させてもよい。
【0045】
設定部111は、グループGの位置の自動設定と手動設定とを組み合わせて行ってもよい。この場合に、例えば設定部111は、図4(b)の自動設定によって設定された各グループGの位置を図4(a)の位置設定領域A1に表示し、さらに分析者による手動の設定を受け付ける。これにより、自動設定によって設定された各グループGの位置を手動設定によって修正し、各グループGの位置をより確実に設定することができる。
【0046】
図5は、参加者位置情報を設定するための参加者設定画面Cを表示している通信端末20の表示部21の前面図である。通信端末20は、参加者位置情報の設定を行う際に表示部21上に参加者設定画面Cを表示し、グループ設定画面Aで設定された各グループについて分析者による参加者位置情報の設定を受け付ける。参加者設定画面Cは、位置設定領域C1と、開始ボタンC2と、終了ボタンC3とを含む。位置設定領域C1は、分析対象の議論において、集音装置10を基準として各参加者Uが実際に位置する向きを設定する領域である。例えば位置設定領域C1は、図5のように集音装置10の位置を中心とした円を表し、さらに円に沿って集音装置10を基準とした角度を表している。
【0047】
分析者は、通信端末20の操作部22を操作することによって、位置設定領域C1において各参加者Uの位置を入力する。設定部111は、分析者によって入力された各参加者Uの位置を、参加者位置情報として設定情報記憶部131に記憶させることにより、各参加者Uの位置を設定する。各参加者Uについて設定された位置の近傍には、各参加者Uを識別する識別情報(ここではU1~U4)が割り当てられて表示される。図5の例では、4人の参加者U1~U4が設定されている。位置設定領域C1内の各参加者Uに対応する部分は、参加者ごとに異なる色で表示される。これにより、分析者は容易に各参加者Uが設定されている向きを認識することができる。
【0048】
開始ボタンC2及び終了ボタンC3は、それぞれ表示部21上に表示された仮想的なボタンである。通信端末20は、分析者によって開始ボタンC2が押下されると、音声分析装置100に開始指示の信号を送信する。通信端末20は、分析者によって終了ボタンC3が押下されると、音声分析装置100に終了指示の信号を送信する。本実施形態では、分析者による開始指示から終了指示までを1つの議論とする。
【0049】
音声分析装置100の音声取得部112は、通信端末20から開始指示の信号を受信した場合に、音声の取得を指示する信号を集音装置10に送信する(b)。集音装置10は、音声分析装置100から音声の取得を指示する信号を受信した場合に、音声の取得を開始する。また、音声分析装置100の音声取得部112は、通信端末20から終了指示の信号を受信した場合に、音声の取得の終了を指示する信号を集音装置10に送信する。集音装置10は、音声分析装置100から音声の取得の終了を指示する信号を受信した場合に、音声の取得を終了する。
【0050】
集音装置10は、複数の集音部においてそれぞれ音声を取得し、各集音部に対応する各チャネルの音声として内部に記録する。そして集音装置10は、取得した複数のチャネルの音声を、音声分析装置100に送信する(c)。集音装置10は、取得した音声を逐次送信してもよく、あるいは所定量又は所定時間の音声を送信してもよい。音声分析装置100の音声取得部112は、集音装置10から音声を受信して音声記憶部132に記憶させる。
【0051】
音声分析装置100は、集音装置10から取得したグループごとの音声を、逐次、すなわちリアルタイム処理で分析する。例えば音声分析装置100は、現在時間から遡って過去の所定時間分(例えば30秒間)の音声を順次分析対象とする。
【0052】
音声を分析する際に、まず音源定位部113は、音声取得部112が取得した複数チャネルの音声に基づいて音源定位を行う(d)。音源定位は、音声取得部112が取得した音声に含まれる音源の向きを、時間ごと(例えば10ミリ秒~100ミリ秒ごと)に推定する処理である。音源定位部113は、時間ごとに推定した音源の向きを、設定情報記憶部131に記憶された設定情報が示す参加者の向きと関連付ける。
【0053】
音源定位部113は、集音装置10から取得した音声に基づいて音源の向きを特定可能であれば、MUSIC(Multiple Signal Classification)法、ビームフォーミング法等、公知の音源定位方法を用いることができる。
【0054】
次に分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、音声を分析する(e)。具体的には、まず分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、分析対象の議論において、時間ごと(例えば10ミリ秒~100ミリ秒ごと)に、いずれの参加者が発言(発声)したかを判別する。分析部114は、1人の参加者が発言を開始してから終了するまでの連続した期間を発言期間として特定し、分析結果記憶部133に記憶させる。同じ時間に複数の参加者が発言を行った場合には、分析部114は、参加者ごとに発言期間を特定する。
【0055】
また、分析部114は、時間ごとの各参加者の発言量を算出し、分析結果記憶部133に記憶させる。具体的には、分析部114は、ある時間窓(例えば5秒間)において、参加者の発言を行った時間の長さを時間窓の長さで割った値を、時間ごとの発言量として算出する。そして分析部114は、議論の開始時間から終了時間(リアルタイム処理の場合には現在)まで、時間窓を所定の時間(例えば1秒)ずつずらしながら、各参加者について時間ごとの発言量の算出を繰り返す。また、分析部114は、グループに属する参加者の発言量の時間ごとの合計値を、グループの時間ごとの発言量(活性度)として算出する。
【0056】
そして分析部114は、参加者及びグループの発言量を用いて、参加者及びグループの発言の状況を特定する。分析部114は、参加者の発言の状況として、例えば現在から遡って所定期間(例えば20秒間)の参加者の発言量の合計値又は積分値、あるいは該発言量の合計値又は積分値の参加者間の比(すなわち相対値)を算出する。このように算出された参加者の発言の状況は、各参加者が議論に対する貢献度を表す指標として利用できる。
【0057】
また、分析部114は、グループの発言の状況として、例えば現在から遡って所定期間(例えば20秒間)のグループの発言量の合計値又は積分値、あるいは該発言量の合計値又は積分値のグループ間の比(すなわち相対値)を算出する。このように算出されたグループの発言の状況は、各グループにおける議論の盛り上がりの程度を表す指標として利用できる。分析部114は、各参加者及び各グループの発言の状況を示す状況情報を、分析結果として分析結果記憶部133に記憶させる。
【0058】
グループの発言の状況として、グループの雰囲気を用いてもよい。グループの雰囲気は、議論において発言者の交替が多いか少ないかの雰囲気を示す情報である。具体的には、分析部114は、同じ参加者U間の発言の遷移(すなわち、ある発言期間の後に別の発言期間に切り替わったこと)の回数の平均値と、異なる参加者間の発言の遷移の回数の平均値とを算出し、それらの間の比をグループの雰囲気として特定する。例えば同じ参加者U間の発言の遷移の比が大きい場合にそのグループは1人の参加者が長く発言する傾向にあり、異なる参加者間の発言の遷移の比が大きい場合にそのグループは複数の参加者が交替で発言する傾向にある。
【0059】
出力部115は、分析部114が特定した各参加者及び各グループの発言の状況を、該参加者及び該グループに対応する集音装置10に関連付けて、集音装置10及び通信端末20の表示部に表示させる。具体的には、出力部115は、分析結果記憶部133に記憶された状況情報を読み出して集音装置10に送信することによって、分析部114が特定した発言の状況を示す情報を、全体ランプ11及び個別ランプ12に表示させる制御を行う(f)。
【0060】
また、出力部115は、分析結果記憶部133に記憶された状況情報を読み出して通信端末20に送信することによって、分析部114が特定した発言の状況を示す情報を、表示部21に表示させる制御を行う(g)。出力部115による発言の状況の出力方法を、図6図8を用いて以下に説明する。
【0061】
[発言の状況の表示方法の説明]
図6は、グループ及び参加者の発言の状況を表示している集音装置10の側面図である。出力部115は、集音装置10に設けられた全体ランプ11及び個別ランプを用いて、グループ及び参加者の発言の状況を示す情報を表示する。具体的には、出力部115は、グループの発言の状況に対応する所定の光を全体ランプ11から発生させることによって、集音装置10にグループの発言の状況を表示させる。例えば出力部115は、グループの発言量の合計値又は積分値に応じて、光の点滅の速度、光の色、又は光の強度を変化させる。これにより、議論の参加者及び補助者は、グループ全体の発言の状況を容易に把握することができる。
【0062】
また、出力部115は、参加者の発言の状況に対応する所定の光を、該参加者に対応する個別ランプ12から発生させることによって、集音装置10に各参加者の発言の状況を表示させる。すなわち出力部115は、各参加者に対応する位置(例えば各参加者の正面)に設けられている個別ランプ12を、参加者ごとの発言の状況に応じて発光させる。例えば出力部115は、参加者の発言量の合計値又は積分値に応じて、光の点滅の速度、光の色、又は光の強度を変化させる。これにより、議論の参加者は自身の発言の状況を客観的に認識することができ、また議論の補助者は参加者ごとの議論への貢献度を把握することができる。
【0063】
図7は、グループの発言の状況を表示している通信端末20の表示部21の前面図である。出力部115は、グループの発言の状況を示す情報を、全体状況画面Dとして通信端末20の表示部21に表示させる。全体状況画面Dは、グループごとの発言の状況を示す円D1と、補助者の位置を示すアイコンD2とを含む。
【0064】
出力部115は、設定情報記憶部131に記憶されたグループ位置情報が示す各グループの位置に対応する表示部21上の位置に、グループの発言の状況に対応する表示態様の円D1を表示する。すなわち出力部115は、各グループ(各集音装置10)の位置を示すマップ上に、グループの発言の状況を示す情報を表示する。例えば出力部115は、グループの発言量の合計値又は積分値に応じて、円D1の色、形状、模様等を変化させる。これにより、議論の分析者又は補助者は、各グループの発言の状況を容易に把握することができる。
【0065】
また、出力部115は、議論の補助者の位置に対応する表示部21上の位置に、補助者の位置を示すアイコンD2を表示する。補助者の位置を検出するために、出力部115は、例えば集音装置10と補助者との間で授受される信号を用いる。この場合に、補助者は例えばBluetooth等の無線通信の電波や超音波等によって所定の信号を発する発信機を保持し、集音装置10は該信号を受信する受信機を備える。
【0066】
そして出力部115は、集音装置10の受信機において補助者の発信機からの信号を受信できた場合又は信号を受信した強度が所定の閾値以上となった場合に、集音装置10に補助者が接近したことを検出する。また、出力部115は、集音装置10の受信機において補助者の発信機からの信号を受信できなくなった場合又は信号を受信した強度が所定の閾値未満となった場合に、集音装置10から補助者が離脱したことを検出する。
【0067】
出力部115はいずれかの集音装置10に補助者が接近したことを検出した場合に、表示部21上の該集音装置10(グループ)の近傍にアイコンD2を表示する。これにより、議論の分析者は、補助者がグループに接近している場合と接近していない場合との間で各グループの発言の状況の変化を分析することができ、また補助者の評価を行うことができる。
【0068】
図8は、参加者の発言の状況を表示している通信端末20の表示部21の前面図である。出力部115は、全体状況画面D上で分析者又は補助者によっていずれかのグループが指定された場合に、該グループに属する各参加者の発言の状況を示す情報を、個別状況画面Eとして通信端末20の表示部21に表示させる。個別状況画面Eは、参加者ごとの発言の状況を示す領域E1を含む。領域E1は、複数の参加者に対応する複数の領域からなる。
【0069】
出力部115は、参加者ごとの発言の状況に対応する表示態様の領域E1を表示する。例えば出力部115は、各参加者の発言量の合計値又は積分値に応じて、領域E1の中で各参加者に対応する領域の色、模様等を変化させる。また、出力部115は、各参加者に対応する領域の近傍に、各参加者を識別する識別情報(ここではU1~U4)を表示する。これにより、議論の分析者又は補助者は、1つのグループに属する各参加者の発言の状況を容易に把握することができる。
【0070】
図6図8に示したグループ及び参加者の発言の状況を示す情報の出力方法は一例であり、グループ及び参加者に対応する集音装置10に関連付けて該情報を表示することが可能なその他の出力方法を用いてもよい。出力部115は、必ずしも集音装置10及び通信端末20の両方によって発言の状況を示す情報を表示する必要はなく、それらの少なくとも一方によって発言の状況を示す情報を表示してもよい。出力部115は、プリンタによる印刷、記憶装置へのデータ記録等、その他の手段によって発言の状況を示す情報を出力してもよい。
【0071】
[音声分析方法のシーケンス]
図9は、本実施形態に係る音声分析システムSが行う音声分析方法のシーケンス図である。まず通信端末20は、分析者から分析条件の設定を受け付け、設定情報として音声分析装置100に送信する(S11)。音声分析装置100の設定部111は、通信端末20から取得した設定情報又は設定部111自身が特定した設定情報を、設定情報記憶部131に記憶させる。設定情報は、1つの集音装置10に関するグループにおける各参加者の位置を示す参加者位置情報と、同時に議論を行う各グループ(すなわち各集音装置10)の位置を示すグループ位置情報とを含む。
【0072】
次に音声分析装置100の音声取得部112は、音声の取得を指示する信号を集音装置10に送信する(S12)。集音装置10は、音声分析装置100から音声の取得を指示する信号を受信した場合に、複数の集音部を用いて音声の記録を開始し、記録した複数チャネルの音声を音声分析装置100に送信する(S13)。音声分析装置100の音声取得部112は、集音装置10から音声を受信して音声記憶部132に記憶させる。
【0073】
音声分析装置100は、取得した音声を、逐次、すなわちリアルタイム処理で分析する。音声を分析する際に、まず音源定位部113は、音声取得部112が取得した音声に基づいて音源定位を行う(S14)。
【0074】
次に分析部114は、音声取得部112が取得した音声及び音源定位部113が推定した音源の向きに基づいて、時間ごとにいずれの参加者が発言したかを判別することによって、参加者の時間ごとの発言量を算出する。そして分析部114は、算出した発言量を用いて参加者の発言の状況を特定する(S15)。参加者の発言の状況は、例えば参加者の発言量の合計値又は積分値、あるいは参加者の発言量の合計値又は積分値の参加者間の比(すなわち相対値)である。
【0075】
また、分析部114は、参加者の時間ごとの発言量をグループごとに合計することによってグループの時間ごとの発言量を算出し、算出した発言量を用いてグループの発言の状況を特定する(S16)。グループの発言の状況は、例えばグループの発言量の合計値又は積分値、あるいはグループの発言量の合計値又は積分値のグループ間の比(すなわち相対値)である。分析部114は、各参加者及び各グループの発言の状況を示す状況情報を、分析結果として分析結果記憶部133に記憶させる。
【0076】
出力部115は、各参加者及び各グループの発言の状況を示す状況情報を集音装置10及び通信端末20に送信することによって、各参加者及び各グループの発言の状況を示す情報を表示する制御を行う(S17)。
【0077】
集音装置10は、音声分析装置100から受信した状況情報に従って、全体ランプ11及び個別ランプ12を発光させることによって、各参加者及び各グループの発言の状況を示す情報を表示する(S18)。通信端末20は、音声分析装置100から受信した表示情報に従って、各参加者及び各グループの発言の状況を示す情報を表す全体状況画面D及び個別状況画面Eを、表示部21に表示させる(S19)。音声分析装置100は、所定の時間間隔でステップS12~S19を繰り返すことによって、リアルタイム処理で音声を分析する。
【0078】
[本実施形態の効果]
本実施形態に係る音声分析装置100は、複数の集音部を有する集音装置10を用いて取得した音声に基づいて集音装置10に係るグループにおける発言の状況を特定し、集音装置10又は通信端末20に表示させる。そのため、複数のグループが同時に議論を行っている場合であっても、議論の分析者又は補助者は、集音装置10又は通信端末20における表示を参照することによって、複数のグループにおける発言の状況を容易に把握することができる。
【0079】
音声分析装置100が集音装置10上に発言の状況を表示する場合に、議論の分析者又は補助者に加えて、参加者も自身が属するグループの発言の状況を客観的に知ることができる。また、集音装置10上で参加者ごとに設けられた個別ランプ12に発言の状況を表示することによって、参加者は自身の発言の状況を他の参加者の発言の状況と容易に区別することができる。
【0080】
音声分析装置100が通信端末20上に発言の状況を表示する場合に、議論の分析者又は補助者は、全てのグループの発言の状況を俯瞰的に見ることができる。また、各集音装置10にランプを設ける必要がないため低コストである。
【0081】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
【0082】
上述の説明において、音声分析装置100は集音装置10を参加者が取り囲んで行われる議論における音声の分析に用いられているが、その他の用途にも適用できる。例えば音声分析装置100は、ポスターセッション等において1人の解説者が複数の観客に対して説明するような状況にも適用できる。
【0083】
音声分析装置100、集音装置10及び通信端末20のプロセッサは、図9に示す音声分析方法に含まれる各ステップ(工程)の主体となる。すなわち、音声分析装置100、集音装置10及び通信端末20のプロセッサは、図9に示す音声分析方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して音声分析装置100、集音装置10及び通信端末20の各部を制御することによって、図9に示す音声分析方法を実行する。図9に示す音声分析方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。
【符号の説明】
【0084】
S 音声分析システム
100 音声分析装置
110 制御部
111 設定部
112 音声取得部
114 分析部
115 出力部
10 集音装置
20 通信端末
21 表示部
図1
図2
図3
図4
図5
図6
図7
図8
図9