(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024142497
(43)【公開日】2024-10-11
(54)【発明の名称】会議支援システム、会議支援方法およびプログラム
(51)【国際特許分類】
G06F 3/16 20060101AFI20241003BHJP
G06F 3/048 20130101ALI20241003BHJP
G06F 3/04842 20220101ALI20241003BHJP
G10L 15/10 20060101ALI20241003BHJP
G10L 15/22 20060101ALI20241003BHJP
G10L 25/63 20130101ALI20241003BHJP
【FI】
G06F3/16 650
G06F3/048
G06F3/04842
G10L15/10 500N
G10L15/22 460Z
G10L25/63
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023054652
(22)【出願日】2023-03-30
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(71)【出願人】
【識別番号】507369936
【氏名又は名称】ホンダ太陽株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】住田 直亮
(72)【発明者】
【氏名】中塚 雅樹
(72)【発明者】
【氏名】周藤 唯
(72)【発明者】
【氏名】日根野 恭佑
(72)【発明者】
【氏名】眞浦 一也
(72)【発明者】
【氏名】原田 有理
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA13
5E555AA26
5E555BA13
5E555BB13
5E555BC19
5E555CA47
5E555DB41
5E555DC31
5E555EA23
5E555FA00
(57)【要約】
【課題】会議に参加している参加者の感情を認識して提示することができる会議支援システム、会議支援方法およびプログラムを提供することを目的とする。
【解決手段】会議支援システムは、人の音声信号を取得する音声取得部と、取得した音声信号を認識する認識部と、認識部で認識された内容を表示部に表示させる処理部と、認識部で認識された内容を表示する表示部と、を備え、認識部は、声による感情が認識されたとき、声による感情の直前および直後の内容のうち少なくとも1つの表示を強調表示する。
【選択図】
図9
【特許請求の範囲】
【請求項1】
人の音声信号を取得する音声取得部と、
取得した前記音声信号を認識する認識部と、
前記認識部で認識された内容を表示部に表示させる処理部と、
前記認識部で認識された内容を表示する表示部と、
を備え、
前記認識部は、声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも1つの表示を強調表示する、会議支援システム。
【請求項2】
前記処理部は、前記声による感情が認識された場合に、前記表示部に声による感情であることを示す情報を表示させる、
請求項1に記載の会議支援システム。
【請求項3】
前記処理部は、前記声による感情であることを示す情報を選択すると、前記声による感情が起きた理由を尋ねる定型文を表示部に表示させる、
請求項1または請求項2に記載の会議支援システム。
【請求項4】
前記処理部は、前記強調表示を選択すると、前記声による感情が起きた理由を尋ねる定型文を表示部に表示させる、
請求項1または請求項2に記載の会議支援システム。
【請求項5】
前記認識部は、複数の人の前記音声信号それぞれを人毎に認識し、
前記処理部は、
人毎に、認識された音声認識結果に発話者を示す情報を関連付けて前記表示部に表示させ、
前記発話者を示す情報が選択された場合に、選択された前記発話者に前記声による感情が起きた理由を尋ねる定型文を提示させる、
請求項1または請求項2に記載の会議支援システム。
【請求項6】
音声取得部が、人の音声信号を取得し、
認識部が、前記音声取得部によって取得された前記音声信号を認識し、
処理部が、前記認識部で認識された内容を表示部に表示させ、
表示部が、前記認識部で認識された内容を表示させ、
前記認識部は、声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも1つの表示を強調表示させる、
会議支援方法。
【請求項7】
会議支援システムのコンピュータに、
人の音声信号を取得させ、
取得された前記音声信号を認識させ、
認識された内容を表示部に表示させ、
認識された内容を表示させ、
声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも1つの表示を強調表示させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会議支援システム、会議支援方法およびプログラムに関する。
【背景技術】
【0002】
健聴者と聴覚障がい者とが一緒に会議に参加する会議において、各発表者の発話内容を音声認識してテキスト化し、聴覚障がい者が端末を操作して入力したテキスト化し、テキストを表示装置と各参加者が所有する端末に表示する会議支援システムが開示されている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、会議の場で例えば笑いが起きた場合に、聴覚障がい者が、笑いがあることを認識できなかったり、何故笑いが起こったか認識できず疎外感を感じることがあった。
【0005】
本発明は、上記の問題点に鑑みてなされたものであって、会議に参加している参加者の感情を認識して提示することができる会議支援システム、会議支援方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)上記目的を達成するため、本発明の一態様に係る会議支援システムは、人の音声信号を取得する音声取得部と、取得した前記音声信号を認識する認識部と、前記認識部で認識された内容を表示部に表示させる処理部と、前記認識部で認識された内容を表示する表示部と、を備え、前記認識部は、声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも1つの表示を強調表示する、会議支援システムである。
【0007】
(2)上記(1)に記載の会議支援システムでは、前記処理部は、前記声による感情が認識された場合に、前記表示部に声による感情であることを示す情報を表示させるようにしてもよい。
【0008】
(3)上記(1)または(2)に記載の会議支援システムでは、前記処理部は、前記声による感情であることを示す情報を選択すると、前記声による感情が起きた理由を尋ねる定型文を表示部に表示させるようにしてもよい。
【0009】
(4)上記(1)または(2)に記載の会議支援システムでは、前記処理部は、前記強調表示を選択すると、前記声による感情が起きた理由を尋ねる定型文を表示部に表示させるようにしてもよい。
【0010】
(5)上記(1)または(2)に記載の会議支援システムでは、前記認識部は、複数の人の前記音声信号それぞれを人毎に認識し、前記処理部は、人毎に、認識された音声認識結果に発話者を示す情報を関連付けて前記表示部に表示させ、前記発話者を示す情報が選択された場合に、選択された前記発話者に前記声による感情が起きた理由を尋ねる定型文を提示させるようにしてもよい。
【0011】
(6)上記目的を達成するため、本発明の一態様に係る会議支援方法は、音声取得部が、人の音声信号を取得し、認識部が、前記音声取得部によって取得された前記音声信号を認識し、処理部が、前記認識部で認識された内容を表示部に表示させ、表示部が、前記認識部で認識された内容を表示させ、前記認識部は、声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも1つの表示を強調表示させる、会議支援方法である。
【0012】
(7)上記目的を達成するため、本発明の一態様に係るプログラムは、会議支援システムのコンピュータに、人の音声信号を取得させ、取得された前記音声信号を認識させ、認識された内容を表示部に表示させ、認識された内容を表示させ、声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも1つの表示を強調表示させる、プログラムである。
【発明の効果】
【0013】
上記(1)~(7)によれば、会議に参加している参加者の感情を認識して提示することができる。
上記(2)によれば、例えば聴覚障がい者であっても、声による感情が起きたことを知ることができる。
上記(3)、(4)によれば、声による感情が起きた理由を尋ねることができる。
上記(5)によれば、特定の人に声による感情が起きた理由を尋ねることができる。
【図面の簡単な説明】
【0014】
【
図1】実施形態に係る会議支援システムの概要と会議のイメージを示す図である。
【
図2】会議において笑いが起きた場合の様子を示すイメージ図である。
【
図3】実施形態に係る端末に表示させる画像例を示す図である。
【
図4】実施形態に係る笑いが起きた理由を知りたい場合に表示される第1の画像例を示す図である。
【
図5】実施形態に係る笑いが起きた理由を知りたい場合に表示される第2の画像例を示す図である。
【
図6】実施形態に係る笑いが起きた理由を知りたい場合に表示される第3の画像例を示す図である。
【
図7】実施形態に係る質問が行われる前に第1表示装置に表示される画像例を示す図である。
【
図8】実施形態に係る質問が行われた後に第1表示装置に表示される画像例を示す図である。
【
図9】実施形態に係る会議支援システムの構成例を示すブロック図である。
【
図10】実施形態に係る感情認識モデルの学習例と認識例を説明するための図である。
【
図11】実施形態に係る会議支援装置の処理手順のフローチャートである。
【
図12】実施形態に係る笑いが起きた際に定型文等を送信して利用を聞く処理手順のフローチャートである。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「XXに基づいて」とは、「少なくともXXに基づく」ことを意味し、XXに加えて別の要素に基づく場合も含む。また、「XXに基づいて」とは、XXを直接に用いる場合に限定されず、XXに対して演算や加工が行われたものに基づく場合も含む。「XX」は、任意の要素(例えば、任意の情報)である。
【0016】
[会議支援システムの概要、本実施形態の概要]
まず、会議支援システムの概要、本実施形態の概要を説明する。
図1は、本実施形態に係る会議支援システムの概要と会議のイメージを示す図である。
会議支援システム1は、例えば2人以上が参加して行われる会議で用いられる。参加者US1~US3のうち、発話または聴覚が不自由な参加者(例えば聴覚障がい者)US2が会議に参加していてもよい。なお、参加者は、全員が同じ会議室にいなくてもよく、例えばネットワークNWを介して、別の会議室や自宅等から参加してもよい。
【0017】
発話可能な参加者US1、US3は、参加者毎に収音部11を装着する。例えば聴覚に障害がある参加者US2は、端末(スマートフォン、タブレット端末、パーソナルコンピュータ等)20を所持している。会議支援装置30は、参加者の発話した音声信号に対して音声認識を行いテキスト化して、第1表示装置60(表示装置)と端末20(20-1、20-2、20-3(
図2))にテキストを表示させる。また、第2表示装置70には、説明用の資料を表示させるPC(パーソナルコンピュータ等)80が接続されている。参加者US2は、例えばテーブルTbに置いて端末20を利用する。また、撮影装置90は、参加者の顔の表情を撮影可能な位置に配置されている。なお、撮影装置90は、2つ以上であってもよい。
【0018】
図2は、会議において笑いが起きた場合の様子を示すイメージ図である。
図2の例は、例えば、参加者US3の発話内容によって、参加者US1、US3が笑っているとする。このような場合、例えば参加者US2が難聴等である場合は、参加者US1、US3の発話が聞こえないため笑っている理由が分からない場合がある。このため、参加者US2は、もしかすると自分の発話が笑われているのではないかという不安感を感じたり、または自分だけが笑いに参加できていないために疎外感を感じることがある。なお、以下の実施例において、認識する感情の一例として「笑い」を例に説明するが、認識する感情は、これに限らない。認識する他の感情は、少なくとも音声信号によって認識可能(声のトーン、発話内容等)な感情、例えば「怒り」、「悲しみ」等であってもよい。
【0019】
[端末に表示される画像例]
図3は、本実施形態に係る端末に表示させる画像例を示す図である。
テキスト表示欄g11~g16は、既に発話された発話を音声認識したテキスト、または入力されたテキストの画像である。テキスト表示欄g14~g16は、笑いを認識した場合の表示画像例である。なお、笑いを認識した場合の表示画像は、文字情報であってもよく、絵文字であってもよく、またはアスキーアート等であってもよい。
【0020】
テキスト入力欄g31は、端末20の利用者(参加者)がテキスト入力を行う領域である。
送信ボタン画像g33は、端末20の利用者が、テキスト入力を終了し、入力したテキストを送信する際に選択するボタン画像である。
定型文表示ボタン画像g34は、定型文をテキスト入力部g31に提示させるボタン画像である。なお、テキスト入力部への入力は、例えば手書きであっても、ソフトウェアキーボードを操作しての入力であっても、例えば端末20に無線通信等で接続されているキーボードを操作しての入力であってもよい。
【0021】
なお、
図3のように、表示画像には、発話者に対応するアイコンg21とg22、発話者の名前画像g24、発話時刻画像g23、テキスト入力を開始する際に参加者が選択するテキスト入力開始ボタン画像g32等が含まれていてもよい。なお、テキスト入力開始ボタン画像g32と送信ボタン画像g33とは、切り替えて表示するようにしてもよい。
【0022】
ここで、仮に符号g13の発話の後に笑いが起きたとする。
会議支援システム1は、参加者の「笑い」を認識し、少なくとも例えば聴覚障がい等である参加者が利用する端末20に対して、
図3のように、参加者が笑ったことを提示(符号g14、g15)、および笑いが起きた直前または直後の発話(符号g13、g16)を例えば強調して表示のうちのすくなくとも1つを行う。なお、
図3の例は、笑いが起きた直後の発話(テキスト表示欄g13、g16)を強調して表示している例である。また、笑いが起きた直後の発話を強調する理由は、何が面白かったのか発話している内容が含まれている可能性があるためである。なお、強調表示は、例えば、文字サイズを大きくする、太字にする、色を変える、背景を変える等である。
【0023】
なお、
図4、
図5では、質問文をテキスト入力部に表示させる例を示したが、これに限らない。
【0024】
[笑いに対する質問画像例]
ここで、笑いが起きた場合に聴覚障がい等である参加者US2が、端末20-2を操作して、質問する方法例を説明する。
図4は、本実施形態に係る笑いが起きた理由を知りたい場合に表示される第1の画像例を示す図である。
聴覚障がい等である参加者US2が
図3のように、笑いが起きた直前の発話を見ても笑いが起きた理由を理解できない場合、参加US2者は、
図4のように定型文表示ボタン画像g34を選択して、定型文「なんで笑っているの?」画像g35を表示させる。なお、定型文は、例えば複数表示され、複数の中から、参加者US2が例えば画面をタッチして選択する。
【0025】
参加者US2は、定型文を選択した後に送信ボタン画像g33を選択して、定型文を会議支援装置30へ送信する。そして、会議支援装置30は、端末20-2から受信した情報に基づいて、第1表示装置60、第2表示装置70に定型文を提示する。
他の参加者は、表示された定型文に応じて、笑いが起きた理由を音声で説明する。会議支援装置30は、この説明を音声認識処理して、端末20-2に提示する。
【0026】
このような処理によって、参加者US2は、笑いが起きた理由を知ることができる。
なお、上述した例では、笑いが起きた理由を質問する際に定型文を用いる例を説明したが、これに限らない。質問文は、ソフトウェアキーボードや外付けキーボード等で入力したテキストであってもよい。
【0027】
図5は、本実施形態に係る笑いが起きた理由を知りたい場合に表示される第2の画像例を示す図である。
図4の例では、質問内容が会議の参加者全てに提示される。参加者US2によっては、全員に質問するより、質問しやすい人だけに質問したい場合もあり得る。このため、参加者US2は、
図5のように、質問したい参加者のアイコンを選択することで質問者を選択する(符号g25)。そして、参加者US2は、アイコン選択後に、送信ボタン画像g33を選択する。これにより、端末20は、定型文に、質問したい参加者US3を示す情報を関連付けて会議支援装置30へ送信する。
会議支援装置30は、端末20-2から受信した情報に基づいて、例えば質問対象の参加者US3が使用している端末20-3に定型文を提示する。質問された参加者US3は、例えば参加者US3が使用する端末20-3を操作して、参加者US2へ返答する。
これにより、本実施形態によれば、参加者US2は、特定の参加者(例えば、聞きやすい人、仲の良い人等)のみに笑いが起こっている理由を聞くことができる。
【0028】
なお、質問文の選択や表示位置は、上述した例に限らない。処理部310(
図9)は、
図6のように発話を認識してテキストで表示する領域において、笑いを認識したテキスト、例えば、符号g14をタップまたはタッチすることで、定型文g41を表示させるようにしてもよい。そして、参加者US2は、表示のうち、笑いに関する質問文をタップする(符号(g42)。端末20-2は、タップによって選択された定型文を会議支援装置30へ送信するようにしてもよい。
図6は、本実施形態に係る笑いが起きた理由を知りたい場合に表示される第3の画像例を示す図である。
【0029】
なお、
図6では、笑いが起きたことを示すテキストの領域をタップすることで定型文を表示させる例を示したが、これに限らない。例えば、
図6等において、笑いが起きた前後(符号g13、g16)の領域や対応する参加者のアイコン画像をタップすることで定型文を表示させるようにしてもよい。
【0030】
[第1表示装置に表示される画像例]
図7は、本実施形態に係る質問が行われる前に第1表示装置に表示される画像例を示す図である。
領域g100の画像は、参加者情報編集を行う領域である。
領域g101は、参加者情報の領域である。アイコン画像g102は、参加者に対応した画像である。名前画像g103は、参加者の名前の画像である。マイクロフォン番号画像g105は、参加者が使用する収音部11の番号(または識別情報)の画像である。端末番号画像g106は、参加者が使用する端末20の番号(または識別情報)の画像である。
【0031】
領域g200の画像は、発話されたテキストまたは入力されたテキストを表示、または議事録を表示する領域である。なお、
図7では、ログイン中の状態を示している。
ボタン画像g201は、ログイン/ログアウトの画像である。
ボタン画像g202は、会議支援システム1の開始/終了のボタンである。表示画像g203は、会議支援システム1の使用中に点灯する画像である。
ボタン画像g204は、議事録・音声ログ記憶部50が記憶する議事録の表示や音声信号の再生を行う画像である。
【0032】
アイコン画像g211は、参加者のうち、発話した人に対応する画像である。
符号g212、g221、g231は、参加者が発話した内容を音声認識したテキスト情報である。
発話時刻画像g214は、参加者が発話またはテキスト入力した時刻を示す情報である。
名前画像g215は、第1の参加者の名前の画像である。
【0033】
なお、
図7に示した画像は一例であり、第1表示装置60上に表示される画像は、これに限らない。例えば、会議中には、領域g200の画像のみを表示するようにしてもよい。
【0034】
図8は、本実施形態に係る質問が行われた後に第1表示装置に表示される画像例を示す図である。
図8の例では、笑いに関係する発話に関連付けて、定型文の画像g241を表示させている例である。なお、
図8のように、質問した参加者US2のアイコンや質問時間や名前も関連付けて表示(例えば画像g241の下のアイコン画像、名前等)させるようにしてもよい。
【0035】
このように、本実施形態では、会議支援装置30の処理部310が、笑い声が認識された場合に、端末20の表示部に203または表示装置(例えば第1表示装置60)に笑い声であることを示す情報を表示させるようにした。
また、本実施形態では、端末20の処理部202が、笑い声であることを示す表示を選択すると笑いの理由を尋ねる定型文を表示部203に表示させるようにした。
【0036】
[会議支援システムの構成例]
次に、会議支援システムの構成例を説明する。
図9は、本実施形態に係る会議支援システム1の構成例を示すブロック図である。
図9に示すように、会議支援システム1は、例えば、収音装置10、端末20、会議支援装置30、音響モデル・辞書DB40、議事録・音声ログ記憶部50、感情認識モデル55、第1表示装置60、第2表示装置70、PC80、および撮影装置90を備える。また、端末20は、端末20-1、端末20-2、・・・を備える。以下、端末20-1、端末20-2のうち1つを特定しない場合は、「端末20」という。
【0037】
収音装置10は、収音部11-1、収音部11-2、収音部11-3、・・・を備える。以下、収音部11-1、収音部11-2、収音部11-3、・・・のうち1つを特定しない場合は、「収音部11」という。
【0038】
端末20は、例えば、入力部201、処理部202、表示部203、および通信部204を備える。
【0039】
会議支援装置30は、例えば、取得部301(音声取得部)、音声認識部302、テキスト変換部303(認識部)、係り受け解析部304、議事録作成部306、通信部307、認証部308、操作部309、および処理部310を備える。処理部310は、例えば、感情認識部311(認識部)、および提示情報生成部312を備える。
【0040】
収音装置10と会議支援装置30とは、有線または無線によって接続されている。端末20と会議支援装置30とは、有線または無線のネットワークNWによって接続されている。撮影装置90と会議支援装置30とは、有線または無線のネットワークNWによって接続されている。
【0041】
[収音装置]
収音装置10は、参加者が発話した音声信号を収音し、収音した音声信号を会議支援装置30に出力する。なお、収音装置10は、1つのマイクロフォンアレイであってもよい。この場合、収音装置10は、それぞれ異なる位置に配置されたP個のマイクロフォンを有する。そして、収音装置10は、収音した音からPチャネル(Pは、2以上の整数)の音声信号を生成し、生成したPチャネルの音声信号を会議支援装置30に出力する。
【0042】
収音部11は、マイクロフォンである。収音部11は、参加者の音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を会議支援装置30に出力する。なお、収音部11は、アナログ信号の音声信号を会議支援装置30に出力するようにしてもよい。なお、収音された音声信号には、撮影された時刻のデータが含まれる。
【0043】
[端末]
端末20は、例えばスマートフォン、タブレット端末、パーソナルコンピュータ等である。端末20は、音声出力部、モーションセンサー、GPS(Global Positioning System;全地球測位システム)等を備えていてもよい。
【0044】
入力部201は、例えば表示部203上に設けられたタッチパネル式のセンサー(含むタッチパネル用のペンシル)、またはキーボードである。入力部201は、参加者が入力した入力を検出し、検出した結果を処理部202に出力する。なお、端末20の利用者は、テキストを、例えばタッチパネル用のペンシル等によって手書きで入力するか、表示部203に表示されるソフトウェアキーボードを操作して入力するか、機械式のキーボードを操作して入力する。
【0045】
処理部202は、入力部201が出力した結果に基づいて、テキスト入力が開始されたことを検出し、テキストが入力開始されたことを示すテキスト入力開始情報を生成し、生成したテキスト入力開始情報を通信部204に出力する。処理部202は、テキストが入力開始されたことを、例えば、文字が例えば1文字手書きされたことを検出したとき、またはキーボードで文字が一文字入力されたときに検出するようにしてもよい。なお、処理部202は、手書きでテキスト入力された場合、手書き文字を周知の手法で認識してテキスト化する。
処理部202は、入力部201が出力した結果に応じて送信情報を生成し、生成した送信情報を通信部204に出力する。送信情報には、入力されたテキスト情報と端末20を識別するための識別情報が含まれている。
処理部202は、通信部204が出力するテキスト情報を取得し、取得したテキスト情報を画像データに変換し、変換した画像データを表示部203に出力する。なお、表示部203上に表示される画像については後述する。
なお、端末20の処理を、会議支援装置30の処理部310が行ってもよい。このような場合、処理に用いられるアプリケーションは、例えばクラウド上にあってもよい。
【0046】
表示部203は、処理部202が出力した画像データを表示する。表示部203は、例えば、液晶表示装置、有機EL(エレクトロルミネッセンス)表示装置、電子インク表示装置等である。
【0047】
通信部204は、テキスト情報または議事録の情報を会議支援装置30から受信し、受信した受信情報を処理部202に出力する。通信部204は、処理部202が出力したテキスト入力開始情報、送信情報を会議支援装置30に送信する。
【0048】
[音響モデル・辞書DB、議事録・音声ログ記憶部]
音響モデル・辞書DB40には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。なお、会議支援装置30は、音声認識辞書13に格納されていない単語等を、音響モデル・辞書DB40に格納して更新するようにしてもよい。
【0049】
議事録・音声ログ記憶部50は、議事録(含む音声信号)を記憶する。
【0050】
感情認識モデル55は、予め、例えば会議の参加者の笑い声と我っている顔の画像のうちのすくなくとも1つと、笑っていることを示す教師データを用いて、笑っていることを示す情報を出力するように学習させたモデルである。
【0051】
なお、音響モデル・辞書DB40、感情認識モデル55等は、サーバ(不図示)が備えていてもよく、クラウド上に置かれていてもよい。
【0052】
第1表示装置60は、会議支援装置30が出力した画像データを表示する。第1表示装置60は、例えば液晶表示装置、有機EL(エレクトロルミネッセンス)表示装置、電子インク表示装置等である。なお、第1表示装置60は、会議支援装置30が備えていてもよい。
【0053】
第2表示装置70は、PC80が出力する画像データを表示する。第2表示装置70は、例えば液晶表示装置、有機EL(エレクトロルミネッセンス)表示装置、電子インク表示装置等である。なお、第2表示装置70は、PC80が備えていてもよい。
【0054】
PC80は、例えば、パーソナルコンピュータ、スマートフォン、タブレット端末等のうちのいずれか1つである。
【0055】
撮影装置90は、例えば会議室に設置され、会議の参加者の顔を含む画像を例えば所定時間毎に撮影し、撮影した画像を会議支援装置30に送信する。なお、撮影された画像には、撮影された時刻のデータが含まれる。
【0056】
[会議支援装置]
会議支援装置30は、例えばパーソナルコンピュータ、サーバ、スマートフォン、タブレット端末等のうちのいずれかである。なお、会議支援装置30は、収音装置10がマイクロフォンアレイの場合、音源定位部、音源分離部、および音源同定部をさらに備える。会議支援装置30は、参加者によって発話された音声信号を、例えば所定の期間毎に音声認識してテキスト化する。そして、会議支援装置30は、テキスト化した発話内容のテキスト情報を、参加者の端末20それぞれに送信する。
【0057】
取得部301は、収音部11が出力する音声信号を取得し、取得した音声信号を音声認識部302に出力する。なお、取得した音声信号がアナログ信号の場合、取得部301は、アナログ信号をデジタル信号に変換し、デジタル信号に変換した音声信号を音声認識部302に出力する。取得部301は、撮影装置90が撮影した画像を取得し、取得した画像を感情認識部311に出力する。
【0058】
音声認識部302は、収音部11が複数の場合、収音部11を使用する話者毎に音声認識を行う。
音声認識部302は、取得部301が出力する音声信号を取得する。音声認識部302は、取得部301が出力した音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出してもよく、収音部11のオン状態とオフ状態を検出してもよい。なお、音声認識部302は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部302は、検出した発話区間の音声信号に対して、音響モデル・辞書DB40を参照して、周知の手法を用いて音声認識を行う。なお、音声認識部302は、例えば特開2015-64554号公報に開示されている手法等を用いて音声認識を行う。音声認識部302は、認識した認識結果と音声信号をテキスト変換部303に出力する。なお、音声認識部302は、認識結果と音声信号とを、例えば1文毎、または発話句間毎、または話者毎に対応つけて、テキスト変換部303と感情認識部311に出力する。音声認識部302は、感情認識部311が認識した感情認識結果を取得する。感情認識結果には、例えば「笑っている」等ことを示す情報が含まれる。また、音声認識部302は、笑いが起きている前後の発話を検出し、検出した発話に笑いが起きている前後の発話であることを示す情報を、認識した音声信号に付与してテキスト変換部303に出力する。
【0059】
テキスト変換部303は、音声認識部302が出力した認識結果に基づいて、テキストに変換する。テキスト変換部303は、変換したテキスト情報と音声信号を係り受け解析部304に出力する。なお、テキスト変換部303は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除してテキストに変換するようにしてもよい。
【0060】
係り受け解析部304は、テキスト変換部303が出力したテキスト情報に対して形態素解析と係り受け解析を行う。係り受け解析には、例えば、Shift-reduce法や全域木の手法やチャンク同定の段階適用手法においてSVM(Support Vector Machines)を用いる。係り受け解析部304は、解析した結果に基づいて、修正が必要な場合は、音声認識したテキスト情報を音響モデル・辞書DB40を参照して修正して議事録・音声ログ記憶部50に記憶させる。係り受け解析部304は、係り受け解析した結果のテキスト情報と音声信号を議事録作成部306に出力する。
【0061】
議事録作成部306は、係り受け解析部304が出力したテキスト情報と音声信号に基づいて、発表者等である発話者毎に分けて、議事録を作成する。議事録作成部306は、作成した議事録と対応する音声信号を議事録・音声ログ記憶部50に記憶させる。なお、議事録作成部306は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除して議事録を作成するようにしてもよい。
【0062】
通信部307は、端末20と情報の送受信を行う。端末20から受信する情報には、例えば、会議への参加要請、テキスト入力開始情報、テキスト送信情報、過去の議事録の送信を要請する指示情報等が含まれている。通信部307は、端末20から受信した参加要請から、例えば、端末20を識別するための識別情報を抽出し、抽出した識別情報を認証部308に出力する。識別情報は、例えば、端末20のシリアル番号、MACアドレス(Media Access Control address)、IP(Internet Protocol)アドレス等である。通信部307は、認証部308が通信参加を許可する指示を出力した場合、会議に参加要請した端末20との通信を行う。通信部307は、認証部308が通信参加を許可しない指示を出力した場合、会議に参加要請した端末20との通信を行わない。通信部307は、受信した情報を処理部310に出力する。通信部307は、処理部310が出力したテキスト情報または過去の議事録情報等を、参加要請のあった端末20に送信する。
【0063】
認証部308は、通信部307が出力した識別情報を受け取り、通信を許可するか否か判別する。なお、会議支援装置30は、例えば、会議への参加者が使用する端末20の登録を受け付け、認証部308に登録しておく。認証部308は、判別結果に応じて、通信参加を許可する指示か、通信参加を許可しない指示を通信部307に出力する。
【0064】
操作部309は、例えばキーボード、マウス、第1表示装置60上に設けられているタッチパネルセンサー等である。操作部309は、参加者の操作結果を検出して、検出した操作結果を処理部310に出力する。
【0065】
処理部310は、感情認識処理を行って、端末20や第1表示装置60、第2表示装置70に表示させる情報を変化させて提示するか否かを判別し、判別した結果に基づいて提示情報を端末20や第1表示装置60、第2表示装置70に表示させる。また、処理部310は、端末20が操作され、笑いが起きたことにたいする定型文等を受信した場合、定型文を他の参加者の端末20や第1表示装置60、第2表示装置70に表示させる。
処理部310は、過去の議事録の送信を要請する指示情報に応じて議事録・音声ログ記憶部50から議事録を読み出し、読み出した議事録の情報を通信部307に出力する。なお、議事録の情報には、話者を示す情報、係り受け解析した結果を示す情報等が含まれていてもよい。
【0066】
感情認識部311は、例えば音声認識部302が出力する音声信号と、取得部301が出力する画像を取得する。感情認識部311は、取得した音声信号と画像を、感情認識モデル55に入力して、参加者が笑っているか否かを認識する。感情認識部311は、認識した認識結果を音声認識部302に出力する。なお、音声認識部302が、感情認識部311の機能を備えていてもよい。
【0067】
提示情報生成部312は、係り受け解析部304が出力する係り受け解析した結果のテキスト情報を取得する。なお、係り受け解析した結果のテキスト情報には、笑いが起きているか否かを示す情報、笑いが起きる前後の発話を示す情報等が含まれる。提示情報生成部312は、取得した情報に基づいて、端末20や第1表示装置60、第2表示装置70に表示させる情報を生成する。
また、提示情報生成部312は、端末20が操作され、笑いが起きたことにたいする定型文等を受信した場合、定型文を他の参加者の端末20や第1表示装置60、第2表示装置70に表示させる情報を生成する。
【0068】
なお、収音装置10がマイクロフォンアレイの場合、会議支援装置30は、音源定位部、音源分離部、および音源同定部をさらに備える。この場合、会議支援装置30は、取得部301が取得した音声信号に対して予め生成した伝達関数を用いて音源定位部が音源定位を行う。そして、会議支援装置30は、音源定位部が定位して結果を用いて話者同定を行う。会議支援装置30は、音源定位部が定位して結果を用いて、取得部301が取得した音声信号に対して音源分離を行う。そして、会議支援装置30の音声認識部302は、分離された音声信号に対して発話区間の検出と音声認識を行う(例えば特開2017-9657号公報参照)。また、会議支援装置30は、残響音抑圧処理を行うようにしてもよい。
【0069】
[感情認識モデル]
次に、感情認識モデルの学習例と認識例を説明する。
図10は、本実施形態に係る感情認識モデルの学習例と認識例を説明するための図である。なお、
図10の例は、感情認識モデル55によって、笑っているか否かを識別する例である。
学習時は、画像と音声信号と教師データとを、感情認識モデル55に入力して、笑っているか否かを学習させる。
認識時は、画像と音声信号とを、感情認識モデル55に入力して、笑っているか否かを識別させる。
なお、例えば、音声信号と教師データを用いて感情認識モデル55を学習させてもよく、または画像と教師データを用いて感情認識モデル55を学習させてもよい。
【0070】
[処理手順例]
次に、会議支援装置30の処理手順例を説明する。
図11は、本実施形態に係る会議支援装置の処理手順のフローチャートである。
【0071】
(ステップS1)会議支援装置30の処理部310は、利用者が操作部309を操作した操作結果等に基づいて、会議で使用する収音部11や端末20を登録する。
【0072】
(ステップS2)処理部310は、利用者が操作部309を操作した操作結果等に基づいて、会議開始を検出する。
【0073】
(ステップS3)取得部301は、収音装置10が収音した音声信号を取得する。
【0074】
(ステップS4)取得部301は、撮影装置90が撮影した画像を取得する。
【0075】
(ステップS5)音声認識部302は、取得した音声信号に対して音声認識処理を行う。
【0076】
(ステップS6)処理部310は、音声認識部302が出力する認識結果に基づいて発話を検出する。
【0077】
(ステップS7)感情認識部311は、音声信号と画像を感情認識モデル55に入力して、発話に笑いが起きているか否かを識別する。感情認識部311は、発話に笑いが起きていない場合(ステップS7;NO)、ステップS8の処理に進める。感情認識部311は、発話に笑いが起きている場合(ステップS7;YES)、ステップS9の処理に進める。
【0078】
(ステップS8)感情認識部311は、発話に笑いが起きていないことを示す情報を音声認識部302に出力する。音声認識部302は、音声認識した結果と音声信号をテキスト変換部303に出力する。テキスト変換部303は、認識された音声信号に対してテキスト変換処理を行う。係り受け解析部304は、変換されたテキスト情報に対して係り受け解析処理を行う。係り受け解析部304は、解析結果を提示情報生成部312に出力する。提示情報生成部312は、笑いが起きていないため、強調等を行わずに通常の提示情報を生成して、発話内容を端末20や第1表示装置60、第2表示装置70に表示させる。処理部310は、処理後、ステップS3の処理に戻す。
【0079】
(ステップS9)感情認識部311は、発話に笑いが起きていることを示す情報を音声認識部302に出力する。音声認識部302は、音声認識した結果と音声信号をテキスト変換部303に出力する。テキスト変換部303は、認識された音声信号に対してテキスト変換処理を行う。係り受け解析部304は、変換されたテキスト情報に対して係り受け解析処理を行う。係り受け解析部304は、解析結果を提示情報生成部312に出力する。提示情報生成部312は、笑いが起きているため、笑いが起きていることを示す提示情報(例えば
図3の「(笑い)」等)を生成して、発話内容を端末20や第1表示装置60、第2表示装置70に表示させる。
【0080】
(ステップS10)提示情報生成部312は、笑いが起きているため、強調等を行った提示情報を生成して、発話内容を端末20や第1表示装置60、第2表示装置70に表示させる。処理部310は、処理後、ステップS3の処理に戻す。
【0081】
なお、会議支援装置30は、上述した発話の認識を、例えば1文毎に行う。また、
図11に示した処理手順例は一例であり、これに限らない。例えば、いくつかの処理順番は入れ替わっていても、同時に行われてもよい。
【0082】
次に、笑いが起きた際に定型文等を送信して利用を聞く処理手順例を説明する。
図12は、本実施形態に係る笑いが起きた際に定型文等を送信して利用を聞く処理手順のフローチャートである。
【0083】
(ステップS101)処理部310は、参加者US2が使用する端末20-2から、テキストを取得したか否かを判別する。処理部310は、テキストを取得した場合(ステップS101;YES)、ステップS102の処理に進める。処理部310は、テキストを取得していない場合(ステップS101;NO)、ステップS101の処理を繰り返す。
【0084】
(ステップS102)処理部310は、取得したテキストが、笑いに対する質問の定型文やテキストであるか否かを判別する。処理部310は、取得したテキストが笑いに対する質問ではない場合(ステップS102;NO)、ステップS103の処理に進める。処理部310は、取得したテキストが笑いに対する質問である場合(ステップS102;YES)、ステップS104の処理に進める。
【0085】
(ステップS103)処理部310は、端末20や第1表示装置60、第2表示装置70に表示させる情報を変化させない。処理後、処理部310は、質問に関する処理を終了する。
【0086】
(ステップS104)処理部310は、取得した笑いに対する質問が、特定の参加者に対する質問であるか否かを判別する。処理部310は、取得した笑いに対する質問が、特定の参加者に対する質問である場合(ステップS104;YES)、ステップS105の処理に進める。処理部310は、取得した笑いに対する質問が、特定の参加者に対する質問である場合(ステップS104;NO)、ステップS106の処理に進める。
【0087】
(ステップS105)処理部310は、取得した笑いに対する質問文を、指定された特定の参加者の端末20に表示させる。処理後、処理部310は、ステップS107の処理に進める。
【0088】
(ステップS106)処理部310は、取得した笑いに対する質問文を表示装置(例えば第1表示装置60)に表示させる。処理後、処理部310は、ステップS107の処理に進める。
【0089】
(ステップS107)処理部310は、取得した笑いに対する質問文を、質問した参加者US2以外の参加者の端末20に表示させる。
【0090】
(ステップS108)処理部310は、返答のテキストを参加者の端末20から受信したか否かを判別する。処理部310は、返答のテキストを参加者の端末20から受信した場合(ステップS108;YES)、ステップS109の処理に進める。処理部310は、返答のテキストを参加者の端末20から例えば所定時間以内に受信していない場合(ステップS108;NO)、質問に関する処理を終了する。
【0091】
(ステップS109)処理部310は、取得した返答のテキストを、質問した参加者US2の端末20-2に表示させる。処理後、処理部310は、質問に関する処理を終了する。
【0092】
なお、
図12に示した処理手順は一例であり、これに限らない。例えば、質問対する返答が、他の参加者の発話に含まれている場合もありえる。このような場合、処理部310は、音声信号に対して音声認識処理を行って、端末20と表示装置に表示させる。これにより、質問者は、表示される認識されたテキストによって、笑いがおきた理由を理解できる場合もある。
【0093】
また、
図12の例では、笑いが起きた場合に質問する例を示したが、これに限らない。例えば、特待の参加者がエキサイトしていたり怒っている場合に、参加者US2は、端末20-2を操作して、他の参加者または特定の参加者に質問文を表示させるように操作してもよい。
【0094】
なお、聴覚障がい等に限らず参加者は、他の人に聞かれずに会議に進行を妨げないように、質問をしたい場合もあり得る。このため、質問を行うのは、聴覚障がい等の参加者UC2に限らず、他の参加者が行うようにしてもよい。この場合であっても、質問を特定の参加者へ表示させるようにしてもよい。
【0095】
また、
図5等の例では、特定の参加者の選択を、端末に発話者として表示されたアイコンを選択することで行うようにしたが、これに限られない。特定の参加者の選択は、参加者のリストを表示し、そのリストから選択するようにしてもよい。あるいは、特定の参加者を事前に登録しておき、登録者リストから選択するようにしてもよい。このような構成によれば、特定の参加者が発話者として端末に表示されない場合でも、希望する人へ質問を行うことができる。
【0096】
以上のように、本実施形態では、場の笑い声を笑いと認識し、その前後の発言を強調表示するようにした。また、本実施形態では、笑い声を認識した結果の前後の発言を見ても笑う理由が参加者に分からない場合、笑いについて尋ねることができる機能を備えるようにした。
【0097】
これにより、本実施形態によれば、笑い声を認識し、その前後の発言を強調することで、話の流れをわかりやすく表示することで、上記の課題を解決する。また、本実施形態によれば、理解できない場合でも簡易に尋ねることができる。
【0098】
なお、本発明における会議支援装置30,端末20の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより会議支援装置30,端末20が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0099】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0100】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0101】
1…会議支援システム、10…収音装置、11…収音部、20,20-1,20-2,20-3…端末、30…会議支援装置、40…音響モデル・辞書DB40、50…議事録・音声ログ記憶部、55…感情認識モデル、60…第1表示装置、70…第2表示装置、80…PC、90…撮影装置、201…入力部、202…処理部、203…表示部、204…通信部、301…取得部、302…音声認識部、303…テキスト変換部、304…係り受け解析部、306…議事録作成部、307…通信部、308…認証部、309…操作部、310…処理部、311…感情認識部、312…提示情報生成部