特開2024-142497 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ ホンダ太陽株式会社の特許一覧

特開2024-142497会議支援システム、会議支援方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024142497

(43)【公開日】2024-10-11

(54)【発明の名称】会議支援システム、会議支援方法およびプログラム

(51)【国際特許分類】

G06F 3/16 20060101AFI20241003BHJP

G06F 3/048 20130101ALI20241003BHJP

G06F 3/04842 20220101ALI20241003BHJP

G10L 15/10 20060101ALI20241003BHJP

G10L 15/22 20060101ALI20241003BHJP

G10L 25/63 20130101ALI20241003BHJP

【ＦＩ】

G06F3/16 650

G06F3/048

G06F3/04842

G10L15/10 500N

G10L15/22 460Z

G10L25/63

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023054652

(22)【出願日】2023-03-30

(71)【出願人】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(71)【出願人】

【識別番号】507369936

【氏名又は名称】ホンダ太陽株式会社

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】住田直亮

(72)【発明者】

【氏名】中塚雅樹

(72)【発明者】

【氏名】周藤唯

(72)【発明者】

【氏名】日根野恭佑

(72)【発明者】

【氏名】眞浦一也

(72)【発明者】

【氏名】原田有理

【テーマコード（参考）】

5E555

【Ｆターム（参考）】

5E555AA13

5E555AA26

5E555BA13

5E555BB13

5E555BC19

5E555CA47

5E555DB41

5E555DC31

5E555EA23

5E555FA00

(57)【要約】

【課題】会議に参加している参加者の感情を認識して提示することができる会議支援システム、会議支援方法およびプログラムを提供することを目的とする。
【解決手段】会議支援システムは、人の音声信号を取得する音声取得部と、取得した音声信号を認識する認識部と、認識部で認識された内容を表示部に表示させる処理部と、認識部で認識された内容を表示する表示部と、を備え、認識部は、声による感情が認識されたとき、声による感情の直前および直後の内容のうち少なくとも１つの表示を強調表示する。
【選択図】図９

【特許請求の範囲】

【請求項1】

人の音声信号を取得する音声取得部と、
取得した前記音声信号を認識する認識部と、
前記認識部で認識された内容を表示部に表示させる処理部と、
前記認識部で認識された内容を表示する表示部と、
を備え、
前記認識部は、声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも１つの表示を強調表示する、会議支援システム。

【請求項2】

前記処理部は、前記声による感情が認識された場合に、前記表示部に声による感情であることを示す情報を表示させる、
請求項１に記載の会議支援システム。

【請求項3】

前記処理部は、前記声による感情であることを示す情報を選択すると、前記声による感情が起きた理由を尋ねる定型文を表示部に表示させる、
請求項１または請求項２に記載の会議支援システム。

【請求項4】

前記処理部は、前記強調表示を選択すると、前記声による感情が起きた理由を尋ねる定型文を表示部に表示させる、
請求項１または請求項２に記載の会議支援システム。

【請求項5】

前記認識部は、複数の人の前記音声信号それぞれを人毎に認識し、
前記処理部は、
人毎に、認識された音声認識結果に発話者を示す情報を関連付けて前記表示部に表示させ、
前記発話者を示す情報が選択された場合に、選択された前記発話者に前記声による感情が起きた理由を尋ねる定型文を提示させる、
請求項１または請求項２に記載の会議支援システム。

【請求項6】

音声取得部が、人の音声信号を取得し、
認識部が、前記音声取得部によって取得された前記音声信号を認識し、
処理部が、前記認識部で認識された内容を表示部に表示させ、
表示部が、前記認識部で認識された内容を表示させ、
前記認識部は、声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも１つの表示を強調表示させる、
会議支援方法。

【請求項7】

会議支援システムのコンピュータに、
人の音声信号を取得させ、
取得された前記音声信号を認識させ、
認識された内容を表示部に表示させ、
認識された内容を表示させ、
声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも１つの表示を強調表示させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、会議支援システム、会議支援方法およびプログラムに関する。

【背景技術】

【0002】

健聴者と聴覚障がい者とが一緒に会議に参加する会議において、各発表者の発話内容を音声認識してテキスト化し、聴覚障がい者が端末を操作して入力したテキスト化し、テキストを表示装置と各参加者が所有する端末に表示する会議支援システムが開示されている（例えば特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第６５４８０４５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術では、会議の場で例えば笑いが起きた場合に、聴覚障がい者が、笑いがあることを認識できなかったり、何故笑いが起こったか認識できず疎外感を感じることがあった。

【0005】

本発明は、上記の問題点に鑑みてなされたものであって、会議に参加している参加者の感情を認識して提示することができる会議支援システム、会議支援方法およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

（１）上記目的を達成するため、本発明の一態様に係る会議支援システムは、人の音声信号を取得する音声取得部と、取得した前記音声信号を認識する認識部と、前記認識部で認識された内容を表示部に表示させる処理部と、前記認識部で認識された内容を表示する表示部と、を備え、前記認識部は、声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも１つの表示を強調表示する、会議支援システムである。

【0007】

（２）上記（１）に記載の会議支援システムでは、前記処理部は、前記声による感情が認識された場合に、前記表示部に声による感情であることを示す情報を表示させるようにしてもよい。

【0008】

（３）上記（１）または（２）に記載の会議支援システムでは、前記処理部は、前記声による感情であることを示す情報を選択すると、前記声による感情が起きた理由を尋ねる定型文を表示部に表示させるようにしてもよい。

【0009】

（４）上記（１）または（２）に記載の会議支援システムでは、前記処理部は、前記強調表示を選択すると、前記声による感情が起きた理由を尋ねる定型文を表示部に表示させるようにしてもよい。

【0010】

（５）上記（１）または（２）に記載の会議支援システムでは、前記認識部は、複数の人の前記音声信号それぞれを人毎に認識し、前記処理部は、人毎に、認識された音声認識結果に発話者を示す情報を関連付けて前記表示部に表示させ、前記発話者を示す情報が選択された場合に、選択された前記発話者に前記声による感情が起きた理由を尋ねる定型文を提示させるようにしてもよい。

【0011】

（６）上記目的を達成するため、本発明の一態様に係る会議支援方法は、音声取得部が、人の音声信号を取得し、認識部が、前記音声取得部によって取得された前記音声信号を認識し、処理部が、前記認識部で認識された内容を表示部に表示させ、表示部が、前記認識部で認識された内容を表示させ、前記認識部は、声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも１つの表示を強調表示させる、会議支援方法である。

【0012】

（７）上記目的を達成するため、本発明の一態様に係るプログラムは、会議支援システムのコンピュータに、人の音声信号を取得させ、取得された前記音声信号を認識させ、認識された内容を表示部に表示させ、認識された内容を表示させ、声による感情が認識されたとき、前記声による感情の直前および直後の内容のうち少なくとも１つの表示を強調表示させる、プログラムである。

【発明の効果】

【0013】

上記（１）～（７）によれば、会議に参加している参加者の感情を認識して提示することができる。
上記（２）によれば、例えば聴覚障がい者であっても、声による感情が起きたことを知ることができる。
上記（３）、（４）によれば、声による感情が起きた理由を尋ねることができる。
上記（５）によれば、特定の人に声による感情が起きた理由を尋ねることができる。

【図面の簡単な説明】

【0014】

【図1】実施形態に係る会議支援システムの概要と会議のイメージを示す図である。

【図2】会議において笑いが起きた場合の様子を示すイメージ図である。

【図3】実施形態に係る端末に表示させる画像例を示す図である。

【図4】実施形態に係る笑いが起きた理由を知りたい場合に表示される第１の画像例を示す図である。

【図5】実施形態に係る笑いが起きた理由を知りたい場合に表示される第２の画像例を示す図である。

【図6】実施形態に係る笑いが起きた理由を知りたい場合に表示される第３の画像例を示す図である。

【図7】実施形態に係る質問が行われる前に第１表示装置に表示される画像例を示す図である。

【図8】実施形態に係る質問が行われた後に第１表示装置に表示される画像例を示す図である。

【図9】実施形態に係る会議支援システムの構成例を示すブロック図である。

【図10】実施形態に係る感情認識モデルの学習例と認識例を説明するための図である。

【図11】実施形態に係る会議支援装置の処理手順のフローチャートである。

【図12】実施形態に係る笑いが起きた際に定型文等を送信して利用を聞く処理手順のフローチャートである。

【発明を実施するための形態】

【0015】

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「ＸＸに基づいて」とは、「少なくともＸＸに基づく」ことを意味し、ＸＸに加えて別の要素に基づく場合も含む。また、「ＸＸに基づいて」とは、ＸＸを直接に用いる場合に限定されず、ＸＸに対して演算や加工が行われたものに基づく場合も含む。「ＸＸ」は、任意の要素（例えば、任意の情報）である。

【0016】

［会議支援システムの概要、本実施形態の概要］
まず、会議支援システムの概要、本実施形態の概要を説明する。
図１は、本実施形態に係る会議支援システムの概要と会議のイメージを示す図である。
会議支援システム１は、例えば２人以上が参加して行われる会議で用いられる。参加者ＵＳ１～ＵＳ３のうち、発話または聴覚が不自由な参加者（例えば聴覚障がい者）ＵＳ２が会議に参加していてもよい。なお、参加者は、全員が同じ会議室にいなくてもよく、例えばネットワークＮＷを介して、別の会議室や自宅等から参加してもよい。

【0017】

発話可能な参加者ＵＳ１、ＵＳ３は、参加者毎に収音部１１を装着する。例えば聴覚に障害がある参加者ＵＳ２は、端末（スマートフォン、タブレット端末、パーソナルコンピュータ等）２０を所持している。会議支援装置３０は、参加者の発話した音声信号に対して音声認識を行いテキスト化して、第１表示装置６０（表示装置）と端末２０（２０－１、２０－２、２０－３（図２））にテキストを表示させる。また、第２表示装置７０には、説明用の資料を表示させるＰＣ（パーソナルコンピュータ等）８０が接続されている。参加者ＵＳ２は、例えばテーブルＴｂに置いて端末２０を利用する。また、撮影装置９０は、参加者の顔の表情を撮影可能な位置に配置されている。なお、撮影装置９０は、２つ以上であってもよい。

【0018】

図２は、会議において笑いが起きた場合の様子を示すイメージ図である。
図２の例は、例えば、参加者ＵＳ３の発話内容によって、参加者ＵＳ１、ＵＳ３が笑っているとする。このような場合、例えば参加者ＵＳ２が難聴等である場合は、参加者ＵＳ１、ＵＳ３の発話が聞こえないため笑っている理由が分からない場合がある。このため、参加者ＵＳ２は、もしかすると自分の発話が笑われているのではないかという不安感を感じたり、または自分だけが笑いに参加できていないために疎外感を感じることがある。なお、以下の実施例において、認識する感情の一例として「笑い」を例に説明するが、認識する感情は、これに限らない。認識する他の感情は、少なくとも音声信号によって認識可能（声のトーン、発話内容等）な感情、例えば「怒り」、「悲しみ」等であってもよい。

【0019】

［端末に表示される画像例］
図３は、本実施形態に係る端末に表示させる画像例を示す図である。
テキスト表示欄ｇ１１～ｇ１６は、既に発話された発話を音声認識したテキスト、または入力されたテキストの画像である。テキスト表示欄ｇ１４～ｇ１６は、笑いを認識した場合の表示画像例である。なお、笑いを認識した場合の表示画像は、文字情報であってもよく、絵文字であってもよく、またはアスキーアート等であってもよい。

【0020】

テキスト入力欄ｇ３１は、端末２０の利用者（参加者）がテキスト入力を行う領域である。
送信ボタン画像ｇ３３は、端末２０の利用者が、テキスト入力を終了し、入力したテキストを送信する際に選択するボタン画像である。
定型文表示ボタン画像ｇ３４は、定型文をテキスト入力部ｇ３１に提示させるボタン画像である。なお、テキスト入力部への入力は、例えば手書きであっても、ソフトウェアキーボードを操作しての入力であっても、例えば端末２０に無線通信等で接続されているキーボードを操作しての入力であってもよい。

【0021】

なお、図３のように、表示画像には、発話者に対応するアイコンｇ２１とｇ２２、発話者の名前画像ｇ２４、発話時刻画像ｇ２３、テキスト入力を開始する際に参加者が選択するテキスト入力開始ボタン画像ｇ３２等が含まれていてもよい。なお、テキスト入力開始ボタン画像ｇ３２と送信ボタン画像ｇ３３とは、切り替えて表示するようにしてもよい。

【0022】

ここで、仮に符号ｇ１３の発話の後に笑いが起きたとする。
会議支援システム１は、参加者の「笑い」を認識し、少なくとも例えば聴覚障がい等である参加者が利用する端末２０に対して、図３のように、参加者が笑ったことを提示（符号ｇ１４、ｇ１５）、および笑いが起きた直前または直後の発話（符号ｇ１３、ｇ１６）を例えば強調して表示のうちのすくなくとも１つを行う。なお、図３の例は、笑いが起きた直後の発話（テキスト表示欄ｇ１３、ｇ１６）を強調して表示している例である。また、笑いが起きた直後の発話を強調する理由は、何が面白かったのか発話している内容が含まれている可能性があるためである。なお、強調表示は、例えば、文字サイズを大きくする、太字にする、色を変える、背景を変える等である。

【0023】

なお、図４、図５では、質問文をテキスト入力部に表示させる例を示したが、これに限らない。

【0024】

［笑いに対する質問画像例］
ここで、笑いが起きた場合に聴覚障がい等である参加者ＵＳ２が、端末２０－２を操作して、質問する方法例を説明する。
図４は、本実施形態に係る笑いが起きた理由を知りたい場合に表示される第１の画像例を示す図である。
聴覚障がい等である参加者ＵＳ２が図３のように、笑いが起きた直前の発話を見ても笑いが起きた理由を理解できない場合、参加ＵＳ２者は、図４のように定型文表示ボタン画像ｇ３４を選択して、定型文「なんで笑っているの？」画像ｇ３５を表示させる。なお、定型文は、例えば複数表示され、複数の中から、参加者ＵＳ２が例えば画面をタッチして選択する。

【0025】

参加者ＵＳ２は、定型文を選択した後に送信ボタン画像ｇ３３を選択して、定型文を会議支援装置３０へ送信する。そして、会議支援装置３０は、端末２０－２から受信した情報に基づいて、第１表示装置６０、第２表示装置７０に定型文を提示する。
他の参加者は、表示された定型文に応じて、笑いが起きた理由を音声で説明する。会議支援装置３０は、この説明を音声認識処理して、端末２０－２に提示する。

【0026】

このような処理によって、参加者ＵＳ２は、笑いが起きた理由を知ることができる。
なお、上述した例では、笑いが起きた理由を質問する際に定型文を用いる例を説明したが、これに限らない。質問文は、ソフトウェアキーボードや外付けキーボード等で入力したテキストであってもよい。

【0027】

図５は、本実施形態に係る笑いが起きた理由を知りたい場合に表示される第２の画像例を示す図である。図４の例では、質問内容が会議の参加者全てに提示される。参加者ＵＳ２によっては、全員に質問するより、質問しやすい人だけに質問したい場合もあり得る。このため、参加者ＵＳ２は、図５のように、質問したい参加者のアイコンを選択することで質問者を選択する（符号ｇ２５）。そして、参加者ＵＳ２は、アイコン選択後に、送信ボタン画像ｇ３３を選択する。これにより、端末２０は、定型文に、質問したい参加者ＵＳ３を示す情報を関連付けて会議支援装置３０へ送信する。
会議支援装置３０は、端末２０－２から受信した情報に基づいて、例えば質問対象の参加者ＵＳ３が使用している端末２０－３に定型文を提示する。質問された参加者ＵＳ３は、例えば参加者ＵＳ３が使用する端末２０－３を操作して、参加者ＵＳ２へ返答する。
これにより、本実施形態によれば、参加者ＵＳ２は、特定の参加者（例えば、聞きやすい人、仲の良い人等）のみに笑いが起こっている理由を聞くことができる。

【0028】

なお、質問文の選択や表示位置は、上述した例に限らない。処理部３１０（図９）は、図６のように発話を認識してテキストで表示する領域において、笑いを認識したテキスト、例えば、符号ｇ１４をタップまたはタッチすることで、定型文ｇ４１を表示させるようにしてもよい。そして、参加者ＵＳ２は、表示のうち、笑いに関する質問文をタップする（符号（ｇ４２）。端末２０－２は、タップによって選択された定型文を会議支援装置３０へ送信するようにしてもよい。図６は、本実施形態に係る笑いが起きた理由を知りたい場合に表示される第３の画像例を示す図である。

【0029】

なお、図６では、笑いが起きたことを示すテキストの領域をタップすることで定型文を表示させる例を示したが、これに限らない。例えば、図６等において、笑いが起きた前後（符号ｇ１３、ｇ１６）の領域や対応する参加者のアイコン画像をタップすることで定型文を表示させるようにしてもよい。

【0030】

［第１表示装置に表示される画像例］
図７は、本実施形態に係る質問が行われる前に第１表示装置に表示される画像例を示す図である。
領域ｇ１００の画像は、参加者情報編集を行う領域である。
領域ｇ１０１は、参加者情報の領域である。アイコン画像ｇ１０２は、参加者に対応した画像である。名前画像ｇ１０３は、参加者の名前の画像である。マイクロフォン番号画像ｇ１０５は、参加者が使用する収音部１１の番号（または識別情報）の画像である。端末番号画像ｇ１０６は、参加者が使用する端末２０の番号（または識別情報）の画像である。

【0031】

領域ｇ２００の画像は、発話されたテキストまたは入力されたテキストを表示、または議事録を表示する領域である。なお、図７では、ログイン中の状態を示している。
ボタン画像ｇ２０１は、ログイン／ログアウトの画像である。
ボタン画像ｇ２０２は、会議支援システム１の開始／終了のボタンである。表示画像ｇ２０３は、会議支援システム１の使用中に点灯する画像である。
ボタン画像ｇ２０４は、議事録・音声ログ記憶部５０が記憶する議事録の表示や音声信号の再生を行う画像である。

【0032】

アイコン画像ｇ２１１は、参加者のうち、発話した人に対応する画像である。
符号ｇ２１２、ｇ２２１、ｇ２３１は、参加者が発話した内容を音声認識したテキスト情報である。
発話時刻画像ｇ２１４は、参加者が発話またはテキスト入力した時刻を示す情報である。
名前画像ｇ２１５は、第１の参加者の名前の画像である。

【0033】

なお、図７に示した画像は一例であり、第１表示装置６０上に表示される画像は、これに限らない。例えば、会議中には、領域ｇ２００の画像のみを表示するようにしてもよい。

【0034】

図８は、本実施形態に係る質問が行われた後に第１表示装置に表示される画像例を示す図である。図８の例では、笑いに関係する発話に関連付けて、定型文の画像ｇ２４１を表示させている例である。なお、図８のように、質問した参加者ＵＳ２のアイコンや質問時間や名前も関連付けて表示（例えば画像ｇ２４１の下のアイコン画像、名前等）させるようにしてもよい。

【0035】

このように、本実施形態では、会議支援装置３０の処理部３１０が、笑い声が認識された場合に、端末２０の表示部に２０３または表示装置（例えば第１表示装置６０）に笑い声であることを示す情報を表示させるようにした。
また、本実施形態では、端末２０の処理部２０２が、笑い声であることを示す表示を選択すると笑いの理由を尋ねる定型文を表示部２０３に表示させるようにした。

【0036】

［会議支援システムの構成例］
次に、会議支援システムの構成例を説明する。
図９は、本実施形態に係る会議支援システム１の構成例を示すブロック図である。図９に示すように、会議支援システム１は、例えば、収音装置１０、端末２０、会議支援装置３０、音響モデル・辞書ＤＢ４０、議事録・音声ログ記憶部５０、感情認識モデル５５、第１表示装置６０、第２表示装置７０、ＰＣ８０、および撮影装置９０を備える。また、端末２０は、端末２０－１、端末２０－２、・・・を備える。以下、端末２０－１、端末２０－２のうち１つを特定しない場合は、「端末２０」という。

【0037】

収音装置１０は、収音部１１－１、収音部１１－２、収音部１１－３、・・・を備える。以下、収音部１１－１、収音部１１－２、収音部１１－３、・・・のうち１つを特定しない場合は、「収音部１１」という。

【0038】

端末２０は、例えば、入力部２０１、処理部２０２、表示部２０３、および通信部２０４を備える。

【0039】

会議支援装置３０は、例えば、取得部３０１（音声取得部）、音声認識部３０２、テキスト変換部３０３（認識部）、係り受け解析部３０４、議事録作成部３０６、通信部３０７、認証部３０８、操作部３０９、および処理部３１０を備える。処理部３１０は、例えば、感情認識部３１１（認識部）、および提示情報生成部３１２を備える。

【0040】

収音装置１０と会議支援装置３０とは、有線または無線によって接続されている。端末２０と会議支援装置３０とは、有線または無線のネットワークＮＷによって接続されている。撮影装置９０と会議支援装置３０とは、有線または無線のネットワークＮＷによって接続されている。

【0041】

［収音装置］
収音装置１０は、参加者が発話した音声信号を収音し、収音した音声信号を会議支援装置３０に出力する。なお、収音装置１０は、１つのマイクロフォンアレイであってもよい。この場合、収音装置１０は、それぞれ異なる位置に配置されたＰ個のマイクロフォンを有する。そして、収音装置１０は、収音した音からＰチャネル（Ｐは、２以上の整数）の音声信号を生成し、生成したＰチャネルの音声信号を会議支援装置３０に出力する。

【0042】

収音部１１は、マイクロフォンである。収音部１１は、参加者の音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を会議支援装置３０に出力する。なお、収音部１１は、アナログ信号の音声信号を会議支援装置３０に出力するようにしてもよい。なお、収音された音声信号には、撮影された時刻のデータが含まれる。

【0043】

［端末］
端末２０は、例えばスマートフォン、タブレット端末、パーソナルコンピュータ等である。端末２０は、音声出力部、モーションセンサー、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ；全地球測位システム）等を備えていてもよい。

【0044】

入力部２０１は、例えば表示部２０３上に設けられたタッチパネル式のセンサー（含むタッチパネル用のペンシル）、またはキーボードである。入力部２０１は、参加者が入力した入力を検出し、検出した結果を処理部２０２に出力する。なお、端末２０の利用者は、テキストを、例えばタッチパネル用のペンシル等によって手書きで入力するか、表示部２０３に表示されるソフトウェアキーボードを操作して入力するか、機械式のキーボードを操作して入力する。

【0045】

処理部２０２は、入力部２０１が出力した結果に基づいて、テキスト入力が開始されたことを検出し、テキストが入力開始されたことを示すテキスト入力開始情報を生成し、生成したテキスト入力開始情報を通信部２０４に出力する。処理部２０２は、テキストが入力開始されたことを、例えば、文字が例えば１文字手書きされたことを検出したとき、またはキーボードで文字が一文字入力されたときに検出するようにしてもよい。なお、処理部２０２は、手書きでテキスト入力された場合、手書き文字を周知の手法で認識してテキスト化する。
処理部２０２は、入力部２０１が出力した結果に応じて送信情報を生成し、生成した送信情報を通信部２０４に出力する。送信情報には、入力されたテキスト情報と端末２０を識別するための識別情報が含まれている。
処理部２０２は、通信部２０４が出力するテキスト情報を取得し、取得したテキスト情報を画像データに変換し、変換した画像データを表示部２０３に出力する。なお、表示部２０３上に表示される画像については後述する。
なお、端末２０の処理を、会議支援装置３０の処理部３１０が行ってもよい。このような場合、処理に用いられるアプリケーションは、例えばクラウド上にあってもよい。

【0046】

表示部２０３は、処理部２０２が出力した画像データを表示する。表示部２０３は、例えば、液晶表示装置、有機ＥＬ（エレクトロルミネッセンス）表示装置、電子インク表示装置等である。

【0047】

通信部２０４は、テキスト情報または議事録の情報を会議支援装置３０から受信し、受信した受信情報を処理部２０２に出力する。通信部２０４は、処理部２０２が出力したテキスト入力開始情報、送信情報を会議支援装置３０に送信する。

【0048】

［音響モデル・辞書ＤＢ、議事録・音声ログ記憶部］
音響モデル・辞書ＤＢ４０には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。なお、会議支援装置３０は、音声認識辞書１３に格納されていない単語等を、音響モデル・辞書ＤＢ４０に格納して更新するようにしてもよい。

【0049】

議事録・音声ログ記憶部５０は、議事録（含む音声信号）を記憶する。

【0050】

感情認識モデル５５は、予め、例えば会議の参加者の笑い声と我っている顔の画像のうちのすくなくとも１つと、笑っていることを示す教師データを用いて、笑っていることを示す情報を出力するように学習させたモデルである。

【0051】

なお、音響モデル・辞書ＤＢ４０、感情認識モデル５５等は、サーバ（不図示）が備えていてもよく、クラウド上に置かれていてもよい。

【0052】

第１表示装置６０は、会議支援装置３０が出力した画像データを表示する。第１表示装置６０は、例えば液晶表示装置、有機ＥＬ（エレクトロルミネッセンス）表示装置、電子インク表示装置等である。なお、第１表示装置６０は、会議支援装置３０が備えていてもよい。

【0053】

第２表示装置７０は、ＰＣ８０が出力する画像データを表示する。第２表示装置７０は、例えば液晶表示装置、有機ＥＬ（エレクトロルミネッセンス）表示装置、電子インク表示装置等である。なお、第２表示装置７０は、ＰＣ８０が備えていてもよい。

【0054】

ＰＣ８０は、例えば、パーソナルコンピュータ、スマートフォン、タブレット端末等のうちのいずれか１つである。

【0055】

撮影装置９０は、例えば会議室に設置され、会議の参加者の顔を含む画像を例えば所定時間毎に撮影し、撮影した画像を会議支援装置３０に送信する。なお、撮影された画像には、撮影された時刻のデータが含まれる。

【0056】

［会議支援装置］
会議支援装置３０は、例えばパーソナルコンピュータ、サーバ、スマートフォン、タブレット端末等のうちのいずれかである。なお、会議支援装置３０は、収音装置１０がマイクロフォンアレイの場合、音源定位部、音源分離部、および音源同定部をさらに備える。会議支援装置３０は、参加者によって発話された音声信号を、例えば所定の期間毎に音声認識してテキスト化する。そして、会議支援装置３０は、テキスト化した発話内容のテキスト情報を、参加者の端末２０それぞれに送信する。

【0057】

取得部３０１は、収音部１１が出力する音声信号を取得し、取得した音声信号を音声認識部３０２に出力する。なお、取得した音声信号がアナログ信号の場合、取得部３０１は、アナログ信号をデジタル信号に変換し、デジタル信号に変換した音声信号を音声認識部３０２に出力する。取得部３０１は、撮影装置９０が撮影した画像を取得し、取得した画像を感情認識部３１１に出力する。

【0058】

音声認識部３０２は、収音部１１が複数の場合、収音部１１を使用する話者毎に音声認識を行う。
音声認識部３０２は、取得部３０１が出力する音声信号を取得する。音声認識部３０２は、取得部３０１が出力した音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出してもよく、収音部１１のオン状態とオフ状態を検出してもよい。なお、音声認識部３０２は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部３０２は、検出した発話区間の音声信号に対して、音響モデル・辞書ＤＢ４０を参照して、周知の手法を用いて音声認識を行う。なお、音声認識部３０２は、例えば特開２０１５－６４５５４号公報に開示されている手法等を用いて音声認識を行う。音声認識部３０２は、認識した認識結果と音声信号をテキスト変換部３０３に出力する。なお、音声認識部３０２は、認識結果と音声信号とを、例えば１文毎、または発話句間毎、または話者毎に対応つけて、テキスト変換部３０３と感情認識部３１１に出力する。音声認識部３０２は、感情認識部３１１が認識した感情認識結果を取得する。感情認識結果には、例えば「笑っている」等ことを示す情報が含まれる。また、音声認識部３０２は、笑いが起きている前後の発話を検出し、検出した発話に笑いが起きている前後の発話であることを示す情報を、認識した音声信号に付与してテキスト変換部３０３に出力する。

【0059】

テキスト変換部３０３は、音声認識部３０２が出力した認識結果に基づいて、テキストに変換する。テキスト変換部３０３は、変換したテキスト情報と音声信号を係り受け解析部３０４に出力する。なお、テキスト変換部３０３は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除してテキストに変換するようにしてもよい。

【0060】

係り受け解析部３０４は、テキスト変換部３０３が出力したテキスト情報に対して形態素解析と係り受け解析を行う。係り受け解析には、例えば、Ｓｈｉｆｔ－ｒｅｄｕｃｅ法や全域木の手法やチャンク同定の段階適用手法においてＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ）を用いる。係り受け解析部３０４は、解析した結果に基づいて、修正が必要な場合は、音声認識したテキスト情報を音響モデル・辞書ＤＢ４０を参照して修正して議事録・音声ログ記憶部５０に記憶させる。係り受け解析部３０４は、係り受け解析した結果のテキスト情報と音声信号を議事録作成部３０６に出力する。

【0061】

議事録作成部３０６は、係り受け解析部３０４が出力したテキスト情報と音声信号に基づいて、発表者等である発話者毎に分けて、議事録を作成する。議事録作成部３０６は、作成した議事録と対応する音声信号を議事録・音声ログ記憶部５０に記憶させる。なお、議事録作成部３０６は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除して議事録を作成するようにしてもよい。

【0062】

通信部３０７は、端末２０と情報の送受信を行う。端末２０から受信する情報には、例えば、会議への参加要請、テキスト入力開始情報、テキスト送信情報、過去の議事録の送信を要請する指示情報等が含まれている。通信部３０７は、端末２０から受信した参加要請から、例えば、端末２０を識別するための識別情報を抽出し、抽出した識別情報を認証部３０８に出力する。識別情報は、例えば、端末２０のシリアル番号、ＭＡＣアドレス（ＭｅｄｉａＡｃｃｅｓｓＣｏｎｔｒｏｌａｄｄｒｅｓｓ）、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）アドレス等である。通信部３０７は、認証部３０８が通信参加を許可する指示を出力した場合、会議に参加要請した端末２０との通信を行う。通信部３０７は、認証部３０８が通信参加を許可しない指示を出力した場合、会議に参加要請した端末２０との通信を行わない。通信部３０７は、受信した情報を処理部３１０に出力する。通信部３０７は、処理部３１０が出力したテキスト情報または過去の議事録情報等を、参加要請のあった端末２０に送信する。

【0063】

認証部３０８は、通信部３０７が出力した識別情報を受け取り、通信を許可するか否か判別する。なお、会議支援装置３０は、例えば、会議への参加者が使用する端末２０の登録を受け付け、認証部３０８に登録しておく。認証部３０８は、判別結果に応じて、通信参加を許可する指示か、通信参加を許可しない指示を通信部３０７に出力する。

【0064】

操作部３０９は、例えばキーボード、マウス、第１表示装置６０上に設けられているタッチパネルセンサー等である。操作部３０９は、参加者の操作結果を検出して、検出した操作結果を処理部３１０に出力する。

【0065】

処理部３１０は、感情認識処理を行って、端末２０や第１表示装置６０、第２表示装置７０に表示させる情報を変化させて提示するか否かを判別し、判別した結果に基づいて提示情報を端末２０や第１表示装置６０、第２表示装置７０に表示させる。また、処理部３１０は、端末２０が操作され、笑いが起きたことにたいする定型文等を受信した場合、定型文を他の参加者の端末２０や第１表示装置６０、第２表示装置７０に表示させる。
処理部３１０は、過去の議事録の送信を要請する指示情報に応じて議事録・音声ログ記憶部５０から議事録を読み出し、読み出した議事録の情報を通信部３０７に出力する。なお、議事録の情報には、話者を示す情報、係り受け解析した結果を示す情報等が含まれていてもよい。

【0066】

感情認識部３１１は、例えば音声認識部３０２が出力する音声信号と、取得部３０１が出力する画像を取得する。感情認識部３１１は、取得した音声信号と画像を、感情認識モデル５５に入力して、参加者が笑っているか否かを認識する。感情認識部３１１は、認識した認識結果を音声認識部３０２に出力する。なお、音声認識部３０２が、感情認識部３１１の機能を備えていてもよい。

【0067】

提示情報生成部３１２は、係り受け解析部３０４が出力する係り受け解析した結果のテキスト情報を取得する。なお、係り受け解析した結果のテキスト情報には、笑いが起きているか否かを示す情報、笑いが起きる前後の発話を示す情報等が含まれる。提示情報生成部３１２は、取得した情報に基づいて、端末２０や第１表示装置６０、第２表示装置７０に表示させる情報を生成する。
また、提示情報生成部３１２は、端末２０が操作され、笑いが起きたことにたいする定型文等を受信した場合、定型文を他の参加者の端末２０や第１表示装置６０、第２表示装置７０に表示させる情報を生成する。

【0068】

なお、収音装置１０がマイクロフォンアレイの場合、会議支援装置３０は、音源定位部、音源分離部、および音源同定部をさらに備える。この場合、会議支援装置３０は、取得部３０１が取得した音声信号に対して予め生成した伝達関数を用いて音源定位部が音源定位を行う。そして、会議支援装置３０は、音源定位部が定位して結果を用いて話者同定を行う。会議支援装置３０は、音源定位部が定位して結果を用いて、取得部３０１が取得した音声信号に対して音源分離を行う。そして、会議支援装置３０の音声認識部３０２は、分離された音声信号に対して発話区間の検出と音声認識を行う（例えば特開２０１７－９６５７号公報参照）。また、会議支援装置３０は、残響音抑圧処理を行うようにしてもよい。

【0069】

［感情認識モデル］
次に、感情認識モデルの学習例と認識例を説明する。
図１０は、本実施形態に係る感情認識モデルの学習例と認識例を説明するための図である。なお、図１０の例は、感情認識モデル５５によって、笑っているか否かを識別する例である。
学習時は、画像と音声信号と教師データとを、感情認識モデル５５に入力して、笑っているか否かを学習させる。
認識時は、画像と音声信号とを、感情認識モデル５５に入力して、笑っているか否かを識別させる。
なお、例えば、音声信号と教師データを用いて感情認識モデル５５を学習させてもよく、または画像と教師データを用いて感情認識モデル５５を学習させてもよい。

【0070】

［処理手順例］
次に、会議支援装置３０の処理手順例を説明する。図１１は、本実施形態に係る会議支援装置の処理手順のフローチャートである。

【0071】

（ステップＳ１）会議支援装置３０の処理部３１０は、利用者が操作部３０９を操作した操作結果等に基づいて、会議で使用する収音部１１や端末２０を登録する。

【0072】

（ステップＳ２）処理部３１０は、利用者が操作部３０９を操作した操作結果等に基づいて、会議開始を検出する。

【0073】

（ステップＳ３）取得部３０１は、収音装置１０が収音した音声信号を取得する。

【0074】

（ステップＳ４）取得部３０１は、撮影装置９０が撮影した画像を取得する。

【0075】

（ステップＳ５）音声認識部３０２は、取得した音声信号に対して音声認識処理を行う。

【0076】

（ステップＳ６）処理部３１０は、音声認識部３０２が出力する認識結果に基づいて発話を検出する。

【0077】

（ステップＳ７）感情認識部３１１は、音声信号と画像を感情認識モデル５５に入力して、発話に笑いが起きているか否かを識別する。感情認識部３１１は、発話に笑いが起きていない場合（ステップＳ７；ＮＯ）、ステップＳ８の処理に進める。感情認識部３１１は、発話に笑いが起きている場合（ステップＳ７；ＹＥＳ）、ステップＳ９の処理に進める。

【0078】

（ステップＳ８）感情認識部３１１は、発話に笑いが起きていないことを示す情報を音声認識部３０２に出力する。音声認識部３０２は、音声認識した結果と音声信号をテキスト変換部３０３に出力する。テキスト変換部３０３は、認識された音声信号に対してテキスト変換処理を行う。係り受け解析部３０４は、変換されたテキスト情報に対して係り受け解析処理を行う。係り受け解析部３０４は、解析結果を提示情報生成部３１２に出力する。提示情報生成部３１２は、笑いが起きていないため、強調等を行わずに通常の提示情報を生成して、発話内容を端末２０や第１表示装置６０、第２表示装置７０に表示させる。処理部３１０は、処理後、ステップＳ３の処理に戻す。

【0079】

（ステップＳ９）感情認識部３１１は、発話に笑いが起きていることを示す情報を音声認識部３０２に出力する。音声認識部３０２は、音声認識した結果と音声信号をテキスト変換部３０３に出力する。テキスト変換部３０３は、認識された音声信号に対してテキスト変換処理を行う。係り受け解析部３０４は、変換されたテキスト情報に対して係り受け解析処理を行う。係り受け解析部３０４は、解析結果を提示情報生成部３１２に出力する。提示情報生成部３１２は、笑いが起きているため、笑いが起きていることを示す提示情報（例えば図３の「（笑い）」等）を生成して、発話内容を端末２０や第１表示装置６０、第２表示装置７０に表示させる。

【0080】

（ステップＳ１０）提示情報生成部３１２は、笑いが起きているため、強調等を行った提示情報を生成して、発話内容を端末２０や第１表示装置６０、第２表示装置７０に表示させる。処理部３１０は、処理後、ステップＳ３の処理に戻す。

【0081】

なお、会議支援装置３０は、上述した発話の認識を、例えば１文毎に行う。また、図１１に示した処理手順例は一例であり、これに限らない。例えば、いくつかの処理順番は入れ替わっていても、同時に行われてもよい。

【0082】

次に、笑いが起きた際に定型文等を送信して利用を聞く処理手順例を説明する。図１２は、本実施形態に係る笑いが起きた際に定型文等を送信して利用を聞く処理手順のフローチャートである。

【0083】

（ステップＳ１０１）処理部３１０は、参加者ＵＳ２が使用する端末２０－２から、テキストを取得したか否かを判別する。処理部３１０は、テキストを取得した場合（ステップＳ１０１；ＹＥＳ）、ステップＳ１０２の処理に進める。処理部３１０は、テキストを取得していない場合（ステップＳ１０１；ＮＯ）、ステップＳ１０１の処理を繰り返す。

【0084】

（ステップＳ１０２）処理部３１０は、取得したテキストが、笑いに対する質問の定型文やテキストであるか否かを判別する。処理部３１０は、取得したテキストが笑いに対する質問ではない場合（ステップＳ１０２；ＮＯ）、ステップＳ１０３の処理に進める。処理部３１０は、取得したテキストが笑いに対する質問である場合（ステップＳ１０２；ＹＥＳ）、ステップＳ１０４の処理に進める。

【0085】

（ステップＳ１０３）処理部３１０は、端末２０や第１表示装置６０、第２表示装置７０に表示させる情報を変化させない。処理後、処理部３１０は、質問に関する処理を終了する。

【0086】

（ステップＳ１０４）処理部３１０は、取得した笑いに対する質問が、特定の参加者に対する質問であるか否かを判別する。処理部３１０は、取得した笑いに対する質問が、特定の参加者に対する質問である場合（ステップＳ１０４；ＹＥＳ）、ステップＳ１０５の処理に進める。処理部３１０は、取得した笑いに対する質問が、特定の参加者に対する質問である場合（ステップＳ１０４；ＮＯ）、ステップＳ１０６の処理に進める。

【0087】

（ステップＳ１０５）処理部３１０は、取得した笑いに対する質問文を、指定された特定の参加者の端末２０に表示させる。処理後、処理部３１０は、ステップＳ１０７の処理に進める。

【0088】

（ステップＳ１０６）処理部３１０は、取得した笑いに対する質問文を表示装置（例えば第１表示装置６０）に表示させる。処理後、処理部３１０は、ステップＳ１０７の処理に進める。

【0089】

（ステップＳ１０７）処理部３１０は、取得した笑いに対する質問文を、質問した参加者ＵＳ２以外の参加者の端末２０に表示させる。

【0090】

（ステップＳ１０８）処理部３１０は、返答のテキストを参加者の端末２０から受信したか否かを判別する。処理部３１０は、返答のテキストを参加者の端末２０から受信した場合（ステップＳ１０８；ＹＥＳ）、ステップＳ１０９の処理に進める。処理部３１０は、返答のテキストを参加者の端末２０から例えば所定時間以内に受信していない場合（ステップＳ１０８；ＮＯ）、質問に関する処理を終了する。

【0091】

（ステップＳ１０９）処理部３１０は、取得した返答のテキストを、質問した参加者ＵＳ２の端末２０－２に表示させる。処理後、処理部３１０は、質問に関する処理を終了する。

【0092】

なお、図１２に示した処理手順は一例であり、これに限らない。例えば、質問対する返答が、他の参加者の発話に含まれている場合もありえる。このような場合、処理部３１０は、音声信号に対して音声認識処理を行って、端末２０と表示装置に表示させる。これにより、質問者は、表示される認識されたテキストによって、笑いがおきた理由を理解できる場合もある。

【0093】

また、図１２の例では、笑いが起きた場合に質問する例を示したが、これに限らない。例えば、特待の参加者がエキサイトしていたり怒っている場合に、参加者ＵＳ２は、端末２０－２を操作して、他の参加者または特定の参加者に質問文を表示させるように操作してもよい。

【0094】

なお、聴覚障がい等に限らず参加者は、他の人に聞かれずに会議に進行を妨げないように、質問をしたい場合もあり得る。このため、質問を行うのは、聴覚障がい等の参加者ＵＣ２に限らず、他の参加者が行うようにしてもよい。この場合であっても、質問を特定の参加者へ表示させるようにしてもよい。

【0095】

また、図５等の例では、特定の参加者の選択を、端末に発話者として表示されたアイコンを選択することで行うようにしたが、これに限られない。特定の参加者の選択は、参加者のリストを表示し、そのリストから選択するようにしてもよい。あるいは、特定の参加者を事前に登録しておき、登録者リストから選択するようにしてもよい。このような構成によれば、特定の参加者が発話者として端末に表示されない場合でも、希望する人へ質問を行うことができる。

【0096】

以上のように、本実施形態では、場の笑い声を笑いと認識し、その前後の発言を強調表示するようにした。また、本実施形態では、笑い声を認識した結果の前後の発言を見ても笑う理由が参加者に分からない場合、笑いについて尋ねることができる機能を備えるようにした。

【0097】

これにより、本実施形態によれば、笑い声を認識し、その前後の発言を強調することで、話の流れをわかりやすく表示することで、上記の課題を解決する。また、本実施形態によれば、理解できない場合でも簡易に尋ねることができる。

【0098】

なお、本発明における会議支援装置３０，端末２０の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより会議支援装置３０，端末２０が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0099】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0100】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0101】

１…会議支援システム、１０…収音装置、１１…収音部、２０，２０－１，２０－２，２０－３…端末、３０…会議支援装置、４０…音響モデル・辞書ＤＢ４０、５０…議事録・音声ログ記憶部、５５…感情認識モデル、６０…第１表示装置、７０…第２表示装置、８０…ＰＣ、９０…撮影装置、２０１…入力部、２０２…処理部、２０３…表示部、２０４…通信部、３０１…取得部、３０２…音声認識部、３０３…テキスト変換部、３０４…係り受け解析部、３０６…議事録作成部、３０７…通信部、３０８…認証部、３０９…操作部、３１０…処理部、３１１…感情認識部、３１２…提示情報生成部

【図1】