7316971 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7316971会議支援システム、会議支援方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-07-20

(45)【発行日】2023-07-28

(54)【発明の名称】会議支援システム、会議支援方法、およびプログラム

(51)【国際特許分類】

G06F 3/16 20060101AFI20230721BHJP

G10L 25/21 20130101ALI20230721BHJP

G10L 15/28 20130101ALI20230721BHJP

G10L 15/00 20130101ALI20230721BHJP

H04M 3/56 20060101ALI20230721BHJP

【ＦＩ】

G06F3/16 650

G10L25/21

G10L15/28 230J

G10L15/00 200U

G06F3/16 610

H04M3/56 Z

【請求項の数】 5

(21)【出願番号】P 2020060958

(22)【出願日】2020-03-30

(65)【公開番号】P2021162895

(43)【公開日】2021-10-11

【審査請求日】2022-10-11

(73)【特許権者】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(73)【特許権者】

【識別番号】507369936

【氏名又は名称】ホンダ太陽株式会社

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】住田直亮

(72)【発明者】

【氏名】中塚雅樹

(72)【発明者】

【氏名】中臺一博

(72)【発明者】

【氏名】吉田雄一

(72)【発明者】

【氏名】山内崇資

(72)【発明者】

【氏名】眞浦一也

(72)【発明者】

【氏名】日根野恭佑

(72)【発明者】

【氏名】横尾昇三

【審査官】木内康裕

(56)【参考文献】

【文献】特開２０１８－１８６３６６（ＪＰ，Ａ）

【文献】特開２００９－３０２８２４（ＪＰ，Ａ）

【文献】特開２０１８－１３９３９７（ＪＰ，Ａ）

【文献】国際公開第２０１７／０６１１４９（ＷＯ，Ａ１）

【文献】特開２０１９－１６４２３２（ＪＰ，Ａ）

【文献】特開２００６－０７９６８４（ＪＰ，Ａ）

【文献】特開２０１９－２１５４４９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／１６

Ｇ１０Ｌ２５／２１

Ｇ１０Ｌ１５／２８

Ｇ１０Ｌ１５／００

Ｈ０４Ｍ３／５６

(57)【特許請求の範囲】

【請求項1】

第１の参加者が使用する会議支援装置と、第２の参加者が使用する端末と、を有する会議支援システムであって、
前記会議支援装置は、
前記第１の参加者の発話情報を取得する取得部と、
少なくとも前記第１の参加者の発話情報を表示する表示部と、
前記第１の参加者の発話情報の音質を確認する音質確認部と、
確認された前記第１の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第１の参加者の発話情報を認識しにくくさせ、認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了する処理部と、
を備える会議支援システム。

【請求項2】

前記取得部は、前記第１の参加者の発話を収音する収音部であり、
前記音質確認部は、収音された前記第１の参加者の発話情報に対して発話音量または発話速度が所定の範囲外の場合に、確認された前記第１の参加者の発話情報の音質が所定値より悪いと判定する、
請求項１に記載の会議支援システム。

【請求項3】

前記処理部は、
前記第１の参加者の発話情報を前記端末へ送信し、
確認された前記第１の参加者の発話情報の音質が所定値より悪い場合、前記端末に表示させる確認された前記第１の参加者の発話情報を認識しにくくさせずに、確認された前記第１の参加者の発話情報を、前記第１の参加者の発話情報の音質が所定値より良い場合の表示とは異なるように表示させる、
請求項１または請求項２に記載の会議支援システム。

【請求項4】

第１の参加者が使用する会議支援装置と、第２の参加者が使用する端末と、を有する会議支援システムにおける会議支援方法であって、
前記会議支援装置の取得部が、前記第１の参加者の発話情報を取得し、
表示部が、少なくとも前記第１の参加者の発話情報を表示し、
音質確認部が、前記第１の参加者の発話情報の音質を確認し、
処理部が、確認された前記第１の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第１の参加者の発話情報を認識しにくくさせ、認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了する、
会議支援方法。

【請求項5】

表示部を有する第１の参加者が使用する会議支援装置と、第２の参加者が使用する端末と、を有する会議支援システムにおける会議支援装置のコンピュータに、
前記第１の参加者の発話情報を取得し、
少なくとも前記第１の参加者の発話情報を表示し、
前記第１の参加者の発話情報の音質を確認し、
確認された前記第１の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第１の参加者の発話情報を認識しにくくさせ、
認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、会議支援システム、会議支援方法、およびプログラムに関する。

【背景技術】

【0002】

従来より、会議などにおいて聴覚障害者（聴覚者）の理解を支援するために、発話音声を音声認識装置でテキストに変換して画面に表示する会議支援システムが提案されている（例えば、特許文献１参照）。
このような音声認識を用いたシステムでは、音声入力ごとにまとまった認識テキストがモニタや端末上に表示される。このテキストを読むことにより聴覚者は会議参加者の発言を理解することができる。なお、表示されるテキストは、新たなものが追加されていくことにより、画面上を流れていき、古いテキストは画面表示範囲の外に移動し見えなくなる。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１８－１７０７４３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

音声認識処理を用いたシステムでは、発話者の声量、発話スピードが音声認識精度に影響する。例えば、声量が小さかったり、早口だったりすると、音声認識精度が低下してしまう。音声認識精度が低下した場合は、適切なテキストを提示できない場合もあり、聴覚障害者や発話障害者がテキスト情報によって発話内容を理解できない場合があった。
このため、発話者に適切な発話をしてもらうよう、例えばインジケータで表示するなどの対策が行われている。しかしながら、従来のシステムでは、テキスト化された自分の発話内容を見ながらインジケータを確認するのは煩わしく、発話に集中できないという課題があった。

【0005】

本発明は、上記の問題点に鑑みてなされたものであって、会議などにおいて聴覚障害者や発話障害者の理解を支援することができ音声認識精度を向上させることができる会議支援システム、会議支援方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

（１）上記目的を達成するため、本発明の一態様に係る会議支援システムは、第１の参加者が使用する会議支援装置と、第２の参加者が使用する端末と、を有する会議支援システムであって、前記会議支援装置は、前記第１の参加者の発話情報を取得する取得部と、少なくとも前記第１の参加者の発話情報を表示する表示部と、前記第１の参加者の発話情報の音質を確認する音質確認部と、確認された前記第１の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第１の参加者の発話情報を認識しにくくさせ、認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了する処理部と、を備える。

【0007】

（２）また、本発明の一態様に係る会議支援システムにおいて、前記取得部は、前記第１の参加者の発話を収音する収音部であり、前記音質確認部は、収音された前記第１の参加者の発話情報に対して発話音量または発話速度が所定の範囲外の場合に、確認された前記第１の参加者の発話情報の音質が所定値より悪いと判定するようにしてもよい。

【0008】

（３）また、本発明の一態様に係る会議支援システムにおいて、前記処理部は、前記第１の参加者の発話情報を前記端末へ送信し、確認された前記第１の参加者の発話情報の音質が所定値より悪い場合、前記端末に表示させる確認された前記第１の参加者の発話情報を認識しにくくさせずに、確認された前記第１の参加者の発話情報を、前記第１の参加者の発話情報の音質が所定値より良い場合の表示とは異なるように表示させるようにしてもよい。

【0009】

（４）上記目的を達成するため、本発明の一態様に係る会議支援方法は、第１の参加者が使用する会議支援装置と、第２の参加者が使用する端末と、を有する会議支援システムにおける会議支援方法であって、前記会議支援装置の取得部が、前記第１の参加者の発話情報を取得し、表示部が、少なくとも前記第１の参加者の発話情報を表示し、音質確認部が、前記第１の参加者の発話情報の音質を確認し、処理部が、確認された前記第１の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第１の参加者の発話情報を認識しにくくさせ、認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了する。

【0010】

（５）上記目的を達成するため、本発明の一態様に係るプログラムは、表示部を有する第１の参加者が使用する会議支援装置と、第２の参加者が使用する端末と、を有する会議支援システムにおける会議支援装置のコンピュータに、前記第１の参加者の発話情報を取得し、少なくとも前記第１の参加者の発話情報を表示し、前記第１の参加者の発話情報の音質を確認し、確認された前記第１の参加者の発話情報の音質が所定値より悪い場合、前記表示部に表示させる確認された前記第１の参加者の発話情報を認識しにくくさせ、認識しにくくさせた後、所定時間が経過した後、認識しにくくさせる処理を終了させる。

【発明の効果】

【0011】

（１）～（５）によれば、会議などにおいて聴覚障害者や発話障害者の理解を支援することができ音声認識精度を向上させることができる。（１）～（５）によれば、発話者は自分が話した内容のテキストを見るだけで、発話状態が適切でないことを気づくことができる。（１）～（５）によれば、一定時間後、テキストが通常の表示になり読めるようになるので、参加者が内容を把握できる。
（２）によれば、発話された音量または発話速度が所定の範囲外であり、音声認識の精度が低下する可能性があることと、音声認識の精度が低下した場合に聴覚障害者や発話障害者が理解しにくくなることを、話者に知ることができる。
（３）によれば、聴覚障害者や発話障害者が、音声認識の精度が低い可能性のある発話であることを認識することができる。

【図面の簡単な説明】

【0012】

【図1】実施形態に係る会議支援システムの構成例を示すブロック図である。

【図2】実施形態に係る会議例を示す図である。

【図3】実施形態に係る端末の表示部に表示される情報例を示す図である。

【図4】実施形態に係る会議支援装置の表示部に表示される情報例を示す図である。

【図5】実施形態に係る会議支援装置の表示部上の表示が、音質ＮＧの判定によって変化する例を示す図である。

【図6】実施形態に係る会議支援システムの処理手順例を示すシーケンス図である。

【図7】実施形態に係る音質確認時の会議支援システムの処理のフローチャートである。

【図8】実施形態に係る議事録・音声ログ記憶部が記憶する議事録の一例である。

【発明を実施するための形態】

【0013】

以下、本発明の実施の形態について図面を参照しながら説明する。

【0014】

まず、本実施形態の会議支援システムが使用される状況例を説明する。
本実施形態の会議支援システムは、２人以上が参加して行われる会議で用いられる。参加者のうち、発話が不自由な発話障害者または聴覚しょうがい者（以下、聴覚者という）が会議に参加していてもよい。発話可能な参加者は、マイクロフォンを用いて発話する。また、発話障害者または聴覚者は、端末（スマートフォン、タブレット端末、パーソナルコンピュータ等）を所持している。会議支援システムは、参加者の発話した音声信号に対して音声認識、テキスト化して、または発話障害者または聴覚者が端末を操作してテキスト入力したテキストを、会議支援装置の表示部と、発話障害者または聴覚者の端末にテキストを表示させる。

【0015】

図１は、本実施形態に係る会議支援システム１の構成例を示すブロック図である。
まず、会議支援システム１の構成について説明する。
図１に示すように、会議支援システム１は、入力装置１０、端末２０－１、端末２０－２、…、会議支援装置３０、音響モデル・辞書ＤＢ４０、および議事録・音声ログ記憶部５０を備える。端末２０－１、端末２０－２のうち１つを特定しない場合は、端末２０という。

【0016】

入力装置１０は、入力部１１－１、入力部１１－２、入力部１１－３、…を備える。入力部１１－１、入力部１１－２、入力部１１－３、…のうち１つを特定しない場合は、入力部１１という。
端末２０は、操作部２０１、処理部２０２、表示部２０３、および通信部２０４を備える。
会議支援装置３０は、取得部３０１、音声認識部３０２、音質確認部３０３、テキスト変換部３０４（音声認識部）、係り受け解析部３０５、議事録作成部３０６、通信部３０７、操作部３０９、処理部３１０、および表示部３１１を備える。

【0017】

入力装置１０と会議支援装置３０とは、有線または無線によって接続されている。端末２０と会議支援装置３０とは、有線または無線によって接続されている。

【0018】

まず、入力装置１０について説明する。
入力装置１０は、利用者が発話した音声信号を会議支援装置３０に出力する。なお、入力装置１０は、マイクロフォンアレイであってもよい。この場合、入力装置１０は、それぞれ異なる位置に配置されたＰ個のマイクロフォンを有する。そして、入力装置１０は、収音した音からＰチャネル（Ｐは、２以上の整数）の音響信号を生成し、生成したＰチャネルの音響信号を会議支援装置３０に出力する。

【0019】

入力部１１は、マイクロフォンである。入力部１１は、利用者の音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を会議支援装置３０に出力する。なお、入力部１１は、アナログ信号の音声信号を会議支援装置３０に出力するようにしてもよい。なお、入力部１１は、音声信号を、有線のコードやケーブルを介して、会議支援装置３０に出力するようにしてもよく、無線で会議支援装置３０に送信するようにしてもよい。なお、入力部１１は、オン状態とオフ状態を切り替えるスイッチを備えていてもよい。この場合、発話者は、発話開始時に入力部１１をオン状態にし、発話終了時にオフ状態に切り替えるようにしてもよい。そして、この場合は、会議支援装置３０へ出力される音声信号に発話開始を示す情報と発話終了を示す情報が含まれていてもよい。

【0020】

次に、端末２０について説明する。
端末２０は、例えばスマートフォン、タブレット端末、パーソナルコンピュータ等である。端末２０は、音声出力部、モーションセンサー、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ；全地球測位システム）等を備えていてもよい。

【0021】

操作部２０１は、利用者の操作を検出し、検出した結果を処理部２０２に出力する。操作部２０１は、例えば表示部２０３上に設けられたタッチパネル式のセンサー、またはキーボードである。

【0022】

処理部２０２は、通信部２０４が出力するテキスト情報を取得し、取得したテキスト情報を画像データに変換し、変換した画像データを表示部２０３に出力する。処理部２０２は、操作部２０１が操作された結果に基づいて入力されたテキスト情報を通信部２０４に出力する。なお、テキスト情報には、端末２０の識別情報が含まれている。処理部２０２は、操作部２０１が操作された結果に基づいて入力されたテキスト情報を画像データに変換し、変換した画像データを表示部２０３に出力する。なお、表示部２０３上に表示される画像については、図３を用いて後述する。

【0023】

表示部２０３は、例えば液晶表示装置、有機ＥＬ（エレクトロルミネッセンス）表示装置、電子インク表示装置等である。表示部２０３は、処理部２０２が出力した画像データを表示する。

【0024】

通信部２０４は、テキスト情報または議事録の情報を会議支援装置３０から受信し、受信した受信情報を処理部２０２に出力する。通信部２０４は、処理部２０２が出力するテキスト情報を会議支援装置３０へ送信する。

【0025】

次に、音響モデル・辞書ＤＢ４０について説明する。
音響モデル・辞書ＤＢ４０には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。

【0026】

次に、議事録・音声ログ記憶部５０について説明する。
議事録・音声ログ記憶部５０は、議事録（含む音声信号）を記憶する。

【0027】

次に、会議支援装置３０について説明する。
会議支援装置３０は、例えばパーソナルコンピュータ、サーバ、スマートフォン、タブレット端末等のうちのいずれかである。なお、会議支援装置３０は、入力装置１０がマイクロフォンアレイの場合、音源定位部、音源分離部、および音源同定部をさらに備える。会議支援装置３０は、参加者によって発話された音声信号を、例えば発話毎に音声認識してテキスト化する。そして、会議支援装置３０は、テキスト化した発話内容のテキスト情報を、表示部３１１に表示させ、参加者の端末２０に送信する。会議支援装置３０は、発話された音声信号に対して音声認識を行う際、音質の確認（例えば音声の音量を確認）し、音量が所定値以下の場合、表示部３１１の表示を変更する。また、会議支援装置３０は、会議で使用されている入力部１１、端末２０を記憶している。

【0028】

取得部３０１は、入力部１１が出力する音声信号を取得し、取得した音声信号を音声認識部３０２に出力する。なお、取得した音声信号がアナログ信号の場合、取得部３０１は、アナログ信号をデジタル信号に変換し、デジタル信号に変換した音声信号を音声認識部３０２に出力する。なお、音声信号には、使用された入力部１１の識別情報（例えばＭｉｃ１、Ｍｉｃ３、…）を含んでいる。

【0029】

音声認識部３０２は、入力部１１が複数の場合、入力部１１を使用する話者毎に音声認識を行う。
音声認識部３０２は、取得部３０１が出力する音声信号を取得する。音声認識部３０２は、取得部３０１が出力した音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出する。なお、音声認識部３０２は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部３０２は、検出した発話区間の音声信号に対して、音響モデル・辞書ＤＢ４０を参照して、周知の手法を用いて音声認識を行う。なお、音声認識部３０２は、例えば特開２０１５－６４５５４号公報に開示されている手法等を用いて音声認識を行う。音声認識部３０２は、認識した認識結果と音声信号に入力部１１の識別情報を含めてテキスト変換部３０４に出力する。なお、音声認識部３０２は、認識結果と音声信号とを、例えば１文毎、または発話句間毎、または話者毎に対応つけて出力する。音声認識部３０２は、認識した認識結果と音声信号を音質確認部３０３に出力する。

【0030】

音質確認部３０３は、音声認識部３０２が出力する認識結果と音声信号に基づいて、話者毎に音質（例えば音量、発話スピード）の確認を行う。音質確認部３０３は、音質確認した結果、例えば、音量が所定値以下の場合または発話スピードが所定スピード以上の場合に、音声認識の精度が下がる可能性があると判定し、音質が悪いことを示す音質ＮＧ情報を処理部３１０に出力する。なお、音質確認部３０３は、音質が良いことを示す音質ＯＫ情報を処理部３１０に出力するようにしてもよい。なお、音質確認部３０３は、音質ＮＧ情報を、音質が悪いと判定された話者に対応する発話が終了するまで出力し続ける。

【0031】

テキスト変換部３０４は、音声認識部３０２が出力した認識結果に基づいて、テキストに変換する。テキスト変換部３０４は、変換したテキスト情報と音声信号に入力部１１の識別情報を含めて係り受け解析部３０５に出力する。なお、テキスト変換部３０４は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除してテキストに変換するようにしてもよい。

【0032】

係り受け解析部３０５は、テキスト変換部３０４が出力したテキスト情報に対して形態素解析と係り受け解析を行う。係り受け解析には、例えば、Ｓｈｉｆｔ－ｒｅｄｕｃｅ法や全域木の手法やチャンク同定の段階適用手法においてＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ）を用いる。係り受け解析部３０５は、係り受け解析した結果のテキスト情報と音声信号に入力部１１の識別情報を含めて議事録作成部３０６に出力する。

【0033】

議事録作成部３０６は、係り受け解析部３０５が出力したテキスト情報と音声信号に基づいて、発話者毎に分けて、議事録を作成する。議事録作成部３０６は、係り受け解析部３０５が出力したテキスト情報と入力部１１の識別情報に基づいて、入力部１１毎にテキスト情報を作成する。議事録作成部３０６は、作成した入力部１１毎のテキスト情報を処理部３１０に出力する。議事録作成部３０６は、作成した議事録と対応する音声信号を議事録・音声ログ記憶部５０に記憶させる。なお、議事録作成部３０６は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除して議事録を作成するようにしてもよい。

【0034】

通信部３０７は、端末２０と情報の送受信を行う。端末２０から受信する情報には、テキスト情報、過去の議事録の送信を要請する送信要望等が含まれている。なお、テキスト情報、過去の議事録の送信を要請する送信要望には、送信要望を送信した端末２０を識別するための識別情報が含まれている。端末２０に送信する情報には、テキスト情報、過去の議事録の情報等が含まれている。通信部３０７は、端末２０から受信した情報を処理部３１０に出力する。通信部３０７は、処理部３１０が出力するテキスト情報、過去の議事録の情報等を端末２０へ送信する。

【0035】

操作部３０９は、例えばキーボード、マウス、表示部３１１上に設けられているタッチパネルセンサー等である。操作部３０９は、利用者の操作結果を検出して、検出した操作結果を処理部３１０に出力する。

【0036】

処理部３１０は、議事録作成部３０６が作成した入力部１１毎のテキスト情報を表示部３１１に表示させ、通信部３０７に出力する。処理部３１０は、取得したテキスト情報を表示部３１１に表示させる。処理部３１０は、音質確認部３０３が出力する音質ＮＧ情報または音質ＯＫ情報を取得する。処理部３１０は、音質ＮＧ情報を取得した場合、音質ＮＧ情報に基づいて、音質ＮＧ情報と判定された発話者の発話が終了するまで、その発話者のテキスト情報の表示部３１１の表示を変更する。なお、表示の変更例は後述する。処理部３１０は、過去の議事録の情報の送信要望を取得した場合、議事録・音声ログ記憶部５０から過去の議事録の情報を読み出し、読み出した過去の議事録の情報を通信部３０７に出力する。

【0037】

表示部３１１は、例えば液晶表示装置、有機ＥＬ表示装置、電子インク表示装置等である。表示部３１１は、処理部３１０が出力したテキスト情報を表示する。表示部３１１は、処理部３１０の処理に応じて表示を変更する。

【0038】

なお、入力装置１０がマイクロフォンアレイの場合、会議支援装置３０は、音源定位部、音源分離部、および音源同定部をさらに備える。この場合、会議支援装置３０は、取得部３０１が取得した音声信号に対して予め生成した伝達関数を用いて音源定位部が音源定位を行う。そして、会議支援装置３０は、音源定位部が定位して結果を用いて話者同定を行う。会議支援装置３０は、音源定位部が定位して結果を用いて、取得部３０１が取得した音声信号に対して音源分離を行う。そして、会議支援装置３０の音声認識部３０２は、分離された音声信号に対して発話区間の検出と音声認識を行う（例えば特開２０１７－９６５７号公報参照）。また、会議支援装置３０は、残響音抑圧処理を行うようにしてもよい。

【0039】

＜音質確認方法の例＞
次に、音質確認方法について説明する。
会議支援装置３０の音質確認部３０３は、例えば収音された音声信号の音量を確認し、音声信号が所定の範囲内であれば音質ＯＫと判定し、音声信号が所定の範囲外であれば音質ＮＧと判定するようにしてもよい。具体的には、音質確認部３０３は、音量が大きすぎるまたは小さすぎる場合に音質ＮＧと判定する。
または、音質確認部３０３は、例えば収音された音声信号の発話スピード（収音発話スピード）と、自部が記憶する比較対象の音声信号の発話スピード（標準発話スピード）とを比較し、収音発話スピードの方が標準発話スピードより速い場合（例えば早さ比が所定値以上の場合）に、発話スピードが速すぎるため音質ＮＧと判定するようにしてもよい。

【0040】

＜会議例＞
ここで、以下の説明における会議例を説明する。
図２は、本実施形態に係る会議例を示す図である。図２に示す例では、会議の参加者（第１の参加者ｈ１、第２の参加者ｈ２、第３の参加者ｈ３）が３人である。ここで、第２の参加者ｈ２は、聴覚者であるが、発話が可能であるとする。また、第３の参加者ｈ３は、聴覚者であり、発話が不自由であるとする。第１の参加者ｈ１は、入力部１１－１（マイクロフォン）を使用して発話する。第２の参加者ｈ２は、入力部１１－２を使用して発話する。第１の参加者ｈ１と第２の参加者ｈ２は、会議支援装置３０の表示部３１１を見ている。第３の参加者ｈ３は、端末２０－１を使用している。なお、会議はＴＶ会議であってもよい。

【0041】

＜端末の表示例＞
次に、端末２０の表示部２０３に表示される情報例を説明する。
図３は、本実施形態に係る端末２０の表示部２０３に表示される情報例を示す図である。
左の丸ｇ１０１～ｇ１０３は、発話者またはテキスト入力を行った入力部１１（マイクロフォン）または端末２０を表している。丸ｇ１０１は入力部１１－１（Ｍｉｃ１）によって発話されたことを表し、丸ｇ１０２は端末２０－１（Ｔａｂ）によって入力されたことを表し、丸ｇ１０３は入力部１１－２（Ｍｉｃ２）によって発話されたことを表す。

【0042】

テキスト画像ｇ１１１～ｇ１１７は、発話された音声信号を音声認識した結果のテキスト情報、または端末２０－１によって入力されたテキスト情報を表す。テキスト画像ｇ１１１、ｇ１１４、ｇ１１５、ｇ１１７は入力部１１－１（Ｍｉｃ１）によって発話されたテキスト情報を表し、テキスト画像ｇ１１２は端末２０－１（Ｔａｂ）によって入力されたテキスト情報を表し、テキスト画像ｇ１１３、ｇ１１６は入力部１１－２（Ｍｉｃ２）によって発話されたテキスト情報を表す。

【0043】

ボタン画像ｇ１２１～ｇ１２２は、ボタン画像である。ボタン画像ｇ１２１は利用者がテキスト入力する際に選択し、ボタン画像ｇ１２２は入力したテキスト画像を会議支援装置３０へ送信する際に選択する。

【0044】

＜会議支援装置の表示例＞
次に、会議支援装置３０の表示部３１１に表示される情報例を説明する。
図４は、本実施形態に係る会議支援装置３０の表示部３１１に表示される情報例を示す図である。なお、図４の表示は、発話された音声がＮＧと判定されなかった場合の表示である。

【0045】

図４において、表示部３１１の左側領域ｇ２００は、設定のためのボタン画像等が表示される領域である。表示部３１１の右領域ｇ２５０は、テキスト情報等が表示される領域である。

【0046】

領域ｇ２０１は、会議支援装置３０の使用開始、使用終了等の設定を行うボタン画像等が表示される領域である。
領域ｇ２０２は、使用する端末２０の設定を行うボタン画像等が表示される領域である。
領域ｇ２０３は、使用する入力部１１等の設定を行うボタン画像等が表示される領域である。
領域ｇ２０４は、会議中の発話の録音、削除、過去の議事録の参照等の設定を行うボタン画像等が表示される領域である。

【0047】

丸ｇ２５１～ｇ２５２は、発話者またはテキスト入力を行った入力部１１（マイクロフォン）または端末２０を表している。丸ｇ２５１は入力部１１－１（Ｍｉｃ１）によって発話されたことを表し、丸ｇ２５２は入力部１１－２（Ｍｉｃ２）によって発話されたことを表す。

【0048】

テキスト画像ｇ２６１～ｇ２６２は、発話された音声信号を音声認識した結果のテキスト情報、または端末２０－１によって入力されたテキスト情報を表す。テキスト画像ｇ２６１は入力部１１－１（Ｍｉｃ１）によって発話されたテキスト情報を表し、テキスト画像ｇ２６２は入力部１１－２（Ｍｉｃ２）によって発話されたテキスト情報を表す。
ボタン画像ｇ２７１は、発話または、テキスト入力されたテキスト情報を削除する場合に選択されるボタン画像を表す。テキスト画像ｇ２８１は、テキスト情報が発話または入力された時刻を表す。また、テキスト表示領域ｇ３００には、テキスト情報が発話または入力された入力部１１または端末２０を表す画像、テキスト画像、削除する場合に選択されるボタン画像が含まれている。

【0049】

ボタン画像ｇ２９１～ｇ２９２は、ボタン画像である。ボタン画像ｇ２９１は利用者がテキスト入力する際に選択し、ボタン画像ｇ２９２は入力したテキスト画像を端末２０へ送信する際に選択する。
テキスト入力欄画像ｇ２９３は、利用者がテキスト入力する際、入力されたテキスト情報が表示される欄を表している。

【0050】

次に、会議支援装置３０の表示部３１１上の表示が、音質ＮＧの判定によって変化する例を説明する。
図５は、本実施形態に係る会議支援装置３０の表示部３１１上の表示が、音質ＮＧの判定によって変化する例を示す図である。なお、図５では、表示部３１１上に表示される画像のうちテキスト表示領域ｇ３００のみを示している。

【0051】

テキスト表示領域画像ｇ３００ａの例は、Ｍｉｃ２（入力部１１－２）を用いて発話された音声信号が、音質ＮＧの場合の表示例である。音質ＮＧの場合は、例えば、音質ＮＧに対応する話者のテキスト情報（発話情報）の文字のテキスト情報画像ｇ３０１ａが、音質ＮＧではない他のテキスト情報画像ｇ３０２と比べて、小さく表示される。これにより、発話された音声の音量が小さかったことが視覚的に分かる。なお、このようなテキスト情報の表示の変更は、会議支援装置３０の表示部３１１に対して行い、発話障害者または聴覚者が使用している端末２０の表示部２０３に表示されるテキスト情報の表示は変更しない。

【0052】

テキスト表示領域画像ｇ３００ｂの例は、音質ＮＧに対応する話者の発話が終了し、表示部３１１上の表示の変更を元に戻した例である。処理部３１０は、テキスト表示領域画像ｇ３００ａで文字が他のテキスト情報より小さく表示されていたテキスト情報画像ｇ３０１ａを、例えば変更して表示した後所定時間が経過した後に、文字の大きさを元に戻したテキスト画像ｇ３０１ｂに変更する。なお、処理部３１０は、テキスト表示領域画像ｇ３００ｂのように、文字の大きさを元に戻したテキスト情報の文字を、例えばイタリック等、音質ＮＧではない他のテキスト情報画像ｇ３０２と異なるように表示させるようにしてもよい。

【0053】

なお、上述した例では、音質ＮＧに対応する発話のテキスト情報を端末２０に表示させる場合、文字を小さくせず変更せずに表示させる例を説明したが、これに限らない。音質ＮＧの場合、音量または発話スピード（発話速度）が所定の範囲外であるため、音声認識の精度が低下している可能性がある。このため、処理部３１０は、端末２０へ送信するテキスト情報の表示を、音質ＯＫのテキスト情報の表示と異なるように変更、例えば太字、するようにしてもよい。

【0054】

なお、図５に示した音質ＮＧの場合の画面変更例は一例であり、これに限らない。例えば、会議支援装置３０は、音質ＮＧを受信した場合、表示の変更は文字の大きさの変更に限られない。処理部３１０は、例えば、テキスト表示領域画像ｇ３００ａの例のように文字をイタリックなどに変更してもよく、テキストの色を変えても良く、文字を細字で表示させるようにしてもよく、画面を震えるように表示させてもよく、文字にマスクをかけてもよい。この場合、処理部３１０は、音質ＮＧではない他のテキスト画像と比較して、音質ＮＧのテキスト画像を視覚しにくく、すなわち読みにくくするようにしてもよい。

【0055】

＜会議支援システムの処理手順例＞
次に、会議支援システムの処理手順を説明する。
図６は、本実施形態に係る会議支援システム１の処理手順例を示すシーケンス図である。図６の例では、会議の参加者が３人であり、２人が入力部１１を使用し、１人が端末２０－１を利用する例である。

【0056】

（ステップＳ１）会議支援装置３０の処理部３１０は、利用者が操作部３０９を操作した操作結果に基づいて、使用される入力部１１の設定を行う。この例では、入力部１１－１（Ｍｉｃ１）と、入力部１１－２（Ｍｉｃ２）が使用される。

【0057】

（ステップＳ２）端末２０－１の処理部２０２は、利用者が操作部２０１を操作した操作結果に基づいて、入力されたテキスト情報を取得する。続けて、処理部２０２は、表示部２０３上に入力されたテキスト情報を表示させる。

【0058】

（ステップＳ３）端末２０－１の処理部２０２は、利用者が操作部２０１を操作した操作結果に基づいて、入力されたテキスト情報を会議支援装置３０へ送信する。

【0059】

（ステップＳ４）会議支援装置３０の処理部３１０は、受信したテキスト情報を表示部３１１上に表示させる。

【0060】

（ステップＳ５）入力部１１－１は、収音した音声信号を会議支援装置３０に出力する。

【0061】

（ステップＳ６）会議支援装置３０は、話者の発話を取得した音声信号に対して音声認識処理、係り受け処理を行う。

【0062】

（ステップＳ７）会議支援装置３０の音質確認部３０３は、入力部１１－１が収音した音声信号の音量等の音質を確認する。この場合、音質確認部３０３は、収音された音声信号の音質を音質ＯＫであると判定する。

【0063】

（ステップＳ８）会議支援装置３０の処理部３１０は、音声認識処理等されたテキスト情報を表示部３１１上に表示させる。

【0064】

（ステップＳ９）会議支援装置３０の処理部３１０は、音声認識処理等されたテキスト情報を、通信部３０７を介して端末２０－１へ送信する。

【0065】

（ステップＳ１０）端末２０－１の処理部２０２は、受信したテキスト情報を表示部２０３上に表示させる。

【0066】

（ステップＳ１１）入力部１１－２は、話者の発話を収音した音声信号を会議支援装置３０に出力する。

【0067】

（ステップＳ１２）会議支援装置３０は、取得した音声信号に対して音声認識処理、係り受け処理等を行う。

【0068】

（ステップＳ１３）会議支援装置３０の音質確認部３０３は、入力部１１－１が収音した音声信号の音量等の音質を確認する。この場合、音質確認部３０３は、収音された音声信号の音質を音質ＮＧであると判定する。

【0069】

（ステップＳ１４）会議支援装置３０の処理部３１０は、音質確認部３０３が出力する音質ＮＧ情報に基づいて、対応する発話のテキスト情報の表示を変更する。続けて、処理部３１０は、変更したテキスト情報を表示部３１１上に表示させる。なお、処理部３１０は、この発話の音質がＮＧであるため、音声認識の精度が悪い可能性があることを示す情報を、通信部３０７を介して端末２０－１に送信するようにしてもよい。この場合、受信した端末２０は、受信した音声認識の精度が悪い可能性があることを示す情報を、表示部２０３に表示させるようにしてもよい。

【0070】

（ステップＳ１５）会議支援装置３０の処理部３１０は、音声認識処理等されたテキスト情報を、通信部３０７を介して端末２０－１へ送信する。

【0071】

（ステップＳ１６）端末２０－１の処理部２０２は、受信したテキスト情報を表示部２０３上に表示させる。

【0072】

（ステップＳ１７）会議支援装置３０の処理部３１０は、テキスト情報の表示変更を行った後、所定時間が経過したか否かを判定する。処理部３１０は、所定時間が経過したと判定した場合、対応する発話のテキスト情報の表示に対して、変更した表示を元に戻す。

【0073】

なお、図６に示した処理手順は一例であり、例えばステップＳ１２とＳ１３の処理は同時に行われてもよく、処理順番が逆であってもよい。

【0074】

＜音質確認時の処理手順例＞
次に、音質確認時の会議支援システムの処理手順を説明する。
図７は、本実施形態に係る音質確認時の会議支援システム１の処理のフローチャートである。なお、以下の処理例では、音質確認処理の一例として、音量を確認する例を説明する。

【0075】

（ステップＳ１０１）入力部１１は、話者の発話を収音する。

【0076】

（ステップＳ１０２）会議支援装置３０の音声認識部３０２は、収音された音声信号に対して音声認識処理を行う。

【0077】

（ステップＳ１０３）会議支援装置３０の音質確認部３０３は、収音された音響信号に対して、音量等を確認する処理である音質確認処理を行う。

【0078】

（ステップＳ１０４）会議支援装置３０の処理部３１０は、音質確認部３０３が確認した結果に基づいて、音量等が適切であるか（音質ＯＫ）否かを判定する。会議支援装置３０の処理部３１０は、音量等が適切であると判定した場合（ステップＳ１０４；ＹＥＳ）、ステップＳ１０５の処理に進める。会議支援装置３０の処理部３１０は、音量等が適切ではないと判定した場合（ステップＳ１０４；ＮＯ）、ステップＳ１０６の処理に進める。

【0079】

（ステップＳ１０５）会議支援装置３０の処理部３１０は、話者のテキスト情報の表示を変更せずに表示させる。処理後、処理部３１０は、処理を終了する。

【0080】

（ステップＳ１０６）会議支援装置３０の処理部３１０は、音質ＮＧに対応する話者のテキスト情報の表示を例えば文字を小さく変更する。処理後、処理部３１０は、ステップＳ１０７に勧める。

【0081】

（ステップＳ１０７）会議支援装置３０の処理部３１０は、音量等が適切ではなかった場合にテキスト情報を変更して表示部３１１上に表示させる。

【0082】

（ステップＳ１０８）会議支援装置３０の処理部３１０は、表示を変更した場合、所定時間が経過したか否か判定する。処理部３１０は、所定時間が経過したと判定した場合（ステップＳ１０８；ＹＥＳ）、ステップＳ１０９の処理に進める。処理部３１０は、所定時間が経過していないと判定した場合（ステップＳ１０８；ＮＯ）、ステップＳ１０８の処理を繰り返す。

【0083】

（ステップＳ１０９）会議支援装置３０の処理部３１０は、所定時間が経過したと判定した場合、表示を元に戻す。

【0084】

（ステップＳ１１０）会議支援装置３０の処理部３１０は、音量等が適切ではなかったテキスト情報を元に戻す変更を行って表示部３１１上に表示させる。

【0085】

なお、上述した例では、話者毎に異なる入力部１１を用いて発話する例を説明したが、これに限らない。入力部１１は１つであってもよい。この場合、複数の参加者は１つの入力部１１を利用する。この場合、会議支援装置３０は、例えば参加者毎の音声を登録しておき、音声認識によって発話者を認識して会議支援装置３０の表示部３１１上に表示させ、端末２０の表示部２０３上に表示させるようにしてもよい。または、会議支援装置３０は、話者にかかわらず、使用されている入力部１１に対応するマイクロフォンの番号（Ｍｉｃ１、Ｍｉｃ２）等を会議支援装置３０の表示部３１１上に表示させ、端末２０の表示部２０３上に表示させるようにしてもよい。

【0086】

ここで、議事録の例を説明する。
図８は、本実施形態に係る議事録・音声ログ記憶部５０が記憶する議事録の一例である。
会議支援装置３０の処理部３１０は、議事録作成部３０６を制御して、待機要望を受信した際、受信した際に発話が行われている場合に１つ前の発話に対して待機要望が行われたことを議事録に関連づけて議事録・音声ログ記憶部５０に記憶させるようにしてもよい。図８の例では、時刻１１：０３に行われた発話「フランスでは、現在・・・。」の内容を読み終わる前に、時刻１１：０５の次の発話「では、次は、・・・。」が始まった例である。この例では、発話「フランスでは、現在・・・。」の発話の音響信号の音質が適切では無かったため音質ＮＧと判定された例である。この結果、会議支援装置３０は、発話「フランスでは、現在・・・。」に関連づけて音質ＮＧであったことを記憶する。これにより、本実施形態によれば、このような発話が、適切に音声認識できない可能性のあった発話であり、かつそのため発話障害者または聴覚者の理解に時間を要する可能性があることが分かり、次回以降の会議の進め方の参考になる。

【0087】

本実施形態では、話者の発話が早やすぎるまたは音量が小さい場合、例えばテキスト情報の文字を小さくする、見えづらくするようにした。また、本実施形態では、テキストの情報の変形を、入力されて一定時間内で、一定時間が過ぎると通常の文字に戻すようにした。

【0088】

これにより、本実施形態によれば、話者は、自分が発した発話が早やすぎるまたは音量が小さいことを、表示される文字の大きさの変化によって知ることができる。また、本実施形態によれば、入力されて一定時間内で、一定時間が過ぎると通常の文字に戻すため、テキスト情報が読めるようになる。この結果、本実施形態によれば、話者が話した内容を見るだけで、自分の発話が適切でないことを気づくことができる。また、本実施形態によれば、インジケータなど、他の部分を見る必要がなく、話した内容のみに集中することができる。また、本実施形態では、発話の音質がＮＧの場合に、音声認識の精度が悪い可能性があることを示す情報を端末２０に送信するようにした。そして、本実施形態では、受信した端末２０が、受信した音声認識の精度が悪い可能性があることを示す情報を表示させるようにした。この結果、本実施形態によれば、端末２０を使用している発話障害者または聴覚者が、表示されているテキスト情報の精度が悪い可能性があることを知ることができる。

【0089】

なお、本発明における会議支援装置３０の機能の全てまたは一部、または端末２０の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより会議支援装置３０が行う処理の全てまたは一部、または端末２０が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0090】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0091】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0092】

１…会議支援システム、１０…入力装置、２０，２０－１，２０－２…端末、３０…会議支援装置、４０…音響モデル・辞書ＤＢ、５０…議事録・音声ログ記憶部、１１，１１－１，１１－２，１１－３…入力部、２０１…操作部、２０２…処理部、２０３…表示部、２０４…通信部、３０１…取得部、３０２…音声認識部、３０３…音質確認部、３０４…テキスト変換部、３０５…係り受け解析部、３０６…議事録作成部、３０７…通信部、３０９…操作部、３１０…処理部、３１１…表示部

【図1】