(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-11
(45)【発行日】2023-12-19
(54)【発明の名称】音声認識システム及び情報処理方法
(51)【国際特許分類】
G10L 15/28 20130101AFI20231212BHJP
G10L 15/25 20130101ALI20231212BHJP
G10L 15/00 20130101ALI20231212BHJP
G06F 3/16 20060101ALI20231212BHJP
G10L 15/16 20060101ALN20231212BHJP
【FI】
G10L15/28 400
G10L15/25
G10L15/00 200A
G06F3/16 610
G06F3/16 650
G10L15/16
(21)【出願番号】P 2019203340
(22)【出願日】2019-11-08
【審査請求日】2022-09-14
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】能勢 将樹
【審査官】大野 弘
(56)【参考文献】
【文献】再公表特許第2004/084187(JP,A1)
【文献】特開2000-352996(JP,A)
【文献】特開2007-052859(JP,A)
【文献】特開2018-013549(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/28
G10L 15/25
G10L 15/00
G06F 3/16
G10L 15/16
(57)【特許請求の範囲】
【請求項1】
音声取得装置と、サーバと、を備える音声認識システムであって、
前記音声取得装置は、
複数の音声を検出する音声検出部と、
複数の前記音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、
を備え、
前記サーバは、
同期された複数の前記音声データ
に対して、教師ラベルを
共用して音声認識エンジンの機械学習
を行い、音声を認識する
音声認識
システム。
【請求項2】
前記音声取得装置は、
複数の前記音声データを記録する記録部を備える請求項1に記載の音声認識
システム。
【請求項3】
前記音声取得装置は、
外部機器との間で複数の前記音声データの通信を行う通信制御部を備える請求項1又は2に記載の音声認識
システム。
【請求項4】
前記音声取得装置は、
複数の前記音声の録音を一時停止するミュート制御部を備える請求項1から3の何れか一項に記載の音声認識
システム。
【請求項5】
前記ミュート制御部は、記録された複数の前記音声データを一定時間遡った時点まで消去する請求項4に記載の音声認識
システム。
【請求項6】
複数の前記音声検出部は、それぞれの配置位置が互いに異なり、又はそれぞれの向きが互いに異なる請求項1から5の何れか一項に記載の音声認識
システム。
【請求項7】
前記音声取得装置は、
撮像部を備え、
前記撮像部で撮像されたデータである撮像データを、機械読唇の機械学習に用いる請求項1から6の何れか一項に記載の音声認識
システム。
【請求項8】
前記サーバは、
前記音声認識エンジンの機械学習の結果に応じて、前記機械読唇の機械学習の結果を採用し又は採用しない統合器を備える請求項7に記載の音声認識
システム。
【請求項9】
前記音声
取得装置の筐体部から着脱可能な撮像部を備える請求項1から8の何れか一項に記載の音声認識
システム。
【請求項10】
前記音声取得装置は、
撮像部を備え、
前記同期制御部は、前記音声データに前記撮像部で撮像された画像の内容を示すデータである撮像データを同期させる制御を行い、
前記サーバは、
同期された複数の前記音声データ及び前記撮像データ
に対して、教師ラベルを
共用して音声認識エンジンの機械学習
を行い、音声を認識する請求項1から9の何れか一項に記載の音声認識
システム。
【請求項11】
前記音声取得装置は、
撮像部を備え
前記音声データ及び前記撮像部で撮像されたデータである撮像データに対して、同一の教師ラベルを用いて機械学習を行
い、音声を認識する請求項1から10の何れか一項に記載の音声認識
システム。
【請求項12】
音声取得装置と、サーバと、を備える音声認識システムが行う情報処理方法であって、
前記音声取得装置が、音声検出部で複数の音声を検出し、
前記音声
取得装置が、
前記音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行い、
前記サーバが、同期された複数の前記音声データ
に対して教師ラベルを
共用して音声認識エンジンの機械学習
を行い、音声を認識する情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識システム及び情報処理方法に関する。
【背景技術】
【0002】
音声認識を用いたスマートスピーカ、多言語翻訳システムなどが注目を集めている。スマートスピーカは、音声コマンドにより、室内器具の操作や、天気予報などの情報の提供を実現する装置である。多言語翻訳システムはスマートフォン、専用端末などを用いた翻訳装置である。多言語翻訳システムでは、例えば、人の音声が音声検出部であるマイクに入力され、入力された音声が音声認識により文字化された後、翻訳処理によって所望の言語に翻訳され、スピーカから出力される。さらに、コールセンタでの顧客との対話録を生成するシステム、会議録を自動生成するシステムなどの実用化が進み、これらのシステムも音声認識の技術を活用している。
【0003】
特許文献1には、人の音声以外の雑音による音声誤認識を低減して、音声認識の認識率を高める技術が開示されている。特許文献1に開示される技術は、カメラによる撮像中に発生する音をマイクで取得し、カメラで撮像された画像の情報に基づいて、人が発話している発話区間を検出し、当該発話区間で人の音声認識の感度を上げるように構成されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、例えばテーブルの中心に1つのマイクが設置され、当該テーブルの周囲に人が存在する状況では、人の口元からマイクまでの距離が相対的に遠くなる。従って、S/N比の低い不明瞭な音声が入力されると共に、文法から逸脱したインフォーマルな発話が頻繁に発声される。特許文献1に開示される従来技術は、このような状況での音声認識を想定していないため、音声認識精度を高める上で改善の余地がある。
【0005】
本発明は、上記課題に鑑み、口元からマイクまでの距離が遠い状況でも音声認識精度を高めることができる。
【課題を解決するための手段】
【0006】
上記課題に鑑み、本発明に係る音声認識システムは、音声取得装置と、サーバと、を備える音声認識システムであって、前記音声取得装置は、複数の音声を検出する音声検出部と、複数の前記音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、を備え、前記サーバは、同期された複数の前記音声データに対して、教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する。
【発明の効果】
【0007】
本発明によれば、口元からマイクまでの距離が遠い状況でも音声認識精度を高めることができるという効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】本発明の実施の形態に係る音声認識システムの構成例を示す図
【
図4】音声認識器、機械読唇器及び統合器の動作を説明するための図
【
図5】機械読唇に用いる画像特徴量を説明するための図
【
図7】音声認識システムの動作を説明するためのフローチャート
【
図8B】ミュートボタンが押される前後の画像の例を示す図
【
図9A】複数のマイクが配置された状態を模式的に示す図
【
図9B】複数のマイクのそれぞれで取得された音声データの一例を示す図
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態について図面を用いて説明する。
図1は本発明の実施の形態に係る音声認識システムの構成例を示す図である。
図1には、会議室100に設置されるテーブル110と、テーブル110の周囲に存在する複数の人(会議出席者31~36)と、音声認識システム300とが示される。
【0010】
音声認識システム300は、1又は複数の会議出席者31~36の音声をマイクで取得し、取得した音声の内容を示すデータである音声データを機械学習に利用することにより、音声認識精度を高めるように構成されている。また、音声認識システム300は、1又は複数の会議出席者31~36をカメラで撮像し、撮像した画像の内容を示すデータである撮像データを機械学習に利用することにより、音声認識精度を高めるように構成されている。なお、音声認識システム300は、音声データのみを収集して音声認識精度を向上させる構成でもよい。ただし音声データに加えて撮像データを収集することにより、音声認識精度をより一層高めることができる。以下では、音声データと撮像データの双方を収集して音声認識精度を向上させる構成例について説明する。
【0011】
音声認識システム300は、テーブル110の中央に設置される音声取得装置1と、会議室100の壁とテーブル110の間に設置されるホワイトボード120と、クラウドサーバ200とを備える。音声取得装置1で取得された音声データは、ホワイトボード120を介してクラウドサーバ200に送信され、クラウドサーバ200に実装されている音声認識エンジンなどで音声認識の処理が行われる。音声認識の結果得られたテキストデータがホワイトボード120に送られ、そこで字幕表示が行われる。あるいは、当該テキストデータを利用して議事録として発話内容がまとめられる。なお、音声認識の処理により、会議、講演会、インタビューなどの発言を自動でテキスト化する技術、議事録作成する技術は非特許文献1に開示される通り公知であるため、詳細な説明は省略する。
【0012】
音声取得装置1は、テーブル110の周囲に存在する複数の会議出席者31~36の音声を取得する装置である。なお、音声取得装置1は、音声以外にも、複数の会議出席者31~36の画像を取得するように構成される。
図2A~
図2Cを参照して音声取得装置1の構成例について説明する。
【0013】
図2Aは音声取得装置の外観図である。
図2Aには音声取得装置1の外観と共に、音声取得装置1で撮像される会議室100の風景が示される。音声取得装置1は、筐体部2と、音声検出部であるマイク50と、撮像部であるカメラ51とを備える。マイク50には複数チャンネルの音声を取得可能なマルチマイクが利用される。カメラ51には複数チャンネルの画像を取得可能なマルチカメラが利用される。マルチカメラは、例えばそれぞれの画角が90°以上の撮像部を複数組み合わせたものである。
【0014】
筐体部2は、テーブル110に設置される円盤状の台座部1aと、台座部1aから鉛直方向に伸び複数のマイク50などをテーブル110から離れた位置に配置する柱状の延伸部1bとを備える、また筐体部2は、延伸部1bの上部に設けられ複数のマルチマイク及びマルチカメラが配置される円盤状のユニット設置部1cを備える。なお、筐体部2の形状は、少なくとも1以上のカメラ51及びマイク50を設けることができる構造であればよく、図示例に限定されるものではない。
【0015】
複数のマイク50の内、1つのマイク50は、ユニット設置部1cの上部に設けられる。残りのマイク50は、ユニット設置部1cの上部以外の場所、例えばユニット設置部1cの側面部に設けられる。側面部は、ユニット設置部1cの外周部全体の内、例えば、鉛直方向と直交する水平面に平行な仮想面を含む部分である。ユニット設置部1cの側面部には、周方向に互いに離れるようにして複数のマイク50が設置される。このように複数のマイク50が設置されることにより、複数の会議出席者31~36がテーブル110を囲むように存在する場合でも、それぞれの会議出席者と向き合うように個々のマイク50が配置される形となるため、マイク50からそれぞれの会議出席者までの距離を短くでき、S/N比の高い明瞭な音声が入力できる。
【0016】
図2Bは音声取得装置のハードウェア構成図である。音声取得装置1は、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、入力装置104、通信インタフェース105、及びバス106を備える。
【0017】
CPU101は、プログラムを実行することにより、音声取得装置1の全体を制御し、後述する各機能を実現する。ROM102は、CPU101が実行するプログラムを含む各種のデータを記憶する。RAM103は、CPU101に作業領域を提供する。入力装置は、前述したマイク50及びカメラ51の他、人の操作に応じた情報を入力するタッチパネル、マウスなどを含む。通信インタフェース105は、音声取得装置1を、例えば外部機器の一例であるホワイトボード120を介して、通信ネットワーク301に接続するためのインタフェースである。通信ネットワーク301は、LAN(Local Area Network)、インターネット、携帯端末用ネットワークなどである。バス106は、CPU101、ROM102、RAM103、入力装置104、及び通信インタフェース105を相互に接続する。
【0018】
図2Cは音声取得装置の機能ブロック図である。音声取得装置1は、開始/終了制御部10、同期制御部11、記録制御部12、記録部13、ミュート制御部14、及び通信制御部15を備える。
【0019】
開始/終了制御部10は、例えば、複数のマイク50-1~50-n(nは1以上の整数)による録音開始及び録音終了を制御すると共に、複数のカメラ51-1~51-n(nは1以上の整数)による撮像開始及び撮像終了を制御する。
【0020】
同期制御部11は、1又は複数のマイク50-1~50-nで取得された複数の音声データを同期させる制御を行うと共に、1又は複数のカメラ51で撮像された1又は複数の撮像データを同期させる制御を行う。同期制御部11による制御の詳細は後述する。
【0021】
記録制御部12は、マイク50とカメラ51で取得した音声データ及び撮像データの記録部13への記録制御を行う。通信制御部15は、ホワイトボード120、クラウドサーバ200などの外部機器との通信制御を行う。通信制御は、例えば、同期制御部で制御された複数の音声データ及び撮像データを、ホワイトボード120を介してクラウドサーバ200へ送信し、又は直接クラウドサーバ200へ送信する制御である。
【0022】
次に
図3A及び
図3Bを参照してクラウドサーバ200の構成について説明する。
図3Aはクラウドサーバのハードウェア構成図である。クラウドサーバ200は、プロセッサ210、メモリ220、及び入出力インタフェース230を備える。
【0023】
プロセッサ210は、マイクロコンピュータ、GPU(General Purpose Graphics Processing Unit)、システムLSI(Large Scale Integration)などで構成される演算手段である。メモリ220は、RAM(Random Access Memory)、ROM(Read Only Memory)などで構成される記憶手段である。入出力インタフェース230は、プロセッサ210が音声取得装置1との間で情報の入出力を行うための情報入出力手段である。プロセッサ210、メモリ220及び入出力インタフェース230は、バス240に接続され、バス240を介して、情報の受け渡しを相互に行うことが可能である。バス240は
図1に示す通信ネットワーク301に接続される。
【0024】
クラウドサーバ200は、例えば、プロセッサ210がメモリ220に記憶された仮想マシンソフトウェア(仮想化アプリケーション)をインストールすることによって、仮想マシンを稼働させる。仮想マシンソフトウェアは、ホストOS(Operating System)上で個別のハードウェアをエミュレーションすることで、個別のOSをインストールする。これにより、単一のシステム上で、複数の仮想マシンを互いに独立して実行することが可能になる。このクラウド環境において、音声取得装置1からのデータを収集するソフトウェア(データ収集ソフト)、当該データを解析するソフトウェア(解析ソフト)などが構築される。この仮想化技術を利用することで、リソースの効率的な活用、ハードウェアの初期投資コストの抑制、省電力及び省スペースなどが実現できる。
【0025】
図3Bはクラウドサーバの機能ブロック図である。クラウドサーバ200は、音声認識エンジン201、読唇処理部202、及び統合器203を備える。
【0026】
音声認識エンジン201は、音声特徴量抽出部201a及び音声認識器201bを備える。読唇処理部202は、画像特徴量抽出部202a及び機械読唇器202bを備える。
【0027】
次に
図4及び
図5を参照して音声認識器201b、機械読唇器202b、統合器203などの動作を説明する。
【0028】
図4は音声認識器、機械読唇器及び統合器の動作を説明するための図である。音声特徴量抽出部201aでは、音声取得装置1からの音声データの中から機械学習用の入力値としての特徴量である音声特徴量が抽出される。音声特徴量抽出部201aは、例えば、音声取得装置1で取得された複数の音声データを入力して、それぞれの音声データを単位時間ごと(フレームごと)に切り出して、例えば、MFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)やメルケプストラム特徴量などのフレームごとの音声信号のスペクトル特徴量を計算し、これを正規化する。
【0029】
音声認識器201bは、音声特徴量抽出部201aで抽出された特徴量を用いて機械学習を行うと共に音声を認識する。音声認識器201bは、音声の特徴量を識別する識別器であり、当該識別器には、DNN(Deep Neural Network)を例示できる。DNNは、入力層と、隠れ層と呼ばれる中間層と、出力層とを有する。DNNでは、中間層の数を増やして重層構造にする構成が採られる。DNNを用いて音声を認識するためには、DNNに対して、教師ラベル又は訓練データと呼ばれる情報を利用して、教師あり学習を行うのが最も有効である。なお、DNNを実現するためには、高い演算能力が必要なため、DNNは、クラウドサーバ200で実現することが望ましいが、音声取得装置1が高い演算能力を有するGPUなどを搭載する場合、音声取得装置1で実現してもよい。なお、当該識別器には、DNNのほか、例えば、SVM(Support Vector Machine)、SIFT(Scale-Invariant Feature Transform)などの手法を用いてもよい。
【0030】
音声認識に用いるDNNは様々あり、近年頭角を現しているものとしてEndtoEndモデルがある。EndtoEndモデルとは、非特許文献2に開示される従来手法のように、音響モデル、言語モデル、辞書などの複数の機能へ分割せずに、1つのニューラルネットワークを介して、入力された音声を文字に直接変換するモデルであり、一気通貫モデルとも称される。EndtoEndモデルは、構造がシンプルなため、実装が容易、応答速度が速いなどのメリットがある一方、大量の学習データを要する。
【0031】
画像特徴量抽出部202aでは、例えば、音声取得装置1からの撮像データの中から機械学習用の入力値としての特徴量である画像特徴量を抽出する。機械読唇に用いる画像特徴量の例を
図5に示す。
【0032】
図5は機械読唇に用いる画像特徴量を説明するための図である。まず、画像特徴量抽出部202aは、カメラ51で撮影された画像全体の中から、例えば会議出席者の顔を認識する。顔認識は一般的なアルゴリズムを使用してもよい。次に、画像特徴量抽出部202aは、認識した顔の中から口唇を抽出する。そして、画像特徴量抽出部202aは、抽出した口唇の画像から、
図5に示すようにプロットされた複数の点のそれぞれの時系列な動きを、特徴量して抽出する。当該特徴量は、機械読唇を行うためにカメラ51で撮像された会議参加者の口元(口唇)の特徴量である。機械読唇器202bは、当該特徴量を用いて機械学習を行う。例えば、雑音が多い会議の場合、機械読唇器202bは、複数の会議出席者のそれぞれの口元の特徴量を利用して機械学習を行う。なお、当該特徴量の抽出方法は、非特許文献3に開示される通り公知であるため、詳細な説明は省略する。
【0033】
統合器203は、音声認識器201bによる音声認識結果に、機械読唇器202bによる機械読唇の結果を融合させる。音声認識器201bによる音声認識結果だけでなく、発声時の口唇の動画像を用いる手法は、マルチモーダル音声認識に呼ばれる。マルチモーダル音声認識では、入力動画像を時系列の画像特徴量に変換し、この画像特徴量と音声特徴量とを融合させて音響画像特徴量を生成する。そして、この音響画像特徴量を用いることにより、音声認識を行う。マルチモーダル音声認識は、会議での音声認識精度を高める有益な手段である。
【0034】
次に
図6A及び
図6Bを参照して、機械読唇による認識精度を向上させための構成例について説明する。
図6Aはカメラの第1構成例を示す図である。音声取得装置1が、例えば、筐体部2から着脱可能なカメラ51を備える場合、
図6Aに示すように、筐体部2から取り外されたカメラ51を、例えばホワイトボード120などに設置することができる。設置方法は、例えばカメラ51に把持手段を設けておき、この把持手段をホワイトボード120を挟み込み構成でもよいし、ホワイトボード120とカメラ51のそれぞれに嵌め合い構造の器具を設けておき、それらを嵌め合わせることでホワイトボード120へカメラ51を固定してもよい。この構成により、テーブル110以外の場所から、会議室100内を撮像できる。これにより、会議出席者の顔の向きが変わっても、その人の口元を撮像でき、機械読唇できる確率が高まる。
【0035】
図6Bはカメラの第2構成例を示す図である。
図6Bでは、マルチカメラを構成するカメラ51-1、カメラ51-2、及びカメラ51-2がユニット設置部1cに設けられている。この場合、カメラ51-1、カメラ51-2、及びカメラ51-2のそれぞれでは、異なる方角の画像が撮像される。そのため、マイク50の周囲に複数の会議出席者が存在する状況で、特定の人が発声したときに、その音声がマイク50で検出されると共に、発話している人の画像をマルチカメラで撮像することができる。従って、その音声を発する人物の画像を当該音声に組み合わせて機械学習させることができる。
【0036】
なお、音声取得装置1はその高さを調整可能に構成してもよい。例えば、音声取得装置1のユニット設置部1cが直径の異なる2つのパイプで構成され、一方の太いパイプである外管の内側に、他方の細いパイプである内管が挿入され、内管に対して外管が上下方向に移動可能に構成される。例えばテーブル110の面積が小さい場合、音声取得装置1から会議出席者までの距離が近くなる傾向があるため、会議出席者の顔及び口唇がカメラ51の画角に収まらないことがある。その場合、会議出席者の顔及び口唇をカメラ51の画角内に収まるように、ユニット設置部1cの高さを調整することで、その音声を発する人物の画像を正確に捉えことができるため、音声に組み合わせて機械学習させることができる。
【0037】
次に
図7~
図10を参照して、音声認識システム300が機械学習する動作を説明する。
図7は音声認識システムの動作を説明するためのフローチャートである。
図8Aはミュートボタンを備えた筐体の外観図である。
図8Bはミュートボタンが押される前後の画像の例を示す図である。
図9Aは複数のマイクが配置された状態を模式的に示す図である。
図9Bは複数のマイクのそれぞれで取得された音声データの一例を示す図である。
図10は教師ラベルの一例を示す図である。
【0038】
音声取得装置1が起動し、マイク50の録音とカメラ51の録画が開始されると(ステップS1)、
図8Aに示すミュートボタン20が押されるまで録音及び録画が継続される(ステップS2,No)。
【0039】
ミュートボタン20は、例えば、機密情報を含む発話内容の録音を一時停止させ、又は一時的に録音された機密情報を含む発話内容を一定時間遡って消去させるためのボタンである。ミュートボタン20は、録音を一時停止させ、又は発話内容を一定時間遡って消去させるだけでなく、録画を一時停止させ、又は録画された画像を一定時間遡って消去させるものでもよい。
【0040】
ミュートボタン20は、例えば音声取得装置1にケーブルを介して接続される筐体に設けられているが、音声取得装置1に設けられていてもよい。ミュートボタン20は、人が操作し易く、又は録音停止状態か否かを識別しやすい形状のものであればよく、押しボタン式のものでもよいし、ダイヤル式のものでもよい。ここでは、押しボタン式の例について説明する。また、ミュートボタン20の横にはLEDが具備され、録音・録画している間はLEDが点灯、録音・録画していない間はLEDが消灯するようにして、データ取得状況を分かりやすくしてもよい。
【0041】
ミュートボタン20が押された場合(ステップS2,Yes)、録音及び録画が一時停止(オプトアウト)される(ステップS3)。例えば、会議出席者が機密情報を話し始めるときにミュートボタン20が押されることにより、ミュート制御部14は、録音停止指令を生成して、開始/終了制御部10に入力する。録音停止指令を入力した開始/終了制御部10は、マイク50からの音声データの記録制御部12への送信を停止することで、機密情報の録音を停止する。これにより、機密性の高い音声データが記録されず、機密情報の漏洩を効果的に防止できる。
【0042】
なお、開始/終了制御部10は、録音停止指令を入力したとき、音声データと共に、撮像データの記録制御部12への送信を停止してもよい。この構成により、機密性の高い撮像データも記録されず、機密情報の漏洩をより一層効果的に防止できる。
【0043】
ミュート制御部14は、以下のように構成してもよい。例えば、会議出席者が機密情報を話し始めた後に、ミュートボタン20が押されることにより、ミュート制御部14は、ミュートボタン20が押された時点から、予め設定された所定時間(例えば数秒~数十秒)遡った時点までに、録音された音声データを消去する消去指令を生成して、記録制御部12に入力する。
【0044】
当該消去指令を入力した記録制御部12は、記録部13に時系列順に記録された音声データの内、上記所定時間に対応する音声データを消去する。またミュート制御部14は、消去指令を生成すると同時に、録音停止指令を生成して、開始/終了制御部10に入力することで、音声データの記録制御部12への送信を停止させる。これにより、例えば、機密性の高い音声データが一時的に記録された場合でも、その場で機密情報を消去できる。また、機密情報以外の音声が録音されている場合でも、自動議事録作成などに不要な録音内容であるときには、その部分を消去できるため、クラウドサーバ200の処理負担を軽減できる。
【0045】
なお、記録制御部12は、消去指令を入力したときに、音声データだけでなく、上記所定時間に対応する撮像データを記録制御部12から消去してもよい。この構成により、機密性の高い音声データ及び撮像データが一時的に記録された場合でも、その場で機密情報を消去でき、機密情報の漏洩をより一層効果的に防止できる。また記録部13のリソースを有効に利用できる。また、機密性を確保しながら、音声認識エンジン201の性能向上に最も寄与する機械学習のための音声データと撮像データを大量に取得できる。
【0046】
なお、ミュート制御部14は、ミュートボタン20が押された場合、例えば、
図8Bに示すように、テレビ会議システムの表示器に表示されていた会議中の画像を、非表示状態にさせるように構成してもよい。この構成により、機密情報が話されていても、外部にその内容が漏洩することを防止できる。なお、ミュートボタン20が再び押されることにより、録音及び録画が再開されるため、テレビ会議システムの表示器には、会議中の画像を再び表示状態される。
【0047】
ミュート制御部14は、音声データ及び撮像データの一部を消去する機能を、有効にするか無効にするかを選択できるように構成してもよい(ステップS4)。例えば、当該機能が無効となるように選択された場合(ステップS4,No)、ステップS6の処理が実行される。当該機能が有効となるように選択された場合(ステップS4,Yes)、ステップS5の処理、すなわちデータ削除(データ消去)が実行される。
【0048】
ステップS6において、同期制御部11は、複数の音声検出部のそれぞれで検出される音声データを同期させる制御を行う。なお、ステップS6の処理はステップS1とステップS2の間に実行されてもよい。
図9A及び
図9Bを参照して、同期制御部11における同期制御方法を具体的に説明する。
【0049】
図9Aは複数のマイクが配置された状態を模式的に示す図である。
図9Aに示す(1)~(6)の符号は、第1マイク(1)、第2マイク(2)、第3マイク(3)、第4マイク(4)、第5マイク(5)及び第6マイク(6)を表す。これらの各マイクは、配置位置と向きが互いに異なる。また、これらの各マイクは、会議室のテーブルを中心に配置されるため、テーブルの周囲に存在する会議出席者から各マイクまでの距離が比較的遠くなる。
【0050】
図9Bは複数のマイクのそれぞれで取得された音声データの一例を示す図である。
図9Bには、
図9Aに示す複数のマイクの内、第2マイク(2)、第3マイク(3)、及び第4マイク(4)のそれぞれで検出された、特定の人の発話内容を表す音声データが示される。これらの音声データは、特定の人の発話内容を表すが、互いの波形が僅かに異なる。第1の原因は、各マイクの配置位置と向きが異なることである。第2の原因は、会議出席者から各マイクまでの距離が比較的遠いため、特定の人から発せられた声が、会議室100の壁に反射してからマイクに届く場合と直接マイクに届く場合があり、マイクへの音声の残響に差が生じることである。
【0051】
従って、例えば、第2マイク(2)で取得される当該特徴点の音圧レベルは、第3マイク(3)で取得される音声の当該特徴点の音圧レベルと異なることもある。
【0052】
そのため、同一の人が発した音声であっても、
図9Bに示すように、各マイクで検出される音声データの波形は僅かに相違する。同期制御部11は、このように波形が僅かに相違する複数の音声データの取得のタイミングを一致させる。
【0053】
また、同期制御部11は、第3マイク(3)と第4マイク(4)との間でも同様の処理を行う。この結果、特定の特徴点のタイミングを各マイクで相互に合わせることができ、音声の特徴点が抽出されたタイミングを合わせてクラウドサーバ200に入力することができる。その結果、音声認識の精度を効率的に向上できる。
【0054】
なお、同期制御部11は、複数のマイク50で取得される音声を同期させるだけでなく、1又は複数のカメラ51での撮像も、同様の方法で同期させてもよい。これにより、機械読唇における機械学習の教師ラベルを音声認識と共通化でき、低コストで効率的に音声認識と機械読唇の機械学習を進めることができる。
【0055】
次に
図10を参照して、教師ラベルについて説明する。前述したように、複数のマイク50の配置位置や向きが異なる場合、特定の人の発話内容に対応する音声データの波形、及び音声の特徴量は、相互に相違する。このように、音声データの波形や音声の特徴量が相違する場合でも、それに対する発話の内容は同じである。そこで、特定の発話内容に対応する複数の音声データに対して、
図10に示すような、1つの教師ラベルを共用して機械学習(ステップS7)を行うことによって、1つのマイク50と1つの教師ラベルで機械学習を行う場合に比べて、音声認識の精度を効率的に向上できる。
【0056】
教師ラベルは、例えば
図10に示す「発話No」が「0001」の「あらゆる現実をすべて自分のほうへねじ曲げたのだ。」という発話内容(ラベル)である。
図10には、これ以外にも、複数の教師ラベルの例が示される。「カメラID」は、複数のカメラ51のそれぞれを識別する番号である。「話者ID」は、発話する人と個別に特定する番号である。その他、「性別ID」、発話が開始された時間を表す「開始時間」、発話が終了した時間を表す「終了時間」などが対応付けられている。
図10に示す複数の教示ラベルは「発話No」、「カメラID」、「話者ID」などに対応付けられて、クラウドサーバ200のメモリに記憶されている。なお教師ラベルの内容は図示例に限定されるものではない。
【0057】
なお、教師ラベルは、音声データを聴いて人手で書き起こしやタイムスタンプを行い、それを学習に用いるか、あるいは既存の音声認識エンジン201から出力されたテキスト(音声認識の出力)のうち、確信度の高い出力結果を教師ラベルとして抽出する方法がある。前者の人手によって全ての教師ラベルを作成し、機械学習を行う方法は教師あり学習と称され、後者の人手を介さず、確信度の高い出力結果を教師ラベルとして利用する方法は半教師あり学習と称される。本実施の形態に係る音声認識システム300において、半教師あり学習を行う場合、複数のマイク50で取得した音声データによる認識結果がいずれも同じ内容だった場合、確信度が高いと見なし、それを教師ラベルとして用いることが考えられる。
【0058】
図11は統合器の動作を説明するための図である。
図11の縦軸は確信度、横軸は時間である。統合器203における結合方法は様々あるが、その一例を説明する。音声認識器201bの出力(例えば音声に対応する文字情報)について、図中の符号(1)及び(2)で示す区間のように、確信度が閾値よりも僅かに低いため、又は確信度が閾値よりも大幅に低いために、音声を認識できていない場合、これらの区間で統合器203は、機械読唇器202bの出力を採用する。一方、音声認識の確信度が閾値以上の場合、統合器203は、音声認識器201bの出力を採用し、機械読唇器の出力は採用しない。これは、本質的に、現状の機械読唇の精度は音声認識よりも劣るためである。
【0059】
以上に説明したように本実施の形態に係る音声認識装置は、複数の音声を検出する音声検出部と、複数の音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、を備え、同期された複数の音声データを音声認識エンジンの機械学習に用いるように構成されている。この構成により、口元からマイクまでの距離が遠いため音声認識が難しい会議などにおいても、音声認識エンジン201の性能向上に最も寄与する機械学習のための音声データを同期させた上で取得できる。
【0060】
なお、音声認識用にマイクアレイとして、発話者を検出し、その発話者の音声を強調するビームフォーミングが知られている。このビームフォーミングで会議音声をクリアに変換するには、煩雑な信号処理を必要とするため、音声認識装置が非常に高価になるほか、その会議の素の収音環境とは異なるように加工されてしまうため、素の収音環境に近い本質的な機械学習を行うことができない。
【0061】
これに対し本実施の形態に係る音声認識装置によれば、ビームフォーミングを利用せずに複数の音声データを同期させて機械学習に利用でるため、煩雑な信号処理が不要になる。従って、音声取得装置の製造コストの上昇を抑制しながら音声認識精度を大幅に向上できる。
【0062】
また会議での高い音声認識精度を優先し、複数の会議出席者のそれぞれにヘッドセット、ピンマイクなどを装着させる手段もある。しかしながら、特に女性は、ヘッドセットやピンマイクの使い回しによる不衛生さを嫌がる場合がある。
【0063】
これに対し本実施の形態に係る音声認識装置によれば、ヘッドセットなどを利用しなくとも、会議での高い音声認識精度を確保できるため、ヘッドセットなどを装着する煩わしさを軽減できる。また、ヘッドセットなどを装着することによる不快な体験を感じさせることもない。
【0064】
また特許文献1に開示される従来技術は、人型ロボットの筐体が利用されているため、その態様によって会議参加者は会議に集中できなくなり、特に小さな会議室では、圧迫感を与え得る。
【0065】
これに対し本実施の形態に係る音声認識装置によれば、
図2Aに示すように卓上照明スタンドに似たシンプルな外観形状であるため、会議参加者に圧迫感を与え得ることがなく、会議への集中が阻害されることを防止できる。
【0066】
また本実施の形態に係る音声認識装置は、複数の音声データを記録する記録部を備えるように構成してもよい。この構成により、通信障害などでクラウドサーバがリアルタイムに音声データなどを受信できない場合についても、記録部に記憶された音声データをクラウドサーバにアップロードすることで、音声データを利用した機械学習を継続できる。
【0067】
また本実施の形態に係る音声認識装置は、外部機器との間で複数の音声データの通信を行う通信制御部を備えるように構成してもよい。この構成により、通信制御部を通じてホワイトボードやクラウドサーバなどの外部機器へ複数の音声データを送信できるため、GPUのように高価のプロセッサを音声認識装置に搭載しなくとも、外部機器において音声データを利用した機械学習を実現できる。従って、音声認識装置の生産台数が増えても、システム全体でのコストの上昇を抑制できると共に、クラウドサーバなどの外部機器で大量のデータを活用して機械学習を行うことにより、音声認識精度を大幅に向上できる。
【0068】
また本実施の形態に係る音声認識装置は、録音を一時停止するミュート制御部を備えるように構成してもよい。会議で発言される内容には機密性の高い情報を多く含むため、録音できない場合が生じるが、ミュート制御部を備えることにより、録音を停止できる。従って、発言をためらうことなく会議に参加でき、結果的に有効な音声データを大量に集めることができる。従って、文法から逸脱したインフォーマルな発話に対する訓練が進み、音声認識精度を高めることができる。
【0069】
また本実施の形態に係る音声認識装置は、複数の音声検出部のそれぞれの配置位置が互いに異なり、又は複数の音声検出部のそれぞれの向きが互いに異なるように構成してもよい。この構成により、複数チャンネルの音声を同時に取得できると共に、複数の会議出席者がテーブルを囲むように存在する場合でも、それぞれの会議出席者と向き合うように個々の音声検出部が配置される形となるため、音声検出部からそれぞれの会議出席者までの距離を短くでき、S/N比の高い明瞭な音声が入力できる。
【0070】
また本実施の形態に係る音声認識装置は、撮像部を備え、撮像部で撮像されたデータである撮像データを、機械読唇器の機械学習に用いるように構成してもよい。この構成により、音声認識エンジンの機械学習結果に、機械読唇の機械学習結果を利用できるため、会議での音声認識精度をより一層高めることができる。
【0071】
また本実施の形態に係る音声認識装置は、音声認識エンジンの機械学習の結果に応じて、機械読唇の機械学習の結果を採用し又は採用しない統合器を備えるように構成してもよい。この構成により、正しく音声認識できている場合には音声認識エンジンの機械学習の結果を優先させ、正しく音声を認識できていない場合には機械読唇器の出力を採用できるため、より精度の高い音声認識が実現できる。
【0072】
また本実施の形態に係る情報処理方法では、音声認識装置が、音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行い、サーバが、同期された複数の音声データを音声認識エンジンの機械学習に用いる。
【0073】
また本実施の形態に係る情報処理プログラムは、音声認識装置に、音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行わせ、サーバに、同期された複数の音声データを用いて音声認識エンジンの機械学習を行わせる。
【符号の説明】
【0074】
1 :音声取得装置
1a :台座部
1b :延伸部
1c :ユニット設置部
2 :筐体部
10 :終了制御部
11 :同期制御部
12 :記録制御部
13 :記録部
14 :ミュート制御部
15 :通信制御部
20 :ミュートボタン
31,32,33,34,35,36 :会議出席者
50,50-1,50-n :マイク
51,51-1,51-2,50-n :カメラ
100 :会議室
101 :CPU
102 :ROM
103 :RAM
104 :入力装置
105 :通信インタフェース
106 :バス
110 :テーブル
120 :ホワイトボード
200 :クラウドサーバ
201 :音声認識エンジン
201a :音声特徴量抽出部
201b :音声認識器
202 :読唇処理部
202a :画像特徴量抽出部
202b :機械読唇器
203 :統合器
210 :プロセッサ
220 :メモリ
230 :入出力インタフェース
240 :バス
300 :音声認識システム
301 :通信ネットワーク
【先行技術文献】
【特許文献】
【0075】
【非特許文献】
【0076】
【文献】「議事録作成支援システム」[令和1年10月9日検索]インターネット<URL: https://www.advanced-media.co.jp/products/service/private-enterprise-proceedings-preparation-support-system>
【文献】「音声認識の基礎」[令和1年10月9日検索]インターネット<URL: https://www.slideshare.net/akinoriito549/ss-23821600>
【文献】「認識に使用する顔領域の違いによる読唇性能の比較」[令和1年10月9日検索]インターネット<URL: http://www.ii.is.kit.ac.jp/hai2011/proceedings/pdf/II-2B-6.pdf>