IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社プロジェクト・メイの特許一覧

<>
  • 特開-収音システム 図1
  • 特開-収音システム 図2
  • 特開-収音システム 図3
  • 特開-収音システム 図4
  • 特開-収音システム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022042234
(43)【公開日】2022-03-14
(54)【発明の名称】収音システム
(51)【国際特許分類】
   G10L 15/28 20130101AFI20220307BHJP
   G10L 15/00 20130101ALI20220307BHJP
【FI】
G10L15/28 400
G10L15/00 200A
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2020147564
(22)【出願日】2020-09-02
(71)【出願人】
【識別番号】516168436
【氏名又は名称】株式会社プロジェクト・メイ
(74)【代理人】
【識別番号】100103872
【弁理士】
【氏名又は名称】粕川 敏夫
(74)【代理人】
【識別番号】100088856
【弁理士】
【氏名又は名称】石橋 佳之夫
(74)【代理人】
【識別番号】100149456
【弁理士】
【氏名又は名称】清水 喜幹
(74)【代理人】
【識別番号】100194238
【弁理士】
【氏名又は名称】狩生 咲
(72)【発明者】
【氏名】白石 昌二朗
(57)【要約】      (修正有)
【課題】簡素な構成で、多人数の会議の音声を明瞭に収音することができる収音システムを提供する。
【解決手段】収音システム1は、複数のマイクロホン10a乃至10dとそれぞれ接続され、複数のマイクロホンにより収音される音声をそれぞれ送信する複数の送信機22a乃至22dを有する収音装置20a乃至20dと、それぞれの音声を受信する受信機30a乃至30dと、受信機により受信される複数の音声をミキシングし、1個の音声データに統合するミキサー40と、統合された音声データに含まれる会話をテキスト化するテキスト化装置(通信装置50、サーバ100)と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
マイクロホンと接続され、前記マイクロホンにより収音される音声を送信する複数の送信機と、
それぞれの前記音声を受信する受信機と、
前記受信機により受信される複数の前記音声をミキシングし、1個の音声データに統合するミキサーと、
統合された前記音声データに含まれる会話をテキスト化するテキスト化装置と、
を備える、
収音システム。
【請求項2】
前記受信機を複数備え、複数の前記受信機は、それぞれ前記送信機と接続されている、
請求項1記載の収音システム。
【請求項3】
前記送信機は、無線通信により前記音声を前記受信機に送信する、
請求項1又は2記載の収音システム。
【請求項4】
複数の前記マイクロホンは、同じ空間に配置される、
請求項1乃至3のいずれかに記載の収音システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声データをテキスト化する技術に関する。
【背景技術】
【0002】
近年、音声データをテキスト化するサービスの需要が高まっている。議事録の作成などでは音声データが作成されるが、音声データよりもテキストデータのうほうが後々の確認等では便利である。
この点について例えば、特許文献1では、音声通話している複数の通話者に対して、同時的に通話音声を文字化してデータ配信する方法が提案されている。
また、特許文献2、3では、作業者によって音声データをテキストデータに変換させる装置が提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010-41301号公報
【特許文献2】特開2008-9693号公報
【特許文献3】特開2013-182353号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
多人数の会議での会話を収音しようとすると、反射音声および環境音等によるノイズがあり、正確にテキストデータに変換可能な音声データを取得するのは困難であった。例えば、音響設備のない一般の会議室において、単一のマイク又は会議用集音マイクを持ち込んで録音するものとすると、発話者との距離が離れてしまい反射音声および環境音等によるノイズが主となり、音声のテキスト化に利用できる品質の録音を行うことは困難であった。また、個々の会議参加者に対し1個の集音・記録機材、例えばパソコンによる録音をするものとすると、品質のよい音声を録音できる反面、隣席の音声が複数のパソコンに異なる品質で録音されるため、各録音の文字化に際し、隣席の音声を文字化したデータが不規則に重複して含まれてしまう。このような、不規則に重複する複数の録音音源を、1つの時系列の音源に統合することは非常に困難である。
【0005】
そこで、本発明は、可搬性の高い簡素な構成で、多人数の会議の音声を明瞭に収音することを目的とする。特に、本発明は、収音音源を一つの時系列データとして収音し、多人数会議の音声の正確な文字化に供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本発明の一の観点に係る収音システムは、マイクロホンと接続され、前記マイクロホンにより収音される音声を送信する複数の送信機と、それぞれの前記音声を受信する受信機と、前記受信機により受信される複数の前記音声をミキシングし、1個の音声データに統合するミキサーと、統合された前記音声データに含まれる会話をテキスト化するテキスト化装置と、を備える。
【0007】
前記受信機を複数備え、複数の前記受信機は、それぞれ前記送信機と接続されているものとしてもよい。
【0008】
前記送信機は、無線通信により前記音声を前記受信機に送信するものとしてもよい。
【0009】
複数の前記マイクロホンは、同じ空間に配置されるものとしてもよい。
【発明の効果】
【0010】
本発明に係る収音システムによれば、簡素な構成で、多人数の会議の音声を明瞭に収音することができる。
【図面の簡単な説明】
【0011】
図1】本発明の実施形態に係る収音システムの概略構成図である。
図2】上記収音システムにより管理端末に表示される表示画面の一例を示す図である。
図3】上記収音システムによって実行される一連の処理の流れを示すシーケンス図である。
図4】上記収音システムが有するマイクを机上に配置する一例を示す図である。
図5】上記収音システムにおいてサーバで音声データをテキスト化する様子の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態に係る収音システムについて、図を参照して説明する。
【0013】
●収音システムの構成
図1に示すように、収音システム1は、多人数の会議を収音するシステムであって、特に、会議室等の同一空間にいる複数の話者の音声を収音する。図1では、複数の話者W1、W2、W3、W4が同じ会議室で会話している様子を示している。
【0014】
各話者W1乃至W4の近傍には、複数のマイクロホン10a、10b、10c、10dがそれぞれ載置されている。話者の人数とマイクロホンの個数が同数であり、話者とマイクロホンとが近傍に配置されている構成によれば、各マイクロホンにより話者の声を明瞭に収音することができる。また、マイクロホン10a乃至10dは、例えばエレクトレットコンデンサマイクロホン(ECM)であるが、マイクロホンの形態は問わない。また、マイクロホン10a乃至10dの指向性は話者のいる方向の音を収音する狭指向性であることが好ましいが、異なる指向性を有していてもよい。
【0015】
さらに、マイクロホン10aは、収音した音声を記録する記録装置を有していてもよい。具体的には、例えば、マイクロホン10aとしてボイスレコーダーを使用してもよい。この構成によれば、後述するミキサー40でミキシングする前のデータを記憶することができる。
【0016】
なお、図1の例では話者は4人であったが、人数は任意である。また、話者の人数およびマイクロホンの個数は、本例においては同数であったが、これに限られない。
【0017】
マイクロホン10a乃至10dは、それぞれ収音装置20a、20b、20c、20dに接続されている。収音装置20a乃至20dの構造は略同一であるため、ここでは収音装置20aについて説明する。
【0018】
収音装置20aは、マイクロホン10aにより収音される音声を取得し、後述する受信機30aに送信する装置である。収音装置20aは、バッファアンプ21aと送信機22aとを備える。収音装置20aは、バッファアンプ21aおよび送信機22aを1個の筐体に収容していてもよいし、それぞれが異なる筐体に収容され、有線又は無線で接続されている構成であってもよい。
【0019】
バッファアンプ21aは、マイクロホン10aにより収音される音声を増幅するアンプである。
【0020】
送信機22aは、バッファアンプ21aからの出力信号を受信機30aに送信する。送信機22aは、例えばBluetooth(登録商標)による無線通信で信号を受信機30aに送信する。これによれば、収音装置20a乃至20d同士が有線で接続されている構成に比べて、マイクロホン10aを設置する場所、例えば会議室のテーブル上が簡素になる。
【0021】
また、収音装置20aはバッファアンプ21aおよび送信機22aに給電するためのバッテリを備える。バッテリは、接続されるマイクロホン10aがECMである場合には、マイクロホン10aに駆動電圧を印加する。収音装置20aがバッテリを有する構成によれば、外部電源からの電力を受給する配線が不要になり、構成が簡素になる。特に、収音装置20aを会議室のテーブルに置くだけで、配線を検討することなく収音が開始できる。また、電源ケーブルが不要であるので、可搬性がよく、適宜の場所に移動して使用可能である。
【0022】
収音システム1には、複数の受信機30a乃至30dが含まれている。複数の受信機30a乃至30dは、送信機22a乃至22dとそれぞれ接続されている。
【0023】
複数の受信機30a乃至30dは、1個のミキサー40に接続されている。なお、ミキサー40は、所定の個数の接続ポートを有する装置が複数連結されて1個のミキサー40を構成していてもよい。
【0024】
ミキサー40は、受信機30a乃至30dにより受信される複数の音声をミキシングし、1個の音声データに統合する。ミキサー40は、複数の音声をミキシングする際のボリュームを、音声ごとに個別に調整する調整機構を有していてもよい。
【0025】
ミキサー40は、統合した音声データを通信装置50に送信する。ミキサー40と通信装置50との接続は適宜であり、無線であっても有線であってもよい。
【0026】
通信装置50は、ミキサー40から受信した音声データをサーバ100に送信する装置である。通信装置50は、例えばは例えば、所謂スマートホンやタブレット端末、パーソナルコンピュータなどの端末で構成され、インターネット等のネットワークNWを介したデータの送受信を実行したり、各種のデータの入出力を実行したりすることができる。通信装置50としてスマートホンやタブレット端末、パーソナルコンピュータ等の汎用装置を利用する構成によれば、本発明に係る収音システムを導入するにあたり、特別な通信装置の購入が不要であり、収音システムを安価に利用できる。
【0027】
通信装置50は、表示部と、ソフトウェア資源としてのテキスト化部を備えていてもよい。テキスト化部は、ミキサー40からの音声データをテキスト化する。テキスト化部は、インターネット等のネットワークNWを介して音声データを音声テキスト化エンジンに送ることで、データをテキスト化させてもよい。テキスト化部は、所定の第1時間の長さの音声データを受け取るごとに当該受け取った音声データをテキスト化し、表示部に表示させる。通信装置50には、音声データから変換されたテキストが管理端末60よりも素早く表示されるため、ユーザはテキスト化の様子を逐次確認できる。テキスト化部は、テキスト化装置の1例である。
【0028】
1つの会議室において多人数が参加する会議を収音する場合において、マイクロホンが遠い場所にいる話者の声を収音すると、話者の声は話者から離れるに従い減衰し、かつ会議室の壁および設備による反射音声や環境音等のノイズが増える。特に、残響は、歪んだ話声により構成されるため、音声のテキスト化において認識精度を劣化させる主要原因の1つである。複数のマイクロホンを配置する場合、至近にいる話者の声を収音したとしても、室内にいる別の話者が話しているときには、認識精度の低い音が収音されてしまう。超強指向性ガンマイクやマイクアレイシステムを用いたとしても、反射音は全方向から来るため、マイクロホンおよび収音空間を固定し、収音空間ごとに調整が必要である。また、超強指向性ガンマイクやマイクアレイシステムは高額である。
【0029】
図4を用いて、本実施形態における収音システム1のマイクロホンM1乃至M3の配置例について説明する。既知の事実として音声文字化に適合する品質の音声録音は、話者からおよそ80 cm以内である。発話者口腔の直近10 cmの音声音響パワーを0 dBとすれば、80 cm離れた地点での音声の音響パワーは、-18 dBとなる。160 cm離れた地点での音声の音響パワーは-24 dBとなる。音声文字化に適した音響パワーは、およそ-3 dB~20 dBである。したがって、隣席間隔D1が120 cm程度の一般的な会議室では、2席の中間に1台のマイク設置でよい。同図においては、話者W11およびW12の中間にマイクM1、話者W13およびW14の中間にマイクM2、話者W15およびW16の中間にマイクM3が配置されている。
【0030】
マイクM2が収音対象とする話者W13、W14の両隣に位置する話者W12、W15の音声は、マイクM2から160cm以上(同図の例においては約190cm)離れるため、有効な音声として認識されない。実際にはミキサー40により、電気信号は増幅可能であるため、変換対象の話者音声の増幅率を-3dB~-20dBに設定することで、周辺の音声は棄却される。
【0031】
互いに隣接する音声取得対象席、すなわち互いに120cm離れた2席(話者W13、W14)を結ぶ直線よりそれぞれおよそ42°(直交距離d2は約50cmとなる。)の位置にマイクM2を設置した場合、マイクM2から見て、音声取得対象席の隣席の話者W12またはW15までの距離D2は186cmとなり、空間伝搬速度によりおよそ5msec程度の遅延信号となって記録されるが、この遅延は一般的な会議室の残響卓越成分である2~25 msec程度と同等で、前述の音響パワーの減衰と併せて、音声文字化への影響は無視できる。
話者W11およびW12を音声取得対象とする直交距離d3が80cm離れた位置にあるマイクM1は、話者W13から約245cm離れている。話者W13からの音声は、マイクM1において空間伝搬速度によりおよそ7msec程度の遅延信号となって記録されるが、この遅延は一般的な会議室の残響卓越成分である2~25 msec程度と同等で、前述の音響パワーの減衰と併せて、音声文字化への影響は無視できる。
【0032】
本発明にかかる収音システム1によれば、複数のマイクロホン10a乃至10dで収音される音声をミキサー40で統合される。したがって、あるマイクロホン10aで収音される反射音声および残響の元となる主音声が、会議室等の同一空間に配置される別のマイクロホン10bによる収音音声で補完される。したがって、残響のみに基づいてテキスト化処理が行われることがなく、主音声に基づいてテキスト化されるため、テキスト化処理を正確に行うことができる。複数のマイクロホン10a乃至10dの収音音声は同時に行われることから、各収音音声の時間ずれは生じず、そのままミキシングすることで、明瞭な音声データを生成することができる。
【0033】
また、ミキサー40で統合された音声データは、サーバ100に保存される。すなわち、サーバ100は、結果を蓄積するアプリケーション・サーバとして機能する。この構成によれば、各マイクロホン10a乃至10dの音源を別々に保存する構成に比べて、処理を行う音声データの容量が小さくなり、処理時間を短くすることができる。
【0034】
また、通信装置50でテキスト化を行う構成に加えて、又は代えて、サーバ100は、ミキサー40および通信装置50を介して音声データを受け取ると、音声データに適宜の処理を実行し、処理済みの音声データを音声テキスト化エンジンに送ってテキスト化させてもよい。サーバ100はテキスト化装置の別の例である。音声テキスト化エンジンは、音声データをテキスト化するデータ処理エンジンである。音声テキスト化エンジンは、音声データ中の単語を識別する識別手段、識別される単語の音声データとテキストデータが関連付けられ、変換処理の参照先となる辞書手段などの機能部を有している。サーバ100は、遠隔に設置されたハードウェアの他、クラウドコンピュータにより構成されていてもよい。すなわち、この場合には、サーバ100は、音声テキスト化エンジンに渡す音声データを最適化する処理および結果の蓄積を行うアプリケーション・サーバとして機能する。
【0035】
サーバ100で音声テキスト化する場合では、音声データにおいて音量が所定値以下の区間、所謂無音部を抽出し、当該無音部で音声データを分割してもよい。サーバ100は、無音部で分割された音声データごとにデータをテキスト化する。この構成によれば、単語が途中で分割されることがなく、誤った変換が行われるのを防ぐことができる。
サーバ100は、通信装置50におけるテキスト化処理の時間単位、すなわち第1時間よりも長い、第2時間分のデータを用いて、音声データをテキスト化する。このとき、サーバ100は、音声データの音量を適宜調整してもよい。また、サーバ100は、音声データにおいて音量が所定値以下の区間、所謂無音部を抽出し、当該無音部で音声データを分割してもよい。サーバ100は、無音部で分割された音声データごとにデータをテキスト化する。この構成によれば、単語が途中で分割されることがなく、誤った変換が行われるのを防ぐことができる。
【0036】
図5に示すように、サーバ100は、例えば第2時間より短い第3時間分のデータを受信すると、当該第3時間分のデータとサーバ100に蓄積されている該第3時間分のデータより前の音声データとを結合し、該第3時間分のデータを含む第2時間の長さのデータを用いて音声データをテキスト化してもよい。すなわち、テキスト化処理で用いられるデータは前回のテキスト化処理で用いられるデータと一部重なっている。このように、過去のデータを参照してテキスト化する構成によれば、単語が途中で分割されることがなく、短時間分のデータのみをテキスト化する構成に比べて、テキスト化をより高精度に行うことができる。
【0037】
管理端末60は、収音システム1のユーザが利用する端末であり、ユーザは当該管理端末60により、所定の音声データをテキスト化したテキストデータを得る。
【0038】
図2に示すように、管理端末60に表示される表示画面G1において、テキストデータは、テキスト化処理で生成されたテキストごとにテキストウィンドウG13に表示される。表示画面G1は、特定の話者の発言のみを表示するメンバ絞込ウィンドウG11、特定の内容種別のタグが付けられている発言のみを表示する種別絞込ウィンドウG12が表示されている。
【0039】
テキストウィンドウG13上には、当該テキストごとに、音声を再生する入力を受け付けるボタンG14が表示され、ユーザがボタンをタップ又はクリック等により選択すると、テキスト化処理の元になった音声データをテキストごとに再生することができる。
【0040】
また、テキストウィンドウG13上において、当該テキストごとに、ユーザにより話者(表示画面G1上には「メンバ」と表示されている)を選択してタグ付けできる。さらに、テキストウィンドウG13上において、当該テキストごとに、当該テキストの内容種別をタグ付けする機能を有していてもよい。テキストの内容種別を示すタグとは、例えば、重要度の段階を示すタグであり、「最重要」「重要」「やや重要」「留意」「参考」「無視」といったタグであってよい。このような構成によれば、ユーザが会議中にほぼリアルタイムにテキストデータをタグ付けすることができ、会議終了後にすべての音源を聞き直さなくても、必要なタグ付けを行うことができる。内容種別を示すタグを付けられたテキストは、種別ごとに異なる色の文字で表示されている。メンバ絞込ウィンドウG11および種別絞込ウィンドウG12上での操作により、特定のタグがタグ付けされたテキストだけを抽出するだけで、容易に議事録を作成することができる。話者のタグ付け命令と、テキストの内容種別のタグ付け命令と、を、管理端末60に接続されるマウスの互いに異なるボタンに関連付けることで、タグ付け操作が一層容易になる。
【0041】
●収音システムの処理フロー
続いて、本実施形態に係る収音システム1によって実行される一連の処理の流れについて、図2を参照して説明する。なお、同図においては収音装置20aおよび20bの処理について説明するが、収音装置20c、20dについても同様である。
【0042】
まず、収音装置20a、20bは、それぞれ接続されているマイクロホン10a、10bにより収音される音声を取得し(S1a、S1b)、音声は、それぞれ送信され(S2、S3)、受信機30a、30bを介してそれぞれミキサー40に入力される。なお、同図中ではステップS2およびS3は便宜上ずらして記載されているが、同時であってよい。ミキサー40は、収音装置20a、20bからの音声をミキシングする(S4)。ミキシングされた音声データは、通信装置50へ送信される(S5)。通信装置50は、受信した音声データをテキスト化し(S6)、表示する(S7)と共に、音声データをサーバ100に送信する(S8)。サーバ100は、音声データをテキスト化し(S9)、当該テキストデータに対応する音声データとともに管理端末60に送信する(S10)。管理端末60は、サーバ100によりテキスト化されたテキストデータを表示する。
【0043】
このように、本実施形態に係る収音システムによれば、簡素な構成で、多人数の会議の音声を明瞭に収音することができる。
【符号の説明】
【0044】
1 収音システム
10 マイクロホン
22 送信機
30 受信機
40 ミキサー
50 通信装置(テキスト化装置)
100 サーバ(テキスト化装置)
図1
図2
図3
図4
図5